Sie sind auf Seite 1von 258

COURS DCONOMTRIE

Professeur Philippe Deschamps


Edition 2006-2007

Universit de Fribourg
Sminaire d'Economtrie
Boulevard de Prolles 90
CH-1700 Fribourg, Suisse
Philippe Deschamps, 2006

TABLE DES MATIERES


Premire partie: Quelques notions de base du calcul des probabilits et de lanalyse statistique.
I.

Vecteurs alatoires
1.1. Distribution jointe.
1.2. Densit jointe
1.3. Densit marginale
1.4. Densit conditionnelle
1.5. Indpendance
1.6. Covariance
1.7. Esprances conditionnelles et partielles
1.8. Application conomique des esprances partielles (gestion de stock).

II.

Fonctions de variables alatoires.


2.1. Changement de variables (cas univari).
2.2. Changement de variables (cas multivari).
2.3. Fonction gnratrice des moments.
2.4. Fonctions de variables normales (Chi-carr, Student, Fisher).

III.

Estimation ponctuelle
3.1. Echantillon alatoire, estimateur, estimation.
3.2. Fonction de vraisemblance.
3.3. Maximum de vraisemblance.

IV.

Proprits des estimateurs


4.1. Estimateur sans biais
4.2. Estimateur convergent.
4.3. Estimateur efficace.
4.4. Minimisation de lerreur quadratique moyenne.
4.5. Interprtation des proprits.

V.

Tests dhypothses
5.1. Mthode des intervalles de confiance.
5.2. Mthode gnrale de construction des tests.
5.3. Le critre du rapport des vraisemblances (LR).
5.4. Le critre de Wald (W).
5.5. Le critre des multiplicateurs de Lagrange (LM).
5.6. Comparaison des trois critres LR, W, et LM.

ii
Seconde partie: Modles conomtriques une quation
I.

La rgression simple: estimation ponctuelle


1.1.

Description du problme et exemples conomiques

1.2.

Le modle et ses hypothses

1.3.

Les estimateurs de moindres carrs

1.4.

Moments des estimateurs de moindres carrs

1.5. Convergence en probabilit


1.6. Interprtation matricielle
1.7. Thorme de Gauss-Markov
1.8.

Estimation de la variance des erreurs

1.9.

Dcomposition de la variance: le coefficient de dtermination

1.10. Exemple numrique


II.

III:

IV.

La rgression simple: intervalles de confiance et tests dhypothses


2.1.

Tests sur les coefficients individuels

2.2.

Test sur les deux paramtres a et b

2.3.

Test sur une combinaison linaire des coefficients

2.4.

Prvision

2.5.

Exemple numrique

Complments dalgbre matricielle


3.1.

Formes quadratiques

3.2.

Matrice symtriques et idempotentes

3.3.

Linversion en forme partage

3.4.

Notions de drivation matricielle

Complments danalyse statistique multivarie


4.1.

La loi normale multivarie

4.2.

Fonctions linaires et quadratiques de variables normales

4.3. Application: calcul de la distribution sous H0 de la statistique t


V.

Le modle de rgression multiple


5.1.

Le modle et ses hypothses

5.2.

Les estimateurs de moindres carrs

5.3.

Moments des estimateurs de moindres carrs

5.4.

Le thorme de Gauss-Markov

5.5.

Lestimation de la variance des erreurs

5.6.

Dcomposition de la variance: les coefficients de dtermination R2 et R2*

5.7.

Problmes particuliers: multicolinarit, biais de spcification, variables muettes

iii

VI.

5.8.

Estimateurs par maximum de vraisemblance

5.9.

Exemple numrique

Moindres carrs sous contraintes linaires


6.1. Lestimateur de sous contraintes
6.2. Efficacit de lestimateur de sous contraintes
6.3. Dcomposition de la somme des carrs des rsidus contraints

VII.

Infrence statistique en rgression classique


7.1.

Le test de lhypothse linaire gnrale

7.2. Drivation de la statistique F laide du critre du rapport des vraisemblances


7.3. Calcul de la distribution sous H0 de la statistique F
7.4. Drivation de la statistique F laide du critre de Wald
7.5. Drivation de la statistique F laide du critre des multiplicateurs de Lagrange
7.6.

Cas particulier du test de lhypothse linaire gnrale


7.6.1. Test sur un coefficient individuel
7.6.2. Test de nullit de tous les coefficients; lien avec R2*
7.6.3. Test de nullit de tous les coefficients sauf la constante; lien avec
7.6.4. Test sur une combinaison linaire des coefficients
7.6.5. Tests de stabilit structurelle (Chow)

7.7.

Intervalles de prvision

7.8. Exemple numrique


VIII.

IX.

Moindres carrs gnraliss: la mthode de Aitken


8.1.

Introduction

8.2.

Exemples

8.3.

Lestimateur de Aitken et ses proprits

8.4.

La prvision dans le modle de Aitken

Lautocorrlation et lhtroscdasticit
9.1.

Erreurs autorgressives dordre un

9.2.

La matrice de covariance des erreurs

9.3.

Transformation des donnes ( connu)

9.4.

Estimation du coefficient dautorgression

9.5.

La statistique de Durbin-Watson

9.6.

La prvision dans le modle erreurs autorgressives

9.7.

Le problme de lhtroscdasticit

9.8. Les tests de diagnostic


9.8.1. Analyse des autocorrlations

R2

iv
9.8.2. Le test de Breusch-Godfrey (autocorrlation)
9.8.3. Le test de Koenker (htroscdasticit)
9.8.4. Le test de Bera-Jarque (normalit)
9.9.

Exemple numrique

9.10. Introduction aux mthodes semi-paramtriques


X.

Elments de thorie statistique asymptotique


10.1.

Introduction

10.2.

Convergence en probabilit

10.3. Ingalit de Chebychev


10.4. Loi faible des grands nombres
10.5.

Convergence en distribution

10.6.

Proprits des modes de convergence

10.7.

Fonction caractristique et convergence en distribution

10.8.

Versions du thorme central limite

10.9.

Lingalit de Rao-Cramer

10.10.

La matrice dinformation

10.11.

Proprits asymptotiques des estimateurs par maximum de la vraisemblance

10.12. Distribution asymptotique du rapport des vraisemblances


10.13. Exemple dapplication dans un modle erreurs autorgressives: distributions limites
des estimateurs par maximum de la vraisemblance et de la statistique
dautocorrlation par le rapport des vraisemblances
XI.

Proprits asymptotiques des estimateurs par moindres carrs ordinaires


11.1.

Convergence en probabilit

11.2.

Normalit asymptotique

XII.

Proprits asymptotiques des estimateurs dAitken

XIII.

Rgresseurs stochastiques
13.1. Introduction: types de rgresseurs stochastiques
13.2.

Rgresseurs stochastiques indpendants du vecteur des erreurs

13.3.

Rgresseurs stochastiques dpendants des erreurs contemporaines


13.3.1. La mthode des variables instrumentales (VI)
13.3.2. Convergence en probabilit des estimateurs VI
13.3.3. Convergence en distribution des estimateurs VI
13.3.4. Choix des variables instrumentales.

XIV.

Introduction aux modles dynamiques


14.1.

Retards chelonns

14.2. Mthode de Koyck

v
14.3. Mthode dAlmon
14.4.

Loprateur de retard

14.5.

Rsolution dquations linaires de rcurrence stochastiques

14.6. La distribution rationnelle des retards


14.7. Variables endognes retardes

XV.

Le modle autorgressif retards chelonns (AD)


15.1. Prsentation du modle
15.2. Restrictions de facteurs communs
15.3. Le modle AD et la relation dquilibre stationnaire
15.4. Le modle AD et le modle de correction derreur (ECM)
15.5. Exemple conomique

XVI. Racines unitaires et cointgration


16.1. Processus stochastiques
16.2. Stationnarit faible
16.3. Processus stochastiques intgrs
16.4. Le test de Dickey-Fuller augment
16.5. Variables cointgres
16.6. Rgressions de cointgration
16.7. Rgressions factices
16.8. Conclusions
Troisime partie: systmes dquations simultanes

I.

Introduction
1.1.

Explication intuitive du biais d la simultanit

1.2.

Variables endognes et prdtermines

1.3.

Prsentation matricielle et hypothses

1.4.

Forme structurelle et forme rduite

1.5.
1.6.

II.

Proprits statistiques de la forme rduite


Interprtation conomique de la forme rduite

1.7.

Forme rduite dynamique, forme finale, multiplicateurs

1.8.

Relation entre la forme rduite dynamique et le modle AD de la deuxime partie


(chap. XV)

Le problme de lidentification
2.1.

Structures observationnellement quivalentes

2.2.

Systmes rcursifs

2.3.

La condition de rang

vi

III.

2.4.

La condition dordre

2.5.

Exemple

Mthodes destimation information limite de la forme structurelle


3.1.
3.2.

Introduction
Moindres carrs indirects
3.2.1. Prsentation de la mthode
3.2.2. Limitations

3.3.

Moindres carrs doubles


3.3.1. Notation
3.3.2. Premier exemple dapplication
3.3.3. Prsentation heuristique gnrale
3.3.4. Justification par les variables instrumentales
3.3.5. Distribution asymptotique
3.3.6. Exemple numrique

3.4.
IV.

Lestimateur de classe k

Mthodes destimation information complte de la forme structurelle


4.1.

Le produit de Kronecker et certaines de ses proprits

4.2.

Loprateur de vectorisation et certaines de ses proprits

4.3.

Premier exemple dapplication de loprateur de vectorisation: moindres carrs


gnraliss et forme rduite

4.4.

Moindres carrs triples


4.4.1. Prsentation heuristique
4.4.2. Justification par les variables instrumentales
4.4.3. Comparaison avec les moindres carrs doubles
4.4.4. Distribution asymptotique
4.4.5. Exemple numrique

4.5.

Maximum de vraisemblance information complte


4.5.1. La vraisemblance logarithmique
4.5.2. Les conditions de premier ordre du maximum de vraisemblance.

V. Analyse statistique de la forme rduite (rgression multivarie)


5.1.

Estimation par maximum de vraisemblance des paramtres de la forme rduite

5.2.

Tests dhypothses jointes sur les coefficients par le rapport des vraisemblances

5.3 .

Forme rduite drive

VI. Comparaison des moindres carrs triples et du maximum de vraisemblance


complte
6.1.

Reformulation des quations normales des moindres carrs triples

information

vii
6.2.

Reformulation des conditions de premier ordre du maximum de vraisemblance


information complte

6.3.

Comparaison des deux nouvelles formulations.

6.4.

Consquences

VII. Mthodes numriques de maximisation dune fonction de vraisemblance


7.1. Mthode de Newton-Raphson
7.2. Mthodes quasi-Newton
7.3. Mthode du score
7.4. Mthode de Davidon-Fletcher-Powell
7.5. Choix de lamplitude du dplacement

AVANT-PROPOS

Ce cours deconometrie de second cycle est enseigne depuis 1981 aux etudiants de troisi`eme et de quatri`eme annee de licence en Sciences Economiques `a lUniversite de Fribourg
(Suisse), et, depuis 1996, aux etudiants du dipl
ome de Mathematiques appliquees `a la
Finance de lUniversite de Neuchatel (dans le cadre des accords BENEFRI).
Les notes de ce cours peuvent etre imprimees et peuvent etre utilisees, en tout ou en
partie, comme support dun cours de niveau equivalent, a` condition:
(1) den avertir lauteur a` ladresse suivante:
philippe.deschamps@unifr.ch;
(2) den mentionner clairement lorigine.
Elles ne peuvent pas etre publiees sur un site dierent de leur site dorigine:
http://mypage.bluewin.ch/Philippe Deschamps.

Ces notes ont ete composees `a laide des logiciels AMS TEX, PICTEX, et TABLE. Lauteur remercie Madame Edith Beck-Walser, qui a mene `a bien, avec beaucoup de devouement, la saisie informatique dune version preliminaire du texte. Il remercie egalement
Monsieur Roberto Cerratti pour ses commentaires constructifs, Mademoiselle
Reanne Meyer pour la composition des formules des chapitres XV et XVI de la seconde
partie, et Mademoiselle Brigitte Sermier pour son assistance ecace lors de la correction
des epreuves.

Fribourg, ete 2002.

Typeset by AMS-TEX
1

P. DESCHAMPS, COURS DECONOM


ETRIE

CONNAISSANCES PREREQUISES

Cours de mathematiques de premi`ere annee (lequivalent de louvrage de


P. Deschamps, Cours de Mathematiques pour Economistes, Paris, Dunod 1988).
Probabilite, probabilite jointe, probabilite conditionnelle
Independance de deux evenements
Theor`eme de la probabilite totale
Variables aleatoires discr`etes et continues
Distribution et densite (cas univarie)
Esperance mathematique et proprietes
Variance et proprietes
Variable aleatoire binomiale
Variable aleatoire uniforme
Variable aleatoire normale: proprietes et emploi des tables

`
PREMIERE
PARTIE, CHAPITRE I

`
PREMIERE
PARTIE

QUELQUES NOTIONS DE BASE DU CALCUL DES


ET DE LANALYSE STATISTIQUE
PROBABILITES
CHAPITRE I

VECTEURS ALEATOIRES

D
enition
On peut associer `a tout resultat possible dune experience aleatoire un vecteur X ()
Rk . Si pour tout x = (x1 , . . . , xk ) Rk , lensemble:
{ | Xi () xi ,

i = 1, . . . , k}

est un evenement dont on peut calculer la probabilite, la fonction X () est dite mesurable
et X porte le nom de vecteur aleatoire. Il est discret si X () prend ses valeurs dans un
ensemble denombrable, continu sinon.
1.1 Distribution jointe
Dans le cas discret et continu, elle peut senoncer comme:
FX1 ,...,Xk (x1 , . . . , xk ) = P [(X1 x1 ) (X2 x2 ) . . . (Xk xk )]

P. DESCHAMPS, COURS DECONOM


ETRIE

1.2 Densit
e jointe
Cas discret:
fX1 ,...,Xk (x1 , . . . , xk ) = P [(X1 = x1 ) (X2 = x2 ) . . . (Xk = xk )]

Cas continu: la fonction de densite est la fonction dont lintegrale donne la fonction
de distribution. Formellement, fX = fX1 ,...,Xk est la densite jointe du vecteur X =
(X1 , . . . , Xk ) si:

FX (x1 , . . . , xk ) =

xk


...

x1

fX (u1 , . . . , uk ) du1 . . . duk

Note
Dans tout ce qui suit, nous supposerons pour alleger la notation que k = 2. La generalisation `a k > 2 est facile et les denitions pertinentes se trouvent dans la litterature. On
etudiera donc un vecteur (X, Y ).
Exemples
Cas discret: Le tableau suivant donne les valeurs de deux variables X et Y et les
probabilites que le couple (X, Y ) prenne la valeur (x, y):
X

On obtient:
fX,Y (0, 0) = 0, 2
FX,Y (1, 0) = 0, 4

;
;

0,20

0,20

0,10

0,5

0,40

0,05

0,05

0,5

0,60

0,25

0,15

fX,Y (0, 1) = 0, 4 ;
FX,Y (1, 1) = 0, 85 ;

etc.
etc.

Cas continu:

fX,Y



1
x2
y2
(x, y) =
exp 2 2
21 2
21
22

(densite jointe de deux variables normales centrees independantes) .


En integrant cette densite sur [a, b] [c, d], on obtient P [(a X b) (c Y d)] .

`
PREMIERE
PARTIE, CHAPITRE I

1.3 Densit
e marginale
Cas discret:

fX (xi )

fX,Y (xi , yj )

fY (yj )

fX,Y (xi , yj )

Cas continu:

fX (x)


fY (y)

fX,Y (x, y) dy

fX,Y (x, y) dx

Exemple
Pour les densites jointes donnees precedemment `a la section 1.2:
(a) fX (0) = 0, 6 ;
fY (0) = 0, 5 ;

fX (1) = 0, 25
fY (1) = 0, 5

fX (2) = 0, 15

(b)

fX (x)

fY (y)



x2
y2
1
exp 2 2 dy
21 2
21
22

  +

 2
1
x2
y
exp
dy
exp 2
21
222
2
2 2



=1



x2
1
exp 2
21
1 2



y2
exp 2
22
2

P. DESCHAMPS, COURS DECONOM


ETRIE

1.4 Densit
e conditionnelle
Cas discret: les densites conditionnelles sobtiennent a` partir de la denition dune
P (AB)
probabilite conditionnelle P (A|B) = P (B)
Donc:
fX|Y (xi | yj ) =

fX,Y (xi , yj )
fY (yj )

(denie si fY (yj ) = 0).


Cas continu:
fX|Y (x | y) =

fX,Y (x, y)
fY (y)

si fY (y) = 0

Note: cette fonction depend dune realisation particuli`ere de Y . Cette fonction est donc
aleatoire car Y est aleatoire (on peut dire aussi quelle depend dun param`etre aleatoire).
Exemple pour les densites jointes donnees precedemment (section 1.2):
(a) Cas discret:
fX|Y (0 | 0) = 0, 4
fX|Y (1 | 0) = 0, 4
fX|Y (2 | 0) = 0, 2
Les valeurs de fX|Y (x | 1) sont celles dune autre densite.
(b) Dans le cas continu, on avait fX,Y (x, y) = fX (x)fY (y). Donc fX|Y (x | y) =
fX (x)
1.5 Ind
ependance
Cas discret: X et Y sont independantes si pour tout i et pour tout j, on a:
fX,Y (xi , yj ) = fX (xi )fY (yj )

Dans lexemple precedent (section 1.2, cas discret), X et Y ne sont pas independantes,
car:
fX,Y (0, 0) = 0, 2 = fX (0)fY (0) = 0, 6 0, 5

Cas continu: X et Y sont independantes si pour tout x et pour tout y, on a:


fX,Y (x, y) = fX (x)fY (y)

`
PREMIERE
PARTIE, CHAPITRE I

Dans lexemple precedent (section 1.2, cas continu), on a lindependance.

Propri
et
e tr`
es importante
Si X et Y sont independantes, alors: E(XY ) = E(X)E(Y ). La reciproque nest pas
vraie en general!
Exercice. Demontrez la propriete precedente dans le cas continu.
1.6 Covariance
D
enition
Cov(X, Y ) = E [{X E(X)} {Y E(Y )}]

Exercice
Montrez que Cov(X, Y ) = E(XY ) E(X)E(Y ) .
Propri
et
e importante (consequence de lexercice)
Si X et Y sont independantes, alors Cov(X, Y ) = 0. La reciproque nest pas vraie en
general!
Contre exemple montrant que la reciproque nest pas vraie.

X
1
Y

0
+1

+1

1
16
3
16
1
16

3
16

3
16

1
16
3
16
1
16

5
16

6
16

5
16

5
16
6
16
5
16

On na pas lindependance, car


fX,Y (0, 0) = 0 = fX (0)fY (0) =

6 6

16 16

P. DESCHAMPS, COURS DECONOM


ETRIE

Mais la covariance est nulle:

E(XY )

E(X)

E(Y )

Cov(X, Y )

1
3
1
3
+0
1
+0
+00
16
16
16
16
1
3
1
3
1
+0
+1
=0
+0
16
16
16
16
5
5
=0
+0+
16
16
5
5
+0+
=0
16
16
E(XY ) E(X)E(Y ) = 0 .
1

1.7 Esp
erances conditionnelles et partielles
Lesperance conditionnelle sevalue `a partir de la densite conditionnelle.

i xi fX|Y (xi | yj )

+
Cas continu: E (X | Y = y) = xfX|Y (x | y) dx

Cas discret: E (X | Y = yj ) =

Dans lexemple de la section 1.2 (cas discret):

E (X | Y = 0)

0, 4 0 + 0, 4 1 + 0, 2 2 = 0, 8

E (X | Y = 1)

0, 8 0 + 0, 1 1 + 0, 1 2 = 0, 3

Propri
et
e tr`
es importante
E(X) = EY [E (X | Y )]

Cette propriete porte le nom de loi des esperances iterees (Law of Iterated Expectations). Elle est analogue au theor`eme de la probabilite totale: une esperance inconditionnelle, tout comme une probabilite inconditionnelle, peut etre evaluee `a laide dun arbre.

`
PREMIERE
PARTIE, CHAPITRE I

Loi des esperances iterees dans le cas discret:


E (X) =

E (X | Y = yj ) P (Y = yj )

Loi des esperances iterees dans le cas continu:



E (X) =

fY (y)


xfX|Y (x | y) dx



dy

E(X|Y )

Exemple pour le cas discret (donn


ees de la section 1.2):
On a vu que E (X | Y = 0) = 0, 8 et E (X | Y = 1) = 0, 3.
Par ailleurs P (Y = 0) = 0, 5 et P (Y = 1) = 0, 5. EY [E (X | Y )] est la moyenne des
esperances conditionnelles:
EY [E (X | Y )]

E (X | Y = 0) P (Y = 0) + E (X | Y = 1) P (Y = 1)

0, 8 0, 5 + 0, 3 0, 5 = 0, 55

Il est facile de verier a` laide de la densite marginale que 0, 55 est bien egale `a E(X):
E(X)

xi P [X = xi ]

0 0, 6 + 1 0, 25 + 2 0, 15 = 0, 55 .

Cas particulier de lesp


erance conditionnelle: lesp
erance partielle
D
enition

E (Y | Y a)

yj P (Y = yj | Y a)

(cas discret)

o`
u f (y | Y a)

yf (y | Y a) dy

d
P (Y y | Y a)
dy

(cas continu)
.

P. DESCHAMPS, COURS DECONOM


ETRIE

10

Propri
et
e
Dans le cas discret:


E (Y | Y a) =

yj

{j:yj a}

P (Y = yj )
P (Y a)

Dans le cas continu:



E (Y | Y a) =

fY (y)
dy
FY (a)

Demonstration pour le cas continu:

P (Y y | Y a)

P (Y y Y a)
P (Y a)

FY (y) si y a
FY (a)

1
si y > a

Donc:
f (y | Y a)

et

yf (y | Y a) dy =

d
P (Y y | Y a)
dy

fY (y) si y a
FY (a)

0
si y > a

fY (y)
dy.
FY (a)

Exercice. Demontrez la propriete precedente dans le cas discret.

`
PREMIERE
PARTIE, CHAPITRE I

11

1.8 Application
economique des esp
erances partielles (gestion de stock)
Cet exercice a pour but dillustrer linteret de la loi des esperances iterees, appliquee
aux esperances partielles.

Enonc
e
Un commercant a une demande journali`ere aleatoire Y pour une denree vendue par
kilos. Y , mesuree en centaines de kilos, a la densite suivante:

fY (y)

=
=

3y 2 si 0 y 1
0 sinon .

(Le commercant ne peut stocker plus de 100 kilos).


Il veut commander k 100 kilos de cette denree. Il lach`ete 6 francs par kilo et la vend
10 francs par kilo. Quelle est la valeur de k qui maximisera lesperance mathematique de
son prot journalier?
Solution
Le prot peut secrire comme:

(k, Y )

1000Y 600k

400k

si Y k

si Y > k

Le prot est aleatoire. Mais son esperance ne depend que de la variable de decision k.
Il sagit donc de calculer cette esperance et de la maximiser par rapport a` k.
La loi des esperances iterees donne:
E ()

E ( | Y k) P (Y k) + E ( | Y > k) P (Y > k)

On va evaluer tour `a tour chacun de ces termes. E ( | Y k) depend de:



E (Y | Y k)

=
0


=

fY (y)
dy
FY (k)

 
y 3y 2
dy
k3

3 y4
4 k3

k
=
0

3
k
4

12

P. DESCHAMPS, COURS DECONOM


ETRIE

Alors:
E ( | Y k)

=
=

1000E (Y | Y k) 600k
 
3
k 600k = 150k
1000
4
 3 k
 k
3y
2
3y dy =
= k3
3
0
0

P (Y k)

P (Y > k)

1 k3

E ( | Y > k)

1000k 600k = 400k

En combinant:
E ()



(150k) k 3 + (400k) 1 k 3

250k 4 + 400k

En maximisant:
dE ()
dk

=
=

d2 E ()
dk 2

1000k 3 + 400 = 0
k 3 = 0, 4 = k = (0, 4)1/3 0, 7368 .
3000k 2 < 0

`
PREMIERE
PARTIE, CHAPITRE II

13

CHAPITRE II

FONCTIONS DE VARIABLES ALEATOIRES

2.1 Changement de variables (cas univari


e)

Enonc
e du probl`
eme
On connat une densite fY (y). Quelle est la densite dune fonction strictement monotone
(i.e. strictement croissante ou strictement decroissante) de Y ? Si U = h(Y ), alors, si h est
croissante:

P [U u]

P [h(Y ) u]

P [Y h1 (u)]

P [Y h1 (u)].

et, si h est decroissante:


P [U u]

Mais quelle est la densite qui donne bien cette probabilite lorsquon lint`egre? La reponse
est donnee par le theor`eme du changement de variables, dont on va voir la version univariee
et multivariee.
Th
eor`
eme.
Supposons que la variable aleatoire continue Y ait pour densite fY (y) et soit:
Y = {y | fY (y) > 0}

(Y sappelle le support de fY )

Si h() est une fonction derivable et strictement monotone de domaine Y et dimage U,


alors U = h(Y ) a pour densite:
fU (u)

fY

  dy 
h (u) 

du
sinon .

pour u U

P. DESCHAMPS, COURS DECONOM


ETRIE

14

Exemple
Soit
fY (y)

2y si 0 y 1
0 sinon .

=
=

On cherche la densite de U = h(Y ) = 4Y + 3. Cette fonction est derivable et


bijective.
En resolvant u = 4y + 3, on obtient:


3u
3u
1
 dy 
, donc 
et h1 (u) =
.
y=
 =
4
4
4
du
Le theor`eme donne:


3u 1
fY
4
4


3u 1
si
2
4
4
0 sinon .


fU (u)

=
=

fU (u)

1u3

Exercice: Soit Y la valeur dun portefeuille en euros et U = 1.5Y la valeur du meme


portefeuille en francs suisses. On suppose que la densite de Y est exponentielle:
fY (y) = ey
=0

pour y > 0

sinon.

On demande de trouver la densite de la variable U.


2.2 Changement de variables (cas multivari
e)
Th
eor`
eme.
Soit Y1 et Y2 deux variables aleatoires de densite jointe fY1 ,Y2 (y1 , y2 ). Soit:

Soit

u1
u2


=h

y1
y2

Y = {(y1 , y2 ) | fY1 ,Y2 (y1 , y2 ) > 0}

une fonction bijective de domaine Y et dimage U.

Si:
(1) les derivees partielles de h sont continues sur Y,
(2) le jacobien:

J = det
est non nul pour (u1, u2 ) U,

y1 /u1

y1 /u2

y2 /u1

y2 /u2

`
PREMIERE
PARTIE, CHAPITRE II

15

alors:
fU1 ,U2 (u1, u2 )

| J | fY1 ,Y2 [h1 (u1 , u2 )]

pour u U

sinon .

Exemple
Densite de la somme et de la dierence de variables uniformes.
Soit fY1 ,Y2 (y1 , y2 )

=
=

si 0 y1 1
sinon .

1
0

et 0 y2 1

On demande la densite jointe de:

U1

Y1 + Y2

Y2 Y1

U2
On peut ecrire:

u1

u2

y1
y2

J=

= 1
2

=
=

y2

1
1 1
+ = =| J |
4 4
2

Donc fU1 ,U2 (u1 , u2 )

y1

u1

u2
.

1
pour u U
2
0 sinon .

Mais quelle est la forme de U? Pour determiner la forme de U, il faut traduire les
conditions sur y1 , y2 en un syst`eme de conditions sur u1 , u2 .

P. DESCHAMPS, COURS DECONOM


ETRIE

16

On a y1 =

1
2

(u1 u2 ) et y2 =

1
2

(u1 + u2 ). Donc:

y1 0

u2 u1

y1 1

u2 2 + u1

y2 0
y2 1

=
=

u2 u1
u2 2 u1

et lensemble U prend la forme indiquee sur la gure suivante:


u2
2

...
....
....
....
....
....
.
....
.
.
..
....
....
....
....
.....
2
1
....
.....
.
.
....
.
...
....
....
....
.
.
.
....
...
....
....
....
.....
....
....
.
....
.
.
..
....
....
....
....
....
.....
....
..
.... .......
......
.....
...
....
....
...........................
.
.
.
.
.
.
..
..............................
.....
......................................
.....
...............................................
....
................................................................................................
.
.
.
.
.
.
....
................................................
.....
..............................................................................
....
......................................................................................
....
..................................................................................................................................................................
.
.
.
.
.
.
..........................................................................
....
....................................................................................................................
....
.............................................................................................................................
....
..................................................................................................................................................................................................................................
....
.
.
.
.
.
.
.....................................................................................................................................................
....
....
...............................................................................................................................................................
................................................................................................................ ....
.........................................................................................................................................................................................................................................................................................................
.................................................................................................................................................................... ....
..........................................................................................................................................................
....
...................................................................................................................................................
....
.........................................................................................................................................
....
.........................................................................................
....
..........................................................................................................................
....
.................................................................................................................
....
........................................................................................................
....
...................................................................
....
....
........................................................................................
.................................................................................
....
....
.......................................................................
.............................................
....
....
.......................................................
....
................................................
....
......................................
....
.............................
....
................
.
....
..............
....
........
.
....
.
.
.
.. .....
...
.
.
.
....
..
.
.
.
.
....
..
.
.
.
....
..
.
.
.
.
....
.
....
.....
....
....
....
.....
....
.
.
.
.
....
..
.
.
....
.
..
.
....
.
.
.
.
....
.
.
..
....
.
.
.
....
..
.
.
.
....
..
.
.
2
1
....
.
.
.
.
....
.
.
.
.
....
.
.
.
.
....
....

u =u

u2 = 2 + u1

u1

u2 = 2 u1

u = u

Quelle est alors la densite dune somme de variables uniformes?


Pour calculer la densite de Y1 +Y2 , il sut de calculer la densite marginale de U1 ; on voit
sur la gure que si 0 u1 1, la densite fU1 ,U2 (u1 , u2 ) est non nulle pour u1 u2 u1 .
Si 1 u1 2, la densite est non nulle pour 2 + u1 u2 2 u1 .
Donc:


 u1
1
1
du2 =
u2
= u1 pour 0 u1 1
2
u1 2
u1
2u1

 2u1
1
1
du2 =
u2
2
2+u1 2
2+u1
2 u1 2 + u1

= 2 u1 pour 1 u1 2 .
2
2


fU1 (u1)

fU1 (u1)

=
=

u1

`
PREMIERE
PARTIE, CHAPITRE II

17

La densite marginale de U1 = Y1 + Y2 a donc la forme triangulaire suivante:


fU1 (u1 )

u1

1
0
1
2
3
1

2.3 La fonction g
en
eratrice des moments
D
enition



Soit X une variable aleatoire. Si E etX existe pour t dans un voisinage ouvert de zero,
la fonction generatrice des moments de X est denie comme:


mX (t) = E etX
Utilit
e
mX (t) permet de calculer facilement les moments de X; la fonction generatrice des
moments permet en outre, dans certains cas, de calculer facilement la distribution dune
somme de variables aleatoires independantes.
Propri
et
es
(1)

dr
mX (0) = E(X r )
dtr
En eet:






d
d tX
tX
tX
E e
e
=E
= E Xe
= E (X)
dt
dt
De meme:

 2




 2
d2
d tX
tX
2 tX
=
E
=
E
X
=
E
X
E
e
e
e
dt2
dt2

si t = 0 .

si t = 0

(2) Si mX (t) = mY (t) pour tout t dans un voisinage ouvert de t = 0, alors


FX (x) = FY (y) pour x = y
(3) Si X et Y sont independantes, alors mX+Y (t) = mX (t)mY (t). En eet:

  
E[et(X+Y ) ] = E[etX etY ] = E etX E etY

etc.

P. DESCHAMPS, COURS DECONOM


ETRIE

18

Exemple: calcul de la fonction generatrice des moments dune variable normale.




Soit X N , 2 ,


tX

mX (t) = E e

=e E e
t

=e

2
1
1
et(x) e 22 (x) dx
2



1
1
2
2

exp 2 (x ) 2 t (x ) dx .
2
2

t(X)

=e

Noter que
2

(x ) 2 2 t (x ) = (x ) 2 2 t (x ) + 4 t2 4 t2

2
= x 2 t 4 t2 .
Donc:
mX (t)

t 2 t2 /2

e e

2 2
1
1
e 22 (x t) dx
2



= 1 car int
egrale dune densit
e N (+2t,2 )

mX (t)

et+

2 2

t /2

Exemple dapplication: calcul des deux premiers moments E(X) et V (X) dune variable
normale.
Si X N (, 2 ), on a vu que mX (t) = et+

d
mX (t)
dt

d2
mX (t)
dt2

=
=

V (X)

2 t2
2

. Alors:


2 t2
+ 2 t et+ 2

2 et+

2 t2
2

mX (0) = = E(X)


2
2 t2
+ + 2 t et+ 2

mX (0) = 2 + 2 = E(X 2 )

E(X 2 ) E 2 (X)

2 + 2 2 = 2

On peut, de mani`ere analogue, calculer tous les moments de X.

`
PREMIERE
PARTIE, CHAPITRE II

19

Note: il existe des tables des fonctions generatrices des moments des variables les plus courantes; voir lappendice B de Mood, Graybill, Boes, Introduction to the Theory of Statistics,
1974.
Exercice: Soit X une variable aleatoire ayant la distribution normale reduite N (0, 1).
Montrez que E(X 3 ) = 0 et que E(X 4 ) = 3.
Autre exemple dapplication: calcul de la distribution dune somme de variables normales independantes.




Soit X N x , x2 et Y N y , y2 et supposons X et Y independantes.

mX+Y (t)

mX (t) mY (t)

etx + x t

et(x +y )+(x + y )t

2 2

(Propriete 3)

2 2
t /2
/2 ty + y

e
2

/2

donc
 la fonction generatrice des moments dune variable distribuee selon
mX+Y (t) est
2
2
N x + y , x + y . En vertu de la propriete 2, la distribution de Z = X + Y est donc
une normale de param`etres x + y et x2 + y2 .
Il est beaucoup plus facile de prouver le resultat de cette mani`ere que par lutilisation
du theor`eme de changement de variables.
2.4 Fonctions de variables normales
(1) Toute combinaison lineaire de variables normales independantes est normale:


Xj N j , j2
aj

independantes (j = 1, . . . , n)

constantes en probabilite (j = 1, . . . , n)

n


aj Xj N

j=1

n


aj j

j=1

n


a2j j2

j=1

(2) Variable Chi-Carre:


Xj N (0, 1)

independantes (j = 1, . . . , k)

Y =

k

j=1

Xj2 2k

20

P. DESCHAMPS, COURS DECONOM


ETRIE

(3) Variable t de Student:


X N (0, 1)

Y 2k

et Y

independantes

X
tk
Z=
Y /k

=
(4) Variable F de Fisher-Snedecor
X 2k

Y 2r
=

Z=

et

X/k
Fk,r
Y /r

independantes

Notes sur ce qui pr


ec`
ede
(1) La densite de Student est symetrique autour de 0. Elle tend vers la densite N (0, 1)
lorsque k . Ses deux premiers moments nexistent que si k > 2.
(2) La densite de Fisher-Snedecor tend vers la densite dune variable 2k /k lorsque r, le
nombre de degres de liberte au denominateur, tend vers linni.
(3) Les expressions des densites 2 , Student, et Fisher peuvent etre trouvees dans la
litterature, notamment louvrage de Mood, Graybill, Boes (en tete des tables). Elles
sont compliquees et nous nen ferons pas usage dans la premi`ere partie du cours. Elles
sont obtenues a` laide du theor`eme de changement de variables vu precedemment.
(4) Nos denitions precedentes permettent dengendrer des realisations simulees des
variables en question.
Exercice. Supposons que vous disposiez dun logiciel permettant dengendrer des realisations simulees de variables aleatoires normales reduites independantes. Comment pourriezvous engendrer des realisations simulees dune variable ayant une distribution de Student
avec k degres de liberte?

`
PREMIERE
PARTIE, CHAPITRE III

21

CHAPITRE III

ESTIMATION PONCTUELLE

3.1 Echantillon
al
eatoire, estimateur, estimation

Echantillon
al
eatoire
Suite de variables aleatoires independantes ayant la meme distribution (i.i.d.)
Exemple
Tailles de 100 etudiants de premi`ere annee, distribuees N (, 2 ) et independantes:
(Xi , i = 1, . . . , 100).
Estimateur
Fonction de variables aleatoires observables, ne dependant pas de param`etres inconnus.
Exemple
100

i=1 Xi

100
100
2
)
i=1 (Xi
100

Estimation
Valeur prise par une telle fonction pour des realisations particuli`eres des variables
aleatoires, soit x1 , x2 , . . .
Exemple

175,

25

P. DESCHAMPS, COURS DECONOM


ETRIE

22

3.2 Fonction de vraisemblance

Soit (x1 , . . . , xn ) des realisations des variables aleatoires X1 , . . . , Xn .


Soit fX (x1 , . . . , xn | 1 , . . . , k ) la densite jointe de ces variables au point (x1 , . . . , xn );
cette densite depend des param`etres inconnus 1 , . . . , k . Si lon consid`ere cette densite
jointe comme une fonction des param`etres inconnus, on lappelle fonction de vraisemblance
et lecrit:
L (1 , . . . , k ; x1 , . . . , xn )

ou plus simplement L (1 , . . . , k )

Note
Les observations xi sont ici des param`etres de la vraisemblance; en dautres termes, la
vraisemblance nest denie quapr`es lobservation des realisations des variables! La vraisemblance est donc une notion statistique, tandis que la densite jointe est une notion
probabiliste.
3.3 Maximum de vraisemblance

Principe
On choisit comme estimations des i les valeurs de ces param`etres qui maximisent
L (1 , . . . , k ).
Interpr
etation dans le cas discret
On choisit comme estimations les valeurs des i qui donnent la plus grande probabilite
davoir obtenu le resultat experimental (x1 , . . . , xn ).
Exemple 1
Une bote contient 3 boules, qui peuvent etre soit rouges, soit blanches. Le nombre de
boules rouges est inconnu. On tire deux boules sans remise. On obtient 2 boules rouges. On
demande destimer le nombre n de boules rouges que contient la bote `a laide du principe
du maximum de vraisemblance.
Solution
La vraisemblance est donnee dans ce cas par la probabilite dobtenir le resultat experimental observe (tirage de 2 boules rouges), consideree comme fonction des quatre valeurs
possibles du param`etre inconnu (n = 0, 1, 2, 3).

`
PREMIERE
PARTIE, CHAPITRE III

L(0)

P (R1 R2 | n = 0) = 0

L(1)

P (R1 R2 | n = 1) = 0

L(2)

P (R1 R2 | n = 2)

P
1
2
P

=
L(3)

23

(R2 | R1 , n = 2) P (R1 | n = 2)
2
1
=
3
3
(R1 R2 | n = 3) = 1 .

Donc lestimation est n


= 3.
Exemple 2
On demande destimer par maximum de vraisemblance le param`etre p dune loi binomiale Bi(n, p).
Rappel

n
p

= nombre dessais independants


= probabilite de succ`es lors de chaque essai

= nombre de succ`es est Bi(n, p)

P (Y = r)

nr

= Cnr pr (1 p)

Solution
On peut ecrire:
Y

n


Xi

o`
u

Xi

1 si lessai i donne un succ`es

Xi

0 sinon .

i=1

On observe les realisations (x1 , . . . , xn ). Le nombre de succ`es observe est r =


On a:
nr

f (x1 , . . . , xn | p) = pr (1 p)

i=1 xi

(car lordre des realisations est donne)

En considerant cette densite comme une fonction du param`etre inconnu p, on a:


L (p)

pr (1 p)

nr

P. DESCHAMPS, COURS DECONOM


ETRIE

24

Pour maximiser cette fonction, il est commode de maximiser son logarithme:


log L (p)

d log L
dp

r log p + (n r) log (1 p)
r nr

=0
p 1p
nr
r
=
=
p
1p
n
1
1= 1
p
r

=
=

1p
nr
=
p
r
r
= p =
.
n

On estime donc p par le pourcentage des succ`es observes. On a bien un maximum


car:
d2 log L
dp2

r
nr

<0
2
p
(1 p)2

Exemple 3
On demande destimer par maximum de vraisemblance les param`etres et 2 dune
loi normale a` partir dun echantillon aleatoire (Xi , i = 1, . . . , n).
On a, par denition de la densite normale:
fXi (xi )


2 1/2

1
2
exp 2 (xi )
2


.

En vertu de lindependance:


n





1
n/2
2
fX x1 , . . . , xn | , 2 = 2 2
exp 2
(xi )
2
i=1

En considerant cette fonction comme fonction des param`etres inconnus:

L ,


2

= 2

log L =


2 n/2

n
1 
2
exp 2
(xi )
2 i=1

n
n
1 
n
2
(xi )
log (2) log 2 2
2
2
2 i=1

qui est a` maximiser par rapport a` et 2 .

`
PREMIERE
PARTIE, CHAPITRE III

25

Les conditions de premier ordre secrivent:


n
2 
log L
=
(xi ) = 0
(1)

2 2
i=1
n
log L
n
1 
2
(2)
=
+ 4
(xi ) = 0
2
2

2
2
i=1

(1)

n


n
xi = n,

donc
=

i=1

(2)

i=1 xi

= x

n
1 
2
(xi ) = 0
= n + 2
i=1
n
2
2
i=1 (xi )
= =
n
n
2
)
2
i=1 (xi x
en remplacant
=
=
n

par

Exercice: verier que lon a bien un maximum.


Note: Par la suite, nous utiliserons toujours
2 pour designer lestimateur de 2 par
maximum de vraisemblance. Un autre estimateur, que nous designerons par s2 , sera vu au
debut du chapitre suivant.

P. DESCHAMPS, COURS DECONOM


ETRIE

26

CHAPITRE IV

ES
DES ESTIMATEURS
PROPRIET

4.1 Estimateur sans biais


D
enition:
= .
Un estimateur de est dit sans biais si E()
Exemple:
Soit un echantillon aleatoire (Xi , i = 1, . . . , n) avec E(Xi ) = pour tout i et V (Xi ) = 2
pour tout i. On va montrer que:
=

=X
et

i=1 Xi

n
n


1 
2
s =
Xi X
n1
2

i=1

sont sans biais.


En ce qui concerne la moyenne:
 
=E
E X

Xi
n


=

1   1 
1
E
Xi =
E (Xi ) = n =
n
n
n

En ce qui concerne la variance, notons que:







 E( X )2

2
i
2
2
2

=E
=E
Xi nX
Xi
E
Xi X
n
et que:
E



    



E Xi2 =
Xi2 =
2 + 2 = n 2 + 2

 
 
car 2 = E Xi2 2 , et donc E Xi2 = 2 + 2 .

`
PREMIERE
PARTIE, CHAPITRE IV

27

Dautre part:

E

n


2
Xi


n

i=1

Xi2

+2

i=1

n


n1


n


Xi Xj

i=1 j=i+1

Xi2

+2

i=1

n1


n


E (Xi Xj )

i=1 j=i+1



n(n1)/2


termes

 
Mais E Xi2 = 2 + 2 , et, par lindependance:
E (Xi Xj )

E (Xi ) E (Xj ) = 2

Donc:

E

n


2
Xi

i=1


 2n(n 1)
n 2 + 2 +
2



n 2 + n2 + n2 2 n2 = n 2 + n2


E( Xi )2
= 2 + n2 , et:
Donc
n
E


n


Xi X

2

n



Xi2


E( Xi )2


n + 2 2 n2 = (n 1) 2

i=1

i=1
2

Donc:
 
E s2

 
=

Xi X
n1

2 
=

1
(n 1) 2
n1

ce qui montre que s2 est sans biais.


4.2 Estimateur convergent
D
enition
Un estimateur n de est dit convergent si et seulement si:



lim P | n |>  = 0

pour tout  > 0;

on ecrit

plim n =

P. DESCHAMPS, COURS DECONOM


ETRIE

28

Interpr
etation
Si n poss`ede une densite f(n ), la probabilite P [| n |> ] est la zone hachuree de
la gure suivante:

.....
.... ....
.... ......
...
...
.
.
...
.
...
...
...
...
.
.
...
..
.
...
.
.
..
..
.
...
.
.
...
....
..
..
...
...
...
...
..
2 n2
...
...
...
....
.
.
.
...
...
...
...
...
..
..
....
...
..
..
...
..
..
..
..
..
...
.
...
.....
...
...
...
...
...
.
...
.....
...
..
...
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...
.
.
.
.
.
.
.
.
.
.
.
.
.
...
.
.
........
...
.
.
.
.
.
.
.
.
.
...
.
......
..
.
.
.
.
.
.
.
...... ....
.. ........
.
.
..... ...
.. ........
..... ...
.
.
.
.
.......
......
....
.....
.......
.......
.
.
... ....
.. ...
.
.
.. ....
. ..
.
.
... ....
.
.. ..
.
.
... ....
.. ...
.
....
.
...
.
.
.
.
....
.
.
.
...
.....
.
.
.
.
...........
.
...
.
. ...
.
.
.
.... ...
.
.
...
........
.
.
.
.
.
. . . .. ...
.. ...............
.
.
.
... ............
........... ..
.
.
... ... . . .....
.... . . . ... ...
... ................
............. ..
... .................
......................... .....
.
.
... .. . . . . . ......
.. . . . . . ... ..
.
.
.
........................
... . . . . . . . .
1 n1
...........................
..............................
.
.
.
.
.... . . . . . . . .......
........................
.
.
.
...............................
.
... . . . . . . . .........
.
.
.
.
.
.
.
.
.
... . . . . . . . . . ..
. . . . . . . . . . ..
..................................................
...... . . . . . . . . . ..........
....... . . . . . . . . . ...........
................................................
............................................
..................... . . . . . . . . . . ..........
...................................................................
.
.
.
............... . . . . . . . . . . . ......
.
.
.
.
.
....... . . . . . . . . . . . ............
...................................................................................................................
............ . . . . . . . . . . . . ...............................
................................................. . . . . . . . . . . . . .........................
..........................................................................................................................
........................................ . . . . . . . . . . ...............
............................... . . . . . . . . ....................................
.. ................
.................................

f ( )

f ( )

+

Cette probabilite doit tendre vers 0 lorsque n tend vers linni; ceci sera le cas si les
densites deviennent de plus en plus concentrees autour de .
Conditions susantes
Si limn E(n ) = et si limn V (n ) = 0, alors plim n = . Ceci sera demontre
au chapitre X de la deuxi`eme partie.
Exemple
Si (Xi , i = 1, . . . , n) est un echantillon aleatoire avec E (Xi ) = , V (Xi ) = 2 , alors
= , car:
plim X
 

E X
 

V X

1
n2

 n

i=1

2
n 2
0 .

=
n2
n

`
PREMIERE
PARTIE, CHAPITRE IV

29

Note
Contrairement `a labsence de biais qui est une propriete de petit echantillon (valable
pour tout n), la convergence est une propriete asymptotique (valable si n ).
4.3 Estimateur ecace
Un estimateur ecace est un estimateur sans biais, et de variance minimale parmi tous
les estimateurs sans biais.
D
enition

est ecace:

E() =

.
V ()
si E()
=
V ()

Interpr
etation
La variance dun estimateur est une mesure de limprecision de notre estimation de la
vraie valeur du param`etre. Un estimateur sans biais, mais de variance enorme, est inutile:
on ne se trompe pas en moyenne, mais on peut se tromper enormement dans des cas
individuels, c.a.d. pour certains echantillons. Il est donc important que la variance soit la
plus petite possible.
Exemple
Nous prouverons au chapitre X de la seconde partie que si les Xi sont normales i.i.d.,
est ecace.
alors X
4.4 Minimisation de lerreur quadratique moyenne
Que faire si lon doit choisir entre un estimateur sans biais mais de grande variance,
ou un estimateur un peu biaise mais de petite variance?
Reponse: on peut minimiser lerreur quadratique moyenne:


= E( )2
EQM()


= V ()

Si est sans biais, EQM()

Justication: On va montrer que:


= V ()
+ Biais2 ()
.
EQM()

P. DESCHAMPS, COURS DECONOM


ETRIE

30

En eet:

EQM()


Mais E

E( )2

2

E E() + E()



2

2



E E() + E E() + 2E E() E() .




E() E()


 


E() E E()




E()
E E()

E()





E() E() E() = 0

Dautre part:

2

E E()



E E()

V ()



E()

Biais2 ().

4.5 Interpr
etation des propri
et
es
Il est utile dillustrer ces proprietes `a laide dechantillons ctifs, qui peuvent etre
obtenus par simulation.
Supposons donc que lon ait m echantillons de taille n, permettant de calculer m
estimations i (n):
echantillons
x12
x1m
x11
..
..
..
.
.
...
.
xn2
xnm
xn1
1 (n)

2 (n)

m (n)

Si est sans biais, on aura en general


m

1 
i (n) =
lim
m m
i=1

pour tout n .

`
PREMIERE
PARTIE, CHAPITRE IV

31

Si est ecace, on aura en general


m
2
1  

i (n) (n)
lim
m m
i=1

minimale pour tout n

Si minimise lEQM, on aura en general


2
1  

lim
i (n)
m m
m

minimale pour tout n .

i=1

Si est convergent, on aura pour tout i:




lim P | i (n) |>  = 0

On fait donc ici tendre n (et non m) vers linni.


Remarque: Dans ce contexte, les estimations i (n) sont des nombres pseudo-aleatoires,
car il sagit dune experience de simulation. La notation lim est par consequent plus
appropriee que la notation plim.

P. DESCHAMPS, COURS DECONOM


ETRIE

32

CHAPITRE V

`
TESTS DHYPOTHESES

5.1 M
ethode des intervalles de conance
Cette methode est facile `a appliquer lorsque lon poss`ede un estimateur sans biais dun
param`etre inconnu (soit cet estimateur), et que la densite de est symetrique autour
de (par exemple normale). On cherche alors un intervalle entre les bornes duquel la vraie
valeur du param`etre inconnu a une certaine probabilite 1 de se situer.
Exemple: construction dun intervalle de conance sur lesperance dune population
normale.
Si la variance 2 est connue, on a:
- echantillon (X1 , . . . , Xn ) ; Xi N (, 2 )
- Valeurs observees x1 , . . . , xn
n
xi
2
- x
= i=1
est une realisation dune variable distribuee N (, n )
n



= n
est donc une realisation dune variable distribuee N (0, 1).
/ n

Si Z/2 est la valeur de la N (0, 1) ayant une probabilite /2 detre depassee:



x

P Z/2 Z/2 = 1 , donc:


/ n



P x
Z/2 x
+ Z/2
=1 .
n
n


On a une probabilite de 1 de ne pas se tromper lorsque lon arme que se situe


entre ces 2 bornes.
1 n
)2 .
Si la variance 2 est inconnue, on peut lestimer par s2 = n1
i=1 (xi x
On peut ecrire:


n

= !
"
"
)2
(xi x
#
(n 1) 2

`
PREMIERE
PARTIE, CHAPITRE V

33

)2
(xi x
est distribuee 2n1
2

On demontrera plus loin (4.3 de la seconde partie) que





et est independante de n




Alors n
tn1 , et lintervalle de conance secrit:
s


s
s

P x
tn1; 2 x
+ tn1; 2
= 1
n
n

On ne rejette pas une hypoth`ese impliquant que soit interieure aux deux bornes, on
rejette une hypoth`ese impliquant que soit exterieure aux deux bornes.
5.2 M
ethode g
en
erale de construction des tests
On a ici un vecteur de param`etres inconnus = (1 , . . . , k ). On veut tester: H0 : = 0
contre H1 : = 0 (0 est un vecteur de nombres)
Note: rien nempeche detre une fonction dun autre vecteur de param`etres plus
fondamentaux; exemple: k = 1 et 1 = 1 2 , H0 : 1 = 0 contre H1 : 1 = 0 .
Proc
edure de test
Elle doit conduire, soit au rejet de H0 en faveur de H1 , soit a` labsence de rejet, en
tenant compte des deux types derreurs possibles:

Rejeter H0

Ne pas rejeter H0

H0 vraie

Erreur de type I (prob. )

Decision correcte (prob. 1 )

H0 fausse

Decision correcte (prob. 1 )

Erreur de type II (prob. )

Les probabilites sont conditionnelles aux evenements denissant les lignes!


On a donc:
H0 | H0

P (rejeter

P (ne pas rejeter

vraie) = taille du test, ou niveau

H0 | H0

fausse)

1 sappelle la puissance du test. Cest la probabilite de deceler la violation de H0 ,


si H0 est fausse (probabilite conditionnelle!)
Malheureusement, on peut montrer quil est impossible, en general, de minimiser et
simultanement. La procedure generale de construction dun test que lon va decrire

P. DESCHAMPS, COURS DECONOM


ETRIE

34

tient compte de cet etat des choses: on va, d`es le depart, choisir une valeur faible
de (typiquement 0.01 ou 0.05), et, pour cette valeur de , choisir un test puissant
parmi les tests de taille .
Proc
edure de construction

Etape
1: on se donne une probabilite de commettre une erreur de type I (rejeter H0 si
H0 est vraie).
0 ), a` laide dun crit`ere tel que ceux que nous

Etape
2: on choisit une statistique s(,
exposerons aux sections 5.3, 5.4, et 5.5. Ces crit`eres conduisent a` des tests puissants.
0 ) sous lhypoth`ese H0 , cest
Etape
3: on determine la distribution conditionnelle de s(,
`a-dire si = 0 .

Etape
4: la probabilite permet de determiner une region dacceptation RA () et une
region critique RC ():

RA ()

RC ()

{s | P (s RA () | H0 ) = 1 }
A () .
R

Ces regions peuvent etre calculees `a laide des resultats de letape 3, qui nous donne la
0 ) sous H0 !
distribution de s = s(,
0 ) RC ().

Etape
5: on decide de rejeter H0 si s(,
Notes
(1) Par construction, est alors bien la probabilite de commettre une erreur de
type I (rejeter H0 si H0 est vraie) car on a suppose que H0 etait vraie en
0 ) a` letape 3.
calculant la distribution conditionnelle de s(,
(2) La puissance 1 depend de la vraie valeur (inconnue) de , puisquelle se
calcule conditionnellement a` H1 , cest-`a-dire lorsque la valeur de nest pas
donnee `a priori.
(3) Le fait de ne pas rejeter H0 ne signie pas demontrer H0 : cela veut seulement
dire que les donnees ne fournissent pas susamment dinformations pour
inrmer H0 ! Il est donc plus correct de dire on ne rejette pas H0 que on
accepte H0 .

`
PREMIERE
PARTIE, CHAPITRE V

35

(4) Pour letape 2, il existe un assez grand nombre de crit`eres. Les trois crit`eres
que nous allons exposer sont tr`es employes, sont dune applicabilite generale,
et ont des proprietes doptimalite sur le plan de la puissance. Dans certains
cas les trois crit`eres conduisent a` la meme statistique. Dans la plupart des
cas les trois crit`eres sont asymptotiquement equivalents.
5.3 Le crit`
ere du rapport des vraisemblances (LR)
D
enition
Le rapport des vraisemblances est deni comme:
=

maxH0 L()
max L()

o`
u est le vecteur de param`etres inconnus de vraisemblance L(). H0 designe ici lensemble des valeurs de compatibles avec lhypoth`ese nulle, et designe lensemble de
toutes les valeurs admissibles de .
Exemple


 
0

|x>0 R
; H0 :
x
2
 

y
| x > 0 R2 .
x

Interpr
etation
Comme la vraisemblance est une fonction positive, 0,
Comme un maximum contraint est inferieur a` un maximum libre, 1
Donc 0 1 ;

et:

si 0 ,

mauvais accord entre lobservation et lhypoth`ese H0

si 1 ,

bon accord entre lobservation et lhypoth`ese H0

En dautres termes, si est proche de 0 lhypoth`ese H0 ne parat pas vraisemblable


`a la lumi`ere des informations fournies par lechantillon. Donc, on rejettera H0 si
est proche de 0.
Probl`eme: en-dessous de quelle valeur decidera-t-on que est susamment proche
de 0 pour que lon puisse rejeter H0 ? La reponse est fournie par la procedure de test
decrite plus haut. On devra choisir de telle sorte que si lon rejette H0 lorsque
< , alors la probabilite dune erreur de type I est precisement egale `a . Le calcul
de necessite la connaissance de la distribution de (ou dune fonction monotone
de ) conditionnelle a` lhypoth`ese H0 .

P. DESCHAMPS, COURS DECONOM


ETRIE

36

Premier exemple dapplication: test sur lesp


erance
dune population normale dont la variance est connue
On a Xi N (, 2 ) independantes (i = 1, , n), 2 connue.
On veut tester H0 : = 0 contre H1 : = 0 .
On a ici = (un seul param`etre inconnu)


n/2


L() = 2 2
exp 21 2 (xi )2

max L()

max L()

H0

=
Notons que



1 
2
(xi 0 )
2
exp 2
2




1 
2 n/2
2
2
exp 2
)
(xi x
2


n/2


2 2
exp 21 2 (xi 0 )2



n/2
(2 2 )
exp 21 2 (xi x
)2



1 
2
2
(xi 0 )
(xi x
)
exp 2
2



2 n/2



)2 + n(
x 0 )2 .
(xi 0 )2 = (xi x

En eet:




(xi x
+x
0 )2 =
(xi x
)2 +n(
x 0 )2 +2
(xi x
)(
x 0 )
(xi 0 )2 =



=0

Donc:

=
=




1 
2
2
2
(xi x
exp 2
) + n (
x 0 )
(xi x
)
2


n
2
x 0 ) .
exp 2 (
2

Une fonction monotone de est donnee par:

(LR = 2 log

(
x 0 )2
= LR
2 log =
2 /n def
sappelle la statistique du rapport des vraisemblances)

Si H0 est vraie ( = 0 ), LR est le carre dune normale reduite! On a donc trouve la


distribution dune fonction monotone de sous H0 .

`
PREMIERE
PARTIE, CHAPITRE V

37

Conclusion
On a: 2 log =

(
x 0 )2
2 /n

On denit: Zobs =

(
x 0 )

/ n

Si on decide de rejeter H0 : = 0 lorsque Zobs > Z/2 ou Zobs < Z/2 , sera
bien la probabilite dune erreur de type I puisque Zobs N (0, 1) sous H0 .
u est deni implicitement par
De facon equivalente, on rejetteH0 si < o`
2
2
).
(soit = exp 12 Z/2
2 log = Z/2
Exercice. Calculez, en fonction de , la puissance du test precedent lorsque , 0 , 2 , et
n sont donnes. Comment cette fonction de puissance se comporte-t-elle lorsque la taille n
de lechantillon tend vers linni?
Second exemple dapplication: test sur lesp
erance
dune population normale, variance inconnue
On a toujours Xi N (, 2 ) independantes pour i = 1, . . . , n; mais 2 est inconnue.
Le test est toujours H0 : = 0 contre H0 : = 0
 

Ici, =
2

n
2
Sous H0 : la maximisation de L implique
0 = 0 et
02 = i=1 (xi 0 ) /n.
n
2
Sous : la maximisation de L implique
=x
et
2 = i=1 (xi x) /n comme on
la vu.
Le rapport des vraisemblances senonce comme:


n/2
2
02


2
exp 21 2
(xi 0 )
0

=

n/2
2
2
(xi x
(2
)
exp 21 2
)
 2 n/2

0
, puisque:
=

2


2
2
02 ;
(xi x
) = n
2 .
(xi 0 ) = n
On a vu que:


(xi 0 ) =

(xi x
) + n (
x 0 )

P. DESCHAMPS, COURS DECONOM


ETRIE

38

En substituant plus haut:




n/2
2
n (
x 0 )
, donc :
=
1+
2
)
(xi x

2
2

 (
x 0 )
)
(xi x
2/n
2
avec
s
(n 1)
1 =
=
s2 /n
n1

On reconnat le carre dune variable de student avec n 1 degres de liberte sous H0 .


On a donc de nouveau trouve la distribution dune fonction monotone de sous H0 .
Conclusion

(
x 0 )

s/ n



On a (n 1) 2/n 1 = t2obs , soit aussi: = 1 +

On denit tobs =

t2obs
n1

n/2

Si on decide de rejeter H0 lorsque tobs > tn1, 2 , ou tobs < tn1, 2 , sera bien la
probabilite de commettre une erreur de type I puisque tobs tn1 sous H0 .
u:
De facon equivalente, on rejette H0 si < , o`
$
= 1 +

t2n1,

%n/2

n1

5.4. Le crit`
ere de Wald
Nous nenoncerons ici ce crit`ere que pour le test dune seule hypoth`ese, car la generalisation aux tests joints sera vue plus tard.
D
enition
Soit L() = L(1 , , k ) la vraisemblance et soit = (1 , . . . , k ) lestimation de qui
maximise L(). On sinteresse au test:
H0 : i = 0 contre H1 : i = 0
(i est un element de , 0 est un nombre)
La statistique de Wald est denie comme:
W=

(i 0 )2
V (i )

`
PREMIERE
PARTIE, CHAPITRE V

39

o`
u V (i ) est lestimation de la variance de i obtenue par maximisation de la vraisemblance.
Note: la vraisemblance est maximisee sans contraintes!
Interpr
etation
Il sagit du carre dune distance entre lestimation de i sous H0 (`
a savoir 0 ) et lesti
a savoir i ). On divise par la variance estimee pour tenir compte de
mation de i sous H1 (`
la precision de lestimation.
Exemple
Soit L(, 2 ) la vraisemblance precedente (population normale, variance inconnue).
Pour tester H0 : = 0 contre H1 : = 0 , on forme:
2

W=
o`
u
2 =

1
n

i=1

(
0 )
V (
)

(
x 0 )

2 /n

(xi x
) est lestimation de 2 par maximum de vraisemblance.

Comme precedemment, on peut transformer la statistique W en une autre statistique


possedant une distribution connue sous H0 , a` laide dune transformation monotone.
En eet, comme
2 = n1
s2 , on a:
n
2

(
x 0 )
n
W=
2 = n1
n1s
n n

t2obs

et le crit`ere de Wald conduit donc, dans ce cas-ci, au meme test que le crit`ere du rapport
des vraisemblances (le test t).
5.5. Le crit`
ere des multiplicateurs de Lagrange
De nouveau, nous enoncerons ce crit`ere pour le test dune seule hypoth`ese; la generalisation aux tests joints sera vue plus tard.
Soit L() = L(1 , . . . , k ) la vraisemblance logarithmique L = loge L. On sinteresse au
test:
H0 : i = 0 contre H1 : i = 0

Soit 0 lestimation de par maximisation de la vraisemblance sous la contrainte H0 .

0 est obtenu en annulant les derivees du Lagrangien:


(, ) = L() (i 0 ).

P. DESCHAMPS, COURS DECONOM


ETRIE

40

Dans un mod`ele lineaire et pour des observations distribuees normalement, on peut


montrer que la statistique du multiplicateur de Lagrange est egale `a:
LM =

0
V0 ()

0 est la valeur de evaluee au point = 0 et o`


u V0 () est lestimation de V ()
o`
u
obtenue par maximisation de L sous H0 .
Interpr
etation
Lannulation de la derivee de par rapport `a i implique:
L
=
i
0 est le taux de variation de la vraisemblance maximisee L(0 )
ce qui montre que
lorsque lon seloigne de la situation contrainte. Si ce taux de variation est nul, le fait de
rel
acher H0 ne modie pas la vraisemblance contrainte: cette contrainte napparat donc
pas comme signicative.
Exemple


Soit L , 2 la vraisemblance logarithmique precedente:


L ,

n
n
1 
n
2
2
(xi )
= log 2 log 2
2
2
2
i=1

On a vu que:

n
n (
x )
1 
(x

)
=
i
2
2
i=1

(par lannulation de la derivee de

Donc:


L 
n (
x 0 )
=

=0 ,2 =2

02
0

o`
u

02

1
2
=
(xi 0 )
n
i=1

`
PREMIERE
PARTIE, CHAPITRE V

41

Par ailleurs:
1
V () = 4 V

 n



xi

i=1

n
n 2
= 2
4

n
donc V0 () = 2

n2 (
x 0 )
2
n (
x 0 )

04
Donc LM =
=
n

02
2

Comme precedemment, on peut appliquer une transformation monotone a` LM pour


obtenir t2obs . En eet:
n

02

=
=

1
2
(xi 0 )
n
i=1


n
1
2
2
(xi x
) + n (
x 0 )
n
i=1

x 0 )

+ (
2

Donc:
1
LM

=
=
=

02
n (
x 0 )

2 + (
x 0 )
n (
x 0 )

n1 2

2
1
1
n s
+
+
=
2
2
n n (
n n (
x 0 )
x 0 )
n1 1
1
t2obs + n 1
+
=
.
n
n t2obs
nt2obs

Soit aussi:
LM =

nt2obs
t2obs + n 1

5.6 Comparaison des trois crit`


eres
Rappelons que LR = 2log.
Pour le test vu precedemment:
H0 : = 0 contre H1 : = 0
observations xi N (, 2 ) independantes, 2 inconnue,

P. DESCHAMPS, COURS DECONOM


ETRIE

42

on a etabli que:
n 2
t
n 1 obs
1
n1 1
1
= +
LM
n
n t2obs
n


2 
t2obs
n (
x 0 )
LR = n log 1 +
.
2 = log 1 + n 1
(xi x
)
W=

On a donc une relation bijective entre t2obs et chacune des trois statistiques, ce qui
veut dire que chacun des trois crit`eres conduit au meme test (le test t).
Il nen est pas toujours ainsi: dans des situations plus compliquees, les trois statistiques W, LM, et LR ne seront pas des fonctions bijectives les unes des autres, et
leurs regions critiques seront dierentes en petit echantillon.
En revanche, si n , les distributions des trois statistiques sous H0 tendront en
general vers la meme distribution 2 . Ceci peut se verier
 facilement
npour le test que


n1
t2obs
1
1, et 1 +
exp t2obs .
nous venons de voir, puisque 0,
n
n
n1
Mais la validite de cette proposition est beaucoup plus generale!
Quel est alors linteret de letude de ces trois statistiques? Il reside dans leur commodite demploi. Celle-ci depend du contexte:
(a) W sera plus facile a` employer chaque fois que le mod`ele est plus facile a`
estimer sans contraintes;
(b) LM sera plus facile a` employer chaque fois que le mod`ele est plus facile a`
estimer sous H0 ;
(c) LR necessite lestimation du mod`ele avec et sans contraintes; en revanche,
son calcul ne necessite que la connaissance des valeurs de la vraisemblance
maximisee. Aucun calcul analytique de derivees ni de variance nest necessaire.

SECONDE PARTIE

` UNE EQUATION

MODELES
ECONOM
ETRIQUES
A

CHAPITRE I.

LA REGRESSION
SIMPLE: ESTIMATION PONCTUELLE

1.1 Description du probl`


eme et exemples
economiques
(1) Nous partons dune relation lineaire, speciee par un mod`ele economique. Par
exemple :
La fonction de consommation :
C = a + bY
La loi de demande :
X = a bPX
La fonction de co
ut :
CT = a + bQ .
(2) Nous desirons estimer les param`etres a, b de ces mod`eles `a des ns danalyse ou de
prevision. Une telle estimation est plus elaboree quune simple etude de correlation.
Elle peut en eet servir `a repondre a` des questions de politique economique telles
que :
(a) comment faudrait-il modier les depenses gouvernementales pour augmenter
le niveau de lemploi de x%? Pour reduire le taux dination de y%?
(b) combien une rme doit-elle produire pour maximiser son prot?
(c) Une politique de soutien du prix dun produit agricole doit-elle prendre la
forme dun prix garanti aux producteurs (et de lachat de toute production
43

44

P. DESCHAMPS, COURS DECONOM


ETRIE

invendue) ou dun subside a` ces producteurs? Les co


uts respectifs de ces deux
politiques alternatives dependront de lelasticite de la demande, qui peut etre
estimee par leconom`etre, `a partir de donnees sur les variables X et PX .
Les egalites precedentes ne seront jamais veriees exactement par des donnees sur les
variables C, Y , X, PX , etc. En eet :
lon ne peut esperer quune relation lineaire exacte fournisse une description compl`ete
du comportement des agents economiques. Il est trop complexe pour cela. Il est parfois
erratique.
des erreurs aleatoires de mesure, dagregation, etc., sont dordinaire presentes dans
tout echantillon. Ces erreurs ne peuvent etre expliquees par un mod`ele deterministe.
On ajoutera donc aux fonctions precedentes un terme derreur aleatoire u, et lon ecrira:

C = a + bY + u
X = a bPX + u
CT = a + bQ + u.

1.2 Le mod`
ele et ses hypoth`
eses
1.2.1 L
equation de r
egression.
Nous avons donc une equation lineaire de la forme :
yt = a + bxt + ut

t = 1, . . . , n

Lindice t correspond a` une observation particuli`ere, par exemple lannee 1960 dans un
echantillon de 20 observations annuelles.
La variable yt sappelle indieremment variable endog`ene, ou variable dependante, ou
variable expliquee. La variable xt sappelle indieremment variable exog`ene, ou variable
independante, ou variable explicative. On parle aussi de regresseur. Le terme ut est un
terme derreur aleatoire inobservable.
a et b sont des param`etres `a estimer. Leurs estimateurs seront notes a et b.

SECONDE PARTIE, CHAPITRE I

45

1.2.2 Les hypoth`


eses.
Les estimateurs a et b vont dependre des yt , donc des ut : ce seront des variables
aleatoires, et nous aurons besoin des moments de leur distribution. Il nous faut donc
faire des hypoth`eses sur la distribution des ut .
H1 . E(ut ) = 0

pour tout t .

Si cette hypoth`ese netait pas satisfaite, le terme derreur aleatoire ut aurait une composante systematique, qui aurait d
u etre incluse dans la partie non aleatoire de lequation de
regression. Le mod`ele serait alors mal specie.
H2 . V (ut ) = E(u2t ) = 2

pour tout t .

Cette hypoth`ese implique que chaque erreur ut ait la meme variance; si les ut ont une
distribution normale, chaque ut aura la meme distribution.
Comme exemple de mod`ele o`
u cette hypoth`ese nest pas veriee, on peut citer un
mod`ele de regression dont les observations sont des moyennes calculees `a partir de nombres
dobservations dierents: si le mod`ele vrai est:
yis = a + bxis + uis

pour i = 1, . . . , ns et s = 1, . . . , T

o`
u les uis sont de variance 2 et sont independantes, et si le mod`ele estime est:
xs + u
s
ys = a + b
ns

avec:
ys =

i=1 yis

ns

pour s = 1, . . . , T

ns
,

x
s =

i=1 xis

ns

ns
,

u
s =

i=1 uis

ns

on verie aisement que la variance des u


s depend de s.
H3 . Cov(ut , uh ) = 0

t = h .

Cette hypoth`ese sera satisfaite si le fait que ut prenne une certaine valeur est independant de la valeur prise par uh . Elle pourrait etre violee, par exemple, si yt etait la production dun bien agricole dans une region geographique donnee t . Une autre observation,
faite dans une region voisine, pourrait etre inuencee par des conditions meteorologiques
communes.
Un autre exemple de viol de cette hypoth`ese est le cas o`
u les ut sont engendrees par
u les t sont desperance nulle, de variance
lequation de recurrence ut = ut1 + t , o`
constante, et ne sont pas correlees entre elles. On verie aisement que la covariance entre
ut et ut1 depend de .

P. DESCHAMPS, COURS DECONOM


ETRIE

46

H4 . Les xt sont non aleatoires (on dit aussi non stochastiques).


Cette hypoth`ese est provisoire, destinee `a simplier les arguments presentes. Nous
verrons plus loin quon pourrait la remplacer par lhypoth`ese plus faible que E(xt ut ) = 0,
sans changer certains resultats. Par la loi des esperances iterees, on peut aussi supposer
que E(ut | xt ) = 0.
Lhypoth`ese que la covariance entre le regresseur et le terme derreur contemporain est
nulle est violee dans le mod`ele suivant:
Ct = a + bYt + ut
Yt = C t + I t
o`
u Ct est la consommation au temps t, Yt est le revenu national au temps t, It est linvestissement au temps t, et ut est le terme derreur. En substituant la premi`ere equation
dans la seconde et en resolvant, on sapercoit aisement que E(Yt ut ) = 0.
H5 . xt prend au moins deux valeurs dierentes. Si cette hypoth`ese netait pas satisfaite,
nous naurions pas un probl`eme de regression : en eet, a + bxt serait constante, et
yt = a + bxt + ut serait constante `a un terme aleatoire pr`es. Nous aurions alors le
mod`ele yt = + ut avec = E(yt ) .
Nous voulons trouver les param`etres a, b de la droite a
+ bxt qui approche le mieux la
dependance des y sur les x, cest-`a-dire qui secarte le moins du nuage de points (xt , yt ).
Quels crit`eres allons-nous employer?
Il faut, quen moyenne, la distance entre yt et a
+ bxt soit minimale. Il faut donc que la
valeur absolue de u
t = yt a bxt soit petite, pour tout t. Nous pourrions retenir comme
crit`eres :
(1)

min

(2)

min

(3)

min

a
,
b
a
,
b
a
,
b

max
t

t

t

|
ut |
|
ut |
u
2t

Pour des raisons de commodite, nous allons employer le troisi`eme crit`ere : cest la methode des moindres carres.

SECONDE PARTIE, CHAPITRE I

La dierence:

47

u
t = yt a
bxt

sappelle un residu, et est une estimation de lerreur ut . On peut ecrire indieremment:


yt = a + bxt + ut
yt = a
+ bxt + u
t
mais la premi`ere de ces relations est une hypoth`ese, tandis que lautre est une identite!
Lestimation par moindres carres du mod`ele de regression simple sur la base dobservations
(xt , yt ) est illustree par la gure suivante.
yt , yt
8
7
6
5
4

yt = a
+ bxt

.
......
.....
.....
......
.
.
.
.
.....
......
.....
......
.
.
.
.
.
.
.
...... ..
..... ...
.....
...
......
.
.
.
t
..
.
..
...
......
.
.
.
.
.
..
...
.
.
.
.
.
.
....
......
......
......
.
.
.
.
.
.
......
.....
.....
......
.
.
.
.
......
.....
......
......
.
.
.
.
....
......
.....
t t
......
.
.
.
.
.
....
.....
......
.
.
.
.
.
.
......
.....
......
......
.
.
.
.
...
......
.....
......

0.5

u
= yt yt


.....


(x , y )

xt
1.0

1.5

2.0

1.3 Les estimateurs de moindres carr


es
Nous voulons donc minimiser en a
, b la somme de carres :
S(
a, b) =

u
2t



yt a
bxt

2

Les conditions de premier ordre sont :




S
= 2
yt a
bxt = 0
a


S
bxt xt = 0 .
= 2
yt a
b

P. DESCHAMPS, COURS DECONOM


ETRIE

48

Elles impliquent les equations normales:

(1)

(2)




yt n
a b
xt yt a

xt = 0

xt b

x2t = 0 .

En divisant (1) par n, on obtient :



a
= y b
x avec x =

xt
n


,

y =

yt
.
n

En remplacant cette valeur dans (2), il vient :




(yt [
y b
x] bxt )xt = 0

(yt y b(xt x
))xt = 0
b =
=
=
=


(y y)xt
 t
(xt x)xt

)
(yt y)(xt x

2
(xt x
)

x y n
xy
 t 2t
x2
x n
 t

(x x)yt
 t
=
wt yt
)2
(xt x

o`
u:

)
(xt x
.
wt = 
)2
(xt x

Il est facile de verier, de meme, que a
= zt yt , avec:
zt =

1
x
wt
n

Les deux estimateurs a


et b sont donc des fonctions lineaires des yt .
Les wt et zt poss`edent des proprietes quil est utile de noter:

(1)
wt = 0

(2)

wt2 = 

1
(xt x)2

SECONDE PARTIE, CHAPITRE I

(3)

wt xt = 1

(4)

(5)

zt2

49

zt = 1

 2
1
x2
xt
= +
= 
2
n
)
n (xt x
)2
(xt x


(6)

(7)

zt xt = 0

.
wt zt = 
)2
(xt x

Exemple: soient les n = 5 observations suivantes sur les yt et les xt :


xt
1
2
3
4
5

yt
2
4
5
7
10
On a

xt = 15 ,

yt = 28 ,

x2t = 55 ,

xt yt = 103 ,

103 (15)(28)/5
55 (15)2 /5

28
(1.9)
5

15
5

yt2 = 194 .

1.9

0.1 .

P. DESCHAMPS, COURS DECONOM


ETRIE

50

1.4 Moments des estimateurs de moindres carr


es
1.4.1 Esp
erances math
ematiques.
Nous allons verier que a
et b sont des estimateurs sans biais de a et de b. On a

a =

et

b =

et

zt yt

E(
a)

wt yt

E(b)

zt (a + bxt + ut )

a+0+

E(a) +

zt + b



zt xt +

zt ut
zt E(ut ) = a

wt (a + bxt + ut )

0+b+

E(b) +

wt + b



wt xt +

wt u t
wt E(ut ) = b.

1.4.2 Variances.
La variance de b se calcule comme :

V (b)

Mais b b =

zt ut


2
E b E(b)

E(b b)2 .

wt ut comme nous lavons montre. On a alors:

wt u t

SECONDE PARTIE, CHAPITRE I

V (b)

=
=



wt u t

2

n
n1
n

 
E
wt2 u2t + 2
wi wj u i u j
t=1

51

n


i=1 j=i+1

wt2 E

u2t

t=1

n


wt2

t=1

2
)2
(xt x

puisque E(u2t ) = 2 , et puisque E(ui uj ) = 0 pour i = j.


On a par ailleurs

V (
a)

=
=
=
=



2

= E
zt ut
E (
a a)

zt2 par le meme argument que precedemment
2


2
1
x

2
+
2
n
(xt x
)
 2
xt
2 
.

n (xt x
)2

1.4.3 Covariance.

Cov(
a, b)

=
=
=

E(b b)(
a a)
 


zt ut
E
wt u t

n
n 


E
wt zt u2t +
wi zj ui uj
t=1



2 

i=1 j=i




wt zt

(xt x
)


wt
x
wt2
n

P. DESCHAMPS, COURS DECONOM


ETRIE

52

1.5 Convergence en probabilit


e
On verie facilement `a laide de ces moments que plim b = b et plim a
= a:
 
E b = b et
E (
a) = a et

 
V b = n

2
0
)2 n
t=1 (xt x

V (
a) 0,
n

 2
xt /n
car: V (
a) = 
0
)2
(xt x
2

sous la condition susante que limn

x2t
n

existe.

1.6 Interpr
etation matricielle
En reunissant toutes les observations sur lequation de regression yt = a + bxt + ut , il
vient:

y1



y2


.
..




x1
1
u1






x2
1
u2



a+ b+
.
.
.
..
..
..






1

yn

xn

x1

xn

.
..

un

u1


u
x2 a
2
+
.
..
b
..
.


un

ou: y = X + u.
Les equations normales peuvent secrire:



yt
n
a + b
xt =





a
xt + b
x2t =
xt yt

SECONDE PARTIE, CHAPITRE I

53

ce qui implique:

a
yt
=

 2


xt
xt yt
b


n
xt

xt

(X  X) = X  y
La matrice (X  X)

n


xt

= = (X  X)

Xy

peut secrire:



xt

x2t


=


n (xt x
)2


= 

)2
(xt x

x2t /n

x2t

xt

xt

On sapercoit quen multipliant cette matrice par 2 , on obtient la matrice:

V (
a)

 
Cov a, b

 
Cov a
, b

 
V b

Ceci peut etre generalise! En ajoutant des variables explicatives supplementaires (des
colonnes a` la matrice X) on obtient le mod`ele de regression multiple.

(xt x)2 = 0,
On note limportance de lhypoth`ese H5 : si xt = pour tout t,
det X  X = 0 et les equations normales nont pas de solution unique.
1.7 Th
eor`
eme de Gauss-Markov

Nous ne verrons ici quun cas particulier de ce theor`eme (une version plus generale sera
vue en regression multiple).
Nous avons vu que les estimateurs de moindres carres sont sans biais et convergents.
Sont-ils de variance minimale? La reponse est: oui, dans la classe des estimateurs sans biais
et lineaires. Nous allons verier cette propriete dans le cas de b.
Un estimateur lineaire arbitraire de b peut secrire comme:

P. DESCHAMPS, COURS DECONOM


ETRIE

54


ct (a + bxt + ut )
ct yt =



a
ct + b
ct xt +
ct ut ,


=
=

 

une condition necessaire et susante pour que E b = b pour tout (a, b) est
ct = 0,
ct xt = 1. Alors:
 
V b

2


2

ct ut
E bb = E

c2t .
2

=
=

 
On va minimiser cette variance sous la contrainte E b = b et montrer que la solution
est ct = wt .
Comme la minimisation de V (b) est equivalente a` celle de V (b)/ 2 , le Lagrangien secrit:

c2t

+ 1

ct + 2



ct xt 1

et les conditions de premier ordre sont donc:

= 2ct + 1 + 2 xt = 0
ct

(t = 1, . . . , n)

Pour eliminer 1 et 2 `a laide des contraintes, nous pouvons utiliser:


n


ct
t=1

n


xt
c
t
t=1

n

t=1
n


ct + n1 + 2

t=1

En utilisant les contraintes

ct = 0,

n1 + 2
2 + 1

n


ct xt + 1

n


xt

xt
x2t

xt = 0

t=1

xt + 2

t=1

n


x2t = 0 .

t=1

ct xt = 1:

n


xt = 0

xt + 2

1
2

x2t = 0

0
2

SECONDE PARTIE, CHAPITRE I

55

Linverse de la matrice des coecients a dej`a ete calculee ((X  X)1 ). On peut donc
calculer la solution du syst`eme comme:

xt


)2
(xt x


2
2/ (xt x
)

(xt x
)2

x2t

xt

2
x/

=0:
ct

En substituant ces valeurs dans

xt
+ 2
2
)
)2
(xt x
(xt x

2ct

2 

ct

)
(x x
 t
= wt
)2
(xt x

Cette valeur de ct minimise donc bien la variance sous la contrainte que lestimateur
soit sans biais.
1.8 Estimation de la variance des erreurs
Les variances et la covariance calculees dans les sections 1.4.2 et 1.4.3 dependent du
param`
2 . Une procedure naturelle serait de calculer la variance dechantillon
 etre inconnu
1
2
(
ut u
) , et de corriger un biais eventuel, pour arriver a` un estimateur de 2 .
n
En fait,



2 =  u
2t
ut u

u
t



car

yt a
bxt


=

a b
yt n

xt

en vertu de la premi`ere equation normale (Section 1.3). Nous allons prouver que
E
et que donc s2 =

1
n2



u
2t


=

(n 2) 2

u2t est un estimateur sans biais de 2 .

P. DESCHAMPS, COURS DECONOM


ETRIE

56

Nous avons:

u
t

Alors

u2t

=
=

yt a
bxt

=
=

a + bxt + ut (
y b
x) bxt
a + bxt + ut a b
x u + b
x bxt

ut u
+ (b b)(xt x
) .



2
2
2

(ut u) + (b b) (xt x
) + 2(b b)(xt x)(ut u
)



(xt x
)2 + (b b)2
)2 + 2(b b)
(xt x
)(ut u
) .
(ut u

Mais


)
(xt x)(ut u

=
=

puisque
Donc


u2t

wt (ut u
) =

=
=








wt (ut u
(xt x
)
)

(b b)
(xt x)2
2

wt ut = b b.

(ut u
)2 + (b b)2
(ut u
)2 (b b)2




(xt x
)2 2(b b)2
)2
(xt x

(xt x
)2

Calculons separement lesperance de chacun de ces termes.



(ut u
)




(xt x
E (b b)2
)2



2 .

u2t


1  2
n
(
ut ) = n 2 2 = (n 1) 2
n
n

 2 
u
t = (n 2) 2 , Q.E.D.
Et donc E
On peut interpreter la division par n 2 de la mani`ere suivante. Precedemment (`a la
section 4.1 de la premi`ere partie), nous avions vu que pour obtenir un estimateur sans biais
de la variance, on devait diviser par n 1 la somme des carres des deviations par rapport a`
la moyenne. Cette division par n 1 etait en fait due `a la presence dune condition liant les

SECONDE PARTIE, CHAPITRE I

57

deviations par rapport a` la moyenne: la somme de ces deviations est identiquement nulle.
Dans le cas qui nous occupe, nous avons deux conditions liant les residus u
t , a` savoir:
n


ut = 0

t=1
n


ut xt = 0

t=1

Si nous connaissons n2 des residus, nous pouvons determiner les valeurs des deux derniers
`a laide de ces conditions.
1.9 D
ecomposition de la variance: le coecient de d
etermination


(yt y)2
, peut etre decomposee
n
en une somme de deux variances, celle des y (partie expliquee par la regression) et celle
des u (partie residuelle). Ceci nous permettra de denir le coecient de determination, qui
permet de mesurer la qualite de lajustement lineaire.
Nous allons voir que la variance totale des y, soit

A cette n, nous prouverons que :



(yt y)2
soit

SCT

2
yt y

SCE

u
2t

SCR .

En guise detape preliminaire, demontrons une formule de calcul commode pour



 2 
Lemme
u
t = (yt y)2 b2 (xt x)2
D
emonstration
u
t

= yt a bxt
(yt y) b(xt x
) .

yt yt

=
=

Donc


Mais

u
2t =

2
(yt y) 2b

(xt x) (yt y) = b

(xt x
) (yt y) + b2
2

(xt x
)

donc

)
(xt x

u
2t .

P. DESCHAMPS, COURS DECONOM


ETRIE

58

u
2t =

(yt y) b2

(xt x
)

Q.E.D.

Pour prouver que SCT = SCE + SCR, il sut alors de montrer que :
b2

)2 =
(xt x

(
yt y)2

Mais ceci est evident car :




(
yt y)2 =

(
a + bxt a
b
x)2

On denit alors le coecient de determination comme :


R2

SCE
SCT

SCR
SCT

et lon a 0 R2 1 . Plus R2 est proche de lunite, plus grand est le pourcentage de la


variance totale expliquee par la regression, et meilleure est donc la qualite de lajustement.
Mentionnons d`es `a present une interpretation statistique plus ne du R2 . Nous demontrerons, en regression multiple, que si b = 0, (n 2)R2 /(1 R2 ) suit le carre dune loi
de Student avec n 2 degres de liberte. Avec un seuil de signication , le R2 sera donc
bon si:
(n 2)R2
> t2n2,/2
1 R2

SECONDE PARTIE, CHAPITRE I

59

1.10 Exemple num


erique
Poursuivons lexemple de la section 1.3. Nous avions trouve les valeurs a
= 0.1 et
b = 1.9. On a de plus:
x

5.6

(xt x
)2

(yt y)2

u
2t

10

37.20

37.20 (1.9)2 (10)

s2

s2b

s2a

sab

R2

1.10

1.10
= 0.37
3
0.37
= 0.037
10 

1
9
= 0.403
0.37
+
5 10
(0.37)3
= 0.11

10
1.10
1
= 0.97 .
37.20

Nous pouvons presenter ces resultats comme:

yt = 0.1
(0.635)

1.9 xt

(R2 = 0.97)

(0.192)

o`
u les nombres entre parenth`eses sont les estimations des ecarts-types des coecients
estimes. On peut aussi les presenter comme:
yt = 0.1
(0.157)

+ 1.9

xt

(R2 = 0.97)

(9.88)

o`
u les nombres entre parenth`eses sont les rapports entre les coecients estimes et les
estimations de leurs ecarts-types. On appelle ces rapports les rapports t (t-ratios); ils nous
serviront dans le cadre des tests dhypoth`eses.

P. DESCHAMPS, COURS DECONOM


ETRIE

60

CHAPITRE II.

LA REGRESSION
SIMPLE: INTERVALLES
`
DE CONFIANCE ET TESTS DHYPOTHESES

2.1 Tests sur les coecients individuels


a
et b ne sont que des estimateurs ponctuels de a et de b. Dans ce chapitre, nous nous
eorcerons denoncer des jugements de probabilite du type :


P b b b = 1 , o`
u est une constante appelee niveau de signication.
Un tel jugement de probabilite doit se lire :
Jai une probabilite de 1 de ne pas me tromper lorsque jarme que b est compris
entre b et b.
Les bornes b et b vont dependre de b et de sa variance. Elles sont donc aleatoires, au
meme titre que b.
Elles dependront
de la distribution de b. Si cette distribution est symetrique autour

 aussi
de b, lintervalle b, b aura b comme point median. Ce sera le plus petit intervalle ayant
une probabilite 1 de contenir b.
Il nous faut donc maintenant specier la distribution de a
et b, ce qui necessite une
hypoth`ese sur la distribution des erreurs ut . Si nous faisons lhypoth`ese de normalite :
:

H6

ut N (0, 2 )



a
= a + zt ut et b = b + wt ut seront normales, puisque ce sont alors des combinaisons
lineaires de variables normales independantes.
, b et b?
Quelles seront alors les formes de a, a
Si 2 etait connue, nous aurions :
b b
N (0, 1)
b

avec

b2

2

(xt x)2

et

aa

N (0, 1)
a


a2

1
n

x2

)2
(xt x


.

SECONDE PARTIE, CHAPITRE II

61

Nous pourrions alors ecrire, par exemple,



P

b b

z/2
b

z/2


1

o`
u z/2 est la valeur de la variable normale reduite ayant une probabilite
depassee.

detre

Nous aurions alors :





P b z/2 b b b + z/2 b

Les bornes cherchees sont donc :

b z/2 b

et b

b + z/2 b

En pratique, 2 est inconnue. Que se passe-t-il lorsquon la remplace par son estimation
sans biais


u
2t
n2

Pour reprendre lexemple de b :


b b
sb

b b



u
2t
1

n 2 (xt x)2

b b

1

)2
(xt x
 
u
2t
2 (n 2)

2
=

def

N
D

N est une variable normale reduite. Nous prouverons rigoureusement plus loin que


u
2t

P. DESCHAMPS, COURS DECONOM


ETRIE

62

est une variable 2 avec n 2 degres de liberte, independante de la variable N . Par


denition, le rapport N
es de liberte.
D est alors une variable Student avec n 2 degr
Donc :

b b
tn2
sb

aa

tn2
sa

et, de mani`ere analogue

et les intervalles de conance sont donnes par :




P b tn2; 2 sb b b + tn2; 2 sb


P a
tn2; 2 sa a a
+ tn2; 2 sa

1,
1

Pour tester :
H0 : b = b0

contre

H1 : b = b0

contre

H1 : b > b0

contre

H1 : b < b0

on ne rejettera pas H0 si b0 [b, b].


Pour tester :
H0 : b = b0
on rejette H0 si b0 < b tn2; sb

Pour tester :
H0 : b = b0
on rejette H0 si b0 > b + tn2; sb .
Des procedures analogues sont evidemment valables pour le param`etre a.
2.2 Test sur les deux param`
etres a et b
Il sagit ici du test :
H0 : a = a0

et

b = b0

contre
H1 : a = a0

ou

b = b0

ou les deux.

SECONDE PARTIE, CHAPITRE II

63

Ce test nest pas equivalent a` une juxtaposition des deux tests t sur chaque coecient
de regression. Une methode bivariee simpose, et nos intervalles de conance deviennent
des ellipses. En pratique, on passe par la variable F de Fisher-Snedecor.
La statistique `a employer est:
Fobs


Q/2
s2

avec Q = n(
a a0 ) + 2n
x(
a a0 )(b b0 ) +
2



x2t

(b b0 )2


.

Q est toujours positive ou nulle; elle sera dautant plus grande que a
et b di`erent de
a0 et b0 . Or, ce sont bien les valeurs elevees dune statistique F qui conduisent a` rejeter
lhypoth`ese nulle. Par ailleurs, une valeur elevee de s2 re`ete une mauvaise qualite de
lajustement statistique; il est donc logique quelle nous fasse hesiter `a rejeter lhypoth`ese
H0 .
En regression multiple, nous demontrerons que si H0 est vraie, Fobs a la distribution
F2,n2 . On rejettera donc H0 si
Fobs

>

F2;n2; .

Nous montrerons aussi que Fobs est egale `a (n 2)/2n fois la statistique de Wald pour
tester lhypoth`ese H0 : (a, b) = (a0 , b0 ) contre H1 : (a, b) = (a0 , b0 ). Ceci fournit une
premi`ere justication rigoureuse de lemploi de cette statistique.
2.3 Test sur une combinaison lin
eaire des coecients
Un estimateur sans biais dune combinaison lineaire = a + b des coecients a et b
est bien s
ur:
=
a + b.
An de construire un intervalle de conance pour , nous devons estimer la variance de
:

V (
a + b)

=
=

2 V (
a) + 2 V (b) + 2 Cov(
a, b)
 


x
2
2
x

1
2
2
+
+
2

n
)2
)2
(xt x)2
(xt x
(xt x


(
x)2
2
+
n
(xt x)2


.

64

P. DESCHAMPS, COURS DECONOM


ETRIE

En utilisant le meme raisonnement que precedemment (section 2.1.), on peut montrer


que :

s


a b
(
+
(xt x)2
n

x)2

tn2

et un intervalle de conance est donc donne par les deux bornes




a + b tn2; 2 s

(
x)2
2
+
n
)2
(xt x

2.4 Pr
evision
Que se passerait-il si nous voulions trouver un intervalle de conance sur une valeur
future y de y? On parlerait alors dintervalle de prevision. Supposons par exemple que
y = a+bx+u soit une fonction de consommation, que nous possedions des donnees annuelles
entre 1960 et 1981 sur la consommation et le revenu national, et que nous voulions predire
la consommation pour lannee 1982, conditionnellement `a une projection x du revenu
national pour 1982.
Sous lhypoth`ese que le mod`ele reste inchange, nous aurons:

a + bx + u et
a
+ bx sera sans biais .

a a) (b b)x est normale, de param`etres:


La variable y y = u (
E(y y ) = 0
V (y y ) = E(y y )2
= E(u2 ) + E((
a a) + (b b)x )2
puisque a
et b ne dependent que de u1 , u2 , . . . un , et que E(ui u ) = 0,
On a donc bien E(
au ) = E(bu ) = 0.

i = 1, 2, . . . , n:

Le premier terme de la somme est egal a` 2 . Le second terme peut etre calcule `a laide
des resultats de la section 2.3, en posant = 1 et = x . Nous avons donc:
E(y y )



1
(x x
)2
1+ + 
n
)2
(xt x
2

SECONDE PARTIE, CHAPITRE II

65

et les bornes de lintervalle de prevision sont donnees par



y tn2; 2

1+

)2
1
(x x
+
n
)2
(xt x

2.5 Exemple num


erique
Reprenons lexemple numerique du chapitre 1. Nous avons t3;0.025 = 3.182. Un intervalle
de conance sur b correspondant a` = 0.05 sera donc donne par:



1.9 (3.182) 0.037 , 1.9 + (3.182) 0.037 = [1.29

2.51]

On rejettera donc, par exemple, lhypoth`ese:


H0 : b = 1.2
mais on ne rejettera pas lhypoth`ese:
H0 : b = 1.5.
Pour tester:

H0 : a = 0.15 et b = 2.5
contre

H1 : a = 0.15 ou b = 2.5

on construit la statistique

Fobs


1
5(0.10 + 0.15)2 + 2 5 3(0.10 + 0.15)(1.9 2.5)
2(0.37)

2
+ 55(1.9 2.5)

18.9125/2
= 25.79 .
0.37

On a F2;3;0.05 = 9.55

et

F2;3;0.01 = 30.82

On ne rejette donc pas H0 pour = 0.01 , mais on la rejette pour = 0.05.

P. DESCHAMPS, COURS DECONOM


ETRIE

66

Un intervalle de conance sur y0 = E [y | x = 3.5] a pour bornes :


0.1 + (1.9)(3.5)
Ce qui donne

[5.636

(3.182)(0.61)

1 (3.5 3)2
+
5
10

si = 0.05.

7.464].

Un intervalle de prevision sur y6 = a + b(6) + u6 au niveau de signication = 0.01


aura pour bornes:
0.1 + (1.9)(6) (5.841)(0.61) 1 +
ce qui donne

[6.175 ,

16.426].

1 (6 3)2
+
5
10

SECONDE PARTIE, CHAPITRE III

67

CHAPITRE III

`
COMPLEMENT
DALGEBRE
MATRICIELLE

3.1. Formes quadratiques


u
Soit x un vecteur n 1. Une forme quadratique est une expression du type x Ax, o`

A est une matrice symetrique n n. Elle est dite denie non negative si x Ax 0 pour
tout x; denie positive si x Ax > 0 pour tout x = 0; semi-denie positive si x Ax 0 pour
tout x et si rang (A) = n. La meme terminologie sapplique a` la matrice A. Rappelons
sans autres commentaires quelques proprietes importantes des matrices symetriques et des
matrices denies.
3.1.1 Propri
et
es des matrices sym
etriques.
Si A = A :
(1) Ses valeurs propres sont toutes reelles.
(2) A deux valeurs propres dierentes correspondent des vecteurs propres orthogonaux.
(3) On peut associer k vecteurs propres orthogonaux `a une valeur propre de multiplicite
k.
(4) Il existe une matrice C orthogonale, dont les colonnes sont les vecteurs propres de
A, telle que:
C  AC = diag(1 , 2 , . . . , n ) o`
u les i sont les valeurs propres de A.
(5) Le rang de A est egal au nombre de valeurs propres de A non nulles.
3.1.2 Propri
et
es des matrices d
enies non n
egatives.
(1) Une matrice A dordre n est denie non negative si et seulement si (a) toutes ses
valeurs propres sont non negatives, ou (b) il existe une matrice B de dimensions
m n et de rang m telle que B  B = A.
(2) Si A est denie non negative, alors (a) aii 0 pour tout i, et (b) B  AB est denie
non negative pour toute matrice B de dimensions n m.

P. DESCHAMPS, COURS DECONOM


ETRIE

68

3.1.3 Propri
et
es des matrices d
enies positives.
(1) Si A est denie positive, alors:
A est reguli`ere.
aii > 0 pour tout i.
Si B est n m et de rang m, B  AB est denie positive (corollaire: B  B est
denie positive).
(2) A est denie positive si et seulement si:
Il existe une matrice B reguli`ere telle que A = B  B, ou:
Toutes ses valeurs propres sont strictement positives, ou:
Tous ses mineurs principaux sont strictement positifs, ou:
Tous les mineurs principaux de A alternent en signe, en commencant par
moins, ou:
Il existe une matrice D reguli`ere telle que DAD = I.
3.2 Matrices sym
etriques idempotentes
Soit A une matrice n n avec A = A et AA = A. Nous avons les resultats suivants:
3.2.1 A est r
eguli`
ere si et seulement si A = I.
D
emonstration
Si A est reguli`ere, premultiplions les deux membres de AA = A par A1 . Cela donne:
A1 AA = A1 A,
soit aussi IA = I. La reciproque est immediate.
3.2.2 Les valeurs propres de A sont 0 ou 1.
D
emonstration
Si est une valeur propre de A, Ax = x pour un vecteur x = 0. En premultipliant les
deux membres par A:
AAx = Ax,
donc aussi Ax = 2 x, en utilisant AA = A et Ax = x; nous avons alors x = 2 x, ce qui
demontre la propriete.

SECONDE PARTIE, CHAPITRE III

69

3.2.3 Le d
eterminant de A est 0 ou 1.
D
emonstration
Evidente, car le determinant dune matrice est egal au produit de ses valeurs propres.
3.2.4 Le rang de A est
egal `
a sa trace.
D
emonstration
Comme A est symetrique, il existe une matrice orthogonale C telle que C  AC =
diag(1 , 2 , . . . , n ).
On a alors:
tr A = tr CC A

tr C  AC

tr diag(1 , 2 , . . . , n )

rang de A

puisque CC  = I, et puisque les i sont egaux a` 0 ou 1, le nombre de uns etant le rang


de A.
3.3 Linversion en forme partag
ee
Soit A une matrice n n, reguli`ere, partagee comme suit:

A=

E
G

F
H

et supposons que E et D = H GE 1 F soient reguli`eres. Alors:

A1 =

E 1 (I + F D1 GE 1 ) E 1 F D1
D

GE

On verie en eet par multiplication que AA1 = I.


3.4 Notions de d
erivation matricielle
Si = (x) est un scalaire et x est 1 n:

=
x

......
x1
xn


.

P. DESCHAMPS, COURS DECONOM


ETRIE

70

De meme, si x est n 1:

/x1

..
=

.
x
/xn

Si v = v(x) et x sont des vecteurs (lignes ou colonnes) ayant respectivement n et m


elements:

v1
x1

...

vn
x1

v1
xm

...

vn
xm

= ...
x

..
.

est la matrice Jacobienne de v(x).


Dans cette notation, nous avons, si A est n m:

a11

(Ax)
=
...
x
a1m

a21

...

an1

..
= A
.

..
.
a2m

...

anm

De meme:
(x A)
=A .
x
Pour une forme quadratique, si A est n n et symetrique, on a:


Par exemple, si A =

2 1
1 3

(x Ax)
= 2Ax
x

, on a x Ax = 2x21 + 2x1 x2 + 3x22 , et

(x Ax)
x

4x1

+ 2x2

2x1

+ 6x2

2Ax .

SECONDE PARTIE, CHAPITRE IV

71

CHAPITRE IV

COMPLEMENT
DANALYSE STATISTIQUE MULTIVARIEE

4.1 La loi normale multivari


ee
La densite normale univariee, de param`etres m et 2 :


1
1
2
fX (x) =
exp 2 (x m)
2
2
peut etre generalisee `a la densite normale multivariee, fonction de densite jointe des composantes dun vecteur aleatoire:

X1
.
X = .. .
Xn
Cette generalisation est la suivante:
fX (x) = (2)

n/2

12

(det )

"
1
 1
exp (x ) (x ) ,
2

o`
u:

E (X1 )

..
=
= E (X)
.

E (Xn )
est le vecteur des esperances mathematiques des composantes de X, et est une matrice
denie positive, dite matrice de covariance, avec

[]ii

V (Xi )

[]ij

Cov(Xi , Xj )

E(Xi i )2
=

et

E(Xi i )(Xj j ) .

P. DESCHAMPS, COURS DECONOM


ETRIE

72

On a donc:

11

"
!


= E (X )(X ) = .12
..

12
22

1n

1n
..
.

...
..

.
...

nn

on ecrira X N (, ).

4.2 Fonctions lin


eaires et quadratiques de variables normales
4.2.1 Fonctions lin
eaires.
Soit X N (, ), B une matrice m n de constantes, de rang m, et A un vecteur
m 1 de constantes. Alors Y = BX + A est N (B + A, BB  ).
Nous ne prouverons pas la normalite de Y . Il est neanmoins facile de calculer E(Y ) et
la matrice de covariance V (Y ):
E(Y ) = E(BX + A) = BE(X) + E(A) = B + A
V (Y )

E [(BX + A B A) (BX + A B A) ]

E [(BX B) (BX B) ]

BE [(X ) (X ) ] B  = BB 

Exercice: Un portefeuille contient n actifs nanciers de rendements Xi , pour i = 1, . . . , n.


Ces rendements forment un vecteur X. X est aleatoire de distribution N (, ). Les sommes
investies dans chacun des n actifs
n sont de vi , pour i = 1, . . . , n, et le rendement global du
portefeuille est donc de =
e de ce rendement est egale `a U() =
i=1 vi Xi . Lutilit
a c exp(b), o`
u a, b, et c sont des param`etres strictement positifs. Montrez que la
composition du portefeuille qui maximise lesperance dutilite est donnee par le vecteur
v = 1b 1 . (On utilisera la fonction generatrice des moments dune variable normale,
obtenue a` la section 2.3 de la premi`ere partie.)
4.2.2 Sous-vecteurs dun vecteur normal.
Soit X N (, ), partage comme suit:

X =

X1
X2

n1
n n1

SECONDE PARTIE, CHAPITRE IV

73

Nous pouvons alors partager et de la facon suivante:

n1

n n1

11

12

21

22

n1

n1

n n1

n n1

alors X1 N (1 , 11 ) et X2 N (2 , 22 ).
D
emonstration
Soit B une matrice n1 n denie comme:
B

( In 1

On1 (nn1) ) .

Nous avons BX = X1 , et le theor`eme de la section 4.2.1 nous permet de determiner la


distribution de X1 . Nous avons X1 N (B, BB  ) avec B = 1 et

BB 

=
=

( In 1

On1 (nn1) )

11

12

21

22

In 1

O(nn1 )n1

11 .

La derivation de la distribution de X2 se fait de mani`ere analogue.


4.2.3 Formes quadratiques.
Soit X N (0, I) (un vecteur n 1).
Soit M une matrice non stochastique, idempotente et symetrique de rang k.
Alors X  MX 2k .
D
emonstration
En vertu des proprietes de M, il existe une matrice orthogonale C telle que

C  MC

Ik

Ok(nk)

O(nk)k

O(nk)(nk)

Soit Y = C  X. Nous avons Y N (0, C  IC), cest-`a-dire Y N (0, I). Par consequent:

P. DESCHAMPS, COURS DECONOM


ETRIE

74

X  MX

X  (CC )M(CC  )X

X  C(C MC)C  X

k
Ik O



Yi2 2k
Y =
Y
i=1
O O

4.2.4 Ind
ependance des fonctions lin
eaires et des formes quadratiques.
Soit X
B
M

N (0, I) (un vecteur n 1)


une matrice m n de rang m, non stochastique
une matrice n n idempotente et symetrique, de rang k, non stochastique.

Si BM = O, la forme lineaire BX est independante de la forme quadratique X  MX.


D
emonstration
Soit C la matrice orthogonale de la section 4.2.3 et Y = C  X.
Soit alors F = BC = ( F1 F2 ) o`
u F1 est m k.

On a
( F1

F2 )

Ik
O

BCC  MC = BMC = O,

ce qui implique F1 = O. Alors BX = BCY = F Y = (O F2 ) Y ne depend que des


n k derniers elements de Y , qui sont independants des k premiers, puisque Y N (0, I).
k
Comme X  MX = i=1 Yi2 , la proposition est demontree.
4.2.5 Ind
ependance de deux formes quadratiques.
Soit X N (0, I) (un vecteur n 1)
M une matrice n n idempotente et symetrique de rang k, non stochastique
M une matrice n n idempotente et symetrique de rang r, non stochastique.
Si MM = O , alors les formes quadratiques X  MX et X  M X sont independantes.

SECONDE PARTIE, CHAPITRE IV

75

D
emonstration
Soit C la matrice orthogonale precedente et Y = C  X.
Considerons alors la matrice symetrique:

G1

G2
On a:

G1


G2

G2
G3

Ik
O

G2

C M C

o`
u G1

est k k .

G3
O

C  M CC MC

C  M MC = O

ce qui implique G1 = O, et G2 = O, donc aussi G2 = O. Par consequent:

O O
Y
X  M X = X  CC M CC X = Y  GY = Y 
O G3
ne depend que des n k derniers elements de Y , qui sont independants des k premiers;
k
comme X  MX = i=1 Yi2 , la proposition est demontree.
4.3 Application: calcul de la distribution sous H0 de la statistique t
Test: H0 : = 0 contre H1 : = 0
Echantillon: yi N (, 2 ) independantes.
On a vu au chapitre V de la premi`ere partie que la statistique a` employer est:
tobs =

y 0

s/ n

avec s2 =

1 
2
(yi y)
n1

Quelle est la distribution de tobs si H0 est vraie? On va montrer que tobs tn1 .
Solution: on peut ecrire:

tobs

y 0

N
/ n
= 
=
2
D
(yi y)
(n 1) 2

Si H0 est vraie, N N (0, 1).


Nous montrerons au cours que:


N = Bx
(yi y)2
= x Mx
2

P. DESCHAMPS, COURS DECONOM


ETRIE

76

o`
u:

y 0 i

1
B = i
n

x=

1 
ii
n
i etant un vecteur n 1 dont tous les elements sont unitaires.
M =I

Si H0 est vraie, x N (0, I).


Nous montrerons au cours que M est symetrique, idempotente, de rang n 1; Nous
montrerons de plus que BM est un vecteur nul.
Alors le theor`eme de la section 4.2.3 implique que D est la racine dune 2n1 divisee
par n 1 et le theor`eme de la section 4.2.4 implique lindependance de N et de D.
Alors, par denition, tobs tn1 .

SECONDE PARTIE, CHAPITRE V

77

CHAPITRE V

LE MODELE
DE REGRESSION
MULTIPLE

5.1 Le mod`
ele et ses hypoth`
eses
Les notions presentees dans les deux chapitres precedents vont nous permettre de generaliser les resultats des chapitres I et II `a un mod`ele econometrique possedant un nombre
arbitraire k de variables explicatives, soit:
yt = 1 + 2 xt2 + 3 xt3 + . . . + k xtk + ut

pour t = 1, 2, . . . , n

Pour prendre un exemple, il est raisonnable de supposer quune loi de demande comprenne comme variable explicative non seulement le prix PY du bien demande, mais aussi
le prix PX dun substitut et le revenu R du consommateur. Nous aurions alors:
yt = 1 + 2 (PY )t + 3 (PX )t + 4 Rt + ut

Une formulation matricielle du mod`ele simpose. Il peut secrire sous la forme suivante:

y1
y2
.
.
.
yn

1
1
.
..

x12
x22
..
.

...
...
..
.


1
x1k
x2k 2
.
..

.
.
.

xn2

...

xnk

u1
u2
.
..
un

soit y = X + u, o`
u y est un vecteur n 1 dobservations sur la variable dependante, X
est une matrice n k dobservations sur les variables explicatives, est un vecteur k 1
de param`etres inconnus et u est un vecteur n 1 derreurs aleatoires inobservables.
Nous faisons les hypoth`eses suivantes:

H1 : E(u) = 0
H2 : E(uu ) = 2 I
H3 : X est non aleatoire
H4 : rang(X) = k < n

78

P. DESCHAMPS, COURS DECONOM


ETRIE

Lhypoth`ese H2 implique que les erreurs sont de meme variance, et non correlees. Si
lhypoth`ese H4 netait pas satisfaite, il existerait une relation lineaire exacte entre certaines
des colonnes de X: En substituant cette relation dans lequation de regression, on pourrait
alors supprimer un regresseur. Ceci revient `a dire que le vecteur ne pourrait pas etre
estime de mani`ere unique.
Notons que nous ne faisons pas encore dhypoth`eses sur la forme fonctionnelle de la
distribution de u.
5.2 Les estimateurs de moindres carr
es
Lestimateur de moindres carres sera obtenu, comme precedemment, en minimisant
Cette somme de
la somme des carres des residus. Le vecteur des residus est u
= y X .
carres peut donc secrire:

u
 u

 (y X )

(y X )





y  y X  y y X + X X





y  y 2 X y + X X .

En utilisant les r`egles de la Section 3.4, on obtient:




u
u

2X y + 2X X = 0

Comme X est de rang k, X X est denie positive, donc reguli`ere (voir 3.1.3. (1)), et
nous pouvons ecrire:

(X X)1 X y

Par ailleurs, les conditions de second ordre pour un minimum sont satisfaites, puisque
  
u

= 2X X

une matrice denie positive, ce qui montre que u u


est convexe en .

SECONDE PARTIE, CHAPITRE V

79

5.3 Moments des estimateurs de moindres carr


es

5.3.1 Esp
erance de .
est un estimateur sans biais de puisque:

E()


 

E (X X)1 X (X + u)





E + (X X)1 X u

+ (X X)1 X E(u) =

5.3.2 Matrice de covariance de .


La matrice de covariance de est alors:

V ()


E ( )( )

E (X X)

(X X)1 X E(uu )X(X X)1

2 (X X)1 (X X)(X X)1

X uu X(X X)

2 (X X)1

5.4 Le th
eor`
eme de Gauss-Markov
Nous allons montrer que est le plus ecace des estimateurs lineaires de . Plus
=
precisement, si est un autre estimateur lineaire sans biais de , cest-`a-dire si E()

et = Ay, les variances de ses composantes ne peuvent etre inferieures `a celles des

composantes de :
V (i ) V (i )

pour i = 1, 2, . . . , k

P. DESCHAMPS, COURS DECONOM


ETRIE

80

D
emonstration
Soit donc = Ay un autre estimateur lineaire de . Nous pouvons supposer sans perte
de generalite que:


A = (X X)1 X + C.
Alors:

 

= (X X)1 X + C (X + u)


= + (X X)1 X u + CX + Cu = [I + CX] + Au
est un estimateur sans biais de si et seulement si CX = O. Nous imposons donc cette
condition, qui implique que = + Au.
La matrice de covariance de est alors:



E ( )( )





E Auu A

2 AA


 




2 (X X)1 X + C X(X X)1 + C

 






2 (X X)1 + (X X)1 X C + CX(X X)1 + CC

 


2 (X X)1 + CC

+ 2 CC 
V ()

puisque CX = O

Mais les elements de la diagonale de CC sont des sommes de carres, donc non negatives.
Les variances des composantes de sont donc superieures ou egales aux variances des

composantes de .

SECONDE PARTIE, CHAPITRE V

81

5.5 Lestimation de la variance des erreurs


Comme precedemment (section 1.5) notre estimateur sans biais sera base sur
 2
)2 =
= 0. (En eet, la premi`ere ligne de la matrice (X  X) est
(
ut u
u
t puisque u




le vecteur i X avec i = [1, 1 . . . 1] ; la premi`ere composante du vecteur X y est i y. La




= i u
=
u
t = 0). Pour
premi`ere equation normale secrit alors i X = i y, ou i (y X )

uu
).
trouver, comme precedemment, un estimateur sans biais de 2 , calculons E(
Nous avons


u = y X = X + u X(X X)1 X (X + u)


X + u X X(X X)1 X u


=

I X(X X)1 X


u

def

Mu .

On verie aisement que M est idempotente et symetrique.




Alors u
u
= u M  Mu = u Mu .


)
E(
uu

E(u Mu) = E(tr u Mu)

E(tr Muu ) puisque trAB = trBA

puisque u Mu

est un scalaire

trE(Muu ) puisque la trace est une somme

trME(uu ) puisque M est non aleatoire

trM( 2 I) = 2 tr(MI) = 2 trM .

Mais trM

trIn trX(X X)1 X

trIn tr(X X)(X X)1 = trIn trIk

nk.

) = (n k) 2 et s2 =
Alors E(
uu

u
u

nk

est un estimateur sans biais de 2 .

P. DESCHAMPS, COURS DECONOM


ETRIE

82

5.6 D
ecomposition de la variance: les coecients de d
etermination R2 et R2


Nous commencons, comme `a la section 1.9, par demontrer une formule de calcul de u
u
.
Lemme




u
u
= y y X y

D
emonstration


u
u

 (y X )

(y X )






y y 2 X y + (X X)




y y X y

puisque (X X) = X y .

Nous decomposons maintenant, comme precedemment en regression simple (section 1.9),


la somme des carres totaux en une somme de deux termes:


SCT

(yt y)

2  2
yt y +
u
t ,

SCE

et

SCR .



(yt y)2 = y y

Pour demontrer cette identite, notons que




soit:

(
yt y)

2
(X )
(i X )
(X )
n



(i y)2
(X X)
n


i X + i u

(i y)2
X y
n

(puisque i y

et i u
= 0)


(i y)2
n

SECONDE PARTIE, CHAPITRE V

83





Par le lemme, nous avons y y = u
u
+ X y,


donc
cest-`a-dire

SCT

(i y)2
y y
n


SCE



2

(i
y)
= X y
+u
u ,
n


SCR ,

Q.E.D.

Il faut bien noter que cette identite nest valable que dans un mod`ele o`
u la somme des

residus est nulle (i u
= 0). Tel sera bien le cas lorsque le mod`ele de regression comporte un
terme constant, puisque i est la premi`ere ligne de X  et puisque les equations normales
= 0.
impliquent X  u
A partir de cette identite, nous pouvons denir, dans un mod`
ele avec terme constant, le coecient de determination comme:




(i y)
X y n
SCR
SCE
2
=1
=
R =

2
SCT
SCT
y  y (i ny)

u
u

e de 2 , il est preferable demployer le coefComme SCR


n = n est un estimateur biais
cient de determination ajuste, deni comme suit:

2 = 1 SCR/n k = n 1 R2 k 1
R
SCT/n 1
nk
nk
qui est, lui, base sur des estimateurs sans biais des variances. Si lon ajoute un regresseur,
2 .
R2 crotra toujours (non strictement); ceci nest pas le cas pour R
Dans un mod`
ele sans terme constant, la somme des residus nest pas necessairement nulle et la decomposition precedente (SCT = SCR +SCE) nest donc plus valable.
Le R2 precedent nest donc pas necessairement compris entre 0 et 1. Neanmoins, on a
toujours, en vertu du lemme:
 u
= y y + u
 u

y  y =  X  y + u

avec y = X .
On peut alors denir:
R2

u u
y y

=  =1 
yy
yy

qui est, lui, toujours compris entre 0 et 1. Ce coecient R2 peut etre utilise dans tous
les cas, tant dans un mod`ele sans constante que dans un mod`ele avec constante. Mais son
interpretation est dierente de celle du R2 .
Comme precedemment, nous pouvons ajuster ce dernier coecient de determination
aux nombres de degres de liberte, comme suit:
n1 2 k1
 u/(n k)
2 = 1 u
R
=
R
.


y y/(n 1)
nk nk

84

P. DESCHAMPS, COURS DECONOM


ETRIE

Interpr
etation des coecients de d
etermination:
Nous verrons plus loin que R2 est une fonction monotone de la statistique F `a employer
pour tester la nullite de tous les coecients de regression sauf la constante.
Nous verrons aussi que R2 est une fonction monotone de la statistique F `a employer
pour tester la nullite de tous les coecients, constante comprise.
On peut montrer que R2 est le carre du coecient de correlation entre les valeurs
observees yt et les valeurs yt calculees `a laide de lequation de regression estimee.
5.7 Probl`
emes particuliers: multicolin
earit
e,
biais de sp
ecication, variables muettes
5.7.1 Multicolin
earit
e.
(1) Comme nous lavons dej`a mentionne, lexistence dune relation lineaire exacte entre
les colonnes de X nous empeche de determiner lestimateur de mani`ere unique. Ce
cas est un cas extreme de multicolinearite. Mais il arrive souvent que certaines des
colonnes de X presentent une dependance lineaire approximative. Les consequences
de ce phenom`ene sont les suivantes:
un manque de precision dans les estimations des i , se traduisant par de fortes
variances;
les estimations des i presenteront souvent des distortions importantes, dues a`
des raisons numeriques. Le nombre de chires signicatifs des emplacementsmemoire dun ordinateur est en eet limite, ce qui se traduit par un manque
de stabilite des programmes dinversion matricielle, pour des matrices qui
sont presque singuli`eres.
Pour illustrer le premier point, reprenons le mod`ele de regression simple
yt = a + bxt + ut . Nous avons vu que
2
V (b) = 
)2
(xt x

La multicolinearite se traduira dans ce cas par une serie dobservations


(xt ) presque

pour tout t. On a alors (xt x)2 0, ce qui
constante, cest-`a-dire par xt x
se traduit par une forte variance de b.
(2) La multicolinearite peut etre mesuree en calculant le rapport max
min de la plus grande

`a la plus petite valeur propre de X X.
(3) Pour corriger le probl`eme de multicolinearite, on peut:
soit ajouter des observations `a lechantillon quand la chose est possible; il
faut neanmoins que les observations supplementaires ne presentent pas de
multicolinearite!
Soit introduire une information a priori. Supposons par exemple que dans la
fonction de production:

SECONDE PARTIE, CHAPITRE V

85

log Qt = A + log Kt + log Lt + ut


les variables log Kt et log Lt soient fortement colineaires. Si lon sait que les
rendements dechelle sont constants ( + = 1), on peut transformer le mod`ele
comme suit:

log Qt = A + log Kt + (1 ) log Lt + ut


ou

(log Qt log Lt ) = A + (log Kt log Lt ) + ut ,

ce qui a donc pour eet de supprimer un regresseur. Ceci peut resoudre le probl`eme. Essentiellement, linformation a priori + = 1 supplee au defaut dinformation present dans lechantillon (tentative destimer trop de param`etres avec trop
peu de donnees).
Cette information a priori peut egalement prendre une forme stochastique, non
deterministe. Nous etudierons ce point lorsque nous verrons les methodes bayesiennes.
5.7.2 Biais de sp
ecication.
Examinons maintenant le probl`eme du choix dune forme fonctionnelle, cest-`
a-dire du
choix de la liste des regresseurs. Comme nous allons le montrer, lomission dune variable

explicative a pour consequence, en general, un biais de lestimateur .


Supposons que y soit engendre par le mod`ele:
y = X + u = X1 1 + X2 2 + u

avec 2 = 0

et E(u) = 0

et que lon omette les colonnes de X2 de la liste des regresseurs. On estimerait alors par
moindres carres le mod`ele
y = X1 1 + u

avec

u = X2 2 + u

et par consequent E(u ) = X2 2 = 0. Lestimateur:




1 = (X  1 X1 )1 X1 y = 1 + (X  1 X1 )1 X1 u

sera biaise.

P. DESCHAMPS, COURS DECONOM


ETRIE

86

5.7.3 Variables muettes.


Une variable muette, ou binaire (en anglais: dummy variable) est une variable du type
Dt = 1

si t T1

Dt = 0

si t  T1

o`
u T1 {1, 2, . . . , n}.
Une telle variable, incluse dans la liste des regresseurs, pourrait par exemple indiquer
la presence ou labsence de guerre, ou classier des donnees selon un crit`ere saisonnier.
Pour des donnees mensuelles, sil ny pas de variations saisonni`eres `a linterieur dun meme
trimestre, on pourrait poser:
D1t
D2t
D3t
D4t

=1
=1
=1
=1

si
si
si
si

t
t
t
t

est
est
est
est

un
un
un
un

mois
mois
mois
mois

du
du
du
du

premier trimestre, 0 sinon


second trimestre, 0 sinon
troisi`eme trimestre, 0 sinon
quatri`eme trimestre, 0 sinon.

Les quatre colonnes des regresseurs D1 , D2 , D3 , D4 pour les 12 mois dune annee
auraient alors la forme suivante:
1

Nous ne pourrions pas inclure de constante dans ce mod`ele, puisque la somme de ces
quatre vecteurs est un vecteur de uns. On aurait alors colinearite parfaite. Les coecients
des variables Di sont en fait des constantes speciques `a chaque saison.

SECONDE PARTIE, CHAPITRE V

87

Une autre possibilite serait dinclure une constante, et de supprimer lune des variables
Di , par exemple D1 . Les coecients de D2 , D3 et D4 mesureraient alors leet relatif des
facteurs saisonniers: les constantes speciques seraient 1 , 1 + 2 , 1 + 3 , 1 + 4
plut
ot que 1 , 2 , 3 , 4 .
Notons aussi que les variables muettes permettent la specication de pentes variables.
Si Dt = 1 pour une periode de guerre, = 0 sinon, et que lon a des raisons de penser que
la propension marginale a` consommer dans le mod`ele:
Ct = + Yt + ut
est dierente en temps de paix et en temps de guerre, on pourra estimer les param`etres
du mod`ele:
Ct = + bDt Yt + c(1 Dt )Yt + ut
et b sera lestimateur de la propension marginale a` consommer en temps de guerre, c
lestimateur de cette propension en temps de paix.
5.8 Estimateurs par maximum de vraisemblance
Nous faisons ici lhypoth`ese que le vecteur u a une distribution normale:
H5

u N (0, 2 I) .

Ce qui implique que y X N (0, 2 I).


La fonction de vraisemblance secrit alors:
"
1

exp 2 (y X) (y X)
L(, ) = (2 )
2
n
n
1

et loge L = loge 2 loge 2 2 (y X) (y X)
2
2
2
2

2 n/2

Nous avons alors les conditions de premier ordre suivantes:


loge L
1
= 2 (2X  y + 2X  X) = 0

(voir Section 5.2).

loge L
n
1

=

+
(y X) (y X) = 0
2
2 2
2 4

La premi`ere condition implique = (X  X)1 X  y. En remplacant par dans la


2 =
seconde condition et en la multipliant par 2 2 , on obtient
2 par maximum de vraisemblance.

u
u

comme estimateur de

88

P. DESCHAMPS, COURS DECONOM


ETRIE

La matrice Hessienne H sobtient en derivant le vecteur

1


2 (2X y + 2X X)
2

n
1

2 + 4 (y X) (y X)
2
2
 

par rapport au vecteur


. Ceci donne:
2

1
(X  X)


(X
y
+
X
X)

2
4
H =

n
1
1


 
(y X + X X)
6 (y X) (y X)
4
2 4

En remplacant par = (X  X)1 X  y et 2 par


2 =

O1k

, on obtient:

(X  X)

1


n (y X ) (y X )

Ok1
n
4
2

2 > 0. Nous avons donc


qui est denie negative puisque (X  X) est denie positive et
bien un maximum.

SECONDE PARTIE, CHAPITRE V

89

5.9 Exemple num


erique

Une association de vignerons vaudois voudrait etudier linuence sur la production de


vin par hectare (Y ) des quantites de main-doeuvre (X1 ) et dengrais (X2 ) employees par
hectare.
Une enquete est menee chez dix vignerons (i = 1, . . . , 10) et lon postule la forme
fonctionnelle suivante:
logYi = 1 + 2 logX1i + 3 logX2i + ui
o`
u ui est un terme derreur aleatoire satisfaisant nos hypoth`eses. Les donnees de lechantillon sont resumees dans la matrice suivante:


(logY )2

logY

logY logX1


logX2 logY

logY

n



logX2

11.8

7.1

logX2 logX1

10

4.1

4.1

On a:

(X  X)

10

Xy

11.8

7 1

1 7

7.1

4.1

2 2

et

yy

logX2

logX1 logX2


(logX2 )2

logX1

19.34 11.8 7.1

logY logX2


(logX1 )2

logX1

logY logX1

19.34

P. DESCHAMPS, COURS DECONOM


ETRIE

90

(X X)

1
=
432

48

12

12 12

12

66

66


1 

= (X X) X y = 0.7

0.2

X  y

17.59

u
u

19.34 17.59

s2

0.25

R2

2
R

9
(0.677)
7

1.75

1.75
19.34

(11.8)2
10

2
7

0.677

0.585 .

Les resultats peuvent etre resumes de la facon suivante (les estimations des ecarts-types
se trouvent entre parenth`eses):

log Y = 1
(0.167)

0.7
(0.195)

log X1

+ 0.2

logX2

(0.195).

2 = 0.585)
(R

SECONDE PARTIE, CHAPITRE VI

91

CHAPITRE VI

SOUS CONTRAINTES LINEAIRES

MOINDRES CARRES

6.1 Lestimateur de sous contraintes


Nous deriverons dans ce chapitre lestimateur c du vecteur sous un syst`eme de J
contraintes independantes, qui peut secrire sous la forme:
Rc = r

o`
u R est une matrice J k de rang J , r est un vecteur J 1, et c est le vecteur des
estimateurs de sous contraintes.
Dans notre exemple precedent, nous pourrions vouloir imposer la contrainte que les
rendements dechelle sont constants, cest-`a-dire estimer les param`etres 1 , 2 , et 3 de:
logY = 1 + 2 logX1 + 3 logX2 + u ,
sous la contrainte 2c + 3c = 1, o`
u 2c et 3c sont les estimations contraintes de 2 et
3 . On aurait alors:
R

(0

1 1)

et r = 1 .

Notons que ce probl`eme pourrait aussi etre resolu par substitution; cest ce que nous
avons fait a` la section 5.7.1 (3). Mais une presentation matricielle nous sera tr`es utile
lorsque nous verrons, au chapitre 7, le test de R = r.
Nous minimisons la somme des carres des residus sous les contraintes du syst`eme
Rc = r. A cette n, nous ecrivons ce syst`eme comme 2(Rc r) = 0, et nous formons le
Lagrangien:

(y X c ) (y X c ) 2 (Rc r)

o`
u est un vecteur ligne de J multiplicateurs de Lagrange. Le syst`eme de conditions
de premier ordre peut secrire:

P. DESCHAMPS, COURS DECONOM


ETRIE

92

(1)

2X  y + 2(X  X)c 2R

(2)

2(Rc r)

0 .

En vertu de (1), on a:

(3)

+ (X  X)1 R

o`
u

(X  X)1 X  y

est lestimateur sans contraintes.

En premultipliant par R:

Rc

R + R(X  X)1 R

(en vertu de (2)) .

1


[r R].
Ceci implique = R(X  X)1 R
En substituant dans (3), il vient:

(4)


1
1

[r R]
c = + (X  X) R R(X  X)1 R

On constate que c (lestimateur contraint) di`ere de (lestimateur non contraint) par


Ce dernier vecteur sera nul si le vecteur verie
une fonction lineaire du vecteur r R.
les restrictions a priori .
6.2 Ecacit
e de lestimateur de sous contraintes
Nous allons maintenant montrer que si les restrictions a priori sont veriees par le
vecteur (c.`a.d. par les vraies valeurs des param`etres `a estimer), lestimateur c est au
en particulier,
moins aussi ecace que lestimateur ;
E(c ) =

et V (ic ) V (i ) pour tout i.

SECONDE PARTIE, CHAPITRE VI

En substituant = + (X  X)1 X  u dans

93

(4), il vient:


1 

r R R(X  X)1 X  u
X  u + (X  X)1 R R(X  X)1 R

+ (X  X)



1   1 
R (X X) X u
+ I (X  X)1 R R(X  X)1 R
sous lhypoth`ese R = r

def

+ A(X  X)1 X  u .

Comme A est non stochastique, on a E(c ) = ,


et V (c )





E c c

A(X  X)1 X  ( 2 I)X(X  X)1 A

2 A(X  X)1 A

alors:
On verie aisement que si V = 2 (X  X)1 = V (),


2 A(X  X)1 A = V V R (RV R )1 RV


ou:

V R (RV R )1 RV
V (c ) = V ()

Comme la seconde matrice de la dierence est denie non negative, les elements de sa
diagonale sont non negatifs et V (ic ) V (i ), Q.E.D.
Exemple
Reprenons le mod`ele et les donnees de la section 5.9. Nous voulons imposer la contrainte
que les rendements dechelle sont constants. On a:
r = 1,

R = [0 1

1]

r R = 1 0.7 0.2 = 0.1


R(X  X)1 R =

1
432

(66 6 + 66 6) =

10
36

P. DESCHAMPS, COURS DECONOM


ETRIE

94

et donc:

0.7


+

36
10

12

1
432

(0.1)

12

0.2

48

0.02

0.98

0.05

66
6

66

0.75
=
0.05
+
0.7

0.2


0


6 1

12 12

0.25

6.3 D
ecomposition de la somme des r
esidus contraints
Nous allons voir dans cette section que la somme des carres des residus contraints est
toujours superieure ou egale `a la somme des carres des residus non contraints. Ceci a une
consequence sur le R2 .
Soit u
c = y X c le vecteur des residus contraints. On a:
c = (y X c ) (y X c )
u
c u
= (y X + X X c ) (y X + X X c )
= (
u + X[ c ]) (
u + X[ c ])
+ 2( c ) X  u
+ ( c ) X  X( c )
=u
 u
=u
 u
+ ( c ) X  X( c ).
Mais le second terme de cette somme est positif ou nul, car X  X est denie positive.
On a donc :
c u
 u

uc u
et comme:
=1 

u
cuc
(yt y)2

R2 = 1 

u
 u
(yt y)2

R2c

ceci implique R2c R2 .


On peut aussi noter (ceci nous sera utile au chapitre suivant) que si u N (0, 2 I),
lestimateur c maximise la vraisemblance sous la contrainte Rc = r.

SECONDE PARTIE, CHAPITRE VII

95

CHAPITRE VII.

INFERENCE
STATISTIQUE EN REGRESSION
CLASSIQUE

7.1 Le test de lhypoth`


ese lin
eaire g
en
erale
Nous allons tout dabord presenter la theorie generale du test de J contraintes independantes de la forme discutee plus haut. Ce test inclut comme cas particulier tous les tests
mentionnes au chapitre II; nous reexaminerons ces tests a` la section 7.2 dans le cadre de
la regression multiple. Soit donc `a tester:
H0 : R = r
contre H1 : R = r

R etant, rappelons-le, une matrice J k de constantes connues de rang J , et r etant un


vecteur J 1.
Nous allons dabord utiliser la methode du rapport des vraisemblances pour trouver
une statistique appropriee; en utilisant les resultats de la section 4.2, nous determinerons
ensuite la distribution de cette statistique.
7.2 D
erivation de la statistique F `
a laide
du crit`
ere du rapport des vraisemblances
Nous introduisons lhypoth`ese:
H5 : u N (0, 2 I) .
La vraisemblance secrit alors:
2

2 n/2

L(, ) = (2 )

!
"
1

exp 2 (y X) (y X)
2

Rappelons la denition du rapport des vraisemblances :


=
on rejette H0 si est proche de 0.

maxH0 L(, 2 )
;
max L(, 2 )

P. DESCHAMPS, COURS DECONOM


ETRIE

96

Lestimation du mod`ele sous H0 et sous a dej`a ete traitee. On avait obtenu sous H0 :

 


 1
c = + (X  X)1 R R(X  X)1 R
r R

c2 =

1
1 
(y X c ) (y X c ) = u
u
c ,
n
n c

et sous :

= (X  X)1 X  y

2 =

1
 (y X )
= 1u
(y X )
 u.
n
n

Il sut de remplacer, dans lexpression de , et 2 par ces valeurs. En faisant les


substitutions, on obtient:
=

c2 )
L(c ,

L(,
2 )


n
c2
(2)
exp 2
2
c


=
n
2
n/2
2
n/2
(2)
(
)
exp 2
2

 2 n/2

c
=

2
  n/2
c
u
c u
=

u u

n/2
 
+u
c u
c u u

u
u
=
u
 u

n/2

Q
= 1+ 
u
u
n/2

o`
u:

(
c2 )n/2

c u
 u
.
Q=u
c u

Nous avons dej`a demontre, `a la section 6.3, que:


Q = ( c ) X  X( c ).
Nous montrerons au cours que, de plus:
Q = (R r) [R(X  X)1 R ]1 (R r)
et que, si H0 est vraie:

Q = u Lu,

avec:

SECONDE PARTIE, CHAPITRE VII

97

L = X(X  X)1 R [R(X  X)1 R ]1 R(X  X)1 X  .


Nous avons donc au total quatre expressions equivalentes de la forme quadratique Q; la
derni`ere ne vaut que sous H0 . Selon le contexte, certaines de ces expressions seront plus
utiles que les autres. La derni`ere expression nous servira, a` la section suivante, a` trouver
la distribution dune fonction monotone de sous H0 , donnee par:
F = (2/n 1)

nk
.
J

7.3 Distribution sous H0 de la statistique F


Nous invitons le lecteur a` verier, a` titre dexercice, que la matrice L denie a` la section
precedente verie:
(1)

L = L

(2)

LL = L

(3)

rang(L) = trace(L) = J

(4)

si M = I X(X  X)1 X  ,

alors LM = O.

.
Le fait que u Mu = u
 u
et les resultats de la section 4.2 impliquent alors, puisque
u

N
(0,
I):

 u   u 
Q
2J sous H0
=
L
2


u



u
u u

=
M
2nk
2

et ces deux variables aleatoires sont independantes puisque LM = O.


Par consequent:
Fobs =

Q
Q/J
Q/[ 2 J ]
=
=
J s2
u
 u
/(n k)
u
 u
/[ 2 (n k)]

est un rapport de deux 2 independantes divisees par leurs nombres de degres respectifs
et a la distribution FJ,nk sous H0 .
En utilisant:

=

Q
1+ 
u
u

n/2

P. DESCHAMPS, COURS DECONOM


ETRIE

98

il est facile de montrer que:


Fobs = (2/n 1)

nk
.
J

Les petites valeurs de correspondent donc a` de grandes valeurs de Fobs .


En utilisant:

Q=u
c u
c u
 u

il est facile de montrer que:



Fobs =

c2
1

nk
.
J

Donc pour calculer Fobs, il sut destimer les mod`eles contraints et non contraints et
de comparer les variances estimees.
7.4 D
erivation de la statistique F `
a laide du crit`
ere de Wald
A la section 5.4 de la premi`ere partie, nous avions enonce la statistique de Wald pour
le test dune hypoth`ese portant sur un seul param`etre inconnu i , et nous avions vu que
cette statistique:
(i 0 )2
W=
V (i )
pouvait etre interpretee comme le carre dune distance entre les estimations sous les hypoth`eses nulle et alternative.
Ici, nous avons un test joint de J hypoth`eses: celui de H0 : R = r contre H1 : R = r.
En posant R = , on peut considerer ce test comme celui dune hypoth`ese nulle sur .
Lexpression precedente va devenir une forme quadratique, qui peut etre interpretee comme
le carre dune distance dans un espace a` J dimensions. Lexpression precedente peut etre
generalisee comme suit:
1 (R r)
W = (R r) [V (R)]
est lestimation
o`
u est lestimation de par maximum de vraisemblance et o`
u V (R)
On a:
par maximum de vraisemblance de la matrice de covariance de R.
= (X  X)1 X  y
= R[ 2 (X  X)1 ]R
V (R)
= 2 R(X  X)1 R
=
V (R)
2 R(X  X)1 R

SECONDE PARTIE, CHAPITRE VII

99

avec
2 = u u
/n. En substituant et en utilisant Fobs = Q/(J s2 ), on obtient:
W=

(R r) [R(X  X)1 R ]1 (R r)

2



Q
J
J
=
nk 2
s
n
=

Jn
Fobs.
nk

Donc:
nk
W
Jn
est bien une fonction monotone de la statistique de Wald.
Fobs =

7.5 D
erivation de F `
a partir du crit`
ere des multiplicateurs de Lagrange
A la section 5.5 de la premi`ere partie, nous avions formule la statistique LM pour le
test dune hypoth`ese H0 : i = 0 comme:
LM =

0
V0 ()

0 etant la valeur du multiplicateur de Lagrange evaluee aux estimations contraintes des

param`etres, et V0 () lestimation contrainte de la variance de .


Dans ce cas-ci, on a J contraintes, donc un vecteur de J multiplicateurs de Lagrange.
La statistique LM va donc devenir une forme quadratique, et la variance precedente sera
remplacee par une matrice de covariance.
A la section 6.1 de la seconde partie, on a vu que le vecteur des multiplicateurs de
Lagrange pour la minimisation contrainte de la somme des carres des residus etait egal a`:
(1)

= [R(X  X)1 R ]1 (r R).

0 . Dautre part,
Comme ce vecteur ne depend pas de param`etres inconnus, il est ici egal a`
comme il est proportionnel au vecteur des multiplicateurs de Lagrange pour la maximisation contrainte de la vraisemblance, on peut lutiliser pour deriver la statistique LM (le
facteur de proportionnalite se simplie). Sa matrice de covariance est la suivante:


V () = [R(X  X)1 R ]1 V (R)[R(X


X)1 R ]1

= 2 [R(X  X)1 R ]1 .

P. DESCHAMPS, COURS DECONOM


ETRIE

100

Donc:
V0 () =
02 [R(X  X)1 R ]1

(2)
o`
u
02 = u
c u
c /n.

En utilisant (1) et (2), il vient:


 [V0 ()]1
0
LM =
0
(R r) [R(X  X)1 R ]1 (R r)

02
Q
= 2.

0
=

Montrons maintenant que Fobs est une transformation monotone de LM. On a vu a` la


section 7.2 que:
c u
 u.
Q = ( c ) X  X( c ) = uc u
Donc:
1

2 + Q/n
1

2
= 0 =
= +
LM
Q
Q
n
Q
nk 2
s
1
n 
= + 
Q
n
J
J
J Fobs + n k
=
nJ Fobs
et donc:
LM =

nJ Fobs
.
J Fobs + n k

7.6 Cas particuliers du test de lhypoth`


ese lin
eaire g
en
erale
7.6.1 Test sur un coecient individuel.
Si nous voulons tester:

H0 : i = i0
contre H1 : i = i0
la matrice R prendra la forme

SECONDE PARTIE, CHAPITRE VII

(0 0

...

0 ...

101

0)

o`
u lunite apparait en i`eme position. r est le scalaire i0 .
On obtient alors:
Fobs

(i i0 )2
F1;nk = t2nk
s2 [(X  X)1 ]ii

et la statistique
tobs

(i i0 )
#
s [(X  X)1 ]ii

suit une loi de Student avec n k degres de liberte sous H0 .


7.6.2 Test de nullit
e de tous les coecients; lien avec R2 .
Si nous voulons tester:
H0 : = 0
contre H1 : = 0 .
La matrice R nest autre que la matrice unite dordre k. Le vecteur r est le vecteur nul (de
dimensions k 1).
On a alors:
Fobs

 (X  X)/k
Fk;nk
s2

sous H0 .

Il est interessant detablir un lien entre cette statistique et le R2 , car ceci nous permettra
denoncer des valeurs critiques pour ce dernier. La statistique peut secrire:

  
nk
y y
Fobs =
u
 u

k
 



y y/y y
nk
=
u
 u
/y  y
k




nk
R2
.
=
1 R2
k
Donc Fobs est bien une fonction monotone du R2 . Sa reciproque est donnee par:
R2 =

kFobs
n k + kFobs

102

P. DESCHAMPS, COURS DECONOM


ETRIE

et R2 est donc signicatif (de mani`ere equivalente, on rejettera H0 ) si:


R2 >

kFk,nk,
.
n k + kFk,nk,

Ceci indique que le seuil critique de R2 tend vers zero lorsque le nombre dobservations n
tend vers linni. Par exemple, un R2 de 0, 10 sera signicatif au seuil = 0, 05 si n = 122
et k = 2; mais il ne le sera pas pour k = 2 et n = 22.
7.6.3 Test de nullit
e de tous les coecients sauf la constante; lien avec R2 .
Le vecteur des k 1 derniers coecients de regression peut secrire:

2
..
= . .
k
Nous voulons tester:
H0 : = 0

contre = 0.

Lhypoth`ese nulle peut secrire sous la forme R = r, avec:


R = ( O(k1)1

Ik1 ) ,

r = 0.
La matrice R est donc de genre k 1 k et le vecteur r est de taille k 1; nous avons
un cas particulier du test F avec J = k 1.
Nous allons montrer que la statistique peut secrire:



R2
nk
Fobs =
1 R2
k1
et le R2 sera donc signicatif (de mani`ere equivalente, on rejettera H0 ) si:
R2 >

(k 1)Fk1,nk,
.
n k + (k 1)Fk1,nk,

En eet, le vecteur des residus dans le mod`ele contraint est le suivant:

y1 y
.
u
c = ..
yn y

et la somme des carres des residus contraints est donc:



u
c u
c =
(yt y)2 .

SECONDE PARTIE, CHAPITRE VII

Par consequent:
Q=u
c u
c u u
=

103

(yt y)2 u
 u

Q

= 1 (1 R2 ) = R2
(yt y)2



et donc:
Fobs =

u
 u

= 1 R2
(yt y)2

u
c u
c u u

u
 u

nk
R2 n k
=
k1
1 R2 k 1

.
7.6.4 Test sur une combinaison lin
eaire des coecients.
Nous avons ici le test:
H0 : c = r
contre H1 : c = r
o`
u c est un vecteur k 1 de constantes et r est un scalaire. La statistique `a employer
prend alors la forme suivante:
Fobs

(c r)2
F1;nk = t2nk
s2 (c (X  X)1 c)

et la statistique:
tobs

c r
#
=
s c (X  X)1 c

suit donc une loi de Student avec n k degres de liberte sous H0 .


7.6.5 Test de stabilit
e structurelle (Chow).
Ce test, comme on va le voir, est un cas particulier du test F . On va diviser la periode de
lechantillon en deux sous-periodes de nombres dobservations n1 > k et n2 > k, et etudier
la stabilite des coecients de regression dune sous-periode a` lautre. Sous lhypoth`ese nulle
(stabilite structurelle), les coecients sont les memes; sous lhypoth`ese alternative, ils sont
dierents.
Si lon na pas de stabilite structurelle (hypoth`ese alternative), le mod`ele secrit:

y=

y1
y2


=

X1
O

O
X2



1
2


+

u1
u2

P. DESCHAMPS, COURS DECONOM


ETRIE

104

o`
u y1 et u1 sont n1 1, y2 et u2 sont n2 1, X1 est n1 k, X2 est n2 k, et 1 et 2 sont
k 1. Sous lhypoth`ese alternative, 1 = 2 . On a ici 2k regresseurs. On veut tester:
H0 : 1 = 2

contre H1 : 1 = 2 .

Sous lhypoth`ese nulle, le mod`ele precedent peut secrire:



 
  
X1
u1
y1
=
+
y2
X2
u2
o`
u = 1 = 2 . On a ici k regresseurs.
Le nombre de contraintes imposees sous H0 est donc de J = k. Le nombre de degres de
liberte dans le mod`ele non contraint est de n 2k = n1 + n2 2k.
La statistique est donc:

 
c u
 u
n 2k
u
c u
.
Fobs =
u u

k
Le mod`ele contraint correspond aux hypoth`eses classiques avec:


X1
X=
.
X2
Donc, en utilisant le lemme de la section 5.6:
u
 u
c = y  y  X  y = y  [I X(X  X)1 X  ]y = y  My.
c

Dans le mod`ele non contraint, on a comme matrice de regresseurs:




X1 O
X =
O X2


et comme vecteur de coecients:


=

1
2


.

Par consequent la somme des carres des residus dans le mod`ele non contraint est de:
u
 u = y  y  X  y = y  [I X (X  X )1 X  ]y = y  M y.

On peut facilement voir que:


y  M y = y1 M1 y1 + y2 M2 y2
avec:

M1 = In1 X1 (X1 X1 )1 X1


M2 = In2 X2 (X2 X2 )1 X2 .

et u
c u
c par les valeurs trouvees, on obtient:
En remplacant, dans lexpression de Fobs , u u


 


n 2k
y My y1 M1 y1 y2 M2 y2
Fobs =
y1 M1 y1 + y2 M2 y2
k
et on rejette lhypoth`ese de stabilite structurelle si:
Fobs > Fk,n2k,.

SECONDE PARTIE, CHAPITRE VII

105

7.7 Intervalles de pr
evision
Supposons que nous observions k valeurs futures des k regresseurs `a une periode
suivant la derni`ere periode de lechantillon. Ces valeurs forment un vecteur de dimension
1 k, soit x .
Nous desirons, comme precedemment (section 2.4), calculer un intervalle de prevision
centre sur la prevision y de la variable dependante.
Si le mod`ele reste inchange `a la periode , on a:
y = x + u
avec:

E(u u1 ) = = E(u un ) = 0

et:

y = x .
Sous lhypoth`ese u N (0, 2 ), trouvons la distribution de lerreur de prevision:
y y = u x ( ) .
Cest une variable normale de param`etres:
E(y y )
V (y y )

E(u2 ) + E(x ( ))2 2 Cov(u , x ( )) .

Mais la covariance est nulle, puisque ne depend que des erreurs u1 , u2 , . . . , un de


lechantillon qui sont independantes de u par hypoth`ese. On a alors:
V (y y )



2 + E x ( )( ) x

2 + 2 x (X  X)1 x

Considerons alors les variables

y y
1 + x (X  X)1 x


et W

u u

2
(n k)

P. DESCHAMPS, COURS DECONOM


ETRIE

106

V est une variable N (0, 1). u2u est une variable 2 avec n k degres de liberte, puisque
N (0, 1), u
 u
= u Mu et rang M = n k (section 4.2).
Les deux sont independantes puisque V ne depend que de u et de:
( ) = (X  X)1 X  u

et que:



(X  X)1 X  I X(X  X)1 X  = O.

Nous pouvons en deduire que


V
W

tobs

y y
#
tnk
s 1 + x (X  X)1 x

et lintervalle de prevision cherche a pour bornes


y

nk;
2

$
s 1 + x (X  X)1 x

7.8 Exemple num


erique
Reprenons le mod`ele et les donnees de la Section 5.9.
7.8.1 Testons lhypoth`ese que la quantite dengrais X2 ne contribue pas a` la production
de vin.
Nous avons:
H0 : 3 = 0
H1 : 3 = 0

tobs

0.2
#
0.5 66/432

1.023 .

Comme t7;0.025 = 2.365 > 1.023, nous ne rejetons pas H0 au seuil de signication
= 0.05.

SECONDE PARTIE, CHAPITRE VII

107

7.8.2 Testons maintenant lhypoth`ese

H0 : 1 = 1,
contre

H1 : 1 = 1

2 = 1,

3 = 0

ou 2 = 1

ou 3 = 0

Ceci donne:

Fobs

(0
3(0.25)

10 2

0.3 0.2 ) 2

1 0.3

1.053 < 4.35 = F3;7;0.05

0.2

On ne rejette donc pas lhypoth`ese H0 .


7.8.3 Si nous voulons tester:

H0 : 1 = 0.5

et 2 = 0.5

H1 : 1 = 0.5

ou 2 = 0.5 .

Nous construisons la statistique:

Fobs

=
On rejette donc H0 .

432
( 0.5 0.2 )
2(0.25)
5.949 > 4.74 = F2;7;0.05

48

12

12

66

0.5
0.2

P. DESCHAMPS, COURS DECONOM


ETRIE

108

7.8.4 Si nous voulons tester lhypoth`ese que la production de vin ne depend pas des facteurs
X1 et X2 , nous avons:

H0 : 2 = 0

et 3 = 0

H1 : 2 = 0

ou 3 = 0

Ceci donne:
Fobs

R2 /2
(1 R2 )/7

7.332 > 4.74

F2;7;0.05

On rejette donc lhypoth`ese dindependance.


7.8.5 Enn, si nous voulons tester lhypoth`ese que les rendements dechelle sont constants:

H0 : 2 + 3 = 1
H1 : 2 + 3 = 1 .
Nous avons c = ( 0

1 1 ) et

r=1.

On a

c (X  X)1 c

(0
432

120
432

48

12
1 1)

12

12
66
6

Ceci donne
tobs

1 0.7 0.2
#
(0.5) 120/432

0.379 < t7;0.025 = 2.365 .

0.1
(0.5)(0.527)

Nous ne rejetons donc pas lhypoth`ese de rendements constants.


6
1

66
1

12

SECONDE PARTIE, CHAPITRE VII

109

7.8.6 Supposons quun onzi`eme vigneron vaudois engage 2 unites de main-doeuvre (X1 )
et emploie 3 unites dengrais (X2 ). Entre quelles bornes sa production de vin aura-t-elle
95 chances sur 100 de se situer? On a:

loge 2

0.69315

loge 3

1.09861

loge y11

1 + (0.7)(0.69315) + (0.2)(1.09861)

1.70493

x11 (X  X)1 x11 =

1
432

(1

48

0.69315 1.09861 ) 12

12

12

12

66

6 0.69315 = 0.2482.

66

1.09861

Alors les bornes de lintervalle sont


1.70493

(2.365)(0.5)

1.2482 soit

[0.384 ;

3.026]

et la production y11 a 95 chances sur 100 de se situer dans lintervalle



[1.468 ;

20.616]

(valeur mediane = exp

0.384 + 3.026
2


= 5.5) .

P. DESCHAMPS, COURS DECONOM


ETRIE

110

CHAPITRE VIII

GEN
ERALIS

MOINDRES CARRES
ES:
LA METHODE
DE AITKEN

8.1 Introduction
Dans beaucoup de mod`eles econometriques, lhypoth`ese que les erreurs sont de variance
constante et ne sont pas correlees entre elles ne peut pas etre faite. Cest ainsi que dans
notre exemple numerique precedent, la production de vin par hectare de deux agriculteurs
voisins pourrait fort bien etre inuencee par des conditions exog`enes (meteorologiques ou
autres) communes, ce qui se traduirait par une correlation des erreurs.
Que se passerait-il si lon appliquait la methode des moindres carres ordinaires a` un tel
mod`ele? Nous verrons plus loin que les estimateurs i obtenus seraient toujours sans biais,
mais quils seraient inecaces; de plus, les estimateurs de leurs variances seraient biaises.
La methode de Aitken permet heureusement de remedier dans une large mesure `a cet
etat de choses.
8.2 Exemples
8.2.1 Agr
egation des donn
ees.
On veut estimer les param`etres du mod`ele y = X + u avec E(u) = 0 et E(uu ) = 2 I,
avec y = Gy, X
= GX. Pour prendre
mais lon ne dispose que de donnees agregees y et X
un exemple, supposons que les donnees que lon poss`ede soient les moyennes des deux
premi`eres observations, des trois suivantes et des quatre derni`eres. La matrice G a alors la
forme suivante:

1/2

1/2

1/3

1/3 1/3
0

1/4 1/4

1/4 1/4

SECONDE PARTIE, CHAPITRE VIII

111

On estimerait le vecteur sur la base du mod`ele:


Gy = GX + Gu
soit aussi:

+ u.
y = X

La matrice de covariance de u est donc:


E(
uu ) = E(Guu G ) = 2 GG

1/2
0
0

2
= 0
1/3 0

1/4

qui nest pas une matrice scalaire.


Ceci est le probl`eme dheteroscedasticite, qui sera etudie au chapitre IX.
8.2.2 Erreurs autor
egressives.
Un autre exemple de mod`ele de regression o`
u la matrice de covariance des erreurs nest
pas scalaire est le mod`ele `a erreurs autoregressives, o`
u E(ut uts ) = s 2 avec | |< 1. Ce
mod`ele sera traite en detail au chapitre IX.
8.2.3 Equations simultan
ees.
Ce mod`ele tr`es employe, est d
u a` A. Zellner (Seemingly unrelated regressions and
tests for aggregation bias, Journal of the American Statistical Association 57 (1962), pp.
348368). Nous avons les N equations de regression suivantes:
yi = Xi i + ui

pour i = 1, . . . , N

ou, sous forme matricielle:

y1

.
..

yN

X1
O

O
X2

...
...

..
.

O
O
..
.

.
..

...

.
..

u1

uN

XN

o`
u les yi sont des vecteurs T 1, les Xi sont des matrices T ki , les i sont des vecteurs
ki 1, et les ui sont des vecteurs T 1. On fait lhypoth`ese E(ui uj ) = ij I. Nous avons
donc labsence de correlation dans le temps, mais pas entre les equations (les erreurs de

P. DESCHAMPS, COURS DECONOM


ETRIE

112

deux equations dierentes sont correlees `a la meme periode). Si lon ecrit lequation de
regression precedente comme y = X + u, la matrice de covariance du vecteur u secrit:

u1 u1

E(uu ) = E ...
uN u1

...
..
.
...


u1 uN
11 IT
.. = ..
.
.

1N IT
uN uN

...
..
.

1N IT
..

...

N N IT

et nest donc ni diagonale, ni scalaire.


8.3 Lestimateur de Aitken et ses propri
et
es
Nous avons donc le mod`ele general:
y = X + u
avec E(u) = 0 et E(uu ) = 2 , o`
u est une matrice denie positive, supposee (temporairement) connue. Pour des raisons de commodite, nous utiliserons parfois la notation
V = 2 .
Nous allons voir quil existe une transformation lineaire du mod`ele, soit une application (y, X, u) (y , X , u ) telle que u verie les hypoth`eses du mod`ele de regression
classique. On peut alors appliquer la methode des moindres carres ordinaires au mod`ele
transforme.
Comme la matrice est symetrique, il existe une matrice orthogonale C telle que

C C = diag(1 , 2 , . . . , n ) = , o`
u les i sont les valeurs propres de . Comme est
def

denie positive, i > 0 pour tout i. Denissons alors

1/2


= diag

1
1
,...,
1
n


.

Nous avons 1/2 1/2 = I, soit aussi 1/2 C  C1/2 = I, ou T T  = I avec


T = 1/2 C  .
Il est facile alors de montrer que T denit une transformation lineaire du mod`ele (et
donc en particulier des erreurs) qui permet de retrouver les hypoth`eses faites en regression
classique.
En premultipliant y = X + u par T , on obtient en eet y = X + u avec u = T u.
Calculons la matrice de covariance de u . On a


E(u u ) = E(T uu T  ) = T E(uu )T  = 2 (T T  ) = 2 I

Notons enn que 1 = T  T . On obtient, en eet, en premultipliant legalite T T  = I


par T 1 et en la postmultipliant par (T  )1 :
= T 1 (T  )1


1
soit 1 = T 1 (T  )1
= T T

SECONDE PARTIE, CHAPITRE VIII

113

Si lon applique la methode des moindres carres ordinaires au mod`ele transforme T y =


T X + T u, on obtient:
mcg

(X  T  T X)1 X  T  T y

mcg

(X  1 X)1 X  1 y

(X  V 1 X)1 X  V 1 y

soit aussi:

et lon a:
= E( )( ) = 2 (X  T  T X)1 = 2 (X  1 X)1
V ()

Un estimateur sans biais de 2 est obtenu comme auparavant par:


s2

1
nk

u
u

1
nk

(y X mcg ) (y X mcg )

1
nk

(y X mcg ) T  T (y X mcg )

1
nk

(y X mcg ) 1 (y X mcg ) .

Passons maintenant au probl`eme de letude des proprietes de mco = (X  X)1 X  y


lorsque E(u) = 0 et E(uu ) = 2 . Cet estimateur sera toujours sans biais (la demonstration est exactement la meme que precedemment). Mais il ne sera pas ecace. En eet,
puisque le mod`ele y = X + u satisfait les hypoth`eses du mod`ele de regression classique, le theor`eme de Gauss-Markov lui est applicable; lestimateur mcg est donc, pour ce
mod`ele, le plus ecace des estimateurs lineaires sans biais. Or, mcg = mco si = I.
Il y a plus grave. Lorsque = I, nous allons montrer que V (mco ) = 2 (X  X)1 . La
formule classique nest donc plus applicable. En eet, nous avons
V (mco )

E(mco )(mco )



E (X  X)1 X  uu X(X  X)1

2 (X  X)1 X  X(X  X)1

=

2 (X  X)1

P. DESCHAMPS, COURS DECONOM


ETRIE

114

8.4 La pr
evision dans le mod`
ele de Aitken
Nous avons donc le mod`ele y = X + u, avec E(u) = 0 et E(uu ) = 2 = V . Nous
voulons predire une valeur future y de la variable dependante, conditionnellement a` un
vecteur futur dobservations sur les k variables explicatives. Si le mod`ele reste inchange et
si u est lerreur future, nous pouvons ecrire:
y

x + u

avec E(u )

0,

E(u2 ) = 2

et E(u u) = w

(w est un vecteur colonne de taille n).


La connaissance du vecteur w des covariances entre lerreur future et les erreurs de
lechantillon va nous permettre de denir un previseur de y plus ecace que la valeur
calculee x mcg . En eet, la connaissance de ces covariances et lestimation des erreurs de
lechantillon a` laide des residus permet souvent de faire une inference statistique portant
sur lerreur future u . Les resultats de cette section sont dus `a A. Goldberger, Best linear
unbiased prediction in the generalized linear regression model, Journal of the American
Statistical Association 57 (1962), pp. 369375.
Nous voulons trouver un previseur lineaire de la forme p = c y, o`
u le vecteur c doit etre
2
2
choisi de facon `a minimiser la variance p = E(y p) , sous la contrainte que E(y p) = 0.
Comme y p = (x c X) (c u u ), cette contrainte secrit sous forme vectorielle
comme x = c X. Nous avons donc un syst`eme de k contraintes. Quant a` la variance a`
minimiser, elle peut secrire:
p2

E(y p)2

E(y p)(y p)

E(c u u )(c u u )

E(c uu c + u2 2c uu )

c V c + 2 2c w.

puisque p

est un scalaire

puisque x c X = 0

Le Lagrangien peut secrire:


L(c, ) = c V c 2c w 2(c X x )

SECONDE PARTIE, CHAPITRE VIII

115

et le syst`eme de conditions de premier ordre:


L
= 2V c 2X 2w = 0 .
c
L
= 2X  c + 2x = 0

secrit sous forme matricielle comme:

V
X

X


En utilisant la formule dinversion en forme partagee, la solution de ce syst`eme peut


secrire:



V 1 I X(X  V 1 X)1 X  V 1


(X V

X)

XV

V 1 X(X  V 1 X)1


(X V

X)

ou, en eectuant le produit:


c



V 1 I X(X  V 1 X)1 X  V 1 w + V 1 X(X  V 1 X)1 x

et

c y

w V 1 y + x (X  V 1 X)1 X  V 1 y w V 1 X(X  V 1 X)1 X  V 1 y

mcg
x mcg + w V 1 u

avec

u
mcg = y X mcg

On sapercoit donc que le meilleur previseur lineaire sans biais sobtient en ajoutant a` la
mcg , qui depend notamment du vecteur
valeur calculee x mcg un terme correcteur w V 1 u
w des covariances entre les erreurs passees et lerreur future, et du vecteur de residus umcg .

P. DESCHAMPS, COURS DECONOM


ETRIE

116

An de trouver le gain decacite entrane par ladjonction de ce terme correcteur, nous


substituons lexpression precedemment obtenue pour c dans la formule p2 = 2 2c w +
c V c. On a:
c = Mw + P  Q1 x
avec:

P = X  V 1
Q = X  V 1 X
M = (V 1 P  Q1 P ).

On verie par ailleurs par simple multiplication que:


Q1 P V P 

Q1 P V M

M V M

Alors:
c V c

w M  V Mw + w M  V P  Q1 x + x Q1 P V Mw + x Q1 P V P  Q1 x

w Mw + x Q1 x

De meme:

c w = w Mw + x Q1 P w

et donc, en substituant plus haut:


p2 = 2 w Mw + x Q1 x 2x Q1 P w

Soit maintenant p = x mcg . On verie aisement que p = c y avec c = P  Q1 x . En


remplacant c par c dans la formule de p2 , il vient:
p2

2 2
c w + c V c

2 2x Q1 P w + x Q1 P V P  Q1 x

2 2x Q1 P w + x Q1 x

p2 + w Mw

SECONDE PARTIE, CHAPITRE VIII

117

Nous allons montrer que la matrice M est denie non negative . Comme V 1 est denie
positive, il existe une matrice B reguli`ere telle que V 1 = B  B (voir 3.1.3). Nous pouvons
alors ecrire:

V 1 P  Q1 P

V 1 V 1 X(X  V 1 X)1 X  V 1



B  I BX(X  B  BX)1 X  B  B

B  NB

def

On verie par simple multiplication que N est symetrique et idempotente. Elle est alors
denie non negative, puisque ses valeurs propres sont 0 ou 1. Alors M = B  NB est denie
non negative . Par consequent, w Mw 0, et p2 p2.

118

P. DESCHAMPS, COURS DECONOM


ETRIE

CHAPITRE IX

EROSC

LAUTOCORRELATION
ET LHET
EDASTICIT
E

9.1 Erreurs autor


egressives dordre un

Cette hypoth`ese a ete introduite pour remedier au probl`eme suivant. Il arrive frequemment, dans les series chronologiques, que les residus presentent une allure cyclique: soit
un residu positif tend a` etre suivi par un residu positif, et un residu negatif par un residu
negatif; soit les signes des residus successifs alternent. Le premier cas correspond `a une
autocorrelation positive des erreurs; le second cas, `a une autocorrelation negative.
Dans un mod`ele de consommation par exemple, la presence dune autocorrelation positive des erreurs pourrait traduire une certaine inertie du comportement des agents: une
consommation superieure `a la normale aurait tendance a` se poursuivre durant plusieurs periodes successives. La presence dune autocorrelation negative pourrait traduire un phenom`ene oscillatoire, lindividu compensant par une consommation moindre a` la periode t un
exc`es de consommation `a la periode t 1.
Dans un cas comme dans lautre, lhypoth`ese de non correlation des erreurs est violee.
Il faut alors appliquer la methode de Aitken. Mais il est necessaire pour cela de decrire
formellement cette dependance des erreurs, cest-`a-dire de postuler une forme explicite de
la matrice de covariance des erreurs. On fait donc les hypoth`eses suivantes:
ut

ut1 + t ,

avec:

||

<

E(t )

E(t s )

2

(t = s)

(t = s) .

pour tout t,

Lerreur ut poss`ede donc une composante systematique ut1 et une composante purement aleatoire t .

SECONDE PARTIE, CHAPITRE IX

119

9.2 La matrice de covariance des erreurs

On la calcule facilement en resolvant lequation de recurrence ut = ut1 + t . Comme


ut1 = ut2 + t1 , on obtient:
ut

(ut2 + t1 ) + t

2 ut2 + t1 + t

2 (ut3 + t2 ) + t1 + t

3 ut3 + 2 t2 + t1 + t

soit, en remontant indeniment dans le temps:

ut =

i ti

i=0

ce qui implique:

E(ut )

i E(ti )

i=0

E(u2t )

E(2t ) + 2 E(2t1 ) + 4 E(2t2 ) + . . .

2 (1 + 2 + 4 + . . . )

2
1 2

De meme:
E(ut ut1 )

E(ut1 (ut1 + t ))

E(u2t1 ) =

2
= u2
1 2

P. DESCHAMPS, COURS DECONOM


ETRIE

120

E(ut ut2 )

E(ut uts )

E(ut2 (2 ut2 + t1 + t ))

2 E(u2t2 ) = 2 u2

s u2

Nous avons donc etabli que

...

...

..
.

..
.

..
.

n2

...


2
2
E(uu ) = u = u
...

n1

n1

n2

..
.

9.3 Transformation des donn


ees ( connu)
Si le coecient dautoregression est connu, la methode de Aitken appliquee au mod`ele y = X + u fournit le meilleur estimateur lineaire sans biais de , qui est mcg =
(X  1 X)1 X  1 y. Calculons linverse de la matrice .
On verie par simple multiplication que:

1 + 2

=
..
1 2
...
.

0
0

...

...

1 + 2

...

..
.

..

..
.

...

1 + 2

...

..
.

Comme nous lavons vu plus haut, il est avantageux de calculer mcg de la facon suivante:
On trouve dabord une matrice T telle que 1 = T  T ; on applique ensuite les moindres
carres ordinaires a` lequation T y = T X + T u. On verie egalement par multiplication
que T est donnee par:

SECONDE PARTIE, CHAPITRE IX

T =#

1 2

1 2

...

...

...

0
..
.

..
.

..
.

..

..
.

...

...

121

..

Nous pouvons laisser tomber le facteur multiplicatif qui se simplie, apparaissant a`


gauche et `a droite dans lequation transformee. Nous pouvons donc retenir comme formule
de transformation dune colonne z de la matrice des donnees [y X] la r`egle suivante:

#
( 1 2 )z1

z2 z1

z = z3 z2

..

zn zn1
et appliquer les moindres carres ordinaires aux donnees transformees.
9.4 Estimation du coecient dautor
egression

9.4.1 M
ethode de Cochrane-Orcutt.
Cette methode est la plus employee. On commence par appliquer les moindres carres
ordinaires pour obtenir un vecteur u
de residus, soit u
= [I X(X  X)1 X  ]y. On obtient
t1 . Ceci donne:
ensuite en regressant u
t sur u
n
u
t u
t1
= t=2
n
2t1
t=2 u

On applique alors la formule des moindres carres generalises en remplacant par dans
lexpression de la matrice . Soit donc:

122

P. DESCHAMPS, COURS DECONOM


ETRIE

...

n2

...

n3

..
.

..

..
.

n3

...

n2

...

= ...

n2

n1

n1

n2

..
.

1 X)1 X 
1 y. Ceci fournit un nouveau vecteur de residus u
=
On calcule = (X 

y X . Ce nouveau vecteur peut servir a` calculer une nouvelle estimation de , soit .

Cette derni`ere peut servir `a calculer une troisi`eme estimation de , et ainsi de suite. On
peut poursuivre cette procedure jusqu`a la convergence des estimations de .
9.4.2 M
ethode de Durbin.
Reecrivons lequation de regression sous la forme suivante:
yt =

k


j Xjt + ut

j=1

En retardant dune periode et en multipliant par :


yt1 =

k


(j )Xjt1 + ut1

j=1

En soustrayant cette equation de la premi`ere, on obtient, puisque ut ut1 = t :


yt = yt1 +

k

j=1

k

j Xjt
(j )Xjt1 + t
j=1

qui est une equation de regression comportant 2k + 1 regresseurs. Comme les t verient
les hypoth`eses du mod`ele de regression classique, on applique la methode des moindres carres ordinaires pour estimer . (Son estimateur est celui du coecient de yt1 ). Comme yt1
est un regresseur stochastique (il depend de t1 ), nous verrons plus loin que lestimateur
ainsi obtenu nest pas sans biais.
On remplace alors, comme precedemment, par dans lexpression de , et applique
la formule des moindres carres generalises.
Notons que lestimateur = (X  1 X)1 X  1 y sappelle parfois lestimateur Aitken
1 X)1 X 
1 y sappelle alors lestimateur Aitken-realisable.
pur ; = (X 

SECONDE PARTIE, CHAPITRE IX

123

9.5 La statistique de Durbin-Watson


Elle permet de tester lhypoth`ese nulle que = 0, contre les hypoth`eses alternatives
= 0, ou > 0, ou < 0. Sa distribution na pas pu etre determinee independamment
de la forme de la matrice X. Il existe donc une zone de valeurs de cette statistique pour
lesquelles on ne pourra rejeter ni lhypoth`ese nulle, ni lhypoth`ese alternative.
La statistique de Durbin-Watson est denie comme:
n

(
ut u
t1 )2
t=2
n
2t
t=1 u

dobs =

o`
u les ut sont les residus des moindres carres ordinaires.
Nous allons etudier ses proprietes lorsque n tend vers linni.
Plus precisement, nous montrerons que si n est susamment grand dobs est approximativement egale `a 2 lorsque = 0; a` 0 lorsque = 1; et a` 4 lorsque = 1. En eet,
n
dobs

2t +
t=2 u

puisque:

n

2 2
t=2 u
nt1 2
t
t=1 u

n

t ut1
t=2 u

n
2t 2 t=2 u
t u
t1
t=2 u
n
,
2
t
t=2 u

n

n

t=2
n

t=1

u
2t

u
2t

n

t=2
n


u
2t1

u2t

t=2

n
1
2t tend vers
Il est raisonnable de supposer que lorsque n tend vers linni, n1
t=2 u

n
1
t u
t1 tend vers Cov(ut , ut1 ) = u2 . On a alors, en divisant numerateur
u2 et n1
t=2 u
et denominateur par n 1:
dobs

2u2 2u2
= 2(1 )
u2

ce quil fallait montrer.


Les valeurs de dobs qui sont proches de 2, nous conduisent donc a` ne pas rejeter = 0;
celles qui sont proches de 0, `a rejeter = 0 en faveur de > 0; celles qui sont proches de 4,
`a rejeter = 0 en faveur de < 0. La table des valeurs critiques fournit deux valeurs, dU
et dL , pour chaque combinaison de nombres dobservations (n) et de nombres de variables
explicatives (k  = k 1). La zone dL < dobs < dU est une zone dincertitude, de meme que
la zone 4 dU < dobs < 4 dL . Pour ces valeurs de dobs , on ne pourra rejeter ni = 0, ni
= 0.

P. DESCHAMPS, COURS DECONOM


ETRIE

124

Les r`egles de decision sont resumees dans le tableau suivant (lhypoth`ese nulle est toujours H0 : = 0):

H1

dL d < dU

d < dL

> 0 Rejeter H0
<0

dU d < 4 dU

Incertain

4 dU d < 4 dL 4 dL d
Ne pas rejeter H0

Ne pas rejeter H0

= 0 Rejeter H0

Incertain

Ne pas rejeter H0

Incertain

Rejeter H0

Incertain

Rejeter H0

Note importante: Le test de Durbin-Watson ne peut pas etre employe lorsque les
regresseurs incluent des variables endog`enes retardees.
9.6 La pr
evision dans le mod`
ele `
a erreurs autor
egressives

Nous avons vu a` la Section 8.4 que le meilleur previseur lineaire sans biais dune valeur
, avec w = E(u u), V =
future y de la variable dependante etait p = x mcg + w V 1 u

E(uu ) et u
= y X mcg . Nous allons illustrer cette r`egle de prevision dans le mod`ele `a
erreurs autoregressives dordre un, en supposant = n + 1. Le vecteur w prend la forme:

E(u1 un+1)

n1

.
.

..
..
E(u2 un+1)

2
2

= u = u
w=

..

2
.

E(un un+1)
Mais u2 [n1 . . . 1] est la
2 n1
u [
. . . 1] V 1 = [0 . . . 0 1]
=
un . La
consequent, w V 1 u

derni`ere ligne de V . Comme V V 1 = I , nous avons:


et donc: w V 1 = u2 [n1 . . . 1]V 1 = [0 . . . 0 1]. Par
formule precedente secrit alors:
un
p = xn+1 mcg +

Linterpretation de cette formule est immediate. On ajoute a` la valeur calculee xn+1 mcg
un terme correcteur qui aura le signe du dernier residu de lechantillon si le coecient de
correlation entre deux erreurs successives est positif, le signe contraire sinon.

SECONDE PARTIE, CHAPITRE IX

125

9.7 Le probl`
eme de lh
et
erosc
edasticit
e
Nous avons dej`a rencontre ce probl`eme `a la section 8.2.1. Lorsquil se rencontre sous
cette forme, il est tr`es facile `a traiter: la matrice E(uu ) est en eet connue, egale `a
2 diag(k1 , . . . , kn ) o`
u les ki sont des constantes positives connues.
La matrice de transformation a` utiliser est alors bien entendu diag ( 1k , . . . , 1k ): Il
1
n
sut de multiplier les k + 1 donnees correspondant `a la t-i`eme observation par 1k pour
t
retrouver une matrice de covariance scalaire.
Il existe bien s
ur dautres formes dheteroscedasticite. Il peut etre raisonnable de supposer que la variance des erreurs augmente avec la valeur absolue de lun des regresseurs, soit,
par exemple, que E(u2t ) = 2 Xt2 . Il sut alors de multiplier les donnees correspondant `a
la t-i`eme observation par 1 2 .
Xt

Plus generalement, nous allons voir quune heteroscedasticite des erreurs peut etre induite par des variations aleatoires des coecients de regression, en illustrant cette situation
`a laide dun exemple simple. Soit donc le mod`ele:
yt = a + bxt + ut
et supposons que b = b + t , o`
u b est constant en probabilite et o`
u t est une erreur
2
aleatoire avec E(t ) = 0, V (t ) =  , E(t s ) = 0 pour t = s, et E(ut t ) = 0. On peut
alors ecrire:
yt = a + (b + t )xt + ut
= a + b xt + (ut + t xt )
= a + b xt + vt
avec vt = ut + t xt . On a E(vt ) = 0, E(vt vs ) = 0 pour t = s, mais:
E(vt2 ) = E(u2t ) + x2t E(2t )
= u2 + x2t 2
depend de lindice t.
Une solution possible, en grand echantillon, est de poser:
vt2 = + x2t + t
o`
u vt est un residu de la regression de yt sur xt par moindres carres ordinaires. On estime
2 . On utilise ensuite les moindres
+ x
et par MCO et on estime t2 = E(vt2 ) par
t
carres ponderes pour estimer a et b .

126

P. DESCHAMPS, COURS DECONOM


ETRIE

9.8 Les tests de diagnostic


9.8.1 Analyse des autocorr
elations.
On denit les coecients dautocorrelation empiriques des residus u
t des moindres carres
comme:
n
u
t u
ts
n
Rs = t=s+1
.
2t
t=1 u
Linterpretation de Rs est la suivante:
n
t u
ts est une estimation de Cov(ut , uts );
n1 t=s+1 u
n
1
2
n t=1 u
t est une estimation de V (ut ), supposee egale `a V (uts );
Rs est donc une estimation du coecient de correlation entre ut et uts , a` savoir:
Cov(ut , uts )
rs = #
.
V (ut )V (uts )
Letude du comportement des coecients dautocorrelation permet par exemple de distinguer un processus autoregressif (AR) dun processus dit `
a moyenne mobile (MA).
Pour le processus autoregressif dordre un:
ut = ut1 + t ,
on a vu a` la section 9.2 que:
V (ut ) = V (uts ) = u2
Cov(ut , uts ) = s u2 ,

et donc:

Cov(ut , uts )
= s .
rs = #
V (ut )V (uts )
Le coecient dautocorrelation theorique decrot donc geometriquement avec s. Un tel
comportement de la fonction dautocorrelation empirique Rs est donc indicatif derreurs
autoregressives.
Pour un processus a` moyenne mobile dordre un:
ut = t + t1
o`
u les t sont des erreurs fondamentales avec E(t ) = 0 pour tout t, E(2t ) = 2 pour tout
t, et E(t ts ) = 0 pour s > 0, on a:
E(ut ut1 ) = E(t + t1 )(t1 + t2 )
= E(t t1 ) + E(t t2 ) + E(2t1 ) + 2 E(t1 t2 )
= 2

SECONDE PARTIE, CHAPITRE IX

127

et, comme on le verie aisement:


E(ut uts ) = 0

pour s > 1.

Par consequent:

Cov(ut , uts )
=
si s = 1;
rs = #
1 + 2
V (ut )V (uts )
= 0 si s > 1.
Ces observations peuvent etre generalisees `a des processus dordre superieur au premier.
Plus generalement, un comportement du type:

Rs = 0

pour 1 s

Rs 0

pour s >

sera indicatif derreurs a` moyenne mobile; tandis que la convergence vers zero sera graduelle
pour un processus autoregressif.
9.8.2 Le test de Breusch-Godfrey (autocorr
elation).
Ce test permet, lorsque les erreurs sont autoregressives dordre p:
ut = 1 ut1 + 2 ut2 + + p utp + t
de tester lhypoth`ese:
H0 : 1 = 2 = = p = 0
contre:
H1 : (1 , 2 , . . . , p ) = (0, 0, . . . , 0).
Contrairement au test de Durbin-Watson, le test de Breusch-Godfrey peut etre employe
lorsque lequation de regression contient des variables endog`enes retardees (yt1 , yt2 , . . . )
comme variables explicatives.
La statistique est obtenue en appliquant le principe des multiplicateurs de Lagrange
(crit`ere LM) dans le contexte du maximum de vraisemblance pour un mod`ele `a erreurs
autoregressives.
On a montre, `a laide detudes de simulation, que ce test est egalement capable de
deceler des erreurs `a moyenne mobile. Il peut donc etre considere comme un test general
de misspecication dynamique, ce qui le rend tr`es utile.
Nous ne verrons la derivation formelle de la statistique que dans un cas simple, au
chapitre XIV. Cette statistique est facile `a interpreter intuitivement: on peut montrer que

128

P. DESCHAMPS, COURS DECONOM


ETRIE

cette statistique est identique `a la statistique LM utilisee pour tester la nullite jointe des
i dans lequation de regression auxiliaire:
yt = 1 + 2 xt2 + + k xtk + 1 u
t1 + + pu
tp + t
o`
u les u
ts sont les residus de la regression de yt sur (1, xt2 , . . . , xtk ) par MCO. Cette
statistique a ete vue `a la section 7.5.
Si H0 est vraie, on peut montrer que la distribution limite (lorsque n ) de cette
statistique est une 2p . Cette distribution limite a neanmoins tendance a` sous-estimer les
valeurs critiques de petit echantillon (ceci a ete montre `a laide detudes de simulation).
Pour cette raison, on utilise souvent une version F de la statistique (test F de H0 : 1 =
= p = 0 dans lequation auxiliaire). Les etudes de simulation ont montre que ceci est
preferable lorsque la taille de lechantillon est faible.
9.8.3 Le test de Koenker (h
et
erosc
edasticit
e).
Rappelons qu`
a la section 9.7, nous avions vu que des variations aleatoires dun coecient de regression pouvaient se traduire par une heteroscedasticite du type:
V (ut ) = + x2t
o`
u xt est une variable explicative du mod`ele estime.
Si de telles variations aleatoires portent sur plusieurs coecients dun mod`ele de regression multiple, ceci conduit naturellement a` lhypoth`ese:
V (ut ) = + 1 x2t1 + + p x2tp
ou meme, plus generalement:
V (ut ) = + (1 xt1 + + p xtp )2 .
En pratique, un test acceptable est obtenu en remplacant (1 xt1 + + p xtp )2 par
u yt est la valeur calculee en appliquant les MCO `a lequation pour laquelle on veut
yt2 , o`
tester lheteroscedasticite des erreurs. On peut donc utiliser un test F de H0 : = 0 dans
lequation de regression auxiliaire:
u
2t = + yt2 + t .
Cette statistique est basee sur des crit`eres heuristiques, et nest pas necessairement la
meilleure.

SECONDE PARTIE, CHAPITRE IX

129

9.8.4 Le test de Bera-Jarque (normalit


e).
Pour une variable normale Y N (0, 1), il est facile de montrer a` laide de la fonction
generatrice des moments que:
E(Y 3 ) = 0 et

E(Y 4 ) = 3.

Si X N (, 2 ), Y = (X )/ N (0, 1), et donc:


E(X E(X))3
= 0,
3
E(X E(X))4
= 3.
4
La variance 2 peut etre estimee par:
n

m2 =

1
(xt x)2 .
n t=1

De mani`ere analogue, E(X E(X))3 peut etre estime par:


n

1
(xt x)3 ,
m3 =
n t=1
et E(X E(X))4 peut etre estime par:
n

1
(xt x)4 .
m4 =
n t=1
Une deviation de la normalite sera donc indiquee par:
m3
= 0 et
(m2 )3/2

m4
= 3.
(m2 )2

Bera et Jarque ont montre que sous lhypoth`ese de normalite, la statistique:


 
2 

2
1
1
m3
m4
+
3
n
6 (m2 )3/2
24 (m2 )2
a une distribution limite 2 avec 2 degres de liberte lorsque n .
Nous verrons au chapitre XI que meme si les erreurs ne sont pas normales, tous les tests
vus precedemment restent approximativement valables (lapproximation est bonne si n est
grand). Donc une violation de la normalite a moins dimportance quune violation de la
sphericite (`a savoir une autocorrelation et/ou une heteroscedasticite) qui indique, elle, une
mauvaise formulation du mod`ele.

P. DESCHAMPS, COURS DECONOM


ETRIE

130

9.9 Exemple num


erique

Nous voulons trouver les meilleures estimations lineaires sans biais de a et de b dans le
mod`ele:

yt = a + bxt + ut

E(t ) = 0,

avec ut = 0.6 ut1 + t

V (t ) = 2 ,

E(t s ) = 0

(t = s)

sur la base des donnees suivantes:


yt
8
12
14
15
15
18

xt
3
6
10
12
14
15

On demande en plus la meilleure estimation lineaire sans biais de y7 = a + 20b + u7 .


La matrice X secrit:

1 6

1
10

1 12

1 14

1 15
Nous transformons le vecteur y et les deux colonnes de cette matrice selon la r`egle
enoncee `a la section 9.3. Ceci donne, puisque = 0.6:

SECONDE PARTIE, CHAPITRE IX

0.8

0.4

0.4

X =

0.4

0.4

0.4
On verie que:

2.4

4.2

6.4

6.0

6.8

(X ) X =

7.2

6.8

et y =

6.6

6.0

6.6

6.4

131

9.0
1.44

13.92

13.92 190.16

19.36

(X ) y =
228.92

1
et mcg = ( (X ) X ) (X ) y =

6.1817

0.7513
Calculons maintenant le previseur de y7 si x7 = [1 20]. On a:
x7 mcg = 6.1817 + (20)(0.7513) = 21.208 .
Comme u6 = 18 6.1817 (15)(0.7513) = 0.5485, ceci donne:
p = 21.208 + (0.6)(0.5485) = 21.537.
9.10 Introduction aux m
ethodes semi-param
etriques
Nous avons vu que si E(uu ) = V = 2 I, la matrice de covariance de lestimateur de
par moindres carres ordinaires est egale `a:
V (mco ) = (X  X)1 (X  V X)(X  X)1 .
Il est possible dutiliser cette information pour estimer les variances exactes des elements
de mco lorsque V = 2 I. Ceci donne:
(1) dans le cas de lheteroscedasticite seule: lestimateur de White ( White heteroscetasticity consistent covariance matrix estimator)
(2) dans le cas general o`
u lon peut avoir heteroscedasticite et autocorrelation: lestimateur de Newey-West (Newey-West heteroscedasticity and autocorrelation consistent covariance matrix estimator)

132

P. DESCHAMPS, COURS DECONOM


ETRIE

Dans le premier cas, on estime V par:


u
2
1

0
V =
..
.
0

0
u22
..
.

...
...
..
.

0
0
..
.

...

u
2n

Dans le second cas, on estime directement X  V X (et non pas V ) par une methode spectrale. Pour une introduction, voir Hamilton, Time-Series Analysis, chapitre 10. La methode
necessite le choix dune fonction de ponderation (kernel function) et dun param`etre de
troncation (window width).
En pratique ces methodes ne donnent de bons resultats que lorsque la taille de lechantillon est assez grande. Par ailleurs lestimateur mco reste inecace.

SECONDE PARTIE, CHAPITRE X

133

CHAPITRE X.

EMENTS

EL
DE THEORIE
STATISTIQUE ASYMPTOTIQUE

10.1 Introduction

Les proprietes des estimateurs que nous avons rencontres lors de letude des moindres
carres ordinaires et lors de celle des moindres carres generalises si E(uu ) est une matrice
connue etaient toutes valables quelle que soit la taille n de lechantillon. Sous lhypoth`ese
de normalite des erreurs, nous avons pu determiner leur distribution de facon exacte,
en fonction de n. Mais ces distributions exactes prennent vite une forme tr`es complexe
lorsque la methode destimation devient plus elaboree, comme cest le cas pour la methode
Aitken-realisable. Leur etude necessite des outils theoriques que nous ne pouvons passer en
revue ici; lapplication empirique de ces resultats dits de petit echantillon fait appel a` des
techniques numeriques co
uteuses et complexes; de plus, les moments de ces distributions
de petit echantillon nexistent pas toujours!
Fort heureusement, la situation devient souvent beaucoup plus simple a` la limite, lorsque
la taille de lechantillon tend vers linni. Cest ainsi que nous pourrons montrer que lorsque
la taille de lechantillon tend vers linni, la distribution de lestimateur Aitken-realisable
tend vers une loi normale. Nous pourrons alors nous baser sur cette loi pour eectuer des
tests approximatifs, dits tests asymptotiques.
La theorie que nous allons exposer dans ce chapitre sera aussi utilisee pour etudier
certains estimateurs proposes lorsque les regresseurs sont stochastiques, notamment dans
le cadre des mod`eles dynamiques et dans celui des syst`emes dequations simultanees.
Elle peut aussi etre employee pour faire des tests dhypoth`eses dans un mod`ele de
regression lineaire dont les erreurs ne sont pas distribuees normalement, et pour lequel les
hypoth`eses du chapitre VII de cette seconde partie ne sont par consequent pas veriees.
10.2 Convergence en probabilit
e

Soit (Xn ) une suite de variables aleatoires. Cette suite converge en probabilite vers un
nombre a si et seulement si:
lim P [| Xn a |> ] = 0

pour tout

 > 0,

aussi petit soit-il.

P. DESCHAMPS, COURS DECONOM


ETRIE

134

On ecrira alors:
plim Xn = a,

Xn a

ou

.
Lorsque cette propriete est veriee, les densites des Xn tendent vers une densite dont
toute la masse est concentree au point a (distribution degeneree).
Lorsque a est un param`etre inconnu et Xn un estimateur de a, lestimateur est dit
convergent si plimn Xn = a .
Si Xn est non aleatoire, la limite en probabilite se reduit a` une limite habituelle.
10.3 In
egalit
e de Chebychev
Enonc
e.
Soit X une variable aleatoire continue avec E(X) = et V (X) = 2 < . Pour tout
nombre reel  > 0 , X verie linegalite suivante, dite inegalite de Chebychev:
P [|X | > ]

2
.
2

D
emonstration
Si X est une variable continue de densite fX (x), on a par denition de sa variance:
%
2

%R

(x )2 fX (x)dx

(x ) fX (x)dx +
2

=
{x:|x|>}

{x:|x|>}

{x:|x|}

(x )2 fX (x)dx

(x )2 fX (x)dx

2
{x:|x|>}

fX (x)dx = 2 P [|X | > ]

10.4 Loi faible des grands nombres


Enonc
e. Soit (Yn ) une suite de variables aleatoires avec E(Yn ) = et limn V (Yn ) =
0. Alors plim Yn = .
D
emonstration Par linegalite de Chebychev, on a, pour tout n et tout  > 0:
P [|Yn | > ]

V (Yn )
.
2

SECONDE PARTIE, CHAPITRE X

135

Si V (Yn ) 0, ceci implique:


lim P [|Yn | > ] lim

V (Yn )
= 0.
2

Comme une probabilite ne peut pas etre strictement negative, la limite de la probabilite
est nulle, ce qui implique le resultat.
Corollaire (g
en
eralisation). Soit (Xn ) une suite de variables aleatoires. Si:
lim E(Xn ) = et

lim V (Xn ) = 0,

alors plim Xn = .
Il sut en eet de poser Yn = Xn E(Xn ) et dappliquer le resultat precedent.
Application: Supposons que X1 , X2 , . . . , Xn soient independamment et identiquement
2

distribu
n ees avec E(Xi ) = , V (Xi ) = et considerons la moyenne dechantillon Xn =
1

i=1 Xi . On a E(Xn ) = et limn V (Xn ) = 0, donc plimn Xn = .


n

10.5 Convergence en distribution


Soit (Xn ) une suite de variables aleatoires, et soit (FXn ) la suite de leurs fonctions
de distribution. La suite (Xn ) converge en distribution vers la variable aleatoire X , de
distribution FX , si et seulement si:
lim FXn (x) = FX (x)

chaque fois que FX est continue en x. On ecrira alors:


dlim Xn = X ,

ou

Xn X .
d

Ce type de convergence est plus faible que le precedent. Sa principale application est le
theor`eme central limite, que nous verrons plus loin.
n de n observations Xi independantes, despeComme exemple, prenons la moyenne X
n =
rances nulleset de variances unitaires. La loi faible des grands nombres implique plim X
n ne converge pas en probabilite, mais bien en distribution; on verra par
0. La suite nX
la suite que la distribution limite est normale.
Les moments de la distribution limite FX sappellent moments asymptotiques de Xn .
On parle en particulier de lesperance asymptotique dun estimateur, ou de sa variance
asymptotique; on peut parler de meme dun estimateur asymptotiquement sans biais, ou
asymptotiquement ecace. Il est tr`es important de noter que ces moments asymptotiques

136

P. DESCHAMPS, COURS DECONOM


ETRIE

ne sont pas denis comme les limites des moments des distributions FXn , mais bien comme
les moments de la distribution limite FX ! Ceci pour deux raisons: les moments des FXn
peuvent ne pas exister; et les FXn peuvent ne pas etre enti`erement caracterisees par leurs
moments. Nous pouvons illustrer la premi`ere raison en mentionnant que la variance dune
variable Student a` un degre de liberte nexiste pas; la seconde en mentionnant que la
distribution lognormale (distribution de Y = eX avec X N (, 2 )) nest pas enti`erement
caracterisee par ses moments.
Exercice: Soit n = 10000 et m = 1000. Supposons que lon ait engendre par simulation nm
observations independantes xij de distribution uniforme sur lintervalle [1, 1], 
pour i =
n
1, . . . , n et j = 1, . . . , m. On calcule, pour j = 1, . . . , m, les moyennes x
j = n1 i=1 xij .

xj ?
A quoi ressemblera lhistogramme des xj ? A quoi ressemblera lhistogramme des n
10.6 Propri
et
es des modes de convergence
10.6.1 Relation entre limite en probabilit
e et limite en distribution.
Enonc
e. Soit (Xn , Yn ) une suite de paires de variables aleatoires. Si plim(Xn Yn) = 0
et dlim Yn = Y , alors dlim Xn = Y .
Cette propriete poss`ede une reciproque partielle. Si dlim Xn = a et dlim Yn = a, avec a
constante, alors plim(Xn Yn ) = 0. Cette reciproque est intuitivement evidente puisquune
constante a une distribution degeneree.
Mentionnons quune meme distribution limite de Xn et de Yn nimplique pas que
plim(Xn Yn ) = 0, lorsque cette distribution limite nest pas degeneree. En eet, si
les Xn et les Yn poss`edent une distribution commune normale reduite, et que Xn est independante de Yn pour tout n, on a FXn Yn = N (0, 2) pour tout n. Par consequent,
dlim(Xn Yn ) N (0, 2). Mais ceci nimplique nullement que plim(Xn Yn ) = 0, puisque
pour tout  > 0, et pour tout n, P [| Xn Yn | > ] = 0.
10.6.2 Th
eor`
eme de Slutsky.
Ce theor`eme etablit la preservation des limites en probabilite par les fonctions continues:
Enonc
e. Si plim Xn = a et g(Xn ) est continue en a, alors plim[g(Xn )] = g[plim(Xn )] =
g(a).
Il est important de noter que la fonction g ne peut dependre de n. Ce theor`eme poss`ede
les generalisations suivantes (on denit la limite en probabilite dune matrice comme la
matrice contenant les limites en probabilite des elements):
(1) Si (An ) et (Bn ) sont deux suites de matrices conformes pour laddition, alors
plim(An + Bn ) = plim(An ) + plim(Bn ) si plim(An ), plim(Bn ) existent.

SECONDE PARTIE, CHAPITRE X

137

(2) Si (An ), (Bn ) sont deux suites de matrices conformes pour la multiplication et si
plim(An ), plim(Bn ) existent, on a: plim(An Bn ) = plim(An ) plim(Bn ) .
(3) Si (An ) est une suite de matrices reguli`eres et si plim(An ) existe et est reguli`ere,
1
.
alors: plim(A1
n ) = (plim An )
10.6.3 Convergence en distribution de fonctions de variables al
eatoires.
Enonc
e.
(1) Si g est continue et si dlim Xn = X, alors dlim g(Xn ) = g(X)
(2) Supposons que dlim Yn = Y et que plim Xn = a, avec a constante. Alors:
dlim(Xn + Yn ) = a + Y
dlim(Xn Yn ) = aY
dlim(

Yn
Y
)=
Xn
a

si a = 0.

Dans le cas de convergence en distribution vers une normale, on peut enoncer une generalisation multivariee de ce resultat. Nous admettrons quune suite de vecteurs aleatoires
(n)
(n)
X (n) = (X1 , . . . , Xm ) converge en distribution vers un vecteur normal multivarie X =
m
(n)
(X1 , . . . , Xm ) si toute combinaison lineaire
converge en distribution vers
i=1 i Xi
m

X
.
Supposons
alors
que
lon
ait
une
suite
de
matrices
A(n) convergeant en proi=1 i i
babilite vers A et que la suite des vecteurs X (n) converge en distribution vers un vecteur
X N (0, I). La suite A(n)X (n) converge en distribution vers un vecteur ayant la distribution N (0, AA ).
10.7 Fonction caract
eristique et convergence en distribution
Nous aurons, lorsque nous verrons le theor`eme central limite, `a determiner la distribution
limite dune somme de variables aleatoires. Calculer la distribution dune somme X + Y ,
connaissant la distribution jointe de X et Y , est en r`egle generale un probl`eme tr`es dicile.
Le passage par les fonctions caracteristiques permet souvent de simplier les choses.
Si lon denote par i lunite imaginaire (i2 = 1), la fonction caracteristique dune
variable aleatoire X est denie comme:


X (t) = E eitX
=

E [cos(tX)] + iE [sin(tX)] ,
nombre complexe

en vertu des proprietes du

eitX .

Avant de donner un exemple de fonction caracteristique, mentionnons quatre de ses


proprietes:
(1) La fonction caracteristique dune variable aleatoire existe toujours.
En eet, cos(tX) et sin(tX) sont des fonctions periodiques, donc bornees pour toute

P. DESCHAMPS, COURS DECONOM


ETRIE

138

valeur de tX; lesperance mathematique dune fonction bornee existe toujours. Nous
ne pourrions en dire autant pour E(etX ) par exemple.
(2) La fonction caracteristique de X caracterise enti`erement la distribution de X.
(3) Si X et Y sont deux variables aleatoires independantes, alors: X+Y (t) =
X (t)Y (t) .


En eet, X+Y (t) = E eit(X+Y )
= E eitX eitY
 


= E eitX E eitY
par lhypoth`ese dindependance.
Cette propriete facilite le calcul de la distribution de X + Y . Si le produit des
fonctions caracteristiques est la fonction caracteristique dune distribution connue,
cette distribution est celle de X + Y .
(4) Soit (Xn ) une suite de variables aleatoires, et soit (Xn ) la suite de leurs fonctions
caracteristiques. Supposons que:
(i) limn Xn (t) = (t)
(ii) (t) soit continue pour t = 0.
Alors (t) est une fonction caracteristique, celle de dlim Xn . Plus precisement:
a) dlim Xn = X , et


b) E eitX = (t).
Cette derni`ere propriete nous permettra de demontrer le theor`eme central limite. Mais `a
titre dexemple, nous allons tout dabord calculer la fonction caracteristique dune variable
normale.






Soit donc X N (, 2 ). On a E eitX = eit E eit(X) . Pour calculer E eit(X) ,
faisons le changement de variable y = x . On a dy = dx, et donc:


it(X)

E e


=

y2

eity e 22 dy

2 2 2
1
ei t /2
2

2 2
1
et /2
2

e 22 (y
%

22 ity)

e 22 (y

dy

22 ity+i2 t2 4 )

e 22 (yit

2 2

dy

dy

SECONDE PARTIE, CHAPITRE X

139

Faisons maintenant le changement de variable v = y it 2




E eit(X)

Par consequent X (t)

t2 2 /2

. On a dv = dy, et donc:
+

v2

e 22 dv

t2 2 /2

eit et

eitt

2 /2

2 /2

10.8 Versions du th
eor`
eme central limite
10.8.1 Variables ind
ependantes, identiquement distribu
ees.
Lenonce qui va suivre porte le nom de theor`eme de Lindeberg-Levy. Il sapplique a` des
variables aleatoires independantes et identiquement distribuees. Il permet notamment de
traiter le probl`eme de lapproximation dune binomiale par une normale.
Th
eor`
eme. Soit (Zi ) une suite de variables independantes et identiquement distribuees
avec E(Zi ) = et V (Zi ) = 2 . Soit:
Zi


n
1 
n(Z )
Xi =
Sn =
n i=1

Xi =

On a dlim Sn N (0, 1)

D
emonstration
Puisque, en general:
eX = 1 + X +
on a, en appliquant cette formule a` Yj =

X2
X3
+
+ ...,
2
3!

X
j :
n



(it)2
E(Yj2 ) + . . . .
Yj (t) = E eitYj = 1 + itE(Yj ) +
2
Mais, puisque E(Yj ) = 0 et E(Yj2 ) =

1
,
n

ceci implique:

Yj (t) = 1 + 0 +

(it)2
+....
2n

140

P. DESCHAMPS, COURS DECONOM


ETRIE

Si n est grand, on peut negliger les termes dordre superieur a` 2, et donc:


Yj (t) 1

t2
2n

Puisque les Yj sont independantes, la fonction caracteristique de leur somme est le


produit des fonctions caracteristiques des Yj . Par consequent:
Sn (t) (1

t2 n
)
2n

pour n

grand .

Pour pouvoir appliquer la quatri`eme propriete des fonctions caracteristiques, nous calculons maintenant:
t2 n
) .
lim (1
n
2n
Comme:
(t2 /2) n
t2 n
(1
) = (1 +
)
2n
n
et comme:
X
lim (1 + )n = eX
n
n
on a:
2
lim Sn (t) = et /2
n

qui est continue au point t = 0. Nous reconnaissons la fonction caracteristique dune


variable N (0, 1); par consequent dlim Sn N (0, 1).
Terminons cette section en montrant que ce theor`eme permet dapprocher une binomiale
par une normale. Soit donc Y une variable aleatoire prenant comme valeur le nombre
de succ`es rencontre lors de n tirages eectues avec remise (et donc independants), la
probabilite dobtenir un
nsucc`es lors de lun quelconque de ces tirages etant egale `a p. Nous
pouvons ecrire: Y = i=1 Zi , o`
u Zi est une variable aleatoire prenant la valeur 1 avec
la probabilite p, la valeur 0 avec la probabilite (1 p). On verie immediatement que
E(Zi ) = p et V (Zi ) = p(1 p). Par consequent, E(Y ) = np et V (Y ) = np(1 p). Donc,
si lon denit:
Zi p
Xi = #
p(1 p)
on a:
n
1 
Y np
.
Sn =
Xi = #
n i=1
np(1 p)

Le theor`eme central limite est applicable, et dlim Sn N (0, 1). Si n est susamment
grand, on peut alors approcher une binomiale de param`etres n et p par une normale
desperance np et de variance np(1 p).

SECONDE PARTIE, CHAPITRE X

141

10.8.2 Variables ind


ependantes, non identiquement distribu
ees.
Cette seconde version sapplique `a des variables independantes, mais de distributions
non identiques. Pour illustrer son importance, rappelons que dans le mod`ele de regression
n
xt
x
simple yt = a + bxt + ut , nous avions demontre que b b = t=1 wt ut avec wt =  (x
x)2 .
t
Lestimateur de b par moindres carres est donc, `a une constante pr`es, une somme de
variables aleatoires wt ut . Mais ces variables ne sont pas identiquement distribuees puisque
wt = ws pour t = s.
Le theor`eme suivant, dont on trouvera lenonce dans Judge et al., The Theory and
Practice of Econometrics, 1985, p. 156, remplace lhypoth`ese de distributions identiques
par une condition sur les troisi`emes moments des variables. Nous nous bornerons par la
suite `a faire lhypoth`ese que cette condition est veriee, chaque fois que nous aurons besoin
du theor`eme. Nous enoncerons ce theor`eme sous sa forme vectorielle, sans le demontrer.
Th
eor`
eme.
Soit (Zt ) une suite de vecteurs aleatoires independants avec E(Zt ) = 0, et V (Zt ) =

E(Zt Zt ) = t . Supposons que les deux conditions suivantes soient veriees:
n
(1) limn n1 t=1 t = , avec denie positive
(2) E(Zit Zjt Zkt ) < pour tout i, j, k, t.
Alors, si Sn =

1
n

n

t=1 Zt ,

on a dlim Sn N (0, ).

Exercice. Pour le mod`ele de regression simple yt = a + bxt + ut sous les hypoth`eses

du chapitre I de la seconde partie, trouvez la distribution limite de n(b b), o`


u b est
lestimateur de b par moindres carres ordinaires. Comment interpreter ce resultat?
10.8.3 Di
erences de martingales.
Lorsque nous etudierons les mod`eles dynamiques, nous aurons
a`nexaminer la convergence
1

u les vecteurs Zt
en distribution de suites de vecteurs aleatoires de la forme n t=1 Zt , o`
sont dependants entre eux. Nous devrons alors utiliser une generalisation des theor`emes
precedents. Une telle generalisation existe dans le cas o`
u la dependance prend une forme
particuli`ere, celle des dierences de martingales.
D
enition:
eatoires, ou de vecteurs aleatoires, est une dierence de
Une suite (Zt )
t=1 de variables al
martingale si:
E(Zt ) = 0 pour tout t;
E(Zt | Zt1 , Zt2 , . . . , Z1 ) = 0

pour tout t.

142

P. DESCHAMPS, COURS DECONOM


ETRIE

Exemple:
Dans le cadre des mod`eles `a variables endog`enes retardees, nous rencontrerons des suites
u les ut sont independantes, desperance nulle, et identique(Zt ) de la forme Zt = ut ut1 , o`
ment distribuees. Il est facile de verier que les Zt forment une dierence de martingale:
E(Zt ) = E(ut ut1 ) = E(ut )E(ut1 ) = 0
E(Zt | Zt1 , . . . , Z1 ) = E(Zt | Zt1 )
= E(ut ut1 | ut1 ut2 )
= Eut1 E(ut ut1 | ut1 ut2 , ut1 )
= Eut1 E(ut ut1 | ut1 , ut2 )
= Eut1 ut1 E(ut | ut1 , ut2 ) = 0
La troisi`eme egalite resulte de la loi des esperances iterees, et la quatri`eme vient du fait
que la connaissance de ut1 ut2 et de ut1 est equivalente a` celle de ut1 et de ut2 , sauf
si ut1 = 0; mais si ut1 = 0, lesperance est nulle et legalite est donc veriee.
Le theor`eme suivant est enonce dans Hamilton, Time-Series Analysis, 1994, p. 194. Il
suppose lexistence des quatre (et non plus trois) premiers moments.
Th
eor`
eme.
Soit (Zt ) une dierence de martingale. Si:
(1)

Les matrices de covariance V (Zt ) sont denies positives;


n

(2)

1
V (Zt ) = ,
lim
n n
t=1

une matrice denie positive;

(3)

E(Zit Zjt Zlt Zmt ) < pour tout t,i,j,l,m;

(4)

1
Zt Zt
p
n t=1
n

alors:

1 
dlim
Zt N (0, )
n t=1

u les ut sont independantes, desperances


Exercice: On pose le mod`ele yt = byt1 + ut o`
 2

, montrez que la
nulles, et identiquement distribuees. Si b = 0 et si b = t yt1 yt / t yt1

distribution limite de nb est normale reduite.

SECONDE PARTIE, CHAPITRE X

143

10.9 LIn
egalit
e de Rao-Cramer
Commencons par fournir le l directeur de cette section et de la suivante. Linegalite
de Rao-Cramer, que nous demontrerons, fournit une borne inferieure de la variance dun
estimateur sans biais. Une generalisation vectorielle de cette inegalite m`ene `a la matrice
dinformation, dont linverse est la matrice de covariance asymptotique du vecteur des
estimateurs par maximum de vraisemblance. Cette matrice permet alors deectuer des
tests asymptotiques meme lorsque lon ne connat pas la distribution de petit echantillon
des estimateurs de maximum de vraisemblance, comme cest le cas dans beaucoup de
mod`eles non lineaires. La matrice dinformation poss`ede donc un interet double, a` la fois
theorique (ecacite asymptotique) et pratique (calcul de covariances asymptotiques).
Les demonstrations de cette section utiliseront lhypoth`ese que les observations sont
independantes et identiquement distribuees; mais des resultats analogues peuvent etre
prouves sous des hypoth`eses plus generales.
Lemme.
Supposons que soit scalaire et soit (X1 , X2 , . . . , Xn ) un echantillon aleatoire de fonction
de vraisemblance:
n
&
L(x, ) =
f(xi |).
i=1

Supposons que L soit deux fois dierentiable, et que:


%
%

L(x, )dx.
L(x, )dx =
Rn
Rn
Alors:


V

log L(x, )


=E

log L(x, )

2
= E

2 log L(x, )
2


.

D
emonstration
'Puisque L(x, ) peut etre consideree comme la densite jointe de lechantillon, on a
erivant par rapport a` , ceci donne:
Rn L(x, )dx = 1. En d

Mais

log L
L.

%
Rn

%
L(x, )dx = 0 =

Rn

L(x, )dx.

On a donc aussi:

%
Rn

log L(x, )
L(x, )dx = E

log L(x, )

En derivant une nouvelle fois par rapport a` , il vient:


= 0.

P. DESCHAMPS, COURS DECONOM


ETRIE

144


log L L
2 log L
L +
dx = 0,
2

Rn
2
% 
%
log L
2 log L
Ldx +
Ldx = 0
ou encore:
2

Rn
Rn


log L
=0:
Soit aussi, puisque E


V

log L


=E

log L

2
= E

2 log L
2


.

In
egalit
e de Rao-Cramer. Soit = (x)
un estimateur sans biais de . On a linegalite:
 1

V ()
2 log L
E
2
D
emonstration
Comme est sans biais, on a:
%
=
= E()

Rn

L(x,
)dx

En derivant par rapport a` , il vient:


%
1

=
=

L
dx =
Rn


log L

cov ,

log L

Ldx

Rn


log L
puisque E

0 .

Dautre part, en vertu de linegalite generale (cov(X, Y ))2 V (X)V (Y ) , nous avons:





log
L

log
L
V

1 = cov ,
V ()

ou, en vertu du lemme:



E
1 V ()

2 log L
2


. Linegalite cherchee sensuit.

Pour illustrer ce resultat, reprenons le probl`eme de lestimation par maximum de vraisemblance de lesperance mathematique dune variable normale, discute `a la section 3.3
de la premi`ere partie. Nous avions trouve:

SECONDE PARTIE, CHAPITRE X

145

log L
1 
(xi )
= 2

et donc
n
2 log L
= 2
2

.
2

) = . Mais nous savons


En vertu de linegalite precedente, on a alors V (
) n si E(
2
que E(
x) = et V (
x) = n . Nous concluons que cet estimateur est ecace.
Notons quun estimateur peut etre ecace sans que sa variance atteigne cette borne
inferieure!
10.10 La matrice dinformation
Preoccupons-nous maintenant de lestimation dun vecteur aleatoire


.
.
=
.

k
Soit un estimateur sans biais de .
Nous admettons sans demonstration les generalisations suivantes des resultats precedents:

log L
E



log L
V

=
=
=

def

(un vecteur k 1)
 2

log L
E
(une matrice k k)

R() .
0

La matrice R() sappelle matrice dinformation. Nous la supposerons reguli`ere.




log L = 1 , nous ecrivons:
En lieu et place de cov ,




log
L
=I
E

et par consequent:

(une matrice k k)

P. DESCHAMPS, COURS DECONOM


ETRIE

146

V
log L

V ()

R()

Cette derni`ere matrice est denie non negative, etant une matrice de covariance. An
darriver a` une generalisation vectorielle de linegalite de Rao-Cramer, considerons un
vecteur colonne arbitraire a. Comme la matrice est denie non negative, on a:

(a

a R1 () )


V ()
I

R()

a
1

()a

soit en eectuant et en simpliant:




1

a V () R () a 0 .


R1 () est denie non negative. On a en particulier


Donc la matrice V ()
 1 
V (i ) R () ii pour tout i.
Illustrons maintenant ce resultat. Nous avons vu a` la Section 5.8 que dans le mod`ele
2
log L
prenait la forme:
y = X + u avec u N (0, 2 I), la matrice


(X X)
2
H =
1 
4u X

1 
4X u

n
1 
6u u
2 4

Par consequent:

(X X)
2
R() = E(H) =
O1k

Ok1

n
2 4

puisque E(u u) = n 2

Donc R1 () est diagonale par blocs, et pour tout estimateur sans biais de , la
2 (X  X)1 est denie non negative en vertu du resultat precedent, lorsque
matrice V ()


est precisement
les erreurs sont distribuees normalement. Mais si = (X X)1 X y, V ()

egale `a 2 (X X)1 .
La borne inferieure est atteinte par cette matrice: nous concluons que sous lhypoth`ese


de normalite, = (X X)1 X y nest pas seulement le meilleur estimateur lineaire sans
biais. Cest aussi le meilleur estimateur sans biais parmi tous les estimateurs, quils soient
lineaires ou non.

SECONDE PARTIE, CHAPITRE X

147

10.11 Propri
et
es asymptotiques des
estimateurs par maximum de la vraisemblance
10.11.1 Cas scalaire.
Nous avons ici le cas de lestimation dun seul param`etre . La vraisemblance secrit
(n
L(x, ) = i=1 f(xi |) comme precedemment, et lestimateur est une solution de lequa log L(x,)
tion
= 0.

On demontre que sous des hypoth`eses assez generales, et qui nimpliquent pas la normalite, lestimateur est convergent, asymptotiquement normal, asymptotiquement sans
biais, et asymptotiquement ecace. En eet, sous ces hypoth`eses:

plim =

dlim n( ) N 0, plim

n
2

log L(x,)
2

La borne inferieure est donc atteinte par la variance asymptotique de .


10.11.2 Cas vectoriel.
Dans le cas o`
u est un vecteur, on demontre sous des hypoth`eses semblables aux
precedentes les generalisations suivantes. Soit le vecteur des estimateurs par maximum
de vraisemblance. Alors:
plim =



dlim n( ) N 0, plim nR1 ()




o`
u:

2 log L(x, )
R() = E


est la matrice dinformation vue precedemment.


10.12 Distribution asymptotique du rapport des vraisemblances
10.12.1 Introduction.
Rappelons que la methode du rapport des vraisemblances, vu a` la section 5.3 de la
premi`ere partie, se resume ainsi: Dans le test H0 : = 0 contre H1 : = 0 , on calcule

P. DESCHAMPS, COURS DECONOM


ETRIE

148

maxH0 L(x, )
.
max L(x, )

On a les inegalites 0 1.
u 0 est un nombre strictement compris entre 0 et 1 et choisi
On rejette H0 si < 0 , o`
en fonction dun niveau de signication .
Dans les cas que nous avons traites jusquici, cette methode nous a permis de trouver
une r`egle de decision valable pour de petits echantillons, et faisant appel a` une statistique
possedant une distribution connue (Student, par exemple). Mais, il existe de nombreux
mod`eles non lineaires o`
u ceci nest pas le cas. On doit alors se contenter de tests asymptotiques. Il est donc interessant de connatre la distribution asymptotique dune fonction de
.
10.12.2 Cas scalaire.
Lorsque le vecteur na quune seule composante, nous allons montrer que sous H0 ,
dlim(2 loge ) 2(1) . Notre demonstration utilise lhypoth`ese que les observations sont
independantes et identiquement distribuees, mais le resultat peut etre generalise.
Soit lestimateur de par maximum de vraisemblance. Nous commencons par faire
un developpement de log L(x, 0 ) autour de (theor`eme de Taylor). Ceci donne:
)
log L(x, ) ))

log L(x, 0 ) log L(x, ) = (0 )


)

=
)
2
)
1
2 log L(x, ) )
+ (0 )
)
2
2
=
o`
u est un point de lintervalle ouvert reliant 0 et .
)
log L )
nous pouvons reecrire cette equation comme:
Comme )
= 0 par denition de ,

)
2
)
1
L(x, 0 )
2 log L )

= (0 )
log
) ,
2

L(x, )
=

soit aussi:
2 log


2  1   2 log L ))

n( 0 )
n
2 )=

2

n( 0 )

+
)
n
1  2 log f(xi |) ))

)
n
2
=
i=1

def


2
n( 0 ) k 2

SECONDE PARTIE, CHAPITRE X

149

Comme est convergent, on a, sous lhypoth`ese H0 , plim = 0 . Comme est compris


ceci implique:
entre 0 et ,
*

+
)
n
2

)
1

log
f(x
|)
i
)
plim k 2 = plim
)
n
2
=0
i=1
+
)
 2
log f(xi |) ))
= E
)
2
=0
)
2
)
sont de variance nie (ils sont en eet
sous lhypoth`ese que les termes logf2(xi |) )
=0

identiquement distribues). Ceci est une consequence des resultats de la section 10.4. De
plus, comme nous lavons vu:

dlim




n( 0 ) N
0, plim


n1 E

)
2 log L )
)
2

=0

sous lhypoth`ese H0 .
Comme:


*
+
)
 2
)
1
2 log f(xi |) ))
log L ))
plim E
= E
= plim k 2 ,
)
)
2
n
2

=0
=0
ceci implique:





dlim n( 0 ) N 0,

1
plim k 2


.

Alors, en vertu des resultats de la section 10.6:

dlim(2 log )

=
=

2
n( 0 ) plim k 2

2
2
X plim k o`
u X N 0,
dlim

1
plim k 2


.

Denissons maintenant Y = (plim k)X. Comme Y N (0, 1), Y 2 = (plim k 2 )X 2 =


dlim(2 log ) est 2(1), ce quil fallait demontrer.
10.12.3 Cas vectoriel.
Nous avons un vecteur de k param`etres `a estimer et nous voulons tester lhypoth`ese
u 1 est un sous-vecteur de de dimension q. On montre
H0 : 1 = 1 contre H1 : 1 = 1 o`
2
alors que dlim(2 loge ) (q) .

150

P. DESCHAMPS, COURS DECONOM


ETRIE

10.13 Exemple dapplication dans un mod`


ele `
a erreurs autor
egressives

Dans le mod`ele de regression classique, nous avons vu, sous lhypoth`ese de normalite des
erreurs, que mco est normal quelle que soit la taille de lechantillon. De plus, le rapport
des vraisemblances permet de deriver un test F dune hypoth`ese lineaire; ce test est, lui
aussi, valable pour tout n. La distribution de Student permet de calculer des intervalles
de conance.
Dans le mod`ele des moindres carres generalises o`
u E(uu ) = 2 , nous avons les memes
resultats lorsque est connue. Par contre, si est inconnue, nous navons plus de resultats
valables en petit echantillon. Mais si u est un vecteur normal, on peut deriver lestimateur
de par maximum de la vraisemblance. Cet estimateur nest pas normal car cest une fonction non lineaire des erreurs. Neanmoins, on peut en trouver la distribution asymptotique
`a laide des resultats precedents.
Pour le mod`ele `a erreurs autoregressives:
y = X + u,

avec ut = ut1 + t

o`
u les t sont independantes de distribution N (0, 2 ) et o`
u X est non aleatoire, lestimateur
par maximum de vraisemblance a ete etudie par Beach et MacKinnon, A maximum
likelihood procedure for regression with autocorrelated errors, Econometrica 46 (1978),
5158. Nous allons bri`evement discuter les resultats de ces auteurs.
Rappelons que E(uu ) = V = u2 , o`
u est la matrice de la section 9.2, et que
2 = (1 2 )u2 . En utilisant la denition de la densite normale multivariee, on peut
ecrire:
log L(, 2 , ) = K +

1
1
log det V 1 (y X) V 1 (y X)
2
2

et, en utilisant les r`egles de derivation matricielle de la section 3.4:


log L
= X  V 1 X + X  V 1 y

En annulant ce vecteur de derivees, on obtient:


= (X  V 1 X)1 X  V 1 y
soit le meme resultat quen moindres carres generalises lorsque est connue.
Les derivees par rapport a` et 2 sont plus compliquees. Il serait superu den donner
les details ici, puisque ces derniers ce trouvent dans larticle precedemment cite. Il nous
sura de mentionner que la maximisation de L par rapport a` implique la solution dune
equation cubique, qui poss`ede toujours une solution comprise entre 1 et +1.

SECONDE PARTIE, CHAPITRE X

151

Le but de cette section etant dillustrer les resultats du present chapitre, nous allons
enoncer la matrice dinformation et son utilite dans le contexte de ce mod`ele. Appelons
= (, 2 , ). Beach et MacKinnon montrent que, si X est non stochastique:
 1

(X V X) Ok1 Ok1

R() = O1k
A
C

O1k
o`
u A, B, et C sont des scalaires. Alors:
 1 1
(X V X)

R1 () =
O2k

Ok2


A
C

C
B

1

et le theor`eme vu `a la section 10.10 implique:

dlim n( ) N (0, plim nR1 ()).


Comme tout sous-vecteur dun vecteur normal multivarie est normal multivarie, on peut
donc ecrire:

dlim n( ) N (0, plim n(X  V 1 X)1 ).


Nous avons vu que les estimateurs par maximum de vraisemblance sont convergents,
et que les limites en probabilite sont preservees par les fonctions continues. Donc, si on
remplace, dans la denition de V , et 2 par leurs estimateurs pour obtenir V , on obtient:
plim V = V
plim n(X  V 1 X)1 = plim n(X  V 1 X)1
et par consequent:

dlim n( ) N (0, plim n(X  V 1 X)1 ).


On peut donc approcher la distribution de par une normale N (, (X  V 1 X)1 ).
Pour tester H0 : = 0 contre H1 : = 0, on peut calculer le rapport des vraisemblances
en estimant deux fois le mod`ele: une fois par MCO (ceci donne lestimation sous H0 ) et
une fois par la methode de Beach et MacKinnon (ceci donne lestimation sans contrainte).
est le rapport des vraisemblances maximisees. Le theor`eme de la section 10.11 implique
alors que dlim 2 log 2(1) lorsque H0 est vraie, puisquil ny a quune seule contrainte
sous H0 . Ceci fournit des valeurs critiques approximatives. Ce test nest valable quen grand
echantillon mais ne presente pas les zones dincertitude de la statistique de Durbin-Watson.
Il faut bien noter que les resultats du chapitre X sont dune applicabilite tr`es generale;
cette section na presente quune illustration de ces resultats.

P. DESCHAMPS, COURS DECONOM


ETRIE

152

CHAPITRE XI.

ES
ASYMPTOTIQUES DES ESTIMATEURS
PROPRIET
ORDINAIRES
DE MOINDRES CARRES

11.1 Convergence en probabilit


e


Nous montrerons dans cette section que = (X X)1 X y est un estimateur convergent
de dans le mod`ele classique y = X + u, sous les hypoth`eses suivantes:

(H1)

E(u) = 0

(H2)

E(uu ) = 2 I

(H3)

X est non stochastique de rang k < n

1 
X X = XX ,
n n

(H4)

lim

une matrice denie positive.

Comme X est non stochastique, on a:




E(X u)
  
V (X u)i

et V


X2


1
(X u)i
n

=
=

X E(u) = 0
 n

n


2
2
V
Xti ut =
Xti
t=1

t=1


=

2
Xti
n2

ti
Mais  n converge par lhypoth`ese (H4) vers un nombre ni. Nous concluons que

V n1 (X u)i tend vers zero quand n tend vers linni. Donc les composantes de n1 X u

SECONDE PARTIE, CHAPITRE XI


verient E

plim( n1 X u)


1
n (X u)i


= 0, et limn V


1
n (X u)i

153


= 0 . Ceci montre (section 10.4) que

= 0. On a alors, en appliquant le theor`eme de Slutsky:

plim


=
=
=
=
=

plim + (X X) X u

 

+ plim (X X)1 X u


1
1 
1 
+ plim
X X
Xu
n
n

1


1 
1 
+ plim
(X X)
Xu
plim
n
n
+ 1
XX .Ok1 =

11.2 Normalit
e asymptotique
Tous les tests dhypoth`eses exposes au chapitre VII lont ete en supposant la normalite
des erreurs. Quen est-il si lon ne fait pas dhypoth`eses speciques sur la distribution du
vecteur u? Nous allons voir quun theor`eme central limite nous permet detablir la normalite


asymptotique de = (X X)1 X y. Si la taille de lechantillon est susamment grande,
on peut alors se baser sur la distribution normale pour faire des tests asymptotiques sur
le vecteur . On raisonne en pratique comme si la variance des erreurs etait connue: on
utilisera donc la loi normale au lieu de la loi de Student, la loi 2 au lieu de la loi F .
Th
eor`
eme.
Supposons que les hypoth`eses (H1) a` (H4) soient veriees, et soit t la t-i`eme colonne de
n

la matrice X . Denissons les vecteurs Zt = ut t et supposons que 1n t=1 Zt verie


un theor`eme central limite. Alors, pour = (X X)1 X y:

(a) dlim n( ) N (0, 2 1


XX ).

1 
2
(b) Si plim ( n u u) = , on a plim( n1 u
u
) = 2 avec u
= y X .
D
emonstration


(a) Notons dabord que E(Zt ) = 0 et V (Zt ) = 2 t t


Par consequent:

n
n
1
2 
2 
X X = 2 XX ,
lim
V (Zt ) = lim
t t = lim
n n
n n
n n
t=1
t=1

P. DESCHAMPS, COURS DECONOM


ETRIE

154

qui est nie et denie positive par lhypoth`ese (H4). En vertu du theor`eme central
limite, on a:
n

1 
1 
Zt N (0, 2 XX ).
dlim X u = dlim
n
n t=1



Notons ensuite que n( ) = ( n1 X X)1 1n X u et appliquons les resultats
de la section 10.6. Ceci donne:


dlim n( )

1 
XX
n

1


dlim


1
Xu
n

plim


2
 1 
N 0, 1
XX XX XX



N 0, 2 1
XX

(b) Pour demontrer la seconde partie du theor`eme, rappelons que:








u
u
= u I X(X X)1 X u.
Donc:


1 
u
u
= u u
n
n
*
plim

u
u
n

1 
Xu
n


= plim

 

1 
XX
n

1 


1 
Xu ,
n

et:


1 
2
u u O1k .1
XX .Ok1 =
n

en vertu du theor`eme de Slutsky et de lhypoth`ese faite dans lenonce.


Exercice. Calculez la distribution limite, sous lhypoth`ese nulle H0 : R = r, de la
statistique de Wald vue a` la section 7.4 de la seconde partie.

SECONDE PARTIE, CHAPITRE XII

155

CHAPITRE XII.

ES
ASYMPTOTIQUES DES ESTIMATEURS DAITKEN
PROPRIET

Le theor`eme que nous allons demontrer dans ce chapitre est un cas particulier dapplication au mod`ele `a erreurs autoregressives dun theor`eme plus general, sappliquant a`
tout estimateur Aitken-realisable. Il montre que si lon remplace par un estimateur
convergent de cette matrice dans la formule de mcg , on obtient un estimateur de qui a
la meme distribution limite que mcg .
Th
eor`
eme.
Soit le mod`ele y = X + u avec E(u) = 0,


2
2
E(uu ) = = ..
.

n1

1
..

n1

..
.

et X non stochastique.

Soit un estimateur convergent de et supposons que limn n1 (X  1 X) = Q


soit une matrice denie positive. Soit T la matrice de transformation de la section 9.3
(T  T = 1 ), soit [X  T  ]t la t-i`eme colonne de X  T  , et supposons que les vecteurs Zt =
(T u)t [X  T  ]t verient un theor`eme central limite.
Considerons les deux estimateurs:

(X  1 X)1 X  1 y

1 X)1 X 
1 y
(X 

o`
u

.
..

n1

et

n1

1
.

..
.

..

156

P. DESCHAMPS, COURS DECONOM


ETRIE

Sous les hypoth`eses additionnelles que:


1
1 X) = lim 1 (X  1 X) = Q
plim (X 
n
n
1
1 u X  1 u) = 0
plim (X 
n
1
plim u u = 2
n
on a les resultats suivants:

(1) dlim n( ) = dlim n( ) N (0, 2 Q1 )


(2) plim s2 = 2 , avec:
s2 =

D
emonstration
Notons tout dabord que

1
 1

(y X )
(y X ).
nk

n( ) = ( n1 X 1 X)1 1n X 1 u et que:


X 1 u = X T T u =

n


Zt .

t=1

n



 
On a E(Zt ) = 0; dautre part, comme E(T u)2t = 2 et comme t=1 [X T ]t [X T ]t =

X 1 X,
n

1
2 
lim
E(Zt Zt ) = lim (X 1 X) = 2 Q.
n t=1
n
Par consequent, en vertu du theor`eme central limite, dlim 1n

n

t=1 Zt

N (0, 2 Q).

Donc:

1





1  1
1
1

X X
dlim X u
dlim n = plim
n
n




N 0, Q1 ( 2 Q)Q1 = N 0, 2 Q1

Pour montrer que lestimateur Aitken-realisable a la meme distribution que lestimateur Aitken-pur, nous pouvons appliquer le resultat de la section 10.6.1. En eet:

1  1 1 1  1

n( ) = ( X
X) X u,
n
n

SECONDE PARTIE, CHAPITRE XII

157

1  1
dlim( X
u) N (0, 2 Q)
n
et donc:


dlim n( ) N (0, 2 Q1 ).

Pour demontrer la seconde partie du theor`eme, notons que la limite en probabilite de:
1

 1 (y X )),
(y X )
nk
est egale `a 2 . La demonstration est exactement la meme que celle de la section 11.2:

il sut de remplacer y par T y et X par T X. Comme plim = plim = et comme


= , le theor`eme de Slutsky implique plim s2 = 2 .
plim
Ces resultats ont ete obtenus sans faire lhypoth`ese de normalite des erreurs, puisque
nous avons utilise un theor`eme central limite. Il est toutefois tr`es interessant de noter que
nous venons dobtenir la m
eme distribution limite que celle de la section 10.13, o`
u nous
avions fait lhypoth`ese de normalite des erreurs pour deriver lestimateur par maximum de
vraisemblance; il est facile en eet de verier que:
2 Q1 = plim n(X  V 1 X)1
o`
u V = E(uu ). Les matrices de covariance asymptotiques sont donc les memes; puisquune
distribution normale est enti`erement caracterisee par les deux premiers moments, ceci
implique bien legalite des distributions limites.
Nous avons donc lequivalence asymptotique dune methode simple (celle dAitken) et
dune methode plus compliquee (celle du maximum de vraisemblance).

158

P. DESCHAMPS, COURS DECONOM


ETRIE

CHAPITRE XIII.

REGRESSEURS
STOCHASTIQUES

13.1 Introduction: types de r


egresseurs stochastiques
Dans tous les developpements precedents, X etait non stochastique par hypoth`ese. Ceci
netant pas realiste, il nous faut maintenant examiner les proprietes de la methode des
moindres carres ordinaires dans le cas o`
u cette hypoth`ese nest pas veriee.
Nous pourrons distinguer trois types de regresseurs stochastiques.
Dans le premier cas, la matrice X est independante du vecteur u. Les estimateurs MCO
sont alors convergents, sans biais, et ont la distribution limite vue au chapitre XI sous
lhypoth`ese dun theor`eme central limite. De plus, lorsque les erreurs sont normales, les
statistiques tobs et Fobs vues precedemment au chapitre VII ont les distributions t et F
sous lhypoth`ese nulle, meme en petit echantillon.
Dans le second cas, X depend de u, mais les regresseurs ne sont pas correles avec
les erreurs contemporaines. Les estimateurs MCO ne sont pas sans biais, mais ils sont
convergents. Ils ont la distribution limite vue au chapitre XI sous lhypoth`ese dun theor`eme
central limite. Les distributions des statistiques tobs et Fobs vues precedemment au chapitre
VII ne sont t et F que si la taille de lechantillon tend vers linni. Nous nexaminerons
pas ce second cas dans le present chapitre, mais nous letudierons plus tard dans le cadre
des mod`eles `a variables endog`enes retardees.
Dans le troisi`eme cas, certains regresseurs sont correles avec lerreur contemporaine.
Alors les estimateurs MCO ne sont pas convergents, et on doit utiliser la methode des
variables instrumentales, qui sera vue dans le present chapitre.
13.2 R
egresseurs stochastiques ind
ependants du vecteur des erreurs
Nous allons voir que si X est stochastique, mais independante de u, lestimateur de
par moindres carres ordinaires garde beaucoup de proprietes desirables. Il est toujours sans
biais, et convergent. De plus, toutes les proprietes asymptotiques demontrees precedemment dans le cadre du mod`ele classique restent valides.

SECONDE PARTIE, CHAPITRE XIII

159

Dans la premi`ere partie de cette section, nous nutiliserons que les hypoth`eses suivantes,
qui sont compatibles avec lindependance de X et de u, mais nimpliquent pas cette independance:
(H1 ) E(u|X) = 0


(H2 ) E(uu |X) = 2 I




(H3 ) plim( n1 u u) = 2


(H4 ) plim( n1 X X) = lim E( n1 X X) =


XX

est denie positive .

Rappelons tout dabord la loi des esperances iterees (section 1.7) de la premi`ere partie:
Lemme 13.1.
E(X) = EY E(X|Y ) .
Ce resultat peut aussi etre applique aux vecteurs et matrices aleatoires. Nous demontrons maintenant une propriete fondamentale pour la suite.


Lemme 13.2. Sous les hypoth`eses (H1 ), (H2 ) et (H4 ), plim( n1 X u) = 0.


D
emonstration:
En vertu de la section 10.4, il sut de montrer que:
E(

1
Xti ut ) = 0 et
n

V(

1
Xti ut ) 0.
n

Mais:
E(Xti ut ) = EXti E(Xti ut |Xti ) = EXti Xti E(ut |Xti ) = 0
par lhypoth`ese (H1 ) et le lemme 13.1. Par ailleurs:
2 2
2 2
2
2
ut ) = EXti E(Xti
ut |Xti ) = EXti Xti
E(u2t |Xti ) = 2 E(Xti
)
V (Xti ut ) = E(Xti
2
) < ; donc V (Xti ut ) <
en vertu de lhypoth`ese (H2 ). Lhypoth`ese (H4 ) garantit que E(Xti



1
1
Xti ut ) 0 . Lestimateur = (X X) X y verie alors les proprietes
, et V ( n
suivantes:

P. DESCHAMPS, COURS DECONOM


ETRIE

160

Th
eor`
eme 13.3. est un estimateur sans biais de .
D
emonstration:

E()

=
=
=


 

+ E (X X)1 X u
 


+ EX {E (X X)1 X u|X }
 


+ EX (X X)1 X E(u|X) =

Th
eor`
eme 13.4. est un estimateur convergent de .
La demonstration est identique `a celle donnee `a la section 11.1, en vertu du lemme 13.2.


Th
eor`
eme 13.5. Soit t la t-i`eme colonne de la matrice X (un vecteur k 1) et
supposons que les vecteurs Ct = ut t verient un theor`eme central limite. Alors:
1

(1) dlim n( ) N (0, 2 XX )



(2) plim( n1 u
u
) = 2 .
D
emonstration :
Notons que:
E(Ct ) = E(ut t ) = EX E(ut t |X) = EX t E(ut |X) = 0.
De meme:


E(Ct Ct ) = E(u2t t t ) = EX E(u2t t t |X) = EX (t t )E(u2t |X) = 2 E(t t ).


Par consequent:
n
n


1
1 
1
2
E(Ct Ct ) = lim E(
t t ) = 2 lim E( X X) = 2 XX .
lim
n t=1
n t=1
n
On a alors, comme auparavant (section 11.2):
n

1 
1 
Ct N (0, 2 XX )
dlim X u = dlim
n
n t=1


1 
1
dlim n( ) = plim( X X)1 dlim( X u) N (0, 2 1
XX ).
n
n
La demonstration du point (2) est identique a` celle donnee precedemment.
Si nous faisons maintenant lhypoth`ese dindependance f(X, u) = f1 (X)f2 (u), les distributions conditionnelles `
a X des statistiques tobs et Fobs vues au chapitre VII ne
dependront que des nombres de degres de liberte et seront donc les memes que les distributions inconditionnelles. Les valeurs critiques des lois t et F leur seront donc applicables
quelle que soit la taille de lechantillon, lorsque les erreurs sont normales.

SECONDE PARTIE, CHAPITRE XIII

161

13.3 R
egresseurs stochastiques d
ependants des erreurs contemporaines

Si plim( n1 X u) = 0, on verie aisement que plim mco = . Il est important de signaler

que la presence dune seule composante non nulle dans le vecteur plim( n1 X u) peut rendre
toutes les composantes de mco non convergentes. Supposons en eet que:


plim

1 
Xu
n


c
0

=
...

avec

c = 0 .

0
On a alors:

plim mco

s1
.
= + c ..
sk

eneral,
o`
u les si sont les composantes de la premi`ere colonne de 1
XX . Comme, en g
aucun des si nest nul, aucune composante de mco ne convergera vers la composante
correspondante de .
Exercice. Dans le mod`ele yt = byt1 + ut avec ut = t + t1 , supposons que les t soient
desperance nulle, de variance constante, et non correles entre eux. Montrez que la covariance entre yt1 et ut nest pas nulle. Quelles sont les consequences de cette constatation?
13.3.1 La m
ethode des variables instrumentales.
Cette methode est un cas particulier de la methode des moments generalises (GMM);
voir Hamilton, Time Series Analysis, 1994, chapitre 14.


Supposons que plim( n1 X u) = 0. Nous construisons alors une matrice Z de dimensions


n r, avec r k, possedant les proprietes suivantes:

(H1 ) E(u|Z)

(H2 ) E(uu |Z) = 2 I


1 
(H3 ) plim( Z X) = ZX est de rang k
n
1 
1 
(H4 ) plim( Z Z) = lim E( Z Z) = ZZ
n
n
Nous supposons en outre comme auparavant que:

est denie positive.

P. DESCHAMPS, COURS DECONOM


ETRIE

162

(H5 )
(H6 )

1 
plim( u u) = 2
n
1 
plim( X X) et
n

1 
plim( X u) existent.
n

Lidee de base est la suivante. Denissons PZ = Z(Z  Z)1 Z  ; cette matrice n n


est symetrique, idempotente, de rang r. Si lon applique la transformation PZ au mod`ele
y = X + u et les moindres carres ordinaires au mod`ele transforme, on obtient lestimateur
de par variables instrumentales:
V I = (X  PZ X)1 X  PZ y
Si lon a le meme nombre dinstruments et de regresseurs, r = k, et la matrice X  Z est
carree et en general reguli`ere. Alors:
 
1
  1 





(X Z)(Z Z)1 Z y = Z X
Z y
V I = (X Z)(Z Z)1 (Z X)

Pour simplier les demonstrations, nous supposerons dans le reste de cette section que
r = k. Mais les resultats qui vont suivre ne dependent pas de cette hypoth`ese.
13.3.2 Convergence en probabilit
e.


Lemme 13.6. Sous les hypoth`eses (H1 ), (H2 ) et (H4 ), plim( n1 Z u) = 0.


La demonstration est identique `a celle du Lemme 13.2.
Th
eor`
eme 13.7. V I est un estimateur convergent de .
D
emonstration:


Comme (Z X)1 Z y = (Z X)1 (Z X + Z u) = + (Z X)1 Z u , plim V I = +




.
plim( n1 Z X)1 plim( n1 Z u) = + 1
ZX 0 =
13.3.3 Convergence en distribution.
Th
eor`
eme 13.8.


Soit t la t-i`eme colonne de Z et supposons que les vecteurs Ct = ut t verient un


theor`eme central limite. Alors:

1 
(1) dlim n(V I ) N (0, 2 plim n(X  PZ X)1 ) = N (0, 2 1
ZX ZZ (ZX ) )
 u
) = 2 , avec u
= y X V I .
(2) plim( n1 u

SECONDE PARTIE, CHAPITRE XIII

163

D
emonstration:

n

Nous avons une fois de plus E(Ct ) = 0 et lim n1 t=1 E(Ct Ct ) = 2 ZZ (voir la demonsn

tration du theor`eme 13.5). Donc, comme 1n Z u = 1n t=1 Ct , on a:
1 
dlim Z u N (0, 2 ZZ )
n
et par consequent:

1 
1 
1 
dlim n(V I ) = plim( Z X)1 dlim( Z u) N (0, 2 1
ZX ZZ (ZX ) ).
n
n
Pour demontrer la seconde partie du theor`eme, notons que:






u
= y X(Z X)1 Z y = I X(Z X)1 Z u,
puisque y = X + u. Alors:


u u
= u u u Z(X Z)1 X u u X(Z X)1 Z u + u Z(X Z)1 (X X)(Z X)1 Z u.


) =
Les hypoth`eses H3 , H5 et H6 ainsi que le Lemme 13.6 impliquent alors plim( n1 u u
1 
2
plim( n u u) = . Ce theor`eme permet donc, une fois de plus, de baser des tests asymptotiques sur la distribution normale ou 2 . La matrice de covariance asymptotique du vecteur




V I est estimee par unu (Z X)1 (Z Z)(X Z)1 .
Notons que si r > k, linverse de ZX nexiste pas car cette matrice nest pas carree;
mais lautre expression de la matrice de covariance asymptotique, a` savoir:
2 plim n(X  PZ X)1
reste valable, puisque X  PZ X est dordre k et de rang min(k, r) = k. Par ailleurs, les deux
expressions sont bien equivalentes lorsque r = k, puisque:


plim n(X PZ X)


1
1 
1  1 1 
= plim ( X Z)( Z Z) ( Z X)
.
n
n
n

Notons enn que la validite de la methode des variables instrumentales peut etre etablie
sous des hypoth`eses plus generales que celles de cette section.

164

P. DESCHAMPS, COURS DECONOM


ETRIE

13.3.4 Choix des variables instrumentales.


Il est tr`es important de noter quil existe en general une innite de matrices Z veriant
les hypoth`eses (H1 ) a` (H4 ). Il y aura donc aussi une innite destimateurs par variables
instrumentales! Cet estimateur garantit la convergence, mais ne verie pas le theor`eme
de Gauss-Markov; et le choix des variables instrumentales doit donc etre base sur des
crit`eres decacite asymptotique. On peut retenir, comme crit`ere heuristique, celui qui
fait choisir une variable instrumentale (colonne de Z) fortement correlee avec la colonne

correspondante de X, tout en satisfaisant plim( n1 Z u) = 0. Nous utiliserons ce principe
lorsque nous etudierons les variables endog`enes retardees.
On peut aussi souvent choisir Z de telle mani`ere que la distribution asymptotique du
theor`eme 13.8 soit la meme que celle de lestimateur par maximum de vraisemblance. Ceci
est interessant car lestimateur par variables instrumentales (qui est lineaire) est souvent
plus facile a` calculer que lestimateur par maximum de vraisemblance (voir par exemple la
section 10.13).

SECONDE PARTIE, CHAPITRE XIV

165

CHAPITRE XIV.

`
INTRODUCTION AUX MODELES
DYNAMIQUES

14.1 Retards
echelonn
es
On a ici un mod`ele de la forme suivante:
yt = a + b0 xt + b1 xt1 + . . . + bk xtk + ut
La variable dependante est donc une combinaison lineaire des valeurs presentes et passees de la variable explicative. Nous fournirons deux interpretations economiques de ce
mod`ele:
(a) Dans le cadre dune fonction de consommation, il correspondrait a` lhypoth`ese que
la consommation presente depend du revenu espere. Ce dernier est une combinaison
lineaire des revenus observes, presents et passes. Il existe donc une sorte dinertie
dans le comportement du consommateur.
(b) Dans le cadre dun mod`ele dinvestissement, faisons les hypoth`eses suivantes:
(i) La valeur desiree des stocks, yt , est proportionnelle a` la valeur prevue des
ventes, xt , a` un terme derreur vt pr`es. Donc:
(1)

yt = xt + vt

(ii) Linvestissement (variation de stock entre les periodes t et t 1) est regi par
le mecanisme suivant (ajustement partiel):

(2)

yt yt1 = (yt yt1 ) avec 0 < < 1 .


On comble donc a` la periode t une fraction de la dierence entre le stock
eectif precedent, yt1 , et le stock desire, yt .
(iii) La valeur prevue des ventes est regie par le mecanisme suivant (anticipations
adaptives):

(3)

xt = xt1 + (xt1 xt1 ) avec 0 < < 1

P. DESCHAMPS, COURS DECONOM


ETRIE

166

On comble donc a` la periode t un pourcentage de lerreur de prevision faite a`


la periode t 1.
Nous allons montrer que les equations (1), (2) et (3) m`enent a` un mod`ele `a
retards echelonnes.
Resolvons tout dabord lequation de recurrence (3). Ceci donne:
xt

xt1 + (1 )xt1

xt1 + (1 )[xt2 + (1 )xt2 ]

xt1 + (1 )xt2 + (1 )2 xt2

et lon obtient, apr`es une innite de substitutions, la r`egle de prevision suivante, dite
de lissage exponentiel:

xt =

(4)

(1 )i1 xti

i=1

Si nous resolvons maintenant (2) en yt :


yt =

(5)

1
[yt (1 )yt1 ]

Par ailleurs, (1) et (4) impliquent

(6)

yt

(1 )i1 xti + vt

j=1

En egalisant les membres de droite de (5) et de (6), on obtient nalement:

(7)

yt = (1 )yt1 +

(1 )i1 xti + ut

i=1

Cette derni`ere equation est lineaire dans les variables explicatives, et ne comporte
plus que des variables observables. Elle comporte neanmoins une innite de regresseurs! On peut evidemment supprimer les xti pour i grand. Mais ceci ne resout que
partiellement le probl`eme, car il y a peu de degres de liberte: le nombre de param`etres
`a estimer reste grand, et lon perd une observation par variable retardee. De plus, les
xti risquent detre fortement colineaires.
Les methodes de Koyck et dAlmon on ete proposees pour resoudre ce probl`eme.

SECONDE PARTIE, CHAPITRE XIV

167

14.2 La m
ethode de Koyck
Soit donc le mod`ele general:
yt = a + b0 xt + b1 xt1 + . . . + bk xtk + ut

On fait lhypoth`ese que les poids bi sont geometriquement decroissants, soit bi = i b0


avec 0 < < 1. Par consequent:

et

yt

a + b0 xt + b0 xt1 + 2 b0 xt2 + . . . + k b0 xtk + ut

yt1

a + b0 xt1 + b0 xt2 + 2 b0 xt3 + . . . + k b0 xtk1 + ut1

yt1

a + b0 xt1 + 2 b0 xt2 + . . . + k+1 b0 xtk1 + ut1

que nous soustrayons pour obtenir:


yt yt1 = (a a) + b0 xt k+1 b0 xtk1 + (ut ut1 )

Si k est susamment grand, k+1 0, et nous pouvons alors retenir comme mod`ele:
yt = a + yt1 + b0 xt + ut

Nous navons donc plus que deux regresseurs et une constante. Il faut noter:
(a) que cette transformation peut aussi sappliquer `a un nombre inni de retards;
(b) que lon peut retrouver lequation de depart a` partir destimations de et de b0
obtenues grace au mod`ele transforme;
(c) que E(yt1 ut ) = 0. Nous sommes donc dans le cas traite `a la section 13.3: les estimateurs par moindres carres ordinaires ne sont pas convergents. Ce probl`eme sera
examine plus bas, lorsque nous traiterons des variables endog`enes retardees.
Appliquons la methode de Koyck a` notre probl`eme dinvestissement. Nous avions:
yt = (1 )yt1 +

(1 )i1 xti + ut

i=1

Donc:
yt1 = (1 )yt2 +


i=1

et:

(1 )i1 xti1 + ut1

P. DESCHAMPS, COURS DECONOM


ETRIE

168

yt (1 )yt1

(1 )yt1 + xt1 (1 )(1 )yt2 + [ut (1 )ut1 ] ,

soit aussi:
yt = (2 )yt1 + xt1 (1 )(1 )yt2 + ut

2 , a
3 les estimations des coecients de cette equation. Pour estimer les
Appelons a
1 , a
param`etres du mod`ele de depart, il faudrait resoudre le syst`eme:

a1

a2

a3

) = + 1

(1 )(1

peut etre obtenu comme

a
2
. Il est dit identiable.
1a
1 a
3

Mais et ne le sont pas. On ne peut determiner que leur somme et leur produit.
14.3 La m
ethode dAlmon
Lhypoth`ese faite par Koyck que les poids b0 . . . bk sont geometriquement decroissants
est tr`es restrictive. Lidee dAlmon est dutiliser une approximation polynomiale de la
ome de
fonction decrivant le comportement reel des bi . On choisit, en pratique, un polyn
degre superieur dau moins une unite au nombre de points stationnaires de cette fonction.
Si, par exemple, lon pense que cette fonction a la forme dun U ou dun U renverse, on
choisira une approximation quadratique:
bi = 0 + 1 i + 2 i2
que lon substitue dans le mod`ele precedent:
yt = a + b0 xt + b1 xt1 + . . . + bk xtk + ut
pour obtenir:

yt

a + 0 xt + (0 + 1 + 2 )xt1 + (0 + 21 + 42 )xt2
+ . . . + (0 + k1 + k 2 2 )xtk + ut

SECONDE PARTIE, CHAPITRE XIV

*
=

a + 0

k


+
xti

+ 1

* k


i=0

+
ixti

+ 2

169

* k


i=1

+
i2 xti

+ ut

i=1

a + 0 Z1t + 1 Z2t + 2 Z3t + ut

Les param`etres de cette equation peuvent alors etre estimes par moindres carres ordinaires, et les estimations des bi peuvent etre calculees `a laide de lapproximation polynomiale. Notons aussi que cette technique se prete particuli`erement bien `a lintroduction de
contraintes additionnelles sur les bi . Supposons que lon veuille imposer b1 = 1. On a donc
1 = 0 + 1 + 2 . En substituant, il vient:
yt = a + (1 1 2 )Z1t + 1 Z2t + 2 Z3t + ut
ou:
yt Z1t = a + 1 (Z2t Z1t ) + 2 (Z3t Z1t ) + ut

Soit:

yt = a + 1 Z1t
+ 2 Z2t
+ ut

14.4 Lop
erateur de retard
Loperateur de retard est deni par:
Lxt = xt1

Cet operateur peut etre traite comme une variable algebrique ordinaire. En eet:
Lj xt

L . . . Lxt = xtj

Lj Lk xt

Lj+k xt = xtjk

Lj (a1 x1t + a2 x2t )

a1 Lj x1t + a2 Lj x2t

Nous pouvons alors ecrire:




j xtj =

j Lj xt = (L)xt

o`
u:
(L) = 0 + 1 L + 2 L2 + 3 L3 + . . .
def

P. DESCHAMPS, COURS DECONOM


ETRIE

170

est traite comme un polyn


ome algebrique en L. Si les racines de (L) = 0 sont strictement superieures `a lunite en valeur absolue, on peut denir loperateur reciproque 1 (L)
comme:
yt = 1 (L)xt

si (L)yt = xt

Exercice: Soit (L) = 0 + 1 L, (L) = 0 + 1 L, et (L) = 1 L pour 1 < < 1.


Trouvez la forme des series chronologiques [(L) + (L)]xt , [(L)(L)]xt et [1 (L)]xt .
Linteret de la recherche dun tel operateur reciproque peut etre illustre par lexemple
suivant. Lequation:
yt = a + yt1 + bxt + ut
peut secrire comme:
(L)yt = a + bxt + ut
avec (L) = 1 L. Elle permet destimer lesperance de yt conditionnelle a` ses valeurs
passees et `a xt , a` savoir E(yt | yt1 , xt ) = a+ yt1 + bxt . Il sagit donc dune modelisation
u xt est un
`a court terme, car conditionnelle au passe immediat de yt . Mais dans le cas o`
instrument de politique economique, il peut etre plus interessant destimer:
E(yt | xt , xt1 , xt2 , . . . )
qui est conditionnelle aux seules valeurs presentes et passees de linstrument. Cette nouvelle
esperance peut etre calculee `a laide de loperateur reciproque, car:
E(yt | xt , xt1 , xt2 , . . . ) = 1 (L)a + b1 (L)xt
a
+ b1 (L)xt
=
1
a
+ b(xt + xt1 + 2 xt2 + . . . )
=
1
Pour illustrer un autre emploi de loperateur de retard, appliquons-le `a la transformation
de Koyck. Nous avons:

yt

j xtj + ut = a + b0

j Lj xt + ut

a + b0


a + b0 1 + L + L + L + . . . xt + ut

a+

b0
xt + ut
1 L

soit aussi:
(1 L)yt = (1 L)a + b0 xt + (1 L)ut

SECONDE PARTIE, CHAPITRE XIV

171

et
yt = yt1 + a + b0 xt + (ut ut1 ) .
14.5 R
esolution d
equations lin
eaires de r
ecurrence stochastiques
Presentons maintenant une methode generale de resolution dune equation du type
u ut est une erreur aleatoire. Il sagit de calculer les coecients du
(L)yt = (L)ut , o`
(L)
. Nous commencerons par un exemple.
polyn
ome
(L)
Soit (L) = 2 + 3L + 4L2 et (L) = 1 0.75L + 0.125L2 . Comme les racines de (L)
sont 2 et 4, on a:


L
1
(L) =
2



A 1 L4 + B 1
1
1

 =



=
(L)
1 L4 1 L2
1 L4 1 L2


L
1
4

L
2





o`
u A et B sont determines par la condition A 1 L4 + B 1 L2 = 1 pour tout L.
Ceci implique A = 2 et B = 1, comme on le voit facilement en posant L = 0 et L = 1.
Par consequent:

1
(L)

=
=
=

2
1


1
1 L4
 

   2
   2
1
1
1
1
L +
L +... 1 +
L +
L + ...
2 1+
2
2
4
4
L
2

7
15
3
1 + L + L2 + L3 . . .
4
16
64

et donc:
(L)
= (2 + 3L + 4L2 )(1 + .75L + .4375L2 + . . .) = 2 + 4.5L + 7.125L2 + . . .
(L)

Ceci peut etre facilement generalise. Si le polyn


ome normalise (L) = (1L)(1L) =
0 a deux racines reelles distinctes 1/ et 1/, on aura:
1
A(1 L) + B(1 L)
1
=
=
(L)
(1 L)(1 L)
(1 L)(1 L)

P. DESCHAMPS, COURS DECONOM


ETRIE

172

o`
u A et B sont choisis tels que A(1 L) + B(1 L) = 1 pour tout L. Ceci implique:
A=

B=

et donc:
A
B
1
=
+
(L)
1 L 1 L
= A(1 + L + 2 L2 + . . . ) + B(1 + L + 2 L2 + . . . )
= (A + B) + (A + B)L + ( 2 A + 2 B)L2 + . . .

1  i
( i )Li1 .
i=1

Dans le cas dune racine reelle double 1/, on obtient:


1
1
=
(L)
(1 L)2
= (1 + L + 2 L2 + . . . )(1 + L + 2 L2 + . . . )
= 1 + 2L + 32 L2 + 43 L3 + . . .
=

(i + 1)i Li

i=0

Dans le cas de deux racines complexes conjuguees, on peut employer le premier developpement en utilisant les proprietes des nombre complexes.
On peut aussi utiliser un developpement de Taylor autour de L = 0; la derivation
precedente a lavantage detre constructive, et de mettre en evidence le lien entre 1/(L)
et les racines de (L) = 0.
14.6 Distribution rationnelle des retards
Nous sommes maintenant prets `a denir la distribution rationnelle des retards. On lecrit
sous la forme:
yt = a + (L)xt + ut
avec:

SECONDE PARTIE, CHAPITRE XIV

(L) =

0 + 1 L + . . . + k Lk
(L)
=
w(L)
w 0 + w 1 L + . . . + w  L

173

On normalise en posant w0 = 1.
Cette formulation est tr`es generale, car toute structure des coecients peut etre approchee par ce rapport de deux polyn
omes. Nous pouvons en eet rendre lapproximation
plus ne en augmentant k, , ou k et .
On constate facilement que la structure des retards postulee par Almon correspond a`
w(L) = 1 (donc  = 0), et i = a0 + a1 i + a2 i2 + . . . + as is . Celle de Koyck correspond a`
(L) = b0 , et w(L) = 1 L (donc k = 0,  = 1).
14.7 Variables endog`
enes retard
ees
Lors de lapplication de la transformation de Koyck, nous avons fait apparatre des
variables endog`enes retardees dans le membre de droite de lequation de regression. Il est
important de mettre en evidence les consequences de leur presence parmi les variables
explicatives dun mod`ele.
Cette section netant quune introduction au probl`eme, nous nous contenterons ici detudier un mod`ele tr`es simple, qui est le suivant:
yt = byt1 + ut
avec 1 < b < 1 et diverses hypoth`eses sur lerreur ut .
Un mod`ele beaucoup plus general sera etudie au chapitre XV. Les conclusions obtenues dans ce mod`ele plus general, qui comprendra plusieurs regresseurs dont certains sont
des variables endog`enes retardees, sont tr`es semblables et les methodes danalyse sont les
memes.
On obtient aisement, par substitutions successives, la forme suivante:
yt = ut + but1 + b2 ut2 + =

bj utj

j=0

14.7.1 Erreurs sph


eriques.


2
Supposons que E(u)
 = 0 et E(uu ) = I. On a alors E(yt1 ut ) = 0, et si V (yt1 ut )
1
existe, on a plim( n
yt1 ut ) = 0. Lestimateur de b par moindres carres ordinaires est
n+1
alors convergent. Mais il nest pas sans biais puisque b = b + t=2 wt ut avec

yt1
wt = n+1
2
j=2 yj1

P. DESCHAMPS, COURS DECONOM


ETRIE

174

qui depend de ut via le denominateur.

La distribution limite de n(bmco b) est la distribution normale habituelle:

n(bmco b) N (0, 2 1
XX ) = N (0,
d

plim n1

2
n+1
t=2

2
yt1

pour autant que les hypoth`eses de la section 10.8.3 soient veriees. En particulier, la
suite (Zt ) = (yt1 ut ) doit etre une dierence de martingale. Tel est bien le cas ici sous
lhypoth`ese dindependance des erreurs. En eet:
E(yt1 ut ) = Eyt1 yt1 E(ut | yt1 ) = 0
E(yt1 ut | yt2 ut1 , yt3 ut2 , . . . ) =
Eut1 ,ut2 ,... E(yt1 ut | yt2 ut1 , yt3 ut2 , . . . ; ut1 , ut2 , . . . ) =


Eut1 ,ut2 ,... yt1 E(ut | yt2 ut1 , yt3 ut2 , . . . ; ut1 , ut2 , . . . ) = 0
Il est facile de demontrer (voir Hamilton, Time Series Analysis, 1994, p. 122) que lestimateur de b par maximum de vraisemblance est le meme que lestimateur de b par moindres
carres ordinaires lorsque les erreurs sont normales.
14.7.2 Erreurs `
a moyenne mobile.
Il sagit derreurs de la forme:
ut = t + t1

avec E() = 0,

E( ) = 2 I

Comme nous lavons vu, ces erreurs resultent dune transformation de Koyck appliquee `a un mod`ele `a retards echelonnes. On verie immediatement que sous les hypoth`eses
habituelles,



1
yt1 ut = E (yt1 ut ) = E [(ut1 + but2 + . . .) ut ]
plim
n
= E (ut ut1 ) = E [(t + t1 ) (t1 + t2 )] = 2 = 0
Donc lestimateur b =


y y
 t 2t1
yt1

nest pas convergent. Calculons sa limite en probabilite.

Notons dabord que yt = byt1 + t + t1 , et donc:




yt yt1

2
yt1
+

yt1 t +

yt1 t1 .

SECONDE PARTIE, CHAPITRE XIV

175

Par consequent:
b



yt1 t1 /n
yt1 t /n
+  2
b+  2
yt1 /n
yt1 /n


Par ailleurs, yt = j=0 bj (tj + tj1 ), ce qui implique, sous les hypoth`eses habi

tuelles, plim( n1
yt1 t ) = E(yt1 t ) = 0, et plim( n1
yt1 t1 ) = E(yt1 t1 ) = 2 .
De meme:

plim

1 2
yt1
n



2
2
) = E yt2 = E
b2j (tj + tj1 )
= E(yt1
j=0


bj bk (tj + tj1 ) (tk + tk1 )
+ 2E
j=0 k=j+1

= 1+

2j

+ 2

j=0

Alors

bj bj+1 =

j=0

plim b


(1 + 2 ) 2
2b 2
2
+
=
1 + 2 + 2b .
2
2
2
1b
1b
1b



plim( n1
plim( n1
yt1 t )
yt1 t1 )


+

b+
2
2
yt1
yt1
plim( n1
)
plim( n1
)

b+

(1 b2 )
1 + 2 + 2b

On remarque que plim b b a le signe de .


Montrons maintenant que lon peut estimer b de facon convergente en utilisant yt2
comme variable instrumentale. Il faut verier que:

1 
ZX
plim
n


1 
Z u
plim
n

=
=


1
yt1 yt2
plim
est nie et non-nulle;
n
 

1
yt2 ut = 0 .
plim
n

Tout dabord:

plim

1
yt1 yt2
n

2 
= E (yt1 yt2 ) = E (ut1 ut2 ) + bE yt2
=
2 +


b  2
2
2
+
2b
=
( + b)(1 + b)

1
+

1 b2
1 b2

P. DESCHAMPS, COURS DECONOM


ETRIE

176

est nie et non-nulle, sauf si = b ou


= 1b . Par ailleurs, plim

yt2 yt

E (yt2 ut ) = 0. Nous concluons que plim  yt1


yt2 = plim bV I = b.

1 
n


yt2 ut =

Cette estimation par variables instrumentales ne resout pas le probl`eme dautocorrelation des erreurs, qui se pose puisque E(ut ut1 ) = 2 . Ce probl`eme peut etre traite en
utilisant une methode robuste destimation de la variance de bV I , analogue a` celle que nous
avons introduite a` la section 9.10; voir Hamilton, Time Series Analysis, 1994, chapitre 14.
Nous netudierons pas lestimation de ce mod`ele par maximum de vraisemblance, car
ceci rel`eve dun cours de mati`eres speciales. Il sagit dun cas particulier de mod`ele ARMA
(Auto-Regressive Moving Average); ces mod`eles peuvent etre estimes `a laide de logiciels
specialises.
14.7.3 Erreurs autor
egressives.
Nous supposons cette fois que ut = ut1 + t avec || < 1, = 1b , et E() = 0,

E( ) = 2 I.
1 

plim
u
y
t1
t
n
 2  .
plim b = b +
plim n1
yt1

On a de nouveau:

Rappelons que E(ut uts ) = s u2 . Nous avons cette fois:


E(yt1 ut ) = E [(ut1 + but2 + . . .)ut ] = u2 (1 + b + b2 2 + . . .) =

u2
.
1 b

On a aussi:
E

2
yt1


= E yt2

2j

b E

u2tj

+2

j=0

=
=

bj bk E (utj utk )

j=0 k=j+1

u2

b2

+ 2u2

kj bj bk

j=0 k=j+1

j=0

k=j



u2
kj
2
2j
+
2
(b)
b
(b)
u
2
1b
u2

1 b2

(1

2bu2
b2 )(1

b)

u2 (1 + b)
(1 b2 )(1 b)

Par consequent:

plim b

=
=

u2 / (1 b)
u2 (1 + b) / (1 b2 ) (1 b)


1 b2
b+
.
1 + b

b+

SECONDE PARTIE, CHAPITRE XIV

177

On remarque que plim b b a de nouveau le signe de .


Nous allons maintenant etudier lestimation de ce mod`ele par maximum de vraisemblance. En combinant les equations:
yt = byt1 + ut
ut = ut1 + t
on obtient:
yt byt1 = (yt1 byt2 ) + t
soit aussi:
(1)

yt = (b + )yt1 byt2 + t

pour t = 3, . . . , n + 2

Ce mod`ele est non lineaire dans les param`etres. Si nous supposons que, conditionnellement `a yt1 et yt2 , les t sont normales de distribution commune N (0, 2 ), nous avons
pour lobservation t:
2 1/2

f(yt | yt1 , yt2 ) = (2 )

1
exp 2 [yt (b + )yt1 + byt2 ]2
2

et la densite de (y3 , y4 , . . . , yn+2 ) conditionnelle aux deux premi`eres observations (y1 , y2 )


peut donc secrire:
f(y3 , y4 , . . . , yn+2 | y1 , y2 ) = f(y3 | y1 , y2 )f(y4 | y1 , y2 , y3 ) . . . f(yn+2 | y1 , y2 , . . . , yn+1 )
= f(y3 | y1 , y2 )f(y4 | y2 , y3 ) . . . f(yn+2 | yn+1 , yn )


n+2

1
[yt (b + )yt1 + byt2 ]2
= (2 2 )n/2 exp 2
2 t=3
En prenant le logarithme de lexpression precedente et en considerant le resultat comme
une fonction des param`etres inconnus (b, , 2 ), on obtient la vraisemblance logarithmique:
n+2
n
1 
2
log L(b, , ) = constante log 2
[yt (b + )yt1 + byt2 ]2
2
2 t=3
2

= constante +

n+2


Lt (b, , 2 )

t=3

o`
u:

1
1
Lt (b, , 2 ) = log 2 2 [yt (b + )yt1 + byt2 ]2 .
2
2

178

P. DESCHAMPS, COURS DECONOM


ETRIE

On peut facilement verier que:


Lt
1
= 2 (yt1 yt2 )t
b

1
Lt
= 2 (yt1 byt2 )t

1
1
Lt
= 2 + 4 2t
2

2
2

o`
u:
Comme log L = k +

t = yt (b + )yt1 + byt2 .
Lt , ceci implique:
n+2
log L
1 
(yt1 yt2 )t
= 2
b
t=3
n+2
1 
log L
(yt1 byt2 )t
= 2

t=3
n+2
n
1  2
log L
=

+
 .
2
2 2
2 4 t=3 t

Pour annuler les deux premi`eres derivees de log L, il sut dappliquer, de mani`ere
alternee, les moindres carres ordinaires aux deux parametrisations lineaires pouvant etre
tirees de lequation (1), `a savoir:
(yt yt1 ) = b(yt1 yt2 ) + t
(yt byt1 ) = (yt1 byt2 ) + t
jusqu`
a la convergence de la somme des carres des residus t . On peut alors estimer 2 par:
n+2
1
(yt (b + )yt1 + b
yt2 )2 .

=
n t=3
2

An de formuler les variances des estimateurs ainsi obtenus et denoncer un test dautocorrelation des erreurs, nous allons tout dabord calculer lesperance et la matrice de covariance du vecteur:

Lt
b

Lt
Lt
=

Lt
2

SECONDE PARTIE, CHAPITRE XIV

En vertu de la loi des esperances iterees, on a:





Lt
Lt
E
= Eyt1 ,yt2 E

179

)

)
) yt1 , yt2 = 0
)

car lesperance conditionnelle apparaissant dans cette expression est nulle.


De meme, en utilisant la normalite conditionnelle de t , on a E(3t | yt1 , yt2 ) = 0 et
E(4t | yt1 , yt2 ) = 3 4 ; il est alors facile de verier que:

V

)
)



Lt Lt ))
Lt ))
yt1 , yt2
yt1 , yt2 = E
)
 )

(yt1 yt2 )2
(yt1 yt2 )(yt1 byt2 )

1
(yt1 byt2 )2
(yt1 yt2 )(yt1 byt2 )
= 2


0
0

1
2 2

et donc, en vertu de la loi des esperances iterees:



V

Lt

(yt1 yt2 )2

1
(yt1 yt2 )(yt1 byt2 )
= 2E

(yt1 yt2 )(yt1 byt2 )


(yt1 byt2 )2

0 .

1
2 2

On peut verier que les vecteurs Lt / ne sont pas


 correles entre eux. La moyenne de
L
1
ces matrices est alors egale `a n R(), o`
u R() = V log
est la matrice dinformation

introduite au chapitre X. Si une loi faible des grands nombres est applicable, on aura, par
exemple:
1
1
E(yt1 yt2 )2 = plim
(yt1 yt2 )2
n
n

et on peut alors estimer la matrice de covariance de n( ) par linverse de:


lim

Vn =

1
n
2

(yt1 yt2 )2


(yt1 y
t2 )(yt1 byt2 )

t2 )(yt1 byt2 )
(yt1 y

(yt1 byt2 )2
0

n
2
2

P. DESCHAMPS, COURS DECONOM


ETRIE

180

puisque plim Vn = plim n1 R(), et donc plim nR1 () = plim Vn1 .


De plus, la matrice nVn est une estimation de la matrice de covariance de log L/.
Ceci permet facilement dappliquer le principe des multiplicateurs de Lagrange pour tester
H0 : = 0 contre H1 : = 0.
Lemploi du crit`ere LM est particuli`erement indique ici. Comme nous lavons vu, la
statistique LM ne necessite que lestimation du mod`ele sous H0 . Dans le present contexte,
H0 signie absence dautocorrelation; et dans ce cas, lestimation du mod`ele par maximum
de vraisemblance se reduit a` lemploi des moindres carres ordinaires. En revanche, comme
nous lavons vu, lestimation sous H1 necessite une procedure iterative, qui est donc plus
compliquee.
Le multiplicateur de Lagrange associe `a la contrainte H0 lors de la maximisation de
L
la vraisemblance est egal a` log
. On peut montrer (voir par exemple L.G. Godfrey, Misspecication tests in econometrics: the Lagrange multiplier principle and other approaches,
Cambridge University Press, Cambridge 1988, pages 11 et 14) que la statistique LM prend
ici la forme:
LM =
0 ( 0 1

log L
0 ) V0

1


0
1
0
0

L
o`
u
est la valeur de log
evaluee aux estimations contraintes des param`etres et o`
u

 0

L
est lestimation contrainte de la matrice de covariance de log L/. Comme
V0 log

lestimation contrainte est identique a` lestimation par MCO, denissons alors:

u
t = yt bmco yt1 .
On verie aisement que:

0 =


V0

1 
ut1 ut

02
 2

yt1
yt1 u
t1



1
log L
t1
yt1 u
= 2

u2t1
0

n
2
02

et que, par consequent:



 2
( u
t1 u
t )2 ( yt1
)
1

LM = 2   2  2
.

0
t1 )2
yt1 u
t1 ( yt1 u
Nous allons maintenant montrer que cette statistique est identique a` la statistique de
Breusch-Godfrey denie a` la section 9.8.2. Dans le present contexte, la statistique de
Breusch-Godfrey est la statistique LM utilisee pour tester H0 : = 0 dans lequation
de regression auxiliaire:

SECONDE PARTIE, CHAPITRE XIV

181

yt = byt1 +
ut1 + t
o`
uu
t1 = yt1 bmco yt2 .
Pour montrer ce resultat, notons que lestimateur des coecients de regression dans
lequation auxiliaire peut secrire:
    2
1  


b
yt1 ut1
yt1
y
y
t
t1


 2
=
= 
= (X  X)1 X  y
t1
yt u
t1
yt1 u
u
t1

et que la matrice des coecients de la restriction = 0 est egale `a R = ( 0 1 ). Lexpression


du multiplicateur de Lagrange demontree `a la section 6.1 prend alors la forme suivante:
0 = [R(X  X)1 R ]1 (r R)

=

 



1
2

yt u
t1 ) + (
yt yt1 )(
yt1 u
t1 )
(
yt1 )(
=
2
yt1


t1 + bmco
t1
yt1 u
=
yt u

=
(yt bmco yt1 )
ut1

=
u
t u
t1 .
Par ailleurs, comme nous lavons montre `a la section 7.5:
1
V01 () = 2 [R(X  X)1 R ]

0
 2
yt1
1

.
= 2  2  2

0
t1 )2
yt1 u
t1 ( yt1 u
On voit alors facilement que la statistique du test de = 0 dans lequation de regression
auxiliaire, a` savoir:
 V 1 ()
0
LM =
0 0

est bien egale `a la statistique LM denie plus haut.


Pour terminer cette section, notons que ce mod`ele autoregressif a` erreurs autoregressives
est restrictif. En eet, lequation (1) nest quun cas particulier du mod`ele plus general
suivant:
yt = yt1 + yt2 + t
avec = b + et = b. Ces contraintes sappellent restrictions de facteurs communs,
et seront examinees au chapitre XV dans un cadre plus general. Elles sont implausibles.
Cest pour cette raison que nous ne poursuivrons pas letude du mod`ele de cette section
14.7.3. La methodologie que nous venons denoncer est neanmoins indispensable pour la
justication du test de Breusch-Godfrey, que lon doit employer dans ce cas-ci puisque le
test de Durbin-Watson nest pas applicable.

182

P. DESCHAMPS, COURS DECONOM


ETRIE

CHAPITRE XV

`
ERAL

LE MODELE
DYNAMIQUE GEN

15.1 Pr
esentation et hypoth`
eses
Dans ce chapitre, nous allons generaliser le mod`ele autoregressif de la section 14.7. Une
generalisation dynamique naturelle du mod`ele de regression multiple consiste a` remplacer
les variables yt et x1t , . . . , xkt de ce mod`ele par des combinaisons lineaires de leurs retards,
`a savoir (L)yt et 1 (L)x1t , . . . , k (L)xkt . On obtient alors:
(L)yt = a + 1 (L)x1t + + k (L)xkt + t
o`
u (L) est un polyn
ome normalise de degre p et i (L) est un polyn
ome de degre qi :
(L) = 1 1 L p Lp
i (L) = 0i + 1i L + + qi i Lqi .
Nous supposons que, conditionnellement aux variables explicatives de ce mod`ele, les
erreurs t sont normales et identiquement distribuees. Comme les variables explicatives
forment le vecteur zt = (yt1 , x1t , . . . , xkt ) et les retards de ce vecteur, nous avons:
E(t | zt , zt1 , . . . ) = 0
E(2t | zt , zt1 , . . . ) = 2 .
Comme `a la section 14.7, o`
u nous avions suppose que 1 < b < 1, nous faisons aussi
lhypoth`ese que (L) est inversible (ses racines doivent etre toutes strictement superieures
`a lunite en valeur absolue).
On designe ce mod`ele par AD(p, q1 , . . . , qk ).
Exemple:
Si p = 1, k = 1, et q1 = 1, le mod`ele secrit:
yt =

1 yt1 + a
. /0 1
partie autor
egressive

+ 01 x1t + 11 x1,t1 + t .
.
/0
1
partie retards
echelonn
es

SECONDE PARTIE, CHAPITRE XV

183

Notes:
(1) Il ne faut pas confondre ce mod`ele avec le mod`ele ARMA(p, q), qui senonce comme:
(L)yt = (L)t
o`
u (L) est de degre p, (L) est de degre q, et les t sont spheriques et inobservables.
Les erreurs ut = (L)t du mod`ele ARMA suivent un processus `a moyenne mobile,
alors que celles du mod`ele AD sont spheriques.
(2) Contrairement au mod`ele ARMA, le mod`ele AD peut etre estime par MCO. Les
tests habituels sont asymptotiquement valides (F pour lordre des retards, LM
pour la sphericite des erreurs). Le mod`ele AD presente donc une plus grande facilite
demploi. Pour cette raison, beaucoup dauteurs preconisent son utilisation.
(3) Insistons sur la generalite du mod`ele AD, qui inclut comme cas particuliers:
le mod`ele statique si p = q1 = = qk = 0 ;
le mod`ele autoregressif pur (L)yt = a + t si i (L) = 0 pour tout i ;
le mod`ele statique `a erreurs autoregressives:

yt = a +

k


j xjt + ut ,

(L)ut = t

j=1

sous des restrictions dites de facteurs communs, comme nous le verrons plus bas.
15.2 Les restrictions de facteurs communs
Ces restrictions impliquent que les polyn
omes de retards echelonnes i (L) ont le facteur
commun (L). Donc:
i (L) = (L)i (L).
Une forme particuli`ere de ces restrictions, que nous allons examiner plus en detail, est
la proportionnalite des polyn
omes de retards echelonnes au polyn
ome autoregressif; cette
forme particuli`ere est donc:
i (L) = (L)i
Alors le mod`ele AD secrit:
(L)yt = a + (L)1 x1t + + (L)k xkt + t
ce qui implique, en multipliant les deux membres par 1 (L):
yt = a + 1 x1t + + k xkt + ut
o`
u a = 1 (L)a = 1 (1)a et ut = 1 (L)t , soit aussi (L)ut = t .

P. DESCHAMPS, COURS DECONOM


ETRIE

184

Exemple:
Si p = k = q1 = 1, la restriction secrit:
1 (L) = (L)1
soit aussi:
01 + 11 L = (1 1 L)1 = 1 1 1 L.
En identiant les coecients de meme degre, on obtient:
1 = 01
11 = 11
ce qui peut secrire:
11 + 1 01 = 0.
Cette restriction est non lineaire, mais peut etre testee `a laide dune generalisation
de la statistique de Wald (on utilise une approximation lineaire de la contrainte). Le test
sappelle test de facteurs communs (test COMFAC en abrege).
Exercice:
En substituant la restriction precedente dans le mod`ele:
yt = a + 1 yt1 + 01 x1t + 11 x1,t1 + t
montrez que lon arrive a` un mod`ele statique `a erreurs autoregressives.
15.3 Le mod`
ele AD et la relation d
equilibre stationnaire
Le mod`ele AD est un mod`ele statistique qui ne decrit que le comportement `a court terme
(cest-`a-dire conditionnel au passe immediat) de yt . Pour obtenir une relation economique
interessante, il faut obtenir la solution statique (ou solution a` long terme, ou encore: relation
dequilibre stationnaire) du mod`ele. Une telle solution peut etre obtenue facilement si lon
suppose que les esperances de yt et des xjt sont constantes:
E(yt ) = E(y) et E(xjt ) = E(xj ).
Alors, en egalisant les esperances des deux membres de lequation du mod`ele AD, on
obtient:
k

(1)E(y) = a +
j (1)E(xj )
j=1

et en resolvant, il vient:
E(y) = a +

k

j=1

j E(xj )

SECONDE PARTIE, CHAPITRE XV

185

o`
u a = 1 (1)a et j = 1 (1)j (1). Ceci est la relation entre les niveaux dequilibre des
variables, E(y) et E(xj ).
Commentaires:
(1) Ceci peut etre generalise au cas o`
u une tendance lineaire est incluse dans la liste
des xjt .
(2) Si lon impose les restrictions precedentes de facteurs communs j (L) = (L)j ,
on a vu que:
yt = a + 1 x1t + + k xkt + ut .
On a donc, a` partir de cette relation:
j =

yt
xjt

mais aussi, en partant du mod`ele AD general:


j = 1 (1)j (1) =

E(yt )
.
E(xjt )

Ceci implique donc legalite des coecients `a long terme et `a court terme, et fait
apparatre que les restrictions de facteurs communs sont assez implausibles.
u les erreurs t sont
Exercice: On donne le mod`ele autoregressif yt = 2 + 0.8yt1 + t , o`
4
independantes et de distribution commune N (0, 10 ). On demande de calculer lesperance inconditionnelle E(yt ), la variance inconditionnelle V (yt ), et dexpliciter la relation
dequilibre stationnaire de ce mod`ele. Illustrez vos resultats en simulant yt `a partir du
mod`ele precedent (ceci peut etre fait a` laide dEXCEL ou dun logiciel econometrique) et
en interpretant le graphique chronologique et lhistogramme des realisations simulees.
15.4 Le mod`
ele AD et le mod`
ele de correction derreur
Nous allons maintenant reparametriser le mod`ele AD en utilisant une identite algebrique. Le mod`ele ainsi obtenu, qui porte le nom de mod`ele de correction derreur (ECM),
aura pour interet de faire apparatre directement les coecients de la relation dequilibre
stationnaire, a` savoir les 1 (1)j (1). Il est important de noter que le mod`ele de correction
derreur est equivalent au mod`ele AD: en particulier, les residus t obtenus par moindres
carres seront identiques dans les deux mod`eles. Neanmoins, le mod`ele ECM est non lineaire
dans les param`etres, tandis que le mod`ele AD est lineaire. Lestimation du mod`ele ECM
necessite donc lemploi de la methode des moindres carres non lineaires, qui est presente
comme option dans la plupart des logiciels econometriques.
Commencons par enoncer, sous forme de lemme, lidentite algebrique mentionnee au
debut de cette section.

P. DESCHAMPS, COURS DECONOM


ETRIE

186

Lemme 15.1.
Si A(L) = A0 + A1 L + A2 L2 + + An Ln alors:
A(L) = A(1)L + A (L)(1 L)
o`
u:
A (L) =
avec A0 = A0 et Aj =

n1


Aj Lj

j=0

n

s=j+1 As

pour j = 1, . . . , n 1 et n > 1.

Exercice:
Veriez le lemme 15.1 pour n = 1, 2, 3, 4.
D
erivation du mod`
ele de correction derreur:
On part du mod`ele AD:
(L)yt = a +

k


j (L)xjt + t

j=1

On applique le lemme aux polyn


omes (L) et j (L)

(1)yt1 + (L)yt = a +

k


[j (1)xj,t1 + j (L)xjt ] + t

j=1

(L)yt = a (1)[yt1

k


(1)j (1)xj,t1 ] +

j=1

(L)yt = a (1)[yt1

k

j=1

k


j (L)xjt + t

j=1

j xj,t1 ] +

k


j (L)xjt + t

j=1

Les j sont les coecients de la relation dequilibre.


15.5 Exemple
economique
Supposons que k = 1, et p = q1 = 1. Supposons de plus que:
yt = log de la consommation par tete `a prix constants
xt = log du revenu disponible par tete `a prix constants
Le mod`ele:
(L)yt = a + (L)xt + t

SECONDE PARTIE, CHAPITRE XV

secrit alors comme:

187

yt 1 yt1 = a + 0 xt + 1 xt1 + t

ou encore comme:
(1 1 )yt1 + yt = a + (0 + 1 )xt1 + 0 xt + t
Si lon denit = (1 1 )1 (0 + 1 ) = 1 (1)(1), on peut ecrire:
yt = a (1 1 )yt1 + (1 1 )xt1 + 0 xt + t
yt = a (1 1 )[yt1 xt1 ] + 0 xt + t
Linterpretation de yt = xt + ut est celle dune fonction de consommation `a long
terme. Le terme entre crochets est lerreur ut1 de cette relation `a long terme. Le terme
(1 1 )ut1 est la correction derreur qui est ajoutee `a un mod`ele lineaire dans les
dierences premi`eres des variables.

P. DESCHAMPS, COURS DECONOM


ETRIE

188

CHAPITRE XVI

RACINES UNITAIRES ET COINTEGRATION

16.1 Processus stochastiques


Un processus stochastique discret peut etre considere comme une suite innie de va+
riables aleatoires, telle que {Yt }+
t= ou {Yt }t=0 .
Un processus stochastique continu peut etre considere comme une fonction aleatoire
dune variable continue t, telle que {Y (t), t R} ou {Y (t), t [0, 1]}.
En interpolant lineairement entre les points (ti , Yti ) et (ti+1 , Yti+1 ), on peut obtenir un
processus continu a` partir dun processus discret. En posant ti+1 ti = n1 et en faisant
tendre n vers linni, on peut aussi obtenir la limite de ce processus, lorsque celle-ci existe.
Cette technique est illustree par le graphique suivant, o`
u les yti sont des realisations des
variables Yti et o`
u y(t) est une realisation dun processus continu Y (t), obtenu par passage
`a la limite.

yt , y(t)

y(t)

.
....................
.
.
.............................. ... ...... ...
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...............
.................
.
.
.
.
.
.
.
.
.
...........
..................
.
.
.
....
...........
.
.
.
....
.
.
.
.
.
...........
......
.
...
.
.
.... 
....
(t3 , yt3 )
...
......
.. ..
.
.
.
... .
.. .
... ..
... ...
.
... .
.. ..
... ..
... ...
.
. ..
... ..
.. ...
.......
.
.
...................... ... ... ... ... ... ... ... ... .........................
..................................
t
t1

t2

t3

t4

t5

SECONDE PARTIE, CHAPITRE XVI

189

16.2 Stationnarit
e faible
Un processus discret {Yt } est faiblement stationnaire (covariance-stationary) si et
seulement si:
E(Yt ) =

pour tout t

Cov(Yt , Ytj ) = j

pour tout j, t.

Les esperances et variances sont donc constantes, et la covariance entre Yt et Ys ne


depend que de lintervalle separant t et s.
Exemples:
(1) Si les variables Yt sont N (0, 1), independantes, et identiquement distribuees pour
tout t, on a:
= 0,
0 = 1,
j = 0 pour tout j = 0 .
Le processus est donc stationnaire.
u les t sont N (0, 1) independantes et o`
u || < 1, on a:
(2) Si Yt = Yt1 + t , o`
= 0,
0 = (1 2 )1 ,
j = j (1 2 )1 .
Le processus est donc stationnaire.
(3) Un exemple de processus non stationnaire est fourni par une marche aleatoire:
Yt = Yt1 + t
o`
u les t N (0, 2 ) sont independantes et o`
u Y0 = 0. En eet:
Yt = Yt2 + t1 + t
= Yt3 + t2 + t1 + t
= ...
= Y0 + 1 + 2 + + t =

t


i

i=1

On a:
E(Yt ) = 0,

V (Yt ) = t 2 ,

E(Yt Ytj ) = (t j) 2

pour j 0.

La variance de Yt depend donc de t, de meme que la covariance entre Yt et Ytj .

P. DESCHAMPS, COURS DECONOM


ETRIE

190

16.3 Processus int


egr
e dordre d
D
enition:
Un processus discret {Yt } est I(d) si et seulement si:
d Yt = + t + ut
(L)ut = (L)t
o`
u (L) et (L) sont inversibles et les t sont spheriques.
Interpr
etation dun processus I(d):
d est le nombre de fois quil faut dierencier Yt pour arriver a` un processus stationnaire
apr`es soustraction de la tendance lineaire t . Si d 1 , on dit que le processus est
integre.
Cas particuliers dun processus I(d):
(1) d = 0 Yt suit un processus dit stationnaire `a tendance (trend-stationary).
(2) d = 1, = 0, = 0, (L) = (L) = 1 Yt suit une marche aleatoire (random
walk).
(3) d = 1, = 0, = 0, (L) = (L) = 1 Yt suit une marche aleatoire avec
derive (random walk with drift).
16.4 Le test de Dickey-Fuller augment
e
Introduction
Soit {Yt } un processus stochastique discret. Quelle est la distribution limite de:
n

1 

Yt
n t=1
lorsque n ?
Au chapitre X, nous avons vu les cas suivants:
(a) Si les Yt sont independantes et identiquement distribuees desperance nulle et de
variance 2 , le theor`eme de Lindeberg-Levy vu a` la section 10.8.1 nous dit que:
n
1 

Yt N (0, 2 )
d
n t=1

SECONDE PARTIE, CHAPITRE XVI

191

(b) A la section 10.8.2, nous avons generalise ce resultat `a des suites de variables
independantes, mais pas identiquement distribuees: Si les Yt sont independantes
desperance nulle et de variance t2 et si E(Yt3 ) < , alors:
n
1 

Yt N (0, 2 )
d
n t=1

n
o`
u 2 = lim n1 t=1 t2 .
(c) A la section 10.8.3, nous avons generalise ce resultat `a des suites de variables Yt
dependantes du type Yt = ut ut1 , o`
u les ut sont independantes et identiquement
distribuees desperance nulle. Nous avons vu que dans ce cas, sous certaines hypoth`eses:
n
1 

Yt N (0, 2 )
d
n t=1
o`
u 2 = plim

1
n

n

2
t=1 Yt .

Nous devons maintenant examiner un nouveau cas, celui de lexemple 3 de la section


16.2. On peut montrer que dans ce nouveau cas, a` savoir:
Yt = Yt1 + t ,

Y0 = 0,

t

i.i.d, E(t ) = 0,

V (t ) = 2 ,

nous avons les resultats suivants:


n

1 

Yt ne converge pas
n t=1
n
2
1 

Yt N (0, ).
d
n n t=1
3

Donc, si lon a aaire a` des processus integres, les resultats limites habituels ne seront,
en general, plus valables. Do`
u linteret dun test destine `a la detection de variables I(1) .
La r
egression de Dickey-Fuller
Notre point de depart sera la formulation dun mod`ele susamment general, decrivant
le comportement dune serie de realisations yt . Ce mod`ele doit permettre lapplication de
la denition dun processus I(1) vue a` la section 16.3. On suppose donc que:
(1)
avec:

(L)yt = + t + t
(L) = 1 1 L p Lp .

P. DESCHAMPS, COURS DECONOM


ETRIE

192

Le degre p est choisi susamment eleve, de facon `a ce que les t soient spheriques. Nous
appliquons maintenant a` (L) le lemme 15.1 vu au chapitre precedent. Ceci donne:
(L) = (1)L + (L)(1 L)

(2)
avec:

0 = 0 = 1
j

p


pour j = 1, . . . , p 1 et p > 1

s=j+1

(L) =

p1


j Lj .

j=0

Nous substituons enn lequation (2) dans lequation (1), pour obtenir:
p1


j ytj = + t + t
(1) yt1 + yt +
./01
j=1
Lyt
.
/0
1
(L)(1L)yt

ou encore:
(3)

yt = + t + yt1 +

p1


j ytj + t

j=1

avec = 1 (1) et j = j .


Ceci est la regression de Dickey-Fuller. Si yt est I(1), j j ytj + t est I(0) . La
comparaison avec la denition dun processus I(1) montre que = 1 . Le test est celui de
H0 : = 1

contre

H1 : < 1.
La statistique de Dickey-Fuller est alors la statistique t pour le test de cette hypoth`ese, `a
savoir:
mco 1
TDF =

mco
Mais cette statistique na pas une distribution limite normale car est le coecient dun
regresseur I(1). Les valeurs critiques de la statistique TDF sont fournies par Hamilton,
Time Series Analysis, 1994, Table B6, Case 4, p. 763. Pour prendre un exemple, si n = 100
et = 0.05, on va rejeter H0 : = 1 si TDF< 3.45, alors que la valeur critique normale
est egale `a 1.645.

SECONDE PARTIE, CHAPITRE XVI

193

Pour le test de la nullite dun ou de plusieurs j (coecients de ytj ), on peut utiliser


les tests habituels (t ou F , tables Student et Fisher).
Limite en distribution de TDF sous H0 .
Le resultat suivant est demontre par Hamilton, Time Series Analysis, 1994, pp. 499500.
Sous H0 : = 1, TDF converge en distribution vers la variable aleatoire suivante:

W (1)

1
[W 2 (1) 1]
[ 0 1 0 ] A1
2

'1
W (1) 0 W (r) dr

0 1


2
[ 0 1 0 ] A1 1
0
o`
u:

'1

' 1
A=
0 W (r) dr

'1
0

W 2 (r) dr

rW (r) dr

'1

1
2

W (r) dr

'1
0

1
2

rW (r) dr

1
3

et o`
u W (r) est un mouvement Brownien standard, qui est le processus stochastique continu
obtenu comme limite de:
Zt = Zt1 + t ,

Z0 = 0,

t N (0,

1
) independantes,
n

lorsque t = 1, . . . , n et n .
An dexpliquer la nature de ce processus continu, nous allons en donner une interpretation constructive, qui permettra notamment de simuler les distributions des integrales
apparaissant dans la variable limite precedente. Ces integrales sont des variables aleatoires:
le processus W (r) peut en eet etre considere come une fonction aleatoire de r (voir la
section 16.1) et lintegrale dune fonction est un nombre.
Considerons alors la suite des variables precedentes, qui peuvent secrire:
Zt =

t


s

pour t = 1, . . . , n.

s=1

Zt a la distribution N (0, nt ). Soit r nt ; comme une variable normale centree est enti`erement caracterisee par sa variance, r caracterise enti`erement Zt . Notre denition implique
donc que si n , {Zt } converge en distribution vers:
{W (r), 0 r 1}.

194

P. DESCHAMPS, COURS DECONOM


ETRIE

Generalisons maintenant ceci au cas o`


u lon a une suite de variables Yt caracterisees
par:
Yt = Yt1 + ut ,

Y0 = 0,

ut N (0, 1)

independantes.

On peut
en divisant
les deux membres de legalite precedente
se ramener au cas precedent
par n, et en denissant Zt = Yt / n, t = ut / n. On a alors:
Yt
{ } {W (r), 0 r 1}.
d
n
On peut donc approcher une realisation de W (r) en engendrant un grand nombrede
realisations ut des innovations, et en engendrant par recurrence des realisations yt / n
pour t = 1, . . . , n.
Les variables W (1) et W 2 (1) qui apparaissent dans la variable limite sont faciles a`
comprendre: W (1) est la valeur de W (r) au point r = 1, cest donc la variable normale
reduite Zn . W 2 (1) est le carre dune normale reduite, cest-`
a-dire une 2 `a un degre de
liberte.
Interessons-nous maintenant aux integrales apparaissant dans la variable limite. On peut
approcher les integrales par des
sommes de surfaces de rectangles dont les bases sont de
longueur 1/n et les hauteurs Yt / n , donc:

Yt
W (r) dr
n n
0
 2
 2
% 1
Yt
Yt
1
2
=
W (r) dr
n n
n2
0
% 1
1 
1  t Yt
= 2
tYt
rW (r) dr
n
n n
n n
0
%

Pour simuler, par exemple,

'1
0

W (r) dr, on peut:

(1) engendrer n = 1000 realisations de variables ut normales reduites independantes;


(2) calculer par recurrence n = 1000 realisations yt ;
(3) calculer:
n
t=1 yt
.
n n
'1
On a alors une realisation simulee dune approximation de 0 W (r) dr.
Si lon refait cet exercice 10000 fois, on a alors 10000 realisations simulees de cette
variable aleatoire. Lhistogramme de ces 10000 realisations est une bonne approximation
'1
de la densite de 0 W (r) dr.

SECONDE PARTIE, CHAPITRE XVI

195

'1
En fait, Hamilton (Time Series Analysis, 1994, p.485) montre que 0 W (r) dr a la distribution N (0, 1/3). Dans des cas plus compliques, tels que la simulation de la distribution
limite de la statistique TDF, la methode de simulation est la seule possible. Il faut bien
noter que les variables aleatoires apparaissant dans la variable limite sont fonction dun
meme processus W (r).
Notes sur le test TDF:
(1) Si lon ninclut pas la constante ou la tendance lineaire dans la regression de DickeyFuller, la distribution limite change (les tables a` employer sont dierentes !). Voir
Hamilton, pp.528529, pour les details.
(2) Linclusion dune constante et dune tendance lineaire dans la regression de DickeyFuller est conseillee dans linteret de la robustesse (il est plus grave domettre `a
tort des regresseurs que de faire lerreur inverse).
(3) La variable limite precedente a ete obtenue sous lhypoth`ese auxiliaire que = 0
(pas de tendance lineaire dans lequation (3) de cette section lorsque = 1, cest-`adire dans le mod`ele en dierences premi`eres). Le test precedent nest donc approprie
que si les yt ne presentent pas de tendance quadratique manifeste. La meilleure
strategie `a adopter dans le cas contraire reste une question ouverte.
(4) La technique de calcul des valeurs critiques illustre la puissance de la methodologie
de simulation stochastique.
(5) La variable limite reste inchangee si les erreurs de la regression de Dickey-Fuller
ne sont pas normales, pour autant quun theor`eme central limite fonctionnel soit
applicable (voir Hamilton, p.479).
16.5 Variables coint
egr
ees
On peut obtenir un processus I(0) a` partir dun processus I(1) en prenant les dierences
premi`eres du processus I(1). Malheureusement, ceci supprime toutes les informations `a long
terme. Pour cette raison, on a deni une autre approche permettant dobtenir un processus
I(0), celle de la cointegration.
D
enition:
Soit Y1t , Y2t , . . . , Ykt des processus stochastiques I(1). Ces processus sont dits cointegres
sil existe un vecteur a = 0 tel que :
a Yt =

k


ai Yit

i=1

soit un processus I(0).


Exemple:
Soit y1t une serie dobservations sur le logarithme de la consommation par tete `a prix
constants, et soit y2t une serie dobservations sur le logarithme du revenu disponible par

P. DESCHAMPS, COURS DECONOM


ETRIE

196

tete `a prix constants. On fait lhypoth`ese que ces deux series sont des realisations de
processus I(1):
y1t = 1 + y1,t1 + 1t
y2t = 2 + y2,t1 + 2t
On aura cointegration si la serie y1t y2t = ut est une realisation dun processus I(0) .
Interpr
etation:
Le vecteur cointegrant est ici a = (1, ) . On a une relation de cointegration:
y1t = y2t + ut
o`
u ut est I(0) . On peut interpreter cette relation comme une fonction de consommation
`a long terme, mais linterpretation est dierente de celle que lon avait dans le cas o`
u y1t
et y2t etaient stationnaires. En eet, les niveaux dequilibre de y1t et y2t nexistent pas,
car:
yit = i + yi,t1 + it
= i + i + yi,t2 + i,t1 + it
= ...
= ti +

t


is + yi0 ;

s=1

donc E(yit ) nest pas bornee.


On ne peut donc pas avoir une relation entre les niveaux dequilibre des variables, mais
y1t = y2t peut etre consideree comme lequation dun attracteur.
Test de lhypoth`
ese de coint
egration.
Lidee de base est la suivante. On va faire un test de racines unitaires sur les residus de
la relation de cointegration obtenus par la methode des moindres carres ordinaires (cette
methodologie est la plus ancienne et la plus simple).
Il faut neanmoins prendre garde au fait que les distributions limites sont dierentes de
celles des tests de Dickey-Fuller precedents, car lestimation par moindres carres repose
sur lhypoth`ese de cointegration. La mise en oeuvre se deroule comme suit:
(1) On teste si yt , xt1 , . . . , xtk sont I(1), a` laide du test TDF precedent applique `a
chacune de ces variables.
(2) On estime par moindres carres ordinaires la relation de cointegration:
yt = + 1 xt1 + + k xtk + ut

SECONDE PARTIE, CHAPITRE XVI

197

Ceci donne des residus u


t .
(3) On teste = 1 contre < 1 dans la regression:
ut1 +
u
t =

p


utj + t .

j=1

La statistique TCO = (
1)/
est `a comparer avec les valeurs critiques fournies
par Hamilton, Table B9, Case 3, p.766. Ces valeurs critiques sont valables dans le
cas o`
u au moins lune des variables yt , x1t , . . . , xkt poss`ede une derive non nulle.
16.6 R
egressions de coint
egration
Quelles sont les proprietes des estimateurs par moindres carres ordinaires des coecients
de la relation:
yt = + 1 xt1 + + k xtk + ut
o`
u toutes les variables yt , xt1 , . . . , xtk sont I(1) mais o`
u ut est I(0)? Stock (Econometrica

55, 1987, pp.10351056) montre que si = (1 , . . . , k ), alors:

n( ) 0
p

(on dit que lon a superconvergence);

n( ) vecteur non standard.


d

Le probl`eme ne se pose donc pas au niveau de lestimation ponctuelle, mais au niveau


des tests. Letude de ces derniers ne sera pas faite ici. Plusieurs methodologies possibles
sont decrites dans Hamilton, chap. 19 et 20.
On peut substituer dans un mod`ele de correction derreur les residus dune relation
de cointegration estimee par moindres carres ordinaires. Pour reprendre lexemple de la
section 15.5, on peut estimer par moindres carres ordinaires dans la relation yt = xt +ut,
puis estimer, toujours par moindres carres ordinaires, a, 1 , et 0 dans le mod`ele:
t1 ] + 0 xt + t .
yt = a (1 1 )[yt1 x
16.7 R
egressions factices (spurious regresssions)
Que se passe-t-il si lon estime par moindres carres la relation:
yt = + 1 xt1 + + k xtk + ut
o`
u toutes les variables yt , xt1 , . . . , xtk , et ut sont I(1)? Dans ce cas, on na pas de cointegration.

P. DESCHAMPS, COURS DECONOM


ETRIE

198

Phillips (Journal of Econometrics 33, 1986, pp.311340) montre que:


(1) ( , 1 , . . . , k ) vecteur non standard
n

(2) Pour le test = 0 contre = 0:


n1 Fobs variable non standard.
d

Donc
et Fobs divergent et les i ne convergent pas en probabilite! Ceci meme si les
k + 1 variables yt , xt1 , . . . , xtk sont independantes entre elles. Pour tout c, on a que:
lim P [Fobs > c] = 1,

donc on rejettera toujours = 0 si n est assez grand.


16.8 Conclusions
(1) La modelisation econometrique des variables I(1) est un probl`eme dicile. Le domaine manque de maturite (plusieurs questions restent ouvertes).
(2) La notion de cointegration est recente et reste contestee. Elle presente notamment
deux dicultes:
Lequivalence observationnelle, en petit echantillon, dun processus I(1) et
dun processus presque non stationnaire, par exemple le suivant:
Yt = 0.9999Yt1 + t .
Le manque de puissance des tests de racines unitaires couramment utilises.
Donc la classication dune variable entre I(0) et I(1) reste un peu un jugement
de valeurs, or letude de la relation entre les variables depend crucialement dune
telle classication.
(3) Les distributions limites des statistiques de test et des estimateurs dependent crucialement des hypoth`eses faites sur le mod`ele vrai. On peut tester ces hypoth`eses,
mais ceci nelimine pas le risque dune inference incorrecte.
(4) La cointegration est donc une hypoth`ese de travail, qui donne de bons resultats
dans certains cas, pas dans dautres. Ce nest pas une panacee.
(5) Il faut connatre les concepts de base car les probl`emes poses sont importants. Le
but de cette introduction etait precisement de rendre familiers ces concepts de base
(qui peuvent etre deroutants lorsquon les rencontre pour la premi`ere fois).

`
TROISIEME
PARTIE

SYSTEMES
DEQUATIONS
SIMULTANEES
CHAPITRE I.

INTRODUCTION

1.1 Explication intuitive du biais d


u`
a la simultan
eit
e
Il arrive souvent quun mod`ele economique comprenne plusieurs equations simultanees.
Comme nous allons le voir, si lon ne tient pas compte de cette situation lors de lestimation
des param`etres du mod`ele, les estimateurs obtenus pourront presenter un biais de simultaneite, qui ne disparatra pas lorsque la taille de lechantillon tend vers linni (defaut de
convergence). En eet, certains regresseurs seront stochastiques, et seront correles avec le
terme derreur contemporain.
Nous illustrerons ce phenom`ene au moyen de deux exemples.
Exemple 1
Le mod`ele suivant, dont lorigine remonte a` Haavelmo, comporte deux equations: une
equation stochastique de comportement, et une denition (identite comptable):

Ct

a + bYt + u1t

Yt

C t + It

o`
u Ct est la consommation, Yt le revenu national, It linvestissement, et u1t est un terme

derreur formant un vecteur u1 avec E(u1 ) = 0, E(u1 u1 ) = 2 I.
En substituant la premi`ere equation dans la seconde, on obtient:
Yt = a + bYt + u1t + It ,
soit aussi:
Yt =

a
u1t
1
+
It +
.
1b 1b
1b
199

P. DESCHAMPS, COURS DECONOM


ETRIE

200

Donc si E(It u1t ) = 0, on a:


E(Yt u1t ) = E(

u21t
2
)=
= 0,
1b
1b

et lapplication des moindres carres ordinaires a` la premi`ere equation ne donne pas des
estimateurs convergents.
Si E(Yt u1t ) > 0, nous aurons, avec une probabilite relativement forte:

u1t > E(u1t ) = 0 lorsque Yt > E(Yt )


u1t < E(u1t ) = 0 lorsque Yt < E(Yt )

+ bYt , la pente de cette


Si lon represente alors les deux droites Ct = a + bYt et Ct = a
derni`ere droite est la plus forte, car a et b minimisent la somme des carres des residus:
Ct
8
7

......
.....
......
......
.
.
.
.
....
......
.....
......
.
.
.
.
.
......
.....
.....
......
.
.
.
.
.
......
......
......
.....
.
.
.
.
.....
......
...
.....
.............
......
.
.
.
.............
.
.
...
.............
.....
.............
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.....
..............
......
.............
.....
.............
...... .........................
.
.
.
.
.
.
.. ....
.................
...............
............. .....
............. ..........
.
.
.
.
.
.
.
.
.
.
.
.
.
......
..............
.............
......
......
.....
.
.
.
.
.....
......
.....
......
.
.
.
.
.
.....
.....
.....
......

5
4

0.5

a
+ bYt


.....

a + bYt

1.0

1.5
E(Yt )

Yt
2.0

Exemple 2
Nous avons ici deux equations de comportement, une loi dore et une loi de demande.
Les quantites demandees (qt ) dependent du prix (pt ) et du revenu (rt ). Le prix (pt ) depend
ut de production (ct ). Le syst`eme secrit:
des quantites oertes (qt ) et du co

`
TROISIEME
PARTIE, CHAPITRE I

(i)

qt

a1 + b1 rt + c1 pt + u1t

(ii)

pt

a2 + b2 ct + c2 qt + u2t

201

Donc pt depend de qt dans (ii), qui depend de u1t dans (i): nous concluons que pt est
correlee avec u1t . Mais pt apparat comme regresseur dans (i): nous avons donc un probl`eme
de simultaneite comme auparavant.
1.2 Variables endog`
enes et pr
ed
etermin
ees
Les variables pt et qt de lexemple precedent sont dites endog`enes: elles sont determinees
par le mod`ele, et dependent des termes derreur de chacune des equations. Les variables
ct et rt sont dites predeterminees: par hypoth`ese, elles ne sont correlees avec aucun des
termes derreurs contemporains.
Comme on le verra par la suite, il est important de faire une distinction entre variables
exog`enes et variables predeterminees. Les variables exog`enes sont determinees par des
relations nappartenant pas au mod`ele: elles ne sont donc correlees, ni avec les termes
derreurs contemporains, ni avec les autres termes derreur. En revanche, les variables
predeterminees comprennent, non seulement les variables exog`enes, mais aussi les variables
endog`enes retardees, pour autant que les erreurs ne soient pas correlees dans le temps.
1.3 Pr
esentation matricielle et hypoth`
eses
Nous pouvons ecrire le syst`eme dequations precedent sous la forme canonique suivante:

qt c1 pt a1 b1 rt 0ct

u1t

c2qt + pt a2 0rt b2 ct

u2t

ou, sous forme matricielle:

11

12

21

22

qt
pt

11

12

21

22

1
u1t
rt =

23
ct
u2t
13

avec les restrictions 11 = 1, 22 = 1, 13 = 0, 22 = 0. En general donc, nous avons


le format suivant pour un syst`eme de g equations, comportant g variables endog`enes et k
variables predeterminees:

P. DESCHAMPS, COURS DECONOM


ETRIE

202

Byt + xt = ut
o`
u B est une matrice g g de coecients des variables endog`enes;
est une matrice g k de coecients des variables predeterminees;
yt est un vecteur g 1 de variables endog`enes;
xt est un vecteur k 1 de variables predeterminees;
ut est un vecteur g 1 derreurs inobservables.
Les hypoth`eses de ce mod`ele sont les suivantes:
(H1 ) E(ut ) = 0

pour tout t = 1, . . . , n

(H2 ) E(ut ut ) =


(t = s)

(H3 ) E(ut us ) = Ogg


(H4 ) B est reguli`ere
(H5 ) rang (X) = k < n

(H6 ) plim

(H7 ) plim


1
nX U


1
nX X

= Okg

= XX est denie positive

o`
u

x1



x2


.
.
.

est n k

et

est n g

xn

u1



u2


.
.
.



un
En reunissant toutes les observations t sur Byt + xt = ut , on peut aussi secrire


Y B + X = U, o`
u Y est n g.

`
TROISIEME
PARTIE, CHAPITRE I

203

1.4 Forme structurelle et forme r


eduite
Le syst`eme Byt + xt = ut sappelle la forme structurelle du mod`ele: cest la representation formelle dun mod`ele economique et ce sont donc les param`etres de ce syst`eme que
nous voulons estimer. Neanmoins, comme nous lavons vu, nous ne pouvons estimer ces
param`etres par la methode des moindres carres ordinaires appliquee `a chaque equation.
Nous allons donc transformer la forme structurelle en un syst`eme derive, dit forme
reduite, qui exprime chaque variable endog`ene en fonction de toutes les variables predeterminees du mod`ele, et des erreurs.
Premultiplions les deux membres de Byt + xt = ut par B 1 . Il vient:
yt = xt + vt

avec = B 1 et

vt = B 1 ut

Comme nous le verrons, les g equations de ce nouveau syst`eme peuvent etre estimees
par moindres carres ordinaires, sans probl`eme de simultaneite.
La forme reduite peut aussi secrire:


Y = X + V

, o`
u V = U(B )1

Comme cas particuliers de la forme reduite, nous pouvons mentionner:


(1) Le mod`ele MANOVA (multivariate analysis of variance) o`
u les variables exog`enes
ne prennent que les valeurs 0 et 1.
(2) Le mod`ele autoregressif vectoriel (VAR). Ce mod`ele peut secrire:
(L)yt = 0 + vt
o`
u (L) est une matrice de polyn
omes:
(L) = I 1 L p Lp .
On a alors:
yt = 0 + 1 yt1 + + p ytp + vt
ce qui correspond bien a` lequation yt = xt + vt , si lon denit:

1
yt1

xt =
..
.
ytp
= ( 0 1 2 . . . p ) .
(3) Le mod`ele autoregressif a` retards echelonnes vectoriel, o`
u lon a un nombre arbitraire de variables exog`enes formant un vecteur zt et un nombre arbitraire de
retards de ces variables. Il sagit dune generalisation du mod`ele VAR precedent,
qui peut secrire comme:
(L)yt = (L)zt + vt .
Un cas particulier de ce type de mod`ele sera etudie en detail a` la section 1.7.

204

P. DESCHAMPS, COURS DECONOM


ETRIE

1.5 Propri
et
es statistiques de la forme r
eduite
Il est facile de verier que:

E(vt ) = 0
E(vt vt ) = B 1 (B  )1
E(vt vs ) = Ogg pour t = s

1 
X V = Okg .
plim
n
Donc les erreurs de la forme reduite sont desperance nulle, homoscedastiques, non
correlees dans le temps, et non correlees avec les regresseurs contemporains.
On peut par consequent estimer les equations de la forme reduite par moindres carres
ordinaires. La colonne i de legalite matricielle Y = X + V peut secrire:
y i = X i + v i
o`
u i est la colonne i de la matrice  . Ceci est une equation de regression du type habituel,
et par consequent:
i = (X  X)1 X  y i
 = (X  X)1 X  Y.

On montrera plus loin (section 5.1) que cet estimateur est aussi lestimateur par maximum de vraisemblance lorsque les erreurs sont normales. En revanche, comme nous lavons
indique, la forme structurelle ne peut pas etre estimee par MCO.
1.6 Interpr
etation
economique de la forme r
eduite
Reprenons le mod`ele de la section 1.1:

Ct

a + bYt + u1t

Yt

C t + It

Lestimation des param`etres de cette forme structurelle ne fournit que les propensions
marginales et moyennes a` consommer. On pourrait aussi se demander quel est limpact sur
la consommation dune augmentation des depenses dinvestissement. Cet impact est bien
entendu mesure par le multiplicateur.

`
TROISIEME
PARTIE, CHAPITRE I

205

Nous allons voir que ce multiplicateur nest autre que lun des coecients de la forme
reduite. Ces coecients mesurent donc leet sur les variables endog`enes dun changement
des variables predeterminees, lorsque lon tient compte de la simultaneite du syst`eme.
La forme structurelle secrit Byt + xt = ut , avec

B=

, =

yt =

Ct

, xt =

Yt

et ut =

u1t

It

Donc:

=
=

1
B =
1b

1
a b
,

1 b a 1
1

1
1

b
1

a 0
0 1

et la forme reduite secrit:

Ct

Yt

On obtient donc directement

b
a
+
It + v1t
1b 1b
1
a
+
It + v2t
1b 1b

dCt
b
1
dYt
=
=
et
.
dIt
1b
dIt
1b

1.7 Forme r
eduite dynamique, forme nale, multiplicateurs
Certaines variables predeterminees sont ici des variables endog`enes retardees. Dans le
cas particulier dun seul retard, nous pouvons ecrire la forme reduite comme:
yt = 1 yt1 + 2 zt + vt
o`
u yt est le vecteur des variables endog`enes contemporaines, yt1 est le vecteur des
variables endog`enes retardees, zt est le vecteur des variables exog`enes et 1 , 2 sont des
sous-matrices de .
Nous allons, au moyen de substitutions successives, exprimer yt en fonction des seules
variables exog`enes et des erreurs.

P. DESCHAMPS, COURS DECONOM


ETRIE

206

On a

yt

1 (1 yt2 + 2 zt1 + vt1 ) + 2 zt + vt

21 yt2 + 1 2 zt1 + 2 zt + 1 vt1 + vt

et, apr`es s substitutions:


yt =

s+1
1 yts1

j1 2 ztj

j=0

j1 vtj

j=0

On fait alors lhypoth`ese que lims s1 = O, et lon obtient en passant a` la limite:


yt

Cj ztj +

j=0

avec:

j1 vtj ,

j=0

Cj = j1 2 .
def

Cette derni`ere equation sappelle la forme nale du mod`ele. Elle permet dobtenir, par
simple lecture, les multiplicateurs dynamiques. On distingue:
(1) Les multiplicateurs dimpact: ce sont les composantes de C0 = 2 .
(2) Les multiplicateurs de delai j: ce sont les composantes de Cj . Ils mesurent leet
sur les yt dune variation temporaire des variables exog`enes `a la periode t
j.

(3) Les multiplicateurs cumules: ce sont les composantes de la matrice D = j=0 Cj .


Ils mesurent leet sur les yt dune variation prolongee des variables exog`enes durant
les + 1 periodes t , t + 1, . . . , t.
(4) Les multiplicateurs dequilibre: ce sont les composantes de la matrice:
D =



1
Cj = I + 1 + 21 + . . . 2 = (I 1 ) 2 .

j=0

Ils mesurent leet dune variation des zt soutenue pendant une innite de periodes.
Le niveau dequilibre des variables endog`enes est alors donne par E(
y ) = D z, o`
u
z est le nouveau niveau des variables exog`enes.
A titre dexemple, considerons la forme structurelle suivante:

Ct

0.25 + 0.5Yt + u1t

It
Yt

=
=

0.15 + 0.1Yt + 0.3Yt1 + u2t


Ct + It + Gt .

Supposons qu`
a partir dune situation dequilibre, le niveau G des depenses gouvernementales augmente dune unite `a la periode t 1, et revienne a` la periode suivante `a son

`
TROISIEME
PARTIE, CHAPITRE I

207

niveau initial. On demande les eets de cette augmentation temporaire sur C, Y et I `


a la
periode t et `a la periode t + 1.
Nous avons ici:

Ct



yt = Yt ;

xt =

yt1

zt =
Gt

zt

It

et la forme structurelle Byt + xt = ut secrit:

0.5
0.1
1

Ct



1 Yt + 0

1

0.3 0

It

Ct1

u1t
0.25 0
Yt1

0.15 0 It1 = u2t


0
1 1
0

Gt
On verie aisement que

0.375 0

= B 1 = 0

0.75

0.375 0

0.75 1.25
1

2.5

0.25 0.25

et la forme reduite secrit yt = 1 yt1 + 2 zt + vt , avec:

1 = 0

0.375 0
0.75

0 et

0.375 0

0.75 1.25

2 = 1

2.5

0.25 0.25

Les reponses aux questions posees sont donnees par les multiplicateurs de delai 1, et de
delai 2. On verie que:

P. DESCHAMPS, COURS DECONOM


ETRIE

208

0.375

0.9375

1.875

C1 = 1 2 = 0.75

0.375

0.9375

0.28125

0.703125

1.40625

C2 = 21 2 = 0.5625

0.28125

0.703125

et si
Donc, si une situation dequilibre prevaut a` la periode t 2 (soit si Gt2 = G)
= 1 tandis que Gs G
= 0 pour s = t 1, on a, a` un terme derreur pr`es:
Gt1 G
Ct C = 0.9375
Yt Y = 1.875
It I = 0.9375

Ct+1 C = 0.703125
Yt+1 Y = 1.40625
It+1 I = 0.703125

En eet:
yt y

C0 (zt z) + C1 (zt1 z) + C2 (zt2 z) + . . . + t

yt+1 y

C0 (zt+1 z) + C1 (zt z) + C2 (zt1 z) + . . . + t+1

Si maintenant laugmentation des depenses gouvernementales se maintient pour un


nombre inni de periodes, la consommation augmentera, `a lequilibre, de 5 unites; le revenu
national, de 10 unites; linvestissement, de 4 unites. En eet:

D = (I 1 )

2.25

2 = 4

1.75

10

1.8 Relation entre la forme r


eduite dynamique et le mod`
ele AD
Le mod`ele de la section precedente peut aussi secrire:
(L)yt = (L)zt + vt
o`
u (L) = I 1 L et (L) = 2 . On sapercoit que la matrice D des multiplicateurs
dequilibre nest autre que [(1)]1 (1). De mani`ere plus generale, tous les resultats du
chapitre XV de la seconde partie ont une generalisation vectorielle dans le present contexte.

`
TROISIEME
PARTIE, CHAPITRE II

209

CHAPITRE II.

`
LE PROBLEME
DE LIDENTIFICATION

2.1 Structures observationnellement


equivalentes
Lorsque nous estimons les param`etres de la forme reduite par la methode des moindres
carres ordinaires, le probl`eme suivant se pose. Comme nous lavons signale `a la section
1.4, ce sont les composantes des matrices B et qui nous interessent en premier lieu.
Peut-on, alors, trouver des estimations convergentes uniques de ces composantes a` partir
destimations convergentes des composantes de ? Ce probl`eme est celui de lidentication
de B et de .
Pour que B et puissent etre identiees, il faut quil existe une correspondance bijective entre dune part, B et dautre part. Donc, il faut qu`
a toute forme reduite
corresponde une et une seule forme structurelle et reciproquement. Il est facile de voir que
sans restrictions sur les coecients, ceci ne sera jamais le cas. A une forme reduite donnee
correspondrait une innite de formes structurelles; ces derni`eres sont dites observationnellement equivalentes (elles impliquent la meme forme reduite).
Considerons en eet les deux formes structurelles suivantes:
Byt + xt = ut

et (F B)yt + (F )xt = F ut

o`
u F est une matrice g g reguli`ere, dierente de la matrice unite. A la seconde forme
structurelle correspond la forme reduite yt = B 1 xt + B 1 ut , comme on le voit facilement si lon premultiplie les deux membres par (F B)1 = B 1 F 1 . Cette forme reduite
est identique a` la premi`ere. Les deux formes structurelles sont donc observationnellement
equivalentes. Or, il existe une innite de matrices F reguli`eres.
On verie que les deux formes structurelles conduisent a` la meme fonction de vraisemblance. Le probl`eme du maximum de vraisemblance na donc pas de solution unique.
Comment, alors, estimer B et ? Nous ne pouvons le faire que gr
ace aux restrictions
a` priori que nous fournit la theorie economique sur les composantes de ces matrices. Le
probl`eme didentication est donc conceptuellement fort semblable au probl`eme de multicolinearite etudie `a la section 5.7.1 de la deuxi`eme partie.
En particulier, certaines des composantes seront nulles: les variables correspondantes
apparatront dans certaines equations, mais pas dans les autres (voir la section 1.1 de cette
troisi`eme partie). Ces restrictions impliqueront alors des restrictions sur la matrice F , car

P. DESCHAMPS, COURS DECONOM


ETRIE

210

les matrices de coecients F B et F de la structure transformee doivent obeir aux memes


restrictions que la structure dorigine (dans le cas contraire, nous changerions le mod`ele!)
Si ces restrictions impliquent une matrice de transformation unique, il y a correspondance
bijective entre forme structurelle et forme reduite: B et sont alors identiables.
2.2 Syst`
emes r
ecursifs
Un syst`eme recursif est caracterise par une matrice B triangulaire et une matrice =

E(ut ut ) diagonale. Un exemple dun tel syst`eme est donne par:

11

12

21

22

y1t

y2t

11

x1t =

21

u1t

u2t

avec les restrictions 11 = 22 = 1, 12 = 0, et E(u1t u2t) = 12 = 21 = 0. On peut


alors ecrire:

y1t

11 x1t + u1t

y2t

21 y1t 21 x1t + u2t

Lapplication des moindres carres ordinaires a` chaque equation donne des estimateurs
convergents. La propriete est evidente pour la premi`ere equation. En ce qui concerne la
seconde, il est immediat que E(y1t u2t ) = 0, puisque E(x1t u2t ) = 0 et E(u1tu2t ) = 0.
Nous allons illustrer la section precedente en veriant, par le biais de la matrice de
transformation F , que les deux equations du syst`eme sont identiables.
Les matrices de la forme structurelle transformee:

FB

f11

f12

f21

f22

11

12

21

22

f11 11 + f12 21

f11 11 + f12 21

f11 12 + f12 22

f21 11 + f22 21

f21 12 + f22 22

f21 11 + f22 21
doivent obeir aux trois memes restrictions que les matrices B et . De meme, la matrice
de covariance de la forme structurelle transformee doit etre diagonale. Nous avons donc
les quatre restrictions suivantes (il faut bien noter que ce sont les seules):

`
TROISIEME
PARTIE, CHAPITRE II

f11 11 + f12 21

f11 12 + f12 22

f21 12 + f22 22

f11 (11 f21 + 12 f22 ) + f12 (21 f21 + 22 f22 )

211

ou, en substituant les quatre restrictions sur les param`etres de la forme structurelle
dorigine:

f11 + f12 21

f12

f22

f11 11 f21 + f12 22 f22

Comme 11 = 0, ces quatre equations ont comme solution unique f11 = 1, f12 = 0, f21 =
0, f22 = 1.
Donc les restrictions impliquent F = I, et nous ne pouvons avoir deux formes structurelles dierentes impliquant la meme forme reduite. Les deux equations sont identiables.
Exercice: Calculez la forme reduite du syst`eme precedent. Pourquoi ne peut-on pas identier les param`etres de la seconde equation structurelle lorsque E(u1t u2t ) = 0?
2.3 La condition de rang

Lorsque les seules restrictions sont des restrictions lineaires homog`enes portant sur les ij
et ij , jointes a` des restrictions de normalisation (ij = 1 pour un seul j dans lequation i ),
nous allons voir quil nest pas necessaire de passer par lapproche de la section precedente.
Une condition necessaire et susante pour lidentiabilite dune equation peut en eet etre
enoncee en fonction du rang dune certaine matrice.

212

P. DESCHAMPS, COURS DECONOM


ETRIE

2.3.1 Formulation en fonction des coecients de la forme r


eduite.
Comme = B 1 , nous pouvons enoncer la relation suivante, qui lie les param`etres
de la forme structurelle `a ceux de la forme reduite:
B + = Ogk
soit aussi:
AW = Ogk
o`
u:
A = (B

W =

est g (g + k)

est (g + k) k

Ik
Soit alors i la i-i`eme ligne de A. Il sagit du vecteur des coecients de la i-i`eme equation
structurelle. Le rang de W est egal a` k. En eet, comme rang (Ik ) = k, rang (W ) k; mais
W na que k colonnes, donc rang (W ) k. Donc i W = O1k est un syst`eme homog`ene
de k equations independantes avec g + k inconnues. Lensemble des solutions est donc un
espace vectoriel de dimension (g + k) k = g.
Les restrictions homog`enes devront ramener cette dimension a` lunite pour que lequation i soit identiable. Le vecteur i sera alors determine `a un facteur de proportionnalite
pr`es et la restriction de normalisation permettra de le determiner de facon unique.
Ces restrictions homog`enes, au nombre de Ri , sont regroupees dans le syst`eme i i =
O1Ri . La matrice i a g + k lignes et Ri colonnes. Au total, le syst`eme dequations qui
devrait nous permettre de retrouver les param`etres de la i-i`eme equation structurelle a`
partir des restrictions et des param`etres de la forme reduite est le suivant:
i ( W
et le rang de ( W
proportionnelles.

i ) = O1(k+Ri )

i ) doit etre egal a` g + k 1 pour que toutes les solutions soient

2.3.2 Formulation
equivalente en fonction des coecients de la forme structurelle.
Cette formulation est plus facile a` utiliser que la precedente, car elle nimplique pas le
calcul de .

`
TROISIEME
PARTIE, CHAPITRE II

Th
eor`
eme.
Le rang de ( W
g 1.

213

i ) est egal a` g + k 1 si et seulement si le rang de Ai est egal a`

D
emonstration:
Voir Judge et al., The Theory and Practice of Econometrics, 1985, p.577.
2.4 La condition dordre
Supposons maintenant que les seules restrictions homog`enes soient des restrictions dexclusion (du type ij = 0 ou ij = 0). Nous pouvons alors enoncer un crit`ere encore plus
simple que le precedent. Il faut neanmoins insister sur le fait que ce crit`ere est une condition
necessaire, mais pas susante, pour lidentication dune equation. Si la condition dordre
nest pas veriee, lequation nest pas identiable; si la condition dordre est satisfaite, il
faut neanmoins verier la condition de rang.
Repartons de lequation rang ( W i ) = g + k 1. Comme ( W i ) a k + Ri colonnes
et g + k lignes, cette condition ne sera certainement pas veriee si Ri < g 1; en eet, dans
ce cas, rang ( W i ) k+Ri < k+g1. Une condition necessaire pour lidentication de
lequation i est donc Ri g 1. Comme les Ri restrictions sont des restrictions dexclusion,
on a:
R i = g g i + k ki
o`
u gi et ki sont les nombres de variables respectivement endog`enes et predeterminees
incluses dans lequation i. Il faut donc que:
R i = g g i + k ki g 1
soit

k ki g i 1 .

Cette derni`ere inegalite est la condition dordre.


Le nombre de variables predeterminees exclues ne peut etre inferieur au nombre de
variables endog`enes incluses moins 1.
Si k ki = gi 1, lequation est dite juste-identiee.
Si k ki > gi 1, lequation est dite sur-identiee.
2.5 Exemple
Reprenons le syst`eme recursif de la section 2.2. Nous allons voir que sans la restriction
12 = 0, la premi`ere equation reste identiable, mais la seconde ne lest pas.

214

P. DESCHAMPS, COURS DECONOM


ETRIE

La matrice A secrit, en tenant compte des restrictions:

A=

0 11

21 1 21

0
0

, qui est de rang 1 = g 1.


Pour la premi`ere equation, 1 = 1 . Donc A1 =
1
0
La premi`ere equation est donc identiable. Comme k k1 = 0 = g1 1 = 0, elle est
juste-identiee.
Pour la seconde equation, k k2 = 0 < g2 1 = 1. Cette equation nest pas identiable.
Exercice: Discutez lidentication des deux equations de lexemple 2 de la section 1.1

`
TROISIEME
PARTIE, CHAPITRE III

215

CHAPITRE III.

` INFORMATION LIMITEE

METHODES
DESTIMATION A

3.1 Introduction
Nous verrons dans ce chapitre la methode des moindres carres indirects, qui nest applicable qu`
a une equation juste-identiee (k ki = gi 1); la methode des moindres carres
doubles, qui est applicable a` toute equation identiable (k ki gi 1); et lestimateur
de classe k, qui generalise celui des moindres carres doubles et qui inclut aussi, comme cas
particulier, lestimateur par maximum de vraisemblance `a information limitee. Le terme
information limitee signie que lon ne tient compte, lors de lestimation des coecients
de la i-i`eme equation structurelle, que des restrictions a priori sur cette equation (independamment de la formulation des autres equations). Les methodes de cette classe ont donc
lavantage de la simplicite et de la robustesse. En revanche, les methodes `a information
compl`ete, que nous verrons au chapitre IV, sont potentiellement plus ecaces car elles
utilisent les restrictions a priori sur toutes les equations du syst`eme.
Lestimateur de moindres carres doubles, que nous verrons a` la section 3.3, est lestimateur a` information limitee le plus couramment utilise. Cest un estimateur par variables
instrumentales, qui est asymptotiquement equivalent a` celui du maximum de vraisemblance
`a information limitee.
3.2 Moindres carr
es indirects
3.2.1 Pr
esentation de la m
ethode.
Nous avons mentionne plus haut que les equations de la forme reduite yt = xt +
vt pouvaient etre estimees par moindres carres ordinaires: on regresse chaque variable
endog`ene sur toutes les variables predeterminees presentes dans le mod`ele. Ceci fournit

une estimation convergente de la matrice , soit .


Si lequation i est juste-identiee, on peut en deduire des estimations convergentes des
composantes de i en resolvant le syst`eme

i ( W

i ) = O1(k+Ri )

o`
u

=
W

Ik

et en imposant la condition de normalisation.

P. DESCHAMPS, COURS DECONOM


ETRIE

216

3.2.2 Limitations.
Montrons que cette procedure nest pas applicable lorsque Ri = g 1. La matrice
i ) est de dimensions (g + k) (k + Ri ).
(W
Si Ri > g 1, son rang sera de g + k en general, meme si rang ( W i ) = g + k 1.
Nous avons donc g + k equations independantes en g + k variables. La solution unique est
le vecteur nul, et cette solution est donc incompatible avec la condition de normalisation!
i ) sera strictement inferieur a` k + g 1, et nous aurons
Si Ri < g 1, le rang de ( W
une innite de solutions.
Illustrons ce qui prec`ede au moyen de lexemple suivant:

St

a0 + a1 pt + a2 Et + u1t

pt

b0 + b1 St + b2 rt + b3 pt1 + u2t

o`
u St est le taux de variation des salaires; pt est le taux dination; Et est le taux de
chomage; rt est le taux dinteret.
Les deux variables endog`enes sont pt et St ; les quatre variables predeterminees sont la
constante, Et , rt et pt1 .
La matrice A a la forme suivante:

A=

a1

b1

a0

a2

b0

0
b2

b3

Les deux matrices 1 et 2 sont

Donc

0
0

0
1 =
0

1
0

A1 =
b2

0
0

0
1
0
b3


0
0

0
2 =
1

0
0

et

A2 =

a2

Les deux matrices sont de rang 1, donc les deux equations sont identiables. Pour la
premi`ere equation, k k1 = 2 > g1 1 = 1. Pour la seconde, k k2 = 1 = g2 1 = 1.
Donc la premi`ere equation est sur-identiee, la seconde est juste-identiee.
Nous resumons les donnees de lechantillon dans la matrice des sommes de carres et de
produits suivante:

`
TROISIEME
PARTIE, CHAPITRE III

St
pt
Constante
Et
rt
pt1

217

St

pt

Constante

Et

rt

pt1

361
100
10
20
80
80

100
279
80
10
60
40

10
80
100
0
0
0

20
10
0
20
0
0

80
60
0
0
40
0

80
40
0
0
0
80

Les param`etres de la forme reduite sont estimes par moindres carres ordinaires. Donc:

10

20

80

10

1
100

80 80 0

60 40 0

0.1
0.8

0.5 1.5

1
20

1
40

1
80

0.5

Estimons les param`etres de la seconde equation structurelle par la methode des moindres
carres indirects. Ces estimations sont obtenues en resolvant:

( b1

b0

b2

0.1

0.8 0.5

0
1

b3 )
1
0

0
0

0
0

1.5 0.5

0
0

= (0
0
0

1
0

0
1

0 0

0)

ce qui implique b0 = 0.75, b1 = 0.5, b2 = 0.5, b3 = 0.


Si nous tentons de faire la meme demarche pour la premi`ere equation, nous obtenons:

P. DESCHAMPS, COURS DECONOM


ETRIE

218

( 1 a1

a0

a2

0.1

0.8

0)
0

0.5 1.5
0

0.5

= (0
0

0)

La troisi`eme equation de ce syst`eme senonce comme 2 1.5 a1 = 0, la quatri`eme


comme 1 0.5 a1 = 0. Ces deux equations sont incompatibles.
3.3 Moindres carr
es doubles
Contrairement `a la precedente, cette methode peut etre appliquee `a toute equation identiee. Nous fournirons deux interpretations de lestimateur par moindres carres doubles:
(1) une interpretation heuristique;
(2) une interpretation en termes de variables instrumentales;
3.3.1 Notation.
Supposons que nous voulions estimer les param`etres de la i-i`eme equation structurelle.
Celle-ci peut secrire:
yi

Yi i + Xi i + ui

ou

yi

Ti i + ui

avec Ti

( Yi

Xi )

et i =

i
yi est le vecteur n 1 des observations sur la variable endog`ene dont le
coecient est normalise `a lunite dans lequation i;
Yi est la matrice n (gi 1) des observations sur les variables endog`enes qui
sont incluses comme regresseurs dans lequation i;
Xi est la matrice n ki des observations sur les variables predeterminees
incluses dans lequation i.

`
TROISIEME
PARTIE, CHAPITRE III

219

3.3.2 Premier exemple dapplication.


Pour la forme structurelle de la section 1.1:
Ct = a + bYt + u1t
Yt = C t + I t
nous avons calcule la forme reduite:
Ct = 11 + 12 It + v1t
Yt = 21 + 22 It + v2t .
Si la matrice etait connue, on pourrait calculer:
Yt = 21 + 22 It .
Si It est non stochastique, Yt est non stochastique. On pourrait alors imaginer destimer
par MCO les param`etres a et b dans lequation modiee:
Ct = a + bYt + wt .
En fait, est inconnue. Mais on peut lestimer de facon convergente par MCO, et
calculer:
21 +
22 It .
Yt =
Lestimateur de a et b par moindres carres doubles se calcule en appliquant les MCO `a
lequation structurelle modiee:
Ct = a + bYt + et .

3.3.3 Pr
esentation heuristique g
en
erale.
Cette presentation conduit aisement aux equations normales. Nous denirons lestimateur de i par moindres carres doubles comme le vecteur obtenu en:
regressant, par moindres carres ordinaires, chacune des variables de Yi sur toutes les
variables predeterminees du mod`ele, an dobtenir une matrice de valeurs calculees
Yi ;
puis en remplacant Yi par Yi dans lequation yi = Yi i + Xi i + ui et en appliquant
une nouvelle fois les moindres carres ordinaires a` lequation ainsi obtenue.

220

P. DESCHAMPS, COURS DECONOM


ETRIE

Lidee est donc la suivante:



Nous avons, en vertu de la forme reduite, legalite Y = X + V . Si etait une

matrice connue, le fait de remplacer la matrice Y par la matrice X purgerait donc
les variables endog`enes de leur partie aleatoire. On pourrait alors appliquer les moindres
carres ordinaires a` une equation structurelle o`
u lon aurait remplace les composantes de
Yi par ces valeurs purgees, puisque ce sont ces parties aleatoires qui sont responsables du
biais de simultaneite.
En pratique, bien s
ur, est une matrice inconnue. Mais nous pouvons lestimer de facon
convergente, en appliquant les moindres carres ordinaires a` chaque equation de la forme
lestimation obtenue.
reduite. Soit
Supposons, sans perte de generalite, que Yi forme les premi`eres colonnes de Y , et par  de la facon suivante:
tageons la matrice
 = (


 )

 est k (g (gi 1)).


 est k (gi 1) et
o`
u
0
i
 . Par ailleurs,
 , etant obtenue par regression
On voit directement que Yi = X
i
i
 = (X  X)1 X  Yi . Donc
des colonnes de Yi sur celles de la matrice X, est egale `a
i


Yi = X(X X)1 X Yi est la matrice obtenue lors de la premi`ere etape de la methode des
moindres carres doubles.
Pour la seconde etape, nous avons lequation de regression yi = Yi i + Xi i + i , que
nous pouvons aussi ecrire yi = Zi i + i avec Zi = ( Yi Xi ). Les equations normales


secrivent alors (Zi Zi )i = Zi yi , soit:

(E.N.1)


Yi Yi


Xi Yi


Yi Xi


Xi Xi

i
i


Yi yi


Xi yi

3.3.4 Justication par les variables instrumentales.


Supposons, sans perte de generalite, que la matrice Xi forme les premi`eres colonnes de
X, et denissons PX = X(X  X)1 X  . On a PX Xi = Xi , car (X  X)1 X  Xi forme les ki
premi`eres colonnes dune matrice unite dordre k. Dautre part PX Yi = Yi . On a alors:
Zi = ( Yi

Xi ) = PX ( Yi

Xi ) = PX Ti

et par consequent:
i = (Zi Zi )1 Zi yi
= [(PX Ti ) (PX Ti )]1 (PX Ti ) yi
= [Ti PX Ti ]1 Ti PX yi
= [Zi Ti ]1 Zi yi

`
TROISIEME
PARTIE, CHAPITRE III

221

ou encore:

(E.N.2)

Yi X(X X)1 X Yi


Xi Yi

Yi Xi


Xi Xi

Yi X(X X)1 X yi


Xi yi

Lexpression [Ti PX Ti ]1 Ti PX yi montre que lon a bien un estimateur par variables
instrumentales: les observations sur ces variables forment la matrice X. La convergence en
probabilite de i vers i est garantie par lhypoth`ese H6 de la section 1.3.
Il est interessant de noter que Ti PX Ti est dordre ki + gi 1 et de rang inferieur ou
egal a` k. Donc si la condition dordre nest pas veriee (k ki < gi 1), la matrice des
coecients des equations normales sera singuli`ere.
3.3.5 Distribution asymptotique.
Puisque lestimateur des moindres carres doubles est un estimateur par variables instrumentales, le theor`eme 13.8 de la seconde partie lui est immediatement applicable. Nous
avons donc le resultat suivant.
Th
eor`
eme.
Soit i lestimateur de i par moindres carres doubles. Sous les hypoth`eses dun theor`eme
central limite:

  

n(i i ) N (0, ii 1 ) o`
u ZZ = plim 1 Z Zi
.
(1) dlim
ZZ

(2) Si
ii =

1
n (yi


Ti i ) (yi Ti i ), alors plim
ii = ii

Notons quil nest pas necessaire de calculer chaque residu pour calculer
ii . On verie
en eet par simple substitution que:




Y
Yi Yi
y
i
i



1
+ i
yi yi 2i

ii =


n
Xi yi
Xi Yi

Yi Xi


Xi Xi

3.3.6 Exemple num


erique.
Reprenons maintenant lexemple de la section 3.2.2. Pour la premi`ere equation, les
observations sur la variable pt forment la matrice Y1 ; celles sur la constante et sur la
variable Et forment la matrice X1 . Le vecteur y1 nest autre que ( St ).
Construisons les equations normales `a partir de (E.N.2). On obtient par simple lecture:

P. DESCHAMPS, COURS DECONOM


ETRIE

222

80

10
X Y1 =
60
40

X1 y1 =

10
20

X1 X1 =

100

20

10

20
X y1 =
80
80

100

0


X X =

20

40

X1 Y1 =

80

10

80

Par consequent, 1 et 1 sont la solution du syst`eme:

179

80

80

100

10

10

178


= 10
0

1
20
20

Nous obtenons comme solution:

200

160
22000
100

32/22

100

80

1150

178

80 10

348

234/220

6/22

160

a
1

20



0
a

a
2

En ce qui concerne maintenant la seconde equation, les observations sur St forment la


matrice Y2 ; celles sur la constante, rt et pt1 , forment la matrice X2 ; celles sur pt forment
le vecteur y2 . Nous avons alors:

`
TROISIEME
PARTIE, CHAPITRE III

10

20
X Y2 =
80
80

100

223

X2 X2 = 0

40

80

80

10
X y2 =
60
40

80

X2 y2 = 60
40

10

X2 Y2 = 80
80
et les equations normales sont:

261

10

80

80

10

80

100

40

178
b1

0 b0 80

0 b2 60

b3
80
40
80

syst`eme dont la solution est b0 = 0.75, b1 = 0.5, b2 = 0.5, b3 = 0. Nous retombons sur
les memes resultats que ceux obtenus par moindres carres indirects! Ceci est d
u au fait que
lequation 2 soit juste-identiee. Cette propriete est generale, comme on peut le demontrer.
1 , a
2 . On a:
Estimons maintenant les variances asymptotiques des estimateurs a
0 , a

11


1
=
361 2 ( 1.45
100

100

1.06 0.27 ) 10

20

279

80

+ ( 1.45 1.06 0.27 ) 80

100

10

10

1.45

0 1.06 = 5.4575

20

0.27

P. DESCHAMPS, COURS DECONOM


ETRIE

224

et les estimations des variances asymptotiques sont:


a20

5.4575

a21

348
22000

= 0.0863

0.0496

a22 = 0.2853.
Comme:

6/22
2
a
= 0.5106 < 1.96,
=

a2
0.2853

a
2 nest pas signicativement dierent de zero.
3.4 Lestimateur de classe k

Il fut deni par H. Theil comme la solution



Yi Yi k Vi Vi


Xi Yi

Yi Xi

ik

ik
ik

des equations normales suivantes:




Yi k Vi
=



Xi Xi
ik
Xi yi



yi

o`
u Vi est une matrice de residus de la forme reduite, denie comme:
Vi = (I X(X  X)1 X  )Yi = MYi
Si k = 0, nous avons lestimateur obtenu par moindres carres ordinaires appliques `a la
i-i`eme equation structurelle.
Si k = 1, nous avons lestimateur de moindres carres doubles, comme on peut le voir
facilement `a partir des equations normales (E.N.2) puisque PX Yi = Yi Vi et puisque
Yi Vi = Vi Vi .
Si k est aleatoire et plim k = 1, nous avons un estimateur convergent. Si, en particulier,
k est egal a` la plus petite racine dune certaine equation determinantale, on obtient
lestimateur de maximum de vraisemblance a` information limitee; on peut prouver que

plim n( 1) = 0 (voir Judge et al., The Theory and Practice of Econometrics, p. 602).

`
TROISIEME
PARTIE, CHAPITRE IV

225

CHAPITRE IV.

` INFORMATION COMPLETE
`
METHODES
DESTIMATION A

Nous estimons ici, globalement, les param`etres dun syst`eme entier. Nous supposons que
toute equation non identiable, et toute identite, a ete supprimee du syst`eme (les identites
sont eliminees par substitution). Les methodes de ce chapitre permettent, dans certains
cas, un gain decacite asymptotique.
4.1 Le produit de Kronecker et certaines de ses propri
et
es
Cette operation permet, dans le cadre des syst`emes dequations, lelaboration dune
notation tr`es compacte.
Si A est une matrice m n et B est une matrice p q, A B est la matrice mp nq
suivante:

AB

a11 B

a21 B

.
..

am1 B

a12 B

...

a22 B

...

..
.

...

am2 B

...

a1n B

a2n B

..
.

amn B

Mentionnons quelques-unes des proprietes de ce produit.

BF C F
B C
.
4.1.1 Si A =
, alors A F =
D E
DF E F
Il ny a pas de propriete analogue lorsque cest la matrice F qui est partagee.

4.1.2 (A B) = A B

4.1.3 A (B + C) = A B + A C
4.1.4 (B + C) A = B A + C A
4.1.5 (A B) C = A (B C)
4.1.6 tr(A B) = (trA)(trB) si A et B sont carrees.

P. DESCHAMPS, COURS DECONOM


ETRIE

226

4.1.7 Si A est m m et B est n n:


det(A B) = (det A)n (det B)m
4.1.8 Si A et B sont reguli`eres:
(A B)1 = A1 B 1
4.1.9 Si les produits AC et BD sont denis:
(A B)(C D) = AC BD .
4.2 Lop
erateur de vectorisation et certaines de ses propri
et
es
Soit A une matrice m n dont les colonnes sont les vecteurs ai :
A = ( a1
on denit:

a2

...

an )

a1
a2

vec A =
...

an

Le vecteur vec A est donc mn 1.


Les proprietes les plus importantes de cet operateur sont les suivantes:
4.2.1 Si les matrices A, B, C sont conformes pour la multiplication, alors vec(ABC) =
(C  A) vec B;
4.2.2 Si les matrices A et B sont conformes pour la multiplication et si AB est carree, la
trace de (AB) est egale `a (vec A ) vec B.
Pour une etude approfondie des operateurs et vec et dautres operations matricielles
avancees, on peut consulter Magnus et Neudecker, Matrix Dierential Calculus with Applications in Statistics and Econometrics, 1988.
4.3 Moindres carr
es g
en
eralis
es et forme r
eduite
Comme premier exemple dapplication des deux operateurs precedents, nous allons montrer que dans le cas dune forme reduite, lemploi des moindres carres generalises est equivalent a` lestimation par MCO de chaque equation individuelle.
Nous avons vu, a` la section 1.4, que la forme reduite pouvait secrire:
Y = X + V.
Comme X = X Ig , lapplication de la r`egle 4.2.1 donne:
vec Y = (Ig X) vec  + vec V.

`
TROISIEME
PARTIE, CHAPITRE IV

227

Cette equation peut aussi secrire comme:


Y = X + U
avec:
Y = vec Y
X = Ig X
U = vec V
= vec  .
On verie aisement que E(U) = Ong1 , et que la matrice de covariance E(UU  ) est egale `a
u v = B 1 (B  )1 est la matrice de covariance contemporaine des erreurs
= v In , o`
de la forme reduite.
Mais v In nest pas diagonale. Nous avons un cas particulier du mod`ele traite `a
la section 8.2.3 de la seconde partie. Pourquoi, alors, peut-on estimer les equations de ce
mod`ele par moindres carres ordinaires et non par moindres carres generalises? Ceci vient
du fait que les regresseurs soient les memes dans chaque equation (X = Ig X). Nous
allons verier, a` laide des proprietes des deux sections precedentes, que la formule des
MCG se simplie:
 = = (X  1 X )1 X  1 Y
vec
= [(Ig X) (v In )1 (Ig X)]1 [Ig X] (v In )1 Y
1
= [(Ig X) (1
[Ig X] (1
v In )(Ig X)]
v In )Y

1

[1
= [1
v (X X)]
v X ]Y

= [v (X  X)1 ][1
v X ]Y

= [Ig (X  X)1 X  ]Y
(X  X)1 X 

O
..
.

O

(X X)1 X 
..
.

...
...
..
.

...

y1
y2
.
.
.

1 
yg
(X X) X
O
O
..
.

P. DESCHAMPS, COURS DECONOM


ETRIE

228

4.4 Moindres carr


es triples
4.4.1 Pr
esentation heuristique.


La methode des moindres carres doubles revient a` estimer i dans lequation X yi =




(X Ti )i + X ui par moindres carres generalises. Si nous regroupons les g equations de ce
type, nous obtenons:

X y1

X T1


X y2 O

. = .
. .
. .

X yg

...

X T2

...

..
.

..
.

...


1
X u1

O
. .
.. + .
.
..

.


Xu
g

X Tg

soit aussi:
o`
u Y est gk 1, et X est gk

Y = X + U

i=1 (ki

+ gi 1).

En ce qui concerne les erreurs U, on a, sous lhypoth`ese simplicatrice que X est non
stochastique, E(U) = 0, et:


E(UU )

=
=

(X X)


11 (X X)

..

.


g1 (X X)

12 (X X)
..
.


...
..
.

g2 (X X) . . .


1g (X X)

..

gg (X X)

La methode des moindres carres triples senonce alors comme suit:


(1) On applique les moindres carres doubles `a chaque equation individuelle. Ceci donne,
pour lequation i, un vecteur de residus ui = yi Ti i .
= (u
 U.

(2) Soit U
1 . . . . . . ug ). La matrice est estimee par S = n1 U
Ceci
(3) On applique enn la formule de Aitken au syst`eme precedent pour obtenir .
donne:




= {X [S 1 (X X)1 ]X }1 X [S 1 (X X)1 ]Y

Si lelement (i, j) de S 1 est note sij , on verie facilement que:

s11 A11

= ...

sg1 Ag1

...
..
.
...

1 g


1j 
1 
X yj
s1g A1g
j=1 s T1 X(X X)

..
..

.
.
g



gg
gj
1
s Agg
X yj
j=1 s Tg X(X X)

`
TROISIEME
PARTIE, CHAPITRE IV


229

o`
u Aij = Ti X(X X)1 X Tj .
4.4.2 Justication par les variables instrumentales.
Denissons:

T1
O
T =
...

O
T2
..
.

...
...
..
.

...

O
O
..
.
Tg

y1
y2

z=
..
.
yg

1
2

=
...
g

u1
u2

u=
.. .
.
ug

Le syst`eme des g equations structurelles peut alors secrire:


z = T + u.
On verie aisement que la matrice X et le vecteur Y de la section 4.4.1 peuvent secrire:
X = (Ig X  )T
Y = (Ig X  )z
En substituant ces expressions dans:




= {X [S 1 (X X)1 ]X }1 X [S 1 (X X)1 ]Y

on obtient apr`es simplication:


= [T  (S 1 PX )T ]1 T  (S 1 PX )z
avec PX = X(X  X)1 X  .

P. DESCHAMPS, COURS DECONOM


ETRIE

230

Nous avons donc bien un estimateur par variables instrumentales; les instruments forment la matrice (S 1 PX )T .
Verions que ces instruments verient bien la propriete du lemme 13.6 de la seconde
partie. Le vecteur plim n1 Z  u prend ici la forme:
1
plim T  (S 1 PX )u
n
vecteur dont les sous-vecteurs prennent la forme:
plim

1 ij 
s Ti X(X  X)1 X  uj =
n
j

1


1 
1 
1 
ij
s
plim
Ti X
XX
X uj =
n
n
n
j

1


1 
1
1 
ij
s
plim X X
plim X  uj = 0
plim Ti X
n
n
n
j

en vertu de lhypoth`ese H6 de la section 1.3.


4.4.3 Comparaison avec les moindres carr
es doubles.
Il est facile de verier que si lon applique les moindres carres doubles `a chaque equation
du syst`eme, on obtient lestimateur:
0 = [T  (Ig PX )T ]1 T  (Ig PX )z
Donc, dans ce cas, les instruments forment la matrice (Ig PX )T , au lieu de (S 1
PX )T dans le cas des moindres carres triples. Si 1 nest pas diagonale, les moindres
carres triples utilisent plus dinformation que les moindres carres doubles, et sont donc
potentiellement plus ecaces.
Trois remarques peuvent etre faites:
(1) Si lon impose la contrainte ij = 0 , i = j , S et S 1 sont diagonales. est alors
identique a` lestimateur obtenu en appliquant les moindres carres doubles `a chaque
equation du syst`eme: il ny a aucun gain decacite.
(2) Si chaque equation du syst`eme est juste-identiee, est identique a` lestimateur
obtenu en appliquant les moindres carres indirects a` chaque equation. On obtiendra
aussi des resultats identiques en appliquant les moindres carres doubles `a chaque
equation. Il ny a donc gain decacite que lorsque lune, au moins, des equations
est suridentiee.
(3) Enn, si le syst`eme ne comprend quune seule equation de comportement, les
moindres carres triples sont bien entendu equivalents aux moindres carres doubles.

`
TROISIEME
PARTIE, CHAPITRE IV

231

4.4.4 Distribution asymptotique.


Lestimateur par moindres carres triples, nous lavons montre, est un estimateur par
variables instrumentales. Il est donc convergent, asymptotiquement sans biais, et asymptotiquement normal. A lencontre de lestimateur par moindres carres doubles, il est de plus
asymptotiquement ecace.
Th
eor`
eme. Soit lestimateur de par moindres carres triples, et soit 0 lestimateur
de obtenu en appliquant les moindres carres doubles a` chaque equation.
Sous les hypoth`ese dun theor`eme central limite:
(1) plim =

u:
(2) dlim n( ) N (0, Q) o`
Q = plim n[T  (1 PX )T ]1
(3) plim S 1 = 1 , o`
u S a ete precedemment definie.

0
(4) Si Q est la matrice de covariance asymptotique de n(0 ), alors:
u B est definie non negative.
Q0 = Q + B, o`
Nous allons justier ce theor`eme au moyen dun argument par analogie. A la section
13.3.3 de la seconde partie, nous avions trouve la matrice de covariance asymptotique:
V = plim n
2 (Z  X)1 Z  Z(X  Z)1 .
Cette matrice peut aussi secrire:
V = plim n(Z  X)1 V (Z  u | Z)(X  Z)1 .
Dans le cas qui nous occupe, Z doit etre remplace par (1 PX )T , et X doit etre
remplace par T . De plus, nous avons E(uu | Z) = In au lieu de E(uu | Z) = 2 I.
Par consequent, V (Z  u | Z) devient:
E[T  (1 PX )uu (1 PX )T ) | Z] = T  (1 PX )( I)(1 PX )T
= T  (1 PX )T
En faisant ces remplacements dans lexpression de V et en simpliant, on obtient:
Q = plim n[T  (1 PX )T ]1
qui est identique a` la matrice de covariance de lenonce.

232

P. DESCHAMPS, COURS DECONOM


ETRIE

4.4.5 Exemple num


erique.
Appliquons la methode precedente au mod`ele de la section 3.2. Il nous faut dabord
calculer

S=

11

12

12

22

La variance
11 a ete calculee `a la section 3.3.6 (
11 = 5.4575). On obtient de meme:

22


1
279 2 ( 0.5
=
100

0.75 0.5

100

80

0)

60

40

+ ( 0.5 0.75

361

10

0.5 0 )

80

10

80

100

40

80

12


1
=
100 ( 1.45
100

279

80

0.5

0 0.75 

= 2.03

0 0.5

80

1.06 0.27 ) 80

10

( 0.5 0.75

361

10

0.5 0 )

80

80

100

80

60

+ ( 1.45 1.06 0.27 ) 10

100

20

0.5


0.75

0
= 3.3018.

0.5

0
0

40

`
TROISIEME
PARTIE, CHAPITRE IV

233

Les blocs:


T1 X(X X)1 X T1 ,

T2 X(X X)1 X T2 ,

T1 X(X X)1 X y1

ont egalement ete calcules `a la section 3.3.6. Il reste `a trouver:




T2 X(X X)1 X T1 ,

T1 X(X X)1 X y2 ,

T1 X

T2 X

Y1 X

X1 X

Y2 X

X2 X

10
20

80
80

60 40
0
0
0
0

80 80
0
0

40 0
0 80

80 10
100 0
0
20
10 20
100 0

0
0
0
0

X y1

80
10

60
40

X y2

Il est facile alors de verier que:

T2 X(X X)1 X T1

178 10
80 100

60
0
40
0

T2 X(X X)1 X y1

261
10

80
80

T1 X(X X)1 X y2

179
80
10

T2 X(X X)1 X y1 .

Nous avons:

20
0

0
0

T2 X(X X)1 X y2

P. DESCHAMPS, COURS DECONOM


ETRIE

234

Les equations normales des moindres carres triples secrivent alors:

179

80

11.484 80 100

10
0

178 10

80 100

18.679

0
60

40

178

80

0 18.679 10

100

10

20
20

261
20

0
10

30.875

0
80

80

0
10
100
0
0

a1


a
0 0 0


a
0 0 2

80 80
b1 =


0 0
b0


40 0
b2

0 80
b3

179
178

+
18.679
80
10
11.484

10
20

178
261

80
10

+ 30.875
18.679

60
80

60

40

80
La solution de ce syst`eme, conduit au vecteur de param`etres suivant:

1.4545

1.0636

0.2727

= 0.5

0.75

0.39

0.165
et `a la matrice de covariance asymptotique estimee:

40

`
TROISIEME
PARTIE, CHAPITRE IV

0.0496

0.0397

0.0248

0.045

0.015

0.0397 0.0248
0.0863
0.0198
0
0.033
0.036

235

0.045

0.015

0.2166

0.1064

0.0198
0
0.033
0.036
0.012

0.2853 0.1651 0.0165


0.3527
0.1726

0.1651 0.1015 0.0101 0.203 0.1015

0.0165 0.0101 0.0213


0.0203
0.0101

0.3527
0.203
0.0203
0.4477
0.2166

0.012

0.1015

0.1726

0.0101

4.5 Maximum de vraisemblance `


a information compl`
ete
Cette methode est la premi`ere en date de toutes celles que nous avons vues. Cest
aussi la plus co
uteuse `a appliquer, et, pour cette raison, la moins employee. Son interet
theorique est neanmoins tr`es grand: en vertu des proprietes des estimateurs par maximum
de vraisemblance, les estimateurs obtenus sont convergents, asymptotiquement sans biais,
et asymptotiquement ecaces. En fait, en vertu dun theor`eme dequivalence asymptotique,
nous pourrons justier rigoureusement lemploi de la methode des moindres carres triples
par le biais du maximum de vraisemblance.
4.5.1 La vraisemblance logarithmique.
La forme structurelle secrit:


Y B + X = U


et la t-i`eme ligne ut de U est un vecteur aleatoire satisfaisant ut N (0, ). Les autres


hypoth`eses de ce chapitre restent inchangees.
La densite jointe de lun des vecteurs ut secrit:
fu (ut ) = (2)

g/2

1/2

(det )

1 
exp ut 1 ut
2

Les yt et les ut sont lies par la relation Byt + xt = ut . Donc la matrice jacobienne

= B , et en vertu du theor`eme de la section 2.2 de la premi`ere partie, nous pouvons
ecrire la densite de yt conditionnelle a` xt comme:
ut
yt

ft (yt ) = fu (Byt + xt ) | det B | = fu (Byt + xt ) | det B |

P. DESCHAMPS, COURS DECONOM


ETRIE

236

Par consequent, la densite des variables endog`enes conditionnelle aux variables exog`enes
secrit comme:

fY (y1 , . . . , yn ) =

n


ft (yt ) =

t=1

(2)

ng/2

ou, puisque:


n/2

(det )

| det B |n exp

n
1




(Byt + xt ) 1 (Byt + xt )

t=1

ut 1 ut = tr U 1 U = tr 1 U U :

t=1

fY (y1 , . . . , yn ) =
ng/2

(2)

n/2

(det )



 





1
1
Y B + X
Y B + X
.
| det B | exp tr
2
n

Pour obtenir la vraisemblance logarithmique, on prend le logarithme de cette expression


consideree comme fonction de B, , et :

log L(B, , ) =


 





1
n
1
k log (det ) + n log (| det B |) tr
Y B + X
Y B + X
2
2

ou encore:


n
log det 1 + n log (| det B |)
2








1
1
1
1
tr 1 BY Y B tr 1 X Y B tr 1 BY X tr 1 X X .
2
2
2
2

log L = k +

4.5.2 Les conditions de premier ordre.


Pour trouver les derivees, nous notons que:








1
1
tr 1 X Y B + tr 1 BY X = tr BY X 1 = tr X Y B 1
2
2

et nous utilisons les formules suivantes (voir Magnus et Neudecker, Matrix Dierential
Calculus with Applications in Statistics and Econometrics, 1988):

`
TROISIEME
PARTIE, CHAPITRE IV

237

log (| det A |)   1
= A
A


tr AC = C
A

tr DACA = 2DAC
A

si D et C sont symetriques.

Par consequent:

log L
1

 





n
1
Y B + X
Y B + X = O

2
2


1

log L
B

n B

log L

1 BY X 1 X X = O

1 BY Y 1 X Y = O


On peut ecrire ces expressions de mani`ere plus condensee comme:

1 
U U
n

1 1 
U Y
n

1 U
X

avec U


 + X
YB


B

1

Ce syst`eme est non lineaire, et doit etre resolu par des methodes numeriques. Pour quil
ait une solution unique, on doit lui ajouter les restrictions didentication. Il faut noter
est precisement celle que nous avons employee en moindres carres
que la formule de
 X = O, equation que nous
triples. Dautre part, la troisi`eme equation est impliquee par U
pouvons mettre en parall`ele avec les equations normales du mod`ele de regression classique,

= 0.
qui peuvent secrire X u

238

P. DESCHAMPS, COURS DECONOM


ETRIE

CHAPITRE V.

ANALYSE STATISTIQUE DE LA FORME

REDUITE
(REGRESSION
MULTIVARIEE)

5.1 Estimation par maximum de vraisemblance


Il est facile, `a partir des resultats de la section 4.5, de trouver les estimateurs par
maximum de vraisemblance des param`etres de la forme reduite. En eet, la forme reduite
= Ig , et quil ny a
est un cas particulier de la forme structurelle lorsque lon impose B
pas de restrictions a priori sur la matrice .
Les conditions de premier ordre de la section 4.5.2 secrivent alors:
 X = Ogk
1 U

= 1U

U

n
Il est facile de verier que les estimateurs:
=
= Y  X(X  X)1

= 1 (Y  [I X(X  X)1 X  ]Y )

n
satisfont bien a` ces conditions.
En eet, si nous denissons M = [I X(X  X)1 X  ], nous avons, en utilisant les estimateurs de B et de , la matrice de residus suivante:
 = Y X(X  X)1 X  Y = MY.
= Y Ig + X
U
La matrice M est symetrique et idempotente, et verie M  X = O. Il sensuit donc que
 X = O et que U
U
= Y  MY , ce qui implique bien les conditions de premier ordre.
U
Nous allons maintenant estimer les variances des coecients de regression de la forme
reduite. Nous pouvons ecrire:
 = (X  X)1 X  Y = (X  X)1 X  (X + V ) =  + (X  X)1 X  V.

`
TROISIEME
PARTIE, CHAPITRE V

239

Par consequent:
  ) = vec[(X  X)1 X  V ] = [Ig (X  X)1 X  ] vec V.
vec(
Si nous supposons, pour simplier largument, que X est non stochastique, la matrice
 secrit:
de covariance de vec

  ]) } = [Ig (X  X)1 X  ]E(vec V vec V )[Ig X(X  X)1 ]


  ])(vec[
E{(vec[
= [Ig (X  X)1 X  ][ In ][Ig X(X  X)1 ]
= [ (X  X)1 (X  X)(X  X)1 ]
= [ (X  X)1 ]
et lon peut donc estimer la matrice de covariance par:
) =
(X  X)1 .
V (vec
Si X est stochastique, on peut utiliser la meme r`egle destimation mais son interpretation
est asymptotique. La justication utilise les memes arguments quaux chapitres XIII et XIV
de la seconde partie.
Exercice: Soit la forme reduite suivante, o`
u lon a 2 equations et 3 variables predeterminees:
y1t = 11 + 12 x1t + 13 x2t + v1t
y2t = 21 + 22 x1t + 23 x2t + v2t .
Formulez la statistique de Wald pour le test de H0 : 13 = 22 contre H1 : 13 = 22 .
Note:
Pour le calcul du rapport des vraisemblances, nous devrons, a` la section suivante, diviser
Il est donc interessant de connatre des conditions necessaires pour la regularite
par det .

de .
= Y  MY /n avec M = I X(X  X)1 X  .
est dordre g et M est
On a vu que
est singuli`ere. Le nombre dobservations doit etre
de rang n k. Donc si n k < g,
superieur a` la somme du nombre de regresseurs par equation et du nombre dequations.

P. DESCHAMPS, COURS DECONOM


ETRIE

240

5.2 Tests dhypoth`


eses sur les coecients par le rapport des vraisemblances
Comme `a la section precedente, nous pouvons formuler la vraisemblance de la forme
reduite comme un cas particulier de celle de la forme structurelle; cette derni`ere vraisemblance a ete vue `a la section 4.5. Si nous posons  =  , B = I, et U = V , nous
obtenons:
1
L(, ) = (2)ng/2 (det )n/2 exp[ tr1 (Y X ) (Y X )].
2
 , la vraisemblance maximisee secrit:
Si nous denissons V = Y X
1 V  V ].
)
= (2)ng/2 (det )
n/2 exp[ 1 tr
L(,
2
et que donc:
On peut simplier cette expression en notant que V  V = n,
1 V  V = tr
= ng.
1 (n)
tr
Par consequent:


)
= (2)ng/2 (det )
n/2 exp ng .
L(,
2
Considerons alors la partition suivante des colonnes de :
= (

et le test de lhypoth`ese:
H0 : = 0

contre H1 : = 0 .

Un exemple de ce test est celui o`


u 0 = O: dans ce cas, on teste lomission des premi`eres
0 les estimations
0 et
variables explicatives de la forme reduite. Si nous designons par
contraintes de et de , le rapport des vraisemblances peut secrire:

0,
0)
L(
)

L(,



0 )n/2 exp ng
(2)ng/2 (det
=
2
n/2 exp ng
(2)ng/2 (det )
2
n/2

0
det
.
=

det

`
TROISIEME
PARTIE, CHAPITRE V

241

Nous obtenons donc une generalisation de lexpression demontree `a la section 7.2 de la


seconde partie: au lieu davoir des variances estimees, on a des determinants de matrices
de covariances (qui portent aussi le nom de variances generalisees).
En vertu du theor`eme de la section 10.12 de la seconde partie, la distribution limite sous
H0 de 2 log est une 2(p), o`
u p est le nombre delements de . Mais dans ce cas-ci, on
na pas, en general, une transformation monotone de ayant une distribution F sous H0
en petit echantillon. La situation est donc dierente de celle que nous avons rencontree au
chapitre VII de la seconde partie.
On a constate, notamment `a laide detudes de simulation, que lemploi des valeurs
critiques asymptotiques (celles de la 2 ) conduit, en petit echantillon, a` un rejet trop
frequent de lhypoth`ese nulle, meme si celle-ci est vraie. Ceci signie que les valeurs critiques
exactes de 2 log sont superieures `a celles de la 2 si n est faible.
Anderson (An Introduction to Multivariate Statistical Analysis, 1984) propose la correction suivante, qui nest basee sur une argumentation theorique rigoureuse que lorsque X est
non stochastique. Mais des etudes de simulation ont montre que cette correction donnait
de bons resultats en general, meme lorsque le mod`ele comporte des variables endog`enes
retardees. Au lieu de 2 log , on utilise (2 log ), o`
u le facteur de correction est deni
comme:
n q2 12 (g + q1 + 1)
=
n
o`
u q1 est le nombre de colonnes de et o`
u q2 = k q1 . On compare cette statistique
`a la valeur critique dune 2 ayant p = gq1 degres de liberte. Si X est non stochastique,
lerreur dapproximation est dordre n2 .
Il est possible de montrer que cette correction est analogue a` celle qui consiste `a utiliser,
dans la denition de la statistique t, lestimateur sans biais de la variance des erreurs au
lieu de lestimateur par maximum de vraisemblance.
5.3 Forme r
eduite d
eriv
ee
= Y  X(X  X)1 , on utilise:
Si, au lieu destimer par

= B
1

et
ont ete calculees par lune des methodes destimation de la forme structurelle
o`
uB
(MCD, MCT, MVIL, ou MVIC), on parle de forme reduite derivee. Si chaque equation est
= ;
mais si tel nest pas le cas,
est potentiellement plus ecace que
juste-identiee,
car il tient compte de plus de restrictions.

Les methodes destimation de la forme structurelle permettent destimer les variances


et ,
mais
est une fonction non lineaire de ces maasymptotiques des elements de B
trices. Dans cette section, nous allons donc enoncer un theor`eme permettant destimer les
Des versions de ce theor`eme sont enoncees dans Monfort,
variances des elements de .
Cours de Probabilite, p. 166 et dans Hamilton, Time Series Analysis, p. 186. Il peut bien

P. DESCHAMPS, COURS DECONOM


ETRIE

242

s
ur aussi servir dans dautres contextes, chaque fois que lon veut faire un test dhypoth`eses
sur une fonction non lineaire de param`etres; une application courante est le test des restrictions de facteurs communs, que nous avons rencontrees au chapitre XV de la seconde
partie.
Th
eor`
eme. Soit un vecteur de param`etres inconnus et soit son estimateur.
Supposons que:
(1)

dlim n( 0 ) N (0, )

(2) La fonction g() Rm ait toutes ses derivees partielles continues


(3) La matrice jacobienne:

g1
1

...
..
.
...

g = ...

gm
1

alors:

g1
k

..
.

gm
k

soit de rang m
=0

g(0 )) N (0, (g)(g) )


dlim n(g()

Comme exemple, nous allons estimer la variance asymptotique de lun des coecients
de la forme reduite du mod`ele de Haavelmo. Nous avons vu a` la section 1.6 que la premi`ere
equation de cette forme reduite pouvait secrire comme Ct = 11 + 12 It + v1t , avec
11 = a/(1 b). Supposons que a et b aient ete estimes par a
et b, et que leurs variances
2
et leur covariance asymptotiques aient ete estimees par
a ,
b2 , et
ab . Lapplication du
11 = a
/(1 b) donne alors:
theor`eme precedent a`
11 ) =
V (

1
(1 b)2

a2 +

2
a
a

b2 + 2

ab .
(1 b)4
(1 b)3

Exercice. Reprenez lexemple de la section 15.2 de la seconde partie, portant sur les
restrictions de facteurs communs. Comment testeriez-vous lhypoth`ese H0 : 11 +1 01 = 0
contre H1 : 11 + 1 01 = 0?

`
TROISIEME
PARTIE, CHAPITRE VI

243

CHAPITRE VI.

TRIPLES ET DU
COMPARAISON DES MOINDRES CARRES
` INFORMATION COMPLETE
`
MAXIMUM DE VRAISEMBLANCE A

Nous allons montrer dans ce chapitre que les estimateurs MCT et MVIC ont la meme
distribution limite normale, et sont par consequent asymptotiquement equivalents. Lestimateur MCT herite donc des proprietes decacite asymptotique de la methode du maximum de vraisemblance.
En fait, comme nous le verrons, lestimateur MVIC peut etre considere comme un
estimateur par variables instrumentales, mais ces variables sont construites `a laide de la
forme reduite derivee au lieu de letre par la forme reduite directe.
Les developpements de ce chapitre sont dus a` Hausman (An instrumental variable approach to full information estimators for linear and certain nonlinear econometric models,
Econometrica 43, 1975, pp. 727738).
6.1 Reformulation des
equations normales des moindres carr
es triples
Nous avons vu, a` la section 4.4.2, que si lon reunissait les n observations sur les g
equations de la forme structurelle, on pouvait ecrire, en tenant compte des restrictions de
normalisation et dexclusion:
z =T+u
o`
u T etait une matrice diagonale par blocs, avec des blocs diagonaux donnes par les
matrices Ti = ( Yi Xi ) denies `a la section 3.3.1.
Lestimateur MCT pouvait secrire comme:
= (Z  T )1 Z  z
avec Z = (S 1 PX )T . PX etait egale `a X(X  X)1 X  et S etait lestimateur de obtenu
en appliquant les moindres carres doubles `a chaque equation separement.
La matrice Z peut etre obtenue en supprimant de la matrice suivante:
Z = (S 1 PX )[Ig ( Y
=S

PX ( Y

X )]

X)

les colonnes qui correspondent aux restrictions dexclusion et de normalisation.

244

P. DESCHAMPS, COURS DECONOM


ETRIE

Considerons alors le syst`eme suivant:


(Z T ) = Z z.

(1)

On peut ecrire ce syst`eme sous la forme:


S 1 = O(k+g)g
W U

(2)
o`
u:

W = PX ( Y
et o`
u:

X)

= z T .

vec U

En eet, legalite (2) implique:


=0
S 1 ) = (S 1 W  ) vec U
vec(W  U
ce qui est bien equivalent a` legalite (1), en vertu de la denition de Z .
On peut obtenir lestimateur MCT en supprimant, dans le syst`eme (1), les equations
qui correspondent aux restrictions de normalisation et dexclusion (puisque les equations
de ce syst`eme correspondent `a des colonnes de Z ). De meme, on peut obtenir lestimateur
MCT en selectionnant, dans legalite matricielle
(2), les elements qui correspondent aux


B
.
elements non contraints de la matrice

6.2 Reformulation des conditions de premier ordre du
maximum de vraisemblance `
a information compl`
ete
La contribution fondamentale de Hausman a ete de noter que les conditions de premier
ordre du maximum de vraisemblance, que nous avons vues a` la section 4.5.2, pouvaient
secrire sous une forme analogue `a lequation (2) de la section precedente, a` savoir:
U

1 = O(k+g)g
W
ce qui permet la comparaison des deux methodes destimation. Nous allons demontrer ce
resultat.
Tout dabord, la condition de premier ordre sur peut secrire:
(a)

U

1 .
nIg = U

Ensuite, la condition de premier ordre sur B peut secrire:


(b)

1 .
1 (nIg ) = Y  U
B

`
TROISIEME
PARTIE, CHAPITRE VI

245

En combinant (a) et (b), il vient:


U

1 Y  U

1 = O
1 U
B
 + X
:
 = BY
ce qui implique, puisque U
 + X
 )U

1 Y  U

1 = O
1 (BY
B
soit aussi, en developpant:
1 X
U

1 + B
U

1 Y  U

1 = O
1 BY
B
et en simpliant:
U

1 = O.
1 X
B

(c)

Enn, la condition de premier ordre sur implique:

1 = O.
X  U

(d)

En regroupant (c) et (d) et en changeant de signe, il vient:


1 X

B
X

1 = O
U

U

1 = O, avec:
ce qui montre que lon a bien W
= ( X(B
1 )

W

X)

.
6.3 Comparaison des deux nouvelles formulations
La comparaison avec les MCT est alors immediate, si lon note que la matrice W de la
section 6.1 pouvait secrire comme:
W = PX ( Y

X ) = ( PX Y


X ) = ( X

X)

de la section 6.2 peut secrire:


 = (X  X)1 X  Y , tandis que la matrice W
avec
= ( X

W

X)

= B
1 .
Pour former les instruments, les MCT utilisent la forme reduite directe,
avec
tandis que le MVIC utilise la forme reduite derivee.

P. DESCHAMPS, COURS DECONOM


ETRIE

246

En dautres termes, les MCT utilisent les instruments:

PX T1
O

(S 1 In )
..
.
O

avec PX Ti = ( X
i


avec Ti = ( X
i

O
PX T2
..
.

...
...
..
.

O
O
..
.

...

PX Tg

Xi ); tandis que le MVIC utilise les instruments:

T1
O
1 In ) .
(
.
.

O
T2
..
.

...
...
..
.

...

O
O
..

.
Tg

Xi ).
6.4 Cons
equences

On peut deduire facilement de ce qui prec`ede lequivalence asymptotique des MCT et


des MVIC. En eet, comme les estimateurs sont convergents:
i = i
i = plim
plim
=
plim S = plim
et les matrices de covariance asymptotiques sont donc les memes en vertu du theor`eme de
Slutsky.
Or, sous lhypoth`ese dun theor`eme central limite, les distributions limites des estimateurs MCT et MVIC sont normales multivariees. Elles sont donc enti`erement caracterisees
par leurs esperances et leurs matrices de covariance.
Donc les distributions limites sont les memes; ceci constitue la meilleure justication
theorique possible de la methode des MCT, qui est plus facile a` mettre en oeuvre que celle
du MVIC.

`
TROISIEME
PARTIE, CHAPITRE VII

247

CHAPITRE VII.

METHODES
NUMERIQUES
DE
MAXIMISATION DE LA VRAISEMBLANCE

Pour une excellente presentation de ces methodes, le lecteur pourra consulter larticle
de synth`ese de R. Quandt, Computational problems and methods, dans: Handbook of
Econometrics vol. I (1983), edite par Griliches et Intriligator, pp. 699764. Nous nous
bornerons ici a` parler des methodes les plus courantes.
7.1 M
ethode de Newton-Raphson
Lidee de base de cette methode est de denir une suite dapproximations quadratiques
de la vraisemblance. En maximisant successivement chacune de ces approximations, on
esp`ere converger vers un maximum de la vraisemblance. Lapproximation quadratique `a
literation k se fait autour du maximum de lapproximation utilisee `a literation k 1.
Soit donc un vecteur k 1 de param`etres `a estimer et soit 0 une valeur de . Soit
L() = log L() la vraisemblance logarithmique. Nous ecrivons le gradient de L comme:
L
g() =

et la matrice Hessienne de L comme:


2L
H() =

.
Une approximation quadratique de L() autour de 0 est donnee par:
1
L0 () = L(0 ) + g  (0 )( 0 ) + ( 0 ) H(0 )( 0 )
2
En vertu des r`egles de la section 3.4 de la seconde partie, les conditions de premier ordre
pour la maximisation de cette approximation sont donnees par:
L
= g(0 ) + H(0 )( 0 ) = 0

ce qui implique:
= 0 H 1 (0 )g(0 ).
La methode de Newton-Raphson est une application recurrente de cette r`egle, `a savoir:
k+1 = k H 1 (k )g(k )

248

P. DESCHAMPS, COURS DECONOM


ETRIE

7.2 M
ethodes quasi-Newton
La methode precedente a plusieurs limitations. La matrice Hessienne H(k ) peut ne
pas etre denie negative pour certaines valeurs des param`etres. Elle est souvent dicile a`
calculer. Enn, la r`egle de la n de la section precedente implique souvent un deplacement
trop important, surtout lorsque lon est proche du maximum.
Pour ces raisons, il est utile de generaliser cette r`egle. Si lon denit Ak comme une
approximation de H 1 (k ), gk comme g(k ), est dk comme Ak gk , une telle generalisation
est la suivante:
k+1 = k + k dk
o`
u k est un scalaire positif qui maximise la fonction dune seule variable suivante:
F (k ) = L(k + k dk )
Le vecteur dk denit donc la direction dans laquelle on se deplace et k est lamplitude
du deplacement dans la direction dk .
On peut noter que gk dk est la derivee de L(k + k dk ) par rapport a` k . Comme

gk dk = gk Ak gk , cette derivee sera positive si Ak est denie negative. Si Ak est linverse
de la Hessienne et si L est concave, un accroissement marginal de k aura donc pour eet
daugmenter la vraisemblance.
De nombreuses methodes empiriques ont ete proposees pour choisir Ak . Dans les sections
suivantes, nous passerons en revue celle du score et celle de Davidon-Fletcher-Powell, qui
sont parmi les plus employees.
7.3 M
ethode du score
On remplace ici la matrice Hessienne par son esperance, et denit donc:

1

2L
.
Ak = E
 =k
Ak est donc lopposee de linverse de la matrice dinformation, que nous avions denie
a` la section 10.10 de la seconde partie comme:

R() = E

2L



=E

L L


`
TROISIEME
PARTIE, CHAPITRE VII

249

Les avantages de cette methode sont les suivants:


(1) La matrice dinformation est dordinaire dexpression plus simple que la Hessienne;
(2) Une matrice dinformation reguli`ere est denie positive, meme si la vraisemblance
nest pas localement concave; Ak est alors denie negative, ce qui est necessaire
pour la convergence de lalgorithme comme nous lavons vu;
(3) Au point stationnaire, la Hessienne de L est en general egale `a R() (voir la
derivation de R() dans le mod`ele de regression multiple, vue `a la section 10.10
de la seconde partie); lorsque lon sapproche de loptimum, la methode du score
devient donc pratiquement equivalente a` celle de Newton-Raphson;
(4) A la convergence de lalgorithme, la matrice Ak est une estimation de la matrice
de covariance asymptotique de (voir la section 10.11 de la seconde partie).
7.4 M
ethode de Davidon, Fletcher, Powell
On utilise ici la r`egle de recurrence suivante:
Ak+1 = Ak +

1
(k )(k )

[Ak (gk )(gk ) Ak ]


(k ) (gk ) (gk ) Ak (gk )

u gk est le gradient de L evalue `a literation


avec la condition initiale A0 = I et o`
precedente.
On demontre que sous certaines conditions, la suite de matrices denie par cette r`egle
converge vers linverse de la Hessienne de L.
Cette methode ne necessite que le calcul des derivees premi`eres de L, et est donc
commode lorsque la matrice dinformation est dicile a` calculer.
7.5 Choix de lamplitude du d
eplacement
uteuse. Une solution plus
On peut calculer k par balayage, mais la procedure est co
operationnelle est la suivante:
(1) On choisit un nombre  ]0, 12 [.
(2) On choisit k > 0 tel que:


L(k + k dk ) L(k )
1 .
k gk dk

En dautres termes, on choisit une solution approchee de lequation:


f(k ) =

L(k + k dk ) L(k )
1
.
=
k gk dk
2

250

P. DESCHAMPS, COURS DECONOM


ETRIE

Cette solution existe toujours, pour autant que gk dk soit strictement positif et que L
soit bornee superieurement. Il est en eet facile de montrer que:
lim f(k ) 0

et, `a laide de la r`egle de LHopital, que:


lim f(k ) = 1.

k 0

La procedure que nous venons de decrire a deux avantages:


(1) Linegalite de gauche, qui implique f(k ) > 0, garantit un accroissement de L `
a

chaque iteration, car k gk dk > 0;
(2) Linegalite de droite, qui implique f(k ) < 1, empeche k de tendre vers 0, ce qui
impliquerait k+1 = k .

Das könnte Ihnen auch gefallen