Books 274 0 PDF

COURS DCONOMTRIE
Professeur Philippe Deschamps

Edition 2006-2007
Universit de Fribourg
Sminaire d'Economtrie
Boulevard de Prolles 90
CH-1700 Fribourg, Suisse
Philippe Deschamps, 2006
TABLE DES MATIERES

Premire partie: Quelques notions de base du calcul des probabilits et de lanalyse statistique.
I.
Vecteurs alatoires
1.1. Distribution jointe.
1.2. Densit jointe
1.3. Densit marginale
1.4. Densit conditionnelle
1.5. Indpendance
1.6. Covariance
1.7. Esprances conditionnelles et partielles
1.8. Application conomique des esprances partielles (gestion de stock).
II.
Fonctions de variables alatoires.

2.1. Changement de variables (cas univari).
2.2. Changement de variables (cas multivari).
2.3. Fonction gnratrice des moments.
2.4. Fonctions de variables normales (Chi-carr, Student, Fisher).
III.
Estimation ponctuelle
3.1. Echantillon alatoire, estimateur, estimation.
3.2. Fonction de vraisemblance.
3.3. Maximum de vraisemblance.
IV.
Proprits des estimateurs

4.1. Estimateur sans biais
4.2. Estimateur convergent.
4.3. Estimateur efficace.
4.4. Minimisation de lerreur quadratique moyenne.
4.5. Interprtation des proprits.
V.
Tests dhypothses
5.1. Mthode des intervalles de confiance.
5.2. Mthode gnrale de construction des tests.
5.3. Le critre du rapport des vraisemblances (LR).
5.4. Le critre de Wald (W).
5.5. Le critre des multiplicateurs de Lagrange (LM).
5.6. Comparaison des trois critres LR, W, et LM.
ii
Seconde partie: Modles conomtriques une quation
I.
La rgression simple: estimation ponctuelle

1.1.
Description du problme et exemples conomiques
1.2.
Le modle et ses hypothses
1.3.
Les estimateurs de moindres carrs
1.4.
Moments des estimateurs de moindres carrs
1.5. Convergence en probabilit

1.6. Interprtation matricielle
1.7. Thorme de Gauss-Markov
1.8.
Estimation de la variance des erreurs
1.9.
Dcomposition de la variance: le coefficient de dtermination
1.10. Exemple numrique

II.
III:
IV.
La rgression simple: intervalles de confiance et tests dhypothses

2.1.
Tests sur les coefficients individuels
2.2.
Test sur les deux paramtres a et b
2.3.
Test sur une combinaison linaire des coefficients
2.4.
Prvision
2.5.
Exemple numrique
Complments dalgbre matricielle

3.1.
Formes quadratiques
3.2.
Matrice symtriques et idempotentes
3.3.
Linversion en forme partage
3.4.
Notions de drivation matricielle
Complments danalyse statistique multivarie

4.1.
La loi normale multivarie
4.2.
Fonctions linaires et quadratiques de variables normales
4.3. Application: calcul de la distribution sous H0 de la statistique t

V.
Le modle de rgression multiple

5.1.
Le modle et ses hypothses
5.2.
Les estimateurs de moindres carrs
5.3.
Moments des estimateurs de moindres carrs
5.4.
Le thorme de Gauss-Markov
5.5.
Lestimation de la variance des erreurs
5.6.
Dcomposition de la variance: les coefficients de dtermination R2 et R2*
5.7.
Problmes particuliers: multicolinarit, biais de spcification, variables muettes
iii
VI.
5.8.
Estimateurs par maximum de vraisemblance
5.9.
Exemple numrique
Moindres carrs sous contraintes linaires

6.1. Lestimateur de sous contraintes
6.2. Efficacit de lestimateur de sous contraintes
6.3. Dcomposition de la somme des carrs des rsidus contraints
VII.
Infrence statistique en rgression classique

7.1.
Le test de lhypothse linaire gnrale
7.2. Drivation de la statistique F laide du critre du rapport des vraisemblances

7.3. Calcul de la distribution sous H0 de la statistique F
7.4. Drivation de la statistique F laide du critre de Wald
7.5. Drivation de la statistique F laide du critre des multiplicateurs de Lagrange
7.6.
Cas particulier du test de lhypothse linaire gnrale

7.6.1. Test sur un coefficient individuel
7.6.2. Test de nullit de tous les coefficients; lien avec R2*
7.6.3. Test de nullit de tous les coefficients sauf la constante; lien avec
7.6.4. Test sur une combinaison linaire des coefficients
7.6.5. Tests de stabilit structurelle (Chow)
7.7.
Intervalles de prvision
7.8. Exemple numrique

VIII.
IX.
Moindres carrs gnraliss: la mthode de Aitken

8.1.
Introduction
8.2.
Exemples
8.3.
Lestimateur de Aitken et ses proprits
8.4.
La prvision dans le modle de Aitken
Lautocorrlation et lhtroscdasticit
9.1.
Erreurs autorgressives dordre un
9.2.
La matrice de covariance des erreurs
9.3.
Transformation des donnes ( connu)
9.4.
Estimation du coefficient dautorgression
9.5.
La statistique de Durbin-Watson
9.6.
La prvision dans le modle erreurs autorgressives
9.7.
Le problme de lhtroscdasticit
9.8. Les tests de diagnostic

9.8.1. Analyse des autocorrlations
R2
iv
9.8.2. Le test de Breusch-Godfrey (autocorrlation)
9.8.3. Le test de Koenker (htroscdasticit)
9.8.4. Le test de Bera-Jarque (normalit)
9.9.
Exemple numrique
9.10. Introduction aux mthodes semi-paramtriques

X.
Elments de thorie statistique asymptotique

10.1.
Introduction
10.2.
Convergence en probabilit
10.3. Ingalit de Chebychev

10.4. Loi faible des grands nombres
10.5.
Convergence en distribution
10.6.
Proprits des modes de convergence
10.7.
Fonction caractristique et convergence en distribution
10.8.
Versions du thorme central limite
10.9.
Lingalit de Rao-Cramer
10.10.
La matrice dinformation
10.11.
Proprits asymptotiques des estimateurs par maximum de la vraisemblance
10.12. Distribution asymptotique du rapport des vraisemblances

10.13. Exemple dapplication dans un modle erreurs autorgressives: distributions limites
des estimateurs par maximum de la vraisemblance et de la statistique
dautocorrlation par le rapport des vraisemblances
XI.
Proprits asymptotiques des estimateurs par moindres carrs ordinaires

11.1.
Convergence en probabilit
11.2.
Normalit asymptotique
XII.
Proprits asymptotiques des estimateurs dAitken
XIII.
Rgresseurs stochastiques
13.1. Introduction: types de rgresseurs stochastiques
13.2.
Rgresseurs stochastiques indpendants du vecteur des erreurs
13.3.
Rgresseurs stochastiques dpendants des erreurs contemporaines

13.3.1. La mthode des variables instrumentales (VI)
13.3.2. Convergence en probabilit des estimateurs VI
13.3.3. Convergence en distribution des estimateurs VI
13.3.4. Choix des variables instrumentales.
XIV.
Introduction aux modles dynamiques

14.1.
Retards chelonns
14.2. Mthode de Koyck
v
14.3. Mthode dAlmon
14.4.
Loprateur de retard
14.5.
Rsolution dquations linaires de rcurrence stochastiques
14.6. La distribution rationnelle des retards

14.7. Variables endognes retardes
XV.
Le modle autorgressif retards chelonns (AD)

15.1. Prsentation du modle
15.2. Restrictions de facteurs communs
15.3. Le modle AD et la relation dquilibre stationnaire
15.4. Le modle AD et le modle de correction derreur (ECM)
15.5. Exemple conomique
XVI. Racines unitaires et cointgration

16.1. Processus stochastiques
16.2. Stationnarit faible
16.3. Processus stochastiques intgrs
16.4. Le test de Dickey-Fuller augment
16.5. Variables cointgres
16.6. Rgressions de cointgration
16.7. Rgressions factices
16.8. Conclusions
Troisime partie: systmes dquations simultanes
I.
Introduction
1.1.
Explication intuitive du biais d la simultanit
1.2.
Variables endognes et prdtermines
1.3.
Prsentation matricielle et hypothses
1.4.
Forme structurelle et forme rduite
1.5.
1.6.
II.
Proprits statistiques de la forme rduite

Interprtation conomique de la forme rduite
1.7.
Forme rduite dynamique, forme finale, multiplicateurs
1.8.
Relation entre la forme rduite dynamique et le modle AD de la deuxime partie

(chap. XV)
Le problme de lidentification
2.1.
Structures observationnellement quivalentes
2.2.
Systmes rcursifs
2.3.
La condition de rang
vi
III.
2.4.
La condition dordre
2.5.
Exemple
Mthodes destimation information limite de la forme structurelle

3.1.
3.2.
Introduction
Moindres carrs indirects
3.2.1. Prsentation de la mthode
3.2.2. Limitations
3.3.
Moindres carrs doubles

3.3.1. Notation
3.3.2. Premier exemple dapplication
3.3.3. Prsentation heuristique gnrale
3.3.4. Justification par les variables instrumentales
3.3.5. Distribution asymptotique
3.3.6. Exemple numrique
3.4.
IV.
Lestimateur de classe k
Mthodes destimation information complte de la forme structurelle

4.1.
Le produit de Kronecker et certaines de ses proprits
4.2.
Loprateur de vectorisation et certaines de ses proprits
4.3.
Premier exemple dapplication de loprateur de vectorisation: moindres carrs

gnraliss et forme rduite
4.4.
Moindres carrs triples

4.4.1. Prsentation heuristique
4.4.2. Justification par les variables instrumentales
4.4.3. Comparaison avec les moindres carrs doubles
4.4.4. Distribution asymptotique
4.4.5. Exemple numrique
4.5.
Maximum de vraisemblance information complte

4.5.1. La vraisemblance logarithmique
4.5.2. Les conditions de premier ordre du maximum de vraisemblance.
V. Analyse statistique de la forme rduite (rgression multivarie)

5.1.
Estimation par maximum de vraisemblance des paramtres de la forme rduite
5.2.
Tests dhypothses jointes sur les coefficients par le rapport des vraisemblances
5.3 .
Forme rduite drive
VI. Comparaison des moindres carrs triples et du maximum de vraisemblance

complte
6.1.
Reformulation des quations normales des moindres carrs triples
information
vii
6.2.
Reformulation des conditions de premier ordre du maximum de vraisemblance

information complte
6.3.
Comparaison des deux nouvelles formulations.
6.4.
Consquences
VII. Mthodes numriques de maximisation dune fonction de vraisemblance

7.1. Mthode de Newton-Raphson
7.2. Mthodes quasi-Newton
7.3. Mthode du score
7.4. Mthode de Davidon-Fletcher-Powell
7.5. Choix de lamplitude du dplacement
AVANT-PROPOS
Ce cours deconometrie de second cycle est enseigne depuis 1981 aux etudiants de troisième et de quatrième annee de licence en Sciences Economiques à lUniversite de Fribourg
(Suisse), et, depuis 1996, aux etudiants du dipl
ome de Mathematiques appliquees à la
Finance de lUniversite de Neuchatel (dans le cadre des accords BENEFRI).
Les notes de ce cours peuvent etre imprimees et peuvent etre utilisees, en tout ou en
partie, comme support dun cours de niveau equivalent, a` condition:
(1) den avertir lauteur a` ladresse suivante:
philippe.deschamps@unifr.ch;
(2) den mentionner clairement lorigine.
Elles ne peuvent pas etre publiees sur un site dierent de leur site dorigine:
http://mypage.bluewin.ch/Philippe Deschamps.
Ces notes ont ete composees à laide des logiciels AMS TEX, PICTEX, et TABLE. Lauteur remercie Madame Edith Beck-Walser, qui a mene à bien, avec beaucoup de devouement, la saisie informatique dune version preliminaire du texte. Il remercie egalement
Monsieur Roberto Cerratti pour ses commentaires constructifs, Mademoiselle
Reanne Meyer pour la composition des formules des chapitres XV et XVI de la seconde
partie, et Mademoiselle Brigitte Sermier pour son assistance ecace lors de la correction
des epreuves.
Fribourg, ete 2002.
Typeset by AMS-TEX
1
P. DESCHAMPS, COURS DECONOM

ETRIE
CONNAISSANCES PREREQUISES
Cours de mathematiques de première annee (lequivalent de louvrage de

P. Deschamps, Cours de Mathematiques pour Economistes, Paris, Dunod 1988).
Probabilite, probabilite jointe, probabilite conditionnelle
Independance de deux evenements
Theorème de la probabilite totale
Variables aleatoires discrètes et continues
Distribution et densite (cas univarie)
Esperance mathematique et proprietes
Variance et proprietes
Variable aleatoire binomiale
Variable aleatoire uniforme
Variable aleatoire normale: proprietes et emploi des tables
`
PREMIERE
PARTIE, CHAPITRE I
`
PREMIERE
PARTIE
QUELQUES NOTIONS DE BASE DU CALCUL DES

ET DE LANALYSE STATISTIQUE
PROBABILITES
CHAPITRE I
VECTEURS ALEATOIRES
D
enition
On peut associer à tout resultat possible dune experience aleatoire un vecteur X ()
Rk . Si pour tout x = (x1 , . . . , xk ) Rk , lensemble:
{ | Xi () xi ,
i = 1, . . . , k}
est un evenement dont on peut calculer la probabilite, la fonction X () est dite mesurable
et X porte le nom de vecteur aleatoire. Il est discret si X () prend ses valeurs dans un
ensemble denombrable, continu sinon.
1.1 Distribution jointe
Dans le cas discret et continu, elle peut senoncer comme:
FX1 ,...,Xk (x1 , . . . , xk ) = P [(X1 x1 ) (X2 x2 ) . . . (Xk xk )]

ETRIE
1.2 Densit
e jointe
Cas discret:
fX1 ,...,Xk (x1 , . . . , xk ) = P [(X1 = x1 ) (X2 = x2 ) . . . (Xk = xk )]
Cas continu: la fonction de densite est la fonction dont lintegrale donne la fonction
de distribution. Formellement, fX = fX1 ,...,Xk est la densite jointe du vecteur X =
(X1 , . . . , Xk ) si:

FX (x1 , . . . , xk ) =
xk

...
x1
fX (u1 , . . . , uk ) du1 . . . duk
Note
Dans tout ce qui suit, nous supposerons pour alleger la notation que k = 2. La generalisation à k > 2 est facile et les denitions pertinentes se trouvent dans la litterature. On
etudiera donc un vecteur (X, Y ).
Exemples
Cas discret: Le tableau suivant donne les valeurs de deux variables X et Y et les
probabilites que le couple (X, Y ) prenne la valeur (x, y):
X
On obtient:
fX,Y (0, 0) = 0, 2
FX,Y (1, 0) = 0, 4
;
;
0,20
0,20
0,10
0,5
0,40
0,05
0,05
0,5
0,60
0,25
0,15
fX,Y (0, 1) = 0, 4 ;
FX,Y (1, 1) = 0, 85 ;
etc.
etc.
Cas continu:
fX,Y

1
x2
y2
(x, y) =
exp 2 2
21 2
21
22
(densite jointe de deux variables normales centrees independantes) .

En integrant cette densite sur [a, b] [c, d], on obtient P [(a X b) (c Y d)] .
`
PREMIERE
PARTIE, CHAPITRE I
1.3 Densit
e marginale
Cas discret:
fX (xi )
fX,Y (xi , yj )
fY (yj )
fX,Y (xi , yj )
Cas continu:

fX (x)

fY (y)
fX,Y (x, y) dy
fX,Y (x, y) dx
Exemple
Pour les densites jointes donnees precedemment à la section 1.2:
(a) fX (0) = 0, 6 ;
fY (0) = 0, 5 ;
fX (1) = 0, 25
fY (1) = 0, 5
fX (2) = 0, 15
(b)

fX (x)
fY (y)

x2
y2
1
exp 2 2 dy
21 2
21
22
+

2
1
x2
y
exp
dy
exp 2
21
222
2
2 2

=1

x2
1
exp 2
21
1 2

y2
exp 2
22
2

ETRIE
1.4 Densit
e conditionnelle
Cas discret: les densites conditionnelles sobtiennent a` partir de la denition dune
P (AB)
probabilite conditionnelle P (A|B) = P (B)
Donc:
fX|Y (xi | yj ) =
fX,Y (xi , yj )
fY (yj )
(denie si fY (yj ) = 0).

Cas continu:
fX|Y (x | y) =
fX,Y (x, y)
fY (y)
si fY (y) = 0
Note: cette fonction depend dune realisation particulière de Y . Cette fonction est donc
aleatoire car Y est aleatoire (on peut dire aussi quelle depend dun paramètre aleatoire).
Exemple pour les densites jointes donnees precedemment (section 1.2):
(a) Cas discret:
fX|Y (0 | 0) = 0, 4
fX|Y (1 | 0) = 0, 4
fX|Y (2 | 0) = 0, 2
Les valeurs de fX|Y (x | 1) sont celles dune autre densite.
(b) Dans le cas continu, on avait fX,Y (x, y) = fX (x)fY (y). Donc fX|Y (x | y) =
fX (x)
1.5 Ind
ependance
Cas discret: X et Y sont independantes si pour tout i et pour tout j, on a:
fX,Y (xi , yj ) = fX (xi )fY (yj )
Dans lexemple precedent (section 1.2, cas discret), X et Y ne sont pas independantes,
car:
fX,Y (0, 0) = 0, 2 = fX (0)fY (0) = 0, 6 0, 5
Cas continu: X et Y sont independantes si pour tout x et pour tout y, on a:

fX,Y (x, y) = fX (x)fY (y)
`
PREMIERE
PARTIE, CHAPITRE I
Dans lexemple precedent (section 1.2, cas continu), on a lindependance.
Propri
et
e tr`
es importante
Si X et Y sont independantes, alors: E(XY ) = E(X)E(Y ). La reciproque nest pas
vraie en general!
Exercice. Demontrez la propriete precedente dans le cas continu.
1.6 Covariance
D
enition
Cov(X, Y ) = E [{X E(X)} {Y E(Y )}]
Exercice
Montrez que Cov(X, Y ) = E(XY ) E(X)E(Y ) .
Propri
et
e importante (consequence de lexercice)
Si X et Y sont independantes, alors Cov(X, Y ) = 0. La reciproque nest pas vraie en
general!
Contre exemple montrant que la reciproque nest pas vraie.
X
1
Y
0
+1
+1
1
16
3
16
1
16
3
16
3
16
1
16
3
16
1
16
5
16
6
16
5
16
5
16
6
16
5
16
On na pas lindependance, car

fX,Y (0, 0) = 0 = fX (0)fY (0) =
6 6
16 16

ETRIE
Mais la covariance est nulle:
E(XY )
E(X)
E(Y )
Cov(X, Y )
1
3
1
3
+0
1
+0
+00
16
16
16
16
1
3
1
3
1
+0
+1
=0
+0
16
16
16
16
5
5
=0
+0+
16
16
5
5
+0+
=0
16
16
E(XY ) E(X)E(Y ) = 0 .
1
1.7 Esp
erances conditionnelles et partielles
Lesperance conditionnelle sevalue à partir de la densite conditionnelle.

i xi fX|Y (xi | yj )
+
Cas continu: E (X | Y = y) = xfX|Y (x | y) dx
Cas discret: E (X | Y = yj ) =
Dans lexemple de la section 1.2 (cas discret):
E (X | Y = 0)
0, 4 0 + 0, 4 1 + 0, 2 2 = 0, 8
E (X | Y = 1)
0, 8 0 + 0, 1 1 + 0, 1 2 = 0, 3
Propri
et
e tr`
es importante
E(X) = EY [E (X | Y )]
Cette propriete porte le nom de loi des esperances iterees (Law of Iterated Expectations). Elle est analogue au theorème de la probabilite totale: une esperance inconditionnelle, tout comme une probabilite inconditionnelle, peut etre evaluee à laide dun arbre.
`
PREMIERE
PARTIE, CHAPITRE I
Loi des esperances iterees dans le cas discret:

E (X) =
E (X | Y = yj ) P (Y = yj )
Loi des esperances iterees dans le cas continu:

E (X) =
fY (y)

xfX|Y (x | y) dx

dy
E(X|Y )
Exemple pour le cas discret (donn

ees de la section 1.2):
On a vu que E (X | Y = 0) = 0, 8 et E (X | Y = 1) = 0, 3.
Par ailleurs P (Y = 0) = 0, 5 et P (Y = 1) = 0, 5. EY [E (X | Y )] est la moyenne des
esperances conditionnelles:
EY [E (X | Y )]
E (X | Y = 0) P (Y = 0) + E (X | Y = 1) P (Y = 1)
0, 8 0, 5 + 0, 3 0, 5 = 0, 55
Il est facile de verier a` laide de la densite marginale que 0, 55 est bien egale à E(X):
E(X)
xi P [X = xi ]
0 0, 6 + 1 0, 25 + 2 0, 15 = 0, 55 .
Cas particulier de lesp

erance conditionnelle: lesp
erance partielle
D
enition
E (Y | Y a)
yj P (Y = yj | Y a)
(cas discret)
o`
u f (y | Y a)
yf (y | Y a) dy
d
P (Y y | Y a)
dy
(cas continu)
.

ETRIE
10
Propri
et
e
Dans le cas discret:
E (Y | Y a) =
yj
{j:yj a}
P (Y = yj )
P (Y a)
Dans le cas continu:

E (Y | Y a) =
fY (y)
dy
FY (a)
Demonstration pour le cas continu:
P (Y y | Y a)
P (Y y Y a)
P (Y a)
FY (y) si y a
FY (a)
1
si y > a
Donc:
f (y | Y a)
et
yf (y | Y a) dy =
d
P (Y y | Y a)
dy
fY (y) si y a
FY (a)
0
si y > a
fY (y)
dy.
FY (a)
Exercice. Demontrez la propriete precedente dans le cas discret.
`
PREMIERE
PARTIE, CHAPITRE I
11
1.8 Application
economique des esp
erances partielles (gestion de stock)
Cet exercice a pour but dillustrer linteret de la loi des esperances iterees, appliquee
aux esperances partielles.
Enonc
e
Un commercant a une demande journalière aleatoire Y pour une denree vendue par
kilos. Y , mesuree en centaines de kilos, a la densite suivante:
fY (y)
=
=
3y 2 si 0 y 1
0 sinon .
(Le commercant ne peut stocker plus de 100 kilos).

Il veut commander k 100 kilos de cette denree. Il lachète 6 francs par kilo et la vend
10 francs par kilo. Quelle est la valeur de k qui maximisera lesperance mathematique de
son prot journalier?
Solution
Le prot peut secrire comme:
(k, Y )
1000Y 600k
400k
si Y k
si Y > k
Le prot est aleatoire. Mais son esperance ne depend que de la variable de decision k.
Il sagit donc de calculer cette esperance et de la maximiser par rapport a` k.
La loi des esperances iterees donne:
E ()
E ( | Y k) P (Y k) + E ( | Y > k) P (Y > k)
On va evaluer tour à tour chacun de ces termes. E ( | Y k) depend de:

E (Y | Y k)
=
0

=
fY (y)
dy
FY (k)

y 3y 2
dy
k3
3 y4
4 k3
k
=
0
3
k
4
12

ETRIE
Alors:
E ( | Y k)
=
=
1000E (Y | Y k) 600k

3
k 600k = 150k
1000
4
3 k
k
3y
2
3y dy =
= k3
3
0
0
P (Y k)
P (Y > k)
1 k3
E ( | Y > k)
1000k 600k = 400k
En combinant:
E ()

(150k) k 3 + (400k) 1 k 3
250k 4 + 400k
En maximisant:
dE ()
dk
=
=
d2 E ()
dk 2
1000k 3 + 400 = 0
k 3 = 0, 4 = k = (0, 4)1/3 0, 7368 .
3000k 2 < 0
`
PREMIERE
PARTIE, CHAPITRE II
13
CHAPITRE II
FONCTIONS DE VARIABLES ALEATOIRES
2.1 Changement de variables (cas univari

e)
Enonc
e du probl`
eme
On connat une densite fY (y). Quelle est la densite dune fonction strictement monotone
(i.e. strictement croissante ou strictement decroissante) de Y ? Si U = h(Y ), alors, si h est
croissante:
P [U u]
P [h(Y ) u]
P [Y h1 (u)]
P [Y h1 (u)].
et, si h est decroissante:

P [U u]
Mais quelle est la densite qui donne bien cette probabilite lorsquon lintègre? La reponse
est donnee par le theorème du changement de variables, dont on va voir la version univariee
et multivariee.
Th
eor`
eme.
Supposons que la variable aleatoire continue Y ait pour densite fY (y) et soit:
Y = {y | fY (y) > 0}
(Y sappelle le support de fY )
Si h() est une fonction derivable et strictement monotone de domaine Y et dimage U,

alors U = h(Y ) a pour densite:
fU (u)
fY
dy
h (u)

du
sinon .
pour u U

ETRIE
14
Exemple
Soit
fY (y)
2y si 0 y 1
0 sinon .
=
=
On cherche la densite de U = h(Y ) = 4Y + 3. Cette fonction est derivable et

bijective.
En resolvant u = 4y + 3, on obtient:

3u
3u
1
dy
, donc
et h1 (u) =
.
y=
=
4
4
4
du
Le theorème donne:

3u 1
fY
4
4

3u 1
si
2
4
4
0 sinon .
fU (u)
=
=
fU (u)
1u3
Exercice: Soit Y la valeur dun portefeuille en euros et U = 1.5Y la valeur du meme

portefeuille en francs suisses. On suppose que la densite de Y est exponentielle:
fY (y) = ey
=0
pour y > 0
sinon.
On demande de trouver la densite de la variable U.

2.2 Changement de variables (cas multivari
e)
Th
eor`
eme.
Soit Y1 et Y2 deux variables aleatoires de densite jointe fY1 ,Y2 (y1 , y2 ). Soit:

Soit
u1
u2

=h
y1
y2
Y = {(y1 , y2 ) | fY1 ,Y2 (y1 , y2 ) > 0}
une fonction bijective de domaine Y et dimage U.
Si:
(1) les derivees partielles de h sont continues sur Y,
(2) le jacobien:
J = det
est non nul pour (u1, u2 ) U,
y1 /u1
y1 /u2
y2 /u1
y2 /u2
`
PREMIERE
PARTIE, CHAPITRE II
15
alors:
fU1 ,U2 (u1, u2 )
| J | fY1 ,Y2 [h1 (u1 , u2 )]
pour u U
sinon .
Exemple
Densite de la somme et de la dierence de variables uniformes.
Soit fY1 ,Y2 (y1 , y2 )
=
=
si 0 y1 1
sinon .
1
0
et 0 y2 1
On demande la densite jointe de:
U1
Y1 + Y2
Y2 Y1
U2
On peut ecrire:
u1
u2
y1
y2
J=
= 1
2
=
=
y2
1
1 1
+ = =| J |
4 4
2
Donc fU1 ,U2 (u1 , u2 )
y1
u1
u2
.
1
pour u U
2
0 sinon .
Mais quelle est la forme de U? Pour determiner la forme de U, il faut traduire les
conditions sur y1 , y2 en un système de conditions sur u1 , u2 .

ETRIE
16
On a y1 =
1
2
(u1 u2 ) et y2 =
1
2
(u1 + u2 ). Donc:
y1 0
u2 u1
y1 1
u2 2 + u1
y2 0
y2 1
=
=
u2 u1
u2 2 u1
et lensemble U prend la forme indiquee sur la gure suivante:

u2
2
...
....
....
....
....
....
.
....
.
.
..
....
....
....
....
.....
2
1
....
.....
.
.
....
.
...
....
....
....
.
.
.
....
...
....
....
....
.....
....
....
.
....
.
.
..
....
....
....
....
....
.....
....
..
.... .......
......
.....
...
....
....
...........................
.
.
.
.
.
.
..
..............................
.....
......................................
.....
...............................................
....
................................................................................................
.
.
.
.
.
.
....
................................................
.....
..............................................................................
....
......................................................................................
....
..................................................................................................................................................................
.
.
.
.
.
.
..........................................................................
....
....................................................................................................................
....
.............................................................................................................................
....
..................................................................................................................................................................................................................................
....
.
.
.
.
.
.
.....................................................................................................................................................
....
....
...............................................................................................................................................................
................................................................................................................ ....
.........................................................................................................................................................................................................................................................................................................
.................................................................................................................................................................... ....
..........................................................................................................................................................
....
...................................................................................................................................................
....
.........................................................................................................................................
....
.........................................................................................
....
..........................................................................................................................
....
.................................................................................................................
....
........................................................................................................
....
...................................................................
....
....
........................................................................................
.................................................................................
....
....
.......................................................................
.............................................
....
....
.......................................................
....
................................................
....
......................................
....
.............................
....
................
.
....
..............
....
........
.
....
.
.
.
.. .....
...
.
.
.
....
..
.
.
.
.
....
..
.
.
.
....
..
.
.
.
.
....
.
....
.....
....
....
....
.....
....
.
.
.
.
....
..
.
.
....
.
..
.
....
.
.
.
.
....
.
.
..
....
.
.
.
....
..
.
.
.
....
..
.
.
2
1
....
.
.
.
.
....
.
.
.
.
....
.
.
.
.
....
....
u =u
u2 = 2 + u1
u1
u2 = 2 u1
u = u
Quelle est alors la densite dune somme de variables uniformes?

Pour calculer la densite de Y1 +Y2 , il sut de calculer la densite marginale de U1 ; on voit
sur la gure que si 0 u1 1, la densite fU1 ,U2 (u1 , u2 ) est non nulle pour u1 u2 u1 .
Si 1 u1 2, la densite est non nulle pour 2 + u1 u2 2 u1 .
Donc:

u1
1
1
du2 =
u2
= u1 pour 0 u1 1
2
u1 2
u1
2u1

2u1
1
1
du2 =
u2
2
2+u1 2
2+u1
2 u1 2 + u1
= 2 u1 pour 1 u1 2 .
2
2
fU1 (u1)
fU1 (u1)
=
=
u1
`
PREMIERE
PARTIE, CHAPITRE II
17
La densite marginale de U1 = Y1 + Y2 a donc la forme triangulaire suivante:

fU1 (u1 )
u1
1
0
1
2
3
1
2.3 La fonction g
en
eratrice des moments
D
enition

Soit X une variable aleatoire. Si E etX existe pour t dans un voisinage ouvert de zero,
la fonction generatrice des moments de X est denie comme:

mX (t) = E etX
Utilit
e
mX (t) permet de calculer facilement les moments de X; la fonction generatrice des
moments permet en outre, dans certains cas, de calculer facilement la distribution dune
somme de variables aleatoires independantes.
Propri
et
es
(1)
dr
mX (0) = E(X r )
dtr
En eet:

d
d tX
tX
tX
E e
e
=E
= E Xe
= E (X)
dt
dt
De meme:

2

2
d2
d tX
tX
2 tX
=
E
=
E
X
=
E
X
E
e
e
e
dt2
dt2
si t = 0 .
si t = 0
(2) Si mX (t) = mY (t) pour tout t dans un voisinage ouvert de t = 0, alors

FX (x) = FY (y) pour x = y
(3) Si X et Y sont independantes, alors mX+Y (t) = mX (t)mY (t). En eet:

E[et(X+Y ) ] = E[etX etY ] = E etX E etY
etc.

ETRIE
18
Exemple: calcul de la fonction generatrice des moments dune variable normale.

Soit X N , 2 ,

tX
mX (t) = E e
=e E e
t
=e
2
1
1
et(x) e 22 (x) dx
2

1
1
2
2
exp 2 (x ) 2 t (x ) dx .
2
2
t(X)
=e
Noter que
2
(x ) 2 2 t (x ) = (x ) 2 2 t (x ) + 4 t2 4 t2

2
= x 2 t 4 t2 .
Donc:
mX (t)
t 2 t2 /2
e e
2 2
1
1
e 22 (x t) dx
2

= 1 car int
egrale dune densit
e N (+2t,2 )
mX (t)
et+
2 2
t /2
Exemple dapplication: calcul des deux premiers moments E(X) et V (X) dune variable
normale.
Si X N (, 2 ), on a vu que mX (t) = et+
d
mX (t)
dt
d2
mX (t)
dt2
=
=
V (X)
2 t2
2
. Alors:

2 t2
+ 2 t et+ 2
2 et+
2 t2
2
mX (0) = = E(X)

2
2 t2
+ + 2 t et+ 2
mX (0) = 2 + 2 = E(X 2 )
E(X 2 ) E 2 (X)
2 + 2 2 = 2
On peut, de manière analogue, calculer tous les moments de X.
`
PREMIERE
PARTIE, CHAPITRE II
19
Note: il existe des tables des fonctions generatrices des moments des variables les plus courantes; voir lappendice B de Mood, Graybill, Boes, Introduction to the Theory of Statistics,
1974.
Exercice: Soit X une variable aleatoire ayant la distribution normale reduite N (0, 1).
Montrez que E(X 3 ) = 0 et que E(X 4 ) = 3.
Autre exemple dapplication: calcul de la distribution dune somme de variables normales independantes.

Soit X N x , x2 et Y N y , y2 et supposons X et Y independantes.
mX+Y (t)
mX (t) mY (t)
etx + x t
et(x +y )+(x + y )t
2 2
(Propriete 3)
2 2
t /2
/2 ty + y
e
2
/2
donc
la fonction generatrice des moments dune variable distribuee selon
mX+Y (t) est
2
2
N x + y , x + y . En vertu de la propriete 2, la distribution de Z = X + Y est donc
une normale de paramètres x + y et x2 + y2 .
Il est beaucoup plus facile de prouver le resultat de cette manière que par lutilisation
du theorème de changement de variables.
2.4 Fonctions de variables normales
(1) Toute combinaison lineaire de variables normales independantes est normale:

Xj N j , j2
aj
independantes (j = 1, . . . , n)
constantes en probabilite (j = 1, . . . , n)
n
aj Xj N
j=1
n
aj j
j=1
n
a2j j2
j=1
(2) Variable Chi-Carre:

Xj N (0, 1)
independantes (j = 1, . . . , k)
Y =
k

j=1
Xj2 2k
20

ETRIE
(3) Variable t de Student:

X N (0, 1)
Y 2k
et Y
independantes
X
tk
Z=
Y /k
=
(4) Variable F de Fisher-Snedecor
X 2k
Y 2r
=
Z=
et
X/k
Fk,r
Y /r
independantes
Notes sur ce qui pr

ec`
ede
(1) La densite de Student est symetrique autour de 0. Elle tend vers la densite N (0, 1)
lorsque k . Ses deux premiers moments nexistent que si k > 2.
(2) La densite de Fisher-Snedecor tend vers la densite dune variable 2k /k lorsque r, le
nombre de degres de liberte au denominateur, tend vers linni.
(3) Les expressions des densites 2 , Student, et Fisher peuvent etre trouvees dans la
litterature, notamment louvrage de Mood, Graybill, Boes (en tete des tables). Elles
sont compliquees et nous nen ferons pas usage dans la première partie du cours. Elles
sont obtenues a` laide du theorème de changement de variables vu precedemment.
(4) Nos denitions precedentes permettent dengendrer des realisations simulees des
variables en question.
Exercice. Supposons que vous disposiez dun logiciel permettant dengendrer des realisations simulees de variables aleatoires normales reduites independantes. Comment pourriezvous engendrer des realisations simulees dune variable ayant une distribution de Student
avec k degres de liberte?
`
PREMIERE
PARTIE, CHAPITRE III
21
CHAPITRE III
ESTIMATION PONCTUELLE
3.1 Echantillon
al
eatoire, estimateur, estimation
Echantillon
al
eatoire
Suite de variables aleatoires independantes ayant la meme distribution (i.i.d.)
Exemple
Tailles de 100 etudiants de première annee, distribuees N (, 2 ) et independantes:
(Xi , i = 1, . . . , 100).
Estimateur
Fonction de variables aleatoires observables, ne dependant pas de paramètres inconnus.
Exemple
100
i=1 Xi
100
100
2
)
i=1 (Xi
100
Estimation
Valeur prise par une telle fonction pour des realisations particulières des variables
aleatoires, soit x1 , x2 , . . .
Exemple
175,
25

ETRIE
22
3.2 Fonction de vraisemblance
Soit (x1 , . . . , xn ) des realisations des variables aleatoires X1 , . . . , Xn .

Soit fX (x1 , . . . , xn | 1 , . . . , k ) la densite jointe de ces variables au point (x1 , . . . , xn );
cette densite depend des paramètres inconnus 1 , . . . , k . Si lon considère cette densite
jointe comme une fonction des paramètres inconnus, on lappelle fonction de vraisemblance
et lecrit:
L (1 , . . . , k ; x1 , . . . , xn )
ou plus simplement L (1 , . . . , k )
Note
Les observations xi sont ici des paramètres de la vraisemblance; en dautres termes, la
vraisemblance nest denie quaprès lobservation des realisations des variables! La vraisemblance est donc une notion statistique, tandis que la densite jointe est une notion
probabiliste.
3.3 Maximum de vraisemblance
Principe
On choisit comme estimations des i les valeurs de ces paramètres qui maximisent
L (1 , . . . , k ).
Interpr
etation dans le cas discret
On choisit comme estimations les valeurs des i qui donnent la plus grande probabilite
davoir obtenu le resultat experimental (x1 , . . . , xn ).
Exemple 1
Une bote contient 3 boules, qui peuvent etre soit rouges, soit blanches. Le nombre de
boules rouges est inconnu. On tire deux boules sans remise. On obtient 2 boules rouges. On
demande destimer le nombre n de boules rouges que contient la bote à laide du principe
du maximum de vraisemblance.
Solution
La vraisemblance est donnee dans ce cas par la probabilite dobtenir le resultat experimental observe (tirage de 2 boules rouges), consideree comme fonction des quatre valeurs
possibles du paramètre inconnu (n = 0, 1, 2, 3).
`
PREMIERE
L(0)
P (R1 R2 | n = 0) = 0
L(1)
P (R1 R2 | n = 1) = 0
L(2)
P (R1 R2 | n = 2)
P
1
2
P
=
L(3)
23
(R2 | R1 , n = 2) P (R1 | n = 2)
2
1
=
3
3
(R1 R2 | n = 3) = 1 .
Donc lestimation est n

= 3.
Exemple 2
On demande destimer par maximum de vraisemblance le paramètre p dune loi binomiale Bi(n, p).
Rappel
n
p
= nombre dessais independants

= probabilite de succès lors de chaque essai
= nombre de succès est Bi(n, p)
P (Y = r)
nr
= Cnr pr (1 p)
Solution
On peut ecrire:
Y
n
Xi
o`
u
Xi
1 si lessai i donne un succès
Xi
0 sinon .
i=1
On observe les realisations (x1 , . . . , xn ). Le nombre de succès observe est r =

On a:
nr
f (x1 , . . . , xn | p) = pr (1 p)
i=1 xi
(car lordre des realisations est donne)
En considerant cette densite comme une fonction du paramètre inconnu p, on a:

L (p)
pr (1 p)
nr

ETRIE
24
Pour maximiser cette fonction, il est commode de maximiser son logarithme:

log L (p)
d log L
dp
r log p + (n r) log (1 p)
r nr
=0
p 1p
nr
r
=
=
p
1p
n
1
1= 1
p
r
=
=
1p
nr
=
p
r
r
= p =
.
n
On estime donc p par le pourcentage des succès observes. On a bien un maximum

car:
d2 log L
dp2
r
nr
<0
2
p
(1 p)2
Exemple 3
On demande destimer par maximum de vraisemblance les paramètres et 2 dune
loi normale a` partir dun echantillon aleatoire (Xi , i = 1, . . . , n).
On a, par denition de la densite normale:
fXi (xi )

2 1/2
1
2
exp 2 (xi )
2

.
En vertu de lindependance:

n

1
n/2
2
fX x1 , . . . , xn | , 2 = 2 2
exp 2
(xi )
2
i=1
En considerant cette fonction comme fonction des paramètres inconnus:
L ,

2
= 2
log L =

2 n/2
n
1
2
exp 2
(xi )
2 i=1
n
n
1
n
2
(xi )
log (2) log 2 2
2
2
2 i=1
qui est a` maximiser par rapport a` et 2 .
`
PREMIERE
25
Les conditions de premier ordre secrivent:

n
2
log L
=
(xi ) = 0
(1)
2 2
i=1
n
log L
n
1
2
(2)
=
+ 4
(xi ) = 0
2
2
2
2
i=1
(1)
n
n
xi = n,
donc
=
i=1
(2)
i=1 xi
= x
n
1
2
(xi ) = 0
= n + 2
i=1
n
2
2
i=1 (xi )
= =
n
n
2
)
2
i=1 (xi x
en remplacant
=
=
n
par
Exercice: verier que lon a bien un maximum.

Note: Par la suite, nous utiliserons toujours
2 pour designer lestimateur de 2 par
maximum de vraisemblance. Un autre estimateur, que nous designerons par s2 , sera vu au
debut du chapitre suivant.

ETRIE
26
CHAPITRE IV
ES
DES ESTIMATEURS
PROPRIET
4.1 Estimateur sans biais

D
enition:
= .
Un estimateur de est dit sans biais si E()
Exemple:
Soit un echantillon aleatoire (Xi , i = 1, . . . , n) avec E(Xi ) = pour tout i et V (Xi ) = 2
pour tout i. On va montrer que:
=
=X
et
i=1 Xi
n
n

1
2
s =
Xi X
n1
2
i=1
sont sans biais.

En ce qui concerne la moyenne:

=E
E X
Xi
n

=
1 1
1
E
Xi =
E (Xi ) = n =
n
n
n
En ce qui concerne la variance, notons que:

E( X )2

2
i
2
2
2
=E
=E
Xi nX
Xi
E
Xi X
n
et que:
E

E Xi2 =
Xi2 =
2 + 2 = n 2 + 2

car 2 = E Xi2 2 , et donc E Xi2 = 2 + 2 .
`
PREMIERE
PARTIE, CHAPITRE IV
27
Dautre part:

E
n
2
Xi

n
i=1
Xi2
+2
i=1
n
n1
n
Xi Xj
i=1 j=i+1
Xi2
+2
i=1
n1
n
E (Xi Xj )
i=1 j=i+1

n(n1)/2

termes

Mais E Xi2 = 2 + 2 , et, par lindependance:
E (Xi Xj )
E (Xi ) E (Xj ) = 2
Donc:

E
n
2
Xi
i=1

2n(n 1)
n 2 + 2 +
2

n 2 + n2 + n2 2 n2 = n 2 + n2

E( Xi )2
= 2 + n2 , et:
Donc
n
E

n

Xi X
2
n

Xi2

E( Xi )2

n + 2 2 n2 = (n 1) 2
i=1
i=1
2
Donc:

E s2

=
Xi X
n1
2
=
1
(n 1) 2
n1
ce qui montre que s2 est sans biais.

4.2 Estimateur convergent
D
enition
Un estimateur n de est dit convergent si et seulement si:

lim P | n |> = 0
pour tout > 0;
on ecrit
plim n =

ETRIE
28
Interpr
etation
Si n possède une densite f(n ), la probabilite P [| n |> ] est la zone hachuree de
la gure suivante:
.....
.... ....
.... ......
...
...
.
.
...
.
...
...
...
...
.
.
...
..
.
...
.
.
..
..
.
...
.
.
...
....
..
..
...
...
...
...
..
2 n2
...
...
...
....
.
.
.
...
...
...
...
...
..
..
....
...
..
..
...
..
..
..
..
..
...
.
...
.....
...
...
...
...
...
.
...
.....
...
..
...
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...
.
.
.
.
.
.
.
.
.
.
.
.
.
...
.
.
........
...
.
.
.
.
.
.
.
.
.
...
.
......
..
.
.
.
.
.
.
.
...... ....
.. ........
.
.
..... ...
.. ........
..... ...
.
.
.
.
.......
......
....
.....
.......
.......
.
.
... ....
.. ...
.
.
.. ....
. ..
.
.
... ....
.
.. ..
.
.
... ....
.. ...
.
....
.
...
.
.
.
.
....
.
.
.
...
.....
.
.
.
.
...........
.
...
.
. ...
.
.
.
.... ...
.
.
...
........
.
.
.
.
.
. . . .. ...
.. ...............
.
.
.
... ............
........... ..
.
.
... ... . . .....
.... . . . ... ...
... ................
............. ..
... .................
......................... .....
.
.
... .. . . . . . ......
.. . . . . . ... ..
.
.
.
........................
... . . . . . . . .
1 n1
...........................
..............................
.
.
.
.
.... . . . . . . . .......
........................
.
.
.
...............................
.
... . . . . . . . .........
.
.
.
.
.
.
.
.
.
... . . . . . . . . . ..
. . . . . . . . . . ..
..................................................
...... . . . . . . . . . ..........
....... . . . . . . . . . ...........
................................................
............................................
..................... . . . . . . . . . . ..........
...................................................................
.
.
.
............... . . . . . . . . . . . ......
.
.
.
.
.
....... . . . . . . . . . . . ............
...................................................................................................................
............ . . . . . . . . . . . . ...............................
................................................. . . . . . . . . . . . . .........................
..........................................................................................................................
........................................ . . . . . . . . . . ...............
............................... . . . . . . . . ....................................
.. ................
.................................
f ( )
f ( )
+
Cette probabilite doit tendre vers 0 lorsque n tend vers linni; ceci sera le cas si les
densites deviennent de plus en plus concentrees autour de .
Conditions susantes
Si limn E(n ) = et si limn V (n ) = 0, alors plim n = . Ceci sera demontre
au chapitre X de la deuxième partie.
Exemple
Si (Xi , i = 1, . . . , n) est un echantillon aleatoire avec E (Xi ) = , V (Xi ) = 2 , alors
= , car:
plim X

E X

V X
1
n2
n

i=1
2
n 2
0 .
=
n2
n
`
PREMIERE
PARTIE, CHAPITRE IV
29
Note
Contrairement à labsence de biais qui est une propriete de petit echantillon (valable
pour tout n), la convergence est une propriete asymptotique (valable si n ).
4.3 Estimateur ecace
Un estimateur ecace est un estimateur sans biais, et de variance minimale parmi tous
les estimateurs sans biais.
D
enition
est ecace:
E() =
.
V ()
si E()
=
V ()
Interpr
etation
La variance dun estimateur est une mesure de limprecision de notre estimation de la
vraie valeur du paramètre. Un estimateur sans biais, mais de variance enorme, est inutile:
on ne se trompe pas en moyenne, mais on peut se tromper enormement dans des cas
individuels, c.a.d. pour certains echantillons. Il est donc important que la variance soit la
plus petite possible.
Exemple
Nous prouverons au chapitre X de la seconde partie que si les Xi sont normales i.i.d.,
est ecace.
alors X
4.4 Minimisation de lerreur quadratique moyenne
Que faire si lon doit choisir entre un estimateur sans biais mais de grande variance,
ou un estimateur un peu biaise mais de petite variance?
Reponse: on peut minimiser lerreur quadratique moyenne:

= E( )2
EQM()

= V ()
Si est sans biais, EQM()
Justication: On va montrer que:

= V ()
+ Biais2 ()
.
EQM()

ETRIE
30
En eet:
EQM()

Mais E
E( )2

2
E E() + E()

2

2

E E() + E E() + 2E E() E() .

E() E()

E() E E()

E()
E E()
E()

E() E() E() = 0
Dautre part:

2
E E()

E E()
V ()

E()
Biais2 ().
4.5 Interpr
etation des propri
et
es
Il est utile dillustrer ces proprietes à laide dechantillons ctifs, qui peuvent etre
obtenus par simulation.
Supposons donc que lon ait m echantillons de taille n, permettant de calculer m
estimations i (n):
echantillons
x12
x1m
x11
..
..
..
.
.
...
.
xn2
xnm
xn1
1 (n)
2 (n)
m (n)
Si est sans biais, on aura en general

m
1
i (n) =
lim
m m
i=1
pour tout n .
`
PREMIERE
PARTIE, CHAPITRE IV
31
Si est ecace, on aura en general

m
2
1
i (n) (n)
lim
m m
i=1
minimale pour tout n
Si minimise lEQM, on aura en general

2
1
lim
i (n)
m m
m
minimale pour tout n .
i=1
Si est convergent, on aura pour tout i:

lim P | i (n) |> = 0
On fait donc ici tendre n (et non m) vers linni.

Remarque: Dans ce contexte, les estimations i (n) sont des nombres pseudo-aleatoires,
car il sagit dune experience de simulation. La notation lim est par consequent plus
appropriee que la notation plim.

ETRIE
32
CHAPITRE V
`
TESTS DHYPOTHESES
5.1 M
ethode des intervalles de conance
Cette methode est facile à appliquer lorsque lon possède un estimateur sans biais dun
paramètre inconnu (soit cet estimateur), et que la densite de est symetrique autour
de (par exemple normale). On cherche alors un intervalle entre les bornes duquel la vraie
valeur du paramètre inconnu a une certaine probabilite 1 de se situer.
Exemple: construction dun intervalle de conance sur lesperance dune population
normale.
Si la variance 2 est connue, on a:
- echantillon (X1 , . . . , Xn ) ; Xi N (, 2 )
- Valeurs observees x1 , . . . , xn
n
xi
2
- x
= i=1
est une realisation dune variable distribuee N (, n )
n

= n
est donc une realisation dune variable distribuee N (0, 1).
/ n
Si Z/2 est la valeur de la N (0, 1) ayant une probabilite /2 detre depassee:

x
P Z/2 Z/2 = 1 , donc:

/ n

P x
Z/2 x
+ Z/2
=1 .
n
n

On a une probabilite de 1 de ne pas se tromper lorsque lon arme que se situe

entre ces 2 bornes.
1 n
)2 .
Si la variance 2 est inconnue, on peut lestimer par s2 = n1
i=1 (xi x
On peut ecrire:

n
= !
"
"
)2
(xi x
#
(n 1) 2
`
PREMIERE
PARTIE, CHAPITRE V
33
)2
(xi x
est distribuee 2n1
2
On demontrera plus loin (4.3 de la seconde partie) que

et est independante de n

Alors n
tn1 , et lintervalle de conance secrit:
s

s
s
P x
tn1; 2 x
+ tn1; 2
= 1
n
n
On ne rejette pas une hypothèse impliquant que soit interieure aux deux bornes, on
rejette une hypothèse impliquant que soit exterieure aux deux bornes.
5.2 M
ethode g
en
erale de construction des tests
On a ici un vecteur de paramètres inconnus = (1 , . . . , k ). On veut tester: H0 : = 0
contre H1 : = 0 (0 est un vecteur de nombres)
Note: rien nempeche detre une fonction dun autre vecteur de paramètres plus
fondamentaux; exemple: k = 1 et 1 = 1 2 , H0 : 1 = 0 contre H1 : 1 = 0 .
Proc
edure de test
Elle doit conduire, soit au rejet de H0 en faveur de H1 , soit a` labsence de rejet, en
tenant compte des deux types derreurs possibles:
Rejeter H0
Ne pas rejeter H0
H0 vraie
Erreur de type I (prob. )
Decision correcte (prob. 1 )
H0 fausse
Decision correcte (prob. 1 )
Erreur de type II (prob. )
Les probabilites sont conditionnelles aux evenements denissant les lignes!

On a donc:
H0 | H0
P (rejeter
P (ne pas rejeter
vraie) = taille du test, ou niveau
H0 | H0
fausse)
1 sappelle la puissance du test. Cest la probabilite de deceler la violation de H0 ,

si H0 est fausse (probabilite conditionnelle!)
Malheureusement, on peut montrer quil est impossible, en general, de minimiser et
simultanement. La procedure generale de construction dun test que lon va decrire

ETRIE
34
tient compte de cet etat des choses: on va, dès le depart, choisir une valeur faible
de (typiquement 0.01 ou 0.05), et, pour cette valeur de , choisir un test puissant
parmi les tests de taille .
Proc
edure de construction
Etape
1: on se donne une probabilite de commettre une erreur de type I (rejeter H0 si
H0 est vraie).
0 ), a` laide dun critère tel que ceux que nous
Etape
2: on choisit une statistique s(,
exposerons aux sections 5.3, 5.4, et 5.5. Ces critères conduisent a` des tests puissants.
0 ) sous lhypothèse H0 , cest
Etape
3: on determine la distribution conditionnelle de s(,
à-dire si = 0 .
Etape
4: la probabilite permet de determiner une region dacceptation RA () et une
region critique RC ():
RA ()
RC ()
{s | P (s RA () | H0 ) = 1 }
A () .
R
Ces regions peuvent etre calculees à laide des resultats de letape 3, qui nous donne la
0 ) sous H0 !
distribution de s = s(,
0 ) RC ().
Etape
5: on decide de rejeter H0 si s(,
Notes
(1) Par construction, est alors bien la probabilite de commettre une erreur de
type I (rejeter H0 si H0 est vraie) car on a suppose que H0 etait vraie en
0 ) a` letape 3.
calculant la distribution conditionnelle de s(,
(2) La puissance 1 depend de la vraie valeur (inconnue) de , puisquelle se
calcule conditionnellement a` H1 , cest-à-dire lorsque la valeur de nest pas
donnee à priori.
(3) Le fait de ne pas rejeter H0 ne signie pas demontrer H0 : cela veut seulement
dire que les donnees ne fournissent pas susamment dinformations pour
inrmer H0 ! Il est donc plus correct de dire on ne rejette pas H0 que on
accepte H0 .
`
PREMIERE
PARTIE, CHAPITRE V
35
(4) Pour letape 2, il existe un assez grand nombre de critères. Les trois critères
que nous allons exposer sont très employes, sont dune applicabilite generale,
et ont des proprietes doptimalite sur le plan de la puissance. Dans certains
cas les trois critères conduisent a` la meme statistique. Dans la plupart des
cas les trois critères sont asymptotiquement equivalents.
5.3 Le crit`
ere du rapport des vraisemblances (LR)
D
enition
Le rapport des vraisemblances est deni comme:
=
maxH0 L()
max L()
o`
u est le vecteur de paramètres inconnus de vraisemblance L(). H0 designe ici lensemble des valeurs de compatibles avec lhypothèse nulle, et designe lensemble de
toutes les valeurs admissibles de .
Exemple

0
|x>0 R
; H0 :
x
2

y
| x > 0 R2 .
x
Interpr
etation
Comme la vraisemblance est une fonction positive, 0,
Comme un maximum contraint est inferieur a` un maximum libre, 1
Donc 0 1 ;
et:
si 0 ,
mauvais accord entre lobservation et lhypothèse H0
si 1 ,
bon accord entre lobservation et lhypothèse H0
En dautres termes, si est proche de 0 lhypothèse H0 ne parat pas vraisemblable

à la lumière des informations fournies par lechantillon. Donc, on rejettera H0 si
est proche de 0.
Problème: en-dessous de quelle valeur decidera-t-on que est susamment proche
de 0 pour que lon puisse rejeter H0 ? La reponse est fournie par la procedure de test
decrite plus haut. On devra choisir de telle sorte que si lon rejette H0 lorsque
< , alors la probabilite dune erreur de type I est precisement egale à . Le calcul
de necessite la connaissance de la distribution de (ou dune fonction monotone
de ) conditionnelle a` lhypothèse H0 .

ETRIE
36
Premier exemple dapplication: test sur lesp

erance
dune population normale dont la variance est connue
On a Xi N (, 2 ) independantes (i = 1, , n), 2 connue.
On veut tester H0 : = 0 contre H1 : = 0 .
On a ici = (un seul paramètre inconnu)

n/2

L() = 2 2
exp 21 2 (xi )2
max L()
max L()
H0
=
Notons que

1
2
(xi 0 )
2
exp 2
2

1
2 n/2
2
2
exp 2
)
(xi x
2

n/2

2 2
exp 21 2 (xi 0 )2

n/2
(2 2 )
exp 21 2 (xi x
)2

1
2
2
(xi 0 )
(xi x
)
exp 2
2

2 n/2

)2 + n(
x 0 )2 .
(xi 0 )2 = (xi x
En eet:

(xi x
+x
0 )2 =
(xi x
)2 +n(
x 0 )2 +2
(xi x
)(
x 0 )
(xi 0 )2 =

=0
Donc:
=
=

1
2
2
2
(xi x
exp 2
) + n (
x 0 )
(xi x
)
2

n
2
x 0 ) .
exp 2 (
2
Une fonction monotone de est donnee par:
(LR = 2 log
(
x 0 )2
= LR
2 log =
2 /n def
sappelle la statistique du rapport des vraisemblances)
Si H0 est vraie ( = 0 ), LR est le carre dune normale reduite! On a donc trouve la

distribution dune fonction monotone de sous H0 .
`
PREMIERE
PARTIE, CHAPITRE V
37
Conclusion
On a: 2 log =
(
x 0 )2
2 /n
On denit: Zobs =
(
x 0 )
/ n
Si on decide de rejeter H0 : = 0 lorsque Zobs > Z/2 ou Zobs < Z/2 , sera
bien la probabilite dune erreur de type I puisque Zobs N (0, 1) sous H0 .
u est deni implicitement par
De facon equivalente, on rejetteH0 si < o`
2
2
).
(soit = exp 12 Z/2
2 log = Z/2
Exercice. Calculez, en fonction de , la puissance du test precedent lorsque , 0 , 2 , et
n sont donnes. Comment cette fonction de puissance se comporte-t-elle lorsque la taille n
de lechantillon tend vers linni?
Second exemple dapplication: test sur lesp
erance
dune population normale, variance inconnue
On a toujours Xi N (, 2 ) independantes pour i = 1, . . . , n; mais 2 est inconnue.
Le test est toujours H0 : = 0 contre H0 : = 0

Ici, =
2
n
2
Sous H0 : la maximisation de L implique
0 = 0 et
02 = i=1 (xi 0 ) /n.
n
2
Sous : la maximisation de L implique
=x
et
2 = i=1 (xi x) /n comme on
la vu.
Le rapport des vraisemblances senonce comme:

n/2
2
02

2
exp 21 2
(xi 0 )
0

=

n/2
2
2
(xi x
(2
)
exp 21 2
)
2 n/2
0
, puisque:
=
2

2
2
02 ;
(xi x
) = n
2 .
(xi 0 ) = n
On a vu que:
(xi 0 ) =
(xi x
) + n (
x 0 )

ETRIE
38
En substituant plus haut:

n/2
2
n (
x 0 )
, donc :
=
1+
2
)
(xi x

2
2

(
x 0 )
)
(xi x
2/n
2
avec
s
(n 1)
1 =
=
s2 /n
n1
On reconnat le carre dune variable de student avec n 1 degres de liberte sous H0 .

On a donc de nouveau trouve la distribution dune fonction monotone de sous H0 .
Conclusion
(
x 0 )
s/ n

On a (n 1) 2/n 1 = t2obs , soit aussi: = 1 +
On denit tobs =
t2obs
n1
n/2
Si on decide de rejeter H0 lorsque tobs > tn1, 2 , ou tobs < tn1, 2 , sera bien la
probabilite de commettre une erreur de type I puisque tobs tn1 sous H0 .
u:
De facon equivalente, on rejette H0 si < , o`
$
= 1 +
t2n1,
%n/2
n1
5.4. Le crit`
ere de Wald
Nous nenoncerons ici ce critère que pour le test dune seule hypothèse, car la generalisation aux tests joints sera vue plus tard.
D
enition
Soit L() = L(1 , , k ) la vraisemblance et soit = (1 , . . . , k ) lestimation de qui
maximise L(). On sinteresse au test:
H0 : i = 0 contre H1 : i = 0
(i est un element de , 0 est un nombre)
La statistique de Wald est denie comme:
W=
(i 0 )2
V (i )
`
PREMIERE
PARTIE, CHAPITRE V
39
o`
u V (i ) est lestimation de la variance de i obtenue par maximisation de la vraisemblance.
Note: la vraisemblance est maximisee sans contraintes!
Interpr
etation
Il sagit du carre dune distance entre lestimation de i sous H0 (`
a savoir 0 ) et lesti
a savoir i ). On divise par la variance estimee pour tenir compte de
mation de i sous H1 (`
la precision de lestimation.
Exemple
Soit L(, 2 ) la vraisemblance precedente (population normale, variance inconnue).
Pour tester H0 : = 0 contre H1 : = 0 , on forme:
2
W=
o`
u
2 =
1
n
i=1
(
0 )
V (
)
(
x 0 )
2 /n
(xi x
) est lestimation de 2 par maximum de vraisemblance.
Comme precedemment, on peut transformer la statistique W en une autre statistique

possedant une distribution connue sous H0 , a` laide dune transformation monotone.
En eet, comme
2 = n1
s2 , on a:
n
2
(
x 0 )
n
W=
2 = n1
n1s
n n
t2obs
et le critère de Wald conduit donc, dans ce cas-ci, au meme test que le critère du rapport
des vraisemblances (le test t).
5.5. Le crit`
ere des multiplicateurs de Lagrange
De nouveau, nous enoncerons ce critère pour le test dune seule hypothèse; la generalisation aux tests joints sera vue plus tard.
Soit L() = L(1 , . . . , k ) la vraisemblance logarithmique L = loge L. On sinteresse au
test:
H0 : i = 0 contre H1 : i = 0
Soit 0 lestimation de par maximisation de la vraisemblance sous la contrainte H0 .
0 est obtenu en annulant les derivees du Lagrangien:

(, ) = L() (i 0 ).

ETRIE
40
Dans un modèle lineaire et pour des observations distribuees normalement, on peut

montrer que la statistique du multiplicateur de Lagrange est egale à:
LM =
0
V0 ()
0 est la valeur de evaluee au point = 0 et o`

u V0 () est lestimation de V ()
o`
u
obtenue par maximisation de L sous H0 .
Interpr
etation
Lannulation de la derivee de par rapport à i implique:
L
=
i
0 est le taux de variation de la vraisemblance maximisee L(0 )
ce qui montre que
lorsque lon seloigne de la situation contrainte. Si ce taux de variation est nul, le fait de
rel
acher H0 ne modie pas la vraisemblance contrainte: cette contrainte napparat donc
pas comme signicative.
Exemple

Soit L , 2 la vraisemblance logarithmique precedente:

L ,
n
n
1
n
2
2
(xi )
= log 2 log 2
2
2
2
i=1
On a vu que:
n
n (
x )
1
(x
)
=
i
2
2
i=1
(par lannulation de la derivee de
Donc:

L
n (
x 0 )
=

=0 ,2 =2
02
0
o`
u
02
1
2
=
(xi 0 )
n
i=1
`
PREMIERE
PARTIE, CHAPITRE V
41
Par ailleurs:
1
V () = 4 V
n

xi
i=1
n
n 2
= 2
4
n
donc V0 () = 2
n2 (
x 0 )
2
n (
x 0 )
04
Donc LM =
=
n
02
2
Comme precedemment, on peut appliquer une transformation monotone a` LM pour

obtenir t2obs . En eet:
n
02
=
=
1
2
(xi 0 )
n
i=1

n
1
2
2
(xi x
) + n (
x 0 )
n
i=1
x 0 )
+ (
2
Donc:
1
LM
=
=
=
02
n (
x 0 )
2 + (
x 0 )
n (
x 0 )
n1 2
2
1
1
n s
+
+
=
2
2
n n (
n n (
x 0 )
x 0 )
n1 1
1
t2obs + n 1
+
=
.
n
n t2obs
nt2obs
Soit aussi:
LM =
nt2obs
t2obs + n 1
5.6 Comparaison des trois crit`

eres
Rappelons que LR = 2log.
Pour le test vu precedemment:
H0 : = 0 contre H1 : = 0
observations xi N (, 2 ) independantes, 2 inconnue,

ETRIE
42
on a etabli que:
n 2
t
n 1 obs
1
n1 1
1
= +
LM
n
n t2obs
n

2
t2obs
n (
x 0 )
LR = n log 1 +
.
2 = log 1 + n 1
(xi x
)
W=
On a donc une relation bijective entre t2obs et chacune des trois statistiques, ce qui
veut dire que chacun des trois critères conduit au meme test (le test t).
Il nen est pas toujours ainsi: dans des situations plus compliquees, les trois statistiques W, LM, et LR ne seront pas des fonctions bijectives les unes des autres, et
leurs regions critiques seront dierentes en petit echantillon.
En revanche, si n , les distributions des trois statistiques sous H0 tendront en
general vers la meme distribution 2 . Ceci peut se verier
facilement
npour le test que

n1
t2obs
1
1, et 1 +
exp t2obs .
nous venons de voir, puisque 0,
n
n
n1
Mais la validite de cette proposition est beaucoup plus generale!
Quel est alors linteret de letude de ces trois statistiques? Il reside dans leur commodite demploi. Celle-ci depend du contexte:
(a) W sera plus facile a` employer chaque fois que le modèle est plus facile a`
estimer sans contraintes;
(b) LM sera plus facile a` employer chaque fois que le modèle est plus facile a`
estimer sous H0 ;
(c) LR necessite lestimation du modèle avec et sans contraintes; en revanche,
son calcul ne necessite que la connaissance des valeurs de la vraisemblance
maximisee. Aucun calcul analytique de derivees ni de variance nest necessaire.
SECONDE PARTIE
` UNE EQUATION
MODELES
ECONOM
ETRIQUES
A
CHAPITRE I.
LA REGRESSION
SIMPLE: ESTIMATION PONCTUELLE
1.1 Description du probl`

eme et exemples
economiques
(1) Nous partons dune relation lineaire, speciee par un modèle economique. Par
exemple :
La fonction de consommation :
C = a + bY
La loi de demande :
X = a bPX
La fonction de co
ut :
CT = a + bQ .
(2) Nous desirons estimer les paramètres a, b de ces modèles à des ns danalyse ou de
prevision. Une telle estimation est plus elaboree quune simple etude de correlation.
Elle peut en eet servir à repondre a` des questions de politique economique telles
que :
(a) comment faudrait-il modier les depenses gouvernementales pour augmenter
le niveau de lemploi de x%? Pour reduire le taux dination de y%?
(b) combien une rme doit-elle produire pour maximiser son prot?
(c) Une politique de soutien du prix dun produit agricole doit-elle prendre la
forme dun prix garanti aux producteurs (et de lachat de toute production
43
44

ETRIE
invendue) ou dun subside a` ces producteurs? Les co

uts respectifs de ces deux
politiques alternatives dependront de lelasticite de la demande, qui peut etre
estimee par leconomètre, à partir de donnees sur les variables X et PX .
Les egalites precedentes ne seront jamais veriees exactement par des donnees sur les
variables C, Y , X, PX , etc. En eet :
lon ne peut esperer quune relation lineaire exacte fournisse une description complète
du comportement des agents economiques. Il est trop complexe pour cela. Il est parfois
erratique.
des erreurs aleatoires de mesure, dagregation, etc., sont dordinaire presentes dans
tout echantillon. Ces erreurs ne peuvent etre expliquees par un modèle deterministe.
On ajoutera donc aux fonctions precedentes un terme derreur aleatoire u, et lon ecrira:
C = a + bY + u
X = a bPX + u
CT = a + bQ + u.
1.2 Le mod`
ele et ses hypoth`
eses
1.2.1 L
equation de r
egression.
Nous avons donc une equation lineaire de la forme :
yt = a + bxt + ut
t = 1, . . . , n
Lindice t correspond a` une observation particulière, par exemple lannee 1960 dans un
echantillon de 20 observations annuelles.
La variable yt sappelle indieremment variable endogène, ou variable dependante, ou
variable expliquee. La variable xt sappelle indieremment variable exogène, ou variable
independante, ou variable explicative. On parle aussi de regresseur. Le terme ut est un
terme derreur aleatoire inobservable.
a et b sont des paramètres à estimer. Leurs estimateurs seront notes a et b.
SECONDE PARTIE, CHAPITRE I
45
1.2.2 Les hypoth`

eses.
Les estimateurs a et b vont dependre des yt , donc des ut : ce seront des variables
aleatoires, et nous aurons besoin des moments de leur distribution. Il nous faut donc
faire des hypothèses sur la distribution des ut .
H1 . E(ut ) = 0
pour tout t .
Si cette hypothèse netait pas satisfaite, le terme derreur aleatoire ut aurait une composante systematique, qui aurait d
u etre incluse dans la partie non aleatoire de lequation de
regression. Le modèle serait alors mal specie.
H2 . V (ut ) = E(u2t ) = 2
pour tout t .
Cette hypothèse implique que chaque erreur ut ait la meme variance; si les ut ont une
distribution normale, chaque ut aura la meme distribution.
Comme exemple de modèle o`
u cette hypothèse nest pas veriee, on peut citer un
modèle de regression dont les observations sont des moyennes calculees à partir de nombres
dobservations dierents: si le modèle vrai est:
yis = a + bxis + uis
pour i = 1, . . . , ns et s = 1, . . . , T
o`
u les uis sont de variance 2 et sont independantes, et si le modèle estime est:
xs + u
s
ys = a + b
ns
avec:
ys =
i=1 yis
ns
pour s = 1, . . . , T
ns
,
x
s =
i=1 xis
ns
ns
,
u
s =
i=1 uis
ns
on verie aisement que la variance des u

s depend de s.
H3 . Cov(ut , uh ) = 0
t = h .
Cette hypothèse sera satisfaite si le fait que ut prenne une certaine valeur est independant de la valeur prise par uh . Elle pourrait etre violee, par exemple, si yt etait la production dun bien agricole dans une region geographique donnee t . Une autre observation,
faite dans une region voisine, pourrait etre inuencee par des conditions meteorologiques
communes.
Un autre exemple de viol de cette hypothèse est le cas o`
u les ut sont engendrees par
u les t sont desperance nulle, de variance
lequation de recurrence ut = ut1 + t , o`
constante, et ne sont pas correlees entre elles. On verie aisement que la covariance entre
ut et ut1 depend de .

ETRIE
46
H4 . Les xt sont non aleatoires (on dit aussi non stochastiques).

Cette hypothèse est provisoire, destinee à simplier les arguments presentes. Nous
verrons plus loin quon pourrait la remplacer par lhypothèse plus faible que E(xt ut ) = 0,
sans changer certains resultats. Par la loi des esperances iterees, on peut aussi supposer
que E(ut | xt ) = 0.
Lhypothèse que la covariance entre le regresseur et le terme derreur contemporain est
nulle est violee dans le modèle suivant:
Ct = a + bYt + ut
Yt = C t + I t
o`
u Ct est la consommation au temps t, Yt est le revenu national au temps t, It est linvestissement au temps t, et ut est le terme derreur. En substituant la première equation
dans la seconde et en resolvant, on sapercoit aisement que E(Yt ut ) = 0.
H5 . xt prend au moins deux valeurs dierentes. Si cette hypothèse netait pas satisfaite,
nous naurions pas un problème de regression : en eet, a + bxt serait constante, et
yt = a + bxt + ut serait constante à un terme aleatoire près. Nous aurions alors le
modèle yt = + ut avec = E(yt ) .
Nous voulons trouver les paramètres a, b de la droite a
+ bxt qui approche le mieux la
dependance des y sur les x, cest-à-dire qui secarte le moins du nuage de points (xt , yt ).
Quels critères allons-nous employer?
Il faut, quen moyenne, la distance entre yt et a
+ bxt soit minimale. Il faut donc que la
valeur absolue de u
t = yt a bxt soit petite, pour tout t. Nous pourrions retenir comme
critères :
(1)
min
(2)
min
(3)
min
a
,
b
a
,
b
a
,
b
max
t

t

t
|
ut |
|
ut |
u
2t
Pour des raisons de commodite, nous allons employer le troisième critère : cest la methode des moindres carres.
La dierence:
47
u
t = yt a
bxt
sappelle un residu, et est une estimation de lerreur ut . On peut ecrire indieremment:

yt = a + bxt + ut
yt = a
+ bxt + u
t
mais la première de ces relations est une hypothèse, tandis que lautre est une identite!
Lestimation par moindres carres du modèle de regression simple sur la base dobservations
(xt , yt ) est illustree par la gure suivante.
yt , yt
8
7
6
5
4
yt = a
+ bxt
.
......
.....
.....
......
.
.
.
.
.....
......
.....
......
.
.
.
.
.
.
.
...... ..
..... ...
.....
...
......
.
.
.
t
..
.
..
...
......
.
.
.
.
.
..
...
.
.
.
.
.
.
....
......
......
......
.
.
.
.
.
.
......
.....
.....
......
.
.
.
.
......
.....
......
......
.
.
.
.
....
......
.....
t t
......
.
.
.
.
.
....
.....
......
.
.
.
.
.
.
......
.....
......
......
.
.
.
.
...
......
.....
......
0.5
u
= yt yt

.....

(x , y )

xt
1.0
1.5
2.0
1.3 Les estimateurs de moindres carr

es
Nous voulons donc minimiser en a
, b la somme de carres :
S(
a, b) =
u
2t
yt a
bxt
2
Les conditions de premier ordre sont :

S
= 2
yt a
bxt = 0
a

S
bxt xt = 0 .
= 2
yt a
b

ETRIE
48
Elles impliquent les equations normales:
(1)
(2)

yt n
a b
xt yt a
xt = 0
xt b
x2t = 0 .
En divisant (1) par n, on obtient :

a
= y b
x avec x =
xt
n

,
y =
yt
.
n
En remplacant cette valeur dans (2), il vient :

(yt [
y b
x] bxt )xt = 0

(yt y b(xt x
))xt = 0
b =
=
=
=

(y y)xt
t
(xt x)xt

)
(yt y)(xt x

2
(xt x
)

x y n
xy
t 2t
x2
x n
t

(x x)yt
t
=
wt yt
)2
(xt x
o`
u:
)
(xt x
.
wt =
)2
(xt x

Il est facile de verier, de meme, que a
= zt yt , avec:
zt =
1
x
wt
n
Les deux estimateurs a

et b sont donc des fonctions lineaires des yt .
Les wt et zt possèdent des proprietes quil est utile de noter:

(1)
wt = 0
(2)
wt2 =
1
(xt x)2
(3)
wt xt = 1
(4)
(5)
zt2
49
zt = 1
2
1
x2
xt
= +
=
2
n
)
n (xt x
)2
(xt x
(6)
(7)
zt xt = 0
.
wt zt =
)2
(xt x
Exemple: soient les n = 5 observations suivantes sur les yt et les xt :

xt
1
2
3
4
5
yt
2
4
5
7
10
On a
xt = 15 ,
yt = 28 ,
x2t = 55 ,
xt yt = 103 ,
103 (15)(28)/5
55 (15)2 /5
28
(1.9)
5
15
5
yt2 = 194 .
1.9
0.1 .

ETRIE
50
1.4 Moments des estimateurs de moindres carr

es
1.4.1 Esp
erances math
ematiques.
Nous allons verier que a
et b sont des estimateurs sans biais de a et de b. On a
a =
et
b =
et
zt yt
E(
a)
wt yt
E(b)
zt (a + bxt + ut )
a+0+
E(a) +
zt + b

zt xt +
zt ut
zt E(ut ) = a
wt (a + bxt + ut )
0+b+
E(b) +
wt + b

wt xt +
wt u t
wt E(ut ) = b.
1.4.2 Variances.
La variance de b se calcule comme :
V (b)
Mais b b =
zt ut

2
E b E(b)
E(b b)2 .
wt ut comme nous lavons montre. On a alors:
wt u t
V (b)
=
=

wt u t
2
n
n1
n

E
wt2 u2t + 2
wi wj u i u j
t=1
51
n
i=1 j=i+1
wt2 E
u2t
t=1
n
wt2
t=1
2
)2
(xt x
puisque E(u2t ) = 2 , et puisque E(ui uj ) = 0 pour i = j.

On a par ailleurs
V (
a)
=
=
=
=
2
= E
zt ut
E (
a a)

zt2 par le meme argument que precedemment
2

2
1
x
2
+
2
n
(xt x
)
2
xt
2
.
n (xt x
)2
1.4.3 Covariance.
Cov(
a, b)
=
=
=
E(b b)(
a a)

zt ut
E
wt u t
n
n

E
wt zt u2t +
wi zj ui uj
t=1

2
i=1 j=i

wt zt
(xt x
)

wt
x
wt2
n

ETRIE
52
1.5 Convergence en probabilit

e
On verie facilement à laide de ces moments que plim b = b et plim a
= a:

E b = b et
E (
a) = a et

V b = n
2
0
)2 n
t=1 (xt x
V (
a) 0,
n
2
xt /n
car: V (
a) =
0
)2
(xt x
2
sous la condition susante que limn
x2t
n
existe.
1.6 Interpr
etation matricielle
En reunissant toutes les observations sur lequation de regression yt = a + bxt + ut , il
vient:
y1

y2

.
..

x1
1
u1

x2
1
u2

a+ b+
.
.
.
..
..
..

1
yn
xn
x1
xn
.
..
un
u1

u
x2 a
2
+
.
..
b
..
.

un
ou: y = X + u.
Les equations normales peuvent secrire:

yt
n
a + b
xt =

a
xt + b
x2t =
xt yt
53
ce qui implique:
a
yt
=
2
xt
xt yt
b
n
xt
xt
(X X) = X y
La matrice (X X)
n
xt
= = (X X)
Xy
peut secrire:

xt
x2t

=

n (xt x
)2
=
)2
(xt x
x2t /n
x2t
xt
xt
On sapercoit quen multipliant cette matrice par 2 , on obtient la matrice:
V (
a)

Cov a, b

Cov a
, b

V b
Ceci peut etre generalise! En ajoutant des variables explicatives supplementaires (des
colonnes a` la matrice X) on obtient le modèle de regression multiple.

(xt x)2 = 0,
On note limportance de lhypothèse H5 : si xt = pour tout t,
det X X = 0 et les equations normales nont pas de solution unique.
1.7 Th
eor`
eme de Gauss-Markov
Nous ne verrons ici quun cas particulier de ce theorème (une version plus generale sera
vue en regression multiple).
Nous avons vu que les estimateurs de moindres carres sont sans biais et convergents.
Sont-ils de variance minimale? La reponse est: oui, dans la classe des estimateurs sans biais
et lineaires. Nous allons verier cette propriete dans le cas de b.
Un estimateur lineaire arbitraire de b peut secrire comme:

ETRIE
54

ct (a + bxt + ut )
ct yt =

a
ct + b
ct xt +
ct ut ,
=
=

une condition necessaire et susante pour que E b = b pour tout (a, b) est
ct = 0,
ct xt = 1. Alors:

V b
2

2
ct ut
E bb = E

c2t .
2
=
=

On va minimiser cette variance sous la contrainte E b = b et montrer que la solution
est ct = wt .
Comme la minimisation de V (b) est equivalente a` celle de V (b)/ 2 , le Lagrangien secrit:
c2t
+ 1
ct + 2
ct xt 1
et les conditions de premier ordre sont donc:
= 2ct + 1 + 2 xt = 0
ct
(t = 1, . . . , n)
Pour eliminer 1 et 2 à laide des contraintes, nous pouvons utiliser:

n
ct
t=1
n
xt
c
t
t=1
n

t=1
n
ct + n1 + 2
t=1
En utilisant les contraintes
ct = 0,
n1 + 2
2 + 1
n
ct xt + 1
n
xt
xt
x2t
xt = 0
t=1
xt + 2
t=1
n
x2t = 0 .
t=1
ct xt = 1:
n
xt = 0
xt + 2
1
2
x2t = 0
0
2
55
Linverse de la matrice des coecients a dejà ete calculee ((X X)1 ). On peut donc
calculer la solution du système comme:
xt

)2
(xt x

2
2/ (xt x
)
(xt x
)2
x2t
xt
2
x/
=0:
ct
En substituant ces valeurs dans
xt
+ 2
2
)
)2
(xt x
(xt x
2ct
2
ct
)
(x x
t
= wt
)2
(xt x
Cette valeur de ct minimise donc bien la variance sous la contrainte que lestimateur
soit sans biais.
1.8 Estimation de la variance des erreurs
Les variances et la covariance calculees dans les sections 1.4.2 et 1.4.3 dependent du
param`
2 . Une procedure naturelle serait de calculer la variance dechantillon
etre inconnu
1
2
(
ut u
) , et de corriger un biais eventuel, pour arriver a` un estimateur de 2 .
n
En fait,

2 = u
2t
ut u
u
t
car
yt a
bxt

=
a b
yt n
xt
en vertu de la première equation normale (Section 1.3). Nous allons prouver que
E
et que donc s2 =
1
n2

u
2t

=
(n 2) 2
u2t est un estimateur sans biais de 2 .

ETRIE
56
Nous avons:
u
t
Alors

u2t
=
=
yt a
bxt
=
=
a + bxt + ut (
y b
x) bxt
a + bxt + ut a b
x u + b
x bxt
ut u
+ (b b)(xt x
) .

2
2
2
(ut u) + (b b) (xt x
) + 2(b b)(xt x)(ut u
)

(xt x
)2 + (b b)2
)2 + 2(b b)
(xt x
)(ut u
) .
(ut u
Mais
)
(xt x)(ut u
=
=
puisque
Donc
u2t
wt (ut u
) =
=
=

wt (ut u
(xt x
)
)

(b b)
(xt x)2
2
wt ut = b b.
(ut u
)2 + (b b)2
(ut u
)2 (b b)2

(xt x
)2 2(b b)2
)2
(xt x
(xt x
)2
Calculons separement lesperance de chacun de ces termes.

(ut u
)

(xt x
E (b b)2
)2

2 .
u2t

1 2
n
(
ut ) = n 2 2 = (n 1) 2
n
n
2
u
t = (n 2) 2 , Q.E.D.
Et donc E
On peut interpreter la division par n 2 de la manière suivante. Precedemment (à la
section 4.1 de la première partie), nous avions vu que pour obtenir un estimateur sans biais
de la variance, on devait diviser par n 1 la somme des carres des deviations par rapport a`
la moyenne. Cette division par n 1 etait en fait due à la presence dune condition liant les
57
deviations par rapport a` la moyenne: la somme de ces deviations est identiquement nulle.
Dans le cas qui nous occupe, nous avons deux conditions liant les residus u
t , a` savoir:
n
ut = 0
t=1
n
ut xt = 0
t=1
Si nous connaissons n2 des residus, nous pouvons determiner les valeurs des deux derniers
à laide de ces conditions.
1.9 D
ecomposition de la variance: le coecient de d
etermination
(yt y)2
, peut etre decomposee
n
en une somme de deux variances, celle des y (partie expliquee par la regression) et celle
des u (partie residuelle). Ceci nous permettra de denir le coecient de determination, qui
permet de mesurer la qualite de lajustement lineaire.
Nous allons voir que la variance totale des y, soit
A cette n, nous prouverons que :

(yt y)2
soit
SCT
2
yt y
SCE
u
2t
SCR .
En guise detape preliminaire, demontrons une formule de calcul commode pour

2
Lemme
u
t = (yt y)2 b2 (xt x)2
D
emonstration
u
t
= yt a bxt
(yt y) b(xt x
) .
yt yt
=
=
Donc
Mais
u
2t =
2
(yt y) 2b
(xt x) (yt y) = b
(xt x
) (yt y) + b2
2
(xt x
)
donc
)
(xt x
u
2t .

ETRIE
58
u
2t =
(yt y) b2
(xt x
)
Q.E.D.
Pour prouver que SCT = SCE + SCR, il sut alors de montrer que :
b2
)2 =
(xt x
(
yt y)2
Mais ceci est evident car :

(
yt y)2 =
(
a + bxt a
b
x)2
On denit alors le coecient de determination comme :

R2
SCE
SCT
SCR
SCT
et lon a 0 R2 1 . Plus R2 est proche de lunite, plus grand est le pourcentage de la

variance totale expliquee par la regression, et meilleure est donc la qualite de lajustement.
Mentionnons dès à present une interpretation statistique plus ne du R2 . Nous demontrerons, en regression multiple, que si b = 0, (n 2)R2 /(1 R2 ) suit le carre dune loi
de Student avec n 2 degres de liberte. Avec un seuil de signication , le R2 sera donc
bon si:
(n 2)R2
> t2n2,/2
1 R2
59
1.10 Exemple num

erique
Poursuivons lexemple de la section 1.3. Nous avions trouve les valeurs a
= 0.1 et
b = 1.9. On a de plus:
x
5.6
(xt x
)2

(yt y)2

u
2t
10
37.20
37.20 (1.9)2 (10)
s2
s2b
s2a
sab
R2
1.10
1.10
= 0.37
3
0.37
= 0.037
10

1
9
= 0.403
0.37
+
5 10
(0.37)3
= 0.11
10
1.10
1
= 0.97 .
37.20
Nous pouvons presenter ces resultats comme:
yt = 0.1
(0.635)
1.9 xt
(R2 = 0.97)
(0.192)
o`
u les nombres entre parenthèses sont les estimations des ecarts-types des coecients
estimes. On peut aussi les presenter comme:
yt = 0.1
(0.157)
+ 1.9
xt
(R2 = 0.97)
(9.88)
o`
u les nombres entre parenthèses sont les rapports entre les coecients estimes et les
estimations de leurs ecarts-types. On appelle ces rapports les rapports t (t-ratios); ils nous
serviront dans le cadre des tests dhypothèses.

ETRIE
60
CHAPITRE II.
LA REGRESSION
SIMPLE: INTERVALLES
`
DE CONFIANCE ET TESTS DHYPOTHESES
2.1 Tests sur les coecients individuels

a
et b ne sont que des estimateurs ponctuels de a et de b. Dans ce chapitre, nous nous
eorcerons denoncer des jugements de probabilite du type :

P b b b = 1 , o`
u est une constante appelee niveau de signication.
Un tel jugement de probabilite doit se lire :
Jai une probabilite de 1 de ne pas me tromper lorsque jarme que b est compris
entre b et b.
Les bornes b et b vont dependre de b et de sa variance. Elles sont donc aleatoires, au
meme titre que b.
Elles dependront
de la distribution de b. Si cette distribution est symetrique autour

aussi
de b, lintervalle b, b aura b comme point median. Ce sera le plus petit intervalle ayant
une probabilite 1 de contenir b.
Il nous faut donc maintenant specier la distribution de a
et b, ce qui necessite une
hypothèse sur la distribution des erreurs ut . Si nous faisons lhypothèse de normalite :
:
H6
ut N (0, 2 )

a
= a + zt ut et b = b + wt ut seront normales, puisque ce sont alors des combinaisons
lineaires de variables normales independantes.
, b et b?
Quelles seront alors les formes de a, a
Si 2 etait connue, nous aurions :
b b
N (0, 1)
b
avec
b2
2

(xt x)2
et
aa
N (0, 1)
a

a2
1
n
x2

)2
(xt x

.
SECONDE PARTIE, CHAPITRE II
61
Nous pourrions alors ecrire, par exemple,

P
b b
z/2
b
z/2

1
o`
u z/2 est la valeur de la variable normale reduite ayant une probabilite
depassee.
detre
Nous aurions alors :

P b z/2 b b b + z/2 b
Les bornes cherchees sont donc :
b z/2 b
et b
b + z/2 b
En pratique, 2 est inconnue. Que se passe-t-il lorsquon la remplace par son estimation
sans biais
u
2t
n2
Pour reprendre lexemple de b :

b b
sb
b b

u
2t
1

n 2 (xt x)2
b b
1

)2
(xt x

u
2t
2 (n 2)
2
=
def
N
D
N est une variable normale reduite. Nous prouverons rigoureusement plus loin que
u
2t

ETRIE
62
est une variable 2 avec n 2 degres de liberte, independante de la variable N . Par

denition, le rapport N
es de liberte.
D est alors une variable Student avec n 2 degr
Donc :
b b
tn2
sb
aa
tn2
sa
et, de manière analogue
et les intervalles de conance sont donnes par :

P b tn2; 2 sb b b + tn2; 2 sb

P a
tn2; 2 sa a a
+ tn2; 2 sa
1,
1
Pour tester :
H0 : b = b0
contre
H1 : b = b0
contre
H1 : b > b0
contre
H1 : b < b0
on ne rejettera pas H0 si b0 [b, b].

Pour tester :
H0 : b = b0
on rejette H0 si b0 < b tn2; sb
Pour tester :
H0 : b = b0
on rejette H0 si b0 > b + tn2; sb .
Des procedures analogues sont evidemment valables pour le paramètre a.
2.2 Test sur les deux param`
etres a et b
Il sagit ici du test :
H0 : a = a0
et
b = b0
contre
H1 : a = a0
ou
b = b0
ou les deux.
63
Ce test nest pas equivalent a` une juxtaposition des deux tests t sur chaque coecient
de regression. Une methode bivariee simpose, et nos intervalles de conance deviennent
des ellipses. En pratique, on passe par la variable F de Fisher-Snedecor.
La statistique à employer est:
Fobs

Q/2
s2
avec Q = n(
a a0 ) + 2n
x(
a a0 )(b b0 ) +
2
x2t
(b b0 )2

.
Q est toujours positive ou nulle; elle sera dautant plus grande que a
et b dièrent de
a0 et b0 . Or, ce sont bien les valeurs elevees dune statistique F qui conduisent a` rejeter
lhypothèse nulle. Par ailleurs, une valeur elevee de s2 reète une mauvaise qualite de
lajustement statistique; il est donc logique quelle nous fasse hesiter à rejeter lhypothèse
H0 .
En regression multiple, nous demontrerons que si H0 est vraie, Fobs a la distribution
F2,n2 . On rejettera donc H0 si
Fobs
>
F2;n2; .
Nous montrerons aussi que Fobs est egale à (n 2)/2n fois la statistique de Wald pour
tester lhypothèse H0 : (a, b) = (a0 , b0 ) contre H1 : (a, b) = (a0 , b0 ). Ceci fournit une
première justication rigoureuse de lemploi de cette statistique.
2.3 Test sur une combinaison lin
eaire des coecients
Un estimateur sans biais dune combinaison lineaire = a + b des coecients a et b
est bien s
ur:
=
a + b.
An de construire un intervalle de conance pour , nous devons estimer la variance de
:
V (
a + b)
=
=
2 V (
a) + 2 V (b) + 2 Cov(
a, b)

x
2
2
x
1
2
2
+
+
2

n
)2
)2
(xt x)2
(xt x
(xt x

(
x)2
2
+
n
(xt x)2

.
64

ETRIE
En utilisant le meme raisonnement que precedemment (section 2.1.), on peut montrer

que :

s

a b
(
+
(xt x)2
n
x)2
tn2
et un intervalle de conance est donc donne par les deux bornes

a + b tn2; 2 s
(
x)2
2
+
n
)2
(xt x
2.4 Pr
evision
Que se passerait-il si nous voulions trouver un intervalle de conance sur une valeur
future y de y? On parlerait alors dintervalle de prevision. Supposons par exemple que
y = a+bx+u soit une fonction de consommation, que nous possedions des donnees annuelles
entre 1960 et 1981 sur la consommation et le revenu national, et que nous voulions predire
la consommation pour lannee 1982, conditionnellement à une projection x du revenu
national pour 1982.
Sous lhypothèse que le modèle reste inchange, nous aurons:
a + bx + u et
a
+ bx sera sans biais .
a a) (b b)x est normale, de paramètres:

La variable y y = u (
E(y y ) = 0
V (y y ) = E(y y )2
= E(u2 ) + E((
a a) + (b b)x )2
puisque a
et b ne dependent que de u1 , u2 , . . . un , et que E(ui u ) = 0,
On a donc bien E(
au ) = E(bu ) = 0.
i = 1, 2, . . . , n:
Le premier terme de la somme est egal a` 2 . Le second terme peut etre calcule à laide
des resultats de la section 2.3, en posant = 1 et = x . Nous avons donc:
E(y y )

1
(x x
)2
1+ +
n
)2
(xt x
2
65
et les bornes de lintervalle de prevision sont donnees par

y tn2; 2
1+
)2
1
(x x
+
n
)2
(xt x
2.5 Exemple num

erique
Reprenons lexemple numerique du chapitre 1. Nous avons t3;0.025 = 3.182. Un intervalle
de conance sur b correspondant a` = 0.05 sera donc donne par:

1.9 (3.182) 0.037 , 1.9 + (3.182) 0.037 = [1.29
2.51]
On rejettera donc, par exemple, lhypothèse:

H0 : b = 1.2
mais on ne rejettera pas lhypothèse:
H0 : b = 1.5.
Pour tester:
H0 : a = 0.15 et b = 2.5
contre
H1 : a = 0.15 ou b = 2.5
on construit la statistique
Fobs

1
5(0.10 + 0.15)2 + 2 5 3(0.10 + 0.15)(1.9 2.5)
2(0.37)

2
+ 55(1.9 2.5)
18.9125/2
= 25.79 .
0.37
On a F2;3;0.05 = 9.55
et
F2;3;0.01 = 30.82
On ne rejette donc pas H0 pour = 0.01 , mais on la rejette pour = 0.05.

ETRIE
66
Un intervalle de conance sur y0 = E [y | x = 3.5] a pour bornes :

0.1 + (1.9)(3.5)
Ce qui donne
[5.636
(3.182)(0.61)
1 (3.5 3)2
+
5
10
si = 0.05.
7.464].
Un intervalle de prevision sur y6 = a + b(6) + u6 au niveau de signication = 0.01

aura pour bornes:
0.1 + (1.9)(6) (5.841)(0.61) 1 +
ce qui donne
[6.175 ,
16.426].
1 (6 3)2
+
5
10
SECONDE PARTIE, CHAPITRE III
67
CHAPITRE III
`
COMPLEMENT
DALGEBRE
MATRICIELLE
3.1. Formes quadratiques

u
Soit x un vecteur n 1. Une forme quadratique est une expression du type x Ax, o`

A est une matrice symetrique n n. Elle est dite denie non negative si x Ax 0 pour
tout x; denie positive si x Ax > 0 pour tout x = 0; semi-denie positive si x Ax 0 pour
tout x et si rang (A) = n. La meme terminologie sapplique a` la matrice A. Rappelons
sans autres commentaires quelques proprietes importantes des matrices symetriques et des
matrices denies.
3.1.1 Propri
et
es des matrices sym
etriques.
Si A = A :
(1) Ses valeurs propres sont toutes reelles.
(2) A deux valeurs propres dierentes correspondent des vecteurs propres orthogonaux.
(3) On peut associer k vecteurs propres orthogonaux à une valeur propre de multiplicite
k.
(4) Il existe une matrice C orthogonale, dont les colonnes sont les vecteurs propres de
A, telle que:
C AC = diag(1 , 2 , . . . , n ) o`
u les i sont les valeurs propres de A.
(5) Le rang de A est egal au nombre de valeurs propres de A non nulles.
3.1.2 Propri
et
es des matrices d
enies non n
egatives.
(1) Une matrice A dordre n est denie non negative si et seulement si (a) toutes ses
valeurs propres sont non negatives, ou (b) il existe une matrice B de dimensions
m n et de rang m telle que B B = A.
(2) Si A est denie non negative, alors (a) aii 0 pour tout i, et (b) B AB est denie
non negative pour toute matrice B de dimensions n m.

ETRIE
68
3.1.3 Propri
et
es des matrices d
enies positives.
(1) Si A est denie positive, alors:
A est regulière.
aii > 0 pour tout i.
Si B est n m et de rang m, B AB est denie positive (corollaire: B B est
denie positive).
(2) A est denie positive si et seulement si:
Il existe une matrice B regulière telle que A = B B, ou:
Toutes ses valeurs propres sont strictement positives, ou:
Tous ses mineurs principaux sont strictement positifs, ou:
Tous les mineurs principaux de A alternent en signe, en commencant par
moins, ou:
Il existe une matrice D regulière telle que DAD = I.
3.2 Matrices sym
etriques idempotentes
Soit A une matrice n n avec A = A et AA = A. Nous avons les resultats suivants:
3.2.1 A est r
eguli`
ere si et seulement si A = I.
D
emonstration
Si A est regulière, premultiplions les deux membres de AA = A par A1 . Cela donne:
A1 AA = A1 A,
soit aussi IA = I. La reciproque est immediate.
3.2.2 Les valeurs propres de A sont 0 ou 1.
D
emonstration
Si est une valeur propre de A, Ax = x pour un vecteur x = 0. En premultipliant les
deux membres par A:
AAx = Ax,
donc aussi Ax = 2 x, en utilisant AA = A et Ax = x; nous avons alors x = 2 x, ce qui
demontre la propriete.
SECONDE PARTIE, CHAPITRE III
69
3.2.3 Le d
eterminant de A est 0 ou 1.
D
emonstration
Evidente, car le determinant dune matrice est egal au produit de ses valeurs propres.
3.2.4 Le rang de A est
egal `
a sa trace.
D
emonstration
Comme A est symetrique, il existe une matrice orthogonale C telle que C AC =
diag(1 , 2 , . . . , n ).
On a alors:
tr A = tr CC A
tr C AC
tr diag(1 , 2 , . . . , n )
rang de A
puisque CC = I, et puisque les i sont egaux a` 0 ou 1, le nombre de uns etant le rang

de A.
3.3 Linversion en forme partag
ee
Soit A une matrice n n, regulière, partagee comme suit:

A=
E
G
F
H
et supposons que E et D = H GE 1 F soient regulières. Alors:
A1 =
E 1 (I + F D1 GE 1 ) E 1 F D1
D
GE
On verie en eet par multiplication que AA1 = I.

3.4 Notions de d
erivation matricielle
Si = (x) est un scalaire et x est 1 n:
=
x
......
x1
xn

.

ETRIE
70
De meme, si x est n 1:
/x1

..
=
.
x
/xn
Si v = v(x) et x sont des vecteurs (lignes ou colonnes) ayant respectivement n et m

elements:
v1
x1
...
vn
x1
v1
xm
...
vn
xm
= ...
x
..
.
est la matrice Jacobienne de v(x).

Dans cette notation, nous avons, si A est n m:
a11
(Ax)
=
...
x
a1m
a21
...
an1
..
= A
.
..
.
a2m
...
anm
De meme:
(x A)
=A .
x
Pour une forme quadratique, si A est n n et symetrique, on a:

Par exemple, si A =
2 1
1 3
(x Ax)
= 2Ax
x
, on a x Ax = 2x21 + 2x1 x2 + 3x22 , et
(x Ax)
x
4x1
+ 2x2
2x1
+ 6x2
2Ax .
SECONDE PARTIE, CHAPITRE IV
71
CHAPITRE IV
COMPLEMENT
DANALYSE STATISTIQUE MULTIVARIEE
4.1 La loi normale multivari

ee
La densite normale univariee, de paramètres m et 2 :

1
1
2
fX (x) =
exp 2 (x m)
2
2
peut etre generalisee à la densite normale multivariee, fonction de densite jointe des composantes dun vecteur aleatoire:
X1
.
X = .. .
Xn
Cette generalisation est la suivante:
fX (x) = (2)
n/2
12
(det )
"
1
1
exp (x ) (x ) ,
2
o`
u:
E (X1 )
..
=
= E (X)
.
E (Xn )
est le vecteur des esperances mathematiques des composantes de X, et est une matrice
denie positive, dite matrice de covariance, avec
[]ii
V (Xi )
[]ij
Cov(Xi , Xj )
E(Xi i )2
=
et
E(Xi i )(Xj j ) .

ETRIE
72
On a donc:
11
"
!

= E (X )(X ) = .12
..
12
22
1n
1n
..
.
...
..
.
...
nn
on ecrira X N (, ).
4.2 Fonctions lin

eaires et quadratiques de variables normales
4.2.1 Fonctions lin
eaires.
Soit X N (, ), B une matrice m n de constantes, de rang m, et A un vecteur
m 1 de constantes. Alors Y = BX + A est N (B + A, BB ).
Nous ne prouverons pas la normalite de Y . Il est neanmoins facile de calculer E(Y ) et
la matrice de covariance V (Y ):
E(Y ) = E(BX + A) = BE(X) + E(A) = B + A
V (Y )
E [(BX + A B A) (BX + A B A) ]
E [(BX B) (BX B) ]
BE [(X ) (X ) ] B = BB
Exercice: Un portefeuille contient n actifs nanciers de rendements Xi , pour i = 1, . . . , n.

Ces rendements forment un vecteur X. X est aleatoire de distribution N (, ). Les sommes
investies dans chacun des n actifs
n sont de vi , pour i = 1, . . . , n, et le rendement global du
portefeuille est donc de =
e de ce rendement est egale à U() =
i=1 vi Xi . Lutilit
a c exp(b), o`
u a, b, et c sont des paramètres strictement positifs. Montrez que la
composition du portefeuille qui maximise lesperance dutilite est donnee par le vecteur
v = 1b 1 . (On utilisera la fonction generatrice des moments dune variable normale,
obtenue a` la section 2.3 de la première partie.)
4.2.2 Sous-vecteurs dun vecteur normal.
Soit X N (, ), partage comme suit:
X =
X1
X2
n1
n n1
73
Nous pouvons alors partager et de la facon suivante:
n1
n n1
11
12
21
22
n1
n1
n n1
n n1
alors X1 N (1 , 11 ) et X2 N (2 , 22 ).
D
emonstration
Soit B une matrice n1 n denie comme:
B
( In 1
On1 (nn1) ) .
Nous avons BX = X1 , et le theorème de la section 4.2.1 nous permet de determiner la

distribution de X1 . Nous avons X1 N (B, BB ) avec B = 1 et
BB
=
=
( In 1
On1 (nn1) )
11
12
21
22
In 1
O(nn1 )n1
11 .
La derivation de la distribution de X2 se fait de manière analogue.

4.2.3 Formes quadratiques.
Soit X N (0, I) (un vecteur n 1).
Soit M une matrice non stochastique, idempotente et symetrique de rang k.
Alors X MX 2k .
D
emonstration
En vertu des proprietes de M, il existe une matrice orthogonale C telle que
C MC
Ik
Ok(nk)
O(nk)k
O(nk)(nk)
Soit Y = C X. Nous avons Y N (0, C IC), cest-à-dire Y N (0, I). Par consequent:

ETRIE
74
X MX
X (CC )M(CC )X
X C(C MC)C X
k
Ik O

Yi2 2k
Y =
Y
i=1
O O
4.2.4 Ind
ependance des fonctions lin
eaires et des formes quadratiques.
Soit X
B
M
N (0, I) (un vecteur n 1)

une matrice m n de rang m, non stochastique
une matrice n n idempotente et symetrique, de rang k, non stochastique.
Si BM = O, la forme lineaire BX est independante de la forme quadratique X MX.

D
emonstration
Soit C la matrice orthogonale de la section 4.2.3 et Y = C X.
Soit alors F = BC = ( F1 F2 ) o`
u F1 est m k.
On a
( F1
F2 )
Ik
O
BCC MC = BMC = O,
ce qui implique F1 = O. Alors BX = BCY = F Y = (O F2 ) Y ne depend que des

n k derniers elements de Y , qui sont independants des k premiers, puisque Y N (0, I).
k
Comme X MX = i=1 Yi2 , la proposition est demontree.
4.2.5 Ind
ependance de deux formes quadratiques.
Soit X N (0, I) (un vecteur n 1)
M une matrice n n idempotente et symetrique de rang k, non stochastique
M une matrice n n idempotente et symetrique de rang r, non stochastique.
Si MM = O , alors les formes quadratiques X MX et X M X sont independantes.
75
D
emonstration
Soit C la matrice orthogonale precedente et Y = C X.
Considerons alors la matrice symetrique:
G1
G2
On a:
G1
G2
G2
G3
Ik
O
G2
C M C
o`
u G1
est k k .
G3
O
C M CC MC
C M MC = O
ce qui implique G1 = O, et G2 = O, donc aussi G2 = O. Par consequent:
O O
Y
X M X = X CC M CC X = Y GY = Y
O G3
ne depend que des n k derniers elements de Y , qui sont independants des k premiers;
k
comme X MX = i=1 Yi2 , la proposition est demontree.
4.3 Application: calcul de la distribution sous H0 de la statistique t
Test: H0 : = 0 contre H1 : = 0
Echantillon: yi N (, 2 ) independantes.
On a vu au chapitre V de la première partie que la statistique a` employer est:
tobs =
y 0
s/ n
avec s2 =
1
2
(yi y)
n1
Quelle est la distribution de tobs si H0 est vraie? On va montrer que tobs tn1 .
Solution: on peut ecrire:
tobs
y 0
N
/ n
=
=
2
D
(yi y)
(n 1) 2
Si H0 est vraie, N N (0, 1).

Nous montrerons au cours que:
N = Bx
(yi y)2
= x Mx
2

ETRIE
76
o`
u:
y 0 i
1
B = i
n
x=
1
ii
n
i etant un vecteur n 1 dont tous les elements sont unitaires.
M =I
Si H0 est vraie, x N (0, I).

Nous montrerons au cours que M est symetrique, idempotente, de rang n 1; Nous
montrerons de plus que BM est un vecteur nul.
Alors le theorème de la section 4.2.3 implique que D est la racine dune 2n1 divisee
par n 1 et le theorème de la section 4.2.4 implique lindependance de N et de D.
Alors, par denition, tobs tn1 .
SECONDE PARTIE, CHAPITRE V
77
CHAPITRE V
LE MODELE
DE REGRESSION
MULTIPLE
5.1 Le mod`
ele et ses hypoth`
eses
Les notions presentees dans les deux chapitres precedents vont nous permettre de generaliser les resultats des chapitres I et II à un modèle econometrique possedant un nombre
arbitraire k de variables explicatives, soit:
yt = 1 + 2 xt2 + 3 xt3 + . . . + k xtk + ut
pour t = 1, 2, . . . , n
Pour prendre un exemple, il est raisonnable de supposer quune loi de demande comprenne comme variable explicative non seulement le prix PY du bien demande, mais aussi
le prix PX dun substitut et le revenu R du consommateur. Nous aurions alors:
yt = 1 + 2 (PY )t + 3 (PX )t + 4 Rt + ut
Une formulation matricielle du modèle simpose. Il peut secrire sous la forme suivante:
y1
y2
.
.
.
yn
1
1
.
..
x12
x22
..
.
...
...
..
.

1
x1k
x2k 2
.
..
.
.
.
xn2
...
xnk
u1
u2
.
..
un
soit y = X + u, o`
u y est un vecteur n 1 dobservations sur la variable dependante, X
est une matrice n k dobservations sur les variables explicatives, est un vecteur k 1
de paramètres inconnus et u est un vecteur n 1 derreurs aleatoires inobservables.
Nous faisons les hypothèses suivantes:
H1 : E(u) = 0
H2 : E(uu ) = 2 I
H3 : X est non aleatoire
H4 : rang(X) = k < n
78

ETRIE
Lhypothèse H2 implique que les erreurs sont de meme variance, et non correlees. Si
lhypothèse H4 netait pas satisfaite, il existerait une relation lineaire exacte entre certaines
des colonnes de X: En substituant cette relation dans lequation de regression, on pourrait
alors supprimer un regresseur. Ceci revient à dire que le vecteur ne pourrait pas etre
estime de manière unique.
Notons que nous ne faisons pas encore dhypothèses sur la forme fonctionnelle de la
distribution de u.
5.2 Les estimateurs de moindres carr
es
Lestimateur de moindres carres sera obtenu, comme precedemment, en minimisant
Cette somme de
la somme des carres des residus. Le vecteur des residus est u
= y X .
carres peut donc secrire:
u
u
(y X )
(y X )

y y X y y X + X X

y y 2 X y + X X .
En utilisant les règles de la Section 3.4, on obtient:

u
u

2X y + 2X X = 0
Comme X est de rang k, X X est denie positive, donc regulière (voir 3.1.3. (1)), et
nous pouvons ecrire:
(X X)1 X y
Par ailleurs, les conditions de second ordre pour un minimum sont satisfaites, puisque

u
= 2X X
une matrice denie positive, ce qui montre que u u

est convexe en .
79
5.3 Moments des estimateurs de moindres carr

es
5.3.1 Esp
erance de .
est un estimateur sans biais de puisque:
E()

E (X X)1 X (X + u)

E + (X X)1 X u
+ (X X)1 X E(u) =
5.3.2 Matrice de covariance de .

La matrice de covariance de est alors:
V ()

E ( )( )
E (X X)
(X X)1 X E(uu )X(X X)1
2 (X X)1 (X X)(X X)1
X uu X(X X)
2 (X X)1
5.4 Le th
eor`
eme de Gauss-Markov
Nous allons montrer que est le plus ecace des estimateurs lineaires de . Plus
=
precisement, si est un autre estimateur lineaire sans biais de , cest-à-dire si E()
et = Ay, les variances de ses composantes ne peuvent etre inferieures à celles des
composantes de :
V (i ) V (i )
pour i = 1, 2, . . . , k

ETRIE
80
D
emonstration
Soit donc = Ay un autre estimateur lineaire de . Nous pouvons supposer sans perte
de generalite que:
A = (X X)1 X + C.
Alors:

= (X X)1 X + C (X + u)
= + (X X)1 X u + CX + Cu = [I + CX] + Au
est un estimateur sans biais de si et seulement si CX = O. Nous imposons donc cette
condition, qui implique que = + Au.
La matrice de covariance de est alors:

E ( )( )

E Auu A
2 AA

2 (X X)1 X + C X(X X)1 + C

2 (X X)1 + (X X)1 X C + CX(X X)1 + CC

2 (X X)1 + CC
+ 2 CC
V ()
puisque CX = O
Mais les elements de la diagonale de CC sont des sommes de carres, donc non negatives.
Les variances des composantes de sont donc superieures ou egales aux variances des
composantes de .
81
5.5 Lestimation de la variance des erreurs

Comme precedemment (section 1.5) notre estimateur sans biais sera base sur
2
)2 =
= 0. (En eet, la première ligne de la matrice (X X) est
(
ut u
u
t puisque u

le vecteur i X avec i = [1, 1 . . . 1] ; la première composante du vecteur X y est i y. La

= i u
=
u
t = 0). Pour
première equation normale secrit alors i X = i y, ou i (y X )

uu
).
trouver, comme precedemment, un estimateur sans biais de 2 , calculons E(
Nous avons

u = y X = X + u X(X X)1 X (X + u)
X + u X X(X X)1 X u

=
I X(X X)1 X

u
def
Mu .
On verie aisement que M est idempotente et symetrique.

Alors u
u
= u M Mu = u Mu .
)
E(
uu
E(u Mu) = E(tr u Mu)
E(tr Muu ) puisque trAB = trBA
puisque u Mu
est un scalaire
trE(Muu ) puisque la trace est une somme
trME(uu ) puisque M est non aleatoire
trM( 2 I) = 2 tr(MI) = 2 trM .
Mais trM
trIn trX(X X)1 X
trIn tr(X X)(X X)1 = trIn trIk
nk.
) = (n k) 2 et s2 =
Alors E(
uu
u
u
nk
est un estimateur sans biais de 2 .

ETRIE
82
5.6 D
ecomposition de la variance: les coecients de d
etermination R2 et R2
Nous commencons, comme à la section 1.9, par demontrer une formule de calcul de u
u
.
Lemme

u
u
= y y X y
D
emonstration
u
u
(y X )
(y X )

y y 2 X y + (X X)

y y X y
puisque (X X) = X y .
Nous decomposons maintenant, comme precedemment en regression simple (section 1.9),

la somme des carres totaux en une somme de deux termes:
SCT
(yt y)
2 2
yt y +
u
t ,
SCE
et
SCR .

(yt y)2 = y y
Pour demontrer cette identite, notons que

soit:
(
yt y)
2
(X )
(i X )
(X )
n

(i y)2
(X X)
n

i X + i u
(i y)2
X y
n
(puisque i y
et i u
= 0)
(i y)2
n
83

Par le lemme, nous avons y y = u
u
+ X y,

donc
cest-à-dire
SCT
(i y)2
y y
n
SCE

2

(i
y)
= X y
+u
u ,
n
SCR ,
Q.E.D.
Il faut bien noter que cette identite nest valable que dans un modèle o`
u la somme des

residus est nulle (i u
= 0). Tel sera bien le cas lorsque le modèle de regression comporte un
terme constant, puisque i est la première ligne de X et puisque les equations normales
= 0.
impliquent X u
A partir de cette identite, nous pouvons denir, dans un mod`
ele avec terme constant, le coecient de determination comme:

(i y)
X y n
SCR
SCE
2
=1
=
R =

2
SCT
SCT
y y (i ny)
u
u
e de 2 , il est preferable demployer le coefComme SCR

n = n est un estimateur biais
cient de determination ajuste, deni comme suit:
2 = 1 SCR/n k = n 1 R2 k 1
R
SCT/n 1
nk
nk
qui est, lui, base sur des estimateurs sans biais des variances. Si lon ajoute un regresseur,
2 .
R2 crotra toujours (non strictement); ceci nest pas le cas pour R
Dans un mod`
ele sans terme constant, la somme des residus nest pas necessairement nulle et la decomposition precedente (SCT = SCR +SCE) nest donc plus valable.
Le R2 precedent nest donc pas necessairement compris entre 0 et 1. Neanmoins, on a
toujours, en vertu du lemme:
u
= y y + u
u
y y = X y + u
avec y = X .
On peut alors denir:
R2
u u
y y
= =1
yy
yy
qui est, lui, toujours compris entre 0 et 1. Ce coecient R2 peut etre utilise dans tous
les cas, tant dans un modèle sans constante que dans un modèle avec constante. Mais son
interpretation est dierente de celle du R2 .
Comme precedemment, nous pouvons ajuster ce dernier coecient de determination
aux nombres de degres de liberte, comme suit:
n1 2 k1
u/(n k)
2 = 1 u
R
=
R
.

y y/(n 1)
nk nk
84

ETRIE
Interpr
etation des coecients de d
etermination:
Nous verrons plus loin que R2 est une fonction monotone de la statistique F à employer
pour tester la nullite de tous les coecients de regression sauf la constante.
Nous verrons aussi que R2 est une fonction monotone de la statistique F à employer
pour tester la nullite de tous les coecients, constante comprise.
On peut montrer que R2 est le carre du coecient de correlation entre les valeurs
observees yt et les valeurs yt calculees à laide de lequation de regression estimee.
5.7 Probl`
emes particuliers: multicolin
earit
e,
biais de sp
ecication, variables muettes
5.7.1 Multicolin
earit
e.
(1) Comme nous lavons dejà mentionne, lexistence dune relation lineaire exacte entre
les colonnes de X nous empeche de determiner lestimateur de manière unique. Ce
cas est un cas extreme de multicolinearite. Mais il arrive souvent que certaines des
colonnes de X presentent une dependance lineaire approximative. Les consequences
de ce phenomène sont les suivantes:
un manque de precision dans les estimations des i , se traduisant par de fortes
variances;
les estimations des i presenteront souvent des distortions importantes, dues a`
des raisons numeriques. Le nombre de chires signicatifs des emplacementsmemoire dun ordinateur est en eet limite, ce qui se traduit par un manque
de stabilite des programmes dinversion matricielle, pour des matrices qui
sont presque singulières.
Pour illustrer le premier point, reprenons le modèle de regression simple
yt = a + bxt + ut . Nous avons vu que
2
V (b) =
)2
(xt x
La multicolinearite se traduira dans ce cas par une serie dobservations

(xt ) presque

pour tout t. On a alors (xt x)2 0, ce qui
constante, cest-à-dire par xt x
se traduit par une forte variance de b.
(2) La multicolinearite peut etre mesuree en calculant le rapport max
min de la plus grande

à la plus petite valeur propre de X X.
(3) Pour corriger le problème de multicolinearite, on peut:
soit ajouter des observations à lechantillon quand la chose est possible; il
faut neanmoins que les observations supplementaires ne presentent pas de
multicolinearite!
Soit introduire une information a priori. Supposons par exemple que dans la
fonction de production:
85
log Qt = A + log Kt + log Lt + ut

les variables log Kt et log Lt soient fortement colineaires. Si lon sait que les
rendements dechelle sont constants ( + = 1), on peut transformer le modèle
comme suit:
log Qt = A + log Kt + (1 ) log Lt + ut

ou
(log Qt log Lt ) = A + (log Kt log Lt ) + ut ,
ce qui a donc pour eet de supprimer un regresseur. Ceci peut resoudre le problème. Essentiellement, linformation a priori + = 1 supplee au defaut dinformation present dans lechantillon (tentative destimer trop de paramètres avec trop
peu de donnees).
Cette information a priori peut egalement prendre une forme stochastique, non
deterministe. Nous etudierons ce point lorsque nous verrons les methodes bayesiennes.
5.7.2 Biais de sp
ecication.
Examinons maintenant le problème du choix dune forme fonctionnelle, cest-`
a-dire du
choix de la liste des regresseurs. Comme nous allons le montrer, lomission dune variable
explicative a pour consequence, en general, un biais de lestimateur .

Supposons que y soit engendre par le modèle:
y = X + u = X1 1 + X2 2 + u
avec 2 = 0
et E(u) = 0
et que lon omette les colonnes de X2 de la liste des regresseurs. On estimerait alors par
moindres carres le modèle
y = X1 1 + u
avec
u = X2 2 + u
et par consequent E(u ) = X2 2 = 0. Lestimateur:

1 = (X 1 X1 )1 X1 y = 1 + (X 1 X1 )1 X1 u
sera biaise.

ETRIE
86
5.7.3 Variables muettes.

Une variable muette, ou binaire (en anglais: dummy variable) est une variable du type
Dt = 1
si t T1
Dt = 0
si t T1
o`
u T1 {1, 2, . . . , n}.
Une telle variable, incluse dans la liste des regresseurs, pourrait par exemple indiquer
la presence ou labsence de guerre, ou classier des donnees selon un critère saisonnier.
Pour des donnees mensuelles, sil ny pas de variations saisonnières à linterieur dun meme
trimestre, on pourrait poser:
D1t
D2t
D3t
D4t
=1
=1
=1
=1
si
si
si
si
t
t
t
t
est
est
est
est
un
un
un
un
mois
mois
mois
mois
du
du
du
du
premier trimestre, 0 sinon

second trimestre, 0 sinon
troisième trimestre, 0 sinon
quatrième trimestre, 0 sinon.
Les quatre colonnes des regresseurs D1 , D2 , D3 , D4 pour les 12 mois dune annee
auraient alors la forme suivante:
1
Nous ne pourrions pas inclure de constante dans ce modèle, puisque la somme de ces
quatre vecteurs est un vecteur de uns. On aurait alors colinearite parfaite. Les coecients
des variables Di sont en fait des constantes speciques à chaque saison.
87
Une autre possibilite serait dinclure une constante, et de supprimer lune des variables
Di , par exemple D1 . Les coecients de D2 , D3 et D4 mesureraient alors leet relatif des
facteurs saisonniers: les constantes speciques seraient 1 , 1 + 2 , 1 + 3 , 1 + 4
plut
ot que 1 , 2 , 3 , 4 .
Notons aussi que les variables muettes permettent la specication de pentes variables.
Si Dt = 1 pour une periode de guerre, = 0 sinon, et que lon a des raisons de penser que
la propension marginale a` consommer dans le modèle:
Ct = + Yt + ut
est dierente en temps de paix et en temps de guerre, on pourra estimer les paramètres
du modèle:
Ct = + bDt Yt + c(1 Dt )Yt + ut
et b sera lestimateur de la propension marginale a` consommer en temps de guerre, c
lestimateur de cette propension en temps de paix.
5.8 Estimateurs par maximum de vraisemblance
Nous faisons ici lhypothèse que le vecteur u a une distribution normale:
H5
u N (0, 2 I) .
Ce qui implique que y X N (0, 2 I).

La fonction de vraisemblance secrit alors:
"
1

exp 2 (y X) (y X)
L(, ) = (2 )
2
n
n
1

et loge L = loge 2 loge 2 2 (y X) (y X)
2
2
2
2
2 n/2
Nous avons alors les conditions de premier ordre suivantes:

loge L
1
= 2 (2X y + 2X X) = 0
(voir Section 5.2).
loge L
n
1

=
+
(y X) (y X) = 0
2
2 2
2 4
La première condition implique = (X X)1 X y. En remplacant par dans la

2 =
seconde condition et en la multipliant par 2 2 , on obtient
2 par maximum de vraisemblance.
u
u
comme estimateur de
88

ETRIE
La matrice Hessienne H sobtient en derivant le vecteur
1

2 (2X y + 2X X)
2
n
1

2 + 4 (y X) (y X)
2
2

par rapport au vecteur

. Ceci donne:
2
1
(X X)

(X
y
+
X
X)
2
4
H =
n
1
1

(y X + X X)
6 (y X) (y X)
4
2 4
En remplacant par = (X X)1 X y et 2 par

2 =
O1k
, on obtient:
(X X)
1
n (y X ) (y X )
Ok1
n
4
2
2 > 0. Nous avons donc

qui est denie negative puisque (X X) est denie positive et
bien un maximum.
89
5.9 Exemple num

erique
Une association de vignerons vaudois voudrait etudier linuence sur la production de

vin par hectare (Y ) des quantites de main-doeuvre (X1 ) et dengrais (X2 ) employees par
hectare.
Une enquete est menee chez dix vignerons (i = 1, . . . , 10) et lon postule la forme
fonctionnelle suivante:
logYi = 1 + 2 logX1i + 3 logX2i + ui
o`
u ui est un terme derreur aleatoire satisfaisant nos hypothèses. Les donnees de lechantillon sont resumees dans la matrice suivante:

(logY )2
logY
logY logX1

logX2 logY
logY
n

logX2
11.8
7.1
logX2 logX1
10
4.1
4.1
On a:
(X X)
10
Xy
11.8
7 1
1 7
7.1
4.1
2 2
et
yy
logX2
logX1 logX2

(logX2 )2
logX1
19.34 11.8 7.1
logY logX2

(logX1 )2
logX1
logY logX1
19.34

ETRIE
90
(X X)
1
=
432
48
12
12 12
12
66
66

1
= (X X) X y = 0.7
0.2

X y
17.59
u
u
19.34 17.59
s2
0.25
R2
2
R
9
(0.677)
7
1.75
1.75
19.34
(11.8)2
10
2
7
0.677
0.585 .
Les resultats peuvent etre resumes de la facon suivante (les estimations des ecarts-types
se trouvent entre parenthèses):
log Y = 1
(0.167)
0.7
(0.195)
log X1
+ 0.2
logX2
(0.195).
2 = 0.585)
(R
SECONDE PARTIE, CHAPITRE VI
91
CHAPITRE VI
SOUS CONTRAINTES LINEAIRES
MOINDRES CARRES
6.1 Lestimateur de sous contraintes

Nous deriverons dans ce chapitre lestimateur c du vecteur sous un système de J
contraintes independantes, qui peut secrire sous la forme:
Rc = r
o`
u R est une matrice J k de rang J , r est un vecteur J 1, et c est le vecteur des
estimateurs de sous contraintes.
Dans notre exemple precedent, nous pourrions vouloir imposer la contrainte que les
rendements dechelle sont constants, cest-à-dire estimer les paramètres 1 , 2 , et 3 de:
logY = 1 + 2 logX1 + 3 logX2 + u ,
sous la contrainte 2c + 3c = 1, o`
u 2c et 3c sont les estimations contraintes de 2 et
3 . On aurait alors:
R
(0
1 1)
et r = 1 .
Notons que ce problème pourrait aussi etre resolu par substitution; cest ce que nous
avons fait a` la section 5.7.1 (3). Mais une presentation matricielle nous sera très utile
lorsque nous verrons, au chapitre 7, le test de R = r.
Nous minimisons la somme des carres des residus sous les contraintes du système
Rc = r. A cette n, nous ecrivons ce système comme 2(Rc r) = 0, et nous formons le
Lagrangien:
(y X c ) (y X c ) 2 (Rc r)
o`
u est un vecteur ligne de J multiplicateurs de Lagrange. Le système de conditions
de premier ordre peut secrire:

ETRIE
92
(1)
2X y + 2(X X)c 2R
(2)
2(Rc r)
0 .
En vertu de (1), on a:
(3)
+ (X X)1 R
o`
u
(X X)1 X y
est lestimateur sans contraintes.
En premultipliant par R:
Rc
R + R(X X)1 R
(en vertu de (2)) .
1

[r R].
Ceci implique = R(X X)1 R
En substituant dans (3), il vient:
(4)

1
1
[r R]
c = + (X X) R R(X X)1 R
On constate que c (lestimateur contraint) dière de (lestimateur non contraint) par

Ce dernier vecteur sera nul si le vecteur verie
une fonction lineaire du vecteur r R.
les restrictions a priori .
6.2 Ecacit
e de lestimateur de sous contraintes
Nous allons maintenant montrer que si les restrictions a priori sont veriees par le
vecteur (c.à.d. par les vraies valeurs des paramètres à estimer), lestimateur c est au
en particulier,
moins aussi ecace que lestimateur ;
E(c ) =
et V (ic ) V (i ) pour tout i.
SECONDE PARTIE, CHAPITRE VI
En substituant = + (X X)1 X u dans
93
(4), il vient:

1

r R R(X X)1 X u
X u + (X X)1 R R(X X)1 R
+ (X X)

1 1
R (X X) X u
+ I (X X)1 R R(X X)1 R
sous lhypothèse R = r
def
+ A(X X)1 X u .
Comme A est non stochastique, on a E(c ) = ,

et V (c )

E c c
A(X X)1 X ( 2 I)X(X X)1 A
2 A(X X)1 A
alors:
On verie aisement que si V = 2 (X X)1 = V (),
2 A(X X)1 A = V V R (RV R )1 RV

ou:
V R (RV R )1 RV
V (c ) = V ()
Comme la seconde matrice de la dierence est denie non negative, les elements de sa
diagonale sont non negatifs et V (ic ) V (i ), Q.E.D.
Exemple
Reprenons le modèle et les donnees de la section 5.9. Nous voulons imposer la contrainte
que les rendements dechelle sont constants. On a:
r = 1,
R = [0 1
1]
r R = 1 0.7 0.2 = 0.1

R(X X)1 R =
1
432
(66 6 + 66 6) =
10
36

ETRIE
94
et donc:
0.7

+
36
10
12
1
432
(0.1)
12
0.2
48
0.02
0.98
0.05
66
6
66
0.75
=
0.05
+
0.7
0.2

0

6 1

12 12
0.25
6.3 D
ecomposition de la somme des r
esidus contraints
Nous allons voir dans cette section que la somme des carres des residus contraints est
toujours superieure ou egale à la somme des carres des residus non contraints. Ceci a une
consequence sur le R2 .
Soit u
c = y X c le vecteur des residus contraints. On a:
c = (y X c ) (y X c )
u
c u
= (y X + X X c ) (y X + X X c )
= (
u + X[ c ]) (
u + X[ c ])
+ 2( c ) X u
+ ( c ) X X( c )
=u
u
=u
u
+ ( c ) X X( c ).
Mais le second terme de cette somme est positif ou nul, car X X est denie positive.
On a donc :
c u
u
uc u
et comme:
=1
u
cuc
(yt y)2
R2 = 1
u
u
(yt y)2
R2c
ceci implique R2c R2 .

On peut aussi noter (ceci nous sera utile au chapitre suivant) que si u N (0, 2 I),
lestimateur c maximise la vraisemblance sous la contrainte Rc = r.
SECONDE PARTIE, CHAPITRE VII
95
CHAPITRE VII.
INFERENCE
STATISTIQUE EN REGRESSION
CLASSIQUE
7.1 Le test de lhypoth`

ese lin
eaire g
en
erale
Nous allons tout dabord presenter la theorie generale du test de J contraintes independantes de la forme discutee plus haut. Ce test inclut comme cas particulier tous les tests
mentionnes au chapitre II; nous reexaminerons ces tests a` la section 7.2 dans le cadre de
la regression multiple. Soit donc à tester:
H0 : R = r
contre H1 : R = r
R etant, rappelons-le, une matrice J k de constantes connues de rang J , et r etant un

vecteur J 1.
Nous allons dabord utiliser la methode du rapport des vraisemblances pour trouver
une statistique appropriee; en utilisant les resultats de la section 4.2, nous determinerons
ensuite la distribution de cette statistique.
7.2 D
erivation de la statistique F `
a laide
du crit`
ere du rapport des vraisemblances
Nous introduisons lhypothèse:
H5 : u N (0, 2 I) .
La vraisemblance secrit alors:
2
2 n/2
L(, ) = (2 )
!
"
1

exp 2 (y X) (y X)
2
Rappelons la denition du rapport des vraisemblances :

=
on rejette H0 si est proche de 0.
maxH0 L(, 2 )
;
max L(, 2 )

ETRIE
96
Lestimation du modèle sous H0 et sous a dejà ete traitee. On avait obtenu sous H0 :

1
c = + (X X)1 R R(X X)1 R
r R
c2 =
1
1
(y X c ) (y X c ) = u
u
c ,
n
n c
et sous :
= (X X)1 X y
2 =
1
(y X )
= 1u
(y X )
u.
n
n
Il sut de remplacer, dans lexpression de , et 2 par ces valeurs. En faisant les

substitutions, on obtient:
=
c2 )
L(c ,

L(,
2 )

n
c2
(2)
exp 2
2
c

=
n
2
n/2
2
n/2
(2)
(
)
exp 2
2
2 n/2
c
=
2
n/2
c
u
c u
=

u u
n/2

+u
c u
c u u
u
u
=
u
u
n/2

Q
= 1+
u
u
n/2
o`
u:
(
c2 )n/2
c u
u
.
Q=u
c u
Nous avons dejà demontre, à la section 6.3, que:

Q = ( c ) X X( c ).
Nous montrerons au cours que, de plus:
Q = (R r) [R(X X)1 R ]1 (R r)
et que, si H0 est vraie:
Q = u Lu,
avec:
97
L = X(X X)1 R [R(X X)1 R ]1 R(X X)1 X .

Nous avons donc au total quatre expressions equivalentes de la forme quadratique Q; la
dernière ne vaut que sous H0 . Selon le contexte, certaines de ces expressions seront plus
utiles que les autres. La dernière expression nous servira, a` la section suivante, a` trouver
la distribution dune fonction monotone de sous H0 , donnee par:
F = (2/n 1)
nk
.
J
7.3 Distribution sous H0 de la statistique F

Nous invitons le lecteur a` verier, a` titre dexercice, que la matrice L denie a` la section
precedente verie:
(1)
L = L
(2)
LL = L
(3)
rang(L) = trace(L) = J
(4)
si M = I X(X X)1 X ,
alors LM = O.
.
Le fait que u Mu = u
u
et les resultats de la section 4.2 impliquent alors, puisque
u
N
(0,
I):
u u
Q
2J sous H0
=
L
2

u

u
u u
=
M
2nk
2
et ces deux variables aleatoires sont independantes puisque LM = O.

Par consequent:
Fobs =
Q
Q/J
Q/[ 2 J ]
=
=
J s2
u
u
/(n k)
u
u
/[ 2 (n k)]
est un rapport de deux 2 independantes divisees par leurs nombres de degres respectifs
et a la distribution FJ,nk sous H0 .
En utilisant:

=
Q
1+
u
u
n/2

ETRIE
98
il est facile de montrer que:

Fobs = (2/n 1)
nk
.
J
Les petites valeurs de correspondent donc a` de grandes valeurs de Fobs .

En utilisant:
Q=u
c u
c u
u
il est facile de montrer que:

Fobs =
c2
1
nk
.
J
Donc pour calculer Fobs, il sut destimer les modèles contraints et non contraints et
de comparer les variances estimees.
7.4 D
erivation de la statistique F `
a laide du crit`
ere de Wald
A la section 5.4 de la première partie, nous avions enonce la statistique de Wald pour
le test dune hypothèse portant sur un seul paramètre inconnu i , et nous avions vu que
cette statistique:
(i 0 )2
W=
V (i )
pouvait etre interpretee comme le carre dune distance entre les estimations sous les hypothèses nulle et alternative.
Ici, nous avons un test joint de J hypothèses: celui de H0 : R = r contre H1 : R = r.
En posant R = , on peut considerer ce test comme celui dune hypothèse nulle sur .
Lexpression precedente va devenir une forme quadratique, qui peut etre interpretee comme
le carre dune distance dans un espace a` J dimensions. Lexpression precedente peut etre
generalisee comme suit:
1 (R r)
W = (R r) [V (R)]
est lestimation
o`
u est lestimation de par maximum de vraisemblance et o`
u V (R)
On a:
par maximum de vraisemblance de la matrice de covariance de R.
= (X X)1 X y
= R[ 2 (X X)1 ]R
V (R)
= 2 R(X X)1 R
=
V (R)
2 R(X X)1 R
99
avec
2 = u u
/n. En substituant et en utilisant Fobs = Q/(J s2 ), on obtient:
W=
(R r) [R(X X)1 R ]1 (R r)
2

Q
J
J
=
nk 2
s
n
=
Jn
Fobs.
nk
Donc:
nk
W
Jn
est bien une fonction monotone de la statistique de Wald.
Fobs =
7.5 D
erivation de F `
a partir du crit`
ere des multiplicateurs de Lagrange
A la section 5.5 de la première partie, nous avions formule la statistique LM pour le
test dune hypothèse H0 : i = 0 comme:
LM =
0
V0 ()
0 etant la valeur du multiplicateur de Lagrange evaluee aux estimations contraintes des
paramètres, et V0 () lestimation contrainte de la variance de .

Dans ce cas-ci, on a J contraintes, donc un vecteur de J multiplicateurs de Lagrange.
La statistique LM va donc devenir une forme quadratique, et la variance precedente sera
remplacee par une matrice de covariance.
A la section 6.1 de la seconde partie, on a vu que le vecteur des multiplicateurs de
Lagrange pour la minimisation contrainte de la somme des carres des residus etait egal a`:
(1)
= [R(X X)1 R ]1 (r R).
0 . Dautre part,
Comme ce vecteur ne depend pas de paramètres inconnus, il est ici egal a`
comme il est proportionnel au vecteur des multiplicateurs de Lagrange pour la maximisation contrainte de la vraisemblance, on peut lutiliser pour deriver la statistique LM (le
facteur de proportionnalite se simplie). Sa matrice de covariance est la suivante:
V () = [R(X X)1 R ]1 V (R)[R(X

X)1 R ]1
= 2 [R(X X)1 R ]1 .

ETRIE
100
Donc:
V0 () =
02 [R(X X)1 R ]1
(2)
o`
u
02 = u
c u
c /n.
En utilisant (1) et (2), il vient:

[V0 ()]1
0
LM =
0
(R r) [R(X X)1 R ]1 (R r)
02
Q
= 2.
0
=
Montrons maintenant que Fobs est une transformation monotone de LM. On a vu a` la

section 7.2 que:
c u
u.
Q = ( c ) X X( c ) = uc u
Donc:
1
2 + Q/n
1
2
= 0 =
= +
LM
Q
Q
n
Q
nk 2
s
1
n
= +
Q
n
J
J
J Fobs + n k
=
nJ Fobs
et donc:
LM =
nJ Fobs
.
J Fobs + n k
7.6 Cas particuliers du test de lhypoth`

ese lin
eaire g
en
erale
7.6.1 Test sur un coecient individuel.
Si nous voulons tester:
H0 : i = i0
contre H1 : i = i0
la matrice R prendra la forme
(0 0
...
0 ...
101
0)
o`
u lunite apparait en ième position. r est le scalaire i0 .
On obtient alors:
Fobs
(i i0 )2
F1;nk = t2nk
s2 [(X X)1 ]ii
et la statistique
tobs
(i i0 )
#
s [(X X)1 ]ii
suit une loi de Student avec n k degres de liberte sous H0 .

7.6.2 Test de nullit
e de tous les coecients; lien avec R2 .
Si nous voulons tester:
H0 : = 0
contre H1 : = 0 .
La matrice R nest autre que la matrice unite dordre k. Le vecteur r est le vecteur nul (de
dimensions k 1).
On a alors:
Fobs
(X X)/k
Fk;nk
s2
sous H0 .
Il est interessant detablir un lien entre cette statistique et le R2 , car ceci nous permettra
denoncer des valeurs critiques pour ce dernier. La statistique peut secrire:

nk
y y
Fobs =
u
u
k

y y/y y
nk
=
u
u
/y y
k

nk
R2
.
=
1 R2
k
Donc Fobs est bien une fonction monotone du R2 . Sa reciproque est donnee par:
R2 =
kFobs
n k + kFobs
102

ETRIE
et R2 est donc signicatif (de manière equivalente, on rejettera H0 ) si:

R2 >
kFk,nk,
.
n k + kFk,nk,
Ceci indique que le seuil critique de R2 tend vers zero lorsque le nombre dobservations n
tend vers linni. Par exemple, un R2 de 0, 10 sera signicatif au seuil = 0, 05 si n = 122
et k = 2; mais il ne le sera pas pour k = 2 et n = 22.
7.6.3 Test de nullit
e de tous les coecients sauf la constante; lien avec R2 .
Le vecteur des k 1 derniers coecients de regression peut secrire:

2
..
= . .
k
Nous voulons tester:
H0 : = 0
contre = 0.
Lhypothèse nulle peut secrire sous la forme R = r, avec:

R = ( O(k1)1
Ik1 ) ,
r = 0.
La matrice R est donc de genre k 1 k et le vecteur r est de taille k 1; nous avons
un cas particulier du test F avec J = k 1.
Nous allons montrer que la statistique peut secrire:

R2
nk
Fobs =
1 R2
k1
et le R2 sera donc signicatif (de manière equivalente, on rejettera H0 ) si:
R2 >
(k 1)Fk1,nk,
.
n k + (k 1)Fk1,nk,
En eet, le vecteur des residus dans le modèle contraint est le suivant:
y1 y
.
u
c = ..
yn y
et la somme des carres des residus contraints est donc:

u
c u
c =
(yt y)2 .
Par consequent:
Q=u
c u
c u u
=
103
(yt y)2 u
u
Q

= 1 (1 R2 ) = R2
(yt y)2

et donc:
Fobs =
u
u
= 1 R2
(yt y)2
u
c u
c u u
u
u
nk
R2 n k
=
k1
1 R2 k 1
.
7.6.4 Test sur une combinaison lin
eaire des coecients.
Nous avons ici le test:
H0 : c = r
contre H1 : c = r
o`
u c est un vecteur k 1 de constantes et r est un scalaire. La statistique à employer
prend alors la forme suivante:
Fobs
(c r)2
F1;nk = t2nk
s2 (c (X X)1 c)
et la statistique:
tobs
c r
#
=
s c (X X)1 c
suit donc une loi de Student avec n k degres de liberte sous H0 .

7.6.5 Test de stabilit
e structurelle (Chow).
Ce test, comme on va le voir, est un cas particulier du test F . On va diviser la periode de
lechantillon en deux sous-periodes de nombres dobservations n1 > k et n2 > k, et etudier
la stabilite des coecients de regression dune sous-periode a` lautre. Sous lhypothèse nulle
(stabilite structurelle), les coecients sont les memes; sous lhypothèse alternative, ils sont
dierents.
Si lon na pas de stabilite structurelle (hypothèse alternative), le modèle secrit:

y=
y1
y2

=
X1
O
O
X2

1
2

+
u1
u2

ETRIE
104
o`
u y1 et u1 sont n1 1, y2 et u2 sont n2 1, X1 est n1 k, X2 est n2 k, et 1 et 2 sont
k 1. Sous lhypothèse alternative, 1 = 2 . On a ici 2k regresseurs. On veut tester:
H0 : 1 = 2
contre H1 : 1 = 2 .
Sous lhypothèse nulle, le modèle precedent peut secrire:

X1
u1
y1
=
+
y2
X2
u2
o`
u = 1 = 2 . On a ici k regresseurs.
Le nombre de contraintes imposees sous H0 est donc de J = k. Le nombre de degres de
liberte dans le modèle non contraint est de n 2k = n1 + n2 2k.
La statistique est donc:

c u
u
n 2k
u
c u
.
Fobs =
u u
k
Le modèle contraint correspond aux hypothèses classiques avec:

X1
X=
.
X2
Donc, en utilisant le lemme de la section 5.6:
u
u
c = y y X y = y [I X(X X)1 X ]y = y My.
c
Dans le modèle non contraint, on a comme matrice de regresseurs:

X1 O
X =
O X2

et comme vecteur de coecients:

=
1
2

.
Par consequent la somme des carres des residus dans le modèle non contraint est de:
u
u = y y X y = y [I X (X X )1 X ]y = y M y.
On peut facilement voir que:

y M y = y1 M1 y1 + y2 M2 y2
avec:
M1 = In1 X1 (X1 X1 )1 X1

M2 = In2 X2 (X2 X2 )1 X2 .
et u
c u
c par les valeurs trouvees, on obtient:
En remplacant, dans lexpression de Fobs , u u

n 2k
y My y1 M1 y1 y2 M2 y2
Fobs =
y1 M1 y1 + y2 M2 y2
k
et on rejette lhypothèse de stabilite structurelle si:
Fobs > Fk,n2k,.
105
7.7 Intervalles de pr
evision
Supposons que nous observions k valeurs futures des k regresseurs à une periode
suivant la dernière periode de lechantillon. Ces valeurs forment un vecteur de dimension
1 k, soit x .
Nous desirons, comme precedemment (section 2.4), calculer un intervalle de prevision
centre sur la prevision y de la variable dependante.
Si le modèle reste inchange à la periode , on a:
y = x + u
avec:
E(u u1 ) = = E(u un ) = 0
et:
y = x .
Sous lhypothèse u N (0, 2 ), trouvons la distribution de lerreur de prevision:
y y = u x ( ) .
Cest une variable normale de paramètres:
E(y y )
V (y y )
E(u2 ) + E(x ( ))2 2 Cov(u , x ( )) .
Mais la covariance est nulle, puisque ne depend que des erreurs u1 , u2 , . . . , un de

lechantillon qui sont independantes de u par hypothèse. On a alors:
V (y y )

2 + E x ( )( ) x
2 + 2 x (X X)1 x
Considerons alors les variables
y y
1 + x (X X)1 x

et W
u u
2
(n k)

ETRIE
106
V est une variable N (0, 1). u2u est une variable 2 avec n k degres de liberte, puisque
N (0, 1), u
u
= u Mu et rang M = n k (section 4.2).
Les deux sont independantes puisque V ne depend que de u et de:
( ) = (X X)1 X u
et que:

(X X)1 X I X(X X)1 X = O.
Nous pouvons en deduire que

V
W
tobs
y y
#
tnk
s 1 + x (X X)1 x
et lintervalle de prevision cherche a pour bornes

y
nk;
2
$
s 1 + x (X X)1 x
7.8 Exemple num

erique
Reprenons le modèle et les donnees de la Section 5.9.
7.8.1 Testons lhypothèse que la quantite dengrais X2 ne contribue pas a` la production
de vin.
Nous avons:
H0 : 3 = 0
H1 : 3 = 0
tobs
0.2
#
0.5 66/432
1.023 .
Comme t7;0.025 = 2.365 > 1.023, nous ne rejetons pas H0 au seuil de signication
= 0.05.
107
7.8.2 Testons maintenant lhypothèse
H0 : 1 = 1,
contre
H1 : 1 = 1
2 = 1,
3 = 0
ou 2 = 1
ou 3 = 0
Ceci donne:
Fobs
(0
3(0.25)
10 2
0.3 0.2 ) 2
1 0.3
1.053 < 4.35 = F3;7;0.05
0.2
On ne rejette donc pas lhypothèse H0 .

7.8.3 Si nous voulons tester:
H0 : 1 = 0.5
et 2 = 0.5
H1 : 1 = 0.5
ou 2 = 0.5 .
Nous construisons la statistique:
Fobs
=
On rejette donc H0 .
432
( 0.5 0.2 )
2(0.25)
5.949 > 4.74 = F2;7;0.05
48
12
12
66
0.5
0.2

ETRIE
108
7.8.4 Si nous voulons tester lhypothèse que la production de vin ne depend pas des facteurs
X1 et X2 , nous avons:
H0 : 2 = 0
et 3 = 0
H1 : 2 = 0
ou 3 = 0
Ceci donne:
Fobs
R2 /2
(1 R2 )/7
7.332 > 4.74
F2;7;0.05
On rejette donc lhypothèse dindependance.

7.8.5 Enn, si nous voulons tester lhypothèse que les rendements dechelle sont constants:
H0 : 2 + 3 = 1
H1 : 2 + 3 = 1 .
Nous avons c = ( 0
1 1 ) et
r=1.
On a
c (X X)1 c
(0
432
120
432
48
12
1 1)
12
12
66
6
Ceci donne
tobs
1 0.7 0.2
#
(0.5) 120/432
0.379 < t7;0.025 = 2.365 .
0.1
(0.5)(0.527)
Nous ne rejetons donc pas lhypothèse de rendements constants.

6
1

66
1
12
109
7.8.6 Supposons quun onzième vigneron vaudois engage 2 unites de main-doeuvre (X1 )
et emploie 3 unites dengrais (X2 ). Entre quelles bornes sa production de vin aura-t-elle
95 chances sur 100 de se situer? On a:
loge 2
0.69315
loge 3
1.09861
loge y11
1 + (0.7)(0.69315) + (0.2)(1.09861)
1.70493
x11 (X X)1 x11 =
1
432
(1
48
0.69315 1.09861 ) 12
12
12
12
66
6 0.69315 = 0.2482.
66
1.09861
Alors les bornes de lintervalle sont

1.70493
(2.365)(0.5)
1.2482 soit
[0.384 ;
3.026]
et la production y11 a 95 chances sur 100 de se situer dans lintervalle

[1.468 ;
20.616]
(valeur mediane = exp
0.384 + 3.026
2

= 5.5) .

ETRIE
110
CHAPITRE VIII
GEN
ERALIS
MOINDRES CARRES
ES:
LA METHODE
DE AITKEN
8.1 Introduction
Dans beaucoup de modèles econometriques, lhypothèse que les erreurs sont de variance
constante et ne sont pas correlees entre elles ne peut pas etre faite. Cest ainsi que dans
notre exemple numerique precedent, la production de vin par hectare de deux agriculteurs
voisins pourrait fort bien etre inuencee par des conditions exogènes (meteorologiques ou
autres) communes, ce qui se traduirait par une correlation des erreurs.
Que se passerait-il si lon appliquait la methode des moindres carres ordinaires a` un tel
modèle? Nous verrons plus loin que les estimateurs i obtenus seraient toujours sans biais,
mais quils seraient inecaces; de plus, les estimateurs de leurs variances seraient biaises.
La methode de Aitken permet heureusement de remedier dans une large mesure à cet
etat de choses.
8.2 Exemples
8.2.1 Agr
egation des donn
ees.
On veut estimer les paramètres du modèle y = X + u avec E(u) = 0 et E(uu ) = 2 I,
avec y = Gy, X
= GX. Pour prendre
mais lon ne dispose que de donnees agregees y et X
un exemple, supposons que les donnees que lon possède soient les moyennes des deux
premières observations, des trois suivantes et des quatre dernières. La matrice G a alors la
forme suivante:
1/2
1/2
1/3
1/3 1/3
0
1/4 1/4
1/4 1/4
SECONDE PARTIE, CHAPITRE VIII
111
On estimerait le vecteur sur la base du modèle:

Gy = GX + Gu
soit aussi:
+ u.
y = X
La matrice de covariance de u est donc:

E(
uu ) = E(Guu G ) = 2 GG
1/2
0
0
2
= 0
1/3 0
1/4
qui nest pas une matrice scalaire.

Ceci est le problème dheteroscedasticite, qui sera etudie au chapitre IX.
8.2.2 Erreurs autor
egressives.
Un autre exemple de modèle de regression o`
u la matrice de covariance des erreurs nest
pas scalaire est le modèle à erreurs autoregressives, o`
u E(ut uts ) = s 2 avec | |< 1. Ce
modèle sera traite en detail au chapitre IX.
8.2.3 Equations simultan
ees.
Ce modèle très employe, est d
u a` A. Zellner (Seemingly unrelated regressions and
tests for aggregation bias, Journal of the American Statistical Association 57 (1962), pp.
348368). Nous avons les N equations de regression suivantes:
yi = Xi i + ui
pour i = 1, . . . , N
ou, sous forme matricielle:
y1
.
..
yN
X1
O
O
X2
...
...
..
.
O
O
..
.
.
..
...
.
..
u1
uN
XN
o`
u les yi sont des vecteurs T 1, les Xi sont des matrices T ki , les i sont des vecteurs
ki 1, et les ui sont des vecteurs T 1. On fait lhypothèse E(ui uj ) = ij I. Nous avons
donc labsence de correlation dans le temps, mais pas entre les equations (les erreurs de

ETRIE
112
deux equations dierentes sont correlees à la meme periode). Si lon ecrit lequation de
regression precedente comme y = X + u, la matrice de covariance du vecteur u secrit:
u1 u1
E(uu ) = E ...
uN u1
...
..
.
...

u1 uN
11 IT
.. = ..
.
.

1N IT
uN uN
...
..
.
1N IT
..
...
N N IT
et nest donc ni diagonale, ni scalaire.

8.3 Lestimateur de Aitken et ses propri
et
es
Nous avons donc le modèle general:
y = X + u
avec E(u) = 0 et E(uu ) = 2 , o`
u est une matrice denie positive, supposee (temporairement) connue. Pour des raisons de commodite, nous utiliserons parfois la notation
V = 2 .
Nous allons voir quil existe une transformation lineaire du modèle, soit une application (y, X, u) (y , X , u ) telle que u verie les hypothèses du modèle de regression
classique. On peut alors appliquer la methode des moindres carres ordinaires au modèle
transforme.
Comme la matrice est symetrique, il existe une matrice orthogonale C telle que

C C = diag(1 , 2 , . . . , n ) = , o`
u les i sont les valeurs propres de . Comme est
def
denie positive, i > 0 pour tout i. Denissons alors
1/2

= diag
1
1
,...,
1
n

.
Nous avons 1/2 1/2 = I, soit aussi 1/2 C C1/2 = I, ou T T = I avec

T = 1/2 C .
Il est facile alors de montrer que T denit une transformation lineaire du modèle (et
donc en particulier des erreurs) qui permet de retrouver les hypothèses faites en regression
classique.
En premultipliant y = X + u par T , on obtient en eet y = X + u avec u = T u.
Calculons la matrice de covariance de u . On a
E(u u ) = E(T uu T ) = T E(uu )T = 2 (T T ) = 2 I
Notons enn que 1 = T T . On obtient, en eet, en premultipliant legalite T T = I

par T 1 et en la postmultipliant par (T )1 :
= T 1 (T )1

1
soit 1 = T 1 (T )1
= T T
113
Si lon applique la methode des moindres carres ordinaires au modèle transforme T y =

T X + T u, on obtient:
mcg
(X T T X)1 X T T y
mcg
(X 1 X)1 X 1 y
(X V 1 X)1 X V 1 y
soit aussi:
et lon a:
= E( )( ) = 2 (X T T X)1 = 2 (X 1 X)1
V ()
Un estimateur sans biais de 2 est obtenu comme auparavant par:

s2
1
nk
u
u
1
nk
(y X mcg ) (y X mcg )
1
nk
(y X mcg ) T T (y X mcg )
1
nk
(y X mcg ) 1 (y X mcg ) .
Passons maintenant au problème de letude des proprietes de mco = (X X)1 X y

lorsque E(u) = 0 et E(uu ) = 2 . Cet estimateur sera toujours sans biais (la demonstration est exactement la meme que precedemment). Mais il ne sera pas ecace. En eet,
puisque le modèle y = X + u satisfait les hypothèses du modèle de regression classique, le theorème de Gauss-Markov lui est applicable; lestimateur mcg est donc, pour ce
modèle, le plus ecace des estimateurs lineaires sans biais. Or, mcg = mco si = I.
Il y a plus grave. Lorsque = I, nous allons montrer que V (mco ) = 2 (X X)1 . La
formule classique nest donc plus applicable. En eet, nous avons
V (mco )
E(mco )(mco )

E (X X)1 X uu X(X X)1
2 (X X)1 X X(X X)1
=
2 (X X)1

ETRIE
114
8.4 La pr
evision dans le mod`
ele de Aitken
Nous avons donc le modèle y = X + u, avec E(u) = 0 et E(uu ) = 2 = V . Nous
voulons predire une valeur future y de la variable dependante, conditionnellement a` un
vecteur futur dobservations sur les k variables explicatives. Si le modèle reste inchange et
si u est lerreur future, nous pouvons ecrire:
y
x + u
avec E(u )
0,
E(u2 ) = 2
et E(u u) = w
(w est un vecteur colonne de taille n).

La connaissance du vecteur w des covariances entre lerreur future et les erreurs de
lechantillon va nous permettre de denir un previseur de y plus ecace que la valeur
calculee x mcg . En eet, la connaissance de ces covariances et lestimation des erreurs de
lechantillon a` laide des residus permet souvent de faire une inference statistique portant
sur lerreur future u . Les resultats de cette section sont dus à A. Goldberger, Best linear
unbiased prediction in the generalized linear regression model, Journal of the American
Statistical Association 57 (1962), pp. 369375.
Nous voulons trouver un previseur lineaire de la forme p = c y, o`
u le vecteur c doit etre
2
2
choisi de facon à minimiser la variance p = E(y p) , sous la contrainte que E(y p) = 0.
Comme y p = (x c X) (c u u ), cette contrainte secrit sous forme vectorielle
comme x = c X. Nous avons donc un système de k contraintes. Quant a` la variance a`
minimiser, elle peut secrire:
p2
E(y p)2
E(y p)(y p)
E(c u u )(c u u )
E(c uu c + u2 2c uu )
c V c + 2 2c w.
puisque p
est un scalaire
puisque x c X = 0
Le Lagrangien peut secrire:

L(c, ) = c V c 2c w 2(c X x )
115
et le système de conditions de premier ordre:

L
= 2V c 2X 2w = 0 .
c
L
= 2X c + 2x = 0
secrit sous forme matricielle comme:
V
X
X
En utilisant la formule dinversion en forme partagee, la solution de ce système peut

secrire:

V 1 I X(X V 1 X)1 X V 1
(X V
X)
XV
V 1 X(X V 1 X)1
(X V
X)
ou, en eectuant le produit:

c

V 1 I X(X V 1 X)1 X V 1 w + V 1 X(X V 1 X)1 x
et
c y
w V 1 y + x (X V 1 X)1 X V 1 y w V 1 X(X V 1 X)1 X V 1 y
mcg
x mcg + w V 1 u
avec
u
mcg = y X mcg
On sapercoit donc que le meilleur previseur lineaire sans biais sobtient en ajoutant a` la
mcg , qui depend notamment du vecteur
valeur calculee x mcg un terme correcteur w V 1 u
w des covariances entre les erreurs passees et lerreur future, et du vecteur de residus umcg .

ETRIE
116
An de trouver le gain decacite entrane par ladjonction de ce terme correcteur, nous

substituons lexpression precedemment obtenue pour c dans la formule p2 = 2 2c w +
c V c. On a:
c = Mw + P Q1 x
avec:
P = X V 1
Q = X V 1 X
M = (V 1 P Q1 P ).
On verie par ailleurs par simple multiplication que:

Q1 P V P
Q1 P V M
M V M
Alors:
c V c
w M V Mw + w M V P Q1 x + x Q1 P V Mw + x Q1 P V P Q1 x
w Mw + x Q1 x
De meme:
c w = w Mw + x Q1 P w
et donc, en substituant plus haut:

p2 = 2 w Mw + x Q1 x 2x Q1 P w
Soit maintenant p = x mcg . On verie aisement que p = c y avec c = P Q1 x . En

remplacant c par c dans la formule de p2 , il vient:
p2
2 2
c w + c V c
2 2x Q1 P w + x Q1 P V P Q1 x
2 2x Q1 P w + x Q1 x
p2 + w Mw
117
Nous allons montrer que la matrice M est denie non negative . Comme V 1 est denie
positive, il existe une matrice B regulière telle que V 1 = B B (voir 3.1.3). Nous pouvons
alors ecrire:
V 1 P Q1 P
V 1 V 1 X(X V 1 X)1 X V 1

B I BX(X B BX)1 X B B
B NB
def
On verie par simple multiplication que N est symetrique et idempotente. Elle est alors
denie non negative, puisque ses valeurs propres sont 0 ou 1. Alors M = B NB est denie
non negative . Par consequent, w Mw 0, et p2 p2.
118

ETRIE
CHAPITRE IX
EROSC
LAUTOCORRELATION
ET LHET
EDASTICIT
E
9.1 Erreurs autor

egressives dordre un
Cette hypothèse a ete introduite pour remedier au problème suivant. Il arrive frequemment, dans les series chronologiques, que les residus presentent une allure cyclique: soit
un residu positif tend a` etre suivi par un residu positif, et un residu negatif par un residu
negatif; soit les signes des residus successifs alternent. Le premier cas correspond à une
autocorrelation positive des erreurs; le second cas, à une autocorrelation negative.
Dans un modèle de consommation par exemple, la presence dune autocorrelation positive des erreurs pourrait traduire une certaine inertie du comportement des agents: une
consommation superieure à la normale aurait tendance a` se poursuivre durant plusieurs periodes successives. La presence dune autocorrelation negative pourrait traduire un phenomène oscillatoire, lindividu compensant par une consommation moindre a` la periode t un
excès de consommation à la periode t 1.
Dans un cas comme dans lautre, lhypothèse de non correlation des erreurs est violee.
Il faut alors appliquer la methode de Aitken. Mais il est necessaire pour cela de decrire
formellement cette dependance des erreurs, cest-à-dire de postuler une forme explicite de
la matrice de covariance des erreurs. On fait donc les hypothèses suivantes:
ut
ut1 + t ,
avec:
||
<
E(t )
E(t s )
2
(t = s)
(t = s) .
pour tout t,
Lerreur ut possède donc une composante systematique ut1 et une composante purement aleatoire t .
SECONDE PARTIE, CHAPITRE IX
119
9.2 La matrice de covariance des erreurs
On la calcule facilement en resolvant lequation de recurrence ut = ut1 + t . Comme

ut1 = ut2 + t1 , on obtient:
ut
(ut2 + t1 ) + t
2 ut2 + t1 + t
2 (ut3 + t2 ) + t1 + t
3 ut3 + 2 t2 + t1 + t
soit, en remontant indeniment dans le temps:
ut =
i ti
i=0
ce qui implique:
E(ut )
i E(ti )
i=0
E(u2t )
E(2t ) + 2 E(2t1 ) + 4 E(2t2 ) + . . .
2 (1 + 2 + 4 + . . . )
2
1 2
De meme:
E(ut ut1 )
E(ut1 (ut1 + t ))
E(u2t1 ) =
2
= u2
1 2

ETRIE
120
E(ut ut2 )
E(ut uts )
E(ut2 (2 ut2 + t1 + t ))
2 E(u2t2 ) = 2 u2
s u2
Nous avons donc etabli que
...
...
..
.
..
.
..
.
n2
...

2
2
E(uu ) = u = u
...
n1
n1
n2
..
.
9.3 Transformation des donn

ees ( connu)
Si le coecient dautoregression est connu, la methode de Aitken appliquee au modèle y = X + u fournit le meilleur estimateur lineaire sans biais de , qui est mcg =
(X 1 X)1 X 1 y. Calculons linverse de la matrice .
On verie par simple multiplication que:
1 + 2
=
..
1 2
...
.
0
0
...
...
1 + 2
...
..
.
..
..
.
...
1 + 2
...
..
.
Comme nous lavons vu plus haut, il est avantageux de calculer mcg de la facon suivante:
On trouve dabord une matrice T telle que 1 = T T ; on applique ensuite les moindres
carres ordinaires a` lequation T y = T X + T u. On verie egalement par multiplication
que T est donnee par:
T =#
1 2
1 2
...
...
...
0
..
.
..
.
..
.
..
..
.
...
...
121
..
Nous pouvons laisser tomber le facteur multiplicatif qui se simplie, apparaissant a`

gauche et à droite dans lequation transformee. Nous pouvons donc retenir comme formule
de transformation dune colonne z de la matrice des donnees [y X] la règle suivante:
#
( 1 2 )z1
z2 z1
z = z3 z2
..
zn zn1
et appliquer les moindres carres ordinaires aux donnees transformees.
9.4 Estimation du coecient dautor
egression
9.4.1 M
ethode de Cochrane-Orcutt.
Cette methode est la plus employee. On commence par appliquer les moindres carres
ordinaires pour obtenir un vecteur u
de residus, soit u
= [I X(X X)1 X ]y. On obtient
t1 . Ceci donne:
ensuite en regressant u
t sur u
n
u
t u
t1
= t=2
n
2t1
t=2 u
On applique alors la formule des moindres carres generalises en remplacant par dans
lexpression de la matrice . Soit donc:
122

ETRIE
...
n2
...
n3
..
.
..
..
.
n3
...
n2
...
= ...
n2
n1
n1
n2
..
.
1 X)1 X
1 y. Ceci fournit un nouveau vecteur de residus u
=
On calcule = (X
y X . Ce nouveau vecteur peut servir a` calculer une nouvelle estimation de , soit .
Cette dernière peut servir à calculer une troisième estimation de , et ainsi de suite. On
peut poursuivre cette procedure jusquà la convergence des estimations de .
9.4.2 M
ethode de Durbin.
Reecrivons lequation de regression sous la forme suivante:
yt =
k
j Xjt + ut
j=1
En retardant dune periode et en multipliant par :

yt1 =
k
(j )Xjt1 + ut1
j=1
En soustrayant cette equation de la première, on obtient, puisque ut ut1 = t :

yt = yt1 +
k

j=1
k

j Xjt
(j )Xjt1 + t
j=1
qui est une equation de regression comportant 2k + 1 regresseurs. Comme les t verient
les hypothèses du modèle de regression classique, on applique la methode des moindres carres ordinaires pour estimer . (Son estimateur est celui du coecient de yt1 ). Comme yt1
est un regresseur stochastique (il depend de t1 ), nous verrons plus loin que lestimateur
ainsi obtenu nest pas sans biais.
On remplace alors, comme precedemment, par dans lexpression de , et applique
la formule des moindres carres generalises.
Notons que lestimateur = (X 1 X)1 X 1 y sappelle parfois lestimateur Aitken
1 X)1 X
1 y sappelle alors lestimateur Aitken-realisable.
pur ; = (X
123
9.5 La statistique de Durbin-Watson

Elle permet de tester lhypothèse nulle que = 0, contre les hypothèses alternatives
= 0, ou > 0, ou < 0. Sa distribution na pas pu etre determinee independamment
de la forme de la matrice X. Il existe donc une zone de valeurs de cette statistique pour
lesquelles on ne pourra rejeter ni lhypothèse nulle, ni lhypothèse alternative.
La statistique de Durbin-Watson est denie comme:
n
(
ut u
t1 )2
t=2
n
2t
t=1 u
dobs =
o`
u les ut sont les residus des moindres carres ordinaires.
Nous allons etudier ses proprietes lorsque n tend vers linni.
Plus precisement, nous montrerons que si n est susamment grand dobs est approximativement egale à 2 lorsque = 0; a` 0 lorsque = 1; et a` 4 lorsque = 1. En eet,
n
dobs
2t +
t=2 u
puisque:
n
2 2
t=2 u
nt1 2
t
t=1 u
n
t ut1
t=2 u
n
2t 2 t=2 u
t u
t1
t=2 u
n
,
2
t
t=2 u
n
n

t=2
n

t=1
u
2t
u
2t
n

t=2
n
u
2t1
u2t
t=2
n
1
2t tend vers
Il est raisonnable de supposer que lorsque n tend vers linni, n1
t=2 u

n
1
t u
t1 tend vers Cov(ut , ut1 ) = u2 . On a alors, en divisant numerateur
u2 et n1
t=2 u
et denominateur par n 1:
dobs
2u2 2u2
= 2(1 )
u2
ce quil fallait montrer.

Les valeurs de dobs qui sont proches de 2, nous conduisent donc a` ne pas rejeter = 0;
celles qui sont proches de 0, à rejeter = 0 en faveur de > 0; celles qui sont proches de 4,
à rejeter = 0 en faveur de < 0. La table des valeurs critiques fournit deux valeurs, dU
et dL , pour chaque combinaison de nombres dobservations (n) et de nombres de variables
explicatives (k = k 1). La zone dL < dobs < dU est une zone dincertitude, de meme que
la zone 4 dU < dobs < 4 dL . Pour ces valeurs de dobs , on ne pourra rejeter ni = 0, ni
= 0.

ETRIE
124
Les règles de decision sont resumees dans le tableau suivant (lhypothèse nulle est toujours H0 : = 0):
H1
dL d < dU
d < dL
> 0 Rejeter H0
<0
dU d < 4 dU
Incertain
4 dU d < 4 dL 4 dL d
Ne pas rejeter H0
Ne pas rejeter H0
= 0 Rejeter H0
Incertain
Ne pas rejeter H0
Incertain
Rejeter H0
Incertain
Rejeter H0
Note importante: Le test de Durbin-Watson ne peut pas etre employe lorsque les
regresseurs incluent des variables endogènes retardees.
9.6 La pr
evision dans le mod`
ele `
a erreurs autor
egressives
Nous avons vu a` la Section 8.4 que le meilleur previseur lineaire sans biais dune valeur
, avec w = E(u u), V =
future y de la variable dependante etait p = x mcg + w V 1 u

E(uu ) et u
= y X mcg . Nous allons illustrer cette règle de prevision dans le modèle à
erreurs autoregressives dordre un, en supposant = n + 1. Le vecteur w prend la forme:
E(u1 un+1)
n1
.
.
..
..
E(u2 un+1)
2
2
= u = u
w=
..
2
.
E(un un+1)
Mais u2 [n1 . . . 1] est la
2 n1
u [
. . . 1] V 1 = [0 . . . 0 1]
=
un . La
consequent, w V 1 u
dernière ligne de V . Comme V V 1 = I , nous avons:

et donc: w V 1 = u2 [n1 . . . 1]V 1 = [0 . . . 0 1]. Par
formule precedente secrit alors:
un
p = xn+1 mcg +
Linterpretation de cette formule est immediate. On ajoute a` la valeur calculee xn+1 mcg
un terme correcteur qui aura le signe du dernier residu de lechantillon si le coecient de
correlation entre deux erreurs successives est positif, le signe contraire sinon.
125
9.7 Le probl`
eme de lh
et
erosc
edasticit
e
Nous avons dejà rencontre ce problème à la section 8.2.1. Lorsquil se rencontre sous
cette forme, il est très facile à traiter: la matrice E(uu ) est en eet connue, egale à
2 diag(k1 , . . . , kn ) o`
u les ki sont des constantes positives connues.
La matrice de transformation a` utiliser est alors bien entendu diag ( 1k , . . . , 1k ): Il
1
n
sut de multiplier les k + 1 donnees correspondant à la t-ième observation par 1k pour
t
retrouver une matrice de covariance scalaire.
Il existe bien s
ur dautres formes dheteroscedasticite. Il peut etre raisonnable de supposer que la variance des erreurs augmente avec la valeur absolue de lun des regresseurs, soit,
par exemple, que E(u2t ) = 2 Xt2 . Il sut alors de multiplier les donnees correspondant à
la t-ième observation par 1 2 .
Xt
Plus generalement, nous allons voir quune heteroscedasticite des erreurs peut etre induite par des variations aleatoires des coecients de regression, en illustrant cette situation
à laide dun exemple simple. Soit donc le modèle:
yt = a + bxt + ut
et supposons que b = b + t , o`
u b est constant en probabilite et o`
u t est une erreur
2
aleatoire avec E(t ) = 0, V (t ) = , E(t s ) = 0 pour t = s, et E(ut t ) = 0. On peut
alors ecrire:
yt = a + (b + t )xt + ut
= a + b xt + (ut + t xt )
= a + b xt + vt
avec vt = ut + t xt . On a E(vt ) = 0, E(vt vs ) = 0 pour t = s, mais:
E(vt2 ) = E(u2t ) + x2t E(2t )
= u2 + x2t 2
depend de lindice t.
Une solution possible, en grand echantillon, est de poser:
vt2 = + x2t + t
o`
u vt est un residu de la regression de yt sur xt par moindres carres ordinaires. On estime
2 . On utilise ensuite les moindres
+ x
et par MCO et on estime t2 = E(vt2 ) par
t
carres ponderes pour estimer a et b .
126

ETRIE
9.8 Les tests de diagnostic

9.8.1 Analyse des autocorr
elations.
On denit les coecients dautocorrelation empiriques des residus u
t des moindres carres
comme:
n
u
t u
ts
n
Rs = t=s+1
.
2t
t=1 u
Linterpretation de Rs est la suivante:
n
t u
ts est une estimation de Cov(ut , uts );
n1 t=s+1 u
n
1
2
n t=1 u
t est une estimation de V (ut ), supposee egale à V (uts );
Rs est donc une estimation du coecient de correlation entre ut et uts , a` savoir:
Cov(ut , uts )
rs = #
.
V (ut )V (uts )
Letude du comportement des coecients dautocorrelation permet par exemple de distinguer un processus autoregressif (AR) dun processus dit `
a moyenne mobile (MA).
Pour le processus autoregressif dordre un:
ut = ut1 + t ,
on a vu a` la section 9.2 que:
V (ut ) = V (uts ) = u2
Cov(ut , uts ) = s u2 ,
et donc:
Cov(ut , uts )
= s .
rs = #
V (ut )V (uts )
Le coecient dautocorrelation theorique decrot donc geometriquement avec s. Un tel
comportement de la fonction dautocorrelation empirique Rs est donc indicatif derreurs
autoregressives.
Pour un processus a` moyenne mobile dordre un:
ut = t + t1
o`
u les t sont des erreurs fondamentales avec E(t ) = 0 pour tout t, E(2t ) = 2 pour tout
t, et E(t ts ) = 0 pour s > 0, on a:
E(ut ut1 ) = E(t + t1 )(t1 + t2 )
= E(t t1 ) + E(t t2 ) + E(2t1 ) + 2 E(t1 t2 )
= 2
127
et, comme on le verie aisement:

E(ut uts ) = 0
pour s > 1.
Par consequent:
Cov(ut , uts )
=
si s = 1;
rs = #
1 + 2
V (ut )V (uts )
= 0 si s > 1.
Ces observations peuvent etre generalisees à des processus dordre superieur au premier.
Plus generalement, un comportement du type:
Rs = 0
pour 1 s
Rs 0
pour s >
sera indicatif derreurs a` moyenne mobile; tandis que la convergence vers zero sera graduelle
pour un processus autoregressif.
9.8.2 Le test de Breusch-Godfrey (autocorr
elation).
Ce test permet, lorsque les erreurs sont autoregressives dordre p:
ut = 1 ut1 + 2 ut2 + + p utp + t
de tester lhypothèse:
H0 : 1 = 2 = = p = 0
contre:
H1 : (1 , 2 , . . . , p ) = (0, 0, . . . , 0).
Contrairement au test de Durbin-Watson, le test de Breusch-Godfrey peut etre employe
lorsque lequation de regression contient des variables endogènes retardees (yt1 , yt2 , . . . )
comme variables explicatives.
La statistique est obtenue en appliquant le principe des multiplicateurs de Lagrange
(critère LM) dans le contexte du maximum de vraisemblance pour un modèle à erreurs
autoregressives.
On a montre, à laide detudes de simulation, que ce test est egalement capable de
deceler des erreurs à moyenne mobile. Il peut donc etre considere comme un test general
de misspecication dynamique, ce qui le rend très utile.
Nous ne verrons la derivation formelle de la statistique que dans un cas simple, au
chapitre XIV. Cette statistique est facile à interpreter intuitivement: on peut montrer que
128

ETRIE
cette statistique est identique à la statistique LM utilisee pour tester la nullite jointe des
i dans lequation de regression auxiliaire:
yt = 1 + 2 xt2 + + k xtk + 1 u
t1 + + pu
tp + t
o`
u les u
ts sont les residus de la regression de yt sur (1, xt2 , . . . , xtk ) par MCO. Cette
statistique a ete vue à la section 7.5.
Si H0 est vraie, on peut montrer que la distribution limite (lorsque n ) de cette
statistique est une 2p . Cette distribution limite a neanmoins tendance a` sous-estimer les
valeurs critiques de petit echantillon (ceci a ete montre à laide detudes de simulation).
Pour cette raison, on utilise souvent une version F de la statistique (test F de H0 : 1 =
= p = 0 dans lequation auxiliaire). Les etudes de simulation ont montre que ceci est
preferable lorsque la taille de lechantillon est faible.
9.8.3 Le test de Koenker (h
et
erosc
edasticit
e).
Rappelons qu`
a la section 9.7, nous avions vu que des variations aleatoires dun coecient de regression pouvaient se traduire par une heteroscedasticite du type:
V (ut ) = + x2t
o`
u xt est une variable explicative du modèle estime.
Si de telles variations aleatoires portent sur plusieurs coecients dun modèle de regression multiple, ceci conduit naturellement a` lhypothèse:
V (ut ) = + 1 x2t1 + + p x2tp
ou meme, plus generalement:
V (ut ) = + (1 xt1 + + p xtp )2 .
En pratique, un test acceptable est obtenu en remplacant (1 xt1 + + p xtp )2 par
u yt est la valeur calculee en appliquant les MCO à lequation pour laquelle on veut
yt2 , o`
tester lheteroscedasticite des erreurs. On peut donc utiliser un test F de H0 : = 0 dans
lequation de regression auxiliaire:
u
2t = + yt2 + t .
Cette statistique est basee sur des critères heuristiques, et nest pas necessairement la
meilleure.
129
9.8.4 Le test de Bera-Jarque (normalit

e).
Pour une variable normale Y N (0, 1), il est facile de montrer a` laide de la fonction
generatrice des moments que:
E(Y 3 ) = 0 et
E(Y 4 ) = 3.
Si X N (, 2 ), Y = (X )/ N (0, 1), et donc:

E(X E(X))3
= 0,
3
E(X E(X))4
= 3.
4
La variance 2 peut etre estimee par:
n
m2 =
1
(xt x)2 .
n t=1
De manière analogue, E(X E(X))3 peut etre estime par:

n
1
(xt x)3 ,
m3 =
n t=1
et E(X E(X))4 peut etre estime par:
n
1
(xt x)4 .
m4 =
n t=1
Une deviation de la normalite sera donc indiquee par:
m3
= 0 et
(m2 )3/2
m4
= 3.
(m2 )2
Bera et Jarque ont montre que sous lhypothèse de normalite, la statistique:

2

2
1
1
m3
m4
+
3
n
6 (m2 )3/2
24 (m2 )2
a une distribution limite 2 avec 2 degres de liberte lorsque n .
Nous verrons au chapitre XI que meme si les erreurs ne sont pas normales, tous les tests
vus precedemment restent approximativement valables (lapproximation est bonne si n est
grand). Donc une violation de la normalite a moins dimportance quune violation de la
sphericite (à savoir une autocorrelation et/ou une heteroscedasticite) qui indique, elle, une
mauvaise formulation du modèle.

ETRIE
130
9.9 Exemple num

erique
Nous voulons trouver les meilleures estimations lineaires sans biais de a et de b dans le
modèle:
yt = a + bxt + ut
E(t ) = 0,
avec ut = 0.6 ut1 + t
V (t ) = 2 ,
E(t s ) = 0
(t = s)
sur la base des donnees suivantes:

yt
8
12
14
15
15
18
xt
3
6
10
12
14
15
On demande en plus la meilleure estimation lineaire sans biais de y7 = a + 20b + u7 .

La matrice X secrit:
1 6
1
10
1 12
1 14
1 15
Nous transformons le vecteur y et les deux colonnes de cette matrice selon la règle
enoncee à la section 9.3. Ceci donne, puisque = 0.6:
0.8
0.4
0.4
X =
0.4
0.4
0.4
On verie que:
2.4
4.2
6.4
6.0
6.8
(X ) X =
7.2
6.8
et y =
6.6
6.0
6.6
6.4
131
9.0
1.44
13.92
13.92 190.16
19.36
(X ) y =
228.92
1
et mcg = ( (X ) X ) (X ) y =
6.1817
0.7513
Calculons maintenant le previseur de y7 si x7 = [1 20]. On a:
x7 mcg = 6.1817 + (20)(0.7513) = 21.208 .
Comme u6 = 18 6.1817 (15)(0.7513) = 0.5485, ceci donne:
p = 21.208 + (0.6)(0.5485) = 21.537.
9.10 Introduction aux m
ethodes semi-param
etriques
Nous avons vu que si E(uu ) = V = 2 I, la matrice de covariance de lestimateur de
par moindres carres ordinaires est egale à:
V (mco ) = (X X)1 (X V X)(X X)1 .
Il est possible dutiliser cette information pour estimer les variances exactes des elements
de mco lorsque V = 2 I. Ceci donne:
(1) dans le cas de lheteroscedasticite seule: lestimateur de White ( White heteroscetasticity consistent covariance matrix estimator)
(2) dans le cas general o`
u lon peut avoir heteroscedasticite et autocorrelation: lestimateur de Newey-West (Newey-West heteroscedasticity and autocorrelation consistent covariance matrix estimator)
132

ETRIE
Dans le premier cas, on estime V par:

u
2
1
0
V =
..
.
0
0
u22
..
.
...
...
..
.
0
0
..
.
...
u
2n
Dans le second cas, on estime directement X V X (et non pas V ) par une methode spectrale. Pour une introduction, voir Hamilton, Time-Series Analysis, chapitre 10. La methode
necessite le choix dune fonction de ponderation (kernel function) et dun paramètre de
troncation (window width).
En pratique ces methodes ne donnent de bons resultats que lorsque la taille de lechantillon est assez grande. Par ailleurs lestimateur mco reste inecace.
SECONDE PARTIE, CHAPITRE X
133
CHAPITRE X.
EMENTS
EL
DE THEORIE
STATISTIQUE ASYMPTOTIQUE
10.1 Introduction
Les proprietes des estimateurs que nous avons rencontres lors de letude des moindres
carres ordinaires et lors de celle des moindres carres generalises si E(uu ) est une matrice
connue etaient toutes valables quelle que soit la taille n de lechantillon. Sous lhypothèse
de normalite des erreurs, nous avons pu determiner leur distribution de facon exacte,
en fonction de n. Mais ces distributions exactes prennent vite une forme très complexe
lorsque la methode destimation devient plus elaboree, comme cest le cas pour la methode
Aitken-realisable. Leur etude necessite des outils theoriques que nous ne pouvons passer en
revue ici; lapplication empirique de ces resultats dits de petit echantillon fait appel a` des
techniques numeriques co
uteuses et complexes; de plus, les moments de ces distributions
de petit echantillon nexistent pas toujours!
Fort heureusement, la situation devient souvent beaucoup plus simple a` la limite, lorsque
la taille de lechantillon tend vers linni. Cest ainsi que nous pourrons montrer que lorsque
la taille de lechantillon tend vers linni, la distribution de lestimateur Aitken-realisable
tend vers une loi normale. Nous pourrons alors nous baser sur cette loi pour eectuer des
tests approximatifs, dits tests asymptotiques.
La theorie que nous allons exposer dans ce chapitre sera aussi utilisee pour etudier
certains estimateurs proposes lorsque les regresseurs sont stochastiques, notamment dans
le cadre des modèles dynamiques et dans celui des systèmes dequations simultanees.
Elle peut aussi etre employee pour faire des tests dhypothèses dans un modèle de
regression lineaire dont les erreurs ne sont pas distribuees normalement, et pour lequel les
hypothèses du chapitre VII de cette seconde partie ne sont par consequent pas veriees.
e
Soit (Xn ) une suite de variables aleatoires. Cette suite converge en probabilite vers un
nombre a si et seulement si:
lim P [| Xn a |> ] = 0
pour tout
> 0,
aussi petit soit-il.

ETRIE
134
On ecrira alors:
plim Xn = a,
Xn a
ou
.
Lorsque cette propriete est veriee, les densites des Xn tendent vers une densite dont
toute la masse est concentree au point a (distribution degeneree).
Lorsque a est un paramètre inconnu et Xn un estimateur de a, lestimateur est dit
convergent si plimn Xn = a .
Si Xn est non aleatoire, la limite en probabilite se reduit a` une limite habituelle.
10.3 In
egalit
e de Chebychev
Enonc
e.
Soit X une variable aleatoire continue avec E(X) = et V (X) = 2 < . Pour tout
nombre reel > 0 , X verie linegalite suivante, dite inegalite de Chebychev:
P [|X | > ]
2
.
2
D
emonstration
Si X est une variable continue de densite fX (x), on a par denition de sa variance:
%
2
%R
(x )2 fX (x)dx
(x ) fX (x)dx +
2
=
{x:|x|>}
{x:|x|>}
{x:|x|}
(x )2 fX (x)dx
(x )2 fX (x)dx
2
{x:|x|>}
fX (x)dx = 2 P [|X | > ]
10.4 Loi faible des grands nombres

Enonc
e. Soit (Yn ) une suite de variables aleatoires avec E(Yn ) = et limn V (Yn ) =
0. Alors plim Yn = .
D
emonstration Par linegalite de Chebychev, on a, pour tout n et tout > 0:
P [|Yn | > ]
V (Yn )
.
2
135
Si V (Yn ) 0, ceci implique:

lim P [|Yn | > ] lim
V (Yn )
= 0.
2
Comme une probabilite ne peut pas etre strictement negative, la limite de la probabilite
est nulle, ce qui implique le resultat.
Corollaire (g
en
eralisation). Soit (Xn ) une suite de variables aleatoires. Si:
lim E(Xn ) = et
lim V (Xn ) = 0,
alors plim Xn = .
Il sut en eet de poser Yn = Xn E(Xn ) et dappliquer le resultat precedent.
Application: Supposons que X1 , X2 , . . . , Xn soient independamment et identiquement
2
distribu
n ees avec E(Xi ) = , V (Xi ) = et considerons la moyenne dechantillon Xn =
1
i=1 Xi . On a E(Xn ) = et limn V (Xn ) = 0, donc plimn Xn = .

n
10.5 Convergence en distribution

Soit (Xn ) une suite de variables aleatoires, et soit (FXn ) la suite de leurs fonctions
de distribution. La suite (Xn ) converge en distribution vers la variable aleatoire X , de
distribution FX , si et seulement si:
lim FXn (x) = FX (x)
chaque fois que FX est continue en x. On ecrira alors:

dlim Xn = X ,
ou
Xn X .
d
Ce type de convergence est plus faible que le precedent. Sa principale application est le
theorème central limite, que nous verrons plus loin.
n de n observations Xi independantes, despeComme exemple, prenons la moyenne X
n =
rances nulleset de variances unitaires. La loi faible des grands nombres implique plim X
n ne converge pas en probabilite, mais bien en distribution; on verra par
0. La suite nX
la suite que la distribution limite est normale.
Les moments de la distribution limite FX sappellent moments asymptotiques de Xn .
On parle en particulier de lesperance asymptotique dun estimateur, ou de sa variance
asymptotique; on peut parler de meme dun estimateur asymptotiquement sans biais, ou
asymptotiquement ecace. Il est très important de noter que ces moments asymptotiques
136

ETRIE
ne sont pas denis comme les limites des moments des distributions FXn , mais bien comme
les moments de la distribution limite FX ! Ceci pour deux raisons: les moments des FXn
peuvent ne pas exister; et les FXn peuvent ne pas etre entièrement caracterisees par leurs
moments. Nous pouvons illustrer la première raison en mentionnant que la variance dune
variable Student a` un degre de liberte nexiste pas; la seconde en mentionnant que la
distribution lognormale (distribution de Y = eX avec X N (, 2 )) nest pas entièrement
caracterisee par ses moments.
Exercice: Soit n = 10000 et m = 1000. Supposons que lon ait engendre par simulation nm
observations independantes xij de distribution uniforme sur lintervalle [1, 1],
pour i =
n
1, . . . , n et j = 1, . . . , m. On calcule, pour j = 1, . . . , m, les moyennes x
j = n1 i=1 xij .
xj ?
A quoi ressemblera lhistogramme des xj ? A quoi ressemblera lhistogramme des n
10.6 Propri
et
es des modes de convergence
10.6.1 Relation entre limite en probabilit
e et limite en distribution.
Enonc
e. Soit (Xn , Yn ) une suite de paires de variables aleatoires. Si plim(Xn Yn) = 0
et dlim Yn = Y , alors dlim Xn = Y .
Cette propriete possède une reciproque partielle. Si dlim Xn = a et dlim Yn = a, avec a
constante, alors plim(Xn Yn ) = 0. Cette reciproque est intuitivement evidente puisquune
constante a une distribution degeneree.
Mentionnons quune meme distribution limite de Xn et de Yn nimplique pas que
plim(Xn Yn ) = 0, lorsque cette distribution limite nest pas degeneree. En eet, si
les Xn et les Yn possèdent une distribution commune normale reduite, et que Xn est independante de Yn pour tout n, on a FXn Yn = N (0, 2) pour tout n. Par consequent,
dlim(Xn Yn ) N (0, 2). Mais ceci nimplique nullement que plim(Xn Yn ) = 0, puisque
pour tout > 0, et pour tout n, P [| Xn Yn | > ] = 0.
10.6.2 Th
eor`
eme de Slutsky.
Ce theorème etablit la preservation des limites en probabilite par les fonctions continues:
Enonc
e. Si plim Xn = a et g(Xn ) est continue en a, alors plim[g(Xn )] = g[plim(Xn )] =
g(a).
Il est important de noter que la fonction g ne peut dependre de n. Ce theorème possède
les generalisations suivantes (on denit la limite en probabilite dune matrice comme la
matrice contenant les limites en probabilite des elements):
(1) Si (An ) et (Bn ) sont deux suites de matrices conformes pour laddition, alors
plim(An + Bn ) = plim(An ) + plim(Bn ) si plim(An ), plim(Bn ) existent.
137
(2) Si (An ), (Bn ) sont deux suites de matrices conformes pour la multiplication et si
plim(An ), plim(Bn ) existent, on a: plim(An Bn ) = plim(An ) plim(Bn ) .
(3) Si (An ) est une suite de matrices regulières et si plim(An ) existe et est regulière,
1
.
alors: plim(A1
n ) = (plim An )
10.6.3 Convergence en distribution de fonctions de variables al
eatoires.
Enonc
e.
(1) Si g est continue et si dlim Xn = X, alors dlim g(Xn ) = g(X)
(2) Supposons que dlim Yn = Y et que plim Xn = a, avec a constante. Alors:
dlim(Xn + Yn ) = a + Y
dlim(Xn Yn ) = aY
dlim(
Yn
Y
)=
Xn
a
si a = 0.
Dans le cas de convergence en distribution vers une normale, on peut enoncer une generalisation multivariee de ce resultat. Nous admettrons quune suite de vecteurs aleatoires
(n)
(n)
X (n) = (X1 , . . . , Xm ) converge en distribution vers un vecteur normal multivarie X =
m
(n)
(X1 , . . . , Xm ) si toute combinaison lineaire
converge en distribution vers
i=1 i Xi
m
X
.
Supposons
alors
que
lon
ait
une
suite
de
matrices
A(n) convergeant en proi=1 i i
babilite vers A et que la suite des vecteurs X (n) converge en distribution vers un vecteur
X N (0, I). La suite A(n)X (n) converge en distribution vers un vecteur ayant la distribution N (0, AA ).
10.7 Fonction caract
eristique et convergence en distribution
Nous aurons, lorsque nous verrons le theorème central limite, à determiner la distribution
limite dune somme de variables aleatoires. Calculer la distribution dune somme X + Y ,
connaissant la distribution jointe de X et Y , est en règle generale un problème très dicile.
Le passage par les fonctions caracteristiques permet souvent de simplier les choses.
Si lon denote par i lunite imaginaire (i2 = 1), la fonction caracteristique dune
variable aleatoire X est denie comme:

X (t) = E eitX
=
E [cos(tX)] + iE [sin(tX)] ,
nombre complexe
en vertu des proprietes du
eitX .
Avant de donner un exemple de fonction caracteristique, mentionnons quatre de ses

proprietes:
(1) La fonction caracteristique dune variable aleatoire existe toujours.
En eet, cos(tX) et sin(tX) sont des fonctions periodiques, donc bornees pour toute

ETRIE
138
valeur de tX; lesperance mathematique dune fonction bornee existe toujours. Nous
ne pourrions en dire autant pour E(etX ) par exemple.
(2) La fonction caracteristique de X caracterise entièrement la distribution de X.
(3) Si X et Y sont deux variables aleatoires independantes, alors: X+Y (t) =
X (t)Y (t) .

En eet, X+Y (t) = E eit(X+Y )
= E eitX eitY

= E eitX E eitY
par lhypothèse dindependance.
Cette propriete facilite le calcul de la distribution de X + Y . Si le produit des
fonctions caracteristiques est la fonction caracteristique dune distribution connue,
cette distribution est celle de X + Y .
(4) Soit (Xn ) une suite de variables aleatoires, et soit (Xn ) la suite de leurs fonctions
caracteristiques. Supposons que:
(i) limn Xn (t) = (t)
(ii) (t) soit continue pour t = 0.
Alors (t) est une fonction caracteristique, celle de dlim Xn . Plus precisement:
a) dlim Xn = X , et

b) E eitX = (t).
Cette dernière propriete nous permettra de demontrer le theorème central limite. Mais à
titre dexemple, nous allons tout dabord calculer la fonction caracteristique dune variable
normale.

Soit donc X N (, 2 ). On a E eitX = eit E eit(X) . Pour calculer E eit(X) ,
faisons le changement de variable y = x . On a dy = dx, et donc:

it(X)
E e

=
y2
eity e 22 dy
2 2 2
1
ei t /2
2
2 2
1
et /2
2
e 22 (y
%
22 ity)
e 22 (y
dy
22 ity+i2 t2 4 )
e 22 (yit
2 2
dy
dy
139
Faisons maintenant le changement de variable v = y it 2

E eit(X)
Par consequent X (t)
t2 2 /2
. On a dv = dy, et donc:
+
v2
e 22 dv
t2 2 /2
eit et
eitt
2 /2
2 /2
10.8 Versions du th
eor`
eme central limite
10.8.1 Variables ind
ependantes, identiquement distribu
ees.
Lenonce qui va suivre porte le nom de theorème de Lindeberg-Levy. Il sapplique a` des
variables aleatoires independantes et identiquement distribuees. Il permet notamment de
traiter le problème de lapproximation dune binomiale par une normale.
Th
eor`
eme. Soit (Zi ) une suite de variables independantes et identiquement distribuees
avec E(Zi ) = et V (Zi ) = 2 . Soit:
Zi

n
1
n(Z )
Xi =
Sn =
n i=1
Xi =
On a dlim Sn N (0, 1)
D
emonstration
Puisque, en general:
eX = 1 + X +
on a, en appliquant cette formule a` Yj =
X2
X3
+
+ ...,
2
3!
X
j :
n

(it)2
E(Yj2 ) + . . . .
Yj (t) = E eitYj = 1 + itE(Yj ) +
2
Mais, puisque E(Yj ) = 0 et E(Yj2 ) =
1
,
n
ceci implique:
Yj (t) = 1 + 0 +
(it)2
+....
2n
140

ETRIE
Si n est grand, on peut negliger les termes dordre superieur a` 2, et donc:

Yj (t) 1
t2
2n
Puisque les Yj sont independantes, la fonction caracteristique de leur somme est le

produit des fonctions caracteristiques des Yj . Par consequent:
Sn (t) (1
t2 n
)
2n
pour n
grand .
Pour pouvoir appliquer la quatrième propriete des fonctions caracteristiques, nous calculons maintenant:
t2 n
) .
lim (1
n
2n
Comme:
(t2 /2) n
t2 n
(1
) = (1 +
)
2n
n
et comme:
X
lim (1 + )n = eX
n
n
on a:
2
lim Sn (t) = et /2
n
qui est continue au point t = 0. Nous reconnaissons la fonction caracteristique dune

variable N (0, 1); par consequent dlim Sn N (0, 1).
Terminons cette section en montrant que ce theorème permet dapprocher une binomiale
par une normale. Soit donc Y une variable aleatoire prenant comme valeur le nombre
de succès rencontre lors de n tirages eectues avec remise (et donc independants), la
probabilite dobtenir un
nsuccès lors de lun quelconque de ces tirages etant egale à p. Nous
pouvons ecrire: Y = i=1 Zi , o`
u Zi est une variable aleatoire prenant la valeur 1 avec
la probabilite p, la valeur 0 avec la probabilite (1 p). On verie immediatement que
E(Zi ) = p et V (Zi ) = p(1 p). Par consequent, E(Y ) = np et V (Y ) = np(1 p). Donc,
si lon denit:
Zi p
Xi = #
p(1 p)
on a:
n
1
Y np
.
Sn =
Xi = #
n i=1
np(1 p)
Le theorème central limite est applicable, et dlim Sn N (0, 1). Si n est susamment
grand, on peut alors approcher une binomiale de paramètres n et p par une normale
desperance np et de variance np(1 p).
141
10.8.2 Variables ind

ependantes, non identiquement distribu
ees.
Cette seconde version sapplique à des variables independantes, mais de distributions
non identiques. Pour illustrer son importance, rappelons que dans le modèle de regression
n
xt
x
simple yt = a + bxt + ut , nous avions demontre que b b = t=1 wt ut avec wt = (x
x)2 .
t
Lestimateur de b par moindres carres est donc, à une constante près, une somme de
variables aleatoires wt ut . Mais ces variables ne sont pas identiquement distribuees puisque
wt = ws pour t = s.
Le theorème suivant, dont on trouvera lenonce dans Judge et al., The Theory and
Practice of Econometrics, 1985, p. 156, remplace lhypothèse de distributions identiques
par une condition sur les troisièmes moments des variables. Nous nous bornerons par la
suite à faire lhypothèse que cette condition est veriee, chaque fois que nous aurons besoin
du theorème. Nous enoncerons ce theorème sous sa forme vectorielle, sans le demontrer.
Th
eor`
eme.
Soit (Zt ) une suite de vecteurs aleatoires independants avec E(Zt ) = 0, et V (Zt ) =

E(Zt Zt ) = t . Supposons que les deux conditions suivantes soient veriees:
n
(1) limn n1 t=1 t = , avec denie positive
(2) E(Zit Zjt Zkt ) < pour tout i, j, k, t.
Alors, si Sn =
1
n
n
t=1 Zt ,
on a dlim Sn N (0, ).
Exercice. Pour le modèle de regression simple yt = a + bxt + ut sous les hypothèses
du chapitre I de la seconde partie, trouvez la distribution limite de n(b b), o`

u b est
lestimateur de b par moindres carres ordinaires. Comment interpreter ce resultat?
10.8.3 Di
erences de martingales.
Lorsque nous etudierons les modèles dynamiques, nous aurons
a`nexaminer la convergence
1
u les vecteurs Zt
en distribution de suites de vecteurs aleatoires de la forme n t=1 Zt , o`
sont dependants entre eux. Nous devrons alors utiliser une generalisation des theorèmes
precedents. Une telle generalisation existe dans le cas o`
u la dependance prend une forme
particulière, celle des dierences de martingales.
D
enition:
eatoires, ou de vecteurs aleatoires, est une dierence de
Une suite (Zt )
t=1 de variables al
martingale si:
E(Zt ) = 0 pour tout t;
E(Zt | Zt1 , Zt2 , . . . , Z1 ) = 0
pour tout t.
142

ETRIE
Exemple:
Dans le cadre des modèles à variables endogènes retardees, nous rencontrerons des suites
u les ut sont independantes, desperance nulle, et identique(Zt ) de la forme Zt = ut ut1 , o`
ment distribuees. Il est facile de verier que les Zt forment une dierence de martingale:
E(Zt ) = E(ut ut1 ) = E(ut )E(ut1 ) = 0
E(Zt | Zt1 , . . . , Z1 ) = E(Zt | Zt1 )
= E(ut ut1 | ut1 ut2 )
= Eut1 E(ut ut1 | ut1 ut2 , ut1 )
= Eut1 E(ut ut1 | ut1 , ut2 )
= Eut1 ut1 E(ut | ut1 , ut2 ) = 0
La troisième egalite resulte de la loi des esperances iterees, et la quatrième vient du fait
que la connaissance de ut1 ut2 et de ut1 est equivalente a` celle de ut1 et de ut2 , sauf
si ut1 = 0; mais si ut1 = 0, lesperance est nulle et legalite est donc veriee.
Le theorème suivant est enonce dans Hamilton, Time-Series Analysis, 1994, p. 194. Il
suppose lexistence des quatre (et non plus trois) premiers moments.
Th
eor`
eme.
Soit (Zt ) une dierence de martingale. Si:
(1)
Les matrices de covariance V (Zt ) sont denies positives;

n
(2)
1
V (Zt ) = ,
lim
n n
t=1
une matrice denie positive;
(3)
E(Zit Zjt Zlt Zmt ) < pour tout t,i,j,l,m;
(4)
1
Zt Zt
p
n t=1
n
alors:
1
dlim
Zt N (0, )
n t=1
u les ut sont independantes, desperances

Exercice: On pose le modèle yt = byt1 + ut o`
2

, montrez que la
nulles, et identiquement distribuees. Si b = 0 et si b = t yt1 yt / t yt1

distribution limite de nb est normale reduite.
143
10.9 LIn
egalit
e de Rao-Cramer
Commencons par fournir le l directeur de cette section et de la suivante. Linegalite
de Rao-Cramer, que nous demontrerons, fournit une borne inferieure de la variance dun
estimateur sans biais. Une generalisation vectorielle de cette inegalite mène à la matrice
dinformation, dont linverse est la matrice de covariance asymptotique du vecteur des
estimateurs par maximum de vraisemblance. Cette matrice permet alors deectuer des
tests asymptotiques meme lorsque lon ne connat pas la distribution de petit echantillon
des estimateurs de maximum de vraisemblance, comme cest le cas dans beaucoup de
modèles non lineaires. La matrice dinformation possède donc un interet double, a` la fois
theorique (ecacite asymptotique) et pratique (calcul de covariances asymptotiques).
Les demonstrations de cette section utiliseront lhypothèse que les observations sont
independantes et identiquement distribuees; mais des resultats analogues peuvent etre
prouves sous des hypothèses plus generales.
Lemme.
Supposons que soit scalaire et soit (X1 , X2 , . . . , Xn ) un echantillon aleatoire de fonction
de vraisemblance:
n
&
L(x, ) =
f(xi |).
i=1
Supposons que L soit deux fois dierentiable, et que:

%
%
L(x, )dx.
L(x, )dx =
Rn
Rn
Alors:

V
log L(x, )

=E
log L(x, )
2
= E
2 log L(x, )
2

.
D
emonstration
'Puisque L(x, ) peut etre consideree comme la densite jointe de lechantillon, on a
erivant par rapport a` , ceci donne:
Rn L(x, )dx = 1. En d
Mais
log L
L.
%
Rn
%
L(x, )dx = 0 =
Rn
L(x, )dx.
On a donc aussi:
%
Rn
log L(x, )
L(x, )dx = E
log L(x, )
En derivant une nouvelle fois par rapport a` , il vient:

= 0.

ETRIE
144

log L L
2 log L
L +
dx = 0,
2

Rn
2
%
%
log L
2 log L
Ldx +
Ldx = 0
ou encore:
2
Rn
Rn

log L
=0:
Soit aussi, puisque E

V
log L

=E
log L
2
= E
2 log L
2

.
In
egalit
e de Rao-Cramer. Soit = (x)
un estimateur sans biais de . On a linegalite:
1

V ()
2 log L
E
2
D
emonstration
Comme est sans biais, on a:
%
=
= E()
Rn
L(x,
)dx
En derivant par rapport a` , il vient:

%
1
=
=
L
dx =
Rn

log L
cov ,
log L
Ldx
Rn

log L
puisque E
0 .
Dautre part, en vertu de linegalite generale (cov(X, Y ))2 V (X)V (Y ) , nous avons:

log
L
log
L
V
1 = cov ,
V ()
ou, en vertu du lemme:

E
1 V ()
2 log L
2

. Linegalite cherchee sensuit.
Pour illustrer ce resultat, reprenons le problème de lestimation par maximum de vraisemblance de lesperance mathematique dune variable normale, discute à la section 3.3
de la première partie. Nous avions trouve:
145
log L
1
(xi )
= 2
et donc
n
2 log L
= 2
2
.
2
) = . Mais nous savons

En vertu de linegalite precedente, on a alors V (
) n si E(
2
que E(
x) = et V (
x) = n . Nous concluons que cet estimateur est ecace.
Notons quun estimateur peut etre ecace sans que sa variance atteigne cette borne
inferieure!
10.10 La matrice dinformation
Preoccupons-nous maintenant de lestimation dun vecteur aleatoire

.
.
=
.

k
Soit un estimateur sans biais de .
Nous admettons sans demonstration les generalisations suivantes des resultats precedents:

log L
E

log L
V
=
=
=
def
(un vecteur k 1)
2

log L
E
(une matrice k k)

R() .
0
La matrice R() sappelle matrice dinformation. Nous la supposerons regulière.

log L = 1 , nous ecrivons:
En lieu et place de cov ,

log
L
=I
E

et par consequent:
(une matrice k k)

ETRIE
146
V
log L
V ()
R()
Cette dernière matrice est denie non negative, etant une matrice de covariance. An
darriver a` une generalisation vectorielle de linegalite de Rao-Cramer, considerons un
vecteur colonne arbitraire a. Comme la matrice est denie non negative, on a:
(a
a R1 () )
V ()
I
R()
a
1
()a
soit en eectuant et en simpliant:

1
a V () R () a 0 .
R1 () est denie non negative. On a en particulier

Donc la matrice V ()
1
V (i ) R () ii pour tout i.
Illustrons maintenant ce resultat. Nous avons vu a` la Section 5.8 que dans le modèle
2
log L
prenait la forme:
y = X + u avec u N (0, 2 I), la matrice
(X X)
2
H =
1
4u X
1
4X u
n
1
6u u
2 4
Par consequent:
(X X)
2
R() = E(H) =
O1k
Ok1
n
2 4
puisque E(u u) = n 2
Donc R1 () est diagonale par blocs, et pour tout estimateur sans biais de , la
2 (X X)1 est denie non negative en vertu du resultat precedent, lorsque
matrice V ()

est precisement
les erreurs sont distribuees normalement. Mais si = (X X)1 X y, V ()

egale à 2 (X X)1 .
La borne inferieure est atteinte par cette matrice: nous concluons que sous lhypothèse

de normalite, = (X X)1 X y nest pas seulement le meilleur estimateur lineaire sans
biais. Cest aussi le meilleur estimateur sans biais parmi tous les estimateurs, quils soient
lineaires ou non.
147
10.11 Propri
et
es asymptotiques des
estimateurs par maximum de la vraisemblance
10.11.1 Cas scalaire.
Nous avons ici le cas de lestimation dun seul paramètre . La vraisemblance secrit
(n
L(x, ) = i=1 f(xi |) comme precedemment, et lestimateur est une solution de lequa log L(x,)
tion
= 0.
On demontre que sous des hypothèses assez generales, et qui nimpliquent pas la normalite, lestimateur est convergent, asymptotiquement normal, asymptotiquement sans
biais, et asymptotiquement ecace. En eet, sous ces hypothèses:
plim =
dlim n( ) N 0, plim
n
2
log L(x,)
2
La borne inferieure est donc atteinte par la variance asymptotique de .

10.11.2 Cas vectoriel.
Dans le cas o`
u est un vecteur, on demontre sous des hypothèses semblables aux
precedentes les generalisations suivantes. Soit le vecteur des estimateurs par maximum
de vraisemblance. Alors:
plim =

dlim n( ) N 0, plim nR1 ()

o`
u:
2 log L(x, )
R() = E
est la matrice dinformation vue precedemment.

10.12 Distribution asymptotique du rapport des vraisemblances
10.12.1 Introduction.
Rappelons que la methode du rapport des vraisemblances, vu a` la section 5.3 de la
première partie, se resume ainsi: Dans le test H0 : = 0 contre H1 : = 0 , on calcule

ETRIE
148
maxH0 L(x, )
.
max L(x, )
On a les inegalites 0 1.
u 0 est un nombre strictement compris entre 0 et 1 et choisi
On rejette H0 si < 0 , o`
en fonction dun niveau de signication .
Dans les cas que nous avons traites jusquici, cette methode nous a permis de trouver
une règle de decision valable pour de petits echantillons, et faisant appel a` une statistique
possedant une distribution connue (Student, par exemple). Mais, il existe de nombreux
modèles non lineaires o`
u ceci nest pas le cas. On doit alors se contenter de tests asymptotiques. Il est donc interessant de connatre la distribution asymptotique dune fonction de
.
10.12.2 Cas scalaire.
Lorsque le vecteur na quune seule composante, nous allons montrer que sous H0 ,
dlim(2 loge ) 2(1) . Notre demonstration utilise lhypothèse que les observations sont
independantes et identiquement distribuees, mais le resultat peut etre generalise.
Soit lestimateur de par maximum de vraisemblance. Nous commencons par faire
un developpement de log L(x, 0 ) autour de (theorème de Taylor). Ceci donne:
)
log L(x, ) ))
log L(x, 0 ) log L(x, ) = (0 )

)
=
)
2
)
1
2 log L(x, ) )
+ (0 )
)
2
2
=
o`
u est un point de lintervalle ouvert reliant 0 et .
)
log L )
nous pouvons reecrire cette equation comme:
Comme )
= 0 par denition de ,
)
2
)
1
L(x, 0 )
2 log L )
= (0 )
log
) ,
2
L(x, )
=
soit aussi:
2 log

2 1 2 log L ))
n( 0 )
n
2 )=
2
n( 0 )
+
)
n
1 2 log f(xi |) ))
)
n
2
=
i=1
def

2
n( 0 ) k 2
149
Comme est convergent, on a, sous lhypothèse H0 , plim = 0 . Comme est compris

ceci implique:
entre 0 et ,
*
+
)
n
2

)
1
log
f(x
|)
i
)
plim k 2 = plim
)
n
2
=0
i=1
+
)
2
log f(xi |) ))
= E
)
2
=0
)
2
)
sont de variance nie (ils sont en eet
sous lhypothèse que les termes logf2(xi |) )
=0
identiquement distribues). Ceci est une consequence des resultats de la section 10.4. De
plus, comme nous lavons vu:
dlim

n( 0 ) N
0, plim

n1 E
)
2 log L )
)
2
=0
sous lhypothèse H0 .
Comme:

*
+
)
2
)
1
2 log f(xi |) ))
log L ))
plim E
= E
= plim k 2 ,
)
)
2
n
2
=0
=0
ceci implique:

dlim n( 0 ) N 0,
1
plim k 2

.
Alors, en vertu des resultats de la section 10.6:
dlim(2 log )
=
=
2
n( 0 ) plim k 2

2
2
X plim k o`
u X N 0,
dlim
1
plim k 2

.
Denissons maintenant Y = (plim k)X. Comme Y N (0, 1), Y 2 = (plim k 2 )X 2 =

dlim(2 log ) est 2(1), ce quil fallait demontrer.
10.12.3 Cas vectoriel.
Nous avons un vecteur de k paramètres à estimer et nous voulons tester lhypothèse
u 1 est un sous-vecteur de de dimension q. On montre
H0 : 1 = 1 contre H1 : 1 = 1 o`
2
alors que dlim(2 loge ) (q) .
150

ETRIE
10.13 Exemple dapplication dans un mod`

ele `
a erreurs autor
egressives
Dans le modèle de regression classique, nous avons vu, sous lhypothèse de normalite des
erreurs, que mco est normal quelle que soit la taille de lechantillon. De plus, le rapport
des vraisemblances permet de deriver un test F dune hypothèse lineaire; ce test est, lui
aussi, valable pour tout n. La distribution de Student permet de calculer des intervalles
de conance.
Dans le modèle des moindres carres generalises o`
u E(uu ) = 2 , nous avons les memes
resultats lorsque est connue. Par contre, si est inconnue, nous navons plus de resultats
valables en petit echantillon. Mais si u est un vecteur normal, on peut deriver lestimateur
de par maximum de la vraisemblance. Cet estimateur nest pas normal car cest une fonction non lineaire des erreurs. Neanmoins, on peut en trouver la distribution asymptotique
à laide des resultats precedents.
Pour le modèle à erreurs autoregressives:
y = X + u,
avec ut = ut1 + t
o`
u les t sont independantes de distribution N (0, 2 ) et o`
u X est non aleatoire, lestimateur
par maximum de vraisemblance a ete etudie par Beach et MacKinnon, A maximum
likelihood procedure for regression with autocorrelated errors, Econometrica 46 (1978),
5158. Nous allons brièvement discuter les resultats de ces auteurs.
Rappelons que E(uu ) = V = u2 , o`
u est la matrice de la section 9.2, et que
2 = (1 2 )u2 . En utilisant la denition de la densite normale multivariee, on peut
ecrire:
log L(, 2 , ) = K +
1
1
log det V 1 (y X) V 1 (y X)
2
2
et, en utilisant les règles de derivation matricielle de la section 3.4:

log L
= X V 1 X + X V 1 y
En annulant ce vecteur de derivees, on obtient:

= (X V 1 X)1 X V 1 y
soit le meme resultat quen moindres carres generalises lorsque est connue.
Les derivees par rapport a` et 2 sont plus compliquees. Il serait superu den donner
les details ici, puisque ces derniers ce trouvent dans larticle precedemment cite. Il nous
sura de mentionner que la maximisation de L par rapport a` implique la solution dune
equation cubique, qui possède toujours une solution comprise entre 1 et +1.
151
Le but de cette section etant dillustrer les resultats du present chapitre, nous allons
enoncer la matrice dinformation et son utilite dans le contexte de ce modèle. Appelons
= (, 2 , ). Beach et MacKinnon montrent que, si X est non stochastique:
1
(X V X) Ok1 Ok1
R() = O1k
A
C
O1k
o`
u A, B, et C sont des scalaires. Alors:
1 1
(X V X)
R1 () =
O2k
Ok2

A
C
C
B
1
et le theorème vu à la section 10.10 implique:
dlim n( ) N (0, plim nR1 ()).

Comme tout sous-vecteur dun vecteur normal multivarie est normal multivarie, on peut
donc ecrire:
dlim n( ) N (0, plim n(X V 1 X)1 ).

Nous avons vu que les estimateurs par maximum de vraisemblance sont convergents,
et que les limites en probabilite sont preservees par les fonctions continues. Donc, si on
remplace, dans la denition de V , et 2 par leurs estimateurs pour obtenir V , on obtient:
plim V = V
plim n(X V 1 X)1 = plim n(X V 1 X)1
et par consequent:
dlim n( ) N (0, plim n(X V 1 X)1 ).

On peut donc approcher la distribution de par une normale N (, (X V 1 X)1 ).
Pour tester H0 : = 0 contre H1 : = 0, on peut calculer le rapport des vraisemblances
en estimant deux fois le modèle: une fois par MCO (ceci donne lestimation sous H0 ) et
une fois par la methode de Beach et MacKinnon (ceci donne lestimation sans contrainte).
est le rapport des vraisemblances maximisees. Le theorème de la section 10.11 implique
alors que dlim 2 log 2(1) lorsque H0 est vraie, puisquil ny a quune seule contrainte
sous H0 . Ceci fournit des valeurs critiques approximatives. Ce test nest valable quen grand
echantillon mais ne presente pas les zones dincertitude de la statistique de Durbin-Watson.
Il faut bien noter que les resultats du chapitre X sont dune applicabilite très generale;
cette section na presente quune illustration de ces resultats.

ETRIE
152
CHAPITRE XI.
ES
ASYMPTOTIQUES DES ESTIMATEURS
PROPRIET
ORDINAIRES
DE MOINDRES CARRES

e

Nous montrerons dans cette section que = (X X)1 X y est un estimateur convergent
de dans le modèle classique y = X + u, sous les hypothèses suivantes:
(H1)
E(u) = 0
(H2)
E(uu ) = 2 I
(H3)
X est non stochastique de rang k < n
1
X X = XX ,
n n
(H4)
lim
une matrice denie positive.
Comme X est non stochastique, on a:

E(X u)

V (X u)i

et V
X2

1
(X u)i
n
=
=
X E(u) = 0
n

n

2
2
V
Xti ut =
Xti
t=1
t=1

=
2
Xti
n2
ti
Mais n converge par lhypothèse (H4) vers un nombre ni. Nous concluons que

V n1 (X u)i tend vers zero quand n tend vers linni. Donc les composantes de n1 X u
SECONDE PARTIE, CHAPITRE XI

verient E

plim( n1 X u)

1
n (X u)i

= 0, et limn V

1
n (X u)i
153

= 0 . Ceci montre (section 10.4) que
= 0. On a alors, en appliquant le theorème de Slutsky:
plim

=
=
=
=
=
plim + (X X) X u

+ plim (X X)1 X u

1
1
1
+ plim
X X
Xu
n
n

1

1
1
+ plim
(X X)
Xu
plim
n
n
+ 1
XX .Ok1 =
11.2 Normalit
e asymptotique
Tous les tests dhypothèses exposes au chapitre VII lont ete en supposant la normalite
des erreurs. Quen est-il si lon ne fait pas dhypothèses speciques sur la distribution du
vecteur u? Nous allons voir quun theorème central limite nous permet detablir la normalite

asymptotique de = (X X)1 X y. Si la taille de lechantillon est susamment grande,
on peut alors se baser sur la distribution normale pour faire des tests asymptotiques sur
le vecteur . On raisonne en pratique comme si la variance des erreurs etait connue: on
utilisera donc la loi normale au lieu de la loi de Student, la loi 2 au lieu de la loi F .
Th
eor`
eme.
Supposons que les hypothèses (H1) a` (H4) soient veriees, et soit t la t-ième colonne de
n

la matrice X . Denissons les vecteurs Zt = ut t et supposons que 1n t=1 Zt verie

un theorème central limite. Alors, pour = (X X)1 X y:
(a) dlim n( ) N (0, 2 1

XX ).

1
2
(b) Si plim ( n u u) = , on a plim( n1 u
u
) = 2 avec u
= y X .
D
emonstration
(a) Notons dabord que E(Zt ) = 0 et V (Zt ) = 2 t t

Par consequent:
n
n
1
2
2
X X = 2 XX ,
lim
V (Zt ) = lim
t t = lim
n n
n n
n n
t=1
t=1

ETRIE
154
qui est nie et denie positive par lhypothèse (H4). En vertu du theorème central
limite, on a:
n
1
1
Zt N (0, 2 XX ).
dlim X u = dlim
n
n t=1

Notons ensuite que n( ) = ( n1 X X)1 1n X u et appliquons les resultats
de la section 10.6. Ceci donne:

dlim n( )
1
XX
n
1

dlim

1
Xu
n
plim

2
1
N 0, 1
XX XX XX

N 0, 2 1
XX
(b) Pour demontrer la seconde partie du theorème, rappelons que:

u
u
= u I X(X X)1 X u.
Donc:
1
u
u
= u u
n
n
*
plim
u
u
n
1
Xu
n

= plim

1
XX
n
1

1
Xu ,
n
et:

1
2
u u O1k .1
XX .Ok1 =
n
en vertu du theorème de Slutsky et de lhypothèse faite dans lenonce.

Exercice. Calculez la distribution limite, sous lhypothèse nulle H0 : R = r, de la
statistique de Wald vue a` la section 7.4 de la seconde partie.
SECONDE PARTIE, CHAPITRE XII
155
CHAPITRE XII.
ES
ASYMPTOTIQUES DES ESTIMATEURS DAITKEN
PROPRIET
Le theorème que nous allons demontrer dans ce chapitre est un cas particulier dapplication au modèle à erreurs autoregressives dun theorème plus general, sappliquant a`
tout estimateur Aitken-realisable. Il montre que si lon remplace par un estimateur
convergent de cette matrice dans la formule de mcg , on obtient un estimateur de qui a
la meme distribution limite que mcg .
Th
eor`
eme.
Soit le modèle y = X + u avec E(u) = 0,

2
2
E(uu ) = = ..
.
n1
1
..
n1
..
.
et X non stochastique.
Soit un estimateur convergent de et supposons que limn n1 (X 1 X) = Q

soit une matrice denie positive. Soit T la matrice de transformation de la section 9.3
(T T = 1 ), soit [X T ]t la t-ième colonne de X T , et supposons que les vecteurs Zt =
(T u)t [X T ]t verient un theorème central limite.
Considerons les deux estimateurs:
(X 1 X)1 X 1 y
1 X)1 X
1 y
(X
o`
u
.
..
n1
et
n1
1
.
..
.
..
156

ETRIE
Sous les hypothèses additionnelles que:

1
1 X) = lim 1 (X 1 X) = Q
plim (X
n
n
1
1 u X 1 u) = 0
plim (X
n
1
plim u u = 2
n
on a les resultats suivants:

(1) dlim n( ) = dlim n( ) N (0, 2 Q1 )

(2) plim s2 = 2 , avec:
s2 =
D
emonstration
Notons tout dabord que
1
1
(y X )
(y X ).
nk
n( ) = ( n1 X 1 X)1 1n X 1 u et que:
X 1 u = X T T u =
n
Zt .
t=1
n

On a E(Zt ) = 0; dautre part, comme E(T u)2t = 2 et comme t=1 [X T ]t [X T ]t =

X 1 X,
n

1
2
lim
E(Zt Zt ) = lim (X 1 X) = 2 Q.
n t=1
n
Par consequent, en vertu du theorème central limite, dlim 1n
n
t=1 Zt
N (0, 2 Q).
Donc:

1

1 1
1
1
X X
dlim X u
dlim n = plim
n
n

N 0, Q1 ( 2 Q)Q1 = N 0, 2 Q1
Pour montrer que lestimateur Aitken-realisable a la meme distribution que lestimateur Aitken-pur, nous pouvons appliquer le resultat de la section 10.6.1. En eet:
1 1 1 1 1
n( ) = ( X
X) X u,
n
n
SECONDE PARTIE, CHAPITRE XII
157
1 1
dlim( X
u) N (0, 2 Q)
n
et donc:

dlim n( ) N (0, 2 Q1 ).
Pour demontrer la seconde partie du theorème, notons que la limite en probabilite de:
1
1 (y X )),
(y X )
nk
est egale à 2 . La demonstration est exactement la meme que celle de la section 11.2:
il sut de remplacer y par T y et X par T X. Comme plim = plim = et comme

= , le theorème de Slutsky implique plim s2 = 2 .
plim
Ces resultats ont ete obtenus sans faire lhypothèse de normalite des erreurs, puisque
nous avons utilise un theorème central limite. Il est toutefois très interessant de noter que
nous venons dobtenir la m
eme distribution limite que celle de la section 10.13, o`
u nous
avions fait lhypothèse de normalite des erreurs pour deriver lestimateur par maximum de
vraisemblance; il est facile en eet de verier que:
2 Q1 = plim n(X V 1 X)1
o`
u V = E(uu ). Les matrices de covariance asymptotiques sont donc les memes; puisquune
distribution normale est entièrement caracterisee par les deux premiers moments, ceci
implique bien legalite des distributions limites.
Nous avons donc lequivalence asymptotique dune methode simple (celle dAitken) et
dune methode plus compliquee (celle du maximum de vraisemblance).
158

ETRIE
CHAPITRE XIII.
REGRESSEURS
STOCHASTIQUES
13.1 Introduction: types de r

egresseurs stochastiques
Dans tous les developpements precedents, X etait non stochastique par hypothèse. Ceci
netant pas realiste, il nous faut maintenant examiner les proprietes de la methode des
moindres carres ordinaires dans le cas o`
u cette hypothèse nest pas veriee.
Nous pourrons distinguer trois types de regresseurs stochastiques.
Dans le premier cas, la matrice X est independante du vecteur u. Les estimateurs MCO
sont alors convergents, sans biais, et ont la distribution limite vue au chapitre XI sous
lhypothèse dun theorème central limite. De plus, lorsque les erreurs sont normales, les
statistiques tobs et Fobs vues precedemment au chapitre VII ont les distributions t et F
sous lhypothèse nulle, meme en petit echantillon.
Dans le second cas, X depend de u, mais les regresseurs ne sont pas correles avec
les erreurs contemporaines. Les estimateurs MCO ne sont pas sans biais, mais ils sont
convergents. Ils ont la distribution limite vue au chapitre XI sous lhypothèse dun theorème
central limite. Les distributions des statistiques tobs et Fobs vues precedemment au chapitre
VII ne sont t et F que si la taille de lechantillon tend vers linni. Nous nexaminerons
pas ce second cas dans le present chapitre, mais nous letudierons plus tard dans le cadre
des modèles à variables endogènes retardees.
Dans le troisième cas, certains regresseurs sont correles avec lerreur contemporaine.
Alors les estimateurs MCO ne sont pas convergents, et on doit utiliser la methode des
variables instrumentales, qui sera vue dans le present chapitre.
13.2 R
egresseurs stochastiques ind
ependants du vecteur des erreurs
Nous allons voir que si X est stochastique, mais independante de u, lestimateur de
par moindres carres ordinaires garde beaucoup de proprietes desirables. Il est toujours sans
biais, et convergent. De plus, toutes les proprietes asymptotiques demontrees precedemment dans le cadre du modèle classique restent valides.
SECONDE PARTIE, CHAPITRE XIII
159
Dans la première partie de cette section, nous nutiliserons que les hypothèses suivantes,
qui sont compatibles avec lindependance de X et de u, mais nimpliquent pas cette independance:
(H1 ) E(u|X) = 0
(H2 ) E(uu |X) = 2 I

(H3 ) plim( n1 u u) = 2
(H4 ) plim( n1 X X) = lim E( n1 X X) =

XX
est denie positive .
Rappelons tout dabord la loi des esperances iterees (section 1.7) de la première partie:
Lemme 13.1.
E(X) = EY E(X|Y ) .
Ce resultat peut aussi etre applique aux vecteurs et matrices aleatoires. Nous demontrons maintenant une propriete fondamentale pour la suite.
Lemme 13.2. Sous les hypothèses (H1 ), (H2 ) et (H4 ), plim( n1 X u) = 0.

D
emonstration:
En vertu de la section 10.4, il sut de montrer que:
E(
1
Xti ut ) = 0 et
n
V(
1
Xti ut ) 0.
n
Mais:
E(Xti ut ) = EXti E(Xti ut |Xti ) = EXti Xti E(ut |Xti ) = 0
par lhypothèse (H1 ) et le lemme 13.1. Par ailleurs:
2 2
2 2
2
2
ut ) = EXti E(Xti
ut |Xti ) = EXti Xti
E(u2t |Xti ) = 2 E(Xti
)
V (Xti ut ) = E(Xti
2
) < ; donc V (Xti ut ) <
en vertu de lhypothèse (H2 ). Lhypothèse (H4 ) garantit que E(Xti

1
1
Xti ut ) 0 . Lestimateur = (X X) X y verie alors les proprietes
, et V ( n
suivantes:

ETRIE
160
Th
eor`
eme 13.3. est un estimateur sans biais de .
D
emonstration:
E()
=
=
=

+ E (X X)1 X u

+ EX {E (X X)1 X u|X }

+ EX (X X)1 X E(u|X) =
Th
eor`
eme 13.4. est un estimateur convergent de .
La demonstration est identique à celle donnee à la section 11.1, en vertu du lemme 13.2.
Th
eor`
eme 13.5. Soit t la t-ième colonne de la matrice X (un vecteur k 1) et
supposons que les vecteurs Ct = ut t verient un theorème central limite. Alors:
1
(1) dlim n( ) N (0, 2 XX )

(2) plim( n1 u
u
) = 2 .
D
emonstration :
Notons que:
E(Ct ) = E(ut t ) = EX E(ut t |X) = EX t E(ut |X) = 0.
De meme:
E(Ct Ct ) = E(u2t t t ) = EX E(u2t t t |X) = EX (t t )E(u2t |X) = 2 E(t t ).

Par consequent:
n
n

1
1
1
2
E(Ct Ct ) = lim E(
t t ) = 2 lim E( X X) = 2 XX .
lim
n t=1
n t=1
n
On a alors, comme auparavant (section 11.2):
n
1
1
Ct N (0, 2 XX )
dlim X u = dlim
n
n t=1

1
1
dlim n( ) = plim( X X)1 dlim( X u) N (0, 2 1
XX ).
n
n
La demonstration du point (2) est identique a` celle donnee precedemment.
Si nous faisons maintenant lhypothèse dindependance f(X, u) = f1 (X)f2 (u), les distributions conditionnelles `
a X des statistiques tobs et Fobs vues au chapitre VII ne
dependront que des nombres de degres de liberte et seront donc les memes que les distributions inconditionnelles. Les valeurs critiques des lois t et F leur seront donc applicables
quelle que soit la taille de lechantillon, lorsque les erreurs sont normales.
161
13.3 R
egresseurs stochastiques d
ependants des erreurs contemporaines

Si plim( n1 X u) = 0, on verie aisement que plim mco = . Il est important de signaler

que la presence dune seule composante non nulle dans le vecteur plim( n1 X u) peut rendre
toutes les composantes de mco non convergentes. Supposons en eet que:

plim
1
Xu
n

c
0
=
...
avec
c = 0 .
0
On a alors:
plim mco
s1
.
= + c ..
sk
eneral,
o`
u les si sont les composantes de la première colonne de 1
XX . Comme, en g
aucun des si nest nul, aucune composante de mco ne convergera vers la composante
correspondante de .
Exercice. Dans le modèle yt = byt1 + ut avec ut = t + t1 , supposons que les t soient
desperance nulle, de variance constante, et non correles entre eux. Montrez que la covariance entre yt1 et ut nest pas nulle. Quelles sont les consequences de cette constatation?
13.3.1 La m
ethode des variables instrumentales.
Cette methode est un cas particulier de la methode des moments generalises (GMM);
voir Hamilton, Time Series Analysis, 1994, chapitre 14.
Supposons que plim( n1 X u) = 0. Nous construisons alors une matrice Z de dimensions

n r, avec r k, possedant les proprietes suivantes:
(H1 ) E(u|Z)
(H2 ) E(uu |Z) = 2 I

1
(H3 ) plim( Z X) = ZX est de rang k
n
1
1
(H4 ) plim( Z Z) = lim E( Z Z) = ZZ
n
n
Nous supposons en outre comme auparavant que:
est denie positive.

ETRIE
162
(H5 )
(H6 )
1
plim( u u) = 2
n
1
plim( X X) et
n
1
plim( X u) existent.
n
Lidee de base est la suivante. Denissons PZ = Z(Z Z)1 Z ; cette matrice n n

est symetrique, idempotente, de rang r. Si lon applique la transformation PZ au modèle
y = X + u et les moindres carres ordinaires au modèle transforme, on obtient lestimateur
de par variables instrumentales:
V I = (X PZ X)1 X PZ y
Si lon a le meme nombre dinstruments et de regresseurs, r = k, et la matrice X Z est
carree et en general regulière. Alors:

1
1

(X Z)(Z Z)1 Z y = Z X
Z y
V I = (X Z)(Z Z)1 (Z X)
Pour simplier les demonstrations, nous supposerons dans le reste de cette section que
r = k. Mais les resultats qui vont suivre ne dependent pas de cette hypothèse.
13.3.2 Convergence en probabilit
e.
Lemme 13.6. Sous les hypothèses (H1 ), (H2 ) et (H4 ), plim( n1 Z u) = 0.

La demonstration est identique à celle du Lemme 13.2.
Th
eor`
eme 13.7. V I est un estimateur convergent de .
D
emonstration:
Comme (Z X)1 Z y = (Z X)1 (Z X + Z u) = + (Z X)1 Z u , plim V I = +

.
plim( n1 Z X)1 plim( n1 Z u) = + 1
ZX 0 =
13.3.3 Convergence en distribution.
Th
eor`
eme 13.8.
Soit t la t-ième colonne de Z et supposons que les vecteurs Ct = ut t verient un

theorème central limite. Alors:
1
(1) dlim n(V I ) N (0, 2 plim n(X PZ X)1 ) = N (0, 2 1
ZX ZZ (ZX ) )
u
) = 2 , avec u
= y X V I .
(2) plim( n1 u
163
D
emonstration:
n

Nous avons une fois de plus E(Ct ) = 0 et lim n1 t=1 E(Ct Ct ) = 2 ZZ (voir la demonsn

tration du theorème 13.5). Donc, comme 1n Z u = 1n t=1 Ct , on a:
1
dlim Z u N (0, 2 ZZ )
n
et par consequent:
1
1
1
dlim n(V I ) = plim( Z X)1 dlim( Z u) N (0, 2 1
ZX ZZ (ZX ) ).
n
n
Pour demontrer la seconde partie du theorème, notons que:

u
= y X(Z X)1 Z y = I X(Z X)1 Z u,
puisque y = X + u. Alors:
u u
= u u u Z(X Z)1 X u u X(Z X)1 Z u + u Z(X Z)1 (X X)(Z X)1 Z u.
) =
Les hypothèses H3 , H5 et H6 ainsi que le Lemme 13.6 impliquent alors plim( n1 u u
1
2
plim( n u u) = . Ce theorème permet donc, une fois de plus, de baser des tests asymptotiques sur la distribution normale ou 2 . La matrice de covariance asymptotique du vecteur

V I est estimee par unu (Z X)1 (Z Z)(X Z)1 .
Notons que si r > k, linverse de ZX nexiste pas car cette matrice nest pas carree;
mais lautre expression de la matrice de covariance asymptotique, a` savoir:
2 plim n(X PZ X)1
reste valable, puisque X PZ X est dordre k et de rang min(k, r) = k. Par ailleurs, les deux
expressions sont bien equivalentes lorsque r = k, puisque:
plim n(X PZ X)

1
1
1 1 1
= plim ( X Z)( Z Z) ( Z X)
.
n
n
n
Notons enn que la validite de la methode des variables instrumentales peut etre etablie
sous des hypothèses plus generales que celles de cette section.
164

ETRIE
13.3.4 Choix des variables instrumentales.

Il est très important de noter quil existe en general une innite de matrices Z veriant
les hypothèses (H1 ) a` (H4 ). Il y aura donc aussi une innite destimateurs par variables
instrumentales! Cet estimateur garantit la convergence, mais ne verie pas le theorème
de Gauss-Markov; et le choix des variables instrumentales doit donc etre base sur des
critères decacite asymptotique. On peut retenir, comme critère heuristique, celui qui
fait choisir une variable instrumentale (colonne de Z) fortement correlee avec la colonne

correspondante de X, tout en satisfaisant plim( n1 Z u) = 0. Nous utiliserons ce principe
lorsque nous etudierons les variables endogènes retardees.
On peut aussi souvent choisir Z de telle manière que la distribution asymptotique du
theorème 13.8 soit la meme que celle de lestimateur par maximum de vraisemblance. Ceci
est interessant car lestimateur par variables instrumentales (qui est lineaire) est souvent
plus facile a` calculer que lestimateur par maximum de vraisemblance (voir par exemple la
section 10.13).
SECONDE PARTIE, CHAPITRE XIV
165
CHAPITRE XIV.
`
INTRODUCTION AUX MODELES
DYNAMIQUES
14.1 Retards
echelonn
es
On a ici un modèle de la forme suivante:
yt = a + b0 xt + b1 xt1 + . . . + bk xtk + ut
La variable dependante est donc une combinaison lineaire des valeurs presentes et passees de la variable explicative. Nous fournirons deux interpretations economiques de ce
modèle:
(a) Dans le cadre dune fonction de consommation, il correspondrait a` lhypothèse que
la consommation presente depend du revenu espere. Ce dernier est une combinaison
lineaire des revenus observes, presents et passes. Il existe donc une sorte dinertie
dans le comportement du consommateur.
(b) Dans le cadre dun modèle dinvestissement, faisons les hypothèses suivantes:
(i) La valeur desiree des stocks, yt , est proportionnelle a` la valeur prevue des
ventes, xt , a` un terme derreur vt près. Donc:
(1)
yt = xt + vt
(ii) Linvestissement (variation de stock entre les periodes t et t 1) est regi par
le mecanisme suivant (ajustement partiel):
(2)
yt yt1 = (yt yt1 ) avec 0 < < 1 .

On comble donc a` la periode t une fraction de la dierence entre le stock
eectif precedent, yt1 , et le stock desire, yt .
(iii) La valeur prevue des ventes est regie par le mecanisme suivant (anticipations
adaptives):
(3)
xt = xt1 + (xt1 xt1 ) avec 0 < < 1

ETRIE
166
On comble donc a` la periode t un pourcentage de lerreur de prevision faite a`

la periode t 1.
Nous allons montrer que les equations (1), (2) et (3) mènent a` un modèle à
retards echelonnes.
Resolvons tout dabord lequation de recurrence (3). Ceci donne:
xt
xt1 + (1 )xt1
xt1 + (1 )[xt2 + (1 )xt2 ]
xt1 + (1 )xt2 + (1 )2 xt2
et lon obtient, après une innite de substitutions, la règle de prevision suivante, dite
de lissage exponentiel:
xt =
(4)
(1 )i1 xti
i=1
Si nous resolvons maintenant (2) en yt :

yt =
(5)
1
[yt (1 )yt1 ]
Par ailleurs, (1) et (4) impliquent
(6)
yt
(1 )i1 xti + vt
j=1
En egalisant les membres de droite de (5) et de (6), on obtient nalement:
(7)
yt = (1 )yt1 +
(1 )i1 xti + ut
i=1
Cette dernière equation est lineaire dans les variables explicatives, et ne comporte
plus que des variables observables. Elle comporte neanmoins une innite de regresseurs! On peut evidemment supprimer les xti pour i grand. Mais ceci ne resout que
partiellement le problème, car il y a peu de degres de liberte: le nombre de paramètres
à estimer reste grand, et lon perd une observation par variable retardee. De plus, les
xti risquent detre fortement colineaires.
Les methodes de Koyck et dAlmon on ete proposees pour resoudre ce problème.
167
14.2 La m
ethode de Koyck
Soit donc le modèle general:
On fait lhypothèse que les poids bi sont geometriquement decroissants, soit bi = i b0

avec 0 < < 1. Par consequent:
et
yt
a + b0 xt + b0 xt1 + 2 b0 xt2 + . . . + k b0 xtk + ut
yt1
a + b0 xt1 + b0 xt2 + 2 b0 xt3 + . . . + k b0 xtk1 + ut1
yt1
a + b0 xt1 + 2 b0 xt2 + . . . + k+1 b0 xtk1 + ut1
que nous soustrayons pour obtenir:

yt yt1 = (a a) + b0 xt k+1 b0 xtk1 + (ut ut1 )
Si k est susamment grand, k+1 0, et nous pouvons alors retenir comme modèle:
yt = a + yt1 + b0 xt + ut
Nous navons donc plus que deux regresseurs et une constante. Il faut noter:
(a) que cette transformation peut aussi sappliquer à un nombre inni de retards;
(b) que lon peut retrouver lequation de depart a` partir destimations de et de b0
obtenues grace au modèle transforme;
(c) que E(yt1 ut ) = 0. Nous sommes donc dans le cas traite à la section 13.3: les estimateurs par moindres carres ordinaires ne sont pas convergents. Ce problème sera
examine plus bas, lorsque nous traiterons des variables endogènes retardees.
Appliquons la methode de Koyck a` notre problème dinvestissement. Nous avions:
yt = (1 )yt1 +
(1 )i1 xti + ut
i=1
Donc:
yt1 = (1 )yt2 +

i=1
et:
(1 )i1 xti1 + ut1

ETRIE
168
yt (1 )yt1
(1 )yt1 + xt1 (1 )(1 )yt2 + [ut (1 )ut1 ] ,
soit aussi:
yt = (2 )yt1 + xt1 (1 )(1 )yt2 + ut
2 , a
3 les estimations des coecients de cette equation. Pour estimer les
Appelons a
1 , a
paramètres du modèle de depart, il faudrait resoudre le système:
a1
a2
a3
) = + 1
(1 )(1
peut etre obtenu comme
a
2
. Il est dit identiable.
1a
1 a
3
Mais et ne le sont pas. On ne peut determiner que leur somme et leur produit.
14.3 La m
ethode dAlmon
Lhypothèse faite par Koyck que les poids b0 . . . bk sont geometriquement decroissants
est très restrictive. Lidee dAlmon est dutiliser une approximation polynomiale de la
ome de
fonction decrivant le comportement reel des bi . On choisit, en pratique, un polyn
degre superieur dau moins une unite au nombre de points stationnaires de cette fonction.
Si, par exemple, lon pense que cette fonction a la forme dun U ou dun U renverse, on
choisira une approximation quadratique:
bi = 0 + 1 i + 2 i2
que lon substitue dans le modèle precedent:
pour obtenir:
yt
a + 0 xt + (0 + 1 + 2 )xt1 + (0 + 21 + 42 )xt2
+ . . . + (0 + k1 + k 2 2 )xtk + ut
*
=
a + 0
k
+
xti
+ 1
* k
i=0
+
ixti
+ 2
169
* k
i=1
+
i2 xti
+ ut
i=1
a + 0 Z1t + 1 Z2t + 2 Z3t + ut
Les paramètres de cette equation peuvent alors etre estimes par moindres carres ordinaires, et les estimations des bi peuvent etre calculees à laide de lapproximation polynomiale. Notons aussi que cette technique se prete particulièrement bien à lintroduction de
contraintes additionnelles sur les bi . Supposons que lon veuille imposer b1 = 1. On a donc
1 = 0 + 1 + 2 . En substituant, il vient:
yt = a + (1 1 2 )Z1t + 1 Z2t + 2 Z3t + ut
ou:
yt Z1t = a + 1 (Z2t Z1t ) + 2 (Z3t Z1t ) + ut
Soit:
yt = a + 1 Z1t
+ 2 Z2t
+ ut
14.4 Lop
erateur de retard
Loperateur de retard est deni par:
Lxt = xt1
Cet operateur peut etre traite comme une variable algebrique ordinaire. En eet:
Lj xt
L . . . Lxt = xtj
Lj Lk xt
Lj+k xt = xtjk
Lj (a1 x1t + a2 x2t )
a1 Lj x1t + a2 Lj x2t
Nous pouvons alors ecrire:

j xtj =
j Lj xt = (L)xt
o`
u:
(L) = 0 + 1 L + 2 L2 + 3 L3 + . . .
def

ETRIE
170
est traite comme un polyn

ome algebrique en L. Si les racines de (L) = 0 sont strictement superieures à lunite en valeur absolue, on peut denir loperateur reciproque 1 (L)
comme:
yt = 1 (L)xt
si (L)yt = xt
Exercice: Soit (L) = 0 + 1 L, (L) = 0 + 1 L, et (L) = 1 L pour 1 < < 1.

Trouvez la forme des series chronologiques [(L) + (L)]xt , [(L)(L)]xt et [1 (L)]xt .
Linteret de la recherche dun tel operateur reciproque peut etre illustre par lexemple
suivant. Lequation:
yt = a + yt1 + bxt + ut
peut secrire comme:
(L)yt = a + bxt + ut
avec (L) = 1 L. Elle permet destimer lesperance de yt conditionnelle a` ses valeurs
passees et à xt , a` savoir E(yt | yt1 , xt ) = a+ yt1 + bxt . Il sagit donc dune modelisation
u xt est un
à court terme, car conditionnelle au passe immediat de yt . Mais dans le cas o`
instrument de politique economique, il peut etre plus interessant destimer:
E(yt | xt , xt1 , xt2 , . . . )
qui est conditionnelle aux seules valeurs presentes et passees de linstrument. Cette nouvelle
esperance peut etre calculee à laide de loperateur reciproque, car:
E(yt | xt , xt1 , xt2 , . . . ) = 1 (L)a + b1 (L)xt
a
+ b1 (L)xt
=
1
a
+ b(xt + xt1 + 2 xt2 + . . . )
=
1
Pour illustrer un autre emploi de loperateur de retard, appliquons-le à la transformation
de Koyck. Nous avons:
yt
j xtj + ut = a + b0
j Lj xt + ut
a + b0

a + b0 1 + L + L + L + . . . xt + ut
a+
b0
xt + ut
1 L
soit aussi:
(1 L)yt = (1 L)a + b0 xt + (1 L)ut
171
et
yt = yt1 + a + b0 xt + (ut ut1 ) .
14.5 R
esolution d
equations lin
eaires de r
ecurrence stochastiques
Presentons maintenant une methode generale de resolution dune equation du type
u ut est une erreur aleatoire. Il sagit de calculer les coecients du
(L)yt = (L)ut , o`
(L)
. Nous commencerons par un exemple.
polyn
ome
(L)
Soit (L) = 2 + 3L + 4L2 et (L) = 1 0.75L + 0.125L2 . Comme les racines de (L)
sont 2 et 4, on a:

L
1
(L) =
2

A 1 L4 + B 1
1
1

=

=
(L)
1 L4 1 L2
1 L4 1 L2

L
1
4
L
2

o`
u A et B sont determines par la condition A 1 L4 + B 1 L2 = 1 pour tout L.
Ceci implique A = 2 et B = 1, comme on le voit facilement en posant L = 0 et L = 1.
Par consequent:
1
(L)
=
=
=
2
1

1
1 L4

2
2
1
1
1
1
L +
L +... 1 +
L +
L + ...
2 1+
2
2
4
4
L
2
7
15
3
1 + L + L2 + L3 . . .
4
16
64
et donc:
(L)
= (2 + 3L + 4L2 )(1 + .75L + .4375L2 + . . .) = 2 + 4.5L + 7.125L2 + . . .
(L)
Ceci peut etre facilement generalise. Si le polyn

ome normalise (L) = (1L)(1L) =
0 a deux racines reelles distinctes 1/ et 1/, on aura:
1
A(1 L) + B(1 L)
1
=
=
(L)
(1 L)(1 L)
(1 L)(1 L)

ETRIE
172
o`
u A et B sont choisis tels que A(1 L) + B(1 L) = 1 pour tout L. Ceci implique:
A=
B=
et donc:
A
B
1
=
+
(L)
1 L 1 L
= A(1 + L + 2 L2 + . . . ) + B(1 + L + 2 L2 + . . . )
= (A + B) + (A + B)L + ( 2 A + 2 B)L2 + . . .
1 i
( i )Li1 .
i=1
Dans le cas dune racine reelle double 1/, on obtient:

1
1
=
(L)
(1 L)2
= (1 + L + 2 L2 + . . . )(1 + L + 2 L2 + . . . )
= 1 + 2L + 32 L2 + 43 L3 + . . .
=
(i + 1)i Li
i=0
Dans le cas de deux racines complexes conjuguees, on peut employer le premier developpement en utilisant les proprietes des nombre complexes.
On peut aussi utiliser un developpement de Taylor autour de L = 0; la derivation
precedente a lavantage detre constructive, et de mettre en evidence le lien entre 1/(L)
et les racines de (L) = 0.
14.6 Distribution rationnelle des retards
Nous sommes maintenant prets à denir la distribution rationnelle des retards. On lecrit
sous la forme:
yt = a + (L)xt + ut
avec:
(L) =
0 + 1 L + . . . + k Lk
(L)
=
w(L)
w 0 + w 1 L + . . . + w L
173
On normalise en posant w0 = 1.
Cette formulation est très generale, car toute structure des coecients peut etre approchee par ce rapport de deux polyn
omes. Nous pouvons en eet rendre lapproximation
plus ne en augmentant k, , ou k et .
On constate facilement que la structure des retards postulee par Almon correspond a`
w(L) = 1 (donc = 0), et i = a0 + a1 i + a2 i2 + . . . + as is . Celle de Koyck correspond a`
(L) = b0 , et w(L) = 1 L (donc k = 0, = 1).
14.7 Variables endog`
enes retard
ees
Lors de lapplication de la transformation de Koyck, nous avons fait apparatre des
variables endogènes retardees dans le membre de droite de lequation de regression. Il est
important de mettre en evidence les consequences de leur presence parmi les variables
explicatives dun modèle.
Cette section netant quune introduction au problème, nous nous contenterons ici detudier un modèle très simple, qui est le suivant:
yt = byt1 + ut
avec 1 < b < 1 et diverses hypothèses sur lerreur ut .
Un modèle beaucoup plus general sera etudie au chapitre XV. Les conclusions obtenues dans ce modèle plus general, qui comprendra plusieurs regresseurs dont certains sont
des variables endogènes retardees, sont très semblables et les methodes danalyse sont les
memes.
On obtient aisement, par substitutions successives, la forme suivante:
yt = ut + but1 + b2 ut2 + =
bj utj
j=0
14.7.1 Erreurs sph

eriques.
2
Supposons que E(u)
= 0 et E(uu ) = I. On a alors E(yt1 ut ) = 0, et si V (yt1 ut )
1
existe, on a plim( n
yt1 ut ) = 0. Lestimateur de b par moindres carres ordinaires est
n+1
alors convergent. Mais il nest pas sans biais puisque b = b + t=2 wt ut avec
yt1
wt = n+1
2
j=2 yj1

ETRIE
174
qui depend de ut via le denominateur.
La distribution limite de n(bmco b) est la distribution normale habituelle:
n(bmco b) N (0, 2 1
XX ) = N (0,
d
plim n1
2
n+1
t=2
2
yt1
pour autant que les hypothèses de la section 10.8.3 soient veriees. En particulier, la
suite (Zt ) = (yt1 ut ) doit etre une dierence de martingale. Tel est bien le cas ici sous
lhypothèse dindependance des erreurs. En eet:
E(yt1 ut ) = Eyt1 yt1 E(ut | yt1 ) = 0
E(yt1 ut | yt2 ut1 , yt3 ut2 , . . . ) =
Eut1 ,ut2 ,... E(yt1 ut | yt2 ut1 , yt3 ut2 , . . . ; ut1 , ut2 , . . . ) =

Eut1 ,ut2 ,... yt1 E(ut | yt2 ut1 , yt3 ut2 , . . . ; ut1 , ut2 , . . . ) = 0
Il est facile de demontrer (voir Hamilton, Time Series Analysis, 1994, p. 122) que lestimateur de b par maximum de vraisemblance est le meme que lestimateur de b par moindres
carres ordinaires lorsque les erreurs sont normales.
14.7.2 Erreurs `
a moyenne mobile.
Il sagit derreurs de la forme:
ut = t + t1
avec E() = 0,
E( ) = 2 I
Comme nous lavons vu, ces erreurs resultent dune transformation de Koyck appliquee à un modèle à retards echelonnes. On verie immediatement que sous les hypothèses
habituelles,

1
yt1 ut = E (yt1 ut ) = E [(ut1 + but2 + . . .) ut ]
plim
n
= E (ut ut1 ) = E [(t + t1 ) (t1 + t2 )] = 2 = 0
Donc lestimateur b =

y y
t 2t1
yt1
nest pas convergent. Calculons sa limite en probabilite.
Notons dabord que yt = byt1 + t + t1 , et donc:

yt yt1
2
yt1
+
yt1 t +
yt1 t1 .
175
Par consequent:
b

yt1 t1 /n
yt1 t /n
+ 2
b+ 2
yt1 /n
yt1 /n

Par ailleurs, yt = j=0 bj (tj + tj1 ), ce qui implique, sous les hypothèses habi

tuelles, plim( n1
yt1 t ) = E(yt1 t ) = 0, et plim( n1
yt1 t1 ) = E(yt1 t1 ) = 2 .
De meme:

plim
1 2
yt1
n

2
2
) = E yt2 = E
b2j (tj + tj1 )
= E(yt1
j=0

bj bk (tj + tj1 ) (tk + tk1 )
+ 2E
j=0 k=j+1
= 1+
2j
+ 2
j=0
Alors
bj bj+1 =
j=0
plim b

(1 + 2 ) 2
2b 2
2
+
=
1 + 2 + 2b .
2
2
2
1b
1b
1b

plim( n1
plim( n1
yt1 t )
yt1 t1 )

+
b+
2
2
yt1
yt1
plim( n1
)
plim( n1
)
b+
(1 b2 )
1 + 2 + 2b
On remarque que plim b b a le signe de .

Montrons maintenant que lon peut estimer b de facon convergente en utilisant yt2
comme variable instrumentale. Il faut verier que:

1
ZX
plim
n

1
Z u
plim
n
=
=

1
yt1 yt2
plim
est nie et non-nulle;
n

1
yt2 ut = 0 .
plim
n
Tout dabord:

plim
1
yt1 yt2
n
2
= E (yt1 yt2 ) = E (ut1 ut2 ) + bE yt2
=
2 +

b 2
2
2
+
2b
=
( + b)(1 + b)
1
+
1 b2
1 b2

ETRIE
176
est nie et non-nulle, sauf si = b ou

= 1b . Par ailleurs, plim

yt2 yt
E (yt2 ut ) = 0. Nous concluons que plim yt1

yt2 = plim bV I = b.
1
n

yt2 ut =
Cette estimation par variables instrumentales ne resout pas le problème dautocorrelation des erreurs, qui se pose puisque E(ut ut1 ) = 2 . Ce problème peut etre traite en
utilisant une methode robuste destimation de la variance de bV I , analogue a` celle que nous
avons introduite a` la section 9.10; voir Hamilton, Time Series Analysis, 1994, chapitre 14.
Nous netudierons pas lestimation de ce modèle par maximum de vraisemblance, car
ceci relève dun cours de matières speciales. Il sagit dun cas particulier de modèle ARMA
(Auto-Regressive Moving Average); ces modèles peuvent etre estimes à laide de logiciels
specialises.
14.7.3 Erreurs autor
egressives.
Nous supposons cette fois que ut = ut1 + t avec || < 1, = 1b , et E() = 0,

E( ) = 2 I.
1

plim
u
y
t1
t
n
2 .
plim b = b +
plim n1
yt1
On a de nouveau:
Rappelons que E(ut uts ) = s u2 . Nous avons cette fois:

E(yt1 ut ) = E [(ut1 + but2 + . . .)ut ] = u2 (1 + b + b2 2 + . . .) =
u2
.
1 b
On a aussi:
E
2
yt1

= E yt2
2j
b E
u2tj
+2
j=0
=
=
bj bk E (utj utk )
j=0 k=j+1
u2
b2
+ 2u2
kj bj bk
j=0 k=j+1
j=0
k=j

u2
kj
2
2j
+
2
(b)
b
(b)
u
2
1b
u2
1 b2
(1
2bu2
b2 )(1
b)
u2 (1 + b)
(1 b2 )(1 b)
Par consequent:
plim b
=
=
u2 / (1 b)
u2 (1 + b) / (1 b2 ) (1 b)

1 b2
b+
.
1 + b
b+
177
On remarque que plim b b a de nouveau le signe de .

Nous allons maintenant etudier lestimation de ce modèle par maximum de vraisemblance. En combinant les equations:
yt = byt1 + ut
ut = ut1 + t
on obtient:
yt byt1 = (yt1 byt2 ) + t
soit aussi:
(1)
yt = (b + )yt1 byt2 + t
pour t = 3, . . . , n + 2
Ce modèle est non lineaire dans les paramètres. Si nous supposons que, conditionnellement à yt1 et yt2 , les t sont normales de distribution commune N (0, 2 ), nous avons
pour lobservation t:
2 1/2
f(yt | yt1 , yt2 ) = (2 )
1
exp 2 [yt (b + )yt1 + byt2 ]2
2
et la densite de (y3 , y4 , . . . , yn+2 ) conditionnelle aux deux premières observations (y1 , y2 )

peut donc secrire:
f(y3 , y4 , . . . , yn+2 | y1 , y2 ) = f(y3 | y1 , y2 )f(y4 | y1 , y2 , y3 ) . . . f(yn+2 | y1 , y2 , . . . , yn+1 )
= f(y3 | y1 , y2 )f(y4 | y2 , y3 ) . . . f(yn+2 | yn+1 , yn )

n+2

1
[yt (b + )yt1 + byt2 ]2
= (2 2 )n/2 exp 2
2 t=3
En prenant le logarithme de lexpression precedente et en considerant le resultat comme
une fonction des paramètres inconnus (b, , 2 ), on obtient la vraisemblance logarithmique:
n+2
n
1
2
log L(b, , ) = constante log 2
[yt (b + )yt1 + byt2 ]2
2
2 t=3
2
= constante +
n+2
Lt (b, , 2 )
t=3
o`
u:
1
1
Lt (b, , 2 ) = log 2 2 [yt (b + )yt1 + byt2 ]2 .
2
2
178

ETRIE
On peut facilement verier que:

Lt
1
= 2 (yt1 yt2 )t
b
1
Lt
= 2 (yt1 byt2 )t
1
1
Lt
= 2 + 4 2t
2
2
2
o`
u:
Comme log L = k +
t = yt (b + )yt1 + byt2 .
Lt , ceci implique:
n+2
log L
1
(yt1 yt2 )t
= 2
b
t=3
n+2
1
log L
(yt1 byt2 )t
= 2
t=3
n+2
n
1 2
log L
=
+
.
2
2 2
2 4 t=3 t
Pour annuler les deux premières derivees de log L, il sut dappliquer, de manière
alternee, les moindres carres ordinaires aux deux parametrisations lineaires pouvant etre
tirees de lequation (1), à savoir:
(yt yt1 ) = b(yt1 yt2 ) + t
(yt byt1 ) = (yt1 byt2 ) + t
jusqu`
a la convergence de la somme des carres des residus t . On peut alors estimer 2 par:
n+2
1
(yt (b + )yt1 + b
yt2 )2 .
=
n t=3
2
An de formuler les variances des estimateurs ainsi obtenus et denoncer un test dautocorrelation des erreurs, nous allons tout dabord calculer lesperance et la matrice de covariance du vecteur:
Lt
b
Lt
Lt
=

Lt
2
En vertu de la loi des esperances iterees, on a:

Lt
Lt
E
= Eyt1 ,yt2 E
179
)

)
) yt1 , yt2 = 0
)
car lesperance conditionnelle apparaissant dans cette expression est nulle.

De meme, en utilisant la normalite conditionnelle de t , on a E(3t | yt1 , yt2 ) = 0 et
E(4t | yt1 , yt2 ) = 3 4 ; il est alors facile de verier que:

V
)
)

Lt Lt ))
Lt ))
yt1 , yt2
yt1 , yt2 = E
)
)
(yt1 yt2 )2
(yt1 yt2 )(yt1 byt2 )
1
(yt1 byt2 )2
= 2

0
0
1
2 2
et donc, en vertu de la loi des esperances iterees:

V
Lt
(yt1 yt2 )2
1
= 2E

(yt1 byt2 )2
0 .
1
2 2
On peut verier que les vecteurs Lt / ne sont pas

correles entre eux. La moyenne de
L
1
ces matrices est alors egale à n R(), o`
u R() = V log
est la matrice dinformation
introduite au chapitre X. Si une loi faible des grands nombres est applicable, on aura, par
exemple:
1
1
E(yt1 yt2 )2 = plim
(yt1 yt2 )2
n
n
et on peut alors estimer la matrice de covariance de n( ) par linverse de:

lim
Vn =
1
n
2
(yt1 yt2 )2

(yt1 y
t2 )(yt1 byt2 )
t2 )(yt1 byt2 )
(yt1 y

(yt1 byt2 )2
0
n
2
2

ETRIE
180
puisque plim Vn = plim n1 R(), et donc plim nR1 () = plim Vn1 .

De plus, la matrice nVn est une estimation de la matrice de covariance de log L/.
Ceci permet facilement dappliquer le principe des multiplicateurs de Lagrange pour tester
H0 : = 0 contre H1 : = 0.
Lemploi du critère LM est particulièrement indique ici. Comme nous lavons vu, la
statistique LM ne necessite que lestimation du modèle sous H0 . Dans le present contexte,
H0 signie absence dautocorrelation; et dans ce cas, lestimation du modèle par maximum
de vraisemblance se reduit a` lemploi des moindres carres ordinaires. En revanche, comme
nous lavons vu, lestimation sous H1 necessite une procedure iterative, qui est donc plus
compliquee.
Le multiplicateur de Lagrange associe à la contrainte H0 lors de la maximisation de
L
la vraisemblance est egal a` log
. On peut montrer (voir par exemple L.G. Godfrey, Misspecication tests in econometrics: the Lagrange multiplier principle and other approaches,
Cambridge University Press, Cambridge 1988, pages 11 et 14) que la statistique LM prend
ici la forme:
LM =
0 ( 0 1
log L
0 ) V0
1

0
1
0
0
L
o`
u
est la valeur de log
evaluee aux estimations contraintes des paramètres et o`
u
0

L
est lestimation contrainte de la matrice de covariance de log L/. Comme
V0 log
lestimation contrainte est identique a` lestimation par MCO, denissons alors:
u
t = yt bmco yt1 .
On verie aisement que:
0 =

V0
1
ut1 ut
02
2

yt1
yt1 u
t1

1
log L
t1
yt1 u
= 2
u2t1
0
n
2
02
et que, par consequent:

2
( u
t1 u
t )2 ( yt1
)
1

LM = 2 2 2
.
0
t1 )2
yt1 u
t1 ( yt1 u
Nous allons maintenant montrer que cette statistique est identique a` la statistique de
Breusch-Godfrey denie a` la section 9.8.2. Dans le present contexte, la statistique de
Breusch-Godfrey est la statistique LM utilisee pour tester H0 : = 0 dans lequation
de regression auxiliaire:
181
yt = byt1 +
ut1 + t
o`
uu
t1 = yt1 bmco yt2 .
Pour montrer ce resultat, notons que lestimateur des coecients de regression dans
lequation auxiliaire peut secrire:
2
1

b
yt1 ut1
yt1
y
y
t
t1

2
=
=
= (X X)1 X y
t1
yt u
t1
yt1 u
u
t1
et que la matrice des coecients de la restriction = 0 est egale à R = ( 0 1 ). Lexpression

du multiplicateur de Lagrange demontree à la section 6.1 prend alors la forme suivante:
0 = [R(X X)1 R ]1 (r R)
=

1
2

yt u
t1 ) + (
yt yt1 )(
yt1 u
t1 )
(
yt1 )(
=
2
yt1

t1 + bmco
t1
yt1 u
=
yt u

=
(yt bmco yt1 )
ut1

=
u
t u
t1 .
Par ailleurs, comme nous lavons montre à la section 7.5:
1
V01 () = 2 [R(X X)1 R ]
0
2
yt1
1

.
= 2 2 2
0
t1 )2
yt1 u
t1 ( yt1 u
On voit alors facilement que la statistique du test de = 0 dans lequation de regression
auxiliaire, a` savoir:
V 1 ()
0
LM =
0 0
est bien egale à la statistique LM denie plus haut.

Pour terminer cette section, notons que ce modèle autoregressif a` erreurs autoregressives
est restrictif. En eet, lequation (1) nest quun cas particulier du modèle plus general
suivant:
yt = yt1 + yt2 + t
avec = b + et = b. Ces contraintes sappellent restrictions de facteurs communs,
et seront examinees au chapitre XV dans un cadre plus general. Elles sont implausibles.
Cest pour cette raison que nous ne poursuivrons pas letude du modèle de cette section
14.7.3. La methodologie que nous venons denoncer est neanmoins indispensable pour la
justication du test de Breusch-Godfrey, que lon doit employer dans ce cas-ci puisque le
test de Durbin-Watson nest pas applicable.
182

ETRIE
CHAPITRE XV
`
ERAL
LE MODELE
DYNAMIQUE GEN
15.1 Pr
esentation et hypoth`
eses
Dans ce chapitre, nous allons generaliser le modèle autoregressif de la section 14.7. Une
generalisation dynamique naturelle du modèle de regression multiple consiste a` remplacer
les variables yt et x1t , . . . , xkt de ce modèle par des combinaisons lineaires de leurs retards,
à savoir (L)yt et 1 (L)x1t , . . . , k (L)xkt . On obtient alors:
(L)yt = a + 1 (L)x1t + + k (L)xkt + t
o`
u (L) est un polyn
ome normalise de degre p et i (L) est un polyn
ome de degre qi :
(L) = 1 1 L p Lp
i (L) = 0i + 1i L + + qi i Lqi .
Nous supposons que, conditionnellement aux variables explicatives de ce modèle, les
erreurs t sont normales et identiquement distribuees. Comme les variables explicatives
forment le vecteur zt = (yt1 , x1t , . . . , xkt ) et les retards de ce vecteur, nous avons:
E(t | zt , zt1 , . . . ) = 0
E(2t | zt , zt1 , . . . ) = 2 .
Comme à la section 14.7, o`
u nous avions suppose que 1 < b < 1, nous faisons aussi
lhypothèse que (L) est inversible (ses racines doivent etre toutes strictement superieures
à lunite en valeur absolue).
On designe ce modèle par AD(p, q1 , . . . , qk ).
Exemple:
Si p = 1, k = 1, et q1 = 1, le modèle secrit:
yt =
1 yt1 + a
. /0 1
partie autor
egressive
+ 01 x1t + 11 x1,t1 + t .
.
/0
1
partie retards
echelonn
es
SECONDE PARTIE, CHAPITRE XV
183
Notes:
(1) Il ne faut pas confondre ce modèle avec le modèle ARMA(p, q), qui senonce comme:
(L)yt = (L)t
o`
u (L) est de degre p, (L) est de degre q, et les t sont spheriques et inobservables.
Les erreurs ut = (L)t du modèle ARMA suivent un processus à moyenne mobile,
alors que celles du modèle AD sont spheriques.
(2) Contrairement au modèle ARMA, le modèle AD peut etre estime par MCO. Les
tests habituels sont asymptotiquement valides (F pour lordre des retards, LM
pour la sphericite des erreurs). Le modèle AD presente donc une plus grande facilite
demploi. Pour cette raison, beaucoup dauteurs preconisent son utilisation.
(3) Insistons sur la generalite du modèle AD, qui inclut comme cas particuliers:
le modèle statique si p = q1 = = qk = 0 ;
le modèle autoregressif pur (L)yt = a + t si i (L) = 0 pour tout i ;
le modèle statique à erreurs autoregressives:
yt = a +
k
j xjt + ut ,
(L)ut = t
j=1
sous des restrictions dites de facteurs communs, comme nous le verrons plus bas.
15.2 Les restrictions de facteurs communs
Ces restrictions impliquent que les polyn
omes de retards echelonnes i (L) ont le facteur
commun (L). Donc:
i (L) = (L)i (L).
Une forme particulière de ces restrictions, que nous allons examiner plus en detail, est
la proportionnalite des polyn
omes de retards echelonnes au polyn
ome autoregressif; cette
forme particulière est donc:
i (L) = (L)i
Alors le modèle AD secrit:
(L)yt = a + (L)1 x1t + + (L)k xkt + t
ce qui implique, en multipliant les deux membres par 1 (L):
yt = a + 1 x1t + + k xkt + ut
o`
u a = 1 (L)a = 1 (1)a et ut = 1 (L)t , soit aussi (L)ut = t .

ETRIE
184
Exemple:
Si p = k = q1 = 1, la restriction secrit:
1 (L) = (L)1
soit aussi:
01 + 11 L = (1 1 L)1 = 1 1 1 L.
En identiant les coecients de meme degre, on obtient:
1 = 01
11 = 11
ce qui peut secrire:
11 + 1 01 = 0.
Cette restriction est non lineaire, mais peut etre testee à laide dune generalisation
de la statistique de Wald (on utilise une approximation lineaire de la contrainte). Le test
sappelle test de facteurs communs (test COMFAC en abrege).
Exercice:
En substituant la restriction precedente dans le modèle:
yt = a + 1 yt1 + 01 x1t + 11 x1,t1 + t
montrez que lon arrive a` un modèle statique à erreurs autoregressives.
15.3 Le mod`
ele AD et la relation d
equilibre stationnaire
Le modèle AD est un modèle statistique qui ne decrit que le comportement à court terme
(cest-à-dire conditionnel au passe immediat) de yt . Pour obtenir une relation economique
interessante, il faut obtenir la solution statique (ou solution a` long terme, ou encore: relation
dequilibre stationnaire) du modèle. Une telle solution peut etre obtenue facilement si lon
suppose que les esperances de yt et des xjt sont constantes:
E(yt ) = E(y) et E(xjt ) = E(xj ).
Alors, en egalisant les esperances des deux membres de lequation du modèle AD, on
obtient:
k

(1)E(y) = a +
j (1)E(xj )
j=1
et en resolvant, il vient:
E(y) = a +
k

j=1
j E(xj )
185
o`
u a = 1 (1)a et j = 1 (1)j (1). Ceci est la relation entre les niveaux dequilibre des
variables, E(y) et E(xj ).
Commentaires:
(1) Ceci peut etre generalise au cas o`
u une tendance lineaire est incluse dans la liste
des xjt .
(2) Si lon impose les restrictions precedentes de facteurs communs j (L) = (L)j ,
on a vu que:
yt = a + 1 x1t + + k xkt + ut .
On a donc, a` partir de cette relation:
j =
yt
xjt
mais aussi, en partant du modèle AD general:

j = 1 (1)j (1) =
E(yt )
.
E(xjt )
Ceci implique donc legalite des coecients à long terme et à court terme, et fait
apparatre que les restrictions de facteurs communs sont assez implausibles.
u les erreurs t sont
Exercice: On donne le modèle autoregressif yt = 2 + 0.8yt1 + t , o`
4
independantes et de distribution commune N (0, 10 ). On demande de calculer lesperance inconditionnelle E(yt ), la variance inconditionnelle V (yt ), et dexpliciter la relation
dequilibre stationnaire de ce modèle. Illustrez vos resultats en simulant yt à partir du
modèle precedent (ceci peut etre fait a` laide dEXCEL ou dun logiciel econometrique) et
en interpretant le graphique chronologique et lhistogramme des realisations simulees.
15.4 Le mod`
ele AD et le mod`
ele de correction derreur
Nous allons maintenant reparametriser le modèle AD en utilisant une identite algebrique. Le modèle ainsi obtenu, qui porte le nom de modèle de correction derreur (ECM),
aura pour interet de faire apparatre directement les coecients de la relation dequilibre
stationnaire, a` savoir les 1 (1)j (1). Il est important de noter que le modèle de correction
derreur est equivalent au modèle AD: en particulier, les residus t obtenus par moindres
carres seront identiques dans les deux modèles. Neanmoins, le modèle ECM est non lineaire
dans les paramètres, tandis que le modèle AD est lineaire. Lestimation du modèle ECM
necessite donc lemploi de la methode des moindres carres non lineaires, qui est presente
comme option dans la plupart des logiciels econometriques.
Commencons par enoncer, sous forme de lemme, lidentite algebrique mentionnee au
debut de cette section.

ETRIE
186
Lemme 15.1.
Si A(L) = A0 + A1 L + A2 L2 + + An Ln alors:
A(L) = A(1)L + A (L)(1 L)
o`
u:
A (L) =
avec A0 = A0 et Aj =
n1
Aj Lj
j=0
n
s=j+1 As
pour j = 1, . . . , n 1 et n > 1.
Exercice:
Veriez le lemme 15.1 pour n = 1, 2, 3, 4.
D
erivation du mod`
ele de correction derreur:
On part du modèle AD:
(L)yt = a +
k
j (L)xjt + t
j=1
On applique le lemme aux polyn

omes (L) et j (L)
(1)yt1 + (L)yt = a +
k
[j (1)xj,t1 + j (L)xjt ] + t
j=1
(L)yt = a (1)[yt1
k
(1)j (1)xj,t1 ] +
j=1
(L)yt = a (1)[yt1
k

j=1
k
j (L)xjt + t
j=1
j xj,t1 ] +
k
j (L)xjt + t
j=1
Les j sont les coecients de la relation dequilibre.

15.5 Exemple
economique
Supposons que k = 1, et p = q1 = 1. Supposons de plus que:
yt = log de la consommation par tete à prix constants
xt = log du revenu disponible par tete à prix constants
Le modèle:
(L)yt = a + (L)xt + t
secrit alors comme:
187
yt 1 yt1 = a + 0 xt + 1 xt1 + t
ou encore comme:
(1 1 )yt1 + yt = a + (0 + 1 )xt1 + 0 xt + t
Si lon denit = (1 1 )1 (0 + 1 ) = 1 (1)(1), on peut ecrire:
yt = a (1 1 )yt1 + (1 1 )xt1 + 0 xt + t
yt = a (1 1 )[yt1 xt1 ] + 0 xt + t
Linterpretation de yt = xt + ut est celle dune fonction de consommation à long
terme. Le terme entre crochets est lerreur ut1 de cette relation à long terme. Le terme
(1 1 )ut1 est la correction derreur qui est ajoutee à un modèle lineaire dans les
dierences premières des variables.

ETRIE
188
CHAPITRE XVI
RACINES UNITAIRES ET COINTEGRATION
16.1 Processus stochastiques

Un processus stochastique discret peut etre considere comme une suite innie de va+
riables aleatoires, telle que {Yt }+
t= ou {Yt }t=0 .
Un processus stochastique continu peut etre considere comme une fonction aleatoire
dune variable continue t, telle que {Y (t), t R} ou {Y (t), t [0, 1]}.
En interpolant lineairement entre les points (ti , Yti ) et (ti+1 , Yti+1 ), on peut obtenir un
processus continu a` partir dun processus discret. En posant ti+1 ti = n1 et en faisant
tendre n vers linni, on peut aussi obtenir la limite de ce processus, lorsque celle-ci existe.
Cette technique est illustree par le graphique suivant, o`
u les yti sont des realisations des
variables Yti et o`
u y(t) est une realisation dun processus continu Y (t), obtenu par passage
à la limite.
yt , y(t)
y(t)

.
....................
.
.
.............................. ... ...... ...
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...............
.................
.
.
.
.
.
.
.
.
.
...........
..................
.
.
.
....
...........
.
.
.
....
.
.
.
.
.
...........
......
.
...
.
.
....
....
(t3 , yt3 )
...
......
.. ..
.
.
.
... .
.. .
... ..
... ...
.
... .
.. ..
... ..
... ...
.
. ..
... ..
.. ...
.......
.
.
...................... ... ... ... ... ... ... ... ... .........................
..................................
t
t1
t2
t3
t4
t5
SECONDE PARTIE, CHAPITRE XVI
189
16.2 Stationnarit
e faible
Un processus discret {Yt } est faiblement stationnaire (covariance-stationary) si et
seulement si:
E(Yt ) =
pour tout t
Cov(Yt , Ytj ) = j
pour tout j, t.
Les esperances et variances sont donc constantes, et la covariance entre Yt et Ys ne

depend que de lintervalle separant t et s.
Exemples:
(1) Si les variables Yt sont N (0, 1), independantes, et identiquement distribuees pour
tout t, on a:
= 0,
0 = 1,
j = 0 pour tout j = 0 .
Le processus est donc stationnaire.
u les t sont N (0, 1) independantes et o`
u || < 1, on a:
(2) Si Yt = Yt1 + t , o`
= 0,
0 = (1 2 )1 ,
j = j (1 2 )1 .
Le processus est donc stationnaire.
(3) Un exemple de processus non stationnaire est fourni par une marche aleatoire:
Yt = Yt1 + t
o`
u les t N (0, 2 ) sont independantes et o`
u Y0 = 0. En eet:
Yt = Yt2 + t1 + t
= Yt3 + t2 + t1 + t
= ...
= Y0 + 1 + 2 + + t =
t
i
i=1
On a:
E(Yt ) = 0,
V (Yt ) = t 2 ,
E(Yt Ytj ) = (t j) 2
pour j 0.
La variance de Yt depend donc de t, de meme que la covariance entre Yt et Ytj .

ETRIE
190
16.3 Processus int

egr
e dordre d
D
enition:
Un processus discret {Yt } est I(d) si et seulement si:
d Yt = + t + ut
(L)ut = (L)t
o`
u (L) et (L) sont inversibles et les t sont spheriques.
Interpr
etation dun processus I(d):
d est le nombre de fois quil faut dierencier Yt pour arriver a` un processus stationnaire
après soustraction de la tendance lineaire t . Si d 1 , on dit que le processus est
integre.
Cas particuliers dun processus I(d):
(1) d = 0 Yt suit un processus dit stationnaire à tendance (trend-stationary).
(2) d = 1, = 0, = 0, (L) = (L) = 1 Yt suit une marche aleatoire (random
walk).
(3) d = 1, = 0, = 0, (L) = (L) = 1 Yt suit une marche aleatoire avec
derive (random walk with drift).
16.4 Le test de Dickey-Fuller augment
e
Introduction
Soit {Yt } un processus stochastique discret. Quelle est la distribution limite de:
n
1
Yt
n t=1
lorsque n ?
Au chapitre X, nous avons vu les cas suivants:
(a) Si les Yt sont independantes et identiquement distribuees desperance nulle et de
variance 2 , le theorème de Lindeberg-Levy vu a` la section 10.8.1 nous dit que:
n
1
Yt N (0, 2 )
d
n t=1
191
(b) A la section 10.8.2, nous avons generalise ce resultat à des suites de variables
independantes, mais pas identiquement distribuees: Si les Yt sont independantes
desperance nulle et de variance t2 et si E(Yt3 ) < , alors:
n
1
Yt N (0, 2 )
d
n t=1
n
o`
u 2 = lim n1 t=1 t2 .
(c) A la section 10.8.3, nous avons generalise ce resultat à des suites de variables Yt
dependantes du type Yt = ut ut1 , o`
u les ut sont independantes et identiquement
distribuees desperance nulle. Nous avons vu que dans ce cas, sous certaines hypothèses:
n
1
Yt N (0, 2 )
d
n t=1
o`
u 2 = plim
1
n
n
2
t=1 Yt .
Nous devons maintenant examiner un nouveau cas, celui de lexemple 3 de la section

16.2. On peut montrer que dans ce nouveau cas, a` savoir:
Yt = Yt1 + t ,
Y0 = 0,
t
i.i.d, E(t ) = 0,
V (t ) = 2 ,
nous avons les resultats suivants:

n
1
Yt ne converge pas
n t=1
n
2
1
Yt N (0, ).
d
n n t=1
3
Donc, si lon a aaire a` des processus integres, les resultats limites habituels ne seront,
en general, plus valables. Do`
u linteret dun test destine à la detection de variables I(1) .
La r
egression de Dickey-Fuller
Notre point de depart sera la formulation dun modèle susamment general, decrivant
le comportement dune serie de realisations yt . Ce modèle doit permettre lapplication de
la denition dun processus I(1) vue a` la section 16.3. On suppose donc que:
(1)
avec:
(L)yt = + t + t
(L) = 1 1 L p Lp .

ETRIE
192
Le degre p est choisi susamment eleve, de facon à ce que les t soient spheriques. Nous
appliquons maintenant a` (L) le lemme 15.1 vu au chapitre precedent. Ceci donne:
(L) = (1)L + (L)(1 L)
(2)
avec:
0 = 0 = 1
j
p
pour j = 1, . . . , p 1 et p > 1
s=j+1
(L) =
p1
j Lj .
j=0
Nous substituons enn lequation (2) dans lequation (1), pour obtenir:
p1

j ytj = + t + t
(1) yt1 + yt +
./01
j=1
Lyt
.
/0
1
(L)(1L)yt
ou encore:
(3)
yt = + t + yt1 +
p1
j ytj + t
j=1
avec = 1 (1) et j = j .

Ceci est la regression de Dickey-Fuller. Si yt est I(1), j j ytj + t est I(0) . La
comparaison avec la denition dun processus I(1) montre que = 1 . Le test est celui de
H0 : = 1
contre
H1 : < 1.
La statistique de Dickey-Fuller est alors la statistique t pour le test de cette hypothèse, à
savoir:
mco 1
TDF =
mco
Mais cette statistique na pas une distribution limite normale car est le coecient dun
regresseur I(1). Les valeurs critiques de la statistique TDF sont fournies par Hamilton,
Time Series Analysis, 1994, Table B6, Case 4, p. 763. Pour prendre un exemple, si n = 100
et = 0.05, on va rejeter H0 : = 1 si TDF< 3.45, alors que la valeur critique normale
est egale à 1.645.
193
Pour le test de la nullite dun ou de plusieurs j (coecients de ytj ), on peut utiliser

les tests habituels (t ou F , tables Student et Fisher).
Limite en distribution de TDF sous H0 .
Le resultat suivant est demontre par Hamilton, Time Series Analysis, 1994, pp. 499500.
Sous H0 : = 1, TDF converge en distribution vers la variable aleatoire suivante:
W (1)
1
[W 2 (1) 1]
[ 0 1 0 ] A1
2
'1
W (1) 0 W (r) dr

0 1

2
[ 0 1 0 ] A1 1
0
o`
u:
'1
' 1
A=
0 W (r) dr
'1
0
W 2 (r) dr
rW (r) dr
'1
1
2
W (r) dr
'1
0
1
2
rW (r) dr
1
3
et o`
u W (r) est un mouvement Brownien standard, qui est le processus stochastique continu
obtenu comme limite de:
Zt = Zt1 + t ,
Z0 = 0,
t N (0,
1
) independantes,
n
lorsque t = 1, . . . , n et n .
An dexpliquer la nature de ce processus continu, nous allons en donner une interpretation constructive, qui permettra notamment de simuler les distributions des integrales
apparaissant dans la variable limite precedente. Ces integrales sont des variables aleatoires:
le processus W (r) peut en eet etre considere come une fonction aleatoire de r (voir la
section 16.1) et lintegrale dune fonction est un nombre.
Considerons alors la suite des variables precedentes, qui peuvent secrire:
Zt =
t
s
pour t = 1, . . . , n.
s=1
Zt a la distribution N (0, nt ). Soit r nt ; comme une variable normale centree est entièrement caracterisee par sa variance, r caracterise entièrement Zt . Notre denition implique
donc que si n , {Zt } converge en distribution vers:
{W (r), 0 r 1}.
194

ETRIE
Generalisons maintenant ceci au cas o`

u lon a une suite de variables Yt caracterisees
par:
Yt = Yt1 + ut ,
Y0 = 0,
ut N (0, 1)
independantes.
On peut
en divisant
les deux membres de legalite precedente
se ramener au cas precedent
par n, et en denissant Zt = Yt / n, t = ut / n. On a alors:
Yt
{ } {W (r), 0 r 1}.
d
n
On peut donc approcher une realisation de W (r) en engendrant un grand nombrede
realisations ut des innovations, et en engendrant par recurrence des realisations yt / n
pour t = 1, . . . , n.
Les variables W (1) et W 2 (1) qui apparaissent dans la variable limite sont faciles a`
comprendre: W (1) est la valeur de W (r) au point r = 1, cest donc la variable normale
reduite Zn . W 2 (1) est le carre dune normale reduite, cest-`
a-dire une 2 à un degre de
liberte.
Interessons-nous maintenant aux integrales apparaissant dans la variable limite. On peut
approcher les integrales par des
sommes de surfaces de rectangles dont les bases sont de
longueur 1/n et les hauteurs Yt / n , donc:

Yt
W (r) dr
n n
0
2
2
% 1
Yt
Yt
1
2
=
W (r) dr
n n
n2
0
% 1
1
1 t Yt
= 2
tYt
rW (r) dr
n
n n
n n
0
%
Pour simuler, par exemple,
'1
0
W (r) dr, on peut:
(1) engendrer n = 1000 realisations de variables ut normales reduites independantes;

(2) calculer par recurrence n = 1000 realisations yt ;
(3) calculer:
n
t=1 yt
.
n n
'1
On a alors une realisation simulee dune approximation de 0 W (r) dr.
Si lon refait cet exercice 10000 fois, on a alors 10000 realisations simulees de cette
variable aleatoire. Lhistogramme de ces 10000 realisations est une bonne approximation
'1
de la densite de 0 W (r) dr.
195
'1
En fait, Hamilton (Time Series Analysis, 1994, p.485) montre que 0 W (r) dr a la distribution N (0, 1/3). Dans des cas plus compliques, tels que la simulation de la distribution
limite de la statistique TDF, la methode de simulation est la seule possible. Il faut bien
noter que les variables aleatoires apparaissant dans la variable limite sont fonction dun
meme processus W (r).
Notes sur le test TDF:
(1) Si lon ninclut pas la constante ou la tendance lineaire dans la regression de DickeyFuller, la distribution limite change (les tables a` employer sont dierentes !). Voir
Hamilton, pp.528529, pour les details.
(2) Linclusion dune constante et dune tendance lineaire dans la regression de DickeyFuller est conseillee dans linteret de la robustesse (il est plus grave domettre à
tort des regresseurs que de faire lerreur inverse).
(3) La variable limite precedente a ete obtenue sous lhypothèse auxiliaire que = 0
(pas de tendance lineaire dans lequation (3) de cette section lorsque = 1, cest-àdire dans le modèle en dierences premières). Le test precedent nest donc approprie
que si les yt ne presentent pas de tendance quadratique manifeste. La meilleure
strategie à adopter dans le cas contraire reste une question ouverte.
(4) La technique de calcul des valeurs critiques illustre la puissance de la methodologie
de simulation stochastique.
(5) La variable limite reste inchangee si les erreurs de la regression de Dickey-Fuller
ne sont pas normales, pour autant quun theorème central limite fonctionnel soit
applicable (voir Hamilton, p.479).
16.5 Variables coint
egr
ees
On peut obtenir un processus I(0) a` partir dun processus I(1) en prenant les dierences
premières du processus I(1). Malheureusement, ceci supprime toutes les informations à long
terme. Pour cette raison, on a deni une autre approche permettant dobtenir un processus
I(0), celle de la cointegration.
D
enition:
Soit Y1t , Y2t , . . . , Ykt des processus stochastiques I(1). Ces processus sont dits cointegres
sil existe un vecteur a = 0 tel que :
a Yt =
k
ai Yit
i=1
soit un processus I(0).

Exemple:
Soit y1t une serie dobservations sur le logarithme de la consommation par tete à prix
constants, et soit y2t une serie dobservations sur le logarithme du revenu disponible par

ETRIE
196
tete à prix constants. On fait lhypothèse que ces deux series sont des realisations de
processus I(1):
y1t = 1 + y1,t1 + 1t
y2t = 2 + y2,t1 + 2t
On aura cointegration si la serie y1t y2t = ut est une realisation dun processus I(0) .
Interpr
etation:
Le vecteur cointegrant est ici a = (1, ) . On a une relation de cointegration:
y1t = y2t + ut
o`
u ut est I(0) . On peut interpreter cette relation comme une fonction de consommation
à long terme, mais linterpretation est dierente de celle que lon avait dans le cas o`
u y1t
et y2t etaient stationnaires. En eet, les niveaux dequilibre de y1t et y2t nexistent pas,
car:
yit = i + yi,t1 + it
= i + i + yi,t2 + i,t1 + it
= ...
= ti +
t
is + yi0 ;
s=1
donc E(yit ) nest pas bornee.

On ne peut donc pas avoir une relation entre les niveaux dequilibre des variables, mais
y1t = y2t peut etre consideree comme lequation dun attracteur.
Test de lhypoth`
ese de coint
egration.
Lidee de base est la suivante. On va faire un test de racines unitaires sur les residus de
la relation de cointegration obtenus par la methode des moindres carres ordinaires (cette
methodologie est la plus ancienne et la plus simple).
Il faut neanmoins prendre garde au fait que les distributions limites sont dierentes de
celles des tests de Dickey-Fuller precedents, car lestimation par moindres carres repose
sur lhypothèse de cointegration. La mise en oeuvre se deroule comme suit:
(1) On teste si yt , xt1 , . . . , xtk sont I(1), a` laide du test TDF precedent applique à
chacune de ces variables.
(2) On estime par moindres carres ordinaires la relation de cointegration:
yt = + 1 xt1 + + k xtk + ut
197
Ceci donne des residus u

t .
(3) On teste = 1 contre < 1 dans la regression:
ut1 +
u
t =
p
utj + t .
j=1
La statistique TCO = (
1)/
est à comparer avec les valeurs critiques fournies
par Hamilton, Table B9, Case 3, p.766. Ces valeurs critiques sont valables dans le
cas o`
u au moins lune des variables yt , x1t , . . . , xkt possède une derive non nulle.
16.6 R
egressions de coint
egration
Quelles sont les proprietes des estimateurs par moindres carres ordinaires des coecients
de la relation:
yt = + 1 xt1 + + k xtk + ut
o`
u toutes les variables yt , xt1 , . . . , xtk sont I(1) mais o`
u ut est I(0)? Stock (Econometrica
55, 1987, pp.10351056) montre que si = (1 , . . . , k ), alors:
n( ) 0
p
(on dit que lon a superconvergence);
n( ) vecteur non standard.

d
Le problème ne se pose donc pas au niveau de lestimation ponctuelle, mais au niveau

des tests. Letude de ces derniers ne sera pas faite ici. Plusieurs methodologies possibles
sont decrites dans Hamilton, chap. 19 et 20.
On peut substituer dans un modèle de correction derreur les residus dune relation
de cointegration estimee par moindres carres ordinaires. Pour reprendre lexemple de la
section 15.5, on peut estimer par moindres carres ordinaires dans la relation yt = xt +ut,
puis estimer, toujours par moindres carres ordinaires, a, 1 , et 0 dans le modèle:
t1 ] + 0 xt + t .
yt = a (1 1 )[yt1 x
16.7 R
egressions factices (spurious regresssions)
Que se passe-t-il si lon estime par moindres carres la relation:
yt = + 1 xt1 + + k xtk + ut
o`
u toutes les variables yt , xt1 , . . . , xtk , et ut sont I(1)? Dans ce cas, on na pas de cointegration.

ETRIE
198
Phillips (Journal of Econometrics 33, 1986, pp.311340) montre que:

(1) ( , 1 , . . . , k ) vecteur non standard
n
(2) Pour le test = 0 contre = 0:

n1 Fobs variable non standard.
d
Donc
et Fobs divergent et les i ne convergent pas en probabilite! Ceci meme si les
k + 1 variables yt , xt1 , . . . , xtk sont independantes entre elles. Pour tout c, on a que:
lim P [Fobs > c] = 1,
donc on rejettera toujours = 0 si n est assez grand.

16.8 Conclusions
(1) La modelisation econometrique des variables I(1) est un problème dicile. Le domaine manque de maturite (plusieurs questions restent ouvertes).
(2) La notion de cointegration est recente et reste contestee. Elle presente notamment
deux dicultes:
Lequivalence observationnelle, en petit echantillon, dun processus I(1) et
dun processus presque non stationnaire, par exemple le suivant:
Yt = 0.9999Yt1 + t .
Le manque de puissance des tests de racines unitaires couramment utilises.
Donc la classication dune variable entre I(0) et I(1) reste un peu un jugement
de valeurs, or letude de la relation entre les variables depend crucialement dune
telle classication.
(3) Les distributions limites des statistiques de test et des estimateurs dependent crucialement des hypothèses faites sur le modèle vrai. On peut tester ces hypothèses,
mais ceci nelimine pas le risque dune inference incorrecte.
(4) La cointegration est donc une hypothèse de travail, qui donne de bons resultats
dans certains cas, pas dans dautres. Ce nest pas une panacee.
(5) Il faut connatre les concepts de base car les problèmes poses sont importants. Le
but de cette introduction etait precisement de rendre familiers ces concepts de base
(qui peuvent etre deroutants lorsquon les rencontre pour la première fois).
`
TROISIEME
PARTIE
SYSTEMES
DEQUATIONS
SIMULTANEES
CHAPITRE I.
INTRODUCTION
1.1 Explication intuitive du biais d

u`
a la simultan
eit
e
Il arrive souvent quun modèle economique comprenne plusieurs equations simultanees.
Comme nous allons le voir, si lon ne tient pas compte de cette situation lors de lestimation
des paramètres du modèle, les estimateurs obtenus pourront presenter un biais de simultaneite, qui ne disparatra pas lorsque la taille de lechantillon tend vers linni (defaut de
convergence). En eet, certains regresseurs seront stochastiques, et seront correles avec le
terme derreur contemporain.
Nous illustrerons ce phenomène au moyen de deux exemples.
Exemple 1
Le modèle suivant, dont lorigine remonte a` Haavelmo, comporte deux equations: une
equation stochastique de comportement, et une denition (identite comptable):
Ct
a + bYt + u1t
Yt
C t + It
o`
u Ct est la consommation, Yt le revenu national, It linvestissement, et u1t est un terme

derreur formant un vecteur u1 avec E(u1 ) = 0, E(u1 u1 ) = 2 I.
En substituant la première equation dans la seconde, on obtient:
Yt = a + bYt + u1t + It ,
soit aussi:
Yt =
a
u1t
1
+
It +
.
1b 1b
1b
199

ETRIE
200
Donc si E(It u1t ) = 0, on a:

E(Yt u1t ) = E(
u21t
2
)=
= 0,
1b
1b
et lapplication des moindres carres ordinaires a` la première equation ne donne pas des
estimateurs convergents.
Si E(Yt u1t ) > 0, nous aurons, avec une probabilite relativement forte:
u1t > E(u1t ) = 0 lorsque Yt > E(Yt )

u1t < E(u1t ) = 0 lorsque Yt < E(Yt )
+ bYt , la pente de cette

Si lon represente alors les deux droites Ct = a + bYt et Ct = a
dernière droite est la plus forte, car a et b minimisent la somme des carres des residus:
Ct
8
7
......
.....
......
......
.
.
.
.
....
......
.....
......
.
.
.
.
.
......
.....
.....
......
.
.
.
.
.
......
......
......
.....
.
.
.
.
.....
......
...
.....
.............
......
.
.
.
.............
.
.
...
.............
.....
.............
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.....
..............
......
.............
.....
.............
...... .........................
.
.
.
.
.
.
.. ....
.................
...............
............. .....
............. ..........
.
.
.
.
.
.
.
.
.
.
.
.
.
......
..............
.............
......
......
.....
.
.
.
.
.....
......
.....
......
.
.
.
.
.
.....
.....
.....
......
5
4
0.5
a
+ bYt

.....
a + bYt
1.0
1.5
E(Yt )
Yt
2.0
Exemple 2
Nous avons ici deux equations de comportement, une loi dore et une loi de demande.
Les quantites demandees (qt ) dependent du prix (pt ) et du revenu (rt ). Le prix (pt ) depend
ut de production (ct ). Le système secrit:
des quantites oertes (qt ) et du co
`
TROISIEME
PARTIE, CHAPITRE I
(i)
qt
a1 + b1 rt + c1 pt + u1t
(ii)
pt
a2 + b2 ct + c2 qt + u2t
201
Donc pt depend de qt dans (ii), qui depend de u1t dans (i): nous concluons que pt est
correlee avec u1t . Mais pt apparat comme regresseur dans (i): nous avons donc un problème
de simultaneite comme auparavant.
1.2 Variables endog`
enes et pr
ed
etermin
ees
Les variables pt et qt de lexemple precedent sont dites endogènes: elles sont determinees
par le modèle, et dependent des termes derreur de chacune des equations. Les variables
ct et rt sont dites predeterminees: par hypothèse, elles ne sont correlees avec aucun des
termes derreurs contemporains.
Comme on le verra par la suite, il est important de faire une distinction entre variables
exogènes et variables predeterminees. Les variables exogènes sont determinees par des
relations nappartenant pas au modèle: elles ne sont donc correlees, ni avec les termes
derreurs contemporains, ni avec les autres termes derreur. En revanche, les variables
predeterminees comprennent, non seulement les variables exogènes, mais aussi les variables
endogènes retardees, pour autant que les erreurs ne soient pas correlees dans le temps.
1.3 Pr
esentation matricielle et hypoth`
eses
Nous pouvons ecrire le système dequations precedent sous la forme canonique suivante:
qt c1 pt a1 b1 rt 0ct
u1t
c2qt + pt a2 0rt b2 ct
u2t
ou, sous forme matricielle:
11
12
21
22
qt
pt
11
12
21
22
1
u1t
rt =
23
ct
u2t
13
avec les restrictions 11 = 1, 22 = 1, 13 = 0, 22 = 0. En general donc, nous avons

le format suivant pour un système de g equations, comportant g variables endogènes et k
variables predeterminees:

ETRIE
202
Byt + xt = ut
o`
u B est une matrice g g de coecients des variables endogènes;
est une matrice g k de coecients des variables predeterminees;
yt est un vecteur g 1 de variables endogènes;
xt est un vecteur k 1 de variables predeterminees;
ut est un vecteur g 1 derreurs inobservables.
Les hypothèses de ce modèle sont les suivantes:
(H1 ) E(ut ) = 0
pour tout t = 1, . . . , n
(H2 ) E(ut ut ) =
(t = s)
(H3 ) E(ut us ) = Ogg

(H4 ) B est regulière
(H5 ) rang (X) = k < n

(H6 ) plim

(H7 ) plim

1
nX U

1
nX X
= Okg

= XX est denie positive
o`
u
x1

x2

.
.
.

est n k
et
est n g
xn
u1

u2

.
.
.

un
En reunissant toutes les observations t sur Byt + xt = ut , on peut aussi secrire

Y B + X = U, o`
u Y est n g.
`
TROISIEME
PARTIE, CHAPITRE I
203
1.4 Forme structurelle et forme r

eduite
Le système Byt + xt = ut sappelle la forme structurelle du modèle: cest la representation formelle dun modèle economique et ce sont donc les paramètres de ce système que
nous voulons estimer. Neanmoins, comme nous lavons vu, nous ne pouvons estimer ces
paramètres par la methode des moindres carres ordinaires appliquee à chaque equation.
Nous allons donc transformer la forme structurelle en un système derive, dit forme
reduite, qui exprime chaque variable endogène en fonction de toutes les variables predeterminees du modèle, et des erreurs.
Premultiplions les deux membres de Byt + xt = ut par B 1 . Il vient:
yt = xt + vt
avec = B 1 et
vt = B 1 ut
Comme nous le verrons, les g equations de ce nouveau système peuvent etre estimees
par moindres carres ordinaires, sans problème de simultaneite.
La forme reduite peut aussi secrire:
Y = X + V
, o`
u V = U(B )1
Comme cas particuliers de la forme reduite, nous pouvons mentionner:

(1) Le modèle MANOVA (multivariate analysis of variance) o`
u les variables exogènes
ne prennent que les valeurs 0 et 1.
(2) Le modèle autoregressif vectoriel (VAR). Ce modèle peut secrire:
(L)yt = 0 + vt
o`
u (L) est une matrice de polyn
omes:
(L) = I 1 L p Lp .
On a alors:
yt = 0 + 1 yt1 + + p ytp + vt
ce qui correspond bien a` lequation yt = xt + vt , si lon denit:
1
yt1
xt =
..
.
ytp
= ( 0 1 2 . . . p ) .
(3) Le modèle autoregressif a` retards echelonnes vectoriel, o`
u lon a un nombre arbitraire de variables exogènes formant un vecteur zt et un nombre arbitraire de
retards de ces variables. Il sagit dune generalisation du modèle VAR precedent,
qui peut secrire comme:
(L)yt = (L)zt + vt .
Un cas particulier de ce type de modèle sera etudie en detail a` la section 1.7.
204

ETRIE
1.5 Propri
et
es statistiques de la forme r
eduite
Il est facile de verier que:
E(vt ) = 0
E(vt vt ) = B 1 (B )1
E(vt vs ) = Ogg pour t = s

1
X V = Okg .
plim
n
Donc les erreurs de la forme reduite sont desperance nulle, homoscedastiques, non
correlees dans le temps, et non correlees avec les regresseurs contemporains.
On peut par consequent estimer les equations de la forme reduite par moindres carres
ordinaires. La colonne i de legalite matricielle Y = X + V peut secrire:
y i = X i + v i
o`
u i est la colonne i de la matrice . Ceci est une equation de regression du type habituel,
et par consequent:
i = (X X)1 X y i
= (X X)1 X Y.
On montrera plus loin (section 5.1) que cet estimateur est aussi lestimateur par maximum de vraisemblance lorsque les erreurs sont normales. En revanche, comme nous lavons
indique, la forme structurelle ne peut pas etre estimee par MCO.
1.6 Interpr
etation
economique de la forme r
eduite
Reprenons le modèle de la section 1.1:
Ct
a + bYt + u1t
Yt
C t + It
Lestimation des paramètres de cette forme structurelle ne fournit que les propensions
marginales et moyennes a` consommer. On pourrait aussi se demander quel est limpact sur
la consommation dune augmentation des depenses dinvestissement. Cet impact est bien
entendu mesure par le multiplicateur.
`
TROISIEME
PARTIE, CHAPITRE I
205
Nous allons voir que ce multiplicateur nest autre que lun des coecients de la forme
reduite. Ces coecients mesurent donc leet sur les variables endogènes dun changement
des variables predeterminees, lorsque lon tient compte de la simultaneite du système.
La forme structurelle secrit Byt + xt = ut , avec
B=
, =
yt =
Ct
, xt =
Yt
et ut =
u1t
It
Donc:
=
=
1
B =
1b

1
a b
,
1 b a 1
1
1
1
b
1
a 0
0 1
et la forme reduite secrit:
Ct
Yt
On obtient donc directement
b
a
+
It + v1t
1b 1b
1
a
+
It + v2t
1b 1b
dCt
b
1
dYt
=
=
et
.
dIt
1b
dIt
1b
1.7 Forme r
eduite dynamique, forme nale, multiplicateurs
Certaines variables predeterminees sont ici des variables endogènes retardees. Dans le
cas particulier dun seul retard, nous pouvons ecrire la forme reduite comme:
yt = 1 yt1 + 2 zt + vt
o`
u yt est le vecteur des variables endogènes contemporaines, yt1 est le vecteur des
variables endogènes retardees, zt est le vecteur des variables exogènes et 1 , 2 sont des
sous-matrices de .
Nous allons, au moyen de substitutions successives, exprimer yt en fonction des seules
variables exogènes et des erreurs.

ETRIE
206
On a
yt
1 (1 yt2 + 2 zt1 + vt1 ) + 2 zt + vt
21 yt2 + 1 2 zt1 + 2 zt + 1 vt1 + vt
et, après s substitutions:

yt =
s+1
1 yts1
j1 2 ztj
j=0
j1 vtj
j=0
On fait alors lhypothèse que lims s1 = O, et lon obtient en passant a` la limite:

yt
Cj ztj +
j=0
avec:
j1 vtj ,
j=0
Cj = j1 2 .
def
Cette dernière equation sappelle la forme nale du modèle. Elle permet dobtenir, par
simple lecture, les multiplicateurs dynamiques. On distingue:
(1) Les multiplicateurs dimpact: ce sont les composantes de C0 = 2 .
(2) Les multiplicateurs de delai j: ce sont les composantes de Cj . Ils mesurent leet
sur les yt dune variation temporaire des variables exogènes à la periode t
j.
(3) Les multiplicateurs cumules: ce sont les composantes de la matrice D = j=0 Cj .

Ils mesurent leet sur les yt dune variation prolongee des variables exogènes durant
les + 1 periodes t , t + 1, . . . , t.
(4) Les multiplicateurs dequilibre: ce sont les composantes de la matrice:
D =

1
Cj = I + 1 + 21 + . . . 2 = (I 1 ) 2 .
j=0
Ils mesurent leet dune variation des zt soutenue pendant une innite de periodes.
Le niveau dequilibre des variables endogènes est alors donne par E(
y ) = D z, o`
u
z est le nouveau niveau des variables exogènes.
A titre dexemple, considerons la forme structurelle suivante:
Ct
0.25 + 0.5Yt + u1t
It
Yt
=
=
0.15 + 0.1Yt + 0.3Yt1 + u2t

Ct + It + Gt .
Supposons qu`
a partir dune situation dequilibre, le niveau G des depenses gouvernementales augmente dune unite à la periode t 1, et revienne a` la periode suivante à son
`
TROISIEME
PARTIE, CHAPITRE I
207
niveau initial. On demande les eets de cette augmentation temporaire sur C, Y et I `

a la
periode t et à la periode t + 1.
Nous avons ici:
Ct

yt = Yt ;

xt =
yt1
zt =
Gt
zt
It
et la forme structurelle Byt + xt = ut secrit:
0.5
0.1
1
Ct

1 Yt + 0

1
0.3 0
It
Ct1
u1t
0.25 0
Yt1
0.15 0 It1 = u2t

0
1 1
0
Gt
On verie aisement que
0.375 0
= B 1 = 0
0.75
0.375 0
0.75 1.25
1
2.5
0.25 0.25
et la forme reduite secrit yt = 1 yt1 + 2 zt + vt , avec:
1 = 0
0.375 0
0.75
0 et
0.375 0
0.75 1.25
2 = 1
2.5
0.25 0.25
Les reponses aux questions posees sont donnees par les multiplicateurs de delai 1, et de
delai 2. On verie que:

ETRIE
208
0.375
0.9375
1.875
C1 = 1 2 = 0.75
0.375
0.9375
0.28125
0.703125
1.40625
C2 = 21 2 = 0.5625
0.28125
0.703125
et si
Donc, si une situation dequilibre prevaut a` la periode t 2 (soit si Gt2 = G)
= 1 tandis que Gs G
= 0 pour s = t 1, on a, a` un terme derreur près:
Gt1 G
Ct C = 0.9375
Yt Y = 1.875
It I = 0.9375
Ct+1 C = 0.703125
Yt+1 Y = 1.40625
It+1 I = 0.703125
En eet:
yt y
C0 (zt z) + C1 (zt1 z) + C2 (zt2 z) + . . . + t
yt+1 y
C0 (zt+1 z) + C1 (zt z) + C2 (zt1 z) + . . . + t+1
Si maintenant laugmentation des depenses gouvernementales se maintient pour un

nombre inni de periodes, la consommation augmentera, à lequilibre, de 5 unites; le revenu
national, de 10 unites; linvestissement, de 4 unites. En eet:
D = (I 1 )
2.25
2 = 4
1.75
10
1.8 Relation entre la forme r

eduite dynamique et le mod`
ele AD
Le modèle de la section precedente peut aussi secrire:
(L)yt = (L)zt + vt
o`
u (L) = I 1 L et (L) = 2 . On sapercoit que la matrice D des multiplicateurs
dequilibre nest autre que [(1)]1 (1). De manière plus generale, tous les resultats du
chapitre XV de la seconde partie ont une generalisation vectorielle dans le present contexte.
`
TROISIEME
PARTIE, CHAPITRE II
209
CHAPITRE II.
`
LE PROBLEME
DE LIDENTIFICATION
2.1 Structures observationnellement

equivalentes
Lorsque nous estimons les paramètres de la forme reduite par la methode des moindres
carres ordinaires, le problème suivant se pose. Comme nous lavons signale à la section
1.4, ce sont les composantes des matrices B et qui nous interessent en premier lieu.
Peut-on, alors, trouver des estimations convergentes uniques de ces composantes a` partir
destimations convergentes des composantes de ? Ce problème est celui de lidentication
de B et de .
Pour que B et puissent etre identiees, il faut quil existe une correspondance bijective entre dune part, B et dautre part. Donc, il faut qu`
a toute forme reduite
corresponde une et une seule forme structurelle et reciproquement. Il est facile de voir que
sans restrictions sur les coecients, ceci ne sera jamais le cas. A une forme reduite donnee
correspondrait une innite de formes structurelles; ces dernières sont dites observationnellement equivalentes (elles impliquent la meme forme reduite).
Considerons en eet les deux formes structurelles suivantes:
Byt + xt = ut
et (F B)yt + (F )xt = F ut
o`
u F est une matrice g g regulière, dierente de la matrice unite. A la seconde forme
structurelle correspond la forme reduite yt = B 1 xt + B 1 ut , comme on le voit facilement si lon premultiplie les deux membres par (F B)1 = B 1 F 1 . Cette forme reduite
est identique a` la première. Les deux formes structurelles sont donc observationnellement
equivalentes. Or, il existe une innite de matrices F regulières.
On verie que les deux formes structurelles conduisent a` la meme fonction de vraisemblance. Le problème du maximum de vraisemblance na donc pas de solution unique.
Comment, alors, estimer B et ? Nous ne pouvons le faire que gr
ace aux restrictions
a` priori que nous fournit la theorie economique sur les composantes de ces matrices. Le
problème didentication est donc conceptuellement fort semblable au problème de multicolinearite etudie à la section 5.7.1 de la deuxième partie.
En particulier, certaines des composantes seront nulles: les variables correspondantes
apparatront dans certaines equations, mais pas dans les autres (voir la section 1.1 de cette
troisième partie). Ces restrictions impliqueront alors des restrictions sur la matrice F , car

ETRIE
210
les matrices de coecients F B et F de la structure transformee doivent obeir aux memes

restrictions que la structure dorigine (dans le cas contraire, nous changerions le modèle!)
Si ces restrictions impliquent une matrice de transformation unique, il y a correspondance
bijective entre forme structurelle et forme reduite: B et sont alors identiables.
2.2 Syst`
emes r
ecursifs
Un système recursif est caracterise par une matrice B triangulaire et une matrice =

E(ut ut ) diagonale. Un exemple dun tel système est donne par:
11
12
21
22
y1t
y2t
11
x1t =
21
u1t
u2t
avec les restrictions 11 = 22 = 1, 12 = 0, et E(u1t u2t) = 12 = 21 = 0. On peut

alors ecrire:
y1t
11 x1t + u1t
y2t
21 y1t 21 x1t + u2t
Lapplication des moindres carres ordinaires a` chaque equation donne des estimateurs
convergents. La propriete est evidente pour la première equation. En ce qui concerne la
seconde, il est immediat que E(y1t u2t ) = 0, puisque E(x1t u2t ) = 0 et E(u1tu2t ) = 0.
Nous allons illustrer la section precedente en veriant, par le biais de la matrice de
transformation F , que les deux equations du système sont identiables.
Les matrices de la forme structurelle transformee:
FB
f11
f12
f21
f22
11
12
21
22
f11 11 + f12 21
f11 11 + f12 21
f11 12 + f12 22
f21 11 + f22 21
f21 12 + f22 22
f21 11 + f22 21
doivent obeir aux trois memes restrictions que les matrices B et . De meme, la matrice
de covariance de la forme structurelle transformee doit etre diagonale. Nous avons donc
les quatre restrictions suivantes (il faut bien noter que ce sont les seules):
`
TROISIEME
PARTIE, CHAPITRE II
f11 11 + f12 21
f11 12 + f12 22
f21 12 + f22 22
f11 (11 f21 + 12 f22 ) + f12 (21 f21 + 22 f22 )
211
ou, en substituant les quatre restrictions sur les paramètres de la forme structurelle
dorigine:
f11 + f12 21
f12
f22
f11 11 f21 + f12 22 f22
Comme 11 = 0, ces quatre equations ont comme solution unique f11 = 1, f12 = 0, f21 =
0, f22 = 1.
Donc les restrictions impliquent F = I, et nous ne pouvons avoir deux formes structurelles dierentes impliquant la meme forme reduite. Les deux equations sont identiables.
Exercice: Calculez la forme reduite du système precedent. Pourquoi ne peut-on pas identier les paramètres de la seconde equation structurelle lorsque E(u1t u2t ) = 0?
2.3 La condition de rang
Lorsque les seules restrictions sont des restrictions lineaires homogènes portant sur les ij
et ij , jointes a` des restrictions de normalisation (ij = 1 pour un seul j dans lequation i ),
nous allons voir quil nest pas necessaire de passer par lapproche de la section precedente.
Une condition necessaire et susante pour lidentiabilite dune equation peut en eet etre
enoncee en fonction du rang dune certaine matrice.
212

ETRIE
2.3.1 Formulation en fonction des coecients de la forme r

eduite.
Comme = B 1 , nous pouvons enoncer la relation suivante, qui lie les paramètres
de la forme structurelle à ceux de la forme reduite:
B + = Ogk
soit aussi:
AW = Ogk
o`
u:
A = (B
W =
est g (g + k)
est (g + k) k
Ik
Soit alors i la i-ième ligne de A. Il sagit du vecteur des coecients de la i-ième equation
structurelle. Le rang de W est egal a` k. En eet, comme rang (Ik ) = k, rang (W ) k; mais
W na que k colonnes, donc rang (W ) k. Donc i W = O1k est un système homogène
de k equations independantes avec g + k inconnues. Lensemble des solutions est donc un
espace vectoriel de dimension (g + k) k = g.
Les restrictions homogènes devront ramener cette dimension a` lunite pour que lequation i soit identiable. Le vecteur i sera alors determine à un facteur de proportionnalite
près et la restriction de normalisation permettra de le determiner de facon unique.
Ces restrictions homogènes, au nombre de Ri , sont regroupees dans le système i i =
O1Ri . La matrice i a g + k lignes et Ri colonnes. Au total, le système dequations qui
devrait nous permettre de retrouver les paramètres de la i-ième equation structurelle a`
partir des restrictions et des paramètres de la forme reduite est le suivant:
i ( W
et le rang de ( W
proportionnelles.
i ) = O1(k+Ri )
i ) doit etre egal a` g + k 1 pour que toutes les solutions soient
2.3.2 Formulation
equivalente en fonction des coecients de la forme structurelle.
Cette formulation est plus facile a` utiliser que la precedente, car elle nimplique pas le
calcul de .
`
TROISIEME
PARTIE, CHAPITRE II
Th
eor`
eme.
Le rang de ( W
g 1.
213
i ) est egal a` g + k 1 si et seulement si le rang de Ai est egal a`
D
emonstration:
Voir Judge et al., The Theory and Practice of Econometrics, 1985, p.577.
2.4 La condition dordre
Supposons maintenant que les seules restrictions homogènes soient des restrictions dexclusion (du type ij = 0 ou ij = 0). Nous pouvons alors enoncer un critère encore plus
simple que le precedent. Il faut neanmoins insister sur le fait que ce critère est une condition
necessaire, mais pas susante, pour lidentication dune equation. Si la condition dordre
nest pas veriee, lequation nest pas identiable; si la condition dordre est satisfaite, il
faut neanmoins verier la condition de rang.
Repartons de lequation rang ( W i ) = g + k 1. Comme ( W i ) a k + Ri colonnes
et g + k lignes, cette condition ne sera certainement pas veriee si Ri < g 1; en eet, dans
ce cas, rang ( W i ) k+Ri < k+g1. Une condition necessaire pour lidentication de
lequation i est donc Ri g 1. Comme les Ri restrictions sont des restrictions dexclusion,
on a:
R i = g g i + k ki
o`
u gi et ki sont les nombres de variables respectivement endogènes et predeterminees
incluses dans lequation i. Il faut donc que:
R i = g g i + k ki g 1
soit
k ki g i 1 .
Cette dernière inegalite est la condition dordre.

Le nombre de variables predeterminees exclues ne peut etre inferieur au nombre de
variables endogènes incluses moins 1.
Si k ki = gi 1, lequation est dite juste-identiee.
Si k ki > gi 1, lequation est dite sur-identiee.
2.5 Exemple
Reprenons le système recursif de la section 2.2. Nous allons voir que sans la restriction
12 = 0, la première equation reste identiable, mais la seconde ne lest pas.
214

ETRIE
La matrice A secrit, en tenant compte des restrictions:
A=
0 11
21 1 21

0
0
, qui est de rang 1 = g 1.

Pour la première equation, 1 = 1 . Donc A1 =
1
0
La première equation est donc identiable. Comme k k1 = 0 = g1 1 = 0, elle est
juste-identiee.
Pour la seconde equation, k k2 = 0 < g2 1 = 1. Cette equation nest pas identiable.
Exercice: Discutez lidentication des deux equations de lexemple 2 de la section 1.1
`
TROISIEME
215
CHAPITRE III.
` INFORMATION LIMITEE
METHODES
DESTIMATION A
3.1 Introduction
Nous verrons dans ce chapitre la methode des moindres carres indirects, qui nest applicable qu`
a une equation juste-identiee (k ki = gi 1); la methode des moindres carres
doubles, qui est applicable a` toute equation identiable (k ki gi 1); et lestimateur
de classe k, qui generalise celui des moindres carres doubles et qui inclut aussi, comme cas
particulier, lestimateur par maximum de vraisemblance à information limitee. Le terme
information limitee signie que lon ne tient compte, lors de lestimation des coecients
de la i-ième equation structurelle, que des restrictions a priori sur cette equation (independamment de la formulation des autres equations). Les methodes de cette classe ont donc
lavantage de la simplicite et de la robustesse. En revanche, les methodes à information
complète, que nous verrons au chapitre IV, sont potentiellement plus ecaces car elles
utilisent les restrictions a priori sur toutes les equations du système.
Lestimateur de moindres carres doubles, que nous verrons a` la section 3.3, est lestimateur a` information limitee le plus couramment utilise. Cest un estimateur par variables
instrumentales, qui est asymptotiquement equivalent a` celui du maximum de vraisemblance
à information limitee.
3.2 Moindres carr
es indirects
3.2.1 Pr
esentation de la m
ethode.
Nous avons mentionne plus haut que les equations de la forme reduite yt = xt +
vt pouvaient etre estimees par moindres carres ordinaires: on regresse chaque variable
endogène sur toutes les variables predeterminees presentes dans le modèle. Ceci fournit
une estimation convergente de la matrice , soit .

Si lequation i est juste-identiee, on peut en deduire des estimations convergentes des
composantes de i en resolvant le système
i ( W
i ) = O1(k+Ri )
o`
u
=
W
Ik
et en imposant la condition de normalisation.

ETRIE
216
3.2.2 Limitations.
Montrons que cette procedure nest pas applicable lorsque Ri = g 1. La matrice
i ) est de dimensions (g + k) (k + Ri ).
(W
Si Ri > g 1, son rang sera de g + k en general, meme si rang ( W i ) = g + k 1.
Nous avons donc g + k equations independantes en g + k variables. La solution unique est
le vecteur nul, et cette solution est donc incompatible avec la condition de normalisation!
i ) sera strictement inferieur a` k + g 1, et nous aurons
Si Ri < g 1, le rang de ( W
une innite de solutions.
Illustrons ce qui precède au moyen de lexemple suivant:
St
a0 + a1 pt + a2 Et + u1t
pt
b0 + b1 St + b2 rt + b3 pt1 + u2t
o`
u St est le taux de variation des salaires; pt est le taux dination; Et est le taux de
chomage; rt est le taux dinteret.
Les deux variables endogènes sont pt et St ; les quatre variables predeterminees sont la
constante, Et , rt et pt1 .
La matrice A a la forme suivante:
A=
a1
b1
a0
a2
b0
0
b2
b3
Les deux matrices 1 et 2 sont
Donc
0
0
0
1 =
0
1
0
A1 =
b2
0
0
0
1
0
b3

0
0

0
2 =
1

0
0
et
A2 =
a2
Les deux matrices sont de rang 1, donc les deux equations sont identiables. Pour la
première equation, k k1 = 2 > g1 1 = 1. Pour la seconde, k k2 = 1 = g2 1 = 1.
Donc la première equation est sur-identiee, la seconde est juste-identiee.
Nous resumons les donnees de lechantillon dans la matrice des sommes de carres et de
produits suivante:
`
TROISIEME
St
pt
Constante
Et
rt
pt1
217
St
pt
Constante
Et
rt
pt1
361
100
10
20
80
80
100
279
80
10
60
40
10
80
100
0
0
0
20
10
0
20
0
0
80
60
0
0
40
0
80
40
0
0
0
80
Les paramètres de la forme reduite sont estimes par moindres carres ordinaires. Donc:
10
20
80
10
1
100
80 80 0
60 40 0
0.1
0.8
0.5 1.5
1
20
1
40
1
80
0.5
Estimons les paramètres de la seconde equation structurelle par la methode des moindres
carres indirects. Ces estimations sont obtenues en resolvant:
( b1
b0
b2
0.1
0.8 0.5
0
1
b3 )
1
0
0
0
0
0
1.5 0.5
0
0
= (0
0
0
1
0
0
1
0 0
0)
ce qui implique b0 = 0.75, b1 = 0.5, b2 = 0.5, b3 = 0.

Si nous tentons de faire la meme demarche pour la première equation, nous obtenons:

ETRIE
218
( 1 a1
a0
a2
0.1
0.8
0)
0
0.5 1.5
0
0.5
= (0
0
0)
La troisième equation de ce système senonce comme 2 1.5 a1 = 0, la quatrième

comme 1 0.5 a1 = 0. Ces deux equations sont incompatibles.
3.3 Moindres carr
es doubles
Contrairement à la precedente, cette methode peut etre appliquee à toute equation identiee. Nous fournirons deux interpretations de lestimateur par moindres carres doubles:
(1) une interpretation heuristique;
(2) une interpretation en termes de variables instrumentales;
3.3.1 Notation.
Supposons que nous voulions estimer les paramètres de la i-ième equation structurelle.
Celle-ci peut secrire:
yi
Yi i + Xi i + ui
ou
yi
Ti i + ui
avec Ti
( Yi
Xi )
et i =
i
yi est le vecteur n 1 des observations sur la variable endogène dont le
coecient est normalise à lunite dans lequation i;
Yi est la matrice n (gi 1) des observations sur les variables endogènes qui
sont incluses comme regresseurs dans lequation i;
Xi est la matrice n ki des observations sur les variables predeterminees
incluses dans lequation i.
`
TROISIEME
219
3.3.2 Premier exemple dapplication.

Pour la forme structurelle de la section 1.1:
Ct = a + bYt + u1t
Yt = C t + I t
nous avons calcule la forme reduite:
Ct = 11 + 12 It + v1t
Yt = 21 + 22 It + v2t .
Si la matrice etait connue, on pourrait calculer:
Yt = 21 + 22 It .
Si It est non stochastique, Yt est non stochastique. On pourrait alors imaginer destimer
par MCO les paramètres a et b dans lequation modiee:
Ct = a + bYt + wt .
En fait, est inconnue. Mais on peut lestimer de facon convergente par MCO, et
calculer:
21 +
22 It .
Yt =
Lestimateur de a et b par moindres carres doubles se calcule en appliquant les MCO à
lequation structurelle modiee:
Ct = a + bYt + et .
3.3.3 Pr
esentation heuristique g
en
erale.
Cette presentation conduit aisement aux equations normales. Nous denirons lestimateur de i par moindres carres doubles comme le vecteur obtenu en:
regressant, par moindres carres ordinaires, chacune des variables de Yi sur toutes les
variables predeterminees du modèle, an dobtenir une matrice de valeurs calculees
Yi ;
puis en remplacant Yi par Yi dans lequation yi = Yi i + Xi i + ui et en appliquant
une nouvelle fois les moindres carres ordinaires a` lequation ainsi obtenue.
220

ETRIE
Lidee est donc la suivante:

Nous avons, en vertu de la forme reduite, legalite Y = X + V . Si etait une

matrice connue, le fait de remplacer la matrice Y par la matrice X purgerait donc
les variables endogènes de leur partie aleatoire. On pourrait alors appliquer les moindres
carres ordinaires a` une equation structurelle o`
u lon aurait remplace les composantes de
Yi par ces valeurs purgees, puisque ce sont ces parties aleatoires qui sont responsables du
biais de simultaneite.
En pratique, bien s
ur, est une matrice inconnue. Mais nous pouvons lestimer de facon
convergente, en appliquant les moindres carres ordinaires a` chaque equation de la forme
lestimation obtenue.
reduite. Soit
Supposons, sans perte de generalite, que Yi forme les premières colonnes de Y , et par de la facon suivante:
tageons la matrice
= (
)
est k (g (gi 1)).

est k (gi 1) et
o`
u
0
i
. Par ailleurs,
, etant obtenue par regression
On voit directement que Yi = X
i
i
= (X X)1 X Yi . Donc
des colonnes de Yi sur celles de la matrice X, est egale à
i

Yi = X(X X)1 X Yi est la matrice obtenue lors de la première etape de la methode des
moindres carres doubles.
Pour la seconde etape, nous avons lequation de regression yi = Yi i + Xi i + i , que
nous pouvons aussi ecrire yi = Zi i + i avec Zi = ( Yi Xi ). Les equations normales

secrivent alors (Zi Zi )i = Zi yi , soit:
(E.N.1)

Yi Yi
Xi Yi

Yi Xi
Xi Xi
i
i

Yi yi
Xi yi
3.3.4 Justication par les variables instrumentales.

Supposons, sans perte de generalite, que la matrice Xi forme les premières colonnes de
X, et denissons PX = X(X X)1 X . On a PX Xi = Xi , car (X X)1 X Xi forme les ki
premières colonnes dune matrice unite dordre k. Dautre part PX Yi = Yi . On a alors:
Zi = ( Yi
Xi ) = PX ( Yi
Xi ) = PX Ti
et par consequent:
i = (Zi Zi )1 Zi yi
= [(PX Ti ) (PX Ti )]1 (PX Ti ) yi
= [Ti PX Ti ]1 Ti PX yi
= [Zi Ti ]1 Zi yi
`
TROISIEME
221
ou encore:
(E.N.2)
Yi X(X X)1 X Yi
Xi Yi
Yi Xi
Xi Xi
Yi X(X X)1 X yi
Xi yi
Lexpression [Ti PX Ti ]1 Ti PX yi montre que lon a bien un estimateur par variables
instrumentales: les observations sur ces variables forment la matrice X. La convergence en
probabilite de i vers i est garantie par lhypothèse H6 de la section 1.3.
Il est interessant de noter que Ti PX Ti est dordre ki + gi 1 et de rang inferieur ou
egal a` k. Donc si la condition dordre nest pas veriee (k ki < gi 1), la matrice des
coecients des equations normales sera singulière.
3.3.5 Distribution asymptotique.
Puisque lestimateur des moindres carres doubles est un estimateur par variables instrumentales, le theorème 13.8 de la seconde partie lui est immediatement applicable. Nous
avons donc le resultat suivant.
Th
eor`
eme.
Soit i lestimateur de i par moindres carres doubles. Sous les hypothèses dun theorème
central limite:

n(i i ) N (0, ii 1 ) o`
u ZZ = plim 1 Z Zi
.
(1) dlim
ZZ
(2) Si
ii =
1
n (yi

Ti i ) (yi Ti i ), alors plim
ii = ii
Notons quil nest pas necessaire de calculer chaque residu pour calculer
ii . On verie
en eet par simple substitution que:

Y
Yi Yi
y
i
i

1
+ i
yi yi 2i
ii =

n
Xi yi
Xi Yi
Yi Xi
Xi Xi
3.3.6 Exemple num

erique.
Reprenons maintenant lexemple de la section 3.2.2. Pour la première equation, les
observations sur la variable pt forment la matrice Y1 ; celles sur la constante et sur la
variable Et forment la matrice X1 . Le vecteur y1 nest autre que ( St ).
Construisons les equations normales à partir de (E.N.2). On obtient par simple lecture:

ETRIE
222
80

10
X Y1 =
60
40
X1 y1 =
10
20
X1 X1 =
100
20
10

20
X y1 =
80
80
100
0
X X =
20
40
X1 Y1 =
80
10
80
Par consequent, 1 et 1 sont la solution du système:
179
80
80
100
10
10
178

= 10
0
1
20
20
Nous obtenons comme solution:
200
160
22000
100
32/22
100
80
1150
178
80 10
348
234/220
6/22
160
a
1
20

0
a

a
2
En ce qui concerne maintenant la seconde equation, les observations sur St forment la

matrice Y2 ; celles sur la constante, rt et pt1 , forment la matrice X2 ; celles sur pt forment
le vecteur y2 . Nous avons alors:
`
TROISIEME
10

20
X Y2 =
80
80
100
223
X2 X2 = 0
40
80
80

10
X y2 =
60
40
80

X2 y2 = 60
40
10

X2 Y2 = 80
80
et les equations normales sont:
261
10
80
80
10
80
100
40
178
b1

0 b0 80

0 b2 60

b3
80
40
80
système dont la solution est b0 = 0.75, b1 = 0.5, b2 = 0.5, b3 = 0. Nous retombons sur
les memes resultats que ceux obtenus par moindres carres indirects! Ceci est d
u au fait que
lequation 2 soit juste-identiee. Cette propriete est generale, comme on peut le demontrer.
1 , a
2 . On a:
Estimons maintenant les variances asymptotiques des estimateurs a
0 , a
11

1
=
361 2 ( 1.45
100
100
1.06 0.27 ) 10
20
279
80
+ ( 1.45 1.06 0.27 ) 80
100
10
10
1.45
0 1.06 = 5.4575
20
0.27

ETRIE
224
et les estimations des variances asymptotiques sont:

a20
5.4575
a21
348
22000
= 0.0863
0.0496
a22 = 0.2853.
Comme:
6/22
2
a
= 0.5106 < 1.96,
=
a2
0.2853
a
2 nest pas signicativement dierent de zero.
3.4 Lestimateur de classe k
Il fut deni par H. Theil comme la solution

Yi Yi k Vi Vi
Xi Yi
Yi Xi
ik
ik
ik
des equations normales suivantes:

Yi k Vi
=

Xi Xi
ik
Xi yi

yi
o`
u Vi est une matrice de residus de la forme reduite, denie comme:
Vi = (I X(X X)1 X )Yi = MYi
Si k = 0, nous avons lestimateur obtenu par moindres carres ordinaires appliques à la
i-ième equation structurelle.
Si k = 1, nous avons lestimateur de moindres carres doubles, comme on peut le voir
facilement à partir des equations normales (E.N.2) puisque PX Yi = Yi Vi et puisque
Yi Vi = Vi Vi .
Si k est aleatoire et plim k = 1, nous avons un estimateur convergent. Si, en particulier,
k est egal a` la plus petite racine dune certaine equation determinantale, on obtient
lestimateur de maximum de vraisemblance a` information limitee; on peut prouver que
plim n( 1) = 0 (voir Judge et al., The Theory and Practice of Econometrics, p. 602).
`
TROISIEME
PARTIE, CHAPITRE IV
225
CHAPITRE IV.
` INFORMATION COMPLETE
`
METHODES
DESTIMATION A
Nous estimons ici, globalement, les paramètres dun système entier. Nous supposons que
toute equation non identiable, et toute identite, a ete supprimee du système (les identites
sont eliminees par substitution). Les methodes de ce chapitre permettent, dans certains
cas, un gain decacite asymptotique.
4.1 Le produit de Kronecker et certaines de ses propri
et
es
Cette operation permet, dans le cadre des systèmes dequations, lelaboration dune
notation très compacte.
Si A est une matrice m n et B est une matrice p q, A B est la matrice mp nq
suivante:
AB
a11 B
a21 B
.
..
am1 B
a12 B
...
a22 B
...
..
.
...
am2 B
...
a1n B
a2n B
..
.
amn B
Mentionnons quelques-unes des proprietes de ce produit.
BF C F
B C
.
4.1.1 Si A =
, alors A F =
D E
DF E F
Il ny a pas de propriete analogue lorsque cest la matrice F qui est partagee.

4.1.2 (A B) = A B
4.1.3 A (B + C) = A B + A C
4.1.4 (B + C) A = B A + C A
4.1.5 (A B) C = A (B C)
4.1.6 tr(A B) = (trA)(trB) si A et B sont carrees.

ETRIE
226
4.1.7 Si A est m m et B est n n:

det(A B) = (det A)n (det B)m
4.1.8 Si A et B sont regulières:
(A B)1 = A1 B 1
4.1.9 Si les produits AC et BD sont denis:
(A B)(C D) = AC BD .
4.2 Lop
erateur de vectorisation et certaines de ses propri
et
es
Soit A une matrice m n dont les colonnes sont les vecteurs ai :
A = ( a1
on denit:
a2
...
an )
a1
a2
vec A =
...
an
Le vecteur vec A est donc mn 1.

Les proprietes les plus importantes de cet operateur sont les suivantes:
4.2.1 Si les matrices A, B, C sont conformes pour la multiplication, alors vec(ABC) =
(C A) vec B;
4.2.2 Si les matrices A et B sont conformes pour la multiplication et si AB est carree, la
trace de (AB) est egale à (vec A ) vec B.
Pour une etude approfondie des operateurs et vec et dautres operations matricielles
avancees, on peut consulter Magnus et Neudecker, Matrix Dierential Calculus with Applications in Statistics and Econometrics, 1988.
4.3 Moindres carr
es g
en
eralis
es et forme r
eduite
Comme premier exemple dapplication des deux operateurs precedents, nous allons montrer que dans le cas dune forme reduite, lemploi des moindres carres generalises est equivalent a` lestimation par MCO de chaque equation individuelle.
Nous avons vu, a` la section 1.4, que la forme reduite pouvait secrire:
Y = X + V.
Comme X = X Ig , lapplication de la règle 4.2.1 donne:
vec Y = (Ig X) vec + vec V.
`
TROISIEME
PARTIE, CHAPITRE IV
227
Cette equation peut aussi secrire comme:

Y = X + U
avec:
Y = vec Y
X = Ig X
U = vec V
= vec .
On verie aisement que E(U) = Ong1 , et que la matrice de covariance E(UU ) est egale à
u v = B 1 (B )1 est la matrice de covariance contemporaine des erreurs
= v In , o`
de la forme reduite.
Mais v In nest pas diagonale. Nous avons un cas particulier du modèle traite à
la section 8.2.3 de la seconde partie. Pourquoi, alors, peut-on estimer les equations de ce
modèle par moindres carres ordinaires et non par moindres carres generalises? Ceci vient
du fait que les regresseurs soient les memes dans chaque equation (X = Ig X). Nous
allons verier, a` laide des proprietes des deux sections precedentes, que la formule des
MCG se simplie:
= = (X 1 X )1 X 1 Y
vec
= [(Ig X) (v In )1 (Ig X)]1 [Ig X] (v In )1 Y
1
= [(Ig X) (1
[Ig X] (1
v In )(Ig X)]
v In )Y

1

[1
= [1
v (X X)]
v X ]Y

= [v (X X)1 ][1
v X ]Y
= [Ig (X X)1 X ]Y
(X X)1 X
O
..
.
O

(X X)1 X
..
.
...
...
..
.
...
y1
y2
.
.
.

1
yg
(X X) X
O
O
..
.

ETRIE
228
4.4 Moindres carr

es triples
4.4.1 Pr
esentation heuristique.
La methode des moindres carres doubles revient a` estimer i dans lequation X yi =

(X Ti )i + X ui par moindres carres generalises. Si nous regroupons les g equations de ce
type, nous obtenons:
X y1
X T1

X y2 O

. = .
. .
. .

X yg
...
X T2
...
..
.
..
.
...

1
X u1
O
. .
.. + .
.
..
.

Xu
g
X Tg
soit aussi:
o`
u Y est gk 1, et X est gk
Y = X + U
i=1 (ki
+ gi 1).
En ce qui concerne les erreurs U, on a, sous lhypothèse simplicatrice que X est non
stochastique, E(U) = 0, et:
E(UU )
=
=
(X X)

11 (X X)
..
.
g1 (X X)
12 (X X)
..
.
...
..
.
g2 (X X) . . .

1g (X X)
..
gg (X X)
La methode des moindres carres triples senonce alors comme suit:

(1) On applique les moindres carres doubles à chaque equation individuelle. Ceci donne,
pour lequation i, un vecteur de residus ui = yi Ti i .
= (u
U.
(2) Soit U
1 . . . . . . ug ). La matrice est estimee par S = n1 U
Ceci
(3) On applique enn la formule de Aitken au système precedent pour obtenir .
donne:

= {X [S 1 (X X)1 ]X }1 X [S 1 (X X)1 ]Y
Si lelement (i, j) de S 1 est note sij , on verie facilement que:
s11 A11
= ...
sg1 Ag1
...
..
.
...
1 g

1j
1
X yj
s1g A1g
j=1 s T1 X(X X)

..
..

.
.
g

gg
gj
1
s Agg
X yj
j=1 s Tg X(X X)
`
TROISIEME
PARTIE, CHAPITRE IV
229
o`
u Aij = Ti X(X X)1 X Tj .
4.4.2 Justication par les variables instrumentales.
Denissons:
T1
O
T =
...
O
T2
..
.
...
...
..
.
...
O
O
..
.
Tg
y1
y2
z=
..
.
yg

1
2
=
...
g
u1
u2
u=
.. .
.
ug
Le système des g equations structurelles peut alors secrire:

z = T + u.
On verie aisement que la matrice X et le vecteur Y de la section 4.4.1 peuvent secrire:
X = (Ig X )T
Y = (Ig X )z
En substituant ces expressions dans:

= {X [S 1 (X X)1 ]X }1 X [S 1 (X X)1 ]Y
on obtient après simplication:

= [T (S 1 PX )T ]1 T (S 1 PX )z
avec PX = X(X X)1 X .

ETRIE
230
Nous avons donc bien un estimateur par variables instrumentales; les instruments forment la matrice (S 1 PX )T .
Verions que ces instruments verient bien la propriete du lemme 13.6 de la seconde
partie. Le vecteur plim n1 Z u prend ici la forme:
1
plim T (S 1 PX )u
n
vecteur dont les sous-vecteurs prennent la forme:
plim
1 ij
s Ti X(X X)1 X uj =
n
j
1

1
1
1
ij
s
plim
Ti X
XX
X uj =
n
n
n
j
1

1
1
1
ij
s
plim X X
plim X uj = 0
plim Ti X
n
n
n
j
en vertu de lhypothèse H6 de la section 1.3.

4.4.3 Comparaison avec les moindres carr
es doubles.
Il est facile de verier que si lon applique les moindres carres doubles à chaque equation
du système, on obtient lestimateur:
0 = [T (Ig PX )T ]1 T (Ig PX )z
Donc, dans ce cas, les instruments forment la matrice (Ig PX )T , au lieu de (S 1
PX )T dans le cas des moindres carres triples. Si 1 nest pas diagonale, les moindres
carres triples utilisent plus dinformation que les moindres carres doubles, et sont donc
potentiellement plus ecaces.
Trois remarques peuvent etre faites:
(1) Si lon impose la contrainte ij = 0 , i = j , S et S 1 sont diagonales. est alors
identique a` lestimateur obtenu en appliquant les moindres carres doubles à chaque
equation du système: il ny a aucun gain decacite.
(2) Si chaque equation du système est juste-identiee, est identique a` lestimateur
obtenu en appliquant les moindres carres indirects a` chaque equation. On obtiendra
aussi des resultats identiques en appliquant les moindres carres doubles à chaque
equation. Il ny a donc gain decacite que lorsque lune, au moins, des equations
est suridentiee.
(3) Enn, si le système ne comprend quune seule equation de comportement, les
moindres carres triples sont bien entendu equivalents aux moindres carres doubles.
`
TROISIEME
PARTIE, CHAPITRE IV
231
4.4.4 Distribution asymptotique.

Lestimateur par moindres carres triples, nous lavons montre, est un estimateur par
variables instrumentales. Il est donc convergent, asymptotiquement sans biais, et asymptotiquement normal. A lencontre de lestimateur par moindres carres doubles, il est de plus
asymptotiquement ecace.
Th
eor`
eme. Soit lestimateur de par moindres carres triples, et soit 0 lestimateur
de obtenu en appliquant les moindres carres doubles a` chaque equation.
Sous les hypothèse dun theorème central limite:
(1) plim =
u:
(2) dlim n( ) N (0, Q) o`
Q = plim n[T (1 PX )T ]1
(3) plim S 1 = 1 , o`
u S a ete precedemment definie.
0
(4) Si Q est la matrice de covariance asymptotique de n(0 ), alors:
u B est definie non negative.
Q0 = Q + B, o`
Nous allons justier ce theorème au moyen dun argument par analogie. A la section
13.3.3 de la seconde partie, nous avions trouve la matrice de covariance asymptotique:
V = plim n
2 (Z X)1 Z Z(X Z)1 .
Cette matrice peut aussi secrire:
V = plim n(Z X)1 V (Z u | Z)(X Z)1 .
Dans le cas qui nous occupe, Z doit etre remplace par (1 PX )T , et X doit etre
remplace par T . De plus, nous avons E(uu | Z) = In au lieu de E(uu | Z) = 2 I.
Par consequent, V (Z u | Z) devient:
E[T (1 PX )uu (1 PX )T ) | Z] = T (1 PX )( I)(1 PX )T
= T (1 PX )T
En faisant ces remplacements dans lexpression de V et en simpliant, on obtient:
Q = plim n[T (1 PX )T ]1
qui est identique a` la matrice de covariance de lenonce.
232

ETRIE
4.4.5 Exemple num

erique.
Appliquons la methode precedente au modèle de la section 3.2. Il nous faut dabord
calculer
S=
11
12
12
22
La variance
11 a ete calculee à la section 3.3.6 (
11 = 5.4575). On obtient de meme:
22

1
279 2 ( 0.5
=
100
0.75 0.5
100
80
0)
60
40
+ ( 0.5 0.75
361
10
0.5 0 )
80
10
80
100
40
80
12

1
=
100 ( 1.45
100
279
80
0.5
0 0.75
= 2.03
0 0.5
80
1.06 0.27 ) 80
10
( 0.5 0.75
361
10
0.5 0 )
80
80
100
80
60
+ ( 1.45 1.06 0.27 ) 10
100
20
0.5

0.75
0
= 3.3018.
0.5
0
0
40
`
TROISIEME
PARTIE, CHAPITRE IV
233
Les blocs:
T1 X(X X)1 X T1 ,
T2 X(X X)1 X T2 ,
T1 X(X X)1 X y1
ont egalement ete calcules à la section 3.3.6. Il reste à trouver:

T2 X(X X)1 X T1 ,
T1 X(X X)1 X y2 ,
T1 X
T2 X
Y1 X

X1 X
Y2 X

X2 X
10
20

80
80
60 40
0
0
0
0
80 80
0
0
40 0
0 80
80 10
100 0
0
20
10 20
100 0
0
0
0
0
X y1
80
10

60
40
X y2
Il est facile alors de verier que:
T2 X(X X)1 X T1
178 10
80 100
60
0
40
0
T2 X(X X)1 X y1
261
10
80
80
T1 X(X X)1 X y2
179
80
10
T2 X(X X)1 X y1 .
Nous avons:

20
0
0
0
T2 X(X X)1 X y2

ETRIE
234
Les equations normales des moindres carres triples secrivent alors:
179
80
11.484 80 100
10
0
178 10
80 100
18.679
0
60
40
178
80
0 18.679 10
100
10
20
20
261
20
0
10
30.875
0
80
80
0
10
100
0
0
a1

a
0 0 0

a
0 0 2

80 80
b1 =

0 0
b0

40 0
b2

0 80
b3
179
178
+
18.679
80
10
11.484
10
20
178
261
80
10
+ 30.875
18.679
60
80
60
40
80
La solution de ce système, conduit au vecteur de paramètres suivant:
1.4545
1.0636
0.2727
= 0.5
0.75
0.39
0.165
et à la matrice de covariance asymptotique estimee:
40
`
TROISIEME
PARTIE, CHAPITRE IV
0.0496
0.0397
0.0248
0.045
0.015
0.0397 0.0248
0.0863
0.0198
0
0.033
0.036
235
0.045
0.015
0.2166
0.1064
0.0198
0
0.033
0.036
0.012
0.2853 0.1651 0.0165

0.3527
0.1726
0.1651 0.1015 0.0101 0.203 0.1015
0.0165 0.0101 0.0213

0.0203
0.0101
0.3527
0.203
0.0203
0.4477
0.2166
0.012
0.1015
0.1726
0.0101
4.5 Maximum de vraisemblance `

a information compl`
ete
Cette methode est la première en date de toutes celles que nous avons vues. Cest
aussi la plus co
uteuse à appliquer, et, pour cette raison, la moins employee. Son interet
theorique est neanmoins très grand: en vertu des proprietes des estimateurs par maximum
de vraisemblance, les estimateurs obtenus sont convergents, asymptotiquement sans biais,
et asymptotiquement ecaces. En fait, en vertu dun theorème dequivalence asymptotique,
nous pourrons justier rigoureusement lemploi de la methode des moindres carres triples
par le biais du maximum de vraisemblance.
4.5.1 La vraisemblance logarithmique.
La forme structurelle secrit:
Y B + X = U
et la t-ième ligne ut de U est un vecteur aleatoire satisfaisant ut N (0, ). Les autres

hypothèses de ce chapitre restent inchangees.
La densite jointe de lun des vecteurs ut secrit:
fu (ut ) = (2)
g/2
1/2
(det )
1
exp ut 1 ut
2
Les yt et les ut sont lies par la relation Byt + xt = ut . Donc la matrice jacobienne

= B , et en vertu du theorème de la section 2.2 de la première partie, nous pouvons
ecrire la densite de yt conditionnelle a` xt comme:
ut
yt
ft (yt ) = fu (Byt + xt ) | det B | = fu (Byt + xt ) | det B |

ETRIE
236
Par consequent, la densite des variables endogènes conditionnelle aux variables exogènes
secrit comme:
fY (y1 , . . . , yn ) =
n

ft (yt ) =
t=1
(2)
ng/2
ou, puisque:

n/2
(det )
| det B |n exp
n
1

(Byt + xt ) 1 (Byt + xt )
t=1
ut 1 ut = tr U 1 U = tr 1 U U :
t=1
fY (y1 , . . . , yn ) =
ng/2
(2)
n/2
(det )

1
1
Y B + X
Y B + X
.
| det B | exp tr
2
n
Pour obtenir la vraisemblance logarithmique, on prend le logarithme de cette expression

consideree comme fonction de B, , et :
log L(B, , ) =

1
n
1
k log (det ) + n log (| det B |) tr
Y B + X
Y B + X
2
2
ou encore:

n
log det 1 + n log (| det B |)
2

1
1
1
1
tr 1 BY Y B tr 1 X Y B tr 1 BY X tr 1 X X .
2
2
2
2
log L = k +
4.5.2 Les conditions de premier ordre.

Pour trouver les derivees, nous notons que:

1
1
tr 1 X Y B + tr 1 BY X = tr BY X 1 = tr X Y B 1
2
2
et nous utilisons les formules suivantes (voir Magnus et Neudecker, Matrix Dierential
Calculus with Applications in Statistics and Econometrics, 1988):
`
TROISIEME
PARTIE, CHAPITRE IV
237
log (| det A |) 1
= A
A
tr AC = C
A
tr DACA = 2DAC
A
si D et C sont symetriques.
Par consequent:
log L
1

n
1
Y B + X
Y B + X = O
2
2

1
log L
B
n B
log L
1 BY X 1 X X = O
1 BY Y 1 X Y = O
On peut ecrire ces expressions de manière plus condensee comme:
1
U U
n
1 1
U Y
n
1 U
X
avec U

+ X
YB

B
1
Ce système est non lineaire, et doit etre resolu par des methodes numeriques. Pour quil
ait une solution unique, on doit lui ajouter les restrictions didentication. Il faut noter
est precisement celle que nous avons employee en moindres carres
que la formule de
X = O, equation que nous
triples. Dautre part, la troisième equation est impliquee par U
pouvons mettre en parallèle avec les equations normales du modèle de regression classique,

= 0.
qui peuvent secrire X u
238

ETRIE
CHAPITRE V.
ANALYSE STATISTIQUE DE LA FORME
REDUITE
(REGRESSION
MULTIVARIEE)
5.1 Estimation par maximum de vraisemblance

Il est facile, à partir des resultats de la section 4.5, de trouver les estimateurs par
maximum de vraisemblance des paramètres de la forme reduite. En eet, la forme reduite
= Ig , et quil ny a
est un cas particulier de la forme structurelle lorsque lon impose B
pas de restrictions a priori sur la matrice .
Les conditions de premier ordre de la section 4.5.2 secrivent alors:
X = Ogk
1 U
= 1U
U
n
Il est facile de verier que les estimateurs:
=
= Y X(X X)1
= 1 (Y [I X(X X)1 X ]Y )
n
satisfont bien a` ces conditions.
En eet, si nous denissons M = [I X(X X)1 X ], nous avons, en utilisant les estimateurs de B et de , la matrice de residus suivante:
= Y X(X X)1 X Y = MY.
= Y Ig + X
U
La matrice M est symetrique et idempotente, et verie M X = O. Il sensuit donc que
X = O et que U
U
= Y MY , ce qui implique bien les conditions de premier ordre.
U
Nous allons maintenant estimer les variances des coecients de regression de la forme
reduite. Nous pouvons ecrire:
= (X X)1 X Y = (X X)1 X (X + V ) = + (X X)1 X V.
`
TROISIEME
PARTIE, CHAPITRE V
239
Par consequent:
) = vec[(X X)1 X V ] = [Ig (X X)1 X ] vec V.
vec(
Si nous supposons, pour simplier largument, que X est non stochastique, la matrice
secrit:
de covariance de vec
]) } = [Ig (X X)1 X ]E(vec V vec V )[Ig X(X X)1 ]

])(vec[
E{(vec[
= [Ig (X X)1 X ][ In ][Ig X(X X)1 ]
= [ (X X)1 (X X)(X X)1 ]
= [ (X X)1 ]
et lon peut donc estimer la matrice de covariance par:
) =
(X X)1 .
V (vec
Si X est stochastique, on peut utiliser la meme règle destimation mais son interpretation
est asymptotique. La justication utilise les memes arguments quaux chapitres XIII et XIV
de la seconde partie.
Exercice: Soit la forme reduite suivante, o`
u lon a 2 equations et 3 variables predeterminees:
y1t = 11 + 12 x1t + 13 x2t + v1t
y2t = 21 + 22 x1t + 23 x2t + v2t .
Formulez la statistique de Wald pour le test de H0 : 13 = 22 contre H1 : 13 = 22 .
Note:
Pour le calcul du rapport des vraisemblances, nous devrons, a` la section suivante, diviser
Il est donc interessant de connatre des conditions necessaires pour la regularite
par det .
de .
= Y MY /n avec M = I X(X X)1 X .
est dordre g et M est
On a vu que
est singulière. Le nombre dobservations doit etre
de rang n k. Donc si n k < g,
superieur a` la somme du nombre de regresseurs par equation et du nombre dequations.

ETRIE
240
5.2 Tests dhypoth`

eses sur les coecients par le rapport des vraisemblances
Comme à la section precedente, nous pouvons formuler la vraisemblance de la forme
reduite comme un cas particulier de celle de la forme structurelle; cette dernière vraisemblance a ete vue à la section 4.5. Si nous posons = , B = I, et U = V , nous
obtenons:
1
L(, ) = (2)ng/2 (det )n/2 exp[ tr1 (Y X ) (Y X )].
2
, la vraisemblance maximisee secrit:
Si nous denissons V = Y X
1 V V ].
)
= (2)ng/2 (det )
n/2 exp[ 1 tr
L(,
2
et que donc:
On peut simplier cette expression en notant que V V = n,
1 V V = tr
= ng.
1 (n)
tr
Par consequent:

)
= (2)ng/2 (det )
n/2 exp ng .
L(,
2
Considerons alors la partition suivante des colonnes de :
= (
et le test de lhypothèse:
H0 : = 0
contre H1 : = 0 .
Un exemple de ce test est celui o`

u 0 = O: dans ce cas, on teste lomission des premières
0 les estimations
0 et
variables explicatives de la forme reduite. Si nous designons par
contraintes de et de , le rapport des vraisemblances peut secrire:
0,
0)
L(
)
L(,

0 )n/2 exp ng
(2)ng/2 (det
=
2
n/2 exp ng
(2)ng/2 (det )
2
n/2

0
det
.
=
det
`
TROISIEME
PARTIE, CHAPITRE V
241
Nous obtenons donc une generalisation de lexpression demontree à la section 7.2 de la

seconde partie: au lieu davoir des variances estimees, on a des determinants de matrices
de covariances (qui portent aussi le nom de variances generalisees).
En vertu du theorème de la section 10.12 de la seconde partie, la distribution limite sous
H0 de 2 log est une 2(p), o`
u p est le nombre delements de . Mais dans ce cas-ci, on
na pas, en general, une transformation monotone de ayant une distribution F sous H0
en petit echantillon. La situation est donc dierente de celle que nous avons rencontree au
chapitre VII de la seconde partie.
On a constate, notamment à laide detudes de simulation, que lemploi des valeurs
critiques asymptotiques (celles de la 2 ) conduit, en petit echantillon, a` un rejet trop
frequent de lhypothèse nulle, meme si celle-ci est vraie. Ceci signie que les valeurs critiques
exactes de 2 log sont superieures à celles de la 2 si n est faible.
Anderson (An Introduction to Multivariate Statistical Analysis, 1984) propose la correction suivante, qui nest basee sur une argumentation theorique rigoureuse que lorsque X est
non stochastique. Mais des etudes de simulation ont montre que cette correction donnait
de bons resultats en general, meme lorsque le modèle comporte des variables endogènes
retardees. Au lieu de 2 log , on utilise (2 log ), o`
u le facteur de correction est deni
comme:
n q2 12 (g + q1 + 1)
=
n
o`
u q1 est le nombre de colonnes de et o`
u q2 = k q1 . On compare cette statistique
à la valeur critique dune 2 ayant p = gq1 degres de liberte. Si X est non stochastique,
lerreur dapproximation est dordre n2 .
Il est possible de montrer que cette correction est analogue a` celle qui consiste à utiliser,
dans la denition de la statistique t, lestimateur sans biais de la variance des erreurs au
lieu de lestimateur par maximum de vraisemblance.
5.3 Forme r
eduite d
eriv
ee
= Y X(X X)1 , on utilise:
Si, au lieu destimer par
= B
1
et
ont ete calculees par lune des methodes destimation de la forme structurelle
o`
uB
(MCD, MCT, MVIL, ou MVIC), on parle de forme reduite derivee. Si chaque equation est
= ;
mais si tel nest pas le cas,
est potentiellement plus ecace que
juste-identiee,
car il tient compte de plus de restrictions.
Les methodes destimation de la forme structurelle permettent destimer les variances

et ,
mais
est une fonction non lineaire de ces maasymptotiques des elements de B
trices. Dans cette section, nous allons donc enoncer un theorème permettant destimer les
Des versions de ce theorème sont enoncees dans Monfort,
variances des elements de .
Cours de Probabilite, p. 166 et dans Hamilton, Time Series Analysis, p. 186. Il peut bien

ETRIE
242
s
ur aussi servir dans dautres contextes, chaque fois que lon veut faire un test dhypothèses
sur une fonction non lineaire de paramètres; une application courante est le test des restrictions de facteurs communs, que nous avons rencontrees au chapitre XV de la seconde
partie.
Th
eor`
eme. Soit un vecteur de paramètres inconnus et soit son estimateur.
Supposons que:
(1)
dlim n( 0 ) N (0, )
(2) La fonction g() Rm ait toutes ses derivees partielles continues

(3) La matrice jacobienne:
g1
1
...
..
.
...
g = ...
gm
1
alors:
g1
k
..
.
gm
k
soit de rang m
=0
g(0 )) N (0, (g)(g) )

dlim n(g()
Comme exemple, nous allons estimer la variance asymptotique de lun des coecients
de la forme reduite du modèle de Haavelmo. Nous avons vu a` la section 1.6 que la première
equation de cette forme reduite pouvait secrire comme Ct = 11 + 12 It + v1t , avec
11 = a/(1 b). Supposons que a et b aient ete estimes par a
et b, et que leurs variances
2
et leur covariance asymptotiques aient ete estimees par
a ,
b2 , et
ab . Lapplication du
11 = a
/(1 b) donne alors:
theorème precedent a`
11 ) =
V (
1
(1 b)2
a2 +
2
a
a
b2 + 2
ab .
(1 b)4
(1 b)3
Exercice. Reprenez lexemple de la section 15.2 de la seconde partie, portant sur les
restrictions de facteurs communs. Comment testeriez-vous lhypothèse H0 : 11 +1 01 = 0
contre H1 : 11 + 1 01 = 0?
`
TROISIEME
PARTIE, CHAPITRE VI
243
CHAPITRE VI.
TRIPLES ET DU
COMPARAISON DES MOINDRES CARRES
` INFORMATION COMPLETE
`
MAXIMUM DE VRAISEMBLANCE A
Nous allons montrer dans ce chapitre que les estimateurs MCT et MVIC ont la meme
distribution limite normale, et sont par consequent asymptotiquement equivalents. Lestimateur MCT herite donc des proprietes decacite asymptotique de la methode du maximum de vraisemblance.
En fait, comme nous le verrons, lestimateur MVIC peut etre considere comme un
estimateur par variables instrumentales, mais ces variables sont construites à laide de la
forme reduite derivee au lieu de letre par la forme reduite directe.
Les developpements de ce chapitre sont dus a` Hausman (An instrumental variable approach to full information estimators for linear and certain nonlinear econometric models,
Econometrica 43, 1975, pp. 727738).
6.1 Reformulation des
equations normales des moindres carr
es triples
Nous avons vu, a` la section 4.4.2, que si lon reunissait les n observations sur les g
equations de la forme structurelle, on pouvait ecrire, en tenant compte des restrictions de
normalisation et dexclusion:
z =T+u
o`
u T etait une matrice diagonale par blocs, avec des blocs diagonaux donnes par les
matrices Ti = ( Yi Xi ) denies à la section 3.3.1.
Lestimateur MCT pouvait secrire comme:
= (Z T )1 Z z
avec Z = (S 1 PX )T . PX etait egale à X(X X)1 X et S etait lestimateur de obtenu
en appliquant les moindres carres doubles à chaque equation separement.
La matrice Z peut etre obtenue en supprimant de la matrice suivante:
Z = (S 1 PX )[Ig ( Y
=S
PX ( Y
X )]
X)
les colonnes qui correspondent aux restrictions dexclusion et de normalisation.
244

ETRIE
Considerons alors le système suivant:

(Z T ) = Z z.
(1)
On peut ecrire ce système sous la forme:

S 1 = O(k+g)g
W U
(2)
o`
u:
W = PX ( Y
et o`
u:
X)
= z T .
vec U
En eet, legalite (2) implique:

=0
S 1 ) = (S 1 W ) vec U
vec(W U
ce qui est bien equivalent a` legalite (1), en vertu de la denition de Z .
On peut obtenir lestimateur MCT en supprimant, dans le système (1), les equations
qui correspondent aux restrictions de normalisation et dexclusion (puisque les equations
de ce système correspondent à des colonnes de Z ). De meme, on peut obtenir lestimateur
MCT en selectionnant, dans legalite matricielle
(2), les elements qui correspondent aux

B
.
elements non contraints de la matrice

6.2 Reformulation des conditions de premier ordre du
maximum de vraisemblance `
a information compl`
ete
La contribution fondamentale de Hausman a ete de noter que les conditions de premier
ordre du maximum de vraisemblance, que nous avons vues a` la section 4.5.2, pouvaient
secrire sous une forme analogue à lequation (2) de la section precedente, a` savoir:
U
1 = O(k+g)g
W
ce qui permet la comparaison des deux methodes destimation. Nous allons demontrer ce
resultat.
Tout dabord, la condition de premier ordre sur peut secrire:
(a)
U
1 .
nIg = U
Ensuite, la condition de premier ordre sur B peut secrire:

(b)
1 .
1 (nIg ) = Y U
B
`
TROISIEME
PARTIE, CHAPITRE VI
245
En combinant (a) et (b), il vient:

U
1 Y U
1 = O
1 U
B
+ X
:
= BY
ce qui implique, puisque U
+ X
)U
1 Y U
1 = O
1 (BY
B
soit aussi, en developpant:
1 X
U
1 + B
U
1 Y U
1 = O
1 BY
B
et en simpliant:
U
1 = O.
1 X
B
(c)
Enn, la condition de premier ordre sur implique:
1 = O.
X U
(d)
En regroupant (c) et (d) et en changeant de signe, il vient:

1 X

B
X
1 = O
U
U
1 = O, avec:
ce qui montre que lon a bien W
= ( X(B
1 )

W
X)
.
6.3 Comparaison des deux nouvelles formulations
La comparaison avec les MCT est alors immediate, si lon note que la matrice W de la
section 6.1 pouvait secrire comme:
W = PX ( Y
X ) = ( PX Y

X ) = ( X
X)
de la section 6.2 peut secrire:

= (X X)1 X Y , tandis que la matrice W
avec
= ( X

W
X)
= B
1 .
Pour former les instruments, les MCT utilisent la forme reduite directe,
avec
tandis que le MVIC utilise la forme reduite derivee.

ETRIE
246
En dautres termes, les MCT utilisent les instruments:
PX T1
O
(S 1 In )
..
.
O

avec PX Ti = ( X
i

avec Ti = ( X
i
O
PX T2
..
.
...
...
..
.
O
O
..
.
...
PX Tg
Xi ); tandis que le MVIC utilise les instruments:
T1
O
1 In ) .
(
.
.
O
T2
..
.
...
...
..
.
...
O
O
..
.
Tg
Xi ).
6.4 Cons
equences
On peut deduire facilement de ce qui precède lequivalence asymptotique des MCT et

des MVIC. En eet, comme les estimateurs sont convergents:
i = i
i = plim
plim
=
plim S = plim
et les matrices de covariance asymptotiques sont donc les memes en vertu du theorème de
Slutsky.
Or, sous lhypothèse dun theorème central limite, les distributions limites des estimateurs MCT et MVIC sont normales multivariees. Elles sont donc entièrement caracterisees
par leurs esperances et leurs matrices de covariance.
Donc les distributions limites sont les memes; ceci constitue la meilleure justication
theorique possible de la methode des MCT, qui est plus facile a` mettre en oeuvre que celle
du MVIC.
`
TROISIEME
PARTIE, CHAPITRE VII
247
CHAPITRE VII.
METHODES
NUMERIQUES
DE
MAXIMISATION DE LA VRAISEMBLANCE
Pour une excellente presentation de ces methodes, le lecteur pourra consulter larticle
de synthèse de R. Quandt, Computational problems and methods, dans: Handbook of
Econometrics vol. I (1983), edite par Griliches et Intriligator, pp. 699764. Nous nous
bornerons ici a` parler des methodes les plus courantes.
7.1 M
ethode de Newton-Raphson
Lidee de base de cette methode est de denir une suite dapproximations quadratiques
de la vraisemblance. En maximisant successivement chacune de ces approximations, on
espère converger vers un maximum de la vraisemblance. Lapproximation quadratique à
literation k se fait autour du maximum de lapproximation utilisee à literation k 1.
Soit donc un vecteur k 1 de paramètres à estimer et soit 0 une valeur de . Soit
L() = log L() la vraisemblance logarithmique. Nous ecrivons le gradient de L comme:
L
g() =
et la matrice Hessienne de L comme:

2L
H() =

.
Une approximation quadratique de L() autour de 0 est donnee par:
1
L0 () = L(0 ) + g (0 )( 0 ) + ( 0 ) H(0 )( 0 )
2
En vertu des règles de la section 3.4 de la seconde partie, les conditions de premier ordre
pour la maximisation de cette approximation sont donnees par:
L
= g(0 ) + H(0 )( 0 ) = 0
ce qui implique:
= 0 H 1 (0 )g(0 ).
La methode de Newton-Raphson est une application recurrente de cette règle, à savoir:
k+1 = k H 1 (k )g(k )
248

ETRIE
7.2 M
ethodes quasi-Newton
La methode precedente a plusieurs limitations. La matrice Hessienne H(k ) peut ne
pas etre denie negative pour certaines valeurs des paramètres. Elle est souvent dicile a`
calculer. Enn, la règle de la n de la section precedente implique souvent un deplacement
trop important, surtout lorsque lon est proche du maximum.
Pour ces raisons, il est utile de generaliser cette règle. Si lon denit Ak comme une
approximation de H 1 (k ), gk comme g(k ), est dk comme Ak gk , une telle generalisation
est la suivante:
k+1 = k + k dk
o`
u k est un scalaire positif qui maximise la fonction dune seule variable suivante:
F (k ) = L(k + k dk )
Le vecteur dk denit donc la direction dans laquelle on se deplace et k est lamplitude
du deplacement dans la direction dk .
On peut noter que gk dk est la derivee de L(k + k dk ) par rapport a` k . Comme

gk dk = gk Ak gk , cette derivee sera positive si Ak est denie negative. Si Ak est linverse
de la Hessienne et si L est concave, un accroissement marginal de k aura donc pour eet
daugmenter la vraisemblance.
De nombreuses methodes empiriques ont ete proposees pour choisir Ak . Dans les sections
suivantes, nous passerons en revue celle du score et celle de Davidon-Fletcher-Powell, qui
sont parmi les plus employees.
7.3 M
ethode du score
On remplace ici la matrice Hessienne par son esperance, et denit donc:

1
2L
.
Ak = E
=k
Ak est donc lopposee de linverse de la matrice dinformation, que nous avions denie
a` la section 10.10 de la seconde partie comme:

R() = E
2L

=E
L L

`
TROISIEME
PARTIE, CHAPITRE VII
249
Les avantages de cette methode sont les suivants:

(1) La matrice dinformation est dordinaire dexpression plus simple que la Hessienne;
(2) Une matrice dinformation regulière est denie positive, meme si la vraisemblance
nest pas localement concave; Ak est alors denie negative, ce qui est necessaire
pour la convergence de lalgorithme comme nous lavons vu;
(3) Au point stationnaire, la Hessienne de L est en general egale à R() (voir la
derivation de R() dans le modèle de regression multiple, vue à la section 10.10
de la seconde partie); lorsque lon sapproche de loptimum, la methode du score
devient donc pratiquement equivalente a` celle de Newton-Raphson;
(4) A la convergence de lalgorithme, la matrice Ak est une estimation de la matrice
de covariance asymptotique de (voir la section 10.11 de la seconde partie).
7.4 M
ethode de Davidon, Fletcher, Powell
On utilise ici la règle de recurrence suivante:
Ak+1 = Ak +
1
(k )(k )
[Ak (gk )(gk ) Ak ]

(k ) (gk ) (gk ) Ak (gk )
u gk est le gradient de L evalue à literation

avec la condition initiale A0 = I et o`
precedente.
On demontre que sous certaines conditions, la suite de matrices denie par cette règle
converge vers linverse de la Hessienne de L.
Cette methode ne necessite que le calcul des derivees premières de L, et est donc
commode lorsque la matrice dinformation est dicile a` calculer.
7.5 Choix de lamplitude du d
eplacement
uteuse. Une solution plus
On peut calculer k par balayage, mais la procedure est co
operationnelle est la suivante:
(1) On choisit un nombre ]0, 12 [.
(2) On choisit k > 0 tel que:

L(k + k dk ) L(k )
1 .
k gk dk
En dautres termes, on choisit une solution approchee de lequation:

f(k ) =
L(k + k dk ) L(k )
1
.
=
k gk dk
2
250

ETRIE
Cette solution existe toujours, pour autant que gk dk soit strictement positif et que L
soit bornee superieurement. Il est en eet facile de montrer que:
lim f(k ) 0
et, à laide de la règle de LHopital, que:

lim f(k ) = 1.
k 0
La procedure que nous venons de decrire a deux avantages:

(1) Linegalite de gauche, qui implique f(k ) > 0, garantit un accroissement de L `
a

chaque iteration, car k gk dk > 0;
(2) Linegalite de droite, qui implique f(k ) < 1, empeche k de tendre vers 0, ce qui
impliquerait k+1 = k .

Books 274 0 PDF

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Books 274 0 PDF

Hochgeladen von

Copyright:

Verfügbare Formate

COURS DCONOMTRIE

Professeur Philippe Deschamps

TABLE DES MATIERES

Fonctions de variables alatoires.

Proprits des estimateurs

La rgression simple: estimation ponctuelle

Description du problme et exemples conomiques

Le modle et ses hypothses

Les estimateurs de moindres carrs

Moments des estimateurs de moindres carrs

1.5. Convergence en probabilit

Estimation de la variance des erreurs

Dcomposition de la variance: le coefficient de dtermination

1.10. Exemple numrique

La rgression simple: intervalles de confiance et tests dhypothses

Tests sur les coefficients individuels

Test sur les deux paramtres a et b

Test sur une combinaison linaire des coefficients

Complments dalgbre matricielle

Matrice symtriques et idempotentes

Linversion en forme partage

Notions de drivation matricielle

Complments danalyse statistique multivarie

La loi normale multivarie

Fonctions linaires et quadratiques de variables normales

4.3. Application: calcul de la distribution sous H0 de la statistique t

Le modle de rgression multiple

Le modle et ses hypothses

Les estimateurs de moindres carrs

Moments des estimateurs de moindres carrs

Lestimation de la variance des erreurs

Dcomposition de la variance: les coefficients de dtermination R2 et R2*

Problmes particuliers: multicolinarit, biais de spcification, variables muettes

Estimateurs par maximum de vraisemblance

Moindres carrs sous contraintes linaires

Infrence statistique en rgression classique

Le test de lhypothse linaire gnrale

7.2. Drivation de la statistique F laide du critre du rapport des vraisemblances

Cas particulier du test de lhypothse linaire gnrale

7.8. Exemple numrique

Moindres carrs gnraliss: la mthode de Aitken

Lestimateur de Aitken et ses proprits

La prvision dans le modle de Aitken

Erreurs autorgressives dordre un

La matrice de covariance des erreurs

Transformation des donnes ( connu)

Estimation du coefficient dautorgression

La prvision dans le modle erreurs autorgressives

9.8. Les tests de diagnostic

9.10. Introduction aux mthodes semi-paramtriques

Elments de thorie statistique asymptotique

10.3. Ingalit de Chebychev

Proprits des modes de convergence

Fonction caractristique et convergence en distribution

Versions du thorme central limite

Proprits asymptotiques des estimateurs par maximum de la vraisemblance

10.12. Distribution asymptotique du rapport des vraisemblances

Proprits asymptotiques des estimateurs par moindres carrs ordinaires

Proprits asymptotiques des estimateurs dAitken

Rgresseurs stochastiques indpendants du vecteur des erreurs

Rgresseurs stochastiques dpendants des erreurs contemporaines

Introduction aux modles dynamiques

14.2. Mthode de Koyck

(denie si fY (yj ) = 0).