(Cours) Econometrie HEC

Econometrie
Guillaume Chevillon
OFCE & Univ of Oxford
guillaume.chevillon@sciences-po.fr
Majeure Economie
HEC 2005
2
Table des matières
1 Variables aleatoires et limites 7
1.1 Quest-ce que leconometrie ? . . . . . . . . . . . . . . . . . . . . 7
1.2 Notions de probabilites . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.1 Espaces et axiomes . . . . . . . . . . . . . . . . . . . . . 9
1.2.2 Independance . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2.3 Probabilite conditionnelle . . . . . . . . . . . . . . . . . 11
1.3 Variables aleatoires . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3.1 Fonction de distribution . . . . . . . . . . . . . . . . . . 14
1.3.2 Distribution Normale . . . . . . . . . . . . . . . . . . . . 15
1.3.3 Autres distributions . . . . . . . . . . . . . . . . . . . . . 16
1.3.4 Distributions multivariees . . . . . . . . . . . . . . . . . 19
1.3.5 Moments . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.3.6 Estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.4 Approximations asymptotiques . . . . . . . . . . . . . . . . . . 24
1.4.1 Motivations . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.4.2 Denitions . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.4.3 Autres mesures de convergence . . . . . . . . . . . . . . 27
1.4.4 Notation de lordre . . . . . . . . . . . . . . . . . . . . . 29
2 Inference 31
2.1 Motivations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.2 Choix du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.3 Strategies de test . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.3.1 Erreurs de test . . . . . . . . . . . . . . . . . . . . . . . 34
2.3.2 Fonction de puissance . . . . . . . . . . . . . . . . . . . 35
2.3.3 Tests unilateraux . . . . . . . . . . . . . . . . . . . . . . 38
2.4 Test de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.4.1 Les autres tests de restriction . . . . . . . . . . . . . . . 39
3
4 TABLE DES MATI
`
ERES
3 Regression 41
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.1.1 La regression lineaire et ses problèmes potentiels . . . . 41
3.1.2 Notation vectorielle et matricielle . . . . . . . . . . . . . 43
3.2 Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.2.1 Maximum de vraisemblance . . . . . . . . . . . . . . . . 44
3.2.2 Moindres carres (Least squares) . . . . . . . . . . . . . . 50
3.2.3 Erreurs de specication . . . . . . . . . . . . . . . . . . . 53
3.2.4 Choix du modèle . . . . . . . . . . . . . . . . . . . . . . 55
4 Series temporelles 57
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.1.1 Quappelle-t-on serie temporelle ? . . . . . . . . . . . . . 57
4.1.2 Quels sont les buts de cette analyse ? . . . . . . . . . . . 59
4.1.3 En quoi cette demarche consiste-t-elle ? . . . . . . . . . . 62
4.2 Concepts des series temporelles . . . . . . . . . . . . . . . . . . 63
4.2.1 Processus stochastiques . . . . . . . . . . . . . . . . . . . 63
4.2.2 Stationnarite . . . . . . . . . . . . . . . . . . . . . . . . 66
4.2.3 Ergodicite . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.3 La caracterisation des series temporelles en economie . . . . . . 68
4.3.1 Moyenne de lechantillon . . . . . . . . . . . . . . . . . . 68
4.3.2 ACF, fonction empirique dautocorrelation . . . . . . . . 68
4.3.3 PACF, fonction empirique dautocorrelation partielle . . 69
4.4 Processus integres . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.5 Quelques processus courants . . . . . . . . . . . . . . . . . . . . 73
5 Methodes sans modèle 75
5.1 Extrapolation deterministe des series . . . . . . . . . . . . . . . 75
5.1.1 Tendances lineaires . . . . . . . . . . . . . . . . . . . . . 75
5.1.2 Tendances autoregressives . . . . . . . . . . . . . . . . . 77
5.1.3 Modèles non lineaires . . . . . . . . . . . . . . . . . . . . 77
5.2 Moyennes mobiles . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.3 Lissages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.3.1 Moyennes mobiles . . . . . . . . . . . . . . . . . . . . . . 79
5.3.2 Lissage exponentiel . . . . . . . . . . . . . . . . . . . . . 79
5.4 Ajustements saisonniers . . . . . . . . . . . . . . . . . . . . . . 80
5.4.1 Methode multiplicative . . . . . . . . . . . . . . . . . . . 80
5.4.2 Methode additive . . . . . . . . . . . . . . . . . . . . . . 81
HEC majeure Economie, 2005
6 Modèles lineaires de series temporelles 83
6.1 Processus lineaires . . . . . . . . . . . . . . . . . . . . . . . . . 83
6.1.1 Concepts . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
6.1.2 Theorème de decomposition de Wold . . . . . . . . . . . 84
6.1.3 Modelisation ARMA . . . . . . . . . . . . . . . . . . . . 85
6.2 Prediction des processus ARMA(p, q) . . . . . . . . . . . . . . . 89
6.3 Algorithme de Box-Jenkins . . . . . . . . . . . . . . . . . . . . . 91
6.3.1 Principe de la methode . . . . . . . . . . . . . . . . . . . 91
6.3.2 Travailler sur donnees stationnaires . . . . . . . . . . . . 91
6.3.3 Etablir une hypothèse . . . . . . . . . . . . . . . . . . . 92
6.3.4 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . 93
6.3.5 Diagnostic . . . . . . . . . . . . . . . . . . . . . . . . . . 93
6.4 Estimation des modèles dynamiques . . . . . . . . . . . . . . . . 94
6.4.1 Equations de Yule-Walker . . . . . . . . . . . . . . . . . 94
6.4.2 Fonction de vraisemblance . . . . . . . . . . . . . . . . . 94
6.4.3 Maximum de vraisemblance dun ARMA . . . . . . . . . 95
7 Les variables integrees 99
7.1 Les tests de racine unitaire . . . . . . . . . . . . . . . . . . . . . 99
7.1.1 Problèmes des processus integres . . . . . . . . . . . . . 100
7.1.2 Test de Dickey-Fuller . . . . . . . . . . . . . . . . . . . . 100
7.2 Les dierents tests . . . . . . . . . . . . . . . . . . . . . . . . . 101
7.3 Les tendances et constantes . . . . . . . . . . . . . . . . . . . . 101
7.4 Modèles univaries de cointegration . . . . . . . . . . . . . . . . . 104
7.4.1 Procedure en deux etapes dEngle et Granger . . . . . . 104
7.4.2 Procedure en une etape de Banerjee, Dolado et Mestre . 106
7.4.3 References bibliographiques . . . . . . . . . . . . . . . . 108
Annexe 7.A Decomposition du MCE . . . . . . . . . . . . . . . . . 109
Annexe 7.B Neutralite et Homogeneite . . . . . . . . . . . . . . . . 109
8 Processus autoregressifs vectoriels 113
8.1 Processus autoregressifs vectoriels stables . . . . . . . . . . . . . 113
8.2 Processus vectoriels et cointegration . . . . . . . . . . . . . . . . 115
9 Exercices corriges 117
5
G. Chevillon, Econometrie
Avant-Propos
Ce cours vise à fournir une introduction à la pratique contemporaine de
leconometrie, principalement en macro. Il ne se propose pas detre exhaus-
tif mais tache de conduire le lecteur à travers les etapes principales de la
comprehension, en alternant des parties plus mathematiques et dautres plus
explicatives, dans le but de lui fournir les outils de base lui permettant de com-
prendre les modèles economiques de leconomie appliquee. Ce cours ne saurait
etre compris sans application à des cas empiriques via lutilisation de logiciels.
Je renvoie les lecteurs souhaitant davantage dinformations aux ouvrages
suivants :
Introductif :
Gujarati, D. N. (1995) Basic Econometrics, 3rd ed. MacGraw Hill.
Pindyck, R. S. & D. L. Rubinfeld (1998) Econometric Models and Economic
Forecasts, 4th ed. McGraw Hill.
Cours :
Greene, W. H. (1993) Econometric Analysis, 3rd ed. Prentice Hall.
Hendry & Doornik (2001) Empirical Econometric Modelling using PcGive 10 :
Volume 1, chaps 11-15. London : Timberlanke Consultants Press, 2001.
Johnston, J. & J. DiNardo (1997) Econometric Methods, 4th Edition. MacGraw
Hill
Lardic, S. & V. Mignon (2002) Econometrie des series temporelles macroeconomiques
et nancières. Paris : Economica.
Ruud, P. A. (2000) An introduction to Classical Econometric Theory. Oxford
University Press.
Series temporelles :
Gourieroux, C et A. Monfort. (1995). Series Temporelles et Modèles Dyna-
miques (2ème ed.). Paris : Economica.
Hamilton, J. D. (1994). Time Series Analysis. Princeton : Princeton University
Press.
Harvey, A. C. (1993). Time Series Models (2nd ed.). Hemel Hempstead : Har-
vester Wheatsheaf.
Macroeconometrie :
Hendry, D. F. (1995) Dynamic Econometrics. Oxford University Press.
6
Chapitre 1
Variables aleatoires et limites
1.1 Quest-ce que leconometrie ?
La denition du terme econometrie a evolue depuis lemergence de cette
discipline dans les annees 1930. A lorigine, elle representait une voie de for-
malisation de leconomie par lusage de mathematiques, probabilites et sta-
tistiques. La formalisation presente des avantages et des inconvenients : elle
permet detablir des arguments precis et rapidement comprehensibles grace à
une absence dambigute. En revanche, elle fait aussi apparatre le domaine
plus abstrait et accrot les barrières à lentree pour les neophytes. Par ailleurs,
elle peut entraner la theorie dans des directions o` u des theorèmes peuvent
etre etablis, et ainsi eviter des problèmes economiques importants mais dont
la formalisation se revèle plus ardue.
Dans ce sens traditionnel, la quasi-integralite de la microeconomie et les-
sentiel de la macro enseignees appartiennent à leconometrie. La revue la
plus associee à ce courant est Econometrica, fondee dans les annees 30. Une
des plus prestigieuses, elle publie essentiellement ce quon appelle dorenavant
leconomie theorique et la theorie econometrique.
Dans les annees 1960, la denition traditionnelle de leconometrie sest
revelee desuette car la plupart des domaines de leconomie avaient ete gagnees
par lapproche econometrique, bien que subsistent des debats sur le degre de
formalisation de lanalyse. Une redenition du terme sensuivit, et le nouveau
sens est plus proche de lutilisation du suxe metrie rencontre dans dautres
sciences, comme la biometrie.
Leconometrie moderne concerne le developpement de methodes proba-
bilistes et statistiques dans le contexte dune comprehension detaillee des
donnees, et des theories economiques, les concernant an dobtenir une analyse
economique empirique rigoureuse. Elle se situe à linterface entre linforma-
7
tique, les statistiques, les probabilites et la theorie economique. Elle est donc
très inuencee pas des developpements hors du domaine propre de la pensee
economique, en particulier informatiques et probabilistes. Divers chercheurs
font davantage porter laccent sur lun ou lautre de ces ingredients, ce qui
genère une grande part des conits dans ce domaine. Les termes importants
de la denition ci-dessus sont empiriques et rigoureuses : il sagit bien dune
discipline qui vise à etre appliquee à des problèmes concrets et ainsi ignore une
grande part des developpements theoriques purs sans possibilite dapplication;
par ailleurs, leconometrie a dans une certaine mesure vocation à rapprocher
leconomie des sciences experimentales : il sagit de tirer des evenements passes
et des donnees le maximum dinformations an dutiliser les experiences his-
toriques, à defaut de pouvoir les reproduire ex abstractum.
Leconometrie appliquee utilise, quant à elle, les developpements theoriques
pour analyser des cas concrets an dobtenir des recommandations politiques,
de tester la theorie economique ou de suggerer de nouvelles manières dameliorer
cette dernière. Au vu de la rapidite des developpements, il est essentiel pour
toute personne qui sinteresse aux etudes economiques de pouvoir en com-
prendre les forces et faiblesses car des methodes econometriques appliquees à
mauvais escient entranent souvent des resultats sans fondements.
Au cours de la dernière decennie, divers economètres ont recu le prix Nobel
deconomie :
En microeconometrie, Dan McFadden a developpe des methodes permet-
tant danalyser de manière formelle comment les individus prennent des decisions
economiques, par exemple comment les habitants de San Francisco choisissent
entre divers modes de transport ; et ce, an de prevoir limpact de lintroduc-
tion de nouvelles formes de transport et donc de savoir si elle se revelerait
beneque pour le bien-etre global et de quantier cet aspect. Jim Heckman a
pour sa part etudie comment analyser les facteurs inuencant les choix indivi-
duels en matière de quantite de travail.
En econometrie nancière, Rob Engle a analyse la modication de la vo-
latilite au cours du temps. Ceci lui a permis detudier comment des agents
rationnels devraient equilibrer risque (volatilite) et rentabilite au cours du
temps. Une autre application concerne levaluation du risque associe à un in-
vestissement bancaire (riskmetrics).
En macroeconometrie, Clive Granger a permis une modelisation temporelle
de variables instables, comme le revenu et la consommation, qui sont liees par
des relations economiques de long terme.
La comprehension de leconometrie necessite par consequent une matrise
des outils de probabilites et de statistiques.
8
1.2 Notions de probabilites
1.2.1 Espaces et axiomes
La theorie probabiliste est construite autour de la notion densemble. Les
principales denitions concernent les evenements possible et leur probabilite.
Denition 1 (Espace dechantillonnage) Lensemble est nomme espace
dechantillonnage sil contient toutes les realisations possibles considerees, par
exemple si un consommateur a la possibilite dacheter 0,1,2 ou 3 bouteilles de
Coca Light : = 0, 1, 2, 3 .
Denition 2 (Evenement) Un evenement est un sous-ensemble de (ou
lui-meme) : exemple levenement A = 0 correspond à un consommateur
nachetant pas de Coca Light, B = 1, 2 sil achète une ou deux bouteilles.
Les principales notations concernant les ensembles sont :
Union. A B, ex. A B = 0, 1, 2 .
Intersection. A B, ex. A B = .
Complementarite. A
c
ou

A = A, ex. A
c
= 1, 2, 3
La theorie probabiliste est construite autour des developpements de la
theorie des ensembles. En particulier, on appelle espace probabilisable le couple
(, T) o` u T est une tribu (sigma algèbre) associee à , il sagit de lensemble
des combinaisons devenements possibles
1
. Pour un espace dechantillonnage
, une fonction de probabilite Pr est une fonction denie sur une tribu associee
T qui satisfait trois axiomes :
1. Pr () 0 pour tous T.
2. Pr () = 1.
3. Si les A
i
T sont disjoints alors
Pr
_
_
i=1
A
i
_
=
i=1
Pr (A
i
) .
1
Une collection de sous-ensembles de S est appelee tribu T si elle satisfait à trois condi-
tions :
1. T
2. Si A T alors A
c
T
3. Si A
1
, A
2
, ... T alors
i=1
A
i
T
i.e. lensemble vide est un membre de la tribu, le complementaire de tout membre est un
membre, toute union de membres de la tribu appartient à la tribu.
9
Remarque 1 Les probabilites sont des fonctions sappliquant à des en-
sembles
La tribu represente tous les sous-ensembles de et fournit ainsi la base
sur laquelle les evenements valides peuvent etre denis.
Tous les evenements ont probabilites positives ou nulles.
Au moins un evenement de lespace dechantillonnage arrive. Lespace
dechantillonnage est l Univers considere.
Si les evenements sont disjoints (pas de superposition) alors la probabilite
quun dentre eux (et un seul) arrive est la somme des probabilites que
chacun survienne. Par exemple pour deux evenements disjoints A
1,
A
2
,
alors
Pr (A
1
A
2
) = Pr (A
1
) + Pr (A
2
) .
Exemple 1 Divisons en deux evenements A, A
c
. Alors = A A
c
et ces evenements sont necessairement disjoints. Par consequent

Pr (A A
c
) = Pr (A) + Pr (A
c
) = Pr () = 1
donc
Pr (A
c
) = 1 Pr (A) = Pr (A) .
Puisque Pr (A
c
) 0, on en deduit que
Pr (A) 1.
Enn, les proprietes de la tribu nous permettent decrire = et donc
Pr () = 0.
Exemple 2 Soient deux evenements A et B appartenant à T. Ces evenements
ne sont pas necessairement disjoints et nous ne pouvons utiliser le troisième
axiome directement. Cependant
Pr (A B) = Pr (A) + Pr (B) Pr (A B) .
Ainsi la probabilite quau moins un de A ou de B se produise est la probabi-
lite quA arrive plus celle de B moins la probabilite que les deux se produisent.
10
1.2.2 Independance
Considerons deux evenements A et B appartenant à T. On sinteresse
ici au concept selon lequel la realisation dun evenement ne modie pas la
probabilite quà un autre evenement de se realiser. Quand ceci est vrai, on parle
dindependance. Mathematiquement, on note que A et B sont independants
(dans T) si et seulement si
Pr (A B) = Pr (A) Pr (B) .
Noter que deux evenements ne peuvent etre independants sils sont disjoints,
car alors Pr (A B) = 0. On note parfois lindependance entre deux evenements :
A B.
Exemple 3 Soit A le rendement (geometrique) dun actif sur un jour donne
et B son rendement pour le jour suivant. Beaucoup de modèles en economie
nancière font lhypothèse dindependance de A et de B. Ceci est pourtant
rejete empiriquement car si A et B sont typiquement presque non-correles, il
ne sont pas independants. Une forte volatilite à tendance à suivre une forte
volatilite.
Exemple 4 Par denition si on jette un de deux fois successives, le resultat
du premier jet ninuence pas celui du second, et ainsi les deux resultats sont
independants.
1.2.3 Probabilite conditionnelle
Il est parfois souhaitable de changer despace dechantillonnage, dunivers
pour calculer les probabilites. On peu soit redenir à chque fois, par exemple
en calculant separement avec un pour les employes masculins de plus de 45
ans et un pour les employees feminines de moins de 21 ans... An deviter
toute confusion, on utiliser le concept de probabilite conditionnelle, qui vise le
meme but, mais conserve constant. Si on conditionne sur B, les axiomes de
probabilite demeurent les memes :
Pr ( A[ B) 0
Pr ( B[ B) = 1
Pr
_

_
i=1
A
i
[ B
_
=
i=1
Pr ( A
i
[ B)
si les A
i
sont disjoints.
11
Exemple 5 Si represente lensemble des niveau de salaire de population
residant en France. On peut par exemple sinteresser à
Pr (salaire[employ e)
Pr (salaire[femme)
Pr (salaire[femme, employ e, francais)
Remarquer que les evenements sont independants au sein de . Il sagit de
denir au prealable et toutes les propositions en dependent.
Il est souvent plus utile de denir la probabilite conditionnelle à laide de la
distribution conjointe : si nous connaissons la distribution conjointe des salaires
et de lemploi il serait agreable de pouvoir deduire de manière automatique des
informations concernant la probabilite conditionnelle des salaires, connaissant
le statut demploi. On procède de la manière suivante.
Soit un univers comportant deux realisations A et B. On peut sinteresser
soit ` a Pr (A) , soit à Pr (B) , soit encore à Pr (A B) . Enn on peut aussi
sinteresser à Pr (A[B) pourvu que Pr (B) > 0 (i.e. que B ait une chance de se
realiser). Il sagit ainsi de contraindre notre monde de sorte que B se realise
et de se demander ce qui se passe alors pour A. Ceci ne peut arriver que si A
et B peuvent arriver coinjointement, on denit alors :
Pr (A[B) =
Pr (A B)
Pr (B)
.
Il est facile de constater que cette denition satisfait aux axiomes de probabi-
lite. La probabilite conditionnelle est un concept vital en econometrie. On peut
alors sinteresser à la probabilite conditionnelle coinjointe de deux evenements :
Pr (A B[C) .
Si Pr (A B[C) = Pr (A[C) Pr (B[C) , on dit alors que conditionnellement
à B, A et C sont independents.
Exemple 6 Supposons que A soit la richesse accumulee au cours de la vie ; B
le fait detudier à HEC; C les capacites, leducation, la formation. Lindependance
entre A et B sachant C revient à dire que le label HEC napporterait aucune
valeur pour aucun individu, ce qui est une declaration plus forte quune absence
de valeur ajoutee en moyenne.
En rearrangeant les formules precedentes
Pr (B) Pr (A[B) = Pr (A B) ,
12
et
Pr (A) Pr (B[A) = Pr (A B) ,
en rearrangeant on obtient un des theorèmes les plus connus en probabilites,
le
Theorème 2 (Theorème de Bayes) si Pr (A) > 0 et Pr (B) > 0,
Pr (B[A) =
Pr (A B)
Pr (A)
=
Pr (B) Pr (A[B)
Pr (A)
.
Celui-ci revient à dire que pour passer de Pr (A[B) à Pr (B[A) , il sut de
multiplier par le ratio Pr (B) / Pr (A) .
1.3 Variables aleatoires
Nous avons pour linstant utilse pour representer chacun des evenements
associes au triplet (, T, Pr) , i.e. T est genere à partir de , T, et Pr est
la fonction qui associe une probabilite.
Ces evenements ne sont pas necessairement numeriques. En particulier pour
diverses applications on peut choisir de sinteresser à de mulitples facettes dun
meme evenement et ainsi utiliser des fonctions numeriques de cet evenement.
Si on choisit une fonction X () qui mène à une valeur numerique (poten-
tiellement un vecteur ou une matrice), on appelle X variable aleatoire. Les
distributions sont des familles speciques de variables aleatoires.
Exemple 7 Soit lunivers des nouveau-nes en France en 2005. Pour
chaque
i
individuel, i.e. chaque naissance, on peut choisir de sinteresser
à des fonctions diverses : la taille, le poids du nouveau-ne, la duree de
la grossesse, qui sont des fonctions reelles ; le nombre de frères et soeurs
de lenfant, qui est une fonction entière ; ou une fonction indicatrice qui
prend la valeur 1 si lenfant a des cheveux et 0 sinon.
Distribution de Bernoulli. Une personne est employee un non ; on
note employe = E, sans emploi = U. Soit X ( = E) = 1 et
X ( = U) = 0 la variable indicatrice qui renvoie 1 si un individu possède
un emploi et 0 sinon. On note Pr (X = 1) = p et Pr (X = 0) = 1 p.
La distribution de Bernoulli joue un role important en microeconometrie
quand des variables prennent les valeurs 0 et 1.
13
Distribution Binomiale. Si on realise n tirages independants de la
distribution de Bernoulli (par exemple en choisissant n personnes au
hasard au sein de la population francaise et en leur demandant sils ont
un emploi, 1 si vrai, 0 si faux), et on note le nombre de fois que la
reponse est 1. Alors le total est appele distribution binomiale : soit p la
proportion de la population ayant un emploi
Y =
n
i=1
X
i
, Pr (X
i
= 1) = p, Pr (X
i
= 0) = 1 p, X
i
iid
Alors
Pr (Y = y) =
n!
y! (n y)!
p
y
(1 p)
ny
, y = 0, 1, ..., n.
1.3.1 Fonction de distribution
La fonction de distribution dune variable aleatoire X : R (ou N) est
denie par
F
X
: R(ou N) [0, 1]
: x Pr (X x) .
o` u X est ici evaluee sur , i.e. pour lensemble des evenements. La densite de
X est (pour les variables aleatoires continues)
f
X
(x) =
F
X
x
.
On note que pour les fonctions continues
Pr (X = x) = 0
pour tout x et quon peut noter en revanche
Pr (X [x, x +dx]) = f
X
(x) dx
et que si X prend un nombre ni de valeurs
f
X
(x) = Pr (X = x) .
Le lien entre les distribution et densite est donc fourni par
F
X
(x) =
_
x
f
X
(u) du.
14
On note que pour les variables aleatoires reelles (denies sur R)
F
X
(x)
x+
1, F
X
(x)
x
0,
f
X
(x)
x
0.
Les quantiles dune distribution sont fournies par la fonction inverse de F
X
.
Ainsi si on souhaite savoir quelle est la valeur x telle que pour une proportion
p de la population X prend une valeur inferieure ou egale à x,
p = F
X
(x)
et donc
x = F
1
X
(p)
est appelee fonction quantile de X. On appelle mediane le quantile 0,5 (50%
de la population de parts et dautres de cette valeur).
Exemple 8 Les quantiles sont des mesures essentielles de linegalite. Ainsi
des politiques economiques peuvent par exemple cibler les 10% de la population
ayant les revenus les plus faibles.
Exemple 9 Une variable aleatoire exponentielle possède la distribution
f
X
(x) =
1
exp (x/) , x, R
+
.
Sa fonction de distribution est
F
X
= 1 exp (x/) ,
et sa fonction quantile
F
1
X
(u) = log (1 u) .
1.3.2 Distribution Normale
La distribution Normale ou Gaussienne est la plus couramment utilisee. Elle
apparat naturellement lorsque on sinteresse à la distribution de la moyenne
et presente des proprietes pratiques de translation. Sa forme ne parat malheu-
reusement pas immediatement attractive : sa densite est
f
X
(x) =
1
2
2
exp
_
(x )
2
2
2
_
, x, R,
2
R
+
.
15
Les distributions etant des familles de variable aleatoire, on constate ici que
chaque X Gaussienne est parametree par sa moyenne et sa variance
2
, ce
quon note
X N
_
,
2
_
.
Mathematiquement, on peut penser à la densite f
X
de la manière suivante :
log f
X
(x) = c
1
2
2
(x )
2
.
La log-densite est quadratique en x, la constante c est determinee de sorte que
Pr () = 1 =
_
+
f
X
(x) dx.
La densite Normale a R comme support est centree autour de , controle
sa dispersion. Une propriete importante de la distributon Normale est que si
X N(,
2
) alors
+X N
_
+,
2
2
_
,
i.e. les transformations anes dune Normale sont Normales. Ceci entrane
quon puisse ecrire toute distribution Gaussienne comme
X
loi
= +N,
o` u N suit une Normale standard N N(0, 1) . Ainsi si X et Y suivent deux
Normales independantes
X +Y N
_
X
+
Y
,
2
X
+
2
Y
_
.
1.3.3 Autres distributions
Il existe une multitude de distributions parmi lesquelles on en rencontre
frequemment certaines en econometrie.
Khi-deux
Supposons que X
i
iid
N(0, 1), (souvent ecrit NID(0, 1) ou IN(0, 1) , ce qui si-
gnie que les X
i
sont des copies independantes et identiquement Normalement
distribuees),alors
Y =
v
i=1
X
2
i

2
,
une distribution khi-deux avec degres de liberte. Lesperance et la variance
dune distribution
2
sont respectivement et 2.
16
Uniforme
On contraint parfois les variables sur de petits intervalles. Lexemple le plus
simple est la distribution uniforme standard
f
X
(x) = 1, x [0, 1] .
Cette variable na que le segment [0, 1] comme support. Cette distribution
est souvent utilisee dans les modèles stylises an dintroduire une idee ou un
concept. Elle est aussi utilisee en simulation. Une Uniforme plus generale se
denit comme
f
X
(x) =
1
b a
, x [a, b] .
Poisson
Les modèles de comptage sont souvent utilises en economie, par exemple
le nombre de brevets deposes en un intervalle de temps, le nombre dechanges
sur un marche... La distribution la plus courante est celle de Poisson :
f
X
(x) =
e
x
x!
, x = 0, 1, 2, ...
Student
Si Z suit une N(0, 1) et X une
2
et est independante de Z, alors le ratio

t
=
Z
_
X/
suit une distribution dite de Student avec degres de liberte. Celle-ci a la meme
forme quune distribution Normale, mais avec des bords plus epais. Quand
augmente, t
se comporte de plus en plus comme une Normale, entre = 30

et 100 une Normale standard est une bonne approximation, au delà de 100 on
ne peut les distinguer.
Fischer
Si X
1
et X
2
sont deux distributions khi-deux independantes avec pour
degres de liberte
1
et
2
, alors le ratio
F
1
,
2
=
X
1
/
1
X
2
/
2
suit une loi de Fischer avec
1
et
2
degres de liberte. Quand
2
est nettement
plus grand que
1
, comme est courant en econometrie, X
2
/
2
tend vers 1 et
F
1
,
2
se comporte comme un
2
1
divise par
1
.
17
10 5 0 5 10
0.2
0.4
N(0,1)
N(0,1)
N(0,2)
N(0,5)
5.0 2.5 0.0 2.5 5.0 7.5
0.2
0.4
t
3
t
5
t
10
N(0,1)
4 2 0 2 4
0.2
0.4
0 5 10 15 20
0.25
0.50
0.75
2
1
2
2
2
3
Figure 1.1 Graphiques des densites des distributions Standard Normale, Nor-
males, de Student et Khi-deux.
18
1.3.4 Distributions multivariees
Tous les resultats precedents sont aussi valables lorsquon sinteresse au
vecteur multivarie de dimension p :
X = (X
1
, ..., X
p
)
.
Les elements de ce vecteur ne sont pas necessairement independants, ils peuvent
par exemple representer une serie chronologique ou un panel dobservations
economiques. En particulier, si p = 2 de sorte que
X =
_
X
1
X
2
_
alors
F
X
(x
1
, x
2
) = Pr (X
1
x
1
, X
2
x
2
)
qui, dans le cas continu secrit
F
X
(x
1
, x
2
) =
_
x
1
_
x
2
f
X
(u
1
, u
2
) du
1
du
2
.
Et de manière similaire
f
X
(x
1
, x
2
) =

2
F
X
x
1
x
2
.
Quand X
1
et X
2
sont independantes, la densite secrit
f
X
(x
1
, x
2
) = f
X
1
(x
1
) f
X
2
(x
2
) .
Dans le cas general en integrant par rapport à une variable sur son support,
on obtient la densite marginale de la seconde :
f
X
2
(x
2
) =
_
+
f
X
(u
1
, x
2
) du
1
.
La distribution conditionnelle prend la forme
F
X
1
|X
2
=x
2
(x
1
) = Pr (X
1
x
1
[X
2
= x
2
)
ce qui donne la densite conditionnelle
f
X
1
|X
2
=x
2
(x
1
) =
Pr (X
1
x
1
[X
2
= x
2
)
x
1
qui possède toutes les proprietes dune densite, en particulier on peut montrer
que
f
X
1
|X
2
=x
2
(x
1
) =
f
X
(x
1
, x
2
)
f
X
2
(x
2
)
.
19
1.3.5 Moments
Soit X une variable aleatoire, on denit de manière generale les moments
de X comme lintegrale (lorsquelle existe)
E[g (X)] =
_
g (x) f
X
(x) dx
avec des cas speciques de fonction polynomiales g () . E[] est appele esperance
et est un operateur lineaire : pour a et b constantes
E[a +bg (X)] = a +bE[g (X)] .
Esperance mathematique
Le cas le plus simple desperance est la moyenne ou moment de premier
ordre denie par
(X) = E[X] =
_
xf
X
(x) dx.
et de manière plus generale on denit le r-ième moment (non centre)
r
(X) = E[X
r
] =
_
x
r
f
X
(x) dx.
Variance
Dans le cas dune variable univariee, la variance est denie comme second
moment de la variable centree X E[X] :
V[X] = E
_
(X E[X])
2
=
_
(x E[X])
2
f
X
(x) dx
= E
_
X
2
(E[X])
2
.
La variance est egale à lesperance du carre, moins le carre de lesperance.
Exercice 1 Prouver que V[a +bX] = b
2
V[X] .
Exercice 2 Montrer que lesperance et la variance de la distribution Normale :
f
X
=
1
2
2
exp
_
(x )
2
2
2
_
sont et
2
respectivement.
20
Exercice 3 Quelles sont les esperance et variance dune distribution uniforme
standard ?
Covariance
La covariance de X et Y est denie, lorsquelle existe comme
Cov [X, Y ] = E[(X E[X]) (Y E[Y ])]
=
_ _
(x E[X]) (y E[Y ]) f
X,Y
(x, y) dxdy
= E[XY ] E[X] E[Y ] .
Exercice 4 Prouver que Cov [a +bX, c +dY ] = bdCov [X, Y ] , i.e. que la co-
variance est invariante par translation.
Exercice 5 Montrer que V[aX +bY ] = a
2
V[X] + 2abCov [X, Y ] + b
2
V[Y ]
comme une identite remarquable.
Exercice 6 Montrer que si les X
i
, ...X
n
sont independantes alors
V
_
1
n
n
i=1
X
i
_
=
1
n
2
n
i=1
V[X
i
]
et que par consequent la variance de la moyenne X =
1
n
n
i=1
X
i
des variables
aleatoire a pour variance
1
n
V[X
1
] si les X
i
sont identiquement distribuees.
Lindependance implique la non-correlation lorsque la covariance existe.
En eet si X et Y sont independantes alors E[XY ] = E[X] E[Y ] et donc
Cov [X, Y ] = 0. La reciproque nest vrai que si X et Y sont Gaussiennes.
Exemple 10 On suppose que X N(0, 1) , Y = X
2
suit alors une distribu-
tion
2
1
. Et
Cov [X, Y ] = E[XY ] E[X] E[Y ] = E
_
X
3
.
or X etant symmetrique autour de zero, X
3
lest aussi et E[X
3
] = 0. X et Y
ne sont donc pas correlees mais non-independantes.
Correlation
On denit la correlation comme
Cor [X, Y ] =
Cov [X, Y ]
_
V[X] V[Y ]
.
Linegalite de Cauchy-Schwarz implique que
Cor [X, Y ] [1, 1] .
Plus la correlation est proche de 1, plus les variables sont liees.
21
Exercice 7 Prouver que
Cor [a +bX, c +dY ] = Cor [X, Y ] .
Matrice de Covariance
Si X est multivariee, alors
Cov [X] = E
_
(XE[X]) (XE[X])
.
Cette matrice est symetrique, i.e. Cov [X] = Cov [X]
, et denie, i.e. pour tous

vecteurs u : uCov [X] u
0. La matrice de covariance de X = (X
1
, ..., X
n
)
secrit
Cov [X] =
_
_
V[X
1
] Cov [X
1
, X
2
] Cov [X
1
, X
n
]
Cov [X
2
, X
1
] V[X
2
] Cov [X
2
, X
n
]
.
.
.
.
.
.
.
.
.
.
.
.
Cov [X
n
, X
1
] Cov [X
n
, X
2
] V[X
n
]
_
_
.
Un resultat important : si B est une matrice de constantes, a un vecteur, alors
E[a +BX] = a +BE[X]
Cov [a +BX] = BCov [X] B
.
La matrice de correlation est denie de manière similaire avec des 1 sur la
diagonale principale et les correlations de parts et dautres.
Distribution Normale multivariee
La variable aleatoire X de dimension n est dite suivre une distribution
Normale multivariee desperance et de matrice de covariance (symetrique
et positive denie, i.e.pour tous z ,= 0, zz
> 0) si
f
X
(x) = [2[
1/2
exp
_
1
2
(x )
1
(x )
_
, x R
n
.
Si a est q 1 et B est q n alors
Y = a +BX N(a +B, BB
) .
1.3.6 Estimateurs
Une statistique S (X) est une fonction dune variable aleatoire (vecto-
rielle) X. Quand on utilise cette statistique pour apprendre des proprietes
du modèle probabiliste, on dit quon estime le modèle. La version aleatoire de
cette fonction S (X) est appelee estimateur, dans le cas dun vecteur observe
22
(une realisation, ou un echantillon de donnees) on parle destimation S (x) .
Lusage de X et de x est le meme que precedemment, X est une variable
aleatoire qui possède une certaine distribution, x est une valeur qui provient
dun tirage de X ou dune realisation dun evenement.
Exemple 11 Lexample le plus simple est la moyenne arithmetique de va-
riables aleatoires
S (X) =
1
n
n
i=1
X
i
.
Si les X
i
sont NID(,
2
) , alors en utilisant le fait que S (X) est une combi-
naison lineaire de Normales :
S (X) N
_
,

2
n
_
.
Si n est très grand, lestimateur a une variance qui tend vers zero et donc sa
distribution tend vers une constante, lesperance commune à tous les X
i
.
Biais
On suppose quon ait deni un estimateur an destimer une certaine quan-
tite . On peut souhaiter que S (X) soit en moyenne proche de . Une manière
de voir ceci est de sinteresser au biais destimation E[S (X) ] .
Exemple 12 Si X
i
NID(,
2
) alors
X =
1
n
n
i=1
X
i
la moyenne sur lechantillon est un estimateur de biais nul.
Quand le biais est nul on parle destimateur non biaise. Les estimateurs
non-biaises peuvent etre très imprecis car ils peuvent presenter une très forte
dispersion. Une manière devaluer leur imprecision est via le critère de moyenne
derreur quadratique (Mean Square Error, ou MSE) :
E
_
(S (X) )
2
= V[S (X)] + (E[S (X) ])

2
.
Et ainsi un estimateur plus precis peut se reveler biaise.
23
Exercice 8 Estimer
2
à laide dun echantillon aleatoire tire de NID(,
2
)
en utilisant
S (X) =
1
n k
n
i=1
_
X
i
X
_
2
.
Montrer que le minimum de MSE est atteint pour k = 1 tandis que lestima-
teur est non-biaise pour k = 1. Pour ce faire remarquer que
n
i=1
(X
i
)
2
=
n
i=1
_
X
i
X
_
2
+n
_
X
_
2
,
et que
n
i=1
(X
i
)
2
/
2

2
n
tandis que

n
_
X
_
/ N(0, 1) .
1.4 Approximations asymptotiques
1.4.1 Motivations
Exemple 13 Convergence Classique
X
n
= 3 +
1
n
3 quand n .
Mais que dire de
X
n
= 3 +
Y
n
quand Y est une variable aleatoire ? Il existe diverses mesures de convergences,
certaines necessitant lexistence de moments, dautres non.
La theorie des distributions peut se reveler très compliquee et parfois inex-
tricable. Par consequent, nous sommes souvent obliges dutiliser des approxi-
mations. Parmi les nombreuses methodes, celle qui domine consiste à recher-
cher lerreur faite par une approximation consistant à supposer quon possède
un grand echantillon et quon est proche des distributions asymptotiques pour
la taille de lechantillon. Cette idee est particulièrement attractive si on estime
un paramètre et quon souhaite augmenter la precision avec le nombre dobser-
vations. Deux resultats principaux sont utilises dans la litterature aerente :
la loi des grands nombres et le theorème limite central. Ces approximations
sont des exemples de concepts plus generaux de convergence en probabilite
et de convergence en distribution.
Formellement, nous observons une suite de variables aleatoires X
1
, ..., X
n
telles que, lorsque n crot, X
n
se comporte comme une autre variable aleatoire
ou une constante X.
24
Exemple 14 Si on sinteresse à
X
n
=
1
n
n
i=1
Y
i
,
les X
i
forment une suite
X
1
= Y
1
, X
2
=
1
2
(Y
1
+Y
2
) , X
3
=
1
3
(Y
1
+Y
2
+Y
3
) .
Comment se comporte
1
n
n
i=1
Y
i
quand n est grand ? Vers quoi X
n
converge
t-elle quand n crot ?
1.4.2 Denitions
Lorsquon sinteresse à une suite de variables aleatoires X
n
et quon se
demande quelle est la distance entre X
n
et une autre variable X quand n
tend vers linni, il existe de multiples manières de mesure la petitesse et de
nombreuses notions de convergences. Nous en presentons ici trois, la seconde
etant la plus importante.
Denition 3 (Convergence en moyenne quadratique) Soient X et X
1
, ..., X
n
des variables aleatoires. La serie X
n
est dite converger vers X en moyenne
quadratique, ce quon note
X
n
m.s.
X
si et seulement si
lim
n
E
_
(X
n
X)
2
= 0.
Il est necessaire et susant pour que X
n
m.s.
X que
lim
n
E[X
n
X] = 0 et lim
n
V[X
n
X] = 0.
Exemple 15 Soient Y
1
, ..., Y
n
des variables aleatoires iid desperance et de
variance
2
. On denit
X
n
=
1
n
n
i=1
Y
i
,
telle que
E[X
n
] = et V[X
n
] =
1
n
2
n
i=1
V[Y
i
] =
1
n
2
.
X
n
est donc un estimateur sans biais de et sa variance tend vers zero. Ainsi
X
n
m.s.
.
25
Denition 4 (Convergence en probabilite) Si quels que soient et >
0, il existe un n
0
tel que
n > n
0
Pr ([X
n
X[ < ) > 1 ,
alors on dit que la suite X
1
, ..., X
n
converge en probabilite vers la variable
aleatoire X, ce quon note
X
n
p
X, ou plim X
n
= X.
La convergence en moyenne quadratique est une notion plus forte que la
convergence en probabilite et la première implique la seconde. Il est possible
de prouver ceci à laide de linegalite de Tchebitchev :
Pr ([X
n
X[ < )
1
r
E[[X
n
X[
r
] , pour tous > 0.
ainsi
X
n
m.s.
X X
n
p
X
Denition 5 (Convergence presque s ure) Si quels que soient et > 0,
il existe un n
0
tel que
Pr ([X
n
X[ < , n > n
0
) > 1 ,
alors on dit que la suite X
1
, ..., X
n
converge presque s urement vers la variable
aleatoire X, ce quon note
X
n
a.s.
X.
La convergence presque s ure verie quau delà de n
0
la distribution conjointe
de tous les evenements (pour tous n) se comporte comme il faut alors que la
convergence en probabilite ne sinteresse quaux probabilites à chaque n.
La convergence a.s. est plus forte que la p-convergence :
X
n
a.s.
X X
n
p
X
mais X
n
a.s.
X nimplique ni nest implique par X
n
m.s.
X.
Theorème 3 (Loi faible des grands nombres) Soit X
i
iid telle que E[X
i
]
et V[X
i
] existent alors
1
n
n
i=1
X
i
p
n
E[X
i
] .
26
Cette loi peut etre etendue : si A
p
a et B
p
b, alors g
_
A
_
h
_
B
_
p
g (a) h(b) . La loi forte des grands nombres ou theorème de Kolmogorov im-
plique que meme si la variance nexiste pas la moyenne de lechantillon converge
(presque s urement) vers lesperance commune à toutes les variables aleatoires.
Ceci implique alors que
1
n
n
i=1
g (X
i
)
p
n
E[g (X
i
)]
mais la convergence peut se reveler très lente !
1.4.3 Autres mesures de convergence
Les notions de convergence presque s ure ou en probabilite sont assez grossières,
car elles impliquent essentiellement que X
n
X implose vers zero alors que
n augmente. Ceci nindique pas la vitesse de convergence ni ne fournit au-
cune information sur la forme de la distribution de X
n
X. Pour ameliorer
notre comprehension, nous devons faire appel au concept de convergence en
distribution ou en loi.
Denition 6 (Convergence en loi) Soient X et X
1
, ..., X
n
des variables aleatoires.
La serie X
n
est dite converger vers X en loi ou en distribution, ce quon note
X
n
d
X, ou X
n
L
X
si et seulement si
F
X
n
F
X
.
Dans ce contexte, divers resultats importants sont dus à Slustky :
Si X
n
d
X et Y
n
p
, alors X
n
Y
n
d
X et X
n
/Y
n
d
X/ si ,= 0.
Si X
n
d
X et Y
n
p
, soit une fonction continue, alors (X
n
, Y
n
)
d
(X, ) .
Exemple 16 Soient X
1
, ..., X
n
des variables aleatoires iid Normales, desperance
et de variance
2
, alors
n
_
X
_
N(0, 1)
et

2
=
1
n
n
i=1
(X
i
X)
2 a.s.

2
.
27
1 2 3 4 5
0.25
0.50
0.75
Moyenne
X pour 3 tirages de N(0,1)

N(s=0.587)
2.5 0.0 2.5 5.0 7.5 10.0
0.2
0.4
Moyenne n
1/2
(
X1) pour 3 tirages de

1
2
N(s=1.4)
2.00 2.25 2.50 2.75 3.00 3.25 3.50 3.75
1
2
Moyenne

N(s=0.2)
5.0 2.5 0.0 2.5 5.0
0.1
0.2
0.3
Moyenne n
1/2
(

1
2
N(s=1.41)
2.8 2.9 3.0 3.1 3.2
2.5
5.0
7.5
Moyenne

N(s=0.0631)
5.0 2.5 0.0 2.5 5.0
0.1
0.2
0.3
Moyenne n
1/2
(

1
2
N(s=1.42)
Figure 1.2 Graphiques des densites de la moyenne dechantillons de n = 3, 25
et 250 observations obtenues grace à 10 000 simulations. La colonne de gauche
represente X pour des variables Normalement distribuees, la colonne de droite
n
_
X 1
_
pour des tirages de distribution
2
1
.
Alors par le theorème de Slutsky
n
_
X
_

d.
N(0, 1) .
An de pouvoir utiliser la theorie asymptotique, il faut recourir à des
theorèmes limites centraux, le plus connu etant le
Theorème 4 (Theoreme de Lindberg-Levy) Soient X
1
, ..., X
n
des variables
aleatoires identiquement et independamment distribuees de sorte que E[X
i
] =
et V[X
i
] =
2
. On pose X = (X
1
+... +X
n
) /n. Alors
n
_
X
_
d.
N
_
0,
2
_
28
1.4.4 Notation de lordre
La theorie asymptotique est generalement traitee pour n . Il peut se
reveler interessant de discuter de lordre de magnitude des estimateurs et des
termes restants. En calcul, la notation suivante est utilisee :
Notation. Soient deux fonctions f (x) et g (x) . Si
f (x)
g (x)
0 quand x
alors f est dordre inferieur à g, ce quon note
f (x) = o (g (x)) petit o.
Si
lim
x
f (x)
g (x)
est bornee
alors f est de meme ordre que g, et on ecrit
f (x) = O(g (x)) grand O.
Exemple 17 0 < a < b n
a
= o
_
n
b
_
.
Exemple 18 0 < a log n = o (n
a
) .
La notation correspondante en probabilites est
Notation. Soit une suite de variables aleatoires X
1
, ..., X
n
et f une fonction
à valeurs reelles. Si
X
n
/f (n)
p
0,
on ecrit alors
X
n
= o
p
(f (n)) petit o
p
.
Si
X
n
/f (n)
d
X
alors
X
n
= O
p
(f (n)) grand O
p
.
29
Exemple 19 Selon la loi des grands nombres
n
i=1
X
i
/n
p
, ainsi
1
n
n
i=1
X
i
= O
p
(1)
1
n
n
i=1
X
i
= +o
p
(1) .
Exemple 20 Le theorème limite central fournit, pour = 0 et
2
= 1,
1
n
n
i=1
X
i
d
N(0, 1)
et donc
1
n
n
i=1
X
i
= O
p
(1)
ou en dautres termes
n
i=1
X
i
= O
p
_
n
_
.
30
Chapitre 2
Inference
Linference statistique utilisee dans le cadre des modèles econometriques
presente divers aspects. Une distinction principale sopère entre lestimation
et les tests ; une autre entre les objets de lattention : ils sont au nombre de
trois :
Moments (methodes destimation des moments). Ceci peut se reveler
utile pour tester des contraintes sur les moments qui sont issues de la theorie
economique (hypothèse de revenu permanent et danticipations rationnelles qui
impliquent par exemple que la variation de la consommation est imprevisible).
Distributions (non-parametrique). On peut souhaiter estimer la distribu-
tion du rendement dun actif sans supposer a priori de famille de distributions
au sein de laquelle on procèderait à une estimation.
Paramètres (parametrique). Paramètres qui sous-tendent une distribution
specique (et la distribution proprement dite peut etre veriee par des tests
de diagnostic).
Dans le cadre de ce chapitre, nous allons nous interesser aux stategies de
test. Les parties estimation et modelisation forment le sujet des chapitres sui-
vants.
2.1 Motivations
La notation que nous allons suivre ici necessite de dierentier les obser-
vations des variables aleatoires (v.a.) qui fournissent leur distribution. Ainsi
on observe un tirage y = (y
1
, ..., y
n
)
issu des v.a. Y = (Y

1
, ..., Y
n
)
dont la
31
distribution est donnee par le modèle : F
Y
(y; ) , pour . o` u
F
Y
(y; ) ;

fonction de distribution v.a. realisation paramètre Espace des paramètres
(connue) admissibles
On suppose que est vectoriel de dimension p.
Exemple 21 Y
i
NID(,
2
) , alors = (,
2
)
, R R
+
et par hy-
pothèse dindependance
F
Y
(y; ) =
n
i=1
F
Y
i
(y
i
; ) .
Exemple 22 Regression lineaire. Y
i
[X
i
= y
i
NID(
x
i
,
2
) avec independance
entre les x
i
. = (,
2
)
et R
dim()
R
+
. Alors
F
Y |X=x
(y; ) =
n
i=1
F
Y
i
|X
i
=x
i
(y
i
; ) .
Ici le fait de conditionner sur les regresseurs x
i
apparat dans le modèle.
Exemple 23 Y
i
est une autoregression de premier ordre (AR) (une serie tem-
porelle, qui est le plus simple des modèles utilises en macroeconometrie) :
Y
i
[Y
i1
= y
i
N
_
+y
i1
,
2
_
,
alors = (, ,
2
)
, R
2
R
+
et
F
Y
2
,Y
3
|Y
1
=y
1
(y
2
, y
3
; ) = F
Y
2
|Y
1
=y
1
(y
2
; ) F
Y
3
|Y
2
=y
2
,Y
1
=y
1
(y
3
; )
= F
Y
2
|Y
1
=y
1
(y
2
; ) F
Y
3
|Y
2
=y
2
(y
3
; ) ,
ce qui se generalise à
F
Y
2
,Y
3
,...,Y
n
|Y
1
=y
1
(y; ) =
n
i=1
F
Y
i
|Y
i1
=y
i1
(y
i
; ) .
Ainsi dans le cadre des series temporelles, la distribution conjointe nest pas
le produit des distributions individuelles, mais celui des distributions condi-
tionnees sur le passe, i.e. les distributions des previsions.
32
2.2 Choix du modèle
La partie la plus ardue de la modelisation, la selection du modèle, peut etre
inuencee par de nombreuses sources. Il est plus facile de decrire les proprietes
dun bon modèle. Nous reviendrons sur ce point plus tard.
1. Parcimonie. F contient peu de paramètres.
2. Coherence des donnees. Un diagnostic permet de verier que le modèle
ne contredit pas les donnees.
3. Coherent avec des connaissances preexistantes, p. ex. une theorie economique
bien etablie et testee.
4. Stabilite. Represente bien le comportement des donnees sur dierents
sous-echantillons.
5. Encompassing. Explique les resultats empiriques de modèles rivaux.
6. Capacite de prevision. Capable de prevoir les observations futures.
Quand F est connue la methode dominante pour estimer consiste en
lutilisation de la fonction de vraisemblance via le maximum de vraisemblance
(Maximum Likelihood Estimator ou MLE) ou des methodes dites Bayesiennes.
Les methodes des moindres carres sont aussi couramment utilisees et concident
souvent avec le MLE. Nous les etudierons dans le chapitre suivant. Nous sup-
posons à present que nous disposons destimateurs et destimations, il sagit
alors de valider des hypothèses les concernant.
Linference consiste à tacher dobtenir des informations sur la veritable dis-
tribution des variables aleatoires dont on observe un seul tirage, lechantillon,
grace à des statistiques qui condensent une partie de linformation disponible.
2.3 Strategies de test
Lorsquon dispose dune estimation

dun paramètre obtenue à laide
dun echantillon de n observations, il y a fortes chances que la valeur de lesti-
mation soit legèrement dierente si on utilise un echantillon de taille plus faible
ou plus grande. Comment savoir alors quelle est la vraie valeur du paramètre ?
quel est lincertitude statistique de notre estimation ? Il sagit detablir une
strategie de test.
Lors de lelaboration dun test, il sagit de denir une hypothèse quon
souhaite conrmer ou inrmer, dite hypothèse nulle
H
0
: =
0
,
33

Population
, ,

Statistiques
l l
, ,
Echantillon
chantillonnage
rsumer les
donnes,
condenser
linformation
estimer
infrence
intervalles de
confiance
tests
dhypothses
Figure 2.1 Strategie de modelisation et dinference
et detablir lhypothèse alternative, celle que lon va accepter si on rejette H
0
:
H
1
: ,= 0.
H
0
est ici une hypothèse simple car elle specie complètement la valeur de ,
tandis que H
1
est dite composite. Il existe quatre etats possibles concernant
ces hypothèses :
H
0
est vraie et on laccepte avec raison
H
0
est vraie, mais on la rejette à tort : on fait une erreur.
H
0
est fausse et correctement, on la rejette
H
0
est fausse mais on laccepte à tort, on fait ici aussi une erreur.
Ce problème presente donc deux decisions correctes et deux types derreurs.
Le tableau 2.1 presente ces resultats de manière stylisee.
2.3.1 Erreurs de test
Si on fonde un test sur des donnees presentant un caractère aleatoire, il est
inevitable que des erreurs surviennent et on rejette necessairement lhypothèse
nulle meme quand elle est vraie. Ce qui est important, cest de savoir et de
34
.
Verite
H
0
H
1
Accepte H
0
erreur de Type 2
Rejette H
0
(degre de signicativite) erreur de Type 1 Puissance du test
Tableau 2.1 Presentation stylisee dune strategie de test. Verite represente
letat de Nature et Accepte correspond à lhypothèse retenue.
controler le risque de ce type derreur. Ce problème est appele erreur de Type
1. La probabilite de faire ce genre derreur est appelee signicativite du test
(ou taille, size). On la note generalement :
Pr (rejeter H
0
[ H
0
est vraie) = ,
o` u est le degre de signicativite. En pratique, on choisit souvent = 0, 05
en econometrie, mais ce choix est arbitraire.
Pour un niveau de signicativite donne, il serait attractif si lautre type
derreur, lacceptation de H
0
quand elle est en fait fausse, avait une probabilite
faible. Cette autre erreur est dite de Type 2.
2.3.2 Fonction de puissance
Une contrepartie de lerreur de type 2 est le rejet correct de lhypothèse
nulle quand celle-ci est fausse. La probabilite de cette decision est appelee
fonction de puissance du test :
Puissance (
1
) = Pr (rejeter H
0
[ Vraie valeur de est
1
) .
La probabilite dune erreur de type 2 est
Pr (erreur de type 2) = 1 Puissance (
1
) .
Typiquement, pour une valeur donnee de , il est souhaitable dobtenir une
puissance la plus elevee possible pour tous les
1
,=
0
. Un tel test est dit
puissant, et si un test particulier presente une puissance superieure à tous les
autres pour tous les
1
, ce test est appele le plus puissant.
Exemple 24 On suppose que Y
i
= +
i
, o` u
i
est iid mais la distribution
nest pas connue, quoiquon suppose que sa variance existe. On souhaite tester
H
0
:
0
= 1 contre H
1
: ,= 1.
35
Pour ce faire, on recourt à la statistique
Z =
n
_
Y
0
_
V ar (Y
i
)
qui, selon le theorème limite central (chapitre precedent) et sous lhypothèse
H
0
Z =
n
_
Y
0
_
V ar (Y
i
)
d
H
0
N(0, 1) .
Ainsi on rejette H
0
si Z est grand. Selon la loi Normale, dans 5% des cas [Z[
est superieur ` a 1,96. Comment ceci fonctionne-t-il en pratique, quelle est la
fonction de puissance ?
En realite il sagit ici dun test asymptotique car si les
i
ne sont pas
Normalement distribues alors Z ne suit pas une Normale standard quand
le nombre dobservations n est ni.
La variance de Y
i
nest pas connue donc il faut se resoudre à utiliser
un estimateur, ainsi meme si les
i
suivent une loi normale, on ne peut
obtenir la distribution exacte de Z.
La fonction de puissance de ce test ne peut etre connue si on ne specie
pas la distributions des
i
. En revanche, si on la connat, il peut se reveler
possible de lobtenir analytiquement.
Si, à present,
i
NID(0,
2
) , alors Y
i
NID(,
2
) et Y N
_
,

2
n
_
.
Ainsi
Y
0
N
_

0
,

2
n
_
et donc
Z N(
0
, 1) (2.1)
Le test qui consiste à accepter H
0
si Z [1, 96; +1, 96] presente un degre de
signicativite de 5% car sous H
0
:
H
0
: Z N(0, 1)
et la probabilite quune loi Normale Standard fournisse une valeur superieure
à 1,96 est de 2,5%. Grace à la fonction de distribution de la loi Normale, on
peut calculer, pour chaque et pour
0
= 1, quelle est la probabilite que la
statistique Z soit inferieure à 1,96 en valeur absolue car si ,=
0
on utilise
(2.1) .
36

H
0
H
0
H
1

H
1
Rejette
les
deux
Accepte
H
0
,
Rejette
H
1

Accepte les deux Accepte
H
1
,
Rejette
H
0

Rejette
les deux

H
Puissance du test
1
5%
H
0

H
0
=1
2,96 -1,96
H
0

Figure 2.2 Distributions correspondant à des startegies de tests. A gauche :
le test est rejete si la statistique de test se situe au delà des valeurs critiques
0
1, 96. A droite, la fonction de puissance est egale à la taille du test pour
lhypothèse nulle et tend vers lunite au fur et à mesure quon seloigne de
0
,
mais elle est faible à son voisinage. En bas, les deux distributions correspondant
à des hypothèses H
0
et H
1
proches ne permettent pas de rejeter ni lune ni
lautre des hypothèses pour un grand ensemble de valeurs.
De manière generale, la strategie de test consiste à obtenir une statistique,
deduire sa distribution sous lhypothèse nulle et/ou sous lalternative ; decider
dun degre de signicativite et calculer des valeurs critiques correspondantes
pour la distribution de la statistique (des quantiles) ; rejeter ou accepter lhy-
pothèse nulle. En pratique rejeter un test permet une incertitude plus faible :
on se place alors dans une intervalle qui correspond à 5% de probabilite ; ac-
cepter une hypothèse revient souvent à accepter aussi des hypothèses proches :
voir gure 2.2, graphique du bas.
37
2.3.3 Tests unilateraux
Si lhypothèse alternative nest pas symetrique H
1
: ,=
0
mais
H
1
: >
0
alors le test devient unilateral et on ne rejetera plus H
0
lorsque Z est faible
car <<
0
nest pris en compte ni dans H
0
, ni par H
1
. Ainsi on ne rejettera
lhypothèse nulle que si la statistique Z est superieure au quantile à 95%, i.e.
au-delà dune valeur critique de 1,64.
2.4 Test de Student
Dans lexemple precedent, on a deni une statistique Z et calcule sa loi de
distribution asymptotique (et en echantillons de taille nie dans le cas o` u la
distribution des
i
etait Normale). Dans cet exemple, la variance de Y
i
etait
supposee connue ; cette hypothèse nest pas valable en pratique et il faut se
resoudre à lestimer, ce qui inue sur la distribution de la statistique.
Dans le cas le plus simple de test concernant un paramètre unique :
H
0
: =
0
contre H
1
: ,=
0
,
dont on possède un estimateur

, la pratique la plus courante est de calculer
la statistique de Student, ou t-statistique : qui dans le cas dinnovations
i
Normalement distribuees :
t =

0
_
V
_
_
N(0, 1)
et on rejette H
0
si [t[ > 1, 96 par exemple (dans 5% des cas sous hypothèse
nulle). La theorème limite central fournit une approximation asymptotique
dans le cas de
i
suivant une autre distribution :
t =

0
_
V
_
_

n
N(0, 1)
En pratique, il faut recourrir à un estimateur de V
_
_
car celle-ci nest pas
connue de manière parfaite. Ainsi si on dispose par ailleurs de
2
un estimateur
de V
_
_
calcule sur la base dun echantillon de n observations :

2

n
V
_
_
38
et
t =

0
_

2
n
N(0, 1) . (2.2)
Il est donc possible dutiliser la loi Normale dans le test asymptotique. En
echantillons de taille nie, il faut recourir à un ajustement de la loi Normale :
la loi de Student, et ainsi pour un echantillon de taille n, t, denie en (2.2),
suit une loi de Student avec n 1 degres de liberte :
t t
n1
.
Les distributions de Student presentent des bords plus epais que la dis-
tribution Normale, i.e. la probabilite de rencontrer de grandes valeurs y est
legèrement superieure : ceci tient au fait quune loi t
n
correspond à la distri-
bution dun petit echantillon dobservations issues dune loi Normale. Ainsi
la presence dune valeur elevee, qui serait expceptionnelle dans les cas dune
normale, recoit alors une probabilite de 1/n soit nettement superieure à sa
probabilite theorique. Les valeurs critiques à 5% pour des tests bilateraux sont
donnees dans le tableau ci-dessous :
Taille de lechantillon Degres de liberte Valeur critique
(n) (n 1) à 5%
3 2 4,30
4 3 3,18
5 4 2,78
10 9 2,26
20 19 2,09
50 49 2,01
1,96
Dans le cas dhypothèses impliquant plusieurs estimateurs, on doit recourir
à une extension du test t et proceder à un test F (ratio de Fisher). Nous y
reviendrons dans le cadre des regressions.
2.4.1 Les autres tests de restriction
Trois tests principaux sont utilises dans les modèles econometriques an
de tester des restrictions (ou hypothèses) sur des paramètres du modèle. Lun
requière destimer le modèle sous H
0
(le test du score, ou dit des multiplicateurs
de Lagrange), dautres sous H
1
(test de Wald), ou enn destimer les deux
39
modèles (test de ratio des vraisemblances, ou test LR, pour likelihood ratio).
Ainsi selon la facilite destimation et la precision du test dans un cadre donne,
(sous H
0
beaucoup de paramètres sont par hypothèse connus et lestimation
peut se reveler plus facile) lune ou lautre des strategies peut etre employee.
40
Chapitre 3
Regression
3.1 Introduction
Le comportement economique est un phenomèe complexe et linteraction
des agents au sein dun marche ou dune economie complets forme un système
dicile à analyser. Un très grand nombre de facteurs peut potentiellement
inuencer les decisions. Pour cette raison, toute tentative visant à resumer
le comportement dun système micro ou macro doit explicitement adopter
une demarche multivariee ; il est par consequent important de formaliser les
methodes danalyse de telles relations. Si seulement deux variables etaient
impliquees, il serait possible de decrire leur interaction à laide dun graphique
et cette methode se revèlerait extrement informatrice. Leconometrie peut etre
vue comme une approche visant à apporter une reponse à la complexite des
interactions et à pallier limpossibilite de multiplier des experiences grace à
lusage de methodes permettant disoler les phenomènes economiques dans
lanalyse historique : faire de leconomie une science (pseudo-) experimentale.
Au cours du dernier siècle leconometrie a evolue en tachant de satisfaire à une
certain nombre de demandes :
La simplicite
La precision
Linformation
La robustesse.
3.1.1 La regression lineaire et ses problèmes potentiels
Imaginons que nous ayons à notre disposition un echantillon dobservations
contenant K + 1 variables :
y
i
, x
i,1
, ..., x
i,K
.
41
Nous nous interessons à la relation entre les variables aleatoires
Y
i
, X
i,1
, ..., X
i,K
dont lechantillon fournit une realisation. Si nous voyons Y
i
comme la variable
au sujet de laquelle une decision doit intervenir et les X
ij
comme les variables
qui inuencent cette decision, on essaie alors souvent de representer cette re-
lation à laide de lesperance conditionnelle E[Y
i
[X
i,1
, ..., X
i,K
] . On pourrait
aussi sinteresser à dautres informations que la simple moyenne conditionnelle,
comme la variance de la distribution conjointe de (Y
i
, X
i,1
, ..., X
i,K
) . Mais dans
le cas de la regression, cest lesperance qui forme lobjet de notre analyse. Dans
lexemple decrit ci-dessus, un agent decide de la valeur de Y
i
en saidant din-
formations representees par les X
ij
mais peut-etre sa decision est elle soumises
à des alea exterieurs : ce modèle de decision sappelle un plan contingent et
sapplique par exemple aux decisions de taux dinteret des banques centrales.
Dautres types de relations peuvent etre analysees, comme le resultat pour
le taux de change des interactions entre les economies domestiques (taux de
croissance, decit publique, ination, taux dinteret...).
Dès quon souhaite estimer une moyenne conditionnelle, les hypothèses
commencent à saccumuler (la première dentrelles est que nous connaissions
les variables Y et X). En particulier, deux hypothèses sont essentielles concer-
nant E[Y
i
[X
i,1
, ..., X
i,K
] :
1. Elle est lineaire vis-à-vis des X
i,k
, i.e.
E[Y
i
[X
i,1
, ..., X
i,K
] =
1
X
i,1
+
2
X
i,2
+.... +
K
X
i,K
2. Les paramètres qui nous interessent sont les coecients des X
i,k
(ces derniers
sont appeles regresseurs).
An de convertir ces hypothèses en une relation impliquant Y
i
, on denit
une variable u
i
qui contient toute linformation qui nest pas comprise dans
X
i,1
, ..., X
i,K
:
u
i
Y
i
E[Y
i
[X
i,1
, ..., X
i,K
]
o` u necessairement
E[u
i
[X
i,1
, ..., X
i,K
] = 0
et ainsi
Y
i
= E[Y
i
[X
i,1
, ..., X
i,K
] +u
i
.
42
Daprès la denition de lesperance conditionnelle, u
i
est souvent appele terme
derreur ou innovation puisquil represente la part de Y
i
non prise en compte
par les X
ij
.
La dernière etape sur le chemin dune modelisation simple consiste à emettre
des hypothèses au sujet de u
i
(autres quune moyenne conditionnelle nulle).
Celles-ci sont en general :
3. u
i
est identiquement distribue (pour tous i) avec une variance constante
2
.
4. les u
i
sont independamment distribues pour i = 1, ..., n.
5. u
i
suit une distribution Normale.
La troisième des ces hypothèses est ce quon appelle une erreur homoscedastique
(par opposition à heteroscedastique quand
2
i
varie), et la quatrième corres-
pond à une erreur non-autocorrelee ou ne presentant pas de correlation serielle.
3. et 4. ensemble fournissent une erreur identiquement et independamment dis-
tribuee :
u
i
i.i.d.
_
0,
2
_
.
La cinquième hypothèse renforce les precedentes et nest pas toujours imposee.
Ce modèle permet donc decrire
Y
i
=
1
X
i,1
+
2
X
i,2
+.... +
K
X
i,K
+u
i
et forme ce quon appelle le modèle de regression lineaire. Il est important de
conserver en memoire que ce modèle a ete obtenu à la suite dune serie detapes
de reduction et rien ne nous laisse à penser quelles soient toujours vraies. Dans
la suite ce chapitre nous allons nous interesser à lestimation de ce modèle et
allons tacher de voir comment les hypothèses presentees ci-dessus peuvent se
reveler erronees et quelles en sont les consequences.
3.1.2 Notation vectorielle et matricielle
Les notions presentees ci-dessus sont notees sous forme vectorielle :
x
i
Ki
=
_
_
_
_
_
_
_
_
_
1
x
i2
x
iK
_
_
_
_
_
_
_
_
_
,
Ki
=
_
_
_
_
_
_
_
_
_
K
_
_
_
_
_
_
_
_
_
43
de sorte que
y
i
= x
i
+u
i
, i = 1, 2, ..., n.
On suppose alors
E[Y
i
[X
i
= x
i
] = x
i
et E[u
i
[X
i
= x
i
] = 0.
Il est souvent plus facile dempiler toutes les n observations dans un vecteur
unique
y
n1
= (y
1
, ..., y
n
)
et
u
n1
= (u
1
, ..., u
n
)
X
nK
=
_
_
_
_
_
x
1
x
2
.
.
.
x
n
_
_
_
_
_
=
_
_
_
_
_
1 x
12
x
1K
1 x
22
x
2K
.
.
.
.
.
.
.
.
.
.
.
.
1 x
n2
x
nK
_
_
_
_
_
de sorte que
y = X +u
et les hypothèse (3) et (4) impliquent que
Cov [u[X] =
2
I.
car Cov [u
i
, u
j
[X] =
2
1
{i=j}
, o` u 1
{i=j}
= 1 si i = j et 0 sinon.
3.2 Regression
3.2.1 Maximum de vraisemblance
Cas general
On note f (Y ; X, ) la densite conjointe de lensemble des observations Y
(conditionnee à X) et soumise à un paramètre , ici = (,
2
) . Alors quand
Y = y est observe, la fonction de :
L(; y, X) = f
Y |X
(y; , X)
44
est appele fonction de vraisemblance. Pour une densite donnee, est xe
quand y varie. Dans le cas dune fonction de vraisemblance, les roles sont in-
verses : on xe lechantillon aux valeurs observees et varie. Ainsi la fonction
de vraisemblance fournit la probabilite dobserver ledit echantillon si le pa-
ramètre de la distribution est . Une remarque : log L(; y) est souvent plus
facile à utiliser que L(; y) et il existe une bijection entre les deux.
Exemple 25 Soit Y
i
NID(,
2
) et = (,
2
) de sorte que
f
Y
(y; ) =
n
i=1
f
Y
i
(y
i
; )
=
_
1
2
2
_
n
exp
_
1
2
2
n
i=1
(y
i
)
2
_
.
Lestimateur dit du maximum de vraisemblance (Maximum Likelihood esti-
mator ou MLE) est la valeur de qui fournit la plus forte probabilite dobserver
Y = y :
= argmax
L(; y)
La vraisemblance est une mesure du caractère plausible, on maximise la plau-
sibilite.
Quand na pas dinuence sur le domaine de denition de Y, on sinteresse
plus souvent à la derivee de log L, ce quon appelle le score :
log L(; y)
et
est deni comme solution de lequation destimation;

log L(; y)
= 0
qui nest malheureusement pas necessairement unique.
Exercice 9 suite de lexemple precedent :
log L(; y) =
n
2
log 2
n
2
log
2
1
2
2
n
i=1
(y
i
)
2
et donc
log L(; y)
2
=
n
2
2
+
1
2
4
n
i=1
(y
i
)
2
log L(; y)
=
1
2
n
i=1
(y
i
)
45
et donc les zeros de ces equations fournissent
=
1
n
n
i=1
y
i
et
2
=
1
n
n
i=1
(y
i
)
2
on peut verier que les derivees secondes sont negatives en

.
Il faut bien garder en memoire que lestimateur du maximum de vraisem-
blance presuppose quon connaisse la distribution exacte des donnees, et il
permet dobtenir des valeurs des paramètres sous cette hypothèse, qui nest
dailleurs guère plus restrictive que celles necessaires à dautres methodes des-
timation. Il existe des familles de distributions très generales presentant davan-
tage de paramètres et dont la Gaussienne est une sous-famillle qui permettent
de travailler dans un cadre très general. Linteret du MLE est quil est le plus
ecient quand le modèle est bien specie (i.e. la plus precis car sa variance
est minimale), quil peut prendre des formes très complexes, et quenn meme
quand le modèle est faux (mal-specie) le MLE (alors appele quasi-MLE) peut
fournir les vrais paramètres !
Dans la regression lineaire
Sous les conditions (1) (5) du 3.1.1,.
y
i
[x
i
NID
_
x
i
,
2
_
donc la fonction de densite conditionnelle est
f
_
y[x;
2
,
_
=
n
i=1
f
Y
i
_
y
i
, x
i
;
2
,
_
=
_
1
2
2
_
n
exp
_
1
2
2
n
i=1
(y
i
x
i
)
2
_
=
_
1
2
2
_
n
exp
_
1
2
2
(y X)
(y X)
_
et la fonction de log-vraisemblance conditionnelle
log L
_
,
2
_
=
n
2
log
2
1
2
2
(y X)
(y X)
donc

apparat sous (y X)
(y X) et
= argmin
(y X)
(y X)
46

2
= argmax
2
_
n
2
log
2
1
2
2
(y X)
(y X)
_
.
A present
log L(; y)
2
=
n
2
2
+
1
2
4
n
i=1
(y
i
)
2
log L(; y)
=
1
2
n
i=1
(y
i
)
log L(,
2
)
2
=
n
2
2
+
1
2
4
n
i=1
(y
i
x
i
)
2
log L(,
2
)
j
=
1
2
n
i=1
x
ij
(y
i
x
i
) , j = 1, 2, ..., K
donc les zeros de ces equations sont

2
=
1
n
_
y X
_
y X
_
et on constate que
n
i=1
x
ij
(y
i
x
i
) = 0
implique
(x
1j
, x
2j
, ...., x
nj
)
_
y X
_
= 0
et ce pour tous j, ainsi
X
_
y X
_
= 0
ce quon resoud si X
X est inversible par
= (X
X)
1
X
y. (3.1)
On constate que le MLE est lineaire vis-à-vis de y.
Residus
On appelle residus les estimateurs de la serie derreurs u
i
, denis par
u = y y = y X
= y X (X
X)
1
X
y
=
_
I X (X
X)
1
X
_
y.
47
On pose en general
M
X
= I X (X
X)
1
X
une matrice symetrique idempotente, i.e. M

2
X
= M
X
= M
X
de sorte que
u = M
X
y = M
X
u.
On constate que la matrice X (X
X)
1
X
= P
X
est une matrice de projection
sur lespace deni par les combinaisons lineaires des vecteurs de X et que
M
X
est la projection sur une direction orthogonale à lespace genere par X :
M
X
P
X
= 0 et
I = P
X
+M
X
o` u
u = M
X
y
y = P
X
y
u
y = 0.
et surtout les regresseurs sont orthogonaux aux residus :
X
M
X
= X
u = 0
Ainsi u = M
X
u implique que
u[X N
_
0,
2
M
X
M
X
_
= N
_
0,
2
M
X
_
.
A present, les equations du MLE precedentes ont donne :

2
=
1
n
u
u
et donc

2
=
1
n
u
X
M
X
u =
1
n
u
M
X
u
o` u
E
_

2
[X
= E
_
1
n
u
M
X
u[X
_
48
u
M
X
u est un scalaire donc il est egal à sa trace u
M
X
u = tr [u
M
X
u] et on
sait que tr [AB] = tr [BA] , ainsi :
E
_

2
[X
= E
_
1
n
tr (M
X
u
u) [X
_
=
1
n
tr (M
X
E[u
u[X])
=
1
n
tr (M
X
) E[u
u[X]
=

2
n
tr (M
X
)
=
n K
n

2
Cet estimateur est donc biaise, un estimateur sans biais serait :

2
=
1
n K
u
u.
Proprietes
Lestimateur du maximum de vraisemblance satisfait à beaucoup de pro-
prietes. Puisque
= (X
X)
1
X
y. et y[X N
_
X,
2
I
_
on peut utiliser les resultats des distributions Normales :
[X = (X
X)
1
X
y[X N
_
(X
X)
1
X
[X] , (X
X)
1
X
2
I
X (X
X)
1
_
[X N
_
,
2
(X
X)
1
_
.
Ceci implique, en utilisant la loi des esperances iterees (qui dit que E[E[A[B]] =
E[A]) :
E
_
_
= et Cov
_
_
=
2
E
_
(X
X)
1
_
.
On peu aussi montrer que pour tout autre estimateur

,
Cov
_
[X
_

2
(X
X)
1
et ainsi le MLE atteint la plus faible variance (dite borne de Cramer-Rao), il
est dit ecient. Enn, remarquons que nous avons procede à une maximisation
de la fonction de vraisemblance en separant et
2
; si on maximise de manière
49
multivariee par rapport à = (,
2
) , cela nous permet dobtenir la covariance
de

et
2
:
E
_
[X
_
= E
_
[X

2
[X
_
=
_
2
_
Cov
_
[X
_
=
_
_
2
(X
X)
1
0
0
2
4
n
_
_
.
O` u la distribution de
2
[X suit une loi
2
. Cependant le theorème limite central
nous permet darmer :
n
_

_

n
N
_
0,
_

2
Q
1
0
0 2
4
__
,
o` u
Q = lim
n
1
n
X
X
qui existe en general car la variance des regresseurs X est bornee. Dans le cas
contraire, on a aaire à des regresseurs dits non-stationnaires et nous verrons
comment traiter ce point dans les chapitres concernant les series temporelles.
Nous constatons que
n
_

_
O
p
(1)
et donc que
= +O
p
_
1
n
_
lestimateur tend vers sa cible à un taux de n
1/2
, il est dit coherent à lordre
n (root n consistent).
3.2.2 Moindres carres (Least squares)
Denition
On appelle estimateurs des moindres carres tout estimateur qui est obtenu
en minimisant un critère quadratique des residus : lexemple le plus simple,
appele moindres carres ordinaires (ordinary least squares) vise à minimiser le
critère :
n
i=1
(y
i
x
i
)
2
= (Y X)
(Y X) (3.2)
50
vis-à-vis de . (On aurait pu choisie de minimiser la valeur absolue de
n
i=1
[y
i
x
i
[ ,
mais cet estimateur (moindre distance absolue, ou least absolute deviation,
LAD) est moins utilise car il nest pas derivable).
La condition de premier ordre (i.e. la première derivee de (3.2) est nulle)
donne :
2
n
i=1
x
i
_
y
i
x
_
= 0
et ainsi on reconnat le MLE :
= (X
X)
1
X
y.
MCO (OLS) et MLE concident dans le cas des regressions Gaussiennes. Il est
important detre familier avec de nombreuses proprietes des estimateurs MCO.
Proprietes
Theorème 5 (Gauss-Markov) Lestimateur des MCO du modèle lineaire
o` u u
i
est iid (0,
2
) est le meilleur (i.e. de variance minimale) estimateur au
sein de la classe des estimateurs lineaires non-biaises.
Pour obtenir des informations sur la distribution de

, on constate que,
conditionnellement à X
= + (X
X)
1
X
u
et donc puisque u N(0,
2
I)
[X N
_
0, (X
X)
1
X
2
I
X (X
X)
1
_
= N
_
0,
2
(X
X)
1
_
.
Theorème 6
(X
X)
1/2
_

_
N
_
0,
2
I
K
_
.
Theorème 7
2
_
(X
X)
_

_

2
K
.
51
Les theorèmes precedents nous permettent de tester des hypothèses concer-
nant à laide de
, à condition de connatre
2
. Quand ce dernier est inconnu,
il nous faut lestimer. Mais auparavant, remarquons que si lun des regresseurs
est une constante (i.e. 1) alors la somme des residus est nulle :
n
i=1
u
i
= 0, (3.3)
ceci nest pas une propriete des erreurs, car en general
n
i=1
u
i
,= 0
meme si
E
_
n
i=1
u
i
_
= 0.
On doit donc faire bien attention lorsquon remplace les erreurs par les residus.
Il faut aussi faire attention aux logiciels car la plupart des tests quils calculent
font lhypothèse (3.3) , ce qui nest pas vrai si aucune constante nest incluse
parmi les regresseurs.
Indicateurs de precision
On denit les residus
u = y X
de sorte que
y = X
+ u = y + u, u
X = 0
et donc
y
y = ( y
+ u
) ( y + u) = y
y + 2 y
u + u
u
= y
y + u
u + 2
u
= y
y + u
u
La somme des carres des y
i
est egale à la somme des carres des variables
estimees ( y
i
) plus la somme des carres des residus. On appelle les sommes
i
y
2
i
= TSS (Total sum of squares)
i
y
2
i
= ESS (Explained sum of squares)
i
u
2
i
= RSS (Residual sum of squares)
52
de sorte que
TSS = ESS +RSS
et la mesure habituelle de precision de la regression est
R
2
=
ESS
TSS
= 1
RSS
TSS
]0, 1[ ,
plus le R
2
(R-deux) est proche de lunite meilleure est la regression (Goodness
of t). Attention tout de meme, dans le cadre des variables non-stationnaires,
le R
2
peut se reveler très proche de 1 alors meme que les variables ne sont pas
correlees !
3.2.3 Erreurs de specication
Il peut arriver quon fasse une erreur sur le modèle mais que les estimateurs
convergent toutefois vers leur vraies valeurs. Ou alors, les resultats peuvent
navoir aucun sens. An detudier les proprietes des estimateurs de modèles
mal species, la procedure suivie est :
1. Trouver une expression pour les estimateurs dans le cadre du modèle tel
que specie, en fonction des variables aleatoires le composant.
2. Remplacer les variables aleatoires par leur vraie distribution probabiliste
dans le bon modèle (le processus generateur des donnees ou DGP) et
observer la loi de distribution des estimateurs, pour voir sils ont biaises,
coherents...
Pour comprendre les divers cas on etudie :
y = X
1
1
+X
2
2
+u
o` u on appelle DGP le modèle correct et M celui utilise dans la regression.
Modèles sur-species :
DGP : y = X
1
1
+u
M : y = X
1
1
+X
2
2
+u
i.e.
2
= 0.
Un modèle est dit sur-specie lorsquil inclut des regresseurs dont le vrai
coecient est nul et qui ne devraient pas intervenir dans la regression. Les
estimateurs sont coherents et non-biaises mais leur variance est superieure à
celle quon obtiendrait grace au modèle correctement specie.
53
Modèles sous-species
DGP : y = X
1
1
+X
2
2
+u
M : y = X
1
1
+u
i.e.
2
,= 0. Alors lestimateur est biaise dans des echantillons de taille
nie et non coherent dans de grands echantillons : si

1
= (X
1
X
1
)
1
X
1
y
alors
1

n
1
+
_
lim
n
E
_
X
1
X
1
n
_
1
_
_
lim
n
E
_
X
1
X
2
n
__
2
Heteroscedasticite
Si la serie derreur u
i
nest pas identiquement distribuee mais de variance
2
i
alors on parle de presence dheteroscedasticite. Ceci ne modie pas
le caractère non-biaise de lestimateur OLS mais entrane des problèmes
concernant se variance. Ainsi les tests de Student se revèleront faux car
ils ne prennent pas en compte la bonne distribution. On utilise alors
lestimateur des moindres carres generalises qui consiste a travailler sur
des donnees transformees : y
i
= y
i
/
i
, x
i
= x
i
/
i
.
Comment se rendre compte de la presence dheteroscedasticite ? Soit par
des methodes informalles dobservations des carres des residus, soit par
divers tests (on estime par exemple un modèle plus general et on teste
la presence de coecients non nuls). Les logiciels en presentent souvent
plusieurs.
Autocorrelation
Souvent il nest pas possible de faire lhypothèse que les y
i
[x
i
sont independants,
cest le cas en nance, macroeconometrie et en micro lorsquon suit un
meme individu au cours du temps. Si les donnees presentent une cer-
taine dependance temporelle, on ne peut plus supposer que Cov[u[X]
soit diagonale mais on doit poser :
Cov [u[X] = .
On peut sinon utiliser des modèles du type
y
t
= y
t1
+x
t
+u
t
, u
t
[y
t1
, x
t
NID
_
0,
2
_
en utilisant des retards (valeurs retardees) de la variable endogène (et/ou
des variables exogènes). Ces modèles sont appeles autoregressifs dyna-
miques.
54
Correlation des regresseurs et des erreurs
Une des hypothèses du modèle classique de regression fait lhypothèse
selon laquelle
E[u[X] = 0
i.e.
Cov [u
i
x
j
] = 0 i, j
E[X
u] = 0
qui intervient dans le carctère non-biaise de

car
= + (X
X)
1
X
u.
Si E[X
u] ,= 0 alors lestimateur nest pas coherent et ne tend pas vers

sa vraie valeur . Ce cas apparat souvent en pratique, par exemple dans
le cadre de modèles danticipations rationnelles o` u ce nest pas x
i
qui
intervient dans la regression mais sa valeur anticipee x
i
alors que x
i
est
inconnue. On observe le meme phenomène quand la mesure de x
i
est
imprecise (p.ex le PIB qui nest en general connu quaprès deux ans, on
travaille avec des estimations dans lintervalle) et ainsi la mesure x
i
=
x
i
+
i
. On rencontre aussi beaucoup ce problème en microeconomie. On
doit alors chercher des variables instrumentales, qui sont correlees avec X
mais non avec u. Cest le travail du modelisateur que de choisir de bonnes
variables (il peut sagir de variables retardees de x
i
, p.ex. x
i1
, correle
avec x
i
mais non avec u
i
). La methode des variables instrumentales dans
le cadre le plus simple consiste à regresser X sur les instruments Z et
dutiliser les variables estimees

X pour le calcul de

IV
.
3.2.4 Choix du modèle
Il apparat donc que le co ut de lomission de regresseurs soit nettement
superieur à celui de linclusion de variables inutiles, car dans ce dernier cas,
il sagit alors surtout dun problème de precision de lestimation. Ceci est à
lorigine de la methode generalement preconisee de General vers Specique,
o` u on commence la modelisation par linclusion de lensemble des variables
theoriquement possibles, et estimation après estimation on ote celles dont le
coecient nest pas statistiquement dierent de zero (par des tests de Student).
On devrait normalement aboutir au bon modèle si les variables de depart
contiennent lensemble de celles qui interviennent eectivement et si le modèle
est stable sur lintegralite de lechantillon. On doit toutefois proceder à la
55
n à des tests de specication an de verier que le modèle est bon (ho-
moscedastique, residus non autocorreles...).
Si plusieurs modèles resistent à lanalyse et à des tests de specication. On
peut choisir den privilegier un sur la base de critères ad hoc. Il en existe divers
dont le plus connu est le critère dinformation dAkaike (AIC) qui combine
la precision de lestimation et son caractère parcimonieux (faible nombre de
regresseurs) : il sagit de minimiser
AIC = log
_

2
_
+ 2
K
n
,
o` u K est le nombre de paramètres et n la taille de lechantillon.
56
Chapitre 4
Series temporelles
4.1 Introduction
4.1.1 Quappelle-t-on serie temporelle ?
Contrairement à leconometrie traditionnelle, le but de lanalyse des series
temporelles nest pas de relier des variables entre elles, mais de sinteresser à
la dynamique dune variable. Cette dernière est en eet essentielle pour deux
raisons : les avancees de leconometrie ont montre quon ne peut relier que
des variables qui presentent des proprietes similaires, en particulier une meme
stabilite ou instabilite ; les proprietes mathematiques des modèles permettant
destimer le lien entre deux variables dependent de leur dynamique.
Denition 7 (Serie Temporelle) La suite dobservations (y
t
, t T) dune
variable y à dierentes dates t est appelee serie temporelle. Habituellement, T
est denombrable, de sorte que t = 1, ...T.
Remarque 8 En mathematiques, la denition de serie temporelle ci-dessus
correspond à la denition dune suite, u
n
nI
, tandis quon nomme serie la
suite denie à partir de la somme des termes de la suite : s
n
=
n
i=0
u
i
.
Une serie temporelle est donc toute suite dobservations correspondant à
la meme variable : il peut sagir de donnees macroeconomiques (le PIB dun
pays, lination, les exportations...), microeconomiques (les ventes dune en-
treprise donnee, son nombre demployes, le revenu dun individu, le nombre
denfants dune femme...), nancières (le CAC40, le prix dune option dachat
ou de vente, le cours dune action), meteorologiques (la pluviosite, le nombre
de jours de soleil par an), politiques (le nombre de votants, de voix recues par
un candidat...), demographiques (la taille moyenne des habitants, leur age...).
57
1990 1995 2000 2005
0.01
0.00
0.01
0.02
Croissance de la Consommation en valeur
Croissance de la Consommation en volume
1990 1995 2000 2005
1
2
3
Inflation (en %)
1990 1995 2000 2005
275
300
325
350
Demande en valeur
1990 1995 2000 2005
3.0
3.1
3.2
3.3
3.4
Demande en volume
Figure 4.1 Donnees francaises trimestrielles de : (a) croissance de la consom-
mation domestique en valeur et en volume (i.e. sans eet daugmentation des
prix) ; (b) Ination ; (c) Demande en valeur ; (d) Demande en volume.
En pratique, tout ce qui est chirable et varie en fonction du temps. La dimen-
sion temporelle est ici importante car il sagit de lanalyse dune chronique
historique : des variations dune meme variable au cours de temps, an de pou-
voir en comprendre la dynamique. Les donnees de panel sinteressent pour leur
part ` a la variabilite de caracteristiques entre individus, agents, entreprises. La
periodicite de la serie nimporte en revanche pas : il peut sagir de mesures quo-
tidiennes, mensuelles, trimestrielles, annuelles... voire meme sans periodicite.
On represente en general les series temporelles sur des graphiques de valeurs
(ordonnees) en fonction du temps (abscisses). Une telle observation constitue
un outil essentiel qui permet au modelisateur ayant un peu dexperience de
tout de suite se rendre compte des proprietes dynamiques principales, an
de savoir quel test statistique pratiquer. Sur la gure 4.1, quatre graphiques
montrent des series ayant des proprietes dierentes. Le panneau (a) presente
deux series qui oscillent autour dune valeur comprise entre 0 et 0,01 : elles sont
stables autour de leur moyenne. On parle dans ce cas de series stationnaires.
En (b) , lination decrot fortement jusquen 1999 pour remonter ensuite : elle
noscille pas autour dune moyenne bien quelle ne soit jamais très loin de 2%;
58
sous reserve de tests statistiques ns, elle semble moins stable que les series
en (a) , elle est donc peut-etre non stationnaire. La serie (c), quant à elle crot
sur lensemble de lechantillon observe ; on parle dans ce cas de tendance et sa
moyenne nest pas constante (sa moyenne entre 1990 et 1995 est radicalement
dierente de celle mesuree entre 2000 et 2004). Enn, le panneau (d) reproduit
la meme serie mais hors eet de prix (lination etant toujours positive les prix
croissent naturellement sans que le volumes augmentent necessairement) : la
tendance à la hausse provenait uniquement de laugmentation des prix et la
demande en volume decrot au debut des annees 1990. De plus, cette dernière
serie presente un comportement assez regulier, le niveau respectif des trimestres
dune annee se reproduit tous les ans, il sagit dun phenomène saisonnier.
Les caracteristiques de ces graphiques sont toutes modelisables et analy-
sables dans le cadre de lanalyse des series temporelles. Nous allons introduire
plus loin, les concepts de saisonnalite, stationnarite, tendances qui permettront
de tester diverses hypothèses sur ces donnees et de connatre a priori lesquelles
peuvent etre reliees. Nous verrons aussi que, comme ici pour le passage des va-
leurs aux volumes, il est possible de trouver des combinaisons entre des series
qui annulent certains eets (ici, la tendance continue à la hausse).
4.1.2 Quels sont les buts de cette analyse ?
Parmi les multiples applications de lanalyse des series temporelles, il est
possible den distinguer neuf principales.
Prevoir
La fonction première pour laquelle il est interessant dobserver lhistorique
dune variable vise à en decouvrir certaines regularites an de pouvoir extra-
poler et detablir une prevision. Il sagit ici de comprendre la dynamique qui
relie une observation à celles qui lont precedee et de supposer, sous reserve
quon puisse justier une telle hypothèse, que les memes causes produisent
les memes eets. Avec une analyse ne, il est meme possible detablir des
previsions robustes vis-à-vis de ruptures brusques et de changements non
anticipables.
Relier les variables
Il est important de de savoir a priori si certaines relations sont econometriquement
possibles et deviter les equations qui ne presentent aucun sens. Reprenons
les series presentees gure 4.1 : soit la demande en valeur (panneau c) à la
59
date t, notee D
t
, et lination notee i
t
. Peut-on faire lhypothèse que lina-
tion inuence positivement la demande ? Ce qui reviendrait à dire par quen
periode de forte ination, les citoyens souhaitent consommer davantage quen
une periode o` u elle est faible. Ce quon peut noter
D
t
= +i
t
+
t
, (4.1)
o` u
t
represente un ecart entre la demande et ce que peut prevoir lination. Si
notre modèle represente bien la manière dont est generee la demande,
t
doit
etre de moyenne nulle. Dans ce cas, si on note E[] lesperance mathematique,
i.e. la moyenne, celle-ci doit satisfaire :
E[D
t
] = E[ +i
t
+
t
]
= +E[i
t
] +E[
t
]
= +E[i
t
] .
car E[
t
] = 0. Or nous avons vu sur la graphique que lination avait tendance à
ne pas trop seloigner de 2%, sa moyenne doit donc etre constante et se situer
entre 1 et 3%, mettons 2% pour simplier. Dans ce cas E[D
t
] = + 2
est constante, ce qui est contradictoire avec notre observation precedente qui
montrait que la demande en valeur etait monotone et donc que sa moyenne
variait au cours du temps. Une relation comme (4.1) na donc aucun sens ; il est
revanche statistiquement possible quil faille sinteresser au lien entre lination
et le taux de croissance de la demande. Lanalyse des series temporelles permet
de savoir quelles equations sont a priori grotesques.
Determiner la causalite
Un approche dynamique permet aussi de sinteresser aux relations de cau-
salite. Pour quun mouvement en provoque un autre, il est necessaire quil
le precède. Une simple concomittance de deux evenements revèle davantage
une source commune. Lutilisation de retards dune variable, i.e. de ses valeurs
aux periodes precedentes, dans les equations autorise la mesure des eets de
causalite et permet egalement de connatre la duree de transmission entre une
source et son eet.
Distinguer entre court et long-terme
Certaines lois de comportement ne sont jamais veriees en pratique car elles
ne sappliquent que sur les equilibres de long terme. A plus courte echeance,
des variations contrarient perpetuellement leur mise en oeuvre. Cependant, des
60
ajustements transitoires sopèrent continuellement an de sapprocher de ces
equilibres. On reformule alors le modèle sous la forme dun mecanisme dit de
correction dequilibre (ou derreur), selon lequel un ecart (une erreur) positif
par rapport à lequilibre de long terme entrane une variation de court terme
negative, an de reduire cet ecart.
Etudier des anticipations des agents
Comment prendre en compte les anticipations des agents ? Dans une decision
entre epargne et consommation, ce ne sont pas seulement les revenus actuel et
passe qui comptent, mais aussi lidee quon se fait de lavenir. Il faut donc dans
certaines equations faire intervenir des valeurs avancees des variables, via leur
anticipation en utilisant la manière dont celles-ci ont ete formees dans le passe.
Reperer les tendances et cycles
Des methodes dynamiques repèrent des tendances mouvantes des donnees.
Par dierence, lecart entre le niveau de la variable (localement monotone) et
la position de sa tendance est en moyenne nul : il repère la position dans le
cycle. Selon le modèle de tendance utilise, il est possible danalyser les inter-
actions entre diverses variables an datteindre un equilibre entre methodes
econometriques et purement statistiques.
Corriger des variations saisonnières
Comme constate gure 4.1, la serie de demande presente des variations
regulières trimestrielles que nous avons nommees variations saisonnières. Celles-
ci peuvent etre stables au cours du temps et ainsi lecart entre les premiers et
deuxième trimestre sera le meme en 1991 et en 2004. En retirant cet eet ha-
bituel et en lissant la serie, il est alors possible de comparer le niveau entre ces
annees. La correction des variations saisonnières (cvs) devient plus complexe
quand les comportements evoluent davantage ; lecart entre deux trimestres
consecutifs peut se modifer et la serie cvs apportera alors une information
supplementaire.
Detecter les chocs structurels
Un choc structurel est deni comme une modication permanente ou tem-
poraire de la facon dont est generee une variable. Ils sont frequents, sou-
vent non-anticipables et diciles à mesurer. Il est cependant essentiel de sa-
voir quune telle rupture a eu lieu car sa presence change les interactions et
61
equilibres, souvent radicalement. Lignorer engendre alors des eets contraires
aux buts poursuivis.
Controler les processus
Lorsquune autorite xe librement le niveau dune variable ayant une forte
inuence sur le reste de leconomie, comme par exemple le taux dinteret di-
recteur sur lequel la banque centrale a autorite, il lui faut à la fois quantier
lampleur de son impact et mesurer la duree de transmission de son eet dans
leconomie. En retour, cette autorite peut prendre en compte son propre com-
portement an danticiper les evolutions dune variable cible, comme lination.
4.1.3 En quoi cette demarche consiste-t-elle ?
But
Le but poursuivi est la formulation dun modèle statistique qui soit une
representation congruente du processus stochastique (inconnu) qui a genere
la serie observee. Tout comme en probabilites/statistiques, il faut bien com-
prendre la dierence entre le processus sous-jacent qui genère des donnees (data
generating process), sa realisation telle quon lobserve sur lechantillon histo-
rique à notre disposition, les futures realisations et le modèle quon construit
an de tacher de le representer. Par representation congruente, on entend un
modèle qui soit conforme aux donnees sous tous les angles mesurables et tes-
tables.
Approche
Il est en pratique impossible de connatre la distribution dune serie tempo-
relle y
t
t0
, on sinteresse par consequent à la modelisation de la distribu-
tion conditionnelle (a priori constante dans le temps) de y
t
via sa densite :
f (y
t
[Y
t1
) .
Conditionnee sur lhistorique du processus : Y
t1
= (y
t1
, y
t2
, ..., y
0
). Il sagit
donc dexprimer y
t
en fonction de son passe.
Resultat
Lapproche conditionnelle fournit une Decomposition PrevisionErreur,
selon laquelle :
y
t
= E[y
t
[Y
t1
] +
t
,
62
o` u
_
_
_
(i) E[y
t
[Y
t1
] est la composante de y
t
qui peut donner lieu à une
prevision, quand lhistorique du processus, Y
t1
, est connu; et
(ii)
t
represente les informations imprevisibles.
Exemple 26 (Modèles de series temporelles) 1. Processus autoregressifs
dordre 1, AR(1) :
y
t
= y
t1
+
t
,
t
WN
_
0,
2
_
(bruit blanc)
La valeur y
t
ne depend que de son predecesseur. Ses proprietes sont fonctions
de qui est un facteur dinertie : quand = 0, y
t
est imprevisible et ne depend
pas de son passe, on parle de bruit blanc ; si ]1, 1[ , y
t
est stable autour de
zero ; si [[ = 1, y
t
est instable et ses variations y
t
y
t1
sont imprevisibles ;
enn si [[ > 1, y
t
est explosif. Des exemples sont presentes gure 4.2.
2. Series multivariees :
y
t
= Ay
t1
+
t
,
t
WN(0, ) .
3. Pocessus autoregressif vectoriel, VAR(1) :
_
y
1t
y
2t
_
=
_
a
11
a
12
a
21
a
22
_ _
y
1t1
y
2t1
_
+
_
1t
2t
_
,
_
1t
2t
_
WN
__
0
0
_
,
_

2
1

12
21

2
2
__
.
4. Modèle autoregressif à retards distribues (autoregressive distributed lags,
ADL) : si
12
,= 0, ce modèle implique une relation de causalite entre y
2,t1
et
y
1,t
.
y
1,t
=
11
y
1,t1
+
12
y
2,t1
+
1t
,
1t
WN
_
0,
2
1
_
.
4.2 Concepts des series temporelles
4.2.1 Processus stochastiques
Soit (, /, P) un espace de probabilite, o` u est lespace des evenements,
/ est une tribu adaptee à (cest lensemble qui contient les combinaisons
possibles devenements) et P est une mesure de probabilite denie sur /.
63
0 100 200
2.5
0.0
2.5
= 0
0 100 200
2.5
0.0
2.5
= 0.2
0 100 200
2.5
0.0
2.5
= 0.5
0 100 200
2.5
0.0
2.5
5.0
= 0.8
0 100 200
0
5
= 0.95
0 100 200
0
5
= 0.99
0 100 200
0
5
= 1
0 100 200
20
0
20 = 1
0 100 200
0
1e8
2e8
= 1.1
Figure 4.2 Series temporelles simulees à partir dun modèle AR(1) y
t
=
y
t1
+
t
pour diverses valeurs de . On constate la continuite des obser-
vations quand tend vers lunite bien que les proprietes statistiques de y
t
soient radicalement dierentes pour [[ < 1 (stationnarite) et [[ = 1 (non
stationnarite). Remarquer le caractère explosif de la serie pour > 1.
64
Denition 8 Une variable aleatoire reelle (v.a.r) est une fonction à va-
leurs reelles y : R telle que pour tout reel c, A
c
= [y () c /.
En dautres termes, A
c
est un evenement dont la probabilite est denie
en termes de P. La fonction F : R [0, 1] denie par F (c) = P (A
c
) est la
fonction de distribution de y.
Soit T un ensemble dindexation denombrable contenu dans lensemble des
entiers naturels ou dans celui des entiers relatifs.
Denition 9 Un processus stochastique (discret) est une fonction à va-
leurs reelles
y : T R,
telle que pour tout t T donne, y
t
() soit une variable aleatoire.
En dautres termes, un processus stochastique est une suite ordonnee de
variables aleatoires y
t
() , , t T , telle que pour tout t T, y
t
soit
une variable aleatoire sur et que pour tout , y
t
() soit une realisation
du processus stochastique sur lensemble dindexation T.
0

j

m
t
0
y
t
0
(
0
) y
t
0
(
j
) y
t
0
(
m
)
.
.
.
.
.
.
t
i
y
t
i
(
0
) y
t
i
(
j
) y
t
i
(
m
)
.
.
.
.
.
.
t
n
y
t
n
(
0
) y
t
n
(
j
) y
t
n
(
m
)
Denition 10 Une serie temporelle y
t
T
t=1
est (la partie de dimension
nie d) une realisation dun processus stochastique y
t
.
La realisation dun processus stochastique est une fonction T R o` u t
y
t
() . Le processus sous-jacent est dit avoir genere la serie temporelle. La serie
temporelle y
1
() , ..., y
T
() est generalement notee y
1
, ..., y
T
ou simplement y
t
.
Un processus stochastique peut etre decrit par la fonction de distribution
commune des toutes les sous-collections de dimension nie de y
t
, t S T.
En pratique le système complet de distributions est souvent inconnu et on se
cantonne aux premiers et seconds moments.
La distribution conjointe de (y
t
, y
t1
, ..., y
th
) est generalement caracterisee
par sa fonction dautocovariance qui represente le lien entre les valeurs à des
65
dates dierentes :
t
(h) = Cov (y
t
, y
th
)
= E
_
(y
t
t
)
_
y
th
th
_
=
_
...
_
(y
t
t
)
_
y
th
th
_
f (y
t
, ..., y
th
) dy
t
...dy
th
,
avec
t
= E[y
t
] =
_
y
t
f (y
t
) dy
t
, lesperance (ou moyenne) inconditionnelle de
y
t
.
La fonction dautocorrelation est donnee par :
t
(h) =

t
(h)
_
t
(0)
th
(0)
.
4.2.2 Stationnarite
Denition 11 Le processus y
t
est dit stationnaire au sens faible, ou
stationnaire au second ordre si les premier (moyenne ou esperance mathematique)
et second (variance et autocovariances) moments du processus existent et sont
independants de t :
E[y
t
] =
t
< , pour tout t T,
E
_
(y
t
t
)
_
y
th
th
_
=
t
(h) , pour tous h et t.
Lorsquy
t
est stationnaire
t
(h) =
t
(h) = (h) . La stationnarite est une
propriete de stabilite, la distribution de y
t
est identique à celle de y
t1
. la serie
oscille autour de sa moyenne avec une variance constante ; le lien entre y
t
et
y
th
ne depend alors que de lintervalle h et non de la date t.
t
est dit strictement ou fortement sta-
tionnaire si pour tous h
1
, ..., h
n
, la distribution conjointe de (y
t
, y
t+h
1
, ..., y
t+h
n
)
depend uniquement des intervalles h
1
, ..., h
n
et non de t :
f (y
t
, y
t+h
1
, ..., y
t+h
n
) = f (y
, y
+h
1
, ..., y
+h
n
) , (t, ) .
La stationnarite stricte implique que tous les moments soient independants du
temps.
t
est appele Gaussien si la distribution de
(y
t
, y
t+h
1
, ..., y
t+h
n
) , notee
f (y
t
, y
t+h
1
, ..., y
t+h
n
)
suit une loi Normale multivariee pour tous h
1
, ..., h
n
.
En pratique, pour les series suivant une distribution Gaussienne, la station-
narite au sens faible est equivalente à la stationnarite au sens strict.
66
4.2.3 Ergodicite
Le theorème dergodicite statistique concerne linformation qui peut etre
obtenue à partir dune moyenne sur le temps concernant la moyenne commune
à tout instant. Remarquons que la loi faible des grands nombres ne sapplique
pas car la serie temporelle observee correspond à une seule observation du
processus stochastique.
Denition 14 Soit y
t
() , , t T un processus stationnaire au sens
faible, tel que E[y
t
()] = < et E
_
(y
t
)
2
=
2
y
< pour tous t. Soit
y
t
= T
1
T
t=1
y
t
la moyenne temporelle. Si y
t
converge en probabilite vers
quand T , alors y
t
() est ergodique pour la moyenne.
Il faut noter que le concept dergodicite repose sur une independance asymp-
totique, alors que la stationnarite concerne lindependance par rapport au
temps du processus. Pour le type de processus considere dans ce cours, lun
implique lautre, mais il convient de noter quils peuvent dierer ainsi que dans
lexemple suivant.
Exemple 27 On considère le processus stochastique y
t
deni par :
y
t
=
_
u
0
à t = 0, avec u
0
N(0,
2
) ;
y
t1
pour t > 0.
Alors, y
t
est strictement stationnaire mais non ergodique.
Demonstration : Clairement, y
t
= u
0
pour tout t 0., et ainsi :
E[y
t
] = E[u
0
] = 0,
E
_
y
2
t
= E
_
u
2
0
=
2
,
E[y
t
y
th
] = E
_
u
2
0
=
2
,
ce qui implique que y
t
soit stationnaire au sens faible, car = 0, (h) =
2
et (h) = 1 sont independants du temps.
Lergodicite pour la moyenne necessite que
y
T
= T
1
T
t=1
y
t
P
0,
mais il est evident que y
T
= T
1
T1
t=0
y
t
= u
0
, qui est, pour la serie observee,
une realisation dune variable aleatoire de distribution Normale et donc ne
tend pas vers zero.
67
Pour etre ergodique, la memoire dun processus stochastique doit diminuer
de facon à ce que la covariance entre des observations de plus en plus distantes
converge vers zero de manière susament rapide. Pour les processus station-
naires, il est possible de demontrer que labsolue sommabilite des covariances
(i.e.
h=0
[ (h)[ < 0) est une condition susante pour obtenir lergodicite.
De manière similaire, il est possible de denir lergodicite pour les seconds
moments :
(h) = (T h)
1
t
t=h+1
(y
t
t
)
_
y
th
th
_
P
(h) .
4.3 La caracterisation des series temporelles
en economie
Le caractère dergodicite autorise la caracterisation des processus stochas-
tiques par leur moments empiriques :
4.3.1 Moyenne de lechantillon
y = T
1
T1
t=0
y
t
,
en notant que si y
t
i.i.d (,
2
) (identiquement et independamment distribuee
de moyenne et de variance
2
), le theorème limite central implique que :
Ty
L
N
_
,
2
_
.
4.3.2 ACF, fonction empirique dautocorrelation
On la denit par
h
=
h
/
0
, o` u :

h
= T
1
T
t=h+1
(y
t
y) (y
th
y) ,
qui est un estimateur de la fonction dautocovariance. Dans le cas dune serie
stationnaire, la fonction dautocorrelation decroit exponentiellement vers zero.
La decroissance est davantage lineaire pour les series non stationnaires ren-
contrees en pratique.
68
4.3.3 PACF, fonction empirique dautocorrelation par-
tielle
Il sagit de la suite de valeurs
(h)
h
= Corr (y
t
, y
th
[y
t1
, ..., y
th+1
), qui cor-
respondent au dernier coecient dans une regression lineaire de y
t
sur une
constante et ses h dernières valeurs :
y
t
=
(h)
0
+
(h)
1
y
t1
+
(h)
2
y
t2
+... +
(h)
h
y
th
+
t
.
Le passage de lautocorrelation à lautocorrelation partielle se fait grace à la
relation :
_
(h)
1
.
.
.
(h)
h
_
_
=
_
0

h1
.
.
.
.
.
.
.
.
.
h1

0
_
_
1
_
0
.
.
.
h
_
_
.
Exemple 28 On represente gure 4.3, lination francaise (
t
) et le taux
dinteret au jour le jour (i
t
) en logarithmes ainsi que leur première dierence.
On constate que si lination et le taux dinteret nevoluent pas de manière
stable autour dune moyenne, leur première dierence sont quant à elles net-
tement plus stables. Sous reserve dun test precis indiquant que les dierences
des variables sont ici stationnaires tandis que les niveaux de celles-ci ne le
sont pas, on parle alors de variables integrees (i.e. y
t
non stationnaire avec
y
t
stationnaire), ce quon note
t
I (1) (variable integree dordre 1 et par
extension variable integree) et
t
I (0) (variable integree dordre zero ou
stationnaire).
Les ACF des variables non-stationnaires (gure 4.4) decroissent lentement
tandis que ceux des variables stationnaires oscillent autour de zero. En re-
vanche, la première valeur dune PACF dune variable integree dordre 1 est
très proche de lunite, tandis que les valeurs suivantes tendent très rapide-
ment vers zero. Les valeurs des PACF des variables stationnaires sont toujours
dierentes de 1.
4.4 Processus integres
Une classe importante de processus non-stationnaires est celle des proces-
sus integres. On les retrouve couramment en pratique et ils ont lavantage de
presenter un type de non-stationnarite modelisable.
69
1960 1970 1980 1990 2000
0.00
0.01
0.02
0.03
0.04
t

1960 1970 1980 1990 2000
1.5
2.0
2.5
i
t

1960 1970 1980 1990 2000
0.01
0.00
0.01
t

1960 1970 1980 1990 2000
0.2
0.0
0.2
0.4
i
t

Figure 4.3 Ination (
t
) et taux dinteret au jour le jour (i
t
) francais en
logarithmes ainsi que leur première dierence (
t
=
t

t1
). Source Da-
taInsight.
Denition 15 Un processus integre est un processus qui peut etre rendu
stationnaire par dierentiation. Si un processus stochastique doit etre dierentie
d fois pour atteindre la stationnarite, il est dit etre integre dordre d, ou I(d) .
Une marche aleatoire est integree dordre 1, ou I(1) , les processus station-
naires sont I(0) . Par extension on parle de series integrees quand leur ordre
dintegration est superieur ou egal à 1.
Exemple 29 Le processus stochastique y
t
est appele marche aleatoire si
y
t
= y
t1
+u
t
, pour t > 0 et y
0
= 0,
o` u u
t
est independamment et identiquement distribue avec une moyenne nulle
et une variance
2
< pour tout t. La marche aleatoire est non-stationnaire
et, par consequent, non-ergodique. La gure 4.5 presente des exemples de
marche aleatoire.
70
0 5 10
0.25
0.50
0.75
1.00
ACF
t

0 5 10
0.25
0.50
0.75
1.00
ACFi
t

0 5 10
0.5
0.0
0.5
1.0
ACF
t

0 5 10
0.5
0.0
0.5
1.0
ACFi
t

0 5 10
0.5
0.0
0.5
1.0
PACF
t

0 5 10
0.5
0.0
0.5
1.0
PACFi
t

0 5 10
0.5
0.0
0.5
1.0
PACF
t

0 5 10
0.5
0.0
0.5
1.0
PACFi
t

Figure 4.4 Fonctions dautocorrelation (ACF) et dautocorrelation partielle
(PACF) de lination (
t
) et des taux dinteret au jour le jour (i
t
) en loga-
rithmes ainsi que de leur première dierence.
Demonstration : Par substitution iterative, on obtient :
y
t
= u
0
+
t
s=1
u
s
pour tout t > 0.
La moyenne est independante du temps :
= E[y
t
] = E
_
y
0
+
t
s=1
u
s
_
= y
0
+
t
s=1
E[u
s
] = 0.
71
Mais les moments dordre 2 divergent. La variance est donnee par
t
(0) = E
_
y
2
t
= E
_
_
_
y
0
+
t
s=1
u
s
_
2
_
_
= E
_
_
_
t
s=1
u
s
_
2
_
_
= E
_
t
s=1
t
k=1
u
s
u
k
_
= E
_
t
s=1
u
2
s
+
t
s=1
t
k=s
u
s
u
k
_
=
t
s=1
E
_
u
2
s
+
t
s=1
t
k=s
E[u
s
u
k
]
=
t
s=1
2
= t
2
.
Les autocovariances sont :
t
(h) = E[y
t
y
th
] = E
__
y
0
+
t
s=1
u
s
__
y
0
+
th
k=1
u
k
__
= E
_
t
s=1
u
s
_
y
0
+
th
k=1
u
k
__
=
th
k=1
E
_
u
2
k
=
th
k=1
2
= (t h)
2
, pour tout h > 0.
Et, en conclusion, la fonction dautocorrelation
t
(h) , pour h > 0, est donnee
par :
2
t
(h) =

2
t
(h)
t
(0)
th
(0)
=
[(t h)
2
]
2
[t
2
] [(t h)
2
]
= 1
h
t
, pour tout h > 0.
Les graphiques 4.5 et 4.6 presentent des exemples de series integrees res-
pectivement dordre 1 et 2. Ces graphiques sont representatifs de series de ce
type : les variables I (1) sont en general erratiques et peuvent prendre nimporte
quelle valeur, on parle alors de tendance stochastique car elles se comportent
comme si pendant de courtes periodes elles suivaient une tendance determinee,
mais cette dernière change elle-meme irregulièrement. Il est en revanche aise
de reperer à loeil nu des variables I (2) : elles sont en general très lisses et
presentent une reelle direction, soit à la hausse, soit à la baisse mais nevoluent
que très lentement.
72
0 50 100 150 200
20
10
0
0 50 100 150 200
0
10
0 50 100 150 200
0
5
10
15
20
0 50 100 150 200
0
10
20
Figure 4.5 Quatre exemples simules de variables integrees dordre 1 et de
valeur initiale nulle
4.5 Quelques processus courants
Denition 16 Un bruit blanc (white noise) est un processus stationnaire au
sens faible de moyenne zero et qui est dynamiquement non-correle :
u
t
WN
_
0,
2
_
.
Ainsi, u
t
est un bruit blanc si pour tout t T : E[u
t
] = 0, E[u
2
t
] =
2
< ,
avec u
t
et u
th
independants si h ,= 0, t et (t h) T.
Denition 17 Si le bruit blanc u
t
est distribue Normalement, on parle de
bruit blanc Gaussien :
u
t
NID
_
0,
2
_
.
lhypothèse dindependance est alors equivalent à celle de non correlation :
E[u
t
u
th
] = 0 si h ,= 0, t et (t h) T.
Noter que lhypothèse de normalite implique lindependance dynamique.
Une generalisation des processus NID : les IID avec moments dordre superieur
constants mais non precises.
73
0 50 100 150 200
0
200
400
600
0 50 100 150 200
1000
500
0
0 50 100 150 200
200
400
600
0 50 100 150 200
0
500
1000
1500
2000
Figure 4.6 Quatre exemples simules de variables integrees dordre 2 et de
valeur initiale nulle
Denition 18 Un processus u
t
de composantes distribuees independamment
et identiquement est note IID :
u
t
IID
_
,
2
_
.
Tous les u
t
sont issus de la meme distribution desperance et de variance
2
,
avec u
t
et u
th
independants si h ,= 0, t et (t h) T.
74
Chapitre 5
Methodes sans modèle
Avant de presenter les modèles stochastiques des series temporelles, ceux
qui sont estimables et dont la precision peut etre testee, il en existe dautres
qui sont parfois utilises pour modier les donnees an de pouvoir les modeliser
(voire tacher de les prevoir).
5.1 Extrapolation deterministe des series
Les modèles sont dits deterministes lorsque leurs valeurs futures sont connues
avec certitude à tout instant. Ainsi ne font-ils aucune reference aux sources
dincertitudes et de hasard des processus stochastiques. Les methodes pure-
ment deterministes apportent une simplicite au detriment de la precision et
ne permettent pas detablir de quantication de lincertitude via, par exemple,
un intervalle de conance.
Si on dispose dun echantillon de T observations dune serie : y
1
, y
2
, ..., y
T1
, y
T
,
il existe un polynome de degre n = T 1 qui passe par tous les points y
t
:
f (t) = a
o
+a
1
t +a
2
t
2
+... +a
n
t
n
. (5.1)
Malheureusement, rien ne dit que f (T + 1) = y
T+1
soit proche de y
T+1
. Ainsi
(5.1) ne decrit pas y
t
, il ne fait que le reproduire et ne capture aucune des
caracteristisques qui risquent dapparatre à lavenir.
5.1.1 Tendances lineaires
Une caracteristique simple de y
t
est sa tendance de long terme : si on pense
quune tendance à la hausse existe et va perdurer, il est possible de construire
un modèle simple qui permette de prevoir y
t
. Le plus simple consiste en une
75
0 5 10 15 20 25 30 35 40 45 50
1
0
1
2
3
4
5
t
y
t

Figure 5.1 Exemple de serie temporelle semblant presenter une tendance à
la hausse.
tendance lineaire selon laquelle la serie va saccrotre du meme montant à
chaque periode :
y
t
= a +bt,
y
t
= y
t
y
t1
= b.
y
T+h
= a +b (T +h) .
Il peut sembler plus realiste de penser que y
t
va saccrotre du meme pourcen-
tage ` a chaque periode, auquel cas une tendance exponentielle simpose :
y
t
= Ae
rt
ce qui donne une relation log-lineaire :
log y
t
= log A +rt
et le taux de croissance est :
/t [log y
t
] =
y
t
/t
y
t
= r.
76
5.1.2 Tendances autoregressives
Ici la valeur à t depend de la valeur precedente :
y
t
= a +by
t1
selon les valeurs de b et a, le comportement de la serie dière. Si a = 0 et
[b[ , = 1, b est le taux de croissance de la serie, en revanche si b = 1, y
t
suit une
tendance deterministe.
5.1.3 Modèles non lineaires
Tendance quadratique
y
t
= a +bt +ct
2
Courbe logistique
y
t
=
1
k +ab
t
, b > 0
5.2 Moyennes mobiles
Il existe deux types de moyenne mobile, lun sera vu plus loin et corres-
pond au modèle MA, lautre est davantage une methode ad hoc permettant
de donner une estimation des alentours dune serie, on suppose alors que
la variable sera proche de sa moyenne recente. Une moyenne mobile est alors
simplement une moyenne sur une fenetre glissante dobservations :
y
(m)
t
=
1
m
m
i=1
y
t+ki
,
o` u k est librement xe selon les besoins du modelisateur, pour une prevision,
il est necessaire que k 0.
Exemple 30 Si les donnees sont de frequence mensuelle, et quon souhaite
prevoir y
t
, il est possible dutiliser la fonction de moyenne mobile
f (t) =
1
12
12
i=1
y
ti
,
qui fournit la prevision :
y
T+1
= f (T)
qui est la moyenne des 12 dernières observations.
77
Il peut paratre peu realiste que la prochaine valeur y
T+1
puisse etre proche
dune simple moyenne des dernières observations. Si on souhaite accorder plus
de poids aux observations les plus recentes, on peut utiliser le modèle EWMA
(Exponentially Weighted Moving Average) selon lequel :
y
T+1
= y
T
+(1 ) y
T1
+(1 )
2
y
T2
....
=
i=0
(1 )
i
y
Ti
,
o` u est compris entre 0 et 1 et indique limportance accordee aux observations
les plus recentes, si = 1 :
y
T+1
= y
T
.
Notons quil sagit bien dune moyenne puisque la somme des coecients est
unitaire :
i=0
(1 )
i
= 1
Le modèle EWMA se prete mal aux variables presentant une tendance de fond
à la hausse ou à la baisse, car il va dans ces cas sous- ou sur-predire. Il est en
revanche possible de lappliquer à une serie dont on a ote la tendance.
Pour une prevision à horizon h > 1, il semble logique detendre
y
T+h
=
h1
i=1
(1 )
i1
y
T+hi
+
i=0
(1 )
h1+i
y
Ti
ce qui donne
y
T+h
=
i=0
(1 )
i
y
Ti
et ainsi le modèle EWMA fournit la meme prevision à tous horizons.
5.3 Lissages
Les methodes de lissage ont pour but de retirer ou de reduire les uctuations
(cycliques ou non) de court terme des series.
78
5.3.1 Moyennes mobiles
Les moyennes mobiles presentees precedemment permettent aussi dobtenir
des series lissees : par exemple en utlisant un moyenne mobile dordre n donnee
par
y
t
=
1
n
n1
i=0
y
ti
. (5.2)
Plus n est eleve, plus la serie sera lissee. Le problème de (5.2) est de nutiliser
que les valeurs passees et presentes. Pour y remedier, on peut faire appel à une
moyenne mobile centree :
y
t
=
1
2k + 1
k
i=k
y
t+i
5.3.2 Lissage exponentiel
Le lissage exponentiel fait appel aux modèles EWMA :
y
t
= y
t
+(1 ) y
t1
+(1 )
2
y
t2
+...(1 )
t1
y
1
. (5.3)
En pratique, il est plus facile decrire :
(1 ) y
t1
= (1 ) y
t1
+(1 )
2
y
t2
+...(1 )
t1
y
1
(5.4)
et en soustrayant (5.4) à (5.3) on obtient la formule de recurrence du lissage
exponentiel simple :
y
t
= y
t
+ (1 ) y
t1
(5.5)
Plus est proche de zero, plus la serie est lissee. En pratique toutefois, on
peut souhaiter eectuer un lissage important mais sans donner trop de poids
aux observations lointaines. On applique pour ce faire un lissage exponentiel
double, i.e. en reappliquant la formule à y
t
pour obtenir
y
t
= y
t
+ (1 )
y
t1
avec une valeur plus elevee de .
Enn il est possible dappliquer (5.5) aux changements moyens de la ten-
dance de long terme de la serie en utilisant la formule de lissage exponentiel à
deux paramètres de Holt-Winters :
y
t
= y
t
+ (1 ) ( y
t1
+r
t1
)
r
t
= ( y
t
y
t1
) + (1 ) r
t1
,
79
o` u r
t
est la serie lissee representant la tendance, i.e. le taux moyen de croissance.
Cette tendance est ajoutee lors du lissage an deviter que y
t
ne seloigne trop
des valeurs recentes de la serie originale y
t
. Une prevision à horizon h peut etre
obtenue en posant
y
T+h
= y
T
+hr
T
5.4 Ajustements saisonniers
Il existe diverses methodes de correction des variations saisonnières. Elles
fonctionnent pour la plupart sur une decomposition entre tendance sous-jacente
et variations saisonnières de la forme (ici multiplicative) :
Y
t
= L S C I,
avec L la valeur de long terme, S le coecient saisonnier, C le cycle saisonnier,
et I une composante irregulière. Il est aussi possible de decomposer y
t
sous
forme de comportement saisonnier additif y
t
= L+I +S +C. Le but des CVS
est disoler S I, mais comme ceci nest pas possible de manière exacte, une
methode de lissage ad hoc doit etre utilisee. Quand linspection des series laisse
à penser que la variation damplitude est constante en valeur, une methode
additive convient, si la variation est constante en pourcentage de la moyenne
annuelle, il est preferable de recourir à une desaisonnalisation multiplicative.
5.4.1 Methode multiplicative
1. Calculer la moyenne mobile centree de y
t
:
x
t
=
_
(0.5y
t+6
+y
t+5
+... +y
t
+... +y
t5
+ 0.5y
t6
) /12 pour des series mensuelles
(0.5y
t+2
+y
t+1
+y
t
+y
t1
+ 0.5y
t2
) /4 pour des series trimestrielles
2. Calculer le ratio r
t
= y
t
/x
t
3. Calculer les indices saisonniers : pour la periode m ou q cest la moyenne
des r
t
en nutlisant que le mois m ou le trimestre q (par ex. tous les mois de
janvier). Puis ajuster les indices saisonniers pour que leur produit soit egal à
1 :
s
m ou q
=
_
i
m
/
12
i
1
i
2
...i
12
pour des series mensuelles
i
q
/
4
i
1
i
2
i
3
i
4
pour des series trimestrielles
La serie y
t
est ainsi s
j
% superieure à la serie ajustee en periode j.
4. Diviser y
t
par s
j
pour obtenir la serie CVS.
80
5.4.2 Methode additive
1. Calculer la moyenne mobile centree de y
t
:
x
t
=
_
(0.5y
t+6
+y
t+5
+... +y
t
+... +y
t5
+ 0.5y
t6
) /12 pour des series mensuelles
(0.5y
t+2
+y
t+1
+y
t
+y
t1
+ 0.5y
t2
) /4 pour des series trimestrielles
2. Calculer la dierence d
t
= y
t
x
t
3. Calculer les indices saisonniers : pour la periode m ou q cest la moyenne
des r
t
en nutlisant que le mois m ou le trimestre q (par ex. tous les mois de
janvier). Puis ajuster les indices saisonniers pour que leur somme soit egal à
zero :
s
m ou q
=
_
i
m
1
12
i
i
pour des series mensuelles
i
m
1
4
i
i
pour des series trimestrielles
La serie y
t
est superieure ` a la serie ajustee en periode j de s
j
.
4.La serie CVS est donnee par y
t
s
j
.
81
82
Chapitre 6
Modèles lineaires de series
temporelles
6.1 Processus lineaires
6.1.1 Concepts
On appelle processus lineaire toute serie temporelle qui puisse etre representee
par un modèle lineaire après transformation, par exemple log(y
t
) = +t +
t
.
Il est toujours surprenant de constater la simplicite de la plupart des modèles
lineaires quand on pense à la complexite des modèles dans dautres disciplines
(physique...). En realite, un modèle lineaire est une approximation (proche de
la notion de developpement limite) de modèles nettement plus complexes et
ils ont la particularite detre très exibles et estimables avec un faible nombre
dobservations.
Operateur retard
Soit y
t
un processus stochastique. On denit loperateur retard (lag, ou
backshift ou backward, operator) L (ou B) tel que
Ly
t
= y
t1
,
L
j
y
t
= y
tj,
pour tout j N.
et pour c scalaire, Lc = c. On peut utiliser loperateur L comme un chire,
il peut multiplier et diviser : si Ly
t
= y
t1
, alors y
t
= L
1
y
t1
, ce quon note
parfois y
t
= L
1
y
t1
= Fy
t1
(F forward shift ou operateur avance).
83
Operateur de dierence
Si y
t
est un processus stochastique, les processus suivants existent aussi
y
t
= (1 L) y
t
= y
t
y
t1
,
j
y
t
= (1 L)
j
y
t
pour tout j N,
s
y
t
= (1 L
s
) y
t
= y
t
y
ts
dierence saisonnière ou glissement.
Filtre lineaire
Transformation dune serie entree, x
t
, en serie sortie y
t
par application
du polynome retard A(L) :
y
t
= A(L) x
t
=
_
m
j=n
a
j
L
j
_
x
t
=
m
j=n
a
j
x
tj
= a
n
x
t+n
+...+a
0
x
0
+...+a
m
x
tm
.
Exemple 31 moyenne mobile, moyenne mobile centree, lissage exponentiel....
Processus lineaire
Un processus y
t
est dit lineaire sil existe une serie
t
tR
telle que y
t
puisse etre represente par

y
t
= A(L)
t
=
_

j=
a
j
L
j
_
t
=
j=
a
j
tj
o` u
t
WN
_
0,
2
_
.
6.1.2 Theorème de decomposition de Wold
Theorème 9 (Decomposition de Wold) Tout processus stationnaire au
sens faible et de moyenne zero, y
t
, admet la representation suivante :
y
t
=
j=0
tj
+
t
,
o` u
0
= 1 et
j=0
2
j
< . Le terme
t
is un bruit blanc qui represente
lerreur faite en prevoyant y
t
à partir dune fonction lineaire de son historique
Y
t1
= y
tj
j=1
:
t
= y
t
E[y
t
[Y
t1
] .
La variable
t
est non-correlee aux
tj
, pour tous j Z, bien que
t
puisse
etre prevue arbitrairement bien à partir dune fonction lineaire de Y
t1
:
t
= E [
t
[Y
t1
] .
j=0
tj
est la composante lineaire stochastique et
t
est la composante
lineaire deterministe de y
t
.
84
6.1.3 Modelisation ARMA
Une approximation du polynome retard dordre inni est obtenue à partir
dun ratio de deux polynomes dordre ni, (L) et (L) tels que :
(L) =
j=0
j
L
j
(L)
(L)
=
1 +
1
L +... +
q
L
q
1
1
L ...
p
L
p
.
Typologie des modèles lineaires de series temporelles :
p q Modèle Type
p > 0 q = 0 (L) y
t
=
t
autoregressif (pure) dordre p AR(p)
p = 0 q > 0 y
t
= (L)
t
moyenne mobile dordre q MA(q)
p > 0 q > 0 (L) y
t
= (L)
t
modèle mixte autoregressifmoyenne mobile ARMA(p, q)
Processus Autoregressifs
Un modèle autoregressif dordre p, un modèle AR(p), satisfait lequation
dierentielle suivante :
y
t
= +
p
j=1
j
y
tj
+
t
, o` u
t
WN
_
0,
2
_
. (6.1)
Ou en utilisant loperateur retard :
(L) y
t
= +
t
, o` u (L) = 1
1
L ...
p
L
p
,
p
,= 0.
Stabilite Lhypothèse (z) = 0 [z[ > 1 garantit la stationnarite et lexis-
tence dune representation MA() :
y
t
= (1)
1
+ [(L)]
1
t
,
y
t
= +
j=0
tj
, o` u =

(1)
et (L) = [(L)]
1
avec
j=0
<
Analyse de stabilite est fondee sur lequation dierentielle non-homogène dordre
p :
y
t
=
p
j=1
j
(y
tj
) ,
AR(1) :
_
_
_
[
1
[ < 1 : stable
1
= 1 : racine unitaire
[
1
[ > 1 : instable (explosif)
,
AR(2) :
_
_
_
1 <
2
< 1 [
1
[ : stabilit e
2
1
+ 4
2
< 0 : racines complexes
85
Fonction dautocovariance Celle-ci peut sobtenir analytiquement grace à
lequation :
(h) = E[y
t
y
th
] = E[(
1
y
t1
+... +
p
y
tp
+
t
) y
th
]
=
1
E[y
t1
y
th
] +... +
p
E[y
tp
y
th
] +E[
t
y
th
]
=
1
(h 1) +... +
p
(h p) .
Il sut alors de resoudre un système. Pour ce qui concerne la fonction dauto-
correlation, il est facile de lobtenir directement à partir de lequation dierentielle
(6.1) , on obtient alors un système, nomme equations de YuleWalker :
1
=
1
+
2
1
+... +
p
p1
2
=
1
1
+
2
+... +
p
p2
.
.
.
p
=
1
p1
+
p2
+... +
p
_
1
, ...,
p
k
=
1
k1
+
k2
+... +
kp
pour k > p.
Processus de moyenne mobile
Un processus de moyenne mobile dordre q, note MA(q) , est caracterise
par :
y
t
= + (L)
t
= +
t
+
q
i=1
ti
,
o` u
t
WN(0,
2
) et (L) = 1 +
1
L +...
q
L
q
,
q
,= 0.
Inversibilite Un processus MA est toujours stationnaire, en revanche il
existe toujours deux processus MA fournissant les memes observations, leurs
racines etant inverses les unes des autres. On impose par consequent une condi-
tion dite dinversibilite, (z) = 0 [z[ > 1 qui garantit lunicite et lexistence
dune representation AR() :
(L)
1
y
t
= (1)
1
+
t
y
t
= +
j=1
j
(y
tj
) +
t
,
o` u (L) = 1
j=1
j
L
j
= 1
1
L
2
L
2
+... = (L)
1
.
86
Fonction dautocovariance On considère z
t
= y
t
=
q
i=0
ti
,
0
= 1
0
=
_
q
i=0
2
i
_
k
=
_
qk
i=0
i+k
_
2
, pour k = 1, 2, ..., q
k
= 0, pour k > q.
Processus mixtes
Un processus ARMA(p, q) comprend un terme autoregressif et un de moyenne
mobile :
(L) y
t
= + (L)
t
,
y
t
= +
p
j=1
j
y
tj
+
t
+
q
i=1
ti
,
o` u
t
WN(0,
2
) , (L) = 1
1
L...
p
L
p
,
p
,= 0, et (L) = 1 +
1
L+
... +
q
L
q
, avec
q
,= 0.
Stabilite (z) = 0 [z[ > 1 garantit la stationarite (au sens faible) et
lexistence dune representation MA() :
y
t
= (1)
1
+(L)
1
(L)
t
= +
j=0
tj
Inversibilite (z) = 0 [z[ > 1 permet une representation AR() :
(L)
1
(L) (y
t
) =
t
y
t
= +
j=1
j
(y
tj
) +
t
Unicite Cette propriete requiert labsence de racines communes entre (L)
et (L) :
(L) =
p
j=1
(1
j
L)
(L) =
p
i=1
(1
i
L)
_
j
,=
i
pour tous i et j.
87
Dans le cas contraire un ARMA(p, q) : (L) y
t
= + (L)
t
, pourrait se
reecrire, pour tout polynome (L) dordre r :
(L) (L) y
t
= (L) + (L) (L)
t
= (1) + (L) (L)
t
,
et donc
y
t
ARMA(p +r, q +r) .
Fonction dautocovariance Celle-ci est alors plus dicile à calculer ana-
lytiquement, on fait appel à une reparametrisation utile :
(L) y
t
= u
t
, avec u
t
= (L)
t
.
On obtient alors la fonction dautocovariance :
(h) = E[y
t
y
th
] = E[(
1
y
t1
+... +
p
y
tp
+u
t
) y
th
]
=
1
E[y
t1
y
th
] +... +
p
E[y
tp
y
th
] +E[u
t
y
th
]
=
1
(h 1) +... +
p
(h p) + +E
__
t
+
1
t1
+... +
q
tq
_
y
th
et la variance :
(0) = E
_
y
2
t
= E
_
(
1
y
t1
+... +
p
y
tp
)
2
+2E[(
1
y
t1
+... +
p
y
tp
) u
t
]+E
_
u
2
t
.
Exemple 32 Calcul de la variance dun ARMA(1, 1) :
(0) = E
_
y
2
t
= E
_
(
1
y
t1
)
2
+ 2E[(
1
y
t1
) (
t
+
1
t1
)] +E
_
(
t
+
1
t1
)
2
=
2
1
E
_
y
2
t1
+ 2
1
1
E[y
t1
t1
] +E
_
2
t
+
2
1
2
t1
=
2
1
(0) +
_
1 + 2
1
1
+
2
1
_
=
_
1
2
1
_
1
_
1 + 2
1
1
+
2
1
_
.
Methode des coecients indetermines
Cette methode peut sutiliser pour le calcul des coecients dans la representation
AR() ou MA() dun processus ARMA dordre ni. Par exemple, pour lob-
tention des coecients de la representation MA() dun ARMA(p, q) :
(L) = a (L)
1
(L)
a (L) (L) = (L)
Une approche possible consiste à poser (L)
i=0
i
L
i
de sorte que
(1
1
L ...
p
L
p
)
_
0
+
1
L +
2
L
2
+...
_
=
_
1 +
1
L +... +
q
L
q
_
,
88
et à comparer les coecients des retards correspondants :
L
0
:
0
= 1
L
1
:
1
0
=
1

1
=
1
+
1
0
L
2
:
2
0
=
2

2
=
2
+
1
1
+
2
0
L
h
:
h
i=0
hi
=
h

h
=
h
+
h
i=1
hi
,
avec
0
= 1,
h
= 0 pour h > p,
h
= 0 pour h > q. Il ne reste plus quà
resoudre le système.
6.2 Prediction des processus ARMA(p, q)
En utilisant le critère de moyenne quadratique derreur de prevision (mean
square forecast (prediction) error, MSFE, MSPE)
min
y
E
_
(y
t+h
y)
2
,
le predicteur optimal de y
t+h
est donne par lesperance condtionnelle, etant
donne lensemble dinformation
t
:
y
t+h|t
= E[ y
t+h
[
t
] ,
o` u nous considerons ici que linformation disponible est lhistorique du proces-
sus jusquà la date t,
t
= Y
t
= (y
0
, ..., y
t
) .
En ce qui concerne les processus ARMA stationnaires, et contrairement
à beaucoup de DGP (processus de generation des donnees) non-lineaires, la
moyenne conditionnelle peut etre obtenue analytiquement, en utilisant une
repesentation AR() :
y
t+h
= +
j=1
j
(y
t+hj
) +
t+h
,
et en utilisant loperateur desperance conditionnelle, le predicteur optimal est
donne par :
y
t+h|t
= E[ y
t+h
[ Y
t
] = +
h1
j=1
j
(E[ y
t+hj
[ Y
t
] )+
j=0
h+j
(E[ y
tj
[ Y
t
] ) ,
et sachant que E[ y
s
[ Y
t
] = y
s
pour s t, le predicteur optimal devient :
y
t+h|t
= +
h1
j=1
j
_
y
t+hj|t
_
+
j=0
h+j
(y
tj
) ,
89
ce qui peut etre calcule de manière recursive à partir du predicteur une-etape
y
t+1|t
= +
j=0
j+1
(y
tj
) .
Ainsi, le predicteur y
t+h|t
dun processus ARMA(p, q) est-il une fonction lineaire
des realisation passees. Lerreur de prediction qui lui est associee est fournie
par :
e
t+h|t
= y
t+h
E[ y
t+h
[ Y
t
] .
Si à present, on utilise la representation MA() :
y
t+h
= +
i=0
t+hj
,
et, sachant que E[
s
[ Y
t
] = 0 pour s > t, le predicteur optimal peut etre reecrit :
y
t+h|t
= +
i=h
t+hj
,
avec, pour erreur correspondante
e
t+h|t
= y
t+h
y
t+h|t
=
h1
i=0
t+hj
,
dont la variance est donnee par
_
h1
i=0
2
i
_
.
Et si
t
NID(0,
2
)
y
t+h
N
_
y
t+h|t
,
_
h1
i=0
2
i
_
_
,
ce qui permet la construction dintervalles de conance.
Remarque 10 Le caractère optimal du predicteur est une propriete du pro-
cessus de generation des donnee, tandis quune règle de prevision est toute
procedure operationnelle systematique qui permette detablir des declarations
concernant lavenir.
90
6.3 Algorithme de Box-Jenkins
Lalgorithme de Box-Jenkins vise à formuler un modèle permattant de
representer une serie. Son idee principale est le concept de parcimonie, ou de la
minimisation du nombre de paramètres. En pratique, ces derniers etant incon-
nus, ils sont donc remplaces par leur valeur estimee : plus il y a de paramètres,
plus nombreuses sont les chances de se tromper.
Les annees 1960 virent le developpement dun grand nombre de modèles
macro-economiques comportant une forte quantite dequations et de variables
(des centaines). Celles-ci modelisaient très bien lhistorique des donnees mais
leur performance en matière de prevision laissait à desirer. Do` u lintroduction
des modèles ARMA(p, q) , avec p et q faibles an dameliorer les predictions :
ARMA(p, q) : A(L) y
t
= +B(L)
t
,
o` u A(L) = 1 a
1
L ... a
p
L
p
, B(L) = 1 +b
1
L +...b
q
L
q
et
t
NID(0,
2
) .
6.3.1 Principe de la methode
Il sagit de proceder en quatre etapes.
(1) Transformer les donnees de manière à ce que lhypothèse de station-
narite faible soit raisonnable.
(2) Etablir une hypothèse initiale concernant les paramètres p et q.
(3) Estimer les paramètres de A(L) et B(L) .
(4) Etablir une analyse de diagnostic qui conrme que le modèle est valable.
Les quatres etapes sont detaillees ci-dessous.
6.3.2 Travailler sur donnees stationnaires
Prenons lexemple dun modèle ARIMA(p, d, q) , cest-à-dire dun modèle
ARMA integre dordre d :
ARIMA(p, d, q) : A(L)
d
y
t
= +B(L)
t
,
il faut ainsi transformer le modèle en utilisant loperateur dierence () an
quil devienne stationnaire.
Autre exemple : desaisonnalisation
91
6.3.3 Etablir une hypothèse
Il est essentiel detablir une hypthèse maximale du nombre de coecients à
utiliser, i.e. des valeurs p
max
et q
max
à partir desquelles travailler sur le modèle
ARMA(p, q) . Pour ce faire, on utilise les fonctions ACF (
j
) et PACF (
j
) et
on les observe visuellement, sachant que leurs proprietes sont les suivantes :
MA(q) :
j
= 0 si j > q et non nul pour j q
AR(p) :
j
tends graduellement vers 0
et
AR(p) :
j
= 0 si j > p et non nul pour j p
MA(q) :
j
tends graduellement vers 0
Ainsi pour un AR(p) pur, on observe un seuil de PACF pour j p,
j
est
non nul et il devient nul pour j > p. Pour un MA(q) pur, le comportement est
le meme, mais cette fois-ci en utilisant ACF et q comme valeur de coupure.
Pour les ARMA, il faut malheureusement etablir un diagnostic en observant
separement les parties ACF et PACF. En pratique, tous les logiciels indiquent
par deux lignes en pointilles la bande de valeurs quil nest aps statistiquement
possible de dierentier de zero.
Exemple 33 Soit u
t
un bruit blanc Gaussien de moyenne zero et de va-
riance constante
2
. Les processus stochastiques lineaires suivants y
t
presentent
un processus derreur commun, donne par u
t
:
(i) y
t
= 0.64y
t1
+u
t
(ii) y
t
= 0.2y
t1
+ 0.64y
t2
+u
t
(iii) y
t
= u
t
+u
t1
(iv) y
t
= 0.64y
t2
+u
t
+ 0.64u
t1
(v) y
t
= y
t1
+u
t
(vi) y
t
= y
t1
+u
t
0.9u
t1
Une realisation de chacun de ces processus stochastiques est representee -
gure 6.1, conjointement avec leur fonctions estimees dautocorrelation (ACF)
et dautocorrelation partielle (PACF). Identiez le processus qui correspond à
chacune des series notees de A à F et expliquez votre decision.
92
6.3.4 Estimation
Pour lestimation des paramètres de A(L) et B(L) , il existe divers logiciels.
Pour un AR(p) pur, la methode la plus simple est les moindres carres ordinaires
ou la resolution des equations de Yule-Walker. En presence de partie MA, il
faut utiliser le maximum de vraisemblance (voir section suivante).
6.3.5 Diagnostic
Celui-ci sopère en plusieurs etapes. Une partie statistique se refère à divers
tests de specication, pour verier que le modèle est congruent, i.e. quil ne
peut etre mis en defaut. Ensuite, si plusieurs modèles resistent à cette batterie
de tests, il existe des methodes ad hoc permettant de choisir entre eux.
Tests statistiques
Il sagit ici de tester que les residus suivent un bruit blanc, i.e. sont non-
correles et ne presentent pas dheteroscedasticite (i.e. variance constante).
Les tests pour ce faire sont, entre autres.
Test de Breusch-Godfrey pour lautocorrelation (test LM) Cet test
pratique une regression des residus sur leurs valeurs retardees et verie que
cette regression nest pas signicative via le R
2
:
R
2
1 R
2
qui suit une loi de Fischer (ou
2
pour les estimations univariees) sous lhy-
pothèse H
0
dabsence dautocorrelation. Ce test est utilisable dans le cas dau-
toregressions.
Test dARCH (AutoRegressive Conditional Heteroscedasticity) Ce
test est similaire au precedent mais à present les carres des residus sont regresses
sur les carres de leurs valeurs retardees. De meme, sous H
0
: absence dauto-
correlation, la statistique suit une loi
2
ou de Fischer.
Test dheteroscedasticite de White Ce test utilise une regression des
carres des residus sur les regresseurs originaux et leurs carres. De nouveau,
sous lhypothèse nulle dhomoscedasticite, la statistique suit une loi
2
ou F.
93
Test de Normalite Ce test dhypothèse nulle de Normalite des residus uti-
lise les proprietes des ratios des troisième et quatrième moments sur la variance
dans le cadre des lois Gaussiennes. La statistique suit une loi
2
sous H
0.
Critères dinformation
Si le choix savère dicile entre plusieurs modèles concurrents, il faut uti-
liser un critère ad hoc. Deux sont en general proposes. Selon le critère dinfor-
mation dAkaike, le meilleur des modèles est celui qui minimise la statistique :
AIC(p, q) = T log
_
_
+ 2 (p +q)
et la statistique du critère dinformation de Schwarz est, quant à elle :
SC(p, q) = T log
_
_
+ (p +q) log (T) .
SC concide avec le critère Bayesien dinformation (BIC) et est plutot recom-
mande pour les modèles ARMA.
6.4 Estimation des modèles dynamiques
6.4.1 Equations de Yule-Walker
En labsence de composante MA (i.e. q = 0 dans ARMA(p, q)) la methode à
utiliser correspond aux moindres carres ordinaires ou resolution des equations
de YuleWalker :
1
=
1
+
2
1
+... +
p
p1
2
=
1
1
+
2
+... +
p
p2
.
.
.
p
=
1
p1
+
p2
+... +
p
_
1
, ...,
p
,
k
=
1
k1
+
k2
+... +
kp
, pour k > p,
en remplacant les autocorrelations theoriques par leur estimateurs. En re-
vanche, si q ,= 0, il est necessaire de recourir à la methode du maximum
de vraisemblance (exact ou conditionnel).
6.4.2 Fonction de vraisemblance
La methode du maximum de vraisemblance part de lhypothèse que lechantillon
Y
T
= (y
0
, ..., y
T
) observe suit une distribution dont les paramètres () (esperance,
94
variance, covariances...) sont à estimer. Il faut ici faire lhypothèse que la distri-
bution est connue (de fonction de densite f ()), seuls ses paramètres ne le sont
pas. Il est alors possible decrire que, pour donne, la probabilite dobserver
lechantillon Y
T
est donnee par
P (Y
T
) = f (Y
T
, ) .
Ainsi la probabilite dobserver Y
T
depend des paramètres . Le principe de la
methode est de rechercher quel fournit la probabilite maximale dobserver
Y
T
. On denit alors la fonction de vraisemblance, qui est une fonction qui
depend de lechantillon observe et dont le seul paramètre est , on la note :
L() = f (Y
T
, ) .
Il sagit alors simplement de rechercher quel maximise L() et on obtient
lestimateur :
= arg max
L() .
6.4.3 Maximum de vraisemblance dun ARMA
La fonction de vraisemblance dun processus AR(1) Gaussien et station-
naire :
y
t
= +
1
y
t1
+
t
,
t
NID
_
0,
2
_
,
correspond à la distribution conjointe de Y
T
= (y
1
, ..., y
T
)
qui est Gaussienne

Y
T
N(, )
_
_
y
1
.
.
.
y
T
_
_
N
_
_
_
_
.
.
.
_
,
_
0

T1
.
.
.
.
.
.
.
.
.
T1

0
_
_
_
_
_
o` u
h
=
h
1
2
y
,
2
y
= (1
2
1
)
1
2
et = (1
1
)
1
.
Ainsi la fonction de densite de lechantillon Y
T
= (y
1
, ..., y
T
) est-elle donnee
par la densite Normale multivariee :
f (Y
T
) =
_
1
2
_
T
[[
1/2
exp
_
1
2
(Y
T
)
1
(Y
T
)
_
.
La methode de decomposition erreur-prevision utilise le fait que les
t
sont
independants, et identiquement distribues, par consequent
f
(
2
, ...,
T
) =
T
t=2
f
(
t
) .
95
Et puisque
t
= y
t
( +
1
y
t1
) , on a
f (y
t
[y
t1
) = f
_
y
t
_
+
1
y
t1
__
pour t = 2, ..., T.
Ainsi
f (y
1
, ..., y
T
) = f (y
T
[y
T1
, ..., y
1
) f (y
T1
, ..., y
1
)
=
_
T
t=2
f (y
T
[y
T1
)
_
f (y
1
) .
Pour
t
NID(0,
2
) , la fonction de vraisemblance est donnee par :
L() = f
(
1
, ...,
T
; )
=
_
T
t=2
f (y
t
[Y
t1
; )
_
f (y
1
; ) ,
o` u est le paramètre à estimer (cest ici un vecteur). Donc
L() =
_
T
t=2
1
2
2
exp
_
1
2
2
_
y
t
_
+
1
y
t1
__
2
_
_
1
2
2
exp
_
1
2
2
y
(y
1
)
2
_
=
_
1
2
2
_
T
exp
_
1
2
2
T
t=2
_
y
t
_
+
1
y
t1
__
2
1
2
2
(y
1
)
2
_
et
l () = log L() =
T
2
log (2)
_
T 1
2
log
_
2
_
+
1
2
2
T
t=2
2
t
_
_
1
2
log
_
2
y
_
+
1
2
2
y
(y
1
)
2
_
o` u y
1
N
_
,
2
y
_
. En general on utilise la fonction conditionnelle de vraisem-
blance
_
T
t=2
f
(
t
; )
_
(conditionnee à la première observation). Dans le cas
des processus ARMA(p, q) ,
t
= y
t
_
+
1
y
t1
+... +
p
y
tp
+
1
t1
+...
q
tq
et une methode non-lineaire de maximisation numerique doit etre employee.

96
Figure 6.1 Series simulees et leur ACF et PACF. Les DGP sont donnes dans
lexemple 33.
0 50 100
2.5
0.0
2.5
5.0
A
0 5 10
0
1
ACFA
0 5 10
0
1
PACFA
0 50 100
2.5
0.0
2.5
B
0 5 10
0
1 ACFB
0 5 10
0
1 PACFB
0 50 100
2
0
2
C
0 5 10
0
1
ACFC
0 5 10
0
1
PACFC
0 50 100
2.5
0.0
2.5
D
0 5 10
0
1
ACFD
0 5 10
0
1
PACFD
0 50 100
0
5
E
0 5 10
0.5
1.0
ACFE
0 5 10
0
1
PACFE
0 50 100
2.5
0.0
2.5
5.0 F
0 5 10
0
1
ACFF
0 5 10
0
1
PACFF
97
98
Chapitre 7
Les variables integrees
La modelisation ARMA repose sur un principe de stationnarite. Il convient
donc de sassurer a priori du degre dintegration des series. Pour ce faire, on
utilise un test de racine unitaire, i.e. de presence dune tendance stochas-
tique. Celui-ci sintègre dans le cadre plus general des modèles ARIMA(p, d, q)
pour lesquels la formulation est :
(L)
d
y
t
= (L)
t
,
o` u = (1 L) , (L) est dordre p, (L) est dordre q, les racines des po-
lynomes sont superieures à 1 en valeur absolue et ils nont pas de racine com-
mune. Il sagit donc dun modèle ARMA stationnaire applique à une trans-
formation de y
t
, sa d-ième dierence. Ici un processus I(1) sera donc une
ARIMA(p, 1, q) . La marche aleatoire est un processus ARIMA(0, 1, 0) car
y
t
= y
t1
+
t
se reecrit
y
t
=
t
.
7.1 Les tests de racine unitaire
La pratique des tests de racine unitaire repose sur la modelisation dune
serie par un processus AR(p) :
y
t
=
p
i=1
i
y
ti
+
t
,
le cas le plus simple est celui dune marche aleatoire :
y
t
= y
t1
+
t
. (7.1)
99
Quand [[ < 1, le processus est stationnaire, explosif si [[ > 1 et integre dans
le cas = 1.
7.1.1 Problèmes des processus integres
Les dicultes liees aux racines unitaires sont de trois ordres :
1. Les processus presentant une racine (autoregressive) unitaire sont non-
stationnaires (mais toutefois integres).
2. Lorsquon regresse un processus non-stationnaire sur un autre :
y
t
= x
t
+u
t
lestimateur

ne tend pas necessairement vers 0, meme si les deux series sont
en realite independantes, sauf sil existe une combinaison lineaire de y
t
et x
t
qui soit elle-meme stationnaire. Ce dernier cas se rencontre souvent en pratique
lorsque les series sont integrees, y
t
et x
t
sont alors dites co-integrees.
3. Lestimateur des moindres carres ordinaires de , note na pas une distri-
bution usuelle :
T ( 1) N
_
0,
2
_
mais suit une distribution (non-normale) dite de DickeyFuller qui prenne en
compte le fait que ait tendance à sous-estimer = 1.
7.1.2 Test de Dickey-Fuller
Il est donc essentiel de determiner a priori si les series presentent une
racine unitaire. Pour ce faire, divers tests existent : le plus simple est le test
de Dickey-Fuller qui prend pour hypothèses :
H
0
: = 1, H
1
: < 1.
Sous lhypothèse H
0
, on peut reecrire (7.1)
y
t
= y
t
y
t1
=
t
,
et donc en regressant y
t
sur y
t1
dans
y
t
= d
t
+y
t1
+
t
,
on doit trouver un estimateur proche de zero. d
t
contient les termes deterministiques :
soit zero, soit une constante soit une tendance lineaire, i.e. :
d
t
=
_
_
_
0
a
a +bt
.
100
Malheureusement, le test de Student associe à ne suit pas une distribu-
tion habituelle. Il faut donc se reporter aux tables de Fuller, mais les valeurs
dependent des composantes de d
t
. Il faut donc elaborer une strategie.
7.2 Les dierents tests
Test de Dickey-Fuller : cas le plus simple de marche aleatoire avec ou sans
tendance deterministe.
DickeyFuller Augmente : permet de prendre en compte lautocorrelation
possible de la serie dierentiee via une correction utilisant les valeurs retardees,
sur la base du test :
y
t
= d
t
+y
t1
+
p
i=1
i
y
ti
+
t
,
PhillipsPerron : il sagit dune procedure de correction non-parametrique
(i.e. il ny a pas de modelisation de lautocorrelation). Ce test est plus ro-
buste vis-à-vis des erreurs de specication (i.e. quel que soit le type dauto-
correlation), en revanche il est moins precis que ADF quand le modèle corres-
pond ` a la realite.
SchmidtPhillips : il sagit de resoudre le problème de la presence, ou non,
de tendance deterministe dans le test de D-F. Il consiste en un test qui ote de
manière arbitraire une tendance (detrender). Ainsi travaille-t-il non pas sur la
variable x
t
mais sur une transformation S
t
= x
t
t o` u les paramètres sont

calcules simplement. Il utilise dautre distributions que ADF et PP et, comme
ces derniers, ne fait pas la dierence entre des racines de 0,95 et de 1 dans des
echantillons de taille nie.
Eliott-Rothenberg-Stock(ERS) : Utilise le fait que dans de petits echantillons
0,95 et 1 sont indierentiables. Il procède de ce fait à une quasi-dierentiation
x
t
= x
t
x
t1
, avec = 1
c
T
.
KPSS : prend pour hypothèse, non pas la non-stationnarite mais la station-
narite. Il est malheureusement souvent moins robuste.
ERS et SchmidtPhillips sont à preferer en general.
7.3 Les tendances et constantes
Les distributions utilisees pour les tests de racine unitaire dièrent mal-
heureusement selon la presence, ou non, dune constante et dune tendance
101
lineaire. Si on suppose quune variable y
t
suive :
y
t
= +t +y
t1
+
t
.
Parmi les hypothèses potentielles, y
t
peut presenter une tendance lineaire mais
etre stationnaire autour delle ( ,= 0, [[ , = 1), de sorte que
y
t
t = + ( +) t + [y
t1
(t 1)] +
t
,
et ainsi en posant (si ,= 0) = /, et x
t
= y
t
+ (/) t :
x
t
= +/ +x
t1
+
t
ce qui signie que y
t
est stationnaire autour de la tendance lineaire (/) t
et la variabledetrendee x
t
est stationnaire. A present si [[ = 1, x
t
nest plus
stationnaire mais suit une marche aleatoire (avec derive si + / ,= 0) et
ainsi
x
t
= x
0
+ ( +/) t +
t
i=1
i
,
donc x
t
presente à la fois une tendance lineaire deterministe ( +/) t et
une tendance stochastique
t
i=1
i
(ie. comme une marche aleatoire normale).
Ainsi, si = 1,
y
t
= +t +y
t1
+
t
,
y
t
= +t +
t
y
t
= y
0
+
t
i=1
y
i
= y
0
+
t
i=1
( +i +
i
)
= y
0
+t +
t
i=1
i +
t
i=1
i
= y
0
+t +
t (t + 1)
2
+
t
i=1
i
= y
0
+ ( +/2) t + (/2) t
2
+
t
i=1
i
.
Donc y
t
presente à la fois une tendance quadratique deterministe (/2) t
2
et une
tendance stochastique
t
i=1
i
.. De meme si = 0, mais ,= 0 : quand = 1,
y
t
presente une tendance lineaire deterministe et une tendance stochastique et
quand [[ < 1, y
t
est stationnaire de moyenne non nulle. Enn si = = 0,
102
Tableau 7.1 Distribution de F pour le test (, , ) = (, 0, 1) dans y
t
=
+t +y
t1
+
t
.
Taille de Probabilite dune valeur inferieure
lechantillon .01 .025 .05 .10 .90 .95 .975 .99
25 .74 .90 1.08 1.33 5.91 7.24 8.65 10.61
20 .76 .93 1.11 1.37 5.61 6.73 7.81 9.31
100 .76 .94 1.12 1.38 5.47 6.49 7.44 8.73
250 .76 .94 1.13 1.39 5.39 6.34 7.25 8.43
500 .76 .94 1.13 1.39 5.36 6.30 7.20 8.34
.77 .94 1.13 1.39 5.34 6.25 7.16 8.27
Source : Dickey & Fuller (1976), Table VI
y
t
suit soit une marche aleatoire, soit un processus stationnaire de moyenne
nulle. Ce quon resume dans le tableau ci-dessous :
(, , ) [[ < 1 [[ = 1
,= 0 stationnaire autour dune integre et presentant
tendance lineaire une tendance quadratique
,= 0, = 0 stationnaire de moyenne non nulle integre et presentant une tendance
lineaire
= 0, = 0 stationnaire de moyenne nulle integre sans tendance deterministe
Ainsi convient-il de bien specier la presence, ou non dune constante ou dune
tendance dans le modèle. En pratique commencer par le modèle le plus general
et verier la bonne specication du modèle, i.e. la presence ou non dun
ou dun . Le test dhypothèse jointe dune racine unitaire et dabsence de
tendance deterministe se fait theoriquement grace à la statistique de Fisher
F =
ESS
R
ESS
NR
(N k) q
,
o` u N est le nombre dobservations, k le nombre de paramètres estimes dans la
regression non restreinte (en nimposant pas lhypothèse nulle, i.e. en estimant
et ), q le nombre de restrictions (ici 2), ESS
R
est la somme des carres des
variables modelisees (i.e.
T
i=1
y
2
i
) sous lhypothèse = 0 (non estimee) et
= 1 (donc on estime pour y
t
= +
t
) et ESS
NR
est la somme
T
i=1
y
2
i
sans restrictions. Se reporter ensuite à la table 1 (pour le test de Dickey-Fuller
simple, non augmente).
103
7.4 Modèles univaries de cointegration
Pour une equation de comportement, un modèle à correction derreurs
(MCE), dans le cas simple de deux variables (y) et (x), secrit :
y
t
= (y
t1
x
t1
)+
p
i=1
y,i
y
ti
+
x,0
x
t
+
q
i=1
x,i
x
ti
+
t
(7.2)
Pour que cette equation soit valable et interpretable, tous les termes de la
regression doivent etre I(0). Pour que cela soit le cas, il faut que le terme entre
parenthèses soit une relation de cointegration
1
si les variables (y) et (x) sont
I(1). Il est aussi possible quune tendance lineaire intervienne dans la relation
de cointegration.
Il convient donc de sassurer, ou de supposer a priori, que (y) et (x) sont
integrees via un test de racine unitaire, par exemple Dickey-Fuller augmente.
Dierentes methodes permettent destimer le modèle (7.2). Nous les presentons
ci-dessous et exposons leurs avantages et defauts. Nous terminons par la methode
preconisee.
7.4.1 Procedure en deux etapes dEngle et Granger
Dans la première etape, on estime la relation de cointegration y = x +
et dans la seconde, les coecients du modèle MCE, en remplacant lecart par
rapport à lequilibre (terme entre parenthèses dans lequation (7.2)) par son
estimation.
Determination de la relation de cointegration
Lors de nos estimations, nous tentons de denir une relation de cointegration
pour chacun des grands comportements. Le concept de cointegration permet
de denir statistiquement la notion economique dequilibre (de long terme)
entre variables integrees de meme ordre.
Dans notre exemple, la relation de cointegration que lon estime secrit :
y
t
= +x
t
+
t
. (7.3)
Cette relation est une relation de cointegration si
t
est stationnaire (I(0)). Le
test de cointegration se ramène donc à un test de racine unitaire. La regression
1
Denition : n variables I (1) sont dites cointegres sil existe une combinaison lineaire
de celles-ci qui soit I (0).
104
qui sert au test est la suivante :
t
=
t1
+
s
i=1
ti
+u
t
,
o` u on teste H
0
: = 0 contre H
1
: < 0 à partir de la statistique de Student
du coecient . Pour accepter la cointegration, il faut accepter H
1
. Mais on ne
peut pas utiliser la table de Fuller car
t
est un residu destimation.
Engle et Granger (1987) ont montre que les coecients de long terme
peuvent etre estimes en utilisant la methode des MCO sur lequation (7.3).
En eet ces estimateurs convergent en probabilite vers leurs vraies valeurs au
taux 1/T (au lieu de 1/
T habituellement). Ils sont qualies de super conver-

gents. Notons que cette convergence a lieu malgre loubli de la dynamique de
court terme (le residu nest pas un bruit blanc mais un processus I(0)) et
aussi lorsque certaines variables x sont endogènes.
Phillips et Durlauf (1986) ont determine la distribution asymptotique des
estimateurs des MCO. Elles sont non-standards ainsi que celles des statistiques
de student associes. Cest pourquoi on ne peut realiser de test de signicativite
sur les coecients de la relation (7.3) . Ainsi est-il facile dobtenir des estima-
teurs convergents des coecients de long terme mais il est impossible de savoir
si les coecients sont reellement signicatifs !
Estimation du MCE
Si on accepte lhypothèse de cointegration, on passe à la seconde etape de
la procedure dEngle et Granger, cest-à-dire à lestimation dun modèle MCE
en remplacant lerreur dequilibre par son estimation.
y
t
=
t1
+
p
i=1
y,i
y
ti
+
x,0
x
t
+
q
i=1
x,i
x
ti
+
t
. (7.4)
Critique de la procedure en deux etapes
Elle a ete developpee dans le livre de Banerjee, Dolado, Galbraith, et Hen-
dry
2
et reprise dans le livre de Harris et dans larticle dEricsson & McKinnon.
Elle porte dune part sur lestimation de la relation de cointegration et
dautre part sur le test de cointegration.
1. Le risque est important de faire intervenir trop de variables dans la re-
lation de cointegration puisquon ne dispose pas de test de Student. On
force alors la dynamique du modèle vers un equilibre qui nen est pas un.
2
Banerjee, Dolado, Galbraith, & Hendry (1993), Co-integration, Error-correction and
the Econometric Analysis of Non-Stationary Data , Oxford University Press.
105
2. Lors de lestimation de la relation de cointegration, on omet (generalement)
des variables explicatives (celles de la dynamique de court terme), ce qui
entrane un biais sur les coecients de la relation. On sait que ce biais
disparat asymptotiquement (estimateurs super convergents) mais ce
biais peut etre non negligeable avec des echantillons de taille limitee.
3. Considerons maintenant le test de cointegration. Soit le residu de la re-
lation de cointegration :
t
= y
t
x
t
.
Prenons la version la plus simple de ce test :
t
=
t1
+u
t
,
avec H
0
: = 0 (pas de cointegration) contre H
1
: < 0 (cointegration),
ce qui peut encore secrire
(y
t
x
t
) = (y
t1
x
t1
) +u
t
,
soit
y
t
= x
t
+ (y
t1
x
t1
) +u
t
.
Ainsi, le test de cointegration se fait-il sur un modèle MCE particulier
par rapport au modèle general suivant :
y
t
= x
t
+(y
t1
x
t1
) +
t
,
on fait lhypothèse = .
La methode en deux etapes contraint donc lelasticite de long terme () à
etre la meme que celle de court terme () . Ceci est une restriction très forte
non veriee en pratique. Ainsi, la cointegration est-elle testee sous cette meme
hyptothèse, alors que cette restriction nest en general pas imposee dans la
deuxième etape. Ceci entrane alors une forte incompatibilite des estimations ! !
7.4.2 Procedure en une etape de Banerjee, Dolado et
Mestre
Cette procedure consiste à estimer par les MCO les coecients du modèle :
y
t
= +
y
y
t1
+
x
x
t1
+
p
i=1
y,i
y
ti
+
x,0
x
t
+
q
i=1
x,i
x
ti
+
t
106
(7.5)
et den deduire la relation de cointegration par division an de tenir compte de
la dynamique de court terme. En eet si lon omet cette dynamique, on obtient
une estimation biaisee du vecteur de cointegration dans les echantillons de taille
nie. Ce modèle peut se re-ecrire :
y
t
= +
y
_
y
t1
+

x
y
x
t1
_
+
p
i=1
y,i
y
ti
+
x,0
x
t
+
q
i=1
x,i
x
ti
+
t
,
ce qui correspond dans (7.2) à
=
y
,
=
y
.
Les statistiques de Student des coecients de long terme (
y
et
x
) ont des
lois non standards à la dierence de celles des coecients des variables station-
naires. En consequence on ne peut pas tester la signicativite des coecients
de long terme ni tester limpact de long terme de x sur y.
Banerjee, Dolado et Mestre (1995) preconisent de tester la cointegration sur
la regression (7.5) à partir de la statistique de Student du coecient
y
. Pour
accepter la cointegration, il faudrait que ce coecient soit signicativement
dierent de zero. Cependant, comme nous lavons precise precedemment, la
statistique de Student de ce coecient a une distribution non standard.
Test de cointegration
Signicativite de
y
par un test de Student avec les tables de Ericsson et
MacKinnon (2002), telechargeables sous ecmtest.xls sous
http://qed.econ.queensu.ca/pub/faculty/mackinnon/ecmtest/
En pratique estimer (7.5) puis se reporter à la feuille excel ecmtest.xls
(o` u on remplit les cellules encadrees sur le graphique 7.1). On doit y reporter
le nombre de variables entrant dans la relation de cointegration (y compris
lendogène, soit ici k). Ensuite d est le nombre de composantes deterministes
(i.e. soit une constante, plus le cas echeant un trend) toujours compris entre 1
et 2. T est la taille de lechantillon . Enn le nombre total de regresseurs, i.e. de
variables entrant ` a droite dans lequation, y compris les variables deterministes
et les retards et dummies.
107
7.4.3 References bibliographiques
Ericsson, N & MacKinnon, J (2002). Distributions of error correction tests
for cointegration, Econometrics Journal, 5, pp. 285-318.
Harris, R (1995). Cointegration Analysis in Econometric Models. Hemel Hemps-
tead : Harvester Wheatsheaf.
108
Annexe 7.A Decomposition du MCE en court
et long termes
MCE :
y
t
= (y
t1
x
t1
)+
p
i=1
y,i
y
ti
+
x,0
x
t
+
q
i=1
x,i
x
ti
+
t
est estimee comme
y
t
= +
y
y
t1
+
x
x
t1
+
p
i=1
y,i
y
ti
+
x,0
x
t
+
q
i=1
x,i
x
ti
+
t
Long terme :
y
t
=

y
x
t
Puis le court terme, variable yc denie par
y
t
= y
t
+yc
t
yc
t
= (1 +
y
) yc
t1
+
_
x,0
+

x
y
_
x
t
+
p
i=1
y,i
y
t1
+
p
i=1
x,i
x
t1
+
t
Annexe 7.B Neutralite et Homogeneite du MCE
Reprenons lequation :
y
t
= (y
t1
x
t1
)+
p
i=1
y,i
y
ti
+
x,0
x
t
+
q
i=1
x,i
x
ti
+
t
.
Si à present on suppose que y et x presentent une tendance lineaire de sorte
quelles croissent en moyenne de facon constante : E[x
t
] = g
x
et E[y
t
] = g
y
.
Si on insère un trend dans la relation de cointegration ces taux de croissance
peuvent dierer car un vecteur de cointegration :
c
t
= y
t
x
t
bt
implique que
g
y
g
x
b = 0.
Par consequent, pour homogeneite, il est necessaire que
g
y
= +
p
i=1
y,i
g
y
+
x,0
g
x
+
q
i=1
x,i
g
x
,
109
ie
_
1
p
i=1
y,i
_
g
y
= +
_
x,0
+
q
i=1
x,i
_
g
x
= +
_
x,0
+
q
i=1
x,i
_
_
b +g
y
_
,
soit
_
1
p
i=1
y,i
+
1
x,0
+
q
i=1
x,i
_
_
g
y
=
b
x,0
+
q
i=1
x,i
_
.
Cette equation à des implications qui dependent de la modelisation : si on
souhaite que la croissance autonome soit nulle, cela necessite que :
1 =
p
i=1
y,i
,
0 =
x,0
+
q
i=1
x,i
.
110
or
y
t

1
=
_
y
t2

1
_
+u
t
,
donc, comme y
t2
et u
t
sont independants :
Cov [y
t
, y
t2
] = V
_
y
t2

1
_
=

1
2
2
u
(2) calcul des moments de la serie generee par le modèle MA(2) :
y
t
= +
t
+
t2
,
t
NID
_
0,
2
_
.
Le processus est stationnaire car il sagit dune moyenne mobile.
(i) Esperance :
E[y
t
] =
(ii) Variance :
V[y
t
] =
_
1 +
2
_
(iii) Covariance entre y

t
et y
t1
: Cov [y
t
, y
t1
] = 0 car y
t
et y
t2
sont fonctions
de bruits blanc independants enre eux.
(iii) Covariance entre y
t
et y
t2
:
Cov [y
t
, y
t2
] = Cov [
t
+
t2
,
t2
+
t4
]
=
2
.
A present pour calculer les paramètres à partir des moments, il faut resoudre
les equations. Pour ce faire, on utilise le ratio
Cov[y
t
,y
t2
]
V[y
t
]
et on calcule les coef-
cients (equation du second degre dans le cas du MA(2)).
AR(2) :
_
_
= E[y
t
] (1 Corr [y
t
, y
t2
])
= Corr [y
t
, y
t2
]
2
u
= V[y
t
]
_
1 Corr [y
t
, y
t2
]
2
_
MA(2)
_
_
= E[y
t
]
=
1
_
1 4 Corr [y
t
, y
t2
]
2
2Corr [y
t
, y
t2
]
=
2 Corr [y
t
, y
t2
]
2
1
_
1 4 Corr [y
t
, y
t2
]
2
119
Pour obtenir , il existe deux solutions de valeurs absolues lune superieure à
lunite, lautre inferieure ; cest cette dernière racine quon utilise an dassurer
le caractère inversible du MA.
Cas empiriques
(i) on constate que lautocorrelation du premier ordre mesuree est très forte,
tandique que chacun des modèles implique une valeur nulle. Aucun des eux
modèles ne peut donc sappliquer.
(ii) on choisit pour le MA(2) , le coecient implqiuant un processus inversible.
AR(2) :
_
_
_
= 0, 6
= 0, 4
2
u
= 1, 68
MA(2) :
_
_
_
= 1
= 0, 5 (ou 2)
= 1, 6 (ou 0, 4)
Pour pouvoir choisir enter les deux representations, le correlogramme se revèlerait
par exemple utile.
(iii) Seule la representation AR est ici possible.
AR(2) :
_
_
_
= 0, 2
= 0, 8
2
u
= 0, 72
MA(2) : pas de racine reelle pour
Exercice 3 Soit u
t
un bruit blanc Gaussien, i.e. u
t
NID(0,
2
) . Le pro-
cessus stochastique y
t
derive de u
t
est deni par :
(i) y
t
= y
t1
+u
t
, pour t > 0, o` u = 1 et y
0
= 2;
(ii) y
t
= +y
t1
+u
t
, pour t > 0, o` u = 1, ,= 0, et y
0
= 0;
(iii) y
t
= u
t
+u
t1
, avec = 1/2 pour t variant de à +;
(iv) y
t
=
_
u
t
pour t = 1, 3, 5, ...
2u
t
pour t = 2, 4, 6, ...
Pour chacun des processus y
t
deni ci-dessus :
(a) Precisez quelles sont la moyenne
t
et la fonction
dautocovariance
t
(h) de y
t
.
(b) Determinez si le processus est (faiblement) stationnaire.
120
Correction 3 (i)
y
t
= y
t1
+u
t
, avec y
0
= 2
donc
y
t
= y
0
+
t
i=1
u
i
et
t
= E[y
t
] = y
0
= 2
t
(0) = Var
_
t
i=1
u
i
_
=
t
i=1
Var [u
i
] = t
2
u
t
(h) = Cov [y
t
, y
th
] = Cov
_
t
i=1
u
i
,
th
i=1
u
i
_
= Cov
_
th
i=1
u
i
,
th
i=1
u
i
_
+Cov
_
t
i=th+1
u
i
,
th
i=1
u
i
_
or les (u
th+1
, ..., u
t
) sont independants des (u
1
, ..., u
th
) donc
t
(h) = Cov
_
th
i=1
u
i
,
th
i=1
u
i
_
= Var
_
th
i=1
u
i
_
= (t h)
2
u
pour h 0
t
(h) = t
2
u
pour h < 0.
et le processus nest pas stationnaire, il sagit dune marche aleatoire.
(ii) ici nous avons aaire à une marche aleatoire avec derive (non stationnaire)
y
t
= +y
t1
+u
t
= t +
t
i=1
u
i
donc
t
= E[y
t
] = t
t
(0) = Var
_
t
i=1
u
i
_
=
t
i=1
Var [u
i
] = t
2
u
t
(h) = E
__
t +
t
i=1
u
i
__
(t h) +
th
i=1
u
i
__
t [ (t h)]
= (t h)
2
u
pour h 0 et t
2
u
pour h < 0.
121
(iii) A present le processus MA(1)
y
t
= u
t
1/2u
t1
nous savons quil est stationnaire (propriete des MA) et donc
t
= 0
t
(0) = Var [u
t
1/2u
t1
] =
_
1 +
1
4
_
2
u
t
(1) = Cov [u
t
1/2u
t1
, u
t1
1/2u
t2
]
= 1/2Var [u
t1
] =
2
u
2
.
t
(h) = 0 pour h 2.
(iv) le processus est à present moins courant
y
t
=
_
u
t
pour t impair
2u
t
pour t pair
et ainsi
t
= 0
t
(0) =
_

2
u
pour t impair
4
2
u
pour t pair
et
t
(h) = 0 pour h 1
la variance de ce processus depend t (du moins de sa parite) et donc la serie
est non stationnaire.
Exercice 4 On souhaite analyser un modèle ARMA(1,1) donne par :
y
t
= y
t1
+
t
+
t1
, pour t = 1, ..., T (3)
avec
t
NID(0, 1) et y
0
= 0. On denit les polynomes A et B tels que (3)
secrive
A(L) y
t
= B(L)
t
,
o` u L represente loperateur retard.
(i) Quels sont les coecients des polynomes A et B?
(ii) Donner les racines de A et de B.
122
(iii) Quelles conditions les coecients et doivent-ils satisfaire pour que le
processus y
t
soit stationnaire ? inversible ? On suppose ces conditions satis-
faites dans les questions suivantes.
(iv) Quel est le role de lhypothèse y
0
= 0 ?
(v) Quelle sont lesperance E[y
t
] , la variance V[y
t
] , et lautocovariance COV[y
t
, y
th
]
(pour h 1) ?
(vi) Est-il possible que V[y
t
] < 1 ? Commenter les valeurs possibles de V[y
t
] ,
COV[y
t
,y
t1
]
V[y
t
]
et
COV[y
t
,y
t1
]
COV[y
t
,y
t2
]
quand = 0, ou = 0.
(vii) Que se passe-t-il quand + = 0 ? Expliquez.
(viii) Dans chacun des cas suivants, on estime les valeurs des variances et
covariances sur un grand echantillon, en deduire les paramètres et :
(a)
(b)
V[y
t
] = 1, 25 COV[y
t
, y
t1
] = 0, 5 COV[y
t
, y
t2
] = 0
V[y
t
] = 2 COV[y
t
, y
t1
] =
2 COV[y
t
, y
t2
] = 1
Correction 4 (i) Lequation (3) peut etre reecrite sous la forme :
y
t
y
t1
=
t
+
t1
soit
(1 L) y
t
= (1 +L)
t
ce qui implique que A et B soient de degre 1 et si on pose A(x) = a
1
x +a
0
et
B(x) = b
1
x +b
0
, les coecients sont
a
1
= et a
0
= 1;
b
1
= et b
0
= 1.
(ii) Les racines des polynomes sont telles que
A(z
A
) = 0 z
A
=
1
,
B(z
B
) = 0 z
B
=
1
.
(iii) y
t
est stationnaire si sa partie autoregressive lest, i.e, si [z
A
[ > 1, ou [[ <
1. La meme condition sur la partie de moyenne mobile implique linversibilite
du processus, i.e. si [z
B
[ > 1, ou [[ < 1.
(iv) . Lhypothèse y
0
= 0 permet de sabstraire de la non-stationarite que la
valeur origine entrane dans les petits echantillons.
(v) Calcul de lesperance : le processus etant stationnaire, E[y
t
] est tel que
E[y
t
] = E[y
t1
+
t
+
t1
]
= E[y
t1
]
123
et donc E[y
t
] = 0.
Calcul de la variance et des covariances : selon les equations de Yule-Walker
et puisque lesperance de y
t
est nulle
E
_
y
2
t
=
0
= E[(y
t1
+
t
+
t1
) y
t
]
= E[y
t
y
t1
+y
t
t
+y
t
t1
]
= E[y
t
y
t1
] +E[y
t
t
] +E[y
t
t1
]
=
1
+E[y
t
t
] +E[y
t
t1
] .
Or E[y
t
t
] = E[(y
t1
+
t
+
t1
)
t
] = E[
t
t
] car y
t1
et
t1
sont independants
de
t
. De plus
E[y
t
t1
] = E[(y
t1
+
t
+
t1
)
t1
]
= E[y
t
t
] +
= +
Ainsi
0
=
1
+ 1 + +
2
,
et de meme
1
= E[y
t
y
t1
] = E[(y
t1
+
t
+
t1
) y
t1
]
=
0
+.
Par consequent
0
= (
0
+) + 1 + +
2
0
=
1 + 2 +
2
1
2
=
1
2
+ ( +)
2
1
2
= 1 +
( +)
2
1
2
et
1
=
(1 +) ( +)
1
2
.
Enn pour h > 1
h
= E[y
t
y
th
] = E[(y
t1
+
t
+
t1
) y
th
]
=
h1
=

h1
( +)
1
2
=

h
+
h1
1
2
.
124
(vi) est-il possible que V[y
t
] < 1 ? V[y
t
] = 1 +
(+)
2
1
2
donc V[y
t
] 1. A present
0
=
(1 +) ( +)
1
2
+ ( +)
2
et
2
=
1
Donc si = 0,

1
0
=

1+
2
est compris entre
1
2
et
1
2
. Par ailleurs
2
est alors
nul. Quand = 0,

1
0
= =

2
1
.
(vii) Quand + = 0, y
t
ne suit plus un bruit blanc car les polynomes A et
B ont alors une racine commune :
y
t
=
t
.
Ce quon percoit en observant la fonction dautocovariance :
0
= 1 et
h
= 0
pour h < 0.
(viii) (a) On constate que
2
= 0 mais
1
non nul, donc = 0 et par
consequent
0
= 1 +
2
, donc = 0, 5 =
1
.
(b) A present

2
1
=
1
2
= . Donc
0
= 1+
(
1/
2+
)
2
1/2
= 2 donc
_
1/
2 +
_
2
=
1
2
et 1/
2 + =
1
2
, i.e. = 0. On verie que

1
0
= .
Exercice 5 Le but de cet exercice est de comparer les proprietes previsionnelles
de divers modèles. On considère les processus generateurs suivants :
(a) y
t
= +t +
t
(b) y
t
= y
t1
+u
t
(c) y
t
= +y
t1
+v
t
avec [[ < 1
(d) y
t
= +w
t
+w
t1
On suppose que les processus
t
, u
t
, v
t
et w
t
sont tous des bruits blancs independents
les uns des autres et de variances toutes egales à 1. On sinteresse à un
echantillon comprenant T observations et on suppose que y
0
= 0.
(i) Calculez lesperance E[y
T
] et la variance V[y
T
] de y
T
donnees par chacun
des modèles à linstant T (notez quelles peuvent dependre de T).
(ii) Quels sont les processus stationnaires parmi les quatre consideres ? Com-
mentez les proprietes de chacun.
(iii) A la date T, on souhaite etablir une prevision de y
T+h
, o` u h 2. Quelle
est la valeur y
T+h
quimplique chacun des modèles, connaissant y
T
? (vous don-
nerez une reponse o` u la valeur y
T+h
depend de y
T
et des
i
, u
i
, v
i
ou w
i
pour
125
i T).
(iv) Pour chacun des modèles (a) , (b) , (c) , (d) on souhaite etablir une prevision
y
T+h|T
= E[y
T+h
[y
T
] (lesperance conditionnelle de y
T+h
sachant y
T
, on sup-
pose w
T
inconnu). Calculez ces previsions.
(v) Pour chacun des modèles quelle est lerreur de prevision e
T+h|T
= y
T+h
y
T+h|T
correspondante ?
(vi) Quelles sont pour chacun des modèles, lesperance E
_
e
T+h|T
[y
T
et la va-
riance V
_
e
T+h|T
[y
T
de lerreur de prevision, connaissant y

T
(on suppose w
T
inconnu, y
T
est vu comme une constante).
(vii) Commenter les dierences entre les erreurs de prevision de chacun des
modèles, et leur evolution en fonction de T et h.
Correction 5 (i) Calcul des esperances et variances à linstant T.
(a)
E[y
T
] = E[ +T +
T
] = +T
V[y
T
] = V[
T
] = 1
(b)
E[y
T
] = E[y
T1
] = ... = E[y
0
] = 0
V[y
T
] = V[y
T1
] +V[u
T
] + 2Cov [y
T1
, u
T
]
= V[y
T1
] + 1 = V[y
T2
] + 2
= T +V[y
0
] = T
(c) [[ < 1, on fait donc lhypothèse de stationnarite car y
0
= 0 :
E[y
T
] = +E[y
T1
] = +E[y
T
]
=

1
V[y
T
] =
2
V[y
T1
] +V[v
T
] + 2Cov [y
T1
, v
T
]
=
2
V[y
T
] + 1
=

1
2
.
(d) y
t
suit un processus de moyenne mobile, il est donc stationnaire :
E[y
T
] =
V[y
T
] = V[w
T
] +
2
V[w
T1
] + 2Cov [w
T
, w
T1
]
= 1 +
2
.
(ii) Les processus (c) et (d) sont stationnaires (AR(1)) et MA(1)). (a) est sta-
tionnaire autour dune tendance deterministe lineaire : sa variance est constante
126
mais son esperance ne lest pas. (b) suit une marche aleatoire et est integre
(donc non-stationnaire) : sa dierence est stationnaire, son esperance est constante
et nulle, sa variance crot avec le temps car elle suit une tendance lineaire.
(iii)
(a) : y
T+2
= y
T
+ 2 +
T+2
T
(b) : y
T+2
= y
T
+u
T+2
+u
T+1
(c) : y
T+2
= (1 +) +
2
y
T
+v
T+2
+v
T+1
(d) : y
T+2
= +w
T+2
+w
T+1
(iv)
(a) : y
T+h
= y
T
+h +
T+h
T
(b) : y
T+h
= y
T
+
h
i=1
u
T+i
(c) : y
T+h
=
_
h1
i=0
i
_
+
h
y
T
+
h1
i=0
i
v
T+hi
(d) : y
T+h
= +w
T+h
+w
T+h1
donc les previsions sont donnees par (on suppose E[
T
[y
T
]) :
(a) : y
T+h
= y
T
+h
(b) : y
T+h
= y
T
(c) : y
T+h
=
_
h1
i=0
i
_
+
h
y
T
=
1
h
1
+
h
y
T
(d) : y
T+h
=
(v) Lerreur de prevision est obtenue dans chacun des cas par e
T+h
= y
T+h
y
T+h
(a) : e
T+h
=
T+h
T
(b) : e
T+h
=
h
i=1
u
T+i
(c) : e
T+h
=
h1
i=0
i
v
T+hi
(d) : e
T+h
= w
T+h
+w
T+h1
127
dont lesperance est donnee par
(a) : E[ e
T+h
] = 0
(b) : E[ e
T+h
] = 0
(c) : E[ e
T+h
] = 0
(d) : E[ e
T+h
] = 0
et la variance
(a) : V[ e
T+h
] = 2
(b) : V[ e
T+h
] = h
(c) : V[ e
T+h
] =
h1
i=0
2i
=
1
2h
1
2
(d) : V[ e
T+h
] = 1 +
2
(vii) On constate que les divers modèles fournissent des previsions non-biaisees
(lesperance de lerreur est nulle) mais quen revanche leur comportement est
très divers. La prevision selon (a) saccrot de chaque periode, elle est stable
à la dernière valeur pour (b) , retourne lentement vers la moyenne

1
pour (c)
car
h
0 quand h , et enn est stable à la moyenne pour (d) .
En ce qui concerne les variances des erreurs (et donc le calcul de lincertitude
autour de la prevision), elle est stable pour (a) et (d) , elle crot lineairement
pour (b) et enn elle saccrot progressivement vers la variance de y
t
pour (c) .
128

(Cours) Econometrie HEC

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

(Cours) Econometrie HEC

Hochgeladen von

Copyright:

Verfügbare Formate

Econometrie

et ces evenements sont necessairement disjoints. Par consequent

et est independante de Z, alors le ratio

se comporte de plus en plus comme une Normale, entre = 30

, et denie, i.e. pour tous

= V[S (X)] + (E[S (X) ])

X pour 3 tirages de N(0,1)

X1) pour 3 tirages de

X pour 25 tirages de N(0,1)

X1) pour 25 tirages de

X pour 250 tirages de N(0,1)

X1) pour 250 tirages de

issu des v.a. Y = (Y

est deni comme solution de lequation destimation;

X est inversible par

une matrice symetrique idempotente, i.e. M

u] ,= 0 alors lestimateur nest pas coherent et ne tend pas vers

puisse etre represente par

qui est Gaussienne

et une methode non-lineaire de maximisation numerique doit etre employee.

t o` u les param`etres sont

T habituellement). Ils sont qualies de super conver-

(iii) Covariance entre y

de lerreur de prevision, connaissant y

Das könnte Ihnen auch gefallen