Beruflich Dokumente
Kultur Dokumente
Modèles de Régressions
pour Données Chronologiques
19.1 Introduction
Un nombre conséquent d’études économétriques appliquées utilisent des don-
nées chronologiques, et nombreux sont les problèmes économétriques qui sont
liés au seul usage de ce genre de données. L’un d’entre eux est la corrélation
en série, dont nous avons largement parlé au cours du Chapitre 10. Dans
ce chapitre et celui qui suit, nous discuterons d’autres problèmes que l’on
rencontre fréquemment lorsque l’on utilise les données chronologiques ou des
méthodes susceptibles de les traiter. Dans la Section 19.2, nous aborderons le
problème des régressions “erronées” entre des séries économiques temporelles.
Cette section introduit quelques concepts importants qui feront l’objet du
Chapitre 20, lorsque nous parlerons des racines unitaires et de la cointégration.
La Section 19.3 traite l’estimation des retards échelonnés. La Section 19.4
concerne les modèles de régression dynamique, dans lesquels un ou plusieurs
retards de la variables dépendante apparaissent dans les régresseurs. Nous
discuterons de l’estimation des modèles à vecteur autorégressif pour des séries
chronologiques multivariées dans la Section 19.5. Les deux sections finales
traitent de la saisonnalité. La Section 19.6 fournit une introduction aux
procédures d’ajustement saisonnier, et la Section 19.7 discute des moyens
variés de modéliser les variations saisonnières dans les modèles de régression.
669
670 Modèles de Régressions pour Données Chronologiques
yt = γ1 + γ2 t + ut et (19.01)
yt = δ1 + yt−1 + ut , (19.02)
1
Le fait que la théorie asymptotique standard soit inadaptée à de tels modèles
ne signifie pas qu’aucune théorie ne leur soit pas applicable. Par exemple, nous
avons étudié un modèle simple de régression sur une tendance linéaire dans la
Section 4.4 et nous avons conclu que l’estimateur des moindres carrés du coef-
ficient du terme de tendance était convergent, mais avec une variance O(n−3 )
au lieu d’être O(n−1 ). De plus, puisqu’il existe des TLC qui s’appliquent à
de tels modèles, les procédures habituelles pour l’inférence sontP
asymptotique-
n
ment valables. Par exemple, si ut ∼ IID(0, σ 2 ) et Sn ≡ n−3/2 t=1 tut , alors
Sn a une distribution qui tend vers N (0, σ 2 /3). Remarquons que le facteur de
normalisation ici est n−3/2 plutôt que n−1/2.
19.2 Régressions Erronées 671
yt = α + βxt + ut (19.03)
qui comprend le DGP en tant que cas particulier lorsque δ2 = 1 et que les
deux autres paramètres sont nuls. Malgré tout, l’hypothèse nulle β = 0 est
rejetée environ tois fois plus souvent qu’elle ne devrait l’être, et il n’y a rien
que montre que cette tendance au rejet quasi systématique décline lorsque la
taille d’échantillon n s’accroı̂t. Le t de Student provoque un rejet excessif dans
ce cas parce qu’il n’est pas asymptotiquement comme une N (0, 1). Puisque
les deux régresseurs sont ici générés par des marches aléatoires, la matrice
n−1X>X n’est pas finie définie positive, et la théorie asymptotiques standard
ne s’applique plus. Comme nous allons le voir dans le prochain chapitre, il
existe de nombreux cas comparables, pour lesquels les t de Student suivent des
distributions non standard asymptotiquement. Ces distributions sont pour
l’instant calculées généralement au moyen d’expériences Monte Carlo.
Une série qui suit une marché aléatoire, avec ou sans dérive, est souvent
qualifiée d’intégrée à l’ordre un, ou I(1) pour aller vite. L’idée sur laquelle
repose cette terminologie est qu’une série doit être différenciée une fois pour
être stationnaire. Ainsi une série stationnaire est dite I(0). En principe,
une série pourrait être intégrée à d’autres ordres. Il est possible de rencontrer
occasionnellement une série I(2), et si l’on différencie malencontreusement une
série I(0), le résultat est une série I(−1). Néanmoins, la grande majorité des
travaux économétriques appliqués traite des séries temporelles qui sont soit
I(0) ou I(1). Si une série est à l’origine I(1), il est possible de lé différencier
une fois pour la rendre I(0). Savoir quand il est nécessaire de différencier une
série sera l’onjet du prochain chapitre.
Dans le reste de ce chapitre, nous ferons l’hypothèse que toutes les séries
sont I(0) et ne contiennent aucun tendance non stochastique. Ces h2 garan-
tissent que ni une régression erronée ni des résultats asymptotiques non stan-
dards ne poseront problème. Ces h2 peuvent paraı̂tre malgré tout un voeu
pieux. Par chance, les techniques dont nous discuterons dans le prochain
chapitre rendent possible la garantie que ces h2 ne sont pas trop remises en
cause dans la pratique.
674 Modèles de Régressions pour Données Chronologiques
Si xt−j est corrélé positivement à xt−k pour tout j 6= k, les termes de covar-
iance dans (19.05) seront généralement négatifs. Lorsqu’ils sont importants et
négatifs, comme c’est souvent le cas, V (γ̂) peut être plus petite que la somme
des V (β̂j ) ou même que chaque V (β̂j ).
Si c’est le paramètre γ qui nous intéresse plutôt que les βj individuels,
l’approche la plus simple consiste à estimer une version reparamétrisée de
(19.04) par moindres carrés. La version reparamétrisée est
q
X
yt = α + γxt + βj (xt−j − xt ) + ut . (19.06)
j=1
Il est aisé de vérifier que le coefficient γ associé à xt dans (19.06) est en fait
égal à la somme des βj dans (19.04). L’avantage de cette reparamétrisétion
19.3 Retards Échelonnés 675
est que l’écart type de γ̂ est immédiatement disponible dans les résultats de
la régression.
Si notre intérêt se focalise sur les βj , la colinéarité peut être un problème
urgent. De nombreux moyens d’aborder ce problème furent proposés. Cer-
tains impliquent l’imposition de contraintes sur les paramètres de (19.04),
alors que d’autres impliquent l’estimation de modèles pour lesquels une ou
plusieurs retards de la variables dépendantes apparaissent dans l’ensemble
des régresseurs. Cette dernière approche est fondamentalement différente de
la première, et sera traitée dans la section qui suit. L’exemple le plus connu
de la première approche consiste à employer ce que l’on nomme les retards
échelonnés polynomiaux, ou PDL. Ces derniers sont quelquefois appelés re-
tards d’Almon à la suite de l’article d’Almon (1965) à l’occasion duquel ils
furent proposés pour la première fois.
Dans un polynôme de retards échelonnés, les coefficients βj de (19.04)
doivent se situer dans un polynôme de degré d donné. Ce polynôme peut
éventuellement être soumis à des contraintes ultérieures, telles que les con-
traintes des portant sur les points terminaux. A titre d’exemple simple, si le
polynôme était du second degré, sans contrainte ultérieure, nous aurions
βj = η0 + η1 j + η2 j 2 pour j = 0, . . . , q. (19.07)
Puisque les contraintes sont linéaires, on peut les tester facilement. On peut
utiliser soit un test en F habituel, soit sa version robuste à l’hétéroscédasticité
(voir Section 11.6). Le modèle contraint est (19.08), le modèle non contraint
est (19.04), et le nombre de contraintes dans ce cas est q − 2. De façon plus
générale, pour un modèle PDL(q, d), il y aura q − d contraintes.
Il faudrait toujours tester les contraintes imposées par n’importe quel
type de PDL avant d’accepter, même à titre provisoire, un modèle qui incor-
pore ces contraintes. Ces contraintes sont de deux natures. Il y a la contrainte
de la longueur du dernier retard qui ne doit pas être supérieure à q. Puis il y
a les contraintes futures qui sont imosées par le PDL, quelles qu’elles soient.
Pour une valeur de q donnée, la réduction du degré du polynôme de d à
d − 1 aboutit à un modèle plus restrictif. Cependant, pour un degré donné
du polynôme, la reduction de q produit simplement un modèle différent, non
emboı̂té, qui peut s’ajuster mieux ou plus mal aux données. Ainsi, on peut
tester un modèle PDL(q, d) contre un modèle PDL(q, d + 1) en utilisant un
test en F ordinaire, mais on ne peut pas tester un modèle PDL(q, d) contre un
modèle PDL(q + 1, d) avec le même instrument. La meilleure approche con-
siste sans doute à se poser en premier le problème de la longueur du retard, en
débutant par une valeur importante de q et en examinant la détérioration de la
qualité de l’ajustement du modèle en diminuant sa valeur, sans imposer aucun
contrainte sur la forme des retards échelonnés. Une fois que q est déterminé,
on peut ensuite tenter de déterminer d, une fois encore en débutant avec une
valeur importante et en la réduisant au fur et à mesure. Un excellent exemple
empirique est donné par Sargan (1980c). La spécification d’un modèle final
dans cette optique est un exemple de prétest dont nous avons discuté dans la
Section 3.7; consulter Trivedi (1978).
La plupart des progiciels d’économétrie permettent aux utilisateurs de
spécifier des modèles qui incluent des PDL et d’estimer de tels modèles avec
des OLS, des IV, et quelquefois d’autres formes d’estimations. Ces mises en
oeuvre sont de façon typique beaucoup plus sophistiquées que notre discus-
sion n’a pu le suggérer jusqu’ici. Par exemple, elles permettent souvent à
l’utilisateur de spécifier des contraintes additionnelles sur la forme des retards
telles que les contraintes βq = 0. Plus important encore, les bons progiciels
utilisent des familles de polynômes plus sophistiquées que celles que nous avons
décrites. Le problème avec ces dernières est que les variables zti tendent à être
fortement corrélées entre elles. Cela peut provoquer une singularité numérique
de la matrice X>X. Avec l’aide d’autres types de polynômes, tels que les
19.3 Retards Échelonnés 677
η β̌ = ηβ + e, E(ee> ) = I. (19.11)
Les aléas de cette régression sont i.i.d. et ont une variance égale à σu2 . La
régression (19.12) suppose que nous connaissons σu , puisqu’il faut multipier
les k dernières observations par cette quantité de façon à garantir qu’elles ont
le même poids relativement aux n premières observations. Asymptotiquement
bien sûr, nous aurons le smêmes résultats si nous employons n’importe quelles
estimation convergente de σu .
Dans cet exemple, l’estimation mixte ne prête pas trop à contreverse.
C’est simplement un moyen pratique de prendre en compte les estimations
préalables lorsque l’on utilise un nouvel ensemble de données. Dans le cas des
retards échelonnés, par contre, l’information a priori sur β ne provient pas
d’une estimation préalable. Au lieu de cela, c’est un ensemble de contraintes
stochastiques, que Shiller appela une information a priori de régularité parce
qu’il reflète la croyance qui veut que les coefficients βj d’un retard échelonné
devraient varier sans à-coups en fonction de j. Ces contraintes peuvent
19.3 Retards Échelonnés 679
paraı̂tre raisonnables au chercheur, mais elles ne se basent pas sur les données.
Dans le cas général, on peut écrire les contraintes stochastiques comme
(RSSR − USSR)/r
.
USSR/(n − k)
Ainsi ce modèle corrige une défaillance majeure que nous avions déjà re-
marquée dans les modèles à retards échelonnés: yt dépend maintenant au-
tant des valeurs retardées de l’aléa ut que des valeurs retardées des variables
exogènes Xt . Notons que la solution de (19.19) repose sur l’hypothèse que
|δ| < 1, qui est une condition de stationnarité pur ce modèle.
Le modèle d’ajustement partiel n’est qu’un des nombreux modèles éco-
nomiques que l’on peut utiliser pour justifier la prise en compte d’un ou de
plusieurs retards des variables dépendantes dans la fonction de régression.
Dhrymes (1971) et Hendry, Pagan, et Sargan (1984) discutent de nombreux
autres modèles. Nous n’essaierons pas de discuter de ces derniers. Par contre,
nous nous concentrerons sur quelques résultats d’ordre général qui peuvent
survenir lorsque l’on tente de spécifier et d’estimer des modèles de régression
dynamiques.
Un problème qui se manifeste chaque fois que la matrice X contient
des variables dépendantes retardées est que les OLS ne produisent pas des
estimations sans biais. Ce problème survient parce que X est une matrice
stochastique, dont certains éléments sont corrélés à quelques éléments de u.
Ainsi ¡ ¢ ¡ ¢−1
E (X>X)−1X>u 6= X>X X>E(u).
Le meilleur moyen d’apercevoir ce problème est de considérer un exemple très
simple. Supposons que
yt = βyt−1 + ut , |β| < 1, ut ∼ IID(0, σ 2 ). (19.20)
L’estimation OLS de β est
Pn
t=2 yt yt−1
β̂ = P n 2
. (19.21)
t=2 yt−1
Si l’on substitue (19.20) au numérateur de (19.21), on obtient
Pn 2
Pn Pn
β t=2 yt−1 + t=2 ut yt−1 t=2 ut yt−1
β̂ = Pn 2
=β+ P n 2
. (19.22)
t=2 yt−1 t=2 yt−1
Ici A(L, β) et B(L, γ) désignent les polynômes des opérateurs retards avec
les coefficients respctifs β et γ. Parce qu’il y a p retards sur yt et q retards
sur xt , on appelle quelquefois ces modèles les modèles ADL(p, q). S’il y a
des variables dépendantes additionnelles, ce qui sera en réalité le cas le plus
fréquent, elles apparaı̂tront en tant que régresseurs additionnels dans (19.23).
Un cas particulièrement simple de (19.23), mais largement répandu, est
le modèle ADL(1, 1)
Parce que la plupart des résultats qui sont vrais pour le modèle ADL(1,1)
sont également vrais, compte tenu de certaines modifications évidentes, pour
le modèle plus général ADL(p, q), nous bornerons notre discussion au cas
particulier la plupart du temps.
de nombreux modèles pour séries temporelles que l’on rencontre couram-
ment sont des cas spéciaux du modèle ADL(1, 1). Un modèle de régression
684 Modèles de Régressions pour Données Chronologiques
y ∗ = α + β1 y ∗ + γ0 x∗ + γ1 x∗.
Ici ∆ est l’opérateur des différences premières: ∆yt ≡ yt −yt−1 . Dans (19.30),
λ est la paramètre défini dans (19.25). Le fait que (19.24) puisse être écrit
sous différentes formes sans changer les estimations par moindres carrés est
souvent très partique. Par exemple, si l’on s’intéresse à la somme des γi , les
19.4 Modèles de Régression Dynamiques 685
C’est simplement une régression linéaire, dans laquelle yti dépend d’une con-
stante et des retards 1 à p des m variables du système. Ainsi (19.31) prend
la forme d’un système SUR (Section 9.8).
Parce qu’exactement les mêmes variables apparaissent dans le membre
de droite de (19.32) quel que soit i, les estimations OLS pour chaque équation
sont identiques aux estimations GLS pour (19.31) prises ensembles. Cela est
une consdéquence du Théorème de Kruskal, ainsi que nous l’avons démontré à
la Section 9.8. Ainsi il est très aisé d’estimer une VAR: on applique simplement
les OLS à chaque équation de façon isolée. l’estimation est très rapide siu
le logiciel utilise le fait que chaque équation implique exactement le même
ensemble de régresseurs.
L’usage des modèles VAR fut préconisé, notemment par Sims (1980),
comme un moyen d’estimer des relations dynamiques entre des variables en-
dogènes jointes sans avoir à imposer de fortes contraintes préalables. Des
articles empiriques fondés sur cette approche furent écrits par Litterman et
Weiss (1985) et Reagan et Sheehan (1985). L’avantage principal de cette ap-
proche est que le chercheur n’a pas besoin de décider quelles sont les variables
19.5 Autorégressions Vectorielles 687
endogènes. De plus, tous les problèmes associés aux modèles d’équations si-
multanées sont contournés parce que les VAR ne contiennent aucune variable
courante parmi les régresseurs. D’un autre côté, les VAR tendent à nécessiter
l’estimation d’un grand nombre de paramètres, m + pm2 pour être précis, et,
par conséquent, chaque paramètre individuel a tendance à être souvent estimé
de façon assez imprécise. Nous reviendrons sur ce point plus tard.
Bien que le modèle VAR ne contienne pas de variables courante parmi
les régresseurs, les corrélations contemporaines sont prises en compte de façon
implicite par la matrice Ω. Cette matrice est intéressante à plusieurs titres,
et pas des moindres parce que, si les aléas sont supposés être normalement
distribués, la fonction de log-vraisemblance pour le modèle VAR(p) (19.31),
concentrée par rapport à Ω, est simplement
n ¯ ¯
`(Y, α, Φ1 · · · Φp ) = C − − log ¯Ω(α, Φ1 · · · Φp )¯.
2
Ici Ω(α, Φ1 · · · Φp ) signifie que l’on prend la valeur de Ω qui maximise la log-
vraisemblance conditionnellement à α et aux Φi , et Y représente la matrice
dont la ligne type est Yt . Ce résultat est une application des résultats relatifs
aux fonctions de log-vraisemblance concentrées pour les modèles multivariés
que nous avons dérivés à la Section 9.9;
Il est aisé de voir que Ω(α, Φ1 · · · Φp ) est égale à
n
X
1 ¡ ¢¡ ¢
−
n
Yt − α − Yt−1 Φ1 · · · − Yt−p Φp > Yt − α − Yt−1 Φ1 · · · − Yt−p Φp ,
t=1
où nous avons supposé implicitement que les p observations antérieures à celles
de l’échantillon sont disponibles, ce qui implique que les n observations soient
employées pour l’estimation. Si Ût désigne le vecteur ligne à m éléments des
résidus OLS pour l’observation t, alors
n
X
1
Ω(α̂, Φ̂1 · · · Φ̂p ) ≡ Ω̂ = −
n
Ût>Ût .
t=1
2
Les propriétés des différents tests de causalité, incluant celui-ci, furent étudiées
par Geweke, Meese, et Dent (1983).
19.6 L’Ajustement Saisonnier 689
.... ...
11.25 . .. ....
. .... ... ..... .
......
... . . .
.... ....... ... .... ... .... ...... ... .... ... .... .......... ... ....
. . . . . . . . .
.. ...... .. .... .. .... .. ... .. ... .. ... .. ... .. .... .. . .. ...
11.00 .... ....... ....... ... .... ... .... ... .... ... .... ... .... ... .... ... .... ....... ... .... ...... ... ....
. . . . . .
........... .. ... .. ... .. ... .. ... .. ... .. ... .. ... .. ... .. ... .. .... .........
. . . . ... .... . .. . .
... .. .... ... .... ... .... ... .... ... .... ... ....... .... ... ....... .... ... ....... .... ... .... ......
. ......
. .. ..... ...
.
. .... .
. .. . ... . ... . ... . ... . .... ... . .... ... . .... .. . ... .. .... .. .... .. .. ..
... ....... .... ... .... ... ....... ....... ...... .... ... ...... ....... . .... ... .... ...... ... .... . .......... .. ......
.
10.75 . .... ... . ... . .... ... .. ... .. . ..... .. . .. . .. . .. . .. . .. . ...
... ...... .... ... .... ... ...... ...... .. . .
. .
.. . .. . .. . ..
. . . . . . . .. ....
. .. .... ... ....
.
.. . ... .. . .. . .. . .. . .
. .. ... .. ..... .. . .. .
.. . ...
..
... .. . .. . ..
... .. . .. . .. .. .... ....... ... .... ...
... ... . ... .
.. . . .. . . . . .
... ... . ... . ... .. . .... . ... . ......
. . .
. . . .
10.50 .. .. ..... .. . ... .. . ... .. ... . .. . .. . ...
... ... . ... .
.. . . .. .. .. .... .. .... .. .. .. .. .. ....
.. ... .. .... . . .. ... ... .. . . ... .. . .. . ...
.
.... ... . . .
. . ... ... ...... . .... .. . ... . ...
... ... .. .. .. .... .. . .. .. ..
... .... . .
... . .... .. .... .. .... .. .
10.25 .. .... ... .. ... .. .... .....
.... . .
... . . .... ...
... .
.. .. ...
. ...
..
10.00
1969:1 1972:1 1975:1 1978:1 1981:1 1984:1 1987:1
3
Ces données sont issues de la base de données CANSIM des Statistiques Cana-
diennes. Elles correspondent aux logarithmes de la série numéro D2717.
690 Modèles de Régressions pour Données Chronologiques
y = β + Dγ + u. (19.33)
Alors une série y ∗ “ajustée par saison” peut être élaborée comme suit: as
y ∗ ≡ β̂ + û, (19.34)
y ∗ = X∗β + u et (19.35)
y = Xβ + Dγ + u. (19.36)
Ici la première régression utilise des données “ajustées par saison” par la
procédure utilisée en (19.33) et (19.34). La seconde se contente de régresser
les données brutes y sur des données brute X, où X doit contenir une con-
stante ou un regrésseur équivalent, et sur les variables saisonnières muettes D.
Ce résultat semble suggérer qu’il est peu important d’utiliser soit des données
ajustées par saison soit des données brutes et des varaibles saisonnières
muettes correspodant aux saisons. Une telle conclusion est exacte unique-
ment si les données ont été ajustées par saison à l’aide d’une régression.
Il existe de nombreux problèmes concernant l’ajustement saisonnier par
régression. Premièrement, il est clair à partir des résultats standards sur
les résidus des moindres carrés qu’avec des échantillons finis une régression
comme (19.33) réduira la variation dans une trop grande mesure, en at-
tribuant, à tort, la variation des variables saisonnières muettes (Thomas et
Wallis, 1971). En second lieu, s’il existe une tendance croissante dans la série
ajustée, une régression comme (19.33) attribuera à tort une partie de cette
tendance aux variables saisonnières muettes. Par conséquent, l’estimation de
l’effet du premier trimestre sera trop faible, et celle de l’effet du quatrième
trimestre sera trop forte. Une solution évidente consiste à ajouter une ten-
dance à la régression et à la traiter de la même manière qu’une constante.
(Jorgenson, 1964). Cela implique, malgré tout, que X doit inclure une ten-
dance et une constante qsi l’on veut que (19.35) et (19.36) produisent en effet
les mêmes estimations.
Le plus sérieux problème concernant l’approche de la régression et qu’elle
ne permet pas de changement dans l’allure de la saisonnalité à travers le temps.
692 Modèles de Régressions pour Données Chronologiques
La raison qui veut que la tendance doive prendre cette forme relativement
curieuse est que cela garantit toujours la nullité de la somme des variables de
tendance muettes sur la totalité de chaque année, lorsque cette tendance est
multipliée par les variables saisonnières muettes. Si l’on multipliait simple-
ment les variables saisonnières muettes par une tendance ordinaire, cela ne
serait plus le cas.
Le Théorème FWL s’applique aux régressions (19.35) et (19.36) quelle
que soit la manière dont les variables muettes aient été définies. Ainsi on
peut avoir
4
Pour une introduction aux méthodes du domaine de fréquence, consulter Har-
vey (1981). Pour une description de la transformation de Fourier, voir Press,
Flannery, Teukolsky, et Vetterling (1986, Chapitre 12).
694 Modèles de Régressions pour Données Chronologiques
5
Toutes les données furent collectées à partir de la banque de données CANSIM
des Statistiques Canadiennes. Les séries de construction de bâtiments ajustées
et brutes portent les numéro D2717 et D4945. Les séries des dépenses ajustées
et brutes portent les numéros D20131 et D10131.
696 Modèles de Régressions pour Données Chronologiques
de y ∗ sur X∗. Alors les estimations par moindres carrés seront données par
¡ ¢−1
β̃ = X∗>X∗ X∗>y ∗
¡ ¢−1
= X>Φ>ΦX X>Φ>Φy.
Nous voyons que β̃ est simplement un vecteur d’estimations GLS, où la ma-
trice de dimension n × n Φ>Φ joue le rôle de l’inverse de la matrice de
covariance des aléas. Nous concluons donc que la régression OLS suivant
l’ajustement saisonnier pratiqué à l’aide d’un filtre linéaire est équivalent à
une régression GLS, à condition que le même filtre linéaire soit employé pour
toutes les séries. Malheureusement, les procédures d’ajustement saisonnier
ne pratiquent pas ainsi pour toutes les séries (ni quelquefois pour une même
série en différents points du temps). Par conséquent, ce résultat est rarement
applicable. (Wallis, 1974).
Quoi qu’il en soit, il y a un intérêt à discuter des propriétés de β̃. Celles-
ci dépendront à l’évidence de la manière dont on a généré yt . L’une des
possibilités est que
qui implique que n’importe quelle forme de saisonnalité dans y soit rendue
dans sa totalité par la saisonnalité dans les variables indépendantes. Alors
³ ´−1 ³ ´
1 > > 1 > >
plim β̃ = β0 + plim −X Φ ΦX plim − X Φ Φu = β0 . (19.39)
n→∞ n→∞ n n→∞ n
Ainsi, bien qu’il n’y ait aucune raison d’utiliser des données ajustées par saison
dans ce cas, leur présence conserve quand même la convergence des estimations
par moindres carrés. Cependant, le Théorème de Gauss-Markov implique que
ces estimations seront moins efficaces que les estimations OLS qui utilisent
les données brutes. C’est le cas, puisque la procédure d’ajustement saisonnier
réduit la variation des variables indépendantes et elle réduit également la
précision de l’estimation de β. Ce plus, la seconde égalité de (19.39) réclame
que tous les éléments de X soient indépendants de tous les éléments de u,
et elle élimine implicitement la possibilité d’inclure des variables dépendantes
retardées dans la matrice X.
Une seconde possibilité, qui rend l’utilisation de données ajustées par
saison plus attaryante est que le DGP soit
0.30
........
............
........ ............
. ..
0.20 ... ............
.. .... .....
.... .....
..... .....
...... ...... ... n = 400
..... ...... .....
...... ....... .....
........ ........ ........
......................... .....
.
........................ ............... ... ................. ...... . .
..
.
.............................................................................................................. .........
........
.................... ......................... .......
0.10 ........... ......
......... ......
....... ......
n = 50 .
....
....
.....
.....
.
. ..
....
....
....
. .......
......
.....
......
...... ......
..... .....
..... .....
...... .....
..... .....
..... .....
..... .....
0.00 ..... .....
....
....
....
.... ..
......
.
−0.10
−1.00 −0.75 −0.50 −0.25 0.00 0.25 0.50 0.75 1.00
6
La valeur courante de la série brute est associé au poins 0.84. Les 12 valeurs de
retard et d’avance sont associées aux poids 0.08, 0.07, 0.06, −0.16, 0.05, 0.05,
0.04, −0.12, 0.03, 0.03, 0.02, et −0.08. Les valeurs particulières de cas poids
n’ont pas affecté les résultats qualitatifs.
19.7 Modéliser la Saisonnalité 699
le bas dans une large mesure, avoisinant en moyenne entre 87% et 92% de
sa véritable valeur. Par contre, lorsque le modèle exact (19.41) est estimé
à l’aide des données brutes, l’estiamtion de σ est pratiquement sans biais,
comme prévu. Ces résultats convergent vers les résultats obtenus par Plosser
(1979a), qui trouva que les modèles estimés avec des données ajustées par
saison possèdent toujours des variances de résidus plus faibles que celes cor-
respondant aux modèles estimés avec les données brutes. Quoi qu’il en soit,
Plosser trouva que les prévisions fondées sur ces derniers seront plus fines
que celles fondées sur les premiers. Ces conclusions suggèrent que l’on ne de-
vrait jamais choisir un modèle basé sur les données ajustées par saison plutôt
qu’un modèle basé sur les données brutes simplement parce que les premiers
semblent s’ajuster un peu mieux.
L’usage des données ajustées par saison dans les travaux économétriques
appliqués est très répandu, et il est en vérité quelquefois difficile de l’éviter.
Cependant les résultats exposés dans cette section suggèrent que cette attitude
peut souvent être imprudente. Même pour des modèles statiques, il est prob-
able que des problèmes surgissent si les procédures officielles d’ajustement
saisonnier utilisent en réalité des filtres différents. Pour les modèles dy-
namiques la non convergence potentielle provenant de l’utilisation de données
ajustées par saison paraı̂t très marquée. Dans la prochaine section, nous
discuterons par conséquent des approches variées de la spécification et de
l’estimation des modèles qui emploient des données qui ne sont pas ajustées
par saison.
qui est l’analogue d’un processus AR(2) consacré à des données non saison-
nières.
Dans de nombreux cas, les aléas peuvent manifester à la fois de la
corrélation saisonnière et de la corrélation non saisonnière. Cela suggère que
l’on peut combiner un processus saisonnier avec un processus qui ne l’est pas.
Supposons, par exemple, que l’on veuille combiner un processu AR(1) avec
un processus AR(4) simple. Une approche ferait combiner ces deux processus
de façon additive, produisant
Une seconde approche ferait combiner ces deux processus de façon multiplica-
tive, comme dans
Aussi bien (19.44) que (19.45) paraissent probables, et il n’existe aucune raison
majeure a priori de préférer l’un à l’autre.
A l’évidence, un grand nombre de processus AR et ARMA différentes
pourraient être employés pour modéliser la variaiton saisonnière de l’aléa
dans un modèle de régression. Il existe une littérature très développée sur
les processus ARMA saisonniers; consulter, parmi d’autre auteurs, Box et
Jenkins (1976), Harvey (1981), et Ghysels (1991). Cependant, l’intérêt que
représentent de tels processus pour modéliser la saisonnalité n’est pas de tout
immédiat. D’un côté, ils offrent généralement une façon assez économe de
le faire; par exemple (19.42) n’emploie qu’un seul paramètre additionnel, et
(19.13) n’en a que deux. De plus, il est certainement exact que si un modèle
de régression ne rend pas compte de façon adéquate de la saisonnalité, la
corrélation sérielle d’ordre quatre se manifestera nécesairement. Alors le test
de cette corrélation fournit souvent un test diagnostique utile. Mais, de même
que la corrélation en série à l’ordre un ne signifie pas que les aléas obéissent en
vérité à un processus AR(1), la corrélation en série à l’ordre quatre ne signifie
pas non plus qu’ils obéissent à un processus AR(4).
L’énorme difficulté relative aux processus ARMA saisonniers est qu’ils
ne peuvent pas saisir l’un des caractéristiques importantes de la saisonnalité,
en l’occurrence le fait que des saisons différentes de l’année possèdent des
particularités différentes: l’été n’est pas simplement l’hiver avec un nouveau
nom. Mais en ce qui concerne un processus ARMA, l’été est juste l’hiver
avec un nom différent. Si les aléas obéissent à un schéma saisonnier partic-
ulier au début de l’échantillon, alors il est assez probable qu’ils obéissent au
même schéma l’année suivante. Mais pour un processus ARMA stationnaire,
l’influence des conditions initiales tend vers zéro lorsque le temps passe. Ainsi
il n’y a aucune raison de croire que le schéma saisonnier 10 ou 20 ans après le
début de l’échantillon possèdera une quelconque ressemblance avec le schéam
d’origine. En fait, pour T suffisamment élevé, les espérances de uT , uT +1 ,
uT +2 , et uT +3 conditionellement à u1 , u2 , u3 et u4 sont toutes (presque) nulles.
Alors l’utilisation d’un processus ARMA pour modéliser la saisonnalité im-
plique l’hypothèse que tout schéma de saisonnalité particulier est transitoire;
dans le long terme, tout schéma est envisageable. Cela nous entraı̂ne à croire
que l’on utilisera sûrement pas le schéma saisonnier ARMA pour modéliser
le schéma saisonnier d’un objet tel que le prix des framboises, puisque le
702 Modèles de Régressions pour Données Chronologiques
modèle serait incapable d’expliquer que le prix a toutes les chances d’être
inhabituellement élevé au milieu de l’hiver ou lors de la récolte. Un moyen
évident de contourner ce problème serait d’inclure des variables saisonnières
muettes dans le modèle. Les variables saisonnières muettes permettraient
aux différentes saisons d’être naturellement différentes, alors que le processus
ARMA saisonnier permettrait au schéma saisonnier d’évoluer dans le temps.
19.8 Conclusion
Dans ce chapitre, nous avons vu un certain nombre de problèmes qui appa-
raissent fréquemment lorsque l’on tente d’estimer des modèles de régression
à l’aide de données temporelles. Dans la majeure partie du chapitre, nous
avons supposé que toutes les séries sont stationnaires, ou I(0), de sorte que l’on
peut employer des méthodes d’estimation classiques et la théorie asymptotique
standard. Pour de nombreuses séries cependant, cette hypothèse peut être en-
freinte à moins de prendre les différences premières avant l’estimation. Mais
comment sait-on qu’une opération des différences premières est nécessaire?
Dans le chapitre qui suit, nous discutons de la manière de répondre à cette
question, et il nous permet d’aborder des thèmes importants qui lui sont rat-
tachés.
Termes et Concepts
retards d’Almon modèle d’ajustement partiel
modèles ADL(p, q) et modèles modèle PDL(q, d)
ADL(1, 1) retard échelonné polynomial (PDL)
modèle autorégressif à retard marche aléatoire, avec ou sans dérive
échelonné (ADL) procédure d’ajustement saisonnier
modèle dynamique basée sur la régression
forme à correction d’erreur (d’un saisonnalité
modèle ADL) données ajustées par saison
terme de correction d’erreur modèle ADL saisonnier
poids filtrant processus AR saisonnier
opérateur de la différence première variation saisonnière
causalité au sens de Granger dans les informations a priori de régularité
VAR régression erronée
variables intégrées contraintes stochastiques
variables I(0) et I(1) variable à tendance stationnaire
filtre linéaire modèle à vecteur autorégressif
estimation mixte processus VAR(p)