Beruflich Dokumente
Kultur Dokumente
La Régression de Gauss-Newton
6.1 Introduction
On associe au modèle de régression non linéaire une régression artificielle
que l’on nomme régression de Gauss-Newton, ou GNR. Nous avons déjà
rencontré une version de la régression de Gauss-Newton; nous l’avons em-
ployée dans la Section 3.6 pour calculer les tests du multiplicateur de Lagrange
pour les modèles de régression non linéaire. Les régressions artificielles sont
tout simplement des régressions linéaires qui sont employées comme système
d’évaluation. Comme nous le constaterons, de nombreux types de modèles
non linéaires en économétrie possèdent des régressions artificielles associées.
La régressande et les régresseurs sont construits délibérément de manière à ce
que lorsque l’on exécute la régression artificielle, certaines valeurs qu’affiche
le programme de régression sont des quantités que l’on désire calculer. De
nombreux résultats donnés par les régressions artificielles peuvent pourtant
n’être d’aucun intérêt. Par exemple, il nous arrive d’exécuter des régressions
artificielles pour lesquelles toutes les estimations des coefficients seront nulles!
On emploie les régressions artificielles pour au moins cinq raisons diffé-
rentes:
(i) pour vérifier que les conditions du premier ordre d’un minimum ou d’un
maximum sont satisfaites avec assez de précision;
(ii) pour calculer les matrices de covariance estimées;
(iii) pour calculer les statistiques de test après qu’un modèle ait été estimé
sous contraintes, sans avoir besoin d’estimer le modèle non contraint;
(iv) pour calculer des estimations efficaces en une étape;
(v) c’est un élément essentiel pour les procédures d’optimisation numériques
dont on fait usage pour chercher les estimations par moindres carrés non
linéaires et d’autres types d’estimations.
Dans le présent chapitre nous discuterons de la manière de faire usage de
la régression de Gauss-Newton pour ces différentes raisons. Puis, lorsque nous
rencontrerons d’autres régressions artificielles, nous verrons qu’elles peuvent
souvent être utilisées exactement de la même manière que la GNR. De fait,
de nombreux résultats que nous obtiendrons dans ce chapitre réapparaı̂tront
176
6.1 Introduction 177
à plusieurs reprises dans les chapitres qui suivront, mais des vecteurs et des
matrices différentes remplaceront ceux que nous utiliserons ici. L’écriture
algébrique (et son interprétation géométrique) sera identique dans tous les cas;
seul le modèle statistique sous-jacent, et par là les définitions de la régressande
et des régresseurs, seront modifiés.
Ainsi que nous l’avons fait dans les chapitres qui précèdent, nous traite-
rons le modèle de régression non linéaire univariée
où X(β) ≡ Dx(β) est une matrice de dimension n × k dont le t ième élément
est la dérivée partielle de xt (β) par rapport à βi . Le vecteur des fonctions,
x(β), et sa matrice de dérivées, X(β), sont supposés satisfaire les conditions
de convergence et de normalité asymptotique que nous avons détaillées dans
les Théorèmes 5.1 et 5.2.
La façon la plus évidente d’obtenir la régression de Gauss-Newton consiste
à calculer le développement en série de Taylor à l’ordre un de (6.01) autour
d’un quelconque vecteur de paramètres β ∗. Cela donne
où les variables zt1 et zt2 sont des régresseurs exogènes, qui est linéaire condi-
tionnellement à β4 . Il est parfois pratique d’estimer de tels modèles en faisant
abstraction de l’unique paramètre qui engendre la non linéarité, dans ce cas,
β4 , et de calculer les autres paramètres avec une procédure de moindres carrés
ordinaires conditionnellement à chaque valeur de β4 . On exécute ensuite la
GNR pour savoir si, oui ou non, l’approximation de β̂ qui en résulte est assez
précise, ce qui, dans le cas de (6.05) donne
β̂4
yt − β̂1 − β̂2 zt1 − β̂3 zt2
(6.06)
β̂4 β̂4
= b1 + b2 zt1 + b3 zt2 + b4 β̂3 (log zt2 )zt2 + résidu.
Si les Students de b̂1 , b̂2 , b̂3 et b̂4 sont tous suffisamment faibles, on peut
accepter le β̂ calculé comme étant suffisamment proche des estimations NLS.
Dans la Section 1.6 nous avons discuté des techniques de détection des
points de levier et des observations influentes dans le contexte des OLS. Dans
le cas d’un modèle de régression non linéaire, il est possible d’appliquer ces
techniques à la GNR (6.03). Le t ième élément diagonal de la matrice chapeau
pour la GNR est
¡ ¢−1
ĥt ≡ X̂t X̂>X̂ X̂t>,
où
(y − x̂)>(y − x̂)
s2 ≡
n−k
est l’estimation OLS de la variance de la régression, à la fois de la régression
artificielle et de la régression non linéaire originelle (6.01). Parce que la GNR
n’a aucun pouvoir explicatif, ces deux régressions possèdent exactement les
mêmes résidus.
Il est évident que s2 est une estimation convergente de σ02 , et puisque β̂
est une estimation convergente de β0 , n−1X̂>X̂ doit être une estimation con-
vergente de n−1X0>X0 ; voir Section 5.7. Ainsi, à l’évidence, il est raisonnable
de faire usage de (6.08) pour estimer la matrice de covariance de β̂ − β0 . La
matrice de covariance de b̂ qu’affiche d’habitude le programme de moindres
carrés offrira une estimation tout à fait correcte, et facilement calculable, de la
matrice de covariance des estimations NLS. Particulièrement lorsque β̂ a été
estimé par une tout autre méthode que celle des moindres carrés non linéaires
(souvenons-nous du modèle (6.05) et de la GNR associée à (6.05)), la GNR
(6.03) présente un moyen extrêmement simple de calculer une estimation de
la matrice de covariance de β̂.
Dans le cas non linéaire, il n’est pas évident qu’il faille utiliser s2 plutôt
qu’un autre estimateur convergent de σ 2 . L’estimateur le plus simple est
1
σ̂ 2 = −
n
(y − x̂)>(y − x̂),
y − Xβ̂ = MX u.
Alors le fait que s2 soit un estimateur non biaisé de σ 2 pour les modèles de
régression linéaire suggère que, pour les échantillons de grande taille, s2 soit
également non biaisé pour les modèles non linéaires et sûrement plus approprié
que σ̂ 2.
Malheureusement, tous les programmes de moindres carrés non linéaires
n’utilisent pas s2. Une raison d’exécuter la GNR (6.03) est de voir si la ma-
trice de covariance estimée pour β̂ calculée par le programme est réellement
la même que celle obtenue par la GNR. Les deux approches diffèrent du fac-
teur de proportionnalité (n − k)/n, auquel cas il serait judicieux d’utiliser
la plus grande des deux estimations (c’est-à-dire celle donnée par la GNR).
Si elles diffèrent d’une autre façon, il serait souhaitable de se méfier du pro-
gramme de moindres carrés non linéaires, et de conserver la matrice de cova-
riance estimée par la GNR plutôt que celle affichée par le programme. Il y a
cependant une exception possible à ce conseil. Certains progiciels modernes
sont capables d’afficher une estimation de la matrice de covariance robuste
à l’hétéroscédasticité, ou HCCME, au lieu de l’estimation usuelle (qui sup-
pose l’homoscédasticité) dont nous venons de parler; voir Section 16.3. Dans
des cas semblables, il serait sans doute révélateur d’exécuter la GNR et de
comparer les deux estimations des matrices de covariance.
Ainsi, si la matrice Hessienne est quasi singulière, nous pouvons nous at-
tendre à ce qu’il en soit de même pour la matrice X>(β)X(β), pourvu que
ces deux matrices soient évaluées en un point suffisamment proche de β0 .
Nous avons besoin de cette condition parce que (6.10) n’est vérifiée qu’en β0 ,
puisque ce résultat (6.10) dépend du fait que y − x(β0 ) = u0 ; consulter la
discussion qui a précédé (5.38). La continuité de x(β) suggère toutefois que
(6.10) doit être approximativement vraie pour des valeurs de β proches de β0 .
1
Si la matrice X était normalisée de manière à ce que toutes ses colonnes aient
la même longueur — par exemple une longueur unitaire — l’usage du nombre
condition serait pertinent pour déceler la colinéarité de X>X. Voir Belsley,
Kuh, et Welsch (1980, Chapitre 3).
6.3 Colinéarité dans les Régressions non Linéaires 183
yt = β1 + β2 ztβ3 + ut . (6.11)
y − x̂ = X̂b + résidus,
184 La Régression de Gauss-Newton
où x(β) et X(β) sont évalués aux avec les estimations NLS β̂, produit une
estimation valide de la matrice de covariance de β̂ lorsque le DGP est un cas
particulier du modèle qui a été estimé. Il est clair que la GNR
y − x0 = X0 b + résidus, (6.13)
où x(β) et X(β) sont évaluées en β0 , devrait également entraı̂ner une estima-
tion valide de V (β̂), bien qu’en pratique cette régression ne soit pas envisa-
geable parce qu’elle requiert la connaissance du DGP. Quoi qu’il en soit, il est
utile de considérer V (β̂) comme ayant été générée par cette équation. Si l’on
fait abstraction des finesses de l’analyse asymptotique, de façon à éviter la
manipulation des divers facteurs de n, on peut utiliser simplement l’équation
(6.13) pour mettre en lumière le problème de colinéarité dans les modèles de
régression linéaire et dans les modèles de régression non linéaire.
Supposons que l’on porte quelque intérêt à la mesure de l’estimation NLS
d’un élément unique de β, que nous pouvons appeler β1 sans réduire la portée
de l’analyse. Il est toujours possible de partitionner X(β) en [x1 (β) X2 (β)],
où x1 (β) désigne la colonne unique de X(β) correspondant à β1 , et X2 (β)
désigne les k − 1 colonnes restantes. Si l’on ne rapporte pas l’indice “0” par
souci de clarté, la GNR (6.13) devient alors
u = x1 b1 + X2 b2 + résidus.
M2 u = M2 x1 b1 + résidus, (6.14)
x1 = X2 c2 + résidus. (6.15)
(a) (b)
............ 1
x
..........
.. ..
... ...
..... ....
.
... .....
..... ... M2 x1
.....
. ....
..............x1 ....
...................... ........ .... ....
.......... .... .....
............ .. M2 x1 ................. φ .....
.
. ..............
...
........ ..
...
. ..............
.........................................φ
.
............................................................................... ...............................................................................................................................
...
O S(x2 ) O S(x2 )
(c) (d)
........................ ........ β2 ........ β2
... .......
... .......
. .... ....
......
...
... ..... .... ....
.... ..... .. ....
.... ..... ...
.... ......
... .. .
.. ......... .....
.... .
............. ... ... .......
....
.... ..... . . .. .....
... . .
.
. . .. . .... B .........
.
...................................................O ................................................A
.
..........................................................................................
.
......................................................................
A.
. ..... ... ....
.... .. β1 ...... O ... .. ... β1
..... ..
....... .... B ..... ..
.......... .
...
...... .... . . .
.. .
...
...
... ..... ....
.... .... .......
.... ......... ....
. ....
.... ...... ... ....
....... ...
... ....... ...
........ .....
...............
de β̂1 deviendra faible. Ces deux cas ont été illustrés dans la Figure 6.1, pour
le cas où il n’y a que deux régresseurs. Il faudrait comparer cette figure à la
Figure 3.3, car pour l’essentiel les mêmes résultats apparaissent dans les deux
figures, puisque la longueur de l’intervalle de confiance d’un paramètre donné
est proportionnel à la racine carrée de la variance estimée de ce paramètre.
Le régresseur x2 , qui représente sur la figure tous les régresseurs autres
que le régresseur x1 qui nous intéresse, est le même de chaque côté de la
figure. D’autre part, le régresseur x1 est orienté différemment par rapport à
x2 sur les deux parties. Pour simplifier les deux régresseurs sont de même
longueur et la seule variable est l’angle φ, qu’ils forment ensemble. Dans le
schéma (a) en haut à gauche, x2 explique x1 relativement bien, alors l’angle
φ et la somme des résidus au carré de (6.15) sont relativement faibles. Cette
dernière est le carré de la longueur du vecteur de résidus M2 x1 . Dans le
schéma (b), x2 explique beaucoup moins bien x1 , de sorte que l’angle φ et la
SSR de (6.15) sont assez importants. Clairement le degré de colinéarité entre
x1 et x2 est plus fort lorsque φ est faible, ou de façon équivalente, lorsque x2
explique bien x1 .
Dans les schémas (c) et (d), nous avons représenté les ellipses et intervalles
de confiance pour β̂1 correspondant aux régresseurs illustrés dans les schémas
(a) et (b). Pour simplifier, nous les avons représentés dans le cas β̂ = 0:
186 La Régression de Gauss-Newton
dans tout exemple réel le seul aspect différent des figures serait l’origine qui
se déplacerait n’importe où, laissant inchangées les tailles et les positions
relatives des autres éléments. Remarquons que les deux schémas du bas ont
été dessinés à la même échelle. Les intervalles de confiance, qui sont les
segments AB dans la figure, sont donc de longueurs très différentes. Comme
nous l’avons expliqué à la Section 3.3, un plus haut degré de colinéarité fait
apparaı̂tre une région de confiance elliptique de plus grande excentricité, et
cela se voit aisément sur la figure. Pour la situation dépeinte, dans laquelle
seul l’angle φ varie, il peut être montré que l’aire de l’ellipse de confiance et la
longueur de l’intervalle de confiance de β̂1 sont inversement proportionnelles
à sin φ. Par conséquent, si φ tend vers zéro, et si les deux régresseurs se
rapprochent en devenant colinéaires, la longueur de l’intervalle de confiance
tend vers l’infini. Cela, bien évidemment, ne fait que refléter le fait que la
variance de β̂1 tend vers l’infini lorsque φ tend vers zéro.
Le phénomène de colinéarité se manifeste lorsqu’une ou plusieurs colonnes
de X sont extrêmement bien expliquées par les colonnes restantes, et lorsque
les estimations des paramètres associés à ces colonnes sont très imprécises.
Un moyen très simple de caractériser la présence ou l’absence de colinéarité,
étant donné qu’elle affecte l’estimation du paramètre unique β1 , est de con-
sidérer le rapport de x1>M2 x1 par x1>Mι x1 , où Mι ≡ I − ι(ι>ι)−1 ι> est la
matrice qui opère la déviation par rapport à la moyenne (comme d’habitude,
ι désigne un vecteur composé de n uns). Le numérateur de ce rapport mesure
la variation de x1 qui n’est pas expliquée par la variation de X2 , tandis que le
dénominateur mesure la variation de x1 autour de sa moyenne. Si ce rapport
est très faible, la colinéarité peut se révéler être un problème.
Lorsqu’un modèle est insuffisamment identifié pour une quelconque valeur
de β, disons β ∗, la régression de Gauss-Newton manifestera de façon systé-
matique un niveau important de colinéarité lorsqu’elle est évaluée en β ∗. Si
l’on éprouve quelques difficultés à obtenir des estimations NLS, ou si l’on
n’a pas encore débuté l’estimation d’un modèle et que l’on s’attend à ren-
contrer quelques obstacles, il peut devenir très utile de savoir si, oui ou non,
la régression de Gauss-Newton est en proie à un phénomène conséquent de
colinéarité pour des valeurs plausibles des paramètres. Si c’est effectivement
le cas, alors le modèle est sûrement insuffisamment identifié par les données,
et il peut donc s’avérer impossible d’obtenir des estimations d’une précision
satisfaisante de ce modèle avec cet ensemble de données, ou même de localiser
le minimum de SSR(β) (voir Section 6.8).
Que faire lorsque l’on est confronté à un modèle de régression non linéaire
qui est insuffisamment identifié? Il y a fondamentalement deux options qui se
présentent: recueillir davantage de données, ou estimer un modèle plus simple,
peut-être le modèle originel après lui avoir imposé quelques contraintes. S’il
s’avère irréalisable de recueillir davantage de données, alors il faut accepter
l’idée selon laquelle les données dont on dispose contiennent une quantité
limitée d’informations, et adapter le modèle à la situation. L’estimation de
6.4 Tests de Contraintes 187
modèles qui se révèlent trop complexes est une des erreurs les plus fréquentes
chez les économètres inexpérimentés. Un modèle tel que (6.11), par exemple,
requiert un nombre important de données, et sera sans doute très difficile à
estimer avec de nombreux ensembles de données. Il ne sera possible d’obtenir
des estimations précises de β2 et β3 pour ce genre de modèle que si le nombre
d’observations est très important et/ou le champ de zt est très étendu.
de sorte que c’est H0 qui a généré réellement les données. La matrice X(β)
peut être partitionnée en deux, X1 (β) et X2 (β), correspondant à β1 et β2 ,
et de dimensions respectives n × (k − r) et n × r.
Il n’est pas évident que toutes les contraintes d’égalité puissent être con-
verties en des contraintes de nullité à l’aide d’une reparamétrisation adéquate.
Dans la Section 3.6 par exemple, nous considérons les contraintes linéaires du
type Rγ = r, où R est une matrice de dimension r × k et r est un vecteur
à r composantes. Ici γ désigne le vecteur à k composantes sur lequel portent
188 La Régression de Gauss-Newton
les contraintes; nous ferons usage de β pour désigner une paramétrisation al-
ternative pour laquelle toutes les contraintes sont des contraintes de nullité.
Pour cette paramétrisation la matrice R prend la forme [0 Ir ], et le vecteur
r est composé de zéros. Ainsi il apparaı̂t que
Rγ − r = 0 = [0 Ir ]β, (6.16)
où γ et β désignent les vecteurs de paramètres dans deux paramétrisations
différentes. Evidemment on peut associer βi à γi pour i = 1, . . . , k − r, alors
que dans l’équation (6.16) il apparaı̂t que
k
X
βi = Rij γj − ri
j=1
où M̃1 est la matrice qui projette sur S⊥ (X̃1 ). La régressande n’est pas ici
multipliée par M̃1 parce que les conditions du premier ordre impliquent que
y − x̃ se situe déjà dans S⊥ (X̃1 ), de sorte que M̃1 (y − x̃) = (y − x̃). La
somme des résidus au carré de la régression (6.18) est
¡ ¢−1
(y − x̃)>(y − x̃) − (y − x̃)>X̃2 X̃2>M̃1 X̃2 X̃2>(y − x̃).
1 > −1
ν V ν.
σ02
(RSSR − USSR)/r
(6.20)
USSR/(n − k)
¡ ¢−1
(y − x̃)>X̃2 X̃2>M̃1 X̃2 X̃2>(y − x̃)/r
=¡ ¡ ¢−1 ¢ .
(y − x̃)>(y − x̃) − (y − x̃)>X̃2 X̃2>M̃1 X̃2 X̃2>(y − x̃) /(n − k)
Le dénominateur est ici l’estimation OLS de σ 2 de (6.17), qui tend vers σ02
lorsque n → ∞ sous H0 . Le numérateur est 1/r fois l’expression (6.19). Ainsi,
il est clair que r fois (6.20) sera distribuée asymptotiquement selon une χ2 (r).
Avec des échantillons finis, la comparaison entre (6.20) et la distribution
de F (r, n − k) est aussi correcte que la comparaison entre r fois (6.20) et la
distribution du χ2 (r). En fait, il est évident que le Fisher (6.20) possède de
meilleures propriétés en échantillons finis que la statistique nR2 basée sur la
même régression de Gauss-Newton; consulter Kiviet (1986). Cette évidence
va dans le même sens que la théorie, parce que, comme nous l’avons vu,
a
û = M0 u. Aussi l’usage de la distribution F , qui considère l’estimation
s2 basée sur les résidus NLS comme si elle était basée sur les résidus OLS,
est plus pertinent que l’usage de la distribution χ2 , qui traite σ̂ 2 comme
étant basée sur les aléas au lieu des résidus. Sur la base de la théorie et
de l’évidence d’une part, et de la commodité de l’usage d’un test qui aurait
la même forme pour les régressions de Gauss-Newton comme pour d’autres
régressions plus authentiques d’autre part, nous conseillons donc l’usage d’un
test en F plutôt qu’un test en nR2 ou qu’un test numériquement comparable
basé sur la régression (3.49).
L’expression (6.20) peut se simplifier en notant que c’est tout simplement
(n − k)/r fois le ratio des longueurs au carré de deux vecteurs
Le numérateur est la longueur au carré du vecteur PM̃1 X̃2 (y − x̃), qui est
le vecteur de résidus y − x̃ projeté sur S(M̃1 X̃2 ). Le dénominateur est la
longueur au carré du vecteur MX̃ (y − x̃) = MM̃1 X̃2 (y − x̃), qui est le vecteur
de résidus projeté en dehors de S(X̃) = S(X̃1 , X̃2 ). La géométrie du test en F
dans ce cas est identique à la géométrie du test en F dans un cas de régression
linéaire, dont nous avons déjà discuté à la Section 3.5. La seule différence est
que X̃1 et X̃2 sont des fonctions de l’estimation contrainte β̃.
192 La Régression de Gauss-Newton
Nous avons démontré à la Section 3.5 que, pour les modèles de régression
linéaire, le Student portant sur l’hypothèse que la valeur d’un unique para-
mètre est nulle est numériquement égal à la racine carrée d’un Fisher por-
tant sur la même hypothèse nulle. Puisqu’il s’agit d’un résultat numérique,
il est valable pour les régressions artificielles autant que pour les véritables
régressions. Alors lorsque b2 est un scalaire, le Student portant sur b̃2 à partir
de la GNR (6.17) est aussi valable que toutes les autres statistiques de test
dont nous avons déjà parlé.
Pourquoi la régression des résidus du modèle contraint sur les dérivées de
x(β) nous permet-elle de calculer des statistiques de test valides? Pourquoi
avons-nous besoin de comprendre toutes les dérivées, et pas seulement celles
correspondant aux paramètres qui sont contraints? La discussion que nous
avons tenue plus haut fournit des réponses formelles à ces questions, mais
peut-être pas celles qui sont intuitivement plaisantes. Considérons donc
l’importance d’un point de vue légèrement différent. A la Section 5.7, nous
montrions que les statistiques de Wald, LR et LM pour tester le même ensem-
ble de contraintes sont asymptotiquement égales à la même variable aléatoire
sous l’hypothèse nulle, et que cette variable aléatoire est asymptotiquement
distribuée selon une χ2 (r). Pour les modèles de régression non linéaire que
nous avons traités, la statistique LR est simplement la différence entre SSR(β̂)
et SSR(β̃), divisée par n’importe quelle estimation convergent de σ 2. Pour
voir pourquoi la statistique LM est valide et pourquoi la GNR doit inclure les
dérivées par rapport à tous les paramètres, nous allons envisager la statistique
LM basée sur la GNR comme une approximation quadratique de cette statis-
tique LR. Et cela a un sens parce que la GNR est elle-même une approximation
linéaire du modèle de régression non linéaire.
Une façon de considérer la régression de Gauss-Newton est d’imaginer que
c’est un moyen d’approximer la fonction SSR(β) par une fonction quadratique
qui possède les mêmes dérivées premières et secondes au point β̃. Cette
fonction quadratique approximée, que nous nommerons SSR ∗ (β̃, b), est tout
simplement la fonction somme des carrés de la régression artificielle. Elle se
définit comme
SSR ∗ (β̃, b) = (y − x̃ − X̃b)>(y − x̃ − X̃b).
La somme des carrés expliqués de la GNR correspond précisément à la diffé-
rence entre SSR(β̃) et SSR ∗ (β̃, b̃). Si β̃ est relativement proche de β̂, SSR ∗ (·)
doit fournir une bonne approximation de SSR(·) au voisinage de β̂. En fait,
pourvu que les contraintes soient exactes et la taille de l’échantillon suffisam-
ment importante, β̃ et β̂ seront proches l’un de l’autre parce qu’ils sont tous
les deux convergents pour β0 , de sorte que SSR ∗ (·) doit fournir une bonne ap-
proximation de SSR(·). Ainsi SSR ∗ (β̃, b̃) sera proche de SSR(β̂) et la somme
des carrés expliqués de la GNR sera par conséquent une bonne approximation
de SSR(β̃) − SSR(β̂). Lorsque nous divisons la somme des carrés expliqués
par une estimation convergente de σ 2, la statistique de test LM qui en découle
doit donc être similaire à la statistique de LR.
6.4 Tests de Contraintes 193
β2 B
........................................................
...................................... ..................
..........
..................... ..............
........ ... ...........
. ...
... ... ............................................... .........
...
. ..... ............. .......................... .......
...
. ..
......
.....
..
.. .......... .
......... .....
... .. . ... ..... .. .....
.... .......................... .
. ... .. ....
... .... ................. ......... .......
.. ... . ..... ..... ... ...
....
.
.....
.
....... ... ... ...
...
.. . . .
.
. .
.
... .
.
... .
... • (β̂1 , β̂2 )... . . .
... ... .... .. .... ...
.
... .... .. ........... .... .. .
.
.... ..... ................................................................. .....
... ..
.
....
.....
......
........... ......
... ..... ..
......
................ .... ..
......
....... ................................................................................... ......
...........
.............
• .........
.........
.................
............................. (β̃1 , 0) ............................. β1
.........................................................................
Il doit être clair désormais que la GNR doit inclure autant X̃1 que X̃2 .
Si ce n’était pas le cas, la GNR ne minimiserait pas SSR ∗ (β̃, b), mais plutôt
une autre approximation de SSR(β),
Bien que SSR ∗ (·) offre normalement une approximation raisonnablement satis-
faisante de SSR(·), SSR ∗∗ (·) n’en fera pas de même, puisqu’elle ne dispose pas
d’un nombre suffisant de paramètres libres. Lorsque l’on minimise SSR ∗∗ (·),
cela n’est possible que dans les directions qui correspondent à β2 mais pas
dans les directions qui correspondent à β1 . SSR ∗∗ (·) ne sera satisfaisante que
dans le cas où les contours de SSR(·) forment approximativement une ellipse
dont les axes sont sensiblement parallèles aux axes de β1 et β2 , de sorte que β̂ 1
et β̃1 soient très proches. Dans les autres cas de figure, le minimum de SSR ∗ (·)
peut être très différent du minimum de SSR ∗∗ (·), et les valeurs correspondant
au minimum de chaque fonction peuvent aussi être différentes.
Ceci est illustré sur les Figures 6.2 et 6.3 dans le cas où k = 2 et r = 1.
Dans la première figure, les vecteurs x̃1 et x̃2 sont orthogonaux, et les axes
de l’ellipse formée par les contours de SSR(·) sont précisément parallèles aux
axes des abscisses et des ordonnées. Dans cette situation le minimum de
SSR ∗∗ (β̃1 , b2 ), qui doit se situer sur la ligne AB, coı̈ncide avec le minimum
de SSR(β1 , β2 ) au point (β̂1 , β̂2 ). Dans la Figure 6.3 x̃1 et x̃2 sont corrélés
négativement de sorte que les axes de l’ellipse formée par les contours de
SSR(·) sont inclinés vers le haut à droite. Dans cette situation le minimum
de SSR ∗∗ (β̃1 , b2 ), qui une fois de plus doit se situer sur la ligne AB, est à
l’évidence très différent du minimum de SSR(β1 , β2 ).
A l’évidence, le minimum de SSR ∗∗ (·) ne peut être inférieur, et sera nor-
malement supérieur au minimum de SSR ∗ (·). Ainsi, si l’on omettait par inad-
vertance X̃1 dans la GNR et si l’on calculait nRu2 ou une des autres valeurs
de la statistique de test équivalente, nous obtiendrions une statistique de
194 La Régression de Gauss-Newton
......................................
β2 A .............. .....
. ................. ...
.
. .. ...... ....... . . .. . .... ... .
......... .. . ...
...
...
...
. .... ........ .. ..... ..
. .... . ...... .
. . ... ..
. ..
.
.... ........ . ...
. ...
.
.. . .
. ..... . .............. .. . .. . . .
. .
..
.
.... .....
. ....... ....
... ...
....... ...
....... ....... ......... .. .... .....
. . .. . .
.... .... .... ... ... ...
.. ... ..... ...... .
. ... .... .....
.
... ... ...
. • ..................................................................................................... (β̂1 , β̂2 )
..... ..... ...
. .... ... ..
.
.
... ... .... ....
. . ........ ....... .......
(β̃1 , b̃2 ) .................................................................•.....
.. .
..... ......... .......
. . ....... ................... .
.... .... ............ ..... .....
.... ... . ... ..... .........
... .... .......
... ..... .......
...
... .............................................. ..........
... •.......... ......
..... ....... .............. β1
.......... ............
..
................................ ... ... ..
(β̃1 , 0)
B
et si Z(β) était une matrice construite de sorte que, si le modèle était ex-
act, n−1 Z0>u tendrait vers un vecteur nul, il nous serait toujours possible
d’effectuer la GNR
ũ = X̃b + Z̃c + résidus (6.23)
et de calculer un test en F pour c = 0 ou une des statistiques de test
équivalente. De manière implicite bien sûr, Z̃ doit correspondre à la matrice
X̃2 pour un modèle non contraint quelconque qui comprend (6.22) comme un
cas particulier. Mais il y a des situations pour lesquelles il est naturel de
dériver la GNR (6.23) sans préciser explicitement un tel modèle, pour évaluer
un test diagnostique. De tels tests sont abondamment utilisés lorsque l’on doit
6.5 Tests Diagnostiques pour les Régressions Linéaires 195
estimer un modèle et que l’on désire savoir s’il y a une quelconque évidence
sur le fait qu’il soit mal spécifié. Nous allons rencontrer de tels tests dans la
section qui suit et tout au long du livre.
(RSSR − USSR)/l
, (6.26)
USSR/(n − k − l)
où RSSR et USSR sont respectivement les sommes des résidus au carré de
(6.24) et (6.25). Si la valeur de la statistique de test est forte (et donc le
P associé est faible), nous voudrons rejeter l’hypothèse nulle, et conclure
ainsi que le modèle (6.24) est mal spécifié. Ceci est un exemple de ce que
certains auteurs (dont Pagan (1984a) et Pagan et Hall (1983)) appellent les
tests à variable additionnelle. En français, on parle aussi d’une régression
augmentée.
196 La Régression de Gauss-Newton
MX y = Xb + Zc + résidus, (6.27)
yt = Xt β (1 + θXt β) + ut , (6.29)
Lorsque cette expression est évaluée en β̂, l’estimation OLS sous l’hypothèse
nulle θ = 0, elle se résume à
et ainsi que nous l’avons vu le Student de ĉ dans cette GNR sera identique au
Student de l’estimation de c dans la régression
y − x́ = X́b + résidus,
β̀ = β́ + b́.
x́ ∼
= x0 + X0 (β́ − β0 ),
y = Xβ + u. (6.34)
y − Xβ(γ̂) = X̂ ∗ c + résidus,
Comme d’habitude les estimations en une étape sont γ̀ = γ̂ + ĉ, et elles seront
asymptotiquement équivalentes aux estimations contraintes γ̃, qui seraient de
loin plus coûteuses à obtenir.
Intuitivement, les estimateurs efficaces en une étape basés sur la GNR
sont asymptotiquement équivalents aux estimateurs NLS pour une raison très
semblable à celle que nous avons exposée à la section précédente pour la va-
lidité des tests fondés sur la régression de Gauss-Newton. La GNR réalise
la minimisation de SSR ∗ (β́ + b), qui est une approximation quadratique de
SSR(β) autour de β́. Asymptotiquement, la fonction SSR(β) est quadra-
tique au voisinage de β0 . Lorsque la taille d’échantillon est suffisamment
importante, la convergence de β́ implique que nous prenions l’approximation
quadratique en un point proche de β0 , et ainsi l’approximation coı̈ncidera
asymptotiquement avec SSR(β) elle-même.
Nous pouvons constater ce qu’il advient en considérant la Figure 6.4.
Comme dans les figures de ce genre que nous avons déjà vues (par exemple la
Figure 2.2), k = 1 et nous supposons que x(β) se situe, du moins localement,
dans un sous-espace bi-dimensionnel de Rn, ce qui nous permet de la tracer
sur le papier. C’est délibérément que nous l’avons dessinée avec un fort degré
de non linéarité dans cet espace, en vue de rendre les résultats plus faciles à
200 La Régression de Gauss-Newton
...
.......
.
...
X ...
... ...
.........
.
.
. ....
.......
.
...
...
... ...
.........
.
.
. ....
.......
.. ∗
...
..
... .
..←− S (X́)
.......
.
.
.
.. ..
...
..
. .
....
.......
.
..
..
..
...
.........
.
. ....
..
.......
...
.
...
. . .
..........
.
.......
.
..
...
←− x́ + X́b́
... .......
... .........................
x̂ .
..
....... ....
...... .........
....
....
...... .... .........
...... ............ ........
.
. ....
....... .
.
.....
. .. ...... ....
........
.........
..........
x́ .
........
.
..
.
.. .
....
. ... ......
...... ....
........... .
...... ......
............ .
............... ....
. .
..................................
...
.
.
..
.
. ...
... . ...... .... .
....... ...... ...
...
.........
. ...... ...
..........
.... ........
....... .....
...
.........
. y
...
.......
.......
........
assimiler. La variété X dessine ainsi une ligne fortement incurvée dans Rn. Au
point x́ ≡ x(β́) nous prenons une approximation linéaire, x́ + X́b. Le sous-
espace engendré par les colonnes de X́, translaté de manière à ce qu’il soit
tangent à la variété X en x́, est désigné par S∗ (X́). L’estimation en une étape
implique la projection orthogonale de y sur ce sous-espace, afin d’obtenir une
estimation du coefficient, b́. Nous obtenons à présent l’estimation en une
étape β̀ = β́ + b́. Au contraire, les moindres carrés non linéaires impliquent
la projection orthogonale de y sur X, au point x̂. A l’évidence β̂ et β̀ sont
généralement différents à moins que S∗ (X́) ne coı̈ncide avec X au voisinage
de β́. Mais les estimations NLS et les estimations en une étape n’en sont
pas moins asymptotiquement équivalentes parce que la convergence de x́ im-
plique que, asymptotiquement, il est si proche de x̂ que X ne peut pas être
suffisamment courbée entre les deux points.
Malheureusement le fait que les estimateurs en une étape fondés sur la
GNR soient asymptotiquement équivalents aux estimateurs NLS n’implique
pas que ceux-ci possèdent les mêmes propriétés que ces derniers en échantillons
finis. Souvenons-nous que l’équivalence implique que le DGP soit y =
x(β0 ) + u. Si le DGP n’est pas un cas particulier du modèle, l’équivalence
est caduque. Même dans le cas contraire, un grand nombre de choses dépend
de la qualité de l’estimateur convergent initial β́. Lorsque β́ est proche de
β0 et que l’échantillon a une taille importante, SSR ∗ (β́ + b) devrait se révéler
être une très bonne approximation de SSR(β), et donc β̀ devrait être très
près de l’estimation NLS β̂. D’un autre côté lorsque l’estimation convergente
est éloignée de β0 (et le fait qu’un estimateur soit convergent n’empêche pas
qu’il soit extrêmement peu efficace), les estimations en une étape peuvent
différer fortement des estimations NLS. Lorsque la différence entre les deux
est significative, nous recommanderions l’usage des estimations NLS, bien
qu’en l’absence d’une étude détaillée du modèle en cause, il ne soit pas possi-
6.7 Tests Basés sur une Estimation Convergente 201
ble d’être catégorique sur le choix de l’usage d’un estimateur plutôt que d’un
autre lorsque les deux sont asymptotiquement équivalents. Les estimations
en une étape prennent davantage de sens lorsque la taille de l’échantillon est
importante, ce qui implique que l’estimateur convergent initial est vraisem-
blablement satisfaisant, et aussi que les moindres carrés non linéaires puissent
être coûteux à employer.
où b́ est l’estimation OLS de b dans (6.35) et β̂ est l’estimation NLS non
contrainte. Ainsi β́ + b́ est un vecteur composé des estimations convergentes
en une étape. Puisque β́2 = 0, nous avons
a
n1/2 (b́2 − β20 ) = n1/2 (β̂2 − β20 ),
où β20 est la valeur de β2 sous le DGP. Ainsi, l’estimation OLS de b2 dans
(6.35) est asymptotiquement équivalente à l’estimation NLS non contrainte
β̂ 2 . Ceci devrait rendre intuitivement évident qu’un test en F pour b2 = 0
dans (6.35) est équivalent à un test pour β2 = 0.
Nous pouvons calculer des tests pour β2 = 0 en utilisant la régression
(6.35) de la même façon qu’en utilisant (6.17), avec toutefois une exception. La
quantité nR2 dans (6.17) est une statistique de test valide, mais la même quan-
tité dans (6.35) n’en est pas une. La raison en est que X́1 aura généralement
quelque capacité explicative sur la variation de y − x́, de sorte que le premier
terme dans (6.36) sera non nul. Nous pourrions construire une statistique de
test valide comme nR2 dans (6.35) moins nR2 dans la régression de y − x́ sur
X́1 uniquement. Cependant, il est préférable d’utiliser simplement des tests
en F ou en t, qui sont calculés comme si (6.35) était une régression naturelle
plutôt qu’une régression artificielle.
Dans la littérature consacrée à l’estimation par maximum de vraisem-
blance, les tests basés sur le choix arbitraire des estimateurs convergents à
un taux n1/2 sont appelés des tests C(α). De tels tests ont été proposés
à l’initiative de Neyman (1959); pour plus de références et de détails, con-
sulter la Section 13.7. Comme nous le verrons à ce moment, il est possible
d’interpréter les tests dont nous avons discuté dans cette section comme des
tests C(α) . Mais ces tests pourraient être aussi interprétés comme des tests
.
de Wald dans certains cas. Supposons que β́ = [ β̂1 ... 0], où β̂1 est l’estimation
NLS non contrainte de β1 . Ce choix pour β́ est certainement convergent à un
taux n1/2 et satisfait l’hypothèse nulle, et par conséquent entraı̂nera claire-
ment des statistiques de test valides. Puisque la GNR dépend uniquement
des estimations non contraintes β̂, nous nous référerons aux tests calculés de
cette manière en tant que pseudo-Wald, bien qu’ils ne soient pas fondés sur
le principe de Wald. De tels tests pseudo-Wald peuvent s’avérer plus faciles
à calculer que les tests de Wald plus conventionnels.
6.8 Estimation non Linéaire Utilisant la GNR 203
2
Cependant, lorsque nous traitons des fonctions de vraisemblance, nous voud-
rons les maximiser (voir le Chapitre 8). On peut donc appliquer la discussion
qui va suivre à de tels cas, moyennant quelques modifications mineures.
204 La Régression de Gauss-Newton
... Q(θ)
.
....
...
.
....
....
.
.....
.
.
............................ ....
.........
....... ..
.......
.. ....... .. .
.. ......... .... .
.. ...... .
.... ...
.
..... .. ..
.. .... ...
.. ....
......
. ..
.... ... ..
.. .... .
.. ..
.. ....
..... ......
.. .....
. ..
..
....... ...
.. ...... ........
. ..
...... ..
..
.. ........
...
. ...
..............
. ..
.. .............. ............. ..... ..
.. ...
...
...
. ..
...
...
..
.. .
. ... ..
.. .. ... ..
.. .. ...... ..
.. .. ..... . ..
.. ...... ..
. .
... .
0 00
θ θ̂ θ
Figure 6.5 Cas pour lesquels la méthode de Newton ne sera pas performante
difficulté.
¡ (j) Quelques algorithmes
¢ ne minimisent pas vraiment l’expression
(j) (j) −1 (j)
Q θ − α (D ) g par rapport à α(j) , mais choisissent plutôt α(j)
de façon à s’assurer que Q(θ (j+1) ) est inférieur à Q(θ (j) ). Il est essentiel
que cela soit vérifié si l’on veut être sûr que l’algorithme progressera vers la
solution à chaque calcul. Les meilleurs algorithmes, qui ont été conçus pour
économiser du temps de calcul à l’ordinateur, peuvent choisir α de façon assez
grossière lorsque le point de départ est loin de θ̂, mais exécutent généralement
une minimisation unidimensionnelle très fine lorsqu’ils sont proches de θ̂.
Lorsque l’on essaie de minimiser la fonction somme-des-carrés SSR(β),
la régression de Gauss-Newton fournit un moyen très pratique d’approximer
H(β). Les algorithmes qui adoptent cette procédure sont dits employer la
méthode de Gauss-Newton. Dans la Section 5.4, nous avons vu que H(β) est
composée d’éléments dont la forme est
n ³
X ´
¡ ¢ ∂Xti
Hil (β) = −2 yt − xt (β) − Xti (β)Xtl (β) . (6.39)
t=1
∂βl
C’est l’équation (5.24) écrite avec une notation scalaire. Nous avions vu que
lorsque le modèle est correct et que la matrice Hessienne est évaluée en la
vraie valeur de β, ceci est asymptotiquement équivalent à
n
X
2 Xti (β)Xtl (β);
t=1
le résultat est (5.38). Par conséquent un choix naturel pour D(β) dans un
algorithme de minimisation du genre que nous avons décrit par (6.38) est
où ε est un critère de convergence prédéterminé qui peut être modifié par
l’utilisateur. Le membre de gauche (6.42) est n fois le R2 non centré de la
régression de Gauss-Newton de y −x(β (j) ) sur X (j), qui prend la même forme
que la statistique de test dont nous avons parlé à la Section 6.4. Remarquons
(j)
que, pourvu que¡ β (j) soit proche de¢ β0 , l’expression (6.42) est approximative-
ment égale à SSR(β ) − SSR(β̂) /σ02 . Par là, cette règle d’arrêt indique à
l’algorithme de s’arrêter lorsqu’une approximation de SSR(β) en β (j) assure
que la distance entre SSR(β (j) ) et SSR(β̂) est suffisamment faible relativement
à la variance des aléas.
Une interprétation géométrique de cette règle d’arrêt est illustrée à la
Figure 6.6. Le dénominateur du membre de gauche de (6.42) est
1° °
°y − x(β (j) )°2 ,
−
n
(6.43)
qui est 1/n fois le carré de la distance entre y et x(β (j) ). Le numérateur est
° ¡ ¢°
°PX (j) y − x(β (j) ) °2 , (6.44)
y − x(β (j) ) et sa projection sur S(X (j) ), que l’on a étiqueté φ sur la figure.
Lorsque la valeur de ce rapport est suffisamment faible, y − x(β (j) ) doit être
presque orthogonal à X (j), et les conditions du premier ordre sont également
presque satisfaites. La règle d’arrêt (6.42) correspond à n fois cos2 φ. Bien
que le facteur n puisse être ignoré, il donne à la règle d’arrêt des propriétés
appréciables. Ce facteur donne au critère que l’on compare à ε la forme
d’une statistique de test nR2 , et il garantit que l’exactitude numérique des
estimations est proportionnelle à n−1/2, tout comme leur exactitude statis-
tique. Toutefois, si la taille de l’échantillon était particulièrement importante,
il faudrait alors veiller à ne pas utiliser une valeur trop faible pour ε, car
autrement la règle d’arrêt nécessiterait un degré de précision numérique que
n’atteindrait aucun ordinateur.
Cette discussion suggère que la règle d’arrêt (6.42) possède un attrait
non négligeable. Gill, Murray, et Wright (1981) traitent un grand nombre
de règles d’arrêt, qui souffrent toutes de certaines insuffisances (parmi elles
le fait d’être sensibles à des variations d’echelle des paramètres) auxquelles
(6.42) n’est pas sujette.3 Parce qu’elle ne souffre pas de ces handicaps, mais
aussi parce que le membre de gauche de l’inégalité se calcule aisément comme
un produit dérivé de la GNR pour chaque β (j), (6.42) semble être en réalité
une règle d’arrêt très intéressante.
Bien évidemment, toute règle d’arrêt échouerait sans doute si ε était
choisi de façon incorrecte. Lorsque ε est trop fort, l’algorithme peut arrêter
les itérations trop tôt, alors que β est encore assez éloigné de β̂. Dans le cas
contraire, l’algorithme peut poursuivre l’itération alors que β est très proche
de β̂, les différences éventuelles pourront provenir des erreurs d’arrondi de
sorte que l’algorithme peut ne jamais s’arrêter. Il est donc quelquefois en-
richissant de tester des valeurs de ε pour connaı̂tre la sensibilité des résultats
obtenus. Si la valeur affichée β̂ varie dans des proportions notables lorsque
ε est réduit, cela provient soit de la valeur initiale de ε qui était trop impor-
tante, soit de la puissance de l’algorithme qui tente de trouver un minimum
précis. Les valeurs raisonnables de ε seraient, pour la règle d’arrêt que nous
proposons, comprises entre 10−4 et 10−12.
3
Etrangement, Gill, Murray, et Wright (1981) ne considèrent pas cette règle
d’arrêt ou une quelconque de ses généralisations. C’est peut-être parce que
(6.42) est une règle dont l’usage est immédiat pour la régression de Gauss-
Newton, mais qui n’est pas évidente si l’on traite des problèmes plus généraux
de minimisation.
210 La Régression de Gauss-Newton
Termes et Concepts
algorithmes d’optimisation numérique nombre condition (d’une matrice)
algorithmes des moindres carrés non règles d’arrêt
linéaires régression artificielle
colinéarité (dans les régressions régression augmentée
artificielles) et identifiabilité régression de Gauss-Newton (GNR)
estimateurs efficaces en une étape test d’erreur de spécification de la
estimation de la matrice de covariance régression (RESET)
robuste à l’hétéroscédasticité tests à variable additionnelle
(HCCME) tests C(α)
identification et colinéarité tests diagnostiques
méthode de Gauss-Newton tests nR2 et tests en F fondés sur la
méthode de Newton GNR
modèle insuffisamment identifié tests pseudo-Wald