Beruflich Dokumente
Kultur Dokumente
I.-Definicin: Qu es la Heterocedasticidad? 1
El modelo bsico de regresin lineal exige, como hiptesis bsica, que la
varianza de las perturbaciones aleatorias, condicional a los valores de los
regresores X, sea constante:
Var u i / X i 2
1
Etimolgicamente, por cierto, la palabra deriva de hetero (distinto) y el verbo
griego skedanime que significa dispersar o esparcir.
2
La varianza de U y la Y coinciden
E(u ) ... . E(u ) 0 ... 0
2 1
2 2 2
1
0 0
) E(u1u2 E(u2
)
..
.
E(u2 )
.
.. 2 2
E(UU ') .. 0 .. i In
. . 0
0
E(u1u E(u2 un ... E(u ) 2 0 .. E(u
) 2
) n . n
n) 0
MCG
X' X 1
1
X' Y 1
4
Esta causa, apuntada por Gujarati , se refiere a la modelizacin de
fenmenos que contienen un mecanismo de auto - aprendizaje en funcin
de los errores (desajustes) previos. En este tipo de fenmenos, el paso del
tiempo implica progresivamente, no slo un menor tamao del error, sino
adems una varianza progresivamente inferior.
3
De hecho, los parmetros estimados "recogern mejor" el comportamiento de la
serie en aquella de las dos estructuras distintas que se produzca durante mayor
nmero de observaciones, ya que los parmetros estimados en presencia de un
cambio de estructura sern una media ponderada de los que resultaran de una
estimacin particular
para cada una de las dos submuestras
4
Econometra. D.N Gujarati. Ed. Mc Graw Hill.
En todo caso, sea cul sea el origen del problema, en muchas ocasiones es
posible asociar la varianza no constante de las perturbaciones aleatorias a
5
los valores de alguna de las variables incluidas en el modelo. Dicho de otro
modo, podra suponerse que la varianza de la perturbacin se compone de
una parte constante, homocedstica, y otra parte variable segn los valores
de una determinada variable Zi:
i2 f ( 2 Zi )
X ' X 1
V ( )
2
-
En este caso, tenemos una varianza que, dado el error de clculo antes
mencionado, es un estimador sesgado del verdadero valor de la varianza
(valor correctamente calculado) sin que, en general, se pueda saber si ese
clculo incorrecto sobreestima o subestima el verdadero valor. As pues, las
conclusiones derivadas de la utilizacin de los contrates habituales son,
6
sencillamente, incorrectas. Conviene adems tener en cuenta que el
problema del clculo incorrecto deriva en realidad de que el estimador
insesgado de la varianza de la perturbacin ya no resulta ser:
~ e' e
2
nk
6
Sobre esta reflexin puede ser interesante recordar un par de experimentos. El
primero, realizado por Goldfeldt y Quandt en 1972 (Non Linnear Methods in
Econometrics. North Holland, pp 280.) lleg a dos conclusiones: (1) que la prdida
de eficiencia de MCO respecto a MCG puede ser de hasta 10 veces en el parmetro
constante y de 4 veces en los parmetros que acompaan a variables explicativas y
(2) que el clculo incorrecto de de la varianza de los estimadores ignorando la
heterocedasticidad produce en general un sesgo por infravaloracin de la real del
orden del doble. El segundo, realizado por Davidson y Mackinnon en 1993
(Estimation and Inference in Econometrics, OUP, Nueva Cork, 19993, pp. 549-550)
concluy que el uso de MCO (con o sin correccin) sobreestima consistentemente el
verdadero error estndar de los parmetros obtenido mediante el procedimiento
correcto (MCG) mientras que la utilizacin de MCO sin corregir tienden a ofrecer
menores varianzas que las obtenidos por MCO corregidos, para los parmetros de
pendiente, y mayores para el trmino independiente.
versin corregida) que no se ve afectado por la existencia de
2
heterocedasticidad. La razn estriba en que el clculo de la R se realiza a
partir del clculo de las varianzas poblaciones de u ( u) y de y (y) y el
hecho de que utilicemos conceptos poblaciones, no muestrales, implica que
2
utilizamos varianzas no condicionales a los valores de x de modo que la R
(poblacional) no se ve afectada por la presencia de heterocedasticidad; de
hecho, la expresin
~ e'e n estima consistentemente la varianza del error poblacional
2
u ( ).
A. Contrastes Grficos
1
En ambos, la mera evolucin del tiempo est correlacionada con valores
cada vez mayores (izquierda) del error o cada vez menores (derecha), con lo
que el clculo de la varianza por subperodos arrojara valores
significativamente diferentes; es decir la serie del error sera
heterocedstica. Evidentemente, este tipo de grficos SLO tiene sentido si
el modelo es temporal ya que, en el caso del modelo transversal, la
ordenacin de valores del eje X depender del criterio elegido para
ordenar la muestra, un criterio que puede no coincidir con el patrn de
crecimiento o decrecimiento de la varianza.
B. Contrastes numricos
7
Eventualmente podran tambin realizarse los grficos con valores absolutos del residuo.
8
En particular, los contrastes que se presentan parten de una estructura acorde a la
del Multiplicador de Lagrange. De forma muy intuitiva, sin querer hacer una
argumentacin estrictamente acadmica, diremos que en este tipo de contrastes se
propone siempre dos modelos, uno inicial y otro en el que se incorpora algn
aadido en la especificacin. A partir de un ratio sobre los errores de cada uno de
estos modelos (o alguna transformada de estos), se compara si el modelo ms
completo aporta suficiente explicacin adicional de la endgena como para
compensar el coste de incorporar ms variables.
yi 0 1 x1i 2 x2i ... k xki ui
X ' X X
1
'Y ei yi y i
2. Estimar cuatro regresiones para los valores absolutos del error del
modelo anterior en funcin de una variable elevada
consecutivamente a "h", que para cada modelo tomara los valores
-1, -0,5, 0,5 y 1.
h
| ei
| 0 1 z i h 1,0.5,0.5,1
2
3. Se entiende que, si el valor de esta R es suficientemente grande, se
estar confirmando que existe heterocedasticidad producida por la
variable z, ya que esta es capaz de explicar la evolucin de la
evolucin del error como estimada de la evolucin de las
perturbaciones aleatorias. Esta conclusin es especialmente vlida
para muestras grandes segn las propias conclusiones ofrecidas por
Glesjer por lo que su utilizacin parece especialmente adecuada en
este tipo de condiciones muestrales.
'Y ei yi y i
2. Calcular una serie con los errores del modelo anterior al cuadrado
estandarizados:
e~ ei2
2
i
2
2 e' e
n
3. Estimas una regresin del error calculado en el paso (2) explicado por
una constante y el conjunto de las variables Z que se pretende saber
2
si producen o no heterocedasticidad en el modelo, obtenindose la R
de este modelo y la varianza de la estimada:
~e 2 z z ... z
i 0 1 1i 2 2i p pi
2
Re~
Y X U
X ' X X 'Y
1
Y X
e Y Y
3. El valor de la
Re de este segundo modelo (paso 2) nos dir si las
2
variables elegidas
sirven o no para estimar la evolucin variante del error al cuadrado,
10
6 representativo de la varianza estimada de las perturbaciones
4 5 aleatorias. Evidentemente, si la varianza de stas fuera constante
2 0
0 -5 (homocedasticidad), el carcter no constante de las variables
e
-2 -10 explicativas implicadas en el modelo no servira para explicar la
-4 2
-6 endgena, luego la R
debiera ser muy pequea.
En 2 9
R , como proporcin de la varianza de la endgena real que
principio, la
queda explicada
e
por la estimada, debiera ser muy pequea si la capacidad explicativa de los
regresores considerados tambin es muy pequea, siendo estos regresores,
por su construccin, representativos de varianzas y covarianzas de todas las
2
explicativas del modelo original. Dicho esto, evidentemente un valor de la R
suficientemente pequeo servir para concluir que no existe
heterocedasticidad en el modelo producida por los valores de las
explicativas consideradas en el modelo inicial. Para encontrar el valor crtico
en esa consideracin de suficientemente pequeo se emplea la expresin
2
deducida por Breusch y Pagan como producto del coeficiente R por el
nmero de datos del modelo, que se distribuira del siguiente modo:
2
nR p1
e
2
nRe mayor que el reflejado por las
En definitiva, si obtenemos un valor del
tablas
producto
2
de p1 ,
afirmaremos que existe heterocedasticidad, y viceversa, si este valor
es ms pequeo
diremos que se mantiene la homocedasticidad (luego la hiptesis nula de
este contraste es la homocedasticidad).
9
En este caso, la endgena real ser el valor del error muestral al cuadrado de la
primera regresin practicada. En el caso de homocedasticidad, este debe ser casi
constante, por lo que difcilmente la evolucin de otras variables podra explicar un
valor fijo. Por ello es intuitivo pensar que cuanto mayor sea la R 2 de este modelo,
ms probable ser la heterocedasticidad.
del contraste de significacin conjunta F. Si dicho contraste afirmara que, en
conjunto, las variables explicitadas tienen capacidad explicativa sobre la
endgena, estaramos afirmando la presencia de heterocedasticidad en el
modelo.
n
2
6 d i
i1
r 1 n(n 2 1)
En esta expresin, una coincidencia mxima (todas las distancias son igual a
cero), dara lugar a una correlacin de Spearman igual a uno; mientras que
una distancia mxima, provocara un valor cero de dicho coeficiente de
10
correlacin .
t
n2
- Contraste de Harvey
- Contraste test de Park
- Contraste RESET de Ramsey
- Golfeld-Quandt
- Contraste de picos
- LM Arch
V. Cmo se corrige
E(u ) 2 . E(u1 ) 2 .
1 2 0
E(u1u2 ) E(u2 ) E(u2 ) 2 2 2
E(UU ' ) ... 0 0 ... i In
E(u1u n E(u2 un ) E(un ) 2 0 0 0 E(u n
2
)
)
2 2
En esta matriz, si dividimos ipor if ( Z ) , obtendremos una diagonal
principal de unos;
es decir, volveramos al caso de una matriz de varianzas covarianzas escalar
tal y como la que se supone en el modelo bsico de regresin lineal.
Formalmente, para probar esto seguimos los siguientes pasos. Dado que la
matriz es una matriz semidefinida positiva (todos los elementos de su
diagonal principal son necesariamente positivos), siempre podremos
descomponerla en dos matrices de la forma:
1 1 1
PP' P P '
0 0
0 0 ... E(un ...
2
0 0 0 0 0 0 n
'
)2
1 . .
1
0 2 0 2 PP'
2
0 0 ... 0 0 ...
0 0 0 n 0 0 n
0
Si multiplicamos cada variable del modelo por esta matriz P, tal y como se
ha sugerido, obtenemos unas nuevas variables del siguiente tipo:
1 1 1 * * *
P YP x P U Y X U
i 2
donde:
1
1 1 1 2 2
E(UU ' )
* * 2
1
Por lo que podemos afirmar que el modelo transformado (aquel por el que
se han dividido todas las variables por la desviacin tpica estimada de las
perturbaciones aleatorias) soporta una matriz de varianzas covarianzas de
las perturbaciones aleatorias escalar, con lo que se puede estimar con toda
garanta por MCO.
2.- Nada garantiza, a priori, que las varianzas de los parmetros estimados
con White sean menores que las originales, dado que debe recordarse que
las MCO originales (mal calculadas) presentaban un sesgo indeterminado,
pero generalmente de infravaloracin de la varianza real.
VI. Ilustracin del tratamiento de la heterocedasticdad
en E-Views
rsN 2
1 rS2 Se propone un modelo para cuantificar las ventas de Burger King (VTASBK)
en una serie de 20 pases, proponindose como explicativas las siguientes
variables:
Realizada una primera regresin, los resultados obtenidos son los siguientes:
1000
800
600
400
20 200
10 0
-10
-20
-30
2 4 6 8 10 12 14 16 18 20
A la luz del grfico de residuos, podra pensarse que que los cinco primeros
pases presentaran una varianza mayor que los siguientes, aunque, como
suele ocurrir con los grficos, no se puede apreciar nada claramente.
- F-stastitic (como siempre con k-1; n-k grados de libertad), nos vendra
a dar una medida de la bondad del modelo (probabilidad de
heterocedasticidad si se confirma la validez conjunta de las variables
elegidas para determinar la variacin del error al cuadrado - la
endgena-).
2
- Obs*R-squared ( enR ): supuesta la hiptesis nula de
homocedasticidad, el
p1
X ' X 1
n
n e x X ' X 1
2 t t
x'
it
nk i1
Dependent Variable:
VTASBK Method: Least
Squares
Date: 04/20/01 Time:
13:37 Sample: 1 20
Included observations: 20
White Heteroskedasticity-Consistent Standard Errors & Covariance
Variable Coefficie Std. Error t- Prob.
C 23.7879nt Statistic
8.785312 0.015
PRECIOSB 1- 7.695290 - 5
0.763
K
PRECIOSMA 2.35625- 0.306194-
13.70312 4
0.239
C RENTAPC 16.7407
0.02527 1.221674
0.000213 5
0.000
8 0
R-squared 0.99922 Mean dependent 421.8
Adjusted R- 4
0.99907 var dependent var
S.D. 983
278.2
squared
S.E. of 8
8.44700 Akaike info criterion 593
7.282
regression
Sum squared 7
1141.63 Schwarz criterion 358
7.481
resid
Log likelihood 1- F-statistic 504
6867.
68.8235 346
Durbin-Watson stat 2.376763 Prob(F-statistic) 0.000000
Referencias bibliogrficas