Heterocedasticidad

CONCEPTOS BSICOS SOBRE LA HETEROCEDASTICIDAD EN
EL MODELO BSICO DE REGRESIN LINEAL

TRATAMIENTO CON E-VIEWS
Rafael de Arce y Ramn

Maha
Dpto. de Economa
Aplicada Universidad
Autnoma de Madrid
rafael.dearce@uam.es
ramon.mahia@uam.es
Primera versin: enero

de 2001 Revisado
febrero 2009
I.-Definicin: Qu es la Heterocedasticidad? 1
El modelo bsico de regresin lineal exige, como hiptesis bsica, que la
varianza de las perturbaciones aleatorias, condicional a los valores de los
regresores X, sea constante:
Var u i / X i 2
aunque generalmente la hiptesis se formula sin mencionar el carcter

condicional de la varianza, simplemente como:
Var u i
2
Para comprender de forma intuitiva esta restriccin podemos razonar del

siguiente modo. Iguales varianzas de u para los distintos valores de x
implica necesariamente igual dispersin (varianza) de y para distintos
2
valores de x lo que implica necesariamente que la recta de regresin de
Y sobre X va a representar con igual precisin la relacin entre x e
y independientemente de los valores de x.
Esto es muy importante porque debe recordarse que el anlisis de regresin

es un anlisis de regresin condicional de y sobre x lo cual implica, por
lgica, que si se desea obtener un parmetro de relacin estable y til entre
ambas variables, los valores muestrales de y deben mostrarse igualmente
dispersos ante variaciones de x. Dicho de otro modo, y en trminos del
error, aunque el error puede ser mayor para mayores valores de x (no se
fuerza que el error tenga un tamao igual para el recorrido de x) la
dispersin del error alrededor de la recta de regresin ser la misma. Esto
permite considerar como igualmente vlidos todos los datos muestrales de
los regresores x para determinar la relacin condicional de y a los
valores de x sin tener que ponderar ms o menos unos valores u otros de
x en funcin de la menor o mayor dispersin de y en los distintos casos.
En un plano puramente analtico, la matriz de varianzas-covarianzas de las
perturbaciones de un modelo heterocedstico se representara del siguiente
modo:
1
Etimolgicamente, por cierto, la palabra deriva de hetero (distinto) y el verbo
griego skedanime que significa dispersar o esparcir.
2
La varianza de U y la Y coinciden
E(u ) ... . E(u ) 0 ... 0
2 1
2 2 2
1
0 0
) E(u1u2 E(u2
)
..
.
E(u2 )
.
.. 2 2

E(UU ') .. 0 .. i In
. . 0
0

E(u1u E(u2 un ... E(u ) 2 0 .. E(u
) 2
) n . n
n) 0

Como ya se vio en el captulo introductorio previo sobre el estimador de

Aitken, en el caso concreto de la presencia de una matriz de varianzas-
covarianzas no escalar de las perturbaciones aleatorias, la estimacin
mximo verosmil de los parmetros del modelo resulta ahora:

MCG

X' X 1
1
X' Y 1
Un estimador que goza de buenas propiedades estadsticas (lineal,

insesgado, eficiente y consistente ).
II.- Causas frecuentes de heterocedasticidad
Como siempre solemos apuntar en el anlisis de las causas de los

incumplimientos de hiptesis del MBRL, debe decirse, en primer lugar,
que muchos fenmenos de inters son, por naturaleza, de carcter
heterocedstico. La distribucin del gasto, la renta, el ahorro, los
beneficios empresariales, . cientos de ejemplos se corresponden ms
con una distribucin heterocedstica que homocedstica. La variabilidad
de los fenmenos econmicos, medida con muestras temporales o
transversales, que justifica el anlisis de regresin, no slo nos muestra
variacin en las medias sino tambin, y a veces de forma fundamental,
evidentes comportamientos heterocedsticos.
En todo caso, y ms all de la heterocedasticidad natural, conviene

identificar algunas situaciones especficas, habituales en la econometra
emprica, asociadas al riesgo de heterocedasticidad. Aunque las que se
citan a continuacin no son las nicas posibilidades que dan lugar a un
modelo heterocedstico s se encuentran, probablemente, entre las ms
frecuentes.
A.- Causas relacionadas con la incorrecta especificacin:
A.1.- Omisin de variables relevantes en el modelo especificado.
En este caso no hablamos de las variables seleccionadas, sino,

precisamente, de las no seleccionadas. Cuando se ha omitido una
variable en la especificacin, dicha variable quedar parcialmente
recogida en el comportamiento de las perturbaciones aleatorias,
pudiendo contagiar a stas su propia variacin, no necesariamente
homocedstica.
Recurdese que la hiptesis de homocedasticidad hace referencia a la

varianza constante de las perturbaciones aleatorias, pero no obliga a que
las variables explicativas tengan tambin varianza constante. As pues, y
en trminos generales, la utilizacin de variables exgenas de naturaleza
heterocedstica puede contagiar/provocar un comportamiento
heterocedstico de la perturbacin aleatoria.
A.2.- Cambio de estructura

Un cambio de estructura provoca un mal ajuste de los parmetros al
conjunto de los datos muestrales. Este problema no tiene porque producirse
3
del mismo modo en todo el recorrido de la muestra , pudiendo generar
cuantas de desajuste del modelo diferentes y, por tanto, varianza no
constante por subperodos.
A.3. Forma funcional incorrecta
La utilizacin de una forma funcional incorrecta, por ejemplo la utilizacin de

una funcin lineal en lugar de una logartmica potencial, puede provocar
que la calidad del ajuste de la regresin vare segn los valores de las
exgenas, por ejemplo, ajustando bien para los valores pequeos y mal para
los grandes; en ese caso, es posible que en las zonas de peor ajuste existan,
no slo errores mayores, sino tambin errores ms dispersos.
B.- Otras causas
B.1- Variables explicativas con distribucin asimtrica o amplio recorrido
Si una variable explicativa presenta una distribucin asimtrica (por ejemplo

la renta), resultar inevitable que, por ejemplo para el caso de asimetra a
derechas, los valores mayores del regresor estn asociados a una mayor
dispersin en el trmino de error de la regresin.
De modo anlogo, las variables con amplio recorrido favorecen la aparicin

de heterocedasticidad en mayor medida que aquellas otras que presentan
un agrupamiento muy claro alrededor del valor de la media. Esto no es tan
evidente como el efecto de la asimetra pero, en cierto modo, y dado que
trabajamos con muestras, la seleccin de una muestra que favorezca la
heterocedasticidad es ms probable en el caso de variables con amplios
recorridos que con escasas varianzas. Este riesgo es especialmente elevado
en los modelos de corte transversal ya que la seleccin de los elementos
muestrales no viene determinada por el paso del tiempo y, por tanto, puede
agrupar, casualmente, grupos de observaciones que presenten valores poco
o muy dispersos al mismo tiempo.
B.2.- Presencia de puntos atpicos
La presencia de algunos valores atpicos en la muestra de datos implicar

necesariamente un desajuste en la varianza de la perturbacin (en cierto
modo, un punto atpico puede considerarse un elemento muestral
perteneciente a otra distribucin y, por tanto, potencialmente con varianza
distinta).
B.3.- Modelos de aprendizaje sobre los errores
4
Esta causa, apuntada por Gujarati , se refiere a la modelizacin de
fenmenos que contienen un mecanismo de auto - aprendizaje en funcin
de los errores (desajustes) previos. En este tipo de fenmenos, el paso del
tiempo implica progresivamente, no slo un menor tamao del error, sino
adems una varianza progresivamente inferior.
3
De hecho, los parmetros estimados "recogern mejor" el comportamiento de la
serie en aquella de las dos estructuras distintas que se produzca durante mayor
nmero de observaciones, ya que los parmetros estimados en presencia de un
cambio de estructura sern una media ponderada de los que resultaran de una
estimacin particular
para cada una de las dos submuestras
4
Econometra. D.N Gujarati. Ed. Mc Graw Hill.
En todo caso, sea cul sea el origen del problema, en muchas ocasiones es
posible asociar la varianza no constante de las perturbaciones aleatorias a
5
los valores de alguna de las variables incluidas en el modelo. Dicho de otro
modo, podra suponerse que la varianza de la perturbacin se compone de
una parte constante, homocedstica, y otra parte variable segn los valores
de una determinada variable Zi:
i2 f ( 2 Zi )
donde sera la parte fija de la varianza,

2
i y Z la variable (o incluso la matriz
de variables) cuyos valores se asocian con los cambios en la varianza de las
perturbaciones aleatorias.
Es muy probable que esta asociacin entre el proceso de heterocedasticidad

y una determinada variable (o una combinacin de ellas) sea algo simplista,
probablemente no sea muy realista y quiz no alcance a ser completamente
satisfactoria para explicar todos los patrones de heterocedasticidad. Sin
embargo, asumir este tipo de conexin entre varianza de U y una/s
variable/s est en la base de la mayora de los procedimientos de deteccin
de la heterocedasticidad y, desde luego, resulta imprescindible para los
mecanismos de solucin de la heterocedasticidad. Efectivamente, este tipo
de funcin podra ser empleada precisamente como un supuesto
simplificador para posibilitar la estimacin mediante MCG sin encontrarnos
con ms incgnitas (elementos de la matriz ) que observaciones.
III.- Efectos de la heterocedasticidad sobre el MBRL
En trminos generales los efectos de la presencia de heterocedasticidad

sobre el MBRL estimado con Mnimos Cuadrados Ordinarios son:
- El estimador de Mnimos Cuadrados Ordinarios sigue siendo lineal,

insesgado y consistente pero deja de ser eficiente (varianza mnima).
Es interesante recordar que la homocedasticidad de la perturbacin
no juega ningn papel relevante en la insesgadez o la consistencia,
propiedades muy importantes que s se alteran, sin embargo, ante la
presencia de regresores estocsticos o, en muchas ocasiones, ante la
omisin de variables relevantes.
- Las varianzas del estimador de Mnimos Cuadrados Ordinarios,

adems de no ser mnimas, no pueden calcularse con la expresin
utilizada en presencia de homocedasticidad
X ' X 1

V ( )
2
-
- Dicho de otro modo, esta expresin es un estimador sesgado de la

verdadera varianza de los parmetros; alternativamente, debe
utilizarse la nueva expresin
cov var( ) X ' X X 'X X ' X

2 1 1
-
5
En realidad, cabe tambin pensar en la posibilidad que el patrn de
heterocedasticidad est relacionado con los valores de alguna variable no incluida
en el modelo (una variable omitida, consciente o inconscientemente) aunque, en
general, y quiz por un criterio de sencillez operativa, los mtodos de correccin y
deteccin se suelen concentrar en la lista de variables exgenas incluidas en la
especificacin.
- As pues, si se sigue utilizando la versin homocedstica de MCO, se
cometer un error de clculo en la varianza lo que implica,
bsicamente, que nuestros clculos t ya no podrn comprarse con
los valores de referencia correctos de distribuciones t, y lo mismo
ocurrir con el resto de clculos derivados de la varianza estimada:
el contraste F ya no se distribuir como una F o los contrastes LM
ya no seguirn una Chi-Cuadrado.
Ante estos dos problemas, caben en realidad distintos escenarios (con

distintas repercusiones) en funcin de la estrategia elegida por el
modelizador:
1.- Utilizar MCO considerando la presencia de heterocedasticidad
En ese caso, an resolviendo el problema de clculo, seguimos enfrentando

un problema de eficiencia lo cual significa, en todo caso, significa que los
contrastes de significacin habituales t, F, Chi-Cuadrado tenderan a ser
ms exigentes, a ofrecer resultados menos concluyentes al tiempo que los
intervalos de confianza habitualmente computados para los parmetros
tendern a ser ms amplios.
2.- Utilizar MCO ignorando la heterocedasticidad
En este caso, tenemos una varianza que, dado el error de clculo antes
mencionado, es un estimador sesgado del verdadero valor de la varianza
(valor correctamente calculado) sin que, en general, se pueda saber si ese
clculo incorrecto sobreestima o subestima el verdadero valor. As pues, las
conclusiones derivadas de la utilizacin de los contrates habituales son,
6
sencillamente, incorrectas. Conviene adems tener en cuenta que el
problema del clculo incorrecto deriva en realidad de que el estimador
insesgado de la varianza de la perturbacin ya no resulta ser:
~ e' e
2
nk
de modo que, adems del error de clculo en la estimacin de la varianza

de los parmetros, todos aquellos contrastes o tests basados en este
estimador insesgado sern tambin incorrectos.
En todo caso, un error frecuente consiste en pensar que cualquier clculo

que implique la utilizacin de los errores de un modelo heterocedstico ser
incorrecto cuando, en realidad, no es as. Un ejemplo interesante es el
2
clculo del coeficiente de determinacin R (o su
6
Sobre esta reflexin puede ser interesante recordar un par de experimentos. El
primero, realizado por Goldfeldt y Quandt en 1972 (Non Linnear Methods in
Econometrics. North Holland, pp 280.) lleg a dos conclusiones: (1) que la prdida
de eficiencia de MCO respecto a MCG puede ser de hasta 10 veces en el parmetro
constante y de 4 veces en los parmetros que acompaan a variables explicativas y
(2) que el clculo incorrecto de de la varianza de los estimadores ignorando la
heterocedasticidad produce en general un sesgo por infravaloracin de la real del
orden del doble. El segundo, realizado por Davidson y Mackinnon en 1993
(Estimation and Inference in Econometrics, OUP, Nueva Cork, 19993, pp. 549-550)
concluy que el uso de MCO (con o sin correccin) sobreestima consistentemente el
verdadero error estndar de los parmetros obtenido mediante el procedimiento
correcto (MCG) mientras que la utilizacin de MCO sin corregir tienden a ofrecer
menores varianzas que las obtenidos por MCO corregidos, para los parmetros de
pendiente, y mayores para el trmino independiente.
versin corregida) que no se ve afectado por la existencia de
2
heterocedasticidad. La razn estriba en que el clculo de la R se realiza a
partir del clculo de las varianzas poblaciones de u ( u) y de y (y) y el
hecho de que utilicemos conceptos poblaciones, no muestrales, implica que
2
utilizamos varianzas no condicionales a los valores de x de modo que la R
(poblacional) no se ve afectada por la presencia de heterocedasticidad; de
hecho, la expresin
~ e'e n estima consistentemente la varianza del error poblacional
2
u ( ).
3.- Utilizar MCG
Es evidente que esta parece la mejor de las soluciones aunque tambin

debe observarse que utilizacin de este estimador exigira conocer o
estimar de antemano los valores de los elementos de . Estimar las n
varianzas distintas de partiendo de n observaciones y k variables
explicativas es imposible, de modo que, como se ver ms adelante, la
utilizacin de este estimador exigir asumir algn supuesto simplificador
sobre la causa de una eventual heterocedasticidad, un supuesto
simplificador que permita a su vez determinar, de forma tambin
simplificada, la forma de la matriz . Evidentemente, encontrar una
simplificacin correcta de dotar de plena utilidad (eficiencia) a la
estimacin con MCG pero, a sensu contrario, un mal diseo de la causa de la
heterocedasticidad y su expresin en no garantizar esa eficiencia.
IV.- Cmo se detecta la presencia de Heterocedasticidad
Antes de entrar a enumerar y revisar brevemente los principales

procedimientos deben quedar claras dos cuestiones preliminares:
1.- Resultar imposible observar directamente la presencia de

heterocedasticidad ya que, en la mayora de los anlisis economtricos, slo
dispondremos de un valor de Y para cada valor de X (y por tanto de un
nico valor de U) por lo que resulta conceptualmente imposible observar
si la varianza de las U para cada valor de X es la misma. Por tanto, la
mayor parte de los mtodos se apoyarn en los residuos obtenidos en un
modelo previo (estimado generalmente con MCO); estos residuos, se
utilizarn como una muestra vlida de las perturbaciones aleatorias
desconocidas.
2.- Antes de la aplicacin de mtodos tcnicos (ms o menos informales)

debemos preguntarnos por la existencia de heterocedasticidad desde un
punto de vista terico considerando la naturaleza del problema analizado,
las exgenas incluidas y, en definitiva, la propensin terica del modelo
hacia la heterocedasticidad.
A. Contrastes Grficos
A.1) Grfica del error a travs de las distintas observaciones del

modelo
Dado que las series econmicas presentan casi siempre una tendencia
definida (positiva o negativa), la simple grfica de error puede servir para
conocer intuitivamente si el mero transcurso del tiempo da lugar a un
incremento/decremento continuado del error, lo que sera significativo de
una relacin entre la evolucin de las variables del modelo y los valores
cada vez mayores o cada vez menores de ste.
Grficos del error sintomticos de presencia de

heterocedasticidad
15
1
1
En ambos, la mera evolucin del tiempo est correlacionada con valores
cada vez mayores (izquierda) del error o cada vez menores (derecha), con lo
que el clculo de la varianza por subperodos arrojara valores
significativamente diferentes; es decir la serie del error sera
heterocedstica. Evidentemente, este tipo de grficos SLO tiene sentido si
el modelo es temporal ya que, en el caso del modelo transversal, la
ordenacin de valores del eje X depender del criterio elegido para
ordenar la muestra, un criterio que puede no coincidir con el patrn de
crecimiento o decrecimiento de la varianza.
A.2) Grfica del valor cuadrtico del error y los valores de Y y Xs

7
La representacin de los valores del error al cuadrado y la variable
endgena o cada una de las variables exgenas puede revelar la existencia
de algn patrn sistemtico en la varianza de la perturbacin (se entiende
que el error al cuadrado se asocia con la dispersin del error). Este tipo de
grfico, no slo permite obtener una idea preliminar de si existe o no
heterocedasticidad sino tambin de la o las variables que pudieran estar
conectadas con la misma.
B. Contrastes numricos
Todos los procedimientos presentados aqu tratan de cuantificar la presencia

de heterocedasticidad. Algunos de ellos, no slo se limitan a cuantificarla
sino que, adems, permiten valorar la existencia de heterocedasticidad en
trminos de probabilidad recurriendo a distribuciones estadsticas
conocidas; este ltimo grupo de contrates se denominan, por ello,
8
contrastes "paramtricos".
B.1.) Contraste de Glesjer
De forma similar al caso anterior, Glesjer propone descartar la variacin del

error en funcin de una variable z, que ahora pueden estar elevadas a una
potencia "h" que estara comprendida entre -1 y 1. El modelo que se
propone es:
1. Estimar el modelo inicial, sobre el que se pretende saber si hay o no

heterocedasticidad, empleando MCO y determinando los errores.
7
Eventualmente podran tambin realizarse los grficos con valores absolutos del residuo.
8
En particular, los contrastes que se presentan parten de una estructura acorde a la
del Multiplicador de Lagrange. De forma muy intuitiva, sin querer hacer una
argumentacin estrictamente acadmica, diremos que en este tipo de contrastes se
propone siempre dos modelos, uno inicial y otro en el que se incorpora algn
aadido en la especificacin. A partir de un ratio sobre los errores de cada uno de
estos modelos (o alguna transformada de estos), se compara si el modelo ms
completo aporta suficiente explicacin adicional de la endgena como para
compensar el coste de incorporar ms variables.
yi 0 1 x1i 2 x2i ... k xki ui
X ' X X
1
'Y ei yi y i
2. Estimar cuatro regresiones para los valores absolutos del error del
modelo anterior en funcin de una variable elevada
consecutivamente a "h", que para cada modelo tomara los valores
-1, -0,5, 0,5 y 1.
h
| ei
| 0 1 z i h 1,0.5,0.5,1
Se escoger la regresin de las cuatro con parmetros significativos y

2
con mayor R .
2
3. Se entiende que, si el valor de esta R es suficientemente grande, se
estar confirmando que existe heterocedasticidad producida por la
variable z, ya que esta es capaz de explicar la evolucin de la
evolucin del error como estimada de la evolucin de las
perturbaciones aleatorias. Esta conclusin es especialmente vlida
para muestras grandes segn las propias conclusiones ofrecidas por
Glesjer por lo que su utilizacin parece especialmente adecuada en
este tipo de condiciones muestrales.
B.2.) Contraste de Breusch-Pagan
La idea del contraste es comprobar si se puede encontrar un conjunto de

variables Z que sirvan para explicar la evolucin de la varianza de las
perturbaciones aleatorias, estimada sta a partir del cuadrado de los
errores del modelo inicial sobre el que se pretende comprobar si existe o no
heterocedasticidad.
El proceso a seguir para llevar a cabo este contraste es el siguiente:
1. Estimar el modelo inicial, sobre el que se pretende saber si hay o no

heterocedasticidad, empleando MCO y determinando los errores.
yi 0 1 x1i 2 x2i ... k xki ui

X ' X X
1
'Y ei yi y i
2. Calcular una serie con los errores del modelo anterior al cuadrado
estandarizados:
e~ ei2
2
i

2
2 e' e
n
3. Estimas una regresin del error calculado en el paso (2) explicado por
una constante y el conjunto de las variables Z que se pretende saber
2
si producen o no heterocedasticidad en el modelo, obtenindose la R
de este modelo y la varianza de la estimada:
~e 2 z z ... z
i 0 1 1i 2 2i p pi
2
Re~
4. En principio, dado que el modelo tiene trmino constante, se cumple

la regla general de las regresiones segn la cual la varianza de la
endgena real es igual a la suma de la varianza de la endgena
estimada ms la varianza del error obtenido en el modelo
2 2 2
( S ~ 2 S ~ 2 S ) o su equivalente multiplicando a ambos lados de la
e e
igualdad por el
nmero de observaciones n, donde en vez de varianzas hablaremos
de Sumas al cuadrado. Por ello, si el modelo es "malo" la varianza de
la endgena estimada ser pequea (es lo mismo que decir que la
varianza del error estimado es grande o que el "modelo tiene mucho
error"). En definitiva, y siguiendo el inters que aqu buscamos, si la
varianza de la endgena estimada en este segundo modelo es muy
pequea, estaremos afirmando que el poder explicativo del conjunto
de variables Z sobre la representacin de la varianza de las
perturbaciones aleatorias es escaso. A partir de esta afirmacin,
podramos generar un contraste calculado con la suma residual, a
sabiendas de que cuanto ms cerca de cero se encuentre, ms
probabilidades de homocedasticidad habr en el modelo. El contraste
propuesto es:
e~ * n
2
i
2
los autores demuestran que, en el caso de un modelo homocedstico,

se distribuye
como , con lo que, si el valor del ratio
2
supera al valor de tablas,
una se rechaza la
p
hiptesis nula (homocedasticidad); es decir, se acepta que el conjunto
de variables Z est produciendo heterocedasticidad en el modelo
original.
El contraste de Breusch Pagan efectivamente nos servir para aceptar o

descartar la presencia de heterocedasticidad debida a ese conjunto de
variables Z citado, pero su operatividad es limitada. Si el conjunto de las
variables Z contiene variables no incluidas en el modelo original, parece
difcil no haberlas tenido en cuenta antes para realizar una buena
especificacin y s tenerlas en cuenta ahora para la contrastacin. Por otro
lado, la lista de variables Z debe ser necesariamente pequea para poder
realizarse el contraste.
B.3.) Contraste de White (prueba general de heterocedasticidad de

White)
Aunque en apariencia esta prueba es parecida a las mencionadas

anteriormente, parece admitido que algo ms robusta al no requerir
supuestos previos como, por ejemplo, la normalidad de las perturbaciones.
Por otro lado, tal y como se ver a continuacin, la prueba no exigir
determinar a priori las variables explicativas de la heterocedasticidad (lo
cual no es necesariamente una virtud) y es por esta razn por lo que se
denomina prueba general.
En este contraste la idea subyacente es determinar si las variables

explicativas del modelo, sus cuadrados y todos sus cruces posibles no
repetidos sirven para determinar la evolucin del error al cuadrado. Es decir;
si la evolucin de las variables explicativas y de sus varianzas y covarianzas
son significativas para determinar el valor de la varianza muestral de los
errores, entendida sta como una estimacin de las varianzas de las
perturbaciones aleatorias.
El proceso a seguir para realizar este contraste sera el siguiente:

1. Estimar el modelo original por MCO, determinando la serie de los
errores. Escrito esto en forma matricial para un modelo con "n"
observaciones y "k" variables explicativas:
Y X U
X ' X X 'Y
1
Y X
e Y Y
2. Estimar un modelo en el que la endgena sera los valores al

cuadrado de los errores obtenidos previamente (paso 1) con todas las
variables explicativas del modelo inicial, sus cuadrados y sus
combinaciones no repetidas.
2 2 2
ei 0 1 x1i ... k xki k 1 x1i ... k k xki k k 1 x1i x2i
k k 2 x1i x3i ... 3k 1 x2i x3i ... i
3. El valor de la
Re de este segundo modelo (paso 2) nos dir si las
2
variables elegidas
sirven o no para estimar la evolucin variante del error al cuadrado,
10
6 representativo de la varianza estimada de las perturbaciones
4 5 aleatorias. Evidentemente, si la varianza de stas fuera constante
2 0
0 -5 (homocedasticidad), el carcter no constante de las variables
e
-2 -10 explicativas implicadas en el modelo no servira para explicar la
-4 2
-6 endgena, luego la R
debiera ser muy pequea.
En 2 9
R , como proporcin de la varianza de la endgena real que
principio, la
queda explicada
e
por la estimada, debiera ser muy pequea si la capacidad explicativa de los
regresores considerados tambin es muy pequea, siendo estos regresores,
por su construccin, representativos de varianzas y covarianzas de todas las
2
explicativas del modelo original. Dicho esto, evidentemente un valor de la R
suficientemente pequeo servir para concluir que no existe
heterocedasticidad en el modelo producida por los valores de las
explicativas consideradas en el modelo inicial. Para encontrar el valor crtico
en esa consideracin de suficientemente pequeo se emplea la expresin
2
deducida por Breusch y Pagan como producto del coeficiente R por el
nmero de datos del modelo, que se distribuira del siguiente modo:
2
nR p1
e
2
nRe mayor que el reflejado por las
En definitiva, si obtenemos un valor del
tablas
producto
2
de p1 ,
afirmaremos que existe heterocedasticidad, y viceversa, si este valor
es ms pequeo
diremos que se mantiene la homocedasticidad (luego la hiptesis nula de
este contraste es la homocedasticidad).
Otro modo de contrastar la existencia de heterocedasticidad en el modelo a

partir de la validez o no de los parmetros incluidos en la regresin
propuesta por White vendra dado por el valor
9
En este caso, la endgena real ser el valor del error muestral al cuadrado de la
primera regresin practicada. En el caso de homocedasticidad, este debe ser casi
constante, por lo que difcilmente la evolucin de otras variables podra explicar un
valor fijo. Por ello es intuitivo pensar que cuanto mayor sea la R 2 de este modelo,
ms probable ser la heterocedasticidad.
del contraste de significacin conjunta F. Si dicho contraste afirmara que, en
conjunto, las variables explicitadas tienen capacidad explicativa sobre la
endgena, estaramos afirmando la presencia de heterocedasticidad en el
modelo.
B.4.) Contraste a partir del coeficiente de correlacin por rangos de

Spearman
La filosofa de este contraste reside en que la variable sospechosa de

producir heterocedasticidad debera provocar un crecimiento del residuo
estimado al mismo ritmo que ella va creciendo. Por ello, si ordenramos de
menor a mayor tanto la variable sospechosa, por ejemplo x ji, como el valor
absoluto del residuo, |ei|, el cambio de puesto en ambas, y para cada una de
las observaciones, debiera ser del mismo nmero de puestos respecto al
orden original de las series. En la medida en la que este cambio de puesto
respecto al original no sea el mismo para las dos (una vez ordenadas) se
podra hablar de movimientos no correlacionados. Dado que la correlacin
se mide entre uno y menos uno, Spearman propone determinar un grado de
correlacin en ese cambio de puesto respecto al inicial de cada una de las
variables a partir de la diferencia entre el nuevo puesto y el inicial:
n
2
6 d i
i1
r 1 n(n 2 1)
En esta expresin, una coincidencia mxima (todas las distancias son igual a
cero), dara lugar a una correlacin de Spearman igual a uno; mientras que
una distancia mxima, provocara un valor cero de dicho coeficiente de
10
correlacin .
En la siguiente tabla se hace un pequeo ejemplo numrico de clculo del

coeficiente de Spearman para clarificar lo dicho hasta ahora.
Series Series ordenadas

originales Pue Pue d
Pue xji |ei| xji | d
sto sto 2
sto ei|
1 1. 1,6 42 orig
2 1, orig
3 2- 1
2 83
42 1,4 4
50 3 2
1, 4 3=-
3- 1
3 4
50 1,2 1
68 5 3
1, 2 4=-
5- 9
4 1
2. 1,3 8
1. 1 4
1, 5 2=
1- 1
5 33
68 1,5 83
2. 4 5
1, 1 5=-
4- 96
8 33 6 1=
n
2 6 * 30
6 d i
r1 i 1
1 5(25 1 1,8 0,8
2
n(n 1) 1)
En este caso, el grado de correlacin negativa de ambas series sera

bastante elevado, dado que los extremos de correlacin seran +/-1.
10
Realmente, el coeficiente de correlacin por rangos de Spearman es
equivalente a emplear el
cov(x, y)
coeficiente de correlacin lineal r(x, y) a las variables de puntuacin de orden
de ambas
Sx S y
colocadas segn la progresin de una de ellas. Para ver el detalle del denominador,
se puede acudir a Martn-Guzmn y Martn Pliego (1985), pginas 312-314.
Para valorar la significatividad o no de esta correlacin, se conoce la funcin
de distribucin del siguiente ratio bajo la hiptesis nula de no
significatividad, demostrado por el autor:
t
n2
Con ello, si el resultado de la ratio es superior al valor de tablas podremos

afirmar que la correlacin es significativa o, de cara a nuestro inters en
este caso, que hay indicios de heterocedasticidad en el modelo provocada
por la variable xji.
B.5) Otros contrastes
Aunque no se comentarn aqu, si es conveniente citar otros contrastes

habituales para la determinacin de la heterocedasticidad, como:
- Contraste de Harvey
- Contraste test de Park
- Contraste RESET de Ramsey
- Golfeld-Quandt
- Contraste de picos
- LM Arch
V. Cmo se corrige
Antes de entrar en los mtodos operativos que permiten la estimacin en

presencia de heterocedasticidad, deben hacerse dos puntualizaciones:
1.- La correccin que se ver en este apartado se plantea como una

estrategia adaptativa, de convivencia con la heterocedasticidad pero, en
todo caso, debe entenderse que, en algunas ocasiones, el problema que
genera un comportamiento heterocedstico de la perturbacin puede
resolverse variando la especificacin lo que, sin duda alguna, sera una
verdadera correccin del problema.
2.- La estimacin alternativa al uso de MCO en situaciones de

heterocedasticidad es la utilizacin de MCG y, por tanto, esta es la nica
estrategia analticamente correcta para la solucin del problema. No
obstante, y como ya se ha dicho, esto implicara conocer el verdadero valor
de la matriz sigma de varianzas y covarianzas, situacin que, en la prctica,
no es habitual. Por tanto, los mtodos que se presentan aqu suponen una
alternativa operativa a esta hipottica situacin ideal.
1.- Transformacin de las variables originales
Como hemos venido viendo repetidas veces a lo largo del tema, la

heterocedasticidad viene producida por la dependencia de la varianza de las
perturbaciones aleatorias de una o ms variables que, a su vez, pueden
estar presentes en el modelo o no. Los distintos mtodos de detectar este
problema servan para probar la dependencia de la varianza de la
perturbacin aleatoria de un conjunto de variables, a partir de lo que hemos
llamado un supuesto simplificador:
i2 f ( 2 Zi )
Por lgica, el modo de subsanar el problema detectado ser operar

convenientemente la variables del modelo precisamente eliminando la
fuente de heterocedasticidad que habremos podido definir cuando
detectamos la misma. Como veremos a continuacin, si el conjunto total de
las variables del modelo (endgena incluida) es dividido por la forma
estimada de esta funcin de la raz de la varianza heterocedstica (una vez
algn mtodo de deteccin nos haya confirmado que efectivamente el
comportamiento de esta varianza se puede seguir convenientemente con
dicha funcin) estaremos corrigiendo el modelo.
Para comprobar esto, podemos volver a la forma matricial de varianzas

covarianzas no escalar:
E(u ) 2 . E(u1 ) 2 .

1 2 0
E(u1u2 ) E(u2 ) E(u2 ) 2 2 2

E(UU ' ) ... 0 0 ... i In

E(u1u n E(u2 un ) E(un ) 2 0 0 0 E(u n
2
)
)
2 2
En esta matriz, si dividimos ipor if ( Z ) , obtendremos una diagonal
principal de unos;
es decir, volveramos al caso de una matriz de varianzas covarianzas escalar
tal y como la que se supone en el modelo bsico de regresin lineal.
Formalmente, para probar esto seguimos los siguientes pasos. Dado que la
matriz es una matriz semidefinida positiva (todos los elementos de su
diagonal principal son necesariamente positivos), siempre podremos
descomponerla en dos matrices de la forma:
1 1 1
PP' P P '
Volviendo a la matriz de varianzas covarianzas no escalar y uniendo

esto a la funcin que i i
hemos comprobado sirve para definir esta varianza no 2

f ( Z ) , es
2
constante llegar a que la descomposicin PP'

1 fcil
1 1
P P ' es:
E(u )2 . 2
.
1 2 1
0 E(u2 ) 0 2 2

2
0 0
0 0 ... E(un ...
2
0 0 0 0 0 0 n
'
)2
1 . .
1

0 2 0 2 PP'
2
0 0 ... 0 0 ...

0 0 0 n 0 0 n
0
Si multiplicamos cada variable del modelo por esta matriz P, tal y como se
ha sugerido, obtenemos unas nuevas variables del siguiente tipo:
1 1 1 * * *
P YP x P U Y X U
i 2
donde:
1
1 1 1 2 2
E(UU ' )

* * 2

1
E(U U ' ) UU ' ')P P ' E(UU ' ) 1 In

1 1
E(P P P '
P
Por lo que podemos afirmar que el modelo transformado (aquel por el que
se han dividido todas las variables por la desviacin tpica estimada de las
perturbaciones aleatorias) soporta una matriz de varianzas covarianzas de
las perturbaciones aleatorias escalar, con lo que se puede estimar con toda
garanta por MCO.
En definitiva, y a modo de breve receta, los pasos para la correccin de la

heterocedasticidad seran los siguientes:
a) Se estiman los parmetros del modelo por MCO, ignorando por el

momento el problema de la heterocedasticidad de las perturbaciones
aleatorias
Se establece un supuesto acerca de la
i y se emplean los
b)
2
formacin de residuos de
la regresin por MCO para estimar la forma funcional supuesta.
c) Se divide cada observacin por segn el paso anterior (segn el
valor de esa
heterocedasticidad supuesta estimada, siempre y cuando un
contraste nos haya confirmado que el modelo simplificador es
bueno).
d) Se estima el modelo original ahora con todas las variables
transformadas segn el paso c).
2.- Estimacin consistente de White
El procedimiento propuesto por White permite una estimacin que, en

trminos asintticos, permite la utilizacin de los procedimientos de
inferencia estadstica clsica.
Bsicamente, la idea consiste en utilizar los errores cuadrticos de una

estimacin previa de MCO como elementos de la matriz de varianzas de la
perturbacin (matriz ). White demostr que, esta estrategia de
ponderacin permite obtener estimadores consistentes de las varianzas
de los parmetros. La mayor parte de los paquetes informticos incorporan
este clculo de modo que, en general, su utilizacin parece recomendable,
al menos con fines exploratorios.
En todo caso, deben hacerse dos puntualizaciones que quiz resulten

interesantes al que, por vez primera, se asome a este procedimiento.
1.- Los parmetros estimados consistentemente con White coincidirn con
los de la regresin original MCO (en todo caso, recuerde que el problema de
la heterocedasticidad no es un problema de sesgo ni inconsistencia).
2.- Nada garantiza, a priori, que las varianzas de los parmetros estimados
con White sean menores que las originales, dado que debe recordarse que
las MCO originales (mal calculadas) presentaban un sesgo indeterminado,
pero generalmente de infravaloracin de la varianza real.
VI. Ilustracin del tratamiento de la heterocedasticdad
en E-Views
rsN 2
1 rS2 Se propone un modelo para cuantificar las ventas de Burger King (VTASBK)
en una serie de 20 pases, proponindose como explicativas las siguientes
variables:
PRECIOSBK: Precios Hamburguesa

Whoper PRECIOSMAC: Precios
Hamburguesa Big Mac RENTAPC:
Renta per capita del
pas
Realizada una primera regresin, los resultados obtenidos son los siguientes:
1000
800
600
400
20 200
10 0
-10
-20
-30
2 4 6 8 10 12 14 16 18 20
Residual Actual Fitted
Matriz de correlaciones de las variables
VTASB PRECI PRECIOS RENTA

VTASBK K
1.0000 OSBK
0.3609 MAC
0.226085 PC
0.9995
00 00 66
PRECIOS 0.3609 1.0000 0.704328 0.3679
BK
PRECIOS 00
0.2260 00
0.7043 1.000000 45
0.2354
MAC
RENTA 85
0.9995 28
0.3679 0.23540 02
1.0000
PC 66 45 2 00
2
No se da ninguna correlacin entre variables explicativas superior al R
obtenido en el modelo, por lo que no parece haber indicios de
multicolinealidad. Tan slo existe una fuerte correlacin entre PRECIOSBK y
PRECIOSMAC (0,7043), en cualquier caso ms pequeo que el 0,99.
A la luz del grfico de residuos, podra pensarse que que los cinco primeros
pases presentaran una varianza mayor que los siguientes, aunque, como
suele ocurrir con los grficos, no se puede apreciar nada claramente.
El siguiente elemento a contrastar sera la presencia de heterocedasticidad

en el modelo. El programa E-Views suministra, con este fin, la posibilidad de
detectar la heterocedasticidad, entre otros, a partir del Test de Residuos de
White, ofreciendo dos posibilidades:
- No Cross Terms: Realizar la regresin de los errores al cuadrado de la

regresin inicial del modelo escribiendo como explicativas todas las
exgenas de la inicial y sus valores al cuadrado.
- Cross Terms: igual que la anterior, pero incluyendo adems, como
explictivas del error al cuadrado, los productos no repetidos de todas
las variables explicativas del modelo inicial entre s.
En principio, el contraste expresado por White sera la segunda opcin, pero,

en modelos con escasas observaciones, a lo mejor no es posible realizar la
estimacin con tantos regresores y es ms recomendable la primera opcin
(por no eliminar completamente los grados de libertad).
En nuestro caso, el nmero de observaciones es 20 (pases) y el nmero de

explicativas tres ms la constante, luego el contraste de White con trminos
cruzados equivaldra a incluir 10 variables explicativas sobre el cuadrado de
los errores de la regresin inicial (la constante, las tres explicativas, sus tres
cuadrados y los tres cruces posibles no repetidos entre ellas).
Para aplicar este contraste en E-views, desde la misma ventana donde se ha

realizado la regresin, se sigue el siguiente trayecto:
Los resultado de este Test de residuos White heteroskedasticity (cross terms)
son:
White Heteroskedasticity Test:

F-statistic 7.458779 Probability 0.002102
Obs*R-squared 17.40694 Probability 0.042712
Como resultado, se nos ofrecen dos formas de contrastar la validez de las

variables elegidas para explicar un comportamiento no homogneo del error
al cuadrado (estimador de la varianza de la perturbacin aleatoria en este
caso):
- F-stastitic (como siempre con k-1; n-k grados de libertad), nos vendra
a dar una medida de la bondad del modelo (probabilidad de
heterocedasticidad si se confirma la validez conjunta de las variables
elegidas para determinar la variacin del error al cuadrado - la
endgena-).
2
- Obs*R-squared ( enR ): supuesta la hiptesis nula de
homocedasticidad, el
p1
clculo propuesto debera comportarse como una p1 con p-1 grados

de libertad. En nuestro caso p=10 (las explicativas de la regresin
practicada). (El valor de tablas de
2
101 , para el 95% de confianza, es 16,9).
A la luz de lo dicho, ambos estadsticos propuestos afirman, con un 97,9%

de probabilidades el primero y con un 96,73% de probabilidades el segundo,
la existencia de heterocedasticidad.
La misma salida nos muestra la regresin utilizada para realizar estos
clculos, que sera la siguiente:
Test Equation:
Dependent Variable: RESID^2
Method: Least Squares
Date: 04/04/01 Time:
18:13 Sample: 1 20
Included observations: 20
Varia Coefficie Std. t- Prob.
ble
C nt- Error
761.410 Statisti
- 0.133
PRECIOSBK 1244.79- 4225.290 1.6348- 0.381
1
PRECIOSBK^2 3872.14
1071.91 452.8574 0.9164
2.3670 0
0.039
PRECIOSBK*PRECIO 9- 3433.564 12- 5
0.904
SMAC
PRECIOSBK*RENTA 423.386
0.06558 0.019298 0.1233
3.3985 3
0.006
PC PRECIOSMAC 6562.128 4306.579 29
1.5237 8
0.158
PRECIOSMAC^2 5- 3209.948 45- 6
0.484
PRECIOSMAC*RENT 2332.04
0.04849 0.039575 0.7265
1.2254 2
0.248
APC RENT 5- 0.034504 23- 5
0.025
APC
RENTAPC^2 0.09023
-7.94E- 4
2.13E- 2.6150- 8
0.004
07 07 3.7192 0
R-squared 0.87034 Mean dependent 57.08
Adjusted R-squared 0.75365 S.D. dependent var 104.1
S.E. of regression 51.71439 Akaike info criterion 942
11.03
Sum squared resid 26743.78 Schwarz criterion 620
11.53
Log likelihood 7- F-statistic 407
7.458
Durbin-Watson stat 100.362
1.81078 Prob(F-statistic) 779
0.002
9 102
A la luz de esta regresin, es fcil comprobar la significatividad de la

variable rentapc y rentapc^2 para explicar la varianza del error. Tambin los
es preciosbk^2 y preciosbk*rentapc.
Para corregir el problema de la heterocedasticidad, habra que emplear

Mnimos Cuadrados Generalizados, o bien transformar todas las variables
del modelo predividiendo todas sus observaciones por la raz cuadrada del
valor estimado del error al cuadrado en el modelo que se ha utilizado para
contrastar la presencia de heterocedasticidad y que nos ha informado sobre
la presencia de la misma y la buena explicacin del comportamiento no
constante de la varianza.
El programa E-views permite realizar la estimacin por MCG usando como

valor de el obtenible a partir de la propuesta de White (1980).
El estimador consistente de la matriz de covarianzas para lograr una

estimacin correcta de los parmetros en presencia de heterocedasticidad
es el siguiente:

X ' X 1
n
n e x X ' X 1
2 t t
x'
it
nk i1
Para lograr una estimacin empleando esta correccin en E-views, es

necesario, una vez se ejecuta una estimacin lineal normal, pulsar el botn
de estimate. Aparecer entonces, a la derecha, un botn de opciones que,
pulsado, permite sealar Heteroskedasticity: consistent covariance White.
Estimandosegn esta propuesta,ya que hemos confirmadola presencia
de heterocedasticidad, los resultados seran los siguientes:
Dependent Variable:
VTASBK Method: Least
Squares
Date: 04/20/01 Time:
13:37 Sample: 1 20
Included observations: 20
White Heteroskedasticity-Consistent Standard Errors & Covariance
Variable Coefficie Std. Error t- Prob.
C 23.7879nt Statistic
8.785312 0.015
PRECIOSB 1- 7.695290 - 5
0.763
K
PRECIOSMA 2.35625- 0.306194-
13.70312 4
0.239
C RENTAPC 16.7407
0.02527 1.221674
0.000213 5
0.000
8 0
R-squared 0.99922 Mean dependent 421.8
Adjusted R- 4
0.99907 var dependent var
S.D. 983
278.2
squared
S.E. of 8
8.44700 Akaike info criterion 593
7.282
regression
Sum squared 7
1141.63 Schwarz criterion 358
7.481
resid
Log likelihood 1- F-statistic 504
6867.
68.8235 346
Durbin-Watson stat 2.376763 Prob(F-statistic) 0.000000
Referencias bibliogrficas
GUJARATI, D. (2006): Principios de Econometra. Mc Graw Hill, Captulo 13.

pag.385
GOLFEDLD,SM Y QUANDT (1972): Non Linnear Methods in Econometrics.

North Holland, pag. 280.
MARTN-GUZMN Y MARTN PLIEGO (1985): Curso bsico de

Estadstica Econmica. Editorial AC
NOVALES, A. (1993): Econometra. Editorial M'c Graw Hill, segunda edicin.

Madrid. Captulo 6, pgina: 193.
OTERO, JM (1993): Econometra. Series temporales y prediccin. Editorial

AC, libros cientficos y tcnicos. Madrid.
PULIDO, A. y PREZ, J. (2001): Modelos Economtricos. Editorial Pirmide,

SA. Madrid. Captulo 14, pgina: 711.

Heterocedasticidad

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Heterocedasticidad

Hochgeladen von

Copyright:

Verfügbare Formate

CONCEPTOS BSICOS SOBRE LA HETEROCEDASTICIDAD EN

EL MODELO BSICO DE REGRESIN LINEAL

Rafael de Arce y Ramn

Primera versin: enero

aunque generalmente la hiptesis se formula sin mencionar el carcter

Para comprender de forma intuitiva esta restriccin podemos razonar del

Esto es muy importante porque debe recordarse que el anlisis de regresin

Como ya se vio en el captulo introductorio previo sobre el estimador de

Un estimador que goza de buenas propiedades estadsticas (lineal,

II.- Causas frecuentes de heterocedasticidad

Como siempre solemos apuntar en el anlisis de las causas de los

En todo caso, y ms all de la heterocedasticidad natural, conviene

A.- Causas relacionadas con la incorrecta especificacin:

A.1.- Omisin de variables relevantes en el modelo especificado.

En este caso no hablamos de las variables seleccionadas, sino,

Recurdese que la hiptesis de homocedasticidad hace referencia a la

A.2.- Cambio de estructura

A.3. Forma funcional incorrecta

La utilizacin de una forma funcional incorrecta, por ejemplo la utilizacin de

B.- Otras causas

B.1- Variables explicativas con distribucin asimtrica o amplio recorrido

Si una variable explicativa presenta una distribucin asimtrica (por ejemplo

De modo anlogo, las variables con amplio recorrido favorecen la aparicin

B.2.- Presencia de puntos atpicos

La presencia de algunos valores atpicos en la muestra de datos implicar

B.3.- Modelos de aprendizaje sobre los errores

donde sera la parte fija de la varianza,

Es muy probable que esta asociacin entre el proceso de heterocedasticidad

III.- Efectos de la heterocedasticidad sobre el MBRL

En trminos generales los efectos de la presencia de heterocedasticidad

- El estimador de Mnimos Cuadrados Ordinarios sigue siendo lineal,

- Las varianzas del estimador de Mnimos Cuadrados Ordinarios,

- Dicho de otro modo, esta expresin es un estimador sesgado de la

cov var( ) X ' X X 'X X ' X

Ante estos dos problemas, caben en realidad distintos escenarios (con

1.- Utilizar MCO considerando la presencia de heterocedasticidad

En ese caso, an resolviendo el problema de clculo, seguimos enfrentando

2.- Utilizar MCO ignorando la heterocedasticidad

de modo que, adems del error de clculo en la estimacin de la varianza

En todo caso, un error frecuente consiste en pensar que cualquier clculo

3.- Utilizar MCG

Es evidente que esta parece la mejor de las soluciones aunque tambin

IV.- Cmo se detecta la presencia de Heterocedasticidad

Antes de entrar a enumerar y revisar brevemente los principales

1.- Resultar imposible observar directamente la presencia de

2.- Antes de la aplicacin de mtodos tcnicos (ms o menos informales)

A.1) Grfica del error a travs de las distintas observaciones del

Grficos del error sintomticos de presencia de

A.2) Grfica del valor cuadrtico del error y los valores de Y y Xs

Todos los procedimientos presentados aqu tratan de cuantificar la presencia

B.1.) Contraste de Glesjer

De forma similar al caso anterior, Glesjer propone descartar la variacin del

1. Estimar el modelo inicial, sobre el que se pretende saber si hay o no

Se escoger la regresin de las cuatro con parmetros significativos y

B.2.) Contraste de Breusch-Pagan

La idea del contraste es comprobar si se puede encontrar un conjunto de

El proceso a seguir para llevar a cabo este contraste es el siguiente:

1. Estimar el modelo inicial, sobre el que se pretende saber si hay o no

yi 0 1 x1i 2 x2i ... k xki ui

4. En principio, dado que el modelo tiene trmino constante, se cumple

los autores demuestran que, en el caso de un modelo homocedstico,

El contraste de Breusch Pagan efectivamente nos servir para aceptar o

B.3.) Contraste de White (prueba general de heterocedasticidad de