Sie sind auf Seite 1von 8

Supuestos más importantes del modelo clásico de regresión lineal

Linealidad. Si no se tiene linealidad se dice que tenemos un error de especificación. En


el caso de que sean varias variables independientes, la opción Analizar-Regresión-
Lineal-Gráficos-Generar todos los gráficos parciales nos dan los diagramas de dispersión
parcial para cada variable independiente. En ellos se ha eliminado el efecto proveniente
de las otras variables y así la relación que muestran es la relación neta entre las variables
representadas.

Regresora estocástica: Todo el desarrollo matemático realizado para el modelo de


regresión lineal simple con diseño fijo es válido para este modelo con diseño aleatorio
(regresor estocástico) si se verifican las siguientes hipótesis:

La variable condicionada Y/X = xh sigue una distribución normal

La distribución marginal de la variable regresora, fX(x), no depende de los parámetros


del modelo: a0, a1 y s2.
Las variables observaciones muéstrales (Xi;Yi) son independientes entre sí.
El error de observación e y la variable regresora X son variables aleatorias
independientes.
Todo el desarrollo matemático realizado para el modelo de regresión lineal simple con
diseño fijo es válido para el mismo modelo con diseño aleatorio (regresor estocástico).

Media de ui distinta de cero-Independencia de la variable


aleatoria “residuos” (especialmente importante si los datos se han
obtenidos siguiendo una secuencia temporal).
Independencia entre los residuos mediante el estadístico de Durbin-Watson que toma
valor 2 cuando los residuos son completamente independientes (entre 1.5 y 2.5 se
considera que existe independencia), DW<2 indica autocorrelación positiva y DW>2
autocorrelación negativa
 ei  ei1 
n

DW
n  i2
, 0  DW  4
i
e 2

Heterocedasticidad:

En estadística se dice que un modelo de regresión lineal presenta heterocedasticidad


cuando la varianza de las perturbaciones no es constante a lo largo de las observaciones.
Esto implica el incumplimiento de una de las hipótesis básicas sobre las que
se asienta el modelo de regresión lineal.
De ella se deriva que los datos con los que se trabaja son heterogéneos, ya que provienen
de distribuciones de probabilidad con distinta varianza.
Existen diferentes razones o situaciones en las que cabe encontrarse con perturbaciones
heteroscedásticas. La situación más frecuente es en el análisis de datos de corte
transversal, ya que los individuos o empresas o unidades económicas no suelen tener un
comportamiento homogéneo.
Otra situación en la que se presenta heteroscedasticidad es en muestras cuyos datos son
valores que se han obtenido agregando o promediando datos individuales.

Consecuencias de la heterocedasticidad:

Las principales consecuencias que derivan del incumplimiento de la hipótesis


de homocedasticidad en los resultados de la estimación de mínimos cuadrados son:

Error en el cálculo del estimador de la matriz de varianzas y covarianzas de los


estimadores de mínimos cuadrados.
Pérdida de eficiencia en el estimador mínimo cuadrático.
Por lo demás, los estimadores de mínimos cuadrados siguen siendo insesgados pero ya
no eficientes, es decir que los estimadores ya no serán de varianza mínima.

Homocedasticidad o igualdad de varianzas de los residuos y los pronósticos. Esta


condición se estudia utilizando las variables: ZPRED=pronósticos tipificados y
ZRESID=residuos tipificados mediante:
el estadístico de Levene (ver explorar) un gráfico de dispersión .Que se
obtiene en Analizar-Regresión-Lineal-Gráficos.
El supuesto de homocedasticidad implica que la variación de los residuos sea uniforme
en todo el rango de valores de los pronósticos (gráfico sin pautas de asociación).

Perturbaciones autocorrelacionadas:

En el caso de los modelos transversales, el carácter exógeno de los regresores garantizaba


el sesgo y/o la consistencia de los parámetros MCO en el marco del MBRL. Así mismo,
la homocedasticidad de la perturbación aleatoria era necesaria para asegurar el carácter
insesgado del estimador de la varianza de los parámetros. Ninguna de estas hipótesis se
refería específicamente a la autocorrelación como causa de sesgo en la estimación de los
parámetros o de sus desviaciones estándar.

En el marco de un modelo transversal, la relación entre perturbaciones aleatorias


correspondientes a distintos individuos (particulares, empresas, sectores,….) es menos
probable2 pero, sin embargo se vuelve más verosímil en el caso de un modelo de series
temporales; la razón estriba en que las propias variables exógenas y la variable endógena
contienen reflejan en mayor o menor medida cierta persistencia temporal, lo que dificulta
que los errores cometidos en un período no conecten en alguna medida con los cometidos
en períodos previos.

La existencia de autocorrelación se define, por tanto, como la existencia de correlación


entre perturbaciones aleatorias correspondientes a períodos (u observaciones) distintas:
En un plano intuitivo, la autocorrelación conecta con la idea de que los errores contienen
cierta persistencia y, por tanto, no se deben a factores puramente aleatorios,
desconectados los unos de los otros. Así pues, cuando existe autocorrelación, el error
cometido en un momento del tiempo está “influido” por el error de períodos previos.
Cuando existe autocorrelación, y en un plano puramente analítico, la matriz de varianzas-
covarianzas de las perturbaciones de un modelo contiene ahora elementos no nulos fuera
de la diagonal principal:
Multicolinealidad:

¿Qué es la multicolinealidad?

El proceso o término de multicolinealidad en Econometría es una situación en la que se


presenta una fuerte correlación entre variables explicativas del modelo. La correlación
ha de ser fuerte, ya que siempre existirá correlación entre dos variables explicativas en
un modelo de regresión (Y-X).

La multicolinealidad en regresión es una condición que ocurre cuando algunas variables


predictoras incluidas en el modelo están correlacionadas con otras variables predictoras.
La multicolinealidad severa es problemática, porque puede incrementar la varianza de
los coeficientes de regresión, haciéndolos inestables. Las siguientes son algunas de las
consecuencias de los coeficientes inestables:

Los coeficientes pueden parecer insignificantes incluso cuando exista una relación
significativa entre el predictor y la respuesta.

Los coeficientes de los predictores muy correlacionados variarán ampliamente de una


muestra a otra.

La eliminación de cualquier término muy correlacionado del modelo afectará


considerablemente los coeficientes estimados de los demás términos muy
correlacionados.

Los coeficientes de los términos muy correlacionados incluso pueden tener el signo
equivocado.

Para medir la multicolinealidad, usted puede examinar la estructura de correlación de las


variables predictoras. También puede examinar los factores de inflación de la varianza
(FIV). Los FIV miden qué tanto aumenta la varianza de un coeficiente de regresión
estimado aumenta si los predictores están correlacionados. Si todos los FIV son 1, no hay
multicolinealidad, pero si algunos FIV son mayores que 1, los predictores están
correlacionados. Cuando un FIV es > 5, el coeficiente de regresión para ese término no
se estima adecuadamente. Si la correlación de un predictor con otros predictores es casi
perfecta, Minitab muestra un mensaje indicando que el término no se puede estimar. Los
valores de FIV para los términos que no se pueden estimar por lo general superan un mil
millones.

La multicolinealidad no afecta la bondad de ajuste ni la bondad de predicción. Los


coeficientes (función discriminante lineal) no pueden interpretarse de forma fiable, pero
los valores (clasificados) ajustados no se ven afectados.

Maneras de corregir la multicolinealidad

Si está ajustando polinomios, reste la media del predictor a los valores de los predictores.

Elimine del modelo los predictores muy correlacionados. Puesto que suministran
información redundante, su eliminación no suele reducir drásticamente el R2. Considere
usar la regresión escalonada, la regresión de los mejores subconjuntos o el conocimiento
especializado del conjunto de datos para eliminar estas variables.

Utilice o Análisis de los componentes principales. Estos métodos reducen el número de


predictores a un conjunto más pequeño de componentes no correlacionados.

Por ejemplo, un fabricante de juguetes desea predecir la satisfacción del cliente e incluye
"resistencia" y "falta de roturas" como variables predictoras en el modelo de regresión.
El investigador determina que estas dos variables tienen una fuerte correlación negativa
y un FIV mayor que 5. En este punto, el investigador podría intentar eliminar cualquiera
de las dos variables. El investigador también podría usar o Análisis de los componentes
principales para usar estas variables relacionadas para crear un componente de
"durabilidad".

Soluciones al problema de la multicolinealidad:

Existen una serie de métodos para corregir este problema. Es importante señalar que si
nuestro modelo es predictivo (no estructural) la multicolinealidad no se consideraría un
problema ya que la relación entre variables puede mantenerse en el futuro. Las técnicas
más utilizadas si queremos solucionar esto son:

Imponer restricciones al modelo: restringir los parámetros de variables donde existe


colinealidad o bien restringir el modelo original.

Componentes principales: obtener un conjunto de variables a partir de las originales y


sin caer en pérdida de información. Estas nuevas deben cumplir la condición de ser
ortogonales entre sí.

Eliminar variables: el hecho de suprimir variables puede acabar con el problema, pero
cuidado, tenemos que tener en cuenta si el hecho de omitirlas puede ser un problema más
grave por su relevancia.

Transformar variables: obtener primeras diferencias o retornos es un método


generalmente aplicado y no cae en algunas de las limitaciones de los métodos anteriores.
Igualmente debemos tener en cuenta que una variable puede estar relacionada con otra de
manera original y no en su transformación.

En conclusión, la multicolinealidad es un aspecto que debemos tener en cuenta a la hora


de realizar nuestros modelos (especialmente si estos son estructurales). Ahora bien,
cuando exista la presencia de esta, buscaremos eliminarla a través de transformaciones
de precios que nos permitan trabajar en las mejores condiciones. Este procedimiento se
puede hacer de manera muy simple a través de un software sin hacer cálculos complejos,
como por ejemplo puede ser R Studio.
Detección de la Multicolinealidad:

Lo importante no es si existe o no colinealidad, sino los diferentes grados de colinealidad


que existen. La multicolinealidad es una caract de las muestras no de la población. Entre
las distintas formas de detectar multicolinealidad están las sgts:

1. La presencia de un R2 elevado y razones t poco significativas. La multicolinealidad


se considera dañina solo cuando la totalidad de las influencias de las variables
explicativas no se pueden separar.2. Altas correlaciones entre parejas de regresores:
Si el coef de correlación de orden cero es grande mayor que 0.8 la multicolinealidad es
un problema grave. Las correlaciones de orden cero elevadas son una condición suficiente
pero no necesaria para que exista la multicolinealidad, ya que esta tb se puede presentar
con coef de correlaciones bajos, es decir inferiores a 0.5.

2. Cuando los modelos tienen más de dos variables explicativas los coef de correlación
de orden cero no son una herramienta segura para determinar si existe o no
multicolinealidad, a diferencia si hay solo 2 variables. explicativas donde si lo son.

3. Regresiones auxiliares: Una forma de determinar cual variable. Está correlacionada


con las otras var. X es realizar una regresión de cada Xi sobre la otra variable. X y calcular
el R2 correspondiente. Cada una de estas regresiones se llama regresiones auxiliares. Para
determinar si la variable se deja o no en el modelo se debe comparar el F calculado con
el Fi crítico al nivel de significancia seleccionado. Así si el F calculado no excede al F
crítico la variable no es colonial con las demás X, y se mantiene en el modelo; en caso
contrario se saca del modelo ya que la variable sería colonial.

4. Valores propios e índice de condición:

Número de condición = k = Máximo valor propio

Mínimo valor propio

Indice de condición (IC) = √ k

Sesgo de especificación:

En el análisis empírico, el investigador frecuentemente empieza con un modelo de


regresión razonable que puede no ser el más "perfecto". Después del análisis de regresión,
el investigador haría el "examen post-mortem" para encontrar si los resultados están de
acuerdo con las expectativas a priori. De no ser así, se iniciaría "la cirugía". Por ejemplo,
el investigador puede graficar los residuales ui obtenidos de la regresión ajustada y puede
observar patrones tales como los presentados en las figuras 12.1a a d. Estos residuales
(que son aproximaciones de las ui) pueden sugerir algunas variables que fueron
originalmente candidatas pero que no estuvieron incluídas en el modelo por una
diversidad de razones, deben ser incluídas. Este es el caso del sesgo de especificación
ocasionado por la variable excluida. Frecuentemente, la inclusión de tres variables
elimina el patrón de correlación observado entre los residuales.

Normalidad de los residuos tipificados. Podemos contrastarla mediante:


La prueba de Kolmogorff-Smirnov, con gráficos de normalidad de tipo Q-
Q (cuantiles) o P-P(proporciones) (ver explorar) gráficamente en Analizar-
Regresión-Lineal-Gráficos. La opción Histograma: añade una curva N(0,1)
Gráfico de Probabilidad Normal de tipo P-P: Representa las proporciones
acumuladas de la variable esperada respecto a las proporciones acumuladas
de la variable observada.

No-colinealidad, es decir la inexistencia de colinealidad. Esta puede ser:


Colinealidad perfecta si una de las variables independientes tiene una
relación lineal con otra/as independientes, colinealidad parcial si entre las
variables independientes existen altas correlaciones.

Das könnte Ihnen auch gefallen