Beruflich Dokumente
Kultur Dokumente
MULTICOLINEALIDAD EN MODELOS DE
REGRESIÓN LINEAL
José Soto Liria1
José García Pérez2 - nikita97@larural.es
Antonio S. Andújar Rodríguez2 - andujar@ualm.es
1
Catedrático de Matemáticas de Enseñanza Secundaria
2
Universidad de Almería
Resumen:
1
Utilizaremos como sinónimos los términos colinealidad y multicolinealidad.
2
1.- Introducción
Varios son los métodos que se presentan en la literatura al uso para abordar este tipo de
problemas, entre ellos la regresión cresta (Hoerl and Kennard, 1970; García Ferrer, 1977; Brown
and Beattie, 1975; MacDonal and Galarneau, 1975; etc.), componentes principales (Kendall,1957;
Massy, 1965; Farrar and Glauber, 1967; Silvey, 1969; Jhonston, 1989,etc), inversa generalizada
(D.W. Marquard, 1970), eliminación de variables, etc.
Dado que a través del número métrico2 es posible detectar cuál de las variables exógenas es
“la mayor” causante de la multicolinealidad, desde una interpretación geométrica, dicha variable es
la “más próxima”, en el sentido euclídeo, al hiperplano generado por las demás. Supongamos sin
pérdida de generalidad que esa variable es X 1 . En principio tenemos dos opciones: a) eliminar la
X1
e1
X-1
Figura 1
2
Véase ACERCA DE LA DETECCIÓN DE LA COLINEALIDAD EN MODELOS DE REGRESIÓN
LINEAL, XIII Congreso de ASEPELT de los mismos autores .
3
variable si consideramos que su aportación a la explicación de la variable endógena Y está recogida
{ }
por el resto de las variables X 2 , X 3 , L , X p al ser cuasi combinación lineal de ellas, Figura 1,
o b) si la opción a) no parece adecuada porque tenemos interés en que dicha variable permanezca
en el modelo, nuestra propuesta es modificarla ligeramente en el sentido de aumentar el ángulo que
colinealidad como se muestra en la Figura 2 aunque las proyecciones de X 1 (el vector de datos
originales) y X 1* (el vector con los datos corregidos) sobre el hiperplano X 2 , X 3 ,L , X p son la
misma X̂ 1 .
X 1 = Xˆ 1 + e1 ; X 1* = Xˆ 1 + (λ1 + 1 ) e1 = X 1 + λ1 e1 (1)
o, en función de los módulos de los vectores y aplicando el teorema de Pítágoras,
X 12 = Xˆ 12 + e12
El problema con la variable X 1 es que al ser muy colineal con las demás, al hacer la
regresión de X 1 sobre las restantes, el ajuste será muy bueno y si llamamos R12 al coeficiente de
determinación que mide la bondad del ajuste, su valor será próximo a 1 y, por tanto, el
X *1 l1 1
e
X1
e1
-
X1
Figura 2
4
el FIV1 muy grande por lo que nuestro objetivo es modificar la variable X 1 a X 1* con el objetivo de
disminuir el FIV* 1.
2 2
1 Xˆ 12 e1 e
El FIV1= . Si tenemos en cuenta que R1 =
2
=1 − 2 ⇒ 1 − R = 1 2 y,
2
1 − R12
1
X12 X1 X1
1 X 12
por tanto, = . Supongamos que aceptamos un FIV* 1 = F* 1 para la nueva variable X1* .
1 − R12 e12
1 X 1* 2 X 1*2 X 12 + (β 12 − 1)e12
= = = < FIV* 1 = F* 1 donde e1* = β 1 e1 ; β 1 ≥ 1
1 − R1 β 1 e1 β 1 e1
*2 *2 2 *2 2 2
e1
( ) ( )
X12 + β12 −1 e12 < F1 β12 e12 ; ⇒ X12 − e12 < F1 β12 e12 − β12 e12 = F1 −1 β12 e12
X 12 − e12 X 12 − e12
< β 12 ⇒ β1 ≥ +
( ) ( )
(3)
e12 F1 − 1 e12 F1 − 1
La situación ideal sería conseguir un F1 =1, que no hubiera inflación de la varianza con
respecto a mínimos cuadrados, pero eso supondría una modificación muy grande en los datos de la
variable correspondiente (en este caso X 1 ). Según distintos autores, se consideran aceptables en
algunos casos valores del FIV <10 y en otros, más exigentes, consideran aceptable FIV < 5 lo que
ya se va aproximando a la situación ideal que nunca se podrá conseguir porque no debemos olvidar
que estamos trabajando en presencia de fuerte colinealidad.
5
3.-Caso práctico. Presentación y soluciones clásicas.
Hemos elegido para nuestro estudio un modelo econométrico del libro CIEN EJERCICIOS
DE ECONOMETRÍA, Pena Trapero, J.B. y otros, (1999), Ediciones Pirámide.
6
3.1.- Detección de la colinealidad.
En primer lugar, puede observarse que se trata de un modelo globalmente bien estimado. El
estadístico F nos indica que las variables conjuntamente son significativas. El valor del coeficiente
de determinación R2=0.998971 y al analizar la significación individual de las variables explicativas
se puede comprobar que CONS y GPER no son significativas en los ingresos de explotación.
Cuando estas dos características se presentan de forma simultánea tenemos indicios de la
presencia de colinealidad en el modelo
============================================================
LS // Dependent Variable is INEX
Sample: 1 17
Included observations: 17
============================================================
Variable Coefficient Std. Error t-Statistic Prob.
============================================================
C 3729.609 3240.869 1.150805 0.2705
CONS 0.392848 0.276641 1.420067 0.1791
GPER 0.663397 0.415687 1.595907 0.1345
GEX 0.648393 0.218018 2.974033 0.0108
============================================================
R-squared 0.998971 Mean dependent var 235017.0
Adjusted R-squared 0.998734 S.D. dependent var 279592.1
S.E. of regression 9949.564 Akaike info criterion 18.61289
Sum squared resid 1.29E+09 Schwarz criterion 18.80894
Log likelihood -178.3315 F-statistic 4207.203
Durbin-Watson stat 1.589402 Prob(F-statistic) 0.000000
============================================================
Tabla 2
======================================
CONS GPER GEX
======================================
CONS 1.000000 0.990380 0.997769
GPER 0.990380 1.000000 0.995341
GEX 0.997769 0.995341 1.000000
======================================
Tabla 3
7
De esta matriz puede calcularse el determinante Rxx= 0.000033924, valor muy próximo a
cero que es otro de los indicativos de la posible existencia de colinealidad en el modelo. Además la
matriz refleja fuerte correlación entre las variables que se han considerado en el modelo.
c) Número de condición
Si calculamos los autovalores de la matriz de correlación obtenemos
λ1 = 0.009851
λ2 = 0.001152
λ3 =2.988997
por lo que sus índices de condición son IC1= 17.41869, IC2=50.93737, IC3 = 1. Al ser el Número de
condición (el mayor de los Índices de condición ) mayor que 30 es otro indicador de la presencia de
colinealidad fuerte entre los regresores.
σb2i 1
=
σ 2
bOR 1 − Ri2
lo cual quiere decir que para calcularla debemos hacer unas regresiones auxiliares de cada una de
las variables con respecto a las demás.
Haciendo estas regresiones obtenemos los siguientes coeficientes de correlación:
2
RCONS = 0 .996352 ; RGEX
2
= 0.998229 ; R GPER
2
= 0.992389 (4)
por lo que los FIV correspondientes son
FIV CONS = 274 .12 ; FIV GEX = 564 .65 ; FIV GPER = 131 .39 ; (5)
Del análisis de estos valores se deduce que la varianza de los coeficientes de regresión en el
modelo original se encuentra muy inflada lo que originaría intervalos de confianza tan amplios que
podríamos tomar como no significativos coeficientes que sí podrían serlo.
8
m = R 2 − ∑ (R 2 −R−2 j )
donde
R 2 es el coeficiente de determinación del modelo completo.
regresor X j
Después de hacer las regresiones auxiliares correspondientes obtenemos los siguientes
resultados
por lo que m = 0 .997909 que dista mucho de su valor óptimo para regresores ortornormales que es
cero. Por tanto, también esta medida contribuye a admitir la presencia de multicolinealidad en el
modelo.
f) Índices métricos
Si calculamos los Índices métricos para las variables del modelo obtenemos los
siguientes resultados:
IM CON = 0 .06040 ; IM GPER = 0 .08724 ; IM GEX = 0.04208 ; (6)
que corresponden a ángulos aproximados de 3.46º, 5º y 2.4º respectivamente. De los experimentos
realizados podemos considerar que una variable altamente colineal con las demás si su Índice
métrico es menor o igual a 0.085 equivalente a un ángulo ≤ 5º . En este caso todas las variables lo
cumplen pero la más afectada es GEX por lo que esta será la que elegiremos para actuar sobre ella.
9
4.- Solución por el “método de alzado”.
A partir de la regresión lineal de la variable GEX sobre CONS y GPER (incluimos también
el término independiente) obtenemos la variable GEXE (gastos de explotación estimados ) y la
variable RGEX (residuos gastos de explotación) donde RGEX=GEX – GEXE. Además hemos
calculado FIVGEX = 564.65 y el Índice métrico asociado IM GEX = 0.04208 ambos indicadores
de la fuerte colinealidad entre esta variable y las restantes por lo que hemos decidido actuar sobre
ella en el sentido de lo expuesto en (1) y calculado los correspondientes valores de λ y β según (3)
obteniendo los valores β GEX ≅ 10 . y λ GEX ≅ 9 . Generamos una nueva variable a la que llamamos
GEXC (gastos de explotación corregidos ) donde GEXC = GEX + 9 RGEX y hacemos la regresión
de INEX sobre CONS, GPER, GEXC obteniendo los resultados de la Tabla 4
===========================================================
LS // Dependent Variable is INEX
Sample: 1 17
Included observations: 17
===========================================================
Variable Coefficient Std. Error t-Statistic Prob.
===========================================================
C 2988.022 3229.123 0.925335 0.3717
CONS 1.059048 0.123291 8.589795 0.0000
GPER 1.527064 0.264047 5.783308 0.0001
GEXC 0.064839 0.021802 2.974033 0.0108
===========================================================
10
Teorema:
Supongamos que tenemos los modelos Y = β X + ε e Y = β X * + ε * en los que X
representa la matriz cuyas columnas son los valores de las variables originales y X * la matriz
donde una de las variables originales se ha modificado por el método de alzado. Sean
−1
(
βˆ = ( X ' X ) X 'Y y βˆ * = X * ' X * ) −1
X * 'Y los estimadores por mínimos cuadrados ordinarios
de ambos modelos respectivamente. En ese caso se verifica que sus correspondientes coeficientes
de determinación R2 y R *2 son iguales.
SCE SCE *
En efecto, sean R 2 = y R *2 =
SCT SCT *
variado y que SCE = β̂ ' X 'Y − nY y SCE * = βˆ * ' X * ' Y − nY que serán iguales si β̂ ' X 'Y =
βˆ * ' X * 'Y lo que equivale a que las formas cuadráticas Y ' X ( X ' X ) X 'Y =Y ' X * X * ' X *
−1
( ) −1
X * 'Y
sean iguales lo que ocurrirá si sus respectivas matrices son iguales, es decir, X ( X ' X )−1 X ' =
(
X * X *' X * ) −1
X * ' . Pero estas matrices son simétricas, idempotentes y de rango p por lo que sus
Por el teorema de Cayley-Hamilton las matrices A = X ( X ' X )−1 X ' y A* = X * X * ' X * ( ) X' −1 *
Desarrollando estos polinomios resultan tener el mismo grado y los mismos coeficientes de lo que
se deduce que A= A* como pretendíamos demostrar y, como consecuencia, queda probado que
los coeficientes de determinación de ambos modelos son iguales. Además, SCR= SCR* por lo que
SCE SCE*
p −1 p −1
los estadísticos F = y F* = *
también son iguales.
SCR SCR
n− p n− p
11
Si analizamos la nueva matriz de correlación de los regresores, como era de esperar han
disminuido la variable GEXC con respecto a las demás. Además el determinante de dicha matriz es
ahora | Rxxc| =0.00288 que aunque sigue siendo pequeño es del orden de 85 veces mayor que el de la
matriz de correlación con las variables originales, Tabla 3.
=====================================
CONS GPER GEX
=====================================
CONS 1.000000 0.990380 0.920335
GPER 0.990380 1.000000 0.918095
GEXC 0.920335 0.918095 1.000000
=====================================
Tabla 5
En cuanto a los autovalores e índices de condición de la matriz de correlación, tenemos
µ1 = 0.009602
µ2 = 0.104120
µ3 = 2.886278
y los correspondientes índices de condición IC1 = 17.33, IC2 = 5.26, IC3 = 1 lo que supone que el
número de condición es 17.33, menor que 30 lo que en todo caso puede suponer un grado de
colinealidad débil.
*2
RCONS = 0 .981632 *2
FIV CONS = 54 .35
*2
RGPER = 0 .981138 *2
FIV GPER= 53
*2
RGEXC = 0 .849300 *2
FIV GEXC= 6.63
Si estos valores se comparan con los de ( 4) y (5 ) observamos la sensible reducción que han
experimentado los FIV, especialmente el correspondiente a la variable que hemos modificado.
12
CONS: 0.998971 - 0.993131 = 0.0058
GPER: 0.998971 - 0.996324 = 0.0026
GEXC: 0.998971 - 0.998271 = 0.00070
lo que supone que las dos primeras se han incrementado en un factor de escala de alrededor de 10
mientras que la tercera, como es lógico en este caso, no ha variado. El índice de Theil vale
m = 0.989871 que no se aleja mucho del calculado en el modelo original.
En cuanto a los índices métricos en este caso son
que corresponden a ángulos de 7.79º, 7.89º y 22.84º, todos ellos se alejan de los 5º que suponen
colinealidad fuerte, especialmente significativo es el que corresponde a la variable que hemos
corregido.
Calculemos X* ’X*
13
X '1 X 1 + k1 X '1 X 2 X '1 X 3 X '1 X 1 X '1 X 2 X '1 X 3 k1 0 0
X' X X '2 X 2 + k 2 X '2 X 3 = X ' 2 X 1 X '2 X 2 X ' 2 X 3 + 0 k2 0 = X ' X + K
2 1
ki
λ 2i + 2 λ i − = 0 ; resolviendo esta ecuación de segundo grado, obtenemos una raíz
ei2
positiva
ki
λi = −1+ 1 +
ei2
14
k
Si hacemos ki =k , ∀i llegamos a obtener λ i = − 1 + 1 + , valores que nos llevarían al
ei2
mismo k en la diagonal principal de la matriz K; si además imponemos la condición e’i.ej =0, i≠ j
llegamos a la matriz del estimador cresta
X * ' X * = X ' X + kI
La consecuencia fundamental de este trabajo es que, modificando una sola de las variables
exógenas (las p-1 restantes permanecen con los valores originales), reducimos sensiblemente la
colinealidad y obtenemos unas estimaciones de los parámetros que conservan el coeficiente de
determinación del modelo original y nos permiten hacer contrastes de la significación individual de
los parámetros y obtener intervalos de confianza.
15
BIBLIOGRAFÍA:
[ 1] Allen, D.M. (1974). The Relationship Between Variable Selection an Data Augmentation
and a Method for Prediction. Technometrics , 16, pp 125-127.
[ 2] Baye, M.R.; Parker, D.F. (1984). Combining Ridge and Principal Component Tegression: A
Money Demand Illustration, Communication in Statistics: Theory and Methods, 13(2), pp
197-205.
[ 4] Belsey, D.A. et. all. (1980). Regression Diagnosis: Identifying Influencial Data and
Sources of Collineariry. John Wiley and Sons
[ 5] Brown, P.Z (1977). Centering and scaling in ridge regression. Technometrics , 19, pp 35-36
[ 6] Brown, William G.; Beattie, Bruce R., (1975), Improving Estimates of Economics
Parameters by Use of Ridge Regression with Production Function Applications, American
Journal of Agricultural Economics, 57(1), pp 21-32
[ 7] Casella, George, (1985), Condition Numbers and Minimax Ridge Regression Estimators,
Journal of the American Statistical Association, 80(391), pp 753-758
[ 9] Draper, N.R. and Van Nostrand, R.C. (1979). Ridge Regression and James-Stein
Estimation: Review and Comments. Technometrics, 21(4), pp 451-466.
[10] Farebrother, R.W. (1975). The Minimun Mean Square Error Linear Estimator and Ridge
Regression. Technometrics , 17, pp 127-128.
[11] Farebrother, R.W. (1976). Further result on the mean square error of ridge regression.
Journal of Royal Statistical Society, B38, pp 248-250.
[12] Farrar, D.E and Glauber, R.R (1967). Multicollinearity in regression analysis: the problem
revisited. Review of Economics and Statistics, 49, pp 92-107
[13] Feldstein, M.S. (1973)Multicollinearity and the mean squared error of alternative
estimators. Econometrica, 41, pp 337-346
[14] Feig, Douglas G, (1978), Ridge Regression: When Biased Estimation Is Better, Social
Science Quarterly, 58(4), pp 708-716.
[16] Gibbons, Diane Galarneau, (1981), A Simulation Study of Some Ridge Estimators, Journal
of the American Statistical Association, 76(373), pp 131-139
16
[17] Hoerl, A.E. and Kennard, R.W. (1970), Ridge Regression: Biased Estimation for
Nonorthogonal Problems, Technometrics, 12, pp 55-67
[18] Hoerl, A.E. and Kennard, R.W. (1970), Ridge Regression: Applications to Nonorthogonal
problems, Technometrics, 12, pp 69-82.
[19] Hoerl, A.E. and Kennard, R.W. (1976), Ridge Regression iterative estimation of the biasing
parameter. Communications in Statistics, A5, pp 77-78
[20] Lawless, J.F, (1981), Mean Squared Error Properties of Genealized Ridge Estimators,
Journal of the American Statistical Association, 76(374), pp 462-466
[21] Leamer, E.E. (1975). A result on sign of restrictec least squares estimates. Journal of
Econometrics, 3, pp 387-390
[22] Lee, T. and Campbell, D.B. (1985), Selecting the Optimun k in Ridge Regression,
Communication in Statistics, Theory and Methods, 14 pp 1589-1604
[23] Lott, W.F (1973) The Optimal Set of Principal Component Restrictions on a Least Squares
Regression, Communication in Statistics, 2, pp 449-464
[24] Marquard, D.W. (1970). Generalized Inverses, Ridge Regression, Biased Linear Estimation
and Nonlinear Estimation, Technometrics, 12, 3, pp 590-612.
[25] Massy, W.I. (1965). Principal Component Regression in Explanatory Statistical Research,
Journal of American Statistical Association, 60, pp 234-256.
[26] McDonald, Gary G.; Galarneau, Diane I., (1975), A Monte Carlo Evaluation of Some
Ridge-Type Estimators, Journal of the American Statistical Association, 70(350), pp 407-
416
[27] Oman, S.D. (1981). A confidence bound aproach to choosing the biasing parameter in
ridge regression. Journal of the American Statistical Association, 76, pp 452-461
[28] Silvey, S.D. (1969). Multicollinearity and Imprecise Estimation. Journal of Statistical
Society, Ser B, 31, pp 539-552.
[29] Smith, G and Campbell, F. (1980). A critique of some ridge regression methods. Journal of
the American Statistical Association, 75, pp 74-81, discussion, pp 81-103
[32] Vinod, H.D. (1978). A Survey of ridge regression and related techniques for improvement
over ordinary least squares. Review odf Economics and Statistics, 60, pp 121-131.
17
18