Sie sind auf Seite 1von 17

REGRESIÓN LINEAL MÚLTIPLE

 ¿Qué es la regresión lineal múltiple?

Es posible analizar la relación entre dos o más variables a través de ecuaciones,


lo que se denomina regresión múltiple o regresión lineal múltiple.

La regresión lineal múltiple es la gran técnica estadística para comprobar hipótesis


y relaciones causales.

 Condiciones que se deben cumplir para poder aplicar la regresión


lineal múltiple

1. La variable dependiente (resultado) debe ser ordinal o escalar, es decir, que


las categorías de la variable tengan orden interno o jerarquía, por ejemplo:
nivel de ingresos, peso, número de hijos, etc.
2. Las variables independientes (causas) deben ser ordinales o escalares.
3. Hay otras condiciones como: las variables independientes no puede estar
altamente correlacionadas entre sí, las relaciones entre las causas y el
resultado deben ser lineales, todas variables deben seguir la distribución
normal y deben tener varianzas iguales. Estas condiciones no son tan
estrictas y hay maneras de tratar los datos si se incumple.

 Otros criterios que se deben de cumplir serán los siguientes:


ƒ
 Tener sentido numérico.ƒ
 No deberá de haber variables repetidas o redundantes.ƒ
 Las variables introducidas en el modelo deberán de tener una cierta
justificación teórica.
 La relación entre variables explicativas en el modelo y casos debe de ser
como mínimo de 1 a 10. ƒ
 La relación de las variables explicativas con la variable dependiente debe
de ser lineal, es decir, proporcional.

 Análisis de Regresión Lineal Múltiple

Este nos permite establecer la relación que se produce entre una variable
dependiente Y y un conjunto de variables independientes (X1, X2, ... XK).

El análisis de regresión lineal múltiple, a diferencia del simple, se aproxima más a


situaciones de análisis real puesto que los fenómenos, hechos y procesos
sociales, por definición, son complejos y, en consecuencia, deben ser explicados
en la medida de lo posible por la serie de variables que, directa e indirectamente,
participan en su concreción.

A partir de los análisis de regresión lineal múltiple podemos:


 Identificar qué variables independientes (causas) explican una variable
dependiente (resultado).
 Comparar y comprobar modelos causales.
 Predecir valores de una variable, es decir, a partir de unas características
predecir de forma aproximada un comportamiento o estado.

 El Modelo de regresión lineal múltiple

El modelo de regresión lineal múltiple es idéntico al modelo de regresión lineal


simple, con la única diferencia de que aparecen más variables explicativas:

Modelo de regresión simple:

Modelo de regresión múltiple:

Otra manera de encontrarla:

Significado de los parámetros:

β0= Valor medio de la variable respuesta cuando X1 = ... = Xk = 0.

Muy a menudo, el parámetro β0 no tiene una interpretación intuitiva de interés.

βj= Mide la variación media que experimenta la variable respuesta cuando Xj


aumenta una unidad (j = 1, ..., k).

La interpretación intuitiva de βj (j = 1, ..., k) siempre es muy interesante.

 Hipótesis
Para poder obtener y utilizar herramientas estadísticas que nos permitan
tomar decisiones objetivas y razonadas, necesitamos que el modelo se
ajuste a unas determinadas hipótesis. Estas hipótesis iniciales del modelo
son las siguientes:

Normalidad: Las observaciones Yi siguen una distribución Normal.

Linealidad: Los valores medios de la variable respuesta dependen


linealmente de los valores de X1, ...Xk: E[Yi ] = β0 + β1x1i + ... + βjxji + ... +
βkxki.

Homogeneidad o igualdad de varianzas (homocedasticidad): V (Yi) = σ 2.


Las observaciones son independientes.

Todas estas hipótesis se pueden expresar abreviadamente de la siguiente forma:


Yi ∼ N (β0 + β1x1i + ... + βjxji + ... + βkxki; σ 2) independientes.

Ausencia de multicolinealidad: No existen relaciones lineales entre las variables


explicativas X1, ..., Xk.

La ausencia de multicolinealidad constituye una hipótesis completamente nueva y


su significado es el siguiente:

Por un lado, si alguna de las variables explicativas fuera combinación lineal de las
otras, el modelo, obviamente, podría simplificarse. Pero eso no es lo más
importante.

La importancia practica de exigir ausencia de multicolinealidad procede del hecho


de que, si alguna de las variables explicativas está fuertemente correlacionada con
otras, se pueden producir distorsiones en los resultados.

Es importante que estas hipótesis iniciales del modelo se cumplan


(aproximadamente) para que las conclusiones que obtengamos no sean una
barbaridad.

Llegados a este punto, se puede abordar la cuestión de si tenemos suficientes


datos (suficiente información muestral) para abordar el análisis estadístico de este
modelo. La regla básica para responder a esto es muy fácil de recordar (y de
entender): en general, necesitaremos al menos tantos datos como parámetros
queremos estimar en el modelo. En este modelo, tenemos:

* Número de datos= n
*Número de parámetros= k+2

Por lo tanto, necesitamos, al menos, n = k + 2 conjuntos de datos.


 Metodología:
La metodología o plan de trabajo que seguiremos en el análisis
estadístico de un modelo de regresión múltiple es el siguiente:

(1) Diagnosis de las hipótesis iniciales del modelo.

(2) Estimación puntual de los parámetros del modelo.

(3) Intervalos de confianza para estimar los parámetros del modelo.

(4) Contrastes de hipótesis.

(5) Análisis de la varianza.

(6) Evaluación del ajuste proporcionado por el modelo de regresión ajustado.

Otro tipo de Metodología:

“Para selección de modelos de regresión lineal múltiple basada en métodos


multiobjetivo”.

La propuesta de selección de MRLM.

4.1. Algoritmo.

El algoritmo MERLIND (Modelos de Regresión Lineal No Dominados), se basa en


los principios operativos de la programación compromiso utilizando la métrica L 1 y
L∞, pues permite acotar el conjunto eficiente brindando un rango de soluciones no-
equilibradas y equilibradas respectivamente; asimismo utiliza el enfoque de
programación meta lexicográfico, para garantizar que las soluciones no
desmejoren ciertos niveles de logro. A continuación, se explica los pasos del
algoritmo.

Paso 0. Inicialización.
a. Partir de una variable dependiente Y, y de un conjunto Xk de
variables independientes sugeridas por al menos una teoría que
explique el fenómeno.
b. Preguntar al analista:
b1. ¿Cuál es el nivel de significación a utilizar para las pruebas estadísticas?: 1% o
5%.

b2. ¿Cuáles son los signos esperados en la regresión múltiple para los k
coeficientes de cada variable independiente?
b3. ¿Existe alguna restricción teórica a satisfacer entre los coeficientes? En caso
de ser afirmativa la respuesta indicar la(s) restricción(es).

Ir al paso 1.

Paso 1. Generación de modelos.

a. Opcionalmente generar un conjunto de variables transformadas (logaritmos,


diferencias, rezagos o combinaciones de estas) a partir de los datos originales.

b. Generar las 2k-1 combinaciones posibles de variables incluyendo las variables


transformadas si es el caso.

c. Estimar los modelos de regresión correspondientes incluyendo o no el


intercepto.

d. Registrar los resultados observados de los siguientes criterios de selección para


cada modelo generado, según los siguientes indicadores:

• Signos observados de los coeficientes: positivos o negativos.


• Prueba de hipótesis sobre coeficientes individuales: p-valor del estadístico t.
• Prueba de significancia global: p-valor del estadístico F.
• Prueba de hipótesis para modelos restringidos: F global y F crítico.
• Coeficiente de determinación ajustado: valor del R2 ajustado.
• Prueba de Durbin-Watson: valor del DW y p-valor.
• Barras de AC y PAC fuera o dentro de las bandas de confianza.
• Prueba de Heteroscedasticidad de White con término de error: valor del n·R 2 y p-
valor.
• Contraste de asimetría y curtosis de Jarque-Bera: valor del estadístico JB y p-
valor.
• Prueba de normalidad: Kolmogorov-Smirnov: valor del estadístico K-S y p-valor.
• Prueba de multicolinealidad: valor del factor de inflación de varianza.
• Prueba de multicolinealidad: Índice de condición.
• Criterio Cp de Mallow: valor del Cp.
• Criterio CIS de Schwarz: valor del CIS.

Ir al paso 2.

Paso 2. Matriz de decisión.


a. Para cada modelo, reflejar la puntuación asociada al grado de cumplimiento de
cada criterio, para ello utilizar la matriz de conversión de puntos que se muestra en
la Tabla 3.
b. Organizar los resultados de los puntajes de los modelos, en una matriz de Zij
como se muestra en la Tabla 2.

Paso 3. Distancias normalizadas.

a. Fijar el valor ideal en 3 puntos y el anti-ideal en 1 punto.


b. Calcular las distancias normalizadas:

c. Agregar las distancias normalizadas de las pruebas de los k=7 bloques de


criterios:
c.1. Coherencia teórica:

para i=1,2,…,m y j=1


c.2. Coherencia estadística:

para i=1,2,…,m y j=2,3,…,5


c.3. Autocorrelación:

para i=1,2,…,m y para j=6,7


c.4. Heteroscedasticidad:

para i=1,2,…,m y j=8


c.5. Normalidad:

para i=1,2,…,m y j=9,10


c.6. Multicolinealidad:

6 para i=1,2,…,m y j=11,12


c.7. Otros criterios:

Ir al paso 4.

Paso 4. Conjunto compromiso.

a. Para el conjunto L1, se define la siguiente función de logro lexicográfica: esos


índices proporcionan las ecuaciones de regresión múltiple que, cumpliendo con la
coherencia teórica, poseen una mínima distancia global y simultáneamente,
brindan una solución equilibrada en el resto de los criterios.

 Ejemplos:
1.- “Una desea estimar los gastos en alimentación de una familia en base a
la información que proporcionan las variables regresoras X1 =“ingresos
mensuales” y X2 =“número de miembros de la familia”. Para ello se recoge una
muestra aleatoria simple de 15 familias cuyos resultados son los de la tabla
adjunta (El gasto e ingreso está dado en cientos de miles de pesetas)”.

Gasto Ingreso Tamaño Gasto Ingreso Tamaño

043 21 3 129 89 3

031 11 4 035 24 2
032 09 5 035 12 4

046 16 4 078 47 3

125 62 4 043 35 2

044 23 3 047 29 3

052 18 6 038 14 4

029 10 5

Los datos en forma matricial:

Con estos datos se obtiene que:

Por tanto:

De donde:
El modelo de regresión lineal que se obtiene es:

A partir de esta ecuación se obtienen las predicciones y los residuos asociados a


las observaciones muestrales. Para la primera
observación se obtiene:

Razonando así en todos los puntos muestrales se obtiene:

Calculo de scR

También se puede calcular la scR de la siguiente forma

t = tY - tXtY = yi2 - 0 yi - 1 yix1i - 2 yix2i =

= 5'7733 - . 8'070 - 0'149 . 32'063 - 0'077 . 28'960

Se calculan los intervalos de confianza de los parámetros del modelo al 90%,


Para la varianza, 2

~ 122

< < 21'0298


< 2 < 0'0138

La varianza de los estimadores del modelo es

de donde se deduce que

= 0'00816 = 0'0903

= 0' 000099 = 0'0099

= 0' 00040 = 0'0201

Intervalo de confianza para 0


t12 . 0'0903 <-0'160 - . 0'0903
0 < t12

- 0'321 < 0 < 0'001


Intervalo de confianza para 1 (ingreso)
t12 . 0'0099 < 0'149 - . 0'0099
1 < t12

0'1314 < 1 < 0'1666


Contrate H0 1 = 0, “la variable ingreso no influye” (contraste individual de la t)

Intervalo de confianza para 2 (tamaño)


t12 . 0'0201 < 0'077 - . 0'0201
2 < t12

0'0412 < 2 < 0'1128


Contrate H0 2 = 0, “la variable tamaño no influye” (contraste individual de la t)

Tabla Anova,

de donde
Tabla ANOVA

Fuentes de Suma de Grados de Varianzas


variación Cuadrados Libertad
scE (por el 13595 2 e2 = 0'6797
modelo)
scR (Residual) 00721 12 R2 = 0'0060
scG (Global) 14316 14 y2 = 0'1023

Con estos datos se obtiene el siguiente contraste conjunto de la F

El contraste conjunto de la F indica claramente la influencia del modelo en la


variable respuesta. Por tanto, de los contrastes individuales y del conjunto se
deduce la influencia de cada una de las dos variables regresoras y la influencia
conjunta del modelo.
Ahora se calcula el contraste individual de la F respecto a la
variable x2=“tamaño”, contraste que es equivalente al contraste individual de
la t. Para ello, se obtiene la regresión de la variable gasto respecto a la variable
ingreso,

la tabla ANOVA de este modelo es

Tabla ANOVA

Fuentes de Suma de Grados de Varianzas


Variacion Cuadrados Libertad
scE (ingreso) 1’2716 1 2
e = 1'2716
scR (residual) 0’1600 13 R
2 = 0'0123
scG (global) 1’4316 14 2
y = 0'1022

La variabilidad incremental debida a la variable diámetro es

este valor indica lo que aumenta la variabilidad explicada por el modelo al


introducir la variable tamaño.

Para contrastar la influencia o no de esta variable se utiliza el estadístico


que da el mismo p-valor que en el contraste individual de la t (hay pequeñas
diferencias por los resondeos).

Cálculo de los coeficientes de correlación:

El coeficiente de determinación,

El coeficiente de correlación múltiple

El coeficiente de determinación corregido por el número de grados de libertad.

El coeficiente de correlación simple entre las variables gasto e ingreso,

Este coeficiente es una medida de la relación lineal existente entre las variables
gasto e ingreso. También se puede calcular a partir del coeficiente de
determinación de la siguiente regresión

La tabla ANOVA del modelo es:

Fuentes de Suma de Grados de Varianzas


Ingreso Cuadrados Libertad
scE (ingreso) 1’2716 1 e2 = 1'2716
scR (residual) 0’1600 13 R2 = 0'0123
scG (global) 1’4316 14 y2 = 0'1022
Análogamente, el coeficiente de correlación simple entre las variables gasto y
tamaño es,

Coeficiente de correlación parcial entre las variables gasto e ingreso.

Otra forma más compleja de calcular este coeficiente es la siguiente: se obtienen


las siguientes regresiones y se guardan los residuos,

= 0'6713 - 0'0 363 tamaño + e gasto. Tamaño.

= 5'5923 - 07615 tamaño + e ingreso. Tamaño.

Ahora el coeficiente de correlación parcial entre las variables gasto e ingreso se


obtiene como el coeficiente de correlación simple entre las variables de è gasto.
Tamaño y è ingreso. Tamaño.

este coeficiente mide la relación entre las variables gasto e ingreso libres de la
influencia de la variable tamaño.
Análogamente se obtiene que:

Estimación de la media condicionada.


“Estimar el gasto medio en alimentación de una familia con unos ingresos de x1 =
3'0 y un tamaño de x2 = 4.
Esto es:
”.
Aplicando el modelo de regresión:

Se calcula el valor de influencia asociado al dato h = =

= = 0'07649

nh = = 13'073
La varianza del estimador es

Y un intervalo de confianza para mh al 90% es

Predicción de una observación.


“La familia Pérez que tiene unos ingresos de x1 = 3'0 y un tamaño de x2 = 4. Esto
es ¿qué gasto en alimentación tendrá?”.
Aplicando el modelo de regresión estimado

La varianza de la predicción es:

= R2 = 0'0060 . = 0'0065

= 0'0803

Y un intervalo de prdicción al 90% es

Algunos gráficos de interés que ayudan a resolver el problema son los siguientes:
Gráficos parciales de las componentes

Gráficos de residuos
2.- Una medición sobre 12 individuos nos permite conocer datos sobre su peso,
altura, contorno de cintura (en cm.) y su edad.

Vamos a ajustar un nuevo modelo de regresión lineal (múltiple, en este caso) que
incorpore la información de estas nuevas variables. En primer lugar, vamos a crear
dos vectores numéricos, uno para cada variable nueva

> cintura <- c(62, 75, 60, 71, 66, 62, 79, 74, 70, 66, 71, 69)
> edad <- c(25, 31, 29, 64, 44, 41, 37, 35, 34, 29, 19, 50)

Y vamos a agrupar la información relativa a las 4 variables de las que disponemos


en una data frame al que pondremos por nombre datos:
> datos <- data.frame(peso, altura, cintura, edad)

Comprobemos que, efectivamente, el data frame que hemos creado contiene la


información sobre las 4 variables:

> head(datos)
peso altura cintura edad
1 74 168 62 25
2 92 196 75 31
3 63 170 60 29
4 72 175 71 64
5 58 162 66 44
6 78 169 62 41

A continuación ajustamos el modelo de regresión lineal múltiple

> reg_lin_mul <- lm(peso ~ altura + cintura + edad)


> summary(reg_lin_mul)
Call:
lm(formula = peso ~ altura + cintura + edad)
Residuals:
Min 1Q Median 3Q Max
-7.5822 -2.8758 -0.6746 2.6828 9.9842
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -78.03017 35.37744 -2.206 0.0585 .

Altura Cintura Edad


0.93629 -0.13261 -0.09672
0.34941 0.60578 0.15806
2.680 -0.219 -0.612
0.0279* 0.8322 0.5576

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 6.024 on 8 degrees of freedom
Multiple R-squared: 0.7464, Adjusted R-squared: 0.6513
F-statistic: 7.85 on 3 and 8 DF, p-value: 0.009081

El modelo podría escribirse tal y como sigue:

Tanto la interpretación como la comprobación de la significación de los parámetros


se realizan de forma similar al caso en que se cuenta con una única variable
independiente. Igualmente, la validación se lleva a cabo del mismo modo que para
la regresión lineal simple.
Con respecto a las representaciones gráficas, se pueden representar gráficos de
dispersión de la variable dependiente con respecto a cada una de las variables
independientes mediante el comando plot, como se ha mostrado anteriormente.

 Bibliografía:
http://wpd.ugr.es/~bioestad/guia-de-r/practica-3/#7
http://humanidades.cchs.csic.es/cchs/web_UAE/tutoriales/PDF/Regresion_line
al_multiple_3.pdf
https://www.uam.es/personal_pdi/ciencias/horra/AnalisisDatos-
Apuntes/Regresion-Multiple.pdf
Metodología para selección de modelos de... (PDF Download Available).
Available from:
https://www.researchgate.net/publication/259822092_Metodologia_para_selecc
ion_de_modelos_de_regresion_lineal_multiple_basada_en_metodos_multiobje
tivo
http://dm.udc.es/asignaturas/estadistica2/secprac_5_2.htm