Sie sind auf Seite 1von 17

REGRESIÓN LINEAL MÚLTIPLE

MODELO DE REGRESIÓN LINEAL MÚLTIPLE.

El análisis de regresión lineal múltiple es una extensión del análisis de regresión simple
a aplicaciones que implican dos o más variables independientes: 𝑿𝟏 , 𝑿𝟐 , … , 𝑿𝑲 (𝑲 ≥ 𝟐)
que se relacionan con una variable dependiente 𝑌 mediante el modelo estadístico.

𝒀 = 𝜷𝟎 + 𝜷𝟏 𝑿𝟏 + 𝜷𝟐 𝑿𝟐 + ⋯ + 𝜷𝑲 𝑿𝑲 + 𝜺

Donde:

 𝜷𝟎 , 𝜷𝟏 , … . , 𝜷𝑲 Son los parámetros desconocidos.


 𝜺, el termino error, es una variable aleatoria que se supone tiene distribución normal
con media o 𝑬(𝜺) = 𝟎 y varianza 𝝈𝟐 .

El modelo estadístico de la regresión es equivalente al modelo matemático de la


regresión:

𝑬(𝒀) = 𝜷𝟎 + 𝜷𝟏 𝑿𝟏 + 𝜷𝟐 𝑿𝟐 + ⋯ + 𝜷𝑲 𝑿𝑲

Queda entendido que 𝑬(𝒀) o 𝝁𝜸 es la notación abreviada de, 𝝁𝒀/𝑿𝟏 ,𝑿𝟐,…,𝑿𝑲

Para 𝑲 = 𝟐, la gráfica de la ecuación de regresión es un plano que intercepta a 𝒀 en 𝜷𝟎 .

Los demás coeficientes de regresión parcial 𝛽𝑖 son las pendientes de las línea de
regresión de 𝒀 con la variable 𝑿𝒊 cuando las otras variables independientes se
mantienen constantes.

Para K variables independientes (𝑲 > 𝟐), la gráfica de la ecuación de regresión


poblacional es un hiperplano en el espacio de 𝑲 + 𝟏 dimensiones.

Para visualizar la relación entre la variable dependiente 𝒀 con cada una de las variables
independientes 𝑿𝒊 se puede utilizar diagramas de dispersión. Estas gráficas nos
mostrarán descriptivamente la tendencia y las relaciones lineales: Nulas, débiles o
fuertes de 𝒀 con cada 𝑿𝒊 .

Los coeficientes regresión 𝜷𝒊 de 𝑿𝒊 indican el cambio promedio de 𝒀 correspondiente a


un incremento unitario en 𝑿𝒊 cuando las demás X permanecen constantes.

Se dice que el modelo de regresión lineal múltiple es de efectos fijos, si las variables
independientes, 𝑋1 , 𝑋2 , … . , 𝑋𝐾 , no son variables aleatorias. Si estas son variables
aleatorias, entonces, el modelo es denominado de efectos aleatorios. En este texto,
vamos a estudiar sólo el modelo de regresión de efectos fijos.
Por lo tanto, el objetivo es analizar un modelo de regresión lineal múltiple que pretende
explicar el comportamiento de la variable aleatoria 𝑌 (observada en escala al menos de
intervalo) aplicando información proporcionada por una muestra aleatoria de tamaño
n, denotada por las variables matemáticas, (𝑋1𝑖 , 𝑋2𝑖 , … , 𝑋𝑘𝑖 , 𝑌𝑖 ), donde, 𝑖 =
1,2, … , 𝑛 𝑦 𝑛 > 𝑘.

El análisis de regresión lineal múltiple es una técnica muy útil empleada en diversas
disciplinas. Con la aplicación de paquetes de cómputo se hace menos complicada la
solución de problemas en las que intervienen un gran número de variables
independientes. El modelo estadístico en función de la muestra de variables aleatorias
es:

𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + ⋯ + 𝛽𝐾 𝑋𝐾𝑖 + 𝜀𝑖 , 𝑖 = 1,2, … , 𝑛

Los supuestos del análisis de regresión múltiple, como ya se ha establecido, son los
mismos supuestos del análisis de regresión simple. Esto es, se supone que los residuos
𝜀𝑖 = 𝑌𝑖 − 𝜇𝑌𝑖 , tienen distribución normal. Este supuesto, se denomina “normalidad”.

Se supone además, que las variables 𝑋1 , 𝑋2 , … , 𝑋𝑘 son variables independientes. Cuando


este supuesto no se cumple, se dice que el modelo presenta “multicolinearidad”.

Observe que las hipótesis de homocedasticidad y de normalidad son válidas para las
variables aleatorias 𝑌𝑖 pues depende de 𝜀𝑖 .

APLICACIONES DE LA REGRESIÓN MÚLTIPLE:

Es cierto que la regresión múltiple se utiliza para la predicción de respuestas a partir de


variables explicativas. Pero no es esta realmente la aplicación que se le suele dar en la
investigación. Los usos que con mayor frecuencia encontramos en las publicaciones son
los siguientes:

- Identificación de variables explicativas: Nos ayuda a crear un modelo donde se


selecciónenlas variables que puedan influir en la respuesta, descartando aquellas que
no aporten información.
- Detección de interacciones: Entre variables independientes que afectan a la variable
respuesta.
- Identificación de variables confusoras: Es un problema difícil el de su detección, pero
de interés en investigación no experimental, ya que el investigador frecuentemente
no tiene control sobre las variables independientes.
REQUISITOS Y LIMITACIONES

Hay ciertos requerimientos necesarios para poder utilizar la técnica de regresión


múltiple:

 Linealidad: Se supone que la variable respuesta depende linealmente de las variables


explicativas. Si la respuesta no aparenta ser lineal, debemos introducir en el modelo
componentes no lineales (como incluir transformaciones no lineales de las variables
independientes en el modelo). Otro tipo de respuesta no lineal es la interacción. Para
ello se ha de incluir en el modelo términos de interacción, que equivalen a introducir
nuevas variables explicativas que en realidad son el producto de dos o más de las
independientes.

 Normalidad y equidistribución de los residuos: Se llaman residuos las diferencias


entre los valores calculados por el modelo y los realmente observados en la variable
dependiente. Para tener un buen modelo de regresión se requiere que los residuos
se distribuyan de modo normal y con la misma dispersión para cada combinación de
valores de las variables independientes.

 Numero de variables independientes: No debemos incluir en el modelo cualquier tipo de


variables, ya que es muy probable que consigamos una aproximación muy artificial.

 Colinealidad: Si dos variables independientes están estrechamente relacionadas y


ambas son incluidas en un modelo, muy posiblemente ninguna de las dos sea
considerada significativa, aunque si hubiésemos incluido solo una de ellas. Hay
diferentes técnicas para detectar la Colinealidad pero que requieren profundizar en
documentos más sofisticados. Aquí vamos a indicar una técnica muy simple:
examinar los coeficientes del modelo para ver si se vuelven inestables al introducir
una nueva variable.

 Observaciones anómalas: Está muy relacionada con la cuestión de los residuos, pero
merece destacarlo aparte. Debemos poner especial cuidado en identificarlas, pues
tienen gran influencia en el resultado.
ESTIMACIÓN DEL MODELO DE REGRESIÓN.

El primer objetivo del estudio de la regresión es estimar el modelo de regresión (o


ecuación de regresión poblacional)

𝝁𝒀 = 𝜷𝟎 + 𝜷𝟏 𝑿𝟏 + 𝜷𝟐 𝑿𝟐 + ⋯ + 𝜷𝑲 𝑿𝑲

La estimación del modelo de la regresión denominado también ecuación de regresión


muestral es:

̂ = 𝒃𝟎 + 𝒃𝟏 𝑿𝟏 + 𝒃𝟐 𝑿𝟐 + ⋯ + 𝒃𝒌 𝑿𝒌
𝒀

Donde:

̂ Es la estimación de 𝜇𝑌 (o de Y en el modelo estadístico), 𝑏0 , 𝑏1 , … , 𝑏𝑘 (denotados


- 𝒀
también por 𝛽̂𝑗 ) son las estimaciones de los parámetros 𝛽𝑗 con 𝑗 = 0,1,2, … , 𝑘.
- Los coeficientes de regresión muestral 𝑏0 + 𝑏1 + 𝑏2 + ⋯ + 𝑏𝑘 se calculan el método
mínimos cuadrados a los datos de una muestra aleatoria de tamaño n, cuyos valores
observados denotados por: (𝑋1𝑖 + 𝑋2𝑖 + ⋯ + 𝑋𝐾𝑖 , 𝑦𝑖 ) ; 𝑖 = 1,2, … , 𝑛 𝑦 𝑛 > 𝑘, donde
, 𝑦𝑖 es la respuesta observada (valor de la variable dependiente y) para los valores
𝑋1𝑖 + 𝑋2𝑖 + ⋯ + 𝑋𝐾𝑖 de las k variables independientes respectivas 𝑋1 , 𝑋2 , … . , 𝑋𝐾 .
- Para cada 𝑖 = 0,1,2, … , 𝑛, los datos de la muestra satisfacen la ecuación de regresión
poblacional,

𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + ⋯ + 𝛽𝐾 𝑋𝐾𝑖 + 𝜀𝑖 , 𝑖 = 1,2, … , 𝑛 , 𝑖 = 0,1,2, … , 𝑛

- También, para cada 𝑖 = 1,2, … , 𝑛 , los datos de la muestra satisfacen la ecuación de


regresión muestral:
𝑦𝑖 = 𝑏0 + 𝑏1 𝑋1𝑖 + 𝑏2 𝑋2𝑖 + ⋯ + 𝑏𝑘 𝑋𝑘𝑖 + 𝑒𝑖

Donde, las diferencias 𝑒𝑖 = 𝑌𝑖 − 𝑌̂𝑖 , denominamos errores o residuos, son


estimaciones del termino error 𝜀𝑖 .

El método de mínimos cuadrados consiste en determinar los coeficientes


𝑏0 , 𝑏1 , 𝑏2 , … , 𝑏𝑘 de manera que hagan mínima la suma de los cuadrados de los residuos
expresadas por:
𝑛 𝑛 𝑛
2 2
𝑆𝐶𝐸 = ∑ 𝑒𝑖 = ∑(𝑦𝑖 − 𝑦̂)
𝑖 = ∑(𝑦𝑖 − 𝑏0 − 𝑏1 𝑥1𝑖 − 𝑏2 𝑥2𝑖 − ⋯ − 𝑏𝑘 𝑥𝑘𝑖 )2
𝑖=1 𝑖=1 𝑖=1

Este requisito se cumple, según el teorema de gauss – markow, si 𝑏0 , 𝑏1 , 𝑏2 , … , 𝑏𝑘 se


obtienen resolviendo el siguiente sistema de las 𝑘 + 1 ecuaciones, denominadas,
sistema de ecuaciones normales:

𝑛𝑏0 + 𝑏1 ∑ 𝑥1 + 𝑏2 ∑ 𝑥2 + ⋯ + 𝑏𝑘 ∑ 𝑥𝑘 = ∑ 𝑦

𝑏0 ∑ 𝑥1 + 𝑏1 ∑ 𝑥12 + 𝑏2 ∑ 𝑥1 𝑥2 + ⋯ + 𝑏𝑘 ∑ 𝑥1 𝑥𝑘 = ∑ 𝑥1 𝑦

𝑏0 ∑ 𝑥2 + 𝑏1 ∑ 𝑥1 𝑥2 + 𝑏2 ∑ 𝑥22 + ⋯ + 𝑏𝑘 ∑ 𝑥2 𝑥𝑘 = ∑ 𝑥2 𝑦

𝑏0 ∑ 𝑥𝑘 + 𝑏1 ∑ 𝑥𝑘 𝑥1 + 𝑏2 ∑ 𝑥𝑘 𝑥2 + ⋯ + 𝑏𝑘 ∑ 𝑥𝑘2 = ∑ 𝑥𝑘 𝑦

Donde: ∑ 𝑥𝑗 = ∑𝑛𝑖=1 𝑥𝑗𝑖 , ∑ 𝑥𝑗 𝑦 = ∑𝑛𝑖=1 𝑥𝑗𝑖 𝑦𝑖 , 𝑝𝑎𝑟𝑎 𝑗 = 1,2, … , 𝑘.

Las ecuaciones normales se obtiene derivando SCE cada vez con respecto a
𝑏0 , 𝑏1 , 𝑏2 , … , 𝑏𝑘 e igualando a cero

NOTA: la lista de variables independientes puede incluir variables cualitativas (o


categóricas), como por ejemplo, genero. En este caso, los valores de la variable, llamada
también variable indicadora, deben ser codificados. La codificación de la variable genero
por ejemplo, puede ser 0=mujer, 1= hombre (o viceversa).

Ejercicio:
El gerente de ventas de la distribuidora “Delivery” realiza un estudio del sistema de
reparto de sus pedidos considerando las variables:
𝑌: 𝑇𝑖𝑒𝑚𝑝𝑜 𝑒𝑛 𝑚𝑖𝑛𝑢𝑡𝑜𝑠 𝑞𝑢𝑒 𝑑𝑒𝑚𝑜𝑟𝑎 𝑙𝑎 𝑒𝑛𝑡𝑟𝑒𝑔𝑎 𝑑𝑒𝑙 𝑝𝑒𝑑𝑖𝑑𝑜.
𝑋1 : 𝑃𝑒𝑠𝑜 𝑒𝑛 𝑘𝑖𝑙𝑜𝑔𝑟𝑎𝑚𝑜𝑠 𝑑𝑒 𝑙𝑜𝑠 𝑝𝑒𝑑𝑖𝑑𝑜𝑠.

𝑋2 : 𝐷𝑖𝑠𝑡𝑎𝑛𝑐𝑖𝑎 𝑟𝑒𝑐𝑜𝑟𝑟𝑖𝑑𝑎 𝑒𝑛 𝑘𝑖𝑙𝑜𝑚𝑒𝑡𝑟𝑜𝑠.

Su objetivo es determinar una relación lineal para predecir el tiempo de reparto de un


pedido utilizando la información proporcionada por el peso del pedido y la distancia de
la entrega. Para esto, se seleccionó una muestra al azar de diez repartos observando los
siguientes resultados:

𝑌 𝑋1 𝑋2
30 12 7
28 10 7
25 9 6
23 7 6
20 6 5
18 6 5
15 5 4
15 5 4
12 3 3
10 2 2

a) Describa el modelo de regresión lineal de los tiempos de reparto con respecto a los
pesos de los pedidos a domicilio y al recorrido de la entrega.
b) Obtenga las ecuaciones normales de este problema de regresión.
c) Calcule la ecuación de regresión estimada y estime el tiempo que demoraría el
reparto de un pedido de 20 kilogramos para un recorrido de 10 kilómetros.

Solución:
a) El modelo de regresión para este problema es: 𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝜀
La estimación del modelo de regresión es la ecuación:
𝑌̂ = 𝑏0 + 𝑏1 𝑋1 + 𝑏2 𝑋2

b) De los datos de la muestra, resultan:


𝑛 = 10, ∑ 𝑥1 = 63, ∑ 𝑥2 = 49, ∑ 𝑥12 = 493, ∑ 𝑥1 𝑥2 = 355

∑ 𝑥22 = 265, ∑ 𝑦 = 196, ∑ 𝑥1 𝑦 = 1430, ∑ 𝑥2 𝑦 = 1060, ∑ 𝑦 2 = 4256

El sistema de ecuaciones normales de mínimos cuadrados es:


10𝑏0 + 63𝑏1 + 49𝑏2 = 196
63𝑏0 + 493𝑏1 + 355𝑏2 = 1430
49𝑏0 + 355𝑏1 + 265𝑏2 = 1060

c) Las soluciones únicas del sistema de ecuaciones normales son:


𝑏0 = 2.809, 𝑏1 = 0.999, 𝑏2 = 2.142
Por lo tanto, la ecuación de regresión estimada es:
𝑌̂ = 2.809 + 0.999𝑋1 + 2.142𝑋2
Para el reparto de 20 cajas y un recorrido de 10 kilómetros, eso es, si 𝑥1 = 20, 𝑥2 =
10, la predicción del tiempo en minutos que demoraría el reparto es:
𝑦̂ = 2.809 + 0.999 ∗ 20 + 2.142 ∗ 10 = 44.209

INTERPRETACIÓN DE LOS COEFICIENTES DE REGRESIÓN

Los coeficientes de regresión del modelo estimado de la regresión múltiple se


interpretan del siguiente modo:

 La cantidad 𝑏0 es la ordenada en el origen y tiene la misma unidad de medición que


la variable Y. para k=2 por ejemplo, 𝑏0 es la interceptación del plano de regresión con
el eje Y cuando 𝑋1 = 0 𝑦 𝑋2 = 0 e indica la altura o elevación del plano de regresión.
 Los coeficientes de regresión 𝑏𝑖 𝑑𝑒 𝑋𝑏 indican, por un lado, la tendencia. Es decir si
el coeficiente 𝑏𝑖 es positivo, entonces, a mayores valores de 𝑋𝑖 mayores valores de Y.
si el coeficiente 𝑏𝑖 es negativo, entonces, a mayores valores de 𝑋𝑖 menores valores
de Y. por otro lado, por cada unidad que aumente la variable independiente 𝑋𝑏 la
variable dependiente Y aumenta (o disminuye) en promedio 𝑏𝑖 unidades (asumiendo
que las demás X permanecen constantes)

Por ejemplo, en la ecuación de regresión múltiple estimada:

𝑌̂ = 2.809 + 0.999𝑋1 + 2.142𝑋2

 La cantidad 𝑏0 = 2.809 es la ordenada en el origen.


 El valor 𝑏1 = 0.999 indica que si hay un aumento unitario en 𝑋1 es decir un aumento
de 1 kilo en el peso del pedido, el tiempo de reparto aumenta en promedio 0.999x1
minutos, manteniendo constante 𝑋2 . Por otro lado, cuanto mayor sea el peso del
pedido, mayor sea el tiempo de reparto.
 El valor 𝑏2 = 2.142 indica que si hay un aumento de un kilómetro en el recorrido del
reparto, entonces, el tiempo de reparto aumenta en promedio 2.142x1 minutos,
permaneciendo constante X1 . Por otro lado, cuanto mayor sea el recorrido, mayor
será el tiempo de reparto.

Sin embargo, debido a que en este modelo las unidades de medición no son las mismas
en todas las variables, no podemos comparar directamente la importancia que tiene
cada variable independiente en la predicción, esto es, no podemos contestar
directamente la pregunta, ¿Cuál de las variables independientes contribuye más a la
predicción de los valores de a variable dependiente?. Para resolver este problema, se
aplican los coeficientes de regresión estandarizados o coeficientes beta.

COEFICIENTES DE REGRESIÓN ESTANDARIZADOS:

Coeficientes Beta
Cuando el modelo de regresión múltiple tiene unidades de medición que son distintas
para las variables 𝑌, 𝑋1 , 𝑋2 , … , 𝑋𝑘 , no se puede comparar directamente de los
coeficientes de regresión la importancia o la contribución a la predicción de la variable
independiente.
En este caso, los coeficientes beta nos proporcionan el método para comparar la
importancia relativa de cada variable independiente en la predicción de la variable
dependiente.
Los coeficientes beta se definen como los coeficientes de la estimación estandarizada
del modelo de regresión múltiple estimada, cuyas variables están estandarizadas están
dadas por:
𝑌 − 𝑌̅ 𝑋𝑖 − 𝑋̅𝑖
𝑍𝑌 = , 𝑍𝑋𝑖 = , 𝑖 = 1,2, … , 𝑘.
𝑆𝑌 𝑆𝑋𝑖

Si el modelo estimado es por ejemplo,

𝑌̂ = 𝑏0 + 𝑏1 𝑋1 + 𝑏2 𝑋2 ,

Estandarizando todas sus variables se obtiene el modelo de regresión estimado


estandarizado:
𝑠𝑋1 𝑆𝑋
𝑍𝑌̂ = (𝑏1 ) 𝑍𝑋1 + (𝑏2 2 ) 𝑍𝑋2
𝑠𝑌 𝑠𝑌

Donde, los coeficientes estandarizados beta están dados por:


𝑆𝑋𝑖
𝑏𝑒𝑡𝑎𝑖 = 𝑏𝑖
𝑆𝑌

Los coeficientes beta e interpreta como sigue: “por cada unidad estandarizada que
aumenta la variable independiente 𝑋𝑖 (cuando las demás X permanecen constantes),
cuando aumenta 𝑏𝑒𝑡𝑎𝑖 unidades la variable dependiente Y.

Continuando con el ejemplo 9.10, se tienen:

𝑆𝑋1 = 3.268, 𝑆𝑋2 = 1.663, 𝑆𝑌 = 6.786


3.268
𝑏𝑒𝑡𝑎𝑖 = 0.999 ∗ = 0.481
6.786
1.663
𝑏𝑒𝑡𝑎2 = 2.142 ∗ = 0.525
6.786

La estimación estandarizada del modelo de regresión es:

𝑍𝑌̂ = 0.481𝑍𝑋1 + 0.525𝑍𝑋2

Observe que, la contribución relativa de 𝑋2 no es muy elevada a la de 𝑋1 en la predicción


de los valores de Y. Además, el coeficiente, por ejemplo, 𝑏𝑒𝑡𝑎2 = 0.525, indica que,
cuando ha aumento de unidad estándar en 𝑋2 habrá un aumento de 0.525 ∗ 1 unidades
estándares en la variable Y.

Bondad de ajuste del modelo a los datos de la muestra.

Una manera gráfica de medir el ajuste del modelo a los datos de la muestra, en el
modelo de regresión lineal simple, es contando la cantidad de puntos de la muestra que
se encuentran en la línea de regresión o fuera de ella.

En el modelo de regresión múltiple, por ejemplo, para K=2 variables independientes, el


plano ajustado a los puntos de la muestra que sea horizontal y pase por la media
(𝑦̅, 𝑥̅1 , 𝑥̅2 ) puede considerarse como un plano básico con respecto al cual se mide la
mejora introducida por la estimación del modelo de regresión: 𝑌̂ = 𝑏0 + 𝑏1 𝑋1 + 𝑏2 𝑋2.

Básicamente existen dos modelos descriptivos para medir el nivel de ajuste del modelo
a los datos de la muestra. El primero, es aplicar el coeficiente determinación múltiple
𝑅 2 . El segundo, es utilizar el error estándar de estimación multiple denotado por 𝑠 ó 𝜎.

El coeficiente de determinación múltiple

En el modelo general de regresión lineal múltiple, el coeficiente de determinación 𝑅 2 ,


se obtiene, como en el caso del modelo de regresión lineal simple, de la partición de la
variabilidad total de la variable dependiente Y,𝑆𝐶𝑇 = (𝑛 − 1)𝑆𝑌2 = ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2, en
SCR, variabilidad de la regresión (o explicada por la regresión) y, SCE, variabilidad del
error (o no explicada) de manera que:

𝑆𝐶𝑇 = 𝑆𝐶𝑅 + 𝑆𝐶𝐸

Donde, 𝑆𝐶𝑅 = ∑𝑘𝑖=1 𝑏𝑖 𝑆𝑋𝑖 𝑌 y 𝑆𝑋𝑖 𝑌 = ∑𝑛𝑖=1 𝑥𝑖 𝑦 − 𝑛𝑥̅𝑖 𝑦̅


El coeficiente de determinación múltiple, se define por:
𝑆𝐶𝑅
𝑅2 =
𝑆𝐶𝑇
Al igual que el coeficiente de determinación simple, el coeficiente de determinación
múltiple 𝑅 2 , mide el porcentaje de la varianza de Y que queda explicada al conocer dos
o más variables independientes. Cuanto mayor es el valor de 𝑅 2 menor es la dispersión
y mayor el ajuste de regresión a los datos.

El coeficiente de determinación múltiple de la estimación del modelo de regresión


múltiple del ejemplo, 9.10 es:
𝑆𝐶𝑅 408.39
𝑅2 = = = 0.986
𝑆𝐶𝑇 414.4
Donde, 𝑆𝐶𝑇 = ∑𝑛𝑖=1 𝑦𝑖2 − 𝑛(𝑦̅)2 = 4256 − 10 ∗ (19.6)2 = 414.4

𝑆𝐶𝑅 = 𝑏1 𝑆𝑋1 𝑌 + 𝑏2 𝑆𝑋2 𝑌 = 0.9992 ∗ 195.2 + 2.142 ∗ 99.6 = 408.39

Interpretación: El valor de 𝑅 2 = 0.986, indica que aproximadamente el 99% de la


variabilidad de los tiempos queda estadísticamente explicado por su relación lineal con
el número de cajas pedidas (𝑋1 ) y por el recorrido (𝑋2 ).

El coeficiente de determinación múltiple ajustado

El coeficiente de determinación 𝑅 2 tiene el defecto de crecer con el número de variables


independientes del modelo de regresión. Para corregir este sesgo se aplica el coeficiente
o índice de determinación múltiple ajustado (corregido) que se denota por 𝑅̇ 𝑜 𝑅̅ 𝑜 𝑅𝐴2 y
se define por:
𝑀𝐶𝐸 𝑆𝐶𝐸/(𝑛 − 𝑘 − 1)
𝑅𝐴2 = 1 − =1−
𝑀𝐶𝑇 𝑆𝐶𝑇/(𝑛 − 1)

Si se va a comparar descriptivamente dos o más modelos de regresión con diferentes


números de variables independientes se debería utilizar el coeficiente de determinación
múltiple ajustado.

El coeficiente de determinación múltiple ajustado o corregido de la estimación del


modelo de regresión del ejemplo 9.10 es:

𝑀𝐶𝐸 6.01⁄
𝑅𝐴2 =1− =1− 7 = 0.981
𝑀𝐶𝑇 414.4⁄9
La interpretación de 𝑅𝐴2 , es la misma de 𝑅 2 .

La raíz cuadrada positiva del coeficiente de determinación múltiple se denomina


coeficiente de correlación múltiple R. mide la relación entre las variables independientes
consideradas como grupo y la variable independiente Y.

El error estándar de estimación múltiple

El error estándar de estimación múltiple mide la variabilidad de los residuales. Se define,


igual que en modelo de regresión simple por:

𝑆𝐶𝐸
𝑠=√ = √𝑀𝐶𝐸
𝑛−𝑘−1

Es el segundo criterio para medir descriptivamente el ajuste del modelo de regresión


estimado a los datos de la muestra, cuanto más pequeño sea el valor de s, mejor será el
ajuste del modelo de regresión múltiple estimado a los datos de la muestra. El error
estándar de estimación múltiple tiene las mismas unidades de medición de la variable
dependiente Y.

El error estándar de estimación múltiple del ejemplo 9.10 es:

𝑆𝐶𝐸
𝑠 = √𝑀𝐶𝐸 = √ = 0.9266.
𝑛−𝑘−1

EVALUACIÓN DEL MODELO DE REGRESIÓN:

Idoneidad del modelo de regresión

Una vez obtenida la estimación del modelo de regresión lineal múltiple, debemos
analizar la idoneidad o validez del modelo. Es decir, debemos analizar si el modelo
estimado es el adecuado para ser utilizado en las predicciones de los valores de la
variable dependiente Y.

Básicamente hay dos formas de analizar la idoneidad del modelo. Una es la forma
descriptiva del ajuste del modelo a los datos, que ya fue desarrollada en la sección
anterior. La otra forma es la inferencial, que consiste en probar si o son significativos los
coeficientes de regresión obtenidos de los datos de la muestra.

Para esto, primero se realiza una prueba global de significación de los coeficientes de
regresión.
Si la decisión es aceptar que todos los coeficientes del modelo de regresión propuesto
son iguales a cero, entonces, no podemos utilizar el modelo estimado para predecir Y.
Finaliza el análisis de regresión.

Si por el contrario, se acepta que no todos los coeficientes de regresión poblacional son
iguales a cero, entonces se analiza la significación de los coeficientes de regresión
muestral en forma individual para determinar las variables que contribuyen
significativamente al modelo, descartando del modelo aquellas variables (cuyos
coeficientes reales son iguales a cero), que no contribuyen significativamente al modelo.

Existen otros métodos de análisis de la contribución de las variables dependientes al


modelo de regresión, por ejemplo, el análisis de la matriz de correlación, el coeficiente
de correlación parcial, entre otros.

El análisis de la idoneidad del modelo incluye también la verificación de los supuestos


de la regresión.

Para la prueba de significación de los coeficientes de regresión se requiere suponer que


la variable dependiente de Y del modelo de regresión es normal con varianza 𝜎 2 .

Prueba de hipótesis global de los coeficientes de regresión

Para determinar si existe o no regresión lineal real de la variable dependiente y con


todas las variables independientes en conjunto se aplica el método de análisis de
varianza. Este método es conocido como análisis global de significación de los
coeficientes de la estimación del modelo de regresión lineal múltiple.

El método de análisis global prueba la hipótesis nula,

𝐻0 : 𝛽1 = 𝛽2 = ⋯ = 𝛽𝑘 = 0

Contra, 𝐻1 : 𝐴𝑙 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛𝑎 𝑑𝑒 𝑙𝑎𝑠 𝛽𝑖 𝑒𝑠 𝑑𝑖𝑠𝑡𝑖𝑛𝑡𝑜 𝑑𝑒 𝑐𝑒𝑟𝑜.

La estadística F de la prueba se origina en la partición de la variabilidad total de la


variable aleatoria dependiente Y: 𝑆𝐶𝑇 = (𝑛 − 1) 𝑆𝑌2 = ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2 ,en dos variables:
la no explicada y la explicada por la regresión, como sigue:
𝑛 𝑛 𝑛
2 2
∑(𝑦𝑖 − 𝑦̅) = ∑(𝑦𝑖 − 𝑦̂)
𝑖 + ∑(𝑦̂𝑖 − 𝑦̅)2
𝑖=1 𝑖=1 𝑖=1

𝑆𝐶𝑇 = 𝑆𝐶𝐸 + 𝑆𝐶𝑅

Donde, SCE es la suma de cuadrados de errores o residuales (variabilidad no explicada)


y SCR
Es la suma de cuadrados de la regresión (variabilidad explicada por la regresión).

Los grados de libertad respectivos de la suma de cuadrados son:

𝑛 − 1 = (𝑛 − 𝑘 − 1) + 𝑘

Por otro lado, SCR/𝜎 2 ∼ 𝑥 2 (𝑘) 𝑦 𝑆𝐶𝐸/𝜎 2 ∼ 𝑥 2 (𝑛 − 𝑘 − 1)

Estas dos estadísticas son independientes. Por tanto, el cociente de las dos chi –
cuadrados divididos entre sus respectivos grados de libertad, tiene distribución F con
grados de libertad k y (n-k-1), esto es,

(𝑆𝐶𝑅⁄𝜎 2 )⁄𝑘 𝑆𝐶𝑅⁄𝑘 𝑀𝐶𝑅


𝐹= = = ∼ 𝐹(𝑘, 𝑛 − 𝑘 − 1)
(𝑆𝐶𝐸⁄𝜎 2 )⁄(𝑛 − 𝑘 − 1) 𝑆𝐶𝐸 ⁄(𝑛 − 𝑘 − 1) 𝑀𝐶𝐸

Donde, 𝑀𝐶𝑅 = 𝑆𝐶𝑅⁄𝑘 𝑦 𝑀𝐶𝐸 = 𝑆𝐶𝐸 ⁄(𝑛 − 𝑘 − 1) , son los cuadrados medios o
medias cuadráticas de la regresión y del error respectivamente.

Dado el nivel de significancia 𝛼 en la distribución 𝐹(𝑘, 𝑛 − 𝑘 − 1) se encuentra el valor


crítico 𝐹1+𝛼,𝑘,𝑛−𝑘−1 . Se rechaza 𝐻0 : 𝛽1 = 𝛽2 = ⋯ = 𝛽𝑘 = 0 , con probabilidad de error
tipo I igual a 0.05, si, 𝐹𝑐𝑎𝑙 > 𝐹1+𝛼,𝑘,𝑛−𝑘−1 . No se rechaza 𝐻0 en caso contrario. La prueba
de hipótesis de análisis global se resume en la tabla de análisis de varianza (ANOVA):

𝐴𝑁𝑂𝑉𝐴 𝑝𝑎𝑟𝑎 𝐻0 : 𝛽1 = 𝛽2 = ⋯ = 𝛽𝑘 = 0

Fuete de Suma de Grados de


Medias cuadráticas Estadística F
variabilidad cuadrados libertad

Regresión SCR K 𝑆𝐶𝑅


𝑀𝐶𝑅 =
𝑘
𝑀𝐶𝑅
𝑆𝐶𝐸 𝐹𝑐𝑎𝑙 =
Error o SCE n-k-1 𝑀𝐶𝐸 = 𝑀𝐶𝐸
residual 𝑛−𝑘−1

Total SCT n-1

Las sumas de cuadrados SCT, SCR, SCE se calculan utilizando las siguientes expresiones:
𝑛 𝑛

𝑆𝐶𝑇 = ∑(𝑦𝑖 − 𝑦̅) = ∑ 𝑦𝑖 2 − 𝑛(𝑦̅)2 = (𝑛 − 1)𝑆𝑌2


2

𝑖=1 𝑖=1

𝑘 𝑛

𝑆𝐶𝑅 = ∑ 𝑏𝑖 𝑆𝑋𝑖 𝑌 , 𝑑𝑜𝑛𝑑𝑒 ∑ 𝑋𝑖 𝑌 − 𝑛(𝑥̅𝑖 )(𝑦̅) 𝑖 = 1,2, … , 𝑘


𝑖=1 𝑖=1

𝑆𝐶𝐸 = 𝑆𝐶𝑇 − 𝑆𝐶𝑅


Ejemplo:
Continuando con el ejemplo 9.10 realice el contraste de significación global de la
estimación del modelo de regresión planteado. Utilice el nivel de significación de 0.05.

Solución:
La hipótesis nula y alternativa de esta prueba ANOVA o prueba de adecuación del
modelo son:

𝐻0 : 𝛽1 = 𝛽2 = 0

𝐻1 : 𝐴𝑙 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛𝑎 𝑑𝑒 𝑙𝑎𝑠 𝛽𝑖 𝑒𝑠 𝑑𝑖𝑠𝑡𝑖𝑛𝑡𝑜 𝑑𝑒 𝑐𝑒𝑟𝑜

De los datos del ejemplo 9.10, resultan:

𝑆𝐶𝑇 = (𝑛 − 1) 𝑆𝑦2 = 9 ∗ (6.7856)2 = 414.4


𝑛

𝑆𝑥1 𝑦 = ∑ 𝑥1 𝑦 − 𝑛(𝑥̅1 )(𝑦̅) = 1430 − 10 ∗ 6.3 ∗ 19.6 = 195.2


𝑖=1
𝑛

𝑆𝑥2 𝑦 = ∑ 𝑥2 𝑦 − 𝑛(𝑥̅2 )(𝑦̅) = 1060 − 10 ∗ 4.9 ∗ 19.6 = 99.6


𝑖=1

𝑆𝐶𝑅 = 𝑏1 𝑆𝑥1 𝑦 + 𝑏2 𝑆𝑥2 𝑦 = 0.9992 ∗ 195.2 + 2.142 ∗ 99.6 = 408.39

𝑆𝐶𝐸 = 𝑆𝐶𝑇 − 𝑆𝐶𝑅 = 414.4 − 408.39 = 6.01

Las sumas de cuadrados, los grados de libertad, los cuadrados medios y la estadística F
se resumen en la tabla 9.3.2 de análisis de varianza.

ANOVA para 𝐻0 : 𝛽1 = 𝛽2 = 0

Fuente de Suma de Grados de Medias de Estadística


variación cuadrados libertad cuadrados F
Regresión 408.39 2 204.195 𝐹𝑐𝑎𝑙 = 237.71
residual 6.01 7 0.859
total 414.40 9

Al nivel de significación 5%, y con los grados de libertad 2 y 7, en la tabla de


probabilidades de la F se encuentra el valor crítico 𝐹0.95,2,7 = 4.74. Dado que el valor
calculado
𝐹𝑐𝑎𝑙 = 237.83 > 4.74 , debemos rechazar 𝐻0 : 𝛽1 = 𝛽2 = 0 y afirmar que existe
regresión global de Y con 𝑥1 𝑦 𝑥2 . En consecuencia, por lo menos uno de los coeficientes
del modelo de regresión propuesto es diferente de cero.

La probabilidad P del ANOVA es 𝑃 = 𝑃(𝐹(2.7) > 237.83) = 0.000.

Prueba de hipótesis individual de los coeficientes de regresión

Si se rechaza la hipótesis nula del contraste global de los parámetros de regresión, es


decir si se acepta que existe regresión de la variable dependiente Y globalmente con
todas las variables independientes X en conjunto, es deseable determinar que variables
contribuyen en forma significativa al modelo de regresión múltiple. Si alguna variable
independiente 𝑋𝑖 no contribuye en forma significativa al modelo, se la debería descartar.

Del modelo propuesto y buscar luego, la estimación del modelo con variables que
contribuyen significativamente al modelo de la regresión lineal.

La prueba de significación de los parámetros en forma individual consiste en realizar los


contrastes de:

𝐻0 : 𝐵𝑖 = 0 𝑐𝑜𝑛𝑡𝑟𝑎 𝐻0 : 𝐵𝑖 ≠ 0 ∀𝑖 = 1,2,3, … , 𝑘

La estadística de la prueba, como el modelo de regresión lineal simple, es:


𝑏𝑖 − 𝐵𝑖
𝑇𝑖 = − 𝑡(𝑛 − 𝑘 − 1)
𝐸𝑆(𝑏𝑖 )

Donde, 𝐸𝑆(𝑏𝑖 ) =error estándar de la estadística 𝑏𝑖

Véase que en número de grados de libertad de la estadística t-Student es la misma de la


MCE.

La decisión de rechazar o aceptar 𝐻0 se puede realizar aplicando intervalos de


estimación o prueba de hipótesis t-studend bilateral.

Ejemplo:
Realice la prueba de hipótesis para las correcciones de regresión individuales, si se sabe
que el error estándar de 𝑏1 es 0.293 y de 𝑏2 es 0.575. ¿Qué variable eliminaría usted del
modelo de regresión propuesto?
Solución:

Se plantea la siguiente prueba de hipótesis

𝐻0 : 𝐵𝑖 = 0 𝑐𝑜𝑛𝑡𝑟𝑎 𝐻0 : 𝐵𝑖 ≠ 0 ∀𝑖 = 1,2

Si se supone verdadera la hipótesis 𝐻0 , la estadística de cada prueba es:


𝑏𝑖 − 𝐵𝑖
𝑇𝑖 = − 𝑡(7)
𝐸𝑆(𝑏𝑖 )

Para un nivel de significancia de 0.05, en la tabla t, se halla el valor crítico 𝑡0.975,7=2.365.


La región crítica para esta prueba bilateral es el intervalo:

𝑅𝐶 = {𝑇𝑖 < −2.365 𝑂 𝑇𝑖 > 2.365 }

Es decir se rechaza 𝐻0 𝑠𝑖 |𝑡𝑐𝑎𝑙 | > 2.635 donde 𝑡𝑐𝑎𝑙 es un valor critico 𝑇𝑖

Se obtiene el valor muestral:

𝑏0 = 2.80902, 𝑏1 = 0.99922, 𝑏2 = 2.14202

Los errores estándares para 𝑏1 𝑦 𝑏2 : 𝐸𝑆(𝑏1 ) = 0.293, 𝐸𝑆(𝑏2 ) = 0.575

Entonces los valores calculados de la estadística t resultan:


𝑏 0.99922
 Para: 𝐵1 = 0, 𝑡1𝑐𝑎𝑙 = 𝐸𝑆(𝑏1 ) = = 3.41
1 0.293
𝑏 2.14204
 Para: 𝐵1 = 0, 𝑡2𝑐𝑎𝑙 = 𝐸𝑆(𝑏2 ) = = 3.72
2 0.575

Las decisiones son rechazar 𝐵1 = 0 𝑦 𝐵2 = 0, en consecuencia, las variables X1 y X2,


contribuyen significativamente al modelo de regresión propuesto.

Las probabilidades P para 𝑏1 𝑦 𝑏2 son respectivamente: 0.011 y 0.007.

Por otro lado los límites de confianza inferior y superior de los intervalos de confianza
al 95% son:

 Para: 𝐵1 , 0,99922 ± 2.365 × 0,293, 𝐵1 ∈ [0.306, 1.692]


 Para: 𝐵2 , 2,14204 ± 2.365 × 0,575, 𝐵1 ∈ [0.782, 3.502]

Como se observa, los intervalos de 𝐵1 𝑦 𝐵2 no contienen el valor cero, por lo tanto,


debemos concluir que 𝐵1≠0 𝑦 𝐵2 ≠ 0. Aun mas, 𝐵1 > 0 𝑦 𝐵2 > 0.
Resumimos estos resultados en la siguiente tabla:

Intervalo de confianza
Error Significación
modelo coeficientes 𝑡𝑐𝑎𝑙 inferior
estándar bilateral
superior
𝑏0 2.809
𝑏1 0.999 0.293 3.412 0.011 0.306 1.692
𝑏2 2.142 0.575 3.723 0.007 0.782 3.502

Ejemplo:

En un estudio de asociación de una variable respuesta Y con cuatro variables


predictoras, se planteó la siguiente relación lineal:

𝐸(𝑌) = 𝐵0 + 𝐵1 𝑋1 + 𝐵2 𝑋2 + 𝐵3 𝑋3 + 𝐵4 𝑋4

Para estimar el modelo lineal planteado se utilizó una muestra aleatoria de tamaño
n=13, resultando 𝑆𝐶𝐸𝑐 = 30.590, 𝑝𝑟𝑢𝑒𝑣𝑒 𝑠𝑖 𝑙𝑎𝑠 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑋3 𝑦 𝑋4 𝑐𝑜𝑛𝑡𝑟𝑖𝑏𝑢𝑦𝑒𝑛
significativamente al modelo en forma conjunta, si se sabe que para el modelo reducido
𝐸(𝑌) = 𝐵0 + 𝐵1 𝑋1 + 𝐵2 𝑋2, se a obtenido 𝑆𝐶𝐸𝑥 = 46,952

Solución:

(𝑆𝐶𝐸𝑅 − 𝑆𝐶𝐸𝐶 ) ÷ (𝑘 − 𝑚) (46.952 − 30.590) ÷ (4 − 2)


𝐹= = = 2.14 < 𝐹0.95,2,8
𝑆𝐶𝐸𝐶 ÷ (𝑛 − 𝑘 − 1) 30.590 ÷ (13 − 4 − 1)
= 4.46

Por lo tanto, no deberíamos rechazar 𝐻0 ∶ 𝐵3 = 𝐵4 = 0, es decir las variables 𝑋3 y 𝑋4 no


contribuyen significativamente al modelo en forma conjunta.

Das könnte Ihnen auch gefallen