Sie sind auf Seite 1von 25

Análisis de regresión lineal

Logro de la sesión

Al finalizar la sesión, el estudiante modela una variable


cuantitativa “Y” en función de otra variable cuantitativa
“X” para su predicción, en problemas aplicados en
ingeniería industrial.
Temario

Análisis de regresión lineal simple

Predicciones:
Estimación puntual
Estimación por intervalo
¿Se puede estimar la ganancia anual de la empresa
conociendo la inversión en Investigación y Desarrollo?

El vicepresidente de Computadoras
S.A, compañía dedicada a la
fabricación y venta de computadores
portátiles y de escritorio, opina que
las ganancias anuales de la empresa
dependen de la inversión en
investigación y desarrollo.

Sin embargo, el presidente de la


compañía no está de acuerdo y ha
solicitado pruebas.
El vicepresidente necesita pruebas respecto a la relación entre
las ganancias y la inversión en investigación y desarrollo

• ¿Qué modelo puede presentar el vicepresidente que sustenten su


teoría?
• ¿Qué variables tendrá que medir?
• ¿Cuál es la ecuación que ayudará a predecir las ganancias anuales
en función de la inversión en Investigación y Desarrollo?
• ¿Qué precisión se puede esperar al usar este modelo de toma de
decisiones?
• ¿Cuánto será la ganancia anual, si se invierte una cantidad en
Investigación y Desarrollo?
Análisis de regresión lineal
Regresión lineal simple

• Es el estudio de la relación lineal existente entre una variable


aleatoria Y, llamada variable dependiente y otra variable X,
llamada variable independiente o explicativa.
• El objetivo principal es estimar Y para un valor especifico de X.
• El modelo de regresión poblacional tiene la siguiente forma:

Yi  0  1 X i  ei i=1, 2, …, n

Variable Error ~ NID(0,2)


dependiente Parámetros Variable predictora
(independiente)
Diagrama de dispersión

• Los pares de observaciones


pueden representarse
gráficamente en un diagrama de
dispersión o nube de puntos.
• Según el diagrama de dispersión
se puede establecer algún tipo de
relación lineal entre las variables.
• Si el diagrama de dispersión indica
la existencia de una relación de
tipo lineal, entonces se utilizan los
datos para estimar un modelo.
Estimación de parámetros

• El procedimiento matemático utilizado para el proceso de


estimación es el de mínimos cuadrados.
• El método consiste en determinar una ecuación que ocasione
que la suma de los errores al cuadrado sea mínima.
• Los parámetros estimados están expresados por:

ˆ0  y  ˆ1 x

 n   n  n 
n  xi yi     xi   yi 
ˆ1   i 1   i 1  i 1 
2
 n
  n

n  xi2     xi 
 i 1   i 1 
Modelo o ecuación estimada

Yˆ  ˆ0  ˆ1 X
Donde:
Coeficiente de intersección (ˆ0 )
Es el valor de Y, cuando x = 0.
Coeficiente de regresión poblacional estimado ( ˆ1 )
Mide el cambio que se producirá en la variable dependiente Y
por un cambio unitario en la variable X.
La relación de X e Y puede ser:
• Directa: ˆ1 > 0 (pendiente positiva)
• Inversa: ˆ1 < 0 (pendiente negativa)
Supuestos del modelo
NORMALIDAD DE LOS Se debe verificar si los residuos o
RESIDUOS errores siguen una distribución normal

H0: Los errores se distribuyen normalmente


H1: Los errores no se distribuyen normalmente

Estadístico de prueba: Anderson Darling


Si P-valor > alfa No se rechaza H0
Se cumple el supuesto de Normalidad de errores.

AUTOCORRELACIÓN DE Se debe verificar la no autocorrelación


LOS RESIDUOS de los residuos o errores

H0: Los errores no están autocorrelacionados


0 1 3 4
H1: Los errores están autocorrelacionados
Autocorrelación No hay Autocorrelación
positiva Autocorrelación negativa

1 ≤ DW ≤ 3 Estadístico de prueba: Durbin Watson


Si 1 ≤ DW ≤ 3 No se rechaza H0
Se cumple el supuesto de no autocorrelación de
errores.
Validación del modelo lineal
• Hipótesis:

H0 : 1  0 (No existe relación lineal entre X e Y)


H1 :  1  0 (Existe relación lineal entre X e Y)
• Estadístico de prueba:
Fuentes de Grados de Suma de Cuadrado
F calculado
variación libertad cuadrados medio
Regresión 1 SCR CMR (1) Fc = (1)/(2)
Error n–2 SCE = SCT - SCR CME (2)
Total n–1 SCT

𝐶𝑀𝑅
𝐹𝑐 = ~𝐹
𝐶𝑀𝐸 (1,𝑛−2)

• Supuestos: Normalidad en los residuos y No autocorrelación de los


residuos.
• Decisión: Si P-valor  , se rechaza Ho Donde:
SCR: Suma de cuadrado regresión
SCE: Suma de cuadrado error
Ajuste del modelo
Coeficiente de Medida de bondad de ajuste
determinación Mide la proporción de la variabilidad total de Y que es
explicada por X a través del modelo de regresión lineal
R2
simple.

SCR
R2  siendo : 0  R 2  1
SCT

Coeficiente de no
Expresa la proporción de la variabilidad de Y que no es
determinación explicada por el modelo de regresión lineal simple.
1-R2
SCR
1 R2  1
SCT

Mide la asociación lineal entre Y y X.


Coeficiente de El coeficiente de correlación toma valores entre -1 y 1
correlación • r = -1 -> Asociación perfecta inversa
R • r = 0 -> No hay Asociación
• r = 1 -> Asociación perfecta directa
Donde:
SCR: Suma de cuadrado regresión
SCT: Suma de cuadrado total
Predicción por intervalo

Intervalo de confianza 1 ( x0  x ) 2
para el valor medio IC (  yi )  yˆ i  t( / 2,GLE ) Se 
n SCX

Intervalo de confianza
1 ( x0  x ) 2
para el valor individual IC (Yi )  yˆ i  t( / 2,GLE ) Se 1 
n SCX

yˆ0  ˆ0  ˆ1 x 0 Se  CME

Donde: GLE: Grado de libertad del error


Se: Desviación estándar del error X0: Valor de la variable X (dato)
CME: Cuadrado medio del error ഥ : Valor de la media de X
𝑿
t: Distribución T-Student n: Tamaño de la muestra
SCX: Suma de cuadrado de X α: Nivel de significación
Ejemplo de Aplicación

El vicepresidente de la empresa Computadoras S.A con el objetivo de probar que existe


relación lineal entre las ganancias anuales y la inversión en investigación y desarrollo
(ID) en miles de dólares, ha obtenido la siguiente información mensual:

Ganancia anual (Y) 20 25 34 30 33 34 36 35 40 37 41 20

Inversión en ID (X) 2 4 5 4 6 5 5 7 8 7 8 2

A un nivel de significación del 5%.


1) Verifique si se cumplen los supuestos.
2) Valide el modelo.
3) Presente el modelo estimado e interprete los coeficientes estimados.
4) Determine la varianza total de la variable dependiente explicada a través del
modelo.
5) Estime la ganancia anual, si se invierten $ 20 000 en ID.
6) Estime e interprete, con un nivel de confianza del 95%, la ganancia anual si se
invierten $ 32 000 en ID.
7) Estime e interprete, con un nivel de confianza del 95%, la ganancia promedio anual
si se invierten $ 30 000 en ID.
Solución
1) Verifique si cumplen los supuestos
NORMALIDAD DE LOS ERRORES
H0: Los errores se distribuyen normalmente
H1: Los errores no se distribuyen normalmente

Estadístico de prueba: AD=0.471


Probabilidad: P-valor = 0.200 > 0.05
Decisión: No se rechaza H0
Conclusión: A un nivel de significación del 5%, los errores se distribuyen normalmente.
Se cumple el supuesto de Normalidad de errores.
Solución
1) Verifique los supuestos
AUTOCORRELACIÓN DE ERRORES
H0: Los errores no están autocorrelacionados
H1: Los errores están autocorrelacionados

Estadístico de prueba: DW=1.97971


Decisión: No se rechaza H0
Conclusión: A un nivel de significación del 5%, los errores no están
autocorrelacionados.
Se cumple el supuesto de No autocorrelación de errores.

Estadístico de Durbin-Watson = 1.97971


Solución
2) Valide el modelo
HIPÓTESIS:
Ho: β1 = 0 No existe relación lineal entre la inversión en ID, y la ganancia anual
H1: β1 ≠ 0 Existe relación lineal entre la inversión en ID, y la ganancia anual
Nivel de significación: 0.05
Análisis de regresión: Ganancia anual Inversión en ID
Análisis de Varianza

Fuente GL SC Ajust. MC Ajust. Valor F Valor p


Regresión 1 478.41 478.412 71.94 0.000
Inversión en ID 1 478.41 478.412 71.94 0.000
Error 10 66.50 6.650
Falta de ajuste 4 48.84 12.209 4.15 0.060
Error puro 6 17.67 2.944
Total 11 544.92

Estadístico de prueba: F=71.94


P-valor: 0.000
Decisión: Se rechaza H0
Conclusión: Con un nivel de significancia del 5%, existe relación lineal entre la ganancia
anual y la inversión en investigación y desarrollo.
Solución
3) Presente el modelo estimado e interprete los coeficientes estimados

Coeficientes
EE del
Término Coef coef. Valor T Valor p VIF
Constante 15.20 2.13 7.15 0.000
Inversión en ID 3.216 0.379 8.48 0.000 1.00

Ecuación de regresión
Y = 15.20 + 3.216 X

4) Determine la varianza total de la variable dependiente explicada a través


del modelo

Resumen del modelo


R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
2.57885 87.80% 86.58% 83.95%

El 87.8% de la variabilidad de la ganancia es explicada por la inversión en


investigación y desarrollo.
Solución
5) Estime la ganancia anual, si se invierten $ 20 000 en ID
Prediction for Ganancia anual
Valor de
Variable configuración
Inversión en ID 20

EE de
Ajuste ajuste IC de 95% IP de 95%
79.5225 5.64254 (66.9502, 92.0949) (65.6993, 93.3457)

6) Estime e interprete, con un nivel de confianza del 95%, la ganancia anual


si se invierten $ 32 000 en ID
Prediction for Ganancia anual
Valor de
Variable configuración
Inversión en ID 32

EE de
Ajuste ajuste IC de 95% IP de 95%
118.117 10.1709 (95.4549, 140.779) (94.7378, 141.496)

𝐼𝐶 𝑌 = [94.7378 ; 141.496]
Solución
7) Estime e interprete, con un nivel de confianza del 95%, la ganancia
promedio anual si se invierten $ 30 000 en ID

Prediction for Y = Ganancia anual

Valor de
Variable configuración
Inversión en ID 30

EE de
Ajuste ajuste IC de 95% IP de 95%
111.685 9.41471 (90.7074, 132.662) (89.9347, 133.435) XX

𝐼𝐶 µ𝑌 = [90.7074 ; 132.662]

A un nivel de confianza del 95%, se estima que el intervalo 90.7074 ;132.662]


contiene a la ganancia promedio anual, si se invierte 30 mil dólares en ID
Se prueba los supuestos del modelo

Se valida el modelo estimado

Se realiza la predicción puntual o por intervalo


de confianza
Indique V o F según corresponda en los siguientes enunciados:

1. Uno de los supuestos de un modelo de regresión es que no exista V


autocorrelación de los errores.

2. El coeficiente de no determinación expresa la proporción de V


variabilidad explicada con el modelo de regresión.

3. A través del modelo de regresión se pueden realizar estimaciones


futuras respecto a la variable independiente. V
Bibliografía
• Montgomery,D y Runger,G (2006) Probabilidad y Estadística
aplicadas a la Ingeniería. MéxicoDF, Ed. LIMUSA, SA de CV Grupo
Noriega de editores
Material producido por la Universidad Peruana de Ciencias Aplicadas
Autor: Campomanes, Fanny ; Luna, Walter
COPYRIGHT ©UPC 2016 - Todos los derechos reservados.

Das könnte Ihnen auch gefallen