Beruflich Dokumente
Kultur Dokumente
La Regresin lineal se refiere a la prediccin del valor de una variable a partir de una o ms
variables. En ocasiones se denomina a la variable dependiente (y) variable de respuesta y a la
variable independiente (x) variable de prediccin.
En muchos problemas hay dos o ms variables inherentemente relacionadas, y es necesario
explorar la naturaleza de esta relacin. El anlisis de regresin puede emplearse por ejemplo para
construir un modelo que exprese el rendimiento como una funcin de la temperatura. Este modelo
puede utilizarse luego para predecir el rendimiento en un nivel determinado de temperatura.
Tambin puede emplearse con propsitos de optimizacin o control del proceso.
Comenzaremos con el caso ms sencillo, la prediccin de una variable (y) a partir de otra variable
(x).
a) Un actuario quiere predecir el monto del seguro de vida alcanzado por los maestros a partir de
sus salarios mensuales.
Solucin: la variable dependiente o de respuesta, es el monto del seguro de vida alcanzado por
un maestro, y la variable independiente o variable de prediccin es el salario anual del docente.
b) El gerente de un restaurante quiere estimar el nmero de clientes que puede esperar cierta
noche a partir del nmero de reservaciones para cenar recibidas hasta las 5:00 PM
Solucin: El nmero de clientes es la variable de respuesta, el nmero de reservaciones es la
variable independiente.
1
Supuestos para el modelo de regresin lineal
Ejemplo 1:
La revista Motor Trend presenta con frecuencia datos de rendimiento para automviles, que
compara el tamao del motor en pulgadas cbicas de desplazamiento (pcd) y las millas por galn
(mpg) estimadas para ocho modelos representativos de automviles subcompactos modelo 1984.
Diagrama de dispersin
39
37
35
m 33
p 31
g 29
27
25
80 90 100 110 120 130
pcd
ddci
d
1
Estadstica, Richard C.Weimer, CECSA, Segunda edicin, 2000
Usamos el modelo probabilstico siguiente para explicar el comportamiento de los millajes para
las ocho medidas de tamao de motor, este se llama modelo de regresin lineal, y expresa la
relacin lineal entre tamao de motor (x) y millas por galn (y).
y 0 1 x
Donde
y = variable dependiente
0 ordenada al origen
1 = pendiente
x = variable independiente
= Error aleatorio
Donde:
y Valor predicho de y para un valor particular de x.
b0 = Estimador puntual de 0 .(ordenada al origen)
b1= Estimador puntual de 1. (pendiente)
x 2
SS x x 2
n
y 2
SS y y 2
n
x y
SS xy xy
n
SS xy
b1
SS x
b0 y b1 x
Donde:
SS = suma de cuadrados
b1 = pendiente
b0 = ordenada al origen
n = nmero de pares de datos
En la tabla incluimos las sumatorias que utilizaremos para el clculo de las frmulas.
coches compactos tamao del motor (pcd) x millas/galn (mpg), y x^2 y^2 xy
Chevrolet Cavalier 121 30 14641 900 3630
Datsun Nissan Stanza 120 31 14400 961 3720
Dodge Omni 97 34 9409 1156 3298
Ford Escort 98 27 9604 729 2646
Mazda 626 122 29 14884 841 3538
Plymouth Horizon 97 34 9409 1156 3298
Renault Alliance/Encore 85 38 7225 1444 3230
Toyota Corolla 122 32 14884 1024 3904
SUMAS 862 255 94456 8211 27264
Media 107.75 31.875
Calculando b0 y b1 tenemos:
SSx = 1575.50
SSy = 82.88
SSxy = -212.25
b1 = -0.13472
b0 = 46.39099
50 y =46.391 -0.1347x
40
30
Y
20
Y
10
Lineal (Y)
0
0 50 100 150
Variable X
Error
Los errores se denominan frecuentemente residuales. Podemos observar en la grfica de
regresin los errores indicados por segmentos verticales.
Residual
0 10
0 X=0.000
-10 -10
-20
-20 -30
-40 -3.0SL=-43.26
-50
-2 -1 0 1 2 0 5 10
Marcador Normal Nmero de Observacin
curva de 3 20
10
Frecuencia
campana? 2
Residual
0
1 -10
Ignrese -20
Aleatorio
0
para grupos
-25 -20 -15 -10 -5 0 5 10 15 450 500
Ajuste
550 alrededor de
cero, sin
pequeos de
Buscar
Buscarlas
lasinconsistencias
inconsistencias tendencias?
informacin
mayores
mayores
(<30)
Al usar el criterio de mnimos cuadrados para obtener la recta que mejor se ajuste a nuestros
datos, podemos obtener el valor mnimo para la suma de cuadrados del error (SSE)
SSE SS y b1 SS xy
A la varianza de los errores e se le llama varianza residual siendo denotada por s e2 , se encuentra
dividiendo SSE entre n-2
SSE
S e2
n2
La raz cuadrada positiva de la varianza residual se llama error estndar de estimacin y se
denota por Se.
Aplicando las frmulas en obtenemos la suma de cuadrados del error, la varianza residual y el
error estndar de la estimacin:
54.2849
S e2 9.0475
6
Se = 3.007
Ejemplo 2: Una firma de renta de coches recab los datos adjuntos sobre los costos de
mantenimiento y, y las millas recorridas x para siete de sus automviles.
d) Una estimacin puntual para el costo promedio del mantenimiento de un coche con 36,000
millas recorridas.
e) Prediga el costo para un coche con 29,000 millas recorridas.
a) b0 =57.5567
b) b1 = 4.4970
c) S e2 = 170.54
d) 57.5567 + 4.497(36) = 219.44 usd
e) 57.5567 + 4.497(29) = 187.96 usd
Donde:
SSE = Suma de cuadrados del error
SSR = Suma de cuadrados de la regresin
SSE = SSy-b1SSxy
SSR = b1SSy
Prueba de hiptesis utilizando la distribucin F
Si fuera cierta H 0 : 1 0 , el estadstico F servira como estadstico de prueba: F est definido
como:
SSR
F
S e2
Ejemplo 3: Para los datos del ejemplo 1 haga una prueba para determinar si 1 0 , usando
0.05
H 0 : 1 0
H 1 : 1 0
SSR 28.5901
F = 3.16
S e2 9.0475
b1
t , donde gl = n-2
Se SSx
Ejemplo 4: Usando los datos del ejemplo 1, haga una prueba para determinar si 1 0 usando la
prueba de t y 0.05 .
H 0 : 1 0
H 1 : 1 0
b1 0.1347
t = 1.7775
Se SSx 9.0475 1575.5
Los valores crticos t.025 para gl = 6 son 2.447 . Como t.025 < t no rechazamos H 0 : 1 0 .
Por tanto no tenemos evidencia que sugiera que el modelo lineal es apropiado para nuestros
datos.
Anlisis de correlacin
Establece si existe una relacin entre las variables y responde a la pregunta,Qu tan evidente es
esta relacin?".
La correlacin es una prueba fcil y rpida para eliminar factores que no influyen en la prediccin,
para una respuesta dada.
SSxy
r
SSxSSy
Tabla de Correlacin
Por su importancia, cul es el coeficiente mnimo de correlacin?
15 15
10
Y
Y
10
5
5
0
0 5 10 15 20 25
Sin Correlacin 0
0 5 10 15 20 25
X 25 X
20
15
Correlacin 10
Y
5
Correlacin
25
Positiva 0 Negativa
0 5 10 15 20 25 25
20
X 20
15
15
Y
10
Y
10
5
5
0
0 5 10 15 20 25 0
0 5 10 15 20 25
X
X
Ejemplo 5: En un esfuerzo por determinar la relacin entre el pago anual de los empleados y el
nmero de faltas al trabajo por causa de enfermedad, una corporacin grande estudi los registros
personales de una muestra de doce empleados. Los datos pareados aparecen en la siguiente
tabla.
Pago anual
Empleado (miles de dlares) Inasistencias
1 15.7 4
2 17.2 3
3 13.8 6
4 24.2 5
5 15 3
6 12.7 12
7 13.8 5
8 18.7 1
9 10.8 12
10 11.8 11
11 25.4 2
12 17.2 4
Determine el coeficiente de correlacin e interprete el resultado.
SSxy = -130.06667
SSx = 230.569167
SSy = 164.666667
SSxy
r = -0.6675
SSxSSy
Diagrama de dispersin
14
12
Inasistencias
10
8 Serie1
6 Lineal (Serie1)
4
2
0
0 5 10 15 20 25 30
Pago anual (miles usd)
Anlisis de residuos: muestra los pronsticos y residuos para cada observacin, as como
el grfico de residuales, en el cual observamos inconsistencias ya que la mayora de los
puntos se encuentran en la regin positiva.
ANLISIS DE REGRESIN MULTIPLE
Ejemplo 6 Muchos programas de estudios premdicos usan los promedios de las calificaciones del
MCAT de los estudiantes egresados como un indicador de la calidad de sus programas. Las
variables que se sabe influencian esos promedios del MCAT(y) son: la combinacin de las
calificaciones del SAT en matemticas y en oratoria (x1) y el GPA (x2) de los prospectos a mdicos.
La tabla muestra las medidas de x1, x2 y y de seis estudiantes que han cursado un programa de
premedicina y que han presentado el MCAT
Con esta informacin podemos encontrar una ecuacin lineal que nos permita predecir el promedio
de calificaciones del MCAT para un estudiante si se conocen su GPA y su calificacin combinada
del SAT.
La ecuacin lineal para los datos del ejemplo tiene la forma y b0 b1 x1 b2 x2 . Es posible
encontrar los valores de b0, b1, y b2 usando el mtodo de mnimos cuadrados, al igual que en el
mtodo de regresin lineal simple. El mtodo en este caso requiere resolver tres ecuaciones
lineales con tres incgnitas, estas ecuaciones, conocidas como ecuaciones normales, son:
y nb 0 b1 x1 b2 x2
x y b x b x b x
1 0 1 1
2
1 2
2
2
x 2 y b0 x2 b1 x1 x2 b2 x 2
2
La siguiente tabla organiza los clculos para obtener las ecuaciones:
Suma de cuadrados
La suma total de cuadrados SST, se descompone en dos componentes: suma de cuadrados para
la regresin, y suma de cuadrados del error.
La suma de cuadrados para la regresin es aquella parte de la suma total de cuadrados que se
atribuye a las variables independientes. Mientras que la suma de cuadrados del error es aquella
porcin de la suma de cuadrados total y que no se debe a las variables independientes, por ello se
llama suma de cuadrados del error.
SST y y 12.9950
2
SSE y y 2.2403
2
glT gl R gl E
glT n 1
gl R k
gl E n (k 1)
donde:
k = nmero de variables independientes
Clculo de cuadrados medios:
SSR 10.7547
MSR 5.3773
gl R 2
SSE 2.2403
MSE 0.7468
gl E 3
Donde:
MSR= Cuadrado medio de la regresin
MSE= Cuadrado medio del error.
Prueba de hiptesis
Para determinar si el modelo lineal describe adecuadamente los datos, se usa la prueba F.
Para los datos del ejemplo las hiptesis son:
H 0 : 1 2 0
H 1 : 1 0 o 2 0
MSR 5.3773
F 7.20
MSE 0.7468
SSR
R2
SST
Utilizando los datos del ejemplo:
10.7547
R2 0.8276 82.8%
12.995
Esto significa que aproximadamente el 83% de la variacin en el promedio de las calificaciones se
atribuye a la variacin de las variables independientes y solamente el 17% de la variacin de la
variable dependiente no se atribuye a eso.
Regresin mltiple en Minitab
Ejemplo 7 La tabla enlista el consumo de combustible en millas por galn bajo condiciones
normales de manejo, los pesos de los coches en libras y la capacidad del motor en cc para seis
coches deportivos modelo 1990.
Damos Clic en el Icono Graphs, y en la opcin grficos de residuos residual plots dejamos la
opcin que el sistema da por de fault: Regular. y seleccionamos la opcin residual vs. fits y
normal plot of residuals. Tambin existen otras opciones de grficos que podemos usar en caso de
ser necesario.
En la opcin Resultados Results seleccionamos el circulo: Regresin equation....
Regression Analysis
The regression equation is
C3 = 10,9 - 0,00050 C1 + 0,00270 C2
Analysis of Variance
Source DF SS MS F P
Regression 2 2,368 1,184 0,15 0,866
Residual Error 3 23,605 7,868
Total 5 25,973
1
Normal Score
-1
-2 -1 0 1 2 3 4
Residual
2
Residual
-1
-2
17 18 19
Fitted Value
Analizando los grficos anteriores, podemos observar en el grafico de probabilidad que las
observaciones aparentan ser normales. Sin embargo en el grfico de residuales observamos una
tendencia ya que la mayora de los puntos se encuentran a bajo del cero.