Beruflich Dokumente
Kultur Dokumente
El anlisis de regresin lineal simple es una tcnica estadstica para establecer la relacin entre dos variables
mediante un modelo matemtico establecido.
Existen dos variables, las cuales suponemos que estn relacionadas entre s, es decir, una ejerce cierto efecto
sobre la otra. El objetivo es establecer un modelo que nos sirva para determinar la relacin que existe entre
dichas variables.
Las variables a manejar son dos, la variable independiente, X, y la variable dependiente, Y. La variable
independiente se considera como una variable fsica y controlable, mientras que la variable dependiente es
considerada como una variable aleatoria y medible.
Se puede establecer la relacin entre dichas variables por medio de una lnea recta (al suponerse dicha
relacin como lineal).
Y = a + bX
X
La ecuacin de la lnea est dada por Y = a + bX, donde a es el punto de interseccin de la recta con el eje Y
mientras que la b es la pendiente, es decir, la inclinacin de la recta.
El modelo de regresin lineal simple es, de hecho, la ecuacin de la lnea; para efectos prcticos definimos
dicho modelo mediante:
Y = + X
Donde 0 y 1 son los parmetros del modelo.
0 representa la ordenada en el origen, esto es, el punto donde la recta corta el eje Y.
1 representa la pendiente, esto es, el cambio esperado en Y por cada incremento unitario en X.
ESTIMACION DE PARAMETROS
El modelo anteriormente descrito representa la relacin real existente entre las dos variables, X y Y. Es
necesario encontrar los valores de 0 y 1 que nos sirvan para estimar dichos parmetros.
Para encontrar estos estimadores, partiremos de una muestra aleatoria de tamao n para valores de X y de Y:
X1
X2
X3
.
.
.
Xn
Y1
Y2
Y3
.
.
.
Yn
Al ser una muestra aleatoria, el error estar presente en dichas mediciones. Debemos considerar dicho error
en el modelo de regresin a fin de representar, mediante ste, cada una de las observaciones anteriores:
Y = 0 + 1X +
Donde es un error aleatorio con media cero y varianza 2.
Al utilizar el modelo anterior para representar cada observacin de Y, stas quedarn de la siguiente manera:
Y1 = 0 + 1X1 + 1
Y2 = 0 + 1X2 + 2
Y3 = 0 + 1X3 + 3
.
.
.
.
.
.
.
.
.
.
.
.
Y = 0 + 1X
Y = 0 + 1X +
Yn = 0 + 1Xn + n
X
En general, Yi = 0 + 1Xi + i para i = 1, 2, 3, ..., n
L i2
i 1
i 1
i 1
L i2 Yi 0 1 X i
Buscaremos aquellos valores de 0 y 1 que minimicen la ecuacin anterior. Para esto, derivaremos la funcin
y evaluaremos con respecto a 0 y 1 ( los estimadores) e igualaremos a cero.
L
0
0 ,1
L
1
0 ,1
0 , 1
2 Yi 0 1 X i 0
i 1
0 , 1
2 Yi 0 1 X i X i 0
i 1
Lo cual nos lleva a las siguientes ecuaciones conocidas como ecuaciones normales de mnimos
cuadrados.
n
i 1
n 0 1 X i 0
i 1
i 1
i 1
i 1
X iYi 0 X i 1 X i2 0
Despejando
0 y 1 :
0 Y 1 X
n
X Y
i 1
i 1
X
2
i
i 1
i 1
X Y
2
X
i 1
Sxx X i X
i 1
X
2
i
i 1
X
i 1
i 1
i 1
X i Yi
i 1
i 1
Sxx Yi X i X X i Yi
Sxy
Sxx
Por lo tanto, el modelo de regresin lineal simple ajustado queda de la siguiente forma:
Y 0 1 X
donde
respectivamente.
Podemos generalizar sobre los parmetros del modelo a partir de la informacin obtenida de los estimadores
de stos. Dicha generalizacin ( o inferencia estadstica) se puede realizar ya sea mediante pruebas de
hiptesis o mediante intervalos de confianza.
0 0 ,0
t0
1 X2
n Sxx
MSE
donde:
MSE es la media de los cuadrados del error o bien, el estimador de la varianza del modelo:
2 MSE
SSE
n2
en este caso SSE es la suma de los cuadrados del error y n 2 son los grados de libertad del error.
SSE Syy SSR
Syy Yi
2
i 1
i 1
SSR 1 Sxy
Retomando la hiptesis planteada:
H 0 : 0 0 ,0
H a : 0 0 ,0
t0
0 0,0
1 X2
MSE
n Sxx
1 X2
n Sxx
MSE
Si el valor absoluto del estadstico de prueba es mayor que el valor de tablas, t /2, n 2, entonces rechazaremos
la hiptesis nula; aceptaremos la alternativa concluyendo que la ordenada en el origen es diferente al valor
con el cual la estamos comparando.
PARA LA PENDIENTE
Algo semejante realizaremos para la pendiente. Partimos de la hiptesis nula afirmando que la pendiente es
igual a un valor determinado (siempre que dicho valor sea diferente de cero), contra la alternativa apropiada,
por ejemplo que sea diferente a dicho valor:
H 0 : 1 1,0
H a : 1 1,0
t0
1 1,0
MSE
Sxx
Este estadstico tambin sigue una distribucin t-student con v = n 2 grados de libertad.
Del mismo modo, la expresin
MSE
representa la desviacin estndar para 1.
Sxx
Si el valor absoluto del estadstico de prueba es mayor que el valor de tablas, t /2, n 2, entonces se rechaza la
hiptesis nula y se acepta la alternativa: la pendiente es diferente al valor representado por 1,0.
Un caso especial para la pendiente sera probar la hiptesis nula afirmando que la pendiente es igual a cero
contra la alternativa que sea diferente de cero.
Tambin conocido como Prueba de Significancia, nos ayuda a determinar si la variable independiente tiene o
no efecto significativo sobre la variable dependiente.
Para realizar este procedimiento de prueba de hiptesis, descomponemos la suma total de cuadrados en dos
partes: la suma de cuadrados de la regresin y la suma de los cuadrados del error.
Entonces:
H 0 : 1 0
H a : 1 0
Tambin hacemos uso de la tabla de anlisis de varianza (ANOVA) para determinar el estadstico de prueba.
Dicha tabla se compone de lo siguiente:
Fuente de
variacin
Suma de
cuadrados
Grados de
libertad
Regresin
SSR
Error
SS
n-2
Total
Syy
n-1
Media de
cuadrados
SSR
MSR
1
SSE
MSE
n2
Estadstico de
prueba
F0
MSR
MSE
As, para la ordenada en el origen, el intervalo de confianza de (1 - ) 100%, para este parmetro est dado
por la siguiente ecuacin.
0 t
,n 2
1 X2
1 X2
0 0 t ,n 2 MSE
2
n Sxx
n Sxx
MSE
Aqu, como 0 representa solamente una posicin, no debe existir problema alguno en cuanto a la conclusin
de los resultados obtenidos.
Igualmente, tambin podemos calcular un intervalo de confianza de (1 - ) 100%, para la pendiente verdadera
del modelo mediante la siguiente expresin.
1 t
,n 2
MSE
MSE
1 1 t ,n 2
2
Sxx
Sxx
En este caso la conclusin si depende del resultado obtenido, veamos los casos posibles:
Puede que el intervalo resulte en a 1 b ; la conclusin apropiada ser que por cada incremento en X,
Y, disminuir, en promedio, por lo menos b y a lo mucho a veces.
Otro resultado posible para el intervalo sera a 1 b ; la conclusin ser, en este caso, que por cada
incremento en X, Y se incrementar, en promedio, por lo menos a y a lo mucho b veces.
Si el resultado del intervalo es a 1 b , en este caso, solamente concluiremos que no se puede afirmar
que X tenga efecto sobre Y.
Esto es, Cul es el valor esperado de Y cuando X = X 0?, solamente hay que introducir el valor de X 0 en la
variable X del modelo.
Y 0 1 X 0
Podemos calcular intervalos de confianza tanto para la media de una serie de observaciones (para la recta
verdadera) como para una observacin futura en particular.
El intervalo de confianza de (1 -100% para el valor esperado de Y cuando X = X0, esta dado por la
ecuacin:
Y0 t
,n 2
1 X 0 X 2
1 X 0 X 2
MSE
y Y0 t ,n 2 MSE
2
Sxx
Sxx
n
n
El intervalo de confianza de (1 - ) 100% para una observacin futura de Y cuando X = X 0, est dado por la
expresin:
0 t
Y
1 X X
MSE 1 0
n
Sxx
,n 2
0 t
Y0 Y
1 X X
MSE 1 0
n
Sxx
,n 2
Y0 t
,n 2
1 1 X 0 X 2
1 1 X0 X 2
MSE
Y0 Y0 t ,n 2 MSE
2
Sxx
Sxx
k n
k n
El coeficiente de determinacin y
La prueba de falta de ajuste.
ei Yi Yi
Graficamos estos residuos ya sea contra los valores de X, contra los valores estimados de Y, contra los
valores observados de Y o contra la variable tiempo, si es que se tiene.
Basta comparar, esta grfica con los siguientes patrones para llegar a una conclusin acerca de la adecuacin
del modelo:
ei
ei
Yi
En este caso, la variacin de los
residuos es constante.
El modelo lineal s es adecuado
Yi
La variacin crece a medida que la
variable Yi o el tiempo crece.
El modelo no es adecuado.
10
ei
ei
Yi
i
La variacin de los residuos no es lineal.
El modelo lineal no es adecuado para expresar la
relacin entre X y Y.
Se puede ajustar dicha relacin como un modelo
cuadrtico, slo basta agregar una variable de
orden superior.
Y = 0 + 1X + 2X2
La variacin es irregular.
El modelo no es adecuado
COEFICIENTE DE DETERMINACION
El coeficiente de determinacin nos permite evaluar qu tanta variacin de los valores de Y se explica
mediante el modelo de regresin lineal simple.
Este coeficiente de determinacin se representa por el smbolo R 2; toma valores entre 0 y 1. A medida que se
acerca a 1 el modelo s es adecuado puesto que explica la mayor cantidad de variacin presente en los datos.
En tanto R2 se acerque a cero, el modelo deja de ser adecuado puesto que la cantidad de variacin de los
datos que se explica mediante el modelo es pobre.
El coeficiente de determinacin se expresa como un porcentaje y se calcula mediante:
R2
SSR
100%
Syy
Y11
Y21
Y31
.
.
.
Ym1
Y12
Y22
Y32
.
.
.
Ym2
Y13
Y23
Y33
.
.
.
Ym3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Y1n1
Y2n2
Y3n3
.
.
.
Ymnm
11
SS PE
Y
m
ni
i 1
i 1
ij
SS LOF SSE SS PE
SS LOF
F02
SS PE
m2
nm
12
CORRELACION
Hasta este momento hemos relacionado dos variables que suponemos de antemano tienen una relacin entre
s, esto es, cualquier cambio que provoquemos en la variable independiente, trae como consecuencia un
cambio en la variable dependiente.
Ahora bien, puede haber casos en que las dos variables, X y Y, sean aleatorias; ninguna tiene efecto sobre la
otra, pero sera apropiado relacionar dichas variables (siempre que sea posible).
Podemos relacionar dichas variables mediante el modelo de regresin lineal simple
Y 0 1 X
Aunque ste no nos dice nada sobre la existencia de la relacin entre las dos variables.
Es el coeficiente de correlacin el que va a determinar si las dos variables estn relacionadas entre s.
El coeficiente de correlacin se representa mediante el smbolo (rho). Se define mediante:
xy
x y
2
donde xy es la covarianza entre X y Y.
x
y
Aqu vemos que el coeficiente de correlacin est relacionado con 1 sin que esto represente que se trate de
conceptos iguales.
1 > 0
1 < 0
>0
<0
1 = 0
=0
Los estimadores de los parmetros del modelo de regresin son los mismos calculados en temas anteriores:
13
0 Y 1 X
1
Sxy
Sxx
Sxy
Sxx Syy 12
Como
r2
2
S XY
Sxx Syy
r2
Sxy Sxy
Sxx Syy
Sxy
1 :
Sxx
r2
y
1 Sxy
Syy
1 Sxy SSR :
entonces:
r2
SSR
R2
Syy
Concluimos que el coeficiente de correlacin es igual a la raz cuadrada del coeficiente de determinacin
r
SSR
Syy
R2
Vemos tambin que el coeficiente de correlacin est relacionado con el coeficiente de determinacin, aunque
son conceptos totalmente diferentes.
14
Al igual con los parmetros del modelo de regresin, tambin se pueden hacer inferencias sobre el coeficiente
de correlacin verdadero; ya sea mediante pruebas de hiptesis o mediante intervalos de confianza.
Esta prueba es semejante a la prueba de significancia realizada en la regresin lineal simple, aunque tiene
una diferente connotacin.
El estadstico de prueba apropiado en este caso es:
t0
r n2
1 r2
contra la alternativa
H a : 0
z o tanh 1 r tanh 1 0 n 3
donde
tanh 1 x
1 1 x
In
2 1 x
15
Entonces, si el valor absoluto del estadstico de prueba es mayor que el valor de tablas z /2, se rechaza H0 y
se acepta la alternativa: el coeficiente de correlacin verdadero es diferente del valor con el que se est
comparando.
z
z
2
tanh tanh 1 r 2
tanh tanh 1 r
n3
n3
donde
e x ex
tanh x x
e e x
EJERCICIO
Ing. Armando Jimnez Lizcano
16
Para ejemplificar lo visto anteriormente, resolveremos el siguiente ejercicio utilizando las frmula encontradas.
La resistencia del papel utilizado en la manufactura de cajas de cartn ( Y ) se relaciona con el porcentaje de
la concentracin de madera dura en la pulpa original ( X ). En condiciones controladas, una planta piloto
manufactura 16 muestras, cada una de diferentes lotes de pulpa, y se mide la resistencia a la tensin. Los
datos son los siguientes.
I.
II.
III.
IV.
V.
VI.
1.0
101.4
1.5
117.4
1.5
117.1
1.5
106.2
2.0
131.9
2.0
146.9
2.2
146.8
2.4
133.9
2.5
111.3
2.5
123.0
2.8
125.1
2.8
145.2
3.0
134.3
3.0
144.5
3.2
143.7
3.3
146.9
17
Para encontrar las respuestas a cada uno de los incisos del ejercicio anterior, necesitamos primero calcular
las sumatorias de las variables X y Y:
n=
X =
X2 =
Y =
Y2 =
XY =
16
37.2
93.66
2075.6
272908.02
4937.97
Con los valores anteriores, calcularemos las expresiones Sxx, Sxy que nos permitirn determinar los
estimadores de los parmetros del modelo solicitado en el inciso 1 del ejercicio.
Sxy
XY
X Y
n
37.2 2075.6
Sxy 4937.97
16
Sxy 112 .2
Sxx X
2
n
37.2 2
Sxx 93.66
16
Sxx 7.17
0 Y 1 X
0 129.725 15.6485 2.325
0 93.3422
El primer inciso nos pide ajustar un modelo de regresin lineal simple a los datos:
18
Y 93.3422 15.6485 X
Por cada incremento en la concentracin de madera dura en la pulpa original, la resistencia del papel
se incrementar 15.6485 veces en promedio.
Enseguida calcularemos los valores de Syy, SSR y SSE que nos permitirn realizar la prueba de significancia
del modelo.
Syy Y 2
Y
n
Syy 272908.02
2075.6 2
16
Syy 3650.81
SSR 1 Sxy
SSR 15.6485112 .2
SSR 1755.7617
SSE Syy SSR
SSE 3650.81 1755.7617
SSE 1895.0483
F0
F0
SSR1
SSE n 2
1755.7617
1895.048314
1755.7617
135.3605
F0 12.9710
F0
19
El valor de las tablas de la distribucin F con un nivel de significancia del 5 % con 1 y 14 grados de libertad en
el numerador y el denominador, respectivamente, es 4.6
Al comparar el estadstico de prueba con dicho valor vemos que 12.9710 es mayor que 4.6. esto no lleva a
rechazar la hiptesis nula y por consiguiente a aceptar la alternativa:
La resistencia del papel s est relacionada significativamente con la concentracin de madera dura en
la pulpa original.
En la segunda parte del inciso 2 se pide probar tambin la falta de ajuste del modelo. Para esto
acomodaremos los valores de X, que estn repetidos en los datos, con sus respectivos valores de Y de la
siguiente forma:
X
1.5
2.0
2.5
2.8
3.0
Y
117.4
117.1
106.2
131.9 146.9
111.3 123.0
125.1 145.2
134.3 144.5
113.5666
139.4
117.15
135.15
139.4
81.4466
112.5
68.445
202.005
52.02
516.4166
SS lof
F02
F02
SS pe
m2
nm
1378.6317
516.4166
F02 2.0022
El valor de las tablas de la distribucin F con un nivel de significancia del 5 % y con 8 y 6 grados de libertad en
el numerador y el denominador, respectivamente, es 4.15
20
Comparando el estadstico de prueba con el valor encontrado en las tablas de la distribucin F, vemos que
dicho estadstico es menor que 4.15, por lo tanto no podemos rechazar la hiptesis nula:
No se puede afirmar que el modelo lineal no se ajuste a los datos, por lo que podemos decir que dicho
modelo s es adecuado para representar la relacin entre las variables del ejercicio.
En el inciso 3 se pide calcular un intervalo de confianza del 90% para la pendiente de la lnea de regresin.
Para esto necesitamos buscar en las tablas de la distribucin t-student el valor de t0.5,14. Este valor en la tablas
es 1.761, por lo que el intervalo de confianza quedar de la siguiente manera:
1 t
15.6485 1.761
,n 2
MSE
1 1 t ,n 2
2
Sxx
MSE
Sxx
135.3605
135.3605
1 15.6485 1.761
7.17
7.17
7.9970 1 23.2999
aqu concluiremos:
Se puede afirmar con un 90% de certeza que por cada incremento en la concentracin de madera dura
en la pulpa original del papel, la resistencia del mismo se incrementar por lo menos 7.9970 y a lo
mucho 23.2999 veces en promedio.
En el inciso 4 se pide un intervalo de confianza del 98 % para la interseccin de la recta. Buscaremos en este
caso el valor de t0.01,14 tambin en las tablas de la distribucin t-student. Dicho valor es 2.624, el cual
utilizaremos para calcular el intervalo solicitado:
0 t
1 X2
1 X2
0 0 t ,n 2 MSE
2
n Sxx
n Sxx
,n 2
MSE
1 2.325 2
1 2.325 2
7.17
7.17
16
16
65.7575 0 120.9268
La conclusin ser:
Se puede afirmar con un 98% de certeza que la lnea de regresin cortar el eje Y en por lo menos
65.7575 y a lo mucho 120.9268.
21
Para el inciso 5 en el que se pide un intervalo de confianza del 95% para la lnea de regresin verdadera en
X = 2.5, buscaremos el valor de t0.025,14 en las tablas de la distribucin t-student. Este valor es 2.145.
Tambin necesitamos determinar el valor estimado de Y cuando X es igual a 2.5; para esto introducimos dicho
valor en el modelo de regresin lineal calculado en el primer inciso:
Y0 93.3422 15.6485 X 0
Y0 93.3422 15.6485 2.5
Y0 132.4634
El intervalo de confianza para la respuesta media de Y queda determinado de la siguiente manera:
Y0 t
,n 2
1 X0 X 2
1 X0 X 2
t
MSE
Y
0
,n 2
2
Sxx
Sxx
n
MSE
1 2.5 2.325 2
1 2.5 2.325 2
132.4634 2.145 135.3605
7.17
7.17
16
16
126.0150 Y 138.9123
en este caso concluiremos:
Existe un 95% de certeza al afirmar que cuando la concentracin de madera dura en la pulpa original
del papel sea de 2.5%, su resistencia esperada ser por lo menos 126.0150 y a lo mucho 138.9123.
Por ltimo, el inciso 6 se pide determinar el porcentaje de la variabilidad en la resistencia del papel que se
explica mediante el modelo de regresin lineal simple. Esto es, calcular el coeficiente de determinacin:
SSR
Syy
1755.7617
R2
3650.81
2
R 0.4809
R2
Y 93.3422 15.6485 X
como el valor de R2 es bajo, podemos concluir que el modelo no es adecuado para representar la relacin
entre los valores de X y Y.
Podemos verificar la mayora de los resultados obtenidos anteriormente en la siguiente hoja de clculo
diseada en Excel. Esta hoja arroja automticamente los valores requeridos para resolver un problema de
regresin lineal simple.
22
X
1
1.5
1.5
1.5
2
2
2.2
2.4
2.5
2.5
Y
101.4
117.4
117.1
106.2
131.9
146.9
146.8
133.9
111.3
123
2.8
2.8
3
3
3.2
3.3
125.1
145.2
134.3
144.5
143.7
146.9
PARAMETROS
0
93.34215481
1
15.64853556
Yo
132.4634937
ESTADISTICOS DE PRUEBA
Fo
12.97105273
to1
8.879216556
to2
3.601534774
INTERVALOS DE CONFIANZA
65.75235768
< o <
120.9319519
7.995711933
< 1 <
23.3013592
126.0154945
< Yo <
138.9114929
106.6904439
< Yo <
158.2365436
COEFICIENTE DE DETERMINACION
X1 :
I.C. para o:
I.C. para 1:
I.C. para
Yo:
I.C. para Yo:
I.C. para :
2.5
0.98
0.9
0.95
0.95
0.95
R^2
0.48092497
COEFICIENTE DE CORRELACION
r
0.693487541
ESTADISTICO DE PRUEBA
to
3.601534774
INTERVALO DE CONFIANZA
0.301389825
<<
0.884970481
23