Sie sind auf Seite 1von 23

REGRESION LINEAL SIMPLE

El anlisis de regresin lineal simple es una tcnica estadstica para establecer la relacin entre dos variables
mediante un modelo matemtico establecido.
Existen dos variables, las cuales suponemos que estn relacionadas entre s, es decir, una ejerce cierto efecto
sobre la otra. El objetivo es establecer un modelo que nos sirva para determinar la relacin que existe entre
dichas variables.
Las variables a manejar son dos, la variable independiente, X, y la variable dependiente, Y. La variable
independiente se considera como una variable fsica y controlable, mientras que la variable dependiente es
considerada como una variable aleatoria y medible.
Se puede establecer la relacin entre dichas variables por medio de una lnea recta (al suponerse dicha
relacin como lineal).

Y = a + bX

X
La ecuacin de la lnea est dada por Y = a + bX, donde a es el punto de interseccin de la recta con el eje Y
mientras que la b es la pendiente, es decir, la inclinacin de la recta.
El modelo de regresin lineal simple es, de hecho, la ecuacin de la lnea; para efectos prcticos definimos
dicho modelo mediante:
Y = + X
Donde 0 y 1 son los parmetros del modelo.
0 representa la ordenada en el origen, esto es, el punto donde la recta corta el eje Y.
1 representa la pendiente, esto es, el cambio esperado en Y por cada incremento unitario en X.

Ing. Armando Jimnez Lizcano

ESTIMACION DE PARAMETROS
El modelo anteriormente descrito representa la relacin real existente entre las dos variables, X y Y. Es
necesario encontrar los valores de 0 y 1 que nos sirvan para estimar dichos parmetros.
Para encontrar estos estimadores, partiremos de una muestra aleatoria de tamao n para valores de X y de Y:

X1
X2
X3
.
.
.
Xn

Y1
Y2
Y3
.
.
.
Yn

Al ser una muestra aleatoria, el error estar presente en dichas mediciones. Debemos considerar dicho error
en el modelo de regresin a fin de representar, mediante ste, cada una de las observaciones anteriores:
Y = 0 + 1X +
Donde es un error aleatorio con media cero y varianza 2.
Al utilizar el modelo anterior para representar cada observacin de Y, stas quedarn de la siguiente manera:

Y1 = 0 + 1X1 + 1

Y2 = 0 + 1X2 + 2
Y3 = 0 + 1X3 + 3
.
.
.

.
.
.

.
.
.

.
.
.

Y = 0 + 1X
Y = 0 + 1X +

Yn = 0 + 1Xn + n
X
En general, Yi = 0 + 1Xi + i para i = 1, 2, 3, ..., n

Ing. Armando Jimnez Lizcano

METODO DE MINIMOS CUADRADOS


Para encontrar los estimadores de los parmetros, utilizaremos el mtodo de mnimos cuadrados.
El mtodo de mnimos cuadrados consiste en minimizar la funcin de mnimos cuadrados.
La funcin de mnimos cuadrados est dada por:
n

L i2
i 1

Si de Yi = 0 + 1Xi + i despejamos i y sustituimos dicha expresin en L:


n

i 1

i 1

L i2 Yi 0 1 X i

Buscaremos aquellos valores de 0 y 1 que minimicen la ecuacin anterior. Para esto, derivaremos la funcin
y evaluaremos con respecto a 0 y 1 ( los estimadores) e igualaremos a cero.

L
0

0 ,1

L
1

0 ,1

Dichas derivadas resultan en:


L
0
L
1

0 , 1

2 Yi 0 1 X i 0
i 1

0 , 1

2 Yi 0 1 X i X i 0
i 1

Lo cual nos lleva a las siguientes ecuaciones conocidas como ecuaciones normales de mnimos
cuadrados.
n

i 1

n 0 1 X i 0
i 1

i 1

i 1

i 1

X iYi 0 X i 1 X i2 0

Ing. Armando Jimnez Lizcano

Despejando

0 y 1 :
0 Y 1 X
n

X Y
i 1

i 1

X
2
i

i 1

i 1

X Y
2

X
i 1

Si definimos las siguientes expresiones:


Sxx, como la suma corregida de los cuadrados de X:

Sxx X i X
i 1

X
2
i

i 1

X
i 1

y Sxy, como la suma corregida de los productos cruzados de X y de Y:


n

i 1

i 1

X i Yi

i 1

i 1

Sxx Yi X i X X i Yi

entonces 1 se puede expresar tambin como:

Sxy
Sxx

Por lo tanto, el modelo de regresin lineal simple ajustado queda de la siguiente forma:

Y 0 1 X

donde

0 y 1 son los estimadores de los valores verdaderos de la ordenada en el origen y la pendiente,

respectivamente.

INFERENCIA EN LA REGRESION LINEAL SIMPLE

Ing. Armando Jimnez Lizcano

Podemos generalizar sobre los parmetros del modelo a partir de la informacin obtenida de los estimadores
de stos. Dicha generalizacin ( o inferencia estadstica) se puede realizar ya sea mediante pruebas de
hiptesis o mediante intervalos de confianza.

PRUEBAS DE HIPOTESIS EN LA REGRESION LINEAL SIMPLE


PARA LA ORDENADA EN EL ORIGEN
Deseamos probar la hiptesis de que 0 es igual a un valor determinado contra la alternativa apropiada,
digamos por ejemplo, diferente a dicho valor; esto es:
H 0 : 0 0 ,0
H a : 0 0 ,0

El estadstico de prueba apropiado ser:

0 0 ,0

t0

1 X2

n Sxx

MSE

donde:
MSE es la media de los cuadrados del error o bien, el estimador de la varianza del modelo:

2 MSE

SSE
n2

en este caso SSE es la suma de los cuadrados del error y n 2 son los grados de libertad del error.
SSE Syy SSR

Syy es la suma corregida de los cuadrados de Y o la suma total de cuadrados:

Syy Yi
2

i 1

i 1

y SSR es la suma de cuadrados de la regresin:

SSR 1 Sxy
Retomando la hiptesis planteada:
H 0 : 0 0 ,0
H a : 0 0 ,0

Ing. Armando Jimnez Lizcano

t0

0 0,0
1 X2
MSE

n Sxx

este estadstico sigue una distribucin t-student con v = n 2 grados de libertad.


En el estadstico de prueba vemos que

1 X2

n Sxx

MSE

representa la desviacin estndar para 0.

Si el valor absoluto del estadstico de prueba es mayor que el valor de tablas, t /2, n 2, entonces rechazaremos
la hiptesis nula; aceptaremos la alternativa concluyendo que la ordenada en el origen es diferente al valor
con el cual la estamos comparando.
PARA LA PENDIENTE
Algo semejante realizaremos para la pendiente. Partimos de la hiptesis nula afirmando que la pendiente es
igual a un valor determinado (siempre que dicho valor sea diferente de cero), contra la alternativa apropiada,
por ejemplo que sea diferente a dicho valor:
H 0 : 1 1,0
H a : 1 1,0

el estadstico de prueba en este caso es:

t0

1 1,0
MSE
Sxx

Este estadstico tambin sigue una distribucin t-student con v = n 2 grados de libertad.
Del mismo modo, la expresin

MSE
representa la desviacin estndar para 1.
Sxx

Si el valor absoluto del estadstico de prueba es mayor que el valor de tablas, t /2, n 2, entonces se rechaza la
hiptesis nula y se acepta la alternativa: la pendiente es diferente al valor representado por 1,0.

Un caso especial para la pendiente sera probar la hiptesis nula afirmando que la pendiente es igual a cero
contra la alternativa que sea diferente de cero.
Tambin conocido como Prueba de Significancia, nos ayuda a determinar si la variable independiente tiene o
no efecto significativo sobre la variable dependiente.

Ing. Armando Jimnez Lizcano

Para realizar este procedimiento de prueba de hiptesis, descomponemos la suma total de cuadrados en dos
partes: la suma de cuadrados de la regresin y la suma de los cuadrados del error.

Syy SSR SSE

Entonces:
H 0 : 1 0
H a : 1 0

Tambin hacemos uso de la tabla de anlisis de varianza (ANOVA) para determinar el estadstico de prueba.
Dicha tabla se compone de lo siguiente:

Fuente de
variacin

Suma de
cuadrados

Grados de
libertad

Regresin

SSR

Error

SS

n-2

Total

Syy

n-1

Media de
cuadrados
SSR
MSR
1
SSE
MSE
n2

Estadstico de
prueba
F0

MSR
MSE

Este estadstico de prueba sigue una distribucin F (Fisher)con v1 = 1 y v2 = n 2 grados de libertad en el


numerador y en el denominador, respectivamente.
En este caso si el estadstico de prueba es superior que el valor de tablas (de la distribucin F), F n 2, se
rechaza la hiptesis nula y por consiguiente se acepta la alternativa, concluyendo que la variable
independiente (X) si tiene efecto significativo sobre la variable dependiente (Y).
En las pruebas descritas anteriormente el valor de representa el nivel de significancia en la prueba de
hiptesis, esto es, la probabilidad de rechazar la hiptesis nula.

INTERVALOS DE CONFIANZA EN LA REGRESION LINEAL SIMPLE.


Como vimos anteriormente, a parte de las pruebas de hiptesis; tambin podemos generalizar sobre los
parmetros a partir de los estimadores, mediante intervalos de confianza. Esto es, encontraremos dos lmites,
inferior y superior, dentro de los cuales se encontrar el valor verdadero del parmetro del modelo en
cuestin.

Ing. Armando Jimnez Lizcano

As, para la ordenada en el origen, el intervalo de confianza de (1 - ) 100%, para este parmetro est dado
por la siguiente ecuacin.

0 t

,n 2

1 X2
1 X2

0 0 t ,n 2 MSE

2
n Sxx
n Sxx

MSE

Aqu, como 0 representa solamente una posicin, no debe existir problema alguno en cuanto a la conclusin
de los resultados obtenidos.
Igualmente, tambin podemos calcular un intervalo de confianza de (1 - ) 100%, para la pendiente verdadera
del modelo mediante la siguiente expresin.

1 t

,n 2

MSE
MSE
1 1 t ,n 2
2
Sxx
Sxx

En este caso la conclusin si depende del resultado obtenido, veamos los casos posibles:
Puede que el intervalo resulte en a 1 b ; la conclusin apropiada ser que por cada incremento en X,
Y, disminuir, en promedio, por lo menos b y a lo mucho a veces.
Otro resultado posible para el intervalo sera a 1 b ; la conclusin ser, en este caso, que por cada
incremento en X, Y se incrementar, en promedio, por lo menos a y a lo mucho b veces.
Si el resultado del intervalo es a 1 b , en este caso, solamente concluiremos que no se puede afirmar
que X tenga efecto sobre Y.

INTERVALOS DE CONFIANZA PARA LA RESPUESTA MEDIA Y PARA UNA PREDICCION


FUTURA
El modelo de regresin lineal simple ajustado Y 0 1 X nos permite establecer como es la relacin entre
X y Y, de que medida X afecta a Y. Tambin podemos utilizar este modelo para predecir un valor futuro de Y
dado un valor determinado de X.

Ing. Armando Jimnez Lizcano

Esto es, Cul es el valor esperado de Y cuando X = X 0?, solamente hay que introducir el valor de X 0 en la
variable X del modelo.

Y 0 1 X 0

Podemos calcular intervalos de confianza tanto para la media de una serie de observaciones (para la recta
verdadera) como para una observacin futura en particular.
El intervalo de confianza de (1 -100% para el valor esperado de Y cuando X = X0, esta dado por la
ecuacin:

Y0 t

,n 2

1 X 0 X 2
1 X 0 X 2
MSE
y Y0 t ,n 2 MSE

2
Sxx
Sxx
n
n

El intervalo de confianza de (1 - ) 100% para una observacin futura de Y cuando X = X 0, est dado por la
expresin:

0 t
Y

1 X X
MSE 1 0
n
Sxx

,n 2

0 t
Y0 Y

1 X X
MSE 1 0
n
Sxx

,n 2

Si deseamos determinar un intervalo de confianza de (1 - ) 100% para k observaciones futuras haremos:

Y0 t

,n 2

1 1 X 0 X 2
1 1 X0 X 2

MSE
Y0 Y0 t ,n 2 MSE

2
Sxx
Sxx
k n
k n

MEDIDAS DE ADECUACION DEL MODELO


El siguiente paso ahora es determinar si el modelo calculado nos sirve para representar la relacin entre las
variables.
Para esto, el modelo tiene que pasar una serie de pruebas medidas de adecuacin. Dichas medidas son:
El anlisis de los residuos

Ing. Armando Jimnez Lizcano

El coeficiente de determinacin y
La prueba de falta de ajuste.

ANALISIS DE LOS RESIDUOS


Este procedimiento se emplea para determinar o analizar el comportamiento de la variacin de los residuos o
los errores.
Mediante el modelo de regresin lineal simple, calculado a partir de n observaciones en X y Y, podemos
predecir valores estimados de Y para valores determinados de X.
La diferencia entre los valores observados de Y y los valores estimados de esta variable resulta en los errores
o residuos:

ei Yi Yi
Graficamos estos residuos ya sea contra los valores de X, contra los valores estimados de Y, contra los
valores observados de Y o contra la variable tiempo, si es que se tiene.
Basta comparar, esta grfica con los siguientes patrones para llegar a una conclusin acerca de la adecuacin
del modelo:

ei

ei

Yi
En este caso, la variacin de los
residuos es constante.
El modelo lineal s es adecuado

Ing. Armando Jimnez Lizcano

Yi
La variacin crece a medida que la
variable Yi o el tiempo crece.
El modelo no es adecuado.

10

ei

ei

Yi

i
La variacin de los residuos no es lineal.
El modelo lineal no es adecuado para expresar la
relacin entre X y Y.
Se puede ajustar dicha relacin como un modelo
cuadrtico, slo basta agregar una variable de
orden superior.
Y = 0 + 1X + 2X2

La variacin es irregular.
El modelo no es adecuado

COEFICIENTE DE DETERMINACION
El coeficiente de determinacin nos permite evaluar qu tanta variacin de los valores de Y se explica
mediante el modelo de regresin lineal simple.
Este coeficiente de determinacin se representa por el smbolo R 2; toma valores entre 0 y 1. A medida que se
acerca a 1 el modelo s es adecuado puesto que explica la mayor cantidad de variacin presente en los datos.
En tanto R2 se acerque a cero, el modelo deja de ser adecuado puesto que la cantidad de variacin de los
datos que se explica mediante el modelo es pobre.
El coeficiente de determinacin se expresa como un porcentaje y se calcula mediante:
R2

SSR
100%
Syy

PRUEBA DE FALTA DE AJUSTE


Esta prueba nos permite determinar si el modelo lineal se puede utilizar para representar la relacin entre las
variables, principalmente en aquellos casos en los cuales para un mismo valor de X se tienen mas de una
observacin en Y:
X1
X2
X3
.
.
.
Xm

Ing. Armando Jimnez Lizcano

Y11
Y21
Y31
.
.
.
Ym1

Y12
Y22
Y32
.
.
.
Ym2

Y13
Y23
Y33
.
.
.
Ym3

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

Y1n1
Y2n2
Y3n3
.
.
.
Ymnm

11

En general se tienen m niveles distintos de X.


En esta prueba partimos de la hiptesis nula:
H0 : El modelo se ajusta a los datos
Contra la alternativa:
Ha : El modelo no se ajusta a los datos
Para este procedimiento se requiere descomponer la suma de cuadrados del error en dos partes:
SSE = SSLOF + SSPE
Donde:
SSLOF es la suma de cuadrados debida a la falta de ajuste.
SSPE es la suma de cuadrados debida al error puro
Sabemos que:
SSE = Syy - SSR
Entonces:

SS PE

Y
m

ni

i 1

i 1

ij

SS LOF SSE SS PE

El estadstico de prueba apropiado en esta prueba de hiptesis es:

SS LOF
F02

SS PE

m2
nm

El cual sigue una distribucin F con v1 m 2 y v 2 n m grados de libertad en el numerador y en el


denominador, respectivamente.
Si el estadstico de prueba es mayor que el valor de tablas F , m 2, n m se rechaza la hiptesis nula y por
consiguiente se acepta la alternativa , el modelo no se ajusta a los datos, por lo tanto, el modelo lineal no es
adecuado para relacionar X y Y.

Ing. Armando Jimnez Lizcano

12

CORRELACION
Hasta este momento hemos relacionado dos variables que suponemos de antemano tienen una relacin entre
s, esto es, cualquier cambio que provoquemos en la variable independiente, trae como consecuencia un
cambio en la variable dependiente.
Ahora bien, puede haber casos en que las dos variables, X y Y, sean aleatorias; ninguna tiene efecto sobre la
otra, pero sera apropiado relacionar dichas variables (siempre que sea posible).
Podemos relacionar dichas variables mediante el modelo de regresin lineal simple
Y 0 1 X

Aunque ste no nos dice nada sobre la existencia de la relacin entre las dos variables.
Es el coeficiente de correlacin el que va a determinar si las dos variables estn relacionadas entre s.
El coeficiente de correlacin se representa mediante el smbolo (rho). Se define mediante:

xy
x y

2
donde xy es la covarianza entre X y Y.

El coeficiente de correlacin tambin se puede definir mediante

x
y

Aqu vemos que el coeficiente de correlacin est relacionado con 1 sin que esto represente que se trate de
conceptos iguales.

1 > 0

1 < 0

>0

<0

1 = 0
=0

Los estimadores de los parmetros del modelo de regresin son los mismos calculados en temas anteriores:

Ing. Armando Jimnez Lizcano

13

0 Y 1 X
1

Sxy
Sxx

En tanto que el estimador del coeficiente de correlacin se puede calcular mediante:

Sxy

Sxx Syy 12

Ahora bien, si elevamos al cuadrado ambos lados de la igualdad:

Como

r2

2
S XY
Sxx Syy

r2

Sxy Sxy
Sxx Syy

Sxy
1 :
Sxx

r2
y

1 Sxy
Syy

1 Sxy SSR :

entonces:
r2

SSR
R2
Syy

Concluimos que el coeficiente de correlacin es igual a la raz cuadrada del coeficiente de determinacin
r

SSR

Syy

R2

Vemos tambin que el coeficiente de correlacin est relacionado con el coeficiente de determinacin, aunque
son conceptos totalmente diferentes.

INFERENCIAS SOBRE EL COEFICIENTE DE CORRELACION

Ing. Armando Jimnez Lizcano

14

Al igual con los parmetros del modelo de regresin, tambin se pueden hacer inferencias sobre el coeficiente
de correlacin verdadero; ya sea mediante pruebas de hiptesis o mediante intervalos de confianza.

PRUEBAS DE HIPOTESIS SOBRE EL COEFICIENTE DE CORRELACION


Para establecer si existe una relacin verdadera entre X y Y, podemos realizar la siguiente prueba de
hiptesis:
H0 : 0
Ha : 0

Esta prueba es semejante a la prueba de significancia realizada en la regresin lineal simple, aunque tiene
una diferente connotacin.
El estadstico de prueba apropiado en este caso es:
t0

r n2
1 r2

el cual sigue una distribucin t-student con v = n 2 grados de libertad.


Si el estadstico de prueba es mayor que el valor de tablas t/2,n 2, se rechaza H0 y por consiguiente se acepta
la alternativa: el coeficiente de correlacin es diferente de cero, por lo tanto, las variables s estn
relacionadas entre s.
Tambin se puede demostrar que el coeficiente de correlacin verdadero es igual o diferente a cierto valor
determinado.
Partimos de la hiptesis nula
H 0 : 0

contra la alternativa
H a : 0

El estadstico de prueba es:

z o tanh 1 r tanh 1 0 n 3
donde
tanh 1 x

1 1 x
In
2 1 x

Este estadstico de prueba sigue una distribucin normal estndar.

Ing. Armando Jimnez Lizcano

15

Entonces, si el valor absoluto del estadstico de prueba es mayor que el valor de tablas z /2, se rechaza H0 y
se acepta la alternativa: el coeficiente de correlacin verdadero es diferente del valor con el que se est
comparando.

INTERVALO DE CONFIANZA PARA EL COEFICIENTE DE CORRELACION


Podemos tambin establecer dos lmites, inferior y superior, dentro de los cuales estar el coeficiente de
correlacin verdadero.
El intervalo de confianza de (1 )100% para el coeficiente de correlacin est dado por:

z
z

2
tanh tanh 1 r 2
tanh tanh 1 r

n3
n3

donde

e x ex
tanh x x
e e x

EJERCICIO
Ing. Armando Jimnez Lizcano

16

Para ejemplificar lo visto anteriormente, resolveremos el siguiente ejercicio utilizando las frmula encontradas.

La resistencia del papel utilizado en la manufactura de cajas de cartn ( Y ) se relaciona con el porcentaje de
la concentracin de madera dura en la pulpa original ( X ). En condiciones controladas, una planta piloto
manufactura 16 muestras, cada una de diferentes lotes de pulpa, y se mide la resistencia a la tensin. Los
datos son los siguientes.

I.
II.
III.
IV.
V.
VI.

1.0

101.4

1.5

117.4

1.5

117.1

1.5

106.2

2.0

131.9

2.0

146.9

2.2

146.8

2.4

133.9

2.5

111.3

2.5

123.0

2.8

125.1

2.8

145.2

3.0

134.3

3.0

144.5

3.2

143.7

3.3

146.9

Ajuste un modelo de regresin lineal simple a los datos.


Pruebe la significancia y la falta de ajuste de la regresin. Utilice = 5 %
Construya un intervalo de confianza del 90 % en la pendiente.
Construya un intervalo de confianza del 98 % en la interseccin.
Construya un intervalo de confianza del 95 % sobre la lnea de regresin real en X = 2.5
Qu porcentaje de la variabilidad en la resistencia del papel se explica a partir de la
concentracin de madera dura en la pulpa original?

Ing. Armando Jimnez Lizcano

17

Para encontrar las respuestas a cada uno de los incisos del ejercicio anterior, necesitamos primero calcular
las sumatorias de las variables X y Y:
n=
X =
X2 =
Y =
Y2 =
XY =

16
37.2
93.66
2075.6
272908.02
4937.97

Con los valores anteriores, calcularemos las expresiones Sxx, Sxy que nos permitirn determinar los
estimadores de los parmetros del modelo solicitado en el inciso 1 del ejercicio.
Sxy

XY

X Y

n
37.2 2075.6
Sxy 4937.97
16
Sxy 112 .2

Sxx X
2

n
37.2 2
Sxx 93.66
16
Sxx 7.17

Calculamos enseguida 1 a partir de las expresiones anteriores:


Sxy
Sxx
112 .2
1
7.17
1 15.6485

y el valor de 0 lo calcularemos mediante:

0 Y 1 X
0 129.725 15.6485 2.325
0 93.3422

El primer inciso nos pide ajustar un modelo de regresin lineal simple a los datos:

Ing. Armando Jimnez Lizcano

18

De aqu concluimos lo siguiente:

Y 93.3422 15.6485 X

La lnea de regresin cortar el eje Y en y = 93.3422.

Por cada incremento en la concentracin de madera dura en la pulpa original, la resistencia del papel
se incrementar 15.6485 veces en promedio.

Enseguida calcularemos los valores de Syy, SSR y SSE que nos permitirn realizar la prueba de significancia
del modelo.
Syy Y 2

Y
n

Syy 272908.02

2075.6 2
16

Syy 3650.81
SSR 1 Sxy

SSR 15.6485112 .2
SSR 1755.7617
SSE Syy SSR
SSE 3650.81 1755.7617
SSE 1895.0483

Para la significancia del modelo planteamos las siguientes hiptesis:


H 0 1 0
H a 1 0

F0

F0

SSR1

SSE n 2
1755.7617

1895.048314

1755.7617
135.3605
F0 12.9710
F0

Ing. Armando Jimnez Lizcano

19

El valor de las tablas de la distribucin F con un nivel de significancia del 5 % con 1 y 14 grados de libertad en
el numerador y el denominador, respectivamente, es 4.6
Al comparar el estadstico de prueba con dicho valor vemos que 12.9710 es mayor que 4.6. esto no lleva a
rechazar la hiptesis nula y por consiguiente a aceptar la alternativa:
La resistencia del papel s est relacionada significativamente con la concentracin de madera dura en
la pulpa original.
En la segunda parte del inciso 2 se pide probar tambin la falta de ajuste del modelo. Para esto
acomodaremos los valores de X, que estn repetidos en los datos, con sus respectivos valores de Y de la
siguiente forma:
X
1.5
2.0
2.5
2.8
3.0

Y
117.4

117.1

106.2

131.9 146.9
111.3 123.0
125.1 145.2
134.3 144.5

113.5666
139.4
117.15
135.15
139.4

(117.4 113.5666 )2+(117.1 13.5666)2+


(106.2 113.5666)2 =
(131.9 139.4 )2+(146.9 139.4)2=
(111.3 117.15 )2+(123.0 117.5)2=
(125.1 135.15 )2+(145.2 135.15)2=
(134.3 139.4 )2+(144.3 139.4)2=
SSpe =

81.4466
112.5
68.445
202.005
52.02
516.4166

La suma de los cuadrados del error es 1895.0483.


La suma de los cuadrados debida al error puro es 516.4166
Y la suma de los cuadrados debida a la falta de ajuste es 1895.0483 516.4166 = 1378.6317
En este caso tenemos n = 16 parejas de valores de X y de Y, y m = 10 valores distintos de X.
Planteamos las hiptesis:
H 0 : el modelo lineal se ajusta a los datos
H a : el modelo lineal no se ajusta a los datos

el estadstico de prueba es:

SS lof
F02

F02

SS pe

m2

nm
1378.6317
516.4166

F02 2.0022
El valor de las tablas de la distribucin F con un nivel de significancia del 5 % y con 8 y 6 grados de libertad en
el numerador y el denominador, respectivamente, es 4.15

Ing. Armando Jimnez Lizcano

20

Comparando el estadstico de prueba con el valor encontrado en las tablas de la distribucin F, vemos que
dicho estadstico es menor que 4.15, por lo tanto no podemos rechazar la hiptesis nula:
No se puede afirmar que el modelo lineal no se ajuste a los datos, por lo que podemos decir que dicho
modelo s es adecuado para representar la relacin entre las variables del ejercicio.
En el inciso 3 se pide calcular un intervalo de confianza del 90% para la pendiente de la lnea de regresin.
Para esto necesitamos buscar en las tablas de la distribucin t-student el valor de t0.5,14. Este valor en la tablas
es 1.761, por lo que el intervalo de confianza quedar de la siguiente manera:

1 t

15.6485 1.761

,n 2

MSE
1 1 t ,n 2
2
Sxx

MSE
Sxx

135.3605
135.3605
1 15.6485 1.761
7.17
7.17
7.9970 1 23.2999

aqu concluiremos:
Se puede afirmar con un 90% de certeza que por cada incremento en la concentracin de madera dura
en la pulpa original del papel, la resistencia del mismo se incrementar por lo menos 7.9970 y a lo
mucho 23.2999 veces en promedio.
En el inciso 4 se pide un intervalo de confianza del 98 % para la interseccin de la recta. Buscaremos en este
caso el valor de t0.01,14 tambin en las tablas de la distribucin t-student. Dicho valor es 2.624, el cual
utilizaremos para calcular el intervalo solicitado:

0 t

1 X2
1 X2

0 0 t ,n 2 MSE

2
n Sxx
n Sxx

,n 2

MSE

1 2.325 2
1 2.325 2

0 93.3422 2.624 135.3605

7.17
7.17
16
16

93.3422 2.624 135.3605

65.7575 0 120.9268

La conclusin ser:
Se puede afirmar con un 98% de certeza que la lnea de regresin cortar el eje Y en por lo menos
65.7575 y a lo mucho 120.9268.

Ing. Armando Jimnez Lizcano

21

Para el inciso 5 en el que se pide un intervalo de confianza del 95% para la lnea de regresin verdadera en
X = 2.5, buscaremos el valor de t0.025,14 en las tablas de la distribucin t-student. Este valor es 2.145.
Tambin necesitamos determinar el valor estimado de Y cuando X es igual a 2.5; para esto introducimos dicho
valor en el modelo de regresin lineal calculado en el primer inciso:

Y0 93.3422 15.6485 X 0
Y0 93.3422 15.6485 2.5
Y0 132.4634
El intervalo de confianza para la respuesta media de Y queda determinado de la siguiente manera:

Y0 t

,n 2

1 X0 X 2
1 X0 X 2

t
MSE

Y
0
,n 2
2
Sxx
Sxx
n

MSE

1 2.5 2.325 2
1 2.5 2.325 2
132.4634 2.145 135.3605

Y 132.4634 2.145 135.3605

7.17
7.17
16

16

126.0150 Y 138.9123
en este caso concluiremos:
Existe un 95% de certeza al afirmar que cuando la concentracin de madera dura en la pulpa original
del papel sea de 2.5%, su resistencia esperada ser por lo menos 126.0150 y a lo mucho 138.9123.
Por ltimo, el inciso 6 se pide determinar el porcentaje de la variabilidad en la resistencia del papel que se
explica mediante el modelo de regresin lineal simple. Esto es, calcular el coeficiente de determinacin:
SSR
Syy
1755.7617
R2
3650.81
2
R 0.4809
R2

esto nos indica que:

El 48.09% de la variabilidad de la resistencia del papel se explica mediante el modelo de regresin


lineal simple:

Y 93.3422 15.6485 X
como el valor de R2 es bajo, podemos concluir que el modelo no es adecuado para representar la relacin
entre los valores de X y Y.
Podemos verificar la mayora de los resultados obtenidos anteriormente en la siguiente hoja de clculo
diseada en Excel. Esta hoja arroja automticamente los valores requeridos para resolver un problema de
regresin lineal simple.

Ing. Armando Jimnez Lizcano

22

X
1
1.5
1.5
1.5
2
2
2.2
2.4
2.5
2.5

Y
101.4
117.4
117.1
106.2
131.9
146.9
146.8
133.9
111.3
123

2.8
2.8
3
3
3.2
3.3

125.1
145.2
134.3
144.5
143.7
146.9

PARAMETROS
0
93.34215481

1
15.64853556
Yo
132.4634937

ESTADISTICOS DE PRUEBA
Fo
12.97105273
to1
8.879216556
to2
3.601534774

INTERVALOS DE CONFIANZA
65.75235768

< o <

120.9319519

7.995711933

< 1 <

23.3013592

126.0154945

< Yo <

138.9114929

106.6904439

< Yo <

158.2365436

COEFICIENTE DE DETERMINACION
X1 :
I.C. para o:
I.C. para 1:
I.C. para
Yo:
I.C. para Yo:
I.C. para :

2.5
0.98
0.9
0.95
0.95
0.95

R^2
0.48092497

COEFICIENTE DE CORRELACION
r
0.693487541

ESTADISTICO DE PRUEBA
to
3.601534774
INTERVALO DE CONFIANZA

0.301389825

Ing. Armando Jimnez Lizcano

<<

0.884970481

23

Das könnte Ihnen auch gefallen