Sie sind auf Seite 1von 33

Probabilidad y estadstica

Jos Luis Poveda Macas


Ingeniero Fsico
Maestro en Educacin
Inferencias en regresin lineal simple
Supuestos y estimadores del modelo
Estimacin de parmetros
Intervalos de confianza (0 , 1 , | )
Intervalo de prediccin
Pruebas de hiptesis
0
1
Del enfoque descriptivo al inferencial
Hasta ahora, hemos usado un enfoque meramente
descriptivo, sin intentar realizar estimaciones. Sin embargo,
en ocasiones necesitamos determinar si una ecuacin dada en
realidad es til para describir una relacin lineal o no.
A continuacin, aplicaremos inferencias para determinar si los
parmetros estimados durante la parte descriptiva resultan
significativos, lo que indicara que en realidad dicha relacin
est presente.
Como todo lo visto anteriormente, nos enfocaremos
exclusivamente a la regresin lineal simple.

1. Supuestos del modelo


Supuestos del modelo
Para poder efectuar inferencias, requerimos que se cumplan
ciertos supuestos, de manera que el modelo hallado de
manera descriptiva pueda considerarse como un verdadero
estimador del modelo real.
En el modelo de regresin lineal original:
= 0 + 1 +
Notemos que Y es una variable aleatoria, sin embargo, por la
manera como se encuentra definida x, esta no lo es. Es decir,
suponemos en principio que podemos controlar en cierta
medida el valor de x.
, al ser un error aleatorio, provoca la aleatorizacin de Y.

1. Supuestos del modelo


Supuestos del modelo
Recordemos tambin que para poder aplicar inferencias
requeramos en general lo siguiente:
Variables aleatorias independientes.
Normalidad.
Sin embargo, dado que x no es una variable aleatoria, esto
significa que los supuestos deben aplicarse a los errores, .
Finalmente:
Los errores son independientes unos de otros.
Los errores se distribuyen normalmente con media cero y varianza
constante, es decir: ~ , .

1. Supuestos del modelo


Supuestos del modelo

1. Supuestos del modelo


Cmo se garantizan los supuestos?
El mayor problema para garantizar los supuestos es que
requiere conocer los errores, lo cual no podemos saber
debido a que no conocemos a toda la poblacin de datos.
Entonces recurrimos a los errores estimados por la recta
obtenida. Es decir, a los residuos. Si los residuos cumplen con
los supuestos, entonces podremos realizar inferencias con
nuestra recta de regresin estimada.
Esto se logra por medio de dos grficas principales:
Grfica de probabilidad normal
Grfica de residuos vs predichos (nmero de fila, x)

1. Supuestos del modelo


Grfica de probabilidad normal
Grfico de Probabilidad Normal
La grfica de
probabilidad normal
99.9

99
muestra el ajuste que
n:75
Mediana:1.58621
95 tienen los datos con
Sigma:13.4547
W:0.957424
80
respecto a la normal.
P:0.0400
porcentaje

50

20 Si los datos caen o se


5 acercan a la lnea
1

0.1
recta, esto indica una
-40 -20 0
RESIDUOS
20 40
buena aproximacin a
la normal.

1. Supuestos del modelo


Grficas de residuos
Grfico de Residuos para Calificaciones
Las grficas deben
mostrar una nube de
40
puntos contenida
20 entre un rango de
valores.
residuos

0
Si se encuentra un
-20
patrn o variaciones
-40
en la dispersin, el
0 20 40
nmero de fila
60 80
modelo no es
adecuado.

1. Supuestos del modelo


Estimadores del modelo
Ya que el modelo hallado est basado en los estimadores 1 , 0 ,
estos estimadores son variables aleatorias, cada una con una media
y una varianza. Entonces:
2
1 = 1 , 1 =

2 2
0 = 0 , 0 = + 2

2
Donde = 2

Sin embargo, es necesario conocer la varianza poblacional. Hay
forma de hallarla si el modelo utilizado es una mera aproximacin?

2. Estimadores del modelo


Error estndar de la estimacin
Gracias a los supuestos, sabemos que los nicos que
contribuyen a la varianza del modelo real son los errores .
Dado que no conocemos los errores, estos pueden estimarse
mediante los residuos .
Entonces, podemos estimar la varianza del ajuste con:
2
2

=1
= = = MSE
2 2
Recordemos que la recta requiere de dos estimadores, el
intercepto y la pendiente. Por lo tanto, al total de datos se le
quitan los grados de libertad debido a esos coeficientes.

2. Estimadores del modelo


Error estndar de la estimacin
2 es una medida de variacin de los datos
observados a la recta estimada del modelo. Si el
valor es pequeo, es un indicativo de que el ajuste
del modelo hallado es bueno.
A esta medida tambin se le conoce como el error
cuadrado medio, o MSE, y con ella podemos estimar
el valor de la varianza real.

2. Estimadores del modelo


Intervalos de confianza
Podemos aproximar el valor real de los parmetros mediante
intervalos de confianza:

1 ,2
1 1 + ,2
2 2

1 2 1 2
0 ,2 + 0 0 + ,2 +
2 2
2 2
2
2 2
2 ,2 1 2 ,2

3. Intervalos de confianza
Intervalo de confianza para la recta de
regresin
Cuando se sustituye un valor de 0 en la recta obtenida, en
realidad la 0 representa el valor medio de 0 para un valor
determinado de 0 . Es decir, 0 |0 .
Entonces, ya que la recta de regresin en realidad es la media
de valores esperados de 0 , podemos hallar el intervalo de
confianza en donde se esperara hallar los valores de 0 .
1 0 2
0 ,2 +
2

3. Intervalos de confianza
Prediccin de nuevas observaciones
Si se quiere introducir un valor nuevo de 0 , se pueden
predecir, aunque de manera menos precisa, los posibles
valores que puede tomar 0 :
1 0 2
0 ,2 1 + +
2

3. Intervalos de confianza
Ejemplo 1
Un motor de cohete se manufactura al unir un
propelente de ignicin y otro de sustento dentro del
tanque de metal. La fuerza de la unin es una
caracterstica importante para la calidad del
propelente final. Se sospecha que la fuerza est
relacionada con la edad de los propelentes. En la
siguiente tabla se presentan los datos obtenidos:

3. Intervalos de confianza
Ejemplo 1
Fuerza y (psi) Edad x (semanas) Fuerza y (psi) Edad x (semanas)
2158.70 15.50 2165.20 13.00
1678.15 23.75 2399.55 3.75
2316.00 8.00 1779.80 25.00
2061.30 17.00 2336.75 9.75
2207.50 5.50 1765.30 22.00
1708.30 19.00 2053.50 18.00
1784.70 24.00 2414.40 6.00
2575.00 2.50 2200.50 12.50
2357.90 7.50 2654.20 2.00
2256.70 11.00 1753.70 21.50

Calcula el intervalo de confianza para la pendiente y la varianza estimada.

3. Intervalos de confianza
Ejemplo 1
Primero calculamos 1 :

1 =
2 2
20 528492.64 267.25 42627.15
=
20 4677.69 267.25 2
41112.65
= = .
1106.56
Ahora hallamos 0 para determinar la recta:
0 = 1 = 2131.3575 37.15 13.3625
= .

3. Intervalos de confianza
Ejemplo 1
La recta de regresin es: = 2627.82 37.15
Para hallar la varianza estimada, debemos
encontrar el residuo de cada valor.
Una vez hallado el valor, elevamos el valor al
cuadrado, de acuerdo con la frmula:
2
2
=1
=
2
La varianza depende del modelo que se utilice.

3. Intervalos de confianza
Ejemplo 1
Fuerza y Edad x Residuo Fuerza y Edad x Residuo
(psi) (semanas) (psi) (semanas)
2158.70 15.50 106.705 2165.20 13.00 20.33
1678.15 23.75 -67.3575 2399.55 3.75 -88.9575
2316.00 8.00 -14.62 1779.80 25.00 80.73
2061.30 17.00 65.03 2336.75 9.75 71.1425
2207.50 5.50 -215.995 1765.30 22.00 -45.22
1708.30 19.00 -213.67 2053.50 18.00 94.38
1784.70 24.00 48.48 2414.40 6.00 9.48
2575.00 2.50 40.055 2200.50 12.50 37.055
2357.90 7.50 8.705 2654.20 2.00 100.68
2256.70 11.00 37.53 1753.70 21.50 -75.395

3. Intervalos de confianza
Ejemplo 1
2
166402.65
= = 9244.59
18
Ahora calculamos el intervalo de confianza con

1 ,2 :
2

9244.59
37.15 2.101
1106.56
Finalmente:
43.22 1 31.08
Ejemplo 1
Para la varianza:
2 2
2

2 2
,2 1 ,2
2 2
18 9244.59 2
18 9244.59

31.5 8.23
Finalmente:
5282.62 2 20219.03
Pruebas de hiptesis
En muchas ocasiones, requerimos saber si los
coeficientes son estadsticamente
significativos o no, lo que tiene varias
implicaciones:
Si la pendiente 1 = 0, esto significara que la
recta en realidad es horizontal por lo que no
existe relacin.
Si el intercepto 0 = 0, esto significara que la
recta corta al eje Y en el origen.
4. Pruebas de hiptesis
Prueba para la pendiente
Si se quiere probar que la pendiente es significativa, se plantean las
hiptesis:
10
0 : 1 = 10 vs 1 : 1 > 10
< 10
Estadstico de prueba (para varianza estimada):
1 10
0 =


, 0 ,2
2
Su regin de rechazo es: >, 0 ,2
<, 0 ,2

4. Pruebas de hiptesis
Prueba para la pendiente
Si en particular, se quiere comprobar que la pendiente es
significativamente distinta de cero, la prueba de Fisher resulta
una prueba ms efectiva para determinarla:
0 : 1 = 0 vs 1 : 1 0
Estadstico de prueba (para varianza estimada):
2

1 10
0 =


Se rechaza 0 cuando 0 > ,1,2

4. Pruebas de hiptesis
Prueba para el intercepto
Si se quiere probar que el intercepto es significativo, se plantean las
hiptesis:
00
0 : 0 = 00 vs 1 : 0 > 00
< 00
Estadstico de prueba (para varianza estimada):
0 00
0 =
1 2
+

, 0 ,2
2
Su regin de rechazo es: >, 0 ,2
<, 0 ,2

4. Pruebas de hiptesis
Ejemplo 2
En la siguiente tabla se presenta informacin sobre la
contaminacin del agua producida por la industria
talabartera. Se presentan 33 muestras de desechos
tratados qumicamente realizados por la universidad
Virginia Tech. Las lecturas para x son el porcentaje
total de reduccin de slidos, y para y se registr el
porcentaje total de reduccin en la demanda de
oxgeno.
Hay algn indicativo de que en realidad existe una
relacin lineal entre ambos?

4. Pruebas de hiptesis
Ejemplo 2
Reduccin de Reduccin de Reduccin de Reduccin de Reduccin de Reduccin de
slidos x (%) oxgeno (%) slidos x (%) oxgeno (%) slidos x (%) oxgeno (%)
3 5 32 32 39 45
7 11 33 34 40 39
11 21 33 32 41 41
15 16 34 34 42 40
18 16 36 37 42 44
27 28 36 38 43 37
29 27 36 34 44 44
30 25 37 36 45 46
30 35 38 38 46 46
31 30 39 37 47 49
31 40 39 36 50 51

4. Pruebas de hiptesis
Ejemplo 2
Ya que deseamos verificar si existe una relacin lineal
entre las variables x y y, se quiere revisar si en realidad el
coeficiente 1 es significativamente distinto de cero.
Primero calculamos las sumatorias para poder hallar 1 :
= 1104, = 1124, = 41355, 2 =
41086
Ahora aplicamos la frmula

1 =
2 2

4. Pruebas de hiptesis
Ejemplo 2
33 41355 1104 1124
2
= 0.9036
33 41086 1104
Ahora realizaremos una prueba estadstica para 1 :
Las hiptesis son: 0 : 1 = 0 vs 1 : 1 0
El estadstico de prueba es:
1 10
0 =


es equivalente al denominador de 1 entre n:
1104 2
= 41086 = 4152.18
33

4. Pruebas de hiptesis
Ejemplo 2
Para hallar el error cuadrtico medio, necesitamos primero hallar la
suma de los cuadrados de los errores. Primero, necesitamos hallar
el intercepto para calcularlo:
0 = 1 = 34.0606 0.9036 33.4545 = 3.8311
La ecuacin es: 3.8311 + 0.9036
Ahora usamos la frmula de SSE = 2 = 330.0092
2 330.0092
Entonces MSE = = = 10.6455
2 31
Regresamos al estadstico
1 10 0.9036 0
0 = = = 17.84
10.6455
4152.18
Ya que el valor de 0.0005,30 = 3.646 y es menos al obtenido, eso es
indicativo de que el valor P es menor de 0.001, y entonces la
relacin lineal entre ambos es significativa.
4. Pruebas de hiptesis
Actividad 2
Se realiz un estudio para determinar los efectos de la
privacin de sueo en la capacidad de las personas para
resolver problemas sencillos. La cantidad de privacin de
sueo vari en 8, 12, 16, 20 y 24 horas sin dormir. Un total de
diez individuos participaron en el estudio, dos por cada nivel
de privacin de sueo. Despus de su periodo de privacin de
sueo, a cada individuo se le presento un conjunto de
problemas sencillos de sumas para que lo resolvieran,
registrndose el nmero de errores; se obtuvieron los
resultados mostrados en la tabla siguiente:
Nmero de errores (y) 8, 6 6, 10 8, 14 14, 12 16, 12
Nmero de horas sin 8 12 16 20 24
dormir (x)
A2. Actividad
Actividad 2
Encuentra la recta de mnimos cuadrados apropiada para
estos datos.
Calcula S2.
Los datos presentan suficiente evidencia para indicar que el
nmero de errores est relacionado linealmente de horas sin
dormir?

A2. Actividad

Das könnte Ihnen auch gefallen