Beruflich Dokumente
Kultur Dokumente
Escuela de Estadstica
1. Introduccin
En muchas ocasiones es posible disear experimentos estadsticos controlados, en los cules es factible el estudio simultneo
de varios factores, aplicando procedimientos de aleatorizacin apropiados, en lo que se conoce como diseo y anlisis de
experimentos. Sin embargo en otras ocasiones slo se cuenta con un conjunto de datos sobre los cules es difcil esperar que
hayan sido observados en condiciones estrictamente controladas, y de los cules tambin en pocas ocasiones se tienen
rplicas para calcular el error experimental.
Cuando se enfrenta la situacin anterior lo ms apropiado es aplicar los mtodos de regresin. Debe tenerse presente que los
mtodos de regresin permiten establecer asociaciones entre variables de inters entre las cules la relacin usual no es
necesariamente de causa - efecto. En principio, consideramos una asociacin lineal entre una variable respuesta Y y una
variable predictora X (es decir, de la forma y = f ( x ) = 0 + 1 x ).
2. Fundamentos
2.1 Nomenclatura
9 Y Variable respuesta o dependiente
9 X Variable predictora, independiente o regresora
9 Error aleatorio
9 0 , 1 Parmetros de la regresin. 0 es el intercepto y 1 la pendiente de la lnea recta.
1
Regresin Lineal Simple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
9 Segundo, dado un conjunto de pares de datos ( X ,Y ) , puede asumirse una forma funcional para la curva de
2.3 Supuestos
9 La variable respuesta Y es una variable aleatoria cuyos valores se observan mediante la seleccin de los valores de
la variable predictora X en un intervalo de inters.
9 Por lo anterior, la variable predictora X no es considerada como variable aleatoria, sino como un conjunto de valores
fijos que representan los puntos de observacin, que se seleccionan con anticipacin y se miden sin error. Sin
embargo si esto ltimo no se cumple, el mtodo de estimacin de mnimos cuadrados ordinarios para los parmetros
del modelo de regresin puede seguir siendo vlido si los errores en los valores de la variable predictora son
pequeos en comparacin con los errores aleatorios del modelo i .
9 Los datos observados, ( xi , yi ) ,i = 1, ,n , constituyen una muestra representativa de un medio acerca del cual se
desea generalizar. Si no es as, no es apropiado realizar inferencias en un rango de los datos por fuera del
considerado.
9 El modelo de regresin es lineal en los parmetros. Es decir, ningn parmetro de la regresin aparece como el
exponente o es dividido o multiplicado por el otro parmetro, o cualquier otra funcin. Sin embargo, la lnea de ajuste
puede tener una curvatura (no ser lineal en X y/o en Y ), caso en el cual mediante una transformacin conveniente
de las variables ( X y/o Y ), es posible aplicar las tcnicas de regresin lineal sobre estas nuevas variables.
9 Si la ecuacin de regresin seleccionada es correcta, cualquier variabilidad en la variable respuesta que no puede ser
explicada exactamente por dicha ecuacin, es debida a un error aleatorio.
2
Regresin Lineal Simple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
9 Los valores observados de la variable respuesta no son estadsticamente dependientes. Se supone que cada valor
observado de Y est constituido por un valor real y una componente aleatoria.
9 El modelo estadstico de regresin con una muestra de n pares ( X i ,Yi ) es:
Y | X i = 0 + 1 X i + i , i = 1, 2 , , n , E (Y | X i ) = 0 + 1 X i
( ) ( )
COV i , j = 0 i , j i j , COV Yi ,Y j 0 i , j i j
desconocida. Dado que los valores X i de la variable predictora no son considerados aleatorios y que los errores son
independientes, la varianza de los Yi tambin es 2 , i y por tanto este parmetro es independiente del punto de
observacin (es decir, del valor de X ). Pero en el caso que esta ltima suposicin no pueda aplicarse, entonces el
mtodo de regresin empleado ser el de mnimos cuadrados ponderados. Con estas consideraciones y las
anteriores, podemos afirmar que:
Y | X i ~ N ( 0 + 1 X i , 2 )
Debe tenerse claro que el mtodo de mnimos cuadrados es un mtodo numrico, no estadstico; La estadstica opera a partir
de los supuestos distribucionales asignados en el modelo de regresin.
3.1 Objetivo
Obtener estimaciones de los parmetros de regresin, es decir hallar 0 y 1 , tales que minimicen la suma de los cuadrados
de los errores S ( 0 , 1 ) :
3
Regresin Lineal Simple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
n n
S ( 0 , 1 ) = i2 = Yi ( 0 + 1 X i )
2
i =1 i =1
S ( 0 , 1 )
=0
0
S ( 0 , 1 )
=0
1
De lo cual surgen las denominadas ecuaciones normales:
n n
y
i =1
i =n 0 + 1 xi
i =1
n n n
xi yi = 0 xi + 1 xi2
i =1 i =1 i =1
y de stas tenemos que las estimaciones por mnimos cuadrados de los parmetros son:
0 = y 1 x
n n n n
n x i yi x i yi x y i i nx y
1 = i =1 i =1 i =1
2
= i =1
n
n
n
n x xi
2
i
x 2
i nx 2
i =1 i =1 i =1
o bien:
n
( x i x )( yi y )
1 = i =1
n
( x x)
2
i
i =1
o bien:
4
Regresin Lineal Simple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
( x i x ) yi
1 = i =1
n
( x x)
2
i
i =1
yi = 0 + 1 xi
o bien:
yi = y + ( xi x ) 1
i =1 i =1
entonces:
n
SSR = ( yi y ) , o bien SSR = 12 S xx , o bien
2
SSR = 1 S xy
S xy
NOTA: 1 puede ser expresado en funcin de Sxy y de Sxx, as: 1 =
S xx
los errores. Sin embargo, para poder aplicar tests de hiptesis y construir intervalos de confianza, es necesario realizar y
validar tales supuestos. Considerando para el modelo de regresin lineal simple los supuestos de normalidad, independencia y
varianza constante para los errores, podemos usar el mtodo de estimacin de mxima verosimilitud (MLE). Sea
( x1 , y1 ) , , ( xn , yn ) los pares de datos observados, donde Y | X i = 0 + 1 X i + i , i = 1, 2 , , n ,
( )
iid
E ( Y | X i ) = 0 + 1 X i y i ~ N 0 , 2 , i = 1, 2 , , n . Asumiendo fijos los niveles o valores en que es observada,
(
vimos que Y | X i ~ N 0 + 1 X i , 2 ). Sea y . La funcin de
El objetivo es hallar los parmetros desconocidos , que maximicen , o equivalentemente, que maximicen
(el logaritmo natural de ).
Observe que para cualquier valor de fijo, es maximizado como una funcin de y por aquellos valores y
respectivos estimadores de mnimos cuadrados, y . Para hallar el estimador MLE para substituimos y en
, y hallamos que maximiza a,
6
Regresin Lineal Simple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
Resumiendo, bajo el modelo de regresin lineal normal, es decir, con errores independientes e idnticamente distribuidos
, los estimadores de mnimos cuadrados para y son tambin estimadores de mxima verosimilitud y en tal
caso, podemos construir intervalos de confianza y realizar pruebas de hiptesis basadas en las estimaciones obtenidas.
5. Estimacin de la varianza 2
Puede demostrarse que bajo los supuestos del modelo en relacin a los errores, un estimador insesgado de la varianza es:
SSE
2 = s 2 =
n2
esto es, . tambin recibe el nombre de error cuadrtico medio MSE. Observe que podemos escribir el
la varianza, mas asintticamente es insesgado ( ). Tambin puede demostrarse que los estimadores
MLE son de mnima varianza cuando son comparados a todos los posibles estimadores insesgados y son consistentes, es
decir, a medida que aumenta el tamao de la muestra, la diferencia entre estos y el respectivo parmetro va para cero.
respectivamente, y corresponden a los estimadores de mxima verosimilitud bajo los supuestos estadsticos del modelo
aleatorias normales.
3. La varianza de los estimadores 0 y 1 , y de la respuesta ajustada en un valor de X = xi dado, es:
7
Regresin Lineal Simple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
( ) n
V 1 = V ciYi
( ) n
V 0 = V miYi
( )
V Yi = V 0 + 1 xi ( )
i =1 i =1 n
n n
(
= V m j + c j xi Y j )
= c V (Y )
i =1
2
i i = m V (Y ) 2
i i j =1
i =1
n
(m ) ( )
2
n n
= + c j xi V Y j
= c
i =1
2
i
2
= m 2
i
2
j =1
j
i =1
2
2 1 n
= + ( xi x ) c j
n
x
2
= 2 2
j =1 n
i
S xx
= i =1
nS xx 1 ( x x )2
= + i 2
n S xx
4. la covarianza entre los estimadores de los parmetros es:
n
( )
n
COV 0 , 1 = COV miYi , ciYi
i =1 i =1
n n n
= m c COV (Y ,Y ) + m c COV (Y ,Y )
i =1
i i i i
i =1 j i
i j i j
n
= m c V (Y )
i =1
i i i
n
= 2 m i ci
i =1
2x
=
S xx
5. la covarianza entre la variable respuesta y su correspondiente estimador en un valor dado de X = xi es:
( )
COV Yi ,Yi = COV Yi , 0 + 1 xi ( )
n
= COV Yi , m j + c j xi Y j ( )
j =1
n
= ( mi + ci xi ) COV (Yi ,Yi ) + m j + c j xi COV Yi ,Y j
ji
( ) ( )
= ( m i + ci x i ) 2
1 ( xi x ) 2
= +
n S xx
8
Regresin Lineal Simple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
6. La suma de los residuales del modelo de regresin con intercepto es siempre cero:
n
ei =1
i =0
y = y
i =1
i
i =1
i
9. La suma de los residuales ponderados por el correspondiente valor de la variable predictora es cero:
n
xe
i =1
i i =0
10. La suma de los residuales ponderados por el correspondiente valor ajustado es siempre igual a cero:
n
y e
i =1
i i =0
Student con n 2 grados de libertad, y t / 2 ,n 2 es el percentil de la distribucin T-Student con n 2 grados de libertad tal
que P ( t n 2 > t / 2 ,n 2 ) = / 2 ):
con 0 = 0 en el test de
significancia
1 1
T0 = ~ t n 2
H 0 : 1 = 0 s 1 / S xx
1 T0 > t / 2 ,n 2 1 t / 2 ,n 2 s 1 / S xx
H1 : 1 0 con = 0 en el test de
1
significancia
9
Regresin Lineal Simple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
NOTAS:
9 Si la pendiente es significativa, entonces la regresin lo es, es decir, la variabilidad en la variable respuesta explicada
por la regresin en X es significativa respecto a la variabilidad total observada.
9 Para otros Testes sobre los parmetros, 0 y 1 toman los valores especificados en H0 en el estadstico de prueba
respectivo, y los criterios de rechazo se establecen segn la desigualdad planteada en la hiptesis alternativa.
( )
Y1 , , Yn , esto es, Yi = m j + c j xi Y j , con las constantes c j y m j como fueron especificadas previamente, bajo los
j =1
supuestos de normalidad e independencia, podemos afirmar que las variables Yi son variables aleatorias normales (mas no
independientes). Recuerde que Yi estima a Y |xi = E Y | X = xi . Podemos hacer inferencias sobre esta media, as como
predecir un valor futuro Y0 de la respuesta en un valor fijo de X = x0 . As, bajo los supuestos del modelo obtenemos:
(NOTA: s = MSE )
Y0 Y |x0
T0 = ~ t n 2 1 ( x0 x )
2
1 ( x0 x )
2
y0 t / 2 ,n 2 s +
Y |x H 0 : Y |x0 = c s + n S xx
0
n S xx
con y0 = 0 + 1 x0
con Y0 = 0 + 1 x0 y Y |x0 = c
Intervalo de prediccin
Cantidad Pronstico Estadstico del (1-)100%
Y0 Y0
1 ( x x)
2
T0 = ~ tn 2
1 y0 t / 2 ,n 2 s 1 + + 0
+ ( x0 x ) / S xx
2
Y0 Y0 s 1+ n S xx
n
con Y0 = 0 + 1 x0 con y0 = 0 + 1 x0
10
Regresin Lineal Simple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
Los intervalos de prediccin estiman los posibles valores para un valor particular de la variable respuesta (no para su media)
en un valor X = x0 dado. Asumimos que en este valor particular tenemos un valor futuro de la variable aleatoria Y, y por
tanto, no es utilizado en la regresin. Por tanto, si Y0 es un valor futuro y Y0 = 0 + 1 x0 es su estimador, entonces estas
dos variables aleatorias son estadsticamente independientes, desde que Y0 no fue utilizado para hallar a 0 y 1 , de ah
espera que la recta ajustada explique en forma significativa la variabilidad observada en Y . Dadas las condiciones de
normalidad, e independencia establecidas para los errores, es posible demostrar que:
n n n
( y y ) = ( yi y ) + ( yi yi )
2 2 2
i
i =1 i =1 i =1
De donde:
En virtud de la anterior igualdad, podemos tambin establecer la siguiente identidad para los grados de libertad (g.l) de las
sumas de cuadrados:
g.l ( SST ) = g.l ( SSR ) + g.l ( SSE )
entonces ( n 1) = g.l ( SSR ) + ( n 2 )
Por tanto, g.l ( SSR ) = 1 . Si los errores del modelo son independientes, de varianza constante e idnticamente distribuidos
( )
como una N 0 , 2 , entonces SSR / 2 y SSE / 2 se distribuyen como variables aleatorias ji-cuadrada con 1 y n-2
Sea MSR = SSR / g.l ( SSR ) = SSR y MSE = SSE / g.l ( SSE ) = SSE / ( n 2 ) .
11
Regresin Lineal Simple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
De lo anterior, bajo la hiptesis H 0 : 1 = 0 , es posible demostrar que el estadstico F0 = MSR / MSE se distribuye como
En el caso de la regresin lineal simple, la prueba sobre la significancia de la regresin (es decir, si la pendiente de la recta es
significativamente diferente de cero) puede realizarse mediante el anlisis de varianza usando un valor crtico f ,1,n 2 de la
distribucin F, y a un nivel de significancia de rechazamos la hiptesis nula de que la variabilidad en la variable respuesta es
debida slo al error aleatorio (para aceptar la hiptesis de que la regresin en x es significativa) si F0 > f ,1,n 2 .
El anlisis de varianza suele presentarse en forma de tabla, conocida como tabla ANOVA, donde los cuadrados medios
corresponden a las sumas de cuadrados divididas por sus respectivos grados de libertad:
Anlisis de varianza
Fuente de Suma de Grados de Cuadrado
variacin cuadrados libertad medio F calculada
Regresin SSR 1 MSR F0=MSR/MSE
Error SSE n-2 MSE
Total SST n-1
Tambin podemos evaluar el valor p de la prueba (significancia ms pequea que conduce al rechazo de H0) que es
igual a P ( f1,n 2 > F 0 ) y determinamos si ste es pequeo, para rechazar la hiptesis: el modelo lineal de Y en X no es
significativo para explicar la variabilidad de Y. La conclusin obtenida por el anlisis de varianza debe ser la misma que la
obtenida cuando se prueba la significancia de la pendiente de la recta de regresin.
12
Regresin Lineal Simple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
9 Verificar si el modelo lineal es adecuado: Grfico de residuos vs. X (chequear ausencia de patrones sistemticos), test
de carencia de ajuste.
9 Verificar si los supuestos sobre el trmino de error se cumplen: Grficos de probabilidad normal, grficos de residuos
vs. valores predichos (chequear varianza constante y ausencia de patrones sistemticos).
5. Para los modelos que pasen las pruebas en 4, interpretar los parmetros del modelo lineal ajustado (significado de los
valores de intercepto y de la pendiente a la luz de los datos).
6. Construir intervalos y realizar inferencias de inters
7. Hacer predicciones: Slo dentro del rango de valores considerados para la variable predictora o valores cercanos a
dicho rango.
13
Regresin Lineal Simple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
X X
(a) (b)
YX YX
(c) (d)
X2
X X2X
(e) (f)
Figura 1: Patrones comunes en residuales. (a) y (b)
Presencia de un efecto cuadrtico no incluido en el
modelo. (c) y (d) Varianza no constante del error. (e) y
(f) Efecto lineal de una variable omitida. (g) Modelo
X
Y lineal apropiado y varianza constante
(g)
14
Regresin Lineal Simple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
Otra forma de probar la no linealidad del modelo, es mediante el test de carencia de ajuste. Este test prueba que un tipo
especfico de funcin de regresin ajusta adecuadamente a los datos. El test asume que los valores de Y dado X son:
9 independientes
9 se distribuyen en forma normal
9 tienen varianza constante
Esta prueba requiere que en uno o ms valores de X haya ms de una observacin de Y. Los ensayos repetidos de manera
independiente para el mismo nivel de la variable predictora son denominados replicaciones.
Para explicar en qu consiste esta prueba, es necesario modificar la notacin usada de la siguiente manera:
Yij La respuesta i-sima en el j simo nivel de X.
nj Nmero de observaciones de Y tomadas en el j-esimo nivel de X. Por tanto, el total de observaciones tomadas es
k
n = nj
j =1
( )
donde j = E Yij , es decir, es la media de la variable respuesta en el j-simo nivel de X.
Para el anterior modelo, los estimadores de mxima verosimilitud corresponden a j = Y j , es decir, la media muestral de Y
en el nivel j de X. Esta cantidad tambin corresponde al valor predicho para Y en el nivel j de X. Por tanto, la suma de
cuadrados del error del modelo general es dada por
k nj
( )
2
SSPE = Yij Y j
j =1 i =1
15
Regresin Lineal Simple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
que corresponde a la suma de cuadrados del error puro cuyos grados de libertad son n k .
Se define ahora el modelo lineal reducido para la hiptesis nula de la prueba, el cual, para el caso de la regresin lineal es
E (Y | X ) = 0 + 1 X . Luego la prueba formula que
H 0 : E ( Y | X ) = 0 + 1 X
H1 : E ( Y | X ) 0 + 1 X
Es decir, H0 postula que j est relacionado linealmente a Xj, j = 0 + 1 X j . Por tanto, el modelo reducido bajo H0 es:
Yij = 0 + 1 X j + ij
que no es ms que el modelo de regresin lineal para el cual la suma de cuadrados del error es
nj
( )
k 2
SSE = Yij Yij
j =1 i =1
con Yij = Y j = 0 + 1 X j y los grados de libertad iguales a n 2 . Observe que todas las observaciones de Y en el mismo
nivel j de X tienen igual valor ajustado Y j , de ah que se pueda escribir la anterior ecuacin del SSE por
nj
( )
k 2
SSE = Yij Y j
j =1 i =1
( ) = n (Y )
k 2 k 2
SSLOF = SSE SSPE = Y j Y j j j Y j
j =1 i =1 j =1
El estadstico de prueba es
SSLOF / ( k 2 )
F0 = ~ f k 2 ,n k .
SSPE / ( n k )
16
Regresin Lineal Simple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
Se rechaza H0, a un nivel de significancia si F0 > f ,k 2 ,n 2 . En tal caso se concluye que el modelo de regresin no es
lineal en X. Observe que son necesarios ms de dos niveles de valores en X para probar que el modelo de regresin es lineal.
En la tabla ANOVA puede presentarse el test de carencia de ajuste descomponiendo el SSE del modelo:
Anlisis de varianza
Fuente de Suma de Grados de Cuadrado
variacin cuadrados libertad medio F calculada
Regresin SSR 1 MSR F0=MSR/MSE
Error SSE n-2 MSE
Carencia de ajuste SSLOF k-2 MSLOF F0= MSLOF/ MSPE
Error Puro SSPE n-k MSPE
Total SST n-1
NOTAS:
9 En general, en el clculo del SSPE slo se utilizan aquellos niveles j de X en los cuales hay replicaciones.
9 E ( MSPE ) = 2 sin importar cul sea la verdadera funcin de regresin.
9 En general, la prueba de carencia de ajuste puede aplicarse a otras funciones de regresin, slo se requiere modificar
los grados de libertad del SSLOF, que en general corresponden a k p , donde p es el nmero de parmetros en la
funcin de regresin. Para el caso especfico de la regresin lineal simple, p=2.
9 Cuando se concluye que el modelo de regresin en H0 es apropiado, la prctica usual es usar el MSE y no el MSPE
como un estimador de la varianza, debido a que el primero tiene ms grados de libertad.
9 Cualquier inferencia sobre los parmetros del modelo lineal, por ejemplo la prueba de significancia de la regresin,
slo debe llevarse a cabo luego de haber probado que el modelo lineal es apropiado.
17
Regresin Lineal Simple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
con las bandas de confianza del modelo de regresin; si la primera cae entre las segundas, entonces se tiene
evidencia de que el modelo ajustado es apropiado
factor de ponderacin i , tomado en forma inversamente proporcional a la varianza de yi , esto es, la funcin de
n
mnimos cuadrados considerada es S ( 0 , 1 ) = i ( yi 0 1 xi ) .
2
i =1
9 Usar transformaciones en Y que estabilicen la varianza. En algunos tipos de relaciones la asimetra y la varianza del
error se incrementan con la respuesta media. Cuando la transformacin es logartmica, a veces es necesario sumar
una constante a los valores de Y , especficamente cuando existen valores negativos. Se debe tener en cuenta
tambin que cuando la varianza no es constante pero la relacin de regresin es lineal, no es suficiente transformar a
Y, pues en ese caso aunque se estabilice la varianza, tambin cambiar la relacin lineal a una curvilnea y por ende,
se requerir tambin una transformacin en X ; sin embargo, este caso puede manejarse tambin usando mnimos
cuadrados ponderados.
18
Regresin Lineal Simple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
zero. Note que esta prueba slo detecta correlacin entre observaciones sucesivas por tanto el no rechazar 1 = 0 no implica
incorrelacin entre observaciones separadas k > 1 unidades (en el tiempo u orden de observacin).
RECUERDE QUE: Incorrelacin no implica independencia estadstica, pero independencia estadstica implica incorrelacin,
sin embargo si el par de variables incorrelacionadas se distribuyen conjuntamente en forma normal, entonces son
independientes!!!.
En general, mientras sea desconocido el orden de recoleccin u observacin de los datos, asumimos como vlido el supuesto
de independencia.
11.2.4 La no normalidad
En las pruebas de normalidad evaluamos:
H 0 : Los errores son normales vs.
H1 : Los errores no son normales,
La validacin de esta prueba puede realizarse bien sea examinando los valores P arrojados por una prueba especfica de
normalidad, como el test de Shapiro Wilk, o bien, mediante un grfico de normalidad en cual se evala si la nube de puntos en
la escala normal se puede ajustar por una lnea recta.
La carencia de normalidad frecuentemente va de la mano con la no homogeneidad de la varianza, por ello, a menudo una
misma transformacin de los valores de Y, logra estabilizar la varianza y una aproximacin a la normalidad. En estos casos se
debe usar primero una transformacin que estabilice la varianza y evaluar si el supuesto de normalidad se cumple para los
datos transformados.
Entre las transformaciones que logran corregir la no normalidad se tienen las transformaciones de potencia Box-Cox Y , que
comprende la transformacin de logaritmo natural (caso = 0 ). Otra solucin es trabajar con mtodos no paramtricos de
regresin.
19
Regresin Lineal Simple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
Siempre y cuando un outlier sea originado por un error de registro, de clculo o de medicin ste debe ser eliminado. De otra
forma hay que proceder con cautela, porque es posible que tal tipo de observacin contenga informacin valiosa sobre un
fenmeno especial que no ha sido capturado por el modelo.
transformadas. Ejemplos:
MODELO DENOMINACIN TRANSFORMACIN
20
Regresin Lineal Simple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
NOTA:
9 Los modelos exponenciales y de potencia aditivos: Y = 0 e 1 X + , y Y = 0 X 1 + no son intrnsecamente
lineales.
9 El supuesto necesario es que cuando el trmino de error es transformado, esta variable transformada deber ser
( )
iid N 0 , 2 , por ello deben examinarse los residuales del modelo transformado.
9 Los parmetros del modelo original no lineal, se pueden estimar al destransformar, cuando resulte necesario, los
estimadores hallados para los parmetros del modelo transformado. En los casos con modelos exponenciales y de
potencia multiplicativos, si es pequeo se puede obtener un intervalo de confianza aproximado para la respuesta
media tomando antilogaritmos sobre los lmites del intervalo hallado para la respuesta media para Y * . Sin embargo
cuando hacemos esto, en trminos generales, estamos hallando un intervalo de confianza para la mediana de Y
(recordar la distribucin lognormal).
9 Si el modelo lineal transformado satisface todas las suposiciones para la regresin lineal simple, las estimaciones de
los parmetros originales a travs de transformaciones inversas resultan razonables aunque no insesgadas.
21
Regresin Lineal Simple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
Lo anterior arroja la tabla de anlisis de varianza y la tabla de parmetros estimados. Este programa bsico puede modificarse
para obtener grficos, intervalos residuales, etc. como se ilustra en el siguiente ejemplo:
El grabado con plasma es esencial para la transferencia de figuras de lneas finas en los procesos de fabricacin de
semiconductores. En un experimento aleatorio se obtuvieron los siguientes datos sobre el flujo de cloro (variable X, en SCMM)
en el mecanismo grabador y la rapidez de grabado (Variable Y, en 100A/min). Los datos obtenidos se listan a continuacin:
X Y X Y
1.5 23.0 1.5 24.5
2.0 25.0 2.5 30.0
2.5 33.5 3.0 40.0
3.5 40.5 3.5 47.0
4.0 49.0
DATA UNO;
INPUT X Y @@;
CARDS;
1.5 23 1.5 24.5 2 25 2.5 30 2.5 33.5
3 40 3.5 40.5 3.5 47 4 49
;
RUN;
22
Regresin Lineal Simple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
23
Regresin Lineal Simple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
t
c. Inversa de la matriz X X , parmetros estimados y SSE: obtenidos con la opcin i en la lnea de la declaracin
MODEL. En esta matriz la ltima fila y la ltima columna son iguales y dan (de izquierda a derecha para la fila o de arriba hacia
d. Tabla de anlisis de varianzas, con valor P para la prueba F de significancia de la regresin (Interprete resultados):
Anlisis de varianza
Suma de Cuadrado
Fuente DF cuadrados medio F-Valor Pr > F
Modelo 1 730.69338 730.69338 112.76 <.0001
Error 7 45.36218 6.48031
Total corregido 8 776.05556
Raz MSE 2.54565 R-cuadrado 0.9415
Media dependiente 34.72222 R-Cuad Adj 0.9332
Var Coeff 7.33146
e. Tabla de parmetros estimados con valores de estadsticos y valor P de las pruebas para significancia de los
parmetros. El modelo ajustado es Y = 6.449 + 10.603 X (Interprete resultados):
Estimadores del parmetro
Estimador del Error
Variable DF parmetro estndar Valor t Pr > |t|
Intercept 1 6.44872 2.79457 2.31 0.0544
X 1 10.60256 0.99848 10.62 <.0001
f. Intervalo de confianza para los parmetros. Estos son obtenidos mediante la opcin clb de la declaracin MODEL
(Interprete resultados):
Estimadores del parmetro
Variable DF 95% Lmites de confianza
Intercept 1 -0.15938 13.05682
X 1 8.24152 12.96360
g. Las siguientes salidas son obtenidas con opciones especificadas en la declaracin MODEL: Valores ajustados o
predichos para Y (Predited Values) y error estndar de valores ajustados (Std Error Mean Predict) son obtenidos
con la opcin p; lmites de confianza para la respuesta media (CL Mean) se obtienen con la opcin clm; lmites de
prediccin (CL Predict) se obtienen con la opcin cli; residuales (Residual), error estndar de los residuales (Std
24
Regresin Lineal Simple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
Error R), residuales estudentizados (Student Residual), y Distancia de Cook (Cooks D) son obtenidos con la opcin r.
Estas dos ltimas medidas sirven para diagnosticar si hay observaciones extremas en los datos:
Estadsticos de salida
Variable Valor Error std
Obs depend predicho Media predicha 95% CL Media
1 23.0000 22.3526 1.4412 18.9447 25.7604
2 24.5000 22.3526 1.4412 18.9447 25.7604
3 25.0000 27.6538 1.0785 25.1036 30.2041
4 30.0000 32.9551 0.8647 30.9104 34.9998
5 33.5000 32.9551 0.8647 30.9104 34.9998
6 40.0000 38.2564 0.9115 36.1011 40.4117
7 40.5000 43.5577 1.1884 40.7475 46.3679
8 47.0000 43.5577 1.1884 40.7475 46.3679
9 49.0000 48.8590 1.5787 45.1258 52.5921
Error std Residual
Obs 95% CL Predicha Residual Residual de Student -2-1 0 1 2
1 15.4353 29.2698 0.6474 2.098 0.309 | | |
2 15.4353 29.2698 2.1474 2.098 1.023 | |** |
3 21.1164 34.1913 -2.6538 2.306 -1.151 | **| |
4 26.5978 39.3124 -2.9551 2.394 -1.234 | **| |
5 26.5978 39.3124 0.5449 2.394 0.228 | | |
6 31.8627 44.6501 1.7436 2.377 0.734 | |* |
7 36.9145 50.2009 -3.0577 2.251 -1.358 | **| |
8 36.9145 50.2009 3.4423 2.251 1.529 | |*** |
9 41.7759 55.9421 0.1410 1.997 0.0706 | | |
D
Obs de Cook
1 0.022
2 0.247
3 0.145
4 0.099
5 0.003
6 0.040
7 0.257
8 0.326
9 0.002
Suma de residuales 0
Suma de residuales cuadrados 45.36218
SS de Residual predicho (PRESS) 71.60967
Los grficos producidos son (Analice relacin Y vs. X y grficos de residuales para validar supuestos de varianza y linealidad
del modelo en X)
25
Regresin Lineal Simple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
Figura 2: Grfico de dispersin con recta ajustada y bandas de confianza y de prediccin del 95%. Este grfico es obtenido con la declaracin PLOT
y*x/conf95 pred95. Note que las bandas de prediccin (L95 y U95) son ms amplias que las de confianza (L95M y U95M), debido a que las
predicciones tienen una varianza mayor que los valores medios ajustados.
Figura 3: Grfico residuales vs. valores predichos. Se obtienen con la declaracin PLOT r.*p., el punto despus de la p y de la r son parte de la
sintaxis. Note que con los pocos datos es difcil juzgar si la varianza es constante, aunque parece que tal supuesto es razonable.
26
Regresin Lineal Simple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
Figura 4: Grfico residuales vs. X obtenido con PLOT r.*x . Todos los grficos de residuales pueden ser solicitados en la misma declaracin plot.
El patrn exhibido en este ltimo grfico es similar al del grfico anterior, indicando que no hay patrones sistemticos que hagan pensar que el modelo
no es lineal en X.
Con el PROC UNIVARIATE se obtiene el grfico de normalidad de los errores, al cual adems se ha insertado los resultados
del test Shapiro Wilk (Analice linealidad del grfico de normalidad y resultados del test)
Figura 5: Grfico de normalidad de residuales. El patrn exhibido nos hace pensar que hay problemas con el supuesto de normalidad. Esto debe
mirarse con cautela, dado que an con muestras normales se obtiene no normalidad en el grfico de probabilidad cuando las muestras son pequeas.
Pero por otra parte, el test de Shapiro Wilk arroja un valor del estadstico de prueba de 0.903111 con un valor P de 0.270584 con lo cual se acepta la
hiptesis de normalidad
27
Regresin Lineal Simple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
datos<-data.frame(matrix(scan(),ncol=2,byrow=T))
1.5 23.0
2.0 25.0
2.5 33.5
3.5 40.5
4.0 49.0
1.5 24.5
2.5 30.0
3.0 40.0
3.5 47.0
b) Editar objeto de datos para cambiar nombres de columnas por X y Y respectivamente (slo si se quiere hacer esto), en
la ventana de edicin que aparece en pantalla luego de dar enter al final de la siguiente lnea:
datos<-edit(datos) #al dar enter, abre la ventana donde modificamos los nombres de columna
X Y
1 1.5 23.0
2 2.0 25.0
3 2.5 33.5
4 3.5 40.5
5 4.0 49.0
6 1.5 24.5
7 2.5 30.0
8 3.0 40.0
9 3.5 47.0
28
Regresin Lineal Simple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
c) Realizando la regresin lineal. Se asignan resultados de la funcin lm a un objeto R. Observe que la ecuacin del
modelo se especifica por Y~1+X, usando los nombres de las variables como aparecen en el data frame datos. El 1 indica
regresin con intercepto, si se quiere regresin por el origen la ecuacin es Y~-1+X.
regres1<-lm(Y~1+X,datos)
summary(regres1)
Call:
lm(formula = Y ~ 1 + X, data = datos)
Residuals:
Min 1Q Median 3Q Max
-3.0577 -2.6538 0.5449 1.7436 3.4423
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 6.4487 2.7946 2.308 0.0544 .
X 10.6026 0.9985 10.619 1.44e-05 ***
---
Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1
nf<-layout(rbind(c(1,1,2,2),c(3,3,4,4)))
plot(predict(regres1),residuals(regres1),xlab=expression(hat(y)),ylab="Residuales",main="Res
iduales vs. predichos")
abline(h=0,lty=2)
qqnorm(rstandard(regres1),ylab="Residuales estandarizados")
qqline(rstandard(regres1),lty=2)
plot(datos$X,residuals(regres1),xlab="X",ylab="Residuales",main="Residuales vs. X")
abline(h=0,lty=2)
plot(cooks.distance(regres1),type="h",xlab="No. obs",main="Grfico Distancia de Cook")
par(oma=c(1,1,1,1),new=T,font=2)
mtext(outer=T, "Grficos bsicos de regresin simple",side=3)
29
Regresin Lineal Simple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
X<-datos$X[order(datos$X)]
temp3<-predict(regres1,interval="prediction")
temp4<-predict(regres1,interval="confidence")
interval.pred<-temp3[order(datos$X),]
interval.conf<-temp4[order(datos$X),]
matriz<-as.matrix(cbind(X,interval.conf,interval.pred[,-1]))
matplot(matriz[,1],matriz[,-1],type="l",lty=c(1,2,2,3,3),lwd=2,xlab= "X",ylab=
"Y",col=c(1,2,2,4,4),main="Recta de regresin con intervalos de confianza y de prediccin
del 95%",cex.main=1)
points(datos,type="p",pch=19)
legend(locator(1),c("Recta
ajustada","Interv.Conf","interv.Pred"),col=c(1,2,4),bty="n",lty=1:3,cex=0.8,lwd=2) #Hacer
click sobre grfico resultante, donde se desea colocar leyenda de las lneas
30
Regresin Lineal Simple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
h) Obtencin de la prueba de normalidad Shapiro Wilk, sobre los errores del modelo:
shapiro.test(residuals(regres1))
data: residuals(regres1)
W = 0.9031, p-value = 0.2706
En SAS obtenemos el test de carencia de ajuste (Lack of Fit), mediante otro procedimiento de regresin, el PROC RSREG,
veamos:
PROC RSREG DATA=UNO;
MODEL Y=X/COVAR=1 LACKFIT;
RUN;QUIT;
De los resultados que produce este procedimiento slo nos interesa los que aparecen en la siguiente salida SAS
RAPIDEZ DE GRABADO VS. FLUJO DE CLORO
The RSREG Procedure
Response Surface for Variable Y
Response Mean 34.722222
Root MSE 2.545646
R-Square 0.9415
Coefficient of Variation 7.3315
Suma de Cuadrado de
Residual DF cuadrados la media F-Valor Pr > F
Lack of Fit 4 16.987179 4.246795 0.45 0.7726
Pure Error 3 28.375000 9.458333
Total Error 7 45.362179 6.480311
31
Regresin Lineal Simple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
En R el test de carencia de ajuste puede realizarse de la siguiente manera (Compare con resultados de SAS):
regres1<-lm(Y~X,datos) #Ajusta modelo de regresin y da el error total SSE
regres2<-lm(Y~factor(X),datos) #Ajusta modelo lineal general o completo y da su error puro
#SSPE
anova(regres1,regres2) #Compara los dos modelos anteriores y obtenemos el SSLOF, los grados
#de libertad correspondientes, estadstico de prueba F0 y el valor P
#correspondiente
Model 1: Y ~ X
Model 2: Y ~ factor(X)
Res.Df RSS Df Sum of Sq F Pr(>F)
1 7 45.362
2 3 28.375 4 16.987 0.449 0.7726
15. Problema
Considere el siguiente conjunto de pares de datos (X,Y) para una muestra de n=14.
X Y
110 235
110 198
110 173
230 174
230 149
230 124
360 115
360 130
360 102
360 95
505 122
505 112
505 98
505 96
Observe que la variable explicatoria X fue observada en cuatro niveles: 110, 230, 360 y 505, es decir, tenemos rplicas de la
variable respuesta en al menos un nivel de X.
En SAS usamos el siguiente programa para obtener los resultados y grficos que se presentan luego.
OPTIONS nodate nocenter nonumber ps=60 ls=80;
GOPTIONS ftext=simplex ftitle=simplex htitle=1.3 htext=1.0 border;
data uno;
input x y @@;
cards;
32
Regresin Lineal Simple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
33
Regresin Lineal Simple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
Suma de Cuadrados
Residual DF cuadrados medios F-Valor Pr > F
Lack of Fit 2 2880.013219 1440.006609 3.30 0.0792
Pure Error 10 4361.000000 436.100000
Total Error 12 7241.013219 603.417768
Grfico de Y. vs. X con lnea de la recta ajusta Grfico de residuales vs. Valores ajustados o predichos
34
Regresin Lineal Simple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
Grfico de residuales vs. valores de X Grfico de normalidad para residuales, con informacin
sobre el test Shapiro-Wilk
1. Indique qu informacin nos proporciona el anlisis del grfico de Y vs. X acerca de:
a) El tipo de relacin funcional entre Y vs. X (lineal o no lineal?)
b) El comportamiento de la varianza de Y en cada nivel de X observado Es constante o no? Si no es constante,
cmo cambia?
2. En la tabla del modelo ajustado determine lo siguiente
a) Cul es el modelo ajustado? (Escriba la ecuacin con los parmetros ajustados).
b) Interprete los valores ajustados de los parmetros.
c) Realice la prueba de significancia de la regresin (mediante la tabla ANOVA)
d) Realice los test de significancia de cada parmetros (pruebas t).
3. Ahora considere Los grficos de los residuales:
a) De acuerdo a los grficos de residuales, determine si el supuesto de varianza constante para los respectivos
errores se cumple o no.
b) Ahora realice los test de normalidad sobre los errores del modelo, use e interprete los resultados del test de
Shapiro Wilk y el grfico de probabilidad.
4. Considere de nuevo los grficos de residuales vs. X y con las salidas para el test de carencia de ajuste del modelo,
determine si
a) Hay carencia de ajuste del modelo postulado para la respectiva respuesta media? (Formule completamente el
test de hiptesis, el estadstico de prueba y los resultados)
b) Caso que exista carencia de ajuste Qu modelos seran ms apropiados? Por qu?
Bibliografa
CANAVOS, George C. Probabilidad y Estadstica. Aplicaciones y Mtodos. McGraw-Hill,.
DEVORE, Jay L. Probabilidad y Estadstica para Ingeniera y Ciencias. International Thomson.
NETER, N. et. Al. (1996) Applied Linear Statistical Models. Irwin.
35