Sie sind auf Seite 1von 12

UNIDAD 5 5.

1 Regresin lineal simple Un modelo de regresin es un modelo que permite describir como influye una variable X sobre otra variable Y. X: Variable independiente o explicativa o exgena Y: Variable dependiente o respuesta o endgena El modelo de regresin lineal simple supone que: yi = 0 + 1xi + ui. Dnde: yi representa el valor de la variable respuesta para la observacin i-esima. xi representa el valor de la variable explicativa para la observacin i-esima. ui representa el error para la observacin i-esima que se asume normal: ui N(0, ) 0 y 1 son los coeficientes de regresin: 0 : intercepto 1 : pendiente Los parmetros que hay que estimar son: 0, 1 y . El objetivo es obtener estimaciones 0 y 1 de 0 y 1 para calcular la recta de regresin = 0 + 1x que se ajuste lo mejor posible a los datos. Ejemplo: Supongamos que la recta de regresin del ejemplo anterior es: Costo = 15,65 + 1,29 Volumen Se estima que una empresa que produce 25 mil unidades, tendr un costo = 15,65 + 1,29 25 = 16,6 mil euros. La diferencia entre cada valor yi de la variable respuesta y su estimacin yi se llama residuo: ei = yi yi 5.1.1 Prueba de hiptesis en la regresin lineal simple Para probar hiptesis acerca de la pendiente y la ordenada en el origen del modelo de regresin, debe hacerse la suposicin adicional de que el termino del error i esta normalmente distribuido. Por lo tanto, se supone que los errores i son NID (0,2). Despus se pueden probar estas suposiciones mediante el anlisis de residuos. Ejemplo: supongamos que el experimentador desea probar la hiptesis de que la pendiente es igual a un cierto valor, por ejemplo 1,0. Las hiptesis apropiadas son:

En donde se ha especificado la hiptesis alterna de dos extremos. Ahora bien, como las i son NID(0,2) se concluye que las yi son NID(0 + 1xj, 2). Por lo tanto, es una combinacin lineal de variables aleatorias independientes normalmente distribuidas. En consecuencia, es N (1, 2/Sxx). Adems es independiente de MSE. Entonces, como resultado de la suposicin de normalidad, la estadstica:

Tiene una distribucin t con n 2 grados de libertad si H0: 1 = 1, 0 es verdadera. Se rechaza H0:1 = 1, 0 si:

En donde t0 se calcula usando la Ecuacin (1-23). Puede utilizarse un procedimiento similar para probar hiptesis acerca de la ordenada en el origen. Para probar: H0: 0 = 0,0 H1: 0 0,0 Se usa el estadstico:

Y se rechaza la hiptesis nula s:

Esta hiptesis se relaciona con la significacin de la regresin. No rechazar H0: 1 = 0 equivale a concluir que no existe una relacin lineal entre x yy. En otras palabras, el mejor estimador de yi para cualquier valor de xj es j = . En muchos casos esto puede indicar que no hay una relacin causal entre x y y, o que la relacin real no es lineal. El procedimiento para probar H01 = 0 se puede deducir usando dos enfoques. El primero consiste en descomponer la suma total de cuadrados corregida de y:

Los dos componentes de Syy miden, respectivamente, la variabilidad de yi explicada por la recta de regresin y la variacin residual, no explicada por la recta de regresin. se conoce

como la suma de cuadrados del error o residual y se denomina suma de cuadrados de regresin. Por lo tanto, la Ecuacin (1-28) se transforma en: Syy = SSR + SSE.

De la Ecuacin

se obtiene que la frmula para calcular SSR es:

Anlisis de variancia para probar la significancia de la regresin

Fuente de Variacin Regresin

Suma de cuadrados Grados de Libertad Media de Cuadrados

F0

MSR

MSR/MSE

Error o residual

n2 n 1

MSE

Total

Syy

5.1.2 Calidad del ajuste en regresin lineal simple


A menudo, los modelos de regresin se adecan a los datos cuando no se conoce la relacin funcional real. Naturalmente, es importante saber si el orden del modelo tentativamente supuesto es correcto. En esta seccin se describe una prueba para la validez de esta suposicin. A continuacin, se presenta una prueba de bondad de ajuste del modelo de regresin. A pesar de que se usa una sola variable independiente, la generalizacin para k variables de regresin es directa. Las hiptesis que se desea probar son: H0: El modelo se ajusta adecuadamente a los datos H1: El modelo no se ajusta a los datos La prueba consiste en descomponer la suma de cuadrados del error o residual en los siguientes dos componentes: SSE = SSPE + SSLOF En donde SSPE es la suma de cuadrados atribuibles un error experimental puro y SSLOF es la suma de cuadrados atribuibles a la falta de ajuste del modelo. Para calcular SSPE se necesitan varias observaciones de y para al menos un nivel de x. Supongamos que se tienen n observaciones, tal que:

Se observa que existen m niveles distintos de x. La contribucin a la suma de cuadrados del error puro, por ejemplo en xi, es: La suma total de cuadrados del error puro se obtiene sumando la Ecuacin 1-34 sobre todos los niveles de x:

Hay

grados de libertad asociados con la suma de cuadrados del error puro. La suma de cuadrados de la falta de ajuste simplemente es:

Con n 2 ne = m 2 grados de libertad. La estadstica para probar la falta de ajuste resulta ser:

Y se rechaza la hiptesis de idoneidad del modelo H0 si F0 > F,m 2,n m. Esta prueba puede introducirse fcilmente en el anlisis de variancia dirigida a la significacin de la regresin. Si la hiptesis nula de la adecuacin del modelo se rechaza, el modelo debe ser abandonado y buscarse otro que resulte ms apropiado. Si H0 no se rechaza, no existe una razn aparente para dudar de la adecuacin del modelo y, a menudo, MSPE y MSLOF se combinan para estimar 2. Ejemplo: Supongamos que se tienen los siguientes datos:

1.0

1.0

2.0

3.3

3.3

4.0

4.0

4.0

4.7

5.0

2.3

1.8

2.8

1.8

3.7

2.6

2.6

2.2

3.2

2.0

5.6

5.6

5.6

6.0

6.0

6.5

6.9

3.5

2.8

2.1

3.4

3.2

3.4

5.0

Se calculan las cantidades Syy = 10.97, Sxy = 13.62, Sxx = 52.53,

= 2.847 y

=4.382. El modelo de Sxy = (0.260)(13.62) =

regresin es = 1.708 + 0.260x, y la suma de cuadrados de regresin es SSR = 3.541. La suma de cuadrados del error puro se calcula como sigue:

Nivel de x

(yi -

)2

Grados de libertad

1.0

0.1250

3.3

1.8050

4.0

0.1066

5.6

0.9800

6.0

0.0200

Totales

3.0366

El anlisis de variancia se presenta en la siguiente Tabla 1-4. No es posible rechazar la hiptesis de que el modelo tentativo describe adecuadamente los datos porque F.25,8,7 = 1.70. Se ponderan las medias de cuadrados del error puro y de la falta de ajuste para formar la media de cuadrados del denominador con el fin de probar la significacin de la regresin. Se debe concluir que 1 = 0 porque F.05,1,15 4.54.

5.1.3 Estimacin y prediccin por intervalo en regresin lineal simple Adems de los estimadores puntuales de la pendiente y la ordenada en el origen, es posible obtener estimaciones por intervalos de estos parmetros. Si las i son independientes y normalmente distribuidas, entonces: y

Tienen distribucin t con n 2 grados de libertad. As, un intervalo de confianza del 100(1 ) % sobre 1 est dado por:

Similarmente, un intervalo de confianza del 100(1 ) % para 1 est dado por: Se puede construir un intervalo de confianza para la respuesta meida a un valor especfico x = x0. ste es un intervalo de confianza para E(y | x0) y a menudo se le conoce como intervalo de confianza para la recta

de regresin. Como E(y x0) = modelo ajustado mediante:

+ 1 (x0 -

), puede obtenerse un estimador puntual de E(y x0) del

Ejemplo 1-3: Se desea construir un intervalo de confianza de 95% para la recta de regresin de los datos del Ejemplo 1-1. Ya que = -0.2879 + 0.4566x0, el intervalo de confianza de 95% es:

Los valores predichos y los lmites de confianza del 95% para x0 = xi, i = 1, 2, . . ., 12 aparecen en la siguiente Tabla 1-5. Para mostrar el uso de esta tabla, el intervalo de confianza del 95% para la recta de regresin real en x0 =26 es:

5.2 Regresin lineal mltiple El modelo de regresin lineal mltiple es idntico al modelo de regresin lineal simple, con la nica diferencia de que aparecen ms variables explicativas: Modelo de regresin simple: y = b0 +b1 x +u Modelo de regresin mltiple: y = b0 + b1 x1 + b2 x2 + b3 x3 +...+ bk xk + u

Siguiendo con nuestro ejemplo, si consideramos el peso como variable dependiente y como posibles variables explicativas: estatura pie l_brazo a_espald d_craneo

El modelo que deseamos construir es: peso=b0 +b1 estatura +b2 pie +b3 l_brazo +b4 a_espald +b5 d_craneo

Al igual que en regresin lineal simple, los coeficientes b van a indicar el incremento en el peso por el incremento unitario de la correspondiente variable explicativa. Por lo tanto, estos coeficientes van a tener las correspondientes unidades de medida. Para realizar un anlisis de regresin lineal mltiple se hacen las siguientes consideraciones sobre los datos: a) Linealidad: los valores de la variable dependiente estn generados por el siguiente modelo lineal: Y = X *B+U b) Homocedasticidad: todas las perturbaciones tienen las misma varianza: V(ui) = c) Independencia: las perturbaciones aleatorias son independientes entre s: E (ui u j) = 0,i j d) Normalidad: la distribucin de la perturbacin aleatoria tiene distribucin normal: U N(0, ) e) Las variables explicativas Xk se obtienen sin errores de medida.

5.2.2 pruebas de hiptesis en regresin lineal mltiple A menudo el experimentador desea probar hiptesis que se refieren a los parmetros del modelo de regresin lineal mltiple. Esto requiere la suposicin adicional de que los errores sean NID(0,2). Una consecuencia directa de esta suposicin es que las observaciones yj son .

Consideremos probar si la regresin es significativa. En la regresin lineal mltiple esto se logra probando las hiptesis:

Al menos una i El rechazo de H0 en esta ecuacin implica que al menos una variable en el modelo contribuye significativamente al ajuste. El procedimiento para probar la Ecuacin 1-55 es una generalizacin del procedimiento usado para probar la regresin lineal simple. La suma total de cuadrados Syy se descompone en la suma de cuadrados de regresin y en la suma de cuadrados del error:

Y si H0:i = 0 es verdadera,

, en donde el nmero de grados de libertad para 2 es igual al

nmero de variables de regresin en el modelo. Tambin se puede mostrar que ~ y que SSE y SSR son independientes. Por lo tanto el procedimiento para probar H0:i = 0 consiste en calcular:

Y rechazar H0 si F0 > F,k,n-k-1. Usualmente el procedimiento se resume en una tabla de anlisis de variancia como la que aparece en la Tabla 1-9. A continuacin, se obtiene la frmula para calcular la suma de cuadrados de regresin SSR.

Anlisis de variancia para la significancia de la regresin lineal mltiple

Fuente de Variacin Regresin Error o residuo Total

Suma de Cuadrados SSR SSE Syy

Grados de Libertad k nk1 n1

Media de Cuadrados MSR MSE

F0

MSR/MSE

Ejemplo: Considere los datos del ejemplo 1-4. El modelo ajustado es = 30.866667 + 0.877203(x1 18) + 0.455918(x2 28). A partir de Xy se observa que S1y = 345 y que S2y = 63. La suma total de cuadrados es:

Y usando la Ecuacin 1-47 la suma de cuadrados de regresin es:

En la Tabla 1.10 aparece el anlisis de variancia. Se concluye que al menos una variable contribuye significativamente a la regresin porqueF.01,2,12 = 6.93. Tabla: Anlisis de variancia para la significancia de la regresin del Ejemplo:

Fuente de variacin Regresin Error Total

Suma de cuadrados Grados de libertad Media de cuadrados 331.36 118.37 449.73 2 12 14 165.68 9.86

F0 16.80

5.2.3 intervalos de confianza y prediccin en regresin lineal mltiple


En los modelos de regresin mltiple, a menudo es til construir estimaciones de intervalos de confianza para los coeficientes de regresin El desarrollo de un procedimiento para obtener estos intervalos de confianza

requiere que los errores estn distribuidos de manera normal e independiente, con media cero y variancia 2. sta es la misma suposicin que se requiere para la prueba de hiptesis. Por consiguiente, las observaciones estn normal e independientemente distribuidas con media y variancia 2.

Puesto que el estimador de mnimos cuadrados tiene una distribucin normal con un vector promedio y matriz de covariancia 2(XX)-1. Entonces, cada uno de los estadsticos.

Tiene una distribucin t con n p grados de libertad, donde Cij es el ij-simo elemento de la matriz (XX)-1, y es la estimacin de la variancia del error, obtenida a partir de la ecuacin . Lo anterior

conduce a la definicin siguiente de un intervalo de confianza de 100(1 ) por ciento para el coeficiente de regresin . , en el

Un intervalo de confianza del 100(1 ) por ciento para el coeficiente de regresin modelo de regresin lineal mltiple est dado por:

5.3 regresin no lineal La regresin no lineal es un problema de inferencia para un modelo tipo:

Basado en datos multidimensionales , , donde es alguna funcin no lineal respecto a algunos parmetros desconocidos . Como mnimo, se pretende obtener los valores de los parmetros asociados con la mejor curva de ajuste. Una funcin no-lineal que tiene muchas aplicaciones es la funcin exponencial: Y = AXb donde A y b son constantes desconocidas. Si aplicamos logaritmos, esta funcin tambin puede ser expresada como: log(Y) = log(A) + b.log(X) Consideremos ahora la siguiente regresin lineal: log(Y) = b0 + b1log(X) En esta regresin (denominada regresin doble-log), en lugar de calcular la regresin de Y contra X, calculamos la regresin del logaritmo de Y contra el logaritmo de X. Comparando estas dos ecuaciones, podemos apreciar que el coeficiente es un estimador de log(A), mientras que es un estimador de b (el exponente de la funcin exponencial). Este modelo es particularmente interesante en aplicaciones economtricas, porque el exponente b en una funcin exponencial mide la elasticidad de Y respecto de X.

Ejemplo
x y ln(y) x
2

x ln(y)

(ln y)

1,0986

1,0986

1,2069

1,2

3,4

1,2237

1,44

1,4684

1,4974

1,5

1,6094

2,25

2,4141

2,5901

0,6931

1,3862

0,4803

4,1

1,4109

4,2327

1,9906

3,7

1,6094

13,69

5,9547

2,5901

1,9459

16

7,7836

3,7865

4,5

6,5

1,8718

20,25

8,4231

3,5056

20,9 36 11,4628 67,63 32,7614 17,6455

Numero de datos = n = 8

X promedio =

= 2,6125

Y promedio

= 1,4328. Usando la forma lineal de la Regresin Exponencial:

b=

La ecuacin final que modela el sistema es

Das könnte Ihnen auch gefallen