Sie sind auf Seite 1von 9

Estadstica Inferencial II

Unidad I Regresin Lineal Simple y Correlacin

1.1.- Modelo de Regresin Simple


Qu es la regresin lineal simple? La regresin lineal es un mtodo de anlisis de datos muy usado en contextos econmicos y cientficos, que sirve para poner en evidencia las relaciones que existen entre diversas variables. Cmo surge y porque? El trmino regresin se utiliz por primera vez en el estudio de variables antropomtricas: al comparar la estatura de padres e hijos, result que los hijos cuyos padres tenan una estatura muy superior al valor medio tendan a igualarse a ste, mientras que aquellos cuyos padres eran muy bajos tendan a reducir su diferencia respecto a la estatura media; es decir, "regresaban" al promedio. El trmino lineal se emplea para distinguirlo del resto de tcnicas de regresin, que emplean modelos basados en cualquier clase de funcin matemtica. Los modelos lineales son una explicacin simplificada de la realidad, mucho ms gil y con un soporte terico por parte de la matemtica y la estadstica mucho ms extenso. Pero bien, como se ha dicho, podemos usar el trmino lineal para distinguir modelos basados en cualquier clase de aplicacin. Para qu lo usamos? 1. Establecer si hay conexin entre dos variables. 2. Pronosticar nuevas observaciones La Regresin lineal se usa cuando sobre una poblacin se estudian simultneamente los valores de dos variables estadsticas.

Pgina | 2

Cmo se usa? Vamos a encontrar 2 variables: Y: Dependiente. Que es lo que queremos explicar y/o pronosticar. X: Independiente. a que explica. Y se supone que esto va a estar conectado atreves de una ecuacin. A continuacin un ejemplo de la representacin grafica de un modelo de regresin lineal simple.

1.2.- Supuestos
Para poder crear un modelo de regresin lineal, es necesario que se cumpla con los siguientes supuestos: 1. La relacin entre las variables es lineal. 2. Los errores en la medicin de las variables explicativas son independientes entre s. 3. Los errores tienen varianza constante. (Homocedasticidad) 4. Los errores tienen una esperanza matemtica igual a cero (los errores de una misma magnitud y distinto signo son equiprobables).
Pgina | 3

5. El error total es la suma de todos los errores. 6. Los valores de la variable independiente X son fijos, medidos sin error. 7. La variable Y es aleatoria 8. Para cada valor de X, existe una distribucin normal de valores de Y (subpoblaciones Y) 9. Las variancias de las subpoblaciones Y son todas iguales. 10. Todas las medias de las subpoblaciones de Y estn sobre la recta. 11. Los valores de Y estn normalmente distribuidos y son estadsticamente independientes.

1.3.- Determinacin de la Ecuacin de Regresin


Primeramente, para determinar la ecuacin de la regresin lineal hay que plantearlo, que es la siguiente:

Donde:

X= es un valor que se obtiene de datos que nos da el problema.

Para obtener siguientes: Para

, se utiliza la frmula de los mnimos cuadrados que son las

es:

Para

es:

Pgina | 4

Aplicando un ejemplo determinaremos los siguientes variables:

1.4.- Medidas de Variacin


Son valores numricos que indican o describen la forma en que las observaciones estn dispersas o diseminadas, con respecto al valor central. Son importantes debido a que dos muestras de observaciones con el mismo valor central pueden tener una variabilidad muy distinta.

1.5.- Clculo de Determinacin

los

Coeficientes

de

Correlacin

de

El coeficiente de correlacin lineal es el cociente entre la covarianza y el producto de las desviaciones tpicas de ambas variables. El coeficiente de correlacin lineal se expresa mediante la letra r. Propiedades: 1. El coeficiente de correlacin no vara al hacerlo la escala de medicin. Es decir, si expresamos la altura en metros o en centmetros el coeficiente de correlacin no vara. 2. El signo del coeficiente de correlacin es el mismo que el de la covarianza. Si la covarianza es positiva, la correlacin es directa.
Pgina | 5

Si la covarianza es negativa, la correlacin es inversa. Si la covarianza es nula, no existe correlacin. 3. El coeficiente de correlacin lineal es un nmero real comprendido entre 1 1 r 1 4. Si el coeficiente de correlacin lineal toma valores cercanos a 1 la correlacin es fuerte e inversa, ser tanto ms fuerte cuanto ms se apro ime r a 1. 5. Si el coeficiente de correlacin lineal toma valores cercanos a 1 la correlacin es fuerte y directa, y ser tanto ms fuerte cuanto ms se aproxime r a 1. 6. Si el coeficiente de correlacin lineal toma valores cercanos a 0, la correlacin es dbil. 7. Si r = 1 1, los puntos de la nube estn sobre la recta creciente o decreciente. Entre ambas variables hay dependencia funcional. La frmula que se emplean para determina el coeficiente de correlacin es: 1.

Donde hay que determinar

Pgina | 6

1.6.- Anlisis Residual


Tambin conocido como Anlisis de Varianza, este anlisis de varianza para regresin consiste en descomponer la variacin total de la variable de respuesta en varias partes llamadas fuentes de variacin. La divisin de la suma de cuadrados por sus grados de libertad es llamada cuadrado medio. As se tienen tres cuadrados medios. Cuadrado Medio de Regresin (1). Cuadrado Medio del Error Cuadrado Medio del Total (n-2). (n-1). como candidato para calcular la hiptesis

Consideraremos el estadstico Ho : 1 = 0.

Esperamos que F est cerca de 1 si Ho es verdadera y que F sea grande y positiva cuando Ho es falsa. Distribucin de Fisher con (1, n2) grados de libertad. Por lo tanto un test de nivel para las hiptesis Ho : 1 = 0 H1 : 1 0

Se rechazar Ho si el valor del estadstico para los datos de la muestra produce un p-valor (calculado sobre la distribucin F de Fisher) menor que el nivel . La hiptesis nula No se Rechazara, si el cociente F es ms pequeo.

Pgina | 7

Para hacer todo esto posible necesitamos usa la tabla ANOVA, que es la siguiente
Fuente de Variacin Regresin Suma de cuadrados GL 1 Cuadrados Medios

Error

n-2

Total n-1

1.7.- Inferencias Acerca de la Pendiente


Intentaremos construir un intervalo de confianza. Bajo los supuestos del modelo lineal (normalidad, homogeneidad de varianzas, linealidad e independencia) el estimador 1 de la pendiente tiene distribucin normal con media 1 Var (1), por lo tanto: varianza

Donde SE(1), el error estndar del estimador de la pendiente. Se define como:

Notemos que la varianza de 1 disminu e (la estimacin es ms precisa) cuando: La varianza disminuye.

La varianza de la variable regresora aumenta Mientras ms amplio el rango de valores de la covariable, mayor la precisin en la estimacin.

Pgina | 8

El tamao de muestra aumenta. Desviacin Estndar de los Residuos Un intervalo de confianza de nivel (1 ) para el parmetro recta de regresin poblacional) est dado por (pendiente de la

Donde tn2, /2 es el percentil de la distribucin t de Student con n 2 grados de libertad que deja a su derecha un rea.

Pgina | 9