Sie sind auf Seite 1von 15

FACULTAD: Derecho

CURSO: Mtodos Estadsticos

TEMA: Correlacin y Regresin Lineal

ALUMNO: Marcio Arce Santos

SECCION: B

AULA: 204

DOCENTE: Augusto Franklin Mendiburu Rojas

05 - 12 - 2017
Regresin y Correlacin

El anlisis de regresin consiste en emplear mtodos que permitan determinar la mejor


relacin funcional entre dos o ms variables concomitantes (o relacionadas). El anlisis
de correlacin estudia el grado de asociacin de dos o ms variables.

Anlisis de Regresin

Una relacin funcional matemticamente hablando, est dada por:

Y = f(x1,...,xn; 1,...,m)

donde:

Y : Variable respuesta (o dependiente)


xi : La i-sima variable independiente (i=1,..,n)
j : El j-simo parmetro en la funcin (j=1,..,m)
f : La funcin

Para elegir una relacin funcional particular como la representativa de la poblacin bajo
investigacin, usualmente se procede:

1) Una consideracin analtica del fenmeno que nos ocupa, y


2) Un examen de diagramas de dispersin.

Una vez decidido el tipo de funcin matemtica que mejor se ajusta (o representa nuestro
concepto de la relacin exacta que existe entre las variables) se presenta el problema de
elegir una expresin particular de esta familia de funciones; es decir, se ha postulado una
cierta funcin como trmino del verdadero estado en la poblacin y ahora es necesario
estimar los parmetros de esta funcin (ajuste de curvas).

Como los valores de los parmetros no se pueden determinar sin errores por que los
valores observados de la variable dependiente no concuerdan con los valores esperados,
entonces la ecuacin general replanteada, estadsticamente, sera:

Y = f(x1,...xn;1,...,m) +

donde respresenta el error cometido en el intento de observar la caracterstica en


estudio, en la cual muchos factores contribuyen al valor que asume .

Regresion Lineal Simple

Cuando la relacin funcional entre las variables dependiente (Y) e independiente (X) es
una lnea recta, se tiene una regresin lineal simple, dada por la ecuacin

Y = o + 1X +
donde:

o : El valor de la ordenada donde la lnea de regresin se intersecta al eje Y.


1 : El coeficiente de regresin poblacional (pendiente de la lnea recta)
: El error.

Suposiciones de la regresin lineal

1. Los valores de la variable independiente X son "fijos".


2. La variable X se mide sin error (se desprecia el error de medicin en X)
3. Existe una subpoblacion de valores Y normalmente distribuido para cada valor de
X.
4. Las variancias de las subpoblaciones de Y son todas iguales.
5. Todas las medias de las subpoblaciones de Y estn sobre la misma recta.
6. Los valores de Y estn nomalmente distribuidos y son estadsticamente
independientes.
Los supuestos del 3 al 6 equivalen a decir que los errores son aleatorios, que se
distribuyen normalmente con media cero y variancia .

Terminologia:

Promedios

y=
yi ; x = xi
n n

Sumas de cuadrados y productos de X e Y.


SCY = yi y 2 ; SCX = xi x 2
yi y
; SPXY = xi x

SCY tambien corresponde a la suma de cuadrados total = SC total

Estimacin de parmetros

La funcin de regresin lineal simple es expresado como:

Y = o + 1X +

la estimacin de parmetros consiste en determinar los parmetros o y 1 a partir de los


datos muestrales observados; es decir, deben hallarse valores como bo y b1 de la muestra,
que represente a o y 1, respectivamente.

Empleando el mtodo de los mnimos cuadrados, es decir minimizando la suma de


cuadrados de los errores, se determinan los valores de bo y b1, as:
Q
2

= ei = yi 0 1x 2
=y x
bo b1
spxy
b1 =
scx

b0 : es el valor que representa (estimador) a 0 constituye el intercepto cuando X=0;


b1 : es el valor que representa (estimador) a 1.

Sus desviaciones estandares respectivas son:

2
CMresidual. X i
Sb0 = Sb1 = CMresidual
n.SCX SCX

Luego, la ecuacin de regresin es: y = bo + b1X

El coeficiente de regresin (b1) .- pendiente de la recta de regresin, representa la tasa de


cambio de la respuesta Y al cambio de una unidad en X.

Si b1=0, se dice que no existe relacin lineal entre las dos variables.
Fuentes de variacin en la regresin lineal

Los clculos de regresin pueden ser vistos como un proceso de particin de la suma total
de cuadrados; as, grficamente se tiene:

) )
y y = y y + y y
i i i i
Se observa que la desviacin total para un Yi en particular es igual a la suma de las
desviaciones explicada e inexplicada, simbolicamente.

Luego:

2 ) 2 )2

yi y yi y yi yi
SC total = SC regresion + SC residual

Suma de Cuadrados del Total (SCT), mide la dispersin (variacin total) en los valores
observados de Y. Este trmino se utiliza para el clculo de la variancia de la muestra.

Suma de Cuadrados explicada (Suma de Cuadrados debido a la Regresin, SCR) mide la


variabilidad total en los valores observados de Y en consideracin a la relacin lineal
entre X e Y.
Suma de Cuadrados residual (inexplicada, Suma de Cuadrados del Error, SCE) mide la
dispersin de los valores Y observados respecto a la recta de regresin Y (es la cantidad
que se minimiza cuando se obtiene la recta de regresin).

Anlisis de Variancia para la regresin lineal simple

Cuando cada particin se asocia a una porcin correspondiente del total de grados de
libertad, la tcnica es conocida cono analisis de variancia (ANVA), que generalmente se
presenta en un cuadro de la siguiente forma:

Cuadro del ANVA.


Fuentes Grados de Suma de Cuadrados Cuadrados Medios Fc
Libertad (SC) (CM)
Regresion 1 b1.SPXY b1.SPXY CM(regresion)/
CM(residual)
Residual: Error n-2 Diferencia SC(residual) / (n-
2)
Total n-1 SC Y

La prueba estadstica F evalua las hiptesis:

Hp: 1 = 0. No existe una regresin lineal entre X e Y.


Ha: 1 0. Existe regresion lineal de Y en funcin de X.
Para el ejemplo del grafico (ao base 1990 = 0)

Aos (X) 0 1 2 3 4 5 6 7 8 9
Madera Aserrada (Y) 489.25 475.24 495.72 585.2 565.78 630.22 624.92 482.27 590.27 834.67

Gl SC CM F F0.05 Pr>F
Regression 1 49223 49223 6,9941 5,31 0,0295
Residual 8 56303 7037.8
Total 9 105526

Modelo de regresion estimado:

Total de Madera aserrada (miles de m3 ) = 467,42 + 24,42 X

X = El periodo.

R = (49223 / 105526) *100% = 46%

Intercepto = 467,42
Tasa = 24,42

Significa que el crecimiento anual es de 24 mil metros cubicos.

Intervalos de Confianza

Intervalos de confianza para 1 (tasa)

En muchos casos es de inters conocer entre que valores se encuentra el coeficiente de


regresin de la poblacin 1 para un cierto grado de confianza fijada, este procedimiento
permite hallar los valores llamados lmites de confianza, as:

b1 - t0 Sb1 1 b1 + to Sb1

donde: t0 es el valor "t" tabular al nivel de significacin y n-2 grados de libertad ( t0 =


t,n-2).

t 0.05, 8 = 2,30; SC X = 82.5; Sb1 = 9,23

Limite Inferior = 24,42 2,30 (9,23) = 3.12


Limite Superior = 24,42 + 2,30 (9,23) = 45,72

Con estos resultados se puede afirmar al 95% de confianza que la tasa de crecimiento en
madera aserrada es positiva y por lo menos se tendra un crecimiento de 3 mil metros
cubicos por ao.
En funcin del modelo se puede hacer estimaciones para los siguientes aos:

2000 711.7
2001 736.12
2002 760.55

Estas proyecciones son puntuales, en base al modelo; para ao 2000, X=10, resulta una
produccin de 711 mil m3 de madera aserrada.

Para obtener limites de confianza para estos valores predecidos, se debe determinar sus
desviaciones estandar correspondiente; utilice la siguiente formula:

2
S _ Pr edicho CMresidual 1 1 x0 x
n SCX

Limites : Valor Predicho (t0.05,n-2 ) (S_predicho)

Para el 2002, los limites de confianza son:

Limite Inferior = 760,55 2,30 (111,98) = 502


Limite Superior = 760,55 + 2,30 (111,98) = 1018
Esta informacin significa que para el ao 2002, se estima una produccion de madera
aserrada entre 502 a 1018 miles de m3.

Prueba de Hipotesis

Se plantea los siguientes casos:

a) Cuando 1 = 0; es decir, si la variable Y no esta relacionada linealmente con la


variable X. Esto equivale a plantear la hiptesis Hp: 1=0, y va una prueba F
comparar el valor de F calculado (Fc) con el valor F tabular (Fo), donde
Fc=CMR/CME y Fo=F(1,n-2)gl. Si Fc>Fo, se rechaza la hipteis planteada,
esto supone un valor 1 distinto de cero y se concluye que Y se puede expresar en
terminos de X linealmente.
b) Cuando 1 tiene un valor especfico distinto de cero 10; es decir, Hp: 1=10.
En este caso, para la prueba de esta hiptesis se usa el estadstico t de Student. El
valor t calculado es hallado mediante la expresin: tc = (b1-10)/Sb1

Si tc > t se rechaza la hiptesis planteada, donde t es el valor de la tabla al nivel


y n-2 gl.
Para el ejemplo planteado, se rechaza la hipotesis planteada, esto significa que existe una
relacin lineal significativa del tiempo y la produccin de madera aserrada total.

Analisis de Correlacion

El anlisis de correlacin emplea mtodos para medir la significacin del grado o


intensidad de asociacin entre dos o ms variables. El concepto de correlacin est
estrechamente vinculado al concepto de regresin, pues, para que una ecuacin de
regresin sea razonable los puntos muestrales deben estar ceidos a la ecuacin de
regresin; adems el coeficiente de correlacin debe ser:

- grande cuando el grado de asociacin es alto (cerca de +1 o -1, y pequeo cuando


es bajo, cerca de cero.
- independiente de las unidades en que se miden las variables.

Coeficiente de correlacion Lineal Simple ( r).

Es un nmero que indica el grado o intensidad de asociacin entre las variables X e Y. Su


valor vara entre -1 y +1; esto es:

-1 r 1.

Si r = -1, la asociacin es perfecta pero inversa; es decir, a valores altos de una variable le
corresponde valores bajos a la otra variable, y viceversa.

Si r=+1, tambin la asociacin es perfecta pero directa.

Si r=0, no existe asociacin entre las dos variables.

Luego puede verse que a medida que r se aproxime a -1 +1 la asociacin es mayor, y


cuando se aproxima a cero la asociacin disminuye o desaparece.

El coeficiente de correlacin est dada por:

SPXY
r
SCX.SCY

Para los datos de la produccin de madera aserrada total entre los aos 1990 a 1999,
existe una asociacin de 0.68.

2015,17
r 0.68
105525,8682,5
Coeficiente de Determinacion (R)
Mide el porcentaje de variacin en la variable respuesta, explicada por la variable
independiente.

De la descomposicin de la suma de cuadrados total, se obtuvo:

SCT = SCR + SCE

SCR = Suma de cuadrados de la regresin.


SCE = Suma de cuadrados residual (error).

dividiendo ambos miembros por la SCT, se tiene:

1 = SCR/SCT + SCE/SCT

de este resultado, se define el coeficiente de determinacion como:

R = 1 - SCE/SCT = SCR/SCT
R = SC regresion / SC total

Como SCR SCT, se deduce que 0 R 1.

Interpretacin de R:

Se interpreta como una medida de ajuste de los datos observados y proporciona el


porcentaje de la variacin total explicada por la regresin.

R es un valor positivo, expresado en porcentaje es menor de 100.

Tambien, se puede obtener el R ajustado que es la relacion entre cuadrados medios, asi:

R ajustado = 1 CME / CM Total;

Este valor podria ser negativo en algunos casos.

Lo que se espera que ambos R, resulten similares, para dar una confianza al coeficiente
de determinacin.

Para el ejemplo, resulta:

R ajustado = 1 70378 / (105526 / 9 ) = 0,39 y R = 1 56302,7 / 105525,86 = 0,46

FUENTE:
http://tarwi.lamolina.edu.pe/~fmendiburu/index-
filer/academic/metodos1/Regresion.pdf
EJERCICIOS:

1. Cinco nios de 2, 3, 5, 7 y 8 aos de edad pesan,


respectivamente, 14, 20, 32, 42 y 44 kilos.

Hallar la ecuacin de la recta de regresin de la edad sobre


el peso.
Cul sera el peso aproximado de un nio de seis aos?

xi yi xi2 yi2 xi yi

2 14 4 196 28

3 20 9 400 60

5 32 25 1 024 160

7 42 49 1 764 294

8 44 64 1 936 352

25 152 151 5 320 894


2. L as e statur as y pe so s de 1 0 jugado r e s de balo nce sto de un e quipo so n:
3. Un ce ntr o co me r cial sabe e n funci n de la distan cia, e n kil me tr o s, a la que se
site de un ncle o de po blaci n , acude n lo s clie nte s, e n cie nto s, que figur an en
la tabla:

Das könnte Ihnen auch gefallen