Beruflich Dokumente
Kultur Dokumente
de correlacin
lineal ?
Es una herramienta estadstica que podemos
usar para describir el grado de relacin
lineal entre las variables.
ANALISIS DE REGRESION LINEAL Y CORRELACION
Tipos de Variables
Variable
Independiente
(X)
(determinstica, es
decir no aleatoria.)
Variable
Dependiente
(Y)
aleatoria
Ejemplos
X: Nmero de llamadas telefnicas realizadas por un vendedor
promocionando un producto.
Y: Unidades vendidas por el vendedor.
X: Tiempo que dedica un estudiante a una materia.
Y : Evaluacin que obtiene el estudiante en la materia.
ANALISIS DE REGRESION LINEAL Y CORRELACION
Ejercicio Modelo
En una ciudad de Canad, las personas al comprar casas se interesan por
el precio del costo de la calefaccin. Se ha determinado que un grupo de
factores pueden estar relacionados con el costo ( en dlares):
Temperatura exterior. (Grados Fahrenheit)
Aislante trmico en el desvn. (en pulgadas)
Antigedad del calefactor.
rea de la sala principal del apartamento. (en metros cuadrados).
Un cliente le ha preguntado a un vendedor:
Si usted me brinda la informacin de las variables anteriores de un
apartamento, cmo puedo saber yo aproximadamente cuanto pagar en
calefaccin?. Cuan confiable ser la informacin que usted me brinde?
ANALISIS DE REGRESION LINEAL Y CORRELACION
Pasos en el Anlisis de Correlacin
1. Determinar cul es la variable dependiente. Y: Costo.
2. Seleccionar una muestra de tamao n de ambas variables X e Y, con lo
que se obtienen n pares de observaciones
(x1 , y1) , (x2 , y2) (xn , yn).
En nuestro ejemplo se tomo una muestra de 20 apartamentos. Se
midieron todas las variables independientes para cada uno de ellos.
ANALISIS DE REGRESION LINEAL Y CORRELACION
ANALISIS DE REGRESION LINEAL Y CORRELACION
3. Mostrar la relacin en un diagrama de dispersin: Grfico de X vs. Y.
Se aprecia de manera descriptiva el sentido y la intensidad de relacin
entre las variables.
Se realizaran los 4 grficos que corresponden a cada una de las variables
independientes consideradas.
ANALISIS DE REGRESION LINEAL Y CORRELACION
Temperatura Exterior vs. Costo
0
50
100
150
200
250
300
350
400
450
0 10 20 30 40 50 60 70
Temp
C
o
s
t
o
r = -0.812
Relacin Inversa
fuerte
ANALISIS DE REGRESION LINEAL Y CORRELACION
Aislante trmico vs. Costo.
0
50
100
150
200
250
300
350
400
450
0 2 4 6 8 10 12 14
Aislante
C
o
s
t
o
r = -0.257
Relacin Inversa
dbil
ANALISIS DE REGRESION LINEAL Y CORRELACION
Antiguedad del calefactor vs. Costo
0
50
100
150
200
250
300
350
400
450
0 5 10 15 20
Antiguedad
C
o
s
t
o
r =0,512
Relacin Directa
moderada
ANALISIS DE REGRESION LINEAL Y CORRELACION
Tamao sala vs. Costo
0
50
100
150
200
250
300
350
400
450
0 5 10 15 20 25
Tamao
C
o
s
t
o
r = 0.991
Relacin directa
fuerte
aunque se
aprecia una
tendencia no
lineal
ANALISIS DE REGRESION LINEAL Y CORRELACION
4. Calcular un coeficiente de correlacin lineal r a partir de la muestra,
como aproximacin de la verdadera relacin lineal (rho) entre las
variables.
( ) ( )( )
( ) ( ) | | ( ) ( ) | |
=
2
2
2
2
y y n x x n
y x xy n
r
1 1 + s s r
ANALISIS DE REGRESION LINEAL Y CORRELACION
Interpretacin:
1. El valor absoluto de r indica la fuerza de la relacin entre Y y X.
2. El signo la direccin de la relacin (directa o inversamente proporcional)
(tener cuidado con relaciones espreas)
r = 1 correlacin positiva perfecta.
r = -1 correlacin negativa perfecta.
r = 0 no hay relacin lineal entre Y y X.
ANALISIS DE REGRESION LINEAL Y CORRELACION
Si hay presencia de varias variables independientes, entonces podemos
agrupar todas las correlaciones en la Matriz de Correlaciones.
ANALISIS DE REGRESION LINEAL Y CORRELACION
Costo Temp Aislante Antigedad
Costo
1.00
Temp
-.812 1.00
Aislante
-.257 -.103
1.00
Antigedad
.537 -.486
.064
1.00
Tamao .991 -.831 -.253 .482 1.000
Interpretacin de las Correlaciones lineales e Identificacin de las
Variables independientes con mayor correlacin lineal.
ANALISIS DE REGRESION LINEAL Y CORRELACION
Temperatura.
Una correlacin de -0,812 indica alta correlacin, inversamente proporcional:
A mayor Temperatura exterior, menor el costo en calefaccin y viceversa.
Aislante.
La correlacin de 0,257 es baja, as que no existe relacin lineal entre las
variables.
Antigedad.
Una correlacin de 0,512; es moderada, directamente proporcional, a mayor
antigedad del calefactor, mayor costo y viceversa.
Tamao de la sala principal.
Una correlacin de 0,991; es alta y directamente proporcional: A mayor tamao
de la sala, mayor costo de la calefaccin
ANALISIS DE REGRESION LINEAL Y CORRELACION
Las correlaciones que son significativas aparecen reflejados en el
clculo de la matriz de correlaciones
Costo
Costo 1.000
Temp -.812
Aislante -.257
Antigeda
d .537
Tamao .991
Esto quiere decir que la correlacin de -,812 entre
Temperatura y Costo y la de ,991 entre Tamao y
Costo es significativa
ANALISIS DE REGRESION LINEAL Y CORRELACION
ANALISIS DE REGRESION LINEAL Y CORRELACION
CONCLUSION PARCIAL
Seleccionamos a las variables
Temperatura y Tamao para
continuar el anlisis acerca del
Costo.
Qu es el anlisis
de regresin lineal
?
Es modelar la dependencia de la variable Y
de la variable X a travs de una recta
ANALISIS DE REGRESION LINEAL Y CORRELACION
a. Clculo de la recta de regresin que expresa la relacin entre:
Temperatura y Costo.
X Y
1 0
+ + = | |
0 y 1 parmetros ; error aleatorio.
0 y 1 son estimados a partir de la muestra
obteniendo la recta
Y = b0 + b1X + e
Constante de
regresin
Coeficiente de
regresin
Interpretacin de la pendiente:
Cunto cambia la variable dependiente Y, por cada unidad que vare la
variable independiente X.
ANALISIS DE REGRESION LINEAL Y CORRELACION
Estimacin de los parmetros: Mtodo de los mnimos cuadrados.
La recta de regresin hace mnimos los cuadrados de las distancias verticales
desde cada punto de una observacin a la recta.
Yi es un valor observado real de la variable Y
es un valor de la recta predicho por la ecuacin
i
Y
min ) Y (Y
2
i i
=
min es el nmero ms pequeo que se puede
obtener si se suman estas desviaciones
verticales elevadas al cuadrado entre los
puntos y la recta.
i i
Y Y
=
x a y b
1 0
=
ANALISIS DE REGRESION LINEAL Y CORRELACION
r 0.659
Adjusted r 0.640
r -0.812
Std. Error 63.553
20 observations
1 predictor variable
Costo is the dependent variable
ANALISIS DE REGRESION LINEAL Y CORRELACION
Salida
ANOVA table
Source SS df MS F p-value
Regression 140,214.9411 1 140,214.9411 34.72 1.41E-05
Residual 72,700.8089 18 4,038.9338
Total 212,915.7500 19
Regression output
confidence interval
variables coefficients std. error t (df=18) p-value 95% lower 95% upper
intercept 388.8020 34.2408 11.355 1.22E-09 316.8646 460.7393
Temp -4.9342 0.8374 -5.892 1.41E-05 -6.6936 -3.1748
ANALISIS DE REGRESION LINEAL Y CORRELACION
Recta de regresin estimada
Esta es la ecuacin de la recta de regresin pintada en el diagrama
de dispersin, que fue mostrada anteriormente
Note que la pendiente -4.9342 tiene signo negativo, lo cual refleja que la
relacin es inversa, anlogo al signo del coeficiente de correlacin
(-.812).
El valor de la pendiente significa que por cada grado que descienda la
temperatura exterior habr un aumento promedio de 5 dlares en el
costo de la calefaccin.
4,9342X - 388,8020 Y
=
ANALISIS DE REGRESION LINEAL Y CORRELACION
b. Clculo del error estndar de la estimacin
Mide la variabilidad o dispersin de los valores observados alrededor
de la lnea de regresin.
( )
1 - k - n
Y
Y
Se
2
x sobre y
=
Si se trabaja con una recta, se puede calcular el error mediante
2 n
xy a y a y
Se
1 0
2
x sobre y
=
Mientras ms grande sea el error estndar de la estimacin, mayor ser la
dispersin de los puntos alrededor de la lnea de regresin
En nuestro ejemplo el error estndar de estimacin que se comete al usar la
recta para estimar el costo es de 63,553 $
ANALISIS DE REGRESION LINEAL Y CORRELACION
c. Clculo del Coeficiente de Determinacin
Mide el poder explicativo del modelo de regresin, es decir, la
parte de la variacin de Y explicada por la variacin de X
El valor de r
2
ha de estar entre 0 y 1, si r
2
= 0,70 significa que el 70%
de la variacin de Y est explicada por las variaciones de X. Es
evidente que cuanto mayor sea r
2
, mayor poder explicativo tendr
nuestro modelo.
En nuestro ejemplo
Si analizamos el valor del coeficiente de determinacin r = 0.659,
apreciamos que aproximadamente el 66% de la variabilidad del
costo esta determinado por la variabilidad en la Temperatura
exterior.
ANALISIS DE REGRESION LINEAL Y CORRELACION
d. Prueba de Hiptesis para analizar si la pendiente es significativa
=
=
0 : H
0 : H
1 1
1 0
|
|
Para tomar una decisin podemos comparar el valor de un estadstico con
un percentil, o utilizar un criterio equivalente, usado en los paquetes de
Estadstica: Comparar el p-valor con el nivel de significacin
Regla de Decisin: Rechazar Ho si p <
En el ejemplo p = 1.41E-05 < 0.05, as que rechazamos H
0
por lo que el
valor de la pendiente es significativamente diferente de cero.
Conclusin: La relacin entre la Temperatura Exterior y el Costo es
significativa.
ANALISIS DE REGRESION LINEAL Y CORRELACION
e. Predicciones
e.1) Clculo de una prediccin puntual.
Suponga que se desea un estimador puntual del costo de un
apartamento, si la temperatura exterior es de 35 grados
Sol: Sustitucin del valor de x = 35, en la ecuacin de la recta para
obtener un valor y
05 , 216 y
35 * 4,9342 - 8,8020 y
4,9342x - 8,8020 y
=
=
=
e.2) Clculo de un intervalo de Prediccin
Se desea calcular una estimacin por intervalo con un nivel del confianza
del 95% para el apartamento especfico en un da considerado con
temperatura de 35 grados. Aqu calculamos un intervalo de prediccin.
ANALISIS DE REGRESION LINEAL Y CORRELACION
p
S n t Y * ) 2 (
2 / 1
o
( )
2
2
2
0
e p
x n x
x x
n
1
1 S S
+ + =