Sie sind auf Seite 1von 37

UNIVERSIDAD PRIVADA DE TACNA

FACULTAD DE INGENIERIA

ESCUELA PROFESIONAL DE INGENIERIA CIVIL

Dr. ELMER LIMACHE SANDOVAL
ASOCIACIN, COVARIANZA Y CORRELACIN
Medidas de Asociacin entre dos variables
Permiten conocer la relacin entre dos variables.
Se establece de 3 maneras, mediante:

Diagrama de dispersin (grfico)
Covariacin (Covarianza)
Correlacin (Coeficiente de Correlacin)
Diagrama de Dispersin
0
5
10
15
20
25
30
35
40
45
0 1 2 3 4 5 6
E
d
a
d
No. Atrasos
Diagrama de dispersin Edad vrs. Atrasos
4
Estudio conjunto de dos variables
A la derecha tenemos una posible manera de recoger los
datos obtenido observando dos variables en varios
individuos de una muestra.

En cada fila tenemos los datos de un individuo

Cada columna representa los valores que toma una variable
sobre los mismos.

Las individuos no se muestran en ningn orden particular.

Dichas observaciones pueden ser representadas en un
diagrama de dispersin (scatterplot). En ellos, cada
individuo es un punto cuyas coordenadas son los valores de
las variables.

Nuestro objetivo ser intentar reconocer a partir del mismo si
hay relacin entre las variables, de qu tipo, y si es posible
predecir el valor de una de ellas en funcin de la otra.
Altura
en cm.
Peso en
Kg.
162 61
154 60
180 78
158 62
171 66
169 60
166 54
176 84
163 68
... ...
5
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Diagramas de dispersin o nube de puntos
M
i
d
e

1
8
7

c
m
.

Mide 161 cm.
Pesa 76 kg.
Pesa 50 kg.
Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de dispersin.
Tema 3: Estadstica
bivariante
6 Bioestadstica. U.
Mlaga.
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Relacin entre variables.
Tenemos las alturas y los pesos de 30 individuos representados en un diagrama
de dispersin.
7
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Prediccin de una variable en funcin de la otra
Aparentemente el peso aumenta 10Kg por cada 10 cm de altura... o sea,
el peso aumenta en una unidad por cada unidad de altura.
10 cm.
10 kg.
8
Incorrelacin
30
80
130
180
230
280
330
140 150 160 170 180 190 200
Relacin directa e inversa
Fuerte relacin
directa.
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Cierta relacin
inversa
0
10
20
30
40
50
60
70
80
140 150 160 170 180 190 200
Para valores de X por encima de la media
tenemos valores de Y por encima y por debajo
en proporciones similares. No hay correlacin o
Incorrelacin.
Para los valores de X mayores que la media
le corresponden valores de Y menores. Esto
es correlacin inversa o decreciente o
negativa.
Para los valores de X mayores que la media le
corresponden valores de Y mayores tambin.

Para los valores de X menores que la media le
corresponden valores de Y menores tambin.

Esto se llama correlacin directa o positiva.
Covarianza
Es la variacin de dos variables simultneamente
( )( )
N
y x
y i x i
xy

o

=
Interpretacin: El signo seala el tipo de asociacin
o relacin, sin embargo no permite determinar con
exactitud del nivel de asociacin
( )( )
1

=
n
y y x x
s
i i
xy
poblacional
Muestral
La covarianza entre dos variables, S
xy
, nos indica si la posible
relacin entre dos variables es directa o inversa.

Directa: S
xy
>0
Inversa: S
xy
<0
Incorreladas: S
xy
=0

El signo de la covarianza nos dice si el aspecto de la nube de
puntos es creciente o no, pero no nos dice nada sobre el
grado de relacin entre las variables.

Coeficiente de Correlacin
Conocido tambin como el coeficiente de Person
Establece la asociacin o relacin entre los datos
Mide la Intensidad de la asociacin o relacin

y x
xy
xy
s s
s
y de x de
y x
r = =
) ( ) (
) , cov(
y x
xy
xy
y de x de
y x
o o
o
= =
) ( ) (
) , cov(
Poblacional
Muestral
Qu es el anlisis de
correlacin lineal ?
Es una herramienta estadstica que podemos usar para
describir el grado de asociacin lineal o correlacin
lineal entre las variables.
Estudia el hecho por el cual 2 variables marchan juntas
Tipos de Variables
Variable Independiente
(X)
(determinstica, es decir no
aleatoria.)
Variable Dependiente
(Y)
aleatoria
Ejemplos

X: Nmero de llamadas telefnicas realizadas por un vendedor promocionando un
producto.
Y: Unidades vendidas por el vendedor.

X: Tiempo que dedica un estudiante a una materia.
Y : Evaluacin que obtiene el estudiante en la materia.

Y: Temperatura => X: altura a nivel del mar.
Y: Incidencia de bocio => X: consumo de yodo
Para estudiar la correlacin, no es necesario que las variables tengan una
relacin de dependencia
La correlacin se estudia mediante:
- Los diagramas de dispersin.
- El coeficiente de correlacin de Pearson.

4. Calcular un coeficiente de correlacin lineal r a partir de la muestra,
como aproximacin de la verdadera relacin lineal (rho) entre las
variables.

( ) ( )( )
( ) ( ) | | ( ) ( ) | |




=
2
2
2
2
y y n x x n
y x xy n
r
1 1 s s r
Clculo del coeficiente de correlacin r de Pearson
Interpretacin:
1. El valor absoluto de r indica la fuerza de la relacin entre Y y X.
2. El signo la direccin de la relacin (directa o inversamente proporcional)
(tener cuidado con relaciones espreas)
r = 1 correlacin positiva perfecta.
r = -1 correlaccin negativa perfecta.
r = 0 no hay correlacin lineal entre Y y X.
Incorrelacin Correlacin
positiva
perfecta
Correlacin
negativa media
0 +1 -0.8 -0.4 +0.4 +0.8 -1
Correlacin
negativa
perfecta
Correlacin
positiva media
Correlacin
negativa alta
Correlacin
negativa baja
Correlacin
positiva alta
Correlacin
positiva baja
EJEMPLO: En un estudio de Relacin entre la publicidad por radio
y las ventas de un producto, durante 10 semanas se han
recopilado los tiempos de duracin en minutos de la publicidad por
semana (x) y el nmero de artculos vendidos (y) resultando.
SEMANA 1 2 3 4 5 6 7 8 9 10
PUBLICIDAD X 20 30 30 40 50 60 60 60 70 80
VENTAS Y 50 73 69 87 108 128 135 132 148 170

Nuestro propsito es averiguar si las variables tiempo y publicidad, y
el nmero de artculos vendidos estn mutuamente relacionados.

La publicidad estar relacionado con las ventas?
TRAZAMOS EL DIAGRAMA DE DISPERSIN
Ventas
Publicidad
20 40 60 80 100
200

150

100

50

0
Puede
apreciarse que
los puntos se
concentran
alrededor de
una lnea recta
imaginaria.

El sentido de la
recta indica
correlacin
POSITIVA
Haciendo los clculos para hallar r
X Y XY X
2
Y
2

20 50 1000 400 2500
30 73 2190 900 5329
30 69 2070 900 4761
40 87 3480 1600 7569
50 108 5400 2500 11664
60 128 7680 3600 16384
60 135 8100 3600 18225
60 132 7920 3600 17424
70 148 10360 4900 21904
80 170 13600 6400 28900
500 1100 61800 28400 134660

Sumatoria:
y x
xy
xy
s s
s
y de x de
y x
r = =
) ( ) (
) , cov(
998 , 0
83 , 68149
68000
136600 . 54000
68000
) 1100 ( ) 134660 ( 10 ) 500 ( ) 28400 ( 10
) 1100 )( 500 ( ) 61800 ( 10
2 2
= =
=


=
r
r
r
Calculo de r
Obsrvese que La covarianza es 68000. Un valor positivo indicndonos
que la asociacin entre stas dos variables es positiva.

Continuando con el anlisis se calcula r. Como r es cercano a 1, la
correlacin o asociacin entre X y Y es ALTA.

Por tanto, la correlacin o asociacin entre estas variables es ALTA
POSITIVA.
Para los siguientes datos Y (Ingresos anuales en miles de S/.) y
X (edad en aos) DE LA TABLA:

Persona Y X
1 27.8 22
2 28.5 23
3 30.0 26
4 35.0 27
5 36.4 35

Ejemplo con SPSS
COMANDOS SPSS PARA DIAGRAMA DE DISPERSIN

Graficos
Cuadro de dilogos antiguos

Dispersin/Puntos---- Dispersin Simple- Definir
Eje Y: Ingresos
Eje X: Edad
Aceptar

COMANDOS SPSS PARA CORRELACION
Analizar
Correlaciones -- Bivariadas
Variables: Ingresos (Y)
Edad (X)
Aceptar
Ejemplo 2:
En una ciudad, las personas al comprar casas se interesan por el costo de la
calefaccin. Se ha determinado que un grupo de factores pueden estar
relacionados con el costo (en dlares):

Temperatura exterior. (Grados Fahrenheit)
Aislante trmico en el desvn. (en pulgadas)
Antigedad del calefactor.
rea de la sala principal del apartamento. (en metros
cuadrados).
Un cliente le ha preguntado a un vendedor:
Si usted me brinda la informacin de las variables anteriores de un apartamento,
cmo puedo saber yo aproximadamente cuanto pagar en calefaccin?. Cuan
confiable ser la informacin que usted me brinde?
Estos son los datos para una muestra de 21 viviendas

Estos son los diagramas de dispersin de cada variable X (temperatura, aislante,
antigedad, rea) con la variable Y (costo).
Se aprecia de manera descriptiva el sentido y la intensidad de relacin entre las
variables.
Correlacin negativa
fuerte
Temperatura exterior
60,00 40,00 20,00 0,00
C
o
s
t
o
400,00
300,00
200,00
100,00
0,00
Correlacin negativa
dbil
Aislante trmico
12,00 10,00 8,00 6,00 4,00 2,00
C
o
s
t
o
400,00
300,00
200,00
100,00
0,00
Correlacin Directa
moderada
Antigedad del calefactor
14,00 12,00 10,00 8,00 6,00 4,00 2,00 0,00
C
o
s
t
o
400,00
300,00
200,00
100,00
0,00
Correlacin directa
fuerte
aunque se aprecia
una tendencia no
lineal
Area de la sala
20,00000 17,50000 15,00000 12,50000 10,00000 7,50000
C
o
s
t
o
400,00
300,00
200,00
100,00
0,00
Correlaciones
Costo Temp Aislant Antiged Area

Costo Correlacin de Pearson 1 -.812(**) -.257 .537(*) .991(**)
Sig. (bilateral) .000 .274 .015 .000
N 20 20 20 20 20

Temp Correlacin de Pearson -.812(**) 1 -.103 -.486(*) -.831(**)
Sig. (bilateral) .000 .666 .030 .000
N 20 20 20 20 20

Aislant Correlacin de Pearson -.257 -.103 1 .064 -.253
Sig. (bilateral) .274 .666 .790 .282
N 20 20 20 20 20

Antiged Correlacin de Pearson .537(*) -.486(*) .064 1 .482(*)
Sig. (bilateral) .015 .030 .790 .031
N 20 20 20 20 20

Area Correlacin de Pearson .991(**) -.831(**) -.253 .482(*) 1
Sig. (bilateral) .000 .000 .282 .031
N 20 20 20 20 20

** La correlacin es significativa al nivel 0,01 (bilateral).
* La correlacin es significante al nivel 0,05 (bilateral).
Temperatura.
Una correlacin de -0,812 indica alta correlacin, inversamente proporcional:
A mayor Temperatura exterior, menor el costo en calefaccin y viceversa.
Aislante.
La correlacin de 0,257 es baja, as que no existe relacin lineal entre las
variables.
Antigedad.
Una correlacin de 0,512; es moderada, directamente proporcional, a mayor
antigedad del calefactor, mayor costo y viceversa.
Tamao de la sala principal.
Una correlacin de 0,991; es alta y directamente proporcional: A mayor tamao
de la sala, mayor costo de la calefaccin
Interpretacin
5. Prueba de Hiptesis para analizar si las correlaciones son significativamente
diferentes de cero.

=
=
0 : H
0 : H
1
0

Las correlaciones que son significativas aparecen reflejados en el clculo de la


matriz de correlaciones
Costo
Costo
Temp -.812
Aislante -.257
Antigedad .537
Tamao .991
.444 critical value .05 (two-tail)
.561 critical value .01 (two-tail)
Esto quiere decir que la correlacin de -,812 entre Temperatura
y Costo y la de ,991 entre Tamao y Costo es significativa si
consideramos un nivel de confianza del 99% ( = 0,01) si
bajamos el nivel de confianza a un 95% ( = 0,05), tambin es
significativa la relacin de ,537 entre Antigedad y Costo.
Conclusin Parcial: Seleccionamos a las variables Temperatura y Tamao para continuar
el anlisis acerca del Costo.
En ambos casos el p_valor es 0.000 menor que el valor crtico, tanto al 0.05, como al
0.01).
Si p_valor < a se rechaza H0.
Entonces la correlacin es significativa, es decir,
diferente de cero.
36
Apreciaciones visuales: correlaciones positivas
r=0,1
30
80
130
180
230
280
330
140 150 160 170 180 190 200
r=0,4
30
40
50
60
70
80
90
100
110
120
130
140 150 160 170 180 190 200
r=0,8
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
r=0,99
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
37
Apreciaciones visuales: correlaciones negativas
r=-0,5
0
10
20
30
40
50
60
70
80
90
140 150 160 170 180 190 200
r=-0,7
0
10
20
30
40
50
60
70
80
140 150 160 170 180 190 200
r=-0,95
0
10
20
30
40
50
60
70
80
140 150 160 170 180 190 200
r=-0,999
0
10
20
30
40
50
60
70
80
140 150 160 170 180 190 200

Das könnte Ihnen auch gefallen