Beruflich Dokumente
Kultur Dokumente
TEMA 6
CORRELACIN
CURSO 2003-2004
Primer Curso
Diplomatura en Ciencias Empresariales
PROFESORES:
David Castilla Espino
Encarnacin Cordn Lagares
Concepcin Corts Rodrguez
Ramn Jimnez Toribio
Germn Prez Morales
Pg.
11
14
16
6.1. INTRODUCCIN
Cuando se estudian dos variables (X,Y) o tres variables (X,Y,Z) es importante obtener
una medida de la dependencia o medida de la relacin entre esas variables.
Para estudiar y medir esta relacin, el primer paso consistir en recoger los datos que
muestren los correspondientes valores de las variables consideradas y en representarlas
despus mediante un diagrama de dispersin o ms sencillamente nube de puntos, como
estudiamos en el tema 3. Esta representacin grfica es la que ms se utiliza en el estudio de
la dependencia de dos o tres variables, y son tiles como anlisis previo a la ejecucin de
procedimientos de correlacin y regresin.
Ms tarde, estudiaremos la regresin entre dos variables que se refiere a hallar una
frmula o ecuacin que represente la relacin aproximada entre esas dos variables.
6.2.CORRELACIONES BIVARIADAS
El procedimiento Correlaciones bivariadas de SPSS permite medir el grado de
dependencia existente entre dos o ms variables mediante la cuantificacin por los
denominados coeficientes de correlacin lineal de Pearson, de Spearman y la Tau-b de
Kendall con sus respectivos niveles de significacin.
Antes del clculo de un coeficiente de correlacin, inspeccionaremos los datos con el
fin de detectar valores atpicos que puedan producir resultados equvocos.
Para la obtencin de correlaciones bivariadas abriremos el archivo TTERRENO.SAV y
procederemos como expresamos a continuacin:
Elija en los mens:
Una vez seleccionadas estas opciones, aparecer el cuadro de dilogo que presentamos a
continuacin:
Introducimos en el recuadro de variables aquellas sobre las que vamos a cuantificar los
coeficientes de correlacin. Resulta obvio que al tratarse del clculo de correlaciones, se
debern introducir al menos dos variables.
Ejemplo: (Archivo TTERRENO.SAV)
a) Calcula la relacin existente entre las variables PVP y CONSURB.
b) Representa la dispersin simple de las variables anteriores.
c) Repite el apartado anterior estableciendo marcas segn la variable CILINDRO y
etiquetando los casos mediante la variable MODELO.
NOTA:
Para
las
variables
cuantitativas
normalmente
distribuidas,
seleccionaremos el
SXY
r =
=
S X SY
(x
i =1 j =1
)(
x y j y nij ( N 1)
SX SY
- 1 r 1
Puede ocurrir que dos variables estn perfectamente relacionadas y que la relacin no
sea de tipo lineal. En este caso diremos que, el coeficiente de correlacin de Pearson no es un
estadstico adecuado para medir su grado de asociacin.
Tras la especificacin de los coeficientes de correlacin que estimemos oportuno
calcular, procederemos a indicar si queremos que se realice una prueba de significacin
contraste de hiptesis de tipo bilateral (de dos colas) o de tipo unilateral2 para casos en los que
la direccin de la relacin puede ser especificada a priori.
Este contraste, trata de probar la hiptesis de que el coeficiente de correlacin sea nulo
(r =0), esto es, que no exista relacin alguna entre las variables cuyo coeficiente de
correlacin estamos cuantificando. El contraste de hiptesis al que hacamos referencia en el
prrafo anterior utiliza como estadstico de contraste a t, el cual se distribuye segn una
funcin de probabilidad t - Student3 con N-2 grados de libertad siempre y cuando las variables
cuya correlacin se mide, se distribuyan normalmente.
Obsrvese que en el tema 7 de teora se utiliz el nmero total de observaciones, N, en lugar de N-1.
Un contraste de hiptesis es un test que se utiliza para contrastar dos hiptesis.
3
Una distribucin t de Student se puede definir en trminos de una distribucin normal y una
independientes. Sean Z~N(0,1) y V~r donde Z y V son ambas independientemente. Entonces,
2
t=
z
~ tr
V
r
6
t =r
N 2
tN2
1 r 2
PVP
Correlacin de Pearson
Sig. (bilateral)
N
Nmero de cilindros
Correlacin de Pearson
Sig. (bilateral)
N
Cilindrada (cm cbicos) Correlacin de Pearson
Sig. (bilateral)
N
Potencia (CV)
Correlacin de Pearson
Sig. (bilateral)
N
Nmero de
Cilindrada
Potencia
PVP
cilindros
(cm cbicos)
(CV)
1,000
,641**
,696**
,731**
,
,000
,000
,000
125
125
125
125
,641**
1,000
,703**
,730**
,000
,
,000
,000
125
125
125
125
,696**
,703**
1,000
,752**
,000
,000
,
,000
125
125
125
125
,731**
,730**
,752**
1,000
,000
,000
,000
,
125
125
125
125
Esta salida consiste en una matriz de tipo simtrica que toma valores unitarios en la
diagonal. Se muestra el coeficiente de correlacin seleccionado (r) para cada par de variables,
la significacin del contraste realizado (p), de modo que cuanto menor sea su valor ms fiable
ser el dato arrojado por el coeficiente de correlacin seleccionado, y el nmero de casos no
perdidos considerados (N).
PVP
Potencia (CV)
Medias y desviaciones tpicas Si elegimos esta opcin, SPSS calcula para cada una
de las variables que se han introducido en el cuadro de variables la media y la
desviacin tpica. Tambin se muestra el nmero de casos que no tienen valores
perdidos.
Si seleccionamos esta opcin y ejecutamos el procedimiento, la salida que nos muestra
PVP
Nmero de cilindros
Cilindrada (cm cbicos)
Potencia (CV)
Desviacin
tpica
1937790,98
1,02
691,51
37,57
N
125
125
125
125
(x
S XY =
i =1 j =1
)(
x y j y nij
N 1
Correlaciones
PVP
1,000
,
PVP
Nmero de
Cilindrada (cm
cilindros
cbicos)
,641**
,696**
,000
,000
Potencia
(CV)
,731**
,000
Correlacin de Pearson
Sig. (bilateral)
Suma de cuadrados y
4,656E+14 156546736,78
1,1562E+11 6600662211
productos cruzados
Covarianza
3,755E+12
1262473,684 932382471,697 53231146,86
N
125
125
125
125
Nmero de cilindros
Correlacin de Pearson
,641**
1,000
,703**
,730**
Sig. (bilateral)
,000
,
,000
,000
Suma de cuadrados y
156546737
128,192
61247,616
3460,080
productos cruzados
Covarianza
1262473,7
1,034
493,932
27,904
N
125
125
125
125
Cilindrada (cm cbicos) Correlacin de Pearson
,696**
,703**
1,000
,752**
Sig. (bilateral)
,000
,000
,
,000
Suma de cuadrados y
1,156E+11
61247,616 59294268,768 2421548,840
productos cruzados
Covarianza
932382472
493,932
478179,587
19528,620
N
125
125
125
125
Potencia (CV)
Correlacin de Pearson
,731**
,730**
,752**
1,000
Sig. (bilateral)
,000
,000
,000
,
Suma de cuadrados y
6,601E+09
3460,080
2421548,840
175027,200
productos cruzados
Covarianza
53231147
27,904
19528,620
1411,510
N
125
125
125
125
**. La correlacin es significativa al nivel 0,01 (bilateral).
De otra parte, en relacin con los valores perdidos se pueden seleccionar las siguientes
opciones:
Excluir casos segn pareja Se excluyen del anlisis los casos (o filas) con valores
perdidos para una o ambas variables de una pareja (X,Y) que forma un coeficiente de
correlacin. Debido a que cada coeficiente est basado en todos los casos que tienen
cdigos vlidos para esa pareja concreta de variables, en cada clculo se utiliza la
mayor cantidad de informacin disponible. Esto puede dar como resultado un grupo de
coeficientes basados en un nmero de casos variables.
Excluir casos segn lista Se excluyen de todas las correlaciones los casos con
valores perdidos para cualquieras de las variables de la lista.
10
6.3.CORRELACIONES PARCIALES
Este tipo de coeficientes de correlacin describe la relacin lineal existente entre dos
variables sin tener en cuenta los efectos o influencias de una o ms variables adicionales, con
el objeto, bien de identificar la existencia de posibles variables interpuestas, o de
correlaciones neutralizadas por el efecto de estas variables.
Por tanto, puede ocurrir que dos variables estn perfectamente relacionadas pero si la
relacin entre ellas no es lineal, entonces el coeficiente de correlacin no ser un estadstico
adecuado para medir su asociacin.
Para la obtencin de correlaciones parciales en SPSS, procederemos como sigue a
continuacin:
Elija en los mens:
Una vez seleccionadas estas opciones, aparecer el cuadro de dilogo que presentamos a
continuacin:
11
Al igual que ocurra con el cuadro de dilogo del comando Correlaciones bivariadas el
cuadro Correlaciones Parciales presenta un formato similar al del resto de cuadros de dilogo
que posee el paquete SPSS, de modo que lo que tendremos que hacer en primera instancia, es
introducir en el recuadro de variables elegidas para el anlisis aquellas sobre las que vamos a
cuantificar los coeficientes de correlacin parcial. Resulta obvio que al tratarse del clculo de
correlaciones, se debern introducir al menos dos variables.
Una vez seleccionadas aquellas variables cuyos coeficientes de correlacin vamos a
cuantificar, deberemos introducir aquella variable o variables de control que estimemos
conveniente, con el objeto de eliminar su efecto en la correlacin de las variables introducidas
en el recuadro de variables.
Este contraste, trata de probar la hiptesis de que el coeficiente de correlacin sea nulo,
esto es, que no exista relacin alguna entre las variables cuyo coeficiente de correlacin
estamos cuantificando; no obstante, a diferencia del caso de correlacin bivariada, el
estadstico de contraste usado en correlacin parcial es el que expresamos a continuacin:
t =r
N 2
t N 2
1 r 2
12
Corr. parciales
- - - -
P A R T I A L
Controlling for..
C O R R E L A T I O N
C O E F F I C I E N T S
POTENCIA
PVP
CONSURB
PVP
1.0000
(
0)
P= .
-.1647
( 115)
P= .076
CONSURB
-.1647
( 115)
P= .076
1.0000
(
0)
P= .
13
Si pulsamos en el botn Opciones del cuadro de dilogo, SPSS nos ofrece la posibilidad
de calcular los mismos estadsticos que el procedimiento de correlaciones bivariadas, adems
de las correlaciones de orden = 0, es decir, de los coeficientes de correlacin ordinarios, sin
variable de control.
6.4.EJERCICIOS
6.4.1. Utilizando el archivo TTERRENO.sav, se pide:
a) Calcula la relacin entre las variables que representan las CILINDRADAS (en cm
cbicos), la POTENCIA (en CV) y el CONSUMO a 120 km/h, a travs del coeficiente
de correlacin lineal.
b) Calcula la relacin entre las variables que representan las CILINDRADAS (en cm
cbicos) y la POTENCIA (en CV) controlado por la variable CONSUMO a 120 km.
c) Interpreta el coeficiente de correlacin lineal en ambos casos.
d) Representa grficamente la dispersin matricial de las 3 variables anteriores.
Completar la siguiente tabla para las tres variables utilizando primero la opcin en relacin
con los valores perdidos de excluir casos segn pareja y posteriormente excluir casos segn
lista.
SEGN PAREJA
SEGN LISTA
VARIABLE
SUJETOS
MEDIA
DESV. TP.
SUJETOS
MEDIA
DESV. TP.
b1
c1
c3
VARIABLES
ESTADSTICOS
SEGN PAREJA
SEGN LISTA
r de Pearson
b1 c1
N
p grado de significacin
r de Pearson
b1 c3
N
p grado de significacin
r de Pearson
c1 c3
N
p grado de significacin
15
Intenta buscar las diferencias entre ambas opciones utilizadas y dar una explicacin a
las mismas.
6.4.4.
6.5.BIBLIOGRAFA
CAMACHO ROSALES, J., (2002), Estadstica con SPSS para Windows (versin 11),
Rama, Madrid.
MARTN PLIEGO, F.J., (1994), Introduccin a la Estadstica Econmica y Empresarial
(Teora y Prctica), AC, Madrid.
PALMER POL, A.L., (1999), Anlisis de Datos. Etapa Exploratoria, Psicologa,
Pirmide, Madrid.
PREZ LPEZ, C., (2002), Estadstica aplicada a travs de Excel, Prentice Hall, Madrid.
SPSS INC., (1999), Manual del Usuario de SPSS Base 10.0, SPSS, Chicago.
VISAUTA VINACUA, B., (2002), Anlisis Estadstico con SPSS para Windows, volumen
I, Estadstica Bsica, 2 Edicin, McGraw-Hill, Madrid.
16