Sie sind auf Seite 1von 58

ca pítulo 7

CORRELACION. COEFICIEN T E r D E
PEARSON /"' . .
¡l ~,~xk!o S ~ -\--0 S1-!i.+-t- e~ Qf\l \:,:) d~
\-J .U . YBWVlf~ f F, ttV ~~h
f J ~ {Aa {G, \Lf fV'N"c a I t q é} 3.
H-4 Qq/PGqlj
'23 q '2.- \ 'B

En esencia, la correlación es una medida de .la relación entre dos variables.


Si observamos algunos de los entes que medimos, veremos, po r ejemplo , que
a calificaci ones altas en inglés, le suelen corresponder calificaciones altas en
otros idiomas. Y a su vez, a c,,-lificaciones altas en esta s disciplinas suele
corresponder una elevada puntu ación en los tests de inteligencia. En el cam­
po físico, las perso nas altas tienden a ser más fuertes que la s bajas. E l vo­
lumen d e un gas está relacionado con la presión. En el campo de la eco­
nomia existe una correlació n entre bs precios de ven ta de los productos y
la cantidad disponible en almacén . De la misma forma, en otros aspectos
de la vida, existe n relaciones d e un<. u otra clase. Se d ebe observar que estas
relaciones no impiican necesariamente que uua de las variables sea la causa
de la o tra. Puede ser ciert o o :10. En algunos casos, dos vari ables están rela­
cio nadas porq ue ambas lo están a una tercera o so n causa de ella.
El valor del coeficiente de correlació n de Pearson (r ) varía desde + 1
h asta - 1, pasando por O: La iT1ayor parte de los coefidentes d e correlación
indica n dos cosas. Primero. expresan la cuantía de la relación. M erece la
pena hat::e r un paréntesis p~ra obse rvar que una correlación de coeficiente
igual a -0,88 tiene el mism o valor que ua2, d e coeficiente + 0,88. El signo
no tiene que ver con la cuan tía de la relación; solo proporciona información
ace rca del sentid o de la relac ión . Si el coeficiente de correlaciém de dos va­
,'iabies es positi vo, al aumentar una de ellas también lo hace la otra. Las
puntuacio nes según un test d e in teligencia están relacionadas positivamente
con las calificaciones aci,tdé micas. E n general, a ' mayor puntuació,~ en el
test de inteiigencia, más altas suelen ser las calificaciones d e estudios. Otras
variables, por el contrario. están relacion adas en sentido in ve rso. Ello qui ere
d ecir que a medida que a umenta una de ellas disminu ye el valo r de ia otra.
Pen semos po r un momento el] la reiación ent re la velocidad d e un a Ul omóvil
en un a ma rcha corta y el número de kilómetros que cubre por litro de com­
bustible. A mayor velocidad , menos trayecto se recorre con un li t ro de gaso­
lina . La aus-;- ncia total de relació n e ntre d os va riables (indepe ndencia ) se
especifica por un coeficien te de correlación igual a 0,00.

RELAC ION POS ITIVA PERFECTA. La Fig. 7.1 muestra una re~c ión lineal en tre
dos variables. Observemos cómo se ha constru id o. En (;1 eje de abscisas se
llevan los valores de X y en el de ordenadas los valores d e Y. Cada pun to
de la gráfica representa , po r ejemplo , las puntua.ciones de un individuo en
100
CORRElACION. COEFICIENTE r DE PEARSON 101

10

9
X Y 8
--
I
20 10

18 9 7

16 8

14 7

I
6
12 6

10
8
5

4
Y 5 I
6 3

4 2
4

~ 1

3
I
2

o 2 4 6 8 10 12 14 16 18 20
X

Fig. 7.1. Relación perfecta de coeficiente positivo.

x y en Y. Una gráfica de doble entrad a , como ésta , se llama diagrama de


dispersióll, () nube de puntos, y una distribución de dos variables, es decir,
de dos caracteres, se 1lama distribución bidimen sional. Siempre que se trate
de hallar un coeficiente de correlación deberá realizarse la nube de puntos,
representación previa a la técnica de cálculo a utilizar. Su importancia se
verá más adelant e. Volviend o a la Fig. 7.1, obsérvese que a una variación
de dos unidades en la variabie X correspo nde una variación del mismo sen­
tido, pero de una unidad en la variable Y. Esto es cierto , en el caso consi­
derado , para todo par de valores de las variables. Al representar pares de
valores como éstos, resultan todos los puntos en una r ecta; si la recta se
eleva de izquierda a derech a en el diagrama, el coeficiente de correlación
es positivo y la relación es perfecta. En estas condiciones, el coeficiente de
correlación es igual a + 1,00 Y la correlación es funcional.

RELA CION NEGATIVA PERFECTA. La Fig. 7.2 representa el caso opuesto al


anterior. Obsérvese que, para estos datos, a un aumento de dos unidades
en la variable X corresponde UIla disminución de una unidad en la variable Y.
Esta característica se mantiene en tod o el recorrido. Los puntos de la nube
también ¡;e en c uentran en una recta. pero su inclinación es ta l que descÍ<::noe
de izquierda a derecha en el diagrama. Es un ejemplo , entonces, de una re­
lación perfecta d e coeficiente negativo de valor igual a - 1,00 Y la correlación
es funcional. A la puntuació n más alta e n la variable X le corres ponde la
puntuación má s baja en la variable Y . A la segund a puntuación más alta
en X le correspondf' la segunda más baja en Y, y así sucesivamente, has ta
llegar a que la puntuació n más baja en X se corresponde con la más alta en Y.

OTP.AS RELACIONES . En la vida real existen con, frecu encia situacion es en las
cuales la relación no es perfecta o funcional. La Fig. 7.3 muestra la nube de
pu ntos con un coeficiente de correlació n positivo y muy alto. Obsérvese
t

102 METODOS ESTADISTICOS APlICA.DOS

10

8
X Y 7

20 O

18 I 6

16 2

14 3 Y 5

12 4

10 5 4

8 6

6 7
3

4 8

2 9
2
fl

,..

O 2 4 6 B 10 12 14 16 la 20
X
Fig. 7.2. Relación perfecta de coeficiente negativo .

que , a pé'sar de qu e los puntos no están alineados, la recta es paten te . En


la Fig. 7. 4 se ti e:nc la representación gráfica de una relació n ne.gativa de coe­
fici ente de correlación hajo. So bre el diagr ama, los puntos aparecen más o
menos dispersos en el plano . Sin em bargo , existe UTla ligera tendencia d e los
puntos en el sentid o d e la parte supe:rior izquierda a la .inferior derecha.
En el caso d e que la nube de puntos del diagrama se halle dispersada p or
igual en tod as direcciones, la ausencia de relación es evidente; se tra ta de
vari ables independientes.

20
r i i

r
=-1=H
r

I
I !
18
X Y
16
20 12
1B 16 14 . I

t--rli
16 10

---1.-1-1=1 t­ , r-I
15 14 12
14 12
12 10 l' ID
12 9 I
lO 8 I
B ~r---- 1-­
I I
-t----<
"
r
B 7
5 2
6

2 ~
o 2
i
4 6
LITr
8 10 12 14
I
16
..
I
18
I
20
X
F ig. 7.3. Rel ació n posit; va d e coe ficiente a lto (0.87).
CORRELACION. COEFICIENTE r DE PEARSON 103

10

9
,I
X Y 8

20 4

18 8 7

I
16
I
14 5
6
12 2

10 10
Y 5

8 4

6 4
4
4 10
,

2 6 3

I
O 2 4 6 8 10 12 14 16 18 20
X
Fig. 7.4. Relación negativa de coeficiente bajo (-0,31).

Observando las representaciones gráficas de la nuhe de puntos se deduce


el signo de la relación y se puede estimar la cuantía del coeficiente de co­
rrelación. Con ello se tiene una comprobación a «grosso modo» de los cálcu­
los que 1uego se realiceIJ.

CONDICIONES EN LA INTERPRETACION DEL COEFICIENTE DE..,¡;;QRRELACION r DE


PEARSON. Antes de calcular el coeficiente de corre];¡.ción ~Pearson se

10
11 I I
+~
Ir·
9
I
X Y 8 ~I-
10 7

8
9 2
3

lit +L
t--~t-j
6

~J---l
7 4
6 4.5 Y .~
5 4.5

1 Ic--<jlI ,¡, I
4 4
4
I '
+-~ p- -
3 3
2 2 3
I
1

I
2 .~

o
1~11
2 3 4
¡=U -+
5 6 7
I
,

8 9 10
X
Fig. 7.5. Ejemplo de regresión curvilínea.
104 M ETODOS ESTADISTlCOS APLICADOS

debería examinar la gráfica de la nube de puntos, comprobar en ella la vera­


cidad de los datos y ver si se cumplen dos condiciones. La primera es si existe
una regresió n lineal. Quiere decirse, si los puntos de la nube tiend en a agru­
parse en una línea recta. Es lo que ocurre con los datos de las Figs. 7.1,7.2
y 7.3. Sin embargo, fijémonos en la Fig. 7.5. Al aumentar de izqlJierda a
. derechq la variable X, tambié"n lo hace Yal principio , pero a partir de cierto
valor de X la variable Y comienza a disminuir. Este modelo de relación se
llama regresión curvilínea. Táles relaciones no son raras en mod o alguno.
Consideremos muchas de las capacidades motoras de nuestro organismo.
Un niño conforme va creciendo puede correr cada vez más de prisa hasta
alcanzar su mayoría, en que entra en un periodo en el cual no hace poste­
rio res progresos y, finalmente, en la madurez, disminuye la velocidad al
correr.
Un a descripción más fiel de la regresión lineal es que las medias de las
columnas y de las filas se encuentren sobre una recta . Supongamos una dis­
tribución bidimensional en un cuadro de doble entrada, X e Y, en filas y
columnas. Es posible hallar las medias de y , de cada columna, es decir,
para cada ,X, y represen tarlas en un diagrama. Si existe regresión lineal ,
estas medias se ajustarán a un a recta. Análogamente, se podrían calcular
las medias de X, d e cada fila , es decir, para cada Y , y representarse luego en
el mismo diagrama. Se obtiene otra recta si existe regresión lineal. Resultan
entonces do s rectas de regre5ión, excepto cuando r = 0 1,00 qu e coinciden .
Las rectas de regresión se estudianí n en el Capítulo 9.
En la medida en que los datos se alejan de una recta , el valer calculado
de r es más pequeño. La cua ntía de r refleja la varianza (medida de dispersión)
estimada medíante una rect.a sobre si los datos son esencialmente lineaies
o no. Es posible que un a relación muy alta, pero no lineal, parezca muy
baja adoptando como crit erio el coeficiente de correlación r de PearsoD.
Sin em bargo, si un a relación bidimensional es, a priori, curvilínea, puede
utilizarse el coeficiente e ta, o razón de correlaciones. Este coeficiente refleja
la varianza estimad a mediantt~ la línea de ajuste óptimo , ya sea curva o recta.
El coeficiente ela se estudi ará en el Capítulo 16.
La segunda condición es la homocedasticidad. Quiere decir si las des­
viaciones típicas (o las vananzas) de las ordenaciones (filas y columnas)
tienden a ser iguales . En la Fig. 7.6 se muestran tres dist ribuciones. En (a),
ia variaríza de las columnas próximas al cent ro de la di stribución de X ~ s me­

¡------?l

%, [
L--_/:_ _ 1

(a) (b) (e)


Fig.7.6. Los diagramas (él/ y (b) t..:arece n d e homocedGlstlc iclad . El diagrét lTI a (e) pres:::nta ho ­
m ocedaslicidad y regresión lin ea l.
CORRELACION_ COEFICIENTE r DE PEARSON
1,
105

¡
nor que la de otras columnas_ En el diagrama (b), la s column a s de la iz­

quierda tienen va~ianzas menores que las del centro y de la derecha. El dia­

li /s,ama (c) representa el caso en que coinciden las dos condiciones. Obsérvese

que los puntos tienden a estar sobre una elipse , uno de cuyos diámetros es

I IR. recta de regresión. Cuando 103 datos no son homocedásticos , no se aplican

' los métodos usua les para calcular los valores esperados sobre el eje Y para

. cada valor correspondiente del eje X. Por ejemplo, con un diagrama de la


forma (a) sería posible hacer estimaciones en el centro de la distribución
de X con más precisión que en cualquier extremo.

CALCULO DEL COEFICIENTE DE CORRElACION DE


PEARSON

De los diversos coeficientes de correlación que existen, el que se emplea


con más frecuencia es el coeficiente de correlación de Pearson cuyo símbolo
es r. También se conoce con el nombr ~ de coeficiente de correlación momento­
producto. Seguidamente sé presentan varios métodos para calcular este
coeficiente.

Cálculo del coefici ente y de Pearson tipificando las


puntuaciones

En la Tabla 7.1 aparecen las puntuaciones de diez personas según dos va:-ia­
bl ~s , X e Y (co!J.lmna s 1 y 2l. Debajo de cada una de éstas fi guLt la media.
En [a columna 3 se calcul a n la s desviaciones res .pecto de la media , g', de
cada un a de las puntuacio nes X , y en la columna 4 la desviación de cada

TABLA 7.1
Cálculo del coeficiente de correlación de Pearson tipificando las
puntuaciones
~ ..
--- -
.. _. __ .

(1 ) (2) (3 ) (4 ) (5 ) ,0e) (7 ) (8 ) (9 ) (1O)


X Y X .v , - Zx Zy 7...: z ), x 2 y2 xy
._ -_._- - -- - - ".. . _- - - .-- - ­
20 12 7 2 ! ,6.1. (l. 54 0,3694 49 4 í4
18 16 5 6 1,1 5 1,62 1,8637 25 36 30
16 10 l' O 0, 69 0.00 0,0000 9 O O
15 14 2 4 O, 4Ó 1,03 0,496 8 4 16 R
14 12 2 0 ,23 0,54 0, 1242 1 4 2
12
12
10 - 1
9 -- 1 °
- 1
-- 2
- 0 ,23 0,00
- 0,23 - 0,27
-0,6 9 - 0 .54
0,0000
0,0621
0 ,3726
1
1 ° 6
°
!O 8 -3 9 4
8 7 - 5 - 3 - J , 15 -0. 81 0.93 ¡.') 25 9 15
5 2 - 8 -8 - 1,84 -2, 16 3.9744 64 64 64
- _ ..._- ---'-' - '- '- -' _._---- _ . - .. _- - -_._--- - - ._. __._- - _ .,.- --- --­
1: X = ¡JO 1: y = 100 Sx _.- 4, 34 L Z xZy 1: X2 L )l l L XY
x= 13 y= 10 s} - 3,7 1 = 8,6947 = 188 = 13 8 = 140
- -- -- _._ . -- -- - __..~. _ .- ~ --- -_ .. . -- - --- -_.-._-.­
106 METODOS ESTADISTlCOS APLICADOS

una de las puntuaciones Y respecto de su media Y. Debajo de ambas colum­


nas se muestran las desviaciones típicas de las dos variables.· En las colum­
nas 5 y 6 se calculan las puntuaciones tipificad'as de cada puntuación de las
columnas 1 y 2. Se obtienen dividiendo cada desviación de la columna 3
por sx (4,34) y cada desviación de la columna 4 por Sy (3,71). Se aplica la
fórmula Z = x/s. En la columna 7 se hallan los productos de las dos puntua­
ciones z, es decir, el producto de los valores de las columnas 5 y 6. El coe­
ficiente de correlación r de Pearson 'viene dado por

(7.1)

Sustituyendo en esta fórmula se tiene:

8,6947
r = -:-::-­
10
r = 0,869 o 0.87

Otra manera de calcular el coeficiente r de Pearson es en función de las pun­


tuaciones z; es el «método de los cuadrados de las diferencias» citado por
Peatman (1963). En él se expresa el coeficiente r en función de los cuadrados
de las diferencias entre pares de puntuaciones z correspondientes:

_ ~(z y -- Z,)2
r= 1 ('7.2)
2N

El término L(zx - zy)2/2PY aumenta a medida que las variables se hacen


menos semejantes.

Cálculo del coeficiente r de Pearson a partir de las


desviaciones respecto de las medias

Dado que una puntuación tipificada es el cociente entre la desviación de una


puntuación respecto de su media y la desviación típica, se puede escribir:
x y
y z y --
--­s

Sustituyendo en la fórmula (7.1) estos valores de Zx y Zy se obtiene la expresión:

LXY
r = --'- (7,3)
~N'SxSy

que puede escribirse en la forma


LXy
r= (7.4)
CORRElACION. COEFICIENTE r DE PEARSON 107

si se tiene en cuenta que

J
~Xi
s =
,x
-N- y

Si la suma I:xy, numerador de la ecuación (7.4), se divide por N , se ob­


tiene un e stadígrafo que se llama covarianza . Por otra parte, si los dos factores
del denominador se dividen por N , resultan las varianzas de X e Y respec­
tivamente. Por tanto , el coeficiente r de Pearson no es otra cosa que el co­
ciente entre la covarianza y la media geométrica de las varianzas .
En las columnas 8, 9 Y 10 de la Tablá 7.1 figuran los valores de X2 , y2
y x y, así c
omo la suma de los valores de cada una de ellas en la parte inferior.
Sustituyendo valores en la ecuación (7.4) resulta:
140
r=
-.! (188)( 138)
140 140

-- - - - -
J 25955 J 61

- 0 ,87

que coincide, como era de esperar , con el coeficiente obtenido anteriormen.te .


Los d os métodos qu e hemos visto serían muy laboriosos en el caso de
que N fuera grande. Veamos , pues , cómo se pueden simplificar los cálculos "
en estas condicione c .

Cálculo directo del coeficiente r de Pearso n


a p artir de las puntuaciones brutas : fórmula
para máquina

Un a simplificación con siste en emplear una máquina de calcular. En este


caso lo más eficaz es que en la. expresión de r solo aparezcan las puntuaciones
brutas. Hemos visto anterio rmente que
2 2 (¿xy
¿x = ZX -- - - - 2"
N ' ~.

'" ~ _ ¿ y ( ¿ Y); ec u<o


Loy - .
2
----¡.¡
Por a nalogía, n(

'"
.(~xy = "'Xl'
4, (T
_ ..

Si inserta m o
o esta. ex presión en
r= - ==
-.!{¿X't- Ly2 - 2Nrs s f X
METODOS ESTADISTICOS APLICADOS
108

Después de simplificar ' se obtiene:

(7.5)

TABLA 7 .2
Cálculo directo del coefiCiente r de Pearson de las puntuaciones brutas

(1) (2) (3) (4) (5)


X Y X' y2 XY
20 12 400 144 240
18 16 324 iS6 288
16 10 256 100 160
15 14 225 196 210
14 12 196 144 168
12 10 144 100 120
12 9 144 81 108
10 8 100 64 80
8 7 64 49 56
5 2 25 4 10
._-­ -
L\'= 130 ¿ Y = 100 ¿X' = 1878 ¿: y' = 1138 ¿XY = 1440
.. _--_. _- - ­ - - ­ --_.-
En la Tabla 7.2 se han reprcducido los datos d e la dis tribució n d e Id
Tabla 7. 1. E n las colu mna s 1 y 2 se h an escrito lo s pa res de puntuaciones
de o ri gen . En la co lu mna 3 se calculan los cuadrados d e la s puntuacio nes X
y e n la columna 4 los cuadrados de las puntuaciones Y. La columna 5 se
forma con los productos cruza.dos , es decir, el prod ucto d e cada X p or cada Y.
Se sumar. los valo res de las cinco columnas y se sustitu ye e n la fórmul a (7. 5):

10(440) - ( 130)( 100)


r=
J 110(1878) .-. (130) 2] [JO(1 13 8) - (IOWl
14400 - 13000
- ~==================
')(1 8780 '-· 16900)(113 80 - 10(00)
1400
- ---;-c====
.)(i-8S'0)-( 1380)
1400
.)2594400
1400
= -­
16 iO
= 0,87
,~ .

CORRELACION , COEFICIENTE r DE PEARSON 109

valor obtenido en d,os ocasiones anteriores para el mismo conjunto de datos.


SI se, aplIca la. formula antenor y s,e hacen a mano las operaciones, poco
se habra conseguIdo, pero se ahorra,a mucho tiempo utilizando la tabla de
cuadrados del Apéndice A. También se ahorrará mucho tiempo si se codi­
ficanpreviamente los datos. Cbnsideemos los datos de la Tabla 7.4. Obser­
vemos las puntuaciones de la segunda columna. Todas son grandes, la me­
nor es 80 y la mayor 114. Si cada una de estas puntuaciones se resta de 80
y las correspondientes de la tercera columna se restan de 30 (en ésta aparece­
ría una sola puntuación negativa, pero es más apropiado que restar cada
puntuación de 28, puntuación menor de la distribución), el coeficiente de
correlación calculado a partir de los dato s codificados sería idéntico al' ob­
tenido a partir de las puntuaciones no codificadas y el cálculo, por el con­
trario, resultará mucho más fácil. Aunque se utilice una máquina de calcular,
se ahorra tiempo codificando las puntuaciones de la manera indicada. Si se
dispone de una máquina de calcular automática , no es necesario realizar
todos los pasos que se indican en la Tabla 7.2, puesto que l?. máquina efectúa
directamente la suma de X, la suma de Y, la suma de X 2 , la suma de y 2 y
dos veces la suma de XY, conforme se van introduciendo en ella los pares
de puntuaciones. Después del último par, aparece el resultado final de los
cinco valores anteriores. El cálculo numérico se reduce considerablemente
si se realiza con un ordenador de mesa.

. Cálculo del coeficiente r de Pearson por el método


de las diferencias

Otro procedimiento par a calcular el coeficiente r de Pearson se basa en el


méto do de las diferencias, en el cual se resta n cada Y de Sll correspondiente
X , o viceversa. Llamando D a una de las diferencias se ¡-iene:

D=X-Y
en estas condicio nes
d=x-y

¿d 2 ~~ ¿(x _ y)2

"L.d 2 = ¿x2 + ¿y2 _. :l.¿ xy


Ahofa bien. de la ecuaciór, (7 .3),

LXy
r=--­
Nsxs y
res ulta.

Sustitnyendo esta expresión en la c uarta ecuación,


110 METODOS ESTADISTlCOS APLICADOS

Dividiendo por N,

Ld 2 LX 2 Ly2 2Nr
--=--+-- ---S s
N N N N"Y

que puede escribirse en la forma

(7.6)

La ecuación (7.6) expresa matemáticamente que la varianza de la dife­


rencia de dos variables es igual a la suma de las varianzas meno s la cova­
rianza (nombre que recibe el tercer término). De la ec uación (7.6) se deduce:
1I

(7.7)

Análogamente se puede demostrar que la vananza de la suma de dos


variables X e Y viene dada por
"

2 - <.2 -'- S2
S x+y-""X' y
+ 2rsxoJ.v
,. (7.8)

De aquí resu lta otra expresión de r Sin más que tran sponer términos:

Apliquemos la fórmula (7,7) a los da tos de la T ab la 7.2, y que se repro­


ducen en la Tabla 7.3.
Las columnas 1,2, 3 Y 4 son las mismd s qu e en la Tabla 7.2. Los valores de
la columna 5 se obtienen r esta ndo cada valor de Y del correspondiente de
X , o viceversa . No importa la forma en q ue se haga la resta siempre que se
mantenga el mismo criterio en tod o el cálculo. Es decir, si se empieza restando
y de X, así se ha de continuar has ta e l final. Algunas veces las diferencias
resultan nega tivas. Por ello, la sum a d e la columna 5 se en tiend e que es la
suma algebraica. En la columna 6 se baila n los c uadrado s de dichas dife­
r('ocias. Po r úl timo, se suman los valore, de todas las colurrmas.
Calculemos las tr es varianzas:

1878 _ (I30)~ ( 100)2


Ly2 = 1138 - -'---'­ Ld2 = 136 _ (30)2
10 10 10
= 1878 - 1690 = 1138 - 1000 = 136 - 90

= 188 = 138 = 46

188 2 138 2 46
5~=1O = 18,8 s = -
10
= 13 8
' Sd = - = 46
y 10 '
CORRELACION . COEFICIENTE r DE PEARSON 111

P or tan to, teni end o en cuenta la ecuación (7.7):


18,8 +1 3,8 -4,6
r =
2.J 18,8 "iJ 3,8
28 28
r = 2(16,1 ) = 3-2-,2

r = 0,8 7, res ultad o idéntico a l obtenid o ante riorm ente m edi a nte la fó rmu­
la (7 .5).
La varia nza de la suma o diferencia d e dos va ria bl es es muy frec uente
en estad ística y metrología. En ,este libro se utiliza rá n más ad elante.

TABLA 7.3
Cálculo del coeficient e r de Pearson por el método de las diferencia s

(1) (2) (3) (4) (5) (6)


X Y X2 y2 D D2

20 12 400 144 8 64
18 16 324 2 56 2 4
16 10 256 100 6 36
15 i4 225 196 I 1
14 12 196 l d4 2 4
12 10 144 100 2 4
12 9 144 SI 3 9
lO 8 lOO 64 2 4
8 7 64 49 1 ¡
5 2 25 4 3 9

¿X = 130 ¿ Y = IOO ¿X 2 =1878 L P = 1138 ¿ D = 30 ¿ D2 = 136

Distribución bidimensional

En las di stri buciones q ue se consida ara n en ca pítu! o~ a n teriores solo in te r­


ve nía un a va ria bl e y en el Capítul o 3 se hizo la d istr ibu ción de frec uencia s
de una va ri a ble. En este ca pítu lo , dedicad o a la co rr elación, se ha n tra ta do
da los co n s tit ui d o~ por mediciones según dos varia bles . Vamos aho ra él rea­
lizar la ta bla d e un a d isl ribució n de frecu :c;ncias bidimension a l. Par;; elio
empl ea rem os los datos de la Tabla 7.4, en dond e fi guran las p u ntuac io nes
obtenidas po r 35 estudiant es universitarios en dos tes ts, 1 y 2, d e aptitud .
E n primer lugar se h;;ce una labia, como la 7 .5, de u na serie de fi las y
otra de columnas. Luego se fijan una serie de interva los pa ra el test l . Se aso­
cial). a l eje Y utiliza ndo una ampiltud igual a 3 y co m enza ndo po r el in te r­
valo 78-80. De manera análoga, se fijan una seri e de in te rvalos so b re el eje X
para el tes t 2. En este caso, como amplitud del intervalo se co nside ra el va lor
5 y se comienza co n el 25-29 . La amplitud de los intervalos de c lase de a m bas
distribucio nes es distin to, como puede observa rse.
112 METO DOS ESTADISTICOS APLICADOS

En segundo lugar se hace un recuento de puntuaciones. Se considera el


primer p:u, las puntu ~.ciones del estudiante 1, que tiene una puntuación de
80 según el eje Y y d·_ 16 según el eje X. Para anotar ambas puntuaciones,
que identifican al estudiante 1, en la tabla, se observa el intervalo del eje Y
que contiene a la puntuación 80 y, por la horizontal , se hace una marca en
la columna del intervalo del eje X que contiene la puntuación 61. En la in­
tersección de la fila y columna de los dos intervalos de clase se representa al
estudiante 1. Se hace lo mismo con el segundo par, 95 y 28; en la intersección
d e la fila del intervalo que contiene a 95 y la columna del intervalo que con­
tiene a 28 se hace- otra marca. Así se continúa hasta haber an o tado todos los
pares de puntuaciones. Entonces se cuentan las marcas de cada fila y cada
columna y se escribe el resultado en la fila y columna <:;orrespondientes enca­
bezadas por la letra f, inicial de frecuencia.
Hace tiempo, cuando no se disponía de ordenadores ni de máquinas de
calcular, el coeficiente de correlación se calculaba a partir de una distribu­
ción bidimensional como la q'.le hemos expuesto. El procedimiento es labo­
rioso y dado que hoy en día ha, perdido pane de su importancia, no lo
estudiaremos aquí. Sin embargo, conviene representar la nube de puntos
con el fin de obtener una imagen gráfica de la relación entre la s dos variables
X e Y. Como se indicó anteriormente en este mismo capítulo, la condición
necesaria y previa para calcular el coeficiente r de Pearson es que exista una
relación lineal entre ambas variables; cuando existe un a desviación respecto

TABLA 7.4
Puntuaciones de 35 estudiantes universitarios según dos tests

E Sludi a nt e Tes! I Tes! 2 E s tud~ante T est 1 Test 2

1 8C 61 19 105 86
2 95 28 20 80 63
3 94 74 21 85 31
4 101 46 22 93 57
5 105 44 23 85 70
6 89 38 24 92 43
7 106 72 25 90 70
8 92 41 26 89 54
9 105 49 27 85 51
10 J0 7 69 28 96 58
!1 II I 82 29 85 63
12 114 76 30 98 73
13 83 39 31 101 71
14 . Ií2 64 32 106 76
15 91 77 33 112 76
16 88 50 34 93 59
¡7 105 55 35 liO 71
150 j06 59

I
CORRELACION. COEFICIENTE r DE PEARSON 113

TABLA 7.5
Distribución de frecuencias bidimensional

E/e %.-Test 2
..,. o-,!"" o-, ..,. ..,. - ..,. ..,.
o-, o-, o­ o-, o
'o r-­ o­
E/e Y .­ Test /
N
I
M
I "7 l' l' <n i
<n
I ¿,
\0
I
t-
I I
00
I I fy
V)
N
o 'n ..,.
o ..,. o
V) <n
'D
<ro
'D
o
t-
V)
r-­
o00 V)
00
""
V) V)
'"
114-116 / J
11l-113 / / / 3
108-110 / 1
105- 107 ¡ / // / / / / 8
102-104 O
99-101 / / 2
96-98 í / 2 ,

93-95 / /f f 4
..
- ' 90-92 I
4
1/ I / /
87-89 ¡ II 3
84- 86 / I I / 4
81 ­ 83 / I
I
.- \- .
78--80 // _.-.L 2
I 1 232 3 5 4 7 4 1 35 = N

de la Jineaiidad , el coeficiente de correlación calculad o es una subes timación


de la ve rdadera ,e lación . El procesamiento de los datos a través de un or­
denador de mesa. o de un o rdenador grande para obtener r, no p ropo rc iona
información a lguna sob re la na turaleza de la relación. Una forma de de·
terminar si se cumple la co ndición de linealida d , es represe ntar la nube de
punto s e n >In dia gra ma se mejante al de la Tabla 7.5. A partir de 1<1 nube de
punto s es po sibl e hacer una estimación aproximada de l coeficiente de cor re,
lac ión. Las marcas de la Tabla 7.5 aparecen bas ta nte dispersa s respec to dc
una lín ea de regresió n imagi na ria. Po r tanto , se puede y<I infe rir un va lo r
pí"queilo del coeficien te d e co rre lació n . El coefteiente calc ul ado a partir de
estos da to s es, en í" rec to , 0,43 .

COEFiCIENTE DE CORRElACION ' y RANGO

Aquell os qu e utili ce n el coefi cie nte de correlació n de do s va ri ab les m ed idas


pro nt o observa rán que su cuantía está rel acionada, d e forma bastante d irí"cta,
co n e l rango de las do s va ri ables que se correlacionan. Por ejem pl o, si se
hi cie ra la co rrelació n ent re la es tatura de los niño s de matern a l y su peso,
se o bte ndría p robab lemen te un coeficiente bastante pequeño. Sin e mbar go,
si e l grup o de niños se cligier<l de mayor edad, se llall <lría un a co rre l<leión
positiva y fu erte. Las califi caciones en la enseñanza su perior y las puntua ­
ciones según un test de intel ige ncia , es probable qu e den como reSu ltado
114 METODOS ESTADISTICOS APLICADOS

TABLA 7.6
Datos que muestran el efecto sobre r
de un recorrido pequeño

A lumn o X Y R. '( y

1 40 19 _L 2
2 38 2\ 2 1
3 36 16 3'" ~.
"? 5
4 34 18 4 3
~
5 30 17 5
"- -.
4
6
29 14 6 6
7
28 13 7 7 '/
8
26 12 8 8
.?
..9_.
25 10 9 11
10
24 II iCí 9
J1 22 10 1! 11
12 20 8 \2 i4
J1. 19 9 13 13
14 16 10 M' 11
15 15 4 15 15
16
"---. 10 2 16 16
'.¡ ,.'
.,
.FU ENT E · Adaptado de ,<Reliab i¡ity and Confid~n ·

ce" . Tes t' S ?'rt'ice Bul/elin , N./) 44. New York: Psy ­
~: I1
ch o!ogic,ll C orpon!li on , 1952.

¡tll
, I

coeficientes de correlación más bien pequeños; mientras que el coeficiente


de correlación es más elevad o si estas dos varia bIes se estudian en la en se­
ñanza media y básica , E n estos ejemplos se presentan situaciones d e distinto
rango,
En !a Tabla 7. 6 fi gu ran las puntuaciones o btenid as por 16 alumnos en
dos tests . En las dos columnas de la derecha figuran el orden de los alumnos
según ambos tests. Una simple inspección de los da tos indica que existe
una correlació n fue rt e y positiva entre ,las dos variables. Un alumno co n
pun tu ación alta e n un test tiene un a puntuación asimismo a lta , en general,
en el otro. Existe una fluct uación pequ eña entre las orden aciones dentro de
las dos columnas. Examinemos a hor a las puntuaciones y los órdenes de los
, ci nco primeros alum nos. En es tas condiciones se reduce el recorrid o con­
¡ siderablemente. O bservemos al alumno 3. E n el primer test ocupa el puesto
d e 3 y en el segund o ocup a el 5. Su o rden ha cam biado de 3 a 5 y com o solo
se consideran 5 pu estos , el ca mbio es del 40 por 100. Si se utiliza todo el
grupo , este cambio es de 2 fren te a 15 p osibles , aproximadamente el13 por 100.
Se deduce , pues , qu e si el gru po es restrin gid o, un cambio pequ eño en una
variable p ued e ir acompañado d e una gran variación en la otra. Estos cam..
bios dlsminuyen la cuantía de! coeficiente d e correlación r d e Pearson .
El hecho de qu e sea el orden y no el tamaño d e la muestra lo que ver­
dad eramente influy e en el valor de r p:Jed e mostrarse eligiendo otros cinco
casos . Seleccionemos los alumnos 1, 5, 9 , 13 y 16. Si se calcula el coeficiente
CORRELACION . COEFICIENTE r DE PEARSON " 5

de correlación de los cinco conjuntos de puntuaciones, se hallaría que vale


+ 1,00 cuando se utiliza el método de correlación por rangos (Capítulo 8).
En los tests hay veces en que los coeficientes de correlación han de corre­
gi'r se para ordenaciones restringidas. Consideremos la realización de tests
en el seno de las Fuerzas Aéreas de los Estados Unidos . Para ser piloto se
han de superar un conjunto riguroso de tests. Los que obtienen puntuaciones
bajas no son aceptados. Los'alumnos de la Academia Militar son, pues, un
grupo bastante selecto. Después de haber sido elegidos, se les somete a nue­
vos entrenamientos y se les proponen nuevos tests; durante este periodo
algunos renuncian y otros se ven obligados a ello. En resumen, el grupo que
permanece es aún más selecto y obtiene el grado de suboficiaL Si se utilizara
un grupo de suboficiales para investigar sobre los tests de selección de in­
greso, pronto se vería que los coeficientes de correlación eran pequeños,
Sin embargo, existen ecuaciones para resolver situaciones como ésta, con las
que se pueden corregir los coeficientes obtenidos con una ordenación res­
tringida. Remitimos al lector interesado a los trabajos de Guilford (1954) ,
Lindql1Íst (1951) o Gulliksen (1950).
Al obtener un coeficiente de correlació n se debe indicar una medida de
la variabilidad del grupo a base de la desviació n típica o de la varianza . Ello
proporcion a cierta informació n sobre la naturaleza del grupo al cual per­
tenecen los datos y ayuda a interpretar con eficacia dichos coeficientes de
correlación .

INTERPRETACION DEL COEFICIENTE r DE PEARSOI\J

Como se indicó anteriormente, en este mismo ca pitulo, un coeficiente de


correlació n es una medida de la relación entre dos variables . En la práctica,
un coeficiente r igualo superior a 0,80 se considera gra nde; un coeficiente
de 0,50 es moderad o, y un coeficiente igualo menor que 0,30 se considera
pequeño. El lector debe tener presente que el coeficiente r de Pearson no es
una medida de causa!idad, aunque pueda existir en ciertos casos una relación
causal entré las d os variables. Otras veces existe un a relació n entre dos va­
riables de forma indirecta, esto es, a través de una tercera, Ocurre con fre­
cuencia cuand o la tercera variable es la renta p ersonal o la capacidad mentaL
Los coeficientes de correlación, en ciertas situaciones, pueden carecer de sig­
nificado . En otras palabras, el coeficiente es un ,resultado casu al y si se reunie­
ra otro conjunto de d atos y se calculara el coeficiente r d e Pearson resultaría
un valor despreciable probablemente. Por ejemplo , supongamos que un
profesor de estadística determina la talla de cada alumno de su clase, esta­
blece una correlación eT) tre la talla y la p un tu ación o btenida en el examen
final y obtiene un valor de r igual a O,77 .. Es evidente q ue este coeficiente
carece d e sentid o; la explicació n de un resuitado a sí solo puede basarse en
el azar. Si el profesor recopila datos en cien ocasio nes o más, la probabili­
dad de que vuelva a obtener un coeficiente de correlación tan grande es
despreciable . Por tan to, se debe tener cuidado en la interpretación de cual­
quier coeficiente de correlación.
116 METODOS ESTADISTICOS APLICADOS

En el Ca pítulo 17, que se refiere a mediciones en sicología y ciencias d e

la educación , se presentan al gunas ' aplicaciones importantes de los coefi­

cientes de correlación. Una de ellas es la fiabilidad de Ud instrumento de

medición. La fiabilidad representa la consistencia o reproductibilidad de las

puntuaciones según un test a lo largo del tiempo. Por ejemplo, si hoy se

propone un test de inteligencia y se vuelve a proponer al cabo d e un mes,

al mismo grupo, cabe esperar una correlación fu erte (coeficiente grande)

entre ambos conjuntos de puntuaciones, por ejemplo, igual a 0,90 o supe­

rior, si el test proporciona resultado s fiables. Otro empleo muy característico

d e los coeficientes de correlación se tiene en el estudio de la validez de pre­

dicción de un test. E n este caso, las puntuaciones según un test se relaciona n

con un criterio . U n ejemplo de ello es la correlación de las puntuaciones en

el Scho/astic Aptitude Test del College Entrance Examinatio n Board co n el

promedio de las calificaciones de los alumno s de primer año. Normalmente ,

el valor del coeficiente de co rrelación en situaciones d e este tipo , se encuentra

comprendido entre 0,40 y 0,60, aunque en muchos casos es m ás pequeño.

Lo fundam ental es que la cuantía del coeficiente d e correlación, por sí mismo,

no es lo más importante de todo , sino la si tuación o el fin para el cua l se uti­

liza, lo que determina la manera de calcularlo. En ciertos casos se espera

obtener un coeficiente de co rrelació n grande, pero son admisi bles valores

más pequeños.

Por último, surge la cuestió n d;; cuá l es el vale r más pequeño d el coefi ­
ciente de correlación que aún es significativo. Esta pregunt a se contestará
en el Capítulo 16, dond e se explicará el método de contraste de significación
del coeficiente r de PearsoD. En un contraste de este tipo, se determina la
probabilidad de que el coeficiente en estudio proceda d é' una p o blación en
qu e e! valor del parámetro es distinto de cero. O lo que es má s sencillo , se
hall a la proba bilidad de que el cilado coefi ciente sea distinto de] quc p odrí a
csperdrse por aza r o si no existiera rela ció n alguna entre las dos variables.
Debe observarse, sin em bargo , qu e aun en el caso en que un coeficiente de \,
correlació n sea ,ignificatil'o estadística mente, puede tener poca o ninguna
i mport? ncía práctica.

EJERCICIOS

L P o n ~r
¡ res ej emp los d e (a) relacion es al tas p os itivas. (h) relaciones moderada s posi­
tivas, (c ) relacione s negat ivas , (d ) relaciones cu rvi líneas, (e) dos variables relacio ­
nadas por una tercera.

2, Ex plicar p or qué e! coefiCl.cnte r de Pearson es más peq ueño cu a ndo se calc ula a
partir de d a tos que se desv ía n de la lin ea lida d.

3, Para u n grupo de 40 personas. d pr0d uct0 de las puntuacio nes z d e dos variables
es ~2AO. ¿Cuál es la co rrel ación entre am bas?

4. En dos tests, di ez alum nos obtu vieron las sigu ientes puntuacio nes :
~. ~.
~'L'
CORRELACION. COEFICIENTE r DE PEARSON 117

Alumno s Test Test 2

1 15 12
2 14 14
3 10 9
4 9 10
5 8 8
6 8 7
7 7 8
8 6 4
9 4 6
10 2 4

Calcular la correlación entre dichas puntuaciones.


S. A veinte estudiantes se les propon e un tes t d e capacidad mental y otro sohre co­
nocimientos de ingl és en los que ohtienen las puntuaciones s iguientes :

Capacidctd ment a l 1nglé s Capacid ad ment a l (conl.) Ingl és (co nt


54 203 44 181
53 196 44 175
51 202 44 168
50 186 43 174
48 204 40 162
47 184 38 158
47 196 37 170
46 182 36 144
45 170 34 141
45 178 31 139

a. Ca lcuiar el coeficient e r de estos datos.


b . Hallar las medi " , y desviacio nes típicas d e ambas variables .

60 C alcul a r el coefici en le r de Pearson d e jos sigui entes datos :


Puntuzción ck Puntuaci ó n d e
actitud pa ra j n d ice aC ¡¡~l!d rara [¡,di,_oc de
b venta de ',lt:' n!a s la ve rH a {c ont. VCIlL1.\ (con l.
48 ..,..,
"~.Á.. . 38 15
48 19 38 15
47 20 37 20
46 20 37 17
46 17 35 19
43 21 34 15
42 21 34 14
42 19 33 20
41 J7 33 13
40 i5 32 15
39 18 32 12
( Si;;uc .)
11 B METODOS ESTADISTICOS APLICADOS

Puntuación de Puntuación de
actitud para Indice actitud para lndice de
la venta de ventas la venta (cont.) ventas (cont.)
32 lJ 25 15
31 17 25 9
30 16 2J 9
29 15 22 13
29 15 21 9
28 16 20 11
27 16 18 11
27 13 17 10
27 12 15 8
26 12

7_ Las p untuaciones obtenidas por 18 adolescentes sordomud os en la escala de rendi­


miento de la Wecns/cr Adu/I ln te//igence Scale y en cuatro orientaciones de voca­
ción profesional fueron las siguientes:

(1) (2) (3) (4) (5)


Admi i1 is­
P-WAI S {íación Comercio Técnica A rtcSlloja
-----­
1 99 15 33 16 25
2 10:3 24 20 20 40
3 , l#­ 17 37 13 21
4 1+6­ 5 42 8 20
\
5 ~,
9 40 6 18
6 .-t--tq- 5 48 3 17
7 - H4­ 14 34 7 31
8 I-.\-r 13 33 J3 J5
9 -t2:l­ 24 20 16 35
10 +H 15 32 12 27
11 -\-29 14 43 10 17
12 '1'6S 12 36 11 28
13 \16 20 3\ 12 29
\4 +06· 20 19 19 37
15 .!:DO 32 22 18 29
16 96 25 21 16 39
17 90 20 31 19 28
18 97 23 16 2\ 38

- I
Ca lc ular jos coefiCientes de correlación entre lO S tipos vocaClona.es.
CORRELACION . COEFICIENTE r DE PEARSON
119

8. Las puntuaciones de los componentes de un grupo de 30 personas fueron las siguientes :

A B C D

'i
1 68 .--- '. 74 32 42

2 169 1(57 45 54

3 87 98 45 62

4. 93 76 34 45

5 87 65 24 38

6 77 74 27 32

7 154 145 34 36

8 99 69 38 42

9 87 98 22 37

10 110 98 64 60

11 107 104 47 66

12 119 87 45 45

13 67 78 24 42

14 78 lOO 20 46

15 186 169 57 55

16 11 3 97 45 47

17 145 159 40 40

18 65 78 20 33

19 106 106 34 48

20 98 JOS 34 52

21
22

76
I1 9
96
125
49
60
48

54

23 100 109 24 44

24 11 8 109 36 56

25 154 174 32 42

26 87 88 23 39

27 109 101 4] 47

28 88 108 31 48

29 67 76 18 42

30 89 100 47 68

Calc ui ar la. co rrel ación entre dos conjun tos cuaiesquiera de las puntuaciones an te­
riores, utili za nd o un o de los mé tod os expu estos en este cap itulo .
capítulo 8
OTRAS TECNICAS
DE CORRElACION

El Capítulo 7 se ha dedicado todo é l al coeficiente de correlación má s uti­


lizado , el coeficiente r d e Pearson. Es el mejor es tadígrafo que se puede em­
plear c uand o los datos a correlacionar satisfacen las hipó tesis fundamentales
para una interpreta ción correcta del citado coeficiente y cuando las dos
variables son co ntinuas. Sir,. embargo, n o siempre es posible hacer ded ucciones
del coefici ente r de Pearson; por ejemplo, en el caso de que la relación entre
la s dos var iabl es no sea lineal, cuando una o las dos varia bles no so n con­
ti~ua s, cuando el número d e pares d e medidas es demasiado pequeño, o
cuando no pu eda hacerse una hipótesis plausible acerca de la distribución
del carácte r de la población que se co nsidere. En este capítulo se estudiarán
a lgunas tócnicas de correlación especiales q\l e pueden ap licarse en las sit ua­
cion e ~ citad:t s.

RELACIONES LINEALES

Coeficiente de correlacion I"bp biserial-puntual

En algunas circunstancias. so bre todo en el camp o de la prepa raci ó n y va li­


dación de-tests. una de la s vari ables es continua y la o tra es dicotómica_ Un
procedimien to u>ó ual pa r;' asignar puntuaciones a un grupo de particularida­
des consiste en ca lificar la res puesta en correcta o incorrecta. Esta cualifica­
c ión de c()rr ecta-i~ co rr ec [ " es uno di cotomía.
El cocf. '.: iel1I C bisaial-punluaJ se estudiará detalladam ente , porque es un
coeficie nt e de correla ción del tipo de Pearson, utilizándos e a mplia men te en
la preparac ión y aná lisis de tests. Veremos, en primer lu ga r, có mo el coe­
hClcnte blse nal-puntua l es un caso particular del coefi ciente de correlación
de Pearson y. después, los dos métodos para calcularlo. Sean Y (variable
('ontinua) las puntuacio nes ob tenid as e n el tes t y X (variable dicotómica)
las respuestas . En estas condiciones, X es u,n a resp uestá correcta o incorrec ta
y se puntúa c o n I o O respectivamente. Se deduce, pues. qu e L X es en reali­
da d e l número de perso nas que respondieron correctamente a la cuestió n.
Ll ame mos N{, a l núm ero de perso na s que responden co rrectam en te . Como
1 20
OTRAS TI CNICAS DE CORRElACION 121

2
X es 1 o 0, L:X también es iguai a N p ' Calculemos ahora la suma de los cua­
drado s de X.

(N )2
= N - --p­

p
NI

siendo NI la frecuenci a total.


Puesto que N, - N p == N w es el númer o de personas que o no respo nd en
o su respu esta es inco rrecta, tendremos:

Al obtener L:X Y, solo ent rarán en los cá lculos aq uell os valores e n que
X = 1; por ta nto, LX Y puede escribj¡'se en la form a tl p Y, en donde cada
valor de Y se multiplica por ía frecuencia d e las re spues tas correctas y se
suman los produ ctos hall ado s.
Volva mos ahora a la ecuación (7 .5) , a ntes de simplificar las fr acciones.

I: X Y _ C
-,-I_: X_).c...(I:_Y--'.)
N

y sust ituyam os los valores a nteriores. R es ulta :

I: , Y _ (Np)(I:fY)

J P ¡.;.

r I

bp - (N 'N [ (I: ry?r1

/ _-"._w I:fy2 - ~_C::_-- J

'.1
\1 i V. I NI
.

Simplific adas las fracciones, com o se hizo en (7. 5), la expres ión ante rior se
tr ansforma en '

(8. 1)

En la Tab la 8.1 se mu estra UD ej emplo de có m o se apl ica la fórmula an­


terior en dond e aparece n ¡as puntuaciones o bten idas po r 90 p e r~onas seg ún
un test de percepción en
y otro de habilida d en con tar el númer o de bloque ..,
que hay en una figura geometnca (X). L as respuestas de este último test
se cualificaron en correctas o incorrectas con puntuaciones 1 o O respecti­
vamente.
En la columna 1 figuran las puntuaciones obtenidas en el test Y. En la
columna 2 a parecen las frecuencias de los que respondieron correctamente
al test X, de acuerdo con las puntuaciones obtenidas en el test Y. En la co­
lumna 3 se han anotado las frecuen cias de los que contestaron de forma
incorrecta al test X . En la columna 4 se muestran las frecuencias totales
para cada puntuación el1 Y. Los valores de la columna 5, (fY), son los pro­
ducto, de los vaíores de las columnas 1 y 4, respectivamente . Los valores
de la columna 6, C.{y 2 ), se obtienen multiplicand o los valores de la colum­
na 5 por lo s correspondientes de la columna 1. Los valores de la columna 7,
(fp Y), se obtienen multiplicando lo s valores de la columna 1 por los corres­
pondientes de la columna.2 Se suma po, Golumnas y Jos resultad os se sus­
tituyen en la ecuación (8.1).

90(265) - 44(382)
r&p = -) 7=
4=4 (=46==) [(90) 2294 _ (Úí2)2]

23850 - 16808
-- ---c===
) 2024 (20646<5- 145-924)

7042 7042

)2024(60536) 11069

= 0.64
OTRAS TECNICAS DE CORRELACION 123

El método anterior es muy práctico cuando las puntuaciones son valores


pequeños y las frecuencias no son muy grandes. Si los valores fueran altos,
el procedimiento más eficaz sería agrupar los datos y calcular la media y la
. desviación típica de las puntuaciones adoptando un origen de trabajo ade­
cuado . Estos estadígrafos intervienen ~n diversas expresiones del coeficiente
biserial-puntual. Para la deducción de las fórmulas, remitimos a l lector in­
teresado a la obra de Guilford (1965, pág. 537). Para explicar la aplicación
de una de estas fórmulas se ha elegido un ejemplo tomado del campo del
análisis de las cuestiones de un test. En dicho análisis (Capítulo 17), al que
prepara el test le interesa saber, normalmente, cómo cada cuestión clasifica
a los estudiantes en buenos y malos. La posibilidad de una cuestión de esta­
blecer una diferencia entre dos grupos se mide, con frecuencia, mediante un
coeficiente de correlación. Las cuestiones puntuadas dicotómicamente se
pueden correlacionar con una puntuación total continua, o con un criterio
externo continuo, como, por ejemplo, los índices académicos de puntualidad
u otras medidas de aprovechamiento.
La form a de hacerlo se muestra en la Tabla 8.2. En la primera columna
aparecen los intervalos para el tota í de las puntuaciones del test. Las hojas
de respuestas a los tests se examinan un a por una y se o bserva la primera
cuestió n propuesta para ver si la persona ha contestado o no correctamente.
Supongamos q ue la primera hoja tien e una puntuación 73 y que el examinado
respondió correctamente. En este caso se hace un a marca en la columna
«Correcta» , columna 2. Se revisan todas las hoj as y la respuesta de la p ri ­
mera cuestió n se sitúa en la columna 2 o 3. En realidad, se obtiene un diagrama
de dispersión o nube de puntos con j " variable co ntinua sobre el eje Y, como
e:1 el cas o del coeficiente r de Pearson , pero con la variabie sobre el eje X
redu cida a dos categorías.

TABLA 8.2
Cálculo del coeficiente r bp biserial-puntual y r b biserial

(1 ) (2) (3) (4) (5) (6) (7) (8)


fe fw ¡; x' J~ x' ¡; X'2 f. x'
Co rrecta Incorrect a

'10-74 3 O 3 5 15 75 15
65-69 6 7 4 28 112 24
60~64 6 2 8 3 24 72 18
55-59 5 \ 4 9 2 18 36 l.O
50-54
1
6 2 8 1 8 8 6
45"'"49' 7 6 13 O O O O
40-1~: 6 8 14 - 1 - 14 14 --6
35­ -39 3 9 - 2 -­ 18 36 -6
30-3 4. 3 "
9 12 --­ 3 -36 108 -- 9
25­ 29 ¡ 4· 5 --4 - 20 80 - 4
20-24 O !2 12 - 5 - 60 300 O

L: = 46 L: = 54 L: = 100 L = - 55 ~ = 841 L: = 48
124 METODOS ESTADISTICOS APliCADOS

En la columna 4 se calcula la frecuencia total de cada intervalo. La suma


de los va lores de esta columna es igual a 100, suma del número de aquellos
que resp"nctieron correctamente y de los que respondieron incorrectamente
a la cuestión. Ahora se calculan la media y la desviación típica del total de
puntuaciones. Obtenidas en la forma usual las columnas 5, 6 Y 7, se suman
los valores de las columnas 6 y 7. También se precisa la media de los que
contestaron correctamente a la cuestión. Para ello se realiza la columna 8,
con el producto de los valOres de las columnas 2 y 5.
La fórmula para hallar el coeficiente biserial-puntual es la siguiente:

(8.2)

siendo Xp puntuación media de los que contestaron correctamente la


=
cuestión
X, = media del total de las puntuaciones del test
s, = desviación típica dél test
p = fracción del grupo total que contesta correctamente
q = 1 - p

Hallemos primero las dos medias .

- 48 ._ -- 55
47 + -. (5)
XD
I
=
46 ~ X, = 47 + 100 (5)

= 47 + 5 ,2 = 47 + (-2,75)

= 52,2 = 44,2

Tam bién d ebe calcularse la desviación típica. En pnmer lugar:

¿x 2 = [841 - (-1005W lJ (W

= (341 - 30,25)(25)

= 20268,75

Por ta nt o.

. /20268,75
s , -- .yI 100

) 202,69
= 14,2
46
P = - = 0.46
100
OTRAS TECNICAS DE CORRELACION

Sustituyend o valores e n la ecuación (8.2) resu lta:

52 ,2 ­ 44 ,2 JO,46
14,2 0,54
8

- 142 -}0,8 51851

,
- 0,563 (0,923)
- 0,52

Si el test que se está a nali zando conti ene un gra n númer o de c uestiones.
est e procedimiento d e cálculo es casi prohibitivo desd e e l punt o de vista
d el tiempo . Existen m étodos abreviados y de proceso de dat os que facilit a n
e normemente dich os cálculos. En la validación de tests, el crite rio pu ede
se r «apro bado» o «su spenso», «apto» o «no ;;tpto». «pasa » o «no pasa».
«obtene r el títul o» o «no obtene r el título», e tc.
Un méto d o eficaz y rápido para estimar el coeficiente r bp biseri a l-puntu a l
es utilizar un ábaco , en este caso, p re parado por Dingman (Fi g. 8. 1 l. Para

1,00 .
1
0,90 1 - - .\"" --¡ ,,.-L- --le­
c).

g
<l>
=,Q.
~
~ 0.60
o
G.
;:
Ol 0,50
"

'O

'"
·0
u
0,40
u
:'.'
u.
0,30
c:
0 , 20

0,10

° 0 , 10 0,20 0 , 30 0,40 0.50 0.60 0.70 0 ,80 0,90 1 ,00


p, - FraCC ió n de l gru p o (II nfer IOO)

Fig. 8.1. Ab aco pa ra estJm 8r el coeficien te I"/¡r bj')erial -punl.u aJ cuétnd o Lin a d <..:
las variables se divid e po r la med ii;j:w de la di ~ lr j, buci ó n , (Prepar a.do rol' Hc.r vcy
F. Din gman.) Fuente: J. P Guilford P.\l· (flOmCmC /vfclho(ú. New Yor k: M cGraw ·
Hill , 1954. Co n pe rmiso ele los edi to res .
126 METODOS ESTADISTICOS APLICADOS

emplear este ábaco se divide una variable por la mediana. La fracción o


proporción de personas en el grupo «superior» del criterio, que responden
correctamente una cuestión.. se halla sobre el eje de ordenadas. La fracción
correspondiente del grupo «inferior» se halla sobre el eje de abscisas. La
estimación del coeficiente ro biserial-puntual se lee. sobre la curva a la que
corresponde la intersección de las perpendiculares trazadas por dichos puntos.
Comprobemos en este ábaco el coeficiente calculado a partir de datos
de la Tabla 8.2. En primer lugar, se halla la mediana; aproximadamente
es 44. En la columna 2 hay 33 casos por encima de la mediana. Por tanto,
Ps = 33/46 = 0,72. Análogamente, en la columna 3 ex;sten 15 casos por
encima de la mediana y, por tanto, P1 = 15/54 = 0,28. Entrando en el ábaco
con Ps = 0,72 Y P1 = 0,28, resulta el valor estimado 0,52 para el coeficiente
biserial-puntual.

Coeficiente de correlación r b biseria I

Otro estadígrafo muy empleado en el análisis de las cuestiones de un test


es el coeficiente de correlación biserial (r b ). Este estadígrafo se aplica cuando
uua variable es continua y la otra, que realmente es continua, actúa como
dicotómica. Apto y no apto es un ejemplo de actuación dicotómica. La
realización puede considerarse corno un ente continuo cuyo recorrido se
extiende desde aquellos que son aptos con las máximas caiificaciones, hasta
aquellos otros no aptos con las mínimas puntuaciones. El conjunto de Jos
aptos está formado pOI las personas cuya calificación ha sido máxima hasta
los situados en el limite de :::.ptitud, y el grupo de los no aptos incluye todos
aquellos que han fallado poquísimo, hasta los que han fracasado por com­
pleto. Este continuo se reduce a la dicotomia apto-no apto, y dado que se
trata de uno de los procedimientos más corrientes de la calificación de tests,
el coeficiente r b biseriaJ se puede emplear como índice de discriminación o

Para hallar el valor del coeficiente r b biserial, una de las fórmulas más
fáciles de aplicar es

x - X 'p\
r b -- p t~=j
,/ ') (8.3)
St ,{.Y/
~ ; \..../

Todos los símbolos tienen el mismo significado que el ya dicho en el caso


del coeficiente rb biserial-puntual, excepto y, que es la ordenada de la dis­
tribución norrnaÍtal que el área a la derecha de la misma es igual a p.
Consideremos los datos de la Tabla 8.2 y determinemos el valor del coe­
ficiente r b biseriaL
52,2 - 44,2 ( 0,46\
rb =---= .
J4,2 \0,3969/
8
=r;f5

(1,159)

0,563(1,159)
0,65
OTRAS TECNICAS DE COAAElACION 127

El coeficiente rb biserial es una estimación del coeficiente de correlación


r de Pearson. Sin embargo, no se puede manejar como éste. Por ejemplo,
no existe una tran sformación Z para el coeficiente de correlación biserial
que evite las distribuciones de muestras sesgadas asociadas a valores altos
de r. Tampoco interviene en las ecuaciones de regresión ni en el error típico
de estimación. Otra singularidad del coeficiente rb biserial es que, a veces,
su valor calculado es mayor que la unidad. Tales errores tienen su origen
en desviaciones de la ley normal de la variable continua, de la dicotómica,
o de ambas. Para los mismos datos, el coeficiente rb biserial es siempre mayor
que el r bp biserial-puntual. Lo hemos visto a partir de los datos de la Ta­
bla 8.2. ­
Como se mostrará más adelante (Capítulo 16), el coeficiente rb biserial
es un estadigrafo menos fiable que el coeficiente r de Pearson o que el coe­
ficiente rbp biserial-puntual. Con ello se quiere expresar que su cuantía fluctúa
más de una muestra a otra que el coeficiente r de Pearson. H üy en día, apenas
existen motivos que justifiquen el empleo del estadígrafo que comentamos.
Se han desarrollado diversos métodos abreviados de cálculo para obtener
el coeficiente r b bi serial. Sin embargo, desde la introducción de los orde­
nadores, estos métodos abreviados no son necesarios y no hay razón alguna
para seguir utilizando el coeficiente rb biserial, estadígrafo que, cualquiera
que sea el método de cálculo empleado, es inferior al coeficiente I'bp biserial­
puntual.

Coeficiente de correlación cuádruple o coeficiente <1>

El coeficiente <l> se utiliza cuando cada una de las variables es dicotómica.


Para comprender su aplicación , su pongamos que se hace un estudio de la
relación entre un tema de opinión y otro de conocimiento, proponiendo un
test a 200 estudiantes. Imaginemos que 100 de los estudiantes opinan a favor
y los otro s 100 en contra. Situemos los resultados en un cuadro de doble en­
trada como la Tabla 8.3, con lo s grupos a fa vor y en con tra en vertical a la
izquierda, y las puntuaciones correctas e incorrectas en horizontal en la
parte-superior. En las casillas figuran el número de los que respondieron al
tema de conocimiento correcta e incorrectamente , en los grupos a favo r y
en contra, Obsérvese que a cada casilla se ha asign ado una letra , así como

TABLA 8 .3
Respuestas de lOO esludiant9s a las c'..lBstiones del test

Correcta 1nco rrecta

~
A favor 70 30 100
a I b k
-1 - --
En contra ,, 30
I 70 100
e d 1
- ---- - - -
iOO 100 200
m n N
128 METO DOS ESTADISTlCOS APlICADOS­

a los totales margi nales que se han calculado. La expresió n del coeficien­
te o:I> es

(ad ­ be)
<!J= (8.4)
J (k)(I)(m)(n)

en dond e las letras representan las distintas frecuencias qu e aparecen en las


casillas de la Tabla 8.3.
Haciendo operaciones resulta:

(70)(70) - (30)(30)
<!J=
J (100)( 100)( 100)(1 00)
4900 - 900
- - - - --
10000
4000
10000
= 0.40

El coeficiente <!J, al igual que el coeficien te bise rial-pun tu al, es un coe­


fic iente d c correl ación del tipo de Pearson (Edwards , 1967, pág. 126). Esto
hace que sea de suma uti lidad tanto en la realización como en el análisis
de tests La mayor limitac ión d e este esladígrafo es que la cuantía de! coe­
fi ciente de penck de la fo rma en qu e estén repartidas las d os variables. Cuando
dich as vari ab les se rep a rten por igual . como ocurre en la Tabla 8_3, los límites

1 ABLA 8.4
Seis tablas de contingencia 2 x 2 que demuest ra n có mo la cuantía d e;
coeficiente d epende de los valorEs margin a les

2 3

¡;;- ]
r~°=s~
O 100 100 O 100 70
-­ I J'
iOO O 100 O 100 lOO O 30 30
I I L _----l
I

lOO 100 200 ¡'JO 100 200 JO 70 100


<1) = 1,00 q, = -1 ,00 (j) = - 0.43

4 5 6

~
40 30 I 70 10 40 50 O 50

30 ij 30
f
~
20 30 50
I 30 20 50

70 30 100 30 70 100 30 70 100


<) = o.·r' (¡, = - 0.22 <t> = - 0.65
f~
OTRAS TECNICAS DE CORRELACION 129
1,
máximos del coeficiente de correlación son + 1. Si los totales marginales
no so n Iguales, los valores máximos varían, pero. en cua lquier caso. son
menores que ± 1. Esto se Ilus tra en la Tabla 8.4. En 1 y 2 aparecen los va­
lores máximos de (l> cua ndo las categorías se reparten por igual. En 3 y 4
se indican los valores máximos c uando las dos categorías se reparten según
una base 0,70 - 0,30. En 5, cuyas categorías no se reparten por igual , tampoco
se alcanza el valor máximo. Sin embargo , si este valor d e <D igual a - 0,22.
se compara con e l coeficiente <D máximo. en este tipo de reparto. se obtendría
cierta indicación de la cuantía de la correlación existente entre ambas va­
riables. Para los datos que se considera n, el va lor máximo de <D está com­
prendido ent re -0,65 y - 0,66 (6).

Coeficiente de co,relación r l tetracórico


El coeficiente de correlación tet racó rico también exige di sponer los datos
en una tabla de contingencia do s por dos. Una hipótesis asociada con este
~ es tadígrafo es que las do s variables sean continuas y ha yan sido so metidas
a una dicotomíél. Antiguamente, el coeficien te lelracó rico se obtenía re~ol ­
viendo una ecuación de segundo grado en r l • Dado qu e el empleo de ec ua­
I

j
ciones de este tipo es laborioso, se llan ide ado y desarrollado diversos arti­
Dcios de cálculo que permiten calcular dicho estadígraro . El que se expondrá
aquí se debe a David o ff y Golleen (Apéndice H).
Suponga mos qu e se dispo ne de las respuestas de 100 personas a la s cues­
tio nes d e un test. Se hace un cuadro de d o ble entrada , co mo la Tab la 8.5,
con los distinto s valores en las co rrespondi e nt es casill as. Las hojas de r e~;­
puesta se dividi er0t1 en do s grupos, llllas con puntuación supe rior a 50 y
otras co n puntuación inferior a 50, contándose las rCspulóstas co rrecta , e
incorrectas de cada grupo, Obsérvese que a cada casi lla se ha asignado tina
letra de la forma usuaL En la tabl a d e Davido!'!' y Gohec:n (Apéndice H¡.
entrando con el valor de la relación adlbc, se obtiene la eSlÍmación d e l coefi­
ciente tetracórico . En nuestro caso, la rela ción citada es

(20)(40) = 800 = 2 67
(30)( 10) 300 '

TABLA 8.5
Respuestas ordenadas de 100
personas a las cuestiones de un
test para determinar el coeficiente
tetracórico de correlación

Correcta Incorrec ta

surc"orl
a 50
20
o
L;o b
I
.
50

~r.~.Icl-l
nr I -~-o ~ -40 --+-1-50­
~~~ 3~ 7: 100
130 M ETODOS ESTADISTlCOS APLICADOS

Entrando en las tablas con el valor 2,67, se deduce un coeficiente r, igual


a 0,37. Si se¡resolviera la ecuación de segundo grado para los mismos datos,
resultaría un coeficiente r, igual a 0,36. Ambos valores, sin en;bargo, son
muy próximos y, además, ambos son aproximados, pues en la
ecuación
teórica en r, se han despreciado las potencias superiores a la tie segundo
grado.
Si ad es menor que be, se establece y calcula la relación befad, con cuyo
valor se ent ra en las tablas. El mayor de los dos productos se coloca siempre
en el numerador. La tabla se maneja mejor cuando ambas variables so n di­
cotómicascon un reparto 0,5 - 0,5. Como estadígrafo, r, es m enos fiable
que el coéficiente r de Pearson y, en general, tiene poca justificación s u empleo,
puesto que puede utilizarse en su lugar el coeficiente <1>.

RELACIONES NO LINEALES

Ocurre con frecuencia que la relación entre dos variables no es lineal. En


esras condiciones, el coeficiente r de 'Pearson y las variantes de dicho r, tal
y como se han enu nc.i ado en este capítu lo, n o so n apropiadas com o medida
de la correlación. Si una relación es curvilínea, al aumentar una variable,
la otra puede aume ntar hasta cierto va lor y luego disminuir. Ejemplos de
esta clase se cit aron en el capítulo sobre correlació n. Si se utiliza el coefi­
ciente r como medida de la correlación , cuando los datos no obedecen a una
ley lineal, el valor de r calculado es siempre una subestimación de la ver­
dad era re lació n entfe ambas variables. A veces, esta relación es fuerte, pero
el coeficien te r que resulta se aproxima a cero. Dada la dificultad de conocer
a simple vista si los datos obedecen o no a una ley, d ebe trazarse el diagrama
de dispersión o nube de puntos. Siempre que el diagrama presente o sugiera
cierta desviación re~pectü de la le y lineal, no es aconsej a ble el empleo del
coefície nte r de Pearson. .
El coeficiente que debe utilizarse cuando la relació n entre dos conjuntos
de d a tos es c urviJinea, es la razó') de correlación , o coeficie nte 1]. El cálculo
de este coe llciente se ilustrará con lo s datos que figuran en la Tabla 8.6. Di­
chos datos representan las medidas de 200 personas según dos escala s: edad
y punt uación obtenida en un test de conocimientos.

Cálculo del coeficiente Y]

Para calcular 1] se reaI!za , en primer lugar, un cuadro de frecuencias, como


e l q ue representa la Tabla 8 .6. En ella figuran la edad sobre el eje X horizontal
y la s puntuaciones obtenidas en el test de co nocimientos sobre el eje Y ver­
tical. Una vez anotadas las frecuencias, se h:;lce el recuento y se obtienen los
va lores de la variable Y en el lado derecho de la tabla .
El método miÍs direct o pa ra calcular 1] consis te en definir el c uad rado de 1]
por la razón de la suma d e ios cuadrados correspo ndientes a la va riable Y
«entre>' columnas y la total.
2 Ly;
I},- x C~ - "2-' (8.5)
Ly,
TABLA 8.6
Distribución bidimensional de frecuencias de una muestra de 200 personas
se.gún la puntuación en un test de conocimientos y !a edad

E¡e X: Edad
Ele Y:
Puntu ac. (l5-1~) (20-24) (25-29) (30-34) (35-39) (40-~4) (45-49) (50-54) (55-59) (60-64) (65-69) (70--74) [ y' [y' [(l)'

85-89 16 16 16 256
80- 84 15 15 15 225
75-79 14 2 2 14 28 392
70-74 13 4 3 1 1 9 13 117 1521
65-69 12 3 3 4 3 14 12 168 2016
60-64 11 3 5 4 5 2 1 20 11 220 2420
55- 59 10 3 4 3 6 4 3 23 10 230 2300
50- 54 9 1 1 2 3 4 3 3 5 2 25 9 225 2025
< , ,
45-49 8 1 2 2 J 3 J
~
2 2 29 8 232 1856
40 -~4 7
, 2 3 4 20 7 140 980
3 2 2
35-39 6 2
'2" 2 2 2 3 3 3 22 (, 132 792
30-34 5 2 3 2 3 11 5 55 275
25-29 4 1
,
J 2 1 2 10 4 40 160
20-24 3 2 2 1 7 3 21 63
15-19 2 2 4 2 8 16
10- 14 1 1 1 1 1
5--9 O 1 O O O
-- - - - - - ­
f, 9 15 20 23 18 30 18 15 24 11 7 10 N= ~ -
~ - ¿=
x O 2 3 4 5 6 ,
~
8 9 10 11 200 1648 15298
· 132 METODOS ESTADISTICOS APLICADOS

con lo que

rEyi; (8.6)
lJ y x = ,I
'V LZ
y,

La suma total de cuadrados para la variable Y se obtiene fácilm ente a partir


d e los datos que figuran e n la ta bla citada. .

2: 2 = 2:ji( ,)2 _ (2:fy')2


y, y N

(J 648)2

= 15298 - 200

= 15298 - 13579,52

= 1718,48

El cálculo de la suma de c uadra dos «entre» columnas para la variable Y


a pa rece en la Tabla 8. 7. Es ta última suma de cuadrados se determina a par­
lir de las diferencia s entre las medias de las columnas restad as de las medias
de la di ~ i r ibu c ión completa . La primera columna de la T a bla 8.7 identifica
la s columnas de la Tabla 8.6 . Se fo rma con los valores x' , que figuran en la
última línea de la distribució n bi dim ~ nsional de frecuencias de la Tabla 8.6 .
La columna 2 se form a con las frecuencias de tas d istintas columnas. En la

TA8LA 8.7
Cálculo de la suma de cuadrados «entre» columnas para los datos
de la Tabla 8.6.

(1) (2) (3) (4) (5)


Colu!l!na Ix ¿y' (¿y')2 cr:.y') 2 /f.

O 9 42 1764 J 96,00
i5 73 5329 355.27
2 20 202 40804 2040,20
-' 23 244 59536 2 588.52
4 18 196 3.8416 2134,27,
S JO 27R 77284 2576,13
6 18 159 25281 1404,50
7 15 123 151 29 1008,60
R 24 173 29929 1427,04
9 11 65 4225 384,09
[O 7 43 1849 264,í4
11 10 50 25 00 240,00

L f~ c~ 200 L( ¿y' ) = 1648 ¿;("Ly')'!Ix = 14448,71


r

I
OTRAS TECI~ I CAS DE CORRELÁCION

columna 3 se halla la suma de y' (desviación respecto de un origen de tr¡¡bajo


arbitrario para y) para las frecuencias de cada una de las columnas. Como
133

ejemplo, hall-.:mos el valor que corresponde a la columna O de la tabla y lea­


mos transversalmente. La columna O tiene una frecuenci¡¡ igual a 9 y cuyos
valores y' So'1 1, 3, 3, 4, 5, 5, 6, 7 Y 8, respectivamente, que suman 42. De
esta forma se obtienen todos los valores de la columna 3. Después se elev¡¡n
al cuadrado cada uno de dichos valores, con lo que resulta la columna 4;
por fin, cada uno de estos cuadrados se divide por la frecuencia de la columna
correspondiente. Sumados estos cuadrados, se halla la suma de los cuadrados
«entre)) columnas como sIgue:

[L(Ly'W
N

(I648)2
= 14448,71
200
14448,71 - 13579,52

c=869,I9

Por canto, para los datos propuestos:


- ­

11 yx /
869,19
=, ¡ 7J 8,.13

= ~.5()57·84
= 0,7 JI

En resumen, el cuadrado del coeficiente r¡ VIene dado por la expresión

r¡2- L[(Ly')"jlxJ -- {[I:(Ly')]2jN}


(8.7)
yx -- Lfy'2 _ [(Lfv')2 j N]

Cuando estudiamos el coeficiente de correlación., observamos que la


correlación entre )( e Y era la misma que entre Y y X, razón por la cual solo
se precisaba calcular un coeficiente. Sin embargo. con la razón de correla­
ción no ocurre lo mismo y existen dos coeficiE'ntes. 11D0 entre X e Y y otro
entre Y y ,:r. Para obtener la expresión del otro coeficiente IJ no habría más
que sustituir y por x en la ecuación (8.7).

Resumen

Si los datos de una distribución bidimensional de frecuencias están ligados


por una relación lineal, los valores de los coeficientes r¡ y r coinciden. Si la
relación no es lineal, sino curvilínea, el coeficiente r¡ es mayor que r; la dis­
crepanCIa entre ambos coeficientes depende de la cuantía de la desviación
134 METODOS ESTADISTICOS APLICADOS

respecto de la linealidad. El coeficiente r¡ carece de signo. Un a simple ojeada


a un diagrama de di spersió n o nube de puntos d e un a di stribu ció n bidimen­
I
sional mostrará qu e en a lgunas zonas de l recorrid o la relación e ntre las do s
variables es positi va y en otras negativa. E l coefici ente r¡ solo mid e el grado
d e la relació n existente. El coeficiente r¡ depende ta mbién de l número de

columnas y d e las frecuencia s en las columnas . Es tas últimas deberá n ser


lo suficiente mente gra nde s para dar es tabilidad a las m edias de las di stin tas
columnas. .

DOS COEFICIENTES DE CORRELACION ESPECIALES

A continuación presentare mos do s mét odo s de correl ac ión qu e implican


,
más de dos vari ab les, el coeficiente de correlació n p arcial (r) y el d e corre­
lació n múltiple (R).

¡
Coeficiente de correlación parcial

Ocurre a me nud o q'u e la re lación en tre dos variables está cond icionada p or
"
un a tercera. Por ejemplo , su pon gam os qu e con oce rn os la correlación exis­
tente enlre las pu nlu aciones segú n lIn test de inteli gencia y las calificaciones
en malemáticas de los alumnos de una cla se, as í como la correlació n d e las
"
) mismas puntuél cioné:s seg\l n el test de inteligencia, pero c on las calificaciones
I
en inglés. Además. se dispone de la relació n existente en tre las calificacio ne s
e n matemáti cas y las califi caciones en ingl és. Esras dos disciplinas se hall a n
relacio n ada s (;o n las puntuacionC's según e l test de inteligenci a, y parece
existir cierla dependencia de una co n otra. ¿ Es real esta última rel ació n
h ipo tét ica, o <:s simplemente e l efecto de ambas variables relaci onadas con
una común d e imeligcncia? Mediante el coeficiente dé co rrelación p a rcial
es posible cont rc lar estos efectos d e inteligencia o «eliminar» su influencia.
También podría preguntarse cuál es la relación entr e las calificaciones e n
ing lés Y' e n mate máticas el imi nado el e fecto de intel igenc ia. En estas con di­
c iu nes. se 2.c ude a un coeficiente r d e ¡:orrelación parcial de primer o rd en ,
basa do en tres c oeficien tes r de ord en ce ro. La exp resió n general de l coefi­
cient e f' d e co rrdación r a,cial es

(8.8)

E l coeficiente r 1 2. 3 represe nt a la co rrelación entre la s variables una y d os


elim ina da la inl1ueneia d e la variab le tres . De manera aná loga es posib le
escribi r la s ex pr'~s ¡on es de los coefi cientes 1'[3 .2 y 1' 23. 1'
Los coeficie nt es de co rrelación parcial d e segund o o rd en son aqu eilo s
que I'e [acionan dos variable s eliminad a la influencia d e las otras do s va ria ­
bi es . D a do su escas o empleo , n o [o es tudiamos aquí .
OTRAS TECNICAS DE CORRELACION 135

Supongamos las tres variables siguientes:


1 - edad cronológica

2 - peso

3 -- puntuaciones según un test de matemáticas

En una muestra de varios cientos de alumnos , halladas las correlacio nes


entre las tres variables, se han obtenid o lo s valores siguientes:

= 0,80

= 0,50

= 0,60

Existe, pues, una correlación entre el peso y las puntuaciones segú n el test
de matemáticas que, con una muestra de este tamaño, es muy significativa.
Estudiemos la relación entre el peso y las puntuaciones según el test de ma­
temáticas eliminada la influen cia de la edad cronológica.
r 23 - (r I2 }(r0)
r = ­
23,1
V
1(1'
1 _ ''12
,2 )( 1
-
. 2)
l O
0,50 _. (0,80)(0,60)
",/(1 - 0,80 2 )(1- 0,60 2 )

0,50 - 0,48

- ----_.

, /(0,36)(0,64 )

0,02

0,48

- 0,04

Se observa que , elimin ados los efectos de la edad cmn o lógica, no existe
relación significativa entre el peso y las puntuaciones según el tes t de ma­
te máticas. Como el coeficiente r parcial es un coeficiente de co rrelación del
tipo r de Pearson, puede tratarse como tal.

Correl ac ión múltiple

En este textc. so lo se considera la correlación múltiple en su forma más si m­


pie, la rclación entre una variable y una co m binación lineal d e otras dos
variables . Supongamos los tres coeficientes siguientes basados en tres va ria­
bles, para un grupo numeroso de uni versitarios de primer curso.

Variable 1 ca lificación
=
Variable 2 = puntuaciones obtenidas según Ohio Sta/e Psycho!oKica l Exa­
mina/ion
Variable 3 - puntuaciones obtenidas según Coopera / fue Ma/hematics T es /
r l 2 = 0,5 0
rJJ = 0,60

rn = 0,40

136 METODOS ESTAÓISTICOS APLICADOS

Se trata de calcular el coeficiente de correlac ión múltiple entre las califica­


cio nes de los es tud iantes de primer curso y los efectos combinados (suma)
de los do s tests. La expresión a aplicar es la siguiente:

(8.9 )

Se han realizad o gráficas o ábacos en los cuales se lee con facilidad el


coeficie nte de co rrel ación múltiple R en el caso de que so lo exi stan tres va­
riables ; véase, por ejemp lo , Lord (1955).

METODOS DE CORRElACION POR RANGOS

· Con frecuencia lo s datos de qu e se dispon e aparecen en form a de rango s.


En otras ocasiones, un a de las variables pu ed e esta r en esta form a y la otra
en da to s nu méri cos, resultado de un a medició n . Es posible. a veces . red ucir
!ús datos o medidas a rangos: po r ej emplo , cuand o el tamaño de la muestra
es peque ño y no se sa tisfacen las hipótesis respecto de los p a rámetro s esta­
dí sticos. En tales circ unstancias se pueden aplicar di versos coefi c ientes, co mo.
por ejemp lo. e l coefi cient e p de correlación p or rangos-ordenado s d e Spearman,
y el coefic iente T de Kend all y el coeficiente W de concorda ncia de Kendall.

· Coeficiente p de correlación por rangos-ordenados de


Spearman

· Es el coeficiente m;is empleado en los m~todo s de corre lación por rangos.


En par ticu lar. es ap ropiado e n situaCIOnes en qu e el número de caso s está
comp rendid o entre 25 y 30, o aú n menos .. Por otra parte, es mucho más fácil
y rápido d e calc ul ar que el coeficie nte r de Pearson.
Pal'a explic ar el cálcul o del coeficiente de co rrelac ión po r r angos-ordena­
dos. u l ili zaremo s los dato s que fi guran en la Tabla 8.8. En ell a aparec en las
p unt ua c iones obtenida s por 17 a lum no s según Minneso la Paper Foun Board ­
y Olis S d í -Adminislering Tes t oI !l1enlal Abilily. Para obten e r el coeficiente
se siguen los SIguientes pasos :
l. Se conside ra la primera columna d e puntuac io nes Minn esola Papel'
Form BoaJ'd y se ordena por rangos. d a ndo a la puntu ación más alta el ran go 1.
Como la s puntu ac io nes han sid o ord e nada s de mayor a menor. esto resulta

,
OTRAS TECNICAS DE C ORRELACI O N 137

TABLA 8.8
Cálculo del coeficiente p de correlación por rangos-ordenados de
Spearman

.:""" "O I; S Sl' lf­


(iM inn . Paper Adminislering
Alumnus Fonn Boa rd » T es !» R¡ R2 D D2
60 60 1 "
."­
2 54 68 2 1 1
3 53 40 3 11 ,5 8,5 72, 25
4 49 52 4,5 3 1,5 2,25
5 49 51 4 ,5 4,5 O O
6 47 38 6 +4: 8 64
7 46 51 7 4,5 2,5 6,25
8 45 32 9 -1-'7 8 64
9 45 39 9 ~J 4 16
10 45 41 9 10 1
11 43 50 11 6 5 25
12 41 48 12 7,5 4,5 20,25
13 39 36 JJ }.6 3 9
14 :l8 48 14 7,5 6,5 42,25
15 32 40 15 ,5 11,5 4 16
16 32 46 15,5 9 6,5 42 ,25
17 30 37 17 1-5
..,
k 4
----­
~ = 386,50

muy fácil. Sin embargo, observemos que existe!l dos aiu mn os igualados.
con u n a punt uación dc 49. A estas dos puntu aciones se asocia n los rangos
4 y 5. Se hall a la media y a ambos alu!TInos se les asigna dicho ra ngo pro­
medio, que en este caso es 4,5. Todo s estos casos. c uando so n numerosos,
afectarán a la cuantía del coeficiente de correlación; pero corrientemente no
existe un número suficiente que justifique la aplicación de las fór mula s para
corregir estas circunstancias de iguales rangos.
2. Se orden a por rangos la segunda serie d e pu ntu acio nes, asociando
de nu evo el fango ¡ a la puntuación más alta.
3. Se hallan las diferencias entre las d os seri es de r angos. El signo de
~stas difereDó2.s carece de interés, puesto '1uc en la o pe ración sig uie nte hay'
que elevarlas ai c uadrado.
4. Se elevan al c uad rado las diferencias anteriores y se s uman los rc­
sultad os obtenidos e n la columna.
5. Se determ in a el valo r del coefi ciente de correlación po r rangos -orde­
nados a piica ndo la exp resión siguie nte:
6-¿D 2
p = l - N(N2 _ J) (8. 10)

siendo N = número de pares


p = coeficiente de correlació n po'- ra:lgos-ordenados
138 METO DOS ESTADISTICOS APLICADOS

En el eje mplo que se considera res ulta:

- 1 6 ~/ 38 6.. S)
p- -17(298-1)

2319,0

= 1 - 4896

= I -0.4 7

= 0. 53

lNTERPRETA C lON DE p. El coeficiente p de correlació n es d e l tipo d e Pearson.


En la práctica, se in ter preta del mismo mod o que r.

RESUMEN. El coeficiente p pued e sustituir al coeficie nte r cuando e l n úmero


de casos es p eq ue ño. Dicho p apenas se em plea para N grande, pues to que
si todos los datos están ordenados por ra ngos, se podría ca lcular el coefi­
cie nt e r d e Pearson.

Coeficiente T de correlación entre rangos de Kendail

El coefiClepte 'C de K endall se p uede empiear en to d os los caso s en q ue se


aplique el coeficient e p de correlación por rangos-ordenados de Spearm a n.
Co mo se o bserva a contin uación , T es algo má s iaborioso de calc ular qu e p,
pe ro presenta cie rt a5 ventajas sobre és te. Para explicar la form a de p roceder,
utiliza remos los datos de la mism a Tabl a 8.8. Los pasos sucesivo s so n los
siguien tes :
! . Se o rd enan por ran gos, como se hizo ante riormente, la s dos colUlTJ ­
nas de p untuacio nes. Por co modid ad, se esc riben d e nuevo di ch os rangos .

R I 1·:2 · 3; L! ~ 5; 4.5 ; 6: 7: 9; 9; 9; 1 1; ! 2: 13: 14; l 5,5; 15.5; 17


R2 2: 1: 11. 5; 3 ; 4.5; 14 ; 4,5; 17; 13 ; 10:. 6; 7.5; 16; 7.5; 11 ,5; 9; 15

2. Se obse rv a el prim er valor o ran go d e R 2 • que es 2. Se hace un re­


c uent o del número de ra ngos ma yores y m enores qu e 2 y que aparecen a
. la derec ha d e éL Existen I S ran gos ma yores que 2 y solo un rang o menor.
A c()n tilluación se co nsidera e l seg undo valor d e R 2 , que es 1. A su derecha
hay l S ran go~ ma yores que 1 y ninguno' men or que él Luego se co nside ra
e l tercer valo r, 11.5 ; a su derecha fi gura n 5 ra ngos mayores y 8 m e nores qu e
dicho 11. 5. El cua rt o valor. 3. tiene a s u de rec ha 13 ra n gos m ayo res y ni n­
g un o me nor qu e éL Sin em bargo. e l ra ng o 3 co rresponde en R¡ (en el o rd e n ­
nat ur a l) él Ull val or. 4.5 . que se repite . En ta les circunstan cias, no se c uent a
e n [( 2 tod o va lo r qu e en R l se repite. En e l caso que nos ocupa , solo se d e ­
bell co nt abi li zar 12 rang os ma yo res qu e 3 y nin gun o meno r que éL Se prosigu e
OTRAS TECNICAS DE CORRELACION '39
,
¡
d e es ta m a ne ra co n toda la se rie . P o r último , se efec tú a la sum a d e la s dife­
renc ias s igui e ntes (rangos m ayo res men o s rangos men o res) :

S =(15 - 1) + (15 - O) + (5 - 8)+ (12 - O) + (11 - O)


+ (3 - 8) + (10 - O) + (O - 7) + (2 - 5) + (3 - 4) + (6 - O)
+ (4 - O) + (O - 4) + (3 -- O) + (1 - O) -+ (1 - O) = 54

E sta suma S se sustituye e n la expresió n d el coe.fi c iente " que es

2S
T = -:-::-:-:-:---.,. (8 . 11 )
N(N - 1)
2(54)
- - ,.---'---'-­
17(1 7 - 1)
108
= ­
272
= 0.397

Coeficiente de concordancia W de Kendal!

Par a h a ll a r la rel a ci ón entr e tres o más co njunt os de ra n gos se p ued e e legir


un ra n go cualquié'ra y c alcula r e l coefici ente (; de Spea rm a n entre é l y cada
un o d e: los res ta nt es; ei proceso se continuar'la h asta o bténe r un coefl cie nt e
p entre cad a co njunt o d e d os ra ngos. Los coeficientes as í ob teni dos se po­
dría n p ro med iar. co n lo q ue e l res ultado se r ia UIl coefic iente globa l de la
re lac ió n .
K e nd alI , sin e mb a rgo , h a d esa rro ll ad o una técni ca y estab lecid o lIll esta ­
dí g rafo qu e h ace n innecesa ri o e l procede r ant e ri o r. I müg in e rn o~ qu e los
c inco mie mbros d e un j ura d o (m) o rd en a n p o r ran gos los proyeCtos d e d ie /.
pe rso na s (N) pa ra un co nc urso, y se desea hall a r la re lación gln.b al e ntre las
c a lificacio nes d e los cin co mie mbros. Sean di c ha s ca lificacio nes (d e n rd enJ
las qu e figuran e n la T a bl a 8.9 . Prime ro se suman las califica c ion es o ra n gos
d e los cinco mi e mbros d el jurad o en cad a .un o d e los proyecto:;. Di c h a~ s u­
m as a pa rece n en la column a 3. Luego se su ma n los valores de la co lu m n o 3.
o bte ni énd ose la s um a t o ta l de ra ngos. Pu ed e co mpr o barse medi a nte la ex­
pre,ión sigü icn te:

mN(N + 1)
S um a to ta l de rang o s = 2 (1). 12 )

(5)(10)(1 1)
- 27 5
2

Si n o ex iste re lac ió n a lg un a entre los r a n go ~ . d e be espe ra rse qu e la s um a


d e los ra ngos en cada fil a sea la mi s ma , igual a l pro med io d e la s um a to tal
de ra ngos, que en el caso q\l e nos oc upa se ria 275 / 10 , igua l a 27 5. A (;o nti ­
140 IVIETODOS ESTADISTICOS APLICADOS

TABLA 8.9
Cáloulo d el coeficiente de concordancia de los datos relativos
a un concurso de diez proyecTos por un jurado de cinco
miembros

(1) (2) (3) (4) (5)


R a n gos dados ror
los miembros del jurado S uma
Proyecto I 2 3 4 5 de rangos D D'

I 2 1 2 3 4 12 15,5 240,25
2 1 3 2 2 9 18,5 342,25
3 3 4 4 1 3 15 12,5 156, 25
4 5 5 5 5 1 21 6,5 42, 25
5 4 2 6 7 6 25 2,5 6,25
6 7 8 3 4 7 29 1,5 2,25
..,, 6 6 8 6 5 31 3,5 12,25
8 8 7 7 8 9 39 11,5 132,25
9 9 10 10 9 8 46 18,5 342,25
10 10 9 9 10 10 48 20,5 420,25

2:: ~" 275 2: -~ 1696,50

nuación se hall an las dife renc ias de la suma d e los ran gos en cada fila respecto
del citado promed io y, después, se elevan a l c uad r ad o y se suman los va lores
oble nid o~. Las o peracio nes figur a n e n ia s column3 s 4 y 5 d e 1", Tabla B.9.
Par", calcular W se aplica la ex presió n de definición sig uiente:

(8.13)

.12(1696,5)
(25)(10)( 100 - 1)

= O.E2

INTERPRETAClON DE W . La c uan tía del coeficiente de concordancia W in ­


dica el grado de acuerdo - -concordanc,ia- entre los cinco miembros del
ju rado respecto de la ca lificación de los di ez proyectos . El acuerdo to tal
co rresponde ai caso 111 = 1. Y la carencia de acue rdo a W = O.
En la Tdbla 8. 10 se res umen la." características principales d e los dis­
tintos coefici e nt es de co rrelación.
OTRAS TECNICAS DE CORRELACION 141

TABLA 8.10
Resumen de las caracteristicas principales de empleo de los distintos
coeficientes ue correlación

Variables

Coeficiente Símbolo x y

Pe arson Continua Continua


.Biserial-pu n tual Continua Dicotómica pu ra
Biseri al Continua Continua, pero actuand o como
dicotómica
T etracórico r, Continua , pe ro C o ntinua . pero actua ndo com o
actuando co mo dicotómica
dicotómica
Cuádruple Cl> Oicotómica pura Dicotómica pura (véase texto)
Razón de correlacipn r¡ Continua Continua
Rangos-ordenados d e p Datos expresa ­ Igual que X
Spearma n dos en r an gos.
o con posibili ­
dad d e ser o r­
d ~ nado s p o r
rangos
Concorda ncia de Ken­ w Utilizad o co n tres o más corvuntos d e rangos
da ll
r de K endall r Datos expresados en rangos o con posibilidad d e
ser o rd enados por [éJng05

EJERCICIOS
1. Las puntuaciones según un test de aptitud y la calificació n nnal de un curso d e
formación básica , apto y no apto, apa recen en la tabl a siguiente:
Puntua-
Cio nes- Apto No api O

9 9 1
8 12 2
7 13 4
6 JO 5
5 12 4
4 10 8
3 6 10
2 2 10
i O 2

Mediante la fó rmu la (81 j, cal cul a r e l c oefici ente bi ser ia l·p untual d e los d<lIOS .
2. Se desea construir una cierta escala pa ra medir la actitud hacia Rusi a. Una de
ias cuestiones propu~stas es: «¿ Piensa que el puebl o ru so está conf'onnc con su
142 METODOS ESTADISTICOS APLICADOS

actual forma de gobierno?» La escala se comprueba previamente en una muestra


de 200 personas. La distribución de las respuestas «SÍ» y «No», respecto de la
puntuación total obtenida en la escala, fígura a c:Jntinuación:

Puntuación
tGtéJl Si No
95- 99 I O
90-94 6 O
85-89 18 I
80-84 22 1
75-79 31 3
70-74 20 5
65-69 18 9
60-64 12 13
55-59 6 10
50-54 4 8
45-49 I 5
40-44 O 3
35-39 1 O
30-34 O I
25-29 O 1

140 60

Calcular el coeficiente r b " de correlación biserial-p'.mlual ent.ré la clleslióiJ y la


puntuación total obtenida.
3. Calcular el coeficiente r b biserial aplicando la fórmula (8.3) a los datos de! Problema l.
4. CalcuLlf eí coeficiente cD de los siguíentes datos:

Correcto Incorrecto

Inferior 6S 35
Superior 25 75

fí. i. Cl,{í! es el valor de coeficiente r, tetracórico de los datos del Probiema 37,
6. Siete profesores son calincados por los alumnos de p;,imero y los de segundo curso
de facultad según su claridad de exposición. Los resultados fueron tabulados de
la Inanera siguiente:

Profescn Prinlcro Scgl!nOO

44 58
2 39 42
3 36 18
4 35 22
5 33 31
6 29 38
7 22 38

,.Cuál es el codiciente p de Spearman de estos datos?


OTRAS TECN1CAS DE CDRRl _ACION 143
,,
7_ C alcular el coeficiente, de Kenda ll d e los datos anteriores.
8 _ C uatro jueces hacen un a c lasificació n po r ran go s de ocho penados seg ún su dis­
posición para la liberta d condicio n al. E l resultad o e s el sigu iente: -.

J ueces
(1) (2) (3) (4)

.1
2 2 4 3 2
3 3 3 2 4
4 4 2 4 3
5 5 6 5 5
6 6 5 6 7
7 7 7 8 6
8 8 8 7 8

M ediante e l coeficiente de conco rdancia , indicar el grad o de acuerd o entre los


jueces.
9. Calcular la razón de co rre lació n 'I xy de los d a tos d e la T a bl a 8.7 .
10_ Para es tudiar la as imi lación de las matem á ticas. un in vestigador esta blece la re­
lación ent re las pu nt uaciones según !.l n test d e capacidad es pac ia l y o tro de ra pidez
de cálcu k> . O btuvo las corre lacio nes siguientes:

CapaCIdad R apidez Asim ilació n


espacial d e cálc u lo de conceptos
--_._.. . _ _._.-------_ .• __ ..... _.__ ._.•_ ­

Capac id ad espacial 0,522 0,496


R:fpidez de cá lculo 0, 254
A SllUilació!l d<o cor:ceptos
- - -- - -_._ - - - _ . _- -- - - - - _ .. _ ... _. - - _. _ - -_._--- _--_ ......._ -_._--_
.. ..

a _ ¿ C uá l es la cor re lació n entre la asimilació n de con ceptos y la capacid ad espacial


elim ina ndo la influencia de la rapid ez de cá lc ulo?
b. ¿ C uá l es la correlació n e atre a similac ió n d e co nceptos y la rapidez de cá lcul o
eliminando la influ enc ia de la ca pac id a d espacia l ?
1 L El coefic iente de correlació n entre las ca lificacio nes d e u n curso d e maestría indus·
t rial y lIn test de ca pacidad mecá nica es 0,50, y co n un test de destreza ma nu a l dé
0.2 0 Hal! ar el coeficien te de co rrelació¡, méJltiple é a l re dic ha $ ca lifi cacio nes y los
efecto s combinados de las puntu acio nes o btenid as segú n los tests de ca pacidad
mecánic3 y de dest reza manl1aJ.
12. Con lo s d a tos del P rob lema 8 d el C a pítulo 7 c a icul ar las correlac iones po r rangOJ·
ordena d os de Spearmau entre los distinto s conjunt os de puntuaciones.
capítulo 9
REGRESION LINEAL

En el Capítulo 7 se observó que una de las condicio nes básicas que deben
c umplirse para aplicar el coeficiente de correlación de Pearso n es que exista
una relación lineal entre las dos variables e n estudi o. En este ca pítulo vere­
m os con m2s detalle el problema de la regresión y s u a plicación para pre­
decir los valores de una variable, cuando se conoce <.::1 valor d e la otra. Por
ejemplo, las calificaciones finales- de cur so se pueden pred ecir a pa rtir de las
puntuaciones según un tes t de capacidad mental, co m o e l S cholastic Aplitude
Test del Colle¡;,c Entrance Examination Board. En este caso co nc reto, las
puntuaciones según el test de aptitud son las que predicen y cons titu ye n los
valores de la variable independiente. Le; qu e se predice. es decir, las califi­
caciones finales, es la variablE; dependient e o funció n. Mediante la gráfica o
la ecuación de la regresión se pueden inferir los valo re s de la variable de­
pendiente a partir de los que adquiera la var iab ie independiente. Es casi
una norma emplear lé' letra X para la variable indepe ndiente , e Y para la
dependiente.

Ecuación de la recta

La ecuación matemática d e una lín ea recta es


y = a + bX (9.1 )

Veamos , en primer lugar. lo que re prese ntan las letras a y b, que figuran
en la ecuación anterior. Pan! ell o, consideremos un ejemplo; la eruación
y ~ 4 + 2X. En ésta. dand o va lo re s a X se dedu cen, haciendo operaciones,
los corres po ndi en tes de Y. Algun os de d ichos valores se muestran a con­
tinuación :

X y
,
O 4 }

I 6 '.'

4 J'}
.~

8 20
ESiO S pa,es de va lores se pueden rC'p rese nt a r en una gráfica . co mo aparece
en la Fig. 9. l . Como se tra I a d e una recta , so lo se req uÍe re n do s puntos para
14~
REGRESION LINEAL 145

o 2 345 6 7 8 9 10 X

Fig. 9.1. Dos rectas de ig ua l pendi enle .

determin a rla por completo , esto es, bastan con do s pares de valorcs para
tra za rla. Examinemos ahora con algún detalle esta recta. Obsérwse que
para un increm en to de un a unidad e n la variable X, el incre mento de la va­
riable y es de dos unid ades . El fa c to r 2 de esta ec uación se iden¡irka como
el coeficiente b de la ec uación (9 . 1). El coeficiente ó indica lél rela cic')I1 ellllT
la variación de Y y la variación de X. Dich o cociente se llama p('i1(/lc ll!c de
la recta En la Fig. 9.1 se ha tra , ado otril recta. Y ~= J + 2X. Es r~tralc\;1
a la anterior por tener la misma pendiente. En teoría, sob:'e est os ejes sc
pueden trazar infinita s rectas de pendien te igual a 2. La pendiente d e la s
dos rectas de la figura es posittV'", ya que dichas rectas se elevan de izq uierda
a derecha d e la gráti ea. Como se dijo anteri or·mente. un a recta d e cstc [i['u
indica una relación positiva elllre las dos variables.

2
2

1
O 1 2 3 4
'~-'--
L .LI_-'--_,-'--_-'-_'---_~ 6 7 8 9 10 X

Fig. 9.2. Rec ta de pendi ente nega liva .

IU
146 METODOS ESTADISTICOS APLICADOS

Observemos ah ora la Fig. 9.2. La ecuación que se representa en la grá­


fica es Y = 4 - O,Sx. Dando valores a X se obtienen lo s correspondien­
tes de Y:
x. Y
O 4
1 3,5
2 3
3 2,5
4 2
8 O
En este caso, a un aumento de X de una unidad , de ° al, por ejempl o, le
co rresp onde una var iación de Y d esde 4 h asta 3,5. El cociente de ambos
increme ntos, de Y res pecto de X, vale 0,5. Ahora bien , como al au mentar
un a variable la otra disminuye, el coeficiente b es - 0,5.
Hemos dicho que existe un número infinito d e rectas con la misma pen­
diente , las cu ales pueden trazarse, en teorí a , so bre los mismos ej es. Dos de
t. ales rectas aparecen en la Fig. 9.1. Obsérvesc que un a de estas rectas corta
1 al eje Y de ordenad as en el punto 4, y la otra en el punto 1. Estos valores,
4 y 1, se identifican como los coeficientes a de las ecuacion es de las dos rectas.
Po r tanto , e l coeficiente a es la orden ada en el orige n, y representa la dis­
tanci a , segú n el eje Y, desde el or igen h asta la intersecció n de la rect a co n
d icho eje. Un coeficiente a particular determin a una de las infinitas rectas
d e igual pen diente.
La recta q ue ap arece en el estudi o de la r eg re ~ión suele escribirse en una
form a análoga a 1;1 a;¡terior :
y ' = (/ + bX (9.2 )

con la di ferenc ia d e fig urar y' en lugar de Y ; Y' se lee «valor previ st o de y »,
El va lor de Y' no suele ser el mismo que e l de Y, puesto que la puntuación
que se predice a partir de dicha ecuación no es, en gener al, igual a la que se
obtendría e n la realidad . Los va lores Y' previstos de Y está n , normalmente,
más pr óxi mos a la media Y que los valores observados de Y. Por esta razón,
e! fen6meno se co noce CO;¡ e l nombre de reg resión y se expondrá más ade­
larHe.

Cálculo de los coeficientes a y b

La difer<::nc ia entre la puntu ación obte nida (Y) y la prevlsta (y' ) se llama
error de predicción. La recta de regre sió n , o línea de aju ste ó ptimo, se sue le
de fin ir como aquella recra res pec to de la cual la suma de los cuadrados d e
los erro res de predicl'ióll es mínima. A p a rtir de la ecuación (9.2) se tiene:
y' = a + bX
y - Y' = Y - Ca + bX)
en donde e l primer miembro es el error de predicción.
REGRESION LINEAL 147

Estos errores de predicción se elevan al cuadrado y se suman:

L( Y - y ') 2 = ::[ y - (a + bX)]2


Para obtener los valores de a y b, que hacen mínima la suma de los cuadrados
. de los errores de predicción , h ay que derivar la ex presión a nterior respecto
de a y de b e iguala r a cero ca,da una d e dichas derivadas. Se obtiene un sis­
tema de dos ecuaciones d el que se deducen los citados coeficientes:

b = L
_X-=-Y~[,-,-(L:-X-:-,)-'-.-,;-Y
( L ,...:.).:,-IN-c]
(9.3)
yx LX2 _ [(LX)2 IN ]

a,x = Y - byAX) (9.4)

que so n los coeficientes de regresión de «y so bre X », esto es, los que permiten
predecir los valores de Y dados los de X.
Anteriormente h emos viste que

y
{i:X)(í: Y)
Lxv
, = LX Y - - --.-
N .­
con lo qu e el coeficiente b, b vx [ecuación (9.3)J. se puede escribir en fUOCH'D
d e las desviaciones como sigue :

(9.5)

Corno existe n dos rectas de regresión , excepto cua ndo r = 1,00 que coin~
cidcn. se sigue 'que hay otro par de coeficien tes d e regresión, mediante los
cuales se pueden predecir jos valores de X a partir de los de Y. Estos coefi­
cientes son:

. ___ L Y Y -- [(LX)(L Y)I N] b.


b 2 o len (9.6)
xy L y - [(L YflN]

(9.7)

UN PROBLEMA REAL. Vamos a explicar el cálculo de los coeficiente!; de la


recta de regresió n utilizando los datos de la Tabla 7.4. Para dich os datos
se obtuvo anteriorment e el coeficien te de correlació n de Pearson entre las
puntuaciones ~,:: gún los tests 1 y 2. Los datos se codificaron restando 100 de
cada puntuació n obtenida según el test 1, (Y) , y 60 de cada una d e las obte­
148 METODOS ESTADISTICOS APLICADOS

nidas segú n el test 2 , (X). El coeficiente de correlación se determinó med ian te


la expresió n (7.5). Las sumas y estadígrafos obtenidos fueron lo s siguiente~ :
LX = -4 LY= -111
2
LX = 7554 I:y 2 = 3827
LXY = 2209
x = 59,9 y = 96, 8
5x = 14,7 5y = 10,0
r xy = 0,429 = 0.43 N= 35
Comenza remo s hall and o la recta d e regresió n d e y sobre x, es decir, la
ecuación que p ermite pred ecir el valor de Y, puntuaciones según el test 1,
a partir d e los valores de X, pun tu aciones según el test 2. El coeficiente b
se obtiene de "la expresió n (9.3 j:
• LX Y - (L:X)(I: Y)/Nj

0 yx = "-L
"'--
X"'"7."_
(LX)2/N j

(-4)( - 111)
2209 - -- .
35
-- - - - (_4) 2
7554 - - -~--
35
2209 - 12,7 2 196,3
0"= - - - - -- - = --:--:-c---c
7554 - 0 .5 7553,5
0.29 1

El coeficiente a se dedu ce d e la expresión (9.4):

a yx = y - X(b vx )
= 96,8 - (0,291)(59,9)
= 96, 8 - 17,4
= 79 ,4

Po r último, sustitu yendo valores e n la ecuación d e la r ecta de regresió n


Y' = a + hX. resu lta Y' O~ 79,3 + 0,29 !X, que co rresponde a la regresió n
de y sob re x. para los datos co nsiderad 9s.
Tracemos la gráfica d e esta recta. Como do s puntos determ ina n por
completo un a rec ta, no hay más que dar un par d e va lores a X, susti tuir en
la ec uación de regresió n anterior y o btener el par corres pondiente de Y ,
situando luego dich os puntos en el diag ram a de la Fig . 9.3 . Sin embargo;
vamos a d a r tres valo¡es a X, obtenJend o o tro s tantos de Y previstos:
x Y'
20 85,2
40 91,0
60 96,9
REGRESION LINEAL 149

125
,
120
115
110 x' = 0,632Y-l ,30

105
100
Y' = 79,4+0,291X
95
90

85

80

75

-c.¡,,
O 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90
Fig. 9.3. Las dos rectas de regresión de los datos J~ 1<1 Tab la 7.4.

Al situar estos tres pares de punto s en el di<Jgrarila de la Fig. 9.3. resulta !¡,
recta de regresión de y sobre x.
Como hemos dicho anteriormente, existen dos rectas de regre~ión salvo
en el caso en que r = 1,0 e n qu e coincide n . Detenninel1los, pues. la rcclaJe
regres ión de x so br~ y, este es, la ecuac ión que permite predecir los va lOres
de X a pa rtir de lo,> valores de Y. El coeticien te h es

LXl' - [l2:X)(I: Y)/NJ


b xy = 2:l' 2 -[(LY)2iN-J­

2209 - (-1] 1)( -4)/35

3827 - ( - 1¡ 1)2735

2209'- 12,7 2196,3


= - - - - -- =

3827 - 352 3475,0

= 0.612
El coencien te (1 es

(1xy = X - (Y)(h xy )
59,9 - (96,8)(0,632)
59.9 - 61,2
- 1:3
Por tanto, la recta dE regresIón de x so bre y tiene de ecuación:
X' bxyl' + (Jx y
0 ,632 y - 1,30
150 M ETODOS ESTADISTICOS APLICADOS

Al igual que se hizo con la otra recta, hall emos tres punto s para trazarla
sobre los mismos ejes de la Fig. 9.3. Su stituyendo en la ecuación tres valores
de> Y, resultan otros tantos de X:

X'
120 74,5
100 61,9
80 49,3

COMPROBACION DE LOS CALCULOSo Existe n diversas forma s de sa ber sí los


cálculos realizados son correctos. En primer lugar, e l 'producto de los do s
coeficientes b de regresión debe ser igual a ,.2:

(by,.)(b xy ) = ,.2
(0,291 )(0,632) = (0,429) 2
0,183912 = 0,184041
0,1839 = 0,1840

que se verifica si se desprecian los errores de redondeo.


En segundo lugar, una vez trazadas las dos rectas de regresión, se deben
cortar en un punto cuyas coordenadas son la media de X y la media de Y.
Observando la Fig. 9.3 se confirma el hech o tan importante, Quiere esto de­
cir que sustituyendo el valor de la media de X en la ecuación de la recta, el
valor previsto de Y coincide con la media de Y.
Sustituyendo el valor 59,7, media .1', en lugar d e .:r re sulta:

Y' 79,4+ (0,291 )(59,9)


-- 79,4 + 17)4 = 96,8

que es la media de Y. Si se sustituye en la otra recta de regresión el valor de


la media de Y, el valor previsto de X es la media de X,

OTRAS EXPRESIONES DEL COEFICIENTE b y D E LA RECTA DE REGRESIO N , La ex­


presión (9.5) define el coeficiente b de regresión de y sobre x:

Multiplicando numerado r y denominador del segundo mie mbro por


J LX 2 Ly 2 resulta:

, r.xy j r.X2¿y2
o =~-
yx ¿x2 iv 2 , 2
Y ~X "'y

Ordenando términos:
b = r.xy j"f.x 2 r.-?
yx j ¿X 2r.y2 E~¿-
REGRESION LINEAL

y mediante la expresión (7.4 J, se puede escribir:


J r.X 2I. y2
b yx= r xy Lx 2

Dividiendo por N los dos términos de la fra cción subradical,

~~
b yx = rxy J 1¿~2)2
N

(9,R)

P o r tanto, si en la recta de regreslOn Y' = ay," + byxX, se su stituyen a yx


dado por (9.4) y b"" dado por (9,8), resu lta :

y'=

_ Sy _ Sy
y ' = y - rx y - (XJ\ + r x y -- X
Sx S.x

_ Sy Sy _
y'= Y+ r xy - X-r X
)' - X
Sx Sx

V ' -_
.t
~ s'(\'
1 + r Xj - ,J - v ).
'/l (9.9)
Sx

Error típico de estimación

Hemos dicho anteriormente que, en general, las puntuacio nes Y observadas


no coinciden con las puntuaciones Y previstas , Existe un error en toda p re­
dicción y su cuantía se halla por medio de un estadígrafo conoc ido con el
nombre de error típico de estimación, Si el coeficiente de correlac ión entre
do s varíables es grande, el error típico de estimación es pequeño, y recípro­
camente . En el caso de un a relación perfecta entre las va ri a bles X e Y (corre­
lación fun cional ), la Y obse rvada es, exactamente, igu al a la prevista. Esto
significa que todos los va.!ores de Y ' pertenecen a la recla de regresión, En
152 METODOS ESTADISTICOS APLICADOS

es ta S condiciones no existe desviación respecto de la recta para los diversos


valores correspondientes a X, no se comete error alguno al hacer las esti­
maciones. En el c:'so contrario, es decir, cuando las dos variables no están
relacionadas , la recta de regresión es paralela al eje X. La ecuació n de una
recta , cuando b es igual a O, es Y' = a. Si b es igual a O, a = Y. Por tamo,
cuando n o existe relación alguna entre dos variables, el valor previsto de
y es igual a la media de Y, esto es, Y' =Y. En esta s condiciones el error
tipico de estimación es máximo. Se tiene entonces la desviación típica d e
la va ria bl e Y. El error típico de estimación varía entre O y la desviación típica
d e la variab le dependiente (Y). En la mayoría de la s situaciones que se pre­
sent a n e n la práctica, el error típico de estimación está comprendido entre
a mbas cotas.
Como cada puntuación obtenida difiere oe la puntuación esperada o
prevista , se tiene una discrepancia o diferencia entre cada par de dichas
puntuaciones; si se elevan al cuadrado, se suman los resultados, se di vide
por N - 2 Y se ex trae la raíz cuadrada, se obtiene el error típico de estimación.

(9.10)

U na expres ió n más útil en la práctica es

q ue equi vale a
i
fEyl _ r(~:xy)2) ¿\2)
s ."X = \j1":: N _ 2
(9.11 )

U na vez obte nidos todos jos valores qu e intervier:en en (9.11) del cálculo
de los dos coefi cie ntes b de regresión, lo qu e resta es suslituirlos en dicha
ecuación (9.11).
Obtendremos ahora el erro r típico d e estimació n para predecir los valores
de Y a partir de los va lores de X (regresión d e y so bre x), para los datos de
la Tahla 7.4. Sustituye nd o en la ecuación (9. 11). resulta:

s = 0475 - [(2196,3) 1/75 53,5]


\j

¡
)X 35 - 2

= / 3475 - 638,~
\i 33

= f2836, ~ J
y 33
¡o-- _ ..­
= y85,9515
= 9,27 = 9,3
R'EGRESION LINEAL 153

Análogamente se obtiene el error típico d e es timación asociado en la


regresión de x sobre y, esto es, en la predicción de los va lores de X a parti~
de los valores de Y.
Otra ex presió n d el error típico de estimación que suele aparecer en los
formularios es

(9.12)

Con los datos anteriores se obtiene:

s yx = 10,0 ,}1 - (0,429)2


10,0 ,}0,815959
- 10,0(9,03)
- 9,03

La nueva expresión se aplica c uando el tam año de la muestra e3 grande.


Sin embargo, cuand o las mu estras son d e tamaño pequeño, menor de 50,
aparece un sesgo. Esto se ha te nid o en cuenta e n las fó rmulas (9.10 ) y (9.11 J.
La expresión f9.12 ) se pued e corregir por sesgo multiplicando el error típico
de estimación obtenido por J N/(N - 2). En el caso que nos ocupa se tiene:

../N/(N- ij = J35jjj = Jl,0606 = 1,029

(9,03)( 1,029) = 9,29 = 9,3

qu e coinc.ide con el valor obtenido median te (9. JI).

INTERPRETAClO N DEL ERROR TIPICO DE ESTIMA C ION. Consideremos de nuevo


el valor 9,3 para la interpretación del estadígrafo en cuestión . Al predecir
y a partir de X se puede afirmar qu e par<l un valor dado de X, la proba­
bilidad de que un caso observad o pertenezca al intervalo definido por e l
valor previsto de Y más y menos una vez el erro r típico de estimación el;
igual a dos tercios aproximadamente. Para X igual a 20, el valor previsto
de Yes 85,2( Y'), con lo que aprox.imadame nte en el 68 por 100 dé rajes pre­
dicciones, los valores reales de Y pertenece n al interva lo 85 ,2 ± 9,3 , es de­
cir, entre 75 .9 y 94,5.
En la Fig. 9.4 se representa gráJicamente eSle hecho. Suponien d o qu e el
error típ ico de estim ación es co nstante a lo largo de todo el recorrid o, se
podrían trazar dos rectas paralelas a la re cta de regresIón a 9,3 unidades por
encima y por debajo de la misma. Do s tercios aproximadamente de las pun­
tuacio nes obse rvadas pertenecen a la fra nja definid a por las dos rectas pa­
ra lelas externas. Análogamente , se po drían traza r ot ras do s rectas para le las
a las anteriores defini endo una fr a nja a la que pe rtenezcan el 95 por 100 de
íos val o res observa d os; para ello no hay mas <lue llevar dos vece :; e l erro r
típi co de estimación a cada lado de la recta de regresió n. En este tipo de in ­
terpretación se puede considerar al error típico d e eSlÍmació n co mo un a
d es viación típica. Para e ll o se d ebe suponer qu e las distribu ciones respecto
154 METODOS ESTADIST1COS APLICADOS

115

110

105

100

95

90 y' = 79,5+ O,29X


+9,3
85

80

75

70 -9,3

65 J.o
L
O 5 10 15 20 25 30 35 40 45 50 55

F!g. 9.4. Recl2 de re15n:'.sión de Y sobre X. C?d a rccta para lela dista un
error típico de esti mación, por encima y por debajo, de la recla de regresión.

de la recta de reg resión, aunq ue no tengan igual varianza (homocedasticidad),


son normales. .

Efecto de regresión

Hace muchos años, al estudiar las relacio nes e ntre padres e hijos y entre
madres e hijas, Francis Galton observó qu e los hijos de padres a ltos te ndían
a ser altos , pero no w.nto como los padres, y que los hijos de padres bajos
tend ían a se r baj os, aunque no Lanto como los padres; lo mismo observó
po r lo que se renere a las madres y las hijas. Con otras palabras , la descen­
dencia, tanto de padres altos como bajos, tendía. en el sentido de regresión ,
hacia la media. Si la co rrelación entre las esta turas de los padres y los hijos
fuera perfecta, no habría regresió n, los puntos representativos de la estatura
de los p adres respecto de los hijos deberían pertenecer a un a recta.
Sin embargo, como no existe una relación perfecta , y dado que el coe­
ficiente de correlación entre dichas dos varia bles suele ser pequeño, a l ig ual
tju e las ca lificaciones académica s respec..:to de las puntu acio nes de los tests
de capacidad men tal , se p resent a co n frecuencia el efecto de regresión. Las
personas muy por encima o muy po r debajo d e la medi a para una variable,
no suelen ser tan superior o inferior respecto d e la otra variabl e; es decir,
su s puntuaciones en la segunda vaIiable no son tan extremas p o rqu e tien­
den hacia la media de la segund a variable.
.,..

REGRESION LINEAL

PREDICCION MULTIPLE

Hastu aquí hemos estudiado la predicción de una variable, Y, a partir de


otra, X. Un ejemplo característico de ello es la predicción de las calificacio­
nes dé: unos alumnos (Y) a partir de un test de capacidad mental (XL1:l~LQ~r
predicciones respecto de una sola variable no es el método más eficaz de que
se puede disponer en todos los casos. En este capítulo hemos hecho predic­
ciones con un coefiCÍente r deO,¿f3~"que es un coeficiente de validez bastante
clásico. Observemos el ancho de la franja al emplear el error típico de esti­
mación para establecer una predicción. Decíamos que, dada una puntuación
X cualquiera, la probabilidad de que una puniúaéic)n Y pertenezca al inter­
villa, centrado en la recta de regresión, con límites más y menos 9,3 (error
típico de estimación), es igual ados tercios, o sea, el 68 por 100, aproxima­
damente. Esto deja mucho que desear. Para mejorar notablemente la efi­
ciencia o exactitud de la predicción se acude al empleo de más de una variable
para predecir otra única. Por ejemplo, en la predicción del índice de cali­
ficación de los alumnos de primer año de Facultad, un miembro del comité
de admisión emplea una ecuación de regresión respecto de varias variables,
como son el rango en el centro de segunda enseñanza, la puntuación según
la parte oral del Scholastic Aptitude Test, y la puntuación en matemáticas
según dicho test. Se podrían añadir y considerar más variables. Como se
observó en el Capítulo 8, lo que procede es una generalización de la relación
él. base de un coeficicnte R de correlación múltiple, que podría c';cribirse en
la forma RJ . 234' Aquí 1 es eí criterio a predecir, esto es, la runtu;lci,in de
los alumnos de primer año, y 2, 3 Y 4 son las tres variables citada., <lnicnpr
mente Se trata del coeficiente de correlacÍón entre las calitlcaeion::s y la
combinación de las variables 2, J Y 4. La eficiencia de la predicción aumenta,
en general, hasta la cuarta o quinta variable que se aliada; d.espués, la ven­
taja adicional en la capacidad de predicciór; no compensa el tiempo emplea­
do. La determinación de una ecuación de regresión con más de una varIable
se sale fuera de los límites de este libro. Hace tiempo, hailar la ecuación de
ia regresión múltiple era una tarea penda, pero con la introducción de los
ordenadores, hoy en día, es muy sencillo.
Un coeficieEte R múltiple tiene un error típico de estimación asociado
muy análogo al que hemos visto en el caso de una varÍable:

(9.13)

EJERCICIOS

1. Calcular Y' en cada uno de los casos siguientes:

a. x= 5 a =-3 b= 2
b. x= -10 a= 4 b= -2
c. x= ····3 Q= 2 b= 3
d. x= 7 a= 50 b ~~ 0.125

2. Con los datos siguientes:


156 METODOS ESTADISTICOS APLICADOS

X y
Puntuaciones según el Calificac ión
«College Board Verbai» media

710 5,50

680 5,70

670 5,20

660 5,10

580 5,00

540 5,00

520 4,80

500 4,90

480 4 ,40

440 4,60

Hall a r el valor de Y' aplicand o la s fórmul as apropiada s, que corresponde a un


valor de X igual a 650.
3. ¿.Cuál es el error típico de estima ción en el Pro ble ma 2 'i
4. El Problema 6 del Capítul o 7 y<l se ha resuelto.
a. Determinar la ecuaci ó n de la recta de regresión pa ra predecir los valores de
Y a partir de lo s valores d e X.
b. Ca lc ular el erro r típico de es tim ación en la predicción d e Ya partir d e X. Uti·
lizar las dos fó rmul as para el esta dígrafo y compa rar lo s res uitados.
5. Un colegio pequ eño es tudia unos tes ts de admisió n . Se propo ne un test de co no·
c imi éntos ma te máticos corn o parte de l examen d e a dmi sión . L as puntuacio nes
~c gún dicho tes t 'j las ~alinc a c i o nes en lnat e múticas qv e luego obtu viero n 20 alum­
nos de ingreso fu ero n las siguientes :

Te~ i de rnat e m~ticas Califi cación en mat e mática s


120 90

112 78

87 61

42 28

56 48

99 71

22 18

50 55

73 81

11 18

63 50

132 96

85 81

93 78

47 45

77 63

61 42

88 73

47 21

75 52

REGRESION LINEAL 157

a. Calcular los coeiicientes a y b de la recta de regresión para predecir l<\s califi­


caciones a partir de las puntuaciones según el tes t, y recíprocamente.
b . Trazar lp.s recta.' de regresión en una hoja de papel milimetrado.
c. Calcular el erro r típico d e estimación para cada una de dichas rectas y repre­
sentarlo adecuadamente en el gráfico.
d. Si la calificación mínil,lla para aprobar es 70, ¿qué puntuación según el test
debería o btener un aspirante para que le sea denegada la admisión a dicho
co legio?
e. ¿Se pued e juzga r si el test de m atemáticas es apropiado ?
6. Con los dato s siguientes:

2:X = 24962 L:Y = l103

sx = 12,6 s y = 4,3

N = 100 rxy=0.76

calcular Y' para un valor de X igual a 290.


7. Si r x , = O, ¿cuál es la mejor predicción que puede hacer de Ya partir de una pun­
tuación X?

Das könnte Ihnen auch gefallen