Beruflich Dokumente
Kultur Dokumente
CORRELACION. COEFICIEN T E r D E
PEARSON /"' . .
¡l ~,~xk!o S ~ -\--0 S1-!i.+-t- e~ Qf\l \:,:) d~
\-J .U . YBWVlf~ f F, ttV ~~h
f J ~ {Aa {G, \Lf fV'N"c a I t q é} 3.
H-4 Qq/PGqlj
'23 q '2.- \ 'B
RELAC ION POS ITIVA PERFECTA. La Fig. 7.1 muestra una re~c ión lineal en tre
dos variables. Observemos cómo se ha constru id o. En (;1 eje de abscisas se
llevan los valores de X y en el de ordenadas los valores d e Y. Cada pun to
de la gráfica representa , po r ejemplo , las puntua.ciones de un individuo en
100
CORRElACION. COEFICIENTE r DE PEARSON 101
10
9
X Y 8
--
I
20 10
18 9 7
16 8
14 7
I
6
12 6
10
8
5
4
Y 5 I
6 3
4 2
4
~ 1
3
I
2
o 2 4 6 8 10 12 14 16 18 20
X
OTP.AS RELACIONES . En la vida real existen con, frecu encia situacion es en las
cuales la relación no es perfecta o funcional. La Fig. 7.3 muestra la nube de
pu ntos con un coeficiente de correlació n positivo y muy alto. Obsérvese
t
10
8
X Y 7
20 O
18 I 6
16 2
14 3 Y 5
12 4
10 5 4
8 6
6 7
3
4 8
2 9
2
fl
~¡
,..
O 2 4 6 B 10 12 14 16 la 20
X
Fig. 7.2. Relación perfecta de coeficiente negativo .
20
r i i
r
=-1=H
r
I
I !
18
X Y
16
20 12
1B 16 14 . I
t--rli
16 10
---1.-1-1=1 t , r-I
15 14 12
14 12
12 10 l' ID
12 9 I
lO 8 I
B ~r---- 1-
I I
-t----<
"
r
B 7
5 2
6
2 ~
o 2
i
4 6
LITr
8 10 12 14
I
16
..
I
18
I
20
X
F ig. 7.3. Rel ació n posit; va d e coe ficiente a lto (0.87).
CORRELACION. COEFICIENTE r DE PEARSON 103
10
9
,I
X Y 8
20 4
18 8 7
I
16
I
14 5
6
12 2
10 10
Y 5
8 4
6 4
4
4 10
,
2 6 3
I
O 2 4 6 8 10 12 14 16 18 20
X
Fig. 7.4. Relación negativa de coeficiente bajo (-0,31).
10
11 I I
+~
Ir·
9
I
X Y 8 ~I-
10 7
8
9 2
3
lit +L
t--~t-j
6
~J---l
7 4
6 4.5 Y .~
5 4.5
1 Ic--<jlI ,¡, I
4 4
4
I '
+-~ p- -
3 3
2 2 3
I
1
I
2 .~
o
1~11
2 3 4
¡=U -+
5 6 7
I
,
8 9 10
X
Fig. 7.5. Ejemplo de regresión curvilínea.
104 M ETODOS ESTADISTlCOS APLICADOS
¡------?l
%, [
L--_/:_ _ 1
¡
nor que la de otras columnas_ En el diagrama (b), la s column a s de la iz
quierda tienen va~ianzas menores que las del centro y de la derecha. El dia
li /s,ama (c) representa el caso en que coinciden las dos condiciones. Obsérvese
que los puntos tienden a estar sobre una elipse , uno de cuyos diámetros es
' los métodos usua les para calcular los valores esperados sobre el eje Y para
En la Tabla 7.1 aparecen las puntuaciones de diez personas según dos va:-ia
bl ~s , X e Y (co!J.lmna s 1 y 2l. Debajo de cada una de éstas fi guLt la media.
En [a columna 3 se calcul a n la s desviaciones res .pecto de la media , g', de
cada un a de las puntuacio nes X , y en la columna 4 la desviación de cada
TABLA 7.1
Cálculo del coeficiente de correlación de Pearson tipificando las
puntuaciones
~ ..
--- -
.. _. __ .
(7.1)
8,6947
r = -:-::-
10
r = 0,869 o 0.87
_ ~(z y -- Z,)2
r= 1 ('7.2)
2N
LXY
r = --'- (7,3)
~N'SxSy
J
~Xi
s =
,x
-N- y
-- - - - -
J 25955 J 61
- 0 ,87
'"
.(~xy = "'Xl'
4, (T
_ ..
Si inserta m o
o esta. ex presión en
r= - ==
-.!{¿X't- Ly2 - 2Nrs s f X
METODOS ESTADISTICOS APLICADOS
108
(7.5)
TABLA 7 .2
Cálculo directo del coefiCiente r de Pearson de las puntuaciones brutas
D=X-Y
en estas condicio nes
d=x-y
¿d 2 ~~ ¿(x _ y)2
LXy
r=--
Nsxs y
res ulta.
Dividiendo por N,
Ld 2 LX 2 Ly2 2Nr
--=--+-- ---S s
N N N N"Y
(7.6)
(7.7)
2 - <.2 -'- S2
S x+y-""X' y
+ 2rsxoJ.v
,. (7.8)
De aquí resu lta otra expresión de r Sin más que tran sponer términos:
= 188 = 138 = 46
188 2 138 2 46
5~=1O = 18,8 s = -
10
= 13 8
' Sd = - = 46
y 10 '
CORRELACION . COEFICIENTE r DE PEARSON 111
r = 0,8 7, res ultad o idéntico a l obtenid o ante riorm ente m edi a nte la fó rmu
la (7 .5).
La varia nza de la suma o diferencia d e dos va ria bl es es muy frec uente
en estad ística y metrología. En ,este libro se utiliza rá n más ad elante.
TABLA 7.3
Cálculo del coeficient e r de Pearson por el método de las diferencia s
20 12 400 144 8 64
18 16 324 2 56 2 4
16 10 256 100 6 36
15 i4 225 196 I 1
14 12 196 l d4 2 4
12 10 144 100 2 4
12 9 144 SI 3 9
lO 8 lOO 64 2 4
8 7 64 49 1 ¡
5 2 25 4 3 9
Distribución bidimensional
TABLA 7.4
Puntuaciones de 35 estudiantes universitarios según dos tests
1 8C 61 19 105 86
2 95 28 20 80 63
3 94 74 21 85 31
4 101 46 22 93 57
5 105 44 23 85 70
6 89 38 24 92 43
7 106 72 25 90 70
8 92 41 26 89 54
9 105 49 27 85 51
10 J0 7 69 28 96 58
!1 II I 82 29 85 63
12 114 76 30 98 73
13 83 39 31 101 71
14 . Ií2 64 32 106 76
15 91 77 33 112 76
16 88 50 34 93 59
¡7 105 55 35 liO 71
150 j06 59
I
CORRELACION. COEFICIENTE r DE PEARSON 113
TABLA 7.5
Distribución de frecuencias bidimensional
E/e %.-Test 2
..,. o-,!"" o-, ..,. ..,. - ..,. ..,.
o-, o-, o o-, o
'o r- o
E/e Y . Test /
N
I
M
I "7 l' l' <n i
<n
I ¿,
\0
I
t-
I I
00
I I fy
V)
N
o 'n ..,.
o ..,. o
V) <n
'D
<ro
'D
o
t-
V)
r-
o00 V)
00
""
V) V)
'"
114-116 / J
11l-113 / / / 3
108-110 / 1
105- 107 ¡ / // / / / / 8
102-104 O
99-101 / / 2
96-98 í / 2 ,
93-95 / /f f 4
..
- ' 90-92 I
4
1/ I / /
87-89 ¡ II 3
84- 86 / I I / 4
81 83 / I
I
.- \- .
78--80 // _.-.L 2
I 1 232 3 5 4 7 4 1 35 = N
TABLA 7.6
Datos que muestran el efecto sobre r
de un recorrido pequeño
A lumn o X Y R. '( y
1 40 19 _L 2
2 38 2\ 2 1
3 36 16 3'" ~.
"? 5
4 34 18 4 3
~
5 30 17 5
"- -.
4
6
29 14 6 6
7
28 13 7 7 '/
8
26 12 8 8
.?
..9_.
25 10 9 11
10
24 II iCí 9
J1 22 10 1! 11
12 20 8 \2 i4
J1. 19 9 13 13
14 16 10 M' 11
15 15 4 15 15
16
"---. 10 2 16 16
'.¡ ,.'
.,
.FU ENT E · Adaptado de ,<Reliab i¡ity and Confid~n ·
ce" . Tes t' S ?'rt'ice Bul/elin , N./) 44. New York: Psy
~: I1
ch o!ogic,ll C orpon!li on , 1952.
¡tll
, I
más pequeños.
Por último, surge la cuestió n d;; cuá l es el vale r más pequeño d el coefi
ciente de correlación que aún es significativo. Esta pregunt a se contestará
en el Capítulo 16, dond e se explicará el método de contraste de significación
del coeficiente r de PearsoD. En un contraste de este tipo, se determina la
probabilidad de que el coeficiente en estudio proceda d é' una p o blación en
qu e e! valor del parámetro es distinto de cero. O lo que es má s sencillo , se
hall a la proba bilidad de que el cilado coefi ciente sea distinto de] quc p odrí a
csperdrse por aza r o si no existiera rela ció n alguna entre las dos variables.
Debe observarse, sin em bargo , qu e aun en el caso en que un coeficiente de \,
correlació n sea ,ignificatil'o estadística mente, puede tener poca o ninguna
i mport? ncía práctica.
EJERCICIOS
L P o n ~r
¡ res ej emp los d e (a) relacion es al tas p os itivas. (h) relaciones moderada s posi
tivas, (c ) relacione s negat ivas , (d ) relaciones cu rvi líneas, (e) dos variables relacio
nadas por una tercera.
2, Ex plicar p or qué e! coefiCl.cnte r de Pearson es más peq ueño cu a ndo se calc ula a
partir de d a tos que se desv ía n de la lin ea lida d.
3, Para u n grupo de 40 personas. d pr0d uct0 de las puntuacio nes z d e dos variables
es ~2AO. ¿Cuál es la co rrel ación entre am bas?
4. En dos tests, di ez alum nos obtu vieron las sigu ientes puntuacio nes :
~. ~.
~'L'
CORRELACION. COEFICIENTE r DE PEARSON 117
1 15 12
2 14 14
3 10 9
4 9 10
5 8 8
6 8 7
7 7 8
8 6 4
9 4 6
10 2 4
Puntuación de Puntuación de
actitud para Indice actitud para lndice de
la venta de ventas la venta (cont.) ventas (cont.)
32 lJ 25 15
31 17 25 9
30 16 2J 9
29 15 22 13
29 15 21 9
28 16 20 11
27 16 18 11
27 13 17 10
27 12 15 8
26 12
- I
Ca lc ular jos coefiCientes de correlación entre lO S tipos vocaClona.es.
CORRELACION . COEFICIENTE r DE PEARSON
119
A B C D
'i
1 68 .--- '. 74 32 42
2 169 1(57 45 54
3 87 98 45 62
4. 93 76 34 45
5 87 65 24 38
6 77 74 27 32
7 154 145 34 36
8 99 69 38 42
9 87 98 22 37
10 110 98 64 60
11 107 104 47 66
12 119 87 45 45
13 67 78 24 42
14 78 lOO 20 46
15 186 169 57 55
16 11 3 97 45 47
17 145 159 40 40
18 65 78 20 33
19 106 106 34 48
20 98 JOS 34 52
21
22
.
76
I1 9
96
125
49
60
48
54
23 100 109 24 44
24 11 8 109 36 56
25 154 174 32 42
26 87 88 23 39
27 109 101 4] 47
28 88 108 31 48
29 67 76 18 42
30 89 100 47 68
Calc ui ar la. co rrel ación entre dos conjun tos cuaiesquiera de las puntuaciones an te
riores, utili za nd o un o de los mé tod os expu estos en este cap itulo .
capítulo 8
OTRAS TECNICAS
DE CORRElACION
RELACIONES LINEALES
2
X es 1 o 0, L:X también es iguai a N p ' Calculemos ahora la suma de los cua
drado s de X.
(N )2
= N - --p
p
NI
Al obtener L:X Y, solo ent rarán en los cá lculos aq uell os valores e n que
X = 1; por ta nto, LX Y puede escribj¡'se en la form a tl p Y, en donde cada
valor de Y se multiplica por ía frecuencia d e las re spues tas correctas y se
suman los produ ctos hall ado s.
Volva mos ahora a la ecuación (7 .5) , a ntes de simplificar las fr acciones.
I: X Y _ C
-,-I_: X_).c...(I:_Y--'.)
N
I: , Y _ (Np)(I:fY)
J P ¡.;.
r I
'.1
\1 i V. I NI
.
Simplific adas las fracciones, com o se hizo en (7. 5), la expres ión ante rior se
tr ansforma en '
(8. 1)
90(265) - 44(382)
r&p = -) 7=
4=4 (=46==) [(90) 2294 _ (Úí2)2]
23850 - 16808
-- ---c===
) 2024 (20646<5- 145-924)
7042 7042
.
)2024(60536) 11069
= 0.64
OTRAS TECNICAS DE CORRELACION 123
TABLA 8.2
Cálculo del coeficiente r bp biserial-puntual y r b biserial
'10-74 3 O 3 5 15 75 15
65-69 6 7 4 28 112 24
60~64 6 2 8 3 24 72 18
55-59 5 \ 4 9 2 18 36 l.O
50-54
1
6 2 8 1 8 8 6
45"'"49' 7 6 13 O O O O
40-1~: 6 8 14 - 1 - 14 14 --6
35 -39 3 9 - 2 - 18 36 -6
30-3 4. 3 "
9 12 -- 3 -36 108 -- 9
25 29 ¡ 4· 5 --4 - 20 80 - 4
20-24 O !2 12 - 5 - 60 300 O
L: = 46 L: = 54 L: = 100 L = - 55 ~ = 841 L: = 48
124 METODOS ESTADISTICOS APliCADOS
(8.2)
- 48 ._ -- 55
47 + -. (5)
XD
I
=
46 ~ X, = 47 + 100 (5)
= 47 + 5 ,2 = 47 + (-2,75)
= 52,2 = 44,2
¿x 2 = [841 - (-1005W lJ (W
= (341 - 30,25)(25)
= 20268,75
Por ta nt o.
. /20268,75
s , -- .yI 100
) 202,69
= 14,2
46
P = - = 0.46
100
OTRAS TECNICAS DE CORRELACION
52 ,2 44 ,2 JO,46
14,2 0,54
8
,
- 0,563 (0,923)
- 0,52
Si el test que se está a nali zando conti ene un gra n númer o de c uestiones.
est e procedimiento d e cálculo es casi prohibitivo desd e e l punt o de vista
d el tiempo . Existen m étodos abreviados y de proceso de dat os que facilit a n
e normemente dich os cálculos. En la validación de tests, el crite rio pu ede
se r «apro bado» o «su spenso», «apto» o «no ;;tpto». «pasa » o «no pasa».
«obtene r el títul o» o «no obtene r el título», e tc.
Un méto d o eficaz y rápido para estimar el coeficiente r bp biseri a l-puntu a l
es utilizar un ábaco , en este caso, p re parado por Dingman (Fi g. 8. 1 l. Para
1,00 .
1
0,90 1 - - .\"" --¡ ,,.-L- --le
c).
g
<l>
=,Q.
~
~ 0.60
o
G.
;:
Ol 0,50
"
'O
'"
·0
u
0,40
u
:'.'
u.
0,30
c:
0 , 20
0,10
Fig. 8.1. Ab aco pa ra estJm 8r el coeficien te I"/¡r bj')erial -punl.u aJ cuétnd o Lin a d <..:
las variables se divid e po r la med ii;j:w de la di ~ lr j, buci ó n , (Prepar a.do rol' Hc.r vcy
F. Din gman.) Fuente: J. P Guilford P.\l· (flOmCmC /vfclho(ú. New Yor k: M cGraw ·
Hill , 1954. Co n pe rmiso ele los edi to res .
126 METODOS ESTADISTICOS APLICADOS
Para hallar el valor del coeficiente r b biserial, una de las fórmulas más
fáciles de aplicar es
x - X 'p\
r b -- p t~=j
,/ ') (8.3)
St ,{.Y/
~ ; \..../
0,563(1,159)
0,65
OTRAS TECNICAS DE COAAElACION 127
TABLA 8 .3
Respuestas de lOO esludiant9s a las c'..lBstiones del test
~
A favor 70 30 100
a I b k
-1 - --
En contra ,, 30
I 70 100
e d 1
- ---- - - -
iOO 100 200
m n N
128 METO DOS ESTADISTlCOS APlICADOS
a los totales margi nales que se han calculado. La expresió n del coeficien
te o:I> es
(ad be)
<!J= (8.4)
J (k)(I)(m)(n)
(70)(70) - (30)(30)
<!J=
J (100)( 100)( 100)(1 00)
4900 - 900
- - - - --
10000
4000
10000
= 0.40
1 ABLA 8.4
Seis tablas de contingencia 2 x 2 que demuest ra n có mo la cuantía d e;
coeficiente d epende de los valorEs margin a les
2 3
¡;;- ]
r~°=s~
O 100 100 O 100 70
- I J'
iOO O 100 O 100 lOO O 30 30
I I L _----l
I
4 5 6
~
40 30 I 70 10 40 50 O 50
30 ij 30
f
~
20 30 50
I 30 20 50
j
ciones de este tipo es laborioso, se llan ide ado y desarrollado diversos arti
Dcios de cálculo que permiten calcular dicho estadígraro . El que se expondrá
aquí se debe a David o ff y Golleen (Apéndice H).
Suponga mos qu e se dispo ne de las respuestas de 100 personas a la s cues
tio nes d e un test. Se hace un cuadro de d o ble entrada , co mo la Tab la 8.5,
con los distinto s valores en las co rrespondi e nt es casill as. Las hojas de r e~;
puesta se dividi er0t1 en do s grupos, llllas con puntuación supe rior a 50 y
otras co n puntuación inferior a 50, contándose las rCspulóstas co rrecta , e
incorrectas de cada grupo, Obsérvese que a cada casi lla se ha asignado tina
letra de la forma usuaL En la tabl a d e Davido!'!' y Gohec:n (Apéndice H¡.
entrando con el valor de la relación adlbc, se obtiene la eSlÍmación d e l coefi
ciente tetracórico . En nuestro caso, la rela ción citada es
(20)(40) = 800 = 2 67
(30)( 10) 300 '
TABLA 8.5
Respuestas ordenadas de 100
personas a las cuestiones de un
test para determinar el coeficiente
tetracórico de correlación
Correcta Incorrec ta
surc"orl
a 50
20
o
L;o b
I
.
50
~r.~.Icl-l
nr I -~-o ~ -40 --+-1-50
~~~ 3~ 7: 100
130 M ETODOS ESTADISTlCOS APLICADOS
RELACIONES NO LINEALES
E¡e X: Edad
Ele Y:
Puntu ac. (l5-1~) (20-24) (25-29) (30-34) (35-39) (40-~4) (45-49) (50-54) (55-59) (60-64) (65-69) (70--74) [ y' [y' [(l)'
85-89 16 16 16 256
80- 84 15 15 15 225
75-79 14 2 2 14 28 392
70-74 13 4 3 1 1 9 13 117 1521
65-69 12 3 3 4 3 14 12 168 2016
60-64 11 3 5 4 5 2 1 20 11 220 2420
55- 59 10 3 4 3 6 4 3 23 10 230 2300
50- 54 9 1 1 2 3 4 3 3 5 2 25 9 225 2025
< , ,
45-49 8 1 2 2 J 3 J
~
2 2 29 8 232 1856
40 -~4 7
, 2 3 4 20 7 140 980
3 2 2
35-39 6 2
'2" 2 2 2 3 3 3 22 (, 132 792
30-34 5 2 3 2 3 11 5 55 275
25-29 4 1
,
J 2 1 2 10 4 40 160
20-24 3 2 2 1 7 3 21 63
15-19 2 2 4 2 8 16
10- 14 1 1 1 1 1
5--9 O 1 O O O
-- - - - - -
f, 9 15 20 23 18 30 18 15 24 11 7 10 N= ~ -
~ - ¿=
x O 2 3 4 5 6 ,
~
8 9 10 11 200 1648 15298
· 132 METODOS ESTADISTICOS APLICADOS
con lo que
rEyi; (8.6)
lJ y x = ,I
'V LZ
y,
(J 648)2
= 15298 - 200
= 15298 - 13579,52
= 1718,48
TA8LA 8.7
Cálculo de la suma de cuadrados «entre» columnas para los datos
de la Tabla 8.6.
O 9 42 1764 J 96,00
i5 73 5329 355.27
2 20 202 40804 2040,20
-' 23 244 59536 2 588.52
4 18 196 3.8416 2134,27,
S JO 27R 77284 2576,13
6 18 159 25281 1404,50
7 15 123 151 29 1008,60
R 24 173 29929 1427,04
9 11 65 4225 384,09
[O 7 43 1849 264,í4
11 10 50 25 00 240,00
I
OTRAS TECI~ I CAS DE CORRELÁCION
[L(Ly'W
N
(I648)2
= 14448,71
200
14448,71 - 13579,52
c=869,I9
11 yx /
869,19
=, ¡ 7J 8,.13
= ~.5()57·84
= 0,7 JI
Resumen
¡
Coeficiente de correlación parcial
Ocurre a me nud o q'u e la re lación en tre dos variables está cond icionada p or
"
un a tercera. Por ejemplo , su pon gam os qu e con oce rn os la correlación exis
tente enlre las pu nlu aciones segú n lIn test de inteli gencia y las calificaciones
en malemáticas de los alumnos de una cla se, as í como la correlació n d e las
"
) mismas puntuél cioné:s seg\l n el test de inteligencia, pero c on las calificaciones
I
en inglés. Además. se dispone de la relació n existente en tre las calificacio ne s
e n matemáti cas y las califi caciones en ingl és. Esras dos disciplinas se hall a n
relacio n ada s (;o n las puntuacionC's según e l test de inteligenci a, y parece
existir cierla dependencia de una co n otra. ¿ Es real esta última rel ació n
h ipo tét ica, o <:s simplemente e l efecto de ambas variables relaci onadas con
una común d e imeligcncia? Mediante el coeficiente dé co rrelación p a rcial
es posible cont rc lar estos efectos d e inteligencia o «eliminar» su influencia.
También podría preguntarse cuál es la relación entr e las calificaciones e n
ing lés Y' e n mate máticas el imi nado el e fecto de intel igenc ia. En estas con di
c iu nes. se 2.c ude a un coeficiente r d e ¡:orrelación parcial de primer o rd en ,
basa do en tres c oeficien tes r de ord en ce ro. La exp resió n general de l coefi
cient e f' d e co rrdación r a,cial es
(8.8)
2 - peso
= 0,80
= 0,50
= 0,60
Existe, pues, una correlación entre el peso y las puntuaciones segú n el test
de matemáticas que, con una muestra de este tamaño, es muy significativa.
Estudiemos la relación entre el peso y las puntuaciones según el test de ma
temáticas eliminada la influen cia de la edad cronológica.
r 23 - (r I2 }(r0)
r =
23,1
V
1(1'
1 _ ''12
,2 )( 1
-
. 2)
l O
0,50 _. (0,80)(0,60)
",/(1 - 0,80 2 )(1- 0,60 2 )
0,50 - 0,48
- ----_.
, /(0,36)(0,64 )
0,02
0,48
- 0,04
Se observa que , elimin ados los efectos de la edad cmn o lógica, no existe
relación significativa entre el peso y las puntuaciones según el tes t de ma
te máticas. Como el coeficiente r parcial es un coeficiente de co rrelación del
tipo r de Pearson, puede tratarse como tal.
Variable 1 ca lificación
=
Variable 2 = puntuaciones obtenidas según Ohio Sta/e Psycho!oKica l Exa
mina/ion
Variable 3 - puntuaciones obtenidas según Coopera / fue Ma/hematics T es /
r l 2 = 0,5 0
rJJ = 0,60
rn = 0,40
(8.9 )
TABLA 8.8
Cálculo del coeficiente p de correlación por rangos-ordenados de
Spearman
muy fácil. Sin embargo, observemos que existe!l dos aiu mn os igualados.
con u n a punt uación dc 49. A estas dos puntu aciones se asocia n los rangos
4 y 5. Se hall a la media y a ambos alu!TInos se les asigna dicho ra ngo pro
medio, que en este caso es 4,5. Todo s estos casos. c uando so n numerosos,
afectarán a la cuantía del coeficiente de correlación; pero corrientemente no
existe un número suficiente que justifique la aplicación de las fór mula s para
corregir estas circunstancias de iguales rangos.
2. Se orden a por rangos la segunda serie d e pu ntu acio nes, asociando
de nu evo el fango ¡ a la puntuación más alta.
3. Se hallan las diferencias entre las d os seri es de r angos. El signo de
~stas difereDó2.s carece de interés, puesto '1uc en la o pe ración sig uie nte hay'
que elevarlas ai c uadrado.
4. Se elevan al c uad rado las diferencias anteriores y se s uman los rc
sultad os obtenidos e n la columna.
5. Se determ in a el valo r del coefi ciente de correlación po r rangos -orde
nados a piica ndo la exp resión siguie nte:
6-¿D 2
p = l - N(N2 _ J) (8. 10)
- 1 6 ~/ 38 6.. S)
p- -17(298-1)
2319,0
= 1 - 4896
= I -0.4 7
= 0. 53
2S
T = -:-::-:-:-:---.,. (8 . 11 )
N(N - 1)
2(54)
- - ,.---'---'-
17(1 7 - 1)
108
=
272
= 0.397
mN(N + 1)
S um a to ta l de rang o s = 2 (1). 12 )
(5)(10)(1 1)
- 27 5
2
TABLA 8.9
Cáloulo d el coeficiente de concordancia de los datos relativos
a un concurso de diez proyecTos por un jurado de cinco
miembros
I 2 1 2 3 4 12 15,5 240,25
2 1 3 2 2 9 18,5 342,25
3 3 4 4 1 3 15 12,5 156, 25
4 5 5 5 5 1 21 6,5 42, 25
5 4 2 6 7 6 25 2,5 6,25
6 7 8 3 4 7 29 1,5 2,25
..,, 6 6 8 6 5 31 3,5 12,25
8 8 7 7 8 9 39 11,5 132,25
9 9 10 10 9 8 46 18,5 342,25
10 10 9 9 10 10 48 20,5 420,25
nuación se hall an las dife renc ias de la suma d e los ran gos en cada fila respecto
del citado promed io y, después, se elevan a l c uad r ad o y se suman los va lores
oble nid o~. Las o peracio nes figur a n e n ia s column3 s 4 y 5 d e 1", Tabla B.9.
Par", calcular W se aplica la ex presió n de definición sig uiente:
(8.13)
.12(1696,5)
(25)(10)( 100 - 1)
= O.E2
TABLA 8.10
Resumen de las caracteristicas principales de empleo de los distintos
coeficientes ue correlación
Variables
Coeficiente Símbolo x y
EJERCICIOS
1. Las puntuaciones según un test de aptitud y la calificació n nnal de un curso d e
formación básica , apto y no apto, apa recen en la tabl a siguiente:
Puntua-
Cio nes- Apto No api O
9 9 1
8 12 2
7 13 4
6 JO 5
5 12 4
4 10 8
3 6 10
2 2 10
i O 2
Mediante la fó rmu la (81 j, cal cul a r e l c oefici ente bi ser ia l·p untual d e los d<lIOS .
2. Se desea construir una cierta escala pa ra medir la actitud hacia Rusi a. Una de
ias cuestiones propu~stas es: «¿ Piensa que el puebl o ru so está conf'onnc con su
142 METODOS ESTADISTICOS APLICADOS
Puntuación
tGtéJl Si No
95- 99 I O
90-94 6 O
85-89 18 I
80-84 22 1
75-79 31 3
70-74 20 5
65-69 18 9
60-64 12 13
55-59 6 10
50-54 4 8
45-49 I 5
40-44 O 3
35-39 1 O
30-34 O I
25-29 O 1
140 60
Correcto Incorrecto
Inferior 6S 35
Superior 25 75
fí. i. Cl,{í! es el valor de coeficiente r, tetracórico de los datos del Probiema 37,
6. Siete profesores son calincados por los alumnos de p;,imero y los de segundo curso
de facultad según su claridad de exposición. Los resultados fueron tabulados de
la Inanera siguiente:
44 58
2 39 42
3 36 18
4 35 22
5 33 31
6 29 38
7 22 38
J ueces
(1) (2) (3) (4)
.1
2 2 4 3 2
3 3 3 2 4
4 4 2 4 3
5 5 6 5 5
6 6 5 6 7
7 7 7 8 6
8 8 8 7 8
En el Capítulo 7 se observó que una de las condicio nes básicas que deben
c umplirse para aplicar el coeficiente de correlación de Pearso n es que exista
una relación lineal entre las dos variables e n estudi o. En este ca pítulo vere
m os con m2s detalle el problema de la regresión y s u a plicación para pre
decir los valores de una variable, cuando se conoce <.::1 valor d e la otra. Por
ejemplo, las calificaciones finales- de cur so se pueden pred ecir a pa rtir de las
puntuaciones según un tes t de capacidad mental, co m o e l S cholastic Aplitude
Test del Colle¡;,c Entrance Examination Board. En este caso co nc reto, las
puntuaciones según el test de aptitud son las que predicen y cons titu ye n los
valores de la variable independiente. Le; qu e se predice. es decir, las califi
caciones finales, es la variablE; dependient e o funció n. Mediante la gráfica o
la ecuación de la regresión se pueden inferir los valo re s de la variable de
pendiente a partir de los que adquiera la var iab ie independiente. Es casi
una norma emplear lé' letra X para la variable indepe ndiente , e Y para la
dependiente.
Ecuación de la recta
Veamos , en primer lugar. lo que re prese ntan las letras a y b, que figuran
en la ecuación anterior. Pan! ell o, consideremos un ejemplo; la eruación
y ~ 4 + 2X. En ésta. dand o va lo re s a X se dedu cen, haciendo operaciones,
los corres po ndi en tes de Y. Algun os de d ichos valores se muestran a con
tinuación :
X y
,
O 4 }
I 6 '.'
4 J'}
.~
8 20
ESiO S pa,es de va lores se pueden rC'p rese nt a r en una gráfica . co mo aparece
en la Fig. 9. l . Como se tra I a d e una recta , so lo se req uÍe re n do s puntos para
14~
REGRESION LINEAL 145
o 2 345 6 7 8 9 10 X
determin a rla por completo , esto es, bastan con do s pares de valorcs para
tra za rla. Examinemos ahora con algún detalle esta recta. Obsérwse que
para un increm en to de un a unidad e n la variable X, el incre mento de la va
riable y es de dos unid ades . El fa c to r 2 de esta ec uación se iden¡irka como
el coeficiente b de la ec uación (9 . 1). El coeficiente ó indica lél rela cic')I1 ellllT
la variación de Y y la variación de X. Dich o cociente se llama p('i1(/lc ll!c de
la recta En la Fig. 9.1 se ha tra , ado otril recta. Y ~= J + 2X. Es r~tralc\;1
a la anterior por tener la misma pendiente. En teoría, sob:'e est os ejes sc
pueden trazar infinita s rectas de pendien te igual a 2. La pendiente d e la s
dos rectas de la figura es posittV'", ya que dichas rectas se elevan de izq uierda
a derecha d e la gráti ea. Como se dijo anteri or·mente. un a recta d e cstc [i['u
indica una relación positiva elllre las dos variables.
2
2
1
O 1 2 3 4
'~-'--
L .LI_-'--_,-'--_-'-_'---_~ 6 7 8 9 10 X
IU
146 METODOS ESTADISTICOS APLICADOS
con la di ferenc ia d e fig urar y' en lugar de Y ; Y' se lee «valor previ st o de y »,
El va lor de Y' no suele ser el mismo que e l de Y, puesto que la puntuación
que se predice a partir de dicha ecuación no es, en gener al, igual a la que se
obtendría e n la realidad . Los va lores Y' previstos de Y está n , normalmente,
más pr óxi mos a la media Y que los valores observados de Y. Por esta razón,
e! fen6meno se co noce CO;¡ e l nombre de reg resión y se expondrá más ade
larHe.
La difer<::nc ia entre la puntu ación obte nida (Y) y la prevlsta (y' ) se llama
error de predicción. La recta de regre sió n , o línea de aju ste ó ptimo, se sue le
de fin ir como aquella recra res pec to de la cual la suma de los cuadrados d e
los erro res de predicl'ióll es mínima. A p a rtir de la ecuación (9.2) se tiene:
y' = a + bX
y - Y' = Y - Ca + bX)
en donde e l primer miembro es el error de predicción.
REGRESION LINEAL 147
b = L
_X-=-Y~[,-,-(L:-X-:-,)-'-.-,;-Y
( L ,...:.).:,-IN-c]
(9.3)
yx LX2 _ [(LX)2 IN ]
que so n los coeficientes de regresión de «y so bre X », esto es, los que permiten
predecir los valores de Y dados los de X.
Anteriormente h emos viste que
y
{i:X)(í: Y)
Lxv
, = LX Y - - --.-
N .
con lo qu e el coeficiente b, b vx [ecuación (9.3)J. se puede escribir en fUOCH'D
d e las desviaciones como sigue :
(9.5)
Corno existe n dos rectas de regresión , excepto cua ndo r = 1,00 que coin~
cidcn. se sigue 'que hay otro par de coeficien tes d e regresión, mediante los
cuales se pueden predecir jos valores de X a partir de los de Y. Estos coefi
cientes son:
(9.7)
0 yx = "-L
"'--
X"'"7."_
(LX)2/N j
(-4)( - 111)
2209 - -- .
35
-- - - - (_4) 2
7554 - - -~--
35
2209 - 12,7 2 196,3
0"= - - - - -- - = --:--:-c---c
7554 - 0 .5 7553,5
0.29 1
a yx = y - X(b vx )
= 96,8 - (0,291)(59,9)
= 96, 8 - 17,4
= 79 ,4
125
,
120
115
110 x' = 0,632Y-l ,30
105
100
Y' = 79,4+0,291X
95
90
85
80
75
-c.¡,,
O 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90
Fig. 9.3. Las dos rectas de regresión de los datos J~ 1<1 Tab la 7.4.
Al situar estos tres pares de punto s en el di<Jgrarila de la Fig. 9.3. resulta !¡,
recta de regresión de y sobre x.
Como hemos dicho anteriormente, existen dos rectas de regre~ión salvo
en el caso en que r = 1,0 e n qu e coincide n . Detenninel1los, pues. la rcclaJe
regres ión de x so br~ y, este es, la ecuac ión que permite predecir los va lOres
de X a pa rtir de lo,> valores de Y. El coeticien te h es
3827 - ( - 1¡ 1)2735
= 0.612
El coencien te (1 es
(1xy = X - (Y)(h xy )
59,9 - (96,8)(0,632)
59.9 - 61,2
- 1:3
Por tanto, la recta dE regresIón de x so bre y tiene de ecuación:
X' bxyl' + (Jx y
0 ,632 y - 1,30
150 M ETODOS ESTADISTICOS APLICADOS
Al igual que se hizo con la otra recta, hall emos tres punto s para trazarla
sobre los mismos ejes de la Fig. 9.3. Su stituyendo en la ecuación tres valores
de> Y, resultan otros tantos de X:
X'
120 74,5
100 61,9
80 49,3
(by,.)(b xy ) = ,.2
(0,291 )(0,632) = (0,429) 2
0,183912 = 0,184041
0,1839 = 0,1840
, r.xy j r.X2¿y2
o =~-
yx ¿x2 iv 2 , 2
Y ~X "'y
Ordenando términos:
b = r.xy j"f.x 2 r.-?
yx j ¿X 2r.y2 E~¿-
REGRESION LINEAL
~~
b yx = rxy J 1¿~2)2
N
(9,R)
y'=
_ Sy _ Sy
y ' = y - rx y - (XJ\ + r x y -- X
Sx S.x
_ Sy Sy _
y'= Y+ r xy - X-r X
)' - X
Sx Sx
V ' -_
.t
~ s'(\'
1 + r Xj - ,J - v ).
'/l (9.9)
Sx
(9.10)
q ue equi vale a
i
fEyl _ r(~:xy)2) ¿\2)
s ."X = \j1":: N _ 2
(9.11 )
U na vez obte nidos todos jos valores qu e intervier:en en (9.11) del cálculo
de los dos coefi cie ntes b de regresión, lo qu e resta es suslituirlos en dicha
ecuación (9.11).
Obtendremos ahora el erro r típico d e estimació n para predecir los valores
de Y a partir de los va lores de X (regresión d e y so bre x), para los datos de
la Tahla 7.4. Sustituye nd o en la ecuación (9. 11). resulta:
¡
)X 35 - 2
= / 3475 - 638,~
\i 33
= f2836, ~ J
y 33
¡o-- _ ..
= y85,9515
= 9,27 = 9,3
R'EGRESION LINEAL 153
(9.12)
115
110
105
100
95
80
75
70 -9,3
65 J.o
L
O 5 10 15 20 25 30 35 40 45 50 55
F!g. 9.4. Recl2 de re15n:'.sión de Y sobre X. C?d a rccta para lela dista un
error típico de esti mación, por encima y por debajo, de la recla de regresión.
Efecto de regresión
Hace muchos años, al estudiar las relacio nes e ntre padres e hijos y entre
madres e hijas, Francis Galton observó qu e los hijos de padres a ltos te ndían
a ser altos , pero no w.nto como los padres, y que los hijos de padres bajos
tend ían a se r baj os, aunque no Lanto como los padres; lo mismo observó
po r lo que se renere a las madres y las hijas. Con otras palabras , la descen
dencia, tanto de padres altos como bajos, tendía. en el sentido de regresión ,
hacia la media. Si la co rrelación entre las esta turas de los padres y los hijos
fuera perfecta, no habría regresió n, los puntos representativos de la estatura
de los p adres respecto de los hijos deberían pertenecer a un a recta.
Sin embargo, como no existe una relación perfecta , y dado que el coe
ficiente de correlación entre dichas dos varia bles suele ser pequeño, a l ig ual
tju e las ca lificaciones académica s respec..:to de las puntu acio nes de los tests
de capacidad men tal , se p resent a co n frecuencia el efecto de regresión. Las
personas muy por encima o muy po r debajo d e la medi a para una variable,
no suelen ser tan superior o inferior respecto d e la otra variabl e; es decir,
su s puntuaciones en la segunda vaIiable no son tan extremas p o rqu e tien
den hacia la media de la segund a variable.
.,..
;
REGRESION LINEAL
PREDICCION MULTIPLE
(9.13)
EJERCICIOS
a. x= 5 a =-3 b= 2
b. x= -10 a= 4 b= -2
c. x= ····3 Q= 2 b= 3
d. x= 7 a= 50 b ~~ 0.125
X y
Puntuaciones según el Calificac ión
«College Board Verbai» media
710 5,50
680 5,70
670 5,20
660 5,10
580 5,00
540 5,00
520 4,80
500 4,90
480 4 ,40
440 4,60
112 78
87 61
42 28
56 48
99 71
22 18
50 55
73 81
11 18
63 50
132 96
85 81
93 78
47 45
77 63
61 42
88 73
47 21
75 52
sx = 12,6 s y = 4,3
N = 100 rxy=0.76