Beruflich Dokumente
Kultur Dokumente
DE
ANLISIS MULTIVARIANTE
Carles M. Cuadras
21 de septiembre de 2014
2
Es propiedad del autor.
c C. M. Cuadras
CMC Editions
Manacor 30
08023 Barcelona, Spain
ndice general
1. DATOS MULTIVARIANTES
1.1. Introduccin . . . . . . . . . . . . . . . . . . . .
1.2. Matrices de datos . . . . . . . . . . . . . . . . .
1.3. Matriz de centrado . . . . . . . . . . . . . . . .
1.4. Medias, covarianzas y correlaciones . . . . . . .
1.5. Variables compuestas . . . . . . . . . . . . . . .
1.6. Transformaciones lineales . . . . . . . . . . . . .
1.7. Teorema de la dimensin . . . . . . . . . . . . .
1.8. Medidas globales de variabilidad y dependencia
1.9. Distancias . . . . . . . . . . . . . . . . . . . . .
1.10. Algunos aspectos del clculo matricial . . . . . .
1.10.1. Descomposicin singular . . . . . . . . .
1.10.2. Inversa generalizada . . . . . . . . . . .
1.10.3. Aproximacin matricial de rango inferior
1.10.4. Transformacin procrustes . . . . . . . .
1.11. Ejemplos . . . . . . . . . . . . . . . . . . . . . .
1.12. Complementos . . . . . . . . . . . . . . . . . . .
2. NORMALIDAD MULTIVARIANTE
2.1. Introduccin . . . . . . . . . . . . . .
2.2. Distribucin normal multivariante . .
2.2.1. Denicin . . . . . . . . . . .
2.2.2. Propiedades . . . . . . . . . .
2.2.3. Caso bivariante . . . . . . . .
2.3. Distribucin de Wishart . . . . . . .
2.4. Distribucin de Hotelling . . . . . . .
2.5. Distribucin de Wilks . . . . . . . . .
2.6. Relaciones entre Wilks, Hotelling y F
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
13
13
13
15
15
16
16
17
18
19
21
21
21
22
23
25
28
.
.
.
.
.
.
.
.
.
29
29
30
30
31
32
33
34
35
37
NDICE GENERAL
2.7. Distribucin multinomial . . . . . . . . . . . . . . . . . . . . . 38
2.8. Distribuciones con marginales dadas . . . . . . . . . . . . . . . 39
2.9. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3. INFERENCIA MULTIVARIANTE
3.1. Conceptos bsicos . . . . . . . . . . . . . . .
3.2. Estimacin de medias y covarianzas . . . . .
3.3. Contraste de hiptesis multivariantes . . . .
3.3.1. Test sobre la media: una poblacin .
3.3.2. Test sobre la media: dos poblaciones
3.3.3. Comparacin de varias medias . . . .
3.4. Teorema de Cochran . . . . . . . . . . . . .
3.5. Construccin de contrastes de hiptesis . . .
3.5.1. Razn de verosimilitud . . . . . . . .
3.5.2. Principio de unin-interseccin . . . .
3.6. Ejemplos . . . . . . . . . . . . . . . . . . . .
3.7. Anlisis de perles . . . . . . . . . . . . . .
3.8. Complementos . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
43
43
44
45
45
46
46
47
51
51
53
54
59
61
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
63
63
63
65
68
69
69
70
70
71
74
.
.
.
.
.
.
77
77
79
80
82
83
84
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
NDICE GENERAL
5.5. Nmero de componentes principales
5.5.1. Criterio del porcentaje . . .
5.5.2. Criterio de Kaiser . . . . . .
5.5.3. Test de esfericidad . . . . .
5.5.4. Criterio del bastn roto . . .
5.6. Biplot . . . . . . . . . . . . . . . .
5.7. Ejemplos . . . . . . . . . . . . . . .
5.8. Complementos . . . . . . . . . . . .
5
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
86
86
86
87
87
88
89
92
6. ANLISIS FACTORIAL
6.1. Introduccin . . . . . . . . . . . . . . . . . .
6.2. El modelo unifactorial . . . . . . . . . . . .
6.3. El modelo multifactorial . . . . . . . . . . .
6.3.1. El modelo . . . . . . . . . . . . . . .
6.3.2. La matriz factorial . . . . . . . . . .
6.3.3. Las comunalidades . . . . . . . . . .
6.3.4. Nmero mximo de factores comunes
6.3.5. El caso de Heywood . . . . . . . . .
6.3.6. Un ejemplo . . . . . . . . . . . . . .
6.4. Teoremas fundamentales . . . . . . . . . . .
6.5. Mtodo del factor principal . . . . . . . . .
6.6. Mtodo de la mxima verosimilitud . . . . .
6.6.1. Estimacin de la matriz factorial . .
6.6.2. Hiptesis sobre el nmero de factores
6.7. Rotaciones de factores . . . . . . . . . . . .
6.7.1. Rotaciones ortogonales . . . . . . . .
6.7.2. Factores oblicuos . . . . . . . . . . .
6.7.3. Rotacin oblicua . . . . . . . . . . .
6.7.4. Factores de segundo orden . . . . . .
6.8. Medicin de factores . . . . . . . . . . . . .
6.9. Anlisis factorial conrmatorio . . . . . . . .
6.10. Complementos . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
97
97
98
100
100
101
101
102
103
103
105
107
109
109
110
110
111
111
112
114
115
116
119
.
.
.
.
123
. 123
. 124
. 126
. 127
.
.
.
.
.
.
.
.
.
.
.
.
NDICE GENERAL
7.5. Aspectos inferenciales . . . . . . . .
7.5.1. Comparacin de medias . .
7.5.2. Comparacin de covarianzas
7.5.3. Test de dimensionalidad . .
7.5.4. Regiones condenciales . . .
7.6. Ejemplos . . . . . . . . . . . . . . .
7.7. Complementos . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
129
129
129
130
131
132
135
.
.
.
.
.
.
.
.
.
.
.
.
.
137
. 137
. 138
. 140
. 143
. 145
. 148
. 148
. 149
. 150
. 151
. 151
. 153
. 159
.
.
.
.
.
.
.
.
.
.
161
. 161
. 163
. 164
. 166
. 169
. 170
. 173
. 175
. 178
. 182
10. CLASIFICACIN
187
10.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
10.2. Jerarqua indexada . . . . . . . . . . . . . . . . . . . . . . . . 188
NDICE GENERAL
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
190
194
195
196
197
199
200
202
206
207
208
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
211
211
212
212
212
213
214
214
214
215
215
215
216
218
219
219
220
220
222
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
223
223
223
224
225
226
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
NDICE GENERAL
12.1.5. Ajuste del modelo . . . . . . . . . . . .
12.1.6. Curva ROC . . . . . . . . . . . . . . .
12.1.7. Comparacin entre discriminador lineal
12.2. Anlisis discriminante basado en distancias . .
12.2.1. La funcin de proximidad . . . . . . .
12.2.2. La regla discriminante DB . . . . . . .
12.2.3. La regla DB comparada con otras . . .
12.2.4. La regla DB en el caso de muestras . .
12.3. Complementos . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
y
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . . . .
. . . . .
logstico
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
227
228
232
233
234
235
236
236
239
.
.
.
.
.
.
.
.
.
.
.
.
241
. 241
. 242
. 243
. 243
. 244
. 245
. 245
. 246
. 246
. 247
. 250
. 251
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
253
. 253
. 255
. 257
. 259
. 260
. 264
(MANOVA)
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
265
265
266
269
271
272
NDICE GENERAL
15.6. Manova de dos factores
15.7. Ejemplos . . . . . . . .
15.8. Otros criterios . . . . .
15.9. Complementos . . . . .
9
con interaccin
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
273
274
276
278
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
279
279
280
281
282
282
283
284
284
288
10
NDICE GENERAL
Prlogo
El Anlisis Multivariante es un conjunto de mtodos estadsticos y matemticos, destinados a describir e interpretar los datos que provienen de la observacin de varias variables estadsticas, estudiadas conjuntamente.
Este libro es una presentacin convencional de los principales modelos y
mtodos del Anlisis Multivariante, con referencias a algunas contribuciones
recientes.
La exposicin mantiene un cierto rigor matemtico, compensado con una
clara orientacin aplicada. Todos los mtodos se ilustran con ejemplos, que
justican su aplicabilidad. Para examinar algunos datos y ver ms ejemplos
consltese otras publicaciones relacionadas en la pgina web
www:ub:edu=stat=cuadras=cuad:html
Esta obra tiene como precedentes la monografa Mtodos de Anlisis
Factorial (Pub. no. 7, Laboratorio de Clculo, Universidad de Barcelona,
1974), y el libro Mtodos de Anlisis Multivariante(EUNIBAR, 1981; PPU,
1991; EUB, 1996, Barcelona).
El autor se reserva el derecho de ampliar el texto e introducir mejoras.
La primera versin apareci en 2007. La segunda versin (2010) contiene
correcciones, ampliaciones y un ndice alfabtico. La tercera versin (2011)
contiene algunas correcciones y nuevas referencias bibliogrcas. Despus de
una profunda revisin, la cuarta (2012) y quinta versin (2014), incorporan
ms secciones y ejemplos.
Mi agradecimiento a todos aquellos que me han hecho comentarios, en
especial a Jorge Ollero por su detallada revisin de las dos ltimas versiones.
11
12
NDICE GENERAL
Cmo citar este libro:
C. M. Cuadras
Nuevos Mtodos de Anlisis Multivariante
CMC Editions
Barcelona, 2014
Captulo 1
DATOS MULTIVARIANTES
1.1.
Introduccin
1.2.
Matrices de datos
14
Las las de X se identican con los individuos y las columnas de X con las
variables. Indicaremos:
1. xi la la i-sima de X; que operaremos como un vector columna.
2. Xj la columna j-sima de X:
3. x = (x1 ; : : : ; xj ; : : : ; xp )0 el vector columna de las medias de las variables, siendo
n
1X
xj =
xij :
n i=1
4. La matriz simtrica p
siendo
p de covarianzas
0
s11 s12
B s21 s22
B
S = B ..
.. . .
@ .
.
.
sp1 sp2
1X
=
(xij
n i=1
muestrales
1
s1p
s2p C
C
.. C ;
. A
spp
sjj 0
xj )(xij 0
xj 0 )
p de correlaciones
0
1 r12
B r21 1
B
R = B ..
.. . .
@ .
.
.
rp1 rp2
muestrales
1
r1p
r2p C
C
.. C ;
. A
1
15
sjj 0
;
sj sj 0
1.3.
Matriz de centrado
1
J:
n
Propiedades:
1. Simtrica: H0 = H:
2. Idempotente: H2 = H:
3. Los valores propios de H son cero o uno: Hv = v implica
4. 1 es vector propio de valor propio cero: H1 = 0;
5. El rango de H es n
1.4.
1; es decir, rango(H) =n
= 0 1:
10 H = 00 :
1:
Sea X = (xij ) la matriz de datos. La matriz de datos centrados se obtiene restando a cada variable su media: X = (xij xj ). Esta matriz, as
como el vector de medias, las matrices de covarianzas y correlaciones, tienen
expresiones matriciales simples.
1. x0 = n1 10 X:
2. Matriz de datos centrados:
X= X
1x0 = HX:
16
S = n1 X X = n1 X0 HX:
4. Matriz de correlaciones:
R = D 1 SD 1 ;
S = DRD;
(1.1)
1.5.
Variables compuestas
Algunos mtodos de AM consisten en obtener e interpretar combinaciones lineales adecuadas de las variables observables. Una variable compuesta Y es una combinacin lineal de las variables observables con coecientes
a = (a1 ; : : : ; ap )0
Y = a1 X1 +
+ ap Xp :
Si X =[X1 ; : : : ; Xp ] es la matriz de datos, tambin podemos escribir
Y = Xa:
Si Z = b1 X1 +
1. Y = x0 a; Z = x0 b:
2. var(Y ) = a0 Sa, var(Z) = b0 Sb:
3. cov(Y; Z) = a0 Sb:
Ciertas variables compuestas reciben diferentes nombres segn la tcnica multivariante: componentes principales, variables cannicas, funciones
discriminantes, etc. Uno de los objetivos del Anlisis Multivariante es encontrar variables compuestas adecuadas que expliquen aspectos relevantes de los
datos.
1.6.
Transformaciones lineales
es
Y = XT:
Las columnas Y1 ; : : : ; Yq de Y son las variables transformadas.
17
Propiedades:
1. y0 = x0 T; donde y es el vector (columna) de medias de Y:
2. SY = T0 ST; donde SY es la matriz de covarianzas de Y:
Demost.:
y0 = n1 10 Y = n1 10 XT = x0 T: SY = n1 Y0 HY = n1 T0 X0 HXT = T0 ST:
1.7.
Teorema de la dimensin
0;
r
X
i=1
Entonces
var(Xj
Pr
i=1
ai sji ;
sji =
r
X
ai0 sii0 :
i0 =1
P
P
ai Xi ) = sjj + ri;i0 =1 ai ai0 sii0 2 ri=1 ai sji
P
P
P
P
= Pri=1 ai sji + Pri=1 ai ( ri0 =1 P
ai0 sii0 ) 2 ri=1 ai sji
= ri=1 ai sji + ri=1 ai sji 2 ri=1 ai sji
= 0:
18
Por lo tanto
Xj
r
X
ai Xi = c =) Xj = c +
i=1
r
X
ai Xi
i=1
Corolario 1.7.2 Si todas las variables tienen varianza positiva (es decir,
ninguna se reduce a una constante) y r = rango(R)
p; hay r variables
linealmente independientes y las otras p r son combinacin lineal de estas
r variables.
Demost.: De (1.1) deducimos que r = rango(R) = rango(S):
1.8.
p:
b) Variacin total:
tr(S) =
Una medida de dependencia global debe ser funcin de la matriz de correlaciones R: Un coeciente de dependencia es
2
=1
jRj;
que verica:
2
1. 0
1:
2.
3.
Demost.:
1.9. DISTANCIAS
19
1. Sean 1 ; : : : ; p los valores propios de R. Si g y a son las medias geomtrica y aritmtica de p nmeros positivos, se verica g a: Entonces, de tr(R) = p;
jRj1=p = (
y por lo tanto 0
1=p
p)
jRj
p )=p
= 1;
1.
2. R = I (matriz identidad) si y slo si las p variables estn incorrelacionadas, luego 1 jIj =0:
3. Si 2 = 1; es decir, jRj =0; entonces rango(R) < p y por lo tanto
existen relaciones lineales entre las variables (Teorema 1.7.1).
1.9.
Distancias
v
u p
uX
dE (i; j) = t (xih
xjh )2 :
(1.2)
xjh )2 =shh ;
(1.3)
h=1
2. Distancia de K. Pearson
v
u p
uX
dP (i; j) = t (xih
h=1
(xi
xj )0 S 1 (xi
xj ):
(1.4)
20
Observaciones
Un cambio de escala de una variable Xj es una transformacin Yj = Xj ;
donde es una constante. Comparando las tres distancias, se concluye que
dM es muy adecuada en AM debido a que verica:
a) dE supone implcitamente que las variables estn incorrelacionadas y
no es invariante por cambios de escala.
b) dP tambin supone que las variables estn incorrelacionadas pero es
invariante por cambios de escala.
c) dM tiene en cuenta las correlaciones entre las variables y es invariante
por transformaciones lineales no singulares de las variables, en particular cambios de escala.
Las distancias dE y dP son casos particulares de dM cuando la matriz de
covarianzas es la identidad Ip y diag(S), respectivamente. En efecto:
dE (i; j)2 = (xi
xj )0 (xi
xj )0 [diag(S)] 1 (xi
xj );
xj ):
x)0 S 1 (xi
x):
21
1.10.
1.10.1.
Descomposicin singular
sr
sr+1 =
= sn = 0;
n ortogonal. Se verica:
1.10.2.
Inversa generalizada
= A 1 A = In :
(AA )0 = AA
(A A)0 = A A;
22
n
A = VDs U0
1.10.3.
A ) (A
A )] =
m X
n
X
(aij
aij )2 = mnimo.
i=1 j=1
0:42
0:61
0:19
0:63
1
10
0:52 0
10:14
0
0
C
0:41 C @
0
2:295
0 A@
0:38 A
0
0
1:388
0:63
y la aproximacin de rango 2 es
0
0:945
B 2:015
A =B
@ 3:984
2:936
siendo (redondeando a
0
0:35
0:42
B 0:16
0:61
A =B
@ 0:86
0:19
0:33
0:63
2:480
0:397
5:320
1:386
23
0:50
0:86
0:06
0:59
0:40
0:70
1
2:534
0:587 C
C;
5:628 A
1:652
dos decimales)
1
10
0:52 0
10:14 0 0
C
0:41 C @
0
2:29 0 A @
0:38 A
0
0 0
0:63
0:50
0:86
0:06
0:59
0:40
0:70
1
0:62
0:31 A :
0:71
1.10.4.
Transformacin procrustes
1
0:62
0:31 A ;
0:71
(1.7)
24
T = UV0 ;
c=y
bxT:
Este coeciente se puede expresar tambin en trminos de matrices de covarianzas, pero no es invariante por transformaciones lineales aplicadas por
separado a X y a Y.
Si p = 1 el anlisis procrustes equivale a la regresin lineal y = bx +
y bx; siendo b = sxy =s2x y PXY = sxy =(sx sy ) los coecientes de regresin y
correlacin ordinarios.
1.11. EJEMPLOS
25
N
72
60
56
41
32
30
39
42
37
33
32
63
54
47
E
66
53
57
29
32
35
39
43
40
29
30
45
46
51
S W
76 77
66 63
64 58
36 38
35 36
34 26
31 27
31 25
31 25
27 36
34 28
74 63
60 52
52 43
N
91
56
79
81
78
46
39
32
60
35
39
50
43
48
E
S W
79 100 75
68 47 50
65 70 61
80 68 58
55 67 60
38 37 38
35 34 37
30 30 32
50 67 54
37 48 39
36 39 31
34 37 40
37 39 50
54 57 43
1.11.
Ejemplos
1
280 216 278 218
B
212 221 165 C
C;
S=B
@
337 250 A
218
1
1 0:885 0:905 0:883
B
1
0:826 0:769 C
C:
R=B
@
1
0:923 A
1
0
26
Media
8.857
0.857
1.000
Varianza
124.1
61.27
99.5
Media Varianza
4.428
31.03
0.606
30.63
0.707
49.75
1.11. EJEMPLOS
27
Visualizacin de datos
En los captulos siguientes veremos mtodos y tcnicas de visualizacin de
datos multivariantes. Como norma general es conveniente, antes de realizar
el anlisis, examinar y revisar los datos. La Figura 1.1 contiene un grco
que permite visualizar la distribucin de las 4 variables de la Tabla 1.1 y las
relaciones lineales, o regresin lineal, entre cada par de variables.
Ejemplo 1.11.2 Familias.
Se consideran n = 25 familias y se miden las variables (vase la Tabla
1.2):
X1 = long. cabeza primer hijo, X2 = anchura cabeza primer hijo,
Y1 = long. cabeza segundo hijo, Y2 = anchura cabeza segundo hijo.
Efectuando un anlisis procrustes para estudiar el grado de coincidencia
de la matriz X (dos primeras columnas) con la matriz Y (tercera y cuarta
columna), se obtienen los vectores de medias
x = (187:4; 151:12);
y = (183:32; 149:36);
0:9971 0:0761
0:0761 0:9971
Y2
145
152
149
149
Y1
185:6
188:8
178:9
180:0
2
El coeciente procrustes es PXY
= 0:5508:
Y2
152:3
148:2
146:8
150:4
28
X2
155
149
148
153
144
157
150
159
152
150
161
147
153
Y1
179
201
185
188
171
192
190
189
197
187
179
183
174
Y2
145
152
149
149
142
152
149
152
159
151
158
147
150
X1
202
194
163
195
186
181
175
192
174
176
197
190
X2
160
154
137
155
153
145
140
154
143
139
167
153
Y1
190
188
161
183
173
182
165
185
178
176
200
187
Y2
159
151
130
158
148
146
137
152
147
143
158
150
1.12.
Complementos
La descomposicin en valores singulares de una matriz es una idea sencilla pero muy til en Anlisis Multivariante. Generaliza los vectores y valores
propios de una matriz, permite calcular inversas generalizadas y es fundamental en Anlisis de Correlacin Cannica y en Anlisis de Correspondencias.
Vase Golub y Reinsch (1970).
La aproximacin de una matriz por otra de rango inferior se debe a Eckart
y Young (1936), y es la versin matricial de la reduccin de la dimensin,
uno de los objetivos tpicos del Anlisis Multivariante.
La transformacin procrustes fue estudiada independientemente por N.
Cli y P. H. Schonemann en 1966. Permite transformar una matriz en otra
y estudiar el grado de coincidencia entre dos matrices de datos, mediante
una generalizacin multivariante de la ecuacin de regresin. Vase Gower
(1971b), Mardia et al. (1979) y Seber (1984).
Captulo 2
NORMALIDAD
MULTIVARIANTE
2.1.
Introduccin
Rp
f (x1 ; : : : ; xp )dx1
dxp = 1:
30
(Xi
i )(Xj
j ) y que cov(Xi ; Xj ) = E(Xi
covarianzas = ( ij ) es
= E[(X
)(X
i )(Xj
j );
la matriz de
)0 ]:
En este captulo introducimos y estudiamos la distribucin normal multivariante y tres distribuciones relacionadas con las muestras multivariantes:
Wishart, Hotelling y Wilks.
2.2.
2.2.1.
Denicin
1
)= p e
2
1
(x
2
)2 =
( 2 ) 1=2
p
e
2
1
(x
2
1
2 (x
(2.1)
Evidentemente se verica:
X=
+ Y
siendo Y
(2.2)
N (0; 1);
1
(x
2
)0
1 (x
(2.3)
siendo x = (x1 ; : : : ; xp )0 ; = ( 1 ; : : : ; p )0 y
= ( ij ) una matriz denida
positiva, que como veremos, es la matriz de covarianzas. Por otra parte,
(2.2) sugiere denir la distribucin X = (X1 ; : : : ; Xp )0 Np ( ; ) como una
combinacin lineal de p variables Y1 ; : : : ; Yp independientes con distribucin
N (0; 1)
X1 = 1 + a11 Y1 +
+ a1p Yp ;
..
..
(2.4)
.
.
Xp = p + ap1 Y1 +
+ app Yp ;
31
(2.5)
+ AY
@y
;
@x
@y
@x
))
el jacobiano del
@y
= jA 1 j
@x
Pero
= (A 1 )0 (A 1 ) y por lo tanto
y0 y = (x
)0 (A 1 )0 (A 1 )(x
2.2.2.
(2.6)
)0
) = (x
1
=j j
1=2
(x
(2.7)
):
obtenemos (2.3).
Propiedades
)(X
)0 ]=E(AYY0 A0 ) = AIp A0 =
N ( i;
ii );
i = 1; : : : ; p:
32
+ bp Xp
1;
11 )
f (xp ;
p;
pp )
U = (x
(x
2.2.3.
Caso bivariante
1p
1 2
exp [
1 2
1 1
f (x1
21 2
2
1
1)
(x1
1)
(x2
2)
= 0:
siendo
1<
+ (x2
2
2
2)
g];
2
i ); i
= 1; 2.
2 (1
2)
exp
[(x2
2+
( 2 = 1 )(x1
2
2)
2 2 (1
( 2 = 1 )(x1
1 );
2
1 )]
2
2 (1
;
2
)):
33
2.3.
Distribucin de Wishart
p 1)
exp(
siendo
c
= 2np=2
p(p 1)=4
j jn=2
p
Q
i=1
1
tr(
2
Q));
[ 12 (n + 1
i)]:
34
Propiedades:
1. Si Q1 ; Q2 son independientes Wishart Wp ( ; m); Wp ( ; n); entonces la
suma Q1 + Q2 es tambin Wishart Wp ( ; m + n):
2. Si Q es Wp ( ; n); y separamos las p variables en dos conjuntos de p1 y
p2 variables, y consideramos las particiones correspondientes de y Q
=
entonces Q11 es Wp1 (
11
12
21
22
11 ; n)
Q11 Q12
Q21 Q22
Q=
y Q22 es Wp2 (
22 ; n):
2.4.
2
n:
Distribucin de Hotelling
)0 M 1 (x
T 2 (p; m):
35
)0 S 1 (x
1)(x
n
p
p
(x
T 2 (p; n
)0 S 1 (x
1);
Fnp p :
T2 =
y por lo tanto
n1 n2
b 1 (x
(x y)0 S
n1 + n2
n1 + n2 1 p 2
T
(n1 + n2 2)p
2.5.
y)
T 2 (p; n1 + n2
Fnp1 +n2
2)
1 p:
Distribucin de Wilks
36
Denicin
Si las matrices A; B de orden p p son independientes Wishart Wp ( ; m);
Wp ( ; n), respectivamente, con m p; la distribucin del cociente de determinantes
jAj
=
jA + Bj
es, por denicin, la distribucin lambda de Wilks, que indicaremos por
(p; m; n):
Propiedades:
1. 0
1 y adems
no depende de
estudiarla suponiendo = I:
donde Ui es beta
B( 12 (m + i
p);
1
p):
2
p):
m
n
Fmn
m p+1
p
Fmp
p
1p
p
1p
m 1
n
m p+1
p
equivale a la distribucin
(p = 1)
p+1
(n = 1)
2n
F2(m
1)
(p = 2)
2p
F2(m
p+1)
(n = 2)
(2.8)
37
f(x) 0.20
0.15
0.10
0.05
0.00
0.0
0.2
0.4
0.6
0.8
1.0
2.6.
2
2
A. Probemos la relacin entre y F cuando p = 1: Sean A
n
m; B
independientes. Entonces = A=(A + B)
(1; m; n) y F = (n=m)A=B =
= (A=B)=(A=B + 1) = F =(1 + F ); luego
(n=m)F
Fnm : Tenemos que
F = =(1 ) ) (n=m) =(1 ) Fnm : Mas si F Fnm entonces 1=F Fmn :
Hemos demostrado que:
(1; m; n) m
(1; m; n) n
Fmn :
(2.10)
yj;
que implica
1+y0 Q
y = jQ + yy0 j=jQj = 1= ;
38
2.7.
Distribucin multinomial
+ pk = 1:
(2.11)
+ fk = n:
n!
f1 !
fk !
pf11
pfkk :
pp0 ]: Es decir:
cii = npi (1 pi );
cij = npi pj
si i 6= j:
Puesto que C1 = 0; la matriz C es singular. La singularidad se debe a
que se verica (2.11). Una g-inversa de C es (vase Seccin 1.10):
C =
Puesto que C(I
1
diag(p1 1 ; : : : ; pk 1 ):
n
1
diag(p1 1 ; : : : ; pk 1 )(I
n
110 ):
(2.12)
2.8.
39
Sea H(x; y) la funcin de distribucin bivariante de dos variables aleatorias (X; Y ): La funcin H es
H(x; y) = P (X
x; Y
y):
x) = H(x; 1);
y) = H(1; y):
1; 0g;
y demostr la desigualdad
H (x; y)
H(x; y)
H + (x; y):
40
y demostrado la desigualdad
+
donde
; y + son las correlaciones entre X; Y cuando la distribucin
bivariante es H ; H y H + ; respectivamente.
Posteriormente, diversos autores han propuesto distribuciones bivariantes
paramtricas a partir de las marginales F; G, que en algunos casos contienen a
H ; H 0 y H + : Escribiendo F; G; H para indicar F (x); G(y); H(x; y); algunas
familias son:
1. Farlie-Gumbel-Morgenstern:
H = F G[1 + (1
F )(1
G)];
1:
2. Clayton-Oakes:
H = [F
+G
1]
1=
< 1:
3. Ali-Mikhail-Haq:
H = F G=[1
(1
F )(1
G)]
1:
4. Cuadras-Aug:
H = (m nfF; Gg) (F G)1 ;
1:
5. Familia de correlacin:
H (x; y) = F (m nfx; yg) + (1
siendo J(y) = [G(y)
variante.
2.9.
F (y)]=(1
)F (x)J(y);
1;
Complementos
2.9. COMPLEMENTOS
41
1=2
g((x
)0
(x
));
42
Captulo 3
INFERENCIA
MULTIVARIANTE
3.1.
Conceptos bsicos
b) F ( ) =E[z(X; )z(X; )0 ]:
44
a) Es asintticamente normal con vector de medias y matriz de covarianzas (nF1 ( )) 1 ; donde F1 ( ) es la matriz de informacin de Fisher
para una sola observacin.
b) Si t(X) es estimador insesgado de tal que cov(t(X)) = (nF1 ( )) 1 ;
entonces bn = t(X):
c) bn converge en probabilidad a :
3.2.
n=2
exp
1
2
n
X
(xi
)0
(xi
i=1
Sea di = xi x: Se verica
Pn
P
)0 1 (xi
) = ni=1 di 0 1 di + n(x
)0
i=1 (xi
P
= tr [ 1 ni=1 di di 0 ] + n(x
(x
)0
)
1
(x
):
n
2
log det(2
log L
@
=n
log L =
n
2
(x
S
n
tr(
2
y de
S)
1
n
(x
2
)0
tenemos
) = 0;
(x
)(x
)0 ] = 0:
(x
):
45
son pues
b = S:
)n
(x
)0 ) = n
(x
3.3.
3.3.1.
0
0)
(x
0)
2
p:
T 2 (p; n
1); el
(3.1)
46
3.3.2.
2:
1. Si
es conocida, como (x y) es Np (
tadstico de contraste es
n1 n2
(x y)0
n1 + n2
2. Si
2 ; (1=n1
(x
2
p:
y)
3.3.3.
+ 1=n2 ) ) el es-
y)
Fnp1 +n2
1 p:
(3.2)
1X
x=
ni xi ;
n i=1
siendo Si = ni 1 X0i HXi y n =
Pg
i=1
b =
S
ni :
1
n
g
X
i=1
n i Si ;
47
g:
Se verica que W = (n
b y la relacin:
g)S
T = B + W:
Wp ( ; g
1); W
Wp ( ; n
g); T
Wp ( ; n
1);
jWj
jW + Bj
(p; n
g; g
1):
3.4.
Teorema de Cochran
Algunos resultados de la seccin anterior son una consecuencia del Teorema 3.4.2, conocido como teorema de Cochran.
Lema 3.4.1 Sea X(n p) una matriz de datos Np ( ; ) y u; v dos vectores
n 1 tales que u0 u = v0 v =1; u0 v =0:
1. Si
= 0 entonces y0 = u0 X es Np (0; ):
2. y0 = u0 X es independiente de z0 = v0 X:
48
=
=
i=1
n
X
i=1
i;j=1
ui uj E(xi x0j ) =
i;j=1
n
X
u2i
n
X
i=1
i=1
0
Anlogamente, si v = (v1 ; : : : ; vn )0 ; z0 = vP
X es tambin normal.
P
Las esperanzas de y; z son: E(y) = ( ni=1 ui ) ; E(z) = ( ni=1 vi ) : Las
covarianzas entre y y z son:
0
n
X
i=1
n
X
ui vj E[(xi
)(xj
)0 ]
ui vi E[(xi
)(xj
)0 ] = u0 v
= 0;
i=1
n)
n
X
0
i ui ui
i=1
i ui :
Entonces
49
u0n X
n
X
0
i (1)ui ui ;
X0 C1 X =
0
j (2)vj vj ;
X0 C2 X =
i=1
C2 =
n
X
j=1
siendo
yi0
C1 C2 =
u0i X; z0j
n X
n
X
0
0
i (1) j (2)ui ui vj vj
i=1 i=1
=0 )
0
i (1)yi yi ;
0
j (2)zj zj ;
0
i (1) j (2)ui vj
= 0;
8i; j:
Si i (1) j (2) 6= 0; entonces por el Lema 3.4.1, yi0 (1 p) = u0i X es independiente de z0j (1 p) = vj0 X: As X0 C1 X es independiente de X0 C2 X:
Una primera consecuencia del teorema anterior es la independencia entre
vectores de medias y matrices de covarianzas muestrales. En el caso univariante p = 1 es el llamado teorema de Fisher.
Teorema 3.4.4 Sea X(n
1. La media x es Np ( ; =n):
50
Wp ( ; n
1):
Wp ( ; g
1);
Wp ( ; n
g):
11 = P
(1; : : : ; 1; 0; : : : ; 0); : : : ; 1g = (0; : : : 0; 1; : : : 1);
1 = gi=1 1i = (1; : : : ; 1; : : : ; 1; : : : ; 1);
C21 = C1 ;
C22 = C2 ;
C1 C2 = 0;
rango(C1 ) = n g;
rango(C2 ) = g 1;
0
W = X C1 X;
B = X0 C2 X:
El resultado es consecuencia de los Teoremas 3.4.2 y 3.4.3.
3.5.
3.5.1.
51
vs H1 :
0:
n
Y
f (xi ; )
i=1
y sea b el estimador mximo verosmil de 2 : Consideremos anlogamente b0 , el estimador de mxima verosimilitud de 2 0 : Tenemos que b
maximiza L sin restricciones y b0 maximiza L cuando se impone la condicin
de que pertenezca a 0 : La razn de verosimilitud es el estadstico
R
L(x1 ; : : : ; xn ; b0 )
;
L(x1 ; : : : ; xn ; b)
que satisface 0
1: Aceptamos la hiptesis H0 si R es prxima a 1 y
R
aceptamos la alternativa H1 si R es signicativamente prximo a 0.
El test basado en R tiene muchas aplicaciones en AM, pero en la mayora
de los casos su distribucin es desconocida. Existe un importante resultado
(atribuido a Wilks), que dice que la distribucin de -2 veces el logaritmo de
s g.l. cuando el tamao de la muestra n es grande.
R es ji-cuadrado con r
Teorema 3.5.1 Bajo ciertas condiciones de regularidad, se verica:
2 log
donde s = dim(
0)
es asintticamente
2
r s;
< r = dim( ).
2 log
52
Test de independencia
Si (X1 ; : : : ; Xp ) es Np ( ; ); y queremos hacer un test sobre la independencia estocstica de las variables, entonces
0
= f( ; 0 )g; s = 2p;
= f( ; )g; r = p + p(p + 1)=2;
2p = p(p
1)=2 g. l.
I;
n log jRj
0; y
= f( ; )g;
= f( 1 ; : : : ;
s = p + p(p + 1)=2;
);
)g;
r
= gp + p(p + 1)=2;
g
n=2
+ ng . Por lo tanto
1)p g.l. cuando la
3.5.2.
53
Principio de unin-interseccin
Demost.: (x
0)
t (a) = (n
1)
a0 (x
0 )(x
a0 Sa
0
0) a
0
Sea A = (x
p y rango 1: Si v1 satisface
0 )(x
0 ) matriz de orden p
0
0
0
Av1 = 1 Sv1 entonces 1 = max(v Av=v Sv). De (x
0 )(x
0 ) v1 =
0
1
1 Sv1 resulta que S (x
0 )(x
0 ) v1 = 1 v1 y de la identidad
S 1 (x
vemos que
0 )(x
1
0
1
0 ) (S (x
0
= (x
0)
S 1 (x
T 2 = max t2 (a) = (n
a
0 ))
0
1
0 ) S (x
= (x
0 ); v1
1)(x
= S 1 (x
0
0)
S 1 (x
0 )(S
0 ):
(x
Por lo tanto
0 ):
0 ))
54
A. pseudofascinata
n2 = 6
X1 X2
1:14 1:78
1:20 1:86
1:18 1:96
1:30 1:96
1:26 2:00
1:28 2:00
Tabla 3.1: X1 = long. antena, X2 = long. ala (en mm), para dos muestras de
tamao n1 = 9 y n2 = 6;
3.6.
Ejemplos
y = (122:67; 192:67)0 :
87:11 71:85
71:85 150:03
S2 =
32:88 36:22
36:22 64:89
75:49 66:46
66:46 133:81
b 1 (x
y)0 S
y) = 15:52:
3.6. EJEMPLOS
55
Estadstico T 2 :
T2 =
Estadstico F :
6 9 2
D = 55:87
6+9
9+6 1 2 2
T = 25:78
2(9 + 6 2)
2
F12
Decisin: rechazamos la hiptesis de que las dos especies son iguales (nivel
de signicacin = 0:001):
1
C
C
A
56
X1
5.1
4.9
4.7
4.6
5.0
5.4
4.6
5.0
4.4
4.9
5.4
4.8
4.8
4.3
5.8
5.7
5.4
5.1
5.7
5.1
5.4
5.1
4.6
5.1
4.8
5.0
5.0
5.2
5.2
4.7
4.8
5.4
5.2
5.5
4.9
5.0
5.5
4.9
4.4
5.1
5.0
4.5
4.4
5.0
5.1
4.8
5.1
4.6
5.3
5.0
X2
3.5
3.0
3.2
3.1
3.6
3.9
3.4
3.4
2.9
3.1
3.7
3.4
3.0
3.0
4.0
4.4
3.9
3.5
3.8
3.8
3.4
3.7
3.6
3.3
3.4
3.0
3.4
3.5
3.4
3.2
3.1
3.4
4.1
4.2
3.1
3.2
3.5
3.6
3.0
3.4
3.5
2.3
3.2
3.5
3.8
3.0
3.8
3.2
3.7
3.3
X3
1.4
1.4
1.3
1.5
1.4
1.7
1.4
1.5
1.4
1.5
1.5
1.6
1.4
1.1
1.2
1.5
1.3
1.4
1.7
1.5
1.7
1.5
1.0
1.7
1.9
1.6
1.6
1.5
1.4
1.6
1.6
1.5
1.5
1.4
1.5
1.2
1.3
1.4
1.3
1.5
1.3
1.3
1.3
1.6
1.9
1.4
1.6
1.4
1.5
1.4
X4
0.2
0.2
0.2
0.2
0.2
0.4
0.3
0.2
0.2
0.1
0.2
0.2
0.1
0.1
0.2
0.4
0.4
0.3
0.3
0.3
0.2
0.4
0.2
0.5
0.2
0.2
0.4
0.2
0.2
0.2
0.2
0.4
0.1
0.2
0.2
0.2
0.2
0.1
0.2
0.2
0.3
0.3
0.2
0.6
0.4
0.3
0.2
0.2
0.2
0.2
X1
7.0
6.4
6.9
5.5
6.5
5.7
6.3
4.9
6.6
5.2
5.0
5.9
6.0
6.1
5.6
6.7
5.6
5.8
6.2
5.6
5.9
6.1
6.3
6.1
6.4
6.6
6.8
6.7
6.0
5.7
5.5
5.5
5.8
6.0
5.4
6.0
6.7
6.3
5.6
5.5
5.5
6.1
5.8
5.0
5.6
5.7
5.7
6.2
5.1
5.7
X2
3.2
3.2
3.1
2.3
2.8
2.8
3.3
2.4
2.9
2.7
2.0
3.0
2.2
2.9
2.9
3.1
3.0
2.7
2.2
2.5
3.2
2.8
2.5
2.8
2.9
3.0
2.8
3.0
2.9
2.6
2.4
2.4
2.7
2.7
3.0
3.4
3.1
2.3
3.0
2.5
2.6
3.0
2.6
2.3
2.7
3.0
2.9
2.9
2.5
2.8
X3
4.7
4.5
4.9
4.0
4.6
4.5
4.7
3.3
4.6
3.9
3.5
4.2
4.0
4.7
3.6
4.4
4.5
4.1
4.5
3.9
4.8
4.0
4.9
4.7
4.3
4.4
4.8
5.0
4.5
3.5
3.8
3.7
3.9
5.1
4.5
4.5
4.7
4.4
4.1
4.0
4.4
4.6
4.0
3.3
4.2
4.2
4.2
4.3
3.0
4.1
X4
1.4
1.5
1.5
1.3
1.5
1.3
1.6
1.0
1.3
1.4
1.0
1.5
1.0
1.4
1.3
1.4
1.5
1.0
1.5
1.1
1.8
1.3
1.5
1.2
1.3
1.4
1.4
1.7
1.5
1.0
1.1
1.0
1.2
1.6
1.5
1.6
1.5
1.3
1.3
1.3
1.2
1.4
1.2
1.0
1.3
1.2
1.3
1.3
1.1
1.3
X1
6.3
5.8
7.1
6.3
6.5
7.6
4.9
7.3
6.7
7.2
6.5
6.4
6.8
5.7
5.8
6.4
6.5
7.7
7.7
6.0
6.9
5.6
7.7
6.3
6.7
7.2
6.2
6.1
6.4
7.2
7.4
7.9
6.4
6.3
6.1
7.7
6.3
6.4
6.0
6.9
6.7
6.9
5.8
6.8
6.7
6.7
6.3
6.5
6.2
5.9
X2
3.3
2.7
3.0
2.9
3.0
3.0
2.5
2.9
2.5
3.6
3.2
2.7
3.0
2.5
2.8
3.2
3.0
3.8
2.6
2.2
3.2
2.8
2.8
2.7
3.3
3.2
2.8
3.0
2.8
3.0
2.8
3.8
2.8
2.8
2.6
3.0
3.4
3.1
3.0
3.1
3.1
3.1
2.7
3.2
3.3
3.0
2.5
3.0
3.4
3.0
X3
6.0
5.1
5.9
5.6
5.8
6.6
4.5
6.3
5.8
6.1
5.1
5.3
5.5
5.0
5.1
5.3
5.5
6.7
6.9
5.0
5.7
4.9
6.7
4.9
5.7
6.0
4.8
4.9
5.6
5.8
6.1
6.4
5.6
5.1
5.6
6.1
5.6
5.5
4.8
5.4
5.6
5.1
5.1
5.9
5.7
5.2
5.0
5.2
5.4
5.1
X4
2.5
1.9
2.1
1.8
2.2
2.1
1.7
1.8
1.8
2.5
2.0
1.9
2.1
2.0
2.4
2.3
1.8
2.2
2.3
1.5
2.3
2.0
2.0
1.8
2.1
1.8
1.8
1.8
2.1
1.6
1.9
2.0
2.2
1.5
1.4
2.3
2.4
1.8
1.8
2.1
2.4
2.3
1.9
2.3
2.5
2.3
1.9
2.0
2.3
1.8
3.6. EJEMPLOS
57
Lambda de Wilks:
=
jWj
= 0:02344
jW + Bj
(4; 147; 2)
8
F288
Decisin: las diferencias entre las tres especies son muy signicativas.
Ejemplo 3.6.3 Paradoja de Rao.
Consideremos los siguientes datos (tamaos muestrales, medias, desviaciones tpicas, matrices de covarianzas) de p = 2 variables X (longitud del
fmur), Y (longitud del hmero), obtenidas sobre dos poblaciones (Angloindios, Indios) .
Medias
n1 = 27
n2 = 20
Diferencia
Desv. tpicas
X
460.4
444.3
16.1
23.7
Y
335.1
323.2
11.9
18.2
Matriz covarianzas
b = 561:7 374:2
S
374:2 331:24
Correlacin: r = 0:867
A un nivel de signicacin del 0:05 se concluye que hay diferencias signicativas para cada variable por separado.
Utilicemos ahora las dos variables conjuntamente. La distancia de Mahab 1 d =0:4777; siendo d =(16:1 ,11:9):
lanobis entre las dos poblaciones es d0 S
La T 2 de Hotelling es
T2 =
27 20
0:4777 = 5:488
27 + 20
27 + 20 1 2
5:488 = 2:685 (2 y 44 g.l.) (p = 0:079):
(27 + 20 2)2
58
Esta F no es signicativa al nivel 0:05. Por lo tanto ambos contrastes univariantes resultan signicativos, pero el test bivariante no, contradiciendo
la creencia de que un test multivariante debera proporcionar mayor signicacin que un test univariante.
Interpretemos geomtricamente esta paradoja (conocida como paradoja
de Rao). Con nivel de signicacin 0:05, y aplicando el test T 2 de Hotelling,
aceptaremos la hiptesis nula bivariante si el vector diferencia d = (x y)0
pertenece a la elipse
n1 n2 0
d
n1 + n2
561; 7 374; 2
374; 2 331; 24
3:2;
3:2:
0; 143x =
2;
Variable y :
0; 1862y =
2:
En la Figura 3.1 podemos visualizar la paradoja. Los valores de la diferencia que estn a la derecha de la recta vertical rx son signicativos para
la variable x: Anlogamente los que estn por encima de la recta horizontal
ry lo son para la y: Por otra parte, todos los valores que estn fuera de la
elipse (regin F) son signicativos para las dos variables. Hay casos en que
x; y por separado no son signicativos, pero conjuntamente s. No obstante,
existe una pequea regin por encima de ry y a la derecha de rx que cae
dentro de la elipse. Para los datos del ejemplo, se obtiene el punto sealado
con el signo +, para el cual x e y son signicativas pero no (x; y): As x e y
son signicativas si el punto se encuentra en el cuadrante A. (Una simetra
con respecto al origen nos permitira considerar otras dos rectas y la regin
B).
59
Pues bien, el test con x y el test con y por separado, son contrastes t
distintos del test T 2 empleado con (x; y); equivalente a una F. Tales contrastes no tienen por qu dar resultados compatibles. Las probabilidades de
las regiones de rechazo son distintas. Adems, la potencia del test con (x; y)
es superior, puesto que la probabilidad de la regin F es mayor que las probabilidades sumadas de las regiones A y B.
Para ms ejemplos de comparacin de medias, consltese Baillo y Gran
(2008).
3.7.
Anlisis de perles
p:
Esta hiptesis slo tiene sentido si las variables observables son comparables.
60
La hiptesis es equivalente a
H0 : C = 0:
Aceptar H0 es lo mismo que decir que las medias de las p 1 variables
X1 X2 ; X2 X3 ; : : : ; Xp 1 Xp son iguales a cero. Por lo tanto (vase la
Seccin 3.3.1) aplicaremos el test de la T 2 de Hotelling a la matriz de datos
Y = XC0 : Bajo la hiptesis nula
b 0 ) 1 (Cx)
T 2 = (n 1)(Cx)0 (CSC0 ) 1 (Cx) = n(Cx)0 (CSC
T 2 (p 1; n 1);
p+1
b 0 ) 1 (Cx)
(Cx)0 (CSC
p 1
Fnp
1
p+1 :
(3.3)
y la T 2 de Hotelling es:
b 0 ) 1 Cx = 20:74
T 2 = n(Cx)0 (CSC
Bajo la hiptesis nula, sigue una T 2 (3; 27): Convertida en una F se obtiene
F (3; 25) = [25=(27 3)]T 2 = 6:40: El valor crtico al nivel 0:05 es 2:99: Hay
diferencias signicativas a lo largo de las cuatro direcciones cardinales.
3.8. COMPLEMENTOS
3.8.
61
Complementos
(bi
2
i) ;
i=1
62
Captulo 4
ANLISIS DE
CORRELACIN CANNICA
4.1.
Introduccin
En este captulo estudiamos la relacin multivariante entre vectores aleatorios. Introducimos y estudiamos las correlaciones cannicas, que son generalizaciones de las correlaciones simple y mltiple.
Tenemos tres posibilidades para relacionar dos variables:
La correlacin simple si X; Y son dos v.a.
La correlacin mltiple si Y es una v.a. y X = (X1 ; : : : ; Xp ) es un vector
aleatorio.
La correlacin cannica si X = (X1 ; : : : ; Xp ) e Y = (Y1 ; : : : ; Yq ) son dos
vectores aleatorios.
4.2.
Correlacin mltiple
Queremos relacionar una variable respuesta Y con p variables cuantitativas explicativas X1 ; : : : ; Xp ; que suponemos centradas. El modelo de regresin
mltiple consiste en encontrar la combinacin lineal
Yb =
1 X1
+
63
p Xp
64
Demost.:
( ) = E(Y Yb )2
= E(Y )2 + E(Yb )2
= var(Y ) + 0
( )=2
(4.1)
2E(Y Yb )
2 0
e igualando a 0
2 = 0:
La variable prediccin es Yb = X b = b1 X1 +
Y = Yb + Ye ;
+ bp Xp : Si ponemos
1:
2. R = 1 si Y es combinacin lineal de X1 ; : : : ; Xp :
3. R = 0 si Y est incorrelacionada con cada una de las variables Xi :
Teorema 4.2.2 La variable prediccin Yb ; residual Ye y la correlacin mltiple R cumplen:
1. Yb e Ye son variables incorrelacionadas.
2. var(Y ) =var(Yb )+var(Ye ):
65
3. R2 =var(Yb )=var(Y ):
Demost.:
1. Es consecuencia de
b = : En efecto,
0
cov(Yb ; Ye ) = E(Yb Ye ) = E( b X0 (Y
obtenemos
R2 =
4.3.
p
X
i=1
b Xi
i
p
X
i=1
b 0 X)) = b 0
i i
b 0 b = 0:
0
0
= b = b b = var(Yb );
var(Yb )
cov2 (Y; Yb )
=
:
var(Y )
var(Y )var(Yb )
(4.2)
Correlacin cannica
+ ap Xp ; V = Yb = b1 Y1 +
+ b q Yq ;
66
As el problema se reduce a:
maximizar a0 S12 b restringido a a0 S11 a = 1;
b0 S22 b =1:
Los vectores de coecientes a; b que cumplen esta condicin son los primeros
vectores cannicos. La mxima correlacin entre U; V es la primera correlacin
cannica r1 .
Teorema 4.3.1 Los primeros vectores cannicos satisfacen las ecuaciones
S12 S221 S21 a = S11 a;
S21 S111 S12 b = S22 b:
(4.3)
(a0 S11 a 1)
S11 a = 0;
S21 a
(4.4)
S22 b = 0:
b0 S21 a = b0 S22 b;
1=2
S111 S12 b;
1=2
S221 S21 a:
1;
donde
es el primer
67
1=2 0
La correlacinp
es r1 = a0 S12 b y como 1 = 1=2 a0 S12 b deducimos que r12 = 1 ;
es decir, r1 =
1:
De hecho, las ecuaciones en valores y vectores propios tienen otras soluciones. Concretamente hay m = m nfp; qg parejas de vectores cannicos
a1 ; b1 ; : : : ; am ; bm ; que proporcionan las variables y correlaciones cannicas
U1 = Xa1 ;
U2 = Xa2 ;
..
.
V1 = Yb1 ;
V2 = Yb2 ;
..
.
r1 = cor(U1 ; V1 );
r2 = cor(U2 ; V2 );
..
.
> rm : Entonces:
k;
k = i; j; y multiplicando
0
i aj S11 ai ;
0
j ai S11 aj :
68
0
0
Restando: ( i
j )ai S11 aj = 0 ) ai S11 aj = 0 )cor(Ui ; Uj ) = 0:
Por otra parte, expresando (4.3) como
i ai ;
j bj ;
4.4.
0
j )ai S12 bj
0
i bj S21 ai ;
0
j ai S12 bj :
1=2
ai = S11 ui ;
1=2
bi = S22 vi ;
ri =
i:
Demost.:
1=2
1=2
1=2
1=2
=U
U0
y por lo tanto
1=2
1=2
2
i ui
1=2
1=2
1=2
2
i (S11 ui )
4.5.
69
11 ;
12 ;
22 ,
Si queremos decidir cules son signicativas, supongamos normalidad multivariante, indiquemos 0 = 1 y planteemos el test
H0k :
>
k+1
"
21 )
= 0;
(k = 0; 1; : : : ; m);
1
(p
2
+ q + 1) +
k
X
i=1
ri
log
"
m
Y
i=k+1
(1
ri2 )
4.6.
70
4.6.1.
Razn de verosimilitud
jSj
jRj
=
;
jS11 jjS22 j
jR11 jjR22 j
4.6.2.
m
Y
=
(1
ri2 ):
i=1
Principio de unininterseccin
+ ap Xp ;V = b1 Y1 +
a0
12 b
p
a 11 a b0
22 b
+ b p Yq :
a0 S12 b
p
:
a0 S11 a b0 S22 b
= 0;
H1 :
> 0:
4.7. EJEMPLOS
4.7.
71
Ejemplos
57:232
49:785
42:481
38:596
67:512
42:481
94:057
49:644
Entonces:
1
50:576
38:596 C
C:
49:644 A
44:390
S11 =
98:720 57:232
57:232 49:785
; S12 =
67:512 50:576
42:481 38:596
S21 =
67:512 42:481
50:576 38:596
; S22 =
94:057 49:644
49:644 44:390
= 0:7032,
S11 j = 0
r2 = 0:3256:
72
jSj
= 0:2653
jS11 jjS22 j
(2; 22; 2)
0
1
=1> 1=
> 2 = 0;
= 0;
L0 = 28:52 (4 g.l.),
L1 = 2:41 (2 g.l.).
Podemos rechazar H00 y aceptar H01 : Solamente la primera correlacin cannica es signicativa.
Ejemplo 4.7.2 Elecciones.
La Tabla 4.1 contiene los datos de un estudio sobre comportamiento electoral en Catalunya. Se consideran los resultados de unas elecciones celebradas
en las 41 comarcas catalanas, y para cada comarca se tabulan los valores de
las siguientes variables:
X1 = log(porcentaje de votos a CU), X2 = log(porcentaje de votos a PSC),
X3 = log(porcentaje de votos a PP), X4 = log(porcentaje de votos a ERC),
Y1 = log(cociente Juan/Joan),
Y2 = log(cociente Juana/Joana),
siendo CU (Convergncia i Uni), PP (Partido Popular), PSC (Partido Socialista de Catalua), ERC (Esquerra Republicana). El cociente Juan/Joan
signica el resultado de dividir el nmero de hombres que se llaman Juan por
el nmero de hombres que se llaman Joan. Valores positivos de las variables
Y1 ; Y2 en una comarca indican predominio de los nombres en castellano sobre
los nombres en cataln.
4.7. EJEMPLOS
73
Comarca.
CU
PSC
PP
ERC
Juan
Joan
Juana
Joanna
1 .A . C a m p .
2 .A . E m p o .
3 .A . P e n e .
4 .A . U rg e ll
5 .A . R ib a g .
6 .A n o ia
7 .B a g e s
8 .B . C a m p
9 .B . E b re
1 0 .B . E m p .
1 1 .B . L lo b .
12. B . Pene.
1 3 .B a rc .
1 4 .B e rg u .
1 5 .C e rd a .
1 6 .C o n c a B .
1 7 .G a rra f
1 8 .G a rrig .
1 9 .G a rro t.
2 0 .G iro n .
2 1 .M a re s.
2 2 .M o nts.
2 3 .N o g u e .
2 4 .O so n a
2 5 .P. J u ss
2 6 .P. S o b ir
2 7 .P. U rg .
2 8 .P la E st.
2 9 .P rio r.
3 0 .R . E b re
3 1 .R ip o ll.
3 2 .S e g a r.
3 3 .S e g ri
3 4 .S e lva
3 5 .S o lso .
3 6 .Ta rra .
3 7 .Te r. A .
3 8 .U rg e ll
3 9 .Va l. A .
4 0 .Va ll. O c .
4 1 .Va ll O r.
4 4 .6
4 7 .3
4 7 .4
4 9 .5
4 2 .1
4 4 .8
4 7 .9
4 0 .8
4 4 .2
4 8 .2
4 8 .1
3 9 .7
32
5 1 .2
5 1 .1
4 9 .9
3 7 .9
50
5 6 .1
4 2 .8
43
4 9 .4
5 3 .7
5 6 .7
50
5 1 .1
5 2 .4
5 7 .1
4 5 .9
4 8 .9
5 5 .4
5 3 .6 7
4 2 .7 7
4 9 .2
5 7 .8
3 4 .5 3
49
.5 4 .1 8
4 4 .4 9
3 3 .6 8
4 0 .7 2
2 9 .6
3 0 .7
3 1 .8
2 4 .7
4 1 .1
3 3 .9
30
3 3 .3
3 1 .3
3 2 .4
2 7 .6
4 0 .5
4 1 .2
2 5 .8
2 5 .9
2 0 .9
39
2 4 .1
2 3 .4
3 1 .7
3 2 .9
3 1 .5
2 4 .3
1 8 .5
3 0 .5
3 0 .8
2 5 .8
1 5 .7
2 7 .7
3 1 .3
2 5 .8
2 1 .1 6
3 5 .3 3
29
1 7 .5
3 8 .7 6
2 5 .1
2 2 .5
3 8 .3
4 2 .6 2
3 7 .9 6
6 .2
7 .9
5 .6
6 .4
5 .9
6 .6
4 .9
10
1 2 .1
5 .1
9 .4
9 .1
1 2 .2
4 .4
5 .5
5 .9
8 .5
6 .4
4 .3
6 .6
8 .9
8 .1
7
3 .9
4 .9
4 .8
6 .6
4 .5
6 .2
6 .8
3 .3
6 .8 7
9 .6 6
6 .2
5 .8
1 3 .8 9
1 4 .2
6 .9
1 2 .5 9
8 .4 2
7 .5 1
1 6 .1
1 0 .8
1 0 .7
1 7 .3
8 .9
8 .7
1 2 .2
12
9 .5
11
5 .6
7 .9
7 .1
1 4 .7
1 3 .9
1 7 .9
7 .8
1 7 .5
1 3 .3
1 4 .7
9 .2
8
1 2 .2
16
1 2 .4
1 0 .9
1 2 .6
20
1 6 .9
1 0 .4
1 2 .8
1 5 .5 8
8 .9 1
1 1 .4
1 5 .9
8 .8 1
9 .3
1 3 .8 6
2 .6 7
7 .1
7 .6 3
684
1628
1502
370
29
1759
2766
2025
1634
1562
10 398
957
27 841
830
190
247
1474
191
950
1978
5234
907
557
1794
154
61
393
159
173
407
603
222
2049
1750
95
2546
164
144
97
11 801
4956
605
1264
1370
346
30
975
1970
1081
484
1423
2687
577
10 198
590
228
492
477
269
1168
1861
3053
314
487
2548
115
121
299
869
149
185
457
320
951
1680
401
940
125
656
19
4482
2636
143
358
281
56
9
433
559
600
329
334
3103
236
9287
108
50
49
618
21
100
430
1507
229
92
222
27
9
58
32
37
98
75
27
625
340
20
852
55
45
37
3110
1227
38
101
90
39
4
115
145
138
138
153
325
33
1598
33
12
45
154
33
91
191
280
82
37
100
14
15
20
52
16
29
17
15
202
152
12
117
20
56
2
416
233
74
X1
1
X2
0:8520
1
X3
0:6536
0:5127
1
X4
0:5478
0:7101
:6265
1
Y1
0:6404
0:7555
0:5912
0:7528
1
Y2
0:5907
0:6393
0:5146
0:7448
0:8027
1
r2 = 0:4125:
4.8.
Complementos
4.8. COMPLEMENTOS
75
cuerpo, que con un anlisis de todas las correlaciones sera difcil de interpretar. Es un mtodo de aplicacin limitada, pero de gran inters terico puesto
que diversos mtodos de AM se derivan del ACC.
Aplicaciones a la psicologa se pueden encontrar en Cooley y Lohnes
(1971), Cuadras y Snchez (1975). En ecologa se ha aplicado como un modelo para estudiar la relacin entre presencia de especies y variables ambientales
(Gittings, 1985).
La distribucin de las correlaciones cannicas es bastante complicada.
Solamente se conocen resultados asintticos (Muirhead, 1982).
En ciertas aplicaciones tiene inters considerar medidas globales de asociacin entre dos matrices de datos X; Y; de rdenes n p y n q respectivamente, observadas sobre el mismo conjunto de n individuos. Una medida
interesante resulta de considerar la razn de verosimilitud de Wilks. Viene
dada por
s
Q
AW = 1 jI S221 S21 S111 S12 j = 1
(1 ri2 );
i=1
Sin embargo AH suele dar valores bajos. Tambin es una medida de asociacin global
!2
s
X
2
PXY
=
ri =s2 ;
(4.5)
i=1
que coincide con el coeciente procrustes (1.8) cuando las variables X estn
incorrelacionadas y tienen varianza 1 (y anlogamente las Y ). Vase Cramer
y Nicewander (1979) y Cuadras (2011). En Cuadras et al. (2012) se propone
una generalizacin a la comparacin (mediante distancias) de dos conjuntos de datos en general, con una aplicacin a la comparacin de imgenes
hiperespectrales.
76
Captulo 5
ANLISIS DE
COMPONENTES
PRINCIPALES
5.1.
78
i ti ;
t0i ti = 1;
i = 1; : : : ; p:
Entonces:
1. Las variables compuestas Yi = Xti ; i = 1; : : : ; p; son las componentes
principales.
2. Las varianzas son los valores propios de S
var(Yi ) =
i;
i = 1; : : : ; p:
i 6= j = 1; : : : ; p:
0
i )ti tj
= 0; ) t0i tj = 0; ) cov(Yi ; Yj ) =
0
j ti tj ;
0
i tj ti ;
0
j ti tj
= 0; si i 6= j.
var(Yi ) = i t0i tj = i :
Pp
Pp
Sea ahora Y =
i=1 ai Xi =
i=1 i Yi una variable compuesta tal que
P
p
2
i=1 i = 1: Entonces
p
X
var(Y ) = var(
i=1
i Yi )
p
X
i=1
2
i var(Yi )
p
X
i=1
2
i i
p
X
(
i=1
2
i) 1
= var(Y1 );
79
p
X
bi Xi =
i=1
p
X
i Yi
condicionado a
p
X
2
i
= 1:
i=2
i=2
Entonces:
p
X
var(Y ) = var(
i=2
i Yi )
p
X
2
i var(Yi )
p
X
i=2
i=2
2
i i
p
X
(
2
i) 2
= var(Y2 );
i=2
5.2.
La varianza de
Ppla componente principal Yi es var(Yi ) =
total es tr(S) = i=1 i : Por lo tanto:
1. Yi contribuye con la cantidad
y la variacin
80
5.3.
= (xi
xj ) (xi
xj ) =
p
X
(xih
xjh )2 :
h=1
La matriz
=(
ij )
es la matriz n
n
1 X
2n2 i;j=1
2
ij :
= (yi
yj ) (yi
yj ) =
m
X
(yih
yjh )2
h=1
81
p
X
h:
h=1
xj )2 = s2 :
(5.3)
En efecto, si x es la media
1
n2
n
X
(xi
xj )
1
n2
i;j=1
n
X
i;j=1
n
X
(xi
1
n2
i;j=1
n
X
2
+ n2
(xi
i;j=1
1
ns2 + n1 ns2
n
(xi
(xj
2
x) +
1
n2
x))2
n
X
(xj
x)2
i;j=1
x)(xj
x))2
+ 0 = 2s2 :
p
X
sjj = tr(S):
j=1
82
m
X
s (Zj ) =
j=1
m
X
vj0 Svj ;
j=1
V (Y)m
= 100
V (X)p
+
1+
+
+
5.4.
Inferencia
5.4. INFERENCIA
83
2. U =nS es Wishart Wp ( ; n
1):
=
=[
la diagonalizacin de
1; : : : ;
p ];
: Indiquemos
= [ 1; : : : ;
p );
= diag( 1 ; : : : ;
p ];
L = diag(l1 ; : : : ; lp )
` = [l1 ; : : : ; lp ];
5.4.1.
b i = gi ;
i = 1; : : : ; p:
>
>
p k
k+1
p k+1
= ;
+ lp )=k:
84
=n): En particular:
es
N ( i ; 2 2i =n);
cov(li ; lj ) = 0;
i 6= j;
X
j6=i
)2
0
i
3. ` es independiente de G:
Demost.: Anderson (1958), Mardia, Kent y Bibby (1979).
Como consecuencia de que li es N ( i ; 2 2i =n); obtenemos el intervalo de
conanza asinttico con coeciente de conanza 1
li
(1 + az
=2
)1=2
<
<
(1
li
az
1=2
=2 )
5.4.2.
Contraste de hiptesis
Determinados contrastes de hiptesis relativos a las componentes principales son casos particulares de un test sobre la estructura de la matriz
:
A. Supongamos que queremos decidir si la matriz
es igual a una matriz
determinada 0 : Sea X un matriz n p con las independientes Np ( ; ):
El test es:
H0 : = 0 (
desconocida)
Si L es la verosimilitud de la muestra, el mximo de log L bajo H0 es
log L0 =
n
2
log j2
0j
n
tr(
2
1
0
S):
5.4. INFERENCIA
85
El mximo no restringido es
log L =
n
2
n
p:
2
log j2 Sj
= 2(log L log L0 )
= ntr( 0 1 S) n log j
1
+ Lp )=p;
1
0
es
(5.4)
np:
Sj
g = (L1
(5.5)
entonces, asintticamente
2 log
= np(a
log g
2
q;
1)
(5.6)
= diag(
11 ; : : : ;
pp )
desconocida).
Bajo H0 la estimacin de d es Sd =diag(s11 ; : : : ; spp ) y Sd 1 S = R es la matriz de correlaciones. De (5.4) y de log j2 Sd j log j2 Sj = log jRj; tr(R) =p;
obtenemos
2
2 log R = n log jRj
q;
siendo q = p(p+1)=2 p = p(p 1)=2: Si el estadstico n log jRj no es signicativo, entonces podemos aceptar que las variables estn incorrelacionadas
y por lo tanto, como hay normalidad multivariante, independientes. Entonces
las propias variables seran componentes principales. Vase la Seccin 3.5.1.
C. Test de igualdad de valores propios.
Es ste un test importante en ACP. La hiptesis nula es
H0 :
>
>
p k
p k+1
= :
(l1 ; : : : ; lk ; lk+1 ; : : : ; lp );
S0
si H0 es cierta)
(l1 ; : : : ; lk ; a0 ; : : : ; a0 );
86
donde a0 = (lk+1 +
+ lp )=(p
S0 1 S
= n(p
k) log(lk+1 +
+ lp )=(p
(k p)=p
lp )1=p a0
k)
n(
p
X
y aplicando (5.6)
log li )
2
q;
(5.7)
i=k+1
5.5.
5.5.1.
5.5.2.
Criterio de Kaiser
lambda
87
60
50
40
30
20
10
0
0
5.5.3.
Test de esfericidad
H0
>
>
>
m+1
5.5.4.
88
> lp : Si normalizamos
p j
E(Lj ) = 100
1X 1
:
p i=1 j + i
5.6.
Biplot
Un biplot es una representacin, en un mismo grco, de las las (individuos) y las columnas (variables) de una matriz de datos X(n p):
Suponiendo X matriz centrada, el biplot clsico (debido a K. R. Gabriel),
se lleva a cabo mediante la descomposicin singular
X = U V0 ;
donde U es una matriz n p con columnas ortonormales, V es una matriz p p ortogonal, y
es una matriz diagonal con los valores singulares
de X ordenados de mayor a menor. Es decir, U0 U = In ; V0 V = VV0 = Ip ;
=diag( 1 ; : : : ; p ): Como X0 X = U0 2 U vemos que XV = U es la transformacin en componentes principales (5.1), luego las coordenadas para representar las n las estn contenidas en U : Las coordenadas de las p columnas son las las de la matriz V: Filas y columnas se pueden representar
(tomando las dos primeras coordenadas) sobre el mismo grco, como en la
Figura 5.2.
En general. la solucin biplot consiste en representar simultneamente las
matrices A = U
y B = V 1 ; para un tal que 0
1: Entonces
0
AB = X y el grco reproduce las las y columnas de X: La calidad en
la representacin depende del valor asignado al parmetro : Si = 1 se
5.7. EJEMPLOS
89
j ; : : : ; 0)
mj
Mj ;
5.7.
Ejemplos
44:7
B 17:79
S =B
@ 5:99
9:19
17:79
26:15
4:52
4:44
5:99
4:52
3:33
1:34
1
9:19
4:44 C
C
1:34 A
4:56
90
Val. prop.
Porc. acum.
t1
0; 8328
0; 5029
0; 1362
0; 1867
58:49
74:27
t2
0; 5095
0; 8552
0; 05 88
0; 0738
15:47
93:92
t3
0; 1882
0; 0202
0; 1114
0; 9755
2:54
97:15
t4
0; 1063
0; 1232
0; 9826
0; 0892
2:24
100
4. Nmero de componentes:
a. Criterio de Kaiser: la media de las varianzas es v =tr(S)=p = 19:68:
Los dos primeros valores propios son 58.49 y 15.47, que son mayores que 0:7 v: Aceptamos m = 2:
b. Test de esfericidad.
m
0
1
2
g.l.
333.9 9
123.8 5
0.39 2
Rechazamos m = 0; m = 1 y aceptamos m = 2:
c. Test del bastn roto: Puesto que P2 = 93:92 supera claramente el
valor esperado 79:16 y que no ocurre lo mismo con P3 , aceptamos
m = 2:
5. Componentes principales:
Y1 = 0; 8328X1 + 0; 5029X2 + 0; 1362X3 + 0; 1867X4 ;
Y2 = 0; 5095X1
0; 8552X2
0; 05 88X3 + 0; 0738X4 :
6. Interpretacin: la primera componente es la variable con mxima varianza y tiene todos sus coecientes positivos. La interpretamos como
una componente de tamao. La segunda componente tiene coecientes
positivos en la primera y cuarta variable y negativos en las otras dos.
La interpretamos como una componente de forma. La primera componente ordena las estudiantes segn su tamao, de la ms pequea
a la ms grande, y la segunda segn la forma, el tipo pcnico en contraste con el tipo atltico. Las dimensiones de tamao y forma estn
incorrelacionadas.
5.7. EJEMPLOS
91
corredor
1
2
3
4
5
6
7
8
9
10
11
12
km 4
10
12
11
9
8
8
10
11
14
12
13
14
km 8
10
12
10
9
8
9
10
12
13
12
13
15
km 12
13
14
14
11
9
10
8
10
11
12
11
14
km16
12
15
13
11
8
9
9
9
11
10
11
13
Val. prop.
%
Porc. acum.
t1
0:5275
0:5000
0:4769
0:4943
12:26
72:22
72:22
t2
0:4538
0:5176
0:5147
0:5112
4:098
24:13
96:35
t3
0:2018
0:2093
0:6905
0:6624
0:4273
2:52
98:85
t4
0:6893
0:6621
0:1760
0:2357
0:1910
1:15
100
1
C
C
A
92
var(Y1 ) = 12:26
var(Y2 ) = 4:098
5.8.
Complementos
El Anlisis de Componentes Principales (ACP) fu iniciado por K. Pearson en 1901 y desarrollado por H. Hotelling en 1933. Es un mtodo referente
a una poblacin, pero W. Krzanowski y B. Flury han investigado las componentes principales comunes a varias poblaciones.
El ACP tiene muchas aplicaciones. Una aplicacin clsica es el estudio
de P. Jolicoeur y J. E. Mosimann sobre tamao y forma de animales (como
los caparazones de tortugas machos y hembras), en trminos de la primera,
5.8. COMPLEMENTOS
93
Figura 5.2: Representacin por anlisis de componentes principales y mediante biplot de los tiempos parciales de 12 corredores.
segunda y siguientes componentes principales. La primera componente permite ordenar los animales de ms pequeos a ms grandes, y la segunda
permite estudiar su variabilidad en cuanto a la forma. Ntese que tamao
y formason conceptos independientesen sentido lineal.
EL llamado ACP Comn (Common Principal Component Analysis) es
el estudio de las componentes principales comunes en varios conjuntos de
datos. Supongamos que unas mismas variables observables tienen matrices de
covarianzas 1 ; : : : ; k en k poblaciones distintas y que las descomposiciones
espectrales son i = T i T0 ; i = 1; : : : ; k; es decir, los vectores propios
(columnas de T) son los mismos. Entonces las componentes principales son
las mismas, aunque las varianzas sean distintas. Por ejemplo, los caparazones
de tortugas machos y hembras, aunque de distinta magnitud, pueden tener
la misma estructura de tamao y forma. Vase Krzanowski (1988) y Flury
(1997).
El AFM (Anlisis Factorial Mltiple) permite visualizar varios conjuntos
de datos observados con distintas variables, a n de encontrar una estructura
comn. El AFM se realiza en dos pasos. Primero se aplica un ACP a cada
matriz (centrada) de datos, que se normaliza dividiendo por la raz cuadrada
del primer valor propio. Las matrices transformadas se juntan en una sola, a
la que se aplica un ACP global. Vase Escoer y Pags (1990).
94
+ rp2 ;
(5.8)
5.8. COMPLEMENTOS
95
1
X
n=1
4
2 (2n
1)2
[1
cos(2n
1) X]:
96
Captulo 6
ANLISIS FACTORIAL
6.1.
Introduccin
El Anlisis Factorial (AF) es un mtodo multivariante que pretende expresar p variables observables como una combinacin lineal de m variables
hipotticas o latentes, denominadas factores. Tiene una formulacin parecida al Anlisis de Componentes Principales, pero el modelo que relaciona
variables y factores es diferente en AF. Si la matriz de correlaciones existe,
las componentes principales tambin existen, mientras que el modelo factorial
podra ser aceptado o no mediante un test estadstico.
Ejemplos en los que la variabilidad de las variables observables se puede
resumir mediante unas variables latentes, que el AF identica como factores, son:
1. La teora clsica de la inteligencia supona que los test de inteligencia estaban relacionados por un factor general, llamado factor g de
Spearman.
2. La estructura de la personalidad, tambin medida a partir de test y
escalas, est dominada por dos dimensiones: el factor neuroticismoestabilidad y el factor introversin-extroversin.
3. Las diferentes caractersticas polticas de ciertos pases estn inuidas
por dos dimensiones: izquierda-derecha y centralismo-nacionalismo.
El AF obtiene e interpreta los factores comunes a partir de la matriz de
97
98
6.2.
r1p
r2p
.
..
. ..
1
C
C
C:
A
El modelo unifactorial
i = 1; : : : ; p:
(6.1)
De acuerdo con este modelo, cada variable Xi depende del factor comn
F y de un factor nico Ui : El modelo factorial supone que:
a) Variables y factores estn estandarizados (media 0 y varianza 1).
b) Los p + 1 factores estn incorrelacionados.
De este modo F contiene la parte de la variabilidad comn a todas las
variables, y cada Xi est adems inuida por un factor nico Ui ; que aporta la parte de la variabilidad que no podemos explicar a partir del factor
comn. El coeciente ai es la saturacin de la variable Xi en el factor F: La
estandarizacin es una condicin terica que se supone al modelo para su
estudio, pero que no debe imponerse al conjunto de datos observados.
De (6.1) deducimos inmediatamente que
a2i + d2i
= 1;
cor(Xi ; F ) = ai ;
cor(Xi ; Xj ) = ai aj ;
i 6= j:
99
= rij ri0 j 0
ai aj 0 ai0 aj 0 = 0:
(6.3)
F
0:83
1:00
0:67
0:67
0:65
0:57
I
0:78
0:67
1:00
0:64
0:54
0:51
M
0:70
0:67
0:64
1:00
0:45
0:51
D
0:66
0:65
0:54
0:45
1:00
0:40
Mu
0:63
0:57
0:51
0:51
0:40
1:00
relaciona las calicaciones en C (clsicas), F (francs), I (ingls), M (matemticas), D (discriminacin de tonos) y Mu (msica) obtenidas por los alumnos
de una escuela. Esta matriz verica, aproximadamente, las relaciones (6.2).
Si consideramos la primera y la tercera la, tenemos que:
0:70
0:66
0:63
0:83
=
=
=
= 1:2 .
0:67
0:64
0:54
0:51
De acuerdo con el modelo unifactorial, estas calicaciones dependen esencialmente de un factor comn.
100
6.3.
6.3.1.
El modelo multifactorial
El modelo
+ a1m Fm +d1 U1
+ a2m Fm
+d2 U2
Xp = ap1 F1 +
+ apm Fm
(6.5)
+dp Up :
i 6= j = 1; : : : ; p:
i = 1; : : : ; m; j = 1; : : : ; p:
3. Tanto los factores comunes como los factores nicos son variables reducidas (media 0 y varianza 1).
En el modelo factorial (6.5) se admite que las variables, en conjunto,
dependen de los factores comunes, salvo una parte de su variabilidad, slo
explicada por el correspondiente factor especco. Los factores comunes representan dimensiones independientes en el sentido lineal, y dado que tanto
los factores comunes como los nicos son variables convencionales, podemos
suponer que tienen media 0 y varianza 1. Es slo una suposicin terica, en
general los datos observados no estn reducidos.
6.3.2.
101
La matriz factorial
Los coecientes aij son las saturaciones entre cada variable Xi y el factor
Fj : La matriz p m que contiene estos coecientes es la matriz factorial
0
1
a11
a1m
B a21
a2m C
B
C
A = B .. . .
.. C :
@ .
.
. A
ap1
apm
Si indicamos por X = (X1 ; : : : ; Xp )0 el vector columna de las variables,
y anlogamente F = (F1 ; : : : ; Fm )0 ; U =(U1 ; : : : ; Up )0 ; el modelo factorial en
expresin matricial es
X = AF + DU;
(6.6)
donde D =diag(d1 ; : : : ; dp ) es la matriz diagonal con las saturaciones entre
variables y factores nicos. El AF tiene como principal objetivo encontrar e
interpretar la matriz factorial A:
6.3.3.
Las comunalidades
+ a2im + d2i ;
102
Evidentemente se verica
R = R + D2 :
6.3.4.
(6.9)
1)=2
[p m
m(m
1)=2] = 12 [(p
m)2
m]:
(6.10)
Un modelo factorial es sobredeterminado si m > ma ; pues hay ms saturaciones libres que correlaciones. Si m = ma el modelo es determinado y
podemos encontrar A algebraicamente a partir de R:
Desde un punto de vista estadstico, el caso ms interesante es m < ma ;
ya que entonces podemos plantear la estimacin estadstica de A; donde
d > 0 juega el papel de nmero de grados de libertad del modelo. El nmero
mximo m de factores comunes en funcin de p es:
p
m
2 3 4 5 6 7 8 9 10 20 30 40
0 1 1 2 3 3 4 5 6 14 22 31
6.3.5.
103
El caso de Heywood
Una limitacin del modelo factorial es que alguna comunalidad puede alcanzar (algebraicamente) un valor superior a 1, contradiciendo (6.8). Cuando esto ocurre, la solucin se ha de interpretar con precaucin. En algunos
mtodos, como el de la mxima verosimilitud, se resuelve este inconveniente
(primeramente observado por H.B. Heywood) imponiendo la condicin h2i
1 en la estimacin de las comunalidades.
6.3.6.
Un ejemplo
L
.2
.1
.9
.8
.8
(6.11)
104
Asignaturas
Factores
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
7
5
5
6
7
4
5
5
6
6
6
5
6
8
6
4
6
6
6
7
7
5
6
8
6
4
5
6
5
5
7
5
6
7
7
3
4
6
5
7
5
6
5
5
6
6
5
5
7
6
5
4
6
8
5
4
7
7
4
6
5
6
7
6
7
7
5
5
6
6
6
5
6
8
6
4
8
7
4
7
Ciencias Letras
6
5
5
6
6
6
6
5
6
6
5
4
5
8
6
4
7
7
4
6
7
5
6
7
6
4
5
6
5
5
7
6
6
7
6
3
5
6
5
7
5
6
5
5
6
6
6
5
6
6
5
4
6
8
5
4
7
7
4
6
CNa
Mat
Fra
Lat
Lit
Lit
0:584
0:317
0:841
0:766
1
105
7 + 0:2
De los 7 puntos, 5.6 se explican por el factor comn C, 1 punto por el factor
comn L y 0.4 puntos por el factor nico. Este factor nico representa la
variabilidad propia de las CNa, independente de los conceptos C y L.
Las comunalidades son:
h21 = 0:68; h22 = 0:82; h23 = 0:82; h24 = 0:73; h25 = 0:68:
Los porcentajes de la variabilidad explicada por los factores comunes y las
comunalidades son:
C. Naturales
Matemticas
Francs
Latn
Literatura
6.4.
Teoremas fundamentales
El primer teorema, conocido como teorema de Thurstone, permite relacionar la matriz factorial con la matriz de correlaciones, o ms exactamente,
con la matriz de correlaciones reducida. El segundo teorema permite determinar, tericamente, el nmero de factores comunes y los valores de las
comunalidades.
Teorema 6.4.1 Bajo las hiptesis del modelo factorial lineal se verica:
P
rij = m
i 6= j = 1; : : : ; p;
k=1 aik ajk ;
Pm 2
1 = k=1 aik + d2i ;
i = 1; : : : ; p:
En notacin matricial
R = AA0 + D2 :
(6.12)
106
(6.13)
Una solucin factorial viene dada por cualquier matriz A que cumpla la
relacin (6.13). As pues, si m > 1; existen innitas soluciones, pues si A es
solucin, tambin lo es AT, siendo T una matriz m m ortogonal. Por otro
lado, (6.12) o (6.13) tampoco resuelven completamente el problema, ya que
desconocemos las comunalidades. La obtencin de las comunalidades est
muy ligada al nmero de factores comunes.
Teorema 6.4.2 Se verica:
1. El modelo factorial existe si R es la suma de una matriz semidenida
positiva y una matriz diagonal con elementos no negativos.
2. El nmero m de factores comunes es el rango de la matriz R : Por
lo tanto m es el orden del ms grande menor de R que no contiene
elementos de la diagonal.
3. Les comunalidades son aquellos valores 0
h2i
1 tales que R es
matriz semi-denida positiva (tiene m valores propios positivos).
Demost.: Es una consecuencia de la relacin (6.13) entre R y A: El mayor
menor de R quiere decir la submatriz cuadrada con determinante no negativo,
que no contenga elementos de la diagonal.
Hemos visto que a partir de R podemos encontrar m, pero la solucin no
es nica. El principio de parsimonia en AF dice que entre varias soluciones
admisibles, escogeremos la que sea ms simple. El modelo factorial ser pues
aquel que implique un nmero mnimo m de factores comunes. Fijado m, las
comunalidades se pueden encontrar, algebraicamente, a partir de la matriz
de correlaciones R: En la prctica, las comunalidades se hallan aplicando
mtodos estadsticos.
107
Finalmente, podemos probar de manera anloga, que si el anlisis factorial lo planteamos a partir de la matriz de covarianzas ; sin suponer las
variables reducidas, aunque s los factores, entonces obtenemos la estructura
= AA0 + D2 :
6.5.
(6.14)
+ a2pj :
p
X
qjj 0 (rjj 0
j;j 0 =1
m
X
ajk aj 0 k );
k=1
ai1 F1 = ai2 F2 +
+ aim Fm + di Ui ;
+ a2p2 ;
108
1=2
R = U U0
(1)
A1 = Um ( m )1=2
R1 =diag(A1 A01 ) + R I
R1 = U(1) (1) U(1)0
(i)
(i)
Ai = Um ( m )1=2
Ri =diag(Ai A0i ) + R I
Ri =U(i) (i) U(i)0
(p vectores propios de R)
(m primeros vectores propios)
(matriz correlaciones reducida)
(p vectores propios de R1 )
(repetir iterativamente)
La matriz Ai converge a la matriz factorial A: Como criterio de convergencia podemos considerar la estabilidad de las comunalidades. Pararemos si
pasando de i a i + 1 los valores de las comunalidades, es decir, los valores en
diag(Ai A0i ); prcticamente no varan. Esta refactorizacin podra fallar si se
presenta el caso de Heywood R no satisface el modelo factorial (6.12).
Ejemplo 6.5.1 Asignaturas.
Volviendo al ejemplo de las asignaturas y suponiendo la matriz factorial
(6.11), las correlaciones y la solucin por el mtodo del factor principal (que
detecta dos factores comunes explicando el 74.6 % de la varianza), son:
CNa
Mat
Fra
Lat
Lit
CNa
Mat
Fra
Lat
Lit
Valor propio
Porcentaje
F1
0:621
0:596
0:796
0:828
0:771
2:654
53:08
F2
0:543
0:682
0:432
0:210
0:292
1:076
21:52
6.6.
6.6.1.
109
n
flog j2
2
tr(
S)g:
S) log jSj p
(6.15)
@Fp
= diag(
@V
S)
1
A;
S)
):
(
S) 1 A = 0; diag( 1 (
S) 1 ) = 0;
= AA0 + V;
A0 V 1 A es diagonal.
(6.16)
110
6.6.2.
Una ventaja del mtodo de la mxima verosimilitud es que permite formular un test de hiptesis sobre la estructura factorial de y el nmero m
de factores comunes.
Planteemos el test
H0 :
= AA0 + V vs H1 :
es denida positiva,
donde A es de rango m.
bA
b 0 + V;
b siendo A
b yV
b las estimaciones, los mximos del logarSi b = A
itmo de la razn de verosimilitud son (Seccin 5.4.2)
n
(log j b j + tr( b
2
n
(log jSj + p):
2
H0 :
H1 :
S));
b V)
b
S) p) = nFp (A;
1
1)=2) = ((p m)2 p m)
2
grados de libertad. Podemos observar que Ck es n veces el valor mnimo de
la funcin (6.15) y que k coincide con (6.10).
k = p(p
6.7.
1)=2
(p m
m(m
Rotaciones de factores
6.7.1.
111
Rotaciones ortogonales
p
X
i=1
a2ij
p
X
a2ik ];
(6.17)
i=1
6.7.2.
Factores oblicuos
+ pim Fm0 + di Ui ;
i = 1; : : : ; p:
(6.18)
112
yQ
Q=P ;
y la versin del teorema de Thurstone para factores correlacionados
R = P P0 + D2 :
Si los factores son ortogonales, el modelo factorial coincide con la estructura
factorial y tenemos que
P = Q;
6.7.3.
= Im :
Rotacin oblicua
113
Conviene tener en cuenta que las rotaciones ortogonales y oblicuas intentan simplicar la estructura factorial A y la estructura de referencia Q;
respectivamente.
Un criterio directo de rotacin oblicua es el promax. Sea A la matriz factorial obtenida por el mtodo varimax. Queremos destacar unas saturaciones
sobre otras, por tanto denimos P = (pij ) tal que
pij = jak+1
ij j=aij ;
k > 1;
= T0 T;
Q = AT:
CNa
Mat
Fra
Lat
Lit
Mxim
F1
.659
.999
.104
.234
.327
veros.
F2
.432
.005
.974
.809
.831
Varimax
C
L
.636 .464
.999 .046
.055 .978
.193 .820
.280 .847
Comun.
.62
.99
.96
.71
.79
114
Figura 6.1: Proyeccin de las variables sobre los factores comunes ortogonales,
y factores rotados (rotacin promax), interpretados como factores de Ciencias
y Letras.
CNa
Mat
Fra
Lat
Lit
Modelo factorial
C
L
:570
:375
1:04
:135
:150 1:024
:028
:831
:114
:844
siguientes:
La Figura 6.1 representa los factores ortogonales iniciales F1 y F2 , dibujados como vectores unitarios, y los factores oblicuos C y L. Las variables
tienen una longitud proporcional a la raz cuadrada de sus comunalidades.
6.7.4.
115
6.8.
Medicin de factores
Af )
+ u2p ;
116
x=D
f = (A0 D 2 A) 1 A0 D 2 x:
Una modicacin de este mtodo (propuesta por T. W. Anderson y H.
Rubin) consiste en aadir la condicin de que los factores comunes estimados
estn incorrelacionados. La solucin que resulta es
f = B 1 A0 D 2 x;
siendo B2 = A0 D 2 RD 2 A:
Ejemplo 6.8.1 Asignaturas.
Continuando con el ejemplo de las 5 asignaturas, Tabla 6.1, las calicaciones en las asignaturas de los 4 primeros alumnos (Tabla 6.1) y las puntuaciones (Anderson-Rubin) en los factores C y L; obtenidos con la rotacin
varimax, son:
Alumno CNa Mat Fra Lat Lit
1
7
7
5
5
6
2
5
5
6
6
5
3
5
6
5
7
5
4
6
8
5
6
6
C
1:06
:568
:259
1:85
L
:559
:242
:505
:614
6.9.
Los mtodos del factor principal y de la mxima verosimilitud son mtodos exploratorios, en el sentido de que exploran las dimensiones latentes de las
variables. El AF tambin se puede plantear en sentido conrmatorio, es decir,
estableciendo una estructura factorial de acuerdo con el problema objeto de
estudio, y seguidamente aceptando o rechazando esta estructura mediante
un test de hiptesis. Por ejemplo, podemos considerar que la matriz factorial
117
AT)0 (B
AT)] = mnimo,
118
1
2
3
4
5
6
7
8
9
1 1 .318 .468 .335 .304 .326 .116 .314 .489
1
.230 .234 .157 .195 .057 .145 .139
2
3
1
.327 .335 .325 .099 .160 .327
4
1
.722 .714 .203 .095 .309
5
1
.685 .246 .181 .345
1
.170 .113 .280
6
1
.585 .408
7
8
1
.512
9
1
P
:71
:54
:67
:00
:03
:01
:00
:42
:56
:00
:03
:04
:87
:81
:82
:00
:30
:06
:00
:08
:09
:00
:13
:01
:78
:73
:41
Comun.
.50
.26
.46
1
.76
.54 1
.70
.24 .28 1
.68
.61
.68
.54
2
12
= 9:77
p = 0:64
6.10. COMPLEMENTOS
P
.00
.00
.00
.87
.83
.83
.00
.00
.00
.68
.52
.69
.00
.00
.00
.00
.00
.00
.00
.00
.00
.00
.00
.00
.66
.80
.70
119
Comun.
.46
.27
.48
1
.77
.54 1
.69
.52 .34 1
.69
.43
.63
.49
2
24
= 51:19
p = 0:001
P
:38
:24
:38
:87
:83
:83
:24
:15
:36
6.10.
:58
:41
:53
:00
:01
:01
:02
:43
:59
:00
:35
:30
:03
:13
:04
:00
:13
:22
:00
:00
:03
:00
:06
:02
:95
:57
:34
1
.00
.00
.00
Comun.
.48
.37
.52
1
.75
.00
1
.72
.00 .00 1
.68
.95
.56
.64
2
6
= 2:75
p = 0:84
Complementos
Constituyen dos precedentes del Anlisis Factorial el concepto de factor latente de F. Galton y de eje principal de K. Pearson. El primer trabajo,
publicado en 1904, por Ch. Spearman (Spearman, 1904) desarrolla una teora
de la inteligencia alrededor de un factor comn, el factor g. Esta teora,
120
que ordenaba la inteligencia de los individuos a lo largo de una sola dimensin, fue defendida por C. Burt, con consecuencias sociolgicas importantes,
pues proporcion una base cientca para nanciar las escuelas privadas en
detrimento de otras.
El Anlisis Factorial moderno se inicia con la obra Multiple Factor
Analysis de L.L. Thurstone, que postulaba ms de un factor comn, introduca la estructura simple y las rotaciones de factores. A partir de Thurstone
la medida de la inteligencia era ms democrtica, ya que posea varias
dimensiones latentes, quedando sin sentido una ordenacin clasista de los
individuos, pues si en una dimensin sera posible ordenarlos, en varias dimensiones es imposible. Hubo una polmica similar sobre la personalidad. La
teora psicoanaltica defenda una continuidad entre la personalidad neurtica
y la psictica, mientras que el AF revela que neurosis y psicosis son dimensiones independientes.
Los modelos y mtodos de Spearman, Burt, Thurstone y otros (Holzinger,
Harman y Horst), son ya historia. Los mtodos actuales para obtener la
matriz factorial son: factor principal, anlisis factorial cannico (C.R. Rao),
mtodo Alfa (H.F. Kaiser, J. Carey) y el mtodo de la mxima verosimilitud
(D. N. Lawley, K. G. Joreskog). Vase Joreskog (1967).
El mtodo varimax de rotacin ortogonal de Kaiser es uno de los ms
recomendados. J.B. Carroll introdujo la rotacin oblicua quartimin y A. E.
Hendrickson y P. O. White la promax. Anderson y Rubin (1956) publicaron
un excelente trabajo sobre AF, tratando todo los aspectos algebraicos y estadsticos del tema. Vase Harman (1976), Torrens-Ibern (1972).
El estudio de las dimensiones latentes es un tema presente en la ciencia
y siempre ha despertado inters. C. R. Rao demostr que si conocemos la
distribucin de k combinaciones lineales de p variables independientes, siendo
k(k 1)=2 < p
k(k + 1)=2; entonces la distribucin de cada una de las
p variables queda determinada (salvo la media o parmetro de localizacin).
Por ejemplo, si tenemos p = 210 variables independientes bastara conocer
la distribucin de k = 20 combinaciones lineales adecuadas para determinar
la distribucin de las 210 variables. Este resultado proporciona una cierta
justicacin terica acerca del hecho que la informacin multivariante posee
una dimensionalidad latente mucho ms pequea.
La etapa inicial del AF (hasta 1966), era exploratoria, como una herramienta para explorar la dimensionalidad latente de las variables. Ms tarde,
el anlisis factorial se ha entendido en sentido conrmatorio (Joreskog, Lawley, Maxwell, Mulaik), estableciendo una estructura factorial de acuerdo con
6.10. COMPLEMENTOS
121
el problema, y seguidamente aceptando o rechazando esta estructura mediante un test de hiptesis (Joreskog, 1969, 1970). Consltese Cuadras (1981).
Se han llevado a cabo muchas aplicaciones del AF. Citaremos tres, las
dos primeras sobre AF exploratorio y la tercera sobre AF conrmatorio.
Rummel (1963) estudia 22 medidas de los conictos de 77 naciones y encuentra tres dimensiones latentes, que identica como: agitacin, revolucin
y subversin, y ordena las naciones segn las puntuaciones en los factores
comunes.
Snchez-Turet y Cuadras (1972) adaptan el cuestionario E.P.I. de personalidad (Eysenck Personality Inventory) y sobre un test de 69 tems (algunos
tems detectan mentiras) encuentran tres factores: Introversin-Extroversin,
Estabilidad-Inestabilidad, Escala de mentiras.
Joreskog (1969) explica un ejemplo de AF conrmatorio sobre 9 test,
previamente estudiado por Anderson y Rubin. Vase la Seccin 6.9.
Finalmente, el Anlisis de Estructuras Covariantes es una generalizacin
del AF, que unica este mtodo con otras tcnicas multivariantes (MANOVA,
anlisis de componentes de la varianza, anlisis de caminos, modelos simplex
y circumplexos, etc.). Se supone que la estructura general para la matriz de
covarianzas es
= B(P P0 + D2 )B0 + 2 :
Otra generalizacin es el llamado modelo LISREL (Linear Structural Relationship), que permite relacionar un grupo de variables dependientes Y
con un grupo de variables independientes X; que dependen de unas variables
latentes a travs de un modelo de medida. Las variables latentes estn relacionadas por un modelo de ecuaciones estructurales. LISREL (Joreskog y
Sorbom, 1999) es muy exible y tiene muchas aplicaciones (sociologa, psicologa, economa). Vase Satorra (1989), Batista y Coenders (2000).
122
Captulo 7
ANLISIS CANNICO DE
POBLACIONES
7.1.
Introduccin
Con el Anlisis de Componentes Principales podemos representar los individuos de una poblacin, es decir, representar una nica matriz de datos. Pero
si tenemos varias matrices de datos, como resultado de observar las variables
sobre varias poblaciones, y lo que queremos es representar las poblaciones,
entonces la tcnica adecuada es el Anlisis Cannico de Poblaciones (CANP).
Supongamos que de la observacin de p variables cuantitativas X1 ; : : : ; Xp
sobre g poblaciones obtenemos g matrices de datos
0
1
X1
n1 p
B X2 C n2 p
B
C
X = B .. C
..
@ . A
.
Xg
ng
124
A =X X =
g
X
(xi
x)(xi
x)0 :
i=1
g
X
ni (xi
x)(xi
x)0 :
i=1
1
n
g
X
n i Si :
i=1
Entonces A =X X juega el papel de matriz de covarianzas entrelas poblaciones, S juega el papel de matriz de covarianzas dentrode las poblaciones.
7.2.
Variables cannicas
0
i Si vi ;
normalizados segn
vi0 Si vi = 1:
Los vectores v1 ; : : : ; vp son los vectores cannicos y las variables cannicas
son las variables compuestas
Yi = Xvi :
125
i;
+ vpi Xp
es decir:
i;
i 6= j:
>
p;
0
j ti Stj ;
0
i tj Sti ;
0
0
Restando ( j
i )ti Stj = 0 ) ti Stj = 0 ) covA (Yi ; Yj ) =
covA (Yi ; Yj ) = 0; si i =
6 j. Adems, de t0i Stj = 1:
0
j ti Stj
i Yi )
p
X
i=1
2
i varA (Yi )
p
X
i=1
2
i i
p
X
(
i=1
2
i) 1
= varA (Y1 );
126
p
X
i Yi
condicionado a
i=2
2
i
= 1:
i=2
i=2
p
X
2
i varA (Yi )
p
X
2
i i
i=2
i=2
p
X
i=2
2
i
= varA (Y2 );
7.3.
xj )0 S 1 (xi
xj ):
127
yj )0 (yi
xj )0 S 1 (xi
yj ) = (xi
xj ):
(7.1)
(7.2)
0
con
V0 SV = Ip ;
y premultiplican-
XS 1 X Y = Y :
0
XS 1 X = Y Y0
suponiendo Y ortogonal. Tomando Y
0
obtenemos nalmente XS 1 X = YY0 :
7.4.
1=2
Representacin cannica
128
= (yi
yj )(yi
(7.3)
i:
m es la matriz de la transformacin
yj ) =
m
X
yjh )2
(yih
h=1
1X
=
g i=1
m
2
ij (m)
i;
m
X
1X
s (Yek ) =
varA (Yek )
g
k=1
k=1
m
1X
V (Y)m =
g k=1
m
k:
129
7.5.
V (Y)m
= 100
VM (X)
+
1+
+
+
Aspectos inferenciales
7.5.1.
Comparacin de medias
El test
H0 :
(7.4)
7.5.2.
Comparacin de covarianzas
El test
H00 :
jS1 jn1 =2
jSjn=2
jSg jng =2
+ ng Sg )=n = W=n
130
= n log jSj
2
q
+ ng log jSg j)
es signicativo, donde q = gp(p + 1)=2 p(p + 1)=2 = (g 1)p(p + 1)=2 son los
grados de libertad de la ji-cuadrado. Si rechazamos H00 , entonces resulta que
no disponemos de unos ejes comunes para representar todas las poblaciones
(la orientacin de los ejes viene determinada por la matriz de covarianzas),
y el anlisis cannico es tericamente incorrecto. Conviene pues aceptar H00 :
Este es el llamado test de Bartlett.
Debido a que el test anterior puede ser sesgado, conviene aplicar la correccin de Box,
c (n
g) log jSj
b i = (ni =(ni
donde S
"
b1j +
1) log jS
b g j)
1) log jS
+ (ng
1))Si ; y la constante c es
2p2 + 3p
6(p + 1)(g
c= 1
7.5.3.
((n1
g
X
1
1)
k=1
1
ng
!#
Test de dimensionalidad
0
1;
1g:
Si los vectores de medias poblacionales estn en un espacio Rm de dimensin m < k; entonces el espacio cannico tiene dimensin m y por lo tanto
debemos aceptar la hiptesis
(m)
H0
donde 1 >
>
de A) respecto de
>
>
>
m+1
k;
131
k
X
1
(p + g)]
log(1 + li )
2
i=m+1
2
q;
7.5.4.
1
(p
2
+ g)] log(1 + lj )
2
r;
Regiones condenciales
132
Demost.: xi
i es Np (0; =ni ) independiente de W que sigue la distribucin
Wp ( ; n g): Por lo tanto
(n
g)ni (xi
0
1
i ) W (xi
i)
= ni (xi
i )S
0
i)
(xi
T 2 (p; n
g);
0
1
i ) S (xi
i)
(n
ni (n
g)p
Fp
g p + 1) n
g p+1 :
As pues
P (xi
0
1
i ) S (xi
i)
R2
ni
=1
0
i ) (yi
i)
R2
ni
=1
7.6.
Ejemplos
7.6. EJEMPLOS
133
1.
2.
3.
4.
5.
6.
7.
8.
T.
T.
T.
T.
T.
T.
T.
T.
134
22924
42795
31009
86629
17419
32502
23475
65626
49890
1142
1970
1784
3562
3541
1
C
C
C
C
A
1
C
C
C
C
A
W4 ( ; 7)
W5 ( ; 267)
1
C
C
C
C
A
v1
:0292
:5553
:6428
:1259
:1125
158:64
85:03
v2
:2896
:7040
:9326
:1326
:0059
24:53
98:18
7.7. COMPLEMENTOS
135
Figura 7.2: Representacin cannica de 8 poblaciones conteniendo datos biomtricos de 6 especies de colepteros, encontrados en 8 localidades distintas.
7.7.
Complementos
136
1+
+pg
g;
y la matriz de covarianzas es
=
g
X
pi (
)(
) +
g
X
pi
i:
i=1
i=1
Esta descomposicin de
versin multivariante de
es la versin poblacional de T = B + W; y la
0
2)
2)
>(
0
2 ) [diag(
)] 1 (
2 );
Captulo 8
ESCALADO
MULTIDIMENSIONAL
(MDS)
8.1.
Introduccin
ij
:
Se habla de distancia (mtrica) cuando se cumplen las tres condiciones:
1. (i; i) = 0
para todo i:
2. (i; j) = (j; i)
3. (i; j)
para todo i; j:
(i; k) + (j; k)
138
B 21
B
= B ..
@ .
12
1n
22
2n
..
.
n1
..
C
C
.. C
. A
n2
ij
ji
= (i; j)
ii
= 0:
nn
i = 1; : : : ; n;
tales que
2
ij
p
X
(xi
xj )2 = (xi
xj )0 (xi
xj )
(8.1)
=1
8.2.
= x0i xi + x0j xj
2x0i xj :
es
139
(2)
=(
2
ij )
con G
(8.2)
ai
a:j + a ;
ai
ai +a ;
bjj =
aj
aj +a ;
y por lo tanto
2
ij
= bii + bjj
(8.3)
2aij :
Supongamos que
A=
= yi0 yi + yj0 yj
2yi0 yj = (yi
yj )0 (yi
yj );
140
8.3.
Hemos visto que si B 0, cualquier matriz Y tal que B = YY0 proporciona unas coordenadas cartesianas compatibles con la matriz de distancias
: Sea
B = U U0
la descomposicin espectral de B, donde U es una matriz n p de vectores
propios ortonormales de B y es matriz diagonal que contiene los valores
propios ordenados
(8.4)
1
p > p+1 = 0
Obsrvese que B1 = 0; y por lo tanto p+1 = 0 es tambin valor propio de
B de vector propio el vector 1 de unos: Entonces es evidente que la matriz
n p
X = U 1=2
(8.5)
tambin verica B = XX0 .
Denicin 8.3.1 La solucin por coordenadas principales es la matriz de coordenadas (8.5), tal que sus columnas X1 ; : : : ; Xp ; que interpretaremos como
variables, son vectores propios de B de valores propios (8.4). Las coordenadas
del elemento i 2 son
x0i = (xi1 ; : : : ; xip );
donde xi es la la i-sima de X: Reciben el nombre de coordenadas principales
y cumplen (8.1).
La solucin por coordenadas principales goza de importantes propiedades.
En las aplicaciones prcticas, se toman las m < p primeras coordenadas
principales a n de representar : Por ejemplo, si m = 2, las dos primeras
coordenadas de X proporcionan una representacin a lo largo de los ejes X1
y X2 :
X1 X2
1 x11 x12
2 x21 x22
..
..
..
.
.
.
n
xn1
xn2
141
Propiedades:
1. Las variables Xk (columnas de X) tienen media 0:
X1 =
= Xp = 0
1
n
k;
k = 1; : : : ; p
1
n
k:
k 6= k 0 = 1; : : : ; p:
142
5. La variabilidad geomtrica de
es
n
1 X
V (X) = 2
2n i;j=1
2
ij
1X
=
n k=1
(8.6)
k:
2
ij (m)
n
m
1 XX
= 2
(xik
2n i;j=1 k=1
1X
xjk ) =
n k=1
m
es mximo.
Demost.: Sea x1 ; :::; xn una muestra con media x = 0 y varianza s2 . Se
verica
P
P
Pn
P
1
xj )2 = 2n1 2 ( ni;j=1 x2i + ni;j=1 x2j 2 ni;j=1 xi xj )
i;j=1 (xi
2n2
P
P
P
P
= 2n1 2 (n ni=1 x2i + n nj=1 x2j 2 ni=1 xi nij=1 xj )
= s2 ;
por lo tanto
V (X) =
p
X
s2k :
k=1
8.4. SIMILARIDADES
143
8.4.
Similaridades
s(i; j) = s(j; i)
0:
144
a+d
p
(Sokal-Michener)
(8.7)
a
sij =
(Jaccard)
a+b+c
que verican: sii = 1 sij = sji 0.
Podemos transformar una similaridad en distancia aplicando la frmula
d2ij = sii + sjj
Entonces la matriz A =
2sij :
(8.8)
(d2ij )=2 es
1
(Sf + S0f 2S);
2
donde Sf tiene todas sus las iguales, y como HSf = S0f H = 0; resulta que
A=
B = HAH = HSH:
Por lo tanto:
1. Si S es matriz (semi)denida positiva, la distancia dij es eucldea.
2. rango(HSH) = rango(S)
1:
8.5.
145
>0>
p0 :
p+1
(8.9)
im jm :
i2 j2
(i2 ; j2 )
(ik ; jk ) 2
(im ; jm );
es
; es decir,
;
donde
(i; j)
(i0 ; j 0 ) si
ij
i0 j 0 :
D A B
3 0 1
2
0
1
0
C
1
1
0
D A B
1 0 1
1
0
0
0
C
1
1
0
D
1
1
1
0
146
Figura 8.1: Representacin de 4 objetos conservando las preordenaciones relacionadas a tres matrices de distancias.
posibilidad de representar ; aplicando, por ejemplo, un anlisis de coordenadas principales sobre la distancia transformada, pero conservando (aproximadamente) la preordenacin. En general, la funcin ' no es lineal, y se
obtiene por regresin montona. Hay dos casos especialmente simples.
Denicin 8.5.2 La transformacin q-aditiva de
b2 =
ij
2
ij
ij
se dene como
2a si i 6= j
si i = j
+ c si i 6= j
0
si i = j
ij
b = B aH:
J); B
147
a>0>
p+1
p0
a;
b
que son no negativos si a
p0 ; en cuyo caso B es semidenida positiva.
La mejor transformacin q-aditiva es la que menos distorsiona la distancia
original. De acuerdo con este criterio, el mejor valor para la constante es
a = p0 :
Las transformaciones aditiva y no lineal son ms complicadas y no las
incluimos en este texto. De hecho, los programas de MDS operan con transformaciones no lineales, siguiendo criterios de minimizacin de una funcin
que mide la discrepancia entre la distancia original y la transformada. Por
ejemplo, el mtodo de Kruskal consiste en:
1. Fijar una dimensin eucldea p:
2. Transformar la distancia ij en la disparidad bij = '( ij ); donde
' es una funcin montona creciente. Las disparidades conservan la
preordenacin de las distancias.
3. Ajustar una distancia eucldea dij a las disparidades bij de manera que
minimice
X
(dij bij )2 :
i<j
148
8.6.
Distancias estadsticas
8.6.1.
Variables cuantitativas
p
X
i=1
2. Distancia eucldea:
jxi
v
u p
uX
d2 (x; y) = t (xi
yi j
yi )2
i=1
3. Distancia dominante:
d1 (x; y) = max fjxi
1 i p
yi jg
1 X jxi yi j
dG (x; y) =
;
p i=1
Ri
149
1 X jxi yi j
dC (x; y) =
:
p i=1 xi + yi
dG y dC son invariantes por cambios de escala.
Supongamos ahora dos poblaciones 1 ; 2 con vectores de medias 1 ; 2
y matrices de covarianzas 1 ; 2 : Cuando 1 = 2 = ; la distancia de
Mahalanobis entre poblaciones es
M 2(
1;
2)
=(
0
2)
2)
8.6.2.
0 1
2) [ (
2 )]
2 ):
Variables binarias
Cuando todas las variables son binarias (toman solamente los valores 0
y 1), entonces conviene denir un coeciente de similaridad (Seccin 8.4) y
aplicar (8.8) para obtener una distancia. Existen muchas maneras de denir
una similaridad sij en funcin del peso que se quiera dar a los a; b; c; d:
Por ejemplo:
sij =
a
a + 2(b + c)
(Sokal-Sneath)
2a
sij =
(Dice)
(a + b)(a + c)
(8.11)
150
8.6.3.
Variables categricas
0
si h = h0 ;
ph 1 + ph01 si h 6= h0 :
Cq = diag(q1 1 ; : : : ; qk 1 ):
8.6.4.
151
Variables mixtas
si p1 = p3 = 0;
si p1 = p2 = 0:
8.6.5.
Otras distancias
152
>
j;
j;
<
j:
<
j:
La estimacin de los parmetros a partir de las proporciones pij es complicada. Alternativamente, teniendo en cuenta que pij + pji = 1 podemos
denir la distancia entre estmulos
d(! i ; ! j ) = jpij
0:5j
y aplicar un MDS sobre la matriz (d(! i ; ! j )): La representacin de los estmulos a lo largo de la primera dimensin nos proporciona una solucin a la
ordenacin de los estmulos.
Distancia de Rao
Sea S = ff (x; ); 2 g un modelo estadstico y z( ) = @@ log f (x; )
un vector columna. La matriz de informacin de Fisher F ( ) es la matriz
de covarianzas de los z 0 s. Sean a ; b dos valores de los parmetros. Una
distancia tipo Mahalanobis sera el valor esperado de
(z(
a)
z( b ))0 F ( ) 1 (z(
a)
z( b )):
b) = 2
x x
=x!; x = 0; 1; 2; : : : : La disp
8.7. EJEMPLOS
153
3. Distribucin normal. Si
vectores de medias es:
2
1;
2)
=(
0
2)
2 ):
8.7.
z2 ( ))0 F ( ) 1 (z1 ( )
z2 ( )):
Ejemplos
D
0
0
1/2
1
E
0
1/2
0
0
1
154
0:0000
0:4822
0:4822
0:6691
0:6691
1:360
44:36
0:6841
0:1787
0:1787
0:5207
0:5207
1:074
79:39
0:3446
0:2968
0:2968
0:1245
0:1245
0:3258
90:01
La representacin (Figura 8.2) explica el 80 % de la variabilidad geomtrica. Las herramientas quedan ordenadas segn su antigedad: E es la ms
antigua (slo contiene piedra) y D la ms moderna (slo contiene hierro).
Ejemplo 8.7.2 Drosophila.
Una distancia gentica es una medida que cuantica las proximidades
entre dos poblaciones a partir de las proporciones gnicas. Por ejemplo, si
existen k ordenaciones cromosmicas que se presentan en las proporciones
(p1 ; : : : ; pk ); (q1 ; : : : ; qk ): Si hay r cromosomas, una distancia adecuada es
1 X
jpi
2r i=1
k
qi j:
8.7. EJEMPLOS
droba
dalke
groni
fonta
viena
zuric
huelva
barce
forni
fores
etna
fruskF
thess
silif
trabz
chalu
orange
agadi
lasme
155
Dro Dal Gro Fon Vie Zur HueBar For For Etn Fru The Sil Tra ChaOra AgaLas
0
.307 0
.152.276 0
.271.225.150 0
.260.370.187.195 0
.235.300.112.120.128 0
.782.657.695.580.540.623 0
.615.465.529.412.469.445.259 0
.780.657.693.607.606.609.373.309 0
.879.790.801.764.760.761.396.490.452 0
.941.846.873.813.818.817.414.524.451.177 0
.560.505.470.442.342.391.577.460.501.681.696 0
.668.545.592.514.434.500.502.392.363.590.630.315 0
.763.643.680.584.581.610.414.357.413.646.667.544.340 0
.751.619.675.582.519.587.418.342.399.587.648.439.269.286 0
.709.489.636.548.531.549.595.489.514.635.649.444.408.574.438 0
.947.867.864.782.837.795.573.574.568.519.535.782.733.696.698.760 0
.927.834.844.803.789.792.428.498.485.329.303.666.661.642.631.710.321 0
.931.699.846.749.802.792.404.485.429.380.253.659.566.604.551.460.615.430 0
156
8.7. EJEMPLOS
B a jo
C o rto
D im inu to
M e nu d o
Pequeccxxxxo
E n o rm e
In m e n so
Vo lu m in o so
A lto
D e lg a d o
E le va d o
F in o
L a rg o
A n ch o
A n g o sto
E stre ch o
G ra n d e
G ru e so
P ro fu n d o
H ueco
D e n so
P e sa d o
L ig e ro
157
B a j C o r D im M e n P e q E n o In m Vo u A lt D e g E le F in L a r A n c A n g E st G ra G ru P ro H u e D e n P e s L ig
0 2 .3 0 2 .3 2 2 .3 2 1 .5 2 3 .5 0 3 .4 3 3 .3 8 3 .7 1 3 .3 3 3 .5 7 3 .3 1 3 .3 1 3 .1 7 2 .8 7 3 .1 4 3 .3 8 2 .8 8 3 .0 7 3 .4 1 3 .4 3 3 .3 5 3 .2 7
6 0 0 1 .9 4 2 .0 6 1 .4 6 3 .5 4 3 .6 4 3 .4 6 3 .5 3 2 .9 8 3 .5 1 2 .8 7 3 .5 1 3 .2 4 2 .8 5 2 .6 2 3 .4 6 3 .2 3 3 .3 7 3 .2 4 3 .1 4 3 .2 5 2 .9 3
7 4 7 0 0 1 .1 0 0 .9 3 3 .6 7 3 .7 2 3 .5 4 3 .6 0 2 .3 8 3 .4 8 1 .8 6 3 .4 4 3 .4 1 2 .4 4 2 .1 3 3 .5 6 3 .5 3 3 .5 0 3 .3 4 3 .2 3 3 .5 6 2 .3 4
2 9 7 6 4 2 0 1 .0 1 3 .7 3 3 .5 6 3 .5 8 3 .3 7 1 .8 3 3 .4 2 1 .7 1 3 .2 4 3 .4 0 2 .8 0 2 .2 6 3 .5 0 3 .3 4 3 .4 7 3 .3 6 3 .3 0 3 .2 4 1 .8 5
7 0 6 2 1 6 3 9 0 3 .7 4 3 .7 2 3 .5 6 3 .6 1 2 .7 1 3 .3 7 2 .2 3 3 .4 4 3 .2 6 2 .2 0 2 .0 8 3 .7 2 3 .3 4 3 .4 1 3 .3 6 3 .2 0 3 .4 0 2 .2 5
9 0 9 0 8 7 8 9 8 7 0 0 .3 7 0 .9 7 1 .9 1 3 .4 3 1 .9 6 3 .4 7 1 .9 2 2 .4 7 3 .4 3 3 .4 1 0 .9 0 2 .7 2 2 .6 4 3 .4 3 2 .9 4 2 .3 1 3 .4 3
9 0 9 0 8 8 9 0 8 8 2 2 0 1 .6 0 2 .0 2 3 .4 3 2 .1 0 3 .4 0 2 .2 8 2 .1 8 3 .5 6 3 .4 6 1 .1 4 2 .7 0 2 .4 1 3 .2 5 3 .0 5 2 .6 5 3 .4 8
8 9 8 9 8 9 8 7 8 9 6 6 6 3 0 2 .7 2 3 .6 1 2 .4 5 3 .6 0 2 .9 4 2 .3 5 3 .4 8 3 .5 2 1 .3 0 1 .8 2 3 .0 2 3 .4 2 2 .5 5 2 .2 7 3 .4 7
8 0 8 4 8 8 8 9 8 7 8 5 8 3 8 7 0 3 .0 4 0 .8 2 3 .1 5 2 .6 3 3 .2 3 3 .3 6 3 .2 1 1 .8 3 3 .1 8 2 .9 6 3 .4 8 3 .2 2 2 .9 8 3 .4 1
8 3 8 0 8 0 6 4 8 0 9 0 9 0 8 9 8 3 0 2 .9 7 1 .1 5 2 .7 6 3 .4 8 1 .6 2 1 .3 8 3 .3 2 3 .6 3 3 .3 2 3 .3 8 3 .3 6 3 .5 1 2 .4 7
8 4 8 7 8 8 8 9 8 8 8 4 8 4 8 6 1 7 8 5 0 3 .1 2 2 .6 0 3 .2 0 3 .3 6 3 .2 5 2 .0 0 3 .2 7 3 .1 3 3 .4 6 3 .3 4 3 .2 4 3 .2 7
8 4 8 1 7 4 5 3 7 5 9 0 9 0 8 9 8 3 2 1 8 6 0 2 .8 3 3 .4 0 1 .9 6 2 .0 1 3 .3 5 3 .6 2 3 .4 1 3 .3 8 3 .2 6 3 .4 5 2 .0 2
8 4 8 0 8 9 8 9 8 8 8 7 8 5 8 5 7 4 7 9 7 5 8 7 0 3 .2 4 3 .0 4 3 .0 8 2 .4 6 3 .3 7 2 .8 0 3 .4 2 3 .2 8 3 .3 2 3 .4 1
8 5 8 3 8 9 8 9 8 8 8 6 8 4 7 6 8 2 8 3 8 4 8 7 7 3 0 3 .4 8 3 .5 3 1 .0 3 2 .7 6 2 .8 2 3 .2 7 2 .9 7 3 .1 8 3 .3 2
8 2 7 4 7 7 7 8 7 9 9 0 8 9 8 8 8 5 5 3 8 6 5 8 8 2 8 4 0 0 .6 8 3 .3 3 3 .5 5 3 .3 7 3 .3 4 3 .2 1 3 .3 8 2 .9 1
8 1 7 4 8 2 8 1 8 4 8 9 9 0 8 9 8 5 5 4 8 5 6 3 8 1 8 3 2 3 0 1 .9 5 1 .9 4 3 .2 6 3 .4 4 2 .8 0 2 .3 5 3 .3 1
8 7 8 8 8 4 8 6 8 2 3 7 4 9 6 2 7 7 8 7 7 8 8 8 8 3 8 0 8 9 8 9 0 2 .8 5 2 .8 1 3 .4 6 3 .1 1 3 .1 0 3 .4 0
8 7 8 6 8 9 8 6 8 7 8 1 8 6 6 4 8 5 8 2 8 6 8 6 8 4 6 3 8 7 8 6 7 2 0 3 .2 3 3 .3 6 2 .4 4 2 .3 5 3 .4 7
8 2 8 6 8 9 8 8 8 9 8 6 8 6 8 3 8 7 8 8 8 6 8 9 8 7 8 5 8 5 8 6 8 7 8 5 0 2 .5 7 2 .7 7 3 .2 3 3 .4 3
8 2 8 3 8 8 8 9 8 8 9 0 9 0 8 8 8 7 8 5 8 4 8 7 8 5 8 6 8 4 8 4 8 8 8 7 6 6 0 3 .3 3 3 .4 1 2 .8 4
89 89 89 87 89 87 86 77 88 87 89 88 87 82 89 88 85
7 2 7 9 8 7 0 3 .3 5 3 .4 8
9 0 9 0 9 0 8 9 9 0 8 8 8 8 7 5 8 7 8 9 8 9 8 9 8 8 8 4 9 0 9 0 8 5 5 8 8 9 9 0 5 6 0 3 .5 1
86 87 83 69 83 90 90 90 89 72 89 71 90 90 83 80 90 89 90 87 84 81 0
158
Figura 8.5: Representacin MDS de 23 adjetivos teniendo en cuenta sus diferencias semnticas.
1. La distancia original
montona.
ij
4. Se representan las n(n 1)=2 distancias dij vs las dbij ; para visualizar
las relaciones de monotona.
8.8. COMPLEMENTOS
159
Figura 8.6: Relacin entre las distancias originales y las disparidades, indicando que se conserva bien la preordenacin de las distancias.
8.8.
Complementos
160
Captulo 9
ANLISIS DE
CORRESPONDENCIAS
9.1.
Introduccin
A1
A2
..
.
AI
B1
f11
f21
..
.
B2
f12
f22
..
.
fI1
f1
fI2
f2
..
BJ
f1J
f2J
..
.
f1
f2
..
.
fIJ
fJ
fI
n
(9.1)
P
P
donde fi = j fij es la frecuencia marginal de Ai ; f j = i fij es la frecuencia marginal de Bj : Debemos tener en cuenta que, en realidad, la tabla
161
162
A1
1
..
.
A2
0
..
.
..
i
..
.
0
..
.
0
..
.
..
AI
0
..
.
B1
1
..
.
B2
0
..
.
..
1
..
.
0
..
.
1
..
.
..
BJ
0
..
.
0
..
.
1
c = P0 1I :
c = n1 Y0 1n ;
Dc = diag(c);
las matrices diagonales que contienen los valores marginales de las y columnas de P. Se verica
X0 X = nDr ;
Y0 Y = nDc ;
X0 Y = nP = N:
163
Por lo tanto, las matrices de covarianzas entre las, entre columnas y entre
las y columnas, son
S11 = Dr
rr0 ;
S22 = Dc
cc0 ;
S12 = P
rc0 :
Puesto que la suma de las variables es igual a 1, las matrices S11 y S22 son
singulares.
9.2.
V = Yb:
164
(9.2)
donde D es la matriz diagonal con los valores singulares en orden decreciente. Si u1 ; v1 son los primeros vectores cannicos, tendremos entonces
1=2
a = S11 u1 ;
1=2
b = S22 v1 ;
r=
1;
bi = Dc 1=2 vi ;
ri =
i;
i = 1; : : : ; m nfI; Jg:
En notacin matricial, los vectores que cuantican las categoras de las las
y de las columnas de N, son las columnas de las matrices
A0 = Dr 1=2 U;
B0 = Dc 1=2 V:
B = Dc 1=2 VD ;
(9.3)
pues el producto por una constante (en este caso un valor singular), no altera
las correlaciones.
9.3.
piJ
ri
es decir, las probabilidades condicionadasP (B1 =Ai ); : : : ; P (BJ =Ai ): La matriz de perles de las las es
Q = Dr 1 P:
165
J
X
(pij =ri
j=1
pi0 j =ri0 )2
cj
(2)
=(
2
ii0 )
y G es
(2)
= g10 + 1g0
2G;
1r0 )G(I
(9.4)
Las distancias eucldeas entre las las de A coinciden con las distancias jicuadrado.
Relacionemos ahora estas coordenadas con las cuanticaciones anteriores.
De (9.2) tenemos
Dr 1=2 (P
y de
Dr1=2 (Dr 1 P
deducimos que
D1=2
r (I
1r0 )QDc 1 Q0 (I
166
I
X
(pij =cj
i=1
pij 0 =cj 0 )2
ri
y probar que las distancias eucldeas entre las las de la matriz B obtenidas
en (9.3), coinciden con esta distancia ji-cuadrado. Es decir, si centramos los
0
1
perles de las columnas C= (I 1c0 )Dc P0 ; entonces CDr 1 C = BB0 :
As pues, considerando las dos primeras coordenadas principales:
Filas
(a11 ; a12 )
(a21 ; a22 )
..
.
B1
B2
..
.
Columnas
(b11 ; b12 )
(b21 ; b22 )
..
.
AI (aI1 ; aI2 )
BJ
(bJ1 ; bJ2 )
A1
A2
..
.
obtenemos una representacin de las las y columnas de la matriz de frecuencias N: Esta representacin es ptima en el sentido de que aproximamos
una matriz por otra de rango inferior, vase (1.5).
9.4.
Representacin conjunta
luego
Dr 1 (P
rc0 )BD 1 = A:
167
rc0 )BD 1 = r0 A:
B = Dc 1 P0 AD 1 :
(9.5)
Conviene notar que Dr 1 P son los perles de las las, y Dc 1 P0 son los perles
de las columnas. As pues tenemos que, salvo el factor dilatador D 1 ; (pues
los elementos diagonales de D son menores que 1), se verica:
1. Las coordenadas de las las son las medias, ponderadas por los perles
de las las, de las coordenadas de las columnas.
2. Las coordenadas de las columnas son las medias, ponderadas por los
perles de las columnas, de las coordenadas de las las.
Por ejemplo, la primera coordenada principal de las las verica:
ai1 =
b11
pi1
pi2
+ b21
+
ri
ri
+ bJ1
piJ
ri
i = 1; : : : ; I;
1
1
a11
p1j
p2j
+ a21
+
cj
cj
+ aI1
pIj
cj
j = 1; : : : ; J:
168
Producto
A
B
C
D
E
Total
B
B
P=B
B
@
0:175
0:1125
0:075
0:000
0:0875
La matriz de
0
1:00
B 0:50
B
Q=B
B 0:33
@ 0:00
0:70
0:000
0:1125
0:075
0:200
0:0125
0:000
0:000
0:075
0:050
0:025
C
C
C;
C
A
B
B
r=B
B
@
0:175
0:225
0:225
0:250
0:125
C
C
C;
C
A
1
0:45
c = @ 0:40 A :
0:15
3
0:04
0:24 5 :
0:76
= 0; 6847
= 0; 6847
= 0; 6847
= 0; 6847
= 0; 6847
(0; 75 1 + 0 + 0)
(0; 75 0; 5 0; 68 0; 5 + 0)
1
(0; 75 0; 33 0; 68 0; 33 0; 45 0; 33)
1
(0 0; 68 0; 8 0; 452 0; 2)
1
(0; 752 0; 7 0; 68 0; 1 0; 45 0; 2)
1
169
Figura 9.1: Representacin asimtrica (izquierda, las en coordenadas estndar y columnas en coordenadas principales) y simtrica (derecha) de las las
(productos) y columnas (edades) de la Tabla 9.1.
9.5.
La representacin de las y columnas utilizando las coordenadas principales A; B es la solucin simtrica. La representacin conjunta es posible
gracias a las frmulas (9.5). La representacin utilizando las matrices
A = Dr 1=2 UD ;
B0 = Dc 1=2 V;
rc0 = Dr AB00 Dc ;
170
Color ojos
claro
azul
castao
oscuro
Total
Color cabellos
Rubio Rojo Castao Oscuro Negro Total
688
116
584
188
4
1,580
326
38
241
110
3
718
343
84
909
412
26
1,774
98
48
403
681
81
1,311
1,455 286
2,137
1,391
114
5,383
Tabla 9.2: Clasicacin de 5383 individuos segn el color de los ojos y del
cabello.
Las coordenadas principales son:
Filas
2
6
A=6
4
0:4400
0:3996
0:0361
0:7002
0:0872
6
6
0:1647 7
7 B=6
6
0:2437 5
4
0:1345
Columnas
0:5437
0:1722
0:2324
0:0477
0:0402
0:2079
0:5891
0:1070
1:0784
0:2743
3
7
7
7
7
5
9.6.
=n
K
X
2
k;
k=1
siendo K = m nfI; Jg y
2
=n
I X
J
X
(fij
i=1 j=1
fi f j =n)2
fi f j
171
El coeciente
I X
J
X
(pij
i=1 j=1
2
ri cj )2
= :
ri c j
n
I X
J
X
p2ij
rc
i=1 j=1 i j
1:
Demost.:
2
ii0
J
X
(pij =ri
j=1
pi0 j =ri0 )2
cj
J
X
pij
(
ri c j
j=1
pi0 j 2
) cj
ri0 cj
172
Por lo tanto
1 XXX
pij
V =
ri (
2 i=1 i0 =1 j=1 ri cj
I
pi0 j 2
) cj ri0
ri0 cj
i=1
PI
i0 =1
PJ
i j
=
PI
i=1
pij = cj ;
Demost.: Sea
PK
k=1
i=1
PI
i=1
i0 =1
PJ
PJ
p2ij
j=1 ri cj ri0
p2ij
j=1 ri cj ;
PJ pij pi0 j
j=1
i0 =1
cj
PJ pij cj
j=1 cj = 1;
2)=2; siendo
i=1
PI
i=1
2
k:
W = Dr 1=2 (P
PI
PI
=
=
PI
PI
pij pi0 j
j=1 ri ri c2j ri0 cj ri0
i0 =1
i=1
p2
ij
j=1 ri r 2 c2 cj ri0 =
p2ij
i;j ri cj :
Entonces
2
m
X
2
k:
k=1
(2)
r = r0 a10 r + r0 1a0 r
2r0 AA0 r = r0 a:
173
Pero
2 0
0 1=2
2
r0 a = tr(D1=2
r AA Dr ) = tr(UD U ) = tr(D ):
Lo hemos probado para m = K; pero fcilmente vemos que la frmula tambin vale para m < K:
As pues, en la representacin por AC de las las y columnas de N en
dimensin m; el porcentaje de variabilidad geomtrica o inercia viene dado
por
P
Pm = 100
9.7.
m
Pk=1
K
k=1
2
k
:
2
k
(9.6)
El AC combina y representa dos variables categricas. Pero se puede adaptar para estudiar ms de dos variables. Presentemos primero el procedimiento
para dos variables, que despus generalizaremos.
Escribimos la matriz n (I + J) de datos binarios como una matriz
n (J1 + J2 )
Z = [Z1 ; Z2 ]:
Entonces tenemos que
Bu = Z0 Z =
Z01 Z1 Z01 Z2
Z02 Z1 Z02 Z2
=n
Dr P
P0 Dc
b) [Z1 ; Z2 ]:
c) Bu :
174
Dimensin
N = Z01 Z2
Z = [Z1 ; Z2 ]
Bu = Z0 Z
J1
n
J2
(J1 + J2 )
(J1 + J2 )
(J1 + J2 )
Coordenadas
A (las)
B (columnas)
A
B
A
B
Valor propio
p
1+
2
p
( 1+2 )2
Consideremos a continuacin Q variables categricas con J1 ; : : : ; JQ estados, respectivamente, sobre n individuos. Sea J = J1 +
+ JQ : La tabla de
datos, de orden n J es la super-matriz de indicadores
Z = [Z1 ; : : : ; Zj ; : : : ; Zq ];
donde Zj es n Jj y contiene los datos binarios de la variable j: La tabla de
contingencia que tabula la combinacin de las variables i; j es Nij = Z0i Zj :
La matriz de Burt, de orden J J es
2
3
Z01 Z1 Z01 Z2
Z01 ZQ
6 Z0 Z1 Z0 Z2
Z02 ZQ 7
2
6 2
7
0
Bu = Z Z = 6 ..
7;
..
..
.
.
4 .
5
.
.
.
Z0Q Z1 Z0Q Z2
Z0Q ZQ
b) Bu :
9.8. EJEMPLOS
175
En el caso a) representamos las J columnas e ignoramos las n las (individuos). En el caso b) tenemos una tabla de frecuencias J J simtrica
y podemos representar las las (=columnas) aplicando AC simple. Los dos
procedimientos son equivalentes, salvo que se cumple la relacin
B
k
=(
Z 2
k)
(Bu ) =
(Z)
B
k
Z
k
1 X
[
Q2 i6=j
J
Q
(Nij ) + (J
Z
k
Q)];
1;
siendo 2 (Nij ) la inercia para la tabla Nij ; vase Seccin 9.6: As pues podemos
constatar que AC puede servir tambin para representar ms de dos variables
categricas.
9.8.
Ejemplos
176
Edad
>73
51-73
41-50
26-40
<26
>73
51-73
41-50
26-40
<26
>73
51-73
41-50
26-40
<26
2
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
4
81
0
0
0
0
56
25
14
23
44
39
42
0
347
0
0
0
194
153
70
75
202
166
181
0
0
343
0
0
169
174
65
72
206
174
169
Hombres
Derecha Izquierda
Clase
4
0
27
8
27
4
17
12
7
6
Clase
8
4
21
13
27
12
14
15
9
9
Clase
8
15
35
62
29
75
32
66
14
34
Mujeres
Derecha Izquierda
alta
10
0
26
9
25
9
28
9
7
3
media
9
2
33
8
29
4
17
13
13
7
obrera
17
4
52
53
32
70
36
67
18
33
0
0
0
326
0
144
182
66
59
201
156
170
14
70
65
66
23
178
60
238
0
0
112
126
0
0
0
0
160
68
92
23
38
99
79
81
56
194
169
144
68
631
0
178
180
273
279
352
25
153
174
182
92
0
626
60
87
479
335
291
23
75
72
59
38
180
87
0
267
0
132
135
44
202
206
201
99
273
479
0
0
752
370
382
39
166
174
156
79
279
335
112
132
370
614
0
42
181
169
170
81
352
291
126
135
382
0
643
3
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
5
Tabla 9.3: Tabla de frecuencias combinando 1257 individuos segn edad, sexo,
clase social y voto (arriba) y correspondiente tabla de Burt (abajo).
9.8. EJEMPLOS
177
178
9.9.
MDS ponderado
w1=
g
X
wi = 1;
wi
g; w =
0;
i=1
179
siendo
0
D1=2
w (Ig 1w )(
1
2
(2)
g )(Ig
1=2
w10 )Dw
=U
= diag( 21 ; : : : ;
U0 ;
2
p)
= 21
g
X
wi
2
ij wj
= 12 w0
(9.7)
es
(2)
g w:
i;j=1
donde
2
k
k )( k Uk )
2
k;
180
cor(Xk ; Xk0 ) = 0;
1=2 0
cov(Xk ; Xk0 ) = Dw
Xk Xk0 D1=2
w =
= 0;
p
X
es
2
k:
k=1
siendo d un vector g
parte
1 0
w
2
Por otra parte
= 1d0 +d10
2XX0 ;
= w0 1d0 w
w0 XX0 w = d0 w:
1=2
1=2
XX0 Dw
) =tr(U
d0 w =tr(Dw
U0 ) =tr(
):
q
X
2
k:
k=1
n=
g
X
i=1
ni ;
181
=M
gM
1
1 0
11 )(
n
2
e la matriz n
siendo U
es
(9.9)
es
1 0
e 2U
e 0 = YY0 ;
11 ) = UD
n
(2)
n )(In
(9.10)
Teorema 9.9.1 La solucin no ponderada Y sobre n coincide con la solucin ponderada X sobre g ; en el sentido de que obtenemos Y repitiendo
n1 ; : : : ; ng veces las las de X:
Demost.: De (9.9) podemos expresar la solucin no ponderada (9.10) como
(In
1
110 )M(
n
1
2
0
(2)
g )M (In
1
110 )
n
= YY0 :
Se verica
(In
1
110 )M
n
= M(Ig
1g w0 ):
1w0 )(
1
2
(2)
g )(Ig
182
9.10.
Complementos
P
Si el trmino entre parntesis = K
k=1
para que log(1 + )
; entonces
0 0
k aik bjk ;
K
X
es sucientemente pequeo
0 0
k aik bjk ;
k=1
9.10. COMPLEMENTOS
183
pij
ai =
bj ;
ri
j=1
bj =
I
X
ai
i=1
pij
:
cj
J
X
j=1
bj
pij
;
ri
bj =
I
X
i=1
ai
pij
:
cj
(9.11)
184
1=2
h(x; y)g(y)
1=2
1
X
k uk (x)vk (y);
(9.12)
k=1
9.10. COMPLEMENTOS
185
186
Captulo 10
CLASIFICACIN
10.1.
Introduccin
Clasicar los elementos de un conjunto nito consiste en realizar una particin del conjunto en subconjuntos homogneos, siguiendo un determinado
criterio de clasicacin. Cada elemento pertenece a un nico subconjunto,
que a menudo tiene un nombre que lo caracteriza. As clasicamos:
Las personas en hombres y mujeres.
Los trabajadores en actividades profesionales: servicios, industria, agricultura.
Los animales en especies, gneros, familias y rdenes.
Los libros de una biblioteca en arte, literatura, ciencia, informtica y
viajes.
Sea = f! 1 ; ! 2 ; : : : ; ! n g un conjunto nito con n elementos diferentes,
que abreviadamente indicaremos
= f1; 2; :::; ng:
Clasicar es tambin denir una relacin de equivalencia R sobre . Esta
relacin dene una particin sobre en m clases de equivalencia:
= c1 + c2 +
+ cm ;
188
10.2.
Jerarqua indexada
Las clasicaciones pueden ser jerrquicas o no jerrquicas. Una clasicacin jerrquica es una sucesin de clusterings tal que cada clustering se obtiene agrupando clusters. Por ejemplo, si n = 5, una clasicacin jerrquica
es:
= f1g + f2g + f3g + f4g + f5g
= f1; 2g + f3; 4g + f5g
= f1; 2g + f3; 4; 5g
=
Denicin 10.2.1 Una jerarqua indexada (C; ) sobre est formada por
una coleccin de clusters C }( ) y un ndice tal que:
Axioma de la interseccin: Si c; c0 2 C entonces c \ c0 2 fc; c0 ; ;g:
Axioma de la reunin: Si c 2 C entonces c = [fc0 j c0 2 C; c0
La reunin de todos los clusters es el conjunto total:
cg:
= [fc j c 2 Cg:
El ndice es una aplicacin de C sobre el conjunto de nmeros reales positivos tal que:
(i) = 0; 8i 2 ;
(c)
(c0 ) si c
c0 :
fig 2 C:
2 C:
Comentarios:
1. El primer axioma signica que si tenemos dos clusters, uno est incluido
en el otro o ambos son disjuntos, es decir, c c0 ; c0 c; c \ c0 = ;:
Se trata de evitar que un elemento de
pertenezca a dos clusters
excluyentes a la vez, ya que entonces estara mal clasicado.
2. El segundo axioma signica que cada cluster es reunin de los clusters
que contiene. Es decir, reuniendo clusters obtenemos clusters ms amplios. Por ejemplo, en el reino animal, un gnero es reunin de especies,
una familia es reunin de gneros, etc.
189
(cij )
) cij \ cjk 6= ; )
x;
a) cij
b) cjk
jRx k ) j; k 2 cjk;
(cjk )
x;
cjk ) i; k 2 cjk;
) iRx k:
cij ) i; k 2 cij;
en clases
190
10.3.
Geometra ultramtrica
Para presentar una clasicacin utilizamos llaves. Por ejemplo, la clasicacin divisiva de Nacin, Comunidades Autnomas y Provincias (slo vamos
a considerar 8) es:
Nacin
Espa~
na
Autonomas Provincias
8
< Huesca
Teruel
:
8 Zaragoza
Barcelona
>
>
<
Gerona
Catalu~
na
Lerida
>
>
:
Tarragona
Madrid
Madrid
8
>
>
>
>
Aragon
>
>
>
>
>
>
<
>
>
>
>
>
>
>
>
>
>
:
u(i; i) = 0:
de orden n
1
u1n
u2n C
C
.. C
. A
unn
191
n
uii = 0:
Proposicin 10.3.1 Una distancia ultramtrica verica la desigualdad triangular y por lo tanto es mtrica.
Demost.:
u(i; j)
192
si
u(i; j)
x;
(10.2)
193
+ cm
+ ci [ cj +
+ cm :
(10.3)
= u(ca ; cb )
supfu(ca ; ci ); u(cb ; ci )g = supfu0 (ca ; ci [ cj ); u0 (cb ; ci [ cj )g;
u0 (ca ; ci [ cj ) = u(ca ; ci )
supfu(ca ; cb ); u(cb ; ci )g = supfu0 (ca ; cb ); u0 (cb ; ci [ cj )g:
194
Proposicin 10.3.6 Si u es distancia ultramtrica y u0 = '(u) es una transformacin de u donde ' es una funcin positiva montona (creciente o decreciente), entonces u0 es tambin distancia ultramtrica.
Demost.: Si fi; j; kg es un tringulo ultramtrico con base fi; jg y ' es montona, tendremos que
u(i; j)
10.4.
A partir de un espacio ultramtrico podemos construir una jerarqua indexada. Nos lo permite el siguiente procedimiento.
Algoritmo fundamental de clasicacin
Sea ( ; u) un espacio ultramtrico. El fundamento de este algoritmo consiste en el hecho de que, en virtud del Teorema 10.3.5, juntando elementos o
clusters ms prximos, conservamos la propiedad ultramtrica.
1. Comencemos con la particin:
= f1g +
+ fng:
k 6= i; j;
+ fi; jg +
+ fng
(10.4)
10.5.
Una jerarqua indexada es una estructura conjuntista. Un espacio ultramtrico es una estructura geomtrica. Ambas estructuras son equivalentes.
Teorema 10.5.1 Sea (C; ) una jerarqua indexada total sobre un conjunto
: Entonces podemos denir una distancia ultramtrica u sobre : Recprocamente, todo espacio ultramtrico ( ; u) dene una jerarqua indexada (C; ).
Demost.: A partir de (C; ) denimos la siguiente distancia
u(i; j) = (cij );
donde cij es el mnimo cluster (respecto a la relacin de inclusin) que contiene i; j. Sea fi; j; kg un tringulo y sean tambin cik ; cjk los mnimos clusters
que contienen fi; kg; fj; kg respectivamente. Tenemos que
cik \ cjk 6= ;
y por tanto (axioma de la interseccin) hay dos posibilidades:
a) cik
cjk ) i; j; k 2 cjk ) cij
(cjk )
cjk ) u(i; j) =
(cij )
u(j; k) =
b) cjk
cik ) i; j; k 2 cik ) cij
cik ) u(i; j) =
(cik ) As pues: u(i; j) supfu(i; k); u(j; k)g:
(cij )
u(i; k) =
La posibilidad de construir una jerarqua indexada a partir de una distancia ultramtrica es una consecuencia del algoritmo fundamental de clasicacin. El ndice de la jerarqua viene dado por (10.4).
Comentarios:
1. Obsrvese la analoga entre el Teorema 10.3.5 y el algoritmo fundamental de clasicacin.
2. Obsrvese adems que (10.3) permite denir de manera inequvoca una
distancia entre un cluster y la unin de los dos clusters ms prximos.
Esta propiedad es la que otorga importancia a la distancia ultramtrica.
196
10.6.
B 21
B
= B ..
@ .
n1
12
1n
22
2n
..
.
..
n2
C
C
.. C
. A
ij
ji
= (i; j);
ii
= 0:
nn
+ fng:
k 6= i; j;
+ fi; jg +
+ fng;
(10.5)
197
(10.6)
10.6.1.
k 6= i; j:
(10.7)
(i; k) = a
(j; k);
se transforme en ultramtrico
0
(i; jg
(i; k) = 0 (j; k) = a:
Ejemplo. Sea
una matriz de distancias sobre
= f1; 2; 3; 4; 5g: El
mtodo del mnimo proporciona una jerarqua indexada (C; ) asociada a
198
(1; 2)
3
!
4
5
(1; 2) 3 4
0
3 4
0 2
0
5
(1; 2) (3; 4)
7
(1; 2)
0
3
8 !
(3; 4)
0
7
5
0
5
7
!
7
0
5
7 ! C = ff1g0 ; : : : ; f5g0 ; f1; 2g1 ; f3; 4g2 ; f1; 2; 3; 4g3 ;
0
1 2 3 4 5
1 0 1 3 3 7
2
0 3 3 7
(C; ) ! U =
3
0 2 7
4
0 7
5
0
(i; j)g
el conjunto de distancias ultramtricas ms pequeas que : Entonces la distancia ultramtrica u resultante de aplicar el mtodo del mnimo es el elemento mximo de U
u(i; j)
u(i; j);
u 2 U;
8i; j 2 :
Demost.: Sean fi; jg los elementos ms prximos. Entonces u(i; j) = (i; j):
La columna k (6= i; j) tendr trminos repetidos iguales a una distancia 0
construida tomando un mnimo. Si u
es otra distancia ultramtrica,
entonces: a) si es estrictamente ms pequea es evidente que u > u. b) si
u(k 0 ; k 00 ) es ms grande que u(k 0 ; k 00 ) pero es igual a alguna , entonces la
columna k tendr elementos repetidos, y al menos uno ser superior a 0 :
Contradiccin. El razonamiento es parecido si consideramos un cluster c y
un elemento k 2
= c:
7g
199
Comprese
con U en el ejemplo anterior. Vase tambin el Teorema
10.7.3.
A la vista de este resultado, podemos decir que u es la mejor aproximacin
a por defecto.
10.6.2.
k 6= i; j:
(10.8)
(i; k)
(j; k) = b;
se convierta en ultramtrico
0
(i; jg
(i; k) = 0 (j; k) = b:
(i; j)g
el conjunto de distancias ultramtricas ms grandes que : Entonces la distancia ultramtrica u resultante de aplicar el mtodo del mximo es un elemento
minimal de U
u(i; j) u(i; j); u 2 U; 8i; j 2 :
As u es la mejor aproximacin a
por exceso.
Comentarios:
1. Las distancias u; u; y
verican:
u(i; j)
Hay igualdad u =
(i; j)
= u si y slo si
u(i; j):
es ultramtrica.
200
= '( ) ) u0 = '(u)
Demost.: En el proceso de encontrar la ultramtrica slo intervienen los rangos de los valores de ; que son los mismos que los rangos de los valores de
la transformacin 0 :
10.7.
rg:
Entonces
8i 2 B(i0 ; r) verif ica
201
supfu(i ; i
+1 )j
= 1; : : : ; m
1g:
Sea ahora
supfu(i1 ; im 1 ); u(im 1 ; im )g
supfsupfu(i ; i +1 )j = 1; : : : ; m 2g; u(im 1 ; im )g
supfu(i ; i +1 )j = 1; : : : ; m 1g:
= f1; 2; : : : ; ng y
(i ; i
+1 )
entonces u
u:
sup[i; j]2
Sea [i; j; k] una cadena que une i; j pero que contiene k: El conjunto de
las cadenas [i; j; k] est contenido en el conjunto de las cadenas [i; j]. Por lo
tanto:
nf sup[i; j]m
nf0 sup[i; k; j]m0
(10.9)
m
202
Por otra parte, dadas las cadenas [i; j]; [j; k] podemos construir
[i; k; j] = [i; j] [ [j; k]
de modo que
sup[i; k; j] = supfsup[i; j]; sup[j; k]g
Teniendo en cuenta (10.9) deducimos que
u(i; j)
Sea ahora u
sup u(i ; i
1
+1 )
sup[i; j]m
Por lo tanto
u(i; j)
10.8.
Ejemplos
10.8. EJEMPLOS
203
Figura 10.2: Representacin mediante un dendograma que agrupa 11 profesores segn los artculos publicados conjuntamente.
Are
Arenas
0
Corcuera 1
Cuadras 0.50
Fortiana 0.83
Marquez 1
Nualart
1
Oliva
1
Oller
1
Rovira
1
Sanz
1
Sarra
1
Cor
Cua For
0
1
1
1
1
1
0.75
1
1
1
0
0.06
1
1
0.33
1
1
1
1
0
1
1
1
1
0.33
0.75
0
1
1
0.33
1
1
1
1
0
1
1
1
0.93
1
0
1
1
1
1
0
1
1
1
San
Sar
0
0.11 0
1
0.25 0
204
10.8. EJEMPLOS
205
Ing Vas Cat Cas Dan Fin Fra Gal Hol Hun Ita Nor Pol
0
44
28
29
26
55
32
27
25
38
35
27
44
0
45
46
43
59
46
44
43
45
46
43
53
0
17
27
57
13
13
43
40
22
29
44
0
31
55
24
7
32
42
17
32
36
0
59
33
26
29
36
32
3
44
0
59
55
56
56
60
58
56
0
23
33
38
24
33
45
0
33
40
15
27
38
0
37
36
28
42
0
45
36
52
0
33 0
42 44
206
10.9.
Clasicacin no jerrquica
= jWj=jTj:
d) Maximizar tr(W 1 B)
207
d2 (xki ; xk )
k=1 i=1
10.10.
Nmero de clusters
tr(B(k)) tr(W(k))
=
;
g 1
n g
1)2=p W(k
1)
k 2=p W(k)
208
10.11.
log jW(k)j:
Complementos
La historia de la clasicacin comienza con la sistemtica de Carl von Linn, que permita clasicar animales y plantas segn gnero y especie. La clasicacin moderna (denominada taxonoma numrica) se inicia en 1957 con
la necesidad de proponer criterios objetivos de clasicacin (Sokal, Sneath,
Michener). Posteriormente, diversos autores relacionaron las clasicaciones
jerrquicas con los espacios ultramtricos (Benzecri, Jardine, Sibson, Johnson), dado que la propiedad ultramtrica ya era conocida en otros campos
de la matemtica. Hartigan (1967) y Johnson (1967) son dos referencias importantes para representar matrices de similaridades (o disimilaridades) mediante dendogramas y relacionarlos con las clasicaciones jerrquicas. Vase
Gordon (1999).
Una crtica que se ha hecho al anlisis cluster es el excesivo repertorio
de distancias y mtodos de clasicacin. Incluso se han realizado clasicaciones de las propias maneras de clasicar, y clasicaciones jerrquicas de las
distancias. Tambin se ha argumentado (Flury, 1997) que el planteamiento
correcto del anlisis cluster consiste en encontrar mixturas
f (x) =p1 f1 (x) +
+pg fg (x);
10.11. COMPLEMENTOS
209
(i; k) +
(j; k) +
(i; j) + j (i; k)
(j; k)j;
0
0
0
0
1=2
+1=2
0
0
210
Captulo 11
ANLISIS DISCRIMINANTE
11.1.
Introduccin
1;
2:
1 )P (
1)
211
+ P (R1 =
2 )P (
2 ):
(11.1)
212
11.2.
11.2.1.
Discriminador lineal
Sean 1 ; 2 los vectores de medias de las variables en 1 ; 2 ; respectivamente, y supongamos que la matriz de covarianzas es comn. Las distancias
de Mahalanobis de las observaciones x =(x1 ; : : : ; xp )0 de un individuo ! a las
poblaciones son
M 2 (x;
i)
0
i)
= (x
(x
i );
i = 1; 2:
2)
M 2 (x;
1)
= x0
x0
= ( 2
x+
1
x
0
1)
2x0 1 2
0
1
1
1 + 2x
1
1
( 2 + 1 ) + 2x0 1 (
2
1
2 ):
2)
M 2 (x;
1
2
(
1)
2)
= 2L(x) L((
(
1
2) :
2 ) =2)
(11.3)
y la regla (11.2)
1;
2:
11.2.2.
log f2 (x) :
1;
2:
11.2.3.
213
Regla de Bayes
1) ;
q2 = P (
2) ;
q1 + q2 = 1:
Una vez que se dispone de las observaciones x =(x1 ; : : : ; xp ); las probabilidades a posteriori de que ! pertenezca a las poblaciones (teorema de Bayes)
son
qi fi (x)
P ( i =x) =
; i = 1; 2:
q1 f1 (x) + q2 f2 (x)
La regla de clasicacin de Bayes es
Si P (
1;
2:
El discriminador de Bayes es
B (x) = log f1 (x)
Indiquemos z = q1 f1 (x) q2 f 2 (x): Esta ltima integral es mnima si R2 incluye todas las x tales que z<0 y excluye todas las x tal que z>0: Por tanto
pce es mnima si R2 = R2 ; siendo R2 = fxjB(x) <0g:
214
11.3.
11.3.1.
1 1=2
p=2
fi (x) = (2 )
expf
1
(x
2
0
i)
1
i
(x
es Np (
1;
1)
i )g:
Discriminador lineal
Si suponemos
6=
2;
; entonces
1
0
1
+ (x
(x
2)
2 ) = L(x);
2
y por tanto los discriminadores mximo verosmil y lineal, el segundo basado
en el criterio de la mnima distancia, coinciden.
Sea la distancia de Mahalanobis entre las dos poblaciones
V (x) =
1
(x
2
0
1)
(x
=(
1)
0
2)
2 ):
0
1
Consideremos U = (x
( 1
1)
2 ): Si x proviene de Np ( 1 ; ); en0
1
0
1
tonces E(U ) = 0; var(U ) = E[( 1
(x
( 1
2)
1 )(x
1)
2 )]
0
= ; por ser E[(x
)(x
)
]
=
:
1
1
Por otra parte, de x 21 ( 1 + 2 ) = x 1 + 21 ( 1
2 ) ; vemos que L (x)
1
= U + 2 : Por lo tanto E(L (x)) = =2; var(L(x)) = :
0
1
De x
(x
1 = x
2+ 2
1 ; tambin U = (x
2)
2) + :
Entonces, si x proviene de Np ( 2 ; ); vemos que E(U ) =
; var(U ) = :
Al ser L (x) = U + 12 ; deducimos que E(L (x)) =
=2; var(L(x)) = :
Hemos encontrado la distribucin de la funcin discriminante L(x):
L(x) es N (+ 21 ; ) si x proviene de Np (
1
2
L(x) es N (
11.3.2.
; ) si x proviene de Np (
1;
);
2;
):
(11.4)
Regla de Bayes
Si suponemos 1 6= 2 ;
priori q1 = P ( 1 ) ; q2 = P (
11.3.3.
215
La probabilidad de asignar x a
cuando proviene de Np ( 1 ; ) es
p
p
P (L(x) <0j 1 ) = P ((L(x) 21 )= ) = ( 12
);
2
11.3.4.
Discriminador cuadrtico
1 0
x
2
+ 12
2
0
2
1
2
1
2
x + x0
0
1
1
1
1
1
1
1
1
log j
2
2
2j
1
log j
2
1j :
11.3.5.
En las aplicaciones prcticas, 1 ; 2 ; 1 ; 2 son desconocidos y se debern estimar a partir de muestras de tamaos n1 ; n2 de las dos poblaciones
sustituyendo 1 ; 2 por los vectores de medias x1 ; x2 ; y 1 ; 2 por las matrices de covarianzas S1 ; S2 : Si utilizamos el estimador lineal, entonces la
estimacin de ser
S =(n1 S1 + n2 S2 )=(n1 + n2 )
y la versin muestral del discriminador lineal es
b (x) = [x
L
1
2
(x1 + x2 )]0 S
(x1
x2 ) :
216
donde
11.4.
b
L(x)
es N (
= (x1
x2 )0 S
1
2
1;
; 12 ) si x proviene de Np (
(x1
);
2;
);
x2 ) :
Ejemplo
x1 =
S1 =
x2 =
S2 =
Estadio-2
( 241:6 147:8 )
210:9 57:97
57:97 152:8
Discriminador lineal
La estimacin de la matriz de covarianzas comn es:
S = (n1 S1 + n2 S2 )=(n1 + n2 ) =
301:4 31:02
31:02 222:6
0:069long
1
2
(461:1; 285:9)]
0:034anch + 20; 94
301:4 31:02
31:02 222:6
22:1
9:7
11.4. EJEMPLO
217
Figura 11.1: Discriminadores lineal y cuadrtico en la clasicacin de coppodos en Estadios 1 y 2. La lnea recta es el conjunto de puntos tales que L = 0:
La parbola es el conjunto de puntos tales que Q = 0:
0:069 long
218
301:4 31:02
31:02 222:6
9:7
22:1
9:7
= 1:872:
1p
1:872) = ( 0:684) = 0:247:
2
Discriminador cuadrtico
El test de homogeneidad de covarianzas nos da:
2
= [1
1
13 1
( +
18 75 90
1
)](1835:4
165
882:5
con 3 g.l. Las diferencias entre las matrices de covarianzas son signicativas. Por tanto, el discriminador cuadrtico puede resultar ms apropiado.
Efectuando clculos se obtiene:
Q(long; anch) = 0:0014 long2 + 0:002 anch2 0:002 long
0:445 long 0:141 anch + 72:36
anch
11.5.
11.5.1.
219
Discriminadores lineales
i)
0
i)
= (x
(x
i );
i = 1; : : : ; k;
i)
= m nfM 2 (x;
1 ); : : : ; M
(x;
k )g;
asignamos ! a
i:
(11.5)
Introduciendo las funciones discriminantes lineales
Lij (x) =
1
2
1
i
asignamos ! a
i:
j)
M 2 (x;
i )]:
Lji (x) :
Lir (x) :
11.5.2.
1 funciones discriminantes.
asignamos ! a
i:
220
11.5.3.
1 0
x
2
1
+
2
j
0
j
i
1
j
1
2
x + x0
0
i
1
i
1
log j
2
jj
1
log j
2
ij :
Regla de Bayes
asignamos ! a
i;
cuando en realidad
j6=i
11.6.
Un ejemplo clsico
Continuando con el ejemplo 3.6.2, queremos clasicar a una de las 3 especies una or cuyas medidas son:
x1 =6.8 x2 =2.8 x3 =4.8 x4 =1.4
221
1
C
C
A
Se obtiene:
Individuo
x
L12
51:107
L13
L21
44:759 51:107
L23
L31
6:3484 44:759
L32
Poblacin
6:3484
2
Poblacin 1
original
2
3
Poblacin asignada
1
2
50
0
0
48
0
1
3
0
2
49
222
11.7.
Complementos
1 =x)
la regla de clasicacin es
! es de
en caso contrario.
1
1+e +
= F(
x),
Captulo 12
DISCRIMINACIN
LOGSTICA Y OTRAS
12.1.
12.1.1.
Introduccin
p)1 y ;
pues L = p si y = 1; L = 1 p si y = 0:
Si realizamos n pruebas independientes y observamos y1 ; : : : ; yn , la verosimilitud es
n
Y
L=
pyi (1 p)1 yi = pk (1 p)n k
i=1
223
224
P
siendo k =
yi la frecuencia absoluta de A en las n pruebas. Para estimar
p resolvemos la ecuacin de verosimilitud
@
ln L = 0
@p
cuya solucin es pb = k=n; la frecuencia relativa del suceso A: La distribucin
asinttica de pb es normal N (p; p(1 p)=n):
Muy distinta es la estimacin cuando esta probabilidad depende de otras
variables. La probabilidad de A debe entonces modelarse adecuadamente.
12.1.2.
p(x)
=
1 p(x)
1 x1
p xp
x;
(12.1)
1 x1
p xp
+ e;
225
12.1.3.
0 entonces y = 0:
p(x))1 y : La
x1p
x2p
..
.
...
xnp
n
Y
p(xi )yi (1
p(xi ))1
yi
i=1
Tomando logaritmos
ln L =
n
X
i=1
yi ln p(xi )(1
p(x))1
yi
C
C
C:
A
0
en el modelo,
226
@
@
j = 0; 1; : : : ; p:
ln(1 + e
1 xi
0 + 1 xi
ln p(xi ) = 1
ln p(xi ) = xij
de-
e 0 + xi
0
1+e 0 + xi
0
e 0+ x
xij 1+e 0 + 0 xi
), luego
=1
p(xi )
= xij (1
p(xi ))
12.1.4.
La distribucin asinttica de b es normal multivariante Np+1 ( ; I 1 ): En particular, la distribucin asinttica del parmetro bi es normal N ( i ;var(bi ));
227
12.1.5.
En regresin logstica se obtiene el ajuste del modelo calculando la verosimilitud L del modelo (estimando los parmetros por mxima verosimilitud) y
utilizando el llamado estadstico de desviacin:
D=
2 ln L(modelo de regresin).
2 ln
L(modelo de regresin)
:
L(modelo saturado)
228
Figura 12.1: Curva ROC que representa las curvas 1-Especicidad y Sensibilidad. La curva 2 indicara que los datos poseen mejor capacidad de discriminacin que la curva 1.
12.1.6.
Curva ROC
1:
229
1:
Entonces no es posible distinguir entre las dos poblaciones. Es decir, tendramos que la funcin discriminante logstica Lg (x) = ln[p(x)=(1 p(x))]
tiene exactamente la misma distribucin tanto si y = 1 como si y = 0:
El rea bajo la curva ROC es siempre mayor o igual que 0:5: Un valor
a partir de 0:8 se considera como que la discriminacin es buena. Un valor
a partir de 0:9 se considerara como muy bueno. La discriminacin sera
perfecta si el rea vale 1. Vase Hosmer y Lemeshow (2000).
Ejemplo 12.1.1 Bebs.
En un estudio epidemiolgico sobre n = 189 mujeres que han tenido un
beb, se intent estudiar las causas (edad, peso antes embarazo, fumar, etc.)
que provocan el nacimiento de un beb prematuro. Se considera que un beb
es prematuro si su peso est por debajo de los 2500 gramos. Visitando la
pgina web
http://www.umass.edu/statdata/statdata/
230
(!Data sets, Regression-Logistic) se puede bajar el archivo Low Birthweight. Consideramos LOW como variable dependiente (0 si peso mayor
2500gr, 1 si menor que 2500gr) y las variables predictoras Edad, Peso (peso
de la madre), Raza (1=blanco, 2=negro, 3=otros), Fumadora (0=no fuma,
1=fuma), Visitas (nmero de visitas al mdico durante el primer trimestre).
En el archivo original las variables se denominan: age, weight, race, smoke,
visits.
Las estimaciones de los parmetros 0 ; 1 ; : : :, sus desviaciones tpicas
y el estadstico de Wald se dan en el siguiente cuadro. La variable Raza
(categrica con 3 estados), se desglosa en 2 variables binarias.
Variable
Edad
Peso
Raza
Raza_1
Raza_2
Fumadora
Visitas
Constante
D = 2log(verosim)
ST( ). Wald g. l.
0:022 0:035
0:41
1
0; 012 0:006
3:76
1
7:79
2
0:94 0:41
5:07
1
0:29 0:52
0:30
1
1:05 0:38
7:64
1
0:008 0; 16
0:002
1
0:79 0:15
25:3
1
214:57
p
0:622
0:052
0:020
0:024
0:583
0:006
0:963
0:000
231
% Normales pred.
9,2
50,0
93,8
100
100
232
12.1.7.
1
(x
2
e
1
(x
2
1)
1 (x
1)
1)
1
1 (x
1
(x
2
+e
1)
0)
0)
1 (x
(x
1 (x
0)
0)
y tenien)
=
L(x);
0
1)
L(x) =
=
1
(
2
e L(x)
:
1 + e L(x)
x siendo
0
0)
0) ;
0) ;
0
0)
0 ):
233
ST( )
0; 012
0; 013
3; 277
Wald g. l.
31; 21
1
5; 859
1
38; 15
1
p valor
0; 000
0; 015
0; 000
;
20:23+0:069l+0:031a
12.2.
Los mtodos que hemos descrito funcionan bien con variables cuantitativas o cuando se conoce la densidad. Pero a menudo las variables son binarias,
categricas o mixtas. Aceptando y aplicando el principio de que siempre es
posible denir una distancia entre observaciones, es posible dar una versin
del anlisis discriminante utilizando solamente distancias.
234
Figura 12.3: Curvas ROC para el discriminador lineal y el logstico (izquierda). Ambas curvas son indistinguibles (derecha), indicando la misma eciencia para discriminar entre los dos estadios. El rea bajo la curva ROC es
0,838.
12.2.1.
La funcin de proximidad
Sea
una poblacin, X un vector aleatorio con valores en F
Rp y
densidad f (x1 ; :::; xp ) : Sea una funcin de distancia entre las observaciones
de X: Denimos la variabilidad geomtrica como la cantidad
Z
2
1
(x; y) f (x)f (y)dxdy
V (X) = 2
F
(x) es la media de las distancias de x; que es ja, a t; que vara aleatoriamente, menos la variabilidad geomtrica.
235
con un producto escalar < :; : > y una norma kzk2 =< z; z >, tal que
2
donde
(x; y) = k (x)
(y)k2 ;
(x) = k (x)
kE( (X))k2 :
E( (X))k2 :
12.2.2.
La regla discriminante DB
= (x
y)0
1
i
(x
y) ;
i = 1; 2;
lo nico que cambia es la matriz . Debe quedar claro que depende del
vector aleatorio X, que en general tendr diferente distribucin en 1 y 2 .
Seguidamente, mediante (12.3), encontraremos las funciones de proximidad 21 ; 22 , correspondientes a 1 ; 2 . Sea ! un individuo que queremos
clasicar, con valores x = X (!).
La regla de clasicacin basada en distancias (DB, distance-based) es:
2
Si 21 (x)
2 (x) asignamos ! a
en caso contrario asignamos ! a
1;
2:
(x) = k (x)
E i ( (X))k2 ;
i = 1; 2;
236
12.2.3.
0
i)
(x) = (x
(x
i)
y el discriminador lineal es
L (x) =
2
2
1
2
2
1
(x)
(x; y) = (x
=0
y)0
1
i
(x) :
2;
2)
y) + log j
(x
2
i
es la distancia de
i j =2
x 6= y;
x = y;
2
2
1
2
2
1
(x)
(x) :
1
2
0
2 )]
2) ;
(12.4)
12.2.4.
237
muestra de
muestra de
1;
(12.5)
2;
2
ij
(1) ;
n2
1 X
b
V2 = 2
2n2 i;j=1
2
ij (2):
2
i (1)
Vb1 ;
n2
X
b2 (y) = 1
2
n2 i=1
2
2
Si b1 (x) b2 (y) asignamos ! a
en caso contrario asignamos ! a
2
i (2)
Vb2 :
1;
2:
b2 (y) = d2 (y;y) ;
2
E
238
n
X
d (xi ; x) =
1
n
i=1
n
X
(xi
Pn
i=1
x)0 (xi
x)
i=1
1
n
n
X
x0i xi + x0 x 2x0 x:
i=1
n
X
d2 (xi ; xj ) =
1
2n2
i;j=1
n
X
(xi
xj )0 (xi
xj )
i;j=1
1
n
n
X
x0i xi
x0 x:
i=1
Restando
12.3. COMPLEMENTOS
239
Para otros ejemplos con datos categricos o mixtos, vase Cuadras (1992b).
12.3.
Complementos
Albert y Anderson (1984) probaron que en el modelo logstico, los estimadores mximo verosmiles de los parmetros no existen si hay completa
separacin de las muestras de las dos poblaciones. Adems, si las muestras estn muy diferenciadas, las estimaciones de los parmetros no funcionan. Por
ejemplo, en el caso de los datos de ores del gnero Iris, (vase Tabla 3.2),
las estimaciones resultan demasiado grandes y no son correctas. Longford
(1994) estudi la funcin de verosimilitud en el modelo de regresin logstica
con coecientes de regresin aleatorios.
Existen otros mtodos de anlisis discriminante, algunos no-paramtricos,
otros para variables mixtas, como el mtodo del ncleo, del vecino ms prximo, el basado en el location modelde Krzanowski (1975), etc. Consltese
McLachlan (1992).
Los mtodos de anlisis discriminante basados en distancias pueden abordar todo tipo de datos y han sido estudiados por Cuadras (1989, 1992b, 2008)
y Cuadras et al. (1997). Permiten mejorar la ordenacin y formacin de clusters, vase Anderson y Willis (2003) y De Cceres et al. (2006).
Dadas dos poblaciones Np ( 1 ; ) y Np ( 2 ; ); el problema de la tipicalidad consiste en decidir si una observacin x proviene de la mixtura
Np ( 1 + (1
) 2 ; ); 0
1; o de una tercera poblacin Np ( 3 ; ):
Por ejemplo, en una prospeccin arqueolgica puede interesar averiguar si
un crneo pertenece a un mismo grupo humano (en el que hay hombres y
mujeres), o bien a otro grupo distinto. Este problema ha sido estudiado por
Rao (1973) y Bar-Hen y Daudin (1997) para datos normales. Para datos en
general se puede abordar tambin mediante distancias, vase Cuadras y Fortiana (2000). El caso de varias poblaciones ha sido estudiado por Bar-Hen
(2001) e Irigoien y Arenas (2008). En Jauregui et al. (2011) se lleva a cabo
una interesante aplicacin a la robtica.
240
Captulo 13
EL MODELO LINEAL
13.1.
El modelo lineal
+ xi2
+ xim
..
+ ei ;
x1m
x2m
..
.
xnm
10
1. El vector de observaciones:
y = (y1 ; y2 ; : : : ; yn )0 :
2. El vector de parmetros:
1;
241
CB
C B
CB 2 C B
C B .. C + B
A@ . A @
=(
2; : : : ;
(13.1)
i = 1; : : : ; n;
0
m) :
e1
e2
..
.
en
C
C
C:
A
242
3. La matriz de diseo:
1
x1m
x2m C
C
C:
A
xnm
x11 x12
B x21 x22
B
X =B
...
@
xn1 xn2
e = (e1 ; e2 ; : : : ; en )0
La notacin matricial compacta del modelo es:
y = X + e:
Solamente y y X son conocidas. En los modelos de regresin, X contiene
las observaciones de m variables explicativas. En los modelos de anlisis de
la varianza, X contiene los valores 0; 1 1; segn el tipo de diseo experimental que siguen los datos.
13.2.
i = 1; : : : ; n:
2. E(ei ej ) = 0;
3. var(ei ) =
i 6= j = 1; : : : ; n:
i = 1; : : : ; n:
In :
Si podemos suponer que los errores son normales y estocsticamente independientes, entonces estamos ante un modelo lineal normal
y
Nn (X ; 2 In ):
m y cuando
243
13.3.
Estimacin de parmetros
13.3.1.
Parmetros de regresin
X )0 (y
X )=
n
X
(yi
xi1
:::
xim
2
m)
(13.2)
i=1
sea mnimo.
X0 X = X0 y
(13.3)
X )0 (y
X ) = y0 y 2 0 X0 y +
X0 X :
e igualando a cero
2X0 y+2X0 X = 0
obtenemos (13.3).
Distinguiremos dos casos segn el rango del diseo.
a) r = m: Entonces la estimacin de es nica:
b = (X0 X) 1 X0 y:
(13.4)
X b )0 (y
ybi = xi1 b1 +
Xb) =
n
X
(yi
i=1
+ xim bm :
es
ybi )2 ;
244
13.3.2.
Varianza
X b ) = X0 y
X0 X b = 0:
b2 = R02 =(n
r);
Teorema 13.3.3 Sea y = X + e el modelo lineal donde e satisface las suposiciones bsicas del modelo (Seccin 13.2). Entonces el estadstico
= i si i r;
= 0 si i > r;
R02
=b
eb
e=b
e TT b
e=
n
X
i=r+1
zi2 :
245
E(zi2 ) = var(zi ) =
E(zi ) = 0;
i > r;
y por tanto
n
X
E(Ro2 ) =
E(zi2 ) = (n
r) 2 :
i=r+1
Nm ( ;
3. U = ( b
(X0 X) 1 ):
)0 X0 X( b
)=
2
m:
2
n m:
13.4.
13.4.1.
Regresin mltiple
sigue la distribu-
+ xi1
+ xim
+ ei ;
i = 1; : : : ; n;
(13.5)
246
donde yi es la i-sima observacin de Y; y xi1 ; : : : ; xim son las i-simas observaciones de las variables explicativas. La matriz de diseo es
0
1
1 x11
x1m
B 1 x21
x2m C
B
C
X = B .. ..
.. C :
.
.
@ . .
.
. A
1 xn1
xnm
13.4.2.
Diseo de un factor
Supongamos que una variable observable Y ha sido observada en k condiciones experimentales diferentes, y que disponemos de ni rplicas (observaciones independientes de Y ) yi1 ; : : : ; yini bajo la condicin experimental i: El
modelo es
yih = + i + eih ; i = 1; : : : ;k; h = 1; : : : ;ni ;
(13.6)
donde es la media general y i es el efecto aditivo de la condicin i: Las
desviaciones aleatorias eih se suponen normales independientes. En el modelo
(13.6), se supone la restriccin lineal
1
= 0;
B
B
B
B
X= B
B
B
B
@
13.4.3.
1
1
1
1
1
1
1
1
1
0
0
0
0
0
0
0
1
1
0
0
0
0
0
0
0
1
1
1
31
C
C
C
C
C;
C
C
C
A
B
B
B
B
e
X= B
B
B
B
@
1
1
1
1
1
1
1
1
1
0
0
1
1
1
0
0
1
1
1
1
1
21
C
C
C
C
C:
C
C
C
A
247
(13.7)
+ eij ;
donde es la media general, i es el efecto aditivo del nivel i del factor la, j
es el efecto aditivo del nivel j del factor columna. Las desviaciones aleatorias
eij se suponen normales independientes. En el modelo (13.6) se suponen las
restricciones lineales
a
b
X
X
(13.8)
i =
j = 0:
i=1
j=1
B
B
B
B
B
B
X= B
B
B
B
B
B
@
13.5.
1
1
1
1
1
1
1
1
1
1
0
0
1
0
0
1
0
0
0
1
0
0
1
0
0
1
0
0
0
1
0
0
1
0
0
1
1
1
1
0
0
0
0
0
0
0
0
0
1
1
1
0
0
0
31
0
0
0
0
0
0
1
1
1
B
B
B
B
B
B
e = B
X
B
B
B
B
B
@
C
C
C
C
C
C
C;
C
C
C
C
C
A
1
1
1
1
1
1
1
1
1
1
0
1
1
0
1
1
0
1
0
1
1
0
1
1
0
1
1
1
1
1
0
0
0
1
1
1
0
0
0
1
1
1
1
1
1
C
C
C
C
C
C
C:
C
C
C
C
C
A
Hiptesis lineales
+ him
= 0;
i = 1; : : : ; t:
es
248
(13.9)
(13.10)
La estimacin LS de
es
e = XC:
X
b = (X
e 0 X)
e 1 Xy
e
e b)0 (y X
e b):
R12 = (y X
249
= b (X0 X) H0 (H(X0 X) H0 ) 1 H b
X b H )0 (y
XbH )
X b )0 (y
X b );
X b H )0 (y
R12 = (y
X b H ):
2
n r:
2. Si H0 es cierta
R12
2
siendo r0 = r
2
n r0 ;
R12
R02
2
2
t;
t:
es suma de (n r) cuadra-
250
Cr (X) = [t1 ; : : : ; tr ]:
n
X
zi2
i=r 0 +1
y R12 =
sigue la distribucin
R12
2
n r0 :
R02 =
zi2
i=r 0 +1
y (R12
R02 )=
2
t;
sigue la distribucin
donde t = r
r0 :
R02 no tienen
2
2
(R12
R02 ) n
R02
r
t
Fnt r :
(13.11)
13.6.
= 0;
13.7. COMPLEMENTOS
251
n
X
(yi
i=1
R12
ybi ) ;
n
X
(yi
y)2 ;
i=1
(R12
R02 ) n
m
m
R02
Fnm m 1 :
i=1
R2 n
1 R2
m
m
Fnm m 1 :
Rechazaremos H0 si F es signicativa.
13.7.
Complementos
252
Captulo 14
ANLISIS DE LA VARIANZA
(ANOVA)
El anlisis de la varianza comprende un conjunto de tcnicas estadsticas
que permiten analizar cmo operan diversos factores, estudiados simultneamente en un diseo factorial, sobre una variable respuesta.
14.1.
Diseo de un factor
yih =
donde
+
i
i;
..
y1n1
y2n2
..
.
yknk
+ eih ;
i = 1; : : : ;k; h = 1; : : : ;ni ;
254
Indiquemos tambin:
P
2
= Pi n
Pi (yi y) 2
= Pi Ph (yih yi )
= i h (yih y)2
b i = yi ;
son
i = 1; : : : ; k;
k:
R02 = QE :
Por tanto, como una consecuencia del Teorema 13.5.1, tenemos que:
1. QD =(n
k) es un estimador centrado de
2. Si H0 es cierta, QE =(k
y QD =
2
n k:
QT
2
QE
2
n 1;
2
k 1:
QE =(k
QD =(n
1)
k)
Fnk k1 :
(14.1)
14.2.
255
Supongamos que las observaciones de una variable Y dependen de dos factores A, B, denominados factores la y columna, con a y b niveles A1 ; : : : ;Aa
y B1 ; : : : ;Bb ; y que disponemos de una observacin para cada combinacin
de los niveles de los factores:
A1
A2
..
.
Aa
B1
y11
y21
..
.
B2
y12
y22
..
.
ya1
y1
ya2
y2
..
Bb
y1b
y2b
..
.
y1
y2
..
.
yab
yb
ya
y
siendo
1X
yij ;
b j=1
b
yi =
1X
yij ;
a i=1
a
yj =
1 XX
yij ;
ab i=1 j=1
a
y =y=
las medias por las, por columnas y general. Supongamos que los datos se
ajustan al modelo (13.7) con las restricciones (13.8), donde es la media
general, i es el efecto del nivel Ai del factor la, j es el efecto del nivel Bj
del factor columna. El rango del diseo y los g.l. del residuo son
r = 1 + (a
1) + (b
1) = a + b
1; n
r = ab
(a + b
1) = (a
y;
bi
bj = (yij
bj = y j
b i = yi
yi
y;
y j + y):
a X
b
X
i=1 j=1
(yij
yi
y j + y)2 :
1)(b
1):
256
QT = QA + QB + QR :
En el modelo de dos factores, las hiptesis de inters son:
H0A :
H0B :
1
1
=
=
=
=
a
b
Ambas hiptesis son demostrables. Supongamos H0B cierta. Entonces el modelo se transforma en yij = + i + eij ; es decir, acta solamente un factor,
y por tanto
a X
b
X
2
R1 =
(yij yi )2 :
i=1 j=1
yi )2 = ((y j
y)+(yij
yi
y j +y))2 resulta
R12 = QB + QR :
Anlogamente, si H0A es cierta, obtendramos R12 = QA + QR : Por el Teorema
13.5.1 se verica:
1. QR =(a 1)(b 1) es un estimador centrado de
y QR =
2
(a 1)(b 1) :
257
QA (a 1)(b 1)
QR
(a 1)
a
F(a
1
1)(b 1) ;
b
F(a
1
1)(b 1) :
14.3.
QB (a 1)(b 1)
QR
(b 1)
Supongamos que las observaciones de una variable Y dependen de dos factores A, B, denominados factores la y columna, con a y b niveles A1 ; : : : :Aa
y B1 ; : : : ;Bb ; y que disponemos de c observaciones (rplicas) para cada combinacin de los niveles de los factores:
A1
A2
..
.
Aa
B1
y111 ; : : : ; y11c
y211 ; : : : ; y21c
..
.
B2
y121 ; : : : ; y12c
y221 ; : : : ; y22c
..
.
ya11 ; : : : ; ya1c
y1
ya22 ; : : : ; ya2c
y2
..
Bb
y1b1 ; : : : ; y1bc
y2b1 ; : : : ; y2bc
..
.
y1
y2
..
.
yab1 ; : : : ; yabc
yb
ya
y
siendo
b;c
1 X
yi =
yijh ;
bc j;h=1
yj
a;b;c
1 X
y=y =
yij :
abc i;j;h=1
1X
=
yijh ;
c h=1
c
yij
a;c
1 X
=
yijh ;
ac i;h=1
ij
+ eijh ;
i = 1; : : : ; a; j = 1; : : : ; b; h = 1; : : : ; c;
siendo la media general, i el efecto del nivel Ai del factor la, j el efecto
del nivel Bj del factor columna, ij la interaccin entre los niveles Ai ;Bj . El
258
i=1
b
X
j=1
a
X
ij
i=1
b
X
ij
= 0:
j=1
1) + (b
1) + (a
1)(b
1) = ab
b i = yi
b = yj
j
y;
bij = yij
yi
bij = (yij
y):
y;
bi
bj
y j + y;
a;b;c
X
(yijh
yi )2 :
i;j;h=1
QT = QA + QB + QAB + QR :
Las hiptesis de inters son:
H0A :
H0B :
H0AB :
=
1 =
11 =
1
=
=
=
259
FA
FB
FAB
14.4.
a 1
Fab(c
1)
b 1
Fab(c
1)
(a 1)(b 1)
1)
Fab(c
Diseos multifactoriales
A
i
B
j
C
k
AB
ij
AC
ik
BC
jk
ABC
ijk
+ eijkh ;
siendo:
C
B
A
i ; j ; k
AB
AC
BC
ij ; ik ; jk
ABC
ijk
eijkh
=
=
=
=
=
media general,
efectos principales de A,B,C,
interacciones entre A y B, A y C, B y C,
interaccin entre A,B y C,
desviacin aleatoria N (0; 2 ):
260
g. l., AB tiene (a
D; el residuo es
1)(b
1) + (a
1)(d
1) +
+ (a
1)(b
1)(c
1)(d
1) = abc(d
1)
A=(a 1)
;
R=q
F =
AB=(a
1)(b
R=q
1)
A
i
B
j
C
k
AB
ij
+ eijkh
1)(c
1) + (b
1)(c
1) + (a
1)(b
1)(c
1) + q:
14.5.
A=(a 1)
;
R0 =q 0
F =
AB=(a 1)(b
R0 =q 0
1)
Modelos log-lineales
261
B1
f11
f21
..
.
B2
f12
f22
..
.
..
Bb
f1b
f2b
..
.
f1
f2
..
.
Aa
fa1 fa2
fab fa
f1 f2
fb n
P
P
donde fi =
j fij ; f j =
i fij son las frecuencias marginales de Ai ;Bj
respectivamente. Indiquemos las probabilidades
pij = P (Ai \ Bj );
pi = P (Ai );
p j = P (Bj ):
Fi = npi ;
F j = np j ;
la condicin de independencia es
ln Fij = ln Fi + ln F j
ln n;
A
i
B
j ;
(14.2)
P P
= ( ai=1 bj=1 ln Fij )=ab;
P
= ( bj=1 ln Fij )=b
;
Pa
= ( i=1 ln Fij )=a
:
A
i
B
j
AB
ij ;
262
B
A
= ln Fij
donde AB
j es la desviacin del modelo lineal. La
i
ij
similitud con el modelo ANOVA de dos factores es bastante clara.
En las aplicaciones no conocemos las frecuencias esperadas Fij ; sino las
frecuencias observadas fij : Entonces la estimacin de los parmetros es muy
semejante al modelo ANOVA, pero los contrastes de hiptesis se resuelven
mediante ji-cuadrados.
La hiptesis de inters es la independencia entre A y B
AB
ij
H0 :
= 0;
que equivale a decir que los datos se ajustan al modelo (14.2). Sean
Fbij = nfi
fj
las estimaciones mximo-verosmiles de las frecuencias esperadas. El test jicuadrado clsico consiste en calcular
X
(fij Fbij )2 =Fbij
i;j
A
i
B
j
C
k;
A
i
B
j
C
k
AB
ij
AC
ik
BC
jk ;
A
i
B
j
C
k
AB
ij
AC
ik
BC
jk
ABC
ijk ;
A
i
B
j
C
k
BC
jk :
263
Clase
Gnero
Edad Supervivencia 1
2
3
T
Hombre Adulto
NO
118 154 387 670
Mujer
4
13
89
3
Hombre Nio
0
0
35
0
Mujer
0
0
17
0
Hombre Adulto
S
57
14
75 192
Mujer
140
80
76 20
Hombre Nio
5
11
13
0
Mujer
1
13
14
0
Tabla 14.1: Tabla de frecuencias combinando gnero, edad, supervivencia y
clase, de los datos del "Titanic".
Ejemplo 14.5.1
Analicemos los datos de supervivencia del "Titanic"(vase el Ejemplo
9.8.2), Tabla 14.1.
Indicamos por la parte del modelo que contiene los efectos principales
y las interacciones de orden inferior a la mxima propuesta. Por ejemplo, en
el caso del modelo [GESC], tendramos
=
G
i
E
j
S
k
C
l
GE
ij
GS
ik
GC
il
ES
jk
EC
jl
SC
kl
2
Smbolo
g.l.
p
[G][E][S][C]
1216.4 25 0.000
[GE][GS][GC][ES][EC][SC] 112.33 13 0.000
[GES][GEC][GSC][ESC]
5.3
3 0.151
[GEC][S]
659.3 15 0.000
[GEC][GSC][GES]
32.3
6 0.000
[GESC]
0
[GEC][GSC][ESC]
9.2
4 0.056
264
interacciones de tercer orden [GES][GEC][GSC][ESC] puede aceptarse, indicando que todas las variables interaccionan. El modelo [GEC][S], signicara
suponer (caso de aceptarse) que el combinado de gnero, edad y clase es independiente de la supervivencia, pero tambin debe rechazarse. El modelo
[GESC] es el modelo de dependencia completa, que incluye todas las interacciones, se ajusta perfectamente a las frecuencias observadas, pero carece de
inters (hay tantos parmetros como datos).
Un modelo razonable que podra aceptarse es el [GEC][GSC][ESC], 2 =
9:2 con 4 g. l. Se concluye que debemos aceptar que la supervivencia dependa
del gnero, edad y clase. El salvamento de los pasajeros se produjo en los
trminos siguientes: mujeres y nios primero (segn la clase) y despus
hombres de primera clase.
14.6.
Complementos
Captulo 15
ANLISIS DE LA VARIANZA
(MANOVA)
15.1.
Modelo
B
B
Y =B
@
y11 y12
y21 y22
..
..
.
.
yn1 yn2
..
y1p
y2p
..
.
ynp
C
C
y1 ;e
y2 ; : : : ;e
yp ];
C = [e
A
Y = XB + E
265
(15.1)
266
x11 x12
x21 x22
..
..
.
.
xn1 xn2
..
C
C
C;
A
xnm
x1m
x2m
..
.
11
12
1p
21
22
2p
..
.
..
.
m1
m2
...
..
.
mp
C
C
C;
A
C
C
C:
A
Las matrices Y y X son conocidas. Suponemos que las las de E son independientes Np (0; ):
15.2.
Estimacin de parmetros
En el modelo MANOVA debemos estimar los m p parmetros de regresin contenidos en B; as como la matriz de covarianzas :
En el modelo univariante y = X + e; la estimacin LS b = (X0 X) X0 y
0
minimiza b
e0 b
e= (y X b ) (y X b ): En el caso multivariante, el estimador
b tal que minimiza la traza
LS de B es B
0
b 0 E)
b = tr[(Y
tr(E
b (Y
XB)
b 0E
b = (Y
R0 = E
b (Y
XB)
b
XB)];
b = Y XB:
b
siendo E
La matriz de residuos es la matriz R0 = (R0 (i; j)) de orden p
0
b
XB);
ej =
donde R0 (j; j) es la suma de cuadrados residual del modelo univariante y
X j + ej :
267
b = (X0 X) 1 X0 Y;
B
XB0 )0 (Y
b + XB
b XB0 )0 (Y XB
b + XB
b XB0 )
XB
b XB0 )0 (XB
b XB0 )
= R0 + (XB
b 0 (XB
b XB0 )+(XB
b XB0 )0 (Y XB)
b
+(Y XB)
XB0 ) = (Y
b
= R0 + (XB
0
b
XB0 ) (XB
XB0 );
b 0 (XB
b XB0 ) =(Y XB)
b 0 X(B
b B0 ) = 0 por vericar B
b
pues (Y XB)
0
las ecuaciones normales (15.2). Luego (Y XB0 ) (Y XB0 ) = R0 + M;
siendo M una matriz p p denida positiva. Entonces la traza y el determinante de (Y XB0 )0 (Y XB0 ) alcanzan el valor mnimo cuando M = 0,
b Por otra parte
es decir, para B0 = B:
b = (X0 X) 1 X0 E(Y) =(X0 X) 1 (X0 X)B = B:
E(B)
268
Teorema 15.2.2 Bajo las mismas condiciones del teorema anterior, con r =
rango(X); podemos expresar la matriz de residuos como
R0 = Y0 [I
X(X0 X) X0 ]Y:
Demost.:
(Y
b (Y
XB)
b = Y0 Y
XB)
= Y0 Y
= Y0 Y
= Y0 [I
es
r):
b
Y0 XB
b
Y0 XB
b 0 X0 Y + B
b 0 X0 XB
b
B
b 0 X0 Y = B
b 0 X0 XB)
b
(por B
Y0 X(X0 X) X0 Y
X(X0 X) X0 ]Y:
Sea ahora T = [t1 ; : : : ; tr ; tr+1 ; : : : ; tn ] una matriz ortogonal tal que sus
columnas formen una base ortonormal de Rn ; de manera que las r primeras
generen el mismo subespacio Cr (X) generado por las columnas de X: Por lo
tanto las otras n r columnas sern ortogonales a Cr (X): Es decir,
t0i X =
t0i X = 0
si i r;
si i > r;
r primeras las
n r ltimas las
b Y XB:
b De X0 (Y XB)
b = 0; ver ecuaciones
Consideremos el residuo E=
b es ortogonal a X en el sentido que
normales (15.2), deducimos que E
donde Zn
b=
T0 E
es matriz (n
b = T0 Y
T0 E
0
Zn
r)
r primeras las
n r ltimas las
p: Pero
b =Z
T0 XB
0
Zn
;
r
269
b =E
b 0 TT0 E
b=
b 0E
R0 = E
0 Z0n
0
Zn
= Z0n r Zn r :
Indiquemos Z0n r = [z1 ; : : : ; zn r ] donde z01 ; : : : ; z0n r son las las (independientes) de Zn r : Entonces cada zi es un vector de media cero y matriz
+ zn r z0n r :
y Z0n r Zn r = z1 z01 +
de covarianzas : Luego E(zi z0i ) =
Por lo tanto
E(R0 ) = E(z1 z01 +
+ zn r z0n r ) = (n
r) :
15.3.
y la matriz residual es
R1 = (Y
b H )0 (Y
XB
b H ):
XB
270
Wp ( ; n
r):
R0 siguen la distribucin de
R0
Wp ( ; t);
t:
0
Zn
r0
r0 las de Zn
r0
271
e b )0 (Y X
e b ) = Z0
R1 = (Y X
n
r0 Zn r0
es Wishart Wp ( ; n
r las de Zn r :
R0 = Z0t Zt ;
j(R1
jR0 j
jR0 j
=
R0 ) + R0 j
jR1 j
(p; n
r; t):
As 0
1 sigue la distribucin de Wilks. Aceptaremos H0 si
signicativo y rechazaremos H0 si es pequeo y signicativo.
no es
15.4.
<
r; t) <
)= :
Manova de un factor
+ eih ;
i = 1; : : : ;k; h = 1; : : : ;ni ;
donde es un vector de medias general, i es el efecto del nivel i del factor, yih es la observacin multivariante h en la situacin (o poblacin) i;
correspondiendo a la misma situacin experimental del anlisis cannico de
272
B = R1
R0 ;
T = R1 = B + W;
g. l.
Entre grupos
k 1
Dentro grupos n k
Total
n 1
15.5.
1)
Si las las son nulas, entonces R1 = R0 + A R1 = R0 + B; respectivamente. As pues, indicando q = (a 1)(b 1); para contrastar la hiptesis de
que no inuye el factor la o el factor columna, en ninguna de las variables,
obtenemos la tabla:
273
matriz
lambda
g. l. Wishart
de Wilks
Filas
a 1
A
jR0 j=jR0 + Aj
Columnas b 1
B
jR0 j=jR0 + Bj
q
R0
Residuo
Total
ab 1
T
15.6.
(p; q; a
(p; q; b
1)
1)
ij
+ eijh ;
i = 1; : : : ; a; j = 1; : : : ; b; h = 1; : : : ; c;
donde es la media general, i es el efecto aditivo del nivel i del factor la,
j es el efecto aditivo del nivel j del factor columna,
ij es la interaccin,
parmetro que mide la desviacin de la aditividad del efecto de los factores,
e yijh = (yijh1 ; : : : ; yijhp )0 es la rplica multivariante h de las variables observables. Tambin, como en el caso univariante, intervienen las matrices
A = (auv ); B = (buv ); AB = (cuv ); R0 = (ruv ); T = (tuv ); donde
auv
buv
cuv
ruv
tuv
P
= bc Pi (yi u y u )(yi v y v )
= ac j (y j u y u )(y j v y v )
P
= c i;j (yij u yi u y j v + y u )(yij v yi v y j v + y v )
P
= i;jh (yijhu yi u )(yijhv yi v )
P
u; v = 1; : : : ; p;
= i;j (yiju y u )(yiju y u );
que verican
T = A + B + AB + R0 :
(AB no es un producto matricial). Indicando q = (a 1)(b 1); r = ab(c 1);
para contrastar las hiptesis de que los factores la, columna o las interacciones no inuyen, en ninguna de las variables, obtenemos la tabla:
274
g. l.
Filas
a 1
b 1
Columnas
Interaccin
q
r
Residuo
Total
abc 1
15.7.
matriz
lambda
Wishart
de Wilks
A
jR0 j=jR0 + Aj
B
jR0 j=jR0 + Bj
AB
jR0 j=jR0 + ABj
R0
T
(p; r; a 1)
(p; r; b 1)
(p; r; q)
Ejemplos
Machos
Temp
Y 1 Y 2 Y3
4
18.15 16.51 0.24
18.68 19.50 0.32
19.54 19.84 0.20
20 21.27 23.30 0.33
19.57 22.30 0.45
20.15 18.95 0.35
34 20.74 16.69 0.31
20.02 19.26 0.41
17.20 15.90 0.28
Los resultados MANOVA son:
Hembras
Y 1 Y 2 Y3
19.15 19.49 0.16
18.35 19.81 0.17
20.58 19.44 0.22
18.87 22.00 0.25
20.66 21.08 0.20
21.56 20.34 0.20
20.22 19.00 0.18
18.38 17.92 0.30
20.85 19.90 0.17
15.7. EJEMPLOS
275
g. l.
T
T S
Residuo
12
Total
17
matriz dispersin 1
4:932 9:705 0:2888
@
32:58 0:3769 A
0:0196
0
1
0:6050 1:233
0:1906
@
2:516
0:3888 A
0:0600
0
1
0:2540 0:8052 0:0359
@
3:205 0:0881 A
0:0060 1
0
19:07 7:023
0:1943
@
26:69
0:2084 A
0:0392
0
1
24:86 18:76
0:0620
@
65:00
0:2847 A
0:1250
0
lambda
g. l.
0:2588
3:219 6 y 20
0:3360
6:586 3 y 10
0:7731
0:458 6 y 20
276
15.8.
Otros criterios
Sean 1
p los valores propios de R0 respecto de R1 ; es decir,
las races de la ecuacin det(R0
R1 ) = 0: Podemos expresar el criterio de
Wilks como
jR0 j
= 1
=
p:
jR1 j
Este criterio es especialmente interesante, teniendo en cuenta que si es la
razn de verosimilitud en el test de hiptesis, entonces = n=2 :
277
tr[R0 (R1 R0 )] =
p
X
1
i
i
i=1
2. Traza de Pillai:
p
X
1
tr[R1 (R1 R0 )] =
(1
i=1
=1
p
X
i=1
i)
ri2
1
p
X
ri2
ri2 :
i=1
= r12 :
2
=1
p = r1 :
1 + 01
En el ejemplo 15.7.2, para contrastar las diferencias entre las 6 especies
(encontradas en 8 localidades), obtenemos los siguientes valores de los estadsticos de Wilks, Hotelling, Pillai y Roy, y sus transformaciones a una
F:
F
g. l.
Wilks
0.0068 152.8 35 y 2354
Hotelling 28.02 446.2 35 y 2787
Pillai
2.090 57.78 35 y 2815
Roy
24.90 2002 7 y 563
278
15.9.
Complementos
Captulo 16
FUNCIONES ESTIMABLES
MULTIVARIANTES
16.1.
Funciones estimables
+ pm
es estimable si existe
+ an yn = a0 y;
E( b ) = :
es estimable se da
280
16.2.
Teorema de Gauss-Markov
= p0
1. Si b es estimador LS de
, entonces b = p0 b es nico.
+ a2n ;
tenemos que
var(a0 y) = kak2
= (ke
ak2 + kbk2 )
ke
ak2
= var(e
a0 y);
16.3.
281
En el modelo lineal multivariante (15.1), tambin tiene inters la estimacin de ciertas combinaciones lineales de los parmetros B: Indiquemos
por y1 ; : : : ; yn los vectores la de Y; y 1 ; : : : ; m los vectores la de B; es
decir:
2
3
2
3
y1
1
6
7
6
7
Y = 4 ... 5 ; B = 4 ... 5 :
yn
= p1
+ pm
es una combi-
= p0 B;
es es-
+ an yn = a0 Y;
E( b ) =
es estimables es la
b
Slo hay que sustituir B por sus estimaciones LS B:
Teorema 16.3.2 Sea
estimable. Se verica:
= (
1; : : : ;
p)
282
b es estimador LS de B, entonces b 0 = ( b 1 ; : : : ; b p ) = p0 B
b es nico.
1. Si B
y de varianza mnima
j:
Observemos que este teorema vale sin necesidad de una hiptesis de normalidad. El estimador LS de es
b 0 = p0 B
b = p0 (X0 X) X0 Y =g1 y1 +
+ gn yn
2. La distribucin de R0 es Wp ( ; n
r):
16.4.
16.4.1.
Distancia de Mahalanobis
b j )0 b
(bi
b ):
j
283
0
0
Sea ij = kgi gj k : Si b i = gi0 Y es independiente de b j = gj0 Y y se verica
la hiptesis H0 : i = j ; entonces ij1 ( b i b j ) es Np (0; ) y (n r) b es
Wp ( ; n r); por lo tanto ij1 M (i; j) es Hotelling T 2 (p; n r) y
r
(n
p+1
r)p
1
ij
Fnp
M (i; j)2
r p+1 :
16.4.2.
r
(n
r p+1 ;
p+1 1 b
2 ( i
r)p
2
donde
0b
i)
(bi
i)
Coordenadas cannicas
y la matriz
B
U =@
b 11
b
s1
..
.
j = 1; : : : ; s;
..
1p
..
.
sp
C
A:
V0 b V = I;
wj )0 (wi
wj ) = ( b i
b )0 b
j
(bi
b ):
j
284
De manera anloga podemos denir la variabilidad geomtrica de las funciones estimables, probando que es
p
s
1 X
1X
2
V = 2
M (i; j) =
2s i;j=1
s i=1
i;
16.4.3.
V (Y)m
= 100
V
+
1+
+
+
Regiones condenciales
0
Sean wi0 = b i V; i = 1; : : : ; s; las proyecciones cannicas de las estimaciones de las fpem. Podemos entender wi0 como una estimacin de i 0 = 0i V;
la proyeccin cannica de i : Podemos tambin encontrar regiones condenciales para las i ; i = 1; : : : ; g:
Sea 1
el coeciente de conanza, F tal que P (F > F ) = ; donde
F sigue la distribucin F con p y (n g p + 1) g.l., y consideremos:
R2 = F
(n
(n r
r)p
:
p + 1)
Luego las proyecciones cannicas i de las fpem pertenecen a regiones condenciales que son hiperesferas (esferas en dimensin 3, crculos en dimensin
2) de centros y radios
(wi ; i R )
donde
16.5.
i:
Ejemplos
16.5. EJEMPLOS
285
Placebo
Y1
Y2
.548 177.8
.619 184.4
.641 247.2
.628 163.4
.846 173.6
.517 167.2
.876 174.0
.602 158.6
Individuo
1
2
3
4
5
6
7
8
Clobazan
Y1
Y2
.519 203.0
.776 164.8
.678 215.8
.595 153.6
.858 171.6
.493 166.0
.741 170.2
.719 157.2
Diazepan
Y1
Y2
.637 194.8
.818 175.2
.701 205.8
.687 152.2
.855 189.2
.618 181.0
.849 189.0
.731 184.6
i+
j +eij :
1;
2;
3:
Individuos
Residuo
14
286
Y1
Y2
W1
W2
.869 -.494
.296 .955
W1
:539
1:29
:753
W2
radio
:871 1:29
:091 1:29
:779 1:29
Y1
Y2
Y3
W1
:395
:961
:405
W2
:278
:276
:653
16.5. EJEMPLOS
287
W1
4:567
3:760
1:944
2:613
2:299
1:705
6:828
10:06
W2
radio
1:164 :342
:5129 :342
1:031 :418
1:536 :342
1:731 :342
:6381 :342
3:671 :503
2:475 :342
Y1
Y2
Y3
Y4
Y5
W1
:600
:661
:453
:804
:748
W2
:115
:450
:698
:522
:522
288
Esta representacin permite visualizar las diferencias entre las especies, sin la
inuencia del dimorsmo sexual y de la interaccin especie sexo (Fig. 16.3).
16.6.
Complementos
Bibliografa
[1] Albert, A., Anderson, J. A. (1984) On the existence of maximum likelihood estimates in logistic regression models. Biometrika, 71, 1-19.
[2] Aluja, T., Morineau, A. (1999) Aprender de los datos: el anlisis de
componentes principales, una aproximacin desde el data mining. EUB,
Barcelona.
[3] Anderson, M. J., Willis, T. J. (2003) Canonical analysis of principal coordinates: a useful method of constrained ordination for ecology. Ecology, 84, 511-525.
[4] Anderson, T. W. (1958) An Introduction to Multivariate Analysis. Wiley, N. York.
[5] Anderson, T. W., Rubin, H. (1956) Statistical inference in factor analysis. Proc. of the Third Berkeley Symposium on Math. Stat. and Prob.,
5, 111-150.
[6] Arenas, C., Cuadras. C. M. (2004) Comparing two methods for joint
representation of multivariate data. Comm. Stat. Comp. Simul., 33,
415-430.
[7] Baillo, A., Gran, A. (2008) 100 Problemas Resueltos de Estadstica
Multivariante. Delta, Madrid.
[8] Bar-Hen, A., Daudin, J.-J. (1997) A test of a special case of typicality
in linear discriminant analysis. Biometrics, 53, 39-48.
[9] Bar-Hen, A. (2001) Preliminary tests in linear discriminant analysis.
Statistica, 4, 585593.
289
290
BIBLIOGRAFA
[10] Batista, J. M., Coenders, G. (2000) Modelos de Ecuaciones Estructurales. La Muralla, Madrid.
[11] Benzecri, J. P. (1976) LAnalyse des Donnes. I. La Taxinomie. II.
LAnalyse des Correspondances. Dunod, Paris.
[12] Cailliez, F. (1983) The analytical solution of the additive constant problem. Psychometrika, 48, 305-308.
[13] Crdenas C., Galindo Villardn, M. P. (2001) Biplot con informacin
externa basado en modelos bilineales generalizados. Universidad Central
de Venezuela, Caracas.
[14] Carmona, F. (2005) Modelos Lineales. Pub. Univ. de Barcelona,
Barcelona.
[15] Cooley, W. W., Lohnes, P. R. (1971) Multivariate Data Analysis. Wiley,
N. York.
[16] Cox, T. F., Cox, M. A. A. (1994) Multidimensional Scaling. Chapman
and Hall, London.
[17] Cramer, E. M., Nicewander, W. A. (1979) Some symmetric, invariant
measures of multivariate association. Psychometrika, 44, 43-54.
[18] Critchley, F., Heiser, W. (1988) Hierarchical trees can be scaled perfectly in one dimension. J. of Classication, 5, 5-20.
[19] Cuadras, C. M. (1974) Anlisis discriminante de funciones paramtricas
estimables. Trab. Esta. Inv. Oper., 25, 3-31.
[20] Cuadras, C. M. (1981) Mtodos de Anlisis Multivariante. Eunibar,
Barcelona. 3a Ed. EUB, Barcelona, 1996.
[21] Cuadras, C. M. (1988) Distancias estadsticas (con discusin) . Estadstica Espaola, 30, 295-378.
[22] Cuadras, C. M. (1989) Distance analysis in discrimination and classication using both continuous and categorical variables. In: Y. Dodge
(Ed.), Statistical Data Analysis and Inference, pp. 459473. Elsevier
Science Publishers B. V. (NorthHolland), Amsterdam.
BIBLIOGRAFA
291
292
BIBLIOGRAFA
BIBLIOGRAFA
293
[45] Cuadras, C. M., Cuadras, D. (2002) Orthogonal expansions and distinction between logistic and normal. In: C. Huber-Carol, N. Balakrishnan,
M. S. Nikulin, M. Mesbah, (Eds.), Goodness-of-t Tests and Validity
Models, pp.325-338, Birkhauser, Boston.
[46] Cuadras. C. M., Cuadras, D. (2006) A parametric approach to correspondence analysis. Linear Algebra and its Applications, 417, 64-74.
[47] Cuadras. C. M., Cuadras, D. (2011) Partitioning the geometric variability in multivariate analysis and contingency tables. In: B. Fichet,
D. Piccolo, R. Verde, M. Vichi, (Eds.), Classication and Multivariate
Analysis for Complex Data Structures, pp. 237-244. Springer, Berlin.
[48] Cuadras, C. M, Cuadras, D., Lahlou, Y. (2006) Principal directions
of the general Pareto distribution with applications. J. of Statistical
Planning and Inference, 136, 2572-2583.
[49] Cuadras, C. M., Fortiana, J. (1993a) Continuous metric scaling and
prediction. In: C.M. Cuadras, C.R. Rao (Eds.), Multivariate Analysis, Future Directions 2, pp. 4766. Elsevier Science Publishers B. V.
(NorthHolland), Amsterdam.
[50] Cuadras, C. M., Fortiana, J. (1993b) Aplicacin de las distancias en
estadstica. Qestii, 17, 39-74.
[51] Cuadras, C. M., Fortiana, J. (1994) Ascertaining the underlying distribution of a data set. In: R. Gutierrez, M. J. Valderrama (Eds.),
Selected Topics on Stochastic Modelling, pp. 223-230. World-Scientic,
Singapore.
[52] Cuadras, C. M., Fortiana, J. (1995) A continuous metric scaling solution for a random variable. J. of Multivariate Analysis, 52, 114.
[53] Cuadras, C. M., Fortiana, J. (1996) Weighted continuous metric scaling. In: Gupta, A. K., V. L. Girko (Eds.), Multidimensional Statistical
Analysis and Theory of Random Matrices, pp. 2740. VSP, Zeist, The
Netherlands.
[54] Cuadras, C. M., Fortiana, J. (1998) Visualizing categorical data with
related metric scaling. In: J. Blasius, M. Greenacre, (Eds.), Visualization of Categorical Data, pp. 365-376. Academic Press, N. York.
294
BIBLIOGRAFA
BIBLIOGRAFA
295
[64] Cuadras, C. M., Valero, S., Cuadras, D., Salembier, P., Chanussot,
J. (2012) Distance-based measures of association with applications in
relating hyperspectral images. Comm. Stat., Theor.- Meth., 41, 2342
2355.
[65] Chatterjee, S., Price, B. (1991) Regression Analysis by Example. Wiley,
N. York.
[66] De Cceres, M., Oliva, F., Font, X. (2006) On relational possibilistic
clustering. Pattern Recognition, 39, 2010-2024.
[67] Eckart, C., Young, G. (1936) The approximation of one matrix for
another of lower rank. Psychometrika, 1, 211-218.
[68] Efron, B. (1975) The e ciency of logistic regression compared to normal discriminant analysis. J. of the American Statistical Association,
70, 892-898.
[69] Escoer, B., Pags, J. (1990) Analyses Factorielles Simples et Multiples.
Dunod, Paris.
[70] Escouer, Y. (1973) Le traitement des variables vectorielles. Biometrics, 29, 751-760.
[71] Everitt, B.S. (1993) Cluster Analysis. Edward Arnold, London.
[72] Flury, B. (1997) A First Course in Multivariate Statistics. Springer, N.
York.
[73] Fortiana, J., Cuadras, C. M. (1997) A family of matrices, the discretized
Brownian bridge and distance-based regression. Linear Algebra and its
Applications, 264, 173-188.
[74] Friendly, M. (1994) Mosaic displays for multi-way contingency tables.
J. of the American Statistical Association, 89, 190200.
[75] Friendly, M. (1999) Extending mosaic displays: Marginal, conditional,
and partial views of categorical data. J. of Computational and Graphical Statistics, 8, 373395.
[76] Friendly, M. (2007) HE plots for multivariate linear models. J. of Computational and Graphical Statistics, 16, 421-444.
296
BIBLIOGRAFA
[77] Gabriel, K. R. (1971) The biplot graphic display of matrices with application to principal component analysis. Biometrika, 58, 453-467.
[78] Galindo Villardn, M. P. (1986) Una alternativa de representacin simultnea: HJ-Biplot. Qestii, 10, 13-23.
[79] Gittings, R. (1985) Canonical Analysis. A Review with Applications in
Ecology. Springer-Verlag, Berlin.
[80] Golub, G. H., Reinsch, C. (1970) Singular value decomposition and
least squares solutions. Numerische Mathematik, 14 (5), 403420.
[81] Gordon, A. D. (1999) Classication. Chapman and Hall, London.
[82] Gower, J. C. (1966) Some distance properties of latent roots and vector
methods in multivariate analysis. Biometrika, 53, 315-328.
[83] Gower, J. C. (1971a) A general coe cient of similarity and some of
its properties. Biometrics, 27, 857-871.
[84] Gower, J. C. (1971b) Statistical methods of comparing dierent multivariate analyses of the same data. In: F.R. Hodson, D.G. Kendall,
P. Tautu (Eds.), Mathematics in the Archaeological and Historical Sciences, pp. 138-149. Edinburgh University Press, Edinburgh.
[85] Gower, J. C., Hand, D. J. (1996) Biplots. Chapman and Hall, London.
[86] Gower, J. C., Lubbe, S., le Roux, N. (2011) Understanding Biplots.
Wiley, N. York.
[87] Graelman, J. (2001) Quality statistics in canonical correspondence
analysis. Environmetrics, 12, 485-97.
[88] Greenacre, M. J. (1984) Theory and Applications of Correspondence
Analysis. Academic Press, London.
[89] Greenacre, M. J. (2008) La Prctica del Anlisis de Correspondencias.
Fundacin BBVA - Rubes Ed., Barcelona.
[90] Greenacre, M. J. (2010) Biplots in Practice. Fundacin BBVA - Rubes
Ed., Barcelona.
BIBLIOGRAFA
297
298
BIBLIOGRAFA
BIBLIOGRAFA
299
300
BIBLIOGRAFA
ndice alfabtico
Anlisis factorial
mltiple, 93
simple, 97
aproximacin
a la distribucin F, 36
de Eckart-Young, 22
biplot, 88, 94
coeciente
de Pearson, 171
procrustes, 24, 75
componentes principales
comunes, 93
denicin, 77
distribucin, 83
comunalidad, 98, 101
coordenadas
cannicas, 127, 283
principales, 140, 165
correccin de Box, 130
correlacin
cannica, 67
cannica generalizada, 277
mltiple, 64
simple, 15
vectorial, 75
correspondencias
mltiples, 173
simples, 166
curva
especicidad, 229
ROC, 229
sensibilidad, 228
dendograma, 191
descomposicin
espectral, 21
singular, 21
desigualdad
de Cramr-Rao, 43
triangular, 137, 191
ultramtrica, 190
discriminador
Bayes, 214
cuadrtico, 215
lineal, 212
distancia, 19
ciudad, 148
de Bhattachariyya, 150
de Mahalanobis, 19, 126, 136, 166,
215, 282
de Pearson, 19, 136
de Prevosti, 155
de Rao, 152
dominante, 148
Eucldea, 19, 80, 148
ji-cuadrado, 165
distribucin
F de Fisher-Snedecor, 34, 35
de Hotelling, 34, 53
301
302
NDICE ALFABTICO
de Wilks, 35, 271
de Wishart, 33
elptica, 41
multinomial, 38
normal bivariante, 32
normal multivariante, 30
ecuaciones
de verosimilitud, 109
normales, 243, 266
ejemplos
adjetivos, 157, 205
rboles, 25, 60
asignaturas, 103, 108, 113, 116
bebs, 229
colepteros, 132, 276, 287
colores cabello y ojos, 169
coppodos, 216
corredores, 91
diagnosis, 238
distancia gentica en Drosophila,
154
elecciones, 72
estudiantes, 89
familias, 27, 71
frmacos, 284
ores, 55, 220
herramientas prehistricas, 153
idiomas, 204
intencin de voto, 175
moscas, 54
partidos, 189
profesores, 202
ratas experimentales, 274, 286
test de capacidad, 117
Titanic, 177, 263
espacio ultramtrico, 190
factor
nico, 98, 100
comn, 98, 100
en diseos factoriales, 253, 255,
257
falacia ecolgica, 136
funcin
de verosimilitud, 43, 44, 51, 109
estimable multivariante, 281
estimable univariante, 279
score, 43
HE plot, 278
Heywood, caso de, 103, 108
hiptesis lineal, 247, 269
interaccin, 257
inversa generalizada, 21, 38, 150, 163
jerarqua indexada, 188
matriz
centrada, 15
de Burt, 173, 175
de correlaciones, 16, 98
de covarianzas, 16
de dispersin dentro grupos, 47,
272
de dispersin entre grupos, 47, 272
de distancias Eucldeas, 138
de informacin de Fisher, 44
medicin de factores
de Anderson-Rubin, 116
de Bartlett, 115
por mnimos cuadrados, 115
medidas de variabilidad
variacin total, 18, 79
varianza generalizada, 18
NDICE ALFABTICO
mtodo
de las medias mviles, 207
del factor principal, 107
del mximo, 199
del mnimo, 197
exible, 209
modelo
de regresin logstica, 224
de regresin mltiple, 245
lineal, 241
log-lineal, 261
logstico, 224
multifactorial, 100
Thurstone, 151
unifactorial, 98
mosaicos, 184
nmero
de clusters (conglomerados), 207
de componentes principales, 86
de correlaciones cannicas, 69
de factores comunes, 110
de variables cannicas, 130
303
basada en distancias, 235
de Bayes, 213, 220
discriminacin logstica, 225
discriminante, 211
mxima verosimilitud, 212, 219
relaciones tetrdicas, 99
rotacin
biquartimin, 112
covarimin, 112
oblicua, 112
ortogonal, 111
promax, 113
quartimax, 111
quartimin, 112
varimax, 111
similaridad, coeciente de
denicin, 143
Dice, 149
Gower, 151, 238
Jaccard, 144
Sokal y Michener, 144
Sokal-Sneath, 149
paradoja
tablas concatenadas, 184
de Rao, 57
teorema
de Stein, 61
de Cochran, 47
preordenacin, 145
de Craig, 49
principio
de Fisher, 49
de equivalencia distribucional, 183
de Gauss-Markov, 280
de parsimonia, 106
de la dimensin, 17
de unin-interseccin, 53, 61, 70,
de Thurstone, 105
278
de Wilks, 51
probabilidad de clasicacin errnea,
test
211, 213, 215
comparacin de dos medias, 46
comparacin de medias, 52
razn de verosimilitud, 51
de Bartlett, 61, 130
realce en regresin mltiple, 94
regla
de Bartlett-Lawley, 69
304
de esfericidad, 87
de razn de verosimilitud, 51
de Wald, 227
independencia, 52, 69, 85
sobre la covarianza, 84
sobre la media, 45
tipicalidad, 239
transformacin
cannica, 126
componentes principales, 78, 81
lineal, 16
procrustes, 24, 117
unicidad, 101
valores singulares, 21, 68, 88, 164
variabilidad geomtrica (inercia), 80,
81, 127, 142, 171
variable
cannica, 67
compuesta, 16, 78
NDICE ALFABTICO