Beruflich Dokumente
Kultur Dokumente
C. M. CUADRAS *
PALABRAS CLAVE: Comparacin de modelos de regresin, Regresin sobre variables cualitativas, Anlisis de coordenadas principales,
Datacin relativa, Estadstica en arqueologa.
RESUMEN
En este trabajo se exponen y discuten algunos problemas relacionados con la prediccin estadstica. Se aborda en especial la com-
paracin de modelos de regresin, la regresin mltiple sobre variables cualitativas y la asignacin de un individuo a un grupo cuando
hay otras causas de variacin. Las tcnicas utilizadas estn relacionadas con el anlisis de proximidades, el anlisis discriminante y
la taxonoma numrica. Se comentan adems algunos ejemplos sobre datos arqueolgicos.
SUMMARY
In this paper some problems related to statistical prediction are exposed and discussed. We especially deal with the comparison
of regression models, multiple qualitative variables regression, cronogical order of the data and the allocation of an individual to one
of different groups when other causes of variation are present. The techniques used are related to multidimensional scaling, discrimi-
nant analysis and numerical taxonomy. In addition, some archeological examples are included.
Desde que a finales del siglo pasado F. GALTON La regresin lineal mltiple de una variable de-
introdujera los conceptos de correlacin y regresin, pendiente y sobre m variable independientes x1, ... ,
para ser aplicados en Antropologa, han aparecido xm es un problema bien conocido en Estadstica.
nuevos mtodos de regresin y anlisis multivarian- Dadas n observaciones independientes de las varia-
tes, que han tenido una enorme influencia en las bles, que indicamos en la forma.
ciencias biolgicas, especialmente Antropologa, Ge-
ntica, Ecologa, etc., y en las ciencias histricas,
como la Arqueologa y la Prehistoria. Tales mtodos Y = (y1 ... yn)'
han permitido resolver problemas de prediccin, cla-
sificacin, ordenacin, datacin y filogenia, propi-
ciando una forma moderna y objetiva de tratar los
datos procedentes de la observacin experimental,
en contraste con los mtodos ms tradicionales.
El presente trabajo es una contribucin al tema
de la prediccin, en el que se abordan los siguien- el modelo bsico es (SEBER, 1977; TROCNIZ, 1987).
tes aspectos: regresin mltiple entre variables
cuantitativas, regresin mltiple cuando las variables yi = + xi1 1 + ... + xim m e i i = 1, ..., n (1)
independientes son cualitativas, comparacin entre
modelos de regresin, datacin relativa de objetos,
identificacin de un individuo cuando hay mas de Introduciendo los vectores
una causa de variabilidad, etc., discutiendo algunas
aplicaciones. Las tcnicas propuestas estn relacio- = (1 ... m)' e = (e1 ... en) 1 = (1 ... 1)'
nadas con el Anlisis de Coordenadas Principales,
el Anlisis Discriminante y la Taxonoma Numrica.
la formulacin matricial del modelo es
* Universidad de Barcelona, Departamento de Estadstica
Diagonal, 645 08028 BARCELONA. SPAIN Y = 1 + X + e (2)
26 C.M. CUADRAS
Como es bien conocido, indicando = (1,X), la Dada una nueva observacin de las variables in-
estimacin por mnimos cuadrados de los parme- dependientes
tros , es solucin de las llamadas ecuaciones
normales. x = (x1, ..., xm)'
(9)
suponiendo rang X = m. Si rang X<m, entonces
utilizaremos una g-inversa en (3).
2. Significacin de los coeficientes de regresin
Sean x1, ..., xm las medias de las variables x. En-
tonces el modelo (1) puede expresarse como Suponiendo que los trminos ei son indepen-
dientes con distribucin normal N la hipte-
sis nula
(4) (10)
Tambin es posible transformar linealmente las cuya distribucin es F de Snedecor con m y n-m-1
variables x. Consideramos la transformacin. grados de libertad. R2 es el coeficiente de determi-
nacin, que puede calcularse utilizando la frmula.
W = XA (5)
(11)
donde A es matriz mxm, ran A = m . El modelo (2)
se convierte en
Obsrvese que, dada la relacin (7), = 0 implica
(6)
siendo
3. Comparacin de dos modelos de regresin
(7)
Supongamos que tenemos otro modelo de regre-
Algunos problemas importantes que interesa resol- sin, correspondiente a las mismas variables, pero
ver en regresin lineal mltiple son los siguientes: con datos sobre otra poblacin:
(12)
1. Prediccin
Son los modelos (1) y (12) el mismo? Es decir, es
la regresin mltiple idntica en ambas poblaciones?
El vector de valores predichos es
En otras palabras, se trata de ver si puede aceptar-
se la hiptesis nula.
(8)
(13)
que no depende del modelo. En efecto, si el modelo
es (6) tendremos
Sea (1) la suma de cuadrados residual para
el modelo (1)
pero como
bre (13) puede tomarse considerando el estadstico Para llegar a este modelo ortogonal, basta reali-
(CUADRAS, 1979). zar una adecuada transformacin lineal sobre X, lo
que no altera el objetivo de predecir y en funcin de
Cuando adems Xi son las componentes princi-
pales sobre la matriz original X, se puede abordar
el problema de la multicolinealidad (JOLLIFE, 1986),
con distribucin F de Snedecor con m + 1 y tomando solamente las primeras componentes.
n + n' - 2 (m + 1) grados de libertad.
(17)
siendo = log Obsrvese que a es un parmetro
relacionado con el tamao del crneo, y que las di-
ferencias entre 1, 2 y 3 influyen en la forma. Par-
tiendodo de una muestra, se puede contrastar la hi-
siendo :
ptesis Ho : 1 = 2 = 3 = 0 utilizando (10).
= 1 si la caracterstica cj se presenta en la ob-
Supongamos ahora que tenemos dos muestras servacin i,
de crneos, una procedente de una primera pobla- = 0 en caso contrario.
cin (ejemplo: Homo sapiens fossilis) y la otra de una
segunda poblacin (ejemplo: Homo sapiens nean- La regresin de una variable cuantitativa y so-
derthalensis). Entonces, utilizando (14), podemos bre variables cualitativas, no puede plantearse (en
contratar la hiptesis de que ambos grupos de cr- general) utilizando directamente el modelo (1) por ra-
neos tienen la misma forma y tamao. zones obvias. En este trabajo se propone un proce-
dimiento basado en el Anlisis de Coordenadas Prin-
3. PREDICCION SOBRE VARIABLES CENTRADAS cipales sobre una matriz de similaridades o de
ORTOGONALES distancias (CUADRAS, 1981a), que puede ser til para
cualquier tipo de variables cualitativas.
Las consideraciones expuestas anteriormente
nos permiten suponer que en el modelo (2) se cum- Indiquemos las observaciones por 1, 2, ..., n, y
plen las condiciones siguientes: supongamos definida una matriz de distancias.
(16)
28 C.M. CUADRAS
o bien el ndice de SOKAL y MICHENER con la propiedad de que las coordenadas eucldeas
obtenidas (llamadas coordenadas principales) son
compatibles con dij en el sentido de que reflejan las
diferencias cualitativas entre i, j, medidas a travs
de dij.
Otro ndice (quizs ms recomendable) es el de
Jaccard Parece entonces razonable admitir el siguiente mo-
a delo de regresin lineal mltiple.
sij =
a + b + c
(21)
donde a es el nmero de dobles presencias, b es el
donde X = (xij) se obtiene de (20). Adems, por las
nmero de presencias/ausencias, d es el nmero de
propiedades que poseen las coordenadas principa-
dobles ausencias, etc.
les, estamos ante un modelo centrado ortogonal, es
decir, un modelo (15) con las restricciones (16).
Vamos a imponer la condicin de que la distan-
cia d, es Eucldea, es decir, que existen n puntos en
RP de coordenadas GOWER y LEGENDRE (1986) realizan un amplio es-
tudio sobre las propiedades mtricas y eucldeas de
Pi = (Xi1 ... Xip) las distancias, basadas en similaridades por aplica-
cin de las frmulas dij2 = 1 sij, dij = 1 sij. El
cuadro 1 nos puede orientar sobre la eleccin del
coeficiente de similaridad.
(19)
Es obvio que la utilizacin de es prefe-
rible sobre 1 sij.
La condicin necesaria y suficiente para que una dis-
tancia sea Eucldea es la siguiente (MARDIA et al., CUADRO 1
1979; SEBER, 1984):
y H la matriz
1
H=In - J
n
donde In es la identidad, J = 1 1' es una matriz con
todos sus elementos iguales a 1. Obsrvese que
HH = H, H1 = 0, H J = 0. Considerando entonces
la matriz B = HAH, la distancia dij es Eucldea si B
es semidefinida positiva. La dimensin eucldea es
p = ran B y las coordenadas eucldeas son las filas
de la matriz X (n x p) tal que
(20)
Indicando resulta
Indiquemos Entonces
siendo
donde bii es elemento diagonal de B. Sustituyendo Multiplicando por H, como HJ, HK y K'H se anulan,
en (26) resulta
30 C.M. CUADRAS
B = HAH = HXX'H / m
(30)
es decir
si se verifica
METODOS ESTADISTICOS APLICABLES A LA RECONSTRUCCION PREHISTORICA 31
donde (i1, i2, ..., in) es una permutacin de (1, 2, ..., En otras palabras, permutando convenientemen-
n). te los objetos, se debe conseguir una matriz de si-
milaridades S tal que las similaridades sean altas
cuando estn prximas a la diagonal de S, y bajas
El problema tiene en s una considerable dificul-
para los elementos alejados de la diagonal.
tad conceptual y matemtica, existiendo diversos
criterios algebraicos, geomtricos y estadsticos,
Un ejemplo debido a SPAULDING (1971) (vase
dando lugar a una abundante literatura al respecto
tambin SEBER, 1984), puede aclararnos esta es-
(HODSON et al., 1971). Una va de solucin es la si-
tructura. Supongamos que 5 herramientas cortan-
guiente. Supongamos que podemos encontrar una
tes A, B, C, D, E han sido hechas utilizando piedra,
matriz de similaridades entre los objetos S = (sij).
bronce o hierro, de acuerdo con la siguiente matriz
Apliquemos entonces un Anlisis de Coordenadas
de incidencia:
Principales a la matriz de distancias D = (dij), don-
de d, es una distancia Eucldea obtenida por una
Piedra Bronce Hierro
transformacin de sij. Si la distancia no es eucldea,
entonces aplicaremos una transformacin monto- A 0 1 0
na a dij, sea a, = f (dij), y a continuacin ajustare- B 1 1 0
mos una distancia Eucldea a utilizando la tc- C 0 1 1
nica del Anlisis de Proximidades (Multidimensional D 0 0 1
Scaling), vase CUADRAS, 1981a). En ambos casos, E 1 0 0
el resultado ser una configuracin formada por n
puntos P1, P2, ..., P, en un espacio Eucldeo RP. Utilizando el coeficiente de Jaccard, la matriz de si-
milaridades es
Si tomamos los dos primeros ejes principales, o
A B C D E
las dos primeras dimensiones relevantes, obtendre-
mos una disposicin de los objetos que quedarn si- A 1/2 1/2 0 0 1
tuados aproximadamente a lo largo de una curva (Fi- B 1/2 1/3 0 1/2 1
gura 1). C 1/2 1/3 1/2 0 1
D 0 0 1/2 1 0
Para conseguir una representacin de este tipo E 0 1/2 0 0 1
es necesario que se verifique el llamado efecto ahor-
seshoe (KENDALL, 1971), es decir, que la similaridad
A continuacin, reordenando la matriz, obtenemos
entre los objetos ai, aj sea alta si estn cronolgi-
camente prximos, y sea baja en caso contrario.
D C A B E
D 1 1/2 0 0 0
C 1/2 1 1/2 1/3 0
A 0 1/2 1 1/2 0
B 0 1/3 1/2 1 1/2
E 0 0 0 1/2 1
E<B<A<C<D
JOLLIFE, I.T.
KENDALL, D.G.
GOWER, J.C.