Sie sind auf Seite 1von 10

Anlisis de Conglomerados

Indice

1.
2.
3.
4.
5.
6.
7.
8.

Objetivos
Panorama General
Conceptos Bsicos
Datos Estadsticos Relacionados con el Anlisis de Conglomerados
Cmo realizar el Anlisis de Conglomerados
Determinacin de la Confianza y Validez
Variables Conglomeradas
Ejercicio de la tabla de datos

Clasificacin de Tcnicas Multivariantes


El Anlisis Multivariante (al contrario que el Uni y Bivariante) es un mundo lleno de complejidades. Para
entender esta autntica caja de Pandora, llena de entresijos y de particularidades, merece la pena
intentar una clasificacin de tcnicas estadsticas multivariantes.
Como una primera visin clasificatoria de las tcnicas multivariantes, se propone la siguiente, que divide
dichas tcnicas en dos grandes grupos:
Figura 1 - Tcnicas Multivariantes Descriptivas

Figura 2 - Tcnicas Multivariantes Explicativas

Por otro lado, el paquete estadstico SPSS presenta las tcnicas de clasificacin de grupos (Classify) en
tres procedimientos:
Figura 3 - Procedimientos de Clasificacin de Grupos en SPSS

Para ms informacin sobre las aplicaciones de Anlisis de Conglomerados ver el artculo Segmentacin
de Mercados.

1. Objetivos
Al finalizar la lectura de este captulo, el estudiante podr:

Describir el concepto bsico y el panorama del anlisis de conglomerados, as como su


importancia en la investigacin de mercados.
Describir los estadsticos relacionados con el anlisis de conglomerados.
Explicar el procedimiento para realizar el anlisis de conglomerados, que incluye: formulacin
del problema, seleccin de una medida de distancia, seleccin de un procedimiento de
agrupacin, as como decisin del nmero, interpretacin y perfil de los grupos.
Describir el propsito y los mtodos para evaluar la calidad, confianza y validez de los
resultados de los conglomerados.
Describir las aplicaciones del agrupamiento no jerrquico y el agrupamiento de las variables.

2. Panorama General
Al igual que el anlisis factorial, el anlisis de conglomerados estudia todo un conjunto de relaciones
interdependientes. Este anlisis no hace ninguna distincin entre VD y VI. En vez de ello, se calculan las
relaciones interdependientes de todo el conjunto de variables. El objetivo principal del anlisis de
conglomerados es clasificar los objetos en partes relativamente homogneas con base en el conjunto de
variables especficas. Los objetos en un grupo son relativamente similares en trminos de estas variables
y difieren de los objetos en otros. Cuando se utiliza de esta manera, el anlisis de conglomerados es
diferente al anlisis factorial ya que reduce el nmero de objetos, no el nmero de variables, al reunirlos
en un nmero de grupos mucho menor.
Este captulo describe el concepto bsico del anlisis de conglomerados. Los pasos que comprende la
realizacin de este anlisis se estudiarn e ilustrarn en el contexto del conglomerado jerrquico.
Despus, se presentar una aplicacin del conglomerado no jerrquico, seguida de un estudio del
conglomerado de las variables.

3. Conceptos Bsicos
El anlisis de conglomerados consiste en un tipo de tcnicas que se utilizan para clasificar los objetos o
casos en grupos relativamente homogneos llamados conglomerados. Los objetos en cada grupo tienden
a ser similares entre s y diferentes a los objetos en otros grupos. Este anlisis se conoce tambin como
anlisis de clasificacin o taxonoma numrica. Nos ocupamos de los procedimientos de conglomerados
que asignan cada objeto a un solo grupo. La Figura 4 muestra un caso de conglomerado ideal en el que
los grupos se separan en dos variables: conciencia de calidad (variable 1) y susceptibilidad al precio
(variable 2). Ntese que cada consumidor pertenece a un grupo y no existen reas que se superpongan.
Por otra parte, la Figura 4 presenta el caso de una agrupacin que puede encontrarse en la realidad.
Las fronteras de algunos de los grupos no estn definidas con claridad y la clasificacin de algunos
consumidores no es obvia porque muchos de ellos podran agruparse en un grupo u otro.
Figura 4 - Conglomerado Ideal / Conglomerado Real

Tanto el anlisis de conglomerados como el discriminante se ocupan de la clasificacin. Sin embargo, el


anlisis discriminante requiere del conocimiento previo de participacin en el grupo de cada objeto o
caso que se incluye, a fin de desarrollar la regla de clasificacin. Por el contrario, en el anlisis de
conglomerados no hay informacin a priori acerca de la participacin en el grupo de ninguno de los
objetos. Los datos sugieren los grupos y no se definen previamente.
El anlisis de conglomerados se utiliza en mercadotecnia para diversos propsitos, entre los que se
encuentran los siguientes:

Segmentacin
del
mercado
Por ejemplo, los consumidores pueden agruparse con base en los beneficios que buscan de la
compra de un producto. Cada grupo consistir en consumidores relativamente homogneos en
trminos de los beneficios que buscan. Este planteamiento se conoce como segmentacin de los
beneficios.
Comprensin
del
comportamiento
del
comprador
El anlisis de conglomerados puede utilizarse para identificar grupos de compradores
homogneos. As, el comportamiento de cada grupo puede estudiarse por separado. Este
anlisis tambin se utiliza para identificar la clase de estrategias que los compradores de
automviles emplean para obtener informacin externa.
Identificacin
de
oportunidades
para
productos
nuevos
Al agrupar marcas y productos, pueden determinarse los conjuntos competitivos dentro del
mercado. Las marcas en el mismo grupo compiten ms entre s que con las de otros grupos.
Una empresa puede analizar sus ofertas actuales en comparacin con aquellas de sus
competidores a fin de identificar las oportunidades potenciales de los nuevos productos.
Seleccin
de
mercados
de
prueba
Al dividir las ciudades en grupos homogneos, es posible seleccionar ciudades comparables a fin
de probar diversas estrategias de mercadotecnia.
Reduccin
de
datos
El anlisis de conglomerados puede utilizarse como instrumento de reduccin general de datos
a fin de desarrollar subgrupos de datos que sean ms fciles de manejar que las observaciones
individuales. El anlisis multivariante subsecuente se realiza con base en los subgrupos, en
lugar de las observaciones individuales. Por ejemplo, para describir las diferencias en el
comportamiento de uso del producto, primero pueden agruparse los consumidores. Las
diferencias entre los conglomerados pueden estudiarse con el uso del anlisis discriminante
mltiple.

4.
Datos
Estadsticos
Conglomerados

Relacionados

con

el

Anlisis

de

Antes de estudiar los estadsticos relacionados con el anlisis de conglomerados, debemos mencionar
que la mayor parte de estos mtodos son procedimientos relativamente sencillos que no estn
respaldados por el razonamiento estadstico. La mayor parte de los mtodos de agrupacin son
heursticos, basados en algoritmos. De manera que, el anlisis de conglomerados presenta un fuerte
contraste con el anlisis de la varianza, la regresin, el anlisis discriminante y el anlisis factorial, que
se basan en un razonamiento estadstico. A pesar de que muchos mtodos de agrupacin tienen
propiedades estadsticas importantes, es necesario reconocer la sencillez fundamental de estos mtodos.
Los estadsticos y conceptos siguientes estn relacionados con el anlisis de conglomerados.

Programa
de
aglomeracin
Ofrece informacin sobre los objetos o casos que se combinan en cada etapa de un proceso de
agrupacin jerrquica.
Centroide
de
agrupamiento
El centroide de agrupamiento son los valores medios de las variables para todos los casos u
objetos de un grupo particular.
Centros
de
agrupamiento
Son los puntos de partida iniciales en la agrupacin no jerrquica. Los grupos se construyen
alrededor de estos centros o semillas.
Participacin
en
el
grupo
Indica el grupo al que pertenece cada objeto o caso.
Dendrograma
Un dendrograma, o grfica de rbol, es un dispositivo grfico para presentar los resultados del
conglomerado. Las lneas verticales representan los grupos que estn unidos. La posicin de la
lnea en la escala indica las distancias en las que se unieron los grupos. El dendrograma se lee
de izquierda a derecha.
Distancias
entre
los
centros
de
los
grupos
Indican cun separados estn los pares individuales de grupos. Los grupos muy separados son
distintos y, por tanto, deseables.

Diagrama
de
carmbano
Es una representacin grfica de los resultados del conglomerado, se llama as porque se
asemeja a una hilera de carmbanos que pende del alero de una casa. Las columnas
corresponden a los objetos que se agrupan y los renglones corresponden al nmero de
conglomerados. Un diagrama de carmbano se lee de abajo hacia arriba. La Figura 10 es un
diagrama de carmbano.
Matriz
de
coeficientes
de
distancia/similitud
sta es una matriz de tringulo inferior que contiene las distancias en direccin pareada entre
los objetos o casos.

5. Cmo realizar el Anlisis de Conglomerados


Los pasos que comprende la realizacin del anlisis de conglomerados se mencionan en la Figura 5. El
primer paso consiste en formular el problema de agrupacin al definir las variables en las que se basa
sta. Despus, debe seleccionarse una medida de distancia apropiada. La medida de distancia determina
qu tan similares o diferentes son los objetos que se agrupan. Se han desarrollado varios
procedimientos de agrupacin y el investigador debe seleccionar uno apropiado para el problema que se
maneja. La decisin del nmero de conglomerados requiere del criterio del investigador. Los
conglomerados derivados deben interpretarse en trminos de las variables utilizadas para formarlos, y
deben perfilarse en trminos de las variables sobresalientes adicionales. Por ltimo, es preciso que el
investigador evale la validez del proceso de conglomerados.
Figura 5 - Cmo realizar el anlisis de conglomerados

5.1. Formulacin del Problema


Quiz la parte ms importante de la formulacin del problema de conglomerados es la seleccin de las
variables en las que se basa la agrupacin. La inclusin de una o ms variables irrelevantes puede
distorsionar una solucin de agrupacin que de otra forma podra ser til. Bsicamente, el conjunto de
variables seleccionado debe describir la similitud entre los objetos en trminos relevantes para el
problema de investigacin de mercados. Las variables deben seleccionarse con base en la investigacin
previa, la teora o una consideracin de las hiptesis que se prueban. En la investigacin exploratoria, el
investigador debe poner en prctica el criterio y la intuicin.
Para ilustrar lo anterior, consideramos un conglomerado de consumidores con base en la actitud que
tienen cuando salen de compras. De acuerdo con la investigacin previa, se identificaron seis variables
de actitud. Se pidi a los entrevistados que expresaran su grado de acuerdo con las afirmaciones
siguientes, con base en una escala de siete puntos (1= en desacuerdo, 7= de acuerdo):

V1 = "Salir de compras es divertido".


V2 = "Salir de compras afecta el presupuesto".
V3 = "Combino la salida de compras con la comida fuera de casa".
V4 = "Cuando salgo de compras, trato de hacer las mejores".
V5 = "No me importa salir de compras".
V6 = "Puede ahora ahorrar mucho dinero si compara los precios".

Los datos obtenidos de una muestra de prueba a 20 entrevistados se presentan en la Figura 6. Ntese
que en la prctica el conglomerado se realiza en muestras mucho mayores de 100 o ms. Se utiliz una
muestra pequea para ilustrar el proceso.
Figura 6 - Tabla de Datos del Ejemplo
Caso
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

V1
6
2
7
4
1
6
5
7
2
3
1
5
2
4
6
3
4
3
4
2

V2
4
3
2
6
3
4
3
3
4
5
3
4
2
6
5
5
4
7
6
3

V3
7
1
6
4
2
6
6
7
3
3
2
5
1
4
4
4
7
2
3
2

V4
3
4
4
5
2
3
3
4
3
6
3
4
5
6
2
6
2
6
7
4

V5
2
5
1
3
6
3
3
1
6
4
5
2
4
4
1
4
2
4
2
7

V6
3
4
3
6
4
4
4
4
3
6
3
4
4
7
4
7
5
3
7
2

5.2. Seleccin de la Medida de Distancia o Similitud


Ya que el objeto del conglomerado es agrupar objetos similares, se necesita alguna medida para evaluar
las diferencias y similitudes entre objetos. La estrategia ms comn consiste en medir la equivalencia en
trminos de la distancia entre los pares de objetos. Los objetos con distancias reducidas entre ellos son
ms parecidos entre s que aquellos que tienen distancias mayores. Existen varias formas de calcular las
distancias entre dos objetos.
La medida de similitud que se utiliza con mayor frecuencia es la distancia euclidiana o su cuadrado. La
distancia euclidiana es la raz cuadrada de la suma de las diferencias cuadradas en los valores para cada
variable. Tambin estn disponibles otras medidas de distancia. La distancia Manhattan o de Calles
Urbanas entre dos objetos es la suma de las diferencias absolutas en los valores para cada variable. La
distancia de Chebychev entre dos objetos es la diferencia absoluta mxima en los valores para cualquier
variable. En nuestro ejemplo, utilizamos la distancia euclidiana cuadrada.
Si las variables se miden en unidades muy diferentes, la solucin de la agrupacin tendr la influencia de
las unidades de la medicin. En un estudio de compras en supermercados, las variables de actitud
pueden medirse con base en una escala tipo Likert de nueve puntos; el patrocinio, en relacin con la
frecuencia de visitas por mes y la cantidad de dlares gastados; y la lealtad de la marca, en trminos del
porcentaje del gasto en compras de abarrotes destinado al supermercado favorito. En estos casos, antes
de agrupar a los entrevistados, debemos estandarizar los datos al volver a colocar cada variable en una
escala a fin de obtener una media de cero y una desviacin estndar de uno. Aun cuando la
estandarizacin puede eliminar la influencia de la unidad de medicin, tambin es probable que reduzca
las diferencias entre los grupos en las variables que pueden discriminar mejor los grupos o
conglomerados. Es recomendable eliminar a las personas que mienten al responder (casos con valores
atpicos).
El uso de distintas medidas de distancia puede llevar a diversos resultados de conglomerado. Por
consiguiente, se recomienda utilizar medidas diferentes y comparar los resultados. Despus de
seleccionar una medida de distancia o similitud, podemos elegir un procedimiento de agrupacin.

5.3. Seleccin del Procedimiento de Aglomeracin


La Figura 7 es una clasificacin de los procedimientos de conglomerados. Estos pueden ser jerrquicos
o no. El conglomerado jerrquico se caracteriza por el desarrollo de una jerarqua o estructura en forma
de rbol. A su vez, los mtodos jerrquicos pueden ser:

Anlisis
de
Conglomerados
por
Aglomeracin
El conglomerado por aglomeracin empieza con cada objeto en un grupo separado. Los

conglomerados se forman al agrupar los objetos en conjuntos cada vez ms grandes. Este
proceso contina hasta que todos los objetos forman parte de un solo grupo.
Anlisis
de
Conglomerados
por
Divisin
El conglomerado por divisin comienza con todos los objetos agrupados en un solo conjunto.
Los conglomerados se dividen hasta que cada objeto sea un grupo independiente.

Figura 7 - Clasificacin de los procedimientos de conglomerados

Los mtodos de conglomerados se utilizan con frecuencia en la investigacin de mercados. Consisten en


mtodos de enlace, mtodos de varianza o de sumas de los cuadrados de error y mtodos centroides.
Los mtodos de enlace incluyen el enlace sencillo, el completo y el promedio.

El mtodo de enlace sencillo se basa en la distancia mnima o la regla del vecino ms prximo.
Los primeros dos objetos conglomerados son aquellos que tienen la menor distancia entre s. La
siguiente distancia ms corta se identifica, ya sea que el tercer objeto se agrupe con los dos
primeros o que se forme un nuevo conglomerado de dos objetos. En cada etapa, la distancia
entre dos conglomerados es la distancia entre sus dos puntos ms prximos (vase Figura 8).
En cualquier etapa, dos conglomerados surgen por el enlace sencillo ms corto entre stos. Este
proceso contina hasta que todos los objetos se encuentren en un conglomerado. El mtodo del
enlace sencillo no funciona adecuadamente cuando los conglomerados no estn bien definidos.
El mtodo del enlace completo es similar al enlace sencillo, excepto que se basa en la distancia
mxima o la estrategia del vecino ms lejano. En el enlace completo, la distancia entre dos
conglomerados se calcula como la distancia entre sus puntos ms lejanos.
El mtodo del enlace promedio funciona de manera similar, pero en este mtodo, la distancia
entre dos conglomerados se define como el promedio de las distancias entre todos los pares de
objetos, donde se encuentra un miembro del par de cada uno de los conglomerados (Figura 8).
Como puede observarse, el mtodo del enlace promedio emplea la informacin sobre todos los
pares de distancias, no slo las mnimas o mximas. Por esta razn, generalmente se prefiere a
los mtodos de enlace sencillo y completo.

Figura 8 - Mtodos de Enlace para el Conglomerado

Los mtodos de varianza tratan de generar conglomerados a fin de reducir la varianza dentro de los
grupos.

Un mtodo de la varianza que se utiliza con frecuencia es el procedimiento de Ward. Para cada
conglomerado, se calculan las medias para todas las variables. Despus, para cada objeto, se
calcula la distancia euclidiana cuadrada para las medias de los grupos (Figura 9); estas
distancias se suman a todos los objetos. En cada etapa, se combinan los dos conglomerados
con el menor incremento en la suma total de los cuadrados de las distancias dentro de los
conglomerados.
En el mtodo centroide, la distancia entre dos grupos es la distancia entre sus centroides
(medias para todas las variables), como se muestra en la Figura 9. Cada vez que se agrupan
los objetos, se calcula un centroide nuevo.

Figura 9 - Otros Mtodos de Agrupacin por Aglomeracin

De los mtodos jerrquicos, el mtodo de enlace promedio y el procedimiento de Ward han demostrado
un mejor desempeo que los otros procedimientos.
El segundo tipo de procedimientos de conglomerados, los mtodos de conglomerados no jerrquicos, con
frecuencia se conocen como agrupacin de k medias. Estos mtodos incluyen el umbral secuencial,
umbral paralelo y la divisin para la optimizacin.

En el mtodo del umbral secuencial, se selecciona un centro de grupo y se agrupan todos los
objetos dentro de un valor de umbral que se especifica previamente a partir del centro.
Despus, se selecciona un nuevo centro o semilla de grupo y el proceso se repite para los
puntos sin agrupar. Una vez que un objeto se agrupa con una semilla, ya no se considera para
su conglomerado con semillas subsecuentes.
El mtodo del umbral paralelo funciona de manera similar, excepto que varios centros de grupo
se seleccionan simultneamente y los objetos dentro del nivel del umbral se agrupan dentro del
centro ms prximo.

El mtodo de divisin para la optimizacin difiere de los otros dos procedimientos de umbral en
que los objetos pueden reasignarse posteriormente a otros grupos, a fin de optimizar un criterio
general, como la distancia promedio dentro de los grupos para un nmero determinado de
conglomerados.

Dos desventajas importantes de los procedimientos no jerrquicos son que el nmero de grupos debe
especificarse previamente y que la seleccin de los centros de grupo es arbitraria. Adems, los
resultados del conglomerado pueden depender de la forma en que se seleccionan los centros. Muchos
programas no jerrquicos eligen los primeros k (k= nmero de grupos) casos sin valores faltantes como
los centros de grupo iniciales. De manera que, los resultados del conglomerado pueden depender del
orden de las observaciones en los datos. No obstante, el conglomerado no jerrquico es ms rpido que
los mtodos jerrquicos y es apropiado cuando el nmero de objetos u observaciones es alto. Se ha
sugerido que los mtodos jerrquicos y no jerrquicos se utilicen uno despus del otro. Primero, una
solucin de conglomerado inicial se obtiene con el uso de un procedimiento jerrquico, como el enlace
promedio o el de Ward. Las cantidades de grupos y centroides de grupo que se obtienen de esta forma
se utilizan como entradas para el mtodo de divisin para la optimizacin.
La eleccin de un mtodo de conglomerado y la eleccin de una medida de distancia estn
interrelacionadas. Por ejemplo, las distancias euclidianas cuadradas deben utilizarse con los mtodos de
Ward y centroide. Varios procedimientos no jerrquicos emplean tambin las distancias euclidianas
cuadradas.
Otra parte importante de los resultados se encuentra en el grfico de carmbano de la Figura 10. Las
columnas corresponden a los objetos que se agrupan; en este caso, son los entrevistados asignados del
1 al 20. Los renglones corresponden al nmero de grupos. Esta figura se lee de abajo hacia arriba.
Primero, todos los casos se consideran como grupos individuales. Ya que hay 20 entrevistados, existen
20 grupos iniciales. En el primer caso, se combinan los dos objetos ms cercanos, y como resultado se
obtienen 19 grupos. La ltima lnea de la Figura 10 muestra estos 19 grupos. Los dos casos,
entrevistados 14 y 16, que se combinan en esta etapa no tienen ningn espacio en blanco que los
separe. El rengln nmero 18 corresponde a la etapa siguiente, con 18 grupos. En esta etapa, los
entrevistados 2 y 13 se agrupan. De esta manera, en esta etapa hay 18 grupos; 16 consisten en
entrevistados individuales y dos contienen dos entrevistados cada uno. Cada paso subsecuente lleva a la
formacin de un nuevo grupo en una de estas tres formas:

Se agrupan dos casos individuales.


Un caso se une a un grupo ya existente.
Se unen dos grupos.

Figura 10 - Grfico de Carmbano Vertical por el Procedimiento de Ward

5.4. Eleccin del Nmero de Grupos


Un aspecto importante en el anlisis de conglomerados es decidir el nmero de stos. A pesar de que no
existe ninguna regla general y rpida, estn disponibles algunos lineamientos.

Las consideraciones tericas, conceptuales o prcticas pueden sugerir un nmero determinado


de grupos. Por ejemplo, si el propsito de la agrupacin es identificar los segmentos del
mercado, es probable que la gerencia quiera un nmero de grupos en particular.

En el conglomerado jerrquico, las distancias en las que los grupos se combinan pueden
utilizarse como criterios. Esta informacin puede obtenerse del programa de aglomeracin o del
dendrograma.
En la agrupacin no jerrquica, la relacin de la varianza total dentro de los grupos con
varianza entre los grupos puede trazarse en comparacin con el nmero de stos. El punto
donde ocurre un recodo o un doblez marcado indica un nmero apropiado de grupos.
Generalmente, no vale la pena aumentar el nmero de grupos ms all de este punto.

5.5. Interpretacin y Perfil de los Grupos


La interpretacin y el perfil de los grupos comprende el anlisis de los centroides de grupo. Los
centroides representan los valores medios de los objetos que contiene el grupo en cada una de las
variables. Los centroides nos permiten describir cada grupo al asignarle un nombre o etiqueta. Si el
programa de conglomerado no ofrece esta informacin, puede obtenerse por medio del anlisis
discriminante.
Resulta til elaborar el perfil de los grupos en trminos de las variables utilizadas para el conglomerado,
como los datos demogrficos, los psicogrficos, uso del producto, uso de los medios u otras variables.
Por ejemplo, los grupos pueden haberse derivado con base en los beneficios que se buscan. Puede
realizarse un perfil ms detallado, en trminos de las variables demogrficas y psicogrficas para dirigir
los esfuerzos de mercadotecnia hacia cada grupo. Las variables que marcan una diferencia significativa
entre los conglomerados pueden identificarse mediante el anlisis discriminante y el anlisis de varianza
unidireccional.

6. Determinacin de la Confianza y Validez


Dados los criterios generales que comprende el anlisis de conglomerados, no debe aceptarse ninguna
solucin de agrupacin sin una evaluacin de su confianza y validez. Los procedimientos formales para
evaluar la confianza y validez de las soluciones de agrupacin son complejos y no por completo
defendibles. Por consiguiente, los omitimos. No obstante, los siguientes procedimientos ofrecen
revisiones adecuadas de la calidad de los resultados de la agrupacin.

Realice el anlisis de conglomerados con los mismos datos y utilice distintas medidas de
distancia. Compare los resultados con todas las medidas a fin de determinar la estabilidad de
las soluciones.
Utilice diversos mtodos de conglomerado y compare los resultados.
Divida los datos a la mitad en forma aleatoria. Realice el conglomerado por separado en cada
mitad. Compare los centroides de grupo en las dos submuestras.
Elimine las variables en forma aleatoria. Realice la agrupacin con base en el conjunto reducido
de variables. Compare los resultados basados en el conjunto completo con los que obtuvo al
realizar el conglomerado.
En el conglomerado, no jerrquico, la solucin puede depender del orden de los casos en el
conjunto de datos. Lleve a cabo corridas mltiples y utilice distintos rdenes de los casos hasta
que la solucin se estabilice.

7. Variables Conglomeradas
En ocasiones, el anlisis de conglomerados se utiliza tambin para identificar grupos homogneos. En
este caso, las unidades que se utilizan para el anlisis son las variables y las medidas de distancia que se
calculan para todos los pares de variables. Por ejemplo, el coeficiente de correlacin, ya sea el valor
absoluto o con el signo, puede usarse como medida de similitud (la opuesta a la distancia) entre las
variables.
El conglomerado jerrquico de las variables puede ayudar en la identificacin de variables nicas, o
variables que hacen una contribucin nica a los datos. El conglomerado puede emplearse tambin para
reducir el nmero de variables. Una combinacin de variables en el conglomerado, que se conoce como
componentes de conglomerado, se encuentra asociado con cada conglomerado. Frecuentemente, un
conjunto grande de variables puede reemplazarse con el conjunto de componentes de conglomerado con
poca prdida de informacin. No obstante, un nmero determinado de componentes de conglomerado
no explica tanta varianza como el mismo nmero de componentes principales. Entonces, por qu debe
utilizarse el conglomerado de las variables?. Por lo regular, los componentes de los conglomerados son
ms fciles de interpretar que los principales, incluso si estos ltimos se giran.

8. Ejercicio de la tabla de datos


Utilizando el fichero de datos 20010723.sav, el alumno deber proceder a realizar:

1.

Anlisis de correlaciones

2.

Anlisis cluster jerrquico, especificando una solucin de rango de 2 y de 3 clusters. Al


obtener los clusters, a la solucin de 3 clusters le dar los nombres siguientes:
Cachondos, a las personas que tienen una fuerte inclinacin por las variables divertid
(diversin) y combino (combinacin de compra y diversin),
Pasotas, a quienes no les importa ir de compras,

Pesetas, a aquellas personas que fijan su centro de miras en las cuestiones


econmicas.

3.

Anlisis cluster no jerrquico con 3 grupos. El visitante deber prestar atencin a si obtiene
los mismos resultados que los obtenidos mediante el procedimiento anlisis de cluster
jerrquico.

4.

Anlisis cluster jerrquico y otro un anlisis cluster no jerrquico, pero ahora slo con 2
grupos, para comparar estos resultados con los obtenidos con 3 grupos.

Das könnte Ihnen auch gefallen