Anc3a1lisis de Cluster PDF

El análisis cluster
Joaquín Aldás Manzano1
Universitat de València
Dpto. de Dirección de Empresas “Juan José Renau Piqueras”
1
Estas notas son una selección de aquellos textos que, bajo mi punto de vista, mejor abordan
el tema analizado. Sus autores aparecen citados al principio de cada epígrafe, y a ellos hay
que referirse cuando se citen los contenidos de estas notas. Mi única tarea ha sido la de selec-
cionar, ordenar y, en algunos casos traducir los textos originales.
2 Análisis cluster
Joaquín Aldás Manzano
El análisis cluster
1. ¿Qué es el análisis cluster?

(Ferrán, 1996)
Dada una muestra de observaciones en un conjunto grande de variables

cuantitativas, el análisis de conglomerados es una técnica para agrupar a los
elementos de la muestra en grupos, denominados conglomerados (clusters), de
tal forma que, respecto a la distribución de los valores de las variables, por un
lado, cada conglomerado sea lo más homogéneo posible y, por otro, los conglo-
merados sean muy distintos entre sí.
La forma más intuitiva de entender esta definición puede ser mediante un

ejemplo tomado de Johnson y Wichern (1998). Supongamos que queremos
clasificar a 11 idiomas distintos: inglés (E), noruego (N), danés (Da), holandés
(Du), alemán (D), español (Sp), italiano (I), polaco (P), húngaro (H) y finlan-
dés (Fi) según se parezcan más o menos unos a otros. Para ello, analizamos
cómo se deletrean los números uno al diez en cada uno de los idiomas y
tomaremos como medida de similitud cuántos de estos números comienzan por
la misma letra en distintos idiomas. El cuadro 1 ofrece la información de parti-
da:
Cuadro 1. Números en 11 idiomas

E N DA DU G FR SP I P H FI
one en en een eins un uno uno jeden egy yksi
two to to twee zwei deux dos due dwa ketto kaksi
three tre tre drie drei trois tres tre trzy harom kolme
four fire fire vier vier quatre cuatro quattro cztery negy neua
five fem fem vijf funf cinq cinco cinque piec ot viisi
six seks seks zes sechs six seis sei szesc hat kuusi
seven sju syv zeven sieben sept siete sette siedem het seitseman
eight atte otte acht acht huit ocho otto osiem nyolc kahdeksan
nine ni ni negen neun neuf nueve nove dziewiec kilenc yhdeksan
ten ti ti tien zehn diz diez dieci dziesiec tiz kymmenen
y el cuadro 2 el número de concordancias:

3 Análisis cluster
Cuadro 2. Número de primeras letras concordantes

E N DA DU G FR SP I P H FI
E 10
N 8 10
DA 8 9 10
DU 3 5 4 10
G 4 6 5 5 10
FR 4 4 4 1 3 10
SP 4 4 5 1 3 8 10
I 4 4 5 1 3 9 9 10
P 3 3 4 0 2 5 7 6 10
H 1 2 2 2 1 0 0 0 0 10
FI 1 1 1 1 1 1 1 1 1 2 10
Para entender esta tabla, comentaremos el caso del español (Sp) y el inglés
(E). El número de concordancias es 4, que corresponden a los números tres
(three), seis (six), siete (seven) y nueve (nine). A simple vista, ya se observa que
hay idiomas que tienen un número muy alto de concordancias, como es el caso
del inglés, el noruego y el danés y otros que se parecen muy poco a todos los
demás, como el finlandés o el húngaro. Pues bien, el análisis cluster, nos permi-
tirá analizar de una manera más objetiva estas similitudes y diferencias,
haciendo grupos de idiomas que se parecerán mucho entre sí y que diferirán lo
máximo posible unos de otros.
El gráfico que nos permitirá identificar adecuadamente estos grupos, es el

llamado dendograma. El correspondiente al ejemplo que acabamos de poner es
el siguiente:
4 Análisis cluster
Gráfico 1. Dendograma
Dendrogram using Ward Method
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
SP 7 -+
I 8 -+---+
FR 6 -+ +-------------------------------------------+
P 9 -----+ I
H 10 ---------+---------------------------+ I
FI 11 ---------+ I I
N 2 -+ +-----------+
DA 3 -+-------------+ I
E 1 -+ +---------------------+
DU 4 -----+---------+
G 5 -----+
En este dendograma podemos observar que, en un primer momento, son

agrupadas entre sí, por ser las lenguas más cercanas el español, italiano y
francés en un grupo y el noruego, danés e inglés en otro. En una segunda
etapa se asocian el alemán y el holandés y se une el polaco al grupo del
español. En la medida en que queramos ser menos precisos con la clasificación,
podemos desplazarnos hacia la derecha en la escala de distancias reescaladas y,
si lo hacemos, podremos agrupar al holandés y alemán con el grupo del norue-
go, juntar el húngaro con el finlandés e incluso, incluir en un solo grupo al
noruego, danés, inglés, holandés, húngaro y finlandés.
En último término, encontraríamos un grupo con todos los idiomas juntos.

Esta es una característica muy importante del análisis cluster. En un momento
determinado, el investigador ha de intervenir para determinar cual es, en su
opinión, el número de grupos más adecuado entre que cada idioma sea un
grupo en sí mismo o que todos pertenezcan al mismo grupo. En el desarrollo
del tema veremos como tomar esta decisión.
5 Análisis cluster
2. Un ejemplo de aplicación del análisis cluster

(Hair, Anderson, Tatham y Black, 1995)
Mantendremos en el desarrollo del análisis cluster, los mismos pasos que hemos
venido siguiendo en temas anteriores y que son los seis que debe seguir el
establecimiento de cualquier modelo multivariante. Ilustraremos cada uno de
ellos con la aplicación de un análisis cluster a la base de datos de ejemplo de
HATCO.
Paso 1. Objetivos del análisis cluster
El principal objetivo del análisis cluster es dividir un conjunto de objetos en

dos o mas grupos, basándose en la similitud de un conjunto de variables que
los caracterizan. El uso más tradicional del análisis cluster ha sido el explorato-
rio, es decir, pretendiendo clasificar un conjunto de objetos. Pero el análisis
cluster también puede utilizarse con fines confirmatorios. Si en base a los
fundamentos teóricos del problema que estamos analizando, podemos suponer
que existe determinada estructura que siguen los individuos, ésta puede compa-
rarse con la que se deriva del análisis cluster.
En nuestro caso de ejemplo, podemos aplicar el análisis cluster para uno de sus
usos más habituales, el establecimiento de segmentos del mercado. Trataremos
de establecer grupos de clientes de HATCO, atendiendo a la imagen que tienen
de esta empresa de acuerdo con los habituales siete atributos X1 a X7. Nuestro
objetivo es segmentar a los clientes en grupos con percepciones similares de
HATCO. Si esto se lograra se podría, por ejemplo, formular distintas estrate-
gias de comunicación para cada uno de ellos.
La selección de las variables que van a incluirse en el análisis cluster debe

hacerse atendiendo tanto a cuestiones teóricas como prácticas, es decir, debe
basarse tanto en la revisión de la literatura sobre el tema, como en investigacio-
nes pasadas. En todo caso, deben incluirse aquellas variables que: (1) caracteri-
cen a los objetos que van a clasificarse y (2) estén vinculadas a los objetivos de
la clasificación. Es muy importante saber que el análisis cluster no tiene forma
de saber qué variables son relevantes y cuáles no (no disponemos de coeficien-
tes con tests de significatividad). El análisis cluster forma los grupos
atendiendo a todas las variables. El incluir variables irrelevantes, aumenta la
probabilidad de que aparezcan outliers que afecten a los resultados. Es muy
importante que el investigador revise los resultados para eliminar aquellas
variables que no difieran significativamente entre los grupos formados.
6 Análisis cluster
En nuestro caso, los análisis anteriores que hemos realizado sobre la base de
datos de HATCO, parecen confirmar la relevancia de las variables
introducidas, sin embargo, no debe descartarse eliminar alguna que no difiera
entre los grupos formados.
Paso 2. Desarrollo del plan de análisis
Una vez definidos los objetivos y seleccionadas las variables, el investigador

debe tomar tres decisiones antes de comenzar el proceso de análisis:
1. ¿Existen outliers? y si existen, ¿deben ser eliminados?
2. ¿Qué medida de la similitud entre los objetos debe utilizarse?
3. ¿Deben estandarizarse los datos?
Debemos decir que no hay por lo general una respuesta definitiva para todas
estas preguntas y, según el procedimiento que apliquemos, puede llegarse a
resultados diferentes con la misma base de datos. Al igual que ocurría con el
análisis factorial, el análisis cluster tiene, en algunos momentos, algo más de
arte que de ciencia.
El análisis cluster, como hemos dicho, es muy sensible a la existencia de outliers

(casos que son muy distintos de otros). Los outliers pueden representar, o bien
casos que de verdad difieren de la media de la población, o bien que en nuestro
proceso de selección muestral hemos infrarrepresentado un segmento de pobla-
ción determinado.
2
Un procedimiento habitual de detección es la distancia D de Mahalanobis, que
es una medida de la distancia en un espacio multidimensional de cada observa-
ción del centro (media) de todas las observaciones. Esta medida tiene propieda-
des estadísticas que permiten analizar la significatividad de las diferencias
detectadas. Se recomienda ser muy exigente en el nivel de significación exigido
para clasificar a una observación como outlier: 0.01. Otra alternativa es recurrir
a gráficos que representen los valores que toman cada variable en los distintos
casos y ver si existe alguno con patrones muy distintos, pero para un número
importante de casos, este procedimiento puede ser farragoso.
La siguiente decisión es elegir la medida de similaridad que vaya a utilizarse.

Hemos dicho que dos objetos se podrán en un mismo grupo si están “cerca”
uno de otro respecto a las variables que empleemos. Pero esa distancia debe ser
medida de alguna manera. Existen muchas medidas de la distancia. La más
común es la distancia euclídea o variaciones de la misma como la distancia
euclídea al cuadrado que es la recomendada en algunos métodos como el de
7 Análisis cluster
Ward, dado que al no calcular la raíz cuadrada facilita los cálculos del ordena-
dor. Estas medidas se caracterizan porque no utilizan datos estandarizados y
plantean el problema de que pueden dar soluciones muy distintas con sólo
cambiar la escala de medida de una variable determinada (pasar el tiempo de
minutos a segundos, por ejemplo). Por ello, si conceptualmente es posible,
debería estandarizarse los datos antes de aplicar este tipo de escalas, como
discutiremos más tarde.
Existe otra medida de distancia, la distancia de Mahalanobis que incorpora

directamente un procedimiento de estandarización de los datos. Tiene el
problema, sin embargo, de que en caso de que exista un grupo de variables
muy correlacionadas, estas tengan un peso desproporcionado en la formación
de los grupos.
En general, la recomendación es que, dado que distintas medidas de distancia

pueden conducir a diferentes resultados del análisis cluster, deben emplearse
varias y comparar los resultados buscando los que sean conceptualmente más
coherentes. En el caso de que no se detecten correlaciones significativas entre
grupos de variables, la distancia de Mahalanobis es muy recomendable.
La tercera decisión que debe adoptarse, y que ya hemos apuntado, es si deben

o no estandarizarse los datos antes de aplicar el análisis cluster. Recordemos
que muchas medidas de distancias son muy sensibles a variaciones de escala o
magnitud entre variables. Así, por ejemplo, si quisiéramos agrupar a los indivi-
duos por su edad, nivel de ingresos y actitud hacia un producto (medido en
una escala de 1 a 7), la mayor dispersión provendría del nivel de ingresos y
ocultaría las diferencias de edad y de actitud hacia el producto. La forma más
lógica de proceder es estandarizar las variables, es decir, restarles a cada una de
las puntuaciones su media y dividir por la desviación típica.
En nuestro ejemplo de HATCO no tiene sentido utilizar la distancia de

Mahalanobis porque ya detectamos elevadas correlaciones entre algunas varia-
bles y no hemos aplicado ningún tipo de estandarización, porque todas ellas
estaban medidas en una misma escala, como vimos en el primer tema.
Paso 3. Condiciones de aplicabilidad del análisis cluster
El análisis cluster, no pretende inferir resultados de una muestra hacia una

población, sino sólamente agrupar objetivamente por similitud los casos que
estemos investigando. Por tanto, aunque tiene fundamentos matemáticos
8 Análisis cluster
complejos, no son demasiado relevantes las propiedades estadísticas de normali-

dad, linealidad y homoscedasticidad. El investigador, por el contrario, debe
prestar especial atención a otros dos aspectos: la representatividad de la
muestra y la multicolinealidad.
El investigador debe ser consciente de que un análisis cluster es tan bueno

como representativa sea la muestra a la que se ha aplicado, por lo tanto debe
prestarse tanta atención como sea posible a llevar a cabo un muestreo adecua-
do. La eliminación de outliers, es también muy importante para un buen análi-
sis cluster.
La multicolinealidad afecta muchísimo a los resultados porque, como hemos

indicado, aquellas variables que estén afectadas de esta propiedad tendrán una
influencia mayor en el establecimiento de los grupos. Veámoslo con un ejemplo.
Supongamos que queremos clasificar a una población atendiendo a diez varia-
bles, ocho de las cuales tienen mucho que ver unas con otras (llevando el
ejemplo al extremo: el nivel de estudios y el número de años de estudio...) y las
otras dos son independientes de las anteriores. Como el análisis cluster pondera
a todas las variables por igual, el grupo de ocho, que no están midiendo ocho
cosas distintas, sino la misma realidad, tendrán un peso muy superior a las
otras dos. Por este motivo el investigador debe cuidar de analizar la multicoli-
nealidad, tal y como describimos en el tema 1 y cuidarse de utilizar medidas de
distancia muy sensibles a esta propiedad, como la de Mahalanobis.
En nuestro ejemplo, supusimos que la muestra de encuestados de HATCO

estaba seleccionada correctamente y, como vimos en el tema 1, no se detecta-
ron problemas de multicolinealidad significativos.
Paso 4. Estimación del modelo y ajuste global.
Para comenzar el proceso de agrupación en el análisis cluster, es necesario

elegir entre los distintos procedimientos disponibles, y esta no es una decisión
sencilla, porque existen muchísimos. El criterio general de todos ellos es
maximizar la distancia entre los grupos que se formen y minimizar la distancia
entre los distintos elementos de cada grupo, como se ilustra en la figura 2.
9 Análisis cluster
Figura 2 Ejemplo de distancias intra y entre clusters
Variación entre clusters

Variación intra clusters
En los métodos jerárquicos, el análisis comienza con tantos conglomerados

como individuos (cada individuo es un conglomerado inicial). A partir de estas
unidades iniciales se van formando nuevos conglomerados de forma ascendente
agrupando en cada etapa a los individuos de los dos conglomerados más próxi-
mos. Al final del proceso todos los individuos estarán agrupados en un único
conglomerado. La diferencia entre los diversos métodos reside en la distancia
considerada para medir la proximidad entre conglomerados. Como ejemplo, en
el promedio entre grupos se define la distancia entre dos conglomerados como
el promedio de las distancias entre todos los pares de individuos, en los que
cada componente del par pertenece a un conglomerado distinto. Si el número
de individuos y variables es muy alto, requiere un número de cálculos muy
elevados.
En los métodos no jerárquicos, primero se determina el número de cluster que

se desea. Así, una solución de seis cluster no se forma al agrupar dos cluster de
la solución de siete, sino que se busca la mejor solución de seis clusters. Estos
métodos necesitan que se les diga cual es el centroide inicial de cada conglome-
rado y el programa incluye todos los individuos que estén a una distancia
preestablecida de ese centro. A continuación se calcula de nuevo el centro del
conglomerado con los individuos que se le han sumado y vuelve a incluir a los
individuos que estén a la distancia fijada. El procedimiento se detiene cuando
se dé alguno de los criterios de parada. El principal problema de estos métodos
es cómo seleccionar el centroide inicial.
10 Análisis cluster
¿Qué metodo utilizar? la recomendación general es: ambos. Primero utilicemos

un método jerárquico para establecer el número de clusters, una aproximación
de los centroides y detectar los outliers. A continuación con esta información
de partida se puede llevar a cabo un análisis no jerárquico.
La última decisión era decidir cuántos conglomerados elegir. Ya se ha dicho

que no hay una solución objetiva, sino que depende del criterio del investigador
y este criterio suele indicar: “aquella solución que sea más coherente con la
lógica o los fundamentos teóricos del problema”.
Apliquemos lo expuesto al ejemplo de HATCO. En primer lugar llevaremos a

cabo un análisis jerárquico mediante la siguiente sintaxis:
CLUSTER x1 x2 x3 x4 x5 x6 x7
/METHOD WARD
/MEASURE= SEUCLID
/PRINT SCHEDULE
/PLOT DENDROGRAM
/SAVE CLUSTER(2,5) .
La primera salida que obtenemos es el historial de conglomeración que debe

leerse de la siguiente forma: en primer lugar, ha combinado los casos 15 y 20 y
que no volverá a agruparse con otro hasta la etapa 60 en que se junta con el
19. En segundo lugar se han unido los casos 5 y 42 que en la etapa 94 se han
juntado con el caso número 7 y así sucesivamente. El historial nos proporciona
un coeficiente que, si toma un valor pequeño, indica que los casos que se han
unido eran parecidos y, por ello, no ha sido necesario realizar un gran esfuerzo
para unirlos. Cuando este coeficiente aumenta, quiere decir que la unión es más
artificial.
La mejor forma de visualizar este historial de conglomeración, es mediante el

dendograma, que aparece en la siguiente figura.
Historial de conglomeración
Etapa en la que el conglomerado

Conglomerado que se combina aparece por primera vez
Conglomerado Conglomerado Conglomerado Conglomerado Próxima
Etapa 1 2 Coeficientes 1 2 etapa
1 15 20 ,000 0 0 60
2 5 42 ,005 0 0 94
3 24 27 ,010 0 0 74
4 47 61 ,020 0 0 78
5 19 28 ,040 0 0 60
6 67 90 ,070 0 0 39
7 18 92 ,105 0 0 65
8 51 77 ,140 0 0 72
9 33 62 ,175 0 0 63
10 36 41 ,210 0 0 45
11 85 87 ,260 0 0 69
12 65 79 ,310 0 0 68
13 43 46 ,360 0 0 76
14 25 44 ,410 0 0 63
15 38 63 ,475 0 0 54
16 69 81 ,555 0 0 52
17 94 98 ,650 0 0 73
18 56 91 ,745 0 0 66
19 50 72 ,840 0 0 52
20 75 99 ,950 0 0 62
21 16 73 1,060 0 0 61
22 37 48 1,170 0 0 58
23 1 95 1,291 0 0 72
24 11 100 1,416 0 0 69
25 4 89 1,556 0 0 62
26 84 88 1,696 0 0 45
27 2 83 1,836 0 0 82
28 29 78 1,976 0 0 61
29 3 71 2,116 0 0 75
30 23 32 2,256 0 0 66
31 17 64 2,446 0 0 83
32 12 76 2,661 0 0 67
33 8 68 2,876 0 0 70
34 9 74 3,141 0 0 55
35 52 60 3,431 0 0 57
36 10 34 3,766 0 0 43
37 26 59 4,116 0 0 64
38 49 97 4,536 0 0 81
39 7 67 5,006 0 6 77
40 13 21 5,526 0 0 51
41 82 93 6,051 0 0 91
42 40 54 6,576 0 0 53
43 10 30 7,108 36 0 50
44 66 80 7,643 0 0 59
45 36 84 8,200 10 26 70
46 22 55 8,760 0 0 71
47 6 70 9,420 0 0 57
48 45 86 10,250 0 0 53
49 39 96 11,090 0 0 68
50 10 53 11,976 43 0 56
51 13 35 13,036 40 0 71
52 50 69 14,479 19 16 65
53 40 45 15,981 42 48 73
54 14 38 17,570 0 15 59
55 9 58 19,225 34 0 67
56 10 31 21,272 50 0 58
57 6 52 23,527 47 35 88
58 10 37 25,880 56 22 75
59 14 66 28,256 54 44 80
60 15 19 30,716 1 5 77
61 16 29 33,191 21 28 78
62 4 75 35,726 25 20 74
63 25 33 38,548 14 9 64
64 25 26 41,579 63 37 84
65 18 50 44,890 7 52 76
66 23 56 48,557 30 18 87
67 9 12 52,290 55 32 80
68 39 65 56,225 49 12 89
69 11 85 60,263 24 11 87
70 8 36 64,375 33 45 83
71 13 22 68,591 51 46 90
72 1 51 73,077 23 8 84
73 40 94 77,881 53 17 85
74 4 24 82,779 62 3 82
75 3 10 88,128 29 58 79
76 18 43 93,517 65 13 92
77 7 15 98,971 39 60 86
78 16 47 104,829 61 4 90
79 3 57 111,619 75 0 91
80 9 14 118,524 67 59 81
81 9 49 126,001 80 38 86
82 2 4 134,767 27 74 85
83 8 17 143,869 70 31 88
84 1 25 156,705 72 64 92
85 2 40 170,246 82 73 89
86 7 9 185,576 77 81 94
87 11 23 201,096 69 66 93
88 6 8 218,427 57 83 93
89 2 39 236,097 85 68 96
90 13 16 258,717 71 78 95
91 3 82 281,415 79 41 97
92 1 18 305,053 84 76 95
93 6 11 333,106 88 87 96
94 5 7 364,923 2 86 98
95 1 13 398,113 92 90 98
96 2 6 446,314 89 93 97
Figura 5.2. Dendograma

* * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * *
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
15 -+
20 -+
19 -+
28 -+-+
67 -+ I
90 -+ I
7 -+ +-+
49 -+ I I
97 -+ I I
66 -+-+ I
80 -+ I
38 -+ I
63 -+ +-------+
14 -+ I I
12 -+ I I
76 -+ I I
9 -+ I I
74 -+ I I
58 -+ I I
5 -+---+ I
42 -+ I
22 -+ +-----------------------------------+
55 -+-+ I I
13 -+ I I I
21 -+ +-+ I I
35 -+ I I I I
47 -+ I I I I
61 -+-+ I I I
16 -+ I I I
73 -+ I I I
29 -+ I I I
78 -+ +-------+ I
43 -+ I I
46 -+-+ I I
18 -+ I I I
92 -+ I I I
69 -+ I I I
81 -+ I I I
50 -+ +-+ I
72 -+ I I
26 -+ I I
59 -+ I I
33 -+ I I
62 -+ I I
25 -+-+ I
44 -+ I
51 -+ I
77 -+ I
1 -+ I
95 -+ I
82 -+-+ I
93 -+ I I
3 -+ I I
71 -+ +-------+ I
37 -+ I I I
48 -+ I I I
10 -+ I I I
34 -+-+ I I
30 -+ I I
53 -+ I I
31 -+ I I
57 -+ I I
65 -+ I I
79 -+-+ I I
39 -+ I +-------------------------------------+
96 -+ I I
94 -+ +---+ I
98 -+ I I I
40 -+ I I I
54 -+ I I I
45 -+-+ I I
86 -+ I I
2 -+ I I
83 -+ I I
24 -+ I I
27 -+ I I
75 -+ +---+
99 -+ I
4 -+ I
89 -+ I
56 -+ I
91 -+-+ I
23 -+ I I
32 -+ I I
85 -+ I I
87 -+-+ I
11 -+ I I
100 -+ +---+
52 -+ I
60 -+-+
6 -+ I
70 -+ I
17 -+ I
64 -+-+
8 -+
68 -+
36 -+
41 -+
84 -+
88 -+
Analizando este dendograma vemos que la soluciòn natural es la de dos grupos,

dado que a una distancia bastante cercana aparecen estas dos agrupaciones
que, además, deben ser muy distintas puesto que sólo se agrupan en una a una
distancia mucho mayor.
Dado que para pasar ahora al cluster no jerárquico, necesitamos informar al

programa de cuáles son los centroides iniciales de esos dos grupos (es decir la
media en los dos grupos de las siete variables que hemos utilizado en el cluster),
necesitamos obtener esta información. Como se ve en la sintaxis, hemos pedido
al programa que nos guarde en una variable a cuál de los dos grupos pertenece
cada sujeto (realmente le hemos pedido que nos guarde el rango de soluciones
desde dos grupos hasta cinco):
/SAVE CLUSTER(2,5) .
luego tenemos una variable, que nos dice si un individuo pertenece al grupo 1 o
al 2. Basta que calculemos una tabla cruzada entre la pertenencia al grupo y
las variables X1 a X7 como la recogida en el cuadro 3
Cuadro 3 Medias de X1 a X7 en cada conglomerado
Media
Ward 1 Rapidez de
4,46
Method servicio
nivel de
1,58
precios
flexibilidad
8,90
de precios
Imagen del
4,93
fabricante
Servicio 2,99
Imagen de
los 2,51
vendedores
Calidad del
5,90
producto
2 Rapidez de
2,57
servicio
nivel de
3,15
precios
flexibilidad
6,89
de precios
Imagen del
5,57
fabricante
Servicio 2,84
Imagen de
los 2,82
vendedores
Calidad del
8,04
producto
Pues bien, con esa información alimentamos el cluster no jerárquico mediante

la siguiente sintaxis:
QUICK CLUSTER X1 TO X7
/INITIAL = (4.46 1.58 8.90 4.93 2.99 2.51 5.90
2.57 3.15 6.89 5.57 2.84 2.82 8.04)
/CRITERIA = CLUSTERS (2)
/PRINT = CLUSTER ANOVA
/SAVE CLUSTER.
que nos ofrece los siguientes resultados. En primer lugar debemos comparar si
la solución óptima de dos cluster difiere mucho de la que obtuvimos mediante
el cluster jerárquico. El cuadro 4, nos permite comprar los dos centroides:
Cuadro 4 Centroide jerárquico y no jerárquico
Centros iniciales de los

conglomerados
Conglomerado
1 2
Rapidez de
4.46 2.57
servicio
nivel de
1.58 3.15
precios
flexibilidad
8.90 6.89
de precios
Imagen del
4.93 5.57
fabricante
Servicio 2.99 2.84
Imagen de
los 2.51 2.82
vendedores
Calidad del
5.90 8.04
producto
Entrada desde el subcomando
INITIAL
Centros de los conglomerados

finales
Conglomerado
1 2
Rapidez de
4,38 2,57
servicio
nivel de
1,58 3,21
precios
flexibilidad
8,90 6,80
de precios
Imagen del
4,93 5,60
fabricante
Servicio 2,96 2,87
Imagen de
los 2,53 2,82
vendedores
Calidad del
5,90 8,13
producto
A simple vista se observa que los dos centroides son prácticamente idénticos,
luego el análisis cluster no jerárquico viene a confirmar que la solución que
obtuvimos con anterioridad es fiable. De todas formas, un buen indicador de la
calidad de los clusters obtenidos es si las medias de las variables en cada cluster
son significativamente distintas. En su momento indicamos que el objetivo es
que cada conglomerado sea cuanto más distinto mejor de los demás. Si las
medias de las variables no difiereran significativamente entre un grupo y otro,
estos serían muy parecidos y la calidad del análisis muy baja. El programa
efectúa un análisis de varianza que, en síntesis, viene a contrastar la hipótesis
nula de que las medias de cada variable en los dos conglomerados son las
mismas. Esta hipótesis debe poder rechazarse, por lo menos, para la mayoría de
variables. El cuadro 5 resume esta información:
Cuadro 5. Diferencias de medias de cada variable en los dos conglomerados
ANOVA
Conglomerado Error
Media Media
cuadrática gl cuadrática gl F Sig.
Rapidez de
81,563 1 ,930 98 87,717 ,000
servicio
nivel de
66,457 1 ,766 98 86,753 ,000
precios
flexibilidad
109,637 1 ,823 98 133,175 ,000
de precios
Imagen del
11,302 1 1,178 98 9,596 ,003
fabricante
Servicio ,188 1 ,568 98 ,331 ,566
Imagen de
los 2,109 1 ,578 98 3,647 ,059
vendedores
Calidad del
123,372 1 1,280 98 96,404 ,000
producto
Las pruebas F sólo se deben utilizar con una finalidad descriptiva puesto que los
conglomerados han sido elegidos para maximizar las diferencias entre los casos en
diferentes conglomerados. Los niveles críticos no son corregidos, por lo que no pueden
interpretarse como pruebas de la hipótesis de que los centros de los conglomerados son
iguales.
Analizando los valores p, se observa que solamente la variable X5 (y en el

extremo la X6) no presentan diferencias significativas entre los dos cluster,
luego la calidad del análisis efectuado se confirma.
Paso 5. Interpretacion de los conglomerados
La interpretación de los conglomerados debe hacerse atendiendo a qué valores

medios toman en cada uno de ellos las variables que se han utilizado para
caracterizarlos (X1 a X7) que, recordemos, recogíamos en la siguiene tabla:

finales
Conglomerado
1 2
Rapidez de
4,38 2,57
servicio
nivel de
1,58 3,21
precios
flexibilidad
8,90 6,80
de precios
Imagen del
4,93 5,60
fabricante
Servicio 2,96 2,87
Imagen de
los 2,53 2,82
vendedores
Calidad del
5,90 8,13
producto
Si eliminamos del análisis la variable X5 (Servicio) que hemos visto que no

presenta resultados distintos en los dos conglomerados, y nos centramos en las
demás, podremos concluir que el conglomerado 1 está formado por aquellos
clientes que prestan especial atención, respecto al segundo, a la rapidez del
servicio y la flexibilidad de precios. Por el contrario, el conglomerado 2 enfatiza
el nivel de precios, la imagen del fabricante y la de los vendedores y la calidad
del producto.
Paso 6. Validación del modelo
La validación del modelo pasa por que el investigador se asegure de que la

solución es representativa de la población y que será aplicable a otros indivi-
duos que no estén en la muestra y será estable en el tiempo. La forma habitual
de contrastar este hecho, es llevar a cabo otro análisis no jerárquico, pero no
indicándole al programa el centroide de partida, sino dejando que este lo
establezca aleatoriamente. Si el análisis es robusto, la solución final no debería
diferir de la que se ha obtenido con anterioridad.
El cuadro 6, recoge el centroide de partida establecido aleatoriamente y la

solución a la que llega el programa partiendo de él.
Cuadro 6. Nuevo análisis no jerárquico
Centros iniciales de los

conglomerados
Conglomerado
1 2
Rapidez de
servicio 6,0 ,0
nivel de
,9 2,1
precios
flexibilidad
9,6 6,9
de precios
Imagen del
fabricante 7,8 5,4
Servicio 3,4 1,1

Imagen de
los 4,6 2,6
vendedores
Calidad del
4,5 8,9
producto

finales
Conglomerado
1 2
Rapidez de
4,4 2,6
servicio
nivel de
precios 1,6 3,2
flexibilidad
8,9 6,8
de precios
Imagen del
4,9 5,6
fabricante
Servicio 3,0 2,9
Imagen de
los 2,5 2,8
vendedores
Calidad del
5,9 8,1
producto
Puede comprobarse que, aunque los centroides de partida son radicalmente

distintos, los centroides finales son prácticamente idénticos y, además, el análi-
sis de varianza recogido en el cuadro 7 vuelve a confirmar que las medias son
significativament distintas si descontamos el caso de X5
Cuadro 7 Análisis de varianza

ANOVA
Conglomerado Error
Media Media
cuadrática gl cuadrática gl F Sig.
Rapidez de
81,563 1 ,930 98 87,717 ,000
servicio
nivel de
66,457 1 ,766 98 86,753 ,000
precios
flexibilidad
109,637 1 ,823 98 133,175 ,000
de precios
Imagen del
11,302 1 1,178 98 9,596 ,003
fabricante
Servicio ,188 1 ,568 98 ,331 ,566
Imagen de
los 2,109 1 ,578 98 3,647 ,059
vendedores
Calidad del
123,372 1 1,280 98 96,404 ,000
producto
Las pruebas F sólo se deben utilizar con una finalidad descriptiva puesto que los
conglomerados han sido elegidos para maximizar las diferencias entre los casos en
diferentes conglomerados. Los niveles críticos no son corregidos, por lo que no pueden
interpretarse como pruebas de la hipótesis de que los centros de los conglomerados son
iguales.
El último criterio para validar los cluster obtenidos, pasa por intentar determi-
nar si los sujetos que pertenecen a cada grupo, se comportan de distinta
manera respecto a variables que no se han incluido en el análisis. Es decir, si
cada conglomerado está recogiendo a grupos con características distintas, cabe
esperar que esta diferencia se traduzca en actitudes o comportamientos
también distintos en otros ámbitos. Por ejemplo, podemos plantearnos si
alguno de los dos grupos está más satisfecho que otro respecto a HATCO
(X10) y utiliza más o menos sus productos (X9). Estamos, de nuevo, ante un
análisis de varianza que plantea la hipótesis nula de que la satisfacción y el uso
es el mismo entre los dos conglomerados y cuya solución se recoge en el cuadro
8.
Cuadro 8 Análisis de varianza.
Descriptivos
Intervalo de confianza
para la media al 95%
Desviación Error Límite Límite
N Media típica típico inferior superior Mínimo Máximo
Nivel de Ward 1 50 49,880 8,552 1,209 47,450 52,310 31,0 65,0
uso Method 2 50 42,320 7,807 1,104 40,101 44,539 25,0 62,0
Total 100 46,100 8,989 ,899 44,316 47,884 25,0 65,0
nivel de Ward 1 50 5,164 ,778 ,110 4,943 5,385 3,3 6,8
satisfacción Method 2 50 4,378 ,747 ,106 4,166 4,590 3,2 6,2
Total 100 4,771 ,856 8,556E-02 4,601 4,941 3,2 6,8
ANOVA
Suma de Media
cuadrados gl cuadrática F Sig.
Nivel de Inter-grupos 1428,840 1 1428,840 21,312 ,000
uso Intra-grupos 6570,160 98 67,042
Total 7999,000 99
nivel de Inter-grupos 15,445 1 15,445 26,545 ,000
satisfacción Intra-grupos 57,021 98 ,582
Total 72,466 99
Se comprueba que el grupo 1 tiene un mayor nivel uso de los productos de

HATCO (49,88) que el 2 (42,30) y de satisfacción (5,16 frente a 4.37) y que,
además ambas diferencias son significativas (p<0.01). Este resultado tiene
importantes implicaciones para HATCO que deberá mejorar los factores que
han sido peor valorado por el grupo 2, dado que es un grupo menos satisfecho,
concretamente, X1 y X3.
Referencias bibliográficas
FERRÁN, M. (1996): SPSS para Windows. Programación y análisis estadístico.

Madrid: McGraw-Hill.
HAIR, J.F.; ANDERSON, R.E.; TATHAM, R.L. Y BLACK, W. (1995): Multivariate

Data Analysis. 4ª Edición. Englewood Cliffs: Prentice Hall.
JOHNSON, R.A. Y WICHERN, D. W. (1998): Applied Multivariate Statistical

Analysis. 4ª Edición. Englewood Cliffs: Prentice Hall.

Anc3a1lisis de Cluster PDF

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Anc3a1lisis de Cluster PDF

Hochgeladen von

Copyright:

Verfügbare Formate

El análisis cluster

Joaquín Aldás Manzano1

1. ¿Qué es el análisis cluster?

Dada una muestra de observaciones en un conjunto grande de variables

La forma más intuitiva de entender esta definición puede ser mediante un

Cuadro 1. Números en 11 idiomas

y el cuadro 2 el número de concordancias:

Cuadro 2. Número de primeras letras concordantes

El gráfico que nos permitirá identificar adecuadamente estos grupos, es el

Dendrogram using Ward Method

Rescaled Distance Cluster Combine

En este dendograma podemos observar que, en un primer momento, son

En último término, encontraríamos un grupo con todos los idiomas juntos.

2. Un ejemplo de aplicación del análisis cluster

Paso 1. Objetivos del análisis cluster

El principal objetivo del análisis cluster es dividir un conjunto de objetos en

La selección de las variables que van a incluirse en el análisis cluster debe

Paso 2. Desarrollo del plan de análisis

Una vez definidos los objetivos y seleccionadas las variables, el investigador

El análisis cluster, como hemos dicho, es muy sensible a la existencia de outliers

La siguiente decisión es elegir la medida de similaridad que vaya a utilizarse.

Existe otra medida de distancia, la distancia de Mahalanobis que incorpora

En general, la recomendación es que, dado que distintas medidas de distancia

La tercera decisión que debe adoptarse, y que ya hemos apuntado, es si deben

En nuestro ejemplo de HATCO no tiene sentido utilizar la distancia de

Paso 3. Condiciones de aplicabilidad del análisis cluster

El análisis cluster, no pretende inferir resultados de una muestra hacia una

complejos, no son demasiado relevantes las propiedades estadísticas de normali-

El investigador debe ser consciente de que un análisis cluster es tan bueno

La multicolinealidad afecta muchísimo a los resultados porque, como hemos

En nuestro ejemplo, supusimos que la muestra de encuestados de HATCO

Paso 4. Estimación del modelo y ajuste global.

Para comenzar el proceso de agrupación en el análisis cluster, es necesario

Figura 2 Ejemplo de distancias intra y entre clusters

Variación entre clusters

En los métodos jerárquicos, el análisis comienza con tantos conglomerados

En los métodos no jerárquicos, primero se determina el número de cluster que

¿Qué metodo utilizar? la recomendación general es: ambos. Primero utilicemos

La última decisión era decidir cuántos conglomerados elegir. Ya se ha dicho

Apliquemos lo expuesto al ejemplo de HATCO. En primer lugar llevaremos a

La primera salida que obtenemos es el historial de conglomeración que debe

La mejor forma de visualizar este historial de conglomeración, es mediante el

Etapa en la que el conglomerado

Figura 5.2. Dendograma

Label Num +---------+---------+---------+---------+---------+

Analizando este dendograma vemos que la soluciòn natural es la de dos grupos,

Dado que para pasar ahora al cluster no jerárquico, necesitamos informar al

Cuadro 3 Medias de X1 a X7 en cada conglomerado

Pues bien, con esa información alimentamos el cluster no jerárquico mediante

Cuadro 4 Centroide jerárquico y no jerárquico

Centros iniciales de los

Centros de los conglomerados

Cuadro 5. Diferencias de medias de cada variable en los dos conglomerados

Analizando los valores p, se observa que solamente la variable X5 (y en el

Paso 5. Interpretacion de los conglomerados

La interpretación de los conglomerados debe hacerse atendiendo a qué valores

Centros de los conglomerados

Si eliminamos del análisis la variable X5 (Servicio) que hemos visto que no

Paso 6. Validación del modelo

La validación del modelo pasa por que el investigador se asegure de que la

El cuadro 6, recoge el centroide de partida establecido aleatoriamente y la

Cuadro 6. Nuevo análisis no jerárquico

Centros iniciales de los