Sie sind auf Seite 1von 19

ANALISIS CLUSTER

1. INTRODUCCIN
El Anlisis de Clusters (o Anlisis de conglomerados) es
una tcnica de Anlisis Exploratorio de Datos para
resolver problemas de clasificacin. El anlisis de clster
es un mtodo que permite descubrir asociaciones y
estructuras en los datos que no son evidentes a priori
pero que pueden ser tiles una vez que se han
encontrado.
Podemos encontrarnos dos tipos fundamentales de
mtodos de clasificacin: Jerrquicos y No Jerrquicos.
En los primeros, la clasificacin resultante tiene un
nmero creciente de clases anidadas mientras que en el
segundo las clases no son anidadas.

2. QU ES UN ANLISIS
CLUSTER?
Es un conjunto de tcnicas dentro de
los
mtodos
denominados
interdependientes en los que no se
hace
distincin
entre
variables
dependientes e independientes cuyo
propsito es formar grupos a partir
de un conjunto de elementos. Tales
grupos deben estar compuestos por
elementos lo ms parecidos que sea
posible (homogeneidad interna) y a la
vez lo ms diferentes que sea posible
entre grupos (heterogeneidad entre
grupos).

3.PROPIEDADES DEL ANALISIS


CLUSTER
Mutuamente
Exclusivos
Colectivamente
exhaustivos

4. CARACTERSTICAS DEL
ANALISIS CLUSTER

1.
2.

No hay distincin entre variables


dependientes e independientes

Se persigue establecer grupos


homogneos
internamente
y
heterogneos en entre ellos.

3.
4.
5.

Se pueden agrupar casos o individuos pero


tambin variables o caractersticas a
diferencia del anlisis
factorial, que se
centra en variables..

Se trata de tcnicas descriptivas, no de


tcnicas explicativas.

Implcitamente
se
admite
que en la
poblacin
o conjunto de elementos
a
agrupar,
y para el conjunto
de
caractersticas o variables que se dispone,
existe la posibilidad de clasificar

En
el anlisis
cluster es
especialmente
importante
la
representatividad de la muestra y
vigilar
la
existencia
de
multicolinealidad de las variables; sin
embargo no es tan crucial como en
otras tcnicas el cumplidos de
determinados supuestos como los de
linealidad o normalidad.

5. PROCESO DEL ANLISIS CLUSTER


5.1. Fase de Preparacin
En primer lugar hay que seleccionar y preparar las variables y los
casos con los que vamos a trabajar, es conveniente para la eleccin
recurrir a:

Los planteamientos
tericos
fenmeno en cuestin se tengan.

que sobre

el

El conocimiento emprico de estudios realizados..


El
conocimiento
basado
suficientemente
fundadas o
exploratorias previas.

en
suposiciones
en investigaciones

Existencia de variables en
diferente escala de medidas
(normalizar variables).
Presencia
de
variables
correlacionadas o en nmero
excesivo (AF,ACP).
Los
valores
extraos
o
extremos que requieren un
tratamiento especial.

5.2. Determinacin de las


Especificaciones
se pretende formar grupos de elementos homogneos; por tanto, y
en primer lugar, se requiere una forma de medir el parecido entre
dos elementos
y,
en segundo
lugar, hay que definir un
procedimiento para constituir los grupos

5.2.1. Medir la Semejanza


A) Medidas de Correlacin:Se trata de una media cuantitativa,
tambin puede calcularse coeficientes de correlacin para variables
no mtricas (Spearman o de Kendall).Dos objetos son muy similares si
tienen correlaciones
altas y no sern parecidos si tienen
correlaciones bajas. Aunque hay que advertir que la correlacin nos
informa sobre la forma en la que varan dos variables ms que sobre la
magnitud de las mismas.

B) Medidas de Distancias :La distancia entre dos elementos de un conjunto

se obtiene por la proximidad que tales elementos tienen en cada una de las
variables consideradas. La distancia entre dos objetos A y B de un mismo con
junto es una medida que satisface las siguientes condiciones :

La distancia de A a B, d(A, B), es un valor positivo. Si es


cero entonces A yB son iguales.
La distancia de A a B es igual que la de B a A.
Si C es un objeto que pertenece al mismo conjunto que
A y B, entonces:
d(A, B) s d(A, C) + d( C, B)

DISTANCIAS

Distancia Eucldea

Distancia de Minkowski

Distancia de Mahalanobis

Distancia de Chebychev

C) Medidas de Asociacin :Tienen un carcter cualitativo,se


obtienen a partir de la existencia de coincidencias, de acuerdos o
desacuerdos. La medida del parecido entre objetos a travs de sus
caractersticas cualitativas tambin se suele denominar medidas
de similitud que, al contrario de la distancia, a mayor similitud
mayor parecido. La medida de la similitud debe satisfacer las
siguientes condiciones:
La similitud entre A y B es igual que la existente entre B y A: SAB
= SBA.
La similitud de A consigo mismo o de B consigo mismo es igual y
mayor que la similitud existente entre A y B: SAA = SBB > SAB
para A B.
Al igual que en la distancia, a veces se aade una tercera condicin
conocida como la desigualdad del tringulo: si SAB y SBC son
grandes, entonces SAC tambin lo es.

5.2.2. Procedimientos de Agrupacin


A) Procedimientos Jerrquicos: Dada una poblacin, se trata de
establecer una jerarqua de partes. delimitando un nmero de
subconjuntos de forma que entre ellos no tengan elementos comunes (sean
disjuntos) y que cada subconjunto est incluido en otro (jerarqua).
Se forma grupos entre
los
individuos
ms
parecidos
segn
un
determinado criterio y
termina con un solo
grupo que integra a
todos los elementos de
la poblacin.

Partir del conjunto


poblacional e ir
dividiendo en
subconjuntos hasta
llegar al elemento.

A) Procedimientos no Jerrquicos:A partir de un nmero de individuos n, hay


que formar K grupos, siendo K un nmero que el analista determina. .En este
caso el nmero de grupos se establece a priori, mientras que en los
jerrquicos ascendentes se decida a posteriori.
Dado un centro de un grupo todos los
elementos de una poblacin dentro
de un umbral preestablecido se
agrupan en un mismo grupo; as se
contina eligiendo otros centros y
formando otros grupos.

Se diferencia en que permite la


reasignacin de los objetos, de
manera que un objeto asignado a
un grupo puede pasar a otro, si as
se consigue una menor distancia
media dentro del grupo.

Con esta opcin se fijan varios centros de grupos desde el principio. Los
objetos se asignan al grupo, dentro del umbral establecido, cuyo centro
est ms prximo. Las distancias pueden ser ajustadas a medida que se
desarrolle el proceso o incluso dejar fuera a elementos que no estn dentro
del umbral establecido para ningn centro.

5.3. Interpretacin de los Grupos


1.
1. Para
Para proceder
proceder aa la
la interpretacin
interpretacin de
de los
los grupos,
grupos, en
en primer
primer
lugar
lugar hay
hay que
que cono
conocer
cer el
el nmero
nmero yy composicin
composicin de
de los
los mismos.
mismos.

Si
Si se
se ha
ha seguido
seguido un
un procedimiento
procedimiento no
no jerrquico
jerrquico esto
esto es
es
inmediato,
inmediato, puesto
puesto que
que se
se define
define el
el nmero
nmero de
de grupos
grupos aa priori.
priori.

En
En caso
caso de
de haber
haber optado
optado por
por un
un procedimiento
procedimiento jerrquico,
jerrquico, el
el
nme
nmero
ro de
de los
los grupos
grupos no
no es
es algo
algo tan
tan evidente:
evidente:
El
El nmero
nmero de
de grupos
grupos depende
depende de
de la
la distancia
distancia aa la
la que
que se
se haga
haga el
el
corte
corte para
para analizar.
analizar. Si
Si el
el corte
corte se
se hace
hace aa distancias
distancias pequeas
pequeas el
el
nmero
nmero de
de grupos
grupos ser
ser mayor
mayor que
que si
si se
se toman
toman distancias
distancias grandes,
grandes,
por
por que
que entonces
entonces todos
todos los
los eiementos
eiementos estarn
estarn comprendidos
comprendidos en
en
pocos
pocos grupos.
grupos.

2.La interpretacin de cada uno de ellos se efecta considerando


las caractersticas de los elementos que lo componen y analizando
si poseen o representan determinadas caractersticas en mayor
medida que otras, recurriendo a las estadsticas descriptivas por
grupo de las variables de partida.
La interpretacin en los no jerrquicos se enriquece recurriendo a
un anlisis de varianza para examinar las diferencias entre los
grupos. Si el anlisis ha cumplido con su objetivo de conseguir una
buena clasificacin de elementos, la variabilidad dentro de un grupo
ser pequea y la variabilidad entre grupos ser grande.

5.4. Valoracin del Anlisis

5. ESQUEMA DEL PROCEDIMIENTO


1. Seleccionar el fichero de datos y modulo de anlisis cluster.
2.

Seleccionar el mtodo de agrupacin, normalmente alguna variante de los

de unin o vnculo (joining) o de los no jerrquicos (Kmedias).


3. Indicar las especificaciones: seleccin de variables, si se agrupan casos o
variables, fijar la regla de agrupacin (vnculo nico, completo, etc.) y el tipo
de distancia a utilizar. Para los mtodos no jerrquicos: indicar el nmero de
grupos y la forma de identificar los centros iniciales de los grupos.

4. Ordenar las salidas que se consideren de inters. Para los Jerrquicos


sern:
Representaciones grficas: dendrogramas y grficos de tmpanos.
Matrices de distancias.
Esquema de la secuencia de agrupacin.
Estadsticas descriptivas.
Para los no jerrquicos:
Matrices de distancias.
Grficos de medias.
Anlisis de la varianza.
Estadsticas descriptivas por grupo y miembros que los componen.
5.

Anlisis y descripcin de los grupos.

6.

Interpretacin de los resultados.

Das könnte Ihnen auch gefallen