Beruflich Dokumente
Kultur Dokumente
1. INTRODUCCIN
El Anlisis de Clusters (o Anlisis de conglomerados) es
una tcnica de Anlisis Exploratorio de Datos para
resolver problemas de clasificacin. El anlisis de clster
es un mtodo que permite descubrir asociaciones y
estructuras en los datos que no son evidentes a priori
pero que pueden ser tiles una vez que se han
encontrado.
Podemos encontrarnos dos tipos fundamentales de
mtodos de clasificacin: Jerrquicos y No Jerrquicos.
En los primeros, la clasificacin resultante tiene un
nmero creciente de clases anidadas mientras que en el
segundo las clases no son anidadas.
2. QU ES UN ANLISIS
CLUSTER?
Es un conjunto de tcnicas dentro de
los
mtodos
denominados
interdependientes en los que no se
hace
distincin
entre
variables
dependientes e independientes cuyo
propsito es formar grupos a partir
de un conjunto de elementos. Tales
grupos deben estar compuestos por
elementos lo ms parecidos que sea
posible (homogeneidad interna) y a la
vez lo ms diferentes que sea posible
entre grupos (heterogeneidad entre
grupos).
4. CARACTERSTICAS DEL
ANALISIS CLUSTER
1.
2.
3.
4.
5.
Implcitamente
se
admite
que en la
poblacin
o conjunto de elementos
a
agrupar,
y para el conjunto
de
caractersticas o variables que se dispone,
existe la posibilidad de clasificar
En
el anlisis
cluster es
especialmente
importante
la
representatividad de la muestra y
vigilar
la
existencia
de
multicolinealidad de las variables; sin
embargo no es tan crucial como en
otras tcnicas el cumplidos de
determinados supuestos como los de
linealidad o normalidad.
Los planteamientos
tericos
fenmeno en cuestin se tengan.
que sobre
el
en
suposiciones
en investigaciones
Existencia de variables en
diferente escala de medidas
(normalizar variables).
Presencia
de
variables
correlacionadas o en nmero
excesivo (AF,ACP).
Los
valores
extraos
o
extremos que requieren un
tratamiento especial.
se obtiene por la proximidad que tales elementos tienen en cada una de las
variables consideradas. La distancia entre dos objetos A y B de un mismo con
junto es una medida que satisface las siguientes condiciones :
DISTANCIAS
Distancia Eucldea
Distancia de Minkowski
Distancia de Mahalanobis
Distancia de Chebychev
Con esta opcin se fijan varios centros de grupos desde el principio. Los
objetos se asignan al grupo, dentro del umbral establecido, cuyo centro
est ms prximo. Las distancias pueden ser ajustadas a medida que se
desarrolle el proceso o incluso dejar fuera a elementos que no estn dentro
del umbral establecido para ningn centro.
Si
Si se
se ha
ha seguido
seguido un
un procedimiento
procedimiento no
no jerrquico
jerrquico esto
esto es
es
inmediato,
inmediato, puesto
puesto que
que se
se define
define el
el nmero
nmero de
de grupos
grupos aa priori.
priori.
En
En caso
caso de
de haber
haber optado
optado por
por un
un procedimiento
procedimiento jerrquico,
jerrquico, el
el
nme
nmero
ro de
de los
los grupos
grupos no
no es
es algo
algo tan
tan evidente:
evidente:
El
El nmero
nmero de
de grupos
grupos depende
depende de
de la
la distancia
distancia aa la
la que
que se
se haga
haga el
el
corte
corte para
para analizar.
analizar. Si
Si el
el corte
corte se
se hace
hace aa distancias
distancias pequeas
pequeas el
el
nmero
nmero de
de grupos
grupos ser
ser mayor
mayor que
que si
si se
se toman
toman distancias
distancias grandes,
grandes,
por
por que
que entonces
entonces todos
todos los
los eiementos
eiementos estarn
estarn comprendidos
comprendidos en
en
pocos
pocos grupos.
grupos.
6.