Sie sind auf Seite 1von 15

ANALISIS CLUSTER INTRODUCCION Si se quiere identificar cules son las empresas en las que sera ms deseable invertir, o los

grupos de clientes a los que les pueda interesar un nuevo producto que una empresa va a lanzar al mercado, el anlisis cluster o de conglomerados ayuda significativamente a resolver estos problemas. En la ingeniera esta es una herramienta que se puede usar para ayudar a resolver dificultades en la produccin y sus causas. En el siguiente ensayo se hablara de los mtodos usados y las herramientas usadas en el anlisis cluster y como se debe usar explicndolo en un ejemplo resuelto a travs de un software de estadstica.

El Anlisis de Clusters (o Anlisis de conglomerados) es una tcnica de Anlisis Exploratorio de Datos para resolver problemas de clasificacin. La diferencia fundamental entre el anlisis cluster y el discriminante reside en que en el anlisis cluster los grupos son desconocidos a priori y son precisamente lo que queremos determinar; mientras que en el anlisis discriminante, los grupos son conocidos y lo que pretendemos es saber en qu medida las variables disponibles nos discriminan esos grupos y nos pueden ayudar a clasificar o asignar los individuos en/a los grupos dados . El objetivo bsico del anlisis cluster es descubrir grupos naturales de variables. A su vez, primero se debe desarrollar una escala cuantitativa sobre la cual medir la asociacin entre los objetos. Similitud entre grupos A la hora de organizar y clasificar una estructura de un grupo complejo de datos, se debe tener en cuenta la cercana y la similitud, aunque tambin influyen otros aspectos subjetivos, existe una distancia que se tiene en cuenta debido a la agrupacin de clasificacin de elementos. Por el contrario, las variables se agrupan generalmente sobre la base de coeficientes de correlacin o como medidas de asociacin.
Las distancias y los coeficientes de similitud para pares de artculos Cuando se hay conocimiento a priori se puede utilizar la distancia estadstica enre dos grupos de observaciones de esta manera:

Siendo A=S-1 , donde S contiene la muestra de varianzas y covarianzas, sin embargo sin conocimiento a priori la cantidad de las muestras no puede ser computada por lo tanto la distancia Euclidiana es mejor para este caso:

Otra medida de distancia es la Minkowski:

Para m=1, d(x,y) medida de la manzana, entre dos puntos en p dimensiones. Para m=2 se debe usar la distancia Euclidiana. En general, variando m cambia el peso dado a las diferencias ms grandes y ms pequeas. Dos populares medidas de distancia o disimilitud estn dadas por la mtrica Camberra y el coeficiente Czecanowski:

Siempre que sea posible, es aconsejable utilizar verdaderos distancias-, que es, distancias que cumplan las propiedades de distancia, para objetivos del anlisis cluster. Cuando los artculos no pueden ser representados por mediciones dimensionales significativas de p, pares de elementos se comparan sobre la base de la presencia o ausencia de ciertas caractersticas. Los elementos similares tienen ms caractersticas en comn que los elementos dismiles. La presencia o ausencia de caractersticas se puede describir matemticamente mediante la introduccin de una variable binaria, que asume el valor 1 si la caracterstica est presente y el valor 0 si la caracterstica est ausente.

El cuadrado de distancia Euclideana , proporciona un recuento del nmero de desajustes. Una gran distancia corresponde a muchos desajustes es decir artculos diferentes. De la pantalla anterior, el cuadrado de la distancia entre los elementos i y k puede ser:

As, en las tcnicas para encontrar cluster tenemos: Cuando conocemos cuantos grupos hay, se usa cluster por particiones en el que producen una particin de objetos en un numero especificado de grupos siguiendoun criterio de optimizacin:

Cuando no conocemos cuantos grupos hay, usamos un cluster jerrquico que producen una secuencia de particiones, juntando o separando clusters. En cada paso se juntan o separan dos clusters siguiendo algn criterio especificado. As tenemos entonces agrupacin jerrquica y por particiones de un conjunto de datos de la siguiente manera:

Entre las tcnicas para encontrar clusters se busca HOMOGENEIDAD dentro de los grupos y HETEROGENEIDAD entre grupos. Los criterios para identificar los clusters se basan siempre en HETEROGENEIDAD entre grupos MEDIDAS de SIMILITUD o de DISCREPANCIA entre todos los pares de datos. Las decisiones que hay que tomar para hacer un cluster son: 1. Elegir el mtodo cluster que se va a emplear . 2. Decidir sobre si trabajar con los datos segn se miden o estandarizados. 3. seleccionar la forma de medir la distancia/disimilitud entre individuos, dependiendo de si los datos son cuantitativos o cualitativos. 4. clusters por particiones: elegir un criterio de ptimalidad o clusters jerrquicos: elegir un criterio para unir grupos, distancia entre grupos. 5. Decidir el nmero de clusters. La mayora de los mtodos cluster son muy sensibles al hecho de que las variables no estn todas medidas en las mismas unidades y que la variabilidad sea muy diferente, pero si queremos que todas las variables tengan la misma importancia en el anlisis se debe realizar unas estandarizacin de los datos la cual permite comparar las variables que vienen expresadas en distintas unidades o tienen diferentes magnitudes. Las puntuaciones Z son las estandarizaciones habituales de los datos los datos univariantes.

En donde el vector de medias de los datos estandarizados es un vector de ceros y la matriz de covarianzas de los datos estandarizados es la matriz de correlaciones de los datos.

Las tcnicas de agrupamiento no jerrquicas estn diseadas para los elementos del grupo, en lugar de variables, en una coleccin de grupos de K. el nmero de grupos, K, o bien puede ser especificado por adelantado o determinado como parte de la agrupacin procedimiento. La matriz bsica de distancias no tiene que ser determinada, y los datos bsicos no tienen que ser almacenados, los mtodos no jerrquicos o de particin pueden ser aplicados a conjuntos de datos mucho ms grandes que los que pueden las tcnicas jerrquicas. El mtodo mas usado es el K MEDIAS es fcil de programar y da resultados razonables Decisiones que hay que tomar para hacer un cluster 1. Elegir el mtodo cluster que se va a emplear 2. decidir sobre si trabajar con los datos segn se miden o estandarizados 3. seleccionar la forma de medir la distancia/disimilitud entre individuos, dependiendo de si los datos son cuantitativos o cualitativos 4. clusters por particiones: elegir un criterio de optimalidad. 5. Decidir el nmero de clusters. KMEDIAS tiene por objetivo separar las observaciones en k clusters, de manera que cada dato pertenezca a un grupo y slo a uno El algoritmo de K-MEDIAS busca con un mtodo iterativo:

- Los centroides (medias, medianas,) de los k clusters. - Asignar cada individuo a un cluster.

El objetivo de OPTIMALIDAD que se persigue es maximizar la homogeneidad dentro de los grupos. Una forma de cuantificar el criterio de optimalidad es: - Minimizar la media ponderada (por el tamao del grupo) de las varianzas dentro de cada grupo para todas las variables.

O dicho con otras palabras - Minimizar la suma de los cuadrados de las diferencias entre cada dato y la media de su grupo

Pasos del algoritmos de K medias Partiendo de un conjunto inicial de k centroides,m1,,mk(1), que se pueden elegir al azar para evitar sesgos o por cualquier otro procedimiento, el algoritmo va alternando los dos siguientes pasos: PASO DE ASIGNACIN ASIGNACIN. Cada observacin observacin se asigna al cluster con el centroide ms prximo (siguiendo el criterio de optimalidad), con la distancia euclidea. PASO DE CENTRALIZACIN. Para los clusters modificados se calculan los nuevos centroides.

El algoritmo se considera que ha alcanzado la convergencia cuando en una iteracin no se produce ningn cambio, o se cumple un criterio de parada.

Tomado de Tan, Steinbach, Kumar. Introduction to Data Mining Como conclusin del algoritmo de K-medias tenemos que: Una limitacin de Kmedias es que se espera que los grupos sean separables, con forma esfrica y de tamaan similar y no esta garantizada que K medias llegue siempre a la solucin optima debido a que el resultado final va a depender de los centroides iniciales. Ya que el algoritmo es muy rpido, se suele ejecutar varias veces con distintos centroides iniciales. El numero k de cluster es un input , por lo tanto, una eleccin inapropiada de k puede conducir a un mal resultado. Cuando se usa K medias es importante chequear distintas opciones para determinar el numero de posibles clusters que hay en el conjunto de datos. Para decidir el numero de clusters tenemos: 1. Una regla empirica para seleccionar el numero de cluster es introducir un nuevo cluster (pasar de K a K+1) cuando

2. Chequear con herramientas como el ANOVA si los grupos son significativamente distintos es decir como de validos son los grupos?

Cuando hablamos de clusters jerarquicos existen dos mtodos, los los divisivos y los aglomerativos. MTODOS DIVISIVOS: Parten de un nico cluster con todos los datos que se va dividiendo paso a paso hasta obtener tantos clusters como datos. METODOS AGLOMERATIVOS: Parten de tantos clusters clusters como datos tiene la muestra y en cada paso se van juntando dos clusters siguiendo algn criterio especificado hasta obtener un nico cluster con todos los datos. Cada mtodo se diferencia por la estrategia de fusin en cada etapa. Y todos tienen en comn que la primera unin es entre los individuos ms similares. La eleccin de la estrategia de fusin depender de los objetivos de la investigacin. Decisiones que hay que tomar para hacer un cluster 1. elegir el mtodo cluster que se va a emplear 2. decidir sobre si trabajar con los datos segn se miden o estandarizados 3. seleccionar la forma de medir la distancia/disimilitud entre individuos, dependiendo de si los datos son cuantitativos o cualitativos mtodos aglomerativos. Parten de tantos clusters como datos tiene la muestra y en cada paso se van juntando dos cluster. 4. clusters jerrquicos: elegir un criterio para unir grupos, distancia entre grupos DENDOGRAMA Es una representacin grfica en forma de rbol. Los clusters estn representados mediante trazos horizontales (verticales) y las etapas de fusin mediante trazos verticales (horizontales). La separacin entre las etapas de fusin es proporcional a la distancia a la que estn los grupos que se funden en esa etapa.

Criterios p gp ara unir grupos en mtodos jerarquicos Los mtodos de enlace (linkage) utilizan la proximidad entre pares de individuos para unir grupos de individuos. 1. Enlace sencillo (single linkage): utiliza la minima distancia/disimilitud entre dos individuos de cada grupo (til para identificar atipicos). 2. Enlace completo (complete linkage): utiliza la mxima distancia/disimilitud entre dos individuos de cada grupo. 3. Enlace promedio (average linkage): utiliza la media de las distancias/disimilitud entre todos los individuos de los dos grupos. 4. Enlace de centroides (centroid linkage): utilize la distancia/disimilitud entre los centros de los grupos. 5. Mtodo de Ward (Ward linkage): utilize la suma de las distancias al cuadrado a los centros de los grupos.

Algunas conclusiones acerca del cluster jerrquico son: Hacer las jerarquas en conjuntos de datos grandes es problemtico ya que un rbol con ms de 50 individuos es difcil de representar e interpretar. Una desventaja general es la imposibilidad de reasignar los individuos a los clusters en los casos en que la clasificacin haya sido dudosa en las primeras etapas de anlisis. Debido a que el anlisis cluster implica la eleccin entre diferentes medidas y procedimientos, con frecuencia es difcil juzgar la veracidad de los resultados. Es mejor comparar los resultados con diferentes mtodos de hacer el cluster. Soluciones similares generalmente indican la existencia de una estructura en los datos. Soluciones diferente probablemente indican una estructura pobre.

La validez de los clusters se juzga mediante una interpretacin cualitativa que puede ser subjetiva.

El numero de cluster en un mtodo jerarquico depende de por donde cortemos el dendograma. El numero de clusters puede estar dado por test formales o conocimiento del problema (intuicion). Es conveniente elegir un numero de clusters que sepamos interpretar. Para interpretar cluster podemos utilizar: - ANOVA - Anlisis factorial - Anlisis discriminante - Sentido comn

EJEMPLO NIVEL DE GLUCOSA


Indiv. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 Fasting X1_pre X2_pre X3_pre 60 69 62 56 53 84 80 69 76 55 80 90 62 75 68 74 64 70 64 71 66 73 70 64 68 67 75 69 82 74 60 67 61 70 74 78 66 74 78 83 70 74 68 66 90 78 63 75 103 77 77 77 68 74 66 77 68 70 70 72 75 65 71 91 74 93 66 75 73 75 82 76 74 71 66 76 70 64 74 90 86 74 77 80 67 71 69 78 75 80 64 66 71 71 80 76 63 75 73 90 103 74 60 76 61 48 77 75 66 93 97 74 70 76 60 74 71 63 75 66 66 80 86 77 67 74 70 67 100 73 76 81 78 90 77 73 68 80 72 83 68 65 60 70 52 70 76 One Hour after Sugar Intake Y1_pos Y2_pos Y3_pos 97 69 98 103 78 107 66 99 130 80 85 114 116 130 91 109 101 103 77 102 130 115 110 109 76 85 119 72 133 127 130 134 121 150 158 100 150 131 142 99 98 105 119 85 109 164 98 138 160 117 121 144 71 153 77 82 89 114 93 122 77 70 109 118 115 150 170 147 121 153 132 115 143 105 100 114 113 129 73 106 116 116 81 77 63 87 70 105 132 80 83 94 133 81 87 86 120 89 59 107 109 101 99 111 98 113 124 97 136 112 122 109 88 105 72 90 71 130 101 90 130 117 144 83 92 107 150 142 146 119 120 119 122 155 149 102 90 122 104 69 96 119 94 89 92 94 100

Realizando el proceso en statgraphics tenemos que: Nmero de casos completos: 49 Mtodo de Conglomeracin: Centroide Mtrica de Distancia: Euclideana Conglomeracin: observaciones Estandarizar: s Resumen de Conglomeracin Conglomerad Miembros Porcentaj o e 1 49 100,00 Centroides Conglomerad X1_pre X2_pre X3_pre Y1_pos Y2_pos Y3_pos o 1 70,1429 73,5918 75,2245 110,633 104,592 110,796

El StatAdvisor Este procedimiento ha creado 1 conglomerado a partir de 49 observaciones proporcionadas. Los conglomerados son grupos de observaciones con caractersticas similares. Para formar los conglomerados, el procedimiento comienza con cada observacin en grupos separados. Despus, combina los dos observaciones que fueron los ms cercanos para formar un nuevo grupo. Despus de recalcular la distancia entre grupos, se combinan los dos grupos ahora ms cercanos. Este proceso se repite hasta que queda 1 solo grupo. Despus decidimos el numero total de conglomeraciones y tenemos: Nmero de casos completos: 49 Mtodo de Conglomeracin: Centroide Mtrica de Distancia: Euclideana Conglomeracin: observaciones Estandarizar: s Resumen de Conglomeracin Conglomerad Miembros Porcentaj o e 1 44 89,80 2 1 2,04 3 1 2,04 4 1 2,04 5 1 2,04 6 1 2,04 Centroides Conglomerad o 1 2 3 4 5 6

X1_pre 68,8636 103,0 90,0 66,0 70,0 78,0

X2_pre 72,1818 77,0 103,0 93,0 67,0 90,0

X3_pre 74,1136 77,0 74,0 97,0 100,0 77,0

Y1_pos Y2_pos Y3_pos 107,864 160,0 107,0 136,0 150,0 122,0 102,045 117,0 109,0 112,0 142,0 155,0 108,864 121,0 101,0 122,0 146,0 149,0

El StatAdvisor Este procedimiento ha creado 6 conglomerados a partir de 49 observaciones proporcionadas. Este proceso se repite hasta que quedan solamente 6 grupos.

En la siguiente tabla se muestra muestra cuales observaciones se combinaron en cada etapa del proceso de conglomeracin. Por ejemplo, en la primera etapa, se combinaron observacin 29 con observacin 39. La distancia entre los grupos, una vez combinado, fue 0,894278. Tambin se muestra que la siguiente etapa en la que este grupo combinado se combin con otro conglomerado fue la etapa 9.

Programacin de la Aglomeracin Mtodo de Conglomeracin: Centroide Mtrica de Distancia: Euclideana


Conglomerado 1 Combinado 29 7 14 14 6 6 6 8 19 6 6 6 6 19 3 3 5 5 3 3 3 1 1 1 12 12 12 12 12 1 1 1 16 1 1 1 1 1 1 1 1 1 1 Menor Fila 1 Conglomerado 2 Combinado 39 31 42 38 14 46 20 26 29 9 21 7 8 32 6 19 35 40 5 48 25 3 49 47 23 24 13 44 41 28 12 30 18 15 33 16 11 10 36 4 27 2 22 Etapa Previa Conglomerado 1 0 0 0 3 0 5 6 0 0 7 10 11 12 9 0 15 0 17 16 19 20 0 22 23 0 25 26 27 28 24 30 31 0 32 34 35 36 37 38 39 40 41 42 Etapa Previa Conglomerado 2 0 0 0 0 4 0 0 0 1 0 0 2 8 0 13 14 0 0 18 0 0 21 0 0 0 0 0 0 0 0 29 0 0 0 0 33 0 0 0 0 0 0 0 Etapa Siguiente 9 12 4 5 6 7 10 13 14 11 12 13 15 16 16 19 18 19 20 21 22 23 24 30 26 27 28 29 31 31 32 34 36 35 36 37 38 39 40 41 42 43 0

Etapa 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43

Distancia 0,894278 0,922081 0,947586 0,854145 0,868085 0,91104 0,828641 0,967249 0,997455 1,0103 1,04091 1,0903 1,01468 1,1109 1,1662 1,34114 1,36775 1,06458 1,16591 1,31946 1,35182 1,36987 1,4009 1,44198 1,47032 1,28308 1,33499 1,39011 1,47721 1,50808 1,56323 1,64656 1,66272 1,68126 1,68409 1,75583 1,79158 1,79514 1,81529 2,13235 2,12819 2,23911 2,82542

Conglomerado Nmero 1

2 3 4 5

17 34 37 43

45

A continuacin se muestra el dendograma respectivo:


Dendograma Mtodo del Centroide,Euclideana 3 2,5
Distancia

2 1,5 1 0,5 0
1 3 6 14 42 38 46 20 9 21 7 31 8 26 19 29 39 32 5 35 40 48 25 49 47 28 12 23 24 13 44 41 30 15 33 16 18 11 10 36 4 27 2 22 17 34 37 43 45

Ahora realizaremos el ejercicio por el mtodo de K-medias


Nmero de casos completos: 49 Mtodo de Conglomeracin: k-Medias Mtrica de Distancia: Euclideana Conglomeracin: observaciones Estandarizar: s Resumen de Conglomeracin Conglomerado Miembros 1 8 2 10 3 11 4 7 5 4 6 9 Centroides Conglomerado 1 2 3 4 5 6

Porcentaje 16,33 20,41 22,45 14,29 8,16 18,37

X1_pre 66,625 69,0 73,6364 73,1429 64,5 70,4444

X2_pre 75,75 69,6 72,0 78,8571 75,25 73,2222

X3_pre 70,875 79,8 78,1818 77,0 75,25 69,0

Y1_pos 91,25 93,6 119,818 134,286 121,0 112,556

Y2_pos 81,75 87,2 112,455 127,857 136,0 102,556

Y3_pos 80,75 113,0 140,364 120,857 92,0 99,4444

CONCLUSIONES FINALES

REFERENCIAS STATGRAPHICS CENTURION Johnson, R. Applied Multivariate Statistical Analysis. Justel, A. Tcnicas de Anlisis Multivariante para Agrupacin. Metodos Cluster. Disponible en http://www.uam.es/personal_pdi/ciencias/ajustel/docencia/ad/AD10_11_Cluster.pdf