Beruflich Dokumente
Kultur Dokumente
18/03/2014
1
FACULTAD DE INFORMATICA
Qu es el Anlisis de Cluster ?
Se minimiza la
distancia Intracluster
18/03/2014
Descriptiva
Applied-Matl-DOWN,Bay-Network-Down,3-COM-DOWN,
Cabletron-Sys-DOWN,CISCO-DOWN,HP-DOWN,
DSC-Comm-DOWN,INTEL-DOWN,LSI-Logic-DOWN,
Micron-Tech-DOWN,Texas-Inst-Down,Tellabs-Inc-Down,
Natl-Semiconduct-DOWN,Oracl-DOWN,SGI-DOWN,
Sun-DOWN
Apple-Comp-DOWN,Autodesk-DOWN,DEC-DOWN,
ADV-Micro-Device-DOWN,Andrew-Corp-DOWN,
Computer-Assoc-DOWN,Circuit-City-DOWN,
Compaq-DOWN, EMC-Corp-DOWN, Gen-Inst-DOWN,
Motorola-DOWN,Microsoft-DOWN,Scientific-Atl-DOWN
Fannie-Mae-DOWN,Fed-Home-Loan-DOWN,
MBNA-Corp-DOWN,Morgan-Stanley-DOWN
Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,
Louisiana-Land-UP,Phillips-Petro-UP,Unocal-UP,
Schlumberger-UP
Industry Group
Technology1-DOWN
Technology2-DOWN
Financial-DOWN
Oil-UP
Sumarizacin
Reducir el tamao de
grandes data sets
18/03/2014
Clustering de
precipitaciones en
Australia
Seminario de Data Mining - ESPE
Qu no es Anlisis de Clusters ?
Clasificacin Supervisada
Tiene informacin del label de clase
Segmentacin Simple
Divisin de los estudiantes en diferenes grupos
alfabticamente, por apellido
Particionamiento de un Grafo
Hay alguna relacin pero las reas no son identicas
18/03/2014
Cuntos clusters?
Seis Clusters
Dos Clusters
Cuatro Clusters
18/03/2014
Tipos de Clusterings
Un clustering es un conjunto de clusters
Hay una importante distincin entre clustering
Jerrquico y particional
Clustering Particional
Una divisin de los objetos de dato en subconjuntos
disjuntos (clusters) tal que cada objeto de datos est en
exactamente un subconjunto
Clustering Jerrquico
Un conjunto de clusters anidados organizados como un
rbol
18/03/2014
Clustering Particional
Puntos Originales
18/03/2014
Clustering particional
Seminario de Data Mining - ESPE
Clustering Jerrquico
p1
p3
p4
p2
p1 p2
Clustering JerrquicoTradicional
p3 p4
Dendograma Tradicional
p1
p3
p4
p2
p1 p2
Clustering Jerrquico No-tradicional
18/03/2014
p3 p4
Dendograma No-tradicional
Parcial vs completo
En algunos casos se desea agrupar solo algunos datos
Heterogneo vs homogneo
Clusters de tamaos, formas y densidades ampliamente
diferentes.
18/03/2014
Tipos de Clusters
Clusters Contiguos
Propiedad o Conceptual
18/03/2014
10
3 clusters bien-separados
18/03/2014
11
12
8 cluster contiguos
18/03/2014
13
14
2 crculos superpuestos
18/03/2014
15
Baja densidad
Tipo de Atributo
Tipo de Datos
Dimensionalidad
Ruido y Outliers
Tipo de Distribucin
18/03/2014
16
Algoritmos de Clustering
18/03/2014
17
Clustering K-means
Enfoque Particional
Cada cluster est asociado con un centroide (punto
central)
Cada punto se asigna al cluster con el centroide ms
prximo
Se debe especificar el nmero de clusters, K.
El algoritmo bsico es muy simple
18/03/2014
18
Complejidad es O( n * K * I * d )
n = nmero de puntos, K = nmero de clusters,
18/03/2014
19
2.5
Puntos Originales
1.5
0.5
0
-2
-1.5
-1
-0.5
0.5
1.5
2.5
2.5
1.5
1.5
0.5
0.5
-2
-1.5
-1
-0.5
0.5
1.5
-2
-1.5
-0.5
0.5
1.5
Clustering ptimo
18/03/2014
-1
Clustering Sub-ptimo
20
2.5
1.5
0.5
0
-2
-1.5
-1
-0.5
0.5
1.5
18/03/2014
21
Iteration 2
Iteration 3
2.5
2.5
2.5
1.5
1.5
1.5
0.5
0.5
0.5
-2
-1.5
-1
-0.5
0.5
1.5
-2
-1.5
-1
-0.5
0.5
1.5
-2
Iteration 4
Iteration 5
2.5
1.5
1.5
1.5
0.5
0.5
0.5
-0.5
18/03/2014
0.5
1.5
0.5
1.5
1.5
2.5
2.5
-1
-0.5
Iteration 6
-1.5
-1
-2
-1.5
-2
-1.5
-1
-0.5
0.5
1.5
-2
-1.5
-1
-0.5
0.5
22
2
dist
(mi , x )
i =1 xC i
18/03/2014
23
2.5
1.5
0.5
0
-2
-1.5
-1
-0.5
0.5
1.5
18/03/2014
24
Iteration 2
2.5
2.5
1.5
1.5
0.5
0.5
-2
-1.5
-1
-0.5
0.5
1.5
-2
-1.5
-1
-0.5
0.5
Iteration 3
2.5
1.5
1.5
1.5
2.5
2.5
0.5
0.5
0.5
-1
-0.5
18/03/2014
0.5
Iteration 5
-1.5
1.5
Iteration 4
-2
1.5
-2
-1.5
-1
-0.5
0.5
1.5
-2
-1.5
-1
-0.5
0.5
1.5
25
18/03/2014
26
Ejemplo de 10 Clusters
Iteration 4
1
2
3
8
6
4
2
0
-2
-4
-6
0
10
15
20
x
Comienza con 2 centroides iniciales en un cluster de cada par de clusters
18/03/2014
27
Ejemplo de 10 Clusters
Iteration 2
8
Iteration 1
8
-2
-2
-4
-4
-6
-6
0
10
15
20
15
20
-2
-2
-4
-4
-6
-6
10
20
Iteration 4
8
Iteration 3
15
10
15
20
10
28
Ejemplo de 10 Clusters
Iteration 4
1
2
3
8
6
4
2
0
-2
-4
-6
0
10
15
20
x
Comenzando con algunos pares de clusters que tienen 3 centroides iniciales mientras otros tienen
1. 18/03/2014
Seminario de Data Mining - ESPE
29
Ejemplo de 10 Clusters
Iteration 2
8
Iteration 1
8
-2
-2
-4
-4
-6
-6
0
10
15
20
-2
-4
-4
-6
-6
5
10
15
20
15
20
-2
10
x
Iteration
4
x
Iteration
3
15
20
10
Comenzando con algunos pares de clusters que tienen 3 centroides iniciales mientras otros tienen 1.
18/03/2014
30
31
32
18/03/2014
33
Pre-procesamiento y Post-procesamiento
Pre-procesamiento
Normalizar los datos
Eliminar outliers
Post-procesamiento
Eliminar los clusters pequeos que pueden representar outliers
Split clusters con relativamente alto SSE
Mezclar clusters que estn prximos y que tiene relativamente
bajo SSE
Se pueden usar esos pasos durante el proceso de clustering
ISODATA
18/03/2014
34
Puntos Originales
18/03/2014
K-means (3 Clusters)
35
Puntos Originales
18/03/2014
K-means (3 Clusters)
36
Puntos Originales
18/03/2014
K-means (2 Clusters)
37
Puntos Originales
Clusters K-means
38
Puntos Originales
18/03/2014
Clusters K-means
39
Puntos Originales
18/03/2014
Clusters K-means
40
Clustering Jerrquico
Produce un conjunto de clusters anidados
organizados como un rbol
Se puede visualizar como un dendrograma
Un diagrama arbreo que registra las secuencias
de merges o splits
5
6
0.2
4
3
0.15
5
2
0.1
1
0.05
3
0
18/03/2014
41
42
Clustering Jerrquico
Dos tipos principales de clustering jerrquico
Aglomerativo:
Comienza con los puntos como clusters individuales
En cada paso, combinar los pares de clusters ms prximos en
cada paso, combinar los pares ms prximos hasta que slo
quede un cluster (o k clusters).
Divisivo:
Comenzar con un cluster que incluya todos los puntos.
En cada paso, separar un cluster hasta que cada cluster
contenga un punto (o haya k clusters)
43
18/03/2014
44
Situacin Inicial
Comenzar con clusters de puntos
individuales y una matriz de proximidad
p1
p2
p3
p4 p5
...
p1
p2
p3
p4
p5
.
.
Matriz de Proximidad
18/03/2014
45
Situacin Intermedia
Despus de algunos pasos (de combinaciones), nos
quedan algunos clusters
C1
C2
C3
C4
C5
C1
C2
C3
C3
C4
C4
C5
Matriz de Proximidad
C1
C2
18/03/2014
C5
46
Situacin Intermedia
Queremos combinar los dos clusters ms prximos
(C2 y C5) y actualizar la matriz de proximidad.
C1
C2
C3
C4
C5
C1
C2
C3
C3
C4
C4
C5
Proximity Matrix
C1
C2
18/03/2014
C5
47
Despus de la Combinacin
Pregunta: Cmo actualizar la matriz de proximidad?
C1
C1
C2 U C5
C3
C4
C2
U
C5
C3
C4
?
?
C3
C4
Matriz de Proximidad
C1
C2 U C5
18/03/2014
48
Similitud?
p2
p3
p4 p5
...
p1
p2
p3
p4
p5
MIN
.
MAX
.
Promedio de Grupo
.
Matriz de Proximidad
Distancia entre Centroides
Otros mtodos orientados por una
funcin objetivo
Mtodo de Ward usa error cuadrtico
18/03/2014
49
Similitud?
p2
p3
p4 p5
...
p1
p2
p3
p4
p5
MIN
.
MAX
.
Promedio de Grupo
.
Matriz de Proximidad
Distancia entre Centroides
Otros mtodos orientados por una
funcin objetivo
Mtodo de Ward usa error cuadrtico
18/03/2014
50
Similitud?
p2
p3
p4 p5
...
p1
p2
p3
p4
p5
MIN
.
MAX
.
Promedio de Grupo
.
Matriz de Proximidad
Distancia entre Centroides
Otros mtodos orientados por una
funcin objetivo
Mtodo de Ward usa error cuadrtico
18/03/2014
51
Similitud?
p2
p3
p4 p5
...
p1
p2
p3
p4
p5
MIN
.
MAX
.
Promedio de Grupo
.
Matriz de Proximidad
Distancia entre Centroides
Otros mtodos orientados por una
funcin objetivo
Mtodo de Ward usa error cuadrtico
18/03/2014
52
Similitud?
p2
p3
p4 p5
...
p1
p2
p3
p4
p5
MIN
.
MAX
.
Promedio de Grupo
.
Matriz de Proximidad
Distancia entre Centroides
Otros mtodos orientados por una
funcin objetivo
Mtodo de Ward usa error cuadrtico
18/03/2014
53
I1
1.00
0.90
0.10
0.65
0.20
I2
0.90
1.00
0.70
0.60
0.50
I3
0.10
0.70
1.00
0.40
0.30
I4
0.65
0.60
0.40
1.00
0.80
I5
0.20
0.50
0.30
0.80
1.00
5
54
3
5
0.2
0.15
0.1
0.05
4
4
Clusters anidados
18/03/2014
Dendrograma
Seminario de Data Mining - ESPE
55
Fortaleza de MIN
Puntos Originales
Dos Clusters
56
Limitaciones de MIN
Puntos Originales
Dos Clusters
57
I2 I3 I4 I5
0.90 0.10 0.65 0.20
1.00 0.70 0.60 0.50
0.70 1.00 0.40 0.30
0.60 0.40 1.00 0.80
0.50 0.30 0.80 1.00
5
58
0.4
0.35
0.3
0.25
3
3
0.2
0.15
1
4
0.1
0.05
0
Clusters anidados
18/03/2014
Dendrograma
59
Fortalezas de MAX
Puntos Originales
Dos Clusters
60
Limitaciones de MAX
Puntos Originales
Dos Clusters
61
proximidad(p , p )
i
proximidad(Clusteri , Clusterj ) =
piClusteri
p jClusterj
|Clusteri ||Clusterj |
I1
I2
I3
I4
I5
I1
1.00
0.90
0.10
0.65
0.20
18/03/2014
I2
0.90
1.00
0.70
0.60
0.50
I3
0.10
0.70
1.00
0.40
0.30
I4
0.65
0.60
0.40
1.00
0.80
I5
0.20
0.50
0.30
0.80
1.00
5
62
1
0.25
2
5
0.2
2
0.15
6
1
0.1
0.05
4
3
Clusters anidados
18/03/2014
Dendrograma
Seminario de Data Mining - ESPE
63
Fortalezas
Menos susceptible a ruido y outliers
Limitaciones
Sesgado hacia clusters esfricos
18/03/2014
64
18/03/2014
65
3
5
MIN
5
2
MAX
3
3
2
Mtodo de Ward
2
3
1
4
Promedio de Grupo
6
1
3
18/03/2014
66
DBSCAN
DBSCAN es un algoritmo basado en
densidad.
18/03/2014
67
18/03/2014
68
Algoritmo DBSCAN
Eliminar puntos noise
Realizar clustering sobre los puntos restantes
18/03/2014
69
Puntos Originales
70
Puntos Originales
Clusters
Resistente a ruido
Puede manejar clusters de diferentes formas y tamaos
18/03/2014
71
(MinPts=4, Eps=9.75).
Puntos Originales
Densidades Variables
Datos de alta dimensionalidad
18/03/2014
(MinPts=4, Eps=9.92)
72
18/03/2014
73
Validez de Clusters
Para clasificacin supervisada tenemos una
18/03/2014
74
0.9
0.9
0.8
0.8
0.7
0.7
0.5
0.5
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
DBSCAN
0.6
0.6
Random
Points
0
0
0.2
0.4
0.6
0.8
0.2
0.4
x
1
0.9
0.9
0.8
0.8
0.7
0.7
0.6
0.6
0.5
0.5
K-means
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
18/03/2014
0.2
0.4
0.6
0.8
0.6
0.8
Complete
Link
0.2
0.4
0.6
0.8
75
76
18/03/2014
77
Dos matrices
Matriz de Proximidad
Matriz de Incidencia
18/03/2014
78
0.9
0.9
0.8
0.8
0.7
0.7
0.6
0.6
0.5
0.5
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0.2
0.4
0.6
0.8
0.2
0.4
Corr = -0.9235
18/03/2014
0.6
0.8
Corr = -0.5810
Seminario de Data Mining - ESPE
79
1
0.9
0.8
0.7
Points
0.6
0.5
0.4
0.3
0.2
0.1
0
10
0.9
20
0.8
30
0.7
40
0.6
50
0.5
60
0.4
70
0.3
80
0.2
90
0.1
100
0
0.2
0.4
0.6
0.8
20
40
18/03/2014
60
80
0
100 Similarity
Points
80
10
0.9
0.9
20
0.8
0.8
30
0.7
0.7
40
0.6
0.6
50
0.5
0.5
60
0.4
0.4
70
0.3
0.3
80
0.2
0.2
90
0.1
0.1
100
20
40
60
80
0
100 Similarity
Points
0.2
Points
0.4
0.6
0.8
DBSCAN
18/03/2014
81
10
0.9
0.9
20
0.8
0.8
30
0.7
0.7
40
0.6
0.6
50
0.5
0.5
60
0.4
0.4
70
0.3
0.3
80
0.2
0.2
90
0.1
0.1
100
20
40
60
80
0
100 Similarity
Points
0.2
0.4
0.6
0.8
Points
K-means
18/03/2014
82
10
0.9
0.9
20
0.8
0.8
30
0.7
0.7
40
0.6
0.6
50
0.5
0.5
60
0.4
0.4
70
0.3
0.3
80
0.2
0.2
90
0.1
0.1
100
20
40
60
80
0
100 Similarity
Points
0.2
Points
0.4
0.6
0.8
Complete Link
18/03/2014
83
1
0.9
500
1
2
0.8
0.7
1000
0.6
1500
0.5
0.4
2000
0.3
0.2
2500
0.1
7
3000
500
1000
1500
2000
2500
3000
DBSCAN
18/03/2014
84
10
6
9
8
7
2
SSE
5
4
-2
3
2
-4
-6
5
10
15
10
15
20
25
30
18/03/2014
85
18/03/2014
86
Si el valor del ndice es improbable, luego los resultados del cluster son
vlidos
18/03/2014
87
Ejemplo
Comparar SSE de 0.005 contra tres clusters en datos
random
El histograma muestra el SSE de tres clusters en 500
conjuntos de puntos de datos random de tamao 100
distribuido en el rango 0.2 0.8 para valores de x e y
1
50
0.9
45
0.8
40
0.7
35
30
Count
0.6
0.5
0.4
20
0.3
15
0.2
10
0.1
0
25
5
0
0.2
0.4
0.6
18/03/2014
0.8
0
0.016 0.018
0.02
0.03
0.032 0.034
SSE
88
0.9
0.9
0.8
0.8
0.7
0.7
0.6
0.6
0.5
0.5
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0.2
0.4
0.6
Corr = -0.9235
18/03/2014
0.8
0.2
0.4
0.6
0.8
Corr = -0.5810
89
WSS = ( x mi ) 2
i xC i
B
S
S
18/03/2014
90
m1
K=1 cluster:
m2
WSS= (1 3) 2 + ( 2 3) 2 + ( 4 3) 2 + (5 3) 2 = 10
BSS= 4 (3 3) 2 = 0
Total = 10 + 0 = 10
K=2 clusters:
WSS = (1 1 . 5 ) 2 + ( 2 1 . 5 ) 2 + ( 4 4 . 5 ) 2 + ( 5 4 . 5 ) 2 = 1
BSS = 2 ( 3 1 . 5 ) 2 + 2 ( 4 . 5 3) 2 = 9
Total = 1 + 9 = 10
18/03/2014
91
cohesin
18/03/2014
separacin
Seminario de Data Mining - ESPE
92
(o s = b/a - 1
si a b, no el caso usual)
b
Tipicamente entre 0 y 1.
Cuanto ms prximo a 1 mejor.
93
18/03/2014
94
Bibliografa
R. Ng and J. Han. Efficient and effective clustering method for spatial data mining. In VLDB'94, pp. 144-155, Santiago, Chile, Sept. 1994.
E. Schikuta. Grid clustering: An efficient hierarchical clustering method for very large data sets. Proc. 1996 Int. Conf. on Pattern Recognition,
101-105.
M. Ester, H.-P. Kriegel, J. Sander, and X. Xu. A density-based algorithm for discovering clusters in large spatial databases. In KDD'96, pp. 226231, Portland, Oregon, August 1996.
W. Wang, Yang, R. Muntz, STING: A Statistical Information grid Approach to Spatial Data Mining, VLDB97, 1997.
S. Guha, R. Rastogi, and K. Shim. ROCK: A robust clustering algorithm for categorical attributes. In ICDE'99, pp. 512-521, Sydney, Australia,
March 1999.
R. Agrawal, J. Gehrke, D. Gunopulos, and P. Raghavan. Automatic subspace clustering of high dimensional data for data mining applications.
In SIGMOD'98, pp. 94-105, Seattle, Washington, June 1998.
G. Karypis, E.-H. Han, and V. Kumar. CHAMELEON: A Hierarchical Clustering Algorithm Using Dynamic Modeling. COMPUTER, 32(8): 68-75,
1999.
Wei Wang, Jiong Yang, Richard Muntz. STING+: an approach to active spatial data mining. ICDE 99, pp. 116-125. 1999.
T. Zhang, R. Ramakrishnan, and M. Livny. BIRCH: An efficient data clustering method for very large databases. In SIGMOD'96, pp. 103-114,
Montreal, Canada, June 1996.
S. Guha, R. Rastogi, and K. Shim. CURE: An efficient clustering algorithm for large databases. In SIGMOD'98, pp. 73-84, Seattle, Washington,
June 1998.
M. Ankerst, M. Breunig, H.-P. Kriegel, and J. Sander. Optics: Ordering points to identify the clustering structure. In SIGMOD'99, pp. 49-60,
Philadelphia, PA, June 1999.
V. Ganti, J. Gehrke, R. Ramakrishan. CACTUS Clustering Categorical Data Using Summaries. Proc. 1999 Int. Conf. Knowledge Discovery and
Data Mining (KDD'99), San Diego, CA, 261-270, Aug. 1999. (Journal version: citeseer)
M. M. Breunig, H.-P. Kriegel, R. Ng, J. Sander. LOF: Identifying Density-Based Local Outliers. In Proc. ACM SIGMOD Int. Conf. on
Management of Data (SIGMOD 2000), Dallas, TX, 2000, pp. 93-104.
H. Wang, W. Wang, J. Yang, and P.S. Yu. Clustering by pattern similarity in large data sets, Proc. the ACM SIGMOD International
Conference on Management of Data (SIGMOD), Madison, Wisconsin, 2002.
18/03/2014
95
18/03/2014
96