Beruflich Dokumente
Kultur Dokumente
(Clustering)
Contatos
E-mail/gtalk: alexandrecordel@gmail.com
greinaldo@fbv.edu.br
Site: http://www.alexandrecordel.com.br/fbv
F 1 0 1 1
a2 b M 0 0 1 1
. c F 1 1 1 0
. d F 1 0 0 0
.
e M 1 1 0 1
Nome
Sexo
Doena X
a1
a2
a3
a7
a10 a a9
5
a8
a4
a11
Doena Y
a6
Doena Z
Sintomas
Nmero de Clusters = 3
Conceito = Doena
Clusterizao versus
Classificao
Classificao
Aprendizado Supervisionado
Amostras de treinamento so classificadas
Nmero de Classes conhecido
Clusterizao
Aprendizado No Supervisionado
Aprendizado por Observao
Aprendizado Supervisionado
Apredizado No-Supervisionado
Tipos de Agrupamentos
O que um cluster ?
Como definir a noo de Cluster ?
Prottipos
Bem separados
Um cluster um conjunto de objetos no qual cada
objeto est mais prximo (ou mais similar) a
objetos dentro do cluster do que qualquer objeto
fora do cluster.
Baseados em Prottipos
Um cluster um conjunto de objetos no qual cada
objeto est mais prximo ao prottipo que define o
cluster do que dos prottipos de quaisquer outros
clusters.
Em geral: Prottipo = centride
O que um cluster ?
Baseados em Grafos
Boa definio quando os clusters
so irregulares e entrelaados.
b
a est perto de b
d(a,b) <
O que um cluster ?
Esta definio utilizada quando
os clusters so irregulares ou entrelaados
e quando ruido e outliers esto presentes.
Uma definio baseada em grafos no seria
adequada neste caso, pois os outliers
poderiam fazer uma ponte entre as regies
transformando-as em um nico cluster.
Os outliers seriam absorvidos nos clusters.
Baseados em Densidade
Um cluster uma regio densa rodeada
por uma regio de baixa densidade.
No exemplo, temos 3 clusters = 3 regies densas
A ponte de outliers ligando as duas esferas
foi dissolvida nos outros outliers.
O que um cluster ?
Clusters Conceituais
Tipos de Tcnicas de
Clusterizao
Particionamento
K-means:
K-medides: algoritmos PAM, CLARA,
CLARANS
Particional e baseada em prottipos.
Encontra um nmero k de clusters (k fornecido pelo
usurio) que so representados por seus centrides.
Particionamento
BD com n amostras
K = nmero de clusters
desejado ( parmetro )
Kn
Hierrquicas Aglomerativas
Hierrquicos Aglomerativos
BD com n amostras
K = nmero de clusters
desejado ( parmetro )
Kn
Hierrquicas Divisrias
Tipos de Tcnicas de
Clusterizao
Por densidade
Dados de Treinamento
Matriz de dados padronizados
Matriz de dissimilaridade
x11
x12
x13
...
x1n
...
x21
x22
x23
...
x2n
d(x1,x2)
...
x31
x32
x33
...
x3n
d(x1,x3) d(x2,x 3)
...
...
...
...
...
...
...
xp1
xp2
xp3
...
xpn
...
...
...
d(x1,xp) d(x2,x p)
Outras distncias
Manhattan
d(x,y) = |x1-y1|+ |x2-y2| + .... + |xp yp|
d(x,y) = m (x1-y1)m + (x2-y2)m+ .... + (xp yp)m
Minkowski
Distncia em geral
Qualquer funo d(x,y) N que satisfaz as seguintes
propriedades:
d(i,j) 0
d(i,i) = 0
d(i,j) = d(j,i)
d(i,k) d(i,j) + d(j,k) (desigualdade triangular)
Distncia poderada
d(x,y) =
Para documentos
|d1| |d2|
d2
Exercicio
Algoritmo K-means
Exemplo K = 3
+
+
+
2
1 Iterao
Algoritmo K-Means
1.
2.
Repeat
3.
4.
5.
Observaes
Objetivo
2
SSE = i= d(x,ci)
1 x Ci
K
Coeso
i = 1 x2 Ci
= coseno(x,ci)
Observao
Exerccio
1
3
4
5
6
7
8
9
12
13
11
14
15
16
10
17
1,9
7,3
3,4
7,5
2.5
6,8
1,5
6,5
3,5
6,4
2,2
5,8
3,4
5,2
3,6
3,2
10
4,5
2,4
11
2,6
12
1.9
13
2,7
14
1.9
2,4
15
0,8
16
1,6
1,8
17
Bibliografia
30