Agrupamento de Dados - Estudo de Algoritmos

UNIVERSIDADE FEDERAL DE UBERLNDIA
Alessandro Pereira Rezende, Renato Teixeira Nascimento

Trabalho de Agrupamento de Dados
Uberlndia, Brasil
2014
Lista de tabelas
Tabela 1 Informaes sobre as bases utilizadas . . . . . . . . . . . . . . . . . . . 7
Tabela 2 Informaes sobre conguraes dos algoritmos . . . . . . . . . . . . . 8
Tabela 3 Informaes sobre valores antes e depois do pr-processamentos na base
balance-scale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
Tabela 4 Informaes sobre pr-processamentos realizados nas bases . . . . . . . 9
Tabela 5 Resultado da Avaliao do K-Means . . . . . . . . . . . . . . . . . . . 9
Tabela 6 Resultado da Avaliao do X-Means . . . . . . . . . . . . . . . . . . . 9
Tabela 7 Resultado da Avaliao do DBSCAN . . . . . . . . . . . . . . . . . . . 9
Tabela 8 Algoritmo com melhor desempenho . . . . . . . . . . . . . . . . . . . . 10
Sumrio
1 MATERIAIS E MTODOS . . . . . . . . . . . . . . . . . . . . . . . 3
1.1 Algoritmos de Agrupamento . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.1 K-Means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.2 X-Means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.3 DBSCAN (Density-Based Spatial Clustering of Applications with Noise) . . 4
1.2 Medidas de Avaliao de Agrupamento . . . . . . . . . . . . . . . . . 6
1.2.1 Silhueta simplicada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.2 Rand Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 Bases de Dados utilizadas . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4 Resultados e discusso . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
Concluso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
Referncias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
ANEXO A RESULTADO DO AGRUPAMENTO EM ARQUIVO
NO FORMATA .CSV . . . . . . . . . . . . . . . . . . 12
ANEXO B CLCULO DA SILHUETA . . . . . . . . . . . . . . . 13
3
1 Materiais e mtodos
1.1 Algoritmos de Agrupamento
Os trs algoritmos utilizados para o agrupamento das bases de dados selecionadas
so denidos a seguir.
1.1.1 K-Means
Neste algoritmo, deve-se inicialmente estabelecer um nmero k de grupos que se
deseja obter para que ele busque a melhor forma de separar os objetos nestes k grupos.
A atribuio dos objetos aos k grupos um problema NP-hard, portanto geralmente
resolvido com heursticas ecientes que acabam encontrando resultados localmente timos.
O algoritmo utiliza o conceito de centroides como objetos abstratos, que no fazem
parte do conjunto de dados em questo, mas fazem parte do seu domnio, para representar
os centros dos k grupos. Os centroides so calculados pela mdia de todos os objetos de
um grupo.
Os passos a seguir descrevem o algoritmo k-mdias mais utilizado e descrito por
(MACKAY, 2003):
1. Selecionar k centroides aleatrios;
2. Comparar cada objeto com os k centroides e atribu-lo ao grupo do centroide
mais similar a ele;
3. Calcular um novo centroide para cada um dos k grupos;
4. Repetir os passos 2 e 3 at que os resultados convirjam.
A maior desvantagem deste algoritmo a necessidade de se selecionar um nmero
k de grupos previamente, o que exige que se saiba de antemo quantos grupos os objetos
do contexto devem formar, ou processar os objetos algumas vezes variando o valor de k at
que se encontre o valor ideal. Assim, compreende-se que o valor ideal de k extremamente
dependente da coleo de objetos que se deseja processar, porm, no necessrio denir
um GSM (Grau de Similaridade Mnima) de antemo (RIBACKI, 2013).
1.1.2 X-Means
O X-Means tem como entrada um intervalo de possveis valores de k (maior e
menor valor possvel para k . As sadas so os centros de cada grupo e o valor do k.
A ideia principal do algoritmo denida da seguinte forma: i)iniciar o algoritmo com
Captulo 1. Materiais e mtodos 4
k sendo o menor valor do intervalo e ii) acrescentar novos grupos at o maior valor do
intervalo. Durante o processo, o conjunto de grupos com o melhor resultado armazenado
(PELLEG; MOORE, 2000).
O algoritmo do X-Means denido da seguinte forma:
Entrada: minK, maxK
Sada: melhorK
1. Para K = minK at maxK faa
2. MelhorarParametros();
3. MelhorarEstrutura();
4. RegistraMelhorResultado();
5. Fim Para
6. melhorK = RetornarNroGrupos();
O procedimento MelhorarParametros() executa o K-means, a m de obter um
agrupamento. O procedimento que descobre onde os novos grupos devem aparecer o Me-
lhorarEstrutura(). Nessa etapa tambm ocorre a diviso de grupos em dois novos grupos,
usando duas diferentes estratgias propostas no trabalho. O mtodo RegistrarMelhor-
Resultado() armazena o melhor valor de k encontrado. O mtodo RetornarNroGrupos()
retorna o nmero de grupos nais encontrados pelo algoritmo (SILVA; ABREU, 2011).
1.1.3 DBSCAN (Density-Based Spatial Clustering of Applications with Noise)
Este algoritmo utiliza o conceito de vizinhana-psilon para determinar os agrupa-
mentos. Esto na vizinhana-psilon de um objeto todos aqueles objetos que esto a uma
distncia de at psilon dele, e se diz que estes objetos so alcanveis dentro da densidade
psilon. Considera-se que um objeto de ncleo (core object) se ele possui um nmero
mnimo de objetos em sua vizinhana-psilon. O objeto de ncleo e os seus vizinhos en-
to formam um novo agrupamento. Os objetos que fazem parte de um agrupamento e
no possuem o nmero mnimo de vizinhos so chamados objetos de fronteira (border
objects). Objetos sem o nmero mnimo de vizinhos que no sejam vizinhos de um objeto
de ncleo so chamados de rudo (noise) e no entram em nenhum agrupamento. O valor
de psilon e o nmero mnimo de vizinhos necessrios so parmetros do agrupamento
(RIBACKI, 2013).
O algoritmo pode ser denido pelos passos a seguir (ESTER, 1996):
1. Selecionar um objeto no visitado e encontrar todos os objetos vizinhos dele
dentro da densidade psilon;
2. Se o nmero de vizinhos maior ou igual ao nmero mnimo, marca-se o objeto
como de ncleo e atribui-se ele e todos os seus vizinhos a um novo grupo, removendo a
marca de rudo de eventuais vizinhos;
3. Se o nmero de vizinhos inferior ao nmero mnimo e ele no faz parte de
nenhum grupo, marca-se o objeto como rudo;
4. Caso dois grupos possuam algum objeto em comum, unicam-se os dois grupos;
5. Enquanto houver objetos que no tenham sido visitados ainda, volta-se ao passo
1; caso contrrio, termina-se o algoritmo.
Uma vantagem do DBSCAN que no se precisa denir previamente o nmero
de clusters a serem gerados, porm necessrio determinar o valor de psilon e o n-
mero mnimo de vizinhos. Isso pode ser problemtico nos casos em que no exista uma
combinao desses valores que satisfaa todos os grupos de um conjunto de dados a ser
classicado. Por outro lado, um grande diferencial do algoritmo a capacidade de encon-
trar grupos com formas arbitrrias, podendo inclusive encontrar grupos completamente
cercados por outros grupos (RIBACKI, 2013).
1.2 Medidas de Avaliao de Agrupamento
1.2.1 Silhueta simplicada
A avaliao de grupos pelo critrio da silhueta simplicada dada por um clculo
que utiliza da dissimilaridade mdia dos objetos ao centro do seu grupo e grupos vizinhos.
A silhueta simplicada um critrio relativo para validao de agrupamento que indica
qual a melhor dentre duas ou mais parties. A frmula da silhueta simplicada apre-
sentada nas Equaes 1 e 2, sendo que, a
p,i
a dissimilaridade mdia do i-simo objeto
ao seu grupo e b
p,i
a dissimilaridade mdia do i-simo objeto ao seu grupo vizinho mais
prximo (SILVA; ABREU, 2011).
(1)
Sx
i
=
b
p,i
a
p,i
max(a
p,i
, b
p,i
)
(2)
Silhueta =
1
N
N
i=1
Sx
i
1.2.2 Rand Index
O Rand Index um critrio externo para validao de agrupamento que mensura
a similaridade entre duas parties de dados. O clculo feito pela comparao de
duas matrizes, que so respectivamente, a matriz de similaridade do agrupamento que
formada por 1 na clula ij, se dois objetos i e j esto no mesmo grupo ou 0 caso contrrio
e a matriz de similaridade das classes que formada por 1 na clula ij, se dois objetos i e
j esto na mesma classe ou 0 caso contrrio. A frmula do Rand Index apresentada na
Equao 3, sendo que, f
00
o nmero de pares que pertencem a classes e grupos distintos;
f
01
o nmero de pares que pertencem a classes distintas e ao mesmo grupo; f
10
o
nmero de pares que pertencem mesma classe e a grupos distintos e f
11
o nmero de
pares que pertencem mesma classe e ao mesmo grupo (FARIA, 2014).
(3)
f
00
+ f
11
f
00
+ f
01
+ f
10
+ f
11
1.3 Bases de Dados utilizadas
Neste trabalho foram utilizadas quatro bases de dados, disponveis no site do UCI
(UCI, 2010)
Bases Instncias Atributos Tipos Descrio
Iris 150 4 real Base sobre tipos de planta ris
Breast-w 699 9 inteiro
Base sobre composio clular
para denir se ou no cncer
de mama
haberman 306 3 inteiro
Base sobre a sobrevida de pacientes
submetidos cirurgia para cncer
de mama
balance-scale 625 4 inteiro
Base sobre os resultados experimentais
para denir modelos psicolgicos
Tabela 1 Informaes sobre as bases utilizadas
1.4 Resultados e discusso
Os testes com os algoritmos K-Means, X-Means e DBSCAN foram realizados atra-
vs da ferramenta RapidMiner (RAPIDMINER, 2014) que um programa Open source
para Data Mining. O RapidMiner disponibiliza por padro a implementao dos 3 algo-
ritmos utilizados.
Primeiramente foram executados os algoritmos para gerao dos agrupamentos
das bases de dados informadas na sesso (1.3 Bases de Dados utilizadas), seguindo as
conguraes descritas na tabela a seguir:
Algoritmos Parmetros
K-Means K = 2
X-Means
K-Mnimo = 2
K-Mximo = 60
DBSCAN
Epsilon = 1
Min-Points = 5
Tabela 2 Informaes sobre conguraes dos algoritmos
Aps gerao dos agrupamentos, os resultados foram salvos em arquivos (.csv).
Esse processo pode ser visualizado no (ANEXO A Resultado do agrupamento em arquivo
no formata .csv). Os arquivos gerados foram utilizados na implementao do clculo do
Rand Index feita pelos autores em Java. Para o clculo da Silhueta foi utilizado o Plug-in
(CP plugin 0.1) para RapidMiner desenvolvido por (ROUSSEEUW, 1987) por meio da
linguagem Java. O processo realizado no RapidMiner pode ser visualizado no (ANEXO
B Clculo da Silhueta).
Inicialmente calculamos a Silhueta e Rand-Index sem fazer a normalizao dos
dados e constatamos que os valores dos dois critrios de avaliao caram abaixo dos
valores encontrados aps normalizao. A seguir exemplo dos valores antes e depois
do pr-processamentos na base balance-scale e informaes de quais pr-processamentos
foram realizados nas bases.
DBSCAN
Base Grupos SN Grupos CN Silhueta Mdia SN Silhueta Mdia CN
balance-scale 2 3 0.152 0.396
Base Grupos SN Grupos CN Rand Index SN Rand Index CN
balance-scale 2 3 0.4299 1
Tabela 3 Informaes sobre valores antes e depois do pr-processamentos na base
balance-scale
Pr-Processamento
Iris Normalizao pelo mtodo de re-escalar (0,1)
breast-w
Substituio de atributos nulos pela mdia e normalizao
pelo mtodo de re-escalar (0,1)
haberman Normalizaopelo mtodo de re-escalar (0,1)
balance-scale Normalizao pelo mtodo de re-escalar (0,1)
Tabela 4 Informaes sobre pr-processamentos realizados nas bases
Para avaliar o desempenho dos algoritmos, usou-se como medidas de avaliao o
mtodo da Silhueta simplicada e o Rand Index. A seguir os resultados das avaliaes.
K-Means
Bases Valor K Silhueta Mdia Rand Index
Iris 2 0.629 0.776
breast-w 2 0.594 0.920
haberman 2 0.393 0.632
balance-scale 2 0.182 0.531
Tabela 5 Resultado da Avaliao do K-Means
X-Means
Iris 4 0.398 0.818
breast-w 4 0.251 0.699
haberman 4 0.453 0.509
Tabela 6 Resultado da Avaliao do X-Means
DBSCAN
Iris 3 0.754 1.0
breast-w 2 0.405 0.549
haberman 12 0.725 1.0
Tabela 7 Resultado da Avaliao do DBSCAN
10
Concluso
Observando os dados informados nas tabelas de resultados das avaliaes dos al-
goritmos de agrupamento da sesso (1.4 Resultados e discusso), nota-se que houve dis-
crepncia entre os algoritmos no valor de k na base breast-w. Utilizando-se o algoritmo
X-Means o valor de k foi 4, enquanto que no DBSCAN o valor de k igual a 2. Como o
valor da Silhueta e Rand-Index do K-means na base breast maior, logo, pode-se armar
que o K-means obteve o melhor desempenho e temos que k = 2 o agrupamento timo
para essa base.
Nas avaliaes das outras bases o melhor algoritmo foi o DBSCAN, pois os re-
sultados das avaliaes para a Silhueta e o Rand-Index desse algoritmo foram maiores.
A diferena de resultados na base Irs foi pequena, mas ainda assim o DBSCAN obteve
melhor desempenho. Na base balance-scale o DBSCAN encontrou um grupo a mais e
tambm mostrou o melhor resultado das avaliaes.
A maior discrepncia foi encontrada na base haberman pois o K-means possui 2
grupos, o X-means encontrou 4 grupos e para o DBSCAN foram gerados 12 grupos com
Silhueta mdia de 0.396 e 1.0 de resultado para o Rand-Index. Como o DBSCAN obteve
o melhor desempenho para essa base, isso demostra que ao aumentar o nmero de grupos
foi melhorando a Silhueta mdia dos agrupamentos gerados para essa base, sendo que o
mesmo no ocorre com o Rand-Index que houve uma variao no linear.
Algoritmo com melhor desempenho por base
Bases Algoritmo
Iris DBSCAN
breast-w K-Means
haberman DBSCAN
balance-scale DBSCAN
Tabela 8 Algoritmo com melhor desempenho
A anlise dos algoritmos K-Means, X-Means e DBSCAN demostrou que em bases
com poucos atributos, o DBSCAN obteve melhor desempenho, enquanto que para bases
com vrios atributos e vrias instncias, como exemplo a base Breast-w, os trs algoritmos
demostraram desempenho semelhantes, porm o K-means obteve o melhor resultado.
Considerando que o nmero de bases testadas foi reduzido, os resultados obtidos so
prvios, necessitando de testes mais profundos para avaliaes mais assertivas.
11
Referncias
ESTER, M. A Density-Based Algorithm for Discovering Clusters in Large Spatial
Databases with Noise. 1996. Proceedings of 2nd International Conference on
Knowledge Discovery and Data Mining (KDD-96). Disponvel em: <http:
//citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.71.1980>. Acesso em: 15
agosto 2014. Citado na pgina 4.
FARIA, E. R. d. Aula 10 Tpicos Especiais em Computao: Agrupamento de Dados
Validao de Agrupamento. 2014. Site. Disponvel em: <http://www.facom.ufu.br/
~elaine/disc/Agrupamento/Aula10-ValidacaoAgrupamento.pdf>. Acesso em: 25 agosto
2014. Citado na pgina 6.
MACKAY, D. Chapter 20: An Example Inference Task: Clustering. 2003. Cambridge
University Press. p. 284 292. Disponvel em: <http://www.inference.phy.cam.ac.uk/
mackay/itprnn/ps/284.292.pdf>. Acesso em: 15 agosto 2014. Citado na pgina 3.
PELLEG, D.; MOORE, A. W. X-means: Extending k-means with ecient
estimation of the number of clusters. In: Proceedings of the Seventeenth International
Conference on Machine Learning. San Francisco, CA, USA: Morgan Kaufmann
Publishers Inc., 2000. (ICML 00), p. 727734. ISBN 1-55860-707-2. Disponvel em:
<http://dl.acm.org/citation.cfm?id=645529.657808>. Citado na pgina 4.
RAPIDMINER. Predictive Analytics, Data Mining, Self-service, Open source. 2014. Site.
Disponvel em: <http://rapidminer.com/>. Acesso em: 25 agosto 2014. Citado na
pgina 8.
RIBACKI, G. H. Um framework para agrupamento de dados. 2013. Site. Disponvel em:
<http://hdl.handle.net/10183/66090>. Acesso em: 15 agosto 2014. Citado 3 vezes nas
pginas 3, 4 e 5.
ROUSSEEUW, P. J. Silhouettes: A graphical aid to the interpretation and
validation of cluster analysis. Journal of Computational and Applied Mathematics,
v. 20, p. 5365, nov. 1987. ISSN 03770427. Disponvel em: <http://korek.
name/web/moje-tvorba/rapidminer-clustering_performance_plugin-average_
silhouette-cophenetic_coecient>. Citado na pgina 8.
SILVA, T. T.; ABREU, A. F. d. Avaliao de Algoritmos para Estimao do
Nmero de Grupos em Problemas de Minerao de Dados. 2011. Site. Disponvel em:
<http://www.uniube.br/eventos/entec/2011/arquivos/sistemas5.pdf>. Acesso em: 15
agosto 2014. Citado 2 vezes nas pginas 4 e 6.
UCI. Datasets. 2010. Site. Disponvel em: <http://repository.seasr.org/Datasets/UCI/>.
Acesso em: 25 agosto 2014. Citado na pgina 7.
12
ANEXO A Resultado do agrupamento em
arquivo no formata .csv
Figura 1 Rapid Miner - Resultado do agrupamento no formata .csv
13
ANEXO B Clculo da Silhueta
Figura 2 Rapid Miner - Clculo da Silhueta.

Agrupamento de Dados - Estudo de Algoritmos

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Agrupamento de Dados - Estudo de Algoritmos

Hochgeladen von

Copyright:

Verfügbare Formate

UNIVERSIDADE FEDERAL DE UBERLNDIA

Alessandro Pereira Rezende, Renato Teixeira Nascimento

Das könnte Ihnen auch gefallen