Beruflich Dokumente
Kultur Dokumente
i=1
Sx
i
1.2.2 Rand Index
O Rand Index um critrio externo para validao de agrupamento que mensura
a similaridade entre duas parties de dados. O clculo feito pela comparao de
duas matrizes, que so respectivamente, a matriz de similaridade do agrupamento que
formada por 1 na clula ij, se dois objetos i e j esto no mesmo grupo ou 0 caso contrrio
e a matriz de similaridade das classes que formada por 1 na clula ij, se dois objetos i e
j esto na mesma classe ou 0 caso contrrio. A frmula do Rand Index apresentada na
Equao 3, sendo que, f
00
o nmero de pares que pertencem a classes e grupos distintos;
f
01
o nmero de pares que pertencem a classes distintas e ao mesmo grupo; f
10
o
nmero de pares que pertencem mesma classe e a grupos distintos e f
11
o nmero de
pares que pertencem mesma classe e ao mesmo grupo (FARIA, 2014).
(3)
f
00
+ f
11
f
00
+ f
01
+ f
10
+ f
11
Captulo 1. Materiais e mtodos 7
1.3 Bases de Dados utilizadas
Neste trabalho foram utilizadas quatro bases de dados, disponveis no site do UCI
(UCI, 2010)
Bases Instncias Atributos Tipos Descrio
Iris 150 4 real Base sobre tipos de planta ris
Breast-w 699 9 inteiro
Base sobre composio clular
para denir se ou no cncer
de mama
haberman 306 3 inteiro
Base sobre a sobrevida de pacientes
submetidos cirurgia para cncer
de mama
balance-scale 625 4 inteiro
Base sobre os resultados experimentais
para denir modelos psicolgicos
Tabela 1 Informaes sobre as bases utilizadas
Captulo 1. Materiais e mtodos 8
1.4 Resultados e discusso
Os testes com os algoritmos K-Means, X-Means e DBSCAN foram realizados atra-
vs da ferramenta RapidMiner (RAPIDMINER, 2014) que um programa Open source
para Data Mining. O RapidMiner disponibiliza por padro a implementao dos 3 algo-
ritmos utilizados.
Primeiramente foram executados os algoritmos para gerao dos agrupamentos
das bases de dados informadas na sesso (1.3 Bases de Dados utilizadas), seguindo as
conguraes descritas na tabela a seguir:
Algoritmos Parmetros
K-Means K = 2
X-Means
K-Mnimo = 2
K-Mximo = 60
DBSCAN
Epsilon = 1
Min-Points = 5
Tabela 2 Informaes sobre conguraes dos algoritmos
Aps gerao dos agrupamentos, os resultados foram salvos em arquivos (.csv).
Esse processo pode ser visualizado no (ANEXO A Resultado do agrupamento em arquivo
no formata .csv). Os arquivos gerados foram utilizados na implementao do clculo do
Rand Index feita pelos autores em Java. Para o clculo da Silhueta foi utilizado o Plug-in
(CP plugin 0.1) para RapidMiner desenvolvido por (ROUSSEEUW, 1987) por meio da
linguagem Java. O processo realizado no RapidMiner pode ser visualizado no (ANEXO
B Clculo da Silhueta).
Inicialmente calculamos a Silhueta e Rand-Index sem fazer a normalizao dos
dados e constatamos que os valores dos dois critrios de avaliao caram abaixo dos
valores encontrados aps normalizao. A seguir exemplo dos valores antes e depois
do pr-processamentos na base balance-scale e informaes de quais pr-processamentos
foram realizados nas bases.
DBSCAN
Base Grupos SN Grupos CN Silhueta Mdia SN Silhueta Mdia CN
balance-scale 2 3 0.152 0.396
Base Grupos SN Grupos CN Rand Index SN Rand Index CN
balance-scale 2 3 0.4299 1
Tabela 3 Informaes sobre valores antes e depois do pr-processamentos na base
balance-scale
Captulo 1. Materiais e mtodos 9
Pr-Processamento
Iris Normalizao pelo mtodo de re-escalar (0,1)
breast-w
Substituio de atributos nulos pela mdia e normalizao
pelo mtodo de re-escalar (0,1)
haberman Normalizaopelo mtodo de re-escalar (0,1)
balance-scale Normalizao pelo mtodo de re-escalar (0,1)
Tabela 4 Informaes sobre pr-processamentos realizados nas bases
Para avaliar o desempenho dos algoritmos, usou-se como medidas de avaliao o
mtodo da Silhueta simplicada e o Rand Index. A seguir os resultados das avaliaes.
K-Means
Bases Valor K Silhueta Mdia Rand Index
Iris 2 0.629 0.776
breast-w 2 0.594 0.920
haberman 2 0.393 0.632
balance-scale 2 0.182 0.531
Tabela 5 Resultado da Avaliao do K-Means
X-Means
Bases Valor K Silhueta Mdia Rand Index
Iris 4 0.398 0.818
breast-w 4 0.251 0.699
haberman 4 0.453 0.509
balance-scale 2 0.182 0.536
Tabela 6 Resultado da Avaliao do X-Means
DBSCAN
Bases Valor K Silhueta Mdia Rand Index
Iris 3 0.754 1.0
breast-w 2 0.405 0.549
haberman 12 0.725 1.0
balance-scale 3 0.396 1.0
Tabela 7 Resultado da Avaliao do DBSCAN
10
Concluso
Observando os dados informados nas tabelas de resultados das avaliaes dos al-
goritmos de agrupamento da sesso (1.4 Resultados e discusso), nota-se que houve dis-
crepncia entre os algoritmos no valor de k na base breast-w. Utilizando-se o algoritmo
X-Means o valor de k foi 4, enquanto que no DBSCAN o valor de k igual a 2. Como o
valor da Silhueta e Rand-Index do K-means na base breast maior, logo, pode-se armar
que o K-means obteve o melhor desempenho e temos que k = 2 o agrupamento timo
para essa base.
Nas avaliaes das outras bases o melhor algoritmo foi o DBSCAN, pois os re-
sultados das avaliaes para a Silhueta e o Rand-Index desse algoritmo foram maiores.
A diferena de resultados na base Irs foi pequena, mas ainda assim o DBSCAN obteve
melhor desempenho. Na base balance-scale o DBSCAN encontrou um grupo a mais e
tambm mostrou o melhor resultado das avaliaes.
A maior discrepncia foi encontrada na base haberman pois o K-means possui 2
grupos, o X-means encontrou 4 grupos e para o DBSCAN foram gerados 12 grupos com
Silhueta mdia de 0.396 e 1.0 de resultado para o Rand-Index. Como o DBSCAN obteve
o melhor desempenho para essa base, isso demostra que ao aumentar o nmero de grupos
foi melhorando a Silhueta mdia dos agrupamentos gerados para essa base, sendo que o
mesmo no ocorre com o Rand-Index que houve uma variao no linear.
Algoritmo com melhor desempenho por base
Bases Algoritmo
Iris DBSCAN
breast-w K-Means
haberman DBSCAN
balance-scale DBSCAN
Tabela 8 Algoritmo com melhor desempenho
A anlise dos algoritmos K-Means, X-Means e DBSCAN demostrou que em bases
com poucos atributos, o DBSCAN obteve melhor desempenho, enquanto que para bases
com vrios atributos e vrias instncias, como exemplo a base Breast-w, os trs algoritmos
demostraram desempenho semelhantes, porm o K-means obteve o melhor resultado.
Considerando que o nmero de bases testadas foi reduzido, os resultados obtidos so
prvios, necessitando de testes mais profundos para avaliaes mais assertivas.
11
Referncias
ESTER, M. A Density-Based Algorithm for Discovering Clusters in Large Spatial
Databases with Noise. 1996. Proceedings of 2nd International Conference on
Knowledge Discovery and Data Mining (KDD-96). Disponvel em: <http:
//citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.71.1980>. Acesso em: 15
agosto 2014. Citado na pgina 4.
FARIA, E. R. d. Aula 10 Tpicos Especiais em Computao: Agrupamento de Dados
Validao de Agrupamento. 2014. Site. Disponvel em: <http://www.facom.ufu.br/
~elaine/disc/Agrupamento/Aula10-ValidacaoAgrupamento.pdf>. Acesso em: 25 agosto
2014. Citado na pgina 6.
MACKAY, D. Chapter 20: An Example Inference Task: Clustering. 2003. Cambridge
University Press. p. 284 292. Disponvel em: <http://www.inference.phy.cam.ac.uk/
mackay/itprnn/ps/284.292.pdf>. Acesso em: 15 agosto 2014. Citado na pgina 3.
PELLEG, D.; MOORE, A. W. X-means: Extending k-means with ecient
estimation of the number of clusters. In: Proceedings of the Seventeenth International
Conference on Machine Learning. San Francisco, CA, USA: Morgan Kaufmann
Publishers Inc., 2000. (ICML 00), p. 727734. ISBN 1-55860-707-2. Disponvel em:
<http://dl.acm.org/citation.cfm?id=645529.657808>. Citado na pgina 4.
RAPIDMINER. Predictive Analytics, Data Mining, Self-service, Open source. 2014. Site.
Disponvel em: <http://rapidminer.com/>. Acesso em: 25 agosto 2014. Citado na
pgina 8.
RIBACKI, G. H. Um framework para agrupamento de dados. 2013. Site. Disponvel em:
<http://hdl.handle.net/10183/66090>. Acesso em: 15 agosto 2014. Citado 3 vezes nas
pginas 3, 4 e 5.
ROUSSEEUW, P. J. Silhouettes: A graphical aid to the interpretation and
validation of cluster analysis. Journal of Computational and Applied Mathematics,
v. 20, p. 5365, nov. 1987. ISSN 03770427. Disponvel em: <http://korek.
name/web/moje-tvorba/rapidminer-clustering_performance_plugin-average_
silhouette-cophenetic_coecient>. Citado na pgina 8.
SILVA, T. T.; ABREU, A. F. d. Avaliao de Algoritmos para Estimao do
Nmero de Grupos em Problemas de Minerao de Dados. 2011. Site. Disponvel em:
<http://www.uniube.br/eventos/entec/2011/arquivos/sistemas5.pdf>. Acesso em: 15
agosto 2014. Citado 2 vezes nas pginas 4 e 6.
UCI. Datasets. 2010. Site. Disponvel em: <http://repository.seasr.org/Datasets/UCI/>.
Acesso em: 25 agosto 2014. Citado na pgina 7.
12
ANEXO A Resultado do agrupamento em
arquivo no formata .csv
Figura 1 Rapid Miner - Resultado do agrupamento no formata .csv
13
ANEXO B Clculo da Silhueta
Figura 2 Rapid Miner - Clculo da Silhueta.