Beruflich Dokumente
Kultur Dokumente
DE PADR
OES EM DADOS M
EDICOS
Louren co Bueno
, Pyramo Costa
, Enderson Cruz
, Israel Mendes
, Daniel Leite
i=1
e
||v
i
z
i
||
2
2
2
i
(1)
onde v
i
e um elemento do vetor centro de um
grupo; z
i
e um elemento do vetor de dados de
um grupo; ||.||
2
e a norma 2;
i
e um fator de
dispersao; e k e um ndice de amostras.
A densidade D
t
das amostras de uma cole-
cao z
t
assemelha-se a distribui cao de probabili-
dade chamada de Parzen windows [12]. Isso pode
ser descrito pela fun cao de Cauchy [4]:
D
t
(z
t
) =
1
1 +
1
t1
t1
i=1
n+m
j=1
z
tj
z
ij
2
D
1
(z
1
) = 1; t = 2, 3, ...n (2)
D
t
(z
t
) e a densidade avaliada em torno da ultima
amostra do uxo de dados; n e a dimensao do ve-
tor de entrada; m e a dimensao do vetor de sada;
e t e um ndice de amostras.
Recursivamente, a densidade D
t
(z
t
) e calcu-
lada a partir da seguinte relacao:
D
t
(z
t
) =
t 1
(t 1)(
n+m
j=1
z
2
tj
+ 1) + b
t
2
n+m
j=1
z
tj
c
tj
D
1
(z
1
) = 1; t = 2, 3, ...n;
b
t
= b
t1
+
n+m
j=1
z
(t1)j
2;
b
1
= 0;
c
tj
= c
(t1)j
+ z
(t1)j
;
e c
1j
= 0; (3)
Conhecida como estimador recursivo de densidade
(RDE), a equa cao (3) e eciente para estimacao
online da densidade das amostras de um grupo.
RDE garante que as funcoes de pertinencia de con-
juntos fuzzy sejam formadas em torno de pontos
focais de grupos. Evitam-se problemas relaciona-
dos `a especicacao de limites de grupos atraves
do uso de fun coes de Cauchy. Diferentemente de
funcoes Gaussianas, funcoes de Cauchy nao se es-
palham ao innito, o que evita a ativacao de todas
as regras fuzzy para uma amostra.
Para cada interacao de (3), se o dado atual
e selecionado para ser o foco de um grupo, a sua
densidade sera determinada neste momento. A
densidade na vizinhan ca do ponto focal e atuali-
zada a partir de (ver [4]):
D
t
(z
i
) =
t 1
t 1 + (t 2)(
1
D
t1
(z
i
)
1)G
G =
n+m
j=1
(z
tj
z
(t1)j
)
D
t
(z
i
) = 1, t = 2, 3, ... (4)
onde i
representa o foco da i
-esimo grupo.
Um classicador fuzzy, conhecido como eClass
de ordem zero [2], usa o resultado de eClustering
+
na descricao de regras do tipo:
R
i
: SE (x
1
e X
i1
) E ... E (x
n
e X
in
)
ENT
AO (y
i
e Classe
c
)
Classe
c
e um rotulo de classe e X
ij
j sao funcoes
de pertinencia de Cauchy [8].
2.2 Metodo de Clusterizacao Evolutivo - eCM
O metodo eCM foi proposto para desenvolvimento
gradual da segunda camada de sistemas de infe-
rencia neuro-fuzzy evolutivos (DENFIS), ver [7].
Sua funcao e particionar o espa co de entrada em
grupos, de acordo com os dados de um uxo.
O metodo consiste na criacao e adaptacao
contnua de parametros de grupos de modo que
a distancia maxima de uma amostra x
i
ao centro
de qualquer grupo existente nao seja maior que
um certo limiar de distancia, D
thr
. Distancias sao
calculadas a partir da norma 2 (metrica Euclidi-
ana). Por exemplo, a distancia entre dois vetores,
x = (x
1
, ..., x
q
) e y = (y
1
, ..., y
q
), e dada por:
x y
2
=
i=1
|x
i
y
i
|
2
1/2
(5)
Neste caso x pode representar um vetor de dados,
e y um vetor contendo as coordenadas do centro
de um grupo.
Somente pontos centrais de clusters sao utili-
zados como prototipos em eCM; amostras de da-
dos sao lidas e descartadas. Mudancas no limiar
de distancia D
thr
alteram o n umero de grupos ge-
rados para um mesmo conjunto de dados. O algo-
ritmo de aprendizado incremental eCM e sumari-
zado a seguir em seis passos.
Passo1: Ler amostra x
k
, onde k = 1, ... e ndice de
tempo
Passo2: Se k = 1, criar cluster C
1
, com raio r
1
= 0 e
centro c
1
= x
k
Passo 1
Passo3: Calcular D =
x
k
c
j
2
, e S
k
= D + r
j
,
onde c
j
e o centro do cluster mais pr oximo,
r
j
e o raio deste cluster.
Passo4: Se D < r
j
, a amostra x
k
pertence `aquele
cluster. Passo 1
Passo5: Se S
k
> 2 D
thr
, entao criar cluster C
novo
com raio r
novo
= 0 e centro c
novo
= x
k
Passo 1
Passo6: Se S
k
< 2 D
thr
,ent ao o cluster C
j
e
expandido. O seu novo raio passa a ser:
r
atualizado
= S
k
/2 Passo 1
Em eCM, um cluster C
j
nao e mais atuali-
zado quando seu raio r
uj
atinge um valor igual ao
limiar D
thr
[7]. Note que, diferentemente do algo-
ritmo eClustering
+
(onde os grupos sao elipsoides
no espa co de entrada), o algoritmo eCM lida com
hiperesferas. Note tambem que o algoritmo eCM
descrito acima claramente enfatiza a essencia de
abordagens de aprendizado orientadas `a uxo de
dados. Amostras sao lidas e descartadas uma a
uma. Dados historicos sao dispensaveis, e a evo-
lu cao dos grupos acontece gradualmente, em uma
base incremental.
2.3 Metodo Granular Evolutivo - eGM
Modelos granulares evolutivos levam em conside-
racao a imprecisao e incerteza do valor dos dados
mensurados. Alem disso, informa cao baseada na
percep cao pode ser considerada como granulo de
informacao [11]. Por exemplo, sao dados possveis
de serem processados por algoritmos granulares:
x e pequeno, aproximadamente 90 e tempera-
tura alta. Em geral, dados granulares (interva-
los ou intervalos fuzzy) podem ser considerados.
Neste artigo processamos dados numericos (valo-
res reais) apenas. O algoritmo eGM original [10]
nao necessita ser alterado para este proposito.
Seja um uxo de dados de entrada e sada
(x, y)
[h]
, h = 1, ...; a sada y
[h]
e conhecida dada
a entrada x
[h]
ou sera conhecida no passo se-
guinte. Cada atributo x
j
de x = (x
1
, ..., x
n
) e
um valor real; y
[h]
e um rotulo de classe. Fun coes
de pertinencia trapezoidais M
i
j
= (l
i
j
,
i
j
,
i
j
, L
i
j
),
i = 1, ..., c; j = 1, ..., n sao consideradas neste es-
tudo. Grupos eGM sao hiper-retangulos fuzzy no
espa co de entrada. O n umero de grupos c e varia-
vel. Inicialmente, nao ha grupos.
O proposito de adaptar simultaneamente os
parametros e a estrutura de modelos fuzzy dina-
micos do tipo eGMe usar a informacao atual sobre
o processo para manter uma representacao atua-
lizada. Regioes de expansao E
i
, tais como:
E
i
= [L
i
, l
i
+ ], (6)
ajudam a decidir se novos dados de entrada per-
tencem a um granulo no espaco de entrada. sig-
nica a largura maxima que conjuntos fuzzy M
i
podem expandir para encapsular os dados x. Um
granulo M
i
e formado a partir de conjuntos fuzzy
M
i
, = 1, ..., .
Uma regra eGM (um grupo) e criada sempre
que um ou mais elementos de x nao pertencem `as
regioes de expansao E
i
de M
i
, i = 1, ..., c. Um
novo granulo M
c+1
e construdo a partir de con-
juntos fuzzy M
c+1
, L
i
] e atualizar o
n ucleo [
i
,
i
=1
(|x
l
i
| + 2|x
|
+2|x
| + |x
L
i
|) (7)
Note que neste artigo, x = (x, x, x, x) (um dado
granular trapezoidal) e degenerado em um valor
real, i.e. x = x = x, = x. A adapta cao procede
dependendo de onde o dado x
esta localizado em
relacao ao conjunto fuzzy. As condicoes para ex-
pansao do suporte sao:
SE x
[L
i
, l
i
] ENT
AO l
i
(new) = x
,
SE x
[L
i
, l
i
+ ] ENT
AO L
i
(new) = x
.
Parametros do n ucleo sao atualizados recursiva-
mente a partir de:
(new) =
(w
i
1)
i
+ x
w
i
(8)
(new) =
(w
i
1)
i
+ x
w
i
, (9)
onde w
i
e o n umero de vezes que o granulo M
i
foi escolhido para ser adaptado.
Regras eGM governando granulos M
i
sao do
tipo:
R
i
: SE x
1
e M
i
1
E ... E x
e M
i
ENT
AO y
i
= C
i
onde C
i
e um rotulo de classe. Note que a regra re-
sultante do agrupamento eGM e similar as regras
resultantes do agrupamento eCM e eClustering
+
.
A diferen ca essencial esta no algoritmo incremen-
tal de criacao e atualizacao dos grupos. Grupos
eCM sao hiperesferas no espaco de entrada. Gru-
pos eClustering
+
e eGM sao elipsoides e hiper-
retangulos, respectivamente.
3 Experimentos Computacionais
Utilizaram-se os metodos evolutivos abordados
anteriormente nos experimentos de classica cao
de dados de diagnostico medico. Foram utiliza-
dos dados do repositorio de aprendizado de ma-
quina da Universidade da California. As bases
de dados escolhidas sao: Heart Disease, Cancer,
Breast Cancer e Parkinson Telemonitoring. Um
sumario das caractersticas dessas bases de dados
e apresentado na Tabela 1. Essa lista o n umero de
atributos presentes nas amostras para cada uma
das bases de dados. Ela tambem indica a quan-
tidade de amostras referentes `a ausencia (Classe
0) ou presen ca (Classe 1) dos sintomas da doen ca
em um determinado paciente.
Note que as caractersticas das bases de dados
evidenciam um problema de agrupamento. Neste
tipo de problema os dados podem nao ser tem-
poralmente correlacionados. Neste caso, metodos
orientados a uxos tentam encontrar correlacoes
espaciais entre os dados [9]. Note tambem que o
n umero de amostras das diferentes bases de dados
e pequeno e a quantidade de atributos e razoavel.
Logo, a proposta do estudo apresentado nesta se-
cao e avaliar metodos evolutivos para esta classe
de problemas. O problema de agrupamento a par-
tir do uso de metodos evolutivos foi amplamente
discutido em [9] e [10]. O uso de metodos evo-
lutivos para construir modelos que encontram as
fronteiras de separacao das classes diferentemente
dos metodos adaptativos convencionais e justi-
cado por nao se ter informacao sobre qual estru-
tura adotar para o modelo. O proprio algoritmo
de aprendizagem determina a quantidade de mo-
delos locais (clusters, granulos) e, portanto, de-
termina uma possvel representacao para um pro-
cesso ou fenomeno. Os modelos locais mudam com
o tempo, sao mesclados e apagados, conforme a
necessidade, ate convergir no sentido de minimi-
zar uma medida de erro com relacao a uma dada
aproxima cao [9].
Tabela 1: Sumario das bases de dados
Base de dados Amostras por classe Atributos
Presente (1) Ausente (0) Total
Heart Disease 120 150 270 13
Cancer 212 357 569 30
Breast Cancer 458 241 699 10
Parkinson 147 48 195 22
Realizou-se 50 simula coes de uxos de dados
considerando ordens diversas de disponibiliza cao
das amostras. A precisao de cada metodo em clas-
sica coes corretas foi calculada a partir de:
Acc =
Acerto
Acerto + Erro
100%
(10)
Os resultados obtidos sao apresentados nas Tabe-
las 2 - 5 para os diferentes problemas.
Tabela 2: Resultado para Heart Disease
Acc Desvio N
de regras
eCM 69.25% 2.37% 11
eClustering
+
70.37% 1.19% 7
eGM 79.96% 1.52% 5
Tabela 3: Resultado para Cancer
Acc Desvio N
de regras
eCM 85.94% 2.32% 7
eClustering
+
81.54% 0.28% 6
eGM 82.80% 1.10% 4
Tabela 4: Resultado para Breast Cancer
Acc Desvio N
de regras
eCM 95.75% 0.88% 7
eClustering
+
96.48% 1.46% 6
eGM 95.50% 0.44% 3
Tabela 5: Resultado para Parkinson
Acc Desvio N
de regras
eCM 83.58% 1.00% 11
eClustering
+
82.56% 0.71% 5
eGM 88.22% 0.82% 5
Os resultados apresentados nas tabelas mos-
tram que existe uma imparcialidade quanto a elei-
cao do melhor metodo de agrupamento em proble-
mas de classica coes corretas para as bases de da-
dos consideradas. Contudo, pode-se observar que
o metodo eGM prove modelos com estruturas mais
compactas, menor quantidade de regras, ao con-
trario dos demais metodos avaliados. Isto e uma
caracterstica importante em certos tipos de situ-
acoes onde interpretabilidade de modelos e funda-
mental. No entanto, o eClustering
+
apresentou
melhores resultados na maioria dos experimen-
tos com rela cao ao desvio padrao. Finalmente,
concluiu-se a partir das analises dos experimen-
tos que o metodo eGM foi relativamente superior
aos demais metodos em termos da relacao preci-
sao/compactacao. Esta conclusao e valida apenas
para classica cao dos problemas medicos de me-
dio porte considerados, i.e., problemas contendo
entre 10 e 30 atributos e aproximadamente 450
amostras.
4 Conclusao
Investigou-se neste artigo o desempenho de dife-
rentes metodos de agrupamento incremental para
classicacao de dados medicos. Os metodos ana-
lisados foram os conhecidos evolving Fuzzy Clus-
tering (eClustering
+
); evolving Clustering Method
(eCM); e evolving Granulation Method (eGM). As
bases de dados avaliadas foram Heart Disease,
Cancer, Breast Cancer e Parkinson Telemonito-
ring. Apesar das restri coes de informa cao tem-
porais inerentes ao ambiente de processamento de
dados online, os metodos evolutivos avaliados ti-
veram um desempenho satisfatorio para classi-
ca cao. O eGM foi relativamente superior aos de-
mais metodos avaliados em termos da relac ao clas-
sica coes corretas/compactacao do modelo resul-
tante, embora os melhores resultados com rela cao
ao desvio padrao tenham sidos alcan cados pelo
eClustering
+
. No futuro, pretende-se aplicar to-
dos esses metodos evolutivos em problemas mul-
ticlasses para a deteccao e a classica cao de fa-
lhas em sistemas de engenharia e na modelagem
de sistemas dinamicos com incertezas variantes no
tempo, para que sejam feitas as comparacoes do
desempenho entre eles.
Referencias
[1] Angelov, P; Filev, D. (2003)On-line Design of
Takagi-Sugeno Models. Lecture Notes in Com-
puter Science (IFSA 2003) (T. Bilgi c, B. De Ba-
ets, O. Kaynak Eds.), pp. 576-584.
[2] Angelov, P.; Zhou, X. (2008) Evolving Fuzzy
Rule-Based Classiers from Data Streams.
IEEE Transactions on Fuzzy Systems, vol. 16
(6), Special Issue on Evolving Fuzzy Systems,
pp. 1462-1475.
[3] Angelov, P.; Filev, D.; Kasabov, N. (2010)
(Eds.) Evolving Intelligent Systems: Methodo-
logy and Applications. Wiley-IEEE Press Series
on Computational Intelligence.
[4] Angelov, P.; Filev, D. (2004) An Approach to
On-line Identication of Takagi-Sugeno Fuzzy
Models. IEEE Transactions on System, Man,
and Cybernetics - Part B, vol. 34 (1), pp. 484-
498.
[5] Babuska, R. (1998) Fuzzy Modelling for Con-
trol. Kluwer Publishers - Dordrecht.
[6] Kasabov, N. (1999) Evolving Connectionist
Systems: A Theory and a Case Study on Adap-
tative Speech Recognition. IEEE Transactions
on Fuzzy Systems, vol. 8, pp. 3002-3007.
[7] Kasabov, N. (2007) Evolving Connectio-
nist Systems. Springer - Verlag, London &
Hall/CRC.
[8] Kuncheva, L. (2000) Fuzzy Classiers.
Physica-Verlag.
[9] Leite, D. (2012) Evolving Granular Systems.
PhD Thesis University of Campinas, pp. 170,
Jun.
[10] Leite, D. Ballini, R. Costa, P. Gomide,
F. (2013) Evolving Fuzzy Granular Modeling
from Nonstationary Fuzzy Data Streams. Evol-
ving Systems, vol. 38, pp. 1-16.
[11] Pedrycz, W. (2005) Knowledge-Based Clus-
tering: From Data to Information Granules.
John Wiley & Sons.
[12] Specht, D. (1991) A General Regression
Neural Network. IEEE Transactions on Neu-
ral Networks, vol. 2 (6), pp. 568-576.
[13] Watts, M. (2009) A Decade of Kasabov
Evolving Connectionist Systems: A Review.
IEEE Transactions on System, Man and Cy-
bernetics - Part C, vol. 39, pp. 253-269.
[14] Yager, R.; Filev D. (1994) Approximate
Clustering via the Mountain Method. IEEE
Transactions on Systems and Cybernetics, vol.
24 (8), pp. 1279-1284.