Beruflich Dokumente
Kultur Dokumente
Universidade de So Paulo
para
obteno do ttulo
de
Mestre em Bioinformtica
Programa: Interunidades em Bioinformtica
Orientador: Prof. Dr. Jos Augusto Baranauskas
Agradecimentos
Agradeo primeiramente a Deus, pelas oportunidades que sempre me forneceu e pelas
bnos ao longo de minha vida.
Aos meus pais, Waldemar e Mitsuko, a quem devo tudo. Sem eles no chegaria aonde
cheguei e no seria metade da pessoa que sou hoje. Agradeo por todo amor e carinho,
pela incrvel dedicao, pela fora e garra, e por todas as oportunidades que sempre me
ofereceram.
A toda minha famlia, por todo o apoio e amor que sempre dedicaram a mim, por sempre
acreditar em mim e me incentivar.
Agradeo ao meu namorado, Silvio, por todo o amor, carinho, pacincia, amizade e apoio
que sempre me deu! Se cheguei at aqui, com toda a certeza, foi porque ele esteve ao meu
lado me incentivando sempre!
A meu grande amigo Newton, por toda a sua pacincia, companheirismo, alegria, pela
sua maravilhosa amizade!
Ao meu orientador, Prof. Jos Augusto Baranauskas, por ter sido um excelente professor
e orientador, por toda a ajuda e apoio no desenvolvimento deste projeto, pela pacincia em
me ensinar e ajudar e por toda a sabedoria compartilhada.
iii
Resumo
Random Forest
mente sobre grandes bases de dados. Ela tem sido usada em muitos projetos de pesquisa
recentes e aplicaes do mundo real em diversos domnios, entre eles a bioinformtica uma
vez que a
Random Forest
cos exemplos. Porm, ela de difcil compreenso para especialistas humanos de diversas
reas. A pesquisa de mestrado aqui relatada tem como objetivo criar um modelo simblico,
ou seja, uma nica rvore a partir da
Random Forest
de expresso gnica. Almeja-se assim, aumentar a compreenso por parte dos especialistas
humanos sobre o processo que classica os exemplos no mundo real tentando manter um
bom desempenho. Os resultados iniciais obtidos com o algoritmo aqui proposto so promissores, uma vez que ela apresenta, em alguns casos, desempenho melhor do que outro
algoritmo amplamente utilizado (J48) e um pouco inferior
Random Forest.
Alm disso, a
rvore criada apresenta, no geral, tamanho menor do que a rvore criada pelo algoritmo J48.
Random Forest,
Simblico.
iv
Abstract
Random Forest is a computationally ecient technique which can operate quickly over
large datasets. It has been used in many research projects and recent real-world applications
in several elds, including bioinformatics since Random Forest can handle datasets having
many attributes, and few examples. However, it is dicult for human experts to understand
it. The research reported here aims to create a symbolic model, i.e. a single tree from a
Random Forest for the classication of gene expression datasets. Thus, we hope to increase
the understanding by human experts on the process that classies the examples in the
real world trying to keep a good performance. Initial results obtained from the proposed
algorithm are promising since it presents in some cases performance better than other widely
used algorithm (J48) and a slightly lower than a Random Forest. Furthermore, the induced
tree presents, in general, a smaller size than the tree built by the algorithm J48.
Keywords: Machine Learning, Random Forest, Gene Expression, Symbolic Classier.
Lista de Figuras
2.1
10
2.2
. . . . . . . . . . . . . . . . . . . . . .
10
2.3
11
2.4
. . . . . . . . . . . . . . . . . . .
11
2.5
. . . . . . . . . . . . . . . . . . . . . . .
12
2.6
14
2.7
3.1
folds
Bagging
(a) e
Random Forest
(b) . . . . . . . .
2010) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2
20
3.3
17
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
21
3.4
3.5
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
3.6
Ribose. Adaptado de (Alberts, Johnson, Lewis, Ra, Roberts & Walter 2010)
23
3.7
Base nitrogenada Uracila. Adaptado de (Klug, Cummings, Palladino & Spencer 2010) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.8
3.9
25
3.10
23
Splicing
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
Walter 2010)
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
32
3.11
Microarray
4.1
vi
. . . .
44
4.2
44
5.1
. . . . . . . . . . . . . . .
51
5.2
. . . . . . . . . . . . . .
51
B.1
83
B.2
83
B.3
. . . . . . . . . . . . . . . . . .
83
B.4
. . . . . . . . . . . . . . . . . .
83
B.5
. . . . . . . . . .
83
B.6
83
B.7
83
B.8
83
B.9
84
B.10 Frequncia dos 10 atributos mais usados em todas bases. O eixo x corresponde
ao nmero do atributo e o eixo y corresponde frequncia. Embora todos os
eixos y tenham cado em um intervalo de 0 e 1, este intervalo varia em alguns
grcos para melhor visualizao.
. . . . . . . . . . . . . . . . . . . . . . . .
B.11 Frequncia dos 10 atributos mais usados em todas bases usando o erro
of-bag
estimado.
of-bag
estimado e
out-
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
B.12 Frequncia dos 10 atributos mais usados em todas bases usando o erro
minN um = 5.
86
87
out-
. . . . . . . . . . . . . . . . . . . . . . . .
89
Lista de Tabelas
2.1
2.2
. . . . . . . . . . . . . . . . . . . . . .
2.3
11
2.4
11
3.1
rank
5.1
5.2
mdio. . . .
52
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
53
54
5.3
log10
5.4
5.5
5.6
24
. . . . . . . . . . . . . . . . . . . . . . . .
55
55
Random Tree
. . . . . . . . . . . . . . . . . . . . . . . .
5.7
A.1
. . . . . . . . . . . . . . . . . . . . . .
56
56
n indica o n-
D2
D1 , D2 , D3
em ordem crescente.
. . . . . . . . . . . . . . . . . . . . .
72
A.2
75
B.1
rank
viii
80
B.2
B.3
82
minN um
rank
. . . . . . . . . . .
88
Sumrio
Lista de Figuras
vi
Lista de Tabelas
viii
Sumrio
Introduo
1.1
Motivao
1.2
Objetivo .
1.3
Organizao do Trabalho .
Conceitos Computacionais
2.1
Aprendizado de Mquina .
5
.
2.1.1
Conceitos Bsicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.2
rvores de Deciso
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
2.1.3
Mtodos
Ensemble
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
2.1.4
2.1.5
2.2
Bagging . . .
Random Trees
&
Random Forests
Consideraes Finais .
. . . . . . . . . . . . . . . . . . . .
16
18
Conceitos Biolgicos
3.1
19
19
3.1.1
DNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
3.1.2
RNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
3.1.3
Expresso gnica
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
3.1.4
Microarrays
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
3.2
Consideraes Finais .
33
5
6
Proposta Metodolgica
34
4.1
Trabalhos Relacionados
34
4.2
36
4.3
41
4.4
Consideraes Finais .
43
46
5.1
49
5.2
Consideraes Finais .
50
Concluses
57
6.1
58
6.2
Trabalhos Futuros .
58
Referncias Bibliogrcas
A
B
59
Bases de Dados
71
A.1
71
A.2
73
Experimentos Realizados
76
B.1
Mtricas de densidade .
76
B.2
Experimento 1
78
B.3
Experimento 2
85
Captulo
Introduo
sabido que uma combinao de opinies leva, na maior parte das vezes, a uma deciso
melhor do que uma deciso tomada por um nico indivduo. Por exemplo, em um ambiente
mdico, casos difceis so melhores solucionados por uma junta composta de vrios mdicos
(e assim, por vrias opinies) do que por um nico mdico.
Na rea de aprendizado de mquina isto tambm vlido, uma vez que esperado
que a combinao de classicadores apresente um desempenho melhor do que um nico
classicador (Witten & Frank 1999). Assim, h um grande interesse de pesquisa na rea
de aprendizado de mquina no que diz respeito a
ensembles
2004) mtodos que geram muitos classicadores e combinam os seus resultados. amplamente aceito que o desempenho de um conjunto de muitos classicadores fracos geralmente
melhor do que um nico classicador, dada a mesma quantidade de informao de treinamento (Sirikulviriya & Sinthupinyo 2011). Os mtodos
so
boosting
dom Forests
bagging
ensembles
amplamente conhecidos
Ran-
Random Forests
ensemble
MOTIVAO
constri muitas rvores de deciso as quais so utilizadas para classicar um novo exemplo.
Random Forest
caractersticas que a tornam ideal para bases de expresso gnica (Daz-Uriarte & de Andrs
2006).
A anlise de dados de expresso gnica importante para a medicina e biologia uma vez
que auxilia no diagnstico de doenas, ajuda no entendimento da resposta de uma doena
uma droga, proporciona prognsticos precisos para pacientes especcos, entre outros (Klassen, Cummings & Saldaa 2008). Porm, bases de expresso gnica tipicamente possuem
muitos atributos e poucas amostras (exemplos) devido diculdade de coletar e processar
amostras, especialmente para dados obtidos a partir de humanos (Klassen, Cummings &
Saldaa 2008). Essa caracterstica diculta o processo de classicao, pois h muitos atributos irrelevantes e redundantes. Sistemas de aprendizado de mquina so adequados para
este problema, mas eles precisam lidar com altos nveis de rudo, uma vez que geralmente,
somente um pequeno nmero de genes relevante para um determinado problema (Nanni,
Brahnam & Lumini 2012).
1.1
Motivao
Atualmente,
Random Forest
um mtodo de aprendizado
ensemble
amplamente utili-
Forest
Random
apresenta uma srie de caractersticas que a tornam ideal para bases de dados de
expresso gnica: pode ser usada quando h muito mais atributos do que exemplos; pode ser
usada para problemas de duas classes ou problemas multi-classe; tem um bom desempenho
preditivo mesmo quando a maioria das variveis preditivas so rudos e, portanto, no necessita de uma pr-seleo de genes; no superajusta; pode lidar com uma mistura de atributos
nominais e numricos e h pouca necessidade de ajustar os parmetros para alcanar um
bom desempenho.
Porm, mesmo a
ela de difcil compreenso para especialistas humanos. Em geral, mais fcil compreender
como uma nica rvore de deciso classica um novo exemplo do que um conjunto de rvores.
Neste sentido, o estudo realizado neste trabalho busca um aumento de compreensibilidade
OBJETIVO
a partir de uma
o bom desempenho da
Random Forest.
Todavia, deve-se ressaltar que segundo (Gamberger, Lavrac, Zelezny & Tolar 2004), classicadores mais simples, como o aqui proposto, podem apresentar uma qualidade preditiva
(desempenho) mais baixa do que classicadores mais complexos, como por exemplo
Random
Forest. Alm disso, de acordo com Tan, Steinbach & Kumar (2005) o uso de uma combinao
de classicadores aumenta a taxa de acerto se comparado a rvores de deciso obtidas por
abordagens mais simples; porm, perde-se uma estrutura facilmente interpretvel.
1.2
Objetivo
O objetivo geral do presente trabalho analisar se a gerao de uma nica rvore a partir
das rvores de uma
Random Forest
Random Forest, uma vez que sabido que a Random Forest apresenta um bom desempenho
em bases de dados de expresso gnica (Pang, Lin, Holford, Enerson, Lu, Lawton, Floyd &
Zhao 2006; Daz-Uriarte & de Andrs 2006). Com isso o trabalho aqui desenvolvido poder
facilitar a compreenso por parte dos especialistas humanos sobre o processo que classica
os exemplos no mundo real.
Os objetivos especcos so:
Random Forest
Random Forest a m
comparar o desempenho da criao de uma rvore, proposta neste trabalho, ao desempenho de outros algoritmos amplamente conhecidos como a
Random Tree ;
comparar as rvores geradas por diferentes algoritmos a m de descobrir se suas estruturas (ns utilizados) so semelhantes ou no, por meio de medidas j existentes e
medidas que foram propostas neste estudo.
ORGANIZAO DO TRABALHO
1.3
Organizao do Trabalho
O presente trabalho est organizado da seguinte maneira: no Captulo 2 so apresentados alguns conceitos computacionais utilizados no desenvolvimento deste projeto, incluindo
aprendizado de mquina, mtodos
ensemble
A metodologia aqui proposta e a descrio de experimentos realizados encontram-se no Captulo 4. No Captulo 5 so discutidos os resultados obtidos e as concluses. No Apndice A so
descritas as bases de dados utilizadas no desenvolvimento deste trabalho. No Apndice B so
descritos alguns experimentos adicionais realizados, seus resultados e as concluses obtidas.
Captulo
Conceitos Computacionais
Neste captulo sero apresentados alguns conceitos computacionais utilizados no projeto,
como por exemplos conceitos sobre Aprendizado de Mquina, rvores de deciso e
Random
Forest.
2.1
Aprendizado de Mquina
Aprendizado de Mquina (AM) uma rea de Inteligncia Articial (IA) que visa o
desenvolvimento de tcnicas computacionais capazes de adquirir conhecimento de forma
automtica. Um sistema de aprendizado um algoritmo que toma decises baseado em
experincias acumuladas por meio da soluo bem sucedida de problemas anteriores (Weiss
& Kulikowski 1991).
Por exemplo, para classicar pacientes entre doente ou saudvel (com cncer ou no, por
exemplo), pode-se analisar o nvel de expresso gnica de cada caso, pois as vezes um gene
mais ou menos expresso do que o normal pode causar tal doena (cncer).
Aprendizado de Mquina permite obter concluses genricas sobre um conjunto particular de exemplos, sendo realizado a partir de raciocnio sobre exemplos fornecidos por um
APRENDIZADO DE MQUINA
Classicador
Dado um conjunto de exemplos de treinamento, um indutor (ou algoritmo de aprendizado) gera como sada um
conceito) de
classicador
(tambm denominado
ou
descrio de
forma que, dado um novo exemplo, ele possa predizer precisamente sua classe.
f (xi )
hiptese
(xi , f (xi ))
onde
xi
a entrada e
funo
h()
hiptese
que aproxima
f (),
f (),
ou seja,
h(xi ) f (xi ).
h()
chamada uma
APRENDIZADO DE MQUINA
yi ,
o rtulo ou
classe,
(xi , yi )
possui
meta que se deseja aprender e poder fazer previses a respeito. Um exemplo no-rotulado
xi
consiste do exemplo, exceto o rtulo, ou seja, um vetor de valores dos atributos. Os rtulos
so tipicamente pertencentes a um conjunto discreto (nominal) de classes
no caso de
classicao
regresso.
{C1 , C2 , . . . , Ck }
classicao.
Um
conjunto de exemplos
com
= 1, 2, . . . , n)
exemplo
xij
refere-se ao valor do
j -simo (j = 1, 2, . . . , a)
Xj
do
i.
Tabela 2.1:
X1
X2
Xa
z1
z2
x11
x21
x12
x22
x1a
x2a
y1
y2
.
.
.
.
.
.
.
.
.
..
.
.
.
.
.
.
zn
xn1
xn2
...
xna
yn
denotados por
(xi , yi ),
xi
X 1 X2 . . . X a
yi
tambm
atributo
classes, isto ,
um elemento do
yi {C1 , C2 , . . . , Ck }.
Medidas de desempenho
Em Aprendizado de Mquina, utilizam-se algumas medidas para avaliar o desempenho
do classicador. Dentre tais medidas, pode-se citar: taxa de erro, taxa de acerto e AUC.
A taxa de erro de um classicador
Equao 2.1, onde
n o nmero de exemplos, yi
yi = h(xi ),
ento
i e h(xi )
h.
caso contrrio,
APRENDIZADO DE MQUINA
err(h) =
1X
||yi 6= h(xi )||
n i=1
(2.1)
acc(h) = 1 err(h)
(2.2)
As taxas de erro e acerto tambm podem ser obtidas por meio de uma matriz de confuso. A matriz de confuso uma matriz cuja dimenso corresponde ao nmero de classes
existentes em um determinado conjunto de exemplos. A sua diagonal principal corresponde
ao nmero de acertos de cada classe e os elementos fora da diagonal principal correspondem
ao nmero de erros. Na Tabela 2.2 mostrado um exemplo de uma matriz de confuso referente a um conjunto de exemplos com duas classes geralmente denominadas como positiva
e negativa.
Nesta tabela, verdadeiros positivos corresponde ao exemplo que positivo e foi classicado como positivo; falsos positivos so os exemplos negativos que foram classicados
como positivos; verdadeiros negativos so os exemplos negativos e que foram classicados
como negativos; e falsos negativos so os exemplos positivos que foram classicados como
negativos.
A partir da matriz de confuso, pode-se ento obter a taxa de erro e a taxa de acerto,
representadas pelas Equaes 2.3 e 2.4, respectivamente.
err(h) =
FN + FP
V P + FN + FP + V N
(2.3)
acc(h) =
VP +VN
V P + FN + FP + V N
(2.4)
versus
receiver operating characteristic ) e calculando a rea embaixo da curva (Hand & Till
ROC (
APRENDIZADO DE MQUINA
Tabela 2.2:
Predio Positiva
Predio Negativa
Classe Positiva
Classe Negativa
sensibilidade =
especif icidade =
VP
V P + FN
VN
FP + V N
(2.5)
(2.6)
Na Figura 2.1 ilustrado um exemplo de curva ROC. Nesta gura, h um nico ponto
P(0,4 , 0,8) e a curva ROC desse ponto uma curva que tem incio no ponto (0,0), passa
pelo ponto P e atinge o ponto (1,1). Para calcular um valor AUC aproximado dessa curva,
pode-se transformar essa curva em linhas retas, obtendo um grco semelhante ao ilustrado
na Figura 2.2. Assim, o valor AUC aproximado pode ser calculado por meio da rea do
trapzio somado rea do tringulo. Dessa forma, o valor AUC aproximado do ponto P
seria:
AU C =
(1 + 0, 8) 0, 6 0, 4 0, 8
+
= 0, 54 + 0, 16 = 0, 7
2
2
(2.7)
[0, 1].
interessante ressaltar que AUC e preciso nem sempre representam a mesma correlao,
ou seja, um alto valor de AUC nem sempre implica em uma alta preciso (Huang & Ling
2005). Por exemplo, considerando um conjunto de exemplos com 10 exemplos positivos e 90
negativos, suponha-se que dois classicadores (A e B) erraram as classes de 8 exemplos, ou
seja, a preciso dos dois classicadores ser 92%. Entretanto, considerando-se que os 8 erros
APRENDIZADO DE MQUINA
Figura 2.1:
Figura 2.2:
10
Validao Cruzada
Validao cruzada (r
folds
parties
que todos os
fold
r 1 folds
vezes, de modo
igual a 5.
APRENDIZADO DE MQUINA
Tabela 2.3:
Predio Negativa
Classe Positiva
10 (VP)
0 (FN)
Classe Negativa
8 (FP)
82 (VN)
Tabela 2.4:
11
Predio Negativa
Classe Positiva
2 (VP)
8 (FN)
Classe Negativa
0 (FP)
90 (VN)
A seguir, sero apresentados alguns algoritmos e estratgias de AM utilizados no desenvolvimento do presente projeto: rvores de Deciso,
Random
Tree.
conquistar, decompondo um problema maior em sub-problemas mais simples, de forma recursiva. A construo de uma rvore de deciso baseia-se na escolha de um atributo que
servir para particionar os exemplos em subconjuntos correspondentes a cada valor do atri-
APRENDIZADO DE MQUINA
Figura 2.5:
12
buto. Passa-se ento os exemplos para os subconjuntos de acordo com o valor do atributo
escolhido e para cada subconjunto, observa-se se todos os exemplos pertencem a uma mesma
classe. Se isso ocorrer, associa-se essa classe um n folha contendo todos os exemplos desse
subconjunto. Caso contrrio, escolhido um novo atributo para particionar os exemplos e
o processo repetido at que haja uma homogeneidade das classes dos exemplos de um determinado subconjunto. Porm, uma rvore pode crescer muito, tornando-se especca para
uma determinada base de dados e causando assim um
Poda uma tcnica que evita o problema de
overtting
overtting
(super-ajuste).
13
APRENDIZADO DE MQUINA
Uma rvore de deciso pode ser usada para classicar novos exemplos. Assim, quando desejase classicar um novo exemplo, percorre-se a rvore a partir da raiz e desvia-se em cada n de
deciso, segundo o atributo correspondente at que se atinja um n folha e, ento, associa-se
a esse novo exemplo a classe correspondente a esse n folha.
Na Figura 2.6 ilustada a estrutura da rvore de deciso do exemplo para classicar o
diagnstico de um novo paciente em saudvel ou doente. Comeando pela raiz da rvore,
o primeiro gene selecionado foi `Gene 36'. Se nvel de expresso do `Gene 36'
362,
ento
segue-se pelo ramo da esquerda da rvore, o que leva a outro gene, `Gene 103'. Se o nvel de
expresso do `Gene 103'
116,
53
com a classe Saudvel associada a ele. Caso o nvel de expresso do `Gene 9'
> 53
ento
segue-se pelo ramo da direita chegando no diagnstico Doente. O processo repetido at que
um n folha tenha sido alcanado. A classe associada ao n folha alcanado aps percorrer
a rvore (saudvel ou doente) ser a classe (o diagnstico) associado ao novo paciente.
rvores de Deciso podem fornecer outras medidas comparativas alm das citadas na Seo 2.1.1. Uma delas o tamanho da rvore, ou seja, o nmero total de ns (incluindo os ns
folhas) que essa rvore possui. Por exemplo, o tamanho da rvore apresentada na Figura 2.6
9, pois ela possui quatro ns (correspondendo a quatro genes diferentes) e cinco ns folhas (correspondendo s duas classes do problema). Medidas adicionais so apresentadas na
Seo 4.3.
ensemble
sicadores e combinam seus votos para classicar um novo exemplo (Dietterich 2000). O
voto corresponde classe fornecida por cada um dos classicadores para esse novo exem-
APRENDIZADO DE MQUINA
Figura 2.6:
plo. Os mtodos
bagging
ensembles
(Breiman 1996) e
O mtodo
boosting
14
amplamente conhecidos so
Random Forests
boosting
Random Forests
outro mtodo
boosting
bagging
os gera sequencialmente.
sero usadas para classicar um novo exemplo por meio do voto majoritrio. Cada rvore de
APRENDIZADO DE MQUINA
15
bagging
bootstrap
bagging.
boosting.
boosting
pode criar
ensembles
bagging
boosting ;
boosting
boosting
Random Forests,
boosting
e as vezes melhor e no
Bagging
Forest
Random
utiliza este mtodo para criar as rvores de uma oresta. Dessa forma, o mtodo
2.1.4 Bagging
O mtodo
Bagging
bootstrap
ensemble
mais
Bagging
Assim, no mtodo
reposio, a partir do conjunto original. Devido reposio, alguns exemplos podem ser
escolhidos mais de uma vez e outros podem no ser escolhidos. A amostragem
mais comumente utilizada a
E0 ,
bootstrap
explicada a seguir.
bootstrap
Cada subconjunto
Tk
com
exemplos,
Tk
uma amostra
{hk (x)}.
exemplos.
A estratgia
1 (1 n1 )n
Tk ,
n exemplos selecionados
16
APRENDIZADO DE MQUINA
bootstrap
n,
isto aproximadamente
T,
recendo mltiplas vezes (Bauer & Kohavi 1999; Dietterich 2000). Os exemplos que no foram
selecionados na amostra
Tk
formam o conjunto
{hk (x)}
T,
out-of-bag
hk .
bootstrap Tk ,
constroem-se clas-
bagged.
Para cada
(x, y)
Tk
no contm
(x, y).
Este o estimador
Bagging (a)
Random Forest(b),
o qual ser
explicado na Seo 2.1.5 juntamente com a diferena entre ambos (parte tracejada).
Segundo (Acuna & Rojas 2001; Breiman 1996; Freund & Schapire 1996),
Bagging muito
bootstrap
exemplos e usando
Random Tree
possveis, usando
com
atributos aleatrios (m
a)
uma
Random Trees
signica que
Random Trees
geralmente leva a
APRENDIZADO DE MQUINA
(a)
Figura 2.7:
17
(b)
modelos precisos (Zhao & Zhang 2008; Dubath, Rimoldini, Sveges, Blomme, Lpez, Sarro,
De Ridder, Cuypers, Guy, Lecoeur, Nienartowicz, Jan, Beck, Mowlavi, De Cat, Lebzelter &
Eyer 2011).
Random Forest
{hk (x)}, k = 1, 2, . . . , L,
onde
Tk
so amostras alea-
trias independentes e identicamente distribudas e cada rvore vota na classe mais popular
para a entrada
x.
Random Forests
Random Tree.
bagging
bootstraps )
para
para cada
atributos
xado para todos os ns. As rvores crescem sem poda. Na Figura 2.7
Random Forest
CONSIDERAES FINAIS
do
bagging
bagging
em que todos os
bagging
bagging
as rvores so
atributos so usados.
Random Forest
18
bagging
em
Random Forests
conjunto combinado de rvores, assim como estimativas para fora e correlao, usando o
estimador
out-of-bag.
bagging
e seleo aleatria de atributos) fazem com que as rvores sejam diferentes e, portanto,
diminui a correlao entre elas. A baixa correlao tende a diminuir a taxa do erro de
classicao.
Fora da rvore individual na oresta: pode ser interpretada como uma medida de
desempenho para cada rvore. Uma rvore com uma taxa de erro baixa um classicador forte. Assim, aumentando a fora das rvores individuais, reduz-se a taxa de
erro da oresta.
2.2
Consideraes Finais
Random Forest
Captulo
Conceitos Biolgicos
Neste captulo sero apresentados alguns conceitos biolgicos utilizados no projeto, como
expresso gnica e
3.1
microarrays.
3.1.1 DNA
Uma molcula de DNA (cido desoxirribonucleico) consiste em duas longas tas antiparalelas entrelaadas em forma de dupla hlice, compostas por uma sequncia de nucleotdeos. Os nucleotdeos so compostos de acares pentoses (com cinco carbonos), um ou
mais grupos fosfatos ligados aos carbonos e uma base contendo nitrognio. O acar dos
nucleotdeos de DNA uma desoxirribose (Figura 3.1) ligada a um grupo fosfato e a base
nitrogenada pode ser adenina, citosina, guanina ou timina (Alberts, Johnson, Lewis, Ra,
19
Figura 3.1:
20
Desoxirribose. Adaptado de (Alberts, Johnson, Lewis, Ra, Roberts & Walter 2010)
Roberts & Walter 2010), conforme ilustrado na Figura 3.2. Para simplicar a nomenclatura
dos nucleotdeos utilizada a abreviao da base nitrogenada que o identica, ou seja, nucleotdeos com a base nitrogenada adenina so abreviados pela letra (A), citosina (C), guanina
(G) e timina (T). As bases nitrogenadas podem ser de dois tipos: purinas, com um anel
duplo (adenina e guanina) e pirimidinas, com um anel simples (citosina e timina) (Klug,
Cummings, Palladino & Spencer 2010), conforme ilustrado na Figura 3.3.
As bases dos nucleotdeos mantm as duas tas de DNA unidas por meio de pontes de
hidrognio entre elas. Segundo o modelo de Watson-Crick (Watson & Crick 1953), a base
(A) pareia somente com a base (T) e a base (C) pareia somente com a base (G). A adenina
forma duas pontes de hidrognio com a timina e a guanina forma trs pontes de hidrognio
com a citosina. Esse pareamento especco das bases A = T e G
21
Figura 3.2:
Nucleotdeo de DNA. Adaptado de (Alberts, Johnson, Lewis, Ra, Roberts & Walter
Figura 3.3:
2010)
2010)
Figura 3.4:
Figura 3.5:
2010)
22
Estrutura de DNA. Adaptado de (Alberts, Johnson, Lewis, Ra, Roberts & Walter
informaes genticas contidas no DNA denominada genoma. O genoma contm informaes para todas as protenas e molculas de RNA que o organismo ir sintetizar (Alberts,
Johnson, Lewis, Ra, Roberts & Walter 2010). As protenas possuem diversas funes biolgicas (Lewis 2001), entre elas pode-se citar a funo estrutural e a funo regulatria.
O uxo da informao gentica ocorre da seguinte maneira: a partir do DNA formado o
RNA (processo denominado transcrio) e o RNA utilizado como molde para a sntese de
protenas (processo denominado traduo). Este princpio (DNA
nhecido como dogma central da biologia molecular (Alberts, Johnson, Lewis, Ra, Roberts
& Walter 2010; Klug, Cummings, Palladino & Spencer 2010).
3.1.2 RNA
A molcula de RNA (cido ribonucleico) tambm composta por uma sequncia de
nucleotdeos unidos entre si por meio de ligaes fosfodister. Porm, o RNA possui algumas
diferenas do DNA (Alberts, Johnson, Lewis, Ra, Roberts & Walter 2010; Klug, Cummings,
Palladino & Spencer 2010):
as bases nitrogenadas do RNA podem ser adenina (A), guanina (G) e citosina (C),
assim como no DNA, porm o RNA contm a base uracila (U), em vez da timina (T).
A estrutura da base uracila apresentada na Figura 3.7. Nesse caso, a base adenina
Figura 3.6:
Figura 3.7:
23
Ribose. Adaptado de (Alberts, Johnson, Lewis, Ra, Roberts & Walter 2010)
Base nitrogenada Uracila. Adaptado de (Klug, Cummings, Palladino & Spencer 2010)
pareia com a base uracila e a base guanina pareia com a base citosina (assim como no
DNA);
Existem trs classes principais de RNA: RNA mensageiro (mRNA), RNA transportador
(tRNA) e RNA ribossmico (rRNA). O mRNA uma molcula de ta simples, produzida
a partir de um lamento molde de DNA, em um processo conhecido como transcrio. O
mRNA tem como funo transmitir a informao gentica do ncleo para o citoplasma, pois
os genes esto localizados no ncleo celular e os ribossomos (responsveis pela sntese de
protenas) localizam-se no citoplasma. A sequncia de um mRNA lida em grupos de trs
nucleotdeos por vez. Cada uma dessas trincas de nucleotdeos (denominadas cdons) codicam um nico aminocido (subunidade que forma as protenas). Diversos cdons codicam
um mesmo aminocido, conforme mostrado na Tabela 3.1.
O tRNA uma molcula que carrega os aminocidos para o ribossomo durante a traduo. Cada tRNA liga-se em uma extremidade a um aminocido especco, possuindo em sua
outra extremidade uma sequncia de trs nucleotdeos denominada anticdon. O anticdon,
por meio do pareamento de bases, habilita o tRNA a reconhecer um cdon (ou um grupo
Tabela 3.1:
codicam
24
Smbolo
Abreviao
Cdons
Ala
Arg
Asp
GAU, GAC
Asn
AAU, AAC
Cys
UGU, UGC
Glu
GAG, GAA
Gln
CAG, CAA
Gly
His
CAU, CAA
Ile
Leu
Lys
AAG, AAA
Met
AUG
Phe
UUU, UUC
Pro
Ser
Thr
Trp
UGG
Tyr
UAU, UAC
Val
25
Figura 3.8:
Figura 3.9:
26
Expresso gnica. Adaptado de (Alberts, Johnson, Lewis, Ra, Roberts & Walter 2010)
27
polimerase desliza ao longo da molcula de DNA, separando por um momento as duas tas,
onde uma delas servir de molde para a formao da molcula de mRNA correspondente.
Aps a transcrio, a molcula de DNA volta ao seu estado original, ou seja, a dupla hlice.
Por m, o processo termina quando a RNA polimerase II reconhece uma sequncia de
terminao especca no DNA.
Em clulas eucariticas, o RNA transcrito chamado de pr-mRNA ou RNA transcrito
primrio. Tal transcrito passa por um processamento constitudo de trs etapas:
cap
5'). O
cap
adicionado antes mesmo que o transcrito primrio esteja completo, ou seja, assim que a
RNA-polimerase II produziu aproximadamente 25 nucleotdeos de RNA, a extremidade
5' da nova molcula de RNA modicada pela adio do
a distinguir os mRNAs dos outros tipos de molculas de RNA, como por exemplo,
as molculas produzidas pelas RNA-polimerases I e III. Alm disso, este capeamento
ajuda o RNA a ser adequadamente processado e exportado (Alberts, Johnson, Lewis,
Ra, Roberts & Walter 2010);
Splicing : remoo dos ntrons (sequncias no codicantes) e unio dos xons (sequncias codicantes), conforme ilustrado na Figura 3.10. Uma vantagem do
splicing
que ele permite que um mesmo gene produza um grupo de diferentes protenas. Isso
acontece devido s diferentes maneiras de
splicing
sofrem.
splicing
mRNA ser denominado mRNA (Alberts, Johnson, Lewis, Ra, Roberts & Walter 2010).
2010)
28
29
cleotdeos sobre o mRNA e posicionado para dar incio ao prximo ciclo (Alberts, Johnson,
Lewis, Ra, Roberts & Walter 2010). Esse ciclo repetido cada vez que um aminocido
adicionado cadeia polipeptdica.
A molcula de mRNA lida cdon a cdon, na direo 5' para 3', at alcanar um dos
trs cdons de terminao (UAA, UAG ou UGA). Estes cdons no so reconhecidos por
um tRNA e portanto, no determinam um aminocido. Assim, os cdons de terminao
sinalizam para o ribossomo o nal da traduo. Ento, protenas conhecidas como fatores
de liberao ligam-se aos ribossomos, nalizando a traduo e liberando o polipeptdeo
completo. O ribossomo, ento, libera o mRNA e separa-se nas duas subunidades maior e
menor (Alberts, Johnson, Lewis, Ra, Roberts & Walter 2010).
Tcnicas
A anlise da expresso gnica pode fornecer informaes importantes sobre as funes
de uma clula (Alberts 1997). Existem diversas tcnicas para obter a expresso dos genes
microarray
2003). Esta ltima tcnica merece um destaque entre as demais pois as bases utilizadas no
desenvolvimento desta pesquisa so bases de expresso gnica por
A tcnica SAGE (
microarrays.
Kinzler 1995) baseada principalmente em dois princpios (Yamamoto, Wakatsuki, Hada &
Ryo 2001): primeiro, uma pequena sequncia de cDNA (DNA complementar) de 9-10 pares
tag
de bases (
tags
tag.
tags
tag
30
tags
so derivados
Golda, Lloyd, Johnson, Luo, McCurdy, Foy, Ewan, Roth, George, Eletr, Albrecht, Vermaas,
Williams, Moon, Burcham, Pallas, DuBridge, Kirchner, Fearon, Mao & Corcoran 2000)
uma tcnica baseada na produo de sequncias curtas de 16-20 bases adjacentes ao stio de
restrio da enzima
microarray
microarrays.
Assim, tal
3.1.4 Microarrays
A tecnologia de
microarray
transcrio reversa do mRNA, sintetizando assim cDNA marcado com nucleotdeos identi-
31
microarray
microarray
orescentes revelam quais os genes que se expressam em um determinado tecido e o seu nvel
relativo de expresso, uma vez que quanto mais brilhante o ponto, mais o respectivo mRNA
se expressa naquele tecido (Klug, Cummings, Palladino & Spencer 2010). Tal processo ilustrado na Figura 3.11. Nesta gura, o primeiro passo ilustrado o isolamento do mRNA das
amostras de interesse, por exemplo uma amostra de uma pessoa normal (Amostra A) e de
uma pessoa com cncer (Amostra B). A partir desses mRNAs, realizada uma transcrio
reversa, sintetizando cDNAs (DNAs complementares) - passo 2. Tais cDNAs so marcados
por meio de nucleotdeos identicados por uorescncia. Assim, os cDNAs referentes uma
amostra, por exemplo Amostra A, so marcados pela cor vermelha e os cDNAs referentes
outra amostra, Amostra B, so marcados pela cor verde (passo 3). Os cDNAs marcados so
microarray
microarray
microarray
(passo 5). Portanto, os pontos que apresentam a cor vermelha, so pontos onde somente o
cDNA marcado com a cor vermelha (Amostra A) hibridizou, ou seja, o gene referente quele
ponto s expresso na Amostra A; os pontos com a cor verde so pontos onde somente o
cDNA marcado com a cor verde (Amostra B) hibridizou, ou seja, o gene referente quele
ponto s expresso na Amostra B; e os pontos com cor amarela so pontos onde tanto o
cDNA marcado com a cor vermelha quanto o cDNA marcado com a cor verde hibridizaram,
ou seja, o gene referente quele ponto expresso tanto na Amostra A quanto na Amostra
B. Dessa maneira, a partir dos pontos que uoresceram possvel determinar quais genes
so expressos nas duas amostras de interesse. A intensidade da uorescncia indica o nvel
relativo de expresso, ou seja, quanto mais brilhante for o ponto, mais expresso o respectivo
mRNA naquele tecido (Klug, Cummings, Palladino & Spencer 2010).
Uma vez que os
microarrays
32
CONSIDERAES FINAIS
33
eles podem gerar uma grande quantidade de dados sobre expresso gnica. Assim, programas
de computador que analisem tais dados so essenciais para organizar o perl de dados de
expresso gnica (Klug, Cummings, Palladino & Spencer 2010), que o foco do captulo
seguinte.
3.2
Consideraes Finais
microarrays
e expresso
gnica. No captulo seguinte ser apresentada a metodologia proposta para a gerao de uma
nica rvore a partir de uma
Random Forest.
Captulo
Proposta Metodolgica
Neste captulo so descritos alguns trabalhos relacionados encontrados na literatura. A
seguir, descrita a metodologia utilizada na realizao do presente projeto, juntamente com
os resultados de um experimento preliminar utilizando a metodologia proposta.
4.1
Trabalhos Relacionados
Random Forest
34
35
TRABALHOS RELACIONADOS
a ela podem ser mais teis do que outros mtodos para classicar exemplos baseados em
bases de MS.
O trabalho de Lee, Park & Song (2005) analisou o desempenho de classicadores desenvolvidos (entre eles a
Random Forest)
em bases de
microarray
bagging, boosting
microarray
Random Forest
para clas-
Random Forest
Random Forest.
de rvores a serem criadas, nmero de atributos selecionados aleatoriamente e nmero mnimo de exemplos em cada folha. Foi utilizado um nmero mnimo de exemplos entre 1 e
5, nmero de rvores igual a 1000, 2000, 5000, 10000, 20000 e 40000 e diversos nmeros de
atributos selecionados aleatoriamente. Foi concludo que mudanas nestes parmetros apresentam, na maioria das vezes, efeitos insignicantes, sugerindo que os valores
default
so
boas opes. Alm disso, concluiu-se que o tempo de execuo aumenta linearmente com
o nmero de rvores e a mudana no nmero mnimo de exemplos entre 1 e 5 tem efeitos
insignicantes e assim, seu valor
default
of-bag. A concluso geral obtida que devido ao seu desempenho, Random Forest
de genes usando
Random Forest
out-
e seleo
microarray.
Em (Goldstein, Hubbard, Cutler & Barcellos 2010) foi apresentada uma das primeiras
ilustraes de sucesso analisando bases de genoma de associao ampla (GWA) com um
algoritmo de aprendizado de mquina (
tlipla (MS). Foram construdas orestas com 50, 250, 500, 1000 e 2000 rvores e nmero de
36
atributos selecionados aleatoriamente igual a 10% do nmero de atributos. Foi concluido que
10% do nmero de atributos parece minimizar a taxa do erro
A convergncia parece ocorrer entre 200-400 rvores. Tal resultado interessante, uma vez
que possui a mesma ordem de grandeza que os resultados obtidos em nossas pesquisas (64128 rvores) em (Oshiro, Perez & Baranauskas 2012). Foi concluido que a
Random Forest
computacionalmente vivel para bases de GWA e os resultados obtidos fazem sentido biolgico baseados em estudos anteriores. Mais importante, novos genes foram identicados
como potencialmente associados com MS, sugerindo assim novas direes de investigao
para esta doena complexa.
No foi encontrado nenhum trabalho na literatura com um tema semelhante ao aqui
proposto, usando
Random Forest. Porm, em (Aziz & Ahmed 2011), foi introduzido um novo
mtodo para gerar um classicador timo e preciso a partir de rvores para vrias amostras
da mesma base de dados. Foi utilizada a mtrica ganho de informao para selecionar o n
que ir fazer parte da nova rvore e as rvores foram geradas por meio do mtodo
bagging.
criado ento um mapa contendo todos os ns utilizados por todas as rvores em todos os
nveis, ou seja, do n raiz ao n folha. Para cada nvel, calculado o ganho de informao
de cada atributo utilizado neste nvel e o atributo com maior ganho ento utilizado como
o n daquele nvel da rvore nal. Isto feito at que a rvore nal tenha sido criada.
Foi concludo que dessa maneira consegue-se criar uma nica rvore e pode-se vericar os
resultados facilmente usando este nico classicador ao invs de vrios. No estudo, contudo,
no h informaes sobre o desempenho da rvore criada ou at mesmo comparaes entre
a rvore nal e outros classicadores.
Na seo seguinte descrito o mtodo proposto nesta pesquisa de mestrado para a
construo de uma nica rvore.
4.2
Nesta seo apresentada a proposta para a construo de uma nica rvore a partir
das rvores de uma
Random Forest,
rvores. Em um
37
estudo preliminar deste mestrado, constatou-se que conforme o nmero de rvores geradas
em uma
Random Forest
de dados (Oshiro, Perez & Baranauskas 2012). Porm isso no algo til, uma vez que nem
todos os atributos existentes so importantes para a classicao. Assim, foi utilizada uma
mtrica para identifcar quais poderiam ser os melhores atributos e, consequentemente, qual
seria o atributo a ser escolhido como um n para compor a rvore nal desta pesquisa. A
partir deste atributo, novas orestas foram geradas com
atributo e o processo foi repetido, como pode ser visto no Algoritmo 1. O parmetro
utilizado com seu valor
foi
default igual a log 2 (a), pois esta parece ser frequentemente uma boa
Random Forest
L Random Trees
(RT1 , RT2 ,
. . .,
RTL )
como indicado na linha 5. Nas linhas 7 a 9 construdo um mapa, o qual contm o nome
do atributo utilizado na raiz da
k -sima
Mtrica(Raiz(RTk )). Aps isso, construdo um mapa nal o qual contm o nome de todos
os atributos utilizados nas razes das
Tais mdias so calculadas por meio da razo entre a somatria dos valores das mtricas
do atributo
e o nmero de vezes que este atributo foi selecionado para ser a raiz de uma
linhas 10 a 13. A seguir, escolhido o atributo para compor a rvore nal. selecionado o
atributo que apresenta o maior valor da mtrica utilizada, conforme mostrado na linha 14.
Este atributo ir compor a rvore nal (linha 16). Nas linhas 17 a 20 mostrado como o
processo se repete para todos os valores do atributo escolhido, ou seja, para cada valor
que o atributo escolhido pode assumir gerada uma nova base
para uma nova
Random Forest.
Ai
seja, a rvore para de crescer quando todos os exemplos de uma determinada base pertencem
a uma mesma classe
c.
c.
Para realizar a construo de uma nica rvore a partir das vrias rvores de uma
Random Forest e vericar se esta proposta seria vivel, duas questes precisam ser analisadas:
1. a quantidade de rvores a serem construdas em uma oresta. A literatura associada
Algoritmo 1
38
Random Forest
Require:
Ensure:
1:
2:
3:
4: end if
5:
6:
7:
8:
9: end for
cada (, ) mapa do
Seja (, ) da forma {(, M1 ), (, M2 ), . . . , (, Mw )} representando os valores da mtrica para
o atributo no mapa
Pw
Mi
mapaFinal mapaFinal {(, = i=1
)}
w
10: for
11:
12:
Seja A argmax|(,)mapaFinal
Sejam A1 ,A2 ,. . .,Ar os possveis valores do atributo A
rvore Dena n com A como raiz e sejam S(A1 ),S(A2 ),. . .,S(Ar ) os subramos de A
for i 1 at r do
Dena Ti = {(x,y ) T | A = Ai }
S(Ai ) construirrvore(Ti ,L,m,minNum)
rvore
39
fornece poucas informaes a respeito de quantas rvores devem ser usadas para constituir uma
Random Forest
microarray
sobre o tema.
Visando responder essas duas questes, foram realizados dois experimentos neste estudo.
No primeiro experimento (Oshiro, Perez & Baranauskas 2012) visou-se analisar o desempenho da
Random Forest conforme o nmero de rvores aumenta. Tal experimento buscou por
Random Forests
variando o nmero de
rvores das orestas em taxas exponenciais. Foram propostas e utilizadas algumas mtricas
de densidade para bases de dados, as quais so descritas no Apndice B.1. A partir de tal
experimento, pde-se concluir que um intervalo entre 64 e 128 rvores o mais indicado,
uma vez que possvel obter um bom balano entre o AUC e o tempo de processamento.
interessante ressaltar que em (Goldstein, Hubbard, Cutler & Barcellos 2010) foi encontrado um intervalo entre 200 e 400 rvores e foi utilizada como medida de desempenho a
taxa de erro, diferentemente da medida aqui utilizada (AUC). Como j mencionado, segundo (Ling, Huang & Zhang 2003) o AUC deveria substituir a preciso (ou taxa de erro,
uma vez que esta igual a (1 preciso)) na comparao de classicadores pois mostrou-se
uma medida melhor baseado em extensas comparaes experimentais. Os resultados deste
experimento so descritos e discutidos mais detalhadamente no Apndice B.2, tendo sido
publicado em (Oshiro, Perez & Baranauskas 2012).
No segundo experimento (Oshiro & Baranauskas 2012), avaliou-se se uma
Random Forest
40
utiliza todos os atributos de uma maneira uniforme ou se existem atributos que so mais
utilizados que os demais e se tais atributos possuem um bom desempenho. Este experimento
foi dividido em trs etapas: a primeira etapa visava analisar a frequncia que os atributos
apareciam na raiz das rvores; a segunda etapa buscava analisar o desempenho dos dez
atributos mais utilizados na raiz das rvores usando o erro
etapa visava analisar o desempenho da
Random Forest
Random Forest
out-of-bag
estimado; a terceira
Random Forest
Random Forest.
out-of-bag
Random Forest,
Random Forest
Reutemann & Witten 2009), que fornece como sada uma nica rvore) e uma rvore gerada
de forma aleatria (classicador
Random Tree
Reutemann & Witten 2009)). Foram utilizadas como medidas comparativas o AUC e o nmero de ns das rvores. Para avaliar o desempenho, foi realizada validao cruzada com
10-
folds. As
A avaliao estatstica dos resultados uma parte essencial na validao de novos mtodos
de aprendizado de mquina (Demar 2006). O teste estatstico pode ser paramtrico (teste t,
ANOVA) ou no paramtrico (Wilcoxon, Friedman). Segundo (Demar 2006) os testes no
paramtricos devem ter preferncia em relao aos testes paramtricos, pois eles so mais
provveis a rejeitar a hiptese nula e no correm os riscos de violaes das suposies dos
testes paramtricos. Tal concluso foi baseada nas propriedades estatsticas de cada teste,
41
post-hoc
post-hoc
Hochberg (Benjamini & Hochberg 1995) e foi realizada uma comparao todos
versus todos,
4.3
Uma vez que o desempenho mdio da rvore proposta conhecido assim como o desempenho mdio de outros classicadores, interessante analisar as rvores obtidas por estes
mtodos com mtricas alm do desempenho (taxa de acerto, taxa de erro, AUC, entre outras). Assim, foram utilizadas duas mtricas da literatura e propostas outras duas neste
trabalho visando comparar o quo similares so as rvores criadas pela metodologia proposta, pelo J48 e pela
Random Tree,
Random
rvores.
Para calcular trs das mtricas propostas, foi utilizado como base o Coeciente de Jaccard (Jaccard 1901). Tal coeciente analisa a similaridade entre dois conjuntos de amostras
e calculado por meio da seguinte frmula:
Jaccard(A, B) =
|A B|
|A B|
(4.1)
Em um estudo recente (Perner 2011) foi proposta uma mtrica para clculo da similaridade entre duas rvores. Nesse estudo so realizados cinco passos: primeiro as duas rvores
de deciso so transformadas em um conjunto de regras; depois, as regras das duas rvores
so ordenadas de acordo com o nmero
att
truturas de todas as regras so construdas por meio da decomposio das regras em suas
subestruturas; a seguir, duas regras
SIMij =
onde
att
= max {atti ,
SIMij
1
(Sim1 + Sim2 + . . . + Simk + . . . + Simatt )
att
attj }
42
(4.2)
1
Simk =
0
k1 k1 |x|
|x|
S = 1
=1
=1
t
t
t
S = 0
onde
k1
para
x<t
xt
um atributo numrico,
para
(4.3)
(4.4)
0 k2 = k1 + x
s%
de
k1 .
Para o
igual a 10%.
Foram utilizadas quatro mtricas de similaridade de rvores: Jaccard, Jaccard por nvel,
Jaccard por nvel & teste de Petra e teste de Petra. Dentre as quatro mtricas, duas foram
reutilizadas da literatura (mtricas J e P) e duas foram propostas neste estudo (mtricas
JN e JNP). Todas as mtricas apresentam valores no intervalo
[0, 1],
2. Jaccard por nvel (JN): representa a similaridade entre duas rvores em relao aos
atributos utilizados em cada nvel, porm no analisa a topologia da rvore. Aplica-se
a frmula 4.1 em cada nvel das rvores, somando os valores e dividindo pelo nmero
total de niveis;
43
CONSIDERAES FINAIS
3. Jaccard por nvel & teste de Petra (JNP): Mesmo raciocnio da mtrica JN, porm
quando o atributo numrico, aplica-se a frmula 4.3 desenvolvida por (Perner 2011).
Assim, se dois atributos numricos de duas rvores diferentes so iguais em um mesmo
nvel, ao invs de resultar em 1 (pela frmula de JN), a similaridade calculada pela
frmula 4.3;
Mtrica 1: Jaccard
J=
2
= 0, 5
4
(4.5)
1+
2
JN =
= 0, 67
(4.6)
= 83,1 e
x1
= 13;
t2
= 5,5 e
x2
= 0,5
(1
JN P =
13
)
83,1
+ (1
0,5
5,5
0, 84 + 0, 30
= 0, 57
2
(4.7)
P =
(1
13
)
83,1
13 )+(1 0,5 ))
((1 83,1
5,5
0, 84 + 0, 44
= 0, 64
2
(4.8)
4.4
e a mtrica
(Teste de Petra).
Consideraes Finais
Este projeto de mestrado tem como objetivo criar uma nica rvore a partir das rvores geradas por uma
Random Forest.
CONSIDERAES FINAIS
Figura 4.1:
Figura 4.2:
44
CONSIDERAES FINAIS
45
experimentos preliminares, reportados em (Oshiro, Perez & Baranauskas 2012) e (Oshiro &
Baranauskas 2012). Uma vez que a rvore nal foi criada, comparou-se a sua estrutura
estrutura de outras rvores criadas por outros algoritmos a m de analisar se ambas rvores
so similares e, portanto, fornecem as mesmas informaes a respeito de uma determinada
base de dados, ou seja, um determinado problema biolgico.
Tambm foram apresentadas neste captulo a metodologia utilizada neste projeto e as
mtricas de similaridade entre rvores utilizadas, sendo que duas mtricas foram propostas resultantes deste estudo. Foram realizados 2 experimentos que serviram de base para a
construo da rvore nal. No captulo seguinte so apresentados os resultados dos experimentos realizados utilizando a metodologia proposta, assim como os resultados das mtricas
de similaridades.
Captulo
2a rvores. Estes valores foram escolhidos com base nos resultados do Experimento
2 descrito na Seo B.3. importante ressaltar que com o primeiro experimento descobriu-se
o nmero de rvores necessrio para obter um bom desempenho da
alto custo computacional. Porm, para se obter uma estabilidade dos atributos utilizados
pelas rvores, o nmero de rvores deve ser maior. Assim, foi realizado o segundo experimento
e descobriu-se ento, o nmero de rvores necessrio para se obter uma maior estabilidade
do conjunto de atributos mais utilizados. Uma vez que com o aumento do nmero de rvores
todos os atributos parecem ser utilizados, necessrio o uso de uma mtrica para ltrar os
melhores atributos e, assim, no utilizar um atributo que no importante ou bom para o
desempenho da rvore nal. Visando isso, foi utilizada a mtrica da frequncia considerando
o erro
out-of-bag
estimado.
A m de melhorar o erro
out-of-bag
lizado. Neste novo experimento foi utilizada apenas uma porcentagem dos erros
46
out-of-bag
47
out-of-bag
de um
atributo visando assim, eliminar possveis rudos com relao essa mtrica. Por exemplo,
supondo que um atributo foi utilizado 4 vezes e obteve erros
out-of-bag
Nesse caso, o valor 0.9 pode ser um rudo, uma vez que este erro elevado pode ser causado
pela escolha dos demais atributos da rvore e, portanto, no seria relacionado diretamente ao
atributo na raiz. Assim, utilizando apenas uma porcentagem dos erros obtidos (no exemplo,
menos de 75%), o valor 0.9 no levado em considerao.
Foram testados quatro valores de porcentagens: 70%, 80%, 90% e 95%. Os melhores resultados foram obtidos utilizando 70% e 90%. Dessa forma, foram realizados trs experimentos
utilizando o Algoritmo 1: uso da mtrica da frequncia considerando o erro
out-of-bag
timado (100% dos valores obtidos) e considerando uma porcentagem dos erros
es-
out-of-bag
Forest
a
2a.
default
Random Forest
e
2a
no parece melhorar
uma melhor comparao com a rvore proposta. O classicador J48 foi executado com seus
valores
default,
Random Tree
das orestas variam muito. Nas duas tabelas so apresentados os resultados dos seguintes
classicadores: Algoritmo 1 utilizando
2a
out-of-bag
de erro
2a
out-of-bag
default
out-of-bag
default
Random Tree
default
48
(RT);
Random Forest
default
2a
M (N)
O (H)
tabelas no so mostrados pois eles apresentam resultados opostos ao tringulo superior por
simetria.
Analisando a Tabela 5.1 pode-se observar que a
Random Forest,
na mdia, apresentou
os melhores valores de AUC na maioria das bases (com exceo das bases DLBCLOutcome,
ma-2003-breast e prostate-outcome) e o melhor
rank
Random Tree,
apresentaram AUC igual a um. Comparando a metodologia proposta com o J48, J48(U) e
a
Random Tree,
rank
out-of-bag
e 2a
Random Tree.
a Tabela 5.2, uma vez que pode-se notar que os classicadores J48 e J48(U) foram piores,
porm no signicativamente, do que o Algoritmo 1 no geral (com exceo somente do A1a(100)) e a
a
Random Forest
o desvio padro, os algoritmos J48 e J48(U) mostraram-se um pouco mais estveis do que o
Algoritmo 1 no geral, no entanto, o melhor
rank
Random Tree
out-of-bag
e 2a rvores
Random Forest
uma vez que eles eram valores extremamente altos por se tratar de uma
oresta. Assim, tais valores foram desconsiderados a m de uma melhor comparao entre
49
rank
Random Tree
Random Tree
e o
out-of-bag
5.1
rank
mdio.
Como descrito na Seo 4.3, foram desenvolvidas algumas mtricas para comparao de
rvores. Nesta seo, os resultados de tais mtricas sero apresentados comparando-se as rvores geradas pelo Algoritmo 1 s rvores geradas pelo algoritmo J48 e pela
Random Tree.
Uma vez que os valores obtidos pelo algorimto J48 com poda e sem poda foram muito parecidos, utilizou-se as rvores geradas pelo J48 com poda, pois essa sua congurao
default.
out-of-bag
out-of-bag
e orestas
construdas com 2a rvores (A1-2a(90)). Essa escolha foi baseada nos resultados do teste de
Friedman apresentados na seo anterior.
Na Tabela 5.5, so comparadas as rvores geradas utilizando as 24 bases descritas na
Seo A.2 e o Algoritmo 1 (A1-2a(90)) e J48. Na Tabela 5.6, so comparados o Algoritmo
1 (A1-2a(90)) e
Random Tree. Os
Analisando os valores obtidos mostrados na Tabela 5.5 possvel notar que as rvores
obtidas utilizando o Algoritmo 1 so, em geral, diferentes das rvores obtidas pelo J48.
50
CONSIDERAES FINAIS
vez que a maioria das mtricas apresentaram valores iguais a 0. Somente em alguns casos os
valores da mtrica 1 foram diferentes de zero, porm, o valor mais alto atingido foi 0,02.
Foi calculado o quadrado do coeciente de correlao (regresso linear) entre as 4 mtricas propostas para vericar se havia uma correlao entre elas. Uma vez que as rvores
obtidas pelos algoritmos J48 e Algoritmo 1 (A1-2a(90)) apresentaram valores de similaridade
maiores do que zero em quase todas as bases, foram utilizados os resultados apresentados
na Tabela 5.5 para calcular o coeciente de correlao entre as mtricas. Os coecientes de
correlao
R2
M1
M2
M1
a mais simples de ser calculada (conforme mostrado na Seo 4.3), pode-se sugerir a
utilizao da mtrica
M1
M3
M2
M4 .
M3
M4
(Teste de Petra), uma vez que as duas tambm esto correlacionadas. Tais correlaes podem
ser observadas nas Figuras 5.1 e
5.2
5.2.
Consideraes Finais
Neste captulo foram apresentados os resultados obtidos utilizando a metodologia proposta e outros classicadores j conhecidos. Foram tambm mostradas mtricas de similaridade entre as rvores geradas por essa metodologia e as rvores geradas pelos demais
classicadores.
CONSIDERAES FINAIS
Figura 5.1:
Figura 5.2:
51
A1-a(100)
0,77 (0,07)
0,62 (0,13)
0,71 (0,16)
0,40 (0,39)
0,85 (0,08)
0,89 (0,09)
0,62 (0,33)
0,50 (0,25)
0,60 (0,30)
0,60 (0,11)
0,90 (0,09)
0,55 (0,17)
0,75 (0,17)
0,67 (0,17)
0,84 (0,17)
0,93 (0,16)
0,86 (0,12)
0,88 (0,12)
0,94 (0,05)
0,56 (0,08)
0,59 (0,17)
1,00 (0,00)
0,80 (0,09)
1,00 (0,00)
7,79 (7,62)
Base de dados
welsh-2001-GNF
butte-data-set
nielsen-soft-2002
prostate-outcome
alizadeh-lymph
MLL-completo
lungcancer-ontario
DLBCLOutcome
pomeroy-cns-dataset-C
breastCancer-completo
lung-harvard
ma-2003-breast
aml-all-completo
DLBCLTumor
leung-2002-gastric
lung-Michigan
prostate-tumorVSNormal
lungCancer-completo
ovarian-61902
DLBCL-NIH-completo
BCR-ABL-completo
E2A-PBX1-completo
Hyperdip50-completo
T-ALL-completo
Rank Mdio
7,33 (7,71)
0,78 (0,10)
0,68 (0,08)
0,74 (0,14)
0,18 (0,29)
0,83 (0,12)
0,89 (0,10)
0,63 (0,36)
0,44 (0,20)
0,62 (0,22)
0,62 (0,14)
0,90 (0,08)
0,57 (0,23)
0,76 (0,16)
0,68 (0,15)
0,84 (0,20)
0,89 (0,21)
0,91 (0,10)
0,91 (0,12)
0,95 (0,05)
0,61 (0,14)
0,56 (0,17)
1,00 (0,00)
0,77 (0,09)
1,00 (0,00)
A1-2a(100)
Tabela 5.1:
6,94 (7,81)
0,78 (0,09)
0,67 (0,11)
0,74 (0,13)
0,43 (0,41)
0,82 (0,07)
0,87 (0,12)
0,62 (0,33)
0,50 (0,22)
0,55 (0,24)
0,56 (0,18)
0,93 (0,07)
0,50 (0,23)
0,81 (0,13)
0,74 (0,24)
0,87 (0,11)
0,94 (0,16)
0,85 (0,14)
0,90 (0,08)
0,95 (0,06)
0,54 (0,07)
0,65 (0,29)
1,00 (0,00)
0,81 (0,10)
1,00 (0,00)
A1-a(70)
6,94 (6,34)
0,81 (0,12)
0,65 (0,08)
0,72 (0,14)
0,33 (0,37)
0,81 (0,06)
0,88 (0,09)
0,59 (0,33)
0,49 (0,23)
0,61 (0,18)
0,57 (0,11)
0,89 (0,08)
0,57 (0,20)
0,84 (0,15)
0,73 (0,26)
0,86 (0,12)
0,94 (0,16)
0,90 (0,09)
0,92 (0,09)
0,96 (0,05)
0,64 (0,08)
0,53 (0,12)
1,00 (0,00)
0,83 (0,08)
1,00 (0,00)
A1-2a(70)
7,21 (6,83)
0,77 (0,08)
0,65 (0,13)
0,76 (0,11)
0,43 (0,33)
0,79 (0,09)
0,89 (0,10)
0,54 (0,34)
0,56 (0,19)
0,60 (0,30)
0,58 (0,13)
0,92 (0,06)
0,49 (0,19)
0,82 (0,13)
0,74 (0,17)
0,88 (0,15)
0,93 (0,15)
0,83 (0,14)
0,91 (0,10)
0,95 (0,04)
0,53 (0,09)
0,55 (0,18)
1,00 (0,00)
0,82 (0,08)
1,00 (0,00)
A1-a(90)
6,50 (7,19)
0,75 (0,10)
0,71 (0,07)
0,73 (0,12)
0,33 (0,37)
0,81 (0,12)
0,89 (0,10)
0,59 (0,33)
0,49 (0,23)
0,63 (0,23)
0,65 (0,14)
0,92 (0,08)
0,57 (0,25)
0,84 (0,15)
0,70 (0,19)
0,88 (0,12)
0,89 (0,21)
0,89 (0,10)
0,93 (0,08)
0,97 (0,04)
0,62 (0,11)
0,56 (0,18)
1,00 (0,00)
0,81 (0,09)
1,00 (0,00)
A1-2a(90)
7,41 (6,44)
0,76 (0,11)
0,61 (0,08)
0,66 (0,15)
0,23 (0,25)
0,90 (0,06)
0,89 (0,09)
0,80 (0,23)
0,51 (0,12)
0,50 (0,12)
0,62 (0,19)
0,94 (0,06)
0,49 (0,16)
0,75 (0,22)
0,65 (0,23)
0,92 (0,11)
0,99 (0,02)
0,79 (0,11)
0,92 (0,08)
0,95 (0,05)
0,51 (0,13)
0,57 (0,28)
1,00 (0,00)
0,83 (0,08)
1,00 (0,01)
J48
7,46 (6,50)
0,76 (0,11)
0,61 (0,08)
0,66 (0,15)
0,23 (0,25)
0,90 (0,06)
0,89 (0,09)
0,80 (0,23)
0,51 (0,12)
0,50 (0,12)
0,62 (0,19)
0,94 (0,06)
0,49 (0,16)
0,75 (0,22)
0,65 (0,23)
0,92 (0,11)
0,99 (0,02)
0,79 (0,11)
0,92 (0,08)
0,95 (0,05)
0,50 (0,14)
0,57 (0,28)
1,00 (0,00)
0,83 (0,08)
1,00 (0,01)
J48(U)
10,12 (8,81)
0,76 (0,11)
0,64 (0,11)
0,72 (0,20)
0,38 (0,32)
0,74 (0,12)
0,72 (0,12)
0,57 (0,29)
0,44 (0,28)
0,62 (0,15)
0,50 (0,17)
0,79 (0,09)
0,48 (0,18)
0,66 (0,19)
0,69 (0,17)
0,81 (0,16)
0,72 (0,26)
0,68 (0,09)
0,75 (0,14)
0,81 (0,11)
0,54 (0,05)
0,60 (0,21)
0,74 (0,14)
0,71 (0,14)
0,83 (0,14)
RT
4,02 (4,60)
0,93 (0,06)
0,81 (0,09)
0,96 (0,04)
0,25 (0,42)
0,99 (0,03)
0,98 (0,03)
0,65 (0,39)
0,43 (0,30)
0,59 (0,24)
0,79 (0,13)
0,98 (0,02)
0,42 (0,18)
0,99 (0,03)
0,97 (0,06)
0,99 (0,02)
1,00 (0,00)
0,95 (0,08)
1,00 (0,00)
1,00 (0,01)
0,64 (0,11)
0,96 (0,04)
1,00 (0,00)
0,99 (0,01)
1,00 (0,00)
RF-128
3,14 (4,04)
0,94 (0,06)
0,86 (0,12)
0,95 (0,07)
0,35 (0,47)
1,00 (0,01)
0,99 (0,02)
0,65 (0,39)
0,43 (0,31)
0,66 (0,19)
0,78 (0,11)
0,99 (0,01)
0,38 (0,15)
1,00 (0,00)
0,98 (0,04)
0,99 (0,02)
1,00 (0,00)
0,95 (0,08)
1,00 (0,00)
1,00 (0,01)
0,66 (0,11)
0,99 (0,02)
1,00 (0,00)
0,99 (0,01)
1,00 (0,00)
RF-a
3,12 (4,00)
0,94 (0,06)
0,86 (0,11)
0,95 (0,07)
0,35 (0,47)
1,00 (0,01)
0,99 (0,02)
0,65 (0,39)
0,45 (0,28)
0,63 (0,19)
0,77 (0,12)
0,98 (0,02)
0,39 (0,15)
1,00 (0,00)
0,98 (0,04)
0,99 (0,02)
1,00 (0,00)
0,95 (0,08)
1,00 (0,00)
1,00 (0,01)
0,66 (0,11)
0,99 (0,02)
1,00 (0,00)
0,99 (0,01)
1,00 (0,00)
RF-2a
CONSIDERAES FINAIS
52
Classicador
A1-a(100)
A1-2a(100)
A1-a(70)
A1-2a(70)
A1-a(90)
A1-2a(90)
J48
J48(U)
RT
RF-128
RF-a
RF-2a
A1-2a(100)
O
O
O
A1-a(70)
O
O
M
A1-2a(70)
O
O
M
M
A1-a(90)
O
O
O
O
O
A1-2a(90)
O
M
M
M
M
M
J48
O
M
M
M
M
M
M
J48(U)
N
N
N
N
N
N
N
N
RT
H
H
H
H
H
H
H
H
H
RF-128
H
H
H
H
H
H
H
H
H
O
RF-a
A1-a(100)
Tabela 5.2:
H
H
H
H
H
H
H
H
H
O
O
RF-2a
CONSIDERAES FINAIS
53
Base de dados
welsh-2001-GNF
butte-data-set
nielsen-soft-2002
prostate-outcome
alizadeh-lymph
MLL-completo
lungcancer-ontario
DLBCLOutcome
pomeroy-cns-dataset-C
breastCancer-completo
lung-harvard
ma-2003-breast
aml-all-completo
DLBCLTumor
leung-2002-gastric
lung-Michigan
prostate-tumorVSNormal
lungCancer-completo
ovarian-61902
DLBCL-NIH-completo
BCR-ABL-completo
E2A-PBX1-completo
Hyperdip50-completo
T-ALL-completo
Rank Mdio
A1-a(100)
0,98 (1,65)
1,26 (1,90)
1,06 (1,26)
0,68 (0,63)
1,23 (1,48)
0,85 (1,33)
0,79 (1,03)
0,98 (1,35)
0,99 (1,03)
1,12 (1,14)
1,18 (1,48)
1,14 (1,49)
0,75 (0,97)
0,85 (0,94)
0,97 (0,84)
0,48 (0,00)
1,06 (1,35)
0,75 (0,97)
0,87 (1,58)
1,58 (3,02)
0,93 (1,58)
0,48 (0,00)
1,20 (1,41)
0,48 (0,00)
5,54 (4,52)
A1-2a(100)
1,03 (0,63)
1,24 (1,26)
1,06 (1,58)
0,60 (1,05)
1,20 (1,41)
0,81 (1,35)
0,78 (1,41)
0,97 (1,26)
0,96 (1,14)
1,10 (0,84)
1,18 (1,75)
1,09 (1,35)
0,76 (1,03)
0,83 (0,63)
0,96 (0,63)
0,48 (0,00)
1,05 (1,14)
0,72 (0,63)
0,85 (0,00)
1,53 (1,69)
0,91 (1,03)
0,48 (0,00)
1,18 (1,14)
0,48 (0,00)
3,44 (4,04)
Tabela 5.3:
J48(U)
1,19 (1,26)
1,29 (0,97)
1,03 (0,84)
0,60 (1,05)
1,18 (1,33)
0,70 (0,00)
0,70 (0,00)
0,91 (1,03)
0,90 (1,05)
1,06 (1,35)
1,04 (0,00)
1,12 (0,32)
0,64 (0,97)
0,79 (1,03)
0,92 (0,97)
0,48 (0,00)
1,07 (2,15)
0,82 (1,26)
1,01 (1,69)
1,55 (6,45)
0,95 (0,00)
0,48 (0,00)
1,23 (2,49)
0,48 (0,00)
3,79 (4,44)
RT
RF-128
RF-a
1,49 (3,33) 3,50 (127,84) 5,50 (11994,41)
1,69 (4,37) 3,71 (54,82) 5,46 (1694,76)
1,40 (3,58) 3,43 (64,93) 5,07 (2017,28)
0,89 (1,40) 2,95 (12,45) 4,94 (1544,84)
1,62 (3,55) 3,65 (76,89) 5,15 (2793,06)
1,32 (2,39) 3,34 (41,43) 5,34 (4140,53)
1,22 (2,46) 3,20 (92,52) 4,55 (2026,73)
1,32 (2,39) 3,31 (27,23) 5,06 (1094,37)
1,28 (1,99) 3,29 (36,12) 5,04 (1480,86)
1,47 (1,14) 3,48 (32,02) 5,76 (4838,67)
1,64 (5,10) 3,68 (64,91) 5,67 (7710,42)
1,47 (3,24) 3,47 (58,66) 4,65 (578,79)
1,19 (2,95) 3,23 (15,09) 4,97 (1078,48)
1,18 (2,74) 3,23 (48,53) 4,97 (1595,72)
1,50 (4,09) 3,50 (96,37) 5,22 (3627,53)
0,88 (2,32) 2,98 (23,34) 4,72 (584,94)
1,55 (3,94) 3,55 (79,28) 5,55 (6457,51)
1,26 (5,27) 3,31 (48,12) 5,30 (2767,56)
1,59 (4,16) 3,60 (70,97) 5,67 (3470,19)
2,02 (6,33) 4,02 (131,46) 5,79 (4520,41)
1,51 (5,32) 3,52 (134,91) 5,52 (8970,52)
1,45 (6,34) 3,53 (102,94) 5,52 (6449,84)
1,81 (9,20) 3,81 (132,42) 5,81 (6894,66)
1,54 (9,11) 3,55 (67,92) 5,55 (5870,10)
9,00 (8,71) 10,00 (10,00) 11,00 (11,00)
log10
RF-2a
5,80 (24085,36)
5,77 (3314,13)
5,37 (4000,00)
5,24 (3058,18)
5,45 (5598,30)
5,64 (8443,43)
4,85 (3959,00)
5,36 (2164,65)
5,34 (2938,35)
6,06 (9510,87)
5,97 (15527,99)
4,95 (1175,47)
5,27 (2265,65)
5,27 (3234,82)
5,52 (7099,53)
5,03 (1261,95)
5,85 (12661,41)
5,60 (5639,96)
5,98 (6763,88)
6,09 (9349,92)
5,82 (18209,36)
5,82 (12681,04)
6,11 (13835,23)
5,86 (11593,31)
12,00 (12,00)
CONSIDERAES FINAIS
54
55
CONSIDERAES FINAIS
Tabela 5.4:
Classicador
A1-a(100)
A1-2a(100)
A1-a(70)
A1-2a(70)
A1-a(90)
A1-2a(90)
J48
J48(U)
RT
A1-2a(100)
A1-a(70)
A1-2a(70)
A1-a(90)
A1-2a(90)
J48
J48(U)
RT
M
N
H
M
H
M
N
O
N
H
M
H
O
H
H
M
H
O
H
O
H
M
H
M
H
M
M
N
N
N
N
N
N
N
N
Valores das mtricas de comparao entre rvores geradas pelo Algoritmo 1 (A12a(90)) e pelo algoritmo J48
Tabela 5.5:
Base de dados
Mtrica J
Mtrica JN
Mtrica JNP
Mtrica P
0,01
0,01
0,04
0,18
0,08
0,00
0,02
0,00
0,20
0,05
0,00
0,00
0,00
0,03
0,00
0,09
0,30
0,06
0,07
0,02
0,07
0,00
0,13
0,15
0,00
0,00
0,09
0,02
0,21
0,02
0,01
0,00
0,02
0,00
0,05
0,02
welsh-2001-GNF
butte-data-set
nielsen-soft-2002
prostate-outcome
alizadeh-lymph
MLL-completo
lungcancer-ontario
DLBCLOutcome
pomeroy-cns-dataset-C
breastCancer-completo
lung-harvard
ma-2003-breast
aml-all-completo
DLBCLTumor
leung-2002-gastric
lung-Michigan
prostate-tumorVSNormal
lungCancer-completo
ovarian-61902
DLBCL-NIH-completo
BCR-ABL-completo
E2A-PBX1-completo
Hyperdip50-completo
T-ALL-completo
0,57
0,60
1,00
1,00
0,00
0,01
0,00
0,02
0,00
0,18
0,28
0,04
0,09
0,03
0,06
0,00
0,13
0,16
0,00
0,00
0,08
0,03
0,24
0,03
0,01
0,00
0,02
0,00
Mdia
Mediana
0,15
0,09
0,17
0,07
0,06
0,03
0,39
0,06
0,09
0,07
0,15
0,05
0,10
0,10
0,14
0,00
0,15
0,16
0,13
0,03
0,01
0,00
0,04
0,43
0,08
0,14
0,06
0,24
0,03
0,15
0,20
0,03
0,00
0,28
0,22
0,27
0,03
0,03
0,00
0,02
CONSIDERAES FINAIS
56
Valores das mtricas de comparao entre rvores geradas pelo Algoritmo 1 (A12a(90)) e pela Random Tree
Tabela 5.6:
Base de dados
welsh-2001-GNF
butte-data-set
nielsen-soft-2002
prostate-outcome
alizadeh-lymph
MLL-completo
lungcancer-ontario
DLBCLOutcome
pomeroy-cns-dataset-C
breastCancer-completo
lung-harvard
ma-2003-breast
aml-all-completo
DLBCLTumor
leung-2002-gastric
lung-Michigan
prostate-tumorVSNormal
lungCancer-completo
ovarian-61902
DLBCL-NIH-completo
BCR-ABL-completo
E2A-PBX1-completo
Hyperdip50-completo
T-ALL-completo
Mdia
Mediana
Tabela 5.7:
Mtrica J
Mtrica JN
Mtrica JNP
Mtrica P
0,01
0,00
0,01
0,00
0,01
0,00
0,00
0,00
0,01
0,01
0,00
0,02
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,01
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
R2
J e JN
JeJNP
J e M4
JN e JN P
JN e P
JN P e P
0,94
0,07
0,04
0,16
0,11
0,93
Captulo
Concluses
Aps a execuo dos dois experimentos preliminares explicados anteriormente foi gerada
a rvore a partir de uma
Random Forest. Tal rvore foi gerada usando Random Forests com
dos atributos que iriam compor a rvore nal e uma porcentagem desses atributos a serem
considerados (100%, 90% e 70%). Foram analisadas 24 bases de expresso gnica (descritas
na Seo A.2). No geral, o algoritmo proposto apresentou um desempenho igual ou melhor
do que o classicador J48 e
Random Tree
e um desempenho inferior ao da
Random Forest.
Random Tree.
Quando comparadas as estruturas das rvores criadas pelo Algoritmo 1, J48 e
Tree
Random
pde-se concluir que as rvores obtidas pelo Algoritmo 1 so mais parecidas com as
obtidas pelo J48, porm essa similaridade no alta. Essa diferena nas estruturas das
rvores, ou seja, nos genes utilizados por cada uma para classicar novos exemplos, pode ser
muito interessante, uma vez que as informaes obtidas por meio de cada uma so diferentes.
Assim, o algoritmo aqui proposto pode fornecer informaes diferentes a respeito das bases
57
58
de expresso gnica com relao aos algoritmos existentes at o momento, como por exemplo
J48 e
Random Tree.
Assim, analisando os resultados obtidos, pode-se notar que a metodologia proposta neste
estudo tem um bom potencial, uma vez que apresenta desempenho melhor do que alguns
classicadores j conhecidos em muitas bases de dados testadas e nmero de ns menores,
ou seja, rvores menores e mais simples de serem interpretadas por humanos. Alm disso, as
rvores criadas apresentaram estruturas (ns) diferentes das rvores geradas pelos demais
classicadores e, assim, elas podem fornecer informaes diferentes e at novas a respeito de
um determinado problema biolgico, ampliando assim o conhecimento humano.
6.1
a Random Forest?,
Data Mining
foi aceito no
Este ar-
within a Random Forest, foi aceito no Intelligent Data Engineering and Automated Learning
(IDEAL 2012) e publicado em
6.2
Trabalhos Futuros
Os resultados obtidos neste projeto de mestrado so promissores, umas vez que a rvore
nal obtida apresentou uma estabilidade maior do que a
Random Tree
Random Tree
rank
(como esperado) e
TRABALHOS FUTUROS
59
Referncias
(2010). Cancer program data sets. Broad Institute.
Citado na p-
gina 73.
(2010). Datasets. http://cilab.ujn.edu.cn/datasets.htm. Cilab.
Acuna, E. & Rojas, A. (2001). Bagging classiers based on kernel density estimators. In
Proceedings of the International Conference on New Trends in Computational Statistics with Biomedical Applications, pp.
Alberts, B. (1997).
Citado na p-
gina 29.
Alberts, B., Johnson, A., Lewis, J., Ra, M., Roberts, K. & Walter, P. (2010).
Molecular da Clula
Biologia
60
61
REFERNCIAS
Armstrong, S. A., Staunton, J. E., Silverman, L. B., Pieters, R., den Boer, M. L., Minden,
M. D., Sallan, S. E., Lander, E. S., Golub, T. R. & Korsmeyer, S. J. (2002). MLL
translocations specify a distinct gene expression prole that distinguishes a unique
leukemia.
Aslan, O., Yildiz, O. T. & Alpaydin, E. (2009). Calculating the VC-dimension of decision
trees. In
193198.
pp.
Aziz, A. & Ahmed, N. (2011). Construction of single classier from multiple interim classication trees.
172178.
Baranauskas, J. A. (2001). Extrao automtica de conhecimento utilizando mltiplos indutores. Technical report, Instituto de Cincias Matemticas e de Computao, Universidade de So Paulo, Brasil.
Bauer, E. & Kohavi, R. (1999). An empirical comparison of voting classication algorithms: Bagging, boosting, and variants.
Citado
na pgina 16.
Beer, D. G., Kardia, S. L., Huang, C.-C., Giordano, T. J., Levin, A. M., Misek, D. E., Lin,
L., Chen, G., Gharib, T. G., Thomas, D. G., Lizyness, M. L., Kuick, R., Hayasaka, S.,
Taylor, J. M., Iannettoni, M. D., Orringer, M. B. & Hanash, S. (2002). Gene-expression
proles predict survival of patients with lung adenocarcinoma.
B 57, 289300.
Bhattacharjee, A., Richards, W. G., Staunton, J., Li, C., Monti, S., Vasa, P., Ladd, C.,
Beheshti, J., Bueno, R., Gillette, M., Loda, M., Weber, G., Mark, E. J., Lander, E. S.,
Wong, W., Johnson, B. E., Golub, T. R., Sugarbaker, D. J. & Meyerson, M. (2001).
Classication of human lung carcinomas by mRNA expression proling reveals distinct
adenocarcinoma subclasses.
REFERNCIAS
62
123140.
Citado nas
Brenner, S., Johnson, M., Bridgham, J., Golda, G., Lloyd, D. H., Johnson, D., Luo, S., McCurdy, S., Foy, M., Ewan, M., Roth, R., George, D., Eletr, S., Albrecht, G., Vermaas,
E., Williams, S. R., Moon, K., Burcham, T., Pallas, M., DuBridge, R. B., Kirchner, J.,
Fearon, K., Mao, J. & Corcoran, K. (2000). Gene expression analysis by massively parallel signature sequencing (MPSS) on microbead arrays.
630634.
North, 5764.
Citado
na pgina 6.
Butte, A. J., Tamayo, P., Slonim, D., Golub, T. R. & Kohane, I. S. (2000). Discovering
functional relationships between RNA expression and chemotherapeutic susceptibility
using relevance networks.
Cheung, V. G., Morley, M., Aguilar, F., Massimi, A., Kucherlapati, R. & Childs, G.
(1999). Making and reading microarrays.
Citado
na pgina 30.
Daz-Uriarte, R. & de Andrs, S. A. (2006). Gene selection and classication of microarray
data using random forest.
BMC Bioinformatics 7,
3.
and 35.
de Souto, M. C. P., Lorena, A., Delbem, A. & de Carvalho, A. (2003). Tcnicas de Aprendi-
REFERNCIAS
Articial.
63
Journal of
Dubath, P., Rimoldini, L., Sveges, M., Blomme, J., Lpez, M., Sarro, L. M., De Ridder,
J., Cuypers, J., Guy, L., Lecoeur, I., Nienartowicz, K., Jan, A., Beck, M., Mowlavi,
N., De Cat, P., Lebzelter, T. & Eyer, L. (2011). Random forest automated supervised classication of hipparcos periodic variable stars.
The Annals of
Lake
Tahoe, California, pp. 148156. Citado nas pginas 1, 14, and 16.
Friedman, M. (1940). A comparison of alternative tests of signicance for the problem of m
rankings.
Journal of
Goldstein, B., Hubbard, A., Cutler, A. & Barcellos, L. (2010). An application of random
forests to a genome-wide association dataset: Methodological considerations and new
ndings.
Golub, T. R., Slonim, D. K., Tamayo, P., Huard, C., Gaasenbeek, M., Mesirov, J. P.,
64
REFERNCIAS
Coller, H., Loh, M. L., Downing, J. R., Caligiuri, M. A., Bloomeld, C. D. & Lander,
E. S. (1999). Molecular classication of cancer: class discovery and class prediction by
gene expression monitoring.
Gordon, G. J., Jensen, R. V., li Hsiao, L., Gullans, S. R., Blumenstock, J. E., Ramaswamy,
S., Richards, W. G., Sugarbaker, D. J. & Bueno, R. (2002). Translation of microarray
data into clinically relevant cancer diagnostic tests using gene expression ratios in lung
cancer and mesothelioma.
Guindalini, C. & Tuk, S. (2007). Use of microarrays in the search of gene expression patterns: application to the study of complex phenotypes.
Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P. & Witten, I. H. (2009).
The weka data mining software: an update.
Special Interest Group on Knowledge Discovery and Data Mining Explor. Newsl. 11 (1),
1018.
curve for multiple class classication problems. Machine Learning 45 (2), 171
186.
Citado na pgina 8.
Huang, J. & Ling, C. X. (2005). Using AUC and accuracy in evaluating learning algorithms.
299310.
Citado na pgina 9.
Jaccard, P. (1901). tude comparative de la distribution orale dans une portion des
Alpes et des Jura.
579.
547
Klassen, M., Cummings, M. & Saldaa, G. (2008). Investigation of random forest performance with cancer microarray data. In T. Philip (Ed.),
cations, pp.
6469. ISCA.
Citado na pgina 2.
Conceitos de Gentica
(9
ed.). ArtMed Editora. Citado nas pginas vi, 20, 21, 22, 23, 25, 27, 28, 31, and 33.
REFERNCIAS
65
Kubat, M., Bratko, I. & Michalski, R. (1998). A review of machine learning methods.
Citado na pgina 6.
Kuncheva, L. I. (2004).
Interscience.
Wiley-
Citado na pgina 1.
Lee, J., Park, M. & Song, S. (2005). An extensive comparison of recent classication tools
applied to microarray data.
869885.
education. McGraw-Hill.
R News 2 (3),
Ling, C., Huang, J. & Zhang, H. (2003). Auc: A better measure than accuracy in comparing learning algorithms. In Y. Xiang & B. Chaib-draa (Eds.),
Advances in Articial
Intelligence, Volume 2671 of Lecture Notes in Computer Science, pp. 991991. Springer
Berlin / Heidelberg.
Nature
REFERNCIAS
66
Ma, X.-J., Salunga, R., Tuggle, J. T., Gaudet, J., Enright, E., McQuary, P., Payette, T.,
Pistone, M., Stecker, K., Zhang, B. M., Zhou, Y.-X., Varnholt, H., Smith, B., Gadd,
M., Chateld, E., Kessler, J., Baer, T. M., Erlander, M. G. & Sgroi, D. C. (2003). Gene
expression proles of human breast cancer progression.
Ma, Y., Guo, L. & Cukic, B. (2007). Statistical framework for the prediction of faultproneness. In
Group.
Michalski, R. S. (1983). A theory and methodology of inductive learning. In R. S. Michalski, J. G. Carbonell, & T. M. Mitchell (Eds.),
Citado na pgina 6.
McGraw-Hill
Citado na pgina 6.
Nanni, L., Brahnam, S. & Lumini, A. (2012). Combining multiple approaches for gene
microarray classication.
Citado na pgina 2.
Belo
Nielsen, T., West, R., Linn, S., Alter, O., Knowling, M., Oconnell, J., Zhu, S., Fero, M.,
Sherlock, G. & Pollack, J. (2002). Molecular characterisation of soft tissue tumours: a
gene expression study.
Oh, I.-S., Lee, J.-S. & Moon, B.-R. (2004). Hybrid genetic algorithms for feature selection.
REFERNCIAS
7435 of
67
Citado nas pginas 36, 37, 39, 45, 58, and 71.
Pang, H., Lin, A., Holford, M., Enerson, B. E., Lu, B., Lawton, M. P., Floyd, E. &
Zhao, H. (2006). Pathway analysis using random forests classication and regression.
Citado na pgina 3.
Perez, P. S. & Baranauskas, J. A. (2011). Analysis of decision tree pruning using windowing
in medical datasets with dierent class distributions. In
Petricoin, E. F., Ardekani, A. M., Hitt, B. A., Levine, P. J., Fusaro, V. A., Steinberg,
S. M., Mills, G. B., Simone, C., Fishman, D. A., Kohn, E. C. & Liotta, L. A. (2002).
Use of proteomic patterns in serum to identify ovarian cancer.
572577.
Pomeroy, S. L., Tamayo, P., Gaasenbeek, M., Sturla, L. M., Angelo, M., McLaughlin,
M. E., Kim, J. Y. H., Goumnerova, L. C., Black, P. M., Lau, C., Allen, J. C., Zagzag,
D., Olson, J. M., Curran, T., Wetmore, C., Biegel, J. A., Poggio, T., Mukherjee, S.,
Rifkin, R., Califano, A., Stolovitzky, G., Louis, D. N., Mesirov, J. P., Lander, E. S. &
Golub, T. R. (2002). Prediction of central nervous system embryonal tumour outcome
based on gene expression.
Rosenwald, A., Wright, G., Chan, W. C., Connors, J. M., Campo, E., Fisher, R. I., Gascoyne, R. D., Muller-Hermelink, H. K., Smeland, E. B., Giltnane, J. M., Hurt, E. M.,
68
REFERNCIAS
Zhao, H., Averett, L., Yang, L., Wilson, W. H., Jae, E. S., Simon, R., Klausner,
R. D., Powell, J., Duey, P. L., Longo, D. L., Greiner, T. C. & It Et Al (2002). The
use of molecular proling to predict survival after chemotherapy for diuse large-B-
cell lymphoma.
19371947.
Citado na
pgina 75.
Saeys, Y., Inza, I. n. & Larraaga, P. (2007). A review of feature selection techniques in
bioinformatics.
Sharp, F. R., Xu, H., Lit, L., Walker, W., Apperson, M., Gilbert, D. L., Glauser, T. A.,
Wong, B., Hershey, A., Liu, D.-Z. Z., Pinter, J., Zhan, X., Liu, X. & Ran, R. (2006).
The future of genomic proling of neurological diseases using blood.
Archives of neu-
Shipp, M. A., Ross, K. N., Tamayo, P., Weng, A. P., Kutok, J. L., Aguiar, R. C., Gaasenbeek, M., Angelo, M., Reich, M., Pinkus, G. S., Ray, T. S., Koval, M. A., Last, K. W.,
Norton, A., Lister, T. A., Mesirov, J., Neuberg, D. S., Lander, E. S., Aster, J. C.
& Golub, T. R. (2002). Diuse large B-cell lymphoma outcome prediction by geneexpression proling and supervised machine learning.
6874.
203209.
and 74.
Sirikulviriya, N. & Sinthupinyo, S. (2011). Integration of rules from a random forest.
Inter-
194198.
Citado
(1 ed.).
na pgina 1.
Tan, P.-N., Steinbach, M. & Kumar, V. (2005).
Addison Wesley.
No citado no texto.
van 't Veer, L. J., Dai, H., van de Vijver, M. J., He, Y. D., Hart, A. A., Mao, M.,
Peterse, H. L., van der Kooy, K., Marton, M. J., Witteveen, A. T., Schreiber, G. J.,
Kerkhoven, R. M., Roberts, C., Linsley, P. S., Bernards, R. & Friend, S. H. (2002).
69
REFERNCIAS
Vapnik, V., Levin, E. & Cun, Y. L. (1994). Measuring the vc-dimension of a learning
machine.
Velculescu, V. E., Zhang, L., Vogelstein, B. & Kinzler, K. W. (1995). Serial analysis of
gene expression.
Wang, G., Hao, J., Ma, J. & Jiang, H. (2011). A comparative assessment of ensemble
learning for credit scoring.
Citado na
pgina 14.
Watson, J. D. & Crick, F. H. C. (1953). Molecular Structure of Nucleic Acids: A Structure
for Deoxyribose Nucleic Acid.
prediction methods from statistics, neural nets, machine learning, and expert systems.
Morgan Kaufmann Publishers. Citado na pgina 5.
Welsh, J. B., Sapinoso, L. M., Su, A. I., Kern, S. G., Wang-Rodriguez, J., Moskaluk, C. A.,
Frierson, H. F. & Hampton, G. M. (2001). Analysis of gene expression identies candidate markers and pharmacological targets in prostate cancer.
59748.
Wigle, D. A., Jurisica, I., Radulovich, N., Pintilie, M., Rossant, J., Liu, N., Lu, C., Woodgett, J., Seiden, I., Johnston, M., Keshavjee, S., Darling, G., Winton, T., Breitkreutz,
B.-J., Jorgenson, P., Tyers, M., Shepherd, F. A. & Tsao, M. S. (2002). Molecular proling of non-small cell lung cancer and correlation with disease-free survival.
Cancer
Citado na
pgina 1.
Wu, B., Abbott, T., Fishman, D., McMurray, W., Mor, G., Stone, K., Ward, D., Williams, K. & Zhao, H. (2003). Comparison of statistical methods for classication of
ovarian cancer using a proteomics dataset.
Citado
REFERNCIAS
70
na pgina 34.
Yamamoto, M., Wakatsuki, T., Hada, A. & Ryo, A. (2001). Use of serial analysis of gene
expression (SAGE) technology.
4566.
Zhao, Y. & Zhang, Y. (2008). Comparison of decision tree methods for nding active
objects.
Apndice
Bases de Dados
Neste apndice so descritas resumidamente as bases utilizadas nos experimentos preliminares (Oshiro, Perez & Baranauskas 2012) e (Oshiro & Baranauskas 2012) descritos no
Apndice B e na construo da rvore nal. As bases referentes aos experimentos esto no
Apndice A.1 e as referentes a construo da rvore nal esto no Apndice A.2.
A.1
Todas as bases de dados usadas representam bases mdicas reais ou bases de expresso
gnica e nenhuma possui valor ausente para o atributo classe. Na Tabela A.1 mostrado
um resumo das bases de dados e as mtricas de densidade correspondentes, denidas na
Seo B.1. As bases esto ordenadas de acordo com a mtrica
D2
Breast Cancer, Lung Cancer, CNS (Central Nervous System Tumour Outcome),Lymphoma,
71
72
Resumo das bases de dados utilizadas neste experimento, onde n indica o nmero de
exemplos; c representa o nmero de classes; a, a# e aa indica o nmero total de atributos, o nmero
de atributos nmericos e o nmero de atributos nominais, respectivamente; MISS representa a porcentagem de atributos com valores ausentes, sem considerar o atributo classe; as ltimas 3 colunas
so as mtricas de densidade D1 , D2 , D3 de cada base, respectivamente. Bases esto ordenadas por
D2 em ordem crescente.
Tabela A.1:
Base de dados
GCM (Global
de
a(a# ,aa )
MISS
D1
D2
D3
GCM
Lymphoma
CNS
Leukemia
Leukemia nom,
Ovarian 61902
Lung Cancer
C. Arrhythmia
190
96
60
72
72
253
32
452
14
9
2
2
2
2
3
16
16063 (16063, 0)
4026 (4026, 0)
7129 (7129, 0)
7129 (7129, 0)
7129 (7129, 0)
15154 (15154, 0)
56 (0, 56)
279 (206, 73)
0,00%
5,09%
0,00%
0,00%
0,00%
0,00%
0,28%
0,32%
0,54
0,55
0,46
0,48
0,48
0,57
0,86
1,08
0,27
0,28
0,38
0,40
0,40
0,50
0,59
0,59
0,26
0,27
0,34
0,36
0,36
0,46
0,52
0,58
Dermatology
HD Switz,
Lymphography
Hepatitis
HD Hungarian
HD Cleveland
P. Patient
WDBC
Splice Junction
Heart Statlog
Allhyper
Allhypo
Sick
Breast Cancer
Hypothyroid
ANN Thyroid
WBC
C. Method
Pima Diabetes
Liver Disorders
H. Survival
366
123
148
155
294
303
90
569
3190
270
3772
3772
3772
286
3163
7200
699
1473
768
345
306
6
5
4
2
5
5
3
2
3
2
5
4
2
2
2
3
2
3
2
2
2
34 (1, 33)
13 (6, 7)
18 (3, 15)
19 (6, 13)
13 (6, 7)
13 (6, 7)
8 (0, 8)
30 (30, 0)
60 (0, 60)
13 (13, 0)
29 (7, 22)
29 (7, 22)
29 (7, 22)
9 (0, 9)
25 (7, 18)
21 (6, 15)
9 (9, 0)
9 (2, 7)
8 (8, 0)
6 (6, 0)
3 (2, 1)
0,06%
17,07%
0,00%
5,67%
20,46%
0,18%
0,42%
0,00%
0,00%
0,00%
5,54%
5,54%
5,54%
0,35%
6,74%
0,00%
0,25%
0,00%
0,00%
0,00%
0,00%
1,67
1,88
1,73
1,71
2,21
2,22
2,16
1,86
1,97
2,18
2,44
2,44
2,44
2,57
2,50
2,92
2,98
3,32
3,19
3,26
5,21
1,17
1,25
1,25
1,48
1,59
1,60
1,63
1,66
1,70
1,91
1,97
2,03
2,24
2,26
2,29
2,56
2,66
2,82
2,86
2,87
4,58
1,12
1,18
1,17
1,34
1,52
1,53
1,50
1,54
1,63
1,75
1,91
1,97
2,12
2,07
2,16
2,46
2,48
2,69
2,67
2,65
4,21
Cancer Map),
Breast Cancer),
vival (H.
WDBC
Haberman's
(Wisconsin
Lymphography
H. Sur-
Leukemia
Leukemia nom.
representam a
mesma base, mas a segunda tem seus atributos discretizados (Netto et al. 2010).
C. Ar-
Switzerland )
clnicos e laboratoriais.
Hepatitis
Liver Disorders
so uma srie
esto relaciona-
C. Method (C.
Pima Diabetes
de
Contraceptive ), Dermatology,
Splice Junction
73
limites entre exons e introns. As bases foram obtidas no Repositrio UCI (Frank & Asuncion
2010), exceto
Ovarian 61902
ECML
2010).
A.2
microarray,
descritas resumidamente
na Tabela A.2, cuja legenda a mesma da Tabela A.1. A seguir, uma breve descrio de
cada base utilizada.
welsh-2001-GNF est relacionada com a classicao de amostras de tecido da prstata (Welsh et al. 2001);
MLL-completo est relacionada com a diferenciao de pacientes com leucemia mieloide aguda, leucemia linfoctica aguda e leucemia de linhagem misturada (MLL) (Armstrong et al. 2002);
lungcancer-ontario est relacionada com a classicao de pacientes que tiveram tumor em: pacientes que apresentaram metstase local ou distante, ou como livre da
doena (Wigle et al. 2002);
74
pomeroy-cns-dataset-C est relacionada com a classicao de pacientes com meduloblastoma em pacientes que sobreviveram ao tratamento e pacientes que no sobreviveram (Pomeroy et al. 2002);
in-situ, carcinoma
aml-all-completo est relacionada com a classicao de pacientes com: leucemia mieloide aguda (AML) ou leucemia linfoblstica aguda (ALL) (Golub et al. 1999);
lung-Michigan est relacionada com a classicao de pacientes em tendo adenocarcinoma primrio de pulmo ou no tendo (Beer et al. 2002);
ovarian-61902 est relacionada com a distino entre pacientes com cncer e pacientes
normais (Petricoin et al. 2002);
75
BCR-ABL-completo est relacionada com a classicao de subtipos de leucemia linfoblstica peditrica (Yeoh et al. 2002);
Tabela A.2:
Base de dados
welsh-2001-GNF
butte-data-set
nielsen-soft-2002
prostate-outcome
alizadeh-lymph
MLL-completo
lungcancer-ontario
DLBCLOutcome
pomeroy-cns-dataset-C
breastCancer-completo
lung-harvard
ma-2003-breast
aml-all-completo
DLBCLTumor
leung-2002-gastric
lung-Michigan
prostate-tumorVSNormal
lungCancer-completo
ovarian-61902
DLBCL-NIH-completo
BCR-ABL-completo
E2A-PBX1-completo
Hyperdip50-completo
T-ALL-completo
a(a# ,aa )
55
68
46
21
96
72
39
58
60
97
203
61
72
77
126
96
136
181
253
240
327
327
327
327
14
9
6
2
9
3
2
2
2
2
5
3
2
2
3
2
2
2
2
2
2
2
2
2
12626 (12626,0)
7245 (7245,0)
5520 (5520,0)
12600 (12600,0)
4026 (4026,0)
12582 (12582,0)
2880 (2880,0)
7129 (7129,0)
7129 (7129,0)
24481 (24481,0)
12600 (12600,0)
1946 (1941,5)
7129 (7129,0)
7129 (7129,0)
6688 (6688,0)
7129 (7129,0)
12600 (12600,0)
12533 (12533,0)
15154 (15154,0)
7399 (7399,0)
12558 (12558,0)
12558 (12558,0)
12558 (12558,0)
12558 (12558,0)
MISS
D1
D2
D3
0,00%
0,00%
0,00%
0,00%
5,09%
0,00%
5,96%
0,00%
0,00%
0,00%
0,00%
0,30%
0,00%
0,00%
5,87%
0,00%
0,00%
0,00%
0,00%
10,30%
0,00%
0,00%
0,00%
0,00%
0,42
0,47
0,44
0,32
0,55
0,45
0,46
0,46
0,46
0,45
0,56
0,54
0,48
0,49
0,55
0,51
0,52
0,55
0,57
0,62
0,61
0,61
0,61
0,61
0,14
0,23
0,24
0,25
0,29
0,34
0,37
0,38
0,38
0,38
0,39
0,40
0,40
0,41
0,42
0,44
0,45
0,48
0,50
0,54
0,54
0,54
0,54
0,54
0,14
0,22
0,22
0,21
0,27
0,31
0,33
0,34
0,34
0,34
0,37
0,36
0,36
0,37
0,39
0,39
0,40
0,44
0,46
0,49
0,50
0,50
0,50
0,50
Apndice
Experimentos Realizados
As bases utilizadas nestes experimentos preliminares encontram-se descritas na Seo A.1.
Na Seo B.1, so discutidas algumas mtricas de densidade propostas nesta pesquisa e utilizadas na execuo do primeiro experimento. Nas Sees B.2 e B.3 so discutidos os resultados
obtidos nos experimentos preliminares 1 e 2, respectivamente.
A m de analisar se os resultados so signicativamente diferentes, aplicou-se o teste
de Friedman (Friedman 1940), considerando um nvel de signicncia de 5%, assim como
explicado na Seo 4.2.
B.1
Mtricas de densidade
sabido a partir da teoria do aprendizado computacional que, dado um espao de hipteses (neste caso, denido pela
conjunto de treinamento (tamanho) para um classicador convergir (com maior probabilidade) para uma hiptese bem sucedida (Mitchell 1997, Chap. 7). Isto requer conhecimento
do tamanho do espao de hipteses (ou seja, sua cardinalidade) ou sua capacidade fornecida pela dimenso VC (Vapnik, Levin & Cun 1994). Na prtica, encontrar o tamanho do
76
MTRICAS DE DENSIDADE
77
parecem
atributos e
exemplos.
Estas mtricas foram projetadas usando as seguintes ideias. Para um objeto fsico, a
densidade
sua massa dividida pelo seu volume. Para uma base de dados, foi conside-
rada sua massa como o nmero de exemplos; seu volume foi dado por seus atributos. Aqui
considera-se o conceito de volume de um objeto (base de dados) como sua capacidade, ou
seja, a quantidade de uido (atributos) que o objeto pode conter, em vez de a quantidade
de espao que o objeto desloca. Sob estas consideraes, tem-se
D ,
n
. Uma vez que,
a
em geral, estes nmeros variam consideravelmente, um melhor modo de olhar para eles foi
usando ambos nmeros na escala logartmica natural,
D,
ln n
o qual nos leva a (B.1). Na
ln a
prxima mtrica, foi considerado que o nmero de exemplos (massa) torna-se rarefeito pelo
nmero de classes, resultando em (B.2) e a ltima mtrica engloba bases de dados vazias
(sem exemplos) e bases sem o rtulo da classe (aprendizado no supervisionado).
EXPERIMENTO 1
D1 , loga n
(B.1)
n
c
n+1
, loga
c+1
D2 , loga
(B.2)
D3
(B.3)
78
Di , Di 0, i = 1, 2, 3.
Considera-se que se
Di < 1,
c n,
bvio que,
a densidade baixa e
talvez o aprendizado a partir dessa base pode ser difcil, sob o ponto de vista computacional.
Caso contrrio,
B.2
Di 1,
pode ser
mais fcil.
Experimento 1
Neste experimento foram utilizadas duas medidas para analisar os resultados: a rea
mdia ponderada sob a curva ROC (AUC) e a porcentagem de atributos usados em cada
Random Forest.
validao cruzada com 10-folds. A mdia de todas as repeties para uma dada oresta em
uma determinada base foi tomada como o valor do desempenho (AUC e porcentagem) para
o par.
Os valores de AUC obtidos para cada base (29 bases, descritas no Apndice A.1) e cada
nmero de rvores usadas na
Random Forest
rank
rank
as bases; somente as 8 bases com baixa densidade; e somente as 21 bases com alta densidade.
Como pode ser observado, em todos os grupos (todos/8 baixa-densidade/ 21 alta-densidade)
a oresta com 4096 rvores tem o menor (melhor)
rank
21 alta-densidade, pode-se observar que as orestas com 2048 e 4096 rvores apresentam
o mesmo
rank.
rank
EXPERIMENTO 1
79
dia e mediana das bases com alta densidade para cada uma das trs primeiras iteraes,
L = 2, 4, 8,
so maiores do que os valores das bases com baixa densidade; o oposto ver-
dadeiro para
L = 16, . . . , 4096.
exigem um poder de expresso maior (orestas maiores) do que bases com alta densidade.
Esta potncia expressiva, naturalmente, pode ser expressa como o tamanho do espao da
Random Forest (hiptese) ou sua dimenso VC.
A m de obter um melhor entendimento, os valores AUC tambm so apresentados nas
Figuras B.1, B.2 e B.3 considerando todas as bases, somente as 8 com baixa densidade e somente as 21 bases com alta densidade, respectivamente. Como pode ser visto, nas Figuras B.1
e B.2, ambas mdia e mediana aumentam conforme o nmero de rvores aumenta, mas alm
de 64 rvores estas guras no apresentam grandes mudanas. Na Figura B.3, a mdia e a
mediana no apresentam maiores mudanas a partir de 32 e 16 rvores, respectivamente.
Com estes resultados pode-se observar um comportamento assinttico, onde um aumento
nos valores do AUC so difceis de se obter, mesmo dobrando o nmero de rvores dentro
da oresta. Um modo de compreender este comportamento assinttico computando a
diferena entre o AUC de uma iterao com a prxima (por exemplo, entre 2 e 4, 4 e 8,
etc.). Estes resultados so apresentados nas Figuras B.4, B.5 e B.6 para todas as bases,
8 baixa densidade e 21 alta densidade, respectivamente. Para esta anlise, ns excluimos
as diferenas dos AUC das bases que atingiram o valor de AUC igual a 99.99% antes de
4096 rvores (valores em negrito na Tabela B.1). Analisando esta tabela, podemos notar que
usando todas as bases e as 8 com baixa densidade, as diferenas do AUC (mdia e mediana)
entre 32 e 64 rvores na oresta esto abaixo de 1%. Considerando as 21 bases com alta
densidade, estas diferenas esto abaixo de 1% entre 16 e 32 rvores na oresta e abaixo de
0.3% entre 32 e 64 rvores.
Analisando a Figura B.4 foi feito um ajuste dos valores de mdia e mediana por meio dos
mnimos quadrados para curva
AUC (ganho) e
g = aLb ,
onde
R2 = 0.99
correlao
a = 6.06
b = 0.65
com coeciente de
EXPERIMENTO 1
80
Valores AUC, mdia, mediana e rank mdio obtidos nos experimentos. Dados em
negrito representam valores excluidos da anlise da diferena do AUC.
Tabela B.1:
Nmero de rvores
Bases
GCM
0.72
0.77
0.83
Lymphoma
0.85
0.92
0.96
CNS
0.50
0.52
0.56
16
32
64
128
256
0.87
0.89
0.98
0.98
0.58
512
1024
0.91
0.91
0.99
0.99
0.59
0.59
0.59
2048
4096
0.92
0.92
0.99
0.99
0.92
0.93
0.93
0.99
0.99
0.58
0.60
0.99
0.60
0.60
0.60
Leukemia
0.76
0.85
0.93
0.97
0.98
0.98
0.99
0.99
0.99
0.99
0.99
1.00
Leukemia nom.
0.72
0.81
0.91
0.96
0.99
1.00
1.00
1.00
1.00
1.00
1.00
1.00
Ovarian 61902
0.90
0.96
0.98
0.99
0.99
0.99
1.00
1.00
1.00
1.00
1.00
1.00
Lung Cancer
0.58
0.64
0.66
0.65
0.65
0.66
0.66
0.68
0.69
0.68
0.68
0.69
C. Arrhythmia
0.71
0.77
0.82
0.85
0.87
0.88
0.89
0.89
0.89
0.89
0.89
0.89
Dermatology
0.97
0.99
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
HD Switz.
0.55
0.55
0.58
0.58
0.60
0.61
0.60
0.60
0.60
0.61
0.61
0.61
Lymphography
0.82
0.87
0.90
0.92
0.93
0.93
0.93
0.93
0.93
0.93
0.93
0.93
Hepatitis
0.76
0.80
0.83
0.84
0.85
0.85
0.85
0.85
0.86
0.85
0.86
0.86
HD Hungarian
0.80
0.84
0.86
0.87
0.88
0.88
0.88
0.88
0.88
0.88
0.88
0.88
HD Cleveland
0.80
0.84
0.87
0.88
0.89
0.89
0.90
0.89
0.89
0.89
0.90
0.90
P. Patient
0.45
0.45
0.46
0.46
0.45
0.45
0.45
0.45
0.45
0.45
0.45
0.45
WDBC
0.96
0.98
0.99
0.99
0.99
0.99
0.99
0.99
0.99
0.99
0.99
0.99
Splice Junction
0.87
0.93
0.97
0.99
0.99
0.99
0.99
1.00
1.00
1.00
1.00
1.00
Heart Statlog
0.80
0.84
0.87
0.89
0.89
0.89
0.90
0.90
0.90
0.90
0.90
0.90
Allhyper
0.89
0.95
0.98
0.99
0.99
1.00
1.00
1.00
1.00
1.00
1.00
1.00
Allhypo
0.98
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
Sick
0.92
0.97
0.99
0.99
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
Breast Cancer
0.60
0.63
0.64
0.65
0.65
0.66
0.66
0.67
0.66
0.66
0.66
0.66
Hypothyroid
0.95
0.97
0.98
0.98
0.99
0.99
0.99
0.99
0.99
0.99
0.99
0.99
ANN Thyroid
0.99
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
WBC
0.97
0.98
0.99
0.99
0.99
0.99
0.99
0.99
0.99
0.99
0.99
0.99
C. Method
0.62
0.64
0.66
0.66
0.67
0.67
0.67
0.68
0.68
0.68
0.68
0.68
Pima Diabetes
0.72
0.76
0.79
0.81
0.81
0.82
0.82
0.82
0.82
0.82
0.83
0.83
Liver Disorders
0.66
0.70
0.72
0.74
0.75
0.76
0.76
0.77
0.77
0.77
0.77
0.77
H. Survival
0.58
0.60
0.61
0.62
0.63
0.63
0.64
0.64
0.64
0.64
0.64
0.64
Mdia
0.77
0.81
0.84
0.85
0.86
0.86
0.86
0.87
0.87
0.87
0.87
0.87
Mediana
0.80
0.84
0.87
0.89
0.89
0.91
0.91
0.92
0.92
0.92
0.93
0.93
11.83
10.55
8.79
8.05
6.88
5.81
5.12
4.62
4.31
4.39
3.91
3.72
Mdia
0.72
0.78
0.83
0.85
0.87
0.88
0.88
0.88
0.88
0.88
0.89
0.89
Mediana
0.72
0.79
0.87
0.91
0.93
0.94
0.95
0.96
0.96
0.96
0.96
0.96
12.00
11.00
9.62
8.81
7.94
6.25
4.81
4.44
3.37
3.69
3.37
2.69
Mdia
0.79
0.82
0.84
0.85
0.86
0.86
0.86
0.86
0.86
0.86
0.86
0.86
Mediana
0.80
0.84
0.87
0.89
0.89
0.89
0.90
0.90
0.90
0.90
0.90
0.90
11.76
10.38
8.47
7.76
6.47
5.64
5.24
4.69
4.66
4.66
4.12
4.12
Todas
Rank mdio
8 baixa-densidade
Rank mdio
21 alta-densidade
Rank mdio
EXPERIMENTO 1
correlao
L=8
L),
81
R2 = 0.99, o qual indica que este um bom ajuste tambm. Por exemplo, usando
rvores com AUC igual a 0.90, possvel estimar o AUC para 16 rvores (dobrando
assim,
g w 78 %
0.90 (1 +
7/8
)
100
w 0.91.
Certamente, esta frmula pode ser usada com qualquer nmero positivo de rvores, por
exemplo, considerando uma oresta com 100 rvores, o ganho esperado no AUC para uma
oresta com 200 rvores 0.07%.
Na Tabela B.2 so representados os resultados do teste
M (N)
indica que a
Random
O (H)
Random Forest
desta tabela no mostrado pois ele apresenta resultados opostos ao tringulo superior por
simetria.
Algumas observaes importantes podem ser feitas a partir da Tabela B.2. Primeiro,
j
pode-se observar que no h diferena signicativa entre um dado nmero de rvores (2 )
j+1
e seu dobro (2
), em todos os casos. Quando h uma diferena signicativa, isto somente
j
aparece quando comparado o nmero de rvores (2 ) com pelo menos quatro vezes este
j+2
nmero (2
). Segunda observao importante que a partir de
signicativa foi encontrada apenas em
uma diferena
64 = 26
4096
128 = 27
rvores.
Nmero
de rvores
2
4
8
16
32
64
128
256
512
1024
2048
4096
Tabela B.2:
/O/H
/O/O
/O/O
4
H
/O/H
/O/H
O / O / O
16
H
/O/H
/O/H
O / O / O
O / O / O
H
32
H
/H/H
/H/H
H / O / H
H / O / O
O / O / O
H
64
H
/H/H
/H/H
H / H / H
H / O / H
O / O / O
O / O / O
H
128
H
/H/H
/H/H
H / H / H
H / H / H
H / O / O
O / O / O
O / O / O
H
256
H
/H/H
/H/H
H / H / H
H / H / H
H / H / O
O / O / O
O / O / O
O / O / O
H
512
H
/H/H
/H/H
H / H / H
H / H / H
H / H / O
O / O / O
O / O / O
O / O / O
M / M /
H
1024
H
/H/H
/H/H
H / H / H
H / H / H
H / H / O
O / O / O
O / O / O
O / O / O
O / / O
O / O / O
H
2048
H
/H/H
/H/H
H / H / H
H / H / H
H / H / O
H / O / O
O / O / O
O / O / O
O / O / O
O / O / O
O / O /
H
4096
Resultados do teste de Friedman para os valores AUC usando todas bases/8 baixa densidade/21 alta densidade
EXPERIMENTO 1
82
EXPERIMENTO 1
83
Figura B.1: Valor AUC em todas as bases de Figura B.2: Valor AUC nas 8 bases com baixa
dados (29 bases)
densidade
Figura B.3:
densidade
Valor AUC nas 21 bases com alta Figura B.4: Diferenas do valor AUC em todas
as bases
Diferenas do valor AUC nas 8 bases Figura B.6: Diferenas do valor AUC nas 21 bacom baixa densidade
ses com alta densidade
Figura B.5:
EXPERIMENTO 1
Figura B.9:
84
Concluso
Este primeiro experimento preliminar analisou o nmero de rvores para serem geradas
por uma
Random Forest.
Random Forest
e o seu dobro. A anlise de 29 bases de dados mostra que a partir de 128 rvores no h
mais diferena signicativa entre as orestas usando 256, 512, 1024, 2048 e 4096 rvores.
Os valores da mdia e mediana do AUC no apresentam maiores mudanas a partir de 64
rvores. Portanto, possvel sugerir, baseado neste experimento, um intervalo entre 64 e 128
rvores na oresta. Utilizando esses nmeros de rvores possvel obter um bom balano
entre AUC, tempo de processamento e uso de memria. Tambm foi descoberta uma relao
experimental (inversamente proporcional) para o ganho do AUC quando dobra-se o nmero
de rvores em qualquer oresta. Analisando a porcentagem de atributos usados, pode-se
notar que a mediana alcana o conjunto inteiro de atributos com 128 rvores na oresta.
Assim, assintoticamente a tendncia indica que a
e isso no interessante em alguns casos, por exemplo em bases com muitos atributos (ou
seja, bases de expresso gnica), uma vez que nem todos so importantes para o aprendizado
do conceito (Netto, Nozawa, Mitrowsky, Macedo & Baranauskas 2010; Gamberger, Lavrac,
Zelezny & Tolar 2004).
EXPERIMENTO 2
B.3
85
Experimento 2
a
rvores, novamente sem estabilidade, onde
2
2a
isso possvel observar que uma boa preciso pode ser alcanada rapidamente com 64128
rvores; este ponto de vista v a
Random Forest
uma caixa branca, mais rvores podem ser necessrias para encontrar outras mtricas que
no desempenho.
A seguir, os resultados de cada etapa deste experimento sero apresentados. Todas as
etapas deste experimento utilizam a posio do atributo (ou seja, o ndice do atributo na
base de acordo com o Weka (Hall, Frank, Holmes, Pfahringer, Reutemann & Witten 2009),
o qual comea no zero) como seu ID. Para avaliar o desempenho, foi realizada validao
cruzada com 10-folds. Foram utilizadas 14 bases das 29 descritas no Apndice A.1, pois
foram analisadas somente as bases que apresentavam nmero de atributos maior do que 25,
a m de melhor analisar a estabilidade dos atributos mais usados, uma vez que existiam
bases com 3 atributos e assim, seriam geradas orestas muito pequenas (com no mximo 6
rvores).
Etapa 1.
(vezesSelecionado) e o nmero de vezes que este atributo foi, de fato, escolhido para ser o n
raiz (vezesRaiz ). Ento, usou-se a razo entre eles (F requencia
= vezesRaiz /vezesSelecionado)
86
EXPERIMENTO 2
Figura B.10:
para analisar a frequncia dos atributos. Aps ordenar as frequncias de todos os atributos
de cada base, foi possvel notar que elas apresentaram um comportamento exponencial. Na
Figura B.10 somente as dez maiores frequncias so mostradas. H quatro linhas em cada
grco representando a mdia e a mediana das frequncias para orestas utilizando
rvores (ordenadas pelas frequncias mdias da oresta usando
2a
gura, possvel observar que em alguns casos h um nico atributo que sobressai (por
exemplo, nas bases Allhyper e Allhypo, ambas contendo poucos atributos) e em outros casos, h um subconjunto de atributos mais frequentemente usados (por exemplo, nas bases
Lymphoma e Leukemia, ambas contendo um grande nmero de atributos).
Etapa 2.
sentavam frequncias muito prximas. Por exemplo, suponha que existem trs atributos na
subconjunto de atributos mais usados: A, B e C. Assumindo que todos eles possuem a mesma
frequncia, porm o atributo A tem erro
out-of-bag
C igual a 0.20. Neste caso, assume-se que o atributo C o melhor do subconjunto, uma vez
que seu desempenho o melhor. A questo que surge como estimar o erro
out-of-bag
para
EXPERIMENTO 2
Figura B.11:
estimado.
87
out-of-bag
um dado atributo. Sabe-se que o atributo do nvel de raiz o mais importante na rvore e
portanto, pode-se assumir que ele determina o desempenho da rvore. Baseado nessa suposio, utilizou-se o erro
out-of-bag
Com estas modicaes, foi realizada a segunda etapa do experimento, na qual as frequncias foram alteradas para
corresponde ao erro
out-of-bag
out-of-bag
Random Forest,
o parmetro
Random Forest.
minN um
Para realizar a
EXPERIMENTO 2
88
Resultados do teste de Friedman para os valores AUC usando 128 rvores e considerando um nvel de signicncia de 5%; rank mdio para cada valor de minN um e a porcentagem
do tempo mdio de execuo.
Tabela B.3:
minN um
1
2
3
5
7
11
13
17
19
23
Rank Mdio
Tempo(%)
11
13
17
19
23
O
O
O
O
O
M
M
M
M
M
M
M
M
M
O
M
M
M
O
O
M
M
M
M
M
M
M
M
M
M
M
M
M
M
M
M
M
M
M
M
M
M
M
M
5.18
100.00
4.64
95.04
4.46
92.22
4.39
85.49
5.46
81.80
5.54
76.15
4.93
73.64
6.25
70.30
6.79
69.39
7.36
66.91
determina o nmero mnimo de exemplos em uma folha, onde o valor defaut na Weka (Hall,
Frank, Holmes, Pfahringer, Reutemann & Witten 2009) 1.0, o que gera rvores muito
grandes. Baseado nisso, foram utilizados dez valores diferentes de
minN um:
1, 2, 3, 5,
7, 11, 13, 17, 19 e 23. Como explicado na Seo B.2, para a estimao da preciso um
intervalo de 64128 rvores suciente. Desse modo, foram construdas orestas com 128
rvores. Para analisar os diversos valores de
minN um,
minN um.
minN um = 1,
induzir esta oresta foi tomado como 100% e as porcentagens restantes foram calculadas
baseadas nesta, visto que para valores maiores de
minN um
minN um.
rank
minN um
au-
menta, o que esperado uma vez que valores maiores representam uma rvore menor e
portanto, um tempo de execuo mais curto. Embora no h diferenas signicativas, possvel notar a partir da Tabela B.3 que
o melhor
rank
minN um = 5
EXPERIMENTO 2
Figura B.12: Frequncia dos 10 atributos mais usados em todas bases usando o erro
estimado e minN um = 5.
89
out-of-bag
resultados so mostrados na Figura B.12. Como possvel notar, no houve diferenas signicativas entre os comportamentos das frequncias mostrados nas Figuras B.11 e B.12, mas
este ltimo quase 15% mais rpido do que o primeiro. Contudo, houve diferenas em alguns subconjuntos dos dez atributos mais usados. Por exemplo, em quatro bases (Leukemia,
Lymphoma, Ovarian e WDBC) os dez atributos mais usados foram os mesmos em ambas
etapas, porm a sequncia deles foi diferente; em outras quatro bases (Arrhythmia, CNS,
Leukemia nom. e Lung Cancer) alguns atributos apareceram em ambas etapas (na mesma
ordem e em ordem diferente) e houve alguns atributos diferentes entre elas. Por outro lado,
em seis bases (Allhyper, Allhypo, Dermatology, Sick, Splice e Thyroid) as sequncias dos
dez atributos mais usados foram as mesmas em ambas etapas.
Concluso
Este segundo experimento preliminar visou analisar a frequncia que os atributos aparecem nas razes das rvores de uma Random Forest. Foram construdas
usando
2a
rvores, onde
Random Forests
Random Forest
90
EXPERIMENTO 2
mais utilizados ou um nico atributo em cada base. Alm disso, a frequncia que os atributos aparecem na raiz tem um comportamento exponencial. Parece que quando usa-se
2a
rvores, o subconjunto de atributos estvel. Pode-se tambm observar que nem sempre que
um atributo usado mais do que outro, seu desempenho melhor. As vezes outro atributo
apresenta um erro
out-of-bag
out-of-bag
notar que em todas as bases, um atributo sobressaiu. interessante notar que em bases de
dados de expresso gnica, encontrar um subconjunto ou um nico melhor atributo pode
facilitar a descoberta de conhecimento e melhorar o desempenho da classicao.