Fsdafd

Uma abordagem para a construo de uma nica rvore
a partir de uma Random Forest para classicao de

bases de expresso gnica
Thais Mayumi Oshiro
Dissertao de Mestrado apresentada
Universidade de So Paulo
para
obteno do ttulo
de
Mestre em Bioinformtica
Programa: Interunidades em Bioinformtica
Orientador: Prof. Dr. Jos Augusto Baranauskas
Durante o desenvolvimento deste trabalho o autor recebeu auxlio nanceiro do CNPq
Ribeiro Preto, setembro de 2013
Aos meus pais, Waldemar e Mitsuko,

e meu namorado, Silvio.
Agradecimentos
Agradeo primeiramente a Deus, pelas oportunidades que sempre me forneceu e pelas
bnos ao longo de minha vida.
Aos meus pais, Waldemar e Mitsuko, a quem devo tudo. Sem eles no chegaria aonde
cheguei e no seria metade da pessoa que sou hoje. Agradeo por todo amor e carinho,
pela incrvel dedicao, pela fora e garra, e por todas as oportunidades que sempre me
ofereceram.
A toda minha famlia, por todo o apoio e amor que sempre dedicaram a mim, por sempre
acreditar em mim e me incentivar.
Agradeo ao meu namorado, Silvio, por todo o amor, carinho, pacincia, amizade e apoio
que sempre me deu! Se cheguei at aqui, com toda a certeza, foi porque ele esteve ao meu
lado me incentivando sempre!
A meu grande amigo Newton, por toda a sua pacincia, companheirismo, alegria, pela
sua maravilhosa amizade!
Ao meu orientador, Prof. Jos Augusto Baranauskas, por ter sido um excelente professor
e orientador, por toda a ajuda e apoio no desenvolvimento deste projeto, pela pacincia em
me ensinar e ajudar e por toda a sabedoria compartilhada.
iii
Resumo
Random Forest
uma tcnica computacionalmente eciente que pode operar rapida-
mente sobre grandes bases de dados. Ela tem sido usada em muitos projetos de pesquisa
recentes e aplicaes do mundo real em diversos domnios, entre eles a bioinformtica uma
vez que a
Random Forest
consegue lidar com bases que apresentam muitos atributos e pou-
cos exemplos. Porm, ela de difcil compreenso para especialistas humanos de diversas
reas. A pesquisa de mestrado aqui relatada tem como objetivo criar um modelo simblico,
ou seja, uma nica rvore a partir da
Random Forest
para a classicao de bases de dados
de expresso gnica. Almeja-se assim, aumentar a compreenso por parte dos especialistas
humanos sobre o processo que classica os exemplos no mundo real tentando manter um
bom desempenho. Os resultados iniciais obtidos com o algoritmo aqui proposto so promissores, uma vez que ela apresenta, em alguns casos, desempenho melhor do que outro
algoritmo amplamente utilizado (J48) e um pouco inferior
Random Forest.
Alm disso, a
rvore criada apresenta, no geral, tamanho menor do que a rvore criada pelo algoritmo J48.
Palavras chave: Aprendizado de Mquina,
Random Forest,
Simblico.
iv
Expresso Gnica, Classicador
Abstract
Random Forest is a computationally ecient technique which can operate quickly over
large datasets. It has been used in many research projects and recent real-world applications
in several elds, including bioinformatics since Random Forest can handle datasets having
many attributes, and few examples. However, it is dicult for human experts to understand
it. The research reported here aims to create a symbolic model, i.e. a single tree from a
Random Forest for the classication of gene expression datasets. Thus, we hope to increase
the understanding by human experts on the process that classies the examples in the
real world trying to keep a good performance. Initial results obtained from the proposed
algorithm are promising since it presents in some cases performance better than other widely
used algorithm (J48) and a slightly lower than a Random Forest. Furthermore, the induced
tree presents, in general, a smaller size than the tree built by the algorithm J48.
Keywords: Machine Learning, Random Forest, Gene Expression, Symbolic Classier.
Lista de Figuras
2.1
Exemplo de curva ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
2.2
Clculo aproximado da medida AUC
. . . . . . . . . . . . . . . . . . . . . .
10
2.3
Curva ROC e rea AUC do classicador A . . . . . . . . . . . . . . . . . . .
11
2.4
Curva ROC e rea AUC do classicador B
. . . . . . . . . . . . . . . . . . .
11
2.5
Validao cruzada utilizando 5
. . . . . . . . . . . . . . . . . . . . . . .
12
2.6
Estrutura de uma rvore de deciso . . . . . . . . . . . . . . . . . . . . . . .
14
2.7
Funcionamento dos mtodos
3.1
Desoxirribose. Adaptado de (Alberts, Johnson, Lewis, Ra, Roberts & Walter
folds
Bagging
(a) e
Random Forest
(b) . . . . . . . .
2010) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2
20
Nucleotdeo de DNA. Adaptado de (Alberts, Johnson, Lewis, Ra, Roberts

& Walter 2010)
3.3
17
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
Bases nitrogenadas do DNA. Adaptado de (Klug, Cummings, Palladino &

Spencer 2010) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
3.4
Ligao fosfodister. Adaptado de (Klug, Cummings, Palladino & Spencer 2010) 21
3.5
Estrutura de DNA. Adaptado de (Alberts, Johnson, Lewis, Ra, Roberts &

Walter 2010)
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
3.6
Ribose. Adaptado de (Alberts, Johnson, Lewis, Ra, Roberts & Walter 2010)
23
3.7
Base nitrogenada Uracila. Adaptado de (Klug, Cummings, Palladino & Spencer 2010) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.8
Molcula de tRNA ligada um cdon no mRNA. Adaptado de (Alberts,

Johnson, Lewis, Ra, Roberts & Walter 2010) . . . . . . . . . . . . . . . . .
3.9
25
Expresso gnica. Adaptado de (Alberts, Johnson, Lewis, Ra, Roberts &

Walter 2010)
3.10
23
Splicing
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
do RNA. Adaptado de (Alberts, Johnson, Lewis, Ra, Roberts &
Walter 2010)
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
32
3.11
Microarray
4.1
rvore criada pelo classicador J48 utilizando a base DLBCLTumor.
vi
. . . .
44
4.2
rvore criada pelo Algoritmo 1 utilizando a base DLBCLTumor. . . . . . . .
44
5.1
Resultados das mtricas J e JN para as 24 bases.
. . . . . . . . . . . . . . .
51
5.2
Resultados das mtricas JNP e P para as 24 bases.
. . . . . . . . . . . . . .
51
B.1
Valor AUC em todas as bases de dados (29 bases) . . . . . . . . . . . . . . .
83
B.2
Valor AUC nas 8 bases com baixa densidade . . . . . . . . . . . . . . . . . .
83
B.3
Valor AUC nas 21 bases com alta densidade
. . . . . . . . . . . . . . . . . .
83
B.4
Diferenas do valor AUC em todas as bases
. . . . . . . . . . . . . . . . . .
83
B.5
Diferenas do valor AUC nas 8 bases com baixa densidade
. . . . . . . . . .
83
B.6
Diferenas do valor AUC nas 21 bases com alta densidade . . . . . . . . . . .
83
B.7
Porcentagem de atributos usados em todas as bases . . . . . . . . . . . . . .
83
B.8
Porcentagem de atributos usados nas 8 bases com baixa densidade . . . . . .
83
B.9
Porcentagem de atributos usados nas 21 bases com alta densidade . . . . . .
84
B.10 Frequncia dos 10 atributos mais usados em todas bases. O eixo x corresponde
ao nmero do atributo e o eixo y corresponde frequncia. Embora todos os
eixos y tenham cado em um intervalo de 0 e 1, este intervalo varia em alguns
grcos para melhor visualizao.
. . . . . . . . . . . . . . . . . . . . . . . .
B.11 Frequncia dos 10 atributos mais usados em todas bases usando o erro
of-bag
estimado.
of-bag
estimado e
out-
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
B.12 Frequncia dos 10 atributos mais usados em todas bases usando o erro
minN um = 5.
86
87
out-
. . . . . . . . . . . . . . . . . . . . . . . .
89
Lista de Tabelas
2.1
Conjunto de exemplos no formato atributo-valor . . . . . . . . . . . . . . . .
2.2
Exemplo de uma matriz de confuso
. . . . . . . . . . . . . . . . . . . . . .
2.3
Matriz de confuso do classicador A . . . . . . . . . . . . . . . . . . . . . .
11
2.4
Matriz de confuso do classicador B . . . . . . . . . . . . . . . . . . . . . .
11
3.1
Os 20 aminocidos com seus respectivos smbolos, abreviaturas e os cdons

que os codicam . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
rank
5.1
Valores do AUC para os 12 classicadores, desvio padro e
5.2
Resultados do teste de Friedman para os valores de AUC para os 12 classicadores.
mdio. . . .
52
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
53
(Nmero de ns das rvores para os 12 classicadores) e desvio padro.
54
5.3
log10
5.4
Resultados do teste de Friedman para os nmeros de ns dos 9 classicadores.
5.5
Valores das mtricas de comparao entre rvores geradas pelo Algoritmo 1

(A1-2a(90)) e pelo algoritmo J48
5.6
24
. . . . . . . . . . . . . . . . . . . . . . . .
55
55
Valores das mtricas de comparao entre rvores geradas pelo Algoritmo 1

(A1-2a(90)) e pela
Random Tree
. . . . . . . . . . . . . . . . . . . . . . . .
5.7
Valores dos coecientes de regresso.
A.1
Resumo das bases de dados utilizadas neste experimento, onde

mero de exemplos;
. . . . . . . . . . . . . . . . . . . . . .
56
56
n indica o n-
c representa o nmero de classes; a, a# e aa indica o nmero
total de atributos, o nmero de atributos nmericos e o nmero de atributos

nominais, respectivamente; MISS representa a porcentagem de atributos com
valores ausentes, sem considerar o atributo classe; as ltimas 3 colunas so as
mtricas de densidade
ordenadas por
D2
D1 , D2 , D3
de cada base, respectivamente. Bases esto
em ordem crescente.
. . . . . . . . . . . . . . . . . . . . .
72
A.2
Resumo das bases de dados utilizadas neste experimento. . . . . . . . . . . .
75
B.1
Valores AUC, mdia, mediana e
rank
mdio obtidos nos experimentos. Dados
em negrito representam valores excluidos da anlise da diferena do AUC. . .
viii
80
B.2
Resultados do teste de Friedman para os valores AUC usando todas bases/8

baixa densidade/21 alta densidade . . . . . . . . . . . . . . . . . . . . . . . .
B.3
82
Resultados do teste de Friedman para os valores AUC usando 128 rvores e

considerando um nvel de signicncia de 5%;
minN um
rank
mdio para cada valor de
e a porcentagem do tempo mdio de execuo.
. . . . . . . . . . .
88
Sumrio
Lista de Figuras
vi
Lista de Tabelas
viii
Sumrio
Introduo
1.1
Motivao
1.2
Objetivo .
1.3
Organizao do Trabalho .
Conceitos Computacionais
2.1
Aprendizado de Mquina .
5
.
2.1.1
Conceitos Bsicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.2
rvores de Deciso
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
2.1.3
Mtodos
Ensemble
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
2.1.4
2.1.5
2.2
Bagging . . .
Random Trees
&
Random Forests
Consideraes Finais .
. . . . . . . . . . . . . . . . . . . .
16
18
Conceitos Biolgicos
3.1
19
Biologia Molecular - Conceitos Bsicos .
19
3.1.1
DNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
3.1.2
RNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
3.1.3
Expresso gnica
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
3.1.4
Microarrays
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
3.2
33
5
6
Proposta Metodolgica
34
4.1
Trabalhos Relacionados
34
4.2
Proposta para construo de uma nica rvore.
36
4.3
Mtricas de Similaridade de rvores
41
4.4
43
Resultados & Discusso
46
5.1
Comparao das rvores .
49
5.2
50
Concluses
57
6.1
Principais resultados e publicaes .
58
6.2
Trabalhos Futuros .
58
Referncias Bibliogrcas
A
B
59
Bases de Dados
71
A.1
Bases de dados usadas para os experimentos realizados .
71
A.2
Bases de dados usadas para o Algoritmo 1
73
Experimentos Realizados
76
B.1
Mtricas de densidade .
76
B.2
Experimento 1
78
B.3
Experimento 2
85
Captulo
Introduo
sabido que uma combinao de opinies leva, na maior parte das vezes, a uma deciso
melhor do que uma deciso tomada por um nico indivduo. Por exemplo, em um ambiente
mdico, casos difceis so melhores solucionados por uma junta composta de vrios mdicos
(e assim, por vrias opinies) do que por um nico mdico.
Na rea de aprendizado de mquina isto tambm vlido, uma vez que esperado
que a combinao de classicadores apresente um desempenho melhor do que um nico
classicador (Witten & Frank 1999). Assim, h um grande interesse de pesquisa na rea
de aprendizado de mquina no que diz respeito a
ensembles
(Dietterich 2000; Kuncheva
2004) mtodos que geram muitos classicadores e combinam os seus resultados. amplamente aceito que o desempenho de um conjunto de muitos classicadores fracos geralmente
melhor do que um nico classicador, dada a mesma quantidade de informao de treinamento (Sirikulviriya & Sinthupinyo 2011). Os mtodos
so
boosting
dom Forests
(Freund & Schapire 1996),
bagging
ensembles
amplamente conhecidos
(Breiman 1996), e mais recentemente
Ran-
(Breiman 2001; Liaw & Wiener 2002).
Random Forests
(Breiman 2001) um algoritmo
ensemble
proposto por Breiman que
MOTIVAO
constri muitas rvores de deciso as quais so utilizadas para classicar um novo exemplo.
Random Forest
apresenta um desempenho excelente em tarefas de classicao e possui
caractersticas que a tornam ideal para bases de expresso gnica (Daz-Uriarte & de Andrs
2006).
A anlise de dados de expresso gnica importante para a medicina e biologia uma vez
que auxilia no diagnstico de doenas, ajuda no entendimento da resposta de uma doena
uma droga, proporciona prognsticos precisos para pacientes especcos, entre outros (Klassen, Cummings & Saldaa 2008). Porm, bases de expresso gnica tipicamente possuem
muitos atributos e poucas amostras (exemplos) devido diculdade de coletar e processar
amostras, especialmente para dados obtidos a partir de humanos (Klassen, Cummings &
Saldaa 2008). Essa caracterstica diculta o processo de classicao, pois h muitos atributos irrelevantes e redundantes. Sistemas de aprendizado de mquina so adequados para
este problema, mas eles precisam lidar com altos nveis de rudo, uma vez que geralmente,
somente um pequeno nmero de genes relevante para um determinado problema (Nanni,
Brahnam & Lumini 2012).
1.1
Motivao
Atualmente,
Random Forest
um mtodo de aprendizado
ensemble
amplamente utili-
zado na literatura e reas aplicadas. Segundo (Daz-Uriarte & de Andrs 2006),
Forest
Random
apresenta uma srie de caractersticas que a tornam ideal para bases de dados de
expresso gnica: pode ser usada quando h muito mais atributos do que exemplos; pode ser
usada para problemas de duas classes ou problemas multi-classe; tem um bom desempenho
preditivo mesmo quando a maioria das variveis preditivas so rudos e, portanto, no necessita de uma pr-seleo de genes; no superajusta; pode lidar com uma mistura de atributos
nominais e numricos e h pouca necessidade de ajustar os parmetros para alcanar um
bom desempenho.
Porm, mesmo a
Random Forest apresentando um bom desempenho em altas dimenses,
ela de difcil compreenso para especialistas humanos. Em geral, mais fcil compreender
como uma nica rvore de deciso classica um novo exemplo do que um conjunto de rvores.
Neste sentido, o estudo realizado neste trabalho busca um aumento de compreensibilidade
OBJETIVO
a partir de uma
Random Forest, tentando manter
o bom desempenho da
Random Forest.
Todavia, deve-se ressaltar que segundo (Gamberger, Lavrac, Zelezny & Tolar 2004), classicadores mais simples, como o aqui proposto, podem apresentar uma qualidade preditiva
(desempenho) mais baixa do que classicadores mais complexos, como por exemplo
Random
Forest. Alm disso, de acordo com Tan, Steinbach & Kumar (2005) o uso de uma combinao
de classicadores aumenta a taxa de acerto se comparado a rvores de deciso obtidas por
abordagens mais simples; porm, perde-se uma estrutura facilmente interpretvel.
1.2
Objetivo
O objetivo geral do presente trabalho analisar se a gerao de uma nica rvore a partir
das rvores de uma
Random Forest
consegue manter um desempenho similar ao de uma
Random Forest, uma vez que sabido que a Random Forest apresenta um bom desempenho
em bases de dados de expresso gnica (Pang, Lin, Holford, Enerson, Lu, Lawton, Floyd &
Zhao 2006; Daz-Uriarte & de Andrs 2006). Com isso o trabalho aqui desenvolvido poder
facilitar a compreenso por parte dos especialistas humanos sobre o processo que classica
os exemplos no mundo real.
Os objetivos especcos so:
analisar se h um nmero timo de rvores em uma
Random Forest, ou seja, um limiar
a partir do qual o aumento do nmero de rvores no resulta em um ganho signicativo

do desempenho e somente aumenta o custo computacional;
analisar a frequncia que um atributo aparece no n raiz de uma

de descobrir se a
Random Forest
Random Forest a m
utiliza todos os atributos com uma frequncia igual
ou se h um subconjunto mais utilizado;
comparar o desempenho da criao de uma rvore, proposta neste trabalho, ao desempenho de outros algoritmos amplamente conhecidos como a
Random Forest, J48 e
Random Tree ;
comparar as rvores geradas por diferentes algoritmos a m de descobrir se suas estruturas (ns utilizados) so semelhantes ou no, por meio de medidas j existentes e
medidas que foram propostas neste estudo.
ORGANIZAO DO TRABALHO
1.3
Organizao do Trabalho
O presente trabalho est organizado da seguinte maneira: no Captulo 2 so apresentados alguns conceitos computacionais utilizados no desenvolvimento deste projeto, incluindo
aprendizado de mquina, mtodos
ensemble
Random Forest. Os conceitos biolgicos utili-
zados neste projeto, tais como expresso gnica e
microarray, so apresentados no Captulo 3.
A metodologia aqui proposta e a descrio de experimentos realizados encontram-se no Captulo 4. No Captulo 5 so discutidos os resultados obtidos e as concluses. No Apndice A so
descritas as bases de dados utilizadas no desenvolvimento deste trabalho. No Apndice B so
descritos alguns experimentos adicionais realizados, seus resultados e as concluses obtidas.
Captulo
Conceitos Computacionais
Neste captulo sero apresentados alguns conceitos computacionais utilizados no projeto,
como por exemplos conceitos sobre Aprendizado de Mquina, rvores de deciso e
Random
Forest.
2.1
Aprendizado de Mquina
Aprendizado de Mquina (AM) uma rea de Inteligncia Articial (IA) que visa o
desenvolvimento de tcnicas computacionais capazes de adquirir conhecimento de forma
automtica. Um sistema de aprendizado um algoritmo que toma decises baseado em
experincias acumuladas por meio da soluo bem sucedida de problemas anteriores (Weiss
& Kulikowski 1991).
Por exemplo, para classicar pacientes entre doente ou saudvel (com cncer ou no, por
exemplo), pode-se analisar o nvel de expresso gnica de cada caso, pois as vezes um gene
mais ou menos expresso do que o normal pode causar tal doena (cncer).
Aprendizado de Mquina permite obter concluses genricas sobre um conjunto particular de exemplos, sendo realizado a partir de raciocnio sobre exemplos fornecidos por um
APRENDIZADO DE MQUINA
processo externo ao sistema de aprendizado. O aprendizado de mquina pode ser dividido

em supervisionado, no-supervisionado e semissupervisionado (Monard & Baranauskas 2003;
Bruce 2001)
O foco deste estudo concentra-se no aprendizado supervisionado, aquele em que classe
associada conhecida (Mitchell 1997). Assim, o algoritmo de aprendizado aprende por meio
de um conjunto de entradas e sadas desejadas (classes associadas). Em geral, cada exemplo
descrito por um vetor de atributos e o rtulo da classe a qual este exemplo pertence.
Formalmente, no aprendizado supervisionado fornecida uma caracterstica do objeto a ser
alcanada, ou seja, o algoritmo recebe o valor da sada desejada para entrada apresentada.
Os sistemas de aprendizado podem ser divididos ainda em simblicos e no-simblicos (Michalski 1983; Kubat, Bratko & Michalski 1998). Os mtodos simblicos ou orientados a
conhecimento desenvolvem representaes simblicas do conhecimento, as quais so, geralmente, facilmente interpretadas por seres humanos. So exemplos de mtodos simblicos as
rvores de deciso e conjuntos de regras.
Os mtodos no-simblicos ou caixa-preta por sua vez, so caracterizados pelo desenvolvimento de representaes prprias do conhecimento, as quais, geralmente, no so facilmente
interpretadas por seres humanos. Como exemplos de mtodos no-simblicos, podemos citar
as Redes Neurais Articiais, K-NN e Naive Nayes.
2.1.1 Conceitos Bsicos

Nesta seo, sero apresentados alguns conceitos bsicos de Aprendizado de Mquina
utilizados durante o desenvolvimento deste projeto.
Classicador
Dado um conjunto de exemplos de treinamento, um indutor (ou algoritmo de aprendizado) gera como sada um
conceito) de
classicador
(tambm denominado
ou
descrio de
forma que, dado um novo exemplo, ele possa predizer precisamente sua classe.
Formalmente, em classicao, um exemplo um par
f (xi )
hiptese
(xi , f (xi ))
onde
xi
a entrada e
a sada. A tarefa de um indutor , dado um conjunto de exemplos, induzir uma
funo
h()
hiptese
que aproxima
f (),
normalmente desconhecida. Neste caso,
sobre a funo objetivo
f (),
ou seja,
h(xi ) f (xi ).
h()
chamada uma
Como pode ser observado, no aprendizado supervisionado todo exemplo

um atributo especial
yi ,
o rtulo ou
classe,
(xi , yi )
possui
que descreve o fenmeno de interesse, isto , a
meta que se deseja aprender e poder fazer previses a respeito. Um exemplo no-rotulado
xi
consiste do exemplo, exceto o rtulo, ou seja, um vetor de valores dos atributos. Os rtulos
so tipicamente pertencentes a um conjunto discreto (nominal) de classes
no caso de
classicao
ou de valores reais no caso de
regresso.
{C1 , C2 , . . . , Ck }
O foco deste estudo a
classicao.
Um
conjunto de exemplos
composto por exemplos contendo valores de atributos bem
como a classe associada. Na Tabela 2.1 mostrado o formato padro de um conjunto de

exemplos
(i
com
= 1, 2, . . . , n)
exemplo
n exemplos e a atributos. Nessa tabela, a linha i refere-se ao i-simo exemplo

e a entrada
xij
refere-se ao valor do
j -simo (j = 1, 2, . . . , a)
Xj
do
i.
Tabela 2.1:
X1
X2
Xa
z1
z2
x11
x21
x12
x22
x1a
x2a
y1
y2
.
.
.
.
.
.
.
.
.
..
.
.
.
.
.
.
zn
xn1
xn2
...
xna
yn
denotados por
(xi , yi ),
Conjunto de exemplos no formato atributo-valor
Como pode ser notado, exemplos so tuplas
zi = (xi1 , xi2 , . . . , xia , yi ) = (~xi , yi )
onde ca subentendido o fato que
xi
X 1 X2 . . . X a
yi
pertence a uma das
tambm
um vetor. A ltima coluna,
yi = f (xi ), a funo que tenta-se predizer a partir dos atributos. Cada xi

conjunto
atributo
classes, isto ,
um elemento do
yi {C1 , C2 , . . . , Ck }.
Medidas de desempenho
Em Aprendizado de Mquina, utilizam-se algumas medidas para avaliar o desempenho
do classicador. Dentre tais medidas, pode-se citar: taxa de erro, taxa de acerto e AUC.
A taxa de erro de um classicador
Equao 2.1, onde
denotada por err(h) e obtida por meio da
n o nmero de exemplos, yi
a classe dada pelo classicador
a classe verdadeira do exemplo
h para o exemplo i. Essa medida compara a classe verdadeira
de cada exemplo com a classe atribuda pelo classicador

ou seja, se
yi = h(xi ),
ento
i e h(xi )
||yi 6= h(xi )|| = 1;
h.
Se as duas classes forem iguais,
caso contrrio,
||yi 6= h(xi )|| = 0.
err(h) =
1X
||yi 6= h(xi )||
n i=1
(2.1)
A preciso ou taxa de acerto denotada por acc(h) e corresponde ao complemento da

taxa de erro, conforme mostrado na Equao 2.2.
acc(h) = 1 err(h)
(2.2)
As taxas de erro e acerto tambm podem ser obtidas por meio de uma matriz de confuso. A matriz de confuso uma matriz cuja dimenso corresponde ao nmero de classes
existentes em um determinado conjunto de exemplos. A sua diagonal principal corresponde
ao nmero de acertos de cada classe e os elementos fora da diagonal principal correspondem
ao nmero de erros. Na Tabela 2.2 mostrado um exemplo de uma matriz de confuso referente a um conjunto de exemplos com duas classes geralmente denominadas como positiva
e negativa.
Nesta tabela, verdadeiros positivos corresponde ao exemplo que positivo e foi classicado como positivo; falsos positivos so os exemplos negativos que foram classicados
como positivos; verdadeiros negativos so os exemplos negativos e que foram classicados
como negativos; e falsos negativos so os exemplos positivos que foram classicados como
negativos.
A partir da matriz de confuso, pode-se ento obter a taxa de erro e a taxa de acerto,
representadas pelas Equaes 2.3 e 2.4, respectivamente.
err(h) =
FN + FP
V P + FN + FP + V N
(2.3)
acc(h) =
VP +VN
V P + FN + FP + V N
(2.4)
area under the ROC curve ),
Outra medida de desempenho, AUC (

da gerao de um grco de sensibilidade
versus
obtida por meio
(1-especicidade), conhecido como curva
receiver operating characteristic ) e calculando a rea embaixo da curva (Hand & Till
ROC (
2001). A sensibilidade da classicao a razo entre os verdadeiros positivos e o total de
Tabela 2.2:
Exemplo de uma matriz de confuso
Predio Positiva
Predio Negativa
Classe Positiva
Verdadeiro Positivo (VP)
Falso Negativo (FN)
Classe Negativa
Falso Positivo (FP)
Verdadeiro Negativo (VN)
exemplos positivos, conforme mostrado na Equao 2.5. A especicidade da classicao

a razo entre os verdadeiros negativos e o total de exemplos negativos, conforme mostrado
na Equao 2.6.
sensibilidade =
especif icidade =
VP
V P + FN
VN
FP + V N
(2.5)
(2.6)
Na Figura 2.1 ilustrado um exemplo de curva ROC. Nesta gura, h um nico ponto
P(0,4 , 0,8) e a curva ROC desse ponto uma curva que tem incio no ponto (0,0), passa
pelo ponto P e atinge o ponto (1,1). Para calcular um valor AUC aproximado dessa curva,
pode-se transformar essa curva em linhas retas, obtendo um grco semelhante ao ilustrado
na Figura 2.2. Assim, o valor AUC aproximado pode ser calculado por meio da rea do
trapzio somado rea do tringulo. Dessa forma, o valor AUC aproximado do ponto P
seria:
AU C =
(1 + 0, 8) 0, 6 0, 4 0, 8
+
= 0, 54 + 0, 16 = 0, 7
2
2
(2.7)
Quanto maior o valor de AUC, melhor o desempenho do classicador. Os valores de

AUC variam em um intervalo
[0, 1].
interessante ressaltar que AUC e preciso nem sempre representam a mesma correlao,
ou seja, um alto valor de AUC nem sempre implica em uma alta preciso (Huang & Ling
2005). Por exemplo, considerando um conjunto de exemplos com 10 exemplos positivos e 90
negativos, suponha-se que dois classicadores (A e B) erraram as classes de 8 exemplos, ou
seja, a preciso dos dois classicadores ser 92%. Entretanto, considerando-se que os 8 erros
Figura 2.1:
Exemplo de curva ROC
Figura 2.2:
10
Clculo aproximado da medida AUC
do classicador A esto entre os exemplos negativos, a taxa de falsos positivos 9% e a taxa

de falsos negativos 0%. Supondo-se agora que os 8 erros do classicador B esto entre os
exemplos positivos, a taxa de falsos positivos ser de 0% mas a taxa de falsos negativos ser
de 80%. Nas Tabelas 2.3 e 2.4, so apresentadas as matrizes de confuso dos classicadores A
e B, respectivamente. Com base nesses valores, possvel calcular os valores de sensibilidade
e especicidade de cada classicador. Assim, o classicador A possui valor de sensibilidade
igual a 1 e especicidade igual a 0,9. J o classicador B possui sensibilidade igual a 0,2 e
especicidade igual a 1. Sendo assim, os dois classicadores possuem diferentes curvas ROC
e, consequentemente, diferentes reas AUC (conforme ilustrado nas Figuras 2.3 e 2.4).
Segundo (Ling, Huang & Zhang 2003) o AUC deveria substituir a preciso (ou taxa
de erro, uma vez que esta igual a (1 preciso)) na comparao de classicadores pois
mostrou-se uma medida melhor em extensas comparaes experimentais.
Validao Cruzada
Validao cruzada (r
-fold cross validation)
um mtodo de amostragem utilizado para
anlise de desempenho que consiste em dividir aleatoriamente os exemplos em

mutuamente exclusivas (
e a hiptese induzida testada no
folds
parties
folds ) de tamanho aproximadamente igual a n/r exemplos, sendo n
o nmero total de exemplos. Os exemplos nos
que todos os
fold
r 1 folds
so ento usados para treinamento
restante. Tal processo repetido
vezes, de modo
sejam usados uma vez como conjunto de teste, conforme ilustrado na
Figura 2.5. Nesta gura, foi utilizado
igual a 5.
Tabela 2.3:
Matriz de confuso do classicador A

Predio Positiva
Predio Negativa
Classe Positiva
10 (VP)
0 (FN)
Classe Negativa
8 (FP)
82 (VN)
Tabela 2.4:
11
Matriz de confuso do classicador B

Predio Positiva
Predio Negativa
Classe Positiva
2 (VP)
8 (FN)
Classe Negativa
0 (FP)
90 (VN)
Figura 2.3: Curva ROC e rea AUC do

classicador A
Curva ROC e rea AUC do

classicador B
Figura 2.4:
A seguir, sero apresentados alguns algoritmos e estratgias de AM utilizados no desenvolvimento do presente projeto: rvores de Deciso,
Bagging, Random Forest
Random
Tree.
2.1.2 rvores de Deciso

rvores de Deciso pertencem a famlia de algoritmos de AM indutivo
duction of Decision Trees.
Top Down In-
Uma rvore de deciso utiliza uma estratgia de dividir-para-
conquistar, decompondo um problema maior em sub-problemas mais simples, de forma recursiva. A construo de uma rvore de deciso baseia-se na escolha de um atributo que
servir para particionar os exemplos em subconjuntos correspondentes a cada valor do atri-
Figura 2.5:
12
Validao cruzada utilizando 5 folds
buto. Passa-se ento os exemplos para os subconjuntos de acordo com o valor do atributo
escolhido e para cada subconjunto, observa-se se todos os exemplos pertencem a uma mesma
classe. Se isso ocorrer, associa-se essa classe um n folha contendo todos os exemplos desse
subconjunto. Caso contrrio, escolhido um novo atributo para particionar os exemplos e
o processo repetido at que haja uma homogeneidade das classes dos exemplos de um determinado subconjunto. Porm, uma rvore pode crescer muito, tornando-se especca para
uma determinada base de dados e causando assim um
Poda uma tcnica que evita o problema de
overtting
overtting
(super-ajuste).
por meio da gerao de uma
hiptese mais genrica a partir do conjunto de treinamento. Como consequncia da poda,

as folhas no necessariamente contero exemplos de uma nica classe e, assim, a poda pode
causar a classicao incorreta de exemplos de treinamento. H basicamente dois mtodos
de poda (Baranauskas 2001):
1. pr-poda: durante a gerao da hiptese, alguns exemplos de treinamento so delibe-
13
radamente ignorados, de forma que a hiptese nal no classique todos os exemplos

de treinamento corretamente;
2. ps-poda: inicialmente, uma hiptese que explica os exemplos de treinamento gerada.

Aps isso, a hiptese generalizada por meio da eliminao de algumas partes, tais
como o corte de alguns ramos em uma rvore de deciso.
Uma rvore de deciso pode ser usada para classicar novos exemplos. Assim, quando desejase classicar um novo exemplo, percorre-se a rvore a partir da raiz e desvia-se em cada n de
deciso, segundo o atributo correspondente at que se atinja um n folha e, ento, associa-se
a esse novo exemplo a classe correspondente a esse n folha.
Na Figura 2.6 ilustada a estrutura da rvore de deciso do exemplo para classicar o
diagnstico de um novo paciente em saudvel ou doente. Comeando pela raiz da rvore,
o primeiro gene selecionado foi `Gene 36'. Se nvel de expresso do `Gene 36'
362,
ento
segue-se pelo ramo da esquerda da rvore, o que leva a outro gene, `Gene 103'. Se o nvel de
expresso do `Gene 103'
116,
nvel de expresso do `Gene 9'
segue-se pelo ramo da esquerda levando ao `Gene 9'. Se o
53
segue-se pelo ramo da esquerda atingindo um n folha
com a classe Saudvel associada a ele. Caso o nvel de expresso do `Gene 9'
> 53
ento
segue-se pelo ramo da direita chegando no diagnstico Doente. O processo repetido at que
um n folha tenha sido alcanado. A classe associada ao n folha alcanado aps percorrer
a rvore (saudvel ou doente) ser a classe (o diagnstico) associado ao novo paciente.
rvores de Deciso podem fornecer outras medidas comparativas alm das citadas na Seo 2.1.1. Uma delas o tamanho da rvore, ou seja, o nmero total de ns (incluindo os ns
folhas) que essa rvore possui. Por exemplo, o tamanho da rvore apresentada na Figura 2.6
9, pois ela possui quatro ns (correspondendo a quatro genes diferentes) e cinco ns folhas (correspondendo s duas classes do problema). Medidas adicionais so apresentadas na
Seo 4.3.
2.1.3 Mtodos Ensemble

Mtodos
ensemble
so algoritmos de aprendizado que constroem um conjunto de clas-
sicadores e combinam seus votos para classicar um novo exemplo (Dietterich 2000). O
voto corresponde classe fornecida por cada um dos classicadores para esse novo exem-
Figura 2.6:
plo. Os mtodos
bagging
ensembles
(Breiman 1996) e
O mtodo
boosting
14
Estrutura de uma rvore de deciso
amplamente conhecidos so
Random Forests
boosting
(Freund & Schapire 1996),
(Breiman 2001; Liaw & Wiener 2002).
cria diferentes classicadores base reponderando sequencialmente os
exemplos no conjunto de treinamento. No incio, todos os exemplos so inicializados com

pesos iguais. Cada exemplo classicado erroneamente pelo classicador anterior recebe um
peso maior na prxima iterao do treinamento, a m de tentar classic-lo corretamente.
O erro computado, o peso dos exemplos classicados corretamente reduzido e o peso dos
exemplos classicados incorretamente aumentado. O voto de cada classicador individual
ponderado proporcionalmente ao seu desempenho (Wang, Hao, Ma & Jiang 2011).
No mtodo
bagging (bootstrap aggregation), diferentes subconjuntos de treinamento so
formados aleatoriamente com reposio a partir do conjunto de treinamento completo. Cada

subconjunto de treinamento usado como entrada para os classicadores base. Todos os
classicadores extrados so combinados usando um voto majoritrio. Enquanto o
pode gerar classicadores em paralelo,
Random Forests
outro mtodo
boosting
bagging
os gera sequencialmente.
ensemble, o qual constri muitas rvores de deciso que
sero usadas para classicar um novo exemplo por meio do voto majoritrio. Cada rvore de
15
deciso usa um subconjunto de atributos selecionados aleatoriamente a partir do conjunto

original, contendo todos os atributos. Alm disso, cada rvore usa uma amostra
diferente da base de dados da mesma maneira que o
Geralmente,
bagging
bootstrap
bagging.
mais preciso do que um nico classicador, porm as vezes ele
muito menos preciso do que o
boosting.
Por outro lado, o
boosting
pode criar
ensembles
menos precisos do que um nico classicador. Alm disso, em algumas situaes, o

pode super-ajustar base de dados ruidosas, diminuindo seu desempenho.
por outro lado, so mais robustas do que
bagging
boosting ;
boosting
boosting
Random Forests,
com relao a rudo; mais rpido do que
seu desempenho to bom quanto
boosting
e as vezes melhor e no
Bagging
uma vez que a
super-ajusta (Breiman 2001).

Neste estudo, h um interesse especial pelo mtodo
Forest
Random
utiliza este mtodo para criar as rvores de uma oresta. Dessa forma, o mtodo
Bagging ser detalhado na seo seguinte.
2.1.4 Bagging
O mtodo
Bagging
(Breiman 1996) um dos algoritmos de aprendizado
antigos. Ele usa amostras
bootstrap
ensemble
mais
do conjunto de treinamento (Efron 1979). Amostragem
bootstrap uma tcnica de amostragem com reposio: a partir do conjunto de treinamento

inicial, so selecionados aleatoriamente exemplos para um novo subconjunto de treinamento.
Bagging
Assim, no mtodo
diferentes subconjuntos so aleatoriamente construdos, com
reposio, a partir do conjunto original. Devido reposio, alguns exemplos podem ser
escolhidos mais de uma vez e outros podem no ser escolhidos. A amostragem
mais comumente utilizada a
E0 ,
bootstrap
explicada a seguir.
Cada subconjunto gerado possui o mesmo tamanho (nmero de exemplos) do conjunto

original. Considerando um conjunto de treinamento
bootstrap
do conjunto de treinamento a partir de
Cada subconjunto
Tk
com
exemplos,
Tk
uma amostra
com reposio, contendo
usado para treinar um classicador diferente
{hk (x)}.
exemplos.
A estratgia
de combinao dos classicadores o voto majoritrio.

Para uma dada amostra
bilidade
1 (1 n1 )n
Tk ,
um exemplo do conjunto de treinamento
de ser selecionado pelo menos uma vez entre os
tem uma proba-
n exemplos selecionados
16
aleatoriamente. Para um valor grande de

que signica que cada amostra
bootstrap
n,
isto aproximadamente
1 1/e 63, 2%,
contm, em mdia, somente cerca de 63,2% dos
T,
exemplos do conjunto de treinamento original
com muitos exemplos de treinamento apa-
recendo mltiplas vezes (Bauer & Kohavi 1999; Dietterich 2000). Os exemplos que no foram
selecionados na amostra
Tk
formam o conjunto
out-of-bag, ou seja, so os exemplos que no
foram utilizados para o treino na construo do classicador

Assim, a avaliao
namento especco
sicadores
{hk (x)}
T,
out-of-bag
hk .
funciona da seguinte maneira: dado um conjunto de trei-
geram-se conjuntos de treinamento
bootstrap Tk ,
e os deixam votarem para criar o classicador
constroem-se clas-
bagged.
Para cada
(x, y)
no conjunto de treinamento, agregam-se os votos somente sobre os classicadores para os

quais
Tk
no contm
(x, y).
Este o estimador
out-of-bag, que fornece uma estimativa para
o erro de generalizao (Breiman 2001).

Na Figura 2.7 so ilustrados os mtodos
Bagging (a)
Random Forest(b),
o qual ser
explicado na Seo 2.1.5 juntamente com a diferena entre ambos (parte tracejada).
Segundo (Acuna & Rojas 2001; Breiman 1996; Freund & Schapire 1996),
Bagging muito
ecaz quando os classicadores utilizados possuem um comportamento instvel (como por

exemplo, as rvores de deciso). Um classicador conhecido como instvel quando pequenas mudanas no conjunto de treinamento podem causar grandes mudanas no classicador
gerado. Nestes casos, um nico classicador instvel no capaz de oferecer uma resposta
convel ao contrrio de um conjunto de classicadores, uma vez que um classicador composto pode ter maior chance de acerto (Lopes 2007).
2.1.5 Random Trees & Random Forests

Considerando um conjunto de treinamento
amostra
bootstrap
exemplos e usando
Random Tree
possveis, usando
com
a atributos e n exemplos, seja Tk
do conjunto de treinamento a partir de
atributos aleatrios (m
a)
uma
com reposio, contendo
em cada n das rvores.
uma rvore induzida aleatoriamente a partir de um conjunto de rvores
m atributos aleatrios em cada n. O termo aleatoriamente
cada rvore tem uma chance igual de ser amostrada.
Random Trees
ecientemente e a combinao de grandes conjuntos de
signica que
podem ser geradas
Random Trees
geralmente leva a
(a)
Figura 2.7:
17
(b)
Funcionamento dos mtodos Bagging (a) e Random Forest (b)
modelos precisos (Zhao & Zhang 2008; Dubath, Rimoldini, Sveges, Blomme, Lpez, Sarro,
De Ridder, Cuypers, Guy, Lecoeur, Nienartowicz, Jan, Beck, Mowlavi, De Cat, Lebzelter &
Eyer 2011).
Random Forest
denido formalmente como segue (Breiman 2001): um classicador
composto por uma coleo de rvores
{hk (x)}, k = 1, 2, . . . , L,
onde
Tk
so amostras alea-
trias independentes e identicamente distribudas e cada rvore vota na classe mais popular
para a entrada
x.
Como j foi mencionado,
Random Forests
aplicam o mesmo mtodo que o
produzir amostras aleatrias de conjuntos de treinamento (amostras
Random Tree.
bagging
bootstraps )
para
para cada
Cada novo conjunto de treinamento construdo, com reposio, a partir
do conjunto de treinamento original. A rvore construda usando este novo subconjunto

e uma seleo aleatria de atributos. A cada n da rvore, um subconjunto de
atributos
selecionado aleatoriamente e avaliado. O melhor atributo , ento, escolhido para dividir

o n. O valor
xado para todos os ns. As rvores crescem sem poda. Na Figura 2.7
(b) ilustrado o funcionamento de uma
Random Forest
que diferencia do funcionamento
CONSIDERAES FINAIS
do
bagging
na parte tracejada da gura, uma vez que na
construdas selecionando aleatoriamente

acontece no
bagging
em que todos os
bagging
bagging
as rvores so
atributos em cada n das rvores, o que no
atributos so usados.
Breiman (2001) justica o uso do mtodo

o uso do
Random Forest
18
bagging
em
Random Forests
por duas razes:
parece melhorar o desempenho quando atributos aleatrios so usados;
pode ser usado para fornecer estimativas contnuas do erro de generalizao do
conjunto combinado de rvores, assim como estimativas para fora e correlao, usando o
estimador
out-of-bag.
O erro de classicao da oresta depende da fora das rvores individuais da oresta

e da correlao entre quaisquer duas rvores na oresta (Breiman 2001; Breiman & Cutler
2004; Breiman 2004; Ma, Guo & Cukic 2007), a saber:
Correlao entre as rvores da oresta: duas medidas de aleatoriedade (uso do
bagging
e seleo aleatria de atributos) fazem com que as rvores sejam diferentes e, portanto,
diminui a correlao entre elas. A baixa correlao tende a diminuir a taxa do erro de
classicao.
Fora da rvore individual na oresta: pode ser interpretada como uma medida de
desempenho para cada rvore. Uma rvore com uma taxa de erro baixa um classicador forte. Assim, aumentando a fora das rvores individuais, reduz-se a taxa de
erro da oresta.
2.2
Consideraes Finais
Neste captulo foram apresentados alguns conceitos utilizados durante o desenvolvimento

deste projeto de mestrado, como por exemplo, aprendizado de mquina,
rvores de Deciso. Foi descrito como uma
Random Forest
Random Forest funciona e como ela construda.
No captulo seguinte so apresentados conceitos de biologia envolvendo expresso gnica.
Captulo
Conceitos Biolgicos
Neste captulo sero apresentados alguns conceitos biolgicos utilizados no projeto, como
expresso gnica e
3.1
microarrays.
Biologia Molecular - Conceitos Bsicos
Durante o desenvolvimento do presente trabalho, foram utilizados dados de expresso

gnica obtidos por meio da tcnica conhecida como
microarray. Assim, esta seo traz alguns
conceitos importantes para o entendimento de tal tcnica.
3.1.1 DNA
Uma molcula de DNA (cido desoxirribonucleico) consiste em duas longas tas antiparalelas entrelaadas em forma de dupla hlice, compostas por uma sequncia de nucleotdeos. Os nucleotdeos so compostos de acares pentoses (com cinco carbonos), um ou
mais grupos fosfatos ligados aos carbonos e uma base contendo nitrognio. O acar dos
nucleotdeos de DNA uma desoxirribose (Figura 3.1) ligada a um grupo fosfato e a base
nitrogenada pode ser adenina, citosina, guanina ou timina (Alberts, Johnson, Lewis, Ra,
19
BIOLOGIA MOLECULAR - CONCEITOS BSICOS
Figura 3.1:
20
Desoxirribose. Adaptado de (Alberts, Johnson, Lewis, Ra, Roberts & Walter 2010)
Roberts & Walter 2010), conforme ilustrado na Figura 3.2. Para simplicar a nomenclatura
dos nucleotdeos utilizada a abreviao da base nitrogenada que o identica, ou seja, nucleotdeos com a base nitrogenada adenina so abreviados pela letra (A), citosina (C), guanina
(G) e timina (T). As bases nitrogenadas podem ser de dois tipos: purinas, com um anel
duplo (adenina e guanina) e pirimidinas, com um anel simples (citosina e timina) (Klug,
Cummings, Palladino & Spencer 2010), conforme ilustrado na Figura 3.3.
As bases dos nucleotdeos mantm as duas tas de DNA unidas por meio de pontes de
hidrognio entre elas. Segundo o modelo de Watson-Crick (Watson & Crick 1953), a base
(A) pareia somente com a base (T) e a base (C) pareia somente com a base (G). A adenina
forma duas pontes de hidrognio com a timina e a guanina forma trs pontes de hidrognio
com a citosina. Esse pareamento especco das bases A = T e G
C resulta em uma com-
plementariedade das bases, ou seja, as tas de DNA so complementares (Klug, Cummings,

Palladino & Spencer 2010). Assim, ao saber a sequncia de uma das tas, automaticamente,
sabe-se a sequncia da sua ta complementar.
A ta de DNA possui uma polaridade indicada por uma extremidade 3' e por uma
extremidade 5'. Na extremidade 3' h um grupo hidroxil livre ligado ao carbono nmero 3
da pentose e na extremidade 5' h um fosfato livre ligado ao carbono nmero 5 da pentose.
A unio dos nucleotdeos feita por meio de uma ligao fosfodister entre a extremidade
3' de um nucleotdeo e a extremidade 5' de outro (Klug, Cummings, Palladino & Spencer
2010) (Figura 3.4). Assim, o termo anti-paralelas signica que enquanto uma ta corre no
sentido 5' para 3', a outra ta vai no sentido 3' para 5'. Uma estrutura de DNA, ilustrando
todas as caractersticas citadas anteriormente, mostrada na Figura 3.5.
Uma sequncia de nucleotdeos no DNA armazena a informao gentica. Os segmentos
de DNA que contm a informao gentica so denominados genes. A srie completa de
21
Figura 3.2:
Nucleotdeo de DNA. Adaptado de (Alberts, Johnson, Lewis, Ra, Roberts & Walter
Figura 3.3:
Bases nitrogenadas do DNA. Adaptado de (Klug, Cummings, Palladino & Spencer
2010)
2010)
Figura 3.4:
Ligao fosfodister. Adaptado de (Klug, Cummings, Palladino & Spencer 2010)
Figura 3.5:
2010)
22
Estrutura de DNA. Adaptado de (Alberts, Johnson, Lewis, Ra, Roberts & Walter
informaes genticas contidas no DNA denominada genoma. O genoma contm informaes para todas as protenas e molculas de RNA que o organismo ir sintetizar (Alberts,
Johnson, Lewis, Ra, Roberts & Walter 2010). As protenas possuem diversas funes biolgicas (Lewis 2001), entre elas pode-se citar a funo estrutural e a funo regulatria.
O uxo da informao gentica ocorre da seguinte maneira: a partir do DNA formado o
RNA (processo denominado transcrio) e o RNA utilizado como molde para a sntese de
protenas (processo denominado traduo). Este princpio (DNA
RNA protena) co-
nhecido como dogma central da biologia molecular (Alberts, Johnson, Lewis, Ra, Roberts
& Walter 2010; Klug, Cummings, Palladino & Spencer 2010).
3.1.2 RNA
A molcula de RNA (cido ribonucleico) tambm composta por uma sequncia de
nucleotdeos unidos entre si por meio de ligaes fosfodister. Porm, o RNA possui algumas
diferenas do DNA (Alberts, Johnson, Lewis, Ra, Roberts & Walter 2010; Klug, Cummings,
Palladino & Spencer 2010):
o acar dos nucleotdeos do RNA ribose em vez de desoxirribose, conforme ilustrado

na Figura 3.6;
as bases nitrogenadas do RNA podem ser adenina (A), guanina (G) e citosina (C),
assim como no DNA, porm o RNA contm a base uracila (U), em vez da timina (T).
A estrutura da base uracila apresentada na Figura 3.7. Nesse caso, a base adenina
Figura 3.6:
Figura 3.7:
23
Ribose. Adaptado de (Alberts, Johnson, Lewis, Ra, Roberts & Walter 2010)
Base nitrogenada Uracila. Adaptado de (Klug, Cummings, Palladino & Spencer 2010)
pareia com a base uracila e a base guanina pareia com a base citosina (assim como no
DNA);
a estrutura do RNA uma ta simples;
Existem trs classes principais de RNA: RNA mensageiro (mRNA), RNA transportador
(tRNA) e RNA ribossmico (rRNA). O mRNA uma molcula de ta simples, produzida
a partir de um lamento molde de DNA, em um processo conhecido como transcrio. O
mRNA tem como funo transmitir a informao gentica do ncleo para o citoplasma, pois
os genes esto localizados no ncleo celular e os ribossomos (responsveis pela sntese de
protenas) localizam-se no citoplasma. A sequncia de um mRNA lida em grupos de trs
nucleotdeos por vez. Cada uma dessas trincas de nucleotdeos (denominadas cdons) codicam um nico aminocido (subunidade que forma as protenas). Diversos cdons codicam
um mesmo aminocido, conforme mostrado na Tabela 3.1.
O tRNA uma molcula que carrega os aminocidos para o ribossomo durante a traduo. Cada tRNA liga-se em uma extremidade a um aminocido especco, possuindo em sua
outra extremidade uma sequncia de trs nucleotdeos denominada anticdon. O anticdon,
por meio do pareamento de bases, habilita o tRNA a reconhecer um cdon (ou um grupo
Tabela 3.1:
codicam
24
Os 20 aminocidos com seus respectivos smbolos, abreviaturas e os cdons que os
Smbolo
Abreviao
Cdons
Ala
GCU, GCG, GCC, GCA
Arg
CGU, CGG, CGC, CGA , AGG, AGA
Asp
GAU, GAC
Asn
AAU, AAC
Cys
UGU, UGC
Glu
GAG, GAA
Gln
CAG, CAA
Gly
GGU, GGG, GGC, GGA
His
CAU, CAA
Ile
AUU, AUC, AUA
Leu
CUU, CUG, CUC, CUA, UUG, UUA
Lys
AAG, AAA
Met
AUG
Phe
UUU, UUC
Pro
CCU, CCG, CCC, CCA
Ser
UCU, UCG, UCC, UCA, AGU, AGC
Thr
ACU, ACG, ACC, ACA
Trp
UGG
Tyr
UAU, UAC
Val
GUU, GUG, GUC, GUA
de cdons) no mRNA, conforme ilustrado na Figura 3.8.

O rRNA juntamente com as protenas ribossomais (mais de 50 protenas diferentes)
formam os ribossomos. O ribossomo agarra-se poro terminal de um mRNA e desloca-se
ao longo desse mRNA capturando molculas de tRNA, formando assim uma nova cadeia de
protena por meio da ligao dos aminocidos transportados pelos tRNAs (Alberts, Johnson,
Lewis, Ra, Roberts & Walter 2010). Os ribossomos so formados por duas subunidades
de tamanhos diferentes, conhecidas como subunidades maior e menor. Estas subunidades
interligam-se para sintetizar as protenas e possuem papel fundamental nos sinais de incio
da traduo.
3.1.3 Expresso gnica

Expresso gnica o processo pelo qual as sequncias de nucleotdeos dos genes so
interpretados em aminocidos e, assim, em protenas. Tal processo ilustrado na Figura 3.9.
25
Molcula de tRNA ligada um cdon no mRNA. Adaptado de (Alberts, Johnson,

Lewis, Ra, Roberts & Walter 2010)
Figura 3.8:
A expresso gnica composta por duas etapas: transcrio e traduo.

A transcrio (primeiro passo da expresso gnica) o processo no qual um RNA
formado a partir de uma ta-molde de DNA. Esse processo pode ser subdividido em trs
fases: iniciao, alongamento e trmino (Klug, Cummings, Palladino & Spencer 2010).
O DNA possui uma regio denominada promotora. Essa regio uma sequncia especial
de nucleotdeos que indica o incio para a sntece de RNA. Esta regio reconhecida pela
RNA-polimerase e outras molculas utilizadas na transcrio, denominadas fatores gerais de
transcrio. A RNA-polimerase a enzima que realiza a transcrio, por meio da catalisao
da formao de ligaes fosfodister que conectam os nucleotdeos formando assim uma
molcula de RNA. A RNA-polimerase move-se sobre o DNA, abrindo a dupla hlice e, assim,
expondo uma nova regio da ta-molde para o pareamento de bases por complementariedade.
A molcula de RNA estendida na direo 5' para 3'. Os fatores gerais de transcrio so
protenas que ajudam a posicionar corretamente a RNA-polimerase sobre o promotor. Sem
estes fatores, a RNA-polimerase no consegue ligar-se diretamente aos stios promotores
e iniciar a transcrio. Alm disso, esses fatores auxiliam na separao das duas tas de
DNA para que a transcrio inicie e liberam a RNA-polimerase do promotor, uma vez que
a transcrio tenha iniciado.
Figura 3.9:
26
Expresso gnica. Adaptado de (Alberts, Johnson, Lewis, Ra, Roberts & Walter 2010)
Os ncleos eucariticos possuem trs tipos de RNA-polimerases: RNA-polimerase I,

RNA-polimerase II e RNA-polimerase III. Os trs tipos so estruturalmente similares, porm
transcrevem direntes tipos de genes. As RNA-polimerases I e III transcrevem os genes que
codicam tRNA, rRNA e diversos pequenos RNAs. J a RNA-polimerase II transcreve a
grande maioria dos genes, inclusive os que codicam mRNA e consequentemente, as protenas. Sendo assim, ser utilizada a RNA-polimerase II para explicar o conceito de expresso
gnica.
A iniciao ocorre quando a RNA-polimerase II e os fatores gerais de transcrio reconhecem e ligam-se regio promotor para formar um complexo de iniciao de transcrio.
Aps a formao deste complexo sobre o DNA, a RNA-polimerase dever ter acesso tamolde no ponto inicial da transcrio. Ento, um dos fatores de transcrio responsvel
pela abertura do DNA e assim, pela exposio da ta molde. A RNA-polimerase mantmse no promotor at sofrer uma srie de alteraes estruturais que permitem sua sada do
promotor e a entrada na fase de extenso (alongamento) da transcrio (Alberts, Johnson,
Lewis, Ra, Roberts & Walter 2010).
Aps isso, comea a etapa de alongamento e desenrolamento da dupla hlice. A RNA-
27
polimerase desliza ao longo da molcula de DNA, separando por um momento as duas tas,
onde uma delas servir de molde para a formao da molcula de mRNA correspondente.
Aps a transcrio, a molcula de DNA volta ao seu estado original, ou seja, a dupla hlice.
Por m, o processo termina quando a RNA polimerase II reconhece uma sequncia de
terminao especca no DNA.
Em clulas eucariticas, o RNA transcrito chamado de pr-mRNA ou RNA transcrito
primrio. Tal transcrito passa por um processamento constitudo de trs etapas:
Capeamento na extremidade 5': ocorre a adio de uma estrutura (
cap
5'). O
cap
adicionado antes mesmo que o transcrito primrio esteja completo, ou seja, assim que a
RNA-polimerase II produziu aproximadamente 25 nucleotdeos de RNA, a extremidade
5' da nova molcula de RNA modicada pela adio do
cap. Este cap ajuda a clula
a distinguir os mRNAs dos outros tipos de molculas de RNA, como por exemplo,
as molculas produzidas pelas RNA-polimerases I e III. Alm disso, este capeamento
ajuda o RNA a ser adequadamente processado e exportado (Alberts, Johnson, Lewis,
Ra, Roberts & Walter 2010);
Poliadenilao na extremidade 3': a extremidade 3' do transcrito primrio clivada

enzimaticamente e ento, ocorre a poliadenilao por adio de uma cauda de poli-A
(aproximadamente 200 nucleotdeos A) (Klug, Cummings, Palladino & Spencer 2010;
Alberts, Johnson, Lewis, Ra, Roberts & Walter 2010). Na ausncia dessa cauda,
os transcritos de RNA so rapidamente degradados (Klug, Cummings, Palladino &
Spencer 2010);
Splicing : remoo dos ntrons (sequncias no codicantes) e unio dos xons (sequncias codicantes), conforme ilustrado na Figura 3.10. Uma vantagem do
splicing
que ele permite que um mesmo gene produza um grupo de diferentes protenas. Isso
acontece devido s diferentes maneiras de
splicing
que os transcritos de muitos genes
sofrem.
Somente aps ter ocorrido o
splicing
e processamento das extremidades 5' e 3', o pr-
mRNA ser denominado mRNA (Alberts, Johnson, Lewis, Ra, Roberts & Walter 2010).
Figura 3.10: Splicing
2010)
28
do RNA. Adaptado de (Alberts, Johnson, Lewis, Ra, Roberts & Walter
Aps o processamento, o mRNA torna-se maduro e , ento, transportado para o citoplasma,

para que ocorra a traduo.
Na traduo, realizada a sntese de protena a partir de um mRNA, em associao aos
ribossomos. No processo de traduo, so utilizados os tRNAs, os quais servem de molcula
adaptadora entre um cdon de mRNA e o aminocido correspondente. Assim, a sequncia
de nucleotdeos do mRNA lida de uma extremidade outra de trs em trs nucleotdeos.
O processo de traduo, assim como o processo de transcrio, pode ser dividido em trs
fases: iniciao, alongamento e terminao (Klug, Cummings, Palladino & Spencer 2010). O
incio da traduo ocorre quando uma subunidade ribossomal menor se liga a uma molcula
de mRNA em um cdon de iniciao (AUG), o qual reconhecido por um tRNA especial
(tRNA iniciador) que sempre carrega o aminocido metionina. Uma subunidade ribossomal
maior se liga para completar o ribossomo e iniciar a sntese proteica. A subunidade menor
fornece uma regio sobre a qual os tRNAs podem ser ecientemente pareados sobre os cdons
de um mRNA e a subunidade maior catalisa a formao das ligaes peptdicas entre os
aminocidos, formando uma cadeia polipeptdica (protena) (Alberts, Johnson, Lewis, Ra,
Roberts & Walter 2010).
Uma vez que a sntese foi iniciada, cada novo aminocido adicionado cadeia em
formao em um ciclo de quatro passos principais: ligao do tRNA, formao da ligao
peptdica, translocao das subunidades maior e menor. Como resultado resultado dos dois
passos de translocao (subunidades maior e menor), o ribossomo completo move-se trs nu-
29
cleotdeos sobre o mRNA e posicionado para dar incio ao prximo ciclo (Alberts, Johnson,
Lewis, Ra, Roberts & Walter 2010). Esse ciclo repetido cada vez que um aminocido
adicionado cadeia polipeptdica.
A molcula de mRNA lida cdon a cdon, na direo 5' para 3', at alcanar um dos
trs cdons de terminao (UAA, UAG ou UGA). Estes cdons no so reconhecidos por
um tRNA e portanto, no determinam um aminocido. Assim, os cdons de terminao
sinalizam para o ribossomo o nal da traduo. Ento, protenas conhecidas como fatores
de liberao ligam-se aos ribossomos, nalizando a traduo e liberando o polipeptdeo
completo. O ribossomo, ento, libera o mRNA e separa-se nas duas subunidades maior e
menor (Alberts, Johnson, Lewis, Ra, Roberts & Walter 2010).
Tcnicas
A anlise da expresso gnica pode fornecer informaes importantes sobre as funes
de uma clula (Alberts 1997). Existem diversas tcnicas para obter a expresso dos genes
Serial Analysis of Gene Expression), MPSS (Massively Parallel
como, por exemplo, SAGE (
Signature Sequence technology )
microarray
(de Souto, Lorena, Delbem & de Carvalho
2003). Esta ltima tcnica merece um destaque entre as demais pois as bases utilizadas no
desenvolvimento desta pesquisa so bases de expresso gnica por
Serial Analysis of Gene Expression)
A tcnica SAGE (
microarrays.
(Velculescu, Zhang, Vogelstein &
Kinzler 1995) baseada principalmente em dois princpios (Yamamoto, Wakatsuki, Hada &
Ryo 2001): primeiro, uma pequena sequncia de cDNA (DNA complementar) de 9-10 pares
tag
de bases (
ou etiqueta) possui informaes sucientes para a identicao de um nico
transcrito; segundo, mltiplos
tags
lando a sequncia de milhares de
podem ser concatenados (ligados) e sequenciados, reve-
tags simultaneamente, ou seja, a concatenao possibilita a
anlise dos transcritos de um modo serial. Essa anlise serial dos

de mecanismos para a identicao dos limites de cada
tags de sequncia necessita
tag.
Tanto problemas tcnicos como problemas intrnsecos ao mtodo SAGE so destacados

para a tcnica de SAGE. Como problemas tcnicos destacam-se a desvantagem da necessidade de uma quantidade relativamente alta de mRNA e diculdade relativa em construir
bibliotecas de
tags
(Yamamoto, Wakatsuki, Hada & Ryo 2001). J entre os problemas in-
trnsecos ao mtodo SAGE destaca-se o comprimento do
tag
30
extremamente curto (9-10
pares de bases) e isso diculta novas anlises, especialmente quando os
tags
so derivados
de genes no conhecidos (Yamamoto, Wakatsuki, Hada & Ryo 2001).

MPSS (
Massively Parallel Signature Sequence technology ) (Brenner, Johnson, Bridgham,
Golda, Lloyd, Johnson, Luo, McCurdy, Foy, Ewan, Roth, George, Eletr, Albrecht, Vermaas,
Williams, Moon, Burcham, Pallas, DuBridge, Kirchner, Fearon, Mao & Corcoran 2000)
uma tcnica baseada na produo de sequncias curtas de 16-20 bases adjacentes ao stio de
restrio da enzima
DpnII mais prximo extremidade 3' do mRNA (Liu ). Neste mtodo,
h uma combinao de clonagem e amplicao de cDNA na superfcie de milhares de
microbeads e uma elevada capacidade de sequenciamento de DNA no baseada em gel. A sua

desvantagem o elevado custo, pois uma tecnologia baseada em instrumentos sosticados
e protegida por direitos autorais.
A tcnica de
microarray
merece um destaque entre as demais pois as bases utilizadas no
desenvolvimento desta pesquisa so bases de expresso gnica por
microarrays.
Assim, tal
tcnica ser descrita em maiores detalhes na seo seguinte.
3.1.4 Microarrays
A tecnologia de
microarrays, ou microarranjos de DNA, usada para examinar a expres-
so de milhares de genes em diferentes tecidos de um determinado organismo de maneira

simultnea (Guindalini & Tuk 2007). Essa tecnologia pode ser utilizada tambm para o
estudo da genmica funcional (Lockhart, Dong, Byrne, Follettie, Gallo, Chee, Mittmann,
Wang, Kobayashi, Norton & Brown 1996; Sharp, Xu, Lit, Walker, Apperson, Gilbert, Glauser, Wong, Hershey, Liu, Pinter, Zhan, Liu & Ran 2006), o qual busca identicar variaes
na expresso de determinados genes, as quais podem ser respostas biolgicas naturais de
uma patologia, ou alguma outra condio experimental (Cheung, Morley, Aguilar, Massimi,
Kucherlapati & Childs 1999).
A maior parte desta tecnologia consiste em uma lmina de microscopia, na qual molculas de DNA de ta simples so aplicadas de forma ordenada, isto , em um arranjo. O
preparo de um
microarray
comea pela extrao de mRNA. Ento, geralmente feita uma
transcrio reversa do mRNA, sintetizando assim cDNA marcado com nucleotdeos identi-
31
cados por uorescncia. O cDNA (DNA complementar) um DNA sintetizado a partir de

uma molcula de mRNA, cujos ntrons (sequncias no codicantes) j foram removidos. Os
cDNAs so ento desnaturados e incubados com o
microarray
para hibridizar com os seus
pontos, os quais contm as sequncias complementares de DNA. Aps isso, o

lavado e depois rastreado com um
microarray
laser que faz uorescer o cDNA hibridizado. Os pontos u-
orescentes revelam quais os genes que se expressam em um determinado tecido e o seu nvel
relativo de expresso, uma vez que quanto mais brilhante o ponto, mais o respectivo mRNA
se expressa naquele tecido (Klug, Cummings, Palladino & Spencer 2010). Tal processo ilustrado na Figura 3.11. Nesta gura, o primeiro passo ilustrado o isolamento do mRNA das
amostras de interesse, por exemplo uma amostra de uma pessoa normal (Amostra A) e de
uma pessoa com cncer (Amostra B). A partir desses mRNAs, realizada uma transcrio
reversa, sintetizando cDNAs (DNAs complementares) - passo 2. Tais cDNAs so marcados
por meio de nucleotdeos identicados por uorescncia. Assim, os cDNAs referentes uma
amostra, por exemplo Amostra A, so marcados pela cor vermelha e os cDNAs referentes
outra amostra, Amostra B, so marcados pela cor verde (passo 3). Os cDNAs marcados so
microarray
desnaturados e incubados com o

do
microarray
para que ocorra a hibridizao com os pontos
onde encontram-se as sequncias complementares de DNA, como ilustrado
no passo 4. Por m, o
microarray
passa por um laser para uorescer o cDNA que hibridizou
(passo 5). Portanto, os pontos que apresentam a cor vermelha, so pontos onde somente o
cDNA marcado com a cor vermelha (Amostra A) hibridizou, ou seja, o gene referente quele
ponto s expresso na Amostra A; os pontos com a cor verde so pontos onde somente o
cDNA marcado com a cor verde (Amostra B) hibridizou, ou seja, o gene referente quele
ponto s expresso na Amostra B; e os pontos com cor amarela so pontos onde tanto o
cDNA marcado com a cor vermelha quanto o cDNA marcado com a cor verde hibridizaram,
ou seja, o gene referente quele ponto expresso tanto na Amostra A quanto na Amostra
B. Dessa maneira, a partir dos pontos que uoresceram possvel determinar quais genes
so expressos nas duas amostras de interesse. A intensidade da uorescncia indica o nvel
relativo de expresso, ou seja, quanto mais brilhante for o ponto, mais expresso o respectivo
mRNA naquele tecido (Klug, Cummings, Palladino & Spencer 2010).
Uma vez que os
microarrays
permitem o estudo de milhares de genes ao mesmo tempo,
Figura 3.11: Microarray
32
CONSIDERAES FINAIS
33
eles podem gerar uma grande quantidade de dados sobre expresso gnica. Assim, programas
de computador que analisem tais dados so essenciais para organizar o perl de dados de
expresso gnica (Klug, Cummings, Palladino & Spencer 2010), que o foco do captulo
seguinte.
3.2
Consideraes Finais
Neste captulo foram fornecidos alguns conceitos a respeito de
microarrays
e expresso
gnica. No captulo seguinte ser apresentada a metodologia proposta para a gerao de uma
nica rvore a partir de uma
Random Forest.
Captulo
Proposta Metodolgica
Neste captulo so descritos alguns trabalhos relacionados encontrados na literatura. A
seguir, descrita a metodologia utilizada na realizao do presente projeto, juntamente com
os resultados de um experimento preliminar utilizando a metodologia proposta.
4.1
Trabalhos Relacionados
Uma vez que
Random Forests so ecientes, multi-classe e capazes de lidar com um amplo
espao de atributos, elas tm sido amplamente utilizadas em diversos domnios, inclusive

na bioinformtica, por exemplo em (Wu, Abbott, Fishman, McMurray, Mor, Stone, Ward,
Williams & Zhao 2003; Lee, Park & Song 2005; Daz-Uriarte & de Andrs 2006; Goldstein,
Hubbard, Cutler & Barcellos 2010).
Em (Wu, Abbott, Fishman, McMurray, Mor, Stone, Ward, Williams & Zhao 2003) so
comparados resultados obtidos com vrios classicadores para distinguir entre pacientes
com cncer de ovrio e indivduos normais baseados em dados de espectrometria de massa
(MS) obtidos em amostras de soro. Foi utilizada a taxa de erro como medida de desempenho.
Concluiu-se que o mtodo da
Random Forest
conduz a uma taxa de classicao errada mais
34
35
TRABALHOS RELACIONADOS
baixa. Alm disso, as anlises preliminares sugerem que
Random Forest e mtodos similares
a ela podem ser mais teis do que outros mtodos para classicar exemplos baseados em
bases de MS.
O trabalho de Lee, Park & Song (2005) analisou o desempenho de classicadores desenvolvidos (entre eles a
Random Forest)
em bases de
microarray
e forneceu orientaes para
encontrar as ferramentas de classicao mais apropriadas em diversas situaes. Foram

utilizadas 7 bases de dados, entre elas Lymphoma, uma relacionada com cncer de pulmo
e uma de leucemia. Tambm foi utilizada a taxa de erro como medida de desempenho. A
concluso obtida foi que classicadores como
bagging, boosting
Random Forest melhoram

Random Forest
o desempenho de CART (rvore de classicao) signicativamente e que a

o melhor mtodo dentre os trs quando o nmero de classes moderado.
Em (Daz-Uriarte & de Andrs 2006) foi investigado o uso de
sicar bases de dados de
microarray
Random Forest
(incluindo problemas multi-classes) e foi proposto um
novo mtodo de seleo de genes em problemas de classicao baseados na

Foi analisado o desempenho da
para clas-
Random Forest
Random Forest.
alterando seus parmetros, como o nmero
de rvores a serem criadas, nmero de atributos selecionados aleatoriamente e nmero mnimo de exemplos em cada folha. Foi utilizado um nmero mnimo de exemplos entre 1 e
5, nmero de rvores igual a 1000, 2000, 5000, 10000, 20000 e 40000 e diversos nmeros de
atributos selecionados aleatoriamente. Foi concludo que mudanas nestes parmetros apresentam, na maioria das vezes, efeitos insignicantes, sugerindo que os valores
default
so
boas opes. Alm disso, concluiu-se que o tempo de execuo aumenta linearmente com
o nmero de rvores e a mudana no nmero mnimo de exemplos entre 1 e 5 tem efeitos
insignicantes e assim, seu valor
default
de 1 apropriado. Foi utilizada a taxa de erro
of-bag. A concluso geral obtida que devido ao seu desempenho, Random Forest
de genes usando
Random Forest
out-
e seleo
deveriam tornar-se parte da caixa de ferramentas padro
dos mtodos para predio de classes e seleo de genes utilizando bases de
microarray.
Em (Goldstein, Hubbard, Cutler & Barcellos 2010) foi apresentada uma das primeiras
ilustraes de sucesso analisando bases de genoma de associao ampla (GWA) com um
algoritmo de aprendizado de mquina (
Random Forests ) usando uma base de esclerose m-
tlipla (MS). Foram construdas orestas com 50, 250, 500, 1000 e 2000 rvores e nmero de
PROPOSTA PARA CONSTRUO DE UMA NICA RVORE
36
atributos selecionados aleatoriamente igual a 10% do nmero de atributos. Foi concluido que
10% do nmero de atributos parece minimizar a taxa do erro
out-of-bag, porm no muito.
A convergncia parece ocorrer entre 200-400 rvores. Tal resultado interessante, uma vez
que possui a mesma ordem de grandeza que os resultados obtidos em nossas pesquisas (64128 rvores) em (Oshiro, Perez & Baranauskas 2012). Foi concluido que a
Random Forest
computacionalmente vivel para bases de GWA e os resultados obtidos fazem sentido biolgico baseados em estudos anteriores. Mais importante, novos genes foram identicados
como potencialmente associados com MS, sugerindo assim novas direes de investigao
para esta doena complexa.
No foi encontrado nenhum trabalho na literatura com um tema semelhante ao aqui
proposto, usando
Random Forest. Porm, em (Aziz & Ahmed 2011), foi introduzido um novo
mtodo para gerar um classicador timo e preciso a partir de rvores para vrias amostras
da mesma base de dados. Foi utilizada a mtrica ganho de informao para selecionar o n
que ir fazer parte da nova rvore e as rvores foram geradas por meio do mtodo
bagging.
criado ento um mapa contendo todos os ns utilizados por todas as rvores em todos os
nveis, ou seja, do n raiz ao n folha. Para cada nvel, calculado o ganho de informao
de cada atributo utilizado neste nvel e o atributo com maior ganho ento utilizado como
o n daquele nvel da rvore nal. Isto feito at que a rvore nal tenha sido criada.
Foi concludo que dessa maneira consegue-se criar uma nica rvore e pode-se vericar os
resultados facilmente usando este nico classicador ao invs de vrios. No estudo, contudo,
no h informaes sobre o desempenho da rvore criada ou at mesmo comparaes entre
a rvore nal e outros classicadores.
Na seo seguinte descrito o mtodo proposto nesta pesquisa de mestrado para a
construo de uma nica rvore.
4.2
Proposta para construo de uma nica rvore
Nesta seo apresentada a proposta para a construo de uma nica rvore a partir
das rvores de uma
Random Forest. Foi utilizado o software de cdigo aberto Weka (Hall et
al. 2009) para a implementao do algoritmo proposto.

O resultado de uma
Random Forest,
como j foi mencionado, so
rvores. Em um
37
estudo preliminar deste mestrado, constatou-se que conforme o nmero de rvores geradas
em uma
Random Forest
vai crescendo, tal oresta tende a usar todos os atributos da base
de dados (Oshiro, Perez & Baranauskas 2012). Porm isso no algo til, uma vez que nem
todos os atributos existentes so importantes para a classicao. Assim, foi utilizada uma
mtrica para identifcar quais poderiam ser os melhores atributos e, consequentemente, qual
seria o atributo a ser escolhido como um n para compor a rvore nal desta pesquisa. A
partir deste atributo, novas orestas foram geradas com
rvores para cada subrvore do
atributo e o processo foi repetido, como pode ser visto no Algoritmo 1. O parmetro
utilizado com seu valor
foi
default igual a log 2 (a), pois esta parece ser frequentemente uma boa
escolha (Liaw & Wiener 2002).

A construo da rvore proposta, descrita no Algoritmo 1, tem como incio a gerao
de uma
Random Forest
a qual composta por
L Random Trees
(RT1 , RT2 ,
. . .,
RTL )
como indicado na linha 5. Nas linhas 7 a 9 construdo um mapa, o qual contm o nome
do atributo utilizado na raiz da
k -sima
rvore, Raiz(RTk ), e sua mtrica correspondente,
Mtrica(Raiz(RTk )). Aps isso, construdo um mapa nal o qual contm o nome de todos
os atributos utilizados nas razes das
rvores e as mdias das suas respectivas mtricas.
Tais mdias so calculadas por meio da razo entre a somatria dos valores das mtricas
do atributo
e o nmero de vezes que este atributo foi selecionado para ser a raiz de uma
rvore, ou seja, o nmero de vezes que este atributo aparece no
mapa, como mostrado nas
linhas 10 a 13. A seguir, escolhido o atributo para compor a rvore nal. selecionado o
atributo que apresenta o maior valor da mtrica utilizada, conforme mostrado na linha 14.
Este atributo ir compor a rvore nal (linha 16). Nas linhas 17 a 20 mostrado como o
processo se repete para todos os valores do atributo escolhido, ou seja, para cada valor
que o atributo escolhido pode assumir gerada uma nova base
para uma nova
Random Forest.
Ai
Ti a qual servir de parmetro
Na linha 1 mostrado o ponto de parada do algoritmo, ou
seja, a rvore para de crescer quando todos os exemplos de uma determinada base pertencem
a uma mesma classe
c.
Assim, criado um n folha, o qual possui a classe
c.
Para realizar a construo de uma nica rvore a partir das vrias rvores de uma
Random Forest e vericar se esta proposta seria vivel, duas questes precisam ser analisadas:
1. a quantidade de rvores a serem construdas em uma oresta. A literatura associada
Algoritmo 1
Construo de uma nica rvore usando
38
Random Forest
T : um conjunto de n exemplos rotulados {(xi , yi ), i = 1, 2, . . . , n}

L: nmero de rvores a serem geradas na oresta
m: nmero de atributos a serem selecionados aleatoriamente em cada n de cada rvore
Require:
minNum : nmero mnimo de exemplos em uma folha

rvore: rvore nal obtida
procedure construirrvore(T ,L,m,minNum)
if T contm apenas exemplos de uma nica classe c then
rvore Dena folha com classe c
return rvore
Ensure:
1:
2:
3:
4: end if
5:
6:
7:
8:
RF {RT1 , RT2 , . . ., RTL } construirRandomForest(T ,L,m,minNum)

mapa mapaFinal
for k 1 at L do
mapa mapa {(Raiz(RTk ), Mtrica(Raiz(RTk )))}
9: end for
cada (, ) mapa do
Seja (, ) da forma {(, M1 ), (, M2 ), . . . , (, Mw )} representando os valores da mtrica para
o atributo no mapa
Pw
Mi
mapaFinal mapaFinal {(, = i=1
)}
w
10: for
11:
12:
13: end for

14:
15:
16:
17:
18:
19:
Seja A argmax|(,)mapaFinal
Sejam A1 ,A2 ,. . .,Ar os possveis valores do atributo A
rvore Dena n com A como raiz e sejam S(A1 ),S(A2 ),. . .,S(Ar ) os subramos de A
for i 1 at r do
Dena Ti = {(x,y ) T | A = Ai }
S(Ai ) construirrvore(Ti ,L,m,minNum)
20: end for

21: return
rvore
39
fornece poucas informaes a respeito de quantas rvores devem ser usadas para constituir uma
Random Forest
com bom desempenho usando a medida AUC. As vezes,
aumentar o nmero de rvores somente aumenta o custo computacional sem obter um

ganho signicativo no desempenho;
2. a frequncia que os atributos so utilizados na raiz das rvores. Atributos irrevelantes

no levam somente a um baixo desempenho mas tambm adicionam diculdades extras
em descobrir conhecimento potencialmente til (Oh, Lee & Moon 2004; Saeys, Inza
& Larraaga 2007). Dessa maneira, identicar um subconjunto ou um nico melhor
atributo em uma base de dados de
microarray
pode melhorar o conhecimento humano
sobre o tema.
Visando responder essas duas questes, foram realizados dois experimentos neste estudo.
No primeiro experimento (Oshiro, Perez & Baranauskas 2012) visou-se analisar o desempenho da
Random Forest conforme o nmero de rvores aumenta. Tal experimento buscou por
um nmero (ou um intervalo de nmeros) de rvores a partir do qual no h mais ganho

signicativo de desempenho, a menos que enormes recursos computacionais estejam disponveis para grandes bases de dados. Foram construdas
Random Forests
variando o nmero de
rvores das orestas em taxas exponenciais. Foram propostas e utilizadas algumas mtricas
de densidade para bases de dados, as quais so descritas no Apndice B.1. A partir de tal
experimento, pde-se concluir que um intervalo entre 64 e 128 rvores o mais indicado,
uma vez que possvel obter um bom balano entre o AUC e o tempo de processamento.
interessante ressaltar que em (Goldstein, Hubbard, Cutler & Barcellos 2010) foi encontrado um intervalo entre 200 e 400 rvores e foi utilizada como medida de desempenho a
taxa de erro, diferentemente da medida aqui utilizada (AUC). Como j mencionado, segundo (Ling, Huang & Zhang 2003) o AUC deveria substituir a preciso (ou taxa de erro,
uma vez que esta igual a (1 preciso)) na comparao de classicadores pois mostrou-se
uma medida melhor baseado em extensas comparaes experimentais. Os resultados deste
experimento so descritos e discutidos mais detalhadamente no Apndice B.2, tendo sido
publicado em (Oshiro, Perez & Baranauskas 2012).
No segundo experimento (Oshiro & Baranauskas 2012), avaliou-se se uma
Random Forest
40
utiliza todos os atributos de uma maneira uniforme ou se existem atributos que so mais
utilizados que os demais e se tais atributos possuem um bom desempenho. Este experimento
foi dividido em trs etapas: a primeira etapa visava analisar a frequncia que os atributos
apareciam na raiz das rvores; a segunda etapa buscava analisar o desempenho dos dez
atributos mais utilizados na raiz das rvores usando o erro
etapa visava analisar o desempenho da
Random Forest
execuo, uma vez que sabido que as rvores em uma

mesmo considerando o fato de que a
Random Forest
da pr-poda pode acelerar a induo da

mostram que a
out-of-bag
estimado; a terceira
usando pr-poda e seu tempo de
Random Forest
crescem sem poda
no superajusta. Alm disso, o uso
Random Forest.
Os resultados deste experimento
Random Forest escolhe um subconjunto de atributos que so mais utilizados
nas razes das rvores geradas. Alm disso, o uso do erro
out-of-bag
estimado permite di-
ferenciar os atributos que apresentavam frequncias similares e, assim, identicar o melhor

atributo usado para compor a raiz de uma rvore. Os resultados deste experimento so descritos e discutidos mais detalhadamente no Apndice B.3, tendo sido publicado em (Oshiro
& Baranauskas 2012).
Utilizando os resultados obtidos nos dois experimentos citados anteriormente, foram realizados experimentos com o Algoritmo 1. No Captulo 5 so apresentados os resultados do
Algoritmo 1 a partir da
dores:
Random Forest,
Random Forest
comparados com o desempenho de trs classica-
J48 (rvore de deciso da Weka (Hall, Frank, Holmes, Pfahringer,
Reutemann & Witten 2009), que fornece como sada uma nica rvore) e uma rvore gerada
de forma aleatria (classicador
Random Tree
da Weka (Hall, Frank, Holmes, Pfahringer,
Reutemann & Witten 2009)). Foram utilizadas como medidas comparativas o AUC e o nmero de ns das rvores. Para avaliar o desempenho, foi realizada validao cruzada com
10-
folds. As
bases utilizadas neste experimento encontram-se descritas no Apndice A.2.
A avaliao estatstica dos resultados uma parte essencial na validao de novos mtodos
de aprendizado de mquina (Demar 2006). O teste estatstico pode ser paramtrico (teste t,
ANOVA) ou no paramtrico (Wilcoxon, Friedman). Segundo (Demar 2006) os testes no
paramtricos devem ter preferncia em relao aos testes paramtricos, pois eles so mais
provveis a rejeitar a hiptese nula e no correm os riscos de violaes das suposies dos
testes paramtricos. Tal concluso foi baseada nas propriedades estatsticas de cada teste,
MTRICAS DE SIMILARIDADE DE RVORES
41
nos seus pressuspostos e no conhecimento dos dados de aprendizagem de mquina.

Assim, a m de analisar se os resultados dos experimentos reportados no captulo seguinte so signicativamente diferentes, aplicou-se o teste de Friedman (Friedman 1940),
considerando um nvel de signicncia de 5%. Se o teste de Friedman rejeita a hiptese nula,
necessrio um teste
post-hoc
para vericar em quais pares de classicadores as diferen-
as so realmente signicativas (Demar 2006). O teste
post-hoc
utilizado foi Benjamini-
Hochberg (Benjamini & Hochberg 1995) e foi realizada uma comparao todos
versus todos,
executando todas as possveis comparaes. Os testes foram realizados no software R para

computao estatstica (http://www.r-project.org/).
4.3
Mtricas de Similaridade de rvores
Uma vez que o desempenho mdio da rvore proposta conhecido assim como o desempenho mdio de outros classicadores, interessante analisar as rvores obtidas por estes
mtodos com mtricas alm do desempenho (taxa de acerto, taxa de erro, AUC, entre outras). Assim, foram utilizadas duas mtricas da literatura e propostas outras duas neste
trabalho visando comparar o quo similares so as rvores criadas pela metodologia proposta, pelo J48 e pela
Random Tree,
Forest, pois essa fornece
uma vez que no h como comparar com a
uma oresta como sada, ou seja,
Random
rvores.
Para calcular trs das mtricas propostas, foi utilizado como base o Coeciente de Jaccard (Jaccard 1901). Tal coeciente analisa a similaridade entre dois conjuntos de amostras
e calculado por meio da seguinte frmula:
Jaccard(A, B) =
|A B|
|A B|
(4.1)
Em um estudo recente (Perner 2011) foi proposta uma mtrica para clculo da similaridade entre duas rvores. Nesse estudo so realizados cinco passos: primeiro as duas rvores
de deciso so transformadas em um conjunto de regras; depois, as regras das duas rvores
so ordenadas de acordo com o nmero
att
de atributos em uma regra; ento, as subes-
truturas de todas as regras so construdas por meio da decomposio das regras em suas
subestruturas; a seguir, duas regras
das duas rvores de deciso so comparadas; por
MTRICAS DE SIMILARIDADE DE RVORES
ltimo, a medida de similaridade
SIMij =
onde
att
= max {atti ,
SIMij
calculada, conforme Equao 4.2.
1
(Sim1 + Sim2 + . . . + Simk + . . . + Simatt )
att
attj }
42
(4.2)
1
Simk =
se subestrutura for idntica

caso contrrio
Se a regra contm um atributo numrico () ento a medida de similaridade dada por:
0
k1 k1 |x|
|x|
S = 1
=1
=1
t
t
t
S = 0
onde
k1
para
x<t
xt
um atributo numrico,
usurio para permitir que
para
(4.3)
(4.4)
0 k2 = k1 + x
um valor escolhido pelo
esteja em um intervalo de tolerncia de
desenvolvimento do presente trabalho, foi considerado um valor de
s%
de
k1 .
Para o
igual a 10%.
Foram utilizadas quatro mtricas de similaridade de rvores: Jaccard, Jaccard por nvel,
Jaccard por nvel & teste de Petra e teste de Petra. Dentre as quatro mtricas, duas foram
reutilizadas da literatura (mtricas J e P) e duas foram propostas neste estudo (mtricas
JN e JNP). Todas as mtricas apresentam valores no intervalo
[0, 1],
sendo que as rvores
completamente similares resultam em 1; caso contrrio, resultam em zero.
1. Jaccard (J): representa a porcentagem de similaridade entre duas rvores (A e B) em

relao aos atributos utilizados por cada uma.
2. Jaccard por nvel (JN): representa a similaridade entre duas rvores em relao aos
atributos utilizados em cada nvel, porm no analisa a topologia da rvore. Aplica-se
a frmula 4.1 em cada nvel das rvores, somando os valores e dividindo pelo nmero
total de niveis;
43
CONSIDERAES FINAIS
3. Jaccard por nvel & teste de Petra (JNP): Mesmo raciocnio da mtrica JN, porm
quando o atributo numrico, aplica-se a frmula 4.3 desenvolvida por (Perner 2011).
Assim, se dois atributos numricos de duas rvores diferentes so iguais em um mesmo
nvel, ao invs de resultar em 1 (pela frmula de JN), a similaridade calculada pela
frmula 4.3;
4. Teste de Petra (P): representa a similaridade topolgica entre as rvores.

Como exemplo, considere duas rvores distintas (ilustradas nas Figuras 4.1 e 4.2), geradas
por diferentes classicadores e utilizando a mesma base de dados.
Mtrica 1: Jaccard
J=
2
= 0, 5
4
(4.5)
Mtrica 2: Jaccard por nvel

1
3
1+
2
JN =
= 0, 67
Mtrica 3: Jaccard por nvel + teste de Petra t1
(4.6)
= 83,1 e
x1
= 13;
t2
= 5,5 e
x2
= 0,5
(1
JN P =
13
)
83,1
+ (1
0,5
5,5
0, 84 + 0, 30
= 0, 57
2
(4.7)
Mtrica 4: Teste de Petra t1 = 83,1 e x1 = 13; t2 = 5,5 e x2 = 0,5
P =
(1
13
)
83,1
13 )+(1 0,5 ))
((1 83,1
5,5
0, 84 + 0, 44
= 0, 64
2
(4.8)
possvel notar a partir dos exemplos fornecidos que, computacionalmente, a mtrica

(Jaccard) a mtrica mais simples de ser calculada; a mtrica
simples do que as mtricas
simples do que a mtrica
4.4
e a mtrica
(Jaccard por nvel) mais
(Jaccard por nvel + teste de Petra) mais
(Teste de Petra).
Consideraes Finais
Este projeto de mestrado tem como objetivo criar uma nica rvore a partir das rvores geradas por uma
Random Forest.
Para atingir tal objetivo, foram realizados dois
CONSIDERAES FINAIS
Figura 4.1:
rvore criada pelo classicador J48 utilizando a base DLBCLTumor.
Figura 4.2:
rvore criada pelo Algoritmo 1 utilizando a base DLBCLTumor.
44
CONSIDERAES FINAIS
45
experimentos preliminares, reportados em (Oshiro, Perez & Baranauskas 2012) e (Oshiro &
Baranauskas 2012). Uma vez que a rvore nal foi criada, comparou-se a sua estrutura
estrutura de outras rvores criadas por outros algoritmos a m de analisar se ambas rvores
so similares e, portanto, fornecem as mesmas informaes a respeito de uma determinada
base de dados, ou seja, um determinado problema biolgico.
Tambm foram apresentadas neste captulo a metodologia utilizada neste projeto e as
mtricas de similaridade entre rvores utilizadas, sendo que duas mtricas foram propostas resultantes deste estudo. Foram realizados 2 experimentos que serviram de base para a
construo da rvore nal. No captulo seguinte so apresentados os resultados dos experimentos realizados utilizando a metodologia proposta, assim como os resultados das mtricas
de similaridades.
Captulo
Resultados & Discusso

Aps obter as respostas s questes levantadas na Seo 4.2, achou-se melhor construir
orestas visando a estabilidade dos atributos mais utilizados, ou seja, orestas usando
rvores ou
2a rvores. Estes valores foram escolhidos com base nos resultados do Experimento
2 descrito na Seo B.3. importante ressaltar que com o primeiro experimento descobriu-se
o nmero de rvores necessrio para obter um bom desempenho da
Random Forest sem um
alto custo computacional. Porm, para se obter uma estabilidade dos atributos utilizados
pelas rvores, o nmero de rvores deve ser maior. Assim, foi realizado o segundo experimento
e descobriu-se ento, o nmero de rvores necessrio para se obter uma maior estabilidade
do conjunto de atributos mais utilizados. Uma vez que com o aumento do nmero de rvores
todos os atributos parecem ser utilizados, necessrio o uso de uma mtrica para ltrar os
melhores atributos e, assim, no utilizar um atributo que no importante ou bom para o
desempenho da rvore nal. Visando isso, foi utilizada a mtrica da frequncia considerando
o erro
out-of-bag
estimado.
A m de melhorar o erro
out-of-bag
estimado utilizado, um novo experimento foi rea-
lizado. Neste novo experimento foi utilizada apenas uma porcentagem dos erros
46
out-of-bag
47
de um determinado atributo. Ou seja, foram descartados os maiores erros
out-of-bag
de um
atributo visando assim, eliminar possveis rudos com relao essa mtrica. Por exemplo,
supondo que um atributo foi utilizado 4 vezes e obteve erros
out-of-bag
de 0.2, 0.4, 0.1 e 0.9.
Nesse caso, o valor 0.9 pode ser um rudo, uma vez que este erro elevado pode ser causado
pela escolha dos demais atributos da rvore e, portanto, no seria relacionado diretamente ao
atributo na raiz. Assim, utilizando apenas uma porcentagem dos erros obtidos (no exemplo,
menos de 75%), o valor 0.9 no levado em considerao.
Foram testados quatro valores de porcentagens: 70%, 80%, 90% e 95%. Os melhores resultados foram obtidos utilizando 70% e 90%. Dessa forma, foram realizados trs experimentos
utilizando o Algoritmo 1: uso da mtrica da frequncia considerando o erro
out-of-bag
timado (100% dos valores obtidos) e considerando uma porcentagem dos erros
es-
out-of-bag
obtidos (70% e 90%).

Procurando analisar melhor o desempenho da rvore proposta, seus resultados foram
comparados com outros trs classicadores:
Forest
a
foi executada com seus valores
2a.
Random Forest, J48 e Random Tree. A Random
default
e os nmeros de rvores utilizados foram 128,
O valor 128 foi escolhido baseado no Experimento 1, descrito no Apndice B.2 e a
concluso que a partir desse nmero o desempenho da

signicativamente. Apesar disso, orestas contendo
Random Forest
e
2a
no parece melhorar
rvores foram construdas para
uma melhor comparao com a rvore proposta. O classicador J48 foi executado com seus
valores
default,
com poda e sem poda. O classicador
com seus valores
Random Tree
tambm foi executado
default. Foram realizados testes de Friedman para analisar se os resultados
obtidos eram signicativamente diferentes.

Na Tabela 5.1 esto os valores de AUC obtidos e na Tabela 5.3 so mostrados os nmeros
de ns (tamanho) das rvores e orestas criadas em funo de
log10 , j que os nmeros de ns
das orestas variam muito. Nas duas tabelas so apresentados os resultados dos seguintes
classicadores: Algoritmo 1 utilizando
2a
rvores e 100% dos valores de erro
(A1-a(100) e A1-2a-(100)); Algoritmo 1 utilizando
out-of-bag
de erro
2a
rvores e 70% dos valores de erro
(A1-a(70) e A1-2a-(70)); Algoritmo 1 utilizando
out-of-bag
a e 2a rvores e 90% dos valores
(A1-a(90) e A1-2a-(90)); J48 com seus valores
e J48 com seus valores
default
e sem poda (J48(U));
out-of-bag
default
Random Tree
e com poda (J48)
com seus valores
default
48
(RT);
Random Forest
com seus valores
default
e nmero de rvores igual a 128,
2a
rvores (RF-128, RF-a e RF-2a, respectivamente).

Nas Tabelas 5.2 e 5.4 so apresentados os resultados dos testes de Friedman para os
valores de AUC e nmero de ns, respectivamente. Nestas tabelas,
M (N)
indica que o clas-
sicador na linha especicada melhor (signicativamente) do que o classicador na coluna

especicada;
O (H)
o classicador na linha especicada pior (signicativamente) do que o
classicador na coluna especicada;
indica nenhuma diferena. O tringulo inferior destas
tabelas no so mostrados pois eles apresentam resultados opostos ao tringulo superior por
simetria.
Analisando a Tabela 5.1 pode-se observar que a
Random Forest,
na mdia, apresentou
os melhores valores de AUC na maioria das bases (com exceo das bases DLBCLOutcome,
ma-2003-breast e prostate-outcome) e o melhor
rank
mdio. Em duas bases (E2A-PBX1-
completo e T-ALL-completo) quase todos os classicadores, com exceo da
Random Tree,
apresentaram AUC igual a um. Comparando a metodologia proposta com o J48, J48(U) e
a
Random Tree,
pode-se notar que o Algoritmo 1 utilizando 90% dos erros
rvores (A1-2a(90)) apresentou o melhor
rank
out-of-bag
e 2a
mdio dentre os quatro algoritmos. No geral,
o Algoritmo 1 apresentou valores de AUC um pouco melhores do que os algoritmos J48 e

J48(U) e muito melhores em relao a
Random Tree.
Isso pode ser conrmado ao analisar
a Tabela 5.2, uma vez que pode-se notar que os classicadores J48 e J48(U) foram piores,
porm no signicativamente, do que o Algoritmo 1 no geral (com exceo somente do A1a(100)) e a
a
Random Tree foi signicativamente pior do que todos os demais classicadores. J
Random Forest
foi signicativamente melhor do que os demais classicadores. Analisando
o desvio padro, os algoritmos J48 e J48(U) mostraram-se um pouco mais estveis do que o
Algoritmo 1 no geral, no entanto, o melhor
rank
mdio do desvio padro dentre os quatro
algoritmos restantes foi do Algoritmo 1 utilizando 70% dos erros

(A1-2a(70)). J a
Random Tree
out-of-bag
e 2a rvores
mostrou-se bem mais instvel como esperado.
Na realizao do teste de Friedman para os nmeros de ns das rvores foram utilizados

somente 9 dos 12 classicadores, para os quais este teste aplicvel. Foram tirados os valores
da
Random Forest
uma vez que eles eram valores extremamente altos por se tratar de uma
oresta. Assim, tais valores foram desconsiderados a m de uma melhor comparao entre
COMPARAO DAS RVORES
49
os nmeros de ns das rvores criadas por cada classicador.

Analisando a Tabela 5.3, nota-se que a
Random Forest apresenta o pior desempenho com
relao ao nmero de ns utilizados (tamanho da rvore). J o J48, o J48(U) e o Algoritmo

1, mais uma vez, apresentam desempenhos similares e melhores do que a
melhor
rank
Random Tree
mdio dentre os quatro do Algoritmo 1 utilizando 100% dos erros
e 2a rvores (A1-2a(100)). Analisando a Tabela 5.4, nota-se que a
Random Tree
e o
out-of-bag
foi pior sig-
nicativamente do que os outros trs classicadores. Ao comparar o classicador J48 com o

Algoritmo 1, pode-se observar que o J48 foi melhor signicativamente em trs das sete comparaes, pior (no signicativamente) em uma das sete e melhor (no signicativamente)
em duas das sete comparaes. J o algoritmo J48(U) foi melhor signicativamente em trs
das sete comparaes e pior (no signicativamente) em quatro das sete comparaes. Com
relao ao desvio padro, o Algoritmo 1 mostrou-se to estvel quanto o J48 e o J48(U) e
apresentou o menor
5.1
rank
mdio.
Comparao das rvores
Como descrito na Seo 4.3, foram desenvolvidas algumas mtricas para comparao de
rvores. Nesta seo, os resultados de tais mtricas sero apresentados comparando-se as rvores geradas pelo Algoritmo 1 s rvores geradas pelo algoritmo J48 e pela
Random Tree.
Uma vez que os valores obtidos pelo algorimto J48 com poda e sem poda foram muito parecidos, utilizou-se as rvores geradas pelo J48 com poda, pois essa sua congurao
default.
Como mencionado anteriormente, foram testados quatro valores diferentes de porcentagem

dos erros
out-of-bag
de um determinado atributo na execuo do Algoritmo 1. Nesta seo,
entretanto, s foram comparadas as rvores utilizando 90% dos erros
out-of-bag
e orestas
construdas com 2a rvores (A1-2a(90)). Essa escolha foi baseada nos resultados do teste de
Friedman apresentados na seo anterior.
Na Tabela 5.5, so comparadas as rvores geradas utilizando as 24 bases descritas na
Seo A.2 e o Algoritmo 1 (A1-2a(90)) e J48. Na Tabela 5.6, so comparados o Algoritmo
1 (A1-2a(90)) e
Random Tree. Os
valores acima de 0,5 esto destacados em negrito.
Analisando os valores obtidos mostrados na Tabela 5.5 possvel notar que as rvores
obtidas utilizando o Algoritmo 1 so, em geral, diferentes das rvores obtidas pelo J48.
50
CONSIDERAES FINAIS
Ou seja, as rvores apresentam atributos diferentes em suas estruturas. Pode-se observar,

entretanto, que h algumas rvores parecidas, como o caso das rvores obtidas a partir
das bases MLL-completo e T-ALL-completo, uma vez que ambas apresentam valores de
mtricas acima de 0,5. No caso da base T-ALL, podemos notar que as rvores obtidas pelos
dois algoritmos apresentam os mesmos genes nos mesmos nveis, pois as mtricas J e JN
possuem valores iguais a 1.
Observando os resultados apresentados na Tabela 5.6, pode-se notar que as rvores geradas pelos dois algoritmos (Algoritmo 1 e
Random Tree ) so completamente diferentes, uma
vez que a maioria das mtricas apresentaram valores iguais a 0. Somente em alguns casos os
valores da mtrica 1 foram diferentes de zero, porm, o valor mais alto atingido foi 0,02.
Foi calculado o quadrado do coeciente de correlao (regresso linear) entre as 4 mtricas propostas para vericar se havia uma correlao entre elas. Uma vez que as rvores
obtidas pelos algoritmos J48 e Algoritmo 1 (A1-2a(90)) apresentaram valores de similaridade
maiores do que zero em quase todas as bases, foram utilizados os resultados apresentados
na Tabela 5.5 para calcular o coeciente de correlao entre as mtricas. Os coecientes de
correlao
R2
obtidos so apresentados na Tabela 5.7.
Analisando os resultados apresentados na Tabela 5.7 possvel notar que as mtricas
M1
M2
M1
a mais simples de ser calculada (conforme mostrado na Seo 4.3), pode-se sugerir a
esto correlacionadas, assim como as mtricas
utilizao da mtrica
M1
(Jaccard) no lugar da mtrica
M3
M2
M4 .
Uma vez que a mtrica
(Jaccard por nvel), pois as duas
esto correlacionadas, ou seja, no apresentam resultados muito diferentes. Pode-se tambm

sugerir o uso da mtrica
M3
(Jaccard por nvel + teste de Petra) no lugar da mtrica
M4
(Teste de Petra), uma vez que as duas tambm esto correlacionadas. Tais correlaes podem
ser observadas nas Figuras 5.1 e
5.2
5.2.
Consideraes Finais
Neste captulo foram apresentados os resultados obtidos utilizando a metodologia proposta e outros classicadores j conhecidos. Foram tambm mostradas mtricas de similaridade entre as rvores geradas por essa metodologia e as rvores geradas pelos demais
classicadores.
CONSIDERAES FINAIS
Figura 5.1:
Figura 5.2:
Resultados das mtricas J e JN para as 24 bases.
Resultados das mtricas JNP e P para as 24 bases.
51
A1-a(100)
0,77 (0,07)
0,62 (0,13)
0,71 (0,16)
0,40 (0,39)
0,85 (0,08)
0,89 (0,09)
0,62 (0,33)
0,50 (0,25)
0,60 (0,30)
0,60 (0,11)
0,90 (0,09)
0,55 (0,17)
0,75 (0,17)
0,67 (0,17)
0,84 (0,17)
0,93 (0,16)
0,86 (0,12)
0,88 (0,12)
0,94 (0,05)
0,56 (0,08)
0,59 (0,17)
1,00 (0,00)
0,80 (0,09)
1,00 (0,00)
7,79 (7,62)
Base de dados
welsh-2001-GNF
butte-data-set
nielsen-soft-2002
prostate-outcome
alizadeh-lymph
MLL-completo
lungcancer-ontario
DLBCLOutcome
pomeroy-cns-dataset-C
breastCancer-completo
lung-harvard
ma-2003-breast
aml-all-completo
DLBCLTumor
leung-2002-gastric
lung-Michigan
prostate-tumorVSNormal
lungCancer-completo
ovarian-61902
DLBCL-NIH-completo
BCR-ABL-completo
E2A-PBX1-completo
Hyperdip50-completo
T-ALL-completo
Rank Mdio
7,33 (7,71)
0,78 (0,10)
0,68 (0,08)
0,74 (0,14)
0,18 (0,29)
0,83 (0,12)
0,89 (0,10)
0,63 (0,36)
0,44 (0,20)
0,62 (0,22)
0,62 (0,14)
0,90 (0,08)
0,57 (0,23)
0,76 (0,16)
0,68 (0,15)
0,84 (0,20)
0,89 (0,21)
0,91 (0,10)
0,91 (0,12)
0,95 (0,05)
0,61 (0,14)
0,56 (0,17)
1,00 (0,00)
0,77 (0,09)
1,00 (0,00)
A1-2a(100)
Tabela 5.1:
6,94 (7,81)
0,78 (0,09)
0,67 (0,11)
0,74 (0,13)
0,43 (0,41)
0,82 (0,07)
0,87 (0,12)
0,62 (0,33)
0,50 (0,22)
0,55 (0,24)
0,56 (0,18)
0,93 (0,07)
0,50 (0,23)
0,81 (0,13)
0,74 (0,24)
0,87 (0,11)
0,94 (0,16)
0,85 (0,14)
0,90 (0,08)
0,95 (0,06)
0,54 (0,07)
0,65 (0,29)
1,00 (0,00)
0,81 (0,10)
1,00 (0,00)
A1-a(70)
6,94 (6,34)
0,81 (0,12)
0,65 (0,08)
0,72 (0,14)
0,33 (0,37)
0,81 (0,06)
0,88 (0,09)
0,59 (0,33)
0,49 (0,23)
0,61 (0,18)
0,57 (0,11)
0,89 (0,08)
0,57 (0,20)
0,84 (0,15)
0,73 (0,26)
0,86 (0,12)
0,94 (0,16)
0,90 (0,09)
0,92 (0,09)
0,96 (0,05)
0,64 (0,08)
0,53 (0,12)
1,00 (0,00)
0,83 (0,08)
1,00 (0,00)
A1-2a(70)
7,21 (6,83)
0,77 (0,08)
0,65 (0,13)
0,76 (0,11)
0,43 (0,33)
0,79 (0,09)
0,89 (0,10)
0,54 (0,34)
0,56 (0,19)
0,60 (0,30)
0,58 (0,13)
0,92 (0,06)
0,49 (0,19)
0,82 (0,13)
0,74 (0,17)
0,88 (0,15)
0,93 (0,15)
0,83 (0,14)
0,91 (0,10)
0,95 (0,04)
0,53 (0,09)
0,55 (0,18)
1,00 (0,00)
0,82 (0,08)
1,00 (0,00)
A1-a(90)
6,50 (7,19)
0,75 (0,10)
0,71 (0,07)
0,73 (0,12)
0,33 (0,37)
0,81 (0,12)
0,89 (0,10)
0,59 (0,33)
0,49 (0,23)
0,63 (0,23)
0,65 (0,14)
0,92 (0,08)
0,57 (0,25)
0,84 (0,15)
0,70 (0,19)
0,88 (0,12)
0,89 (0,21)
0,89 (0,10)
0,93 (0,08)
0,97 (0,04)
0,62 (0,11)
0,56 (0,18)
1,00 (0,00)
0,81 (0,09)
1,00 (0,00)
A1-2a(90)
7,41 (6,44)
0,76 (0,11)
0,61 (0,08)
0,66 (0,15)
0,23 (0,25)
0,90 (0,06)
0,89 (0,09)
0,80 (0,23)
0,51 (0,12)
0,50 (0,12)
0,62 (0,19)
0,94 (0,06)
0,49 (0,16)
0,75 (0,22)
0,65 (0,23)
0,92 (0,11)
0,99 (0,02)
0,79 (0,11)
0,92 (0,08)
0,95 (0,05)
0,51 (0,13)
0,57 (0,28)
1,00 (0,00)
0,83 (0,08)
1,00 (0,01)
J48
7,46 (6,50)
0,76 (0,11)
0,61 (0,08)
0,66 (0,15)
0,23 (0,25)
0,90 (0,06)
0,89 (0,09)
0,80 (0,23)
0,51 (0,12)
0,50 (0,12)
0,62 (0,19)
0,94 (0,06)
0,49 (0,16)
0,75 (0,22)
0,65 (0,23)
0,92 (0,11)
0,99 (0,02)
0,79 (0,11)
0,92 (0,08)
0,95 (0,05)
0,50 (0,14)
0,57 (0,28)
1,00 (0,00)
0,83 (0,08)
1,00 (0,01)
J48(U)
10,12 (8,81)
0,76 (0,11)
0,64 (0,11)
0,72 (0,20)
0,38 (0,32)
0,74 (0,12)
0,72 (0,12)
0,57 (0,29)
0,44 (0,28)
0,62 (0,15)
0,50 (0,17)
0,79 (0,09)
0,48 (0,18)
0,66 (0,19)
0,69 (0,17)
0,81 (0,16)
0,72 (0,26)
0,68 (0,09)
0,75 (0,14)
0,81 (0,11)
0,54 (0,05)
0,60 (0,21)
0,74 (0,14)
0,71 (0,14)
0,83 (0,14)
RT
Valores do AUC para os 12 classicadores, desvio padro e rank mdio.
4,02 (4,60)
0,93 (0,06)
0,81 (0,09)
0,96 (0,04)
0,25 (0,42)
0,99 (0,03)
0,98 (0,03)
0,65 (0,39)
0,43 (0,30)
0,59 (0,24)
0,79 (0,13)
0,98 (0,02)
0,42 (0,18)
0,99 (0,03)
0,97 (0,06)
0,99 (0,02)
1,00 (0,00)
0,95 (0,08)
1,00 (0,00)
1,00 (0,01)
0,64 (0,11)
0,96 (0,04)
1,00 (0,00)
0,99 (0,01)
1,00 (0,00)
RF-128
3,14 (4,04)
0,94 (0,06)
0,86 (0,12)
0,95 (0,07)
0,35 (0,47)
1,00 (0,01)
0,99 (0,02)
0,65 (0,39)
0,43 (0,31)
0,66 (0,19)
0,78 (0,11)
0,99 (0,01)
0,38 (0,15)
1,00 (0,00)
0,98 (0,04)
0,99 (0,02)
1,00 (0,00)
0,95 (0,08)
1,00 (0,00)
1,00 (0,01)
0,66 (0,11)
0,99 (0,02)
1,00 (0,00)
0,99 (0,01)
1,00 (0,00)
RF-a
3,12 (4,00)
0,94 (0,06)
0,86 (0,11)
0,95 (0,07)
0,35 (0,47)
1,00 (0,01)
0,99 (0,02)
0,65 (0,39)
0,45 (0,28)
0,63 (0,19)
0,77 (0,12)
0,98 (0,02)
0,39 (0,15)
1,00 (0,00)
0,98 (0,04)
0,99 (0,02)
1,00 (0,00)
0,95 (0,08)
1,00 (0,00)
1,00 (0,01)
0,66 (0,11)
0,99 (0,02)
1,00 (0,00)
0,99 (0,01)
1,00 (0,00)
RF-2a
CONSIDERAES FINAIS
52
Classicador
A1-a(100)
A1-2a(100)
A1-a(70)
A1-2a(70)
A1-a(90)
A1-2a(90)
J48
J48(U)
RT
RF-128
RF-a
RF-2a
A1-2a(100)
O
O
O
A1-a(70)
O
O
M
A1-2a(70)
O
O
M
M
A1-a(90)
O
O
O
O
O
A1-2a(90)
O
M
M
M
M
M
J48
O
M
M
M
M
M
M
J48(U)
N
N
N
N
N
N
N
N
RT
H
H
H
H
H
H
H
H
H
RF-128
H
H
H
H
H
H
H
H
H
O
RF-a
Resultados do teste de Friedman para os valores de AUC para os 12 classicadores.
A1-a(100)
Tabela 5.2:
H
H
H
H
H
H
H
H
H
O
O
RF-2a
CONSIDERAES FINAIS
53
Base de dados
welsh-2001-GNF
butte-data-set
nielsen-soft-2002
prostate-outcome
alizadeh-lymph
MLL-completo
lungcancer-ontario
DLBCLOutcome
lung-harvard
ma-2003-breast
aml-all-completo
DLBCLTumor
leung-2002-gastric
lung-Michigan
lungCancer-completo
ovarian-61902
DLBCL-NIH-completo
BCR-ABL-completo
E2A-PBX1-completo
Hyperdip50-completo
T-ALL-completo
Rank Mdio
A1-a(100)
0,98 (1,65)
1,26 (1,90)
1,06 (1,26)
0,68 (0,63)
1,23 (1,48)
0,85 (1,33)
0,79 (1,03)
0,98 (1,35)
0,99 (1,03)
1,12 (1,14)
1,18 (1,48)
1,14 (1,49)
0,75 (0,97)
0,85 (0,94)
0,97 (0,84)
0,48 (0,00)
1,06 (1,35)
0,75 (0,97)
0,87 (1,58)
1,58 (3,02)
0,93 (1,58)
0,48 (0,00)
1,20 (1,41)
0,48 (0,00)
5,54 (4,52)
A1-2a(100)
1,03 (0,63)
1,24 (1,26)
1,06 (1,58)
0,60 (1,05)
1,20 (1,41)
0,81 (1,35)
0,78 (1,41)
0,97 (1,26)
0,96 (1,14)
1,10 (0,84)
1,18 (1,75)
1,09 (1,35)
0,76 (1,03)
0,83 (0,63)
0,96 (0,63)
0,48 (0,00)
1,05 (1,14)
0,72 (0,63)
0,85 (0,00)
1,53 (1,69)
0,91 (1,03)
0,48 (0,00)
1,18 (1,14)
0,48 (0,00)
3,44 (4,04)
Tabela 5.3:
J48(U)
1,19 (1,26)
1,29 (0,97)
1,03 (0,84)
0,60 (1,05)
1,18 (1,33)
0,70 (0,00)
0,70 (0,00)
0,91 (1,03)
0,90 (1,05)
1,06 (1,35)
1,04 (0,00)
1,12 (0,32)
0,64 (0,97)
0,79 (1,03)
0,92 (0,97)
0,48 (0,00)
1,07 (2,15)
0,82 (1,26)
1,01 (1,69)
1,55 (6,45)
0,95 (0,00)
0,48 (0,00)
1,23 (2,49)
0,48 (0,00)
3,79 (4,44)
RT
RF-128
RF-a
1,49 (3,33) 3,50 (127,84) 5,50 (11994,41)
1,69 (4,37) 3,71 (54,82) 5,46 (1694,76)
1,40 (3,58) 3,43 (64,93) 5,07 (2017,28)
0,89 (1,40) 2,95 (12,45) 4,94 (1544,84)
1,62 (3,55) 3,65 (76,89) 5,15 (2793,06)
1,32 (2,39) 3,34 (41,43) 5,34 (4140,53)
1,22 (2,46) 3,20 (92,52) 4,55 (2026,73)
1,32 (2,39) 3,31 (27,23) 5,06 (1094,37)
1,28 (1,99) 3,29 (36,12) 5,04 (1480,86)
1,47 (1,14) 3,48 (32,02) 5,76 (4838,67)
1,64 (5,10) 3,68 (64,91) 5,67 (7710,42)
1,47 (3,24) 3,47 (58,66) 4,65 (578,79)
1,19 (2,95) 3,23 (15,09) 4,97 (1078,48)
1,18 (2,74) 3,23 (48,53) 4,97 (1595,72)
1,50 (4,09) 3,50 (96,37) 5,22 (3627,53)
0,88 (2,32) 2,98 (23,34) 4,72 (584,94)
1,55 (3,94) 3,55 (79,28) 5,55 (6457,51)
1,26 (5,27) 3,31 (48,12) 5,30 (2767,56)
1,59 (4,16) 3,60 (70,97) 5,67 (3470,19)
2,02 (6,33) 4,02 (131,46) 5,79 (4520,41)
1,51 (5,32) 3,52 (134,91) 5,52 (8970,52)
1,45 (6,34) 3,53 (102,94) 5,52 (6449,84)
1,81 (9,20) 3,81 (132,42) 5,81 (6894,66)
1,54 (9,11) 3,55 (67,92) 5,55 (5870,10)
9,00 (8,71) 10,00 (10,00) 11,00 (11,00)
(Nmero de ns das rvores para os 12 classicadores) e desvio padro.
A1-a(70) A1-2a(70) A1-a(90) A1-2a(90)

J48
0,97 (1,58) 1,03 (0,63) 0,99 (1,69) 1,03 (0,63) 1,19 (1,26)
1,26 (2,15) 1,25 (1,35) 1,26 (1,93) 1,25 (1,35) 1,29 (0,97)
1,06 (1,90) 1,05 (1,75) 1,06 (1,84) 1,05 (1,75) 1,03 (0,84)
0,66 (0,84) 0,62 (1,03) 0,66 (0,84) 0,62 (1,03) 0,60 (1,05)
1,23 (1,48) 1,21 (1,65) 1,23 (1,14) 1,20 (1,41) 1,18 (1,33)
0,86 (1,14) 0,81 (1,35) 0,81 (1,35) 0,81 (1,35) 0,70 (0,00)
0,82 (0,84) 0,79 (1,40) 0,82 (0,84) 0,79 (1,40) 0,70 (0,00)
1,00 (1,41) 0,97 (1,26) 0,97 (0,84) 0,97 (1,26) 0,91 (1,03)
0,97 (0,84) 0,97 (1,26) 0,99 (1,03) 0,96 (1,14) 0,90 (1,05)
1,12 (1,14) 1,10 (1,26) 1,11 (1,63) 1,11 (1,33) 1,06 (1,35)
1,20 (1,40) 1,18 (1,63) 1,20 (1,70) 1,18 (1,63) 1,04 (0,00)
1,13 (1,58) 1,09 (1,40) 1,14 (1,49) 1,09 (1,90) 1,11 (0,63)
0,75 (0,97) 0,73 (0,84) 0,75 (0,97) 0,75 (0,97) 0,64 (0,97)
0,86 (1,14) 0,85 (0,00) 0,86 (1,14) 0,85 (0,00) 0,79 (1,03)
0,97 (0,84) 0,96 (0,63) 0,98 (0,97) 0,96 (0,63) 0,92 (0,97)
0,53 (0,84) 0,51 (0,63) 0,56 (0,97) 0,48 (0,00) 0,48 (0,00)
1,06 (1,65) 1,06 (1,65) 1,08 (1,94) 1,06 (1,65) 1,07 (2,15)
0,78 (1,05) 0,73 (0,84) 0,76 (1,03) 0,73 (0,84) 0,82 (1,26)
0,87 (1,58) 0,85 (0,00) 0,87 (0,84) 0,85 (0,00) 1,01 (1,69)
1,57 (2,49) 1,53 (1,90) 1,58 (3,02) 1,53 (2,35) 1,50 (3,29)
0,98 (1,90) 0,91 (1,03) 0,94 (1,75) 0,91 (1,03) 0,95 (0,00)
0,48 (0,00) 0,48 (0,00) 0,48 (0,00) 0,48 (0,00) 0,48 (0,00)
1,23 (1,14) 1,20 (1,03) 1,21 (1,03) 1,19 (0,97) 1,23 (2,49)
0,48 (0,00) 0,48 (0,00) 0,48 (0,00) 0,48 (0,00) 0,48 (0,00)
6,10 (5,16) 3,75 (4,23) 6,06 (5,27) 3,73 (4,23) 3,58 (4,40)
log10
RF-2a
5,80 (24085,36)
5,77 (3314,13)
5,37 (4000,00)
5,24 (3058,18)
5,45 (5598,30)
5,64 (8443,43)
4,85 (3959,00)
5,36 (2164,65)
5,34 (2938,35)
6,06 (9510,87)
5,97 (15527,99)
4,95 (1175,47)
5,27 (2265,65)
5,27 (3234,82)
5,52 (7099,53)
5,03 (1261,95)
5,85 (12661,41)
5,60 (5639,96)
5,98 (6763,88)
6,09 (9349,92)
5,82 (18209,36)
5,82 (12681,04)
6,11 (13835,23)
5,86 (11593,31)
12,00 (12,00)
CONSIDERAES FINAIS
54
55
CONSIDERAES FINAIS
Tabela 5.4:
Classicador
A1-a(100)
A1-2a(100)
A1-a(70)
A1-2a(70)
A1-a(90)
A1-2a(90)
J48
J48(U)
RT
Resultados do teste de Friedman para os nmeros de ns dos 9 classicadores.

A1-a(100)
A1-2a(100)
A1-a(70)
A1-2a(70)
A1-a(90)
A1-2a(90)
J48
J48(U)
RT
M
N
H
M
H
M
N
O
N
H
M
H
O
H
H
M
H
O
H
O
H
M
H
M
H
M
M
N
N
N
N
N
N
N
N
Valores das mtricas de comparao entre rvores geradas pelo Algoritmo 1 (A12a(90)) e pelo algoritmo J48
Tabela 5.5:
Base de dados
Mtrica J
Mtrica JN
Mtrica JNP
Mtrica P
0,01
0,01
0,04
0,18
0,08
0,00
0,02
0,00
0,20
0,05
0,00
0,00
0,00
0,03
0,00
0,09
0,30
0,06
0,07
0,02
0,07
0,00
0,13
0,15
0,00
0,00
0,09
0,02
0,21
0,02
0,01
0,00
0,02
0,00
0,05
0,02
welsh-2001-GNF
butte-data-set
nielsen-soft-2002
prostate-outcome
alizadeh-lymph
MLL-completo
lungcancer-ontario
DLBCLOutcome
lung-harvard
ma-2003-breast
aml-all-completo
DLBCLTumor
leung-2002-gastric
lung-Michigan
lungCancer-completo
ovarian-61902
DLBCL-NIH-completo
BCR-ABL-completo
E2A-PBX1-completo
Hyperdip50-completo
T-ALL-completo
0,57
0,60
1,00
1,00
0,00
0,01
0,00
0,02
0,00
0,18
0,28
0,04
0,09
0,03
0,06
0,00
0,13
0,16
0,00
0,00
0,08
0,03
0,24
0,03
0,01
0,00
0,02
0,00
Mdia
Mediana
0,15
0,09
0,17
0,07
0,06
0,03
0,39
0,06
0,09
0,07
0,15
0,05
0,10
0,10
0,14
0,00
0,15
0,16
0,13
0,03
0,01
0,00
0,04
0,43
0,08
0,14
0,06
0,24
0,03
0,15
0,20
0,03
0,00
0,28
0,22
0,27
0,03
0,03
0,00
0,02
CONSIDERAES FINAIS
56
Valores das mtricas de comparao entre rvores geradas pelo Algoritmo 1 (A12a(90)) e pela Random Tree
Tabela 5.6:
Base de dados
welsh-2001-GNF
butte-data-set
nielsen-soft-2002
prostate-outcome
alizadeh-lymph
MLL-completo
lungcancer-ontario
DLBCLOutcome
lung-harvard
ma-2003-breast
aml-all-completo
DLBCLTumor
leung-2002-gastric
lung-Michigan
lungCancer-completo
ovarian-61902
DLBCL-NIH-completo
BCR-ABL-completo
E2A-PBX1-completo
Hyperdip50-completo
T-ALL-completo
Mdia
Mediana
Tabela 5.7:
Mtrica J
Mtrica JN
Mtrica JNP
Mtrica P
0,01
0,00
0,01
0,00
0,01
0,00
0,00
0,00
0,01
0,01
0,00
0,02
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,01
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
Valores dos coecientes de regresso.

Mtricas comparadas
R2
J e JN
JeJNP
J e M4
JN e JN P
JN e P
JN P e P
0,94
0,07
0,04
0,16
0,11
0,93
Captulo
Concluses
Aps a execuo dos dois experimentos preliminares explicados anteriormente foi gerada
a rvore a partir de uma
Random Forest. Tal rvore foi gerada usando Random Forests com
a e 2a rvores, a frequncia considerando o erro out-of-bag
estimado como mtrica de escolha
dos atributos que iriam compor a rvore nal e uma porcentagem desses atributos a serem
considerados (100%, 90% e 70%). Foram analisadas 24 bases de expresso gnica (descritas
na Seo A.2). No geral, o algoritmo proposto apresentou um desempenho igual ou melhor
do que o classicador J48 e
Random Tree
e um desempenho inferior ao da
Random Forest.
A rvore tambm apresentou, no geral, nmeros de ns similares ao J48 e menores do que a
Random Tree.
Quando comparadas as estruturas das rvores criadas pelo Algoritmo 1, J48 e
Tree
Random
pde-se concluir que as rvores obtidas pelo Algoritmo 1 so mais parecidas com as
obtidas pelo J48, porm essa similaridade no alta. Essa diferena nas estruturas das
rvores, ou seja, nos genes utilizados por cada uma para classicar novos exemplos, pode ser
muito interessante, uma vez que as informaes obtidas por meio de cada uma so diferentes.
Assim, o algoritmo aqui proposto pode fornecer informaes diferentes a respeito das bases
57
PRINCIPAIS RESULTADOS E PUBLICAES
58
de expresso gnica com relao aos algoritmos existentes at o momento, como por exemplo
J48 e
Random Tree.
Assim, analisando os resultados obtidos, pode-se notar que a metodologia proposta neste
estudo tem um bom potencial, uma vez que apresenta desempenho melhor do que alguns
classicadores j conhecidos em muitas bases de dados testadas e nmero de ns menores,
ou seja, rvores menores e mais simples de serem interpretadas por humanos. Alm disso, as
rvores criadas apresentaram estruturas (ns) diferentes das rvores geradas pelos demais
classicadores e, assim, elas podem fornecer informaes diferentes e at novas a respeito de
um determinado problema biolgico, ampliando assim o conhecimento humano.
6.1
Principais resultados e publicaes
O presente trabalho resultou em 2 publicaes em dois congressos internacionais.

O primeiro artigo (Oshiro, Perez & Baranauskas 2012), intitulado
a Random Forest?,
Data Mining
foi aceito no
How Many Trees in
8th International Conference on Machine Learning and
(MLDM 2012) e publicado em
Lecture Notes in Computer Science.
Este ar-
tigo referente ao primeiro experimento realizado durante o desenvolvimento do projeto de

mestrado, descrito na Seo B.2. DOI 10.1007/978-3-642-31537-4_13.
O segundo artigo (Oshiro & Baranauskas 2012), intitulado
Root Attribute Behavior
within a Random Forest, foi aceito no Intelligent Data Engineering and Automated Learning
(IDEAL 2012) e publicado em
Lecture Notes in Computer Science.
Este artigo tem como
tema o segundo experimento, descrito na Seo B.3. DOI 10.1007/978-3-642-32639-4_87.
6.2
Trabalhos Futuros
Os resultados obtidos neste projeto de mestrado so promissores, umas vez que a rvore
nal obtida apresentou uma estabilidade maior do que a
Random Tree
na maioria dos casos, maior do que o J48 e apresentou um

J48 e a
Random Tree
rank
(como esperado) e
mdio melhor do que o
para os valores de AUC obtidos e os nmeros de ns das rvores
criadas. Sendo assim, trabalhos futuros podero melhorar o desempenho e a estabilidade do

algoritmo proposto.
Outros mtodos para a criao da rvore nal podero ser desenvolvidos e seus resultados,
TRABALHOS FUTUROS
podero ser comparados aos obtidos neste trabalho.
59
Referncias
(2010). Cancer program data sets. Broad Institute.
Citado na pgina 73.
(2010). Dataset repository in ar (weka). BioInformatics Group Seville.
Citado na p-
gina 73.
(2010). Datasets. http://cilab.ujn.edu.cn/datasets.htm. Cilab.
Citado na pgina 73.
Acuna, E. & Rojas, A. (2001). Bagging classiers based on kernel density estimators. In
Proceedings of the International Conference on New Trends in Computational Statistics with Biomedical Applications, pp.
Alberts, B. (1997).
343350. Citado na pgina 16.
Biologia molecular da clula
(3 ed.). Artes Mdicas.
Citado na p-
gina 29.
Alberts, B., Johnson, A., Lewis, J., Ra, M., Roberts, K. & Walter, P. (2010).
Molecular da Clula
(5 ed.). Porto Alegre.
Biologia
Citado nas pginas vi, 20, 21, 22, 23, 24,
25, 26, 27, 28, and 29.

Alizadeh, A. A., Eisen, M. B., Davis, R. E., Ma, C., Lossos, I. S., Rosenwald, A., Boldrick,
J. C., Sabet, H., Tran, T., Yu, X., Powell, J. I., Yang, L., Marti, G. E., Moore, T.,
Hudson, J., Lu, L., Lewis, D. B., Tibshirani, R., Sherlock, G., Chan, W. C., Greiner, T. C., Weisenburger, D. D., Armitage, J. O., Warnke, R., Levy, R., Wilson, W.,
Grever, M. R., Byrd, J. C., Botstein, D., Brown, P. O. & Staudt, L. M. (2000). Distinct types of diuse large B-cell lymphoma identied by gene expression proling.
Nature 403 (6769), 503511.
Citado na pgina 73.
60
61
REFERNCIAS
Armstrong, S. A., Staunton, J. E., Silverman, L. B., Pieters, R., den Boer, M. L., Minden,
M. D., Sallan, S. E., Lander, E. S., Golub, T. R. & Korsmeyer, S. J. (2002). MLL
translocations specify a distinct gene expression prole that distinguishes a unique
leukemia.
Nat Genet 30, 4147.
Citado na pgina 73.
Aslan, O., Yildiz, O. T. & Alpaydin, E. (2009). Calculating the VC-dimension of decision
trees. In
193198.
International Symposium on Computer and Information Sciences 09,
pp.
Citado na pgina 77.
Aziz, A. & Ahmed, N. (2011). Construction of single classier from multiple interim classication trees.
172178.
International Journal of Computer Science and Network Security 11 (5),
Citado na pgina 36.
Baranauskas, J. A. (2001). Extrao automtica de conhecimento utilizando mltiplos indutores. Technical report, Instituto de Cincias Matemticas e de Computao, Universidade de So Paulo, Brasil.
Citado na pgina 12.
Bauer, E. & Kohavi, R. (1999). An empirical comparison of voting classication algorithms: Bagging, boosting, and variants.
Machine Learning 36 (1-2), 105139.
Citado
na pgina 16.
Beer, D. G., Kardia, S. L., Huang, C.-C., Giordano, T. J., Levin, A. M., Misek, D. E., Lin,
L., Chen, G., Gharib, T. G., Thomas, D. G., Lizyness, M. L., Kuick, R., Hayasaka, S.,
Taylor, J. M., Iannettoni, M. D., Orringer, M. B. & Hanash, S. (2002). Gene-expression
proles predict survival of patients with lung adenocarcinoma.
Nat Med 8 (8), 816824.
Citado na pgina 74.

Benjamini, Y. & Hochberg, Y. (1995). Controlling the false discovery rate: a practical and
powerful approach to multiple testing.
B 57, 289300.
Journal of the Royal Statistical Society Series
Citado na pgina 41.
Bhattacharjee, A., Richards, W. G., Staunton, J., Li, C., Monti, S., Vasa, P., Ladd, C.,
Beheshti, J., Bueno, R., Gillette, M., Loda, M., Weber, G., Mark, E. J., Lander, E. S.,
Wong, W., Johnson, B. E., Golub, T. R., Sugarbaker, D. J. & Meyerson, M. (2001).
Classication of human lung carcinomas by mRNA expression proling reveals distinct
adenocarcinoma subclasses.
Proceedings of the National Academy of Sciences of the
REFERNCIAS
United States of America 98 (24), 1379013795.

Breiman, L. (1996). Bagging predictors.
62
Citado na pgina 74.
Machine Learning 24 (2),
123140.
Citado nas
pginas 1, 14, 15, and 16.

Breiman, L. (2001). Random forests.
Machine Learning 45 (1), 532.
Citado nas pginas 1,
14, 15, 16, 17, and 18.

Breiman, L. (2004). Wald lecture ii, looking inside the black box. http://www.stat.
berkeley.edu/users/breiman. Citado na pgina 18.
Breiman, L. & Cutler, A. (2004). Random forests: Classication/clustering. http://www.
stat.berkeley.edu/users/breiman/RandomForests.
Citado na pgina 18.
Brenner, S., Johnson, M., Bridgham, J., Golda, G., Lloyd, D. H., Johnson, D., Luo, S., McCurdy, S., Foy, M., Ewan, M., Roth, R., George, D., Eletr, S., Albrecht, G., Vermaas,
E., Williams, S. R., Moon, K., Burcham, T., Pallas, M., DuBridge, R. B., Kirchner, J.,
Fearon, K., Mao, J. & Corcoran, K. (2000). Gene expression analysis by massively parallel signature sequencing (MPSS) on microbead arrays.
630634.
Nature biotechnology 18 (6),
Citado na pgina 30.
Bruce, R. (2001). A bayesian approach to semi-supervised learning.
North, 5764.
Citado
na pgina 6.
Butte, A. J., Tamayo, P., Slonim, D., Golub, T. R. & Kohane, I. S. (2000). Discovering
functional relationships between RNA expression and chemotherapeutic susceptibility
using relevance networks.
Proceedings of the National Academy of Sciences of the
United States of America 97 (22), 1218212186.
Citado na pgina 73.
Cheung, V. G., Morley, M., Aguilar, F., Massimi, A., Kucherlapati, R. & Childs, G.
(1999). Making and reading microarrays.
Nature genetics 21 (1 Suppl), 1519.
Citado
na pgina 30.
Daz-Uriarte, R. & de Andrs, S. A. (2006). Gene selection and classication of microarray
data using random forest.
BMC Bioinformatics 7,
3.
Citado nas pginas 2, 3, 34,
and 35.
de Souto, M. C. P., Lorena, A., Delbem, A. & de Carvalho, A. (2003). Tcnicas de Aprendi-
REFERNCIAS
zado de Mquina para Problemas de Biologia Molecular. In
Articial.
63
III Jornada de Inteligncia
Citado na pgina 29.
Demar, J. (2006). Statistical comparison of classiers over multiple data sets.
Machine Learning Research 7 (1), 130.
Citado nas pginas 40 and 41.
Dietterich, T. G. (2000). Ensemble Methods in Machine Learning.
puter Science 1857, 115.
Journal of
Lecture Notes in Com-
Citado nas pginas 1, 13, and 16.
Dubath, P., Rimoldini, L., Sveges, M., Blomme, J., Lpez, M., Sarro, L. M., De Ridder,
J., Cuypers, J., Guy, L., Lecoeur, I., Nienartowicz, K., Jan, A., Beck, M., Mowlavi,
N., De Cat, P., Lebzelter, T. & Eyer, L. (2011). Random forest automated supervised classication of hipparcos periodic variable stars.
Astronomical Society 414 (3), 26022617.
Monthly Notices of the Royal
Citado na pgina 17.
Efron, B. (1979). Bootstrap Methods: Another Look at the Jackknife.
Statistics 7 (1), 126.
The Annals of
Citado na pgina 15.
Frank, A. & Asuncion, A. (2010). UCI machine learning repository. http://archive.ics.uci.

edu/ml.
Citado na pgina 73.
Freund, Y. & Schapire, R. E. (1996). Experiments with a new boosting algorithm. In
Proceedings of the Thirteenth International Conference on Machine Learning,
Lake
Tahoe, California, pp. 148156. Citado nas pginas 1, 14, and 16.
Friedman, M. (1940). A comparison of alternative tests of signicance for the problem of m
rankings.
The Annals of Mathematical Statistics 11 (1), 8692.
Citado nas pginas 41,
76, and 88.

Gamberger, D., Lavrac, N., Zelezny, F. & Tolar, J. (2004). Induction of comprehensible
models for gene expression datasets by subgroup discovery methodology.
Biomedical Informatics 37, 269284.
Journal of
Goldstein, B., Hubbard, A., Cutler, A. & Barcellos, L. (2010). An application of random
forests to a genome-wide association dataset: Methodological considerations and new
ndings.
BMC Genetics 11 (1), 49.
Golub, T. R., Slonim, D. K., Tamayo, P., Huard, C., Gaasenbeek, M., Mesirov, J. P.,
64
REFERNCIAS
Coller, H., Loh, M. L., Downing, J. R., Caligiuri, M. A., Bloomeld, C. D. & Lander,
E. S. (1999). Molecular classication of cancer: class discovery and class prediction by
gene expression monitoring.
Science 286 (5439), 531537.
Citado na pgina 74.
Gordon, G. J., Jensen, R. V., li Hsiao, L., Gullans, S. R., Blumenstock, J. E., Ramaswamy,
S., Richards, W. G., Sugarbaker, D. J. & Bueno, R. (2002). Translation of microarray
data into clinically relevant cancer diagnostic tests using gene expression ratios in lung
cancer and mesothelioma.
Cancer Research 62 (17), 4963.
Citado na pgina 74.
Guindalini, C. & Tuk, S. (2007). Use of microarrays in the search of gene expression patterns: application to the study of complex phenotypes.
Sao Paulo Brazil 1999 29 (4), 370374.
Revista brasileira de psiquiatria
Citado na pgina 30.
Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P. & Witten, I. H. (2009).
The weka data mining software: an update.
Association for Computing Machinery's
Special Interest Group on Knowledge Discovery and Data Mining Explor. Newsl. 11 (1),
1018.
Hand, D. & Till, R. (2001).
A simple generalisation of the area under the ROC
curve for multiple class classication problems. Machine Learning 45 (2), 171
186.
Citado na pgina 8.
Huang, J. & Ling, C. X. (2005). Using AUC and accuracy in evaluating learning algorithms.
Knowledge and Data Engineering, IEEE Transactions on 17 (3),
299310.
Citado na pgina 9.
Jaccard, P. (1901). tude comparative de la distribution orale dans une portion des
Alpes et des Jura.
579.
Bulletin del la Socit Vaudoise des Sciences Naturelles 37,
547
Citado na pgina 41.
Klassen, M., Cummings, M. & Saldaa, G. (2008). Investigation of random forest performance with cancer microarray data. In T. Philip (Ed.),
cations, pp.
6469. ISCA.
Computers and Their Appli-
Citado na pgina 2.
Klug, W., Cummings, M., Palladino, M. & Spencer, C. (2010).
Conceitos de Gentica
(9
ed.). ArtMed Editora. Citado nas pginas vi, 20, 21, 22, 23, 25, 27, 28, 31, and 33.
REFERNCIAS
65
Kubat, M., Bratko, I. & Michalski, R. (1998). A review of machine learning methods.
Citado na pgina 6.
Kuncheva, L. I. (2004).
Interscience.
Combining Pattern Classiers: Methods and Algorithms.
Wiley-
Citado na pgina 1.
Lee, J., Park, M. & Song, S. (2005). An extensive comparison of recent classication tools
applied to microarray data.
Computational Statistics Data Analysis 48 (4),
869885.
Citado na pgina 34.

Leung, S. Y., Chen, X., Chu, K. M., Yuen, S. T., Mathy, J., Ji, J., Chan, A. S. Y., Li, R.,
Law, S., Troyanskaya, O. G., Tu, I.-P., Wong, J., So, S., Botstein, D. & Brown, P. O.
(2002). Phospholipase a2 group iia expression in gastric adenocarcinoma is associated with prolonged survival and less frequent metastasis.
Academy of Sciences 99 (25), 16203.

Lewis, R. (2001).
Citado na pgina 74.
Human genetics: concepts and applications
education. McGraw-Hill.
Proceedings of the National
(4 ed.). McGraw-Hill higher
Citado na pgina 22.
Liaw, A. & Wiener, M. (2002). Classication and regression by randomforest.

1822.
R News 2 (3),
Ling, C., Huang, J. & Zhang, H. (2003). Auc: A better measure than accuracy in comparing learning algorithms. In Y. Xiang & B. Chaib-draa (Eds.),
Advances in Articial
Intelligence, Volume 2671 of Lecture Notes in Computer Science, pp. 991991. Springer
Berlin / Heidelberg.
Liu, E. T. Citado na pgina 30.

Lockhart, D. J., Dong, H., Byrne, M. C., Follettie, M. T., Gallo, M. V., Chee, M. S.,
Mittmann, M., Wang, C., Kobayashi, M., Norton, H. & Brown, E. L. (1996). Expression monitoring by hybridization to highdensity oligonucleotide arrays.
Biotechnology 14 (13), 16751680.
Nature
Citado na pgina 30.
Lopes, L. (2007). Aprendizagem de mquina baseada na combinao de classicadores em

bases de dados da rea de sade. Master's thesis, Pontifcia Universidade Catlica do
Paran. Citado na pgina 16.
REFERNCIAS
66
Ma, X.-J., Salunga, R., Tuggle, J. T., Gaudet, J., Enright, E., McQuary, P., Payette, T.,
Pistone, M., Stecker, K., Zhang, B. M., Zhou, Y.-X., Varnholt, H., Smith, B., Gadd,
M., Chateld, E., Kessler, J., Baer, T. M., Erlander, M. G. & Sgroi, D. C. (2003). Gene
expression proles of human breast cancer progression.
Academy of Sciences 100 (10), 59745979.
Proceedings of the National
Citado na pgina 74.
Ma, Y., Guo, L. & Cukic, B. (2007). Statistical framework for the prediction of faultproneness. In
Group.
Advances in machine learning applications in software engineering. Idea
Citado na pgina 18.
Michalski, R. S. (1983). A theory and methodology of inductive learning. In R. S. Michalski, J. G. Carbonell, & T. M. Mitchell (Eds.),
Machine learning : An articial
intelligence approach, Volume 1, pp. 83134. Morgan Kaufmann.

Mitchell, T. (1997).
Citado na pgina 6.
Machine Learning (Mcgraw-Hill International Edit).
McGraw-Hill
Education (ISE Editions). Citado nas pginas 6 and 76.

Monard, M. C. & Baranauskas, J. A. (2003).
Chapter 5, pp. 115140. Manole.
Induo de Regras e rvores de Deciso,
Citado na pgina 6.
Nanni, L., Brahnam, S. & Lumini, A. (2012). Combining multiple approaches for gene
microarray classication.
Bioinformatics 28 (8), 11511157.
Citado na pgina 2.
Netto, O. P., Nozawa, S. R., Mitrowsky, R. A. R., Macedo, A. A. & Baranauskas, J. A.

(2010). Applying decision trees to gene expression data from dna microarrays: A leukemia case study. In
XXX Congresso da Sociedade Brasileira de Computao,
Horizonte, MG, pp. 10p.
Belo
Nielsen, T., West, R., Linn, S., Alter, O., Knowling, M., Oconnell, J., Zhu, S., Fero, M.,
Sherlock, G. & Pollack, J. (2002). Molecular characterisation of soft tissue tumours: a
gene expression study.
The Lancet 359 (9314), 13011307.
Citado na pgina 73.
Oh, I.-S., Lee, J.-S. & Moon, B.-R. (2004). Hybrid genetic algorithms for feature selection.
IEEE Trans. Pattern Anal. Mach. Intell. 26, 14241437.
Citado na pgina 39.
Oshiro, T. M. & Baranauskas, J. A. (2012). Root attribute behavior within a random

forest. In
Intelligent Data Engineering and Automated Learning - IDEAL 2012, Volume
REFERNCIAS
7435 of
67
Lecture Notes in Computer Science, pp. 733742. Springer Berlin Heidelberg.
Citado nas pginas 39, 40, 45, 58, and 71.

Oshiro, T. M., Perez, P. S. & Baranauskas, J. A. (2012). How many trees in a random
forest? In P. Perner (Ed.),
Volume 7376 of
Heidelberg.
Machine Learning and Data Mining in Pattern Recognition,
Lecture Notes in Computer Science,
pp. 154168. Springer Berlin
Citado nas pginas 36, 37, 39, 45, 58, and 71.
Pang, H., Lin, A., Holford, M., Enerson, B. E., Lu, B., Lawton, M. P., Floyd, E. &
Zhao, H. (2006). Pathway analysis using random forests classication and regression.
Bioinformatics 22, 20282036.
Citado na pgina 3.
Perez, P. S. & Baranauskas, J. A. (2011). Analysis of decision tree pruning using windowing
in medical datasets with dierent class distributions. In
Proceedings of the Workshop
on Knowledge Discovery in Health Care and Medicine of the European Conference on

Machine Learning and Principles and Practice of Knowledge Discovery in Databases
(ECML PKDD KDHCM), Athens,
Greece, pp. 2839.
Perner, P. (2011). How to interpret decision trees? In
Citado na pgina 77.
Proceedings of the 11th international
conference on Advances in data mining: applications and theoretical aspects, ICDM'11,

Berlin, Heidelberg, pp. 4055. Springer-Verlag.
Petricoin, E. F., Ardekani, A. M., Hitt, B. A., Levine, P. J., Fusaro, V. A., Steinberg,
S. M., Mills, G. B., Simone, C., Fishman, D. A., Kohn, E. C. & Liotta, L. A. (2002).
Use of proteomic patterns in serum to identify ovarian cancer.
572577.
The Lancet 359 (9306),
Citado na pgina 74.
Pomeroy, S. L., Tamayo, P., Gaasenbeek, M., Sturla, L. M., Angelo, M., McLaughlin,
M. E., Kim, J. Y. H., Goumnerova, L. C., Black, P. M., Lau, C., Allen, J. C., Zagzag,
D., Olson, J. M., Curran, T., Wetmore, C., Biegel, J. A., Poggio, T., Mukherjee, S.,
Rifkin, R., Califano, A., Stolovitzky, G., Louis, D. N., Mesirov, J. P., Lander, E. S. &
Golub, T. R. (2002). Prediction of central nervous system embryonal tumour outcome
based on gene expression.
Nature 415 (6870), 436442.
Citado na pgina 74.
Rosenwald, A., Wright, G., Chan, W. C., Connors, J. M., Campo, E., Fisher, R. I., Gascoyne, R. D., Muller-Hermelink, H. K., Smeland, E. B., Giltnane, J. M., Hurt, E. M.,
68
REFERNCIAS
Zhao, H., Averett, L., Yang, L., Wilson, W. H., Jae, E. S., Simon, R., Klausner,
R. D., Powell, J., Duey, P. L., Longo, D. L., Greiner, T. C. & It Et Al (2002). The
use of molecular proling to predict survival after chemotherapy for diuse large-B-
New England Journal of Medicine 346 (25),
cell lymphoma.
19371947.
Citado na
pgina 75.
Saeys, Y., Inza, I. n. & Larraaga, P. (2007). A review of feature selection techniques in
bioinformatics.
Bioinformatics 23, 25072517.
Citado na pgina 39.
Sharp, F. R., Xu, H., Lit, L., Walker, W., Apperson, M., Gilbert, D. L., Glauser, T. A.,
Wong, B., Hershey, A., Liu, D.-Z. Z., Pinter, J., Zhan, X., Liu, X. & Ran, R. (2006).
The future of genomic proling of neurological diseases using blood.
rology 63 (11), 15291536.
Archives of neu-
Citado na pgina 30.
Shipp, M. A., Ross, K. N., Tamayo, P., Weng, A. P., Kutok, J. L., Aguiar, R. C., Gaasenbeek, M., Angelo, M., Reich, M., Pinkus, G. S., Ray, T. S., Koval, M. A., Last, K. W.,
Norton, A., Lister, T. A., Mesirov, J., Neuberg, D. S., Lander, E. S., Aster, J. C.
& Golub, T. R. (2002). Diuse large B-cell lymphoma outcome prediction by geneexpression proling and supervised machine learning.
Nature Medicine 8 (1),
6874.
Citado na pgina 74.

Singh, D., Febbo, P. G., Ross, K., Jackson, D. G., Manola, J., Ladd, C., Tamayo, P.,
Renshaw, A. A., D'Amico, A. V. & Richie, J. P. (2002). Gene expression correlates of
clinical prostate cancer behavior.
Cancer Cell 1 (2),
203209.
Citado nas pginas 73
and 74.
Sirikulviriya, N. & Sinthupinyo, S. (2011). Integration of rules from a random forest.
national Conference on Information and Electronics Engineering 6,
Inter-
194198.
Citado
Introduction to Data Mining
(1 ed.).
na pgina 1.
Tan, P.-N., Steinbach, M. & Kumar, V. (2005).
Addison Wesley.
No citado no texto.
van 't Veer, L. J., Dai, H., van de Vijver, M. J., He, Y. D., Hart, A. A., Mao, M.,
Peterse, H. L., van der Kooy, K., Marton, M. J., Witteveen, A. T., Schreiber, G. J.,
Kerkhoven, R. M., Roberts, C., Linsley, P. S., Bernards, R. & Friend, S. H. (2002).
69
REFERNCIAS
Nature 415 (6871), 530536.
Citado na pgina 74.
Vapnik, V., Levin, E. & Cun, Y. L. (1994). Measuring the vc-dimension of a learning
Neural Computation 6, 851876.
machine.
Citado na pgina 76.
Velculescu, V. E., Zhang, L., Vogelstein, B. & Kinzler, K. W. (1995). Serial analysis of
gene expression.
Science 270, 484487.
Citado na pgina 29.
Wang, G., Hao, J., Ma, J. & Jiang, H. (2011). A comparative assessment of ensemble
learning for credit scoring.
Expert Systems with Applications 38, 223230.
Citado na
pgina 14.
Watson, J. D. & Crick, F. H. C. (1953). Molecular Structure of Nucleic Acids: A Structure
for Deoxyribose Nucleic Acid.
Nature 171 (4356), 737738.
Weiss, S. M. & Kulikowski, C. A. (1991).
Citado na pgina 20.
Computer systems that learn : classication and
prediction methods from statistics, neural nets, machine learning, and expert systems.
Morgan Kaufmann Publishers. Citado na pgina 5.
Welsh, J. B., Sapinoso, L. M., Su, A. I., Kern, S. G., Wang-Rodriguez, J., Moskaluk, C. A.,
Frierson, H. F. & Hampton, G. M. (2001). Analysis of gene expression identies candidate markers and pharmacological targets in prostate cancer.
59748.
Cancer Research 61 (16),
Citado na pgina 73.
Wigle, D. A., Jurisica, I., Radulovich, N., Pintilie, M., Rossant, J., Liu, N., Lu, C., Woodgett, J., Seiden, I., Johnston, M., Keshavjee, S., Darling, G., Winton, T., Breitkreutz,
B.-J., Jorgenson, P., Tyers, M., Shepherd, F. A. & Tsao, M. S. (2002). Molecular proling of non-small cell lung cancer and correlation with disease-free survival.
Research 62 (11), 3005.
Cancer
Citado na pgina 73.
Witten, I. H. & Frank, E. (1999).
Data Mining: Practical Machine Learning Tools and
Techniques with Java Implementations,
Volume 1. Morgan Kaufmann.
Citado na
pgina 1.
Wu, B., Abbott, T., Fishman, D., McMurray, W., Mor, G., Stone, K., Ward, D., Williams, K. & Zhao, H. (2003). Comparison of statistical methods for classication of
ovarian cancer using a proteomics dataset.
Bioinformatics 19 (13), 16361643.
Citado
REFERNCIAS
70
na pgina 34.
Yamamoto, M., Wakatsuki, T., Hada, A. & Ryo, A. (2001). Use of serial analysis of gene
expression (SAGE) technology.
Journal of immunological methods 250 (1-2),
4566.

Yeoh, E. J., Ross, M. E., Shurtle, S. A., Williams, K. W., Patel, D., Mahfouz, R., Behm,
F. G., Raimondi, S. C., Relling, M. V., Patel, A. & Cheng (2002). Classication,
subtype discovery, and prediction of outcome in pediatric acute lymphoblastic leukemia
by gene expression proling.
Cancer Cell 1 (2), 133143.
Citado na pgina 75.
Zhao, Y. & Zhang, Y. (2008). Comparison of decision tree methods for nding active
objects.
Advances in Space Research 41, 19551959.
Citado na pgina 17.
Apndice
Bases de Dados
Neste apndice so descritas resumidamente as bases utilizadas nos experimentos preliminares (Oshiro, Perez & Baranauskas 2012) e (Oshiro & Baranauskas 2012) descritos no
Apndice B e na construo da rvore nal. As bases referentes aos experimentos esto no
Apndice A.1 e as referentes a construo da rvore nal esto no Apndice A.2.
A.1
Bases de dados usadas para os experimentos realizados
Todas as bases de dados usadas representam bases mdicas reais ou bases de expresso
gnica e nenhuma possui valor ausente para o atributo classe. Na Tabela A.1 mostrado
um resumo das bases de dados e as mtricas de densidade correspondentes, denidas na
Seo B.1. As bases esto ordenadas de acordo com a mtrica
D2
(vide Apndice B.1),
obtendo assim 8 bases de baixas densidades e 21 de altas densidades. No restante desta

seo, uma breve descrio de cada base fornecida.
Breast Cancer, Lung Cancer, CNS (Central Nervous System Tumour Outcome),Lymphoma,
71
BASES DE DADOS USADAS PARA OS EXPERIMENTOS REALIZADOS
72
Resumo das bases de dados utilizadas neste experimento, onde n indica o nmero de
exemplos; c representa o nmero de classes; a, a# e aa indica o nmero total de atributos, o nmero
de atributos nmericos e o nmero de atributos nominais, respectivamente; MISS representa a porcentagem de atributos com valores ausentes, sem considerar o atributo classe; as ltimas 3 colunas
so as mtricas de densidade D1 , D2 , D3 de cada base, respectivamente. Bases esto ordenadas por
D2 em ordem crescente.
Tabela A.1:
Base de dados
GCM (Global
de
a(a# ,aa )
MISS
D1
D2
D3
GCM
Lymphoma
CNS
Leukemia
Leukemia nom,
Ovarian 61902
Lung Cancer
C. Arrhythmia
190
96
60
72
72
253
32
452
14
9
2
2
2
2
3
16
16063 (16063, 0)
4026 (4026, 0)
7129 (7129, 0)
7129 (7129, 0)
7129 (7129, 0)
15154 (15154, 0)
56 (0, 56)
279 (206, 73)
0,00%
5,09%
0,00%
0,00%
0,00%
0,00%
0,28%
0,32%
0,54
0,55
0,46
0,48
0,48
0,57
0,86
1,08
0,27
0,28
0,38
0,40
0,40
0,50
0,59
0,59
0,26
0,27
0,34
0,36
0,36
0,46
0,52
0,58
Dermatology
HD Switz,
Lymphography
Hepatitis
HD Hungarian
HD Cleveland
P. Patient
WDBC
Splice Junction
Heart Statlog
Allhyper
Allhypo
Sick
Breast Cancer
Hypothyroid
ANN Thyroid
WBC
C. Method
Pima Diabetes
Liver Disorders
H. Survival
366
123
148
155
294
303
90
569
3190
270
3772
3772
3772
286
3163
7200
699
1473
768
345
306
6
5
4
2
5
5
3
2
3
2
5
4
2
2
2
3
2
3
2
2
2
34 (1, 33)
13 (6, 7)
18 (3, 15)
19 (6, 13)
13 (6, 7)
13 (6, 7)
8 (0, 8)
30 (30, 0)
60 (0, 60)
13 (13, 0)
29 (7, 22)
29 (7, 22)
29 (7, 22)
9 (0, 9)
25 (7, 18)
21 (6, 15)
9 (9, 0)
9 (2, 7)
8 (8, 0)
6 (6, 0)
3 (2, 1)
0,06%
17,07%
0,00%
5,67%
20,46%
0,18%
0,42%
0,00%
0,00%
0,00%
5,54%
5,54%
5,54%
0,35%
6,74%
0,00%
0,25%
0,00%
0,00%
0,00%
0,00%
1,67
1,88
1,73
1,71
2,21
2,22
2,16
1,86
1,97
2,18
2,44
2,44
2,44
2,57
2,50
2,92
2,98
3,32
3,19
3,26
5,21
1,17
1,25
1,25
1,48
1,59
1,60
1,63
1,66
1,70
1,91
1,97
2,03
2,24
2,26
2,29
2,56
2,66
2,82
2,86
2,87
4,58
1,12
1,18
1,17
1,34
1,52
1,53
1,50
1,54
1,63
1,75
1,91
1,97
2,12
2,07
2,16
2,46
2,48
2,69
2,67
2,65
4,21
Cancer Map),
Breast Cancer),
vival (H.
WDBC
Ovarian 61902, Leukemia, Leukemia nom., WBC
(Wisconsin Diagnostic Breast Cancer),
Haberman's
(Wisconsin
Lymphography
H. Sur-
so todas relacionadas a cancer e seus atributos consistem de
dados clnicos, laboratoriais e expresso gnica.
Leukemia
Leukemia nom.
representam a
mesma base, mas a segunda tem seus atributos discretizados (Netto et al. 2010).
C. Ar-
rhythmia (C. de Cardiac ), Heart Statlog, HD Cleveland, HD Hungarian e HD Switz. (Switz.

de
Switzerland )
esto relacionados a doenas cardacas e seus atributos representam dados
clnicos e laboratoriais.
Allhyper, Allhypo, ANN Thyroid, Hypothyroid e Sick
de bases relacionadas a condies da tireide.
Hepatitis
Liver Disorders
so uma srie
esto relaciona-
das com doenas do fgado, enquanto que
C. Method (C.
Pima Diabetes
P. Patient (P. de Postoperative ) so outras bases
(Pima Indians Diabetes) e
de
Contraceptive ), Dermatology,
BASES DE DADOS USADAS PARA O ALGORITMO 1
relacionadas a condies humanas.
Splice Junction
73
est relacionado a tarefa de previso de
limites entre exons e introns. As bases foram obtidas no Repositrio UCI (Frank & Asuncion
2010), exceto
CNS, Lymphoma, GCM
Ovarian 61902
foi obtida em (Dat 2010);
ECML
que foram obtidas a partir de (Dat 2010);
Leukemia e Leukemia nom. foram obtidas em (Can
2010).
A.2
Bases de dados usadas para o Algoritmo 1
Foram utilizadas 24 bases de expresso gnica por
microarray,
descritas resumidamente
na Tabela A.2, cuja legenda a mesma da Tabela A.1. A seguir, uma breve descrio de
cada base utilizada.
welsh-2001-GNF est relacionada com a classicao de amostras de tecido da prstata (Welsh et al. 2001);
butte-data-set est relacionada com a diferenciao entre diversos tipos de cncer:

mama, ovrio, leucemia, entre outros (Butte et al. 2000);
nielsen-soft-2002 est relacionada com a diferenciao entre os tipos de cncer: sarcoma

sinovial, tumor estromal gastrointestinal, leiomiossarcoma, lipossarcoma, histiocitoma
broso maligno e Schwannoma (Nielsen et al. 2002);
prostate-outcome est relacionada com a classicao do resultado clnico em pacientes

com tumor, os quais foram avaliados com relao recorrncia da doena aps a
cirurgia em um perodo de quatro anos (Singh et al. 2002);
alizadeh-lymph est relacionada com a classicao de pacientes de acordo com a

variao molecular do linfoma de clulas B (Alizadeh et al. 2000);
MLL-completo est relacionada com a diferenciao de pacientes com leucemia mieloide aguda, leucemia linfoctica aguda e leucemia de linhagem misturada (MLL) (Armstrong et al. 2002);
lungcancer-ontario est relacionada com a classicao de pacientes que tiveram tumor em: pacientes que apresentaram metstase local ou distante, ou como livre da
doena (Wigle et al. 2002);
74
DLBCLOutcome est relacionada com a classicao de pacientes (curados ou fatais)

com linfoma de clulas B quanto ao resultado clnico da doena (Shipp et al. 2002);
pomeroy-cns-dataset-C est relacionada com a classicao de pacientes com meduloblastoma em pacientes que sobreviveram ao tratamento e pacientes que no sobreviveram (Pomeroy et al. 2002);
breastCancer-completo est relacionada com a classicao de paciente com cncer de

mama (van 't Veer et al. 2002);
lung-harvard est relacionada com a diferenciao de pacientes entre os diferentes tipos

de tumores e tambm pacientes normais (Bhattacharjee et al. 2001);
ma-2003-breast est relacionada com a classicao de pacientes com: carcinoma ductal
in-situ, carcinoma
ductal invasivo e hiperplasia ductal atpica (Ma et al. 2003);
aml-all-completo est relacionada com a classicao de pacientes com: leucemia mieloide aguda (AML) ou leucemia linfoblstica aguda (ALL) (Golub et al. 1999);
DLBCLTumor est relacionada com a classicao da morfologia das amostras em

linfoma de clulas B e linfoma folicular (Shipp et al. 2002);
leung-2002-gastric est relacionada com a classicao de pacientes em: tumor gstrico

primrio, tumor com metstase e mucosa normal (Leung et al. 2002);
lung-Michigan est relacionada com a classicao de pacientes em tendo adenocarcinoma primrio de pulmo ou no tendo (Beer et al. 2002);
prostate-tumorVSNormal est relacionada com a diferenciao entre amostra normal

e amostra com tumor (Singh et al. 2002);
lungCancer-completo est relacionada com a classicao de cncer de pulmo entre

mesotelioma pleural maligno e adenocarcinoma (Gordon et al. 2002);
ovarian-61902 est relacionada com a distino entre pacientes com cncer e pacientes
normais (Petricoin et al. 2002);
75
DLBCL-NIH-completo est relacionada com a classicao de pacientes com linfoma

de clulas B em: bito ou sobrevivncia (Rosenwald et al. 2002);
BCR-ABL-completo est relacionada com a classicao de subtipos de leucemia linfoblstica peditrica (Yeoh et al. 2002);
E2A-PBX1-completo, Hyperdip50-completo e T-ALL-completo esto relacionados com

a classicao de subtipos de leucemia linfoblstica peditrica (Yeoh et al. 2002).
Tabela A.2:
Resumo das bases de dados utilizadas neste experimento.
Base de dados
welsh-2001-GNF
butte-data-set
nielsen-soft-2002
prostate-outcome
alizadeh-lymph
MLL-completo
lungcancer-ontario
DLBCLOutcome
lung-harvard
ma-2003-breast
aml-all-completo
DLBCLTumor
leung-2002-gastric
lung-Michigan
lungCancer-completo
ovarian-61902
DLBCL-NIH-completo
BCR-ABL-completo
E2A-PBX1-completo
Hyperdip50-completo
T-ALL-completo
a(a# ,aa )
55
68
46
21
96
72
39
58
60
97
203
61
72
77
126
96
136
181
253
240
327
327
327
327
14
9
6
2
9
3
2
2
2
2
5
3
2
2
3
2
2
2
2
2
2
2
2
2
12626 (12626,0)
7245 (7245,0)
5520 (5520,0)
12600 (12600,0)
4026 (4026,0)
12582 (12582,0)
2880 (2880,0)
7129 (7129,0)
7129 (7129,0)
24481 (24481,0)
12600 (12600,0)
1946 (1941,5)
7129 (7129,0)
7129 (7129,0)
6688 (6688,0)
7129 (7129,0)
12600 (12600,0)
12533 (12533,0)
15154 (15154,0)
7399 (7399,0)
12558 (12558,0)
12558 (12558,0)
12558 (12558,0)
12558 (12558,0)
MISS
D1
D2
D3
0,00%
0,00%
0,00%
0,00%
5,09%
0,00%
5,96%
0,00%
0,00%
0,00%
0,00%
0,30%
0,00%
0,00%
5,87%
0,00%
0,00%
0,00%
0,00%
10,30%
0,00%
0,00%
0,00%
0,00%
0,42
0,47
0,44
0,32
0,55
0,45
0,46
0,46
0,46
0,45
0,56
0,54
0,48
0,49
0,55
0,51
0,52
0,55
0,57
0,62
0,61
0,61
0,61
0,61
0,14
0,23
0,24
0,25
0,29
0,34
0,37
0,38
0,38
0,38
0,39
0,40
0,40
0,41
0,42
0,44
0,45
0,48
0,50
0,54
0,54
0,54
0,54
0,54
0,14
0,22
0,22
0,21
0,27
0,31
0,33
0,34
0,34
0,34
0,37
0,36
0,36
0,37
0,39
0,39
0,40
0,44
0,46
0,49
0,50
0,50
0,50
0,50
Apndice
Experimentos Realizados
As bases utilizadas nestes experimentos preliminares encontram-se descritas na Seo A.1.
Na Seo B.1, so discutidas algumas mtricas de densidade propostas nesta pesquisa e utilizadas na execuo do primeiro experimento. Nas Sees B.2 e B.3 so discutidos os resultados
obtidos nos experimentos preliminares 1 e 2, respectivamente.
A m de analisar se os resultados so signicativamente diferentes, aplicou-se o teste
de Friedman (Friedman 1940), considerando um nvel de signicncia de 5%, assim como
explicado na Seo 4.2.
B.1
Mtricas de densidade
sabido a partir da teoria do aprendizado computacional que, dado um espao de hipteses (neste caso, denido pela
Random Forest), possvel determinar a complexidade do
conjunto de treinamento (tamanho) para um classicador convergir (com maior probabilidade) para uma hiptese bem sucedida (Mitchell 1997, Chap. 7). Isto requer conhecimento
do tamanho do espao de hipteses (ou seja, sua cardinalidade) ou sua capacidade fornecida pela dimenso VC (Vapnik, Levin & Cun 1994). Na prtica, encontrar o tamanho do
76
MTRICAS DE DENSIDADE
77
espao de hipteses ou a capacidade difcil e apenas recentemente uma abordagem deniu

a dimenso VC para rvores de deciso binrias, pelo menos parcialmente, uma vez que esta
abordagem foi denida em termos de subrvores direta e esquerda (Aslan, Yildiz & Alpaydin
2009), enquanto que o padro ouro deveria ser denido em termos do espao de exemplos.
Por outro lado, mtricas de bases de dados (espao de exemplos) so muito menos discutidas na literatura. Nosso interesse , uma vez que o espao de hipteses xado (mas
seu tamanho ou sua dimenso VC so ambos desconhecidos ou innitos), quais conjuntos
de treinamento
parecem
ter um volume suciente para que o aprendizado possa ser bem
sucedido. Em um trabalho relacionado, algumas mtricas de balanceamento de classe foram

propostas (Perez & Baranauskas 2011). Uma vez que neste estudo foram usadas bases de
dados com diferentes nmeros de classes, exemplos e atributos, elas no podem ser agrupadas em algum sentido intuitivo usando essas trs dimenses. Com base nisso, so propostas
trs diferentes mtricas, mostradas em (B.1), (B.2) e (B.3), onde cada base de dados tem
classes,
atributos e
exemplos.
Estas mtricas foram projetadas usando as seguintes ideias. Para um objeto fsico, a
densidade
sua massa dividida pelo seu volume. Para uma base de dados, foi conside-
rada sua massa como o nmero de exemplos; seu volume foi dado por seus atributos. Aqui
considera-se o conceito de volume de um objeto (base de dados) como sua capacidade, ou
seja, a quantidade de uido (atributos) que o objeto pode conter, em vez de a quantidade
de espao que o objeto desloca. Sob estas consideraes, tem-se
D ,
n
. Uma vez que,
a
em geral, estes nmeros variam consideravelmente, um melhor modo de olhar para eles foi
usando ambos nmeros na escala logartmica natural,
D,
ln n
o qual nos leva a (B.1). Na
ln a
prxima mtrica, foi considerado que o nmero de exemplos (massa) torna-se rarefeito pelo
nmero de classes, resultando em (B.2) e a ltima mtrica engloba bases de dados vazias
(sem exemplos) e bases sem o rtulo da classe (aprendizado no supervisionado).
EXPERIMENTO 1
D1 , loga n
(B.1)
n
c
n+1
, loga
c+1
D2 , loga
(B.2)
D3
(B.3)
Considerando a hiptese comum em aprendizado de mquina que

para cada mtrica
78
Di , Di 0, i = 1, 2, 3.
Considera-se que se
Di < 1,
c n,
bvio que,
a densidade baixa e
talvez o aprendizado a partir dessa base pode ser difcil, sob o ponto de vista computacional.
Caso contrrio,
B.2
Di 1,
a densidade alta e o aprendizado
pode ser
mais fcil.
Experimento 1
Neste experimento foram utilizadas duas medidas para analisar os resultados: a rea
mdia ponderada sob a curva ROC (AUC) e a porcentagem de atributos usados em cada
Random Forest.
Para avaliar o desempenho deste experimento, usaram-se 10 repeties de
validao cruzada com 10-folds. A mdia de todas as repeties para uma dada oresta em
uma determinada base foi tomada como o valor do desempenho (AUC e porcentagem) para
o par.
Os valores de AUC obtidos para cada base (29 bases, descritas no Apndice A.1) e cada
nmero de rvores usadas na
Random Forest
so mostrados na Tabela B.1. Tambm so
mostrados os valores da mdia e da mediana assim como o

Friedman. Mdia, mediana e o
rank
rank
mdio obtido no teste de
mdio so apresentados para os seguintes grupos: todas
as bases; somente as 8 bases com baixa densidade; e somente as 21 bases com alta densidade.
Como pode ser observado, em todos os grupos (todos/8 baixa-densidade/ 21 alta-densidade)
a oresta com 4096 rvores tem o menor (melhor)
rank
de todos. Alm disso, no grupo das
21 alta-densidade, pode-se observar que as orestas com 2048 e 4096 rvores apresentam
o mesmo
rank.
Analisando o grupo usando todas as bases e as 8 com baixa densidade,
pode-se notar que a oresta com 512 rvores tem um
rank
melhor do que a oresta com
1024 rvores, contrariando o esperado. Outro resultado interessante que os valores de m-
EXPERIMENTO 1
79
dia e mediana das bases com alta densidade para cada uma das trs primeiras iteraes,
L = 2, 4, 8,
so maiores do que os valores das bases com baixa densidade; o oposto ver-
dadeiro para
L = 16, . . . , 4096.
Isto pode sugerir que bases com baixa densidade, de fato,
exigem um poder de expresso maior (orestas maiores) do que bases com alta densidade.
Esta potncia expressiva, naturalmente, pode ser expressa como o tamanho do espao da
Random Forest (hiptese) ou sua dimenso VC.
A m de obter um melhor entendimento, os valores AUC tambm so apresentados nas
Figuras B.1, B.2 e B.3 considerando todas as bases, somente as 8 com baixa densidade e somente as 21 bases com alta densidade, respectivamente. Como pode ser visto, nas Figuras B.1
e B.2, ambas mdia e mediana aumentam conforme o nmero de rvores aumenta, mas alm
de 64 rvores estas guras no apresentam grandes mudanas. Na Figura B.3, a mdia e a
mediana no apresentam maiores mudanas a partir de 32 e 16 rvores, respectivamente.
Com estes resultados pode-se observar um comportamento assinttico, onde um aumento
nos valores do AUC so difceis de se obter, mesmo dobrando o nmero de rvores dentro
da oresta. Um modo de compreender este comportamento assinttico computando a
diferena entre o AUC de uma iterao com a prxima (por exemplo, entre 2 e 4, 4 e 8,
etc.). Estes resultados so apresentados nas Figuras B.4, B.5 e B.6 para todas as bases,
8 baixa densidade e 21 alta densidade, respectivamente. Para esta anlise, ns excluimos
as diferenas dos AUC das bases que atingiram o valor de AUC igual a 99.99% antes de
4096 rvores (valores em negrito na Tabela B.1). Analisando esta tabela, podemos notar que
usando todas as bases e as 8 com baixa densidade, as diferenas do AUC (mdia e mediana)
entre 32 e 64 rvores na oresta esto abaixo de 1%. Considerando as 21 bases com alta
densidade, estas diferenas esto abaixo de 1% entre 16 e 32 rvores na oresta e abaixo de
0.3% entre 32 e 64 rvores.
Analisando a Figura B.4 foi feito um ajuste dos valores de mdia e mediana por meio dos
mnimos quadrados para curva
AUC (ganho) e
g = aLb ,
onde
representa a porcentagem da diferena do
L o nmero de rvores dentro da oresta. Obteve-se, usando todas as bases
e o valor da mediana da diferena do AUC
a = 6.42 e b = 0.83 com coeciente de correlao
R2 = 0.99
e usando a mdia da diferena do AUC
correlao
R2 = 0.98. Para ns prticos, possvel aproximar para g w L7 % com coeciente de
a = 6.06
b = 0.65
com coeciente de
EXPERIMENTO 1
80
Valores AUC, mdia, mediana e rank mdio obtidos nos experimentos. Dados em
negrito representam valores excluidos da anlise da diferena do AUC.
Tabela B.1:
Nmero de rvores
Bases
GCM
0.72
0.77
0.83
Lymphoma
0.85
0.92
0.96
CNS
0.50
0.52
0.56
16
32
64
128
256
0.87
0.89
0.98
0.98
0.58
512
1024
0.91
0.91
0.99
0.99
0.59
0.59
0.59
2048
4096
0.92
0.92
0.99
0.99
0.92
0.93
0.93
0.99
0.99
0.58
0.60
0.99
0.60
0.60
0.60
Leukemia
0.76
0.85
0.93
0.97
0.98
0.98
0.99
0.99
0.99
0.99
0.99
1.00
Leukemia nom.
0.72
0.81
0.91
0.96
0.99
1.00
1.00
1.00
1.00
1.00
1.00
1.00
Ovarian 61902
0.90
0.96
0.98
0.99
0.99
0.99
1.00
1.00
1.00
1.00
1.00
1.00
Lung Cancer
0.58
0.64
0.66
0.65
0.65
0.66
0.66
0.68
0.69
0.68
0.68
0.69
C. Arrhythmia
0.71
0.77
0.82
0.85
0.87
0.88
0.89
0.89
0.89
0.89
0.89
0.89
Dermatology
0.97
0.99
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
HD Switz.
0.55
0.55
0.58
0.58
0.60
0.61
0.60
0.60
0.60
0.61
0.61
0.61
Lymphography
0.82
0.87
0.90
0.92
0.93
0.93
0.93
0.93
0.93
0.93
0.93
0.93
Hepatitis
0.76
0.80
0.83
0.84
0.85
0.85
0.85
0.85
0.86
0.85
0.86
0.86
HD Hungarian
0.80
0.84
0.86
0.87
0.88
0.88
0.88
0.88
0.88
0.88
0.88
0.88
HD Cleveland
0.80
0.84
0.87
0.88
0.89
0.89
0.90
0.89
0.89
0.89
0.90
0.90
P. Patient
0.45
0.45
0.46
0.46
0.45
0.45
0.45
0.45
0.45
0.45
0.45
0.45
WDBC
0.96
0.98
0.99
0.99
0.99
0.99
0.99
0.99
0.99
0.99
0.99
0.99
Splice Junction
0.87
0.93
0.97
0.99
0.99
0.99
0.99
1.00
1.00
1.00
1.00
1.00
Heart Statlog
0.80
0.84
0.87
0.89
0.89
0.89
0.90
0.90
0.90
0.90
0.90
0.90
Allhyper
0.89
0.95
0.98
0.99
0.99
1.00
1.00
1.00
1.00
1.00
1.00
1.00
Allhypo
0.98
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
Sick
0.92
0.97
0.99
0.99
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
Breast Cancer
0.60
0.63
0.64
0.65
0.65
0.66
0.66
0.67
0.66
0.66
0.66
0.66
Hypothyroid
0.95
0.97
0.98
0.98
0.99
0.99
0.99
0.99
0.99
0.99
0.99
0.99
ANN Thyroid
0.99
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
WBC
0.97
0.98
0.99
0.99
0.99
0.99
0.99
0.99
0.99
0.99
0.99
0.99
C. Method
0.62
0.64
0.66
0.66
0.67
0.67
0.67
0.68
0.68
0.68
0.68
0.68
Pima Diabetes
0.72
0.76
0.79
0.81
0.81
0.82
0.82
0.82
0.82
0.82
0.83
0.83
Liver Disorders
0.66
0.70
0.72
0.74
0.75
0.76
0.76
0.77
0.77
0.77
0.77
0.77
H. Survival
0.58
0.60
0.61
0.62
0.63
0.63
0.64
0.64
0.64
0.64
0.64
0.64
Mdia
0.77
0.81
0.84
0.85
0.86
0.86
0.86
0.87
0.87
0.87
0.87
0.87
Mediana
0.80
0.84
0.87
0.89
0.89
0.91
0.91
0.92
0.92
0.92
0.93
0.93
11.83
10.55
8.79
8.05
6.88
5.81
5.12
4.62
4.31
4.39
3.91
3.72
Mdia
0.72
0.78
0.83
0.85
0.87
0.88
0.88
0.88
0.88
0.88
0.89
0.89
Mediana
0.72
0.79
0.87
0.91
0.93
0.94
0.95
0.96
0.96
0.96
0.96
0.96
12.00
11.00
9.62
8.81
7.94
6.25
4.81
4.44
3.37
3.69
3.37
2.69
Mdia
0.79
0.82
0.84
0.85
0.86
0.86
0.86
0.86
0.86
0.86
0.86
0.86
Mediana
0.80
0.84
0.87
0.89
0.89
0.89
0.90
0.90
0.90
0.90
0.90
0.90
11.76
10.38
8.47
7.76
6.47
5.64
5.24
4.69
4.66
4.66
4.12
4.12
Todas
Rank mdio
8 baixa-densidade
Rank mdio
21 alta-densidade
Rank mdio
EXPERIMENTO 1
correlao
L=8
L),
81
R2 = 0.99, o qual indica que este um bom ajuste tambm. Por exemplo, usando
rvores com AUC igual a 0.90, possvel estimar o AUC para 16 rvores (dobrando
assim,
g w 78 %
e o valor do AUC esperado para 16 rvores
0.90 (1 +
7/8
)
100
w 0.91.
Certamente, esta frmula pode ser usada com qualquer nmero positivo de rvores, por
exemplo, considerando uma oresta com 100 rvores, o ganho esperado no AUC para uma
oresta com 200 rvores 0.07%.
Na Tabela B.2 so representados os resultados do teste
post-hoc aps o teste de Friedman
e a rejeio da hiptese nula. Nela so mostrados os resultados usando todas as bases, as 8

com baixa densidade e as 21 com alta densidade. Nesta tabela
M (N)
indica que a
Random
Forest na linha especicada melhor (signicativamente) do que a Random Forest na coluna

especicada;
que a
O (H)
Random Forest
na coluna especicada pior (signicativamente) do
Random Forest na coluna especicada; indica nenhuma diferena. O tringulo inferior
desta tabela no mostrado pois ele apresenta resultados opostos ao tringulo superior por
simetria.
Algumas observaes importantes podem ser feitas a partir da Tabela B.2. Primeiro,
j
pode-se observar que no h diferena signicativa entre um dado nmero de rvores (2 )
j+1
e seu dobro (2
), em todos os casos. Quando h uma diferena signicativa, isto somente
j
aparece quando comparado o nmero de rvores (2 ) com pelo menos quatro vezes este
j+2
nmero (2
). Segunda observao importante que a partir de
signicativa foi encontrada apenas em
uma diferena
4096 = 212 , somente quando a Random Forest cresceu
sessenta e quatro vezes. Terceiro ponto, a partir de

signicativa entre as orestas at
64 = 26
4096
128 = 27
rvores, no h mais diferena
rvores.
Visando analisar a porcentagem de atributos usados, os boxplots deste experimento so

mostrados nas Figuras B.7, B.8 e B.9 para todas as bases, as 8 bases com baixa densidade e
as 21 bases com alta densidade, respectivamente. Considerando a Figura B.7, os valores de
mdia e mediana da oresta usando 128 rvores corresponde a 80.91% e 99.64% dos atributos,
respectivamente. Quando analisam-se as 8 bases com baixa densidade na Figura B.8,
possvel notar que mesmo com 4096 rvores na oresta, nem todos os atributos foram usados.
Porm, como pode ser visto, esta curva tem um formato diferente (sigmoidal) das demais
curvas nas Figuras B.7 e B.9 (exponencial). Alm disso, a curva sigmoidal parece crescer at
Nmero
de rvores
2
4
8
16
32
64
128
256
512
1024
2048
4096
Tabela B.2:
/O/H
/O/O
/O/O
4
H
/O/H
/O/H
O / O / O
16
H
/O/H
/O/H
O / O / O
O / O / O
H
32
H
/H/H
/H/H
H / O / H
H / O / O
O / O / O
H
64
H
/H/H
/H/H
H / H / H
H / O / H
O / O / O
O / O / O
H
128
H
/H/H
/H/H
H / H / H
H / H / H
H / O / O
O / O / O
O / O / O
H
256
H
/H/H
/H/H
H / H / H
H / H / H
H / H / O
O / O / O
O / O / O
O / O / O
H
512
H
/H/H
/H/H
H / H / H
H / H / H
H / H / O
O / O / O
O / O / O
O / O / O
M / M /
H
1024
H
/H/H
/H/H
H / H / H
H / H / H
H / H / O
O / O / O
O / O / O
O / O / O
O / / O
O / O / O
H
2048
H
/H/H
/H/H
H / H / H
H / H / H
H / H / O
H / O / O
O / O / O
O / O / O
O / O / O
O / O / O
O / O /
H
4096
Resultados do teste de Friedman para os valores AUC usando todas bases/8 baixa densidade/21 alta densidade
EXPERIMENTO 1
82
EXPERIMENTO 1
83
seu mximo em 100%.
Figura B.1: Valor AUC em todas as bases de Figura B.2: Valor AUC nas 8 bases com baixa
dados (29 bases)
densidade
Figura B.3:
densidade
Valor AUC nas 21 bases com alta Figura B.4: Diferenas do valor AUC em todas
as bases
Diferenas do valor AUC nas 8 bases Figura B.6: Diferenas do valor AUC nas 21 bacom baixa densidade
ses com alta densidade
Figura B.5:
Porcentagem de atributos usados em Figura B.8: Porcentagem de atributos usados

todas as bases
nas 8 bases com baixa densidade
Figura B.7:
EXPERIMENTO 1
Figura B.9:
84
Porcentagem de atributos usados nas 21 bases com alta densidade
Concluso
Este primeiro experimento preliminar analisou o nmero de rvores para serem geradas
por uma
Random Forest.
Os resultados obtidos neste experimento mostram que, as vezes,
um nmero maior de rvores em uma oresta somente aumenta o custo computacional

e no apresenta ganho de desempenho signicativo. Eles tambm indicam que a mdia
e mediana do AUC tende a convergir assintoticamente. Outra observao que no h
diferena signicativa entre o uso de um nmero de rvores dentro de uma
Random Forest
e o seu dobro. A anlise de 29 bases de dados mostra que a partir de 128 rvores no h
mais diferena signicativa entre as orestas usando 256, 512, 1024, 2048 e 4096 rvores.
Os valores da mdia e mediana do AUC no apresentam maiores mudanas a partir de 64
rvores. Portanto, possvel sugerir, baseado neste experimento, um intervalo entre 64 e 128
rvores na oresta. Utilizando esses nmeros de rvores possvel obter um bom balano
entre AUC, tempo de processamento e uso de memria. Tambm foi descoberta uma relao
experimental (inversamente proporcional) para o ganho do AUC quando dobra-se o nmero
de rvores em qualquer oresta. Analisando a porcentagem de atributos usados, pode-se
notar que a mediana alcana o conjunto inteiro de atributos com 128 rvores na oresta.
Assim, assintoticamente a tendncia indica que a
Random Forest vai usar todos os atributos
e isso no interessante em alguns casos, por exemplo em bases com muitos atributos (ou
seja, bases de expresso gnica), uma vez que nem todos so importantes para o aprendizado
do conceito (Netto, Nozawa, Mitrowsky, Macedo & Baranauskas 2010; Gamberger, Lavrac,
Zelezny & Tolar 2004).
EXPERIMENTO 2
B.3
85
Experimento 2
Aps a realizao do Experimento 1 e a descoberta de que um intervalo entre 64 e 128

rvores em uma oresta o mais indicado para uma estimativa de preciso, tentou-se gerar
orestas contendo 128 rvores para vericar a frequncia que os atributos aparecem nas razes
das rvores. Porm, os experimentos utilizando essa quantidade de rvores no apresentaram
estabilidade no subconjunto dos atributos mais utilizados. Tambm foram testadas orestas
utilizando
a
rvores, novamente sem estabilidade, onde
2
base. Finalmente, orestas contendo
2a
o nmero de atributos de uma
rvores apresentaram resultados estveis. Com
isso possvel observar que uma boa preciso pode ser alcanada rapidamente com 64128
rvores; este ponto de vista v a
Random Forest
fatores especcos dentro de uma
Random Forest, ou seja, analisando a Random Forest como
como uma caixa preta. Porm, analisando
uma caixa branca, mais rvores podem ser necessrias para encontrar outras mtricas que
no desempenho.
A seguir, os resultados de cada etapa deste experimento sero apresentados. Todas as
etapas deste experimento utilizam a posio do atributo (ou seja, o ndice do atributo na
base de acordo com o Weka (Hall, Frank, Holmes, Pfahringer, Reutemann & Witten 2009),
o qual comea no zero) como seu ID. Para avaliar o desempenho, foi realizada validao
cruzada com 10-folds. Foram utilizadas 14 bases das 29 descritas no Apndice A.1, pois
foram analisadas somente as bases que apresentavam nmero de atributos maior do que 25,
a m de melhor analisar a estabilidade dos atributos mais usados, uma vez que existiam
bases com 3 atributos e assim, seriam geradas orestas muito pequenas (com no mximo 6
rvores).
Etapa 1.
Nesta etapa do experimento, buscou-se pela frequncia mdia dos atributos
no nvel da raiz, por exemplo, se os atributos aparecem uniformemente ou se existe um

subconjunto deles que mais frequentemente usado.
Duas medidas foram usadas na realizao desta etapa: o nmero de vezes que um atributo estava entre os
atributos selecionados aleatoriamente pelas rvores no nvel da raiz
(vezesSelecionado) e o nmero de vezes que este atributo foi, de fato, escolhido para ser o n
raiz (vezesRaiz ). Ento, usou-se a razo entre eles (F requencia
= vezesRaiz /vezesSelecionado)
86
EXPERIMENTO 2
Frequncia dos 10 atributos mais usados em todas bases. O eixo x corresponde ao

nmero do atributo e o eixo y corresponde frequncia. Embora todos os eixos y tenham cado em
um intervalo de 0 e 1, este intervalo varia em alguns grcos para melhor visualizao.
Figura B.10:
para analisar a frequncia dos atributos. Aps ordenar as frequncias de todos os atributos
de cada base, foi possvel notar que elas apresentaram um comportamento exponencial. Na
Figura B.10 somente as dez maiores frequncias so mostradas. H quatro linhas em cada
grco representando a mdia e a mediana das frequncias para orestas utilizando
rvores (ordenadas pelas frequncias mdias da oresta usando
2a
rvores). A partir desta
gura, possvel observar que em alguns casos h um nico atributo que sobressai (por
exemplo, nas bases Allhyper e Allhypo, ambas contendo poucos atributos) e em outros casos, h um subconjunto de atributos mais frequentemente usados (por exemplo, nas bases
Lymphoma e Leukemia, ambas contendo um grande nmero de atributos).
Etapa 2.
Aps a realizao da Etapa 1, vericou-se que haviam atributos que apre-
sentavam frequncias muito prximas. Por exemplo, suponha que existem trs atributos na
subconjunto de atributos mais usados: A, B e C. Assumindo que todos eles possuem a mesma
frequncia, porm o atributo A tem erro
out-of-bag
estimado igual a 0.90, B igual a 0.65 e
C igual a 0.20. Neste caso, assume-se que o atributo C o melhor do subconjunto, uma vez
que seu desempenho o melhor. A questo que surge como estimar o erro
out-of-bag
para
EXPERIMENTO 2
Figura B.11:
estimado.
Frequncia dos 10 atributos mais usados em todas bases usando o erro
87
out-of-bag
um dado atributo. Sabe-se que o atributo do nvel de raiz o mais importante na rvore e
portanto, pode-se assumir que ele determina o desempenho da rvore. Baseado nessa suposio, utilizou-se o erro
out-of-bag
da rvore quando o atributo
uma estimativa do desempenho do atributo
est no nvel da raiz como
Com estas modicaes, foi realizada a segunda etapa do experimento, na qual as frequncias foram alteradas para
F requencia(1 OOB), onde OOB
corresponde ao erro
out-of-bag
mdio de um atributo como explicado anteriormente. Os resultados deste experimento so

mostrados na Figura B.11. Analisando os resultados, pode-se observar que em todas as bases
a frequncia tem um comportamento exponencial ou similar, mesmo nas bases que apresentaram um comportamento linear na primeira etapa. Deste modo, usando o erro
out-of-bag
estimado, h geralmente um nico atributo que sobressai em cada base.
Etapa 3. Como mencionado anteriormente, Random Forests no super-ajustam, embora

as rvores dentro delas crescem sem poda. Neste experimento, foi analisado o comportamento
da pr-poda, uma vez que isto pode acelerar a induo da
pr-poda das rvores da
Random Forest,
o parmetro
Random Forest.
minN um
Para realizar a
foi usado. Tal parmetro
EXPERIMENTO 2
88
Resultados do teste de Friedman para os valores AUC usando 128 rvores e considerando um nvel de signicncia de 5%; rank mdio para cada valor de minN um e a porcentagem
do tempo mdio de execuo.
Tabela B.3:
minN um
1
2
3
5
7
11
13
17
19
23
Rank Mdio
Tempo(%)
11
13
17
19
23
O
O
O
O
O
M
M
M
M
M
M
M
M
M
O
M
M
M
O
O
M
M
M
M
M
M
M
M
M
M
M
M
M
M
M
M
M
M
M
M
M
M
M
M
5.18
100.00
4.64
95.04
4.46
92.22
4.39
85.49
5.46
81.80
5.54
76.15
4.93
73.64
6.25
70.30
6.79
69.39
7.36
66.91
determina o nmero mnimo de exemplos em uma folha, onde o valor defaut na Weka (Hall,
Frank, Holmes, Pfahringer, Reutemann & Witten 2009) 1.0, o que gera rvores muito
grandes. Baseado nisso, foram utilizados dez valores diferentes de
minN um:
1, 2, 3, 5,
7, 11, 13, 17, 19 e 23. Como explicado na Seo B.2, para a estimao da preciso um
intervalo de 64128 rvores suciente. Desse modo, foram construdas orestas com 128
rvores. Para analisar os diversos valores de
minN um,
os valores AUC foram usados e
o teste de Friedman (Friedman 1940) foi aplicado, considerando um nvel de signicncia

de 5%. Tambm foi observado o tempo mdio de execuo para induzir a oresta usando
cada diferente valor de
minN um.
Esta medida foi utilizada com base no tempo mdio de
execuo para induzir a oresta usando
minN um = 1,
ou seja, o tempo de execuo para
induzir esta oresta foi tomado como 100% e as porcentagens restantes foram calculadas
baseadas nesta, visto que para valores maiores de
minN um
o tempo menor, devido ao
processo de pr-poda que interrompe o crescimento das rvores.

Na Tabela B.3 so apresentados os resultados do teste
e a rejeio da hiptese nula, o
de cada valor de
minN um.
rank
post-hoc aps o teste de Friedman
mdio e a porcentagem do tempo mdio de execuo
Nesta tabela, a legenda a mesma da Tabela B.2
Pode-se observar que o tempo de execuo diminui conforme o valor de
minN um
au-
menta, o que esperado uma vez que valores maiores representam uma rvore menor e
portanto, um tempo de execuo mais curto. Embora no h diferenas signicativas, possvel notar a partir da Tabela B.3 que
o melhor
rank
minN um = 5
parece ser um valor interessante com
mdio. Usando este valor, os passos da segunda etapa foram repetidos e os
EXPERIMENTO 2
Figura B.12: Frequncia dos 10 atributos mais usados em todas bases usando o erro
estimado e minN um = 5.
89
out-of-bag
resultados so mostrados na Figura B.12. Como possvel notar, no houve diferenas signicativas entre os comportamentos das frequncias mostrados nas Figuras B.11 e B.12, mas
este ltimo quase 15% mais rpido do que o primeiro. Contudo, houve diferenas em alguns subconjuntos dos dez atributos mais usados. Por exemplo, em quatro bases (Leukemia,
Lymphoma, Ovarian e WDBC) os dez atributos mais usados foram os mesmos em ambas
etapas, porm a sequncia deles foi diferente; em outras quatro bases (Arrhythmia, CNS,
Leukemia nom. e Lung Cancer) alguns atributos apareceram em ambas etapas (na mesma
ordem e em ordem diferente) e houve alguns atributos diferentes entre elas. Por outro lado,
em seis bases (Allhyper, Allhypo, Dermatology, Sick, Splice e Thyroid) as sequncias dos
dez atributos mais usados foram as mesmas em ambas etapas.
Concluso
Este segundo experimento preliminar visou analisar a frequncia que os atributos aparecem nas razes das rvores de uma Random Forest. Foram construdas
usando
2a
rvores, onde
Random Forests
o nmero de atributos da base de dados. Analizando os
resultados, pode ser observado que a
Random Forest
escolhe um subconjunto de atributos
90
EXPERIMENTO 2
mais utilizados ou um nico atributo em cada base. Alm disso, a frequncia que os atributos aparecem na raiz tem um comportamento exponencial. Parece que quando usa-se
2a
rvores, o subconjunto de atributos estvel. Pode-se tambm observar que nem sempre que
um atributo usado mais do que outro, seu desempenho melhor. As vezes outro atributo
apresenta um erro
out-of-bag
estimado menor e quando essa mtrica usada, este atributo
ca a frente do primeiro. Usando o erro
out-of-bag
estimado como um complemento, pode-se
notar que em todas as bases, um atributo sobressaiu. interessante notar que em bases de
dados de expresso gnica, encontrar um subconjunto ou um nico melhor atributo pode
facilitar a descoberta de conhecimento e melhorar o desempenho da classicao.

Fsdafd

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Fsdafd

Hochgeladen von

Copyright:

Verfügbare Formate

Uma abordagem para a construo de uma nica rvore

a partir de uma Random Forest para classicao de

Dissertao de Mestrado apresentada

Durante o desenvolvimento deste trabalho o autor recebeu auxlio nanceiro do CNPq

Ribeiro Preto, setembro de 2013

Aos meus pais, Waldemar e Mitsuko,

uma tcnica computacionalmente eciente que pode operar rapida-

consegue lidar com bases que apresentam muitos atributos e pou-

para a classicao de bases de dados

Palavras chave: Aprendizado de Mquina,

Expresso Gnica, Classicador

Exemplo de curva ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Clculo aproximado da medida AUC

Curva ROC e rea AUC do classicador A . . . . . . . . . . . . . . . . . . .

Curva ROC e rea AUC do classicador B

Validao cruzada utilizando 5

Estrutura de uma rvore de deciso . . . . . . . . . . . . . . . . . . . . . . .

Funcionamento dos mtodos

Desoxirribose. Adaptado de (Alberts, Johnson, Lewis, Ra, Roberts & Walter

Nucleotdeo de DNA. Adaptado de (Alberts, Johnson, Lewis, Ra, Roberts

Bases nitrogenadas do DNA. Adaptado de (Klug, Cummings, Palladino &

Ligao fosfodister. Adaptado de (Klug, Cummings, Palladino & Spencer 2010) 21

Estrutura de DNA. Adaptado de (Alberts, Johnson, Lewis, Ra, Roberts &

Molcula de tRNA ligada um cdon no mRNA. Adaptado de (Alberts,

Expresso gnica. Adaptado de (Alberts, Johnson, Lewis, Ra, Roberts &

do RNA. Adaptado de (Alberts, Johnson, Lewis, Ra, Roberts &

rvore criada pelo classicador J48 utilizando a base DLBCLTumor.

rvore criada pelo Algoritmo 1 utilizando a base DLBCLTumor. . . . . . . .

Resultados das mtricas J e JN para as 24 bases.

Resultados das mtricas JNP e P para as 24 bases.

Valor AUC em todas as bases de dados (29 bases) . . . . . . . . . . . . . . .

Valor AUC nas 8 bases com baixa densidade . . . . . . . . . . . . . . . . . .

Valor AUC nas 21 bases com alta densidade

Diferenas do valor AUC em todas as bases

Diferenas do valor AUC nas 8 bases com baixa densidade

Diferenas do valor AUC nas 21 bases com alta densidade . . . . . . . . . . .

Porcentagem de atributos usados em todas as bases . . . . . . . . . . . . . .

Porcentagem de atributos usados nas 8 bases com baixa densidade . . . . . .

Porcentagem de atributos usados nas 21 bases com alta densidade . . . . . .

Conjunto de exemplos no formato atributo-valor . . . . . . . . . . . . . . . .

Exemplo de uma matriz de confuso

Matriz de confuso do classicador A . . . . . . . . . . . . . . . . . . . . . .

Matriz de confuso do classicador B . . . . . . . . . . . . . . . . . . . . . .

Os 20 aminocidos com seus respectivos smbolos, abreviaturas e os cdons

Valores do AUC para os 12 classicadores, desvio padro e

Resultados do teste de Friedman para os valores de AUC para os 12 classicadores.

(Nmero de ns das rvores para os 12 classicadores) e desvio padro.

Resultados do teste de Friedman para os nmeros de ns dos 9 classicadores.

Valores das mtricas de comparao entre rvores geradas pelo Algoritmo 1

Valores das mtricas de comparao entre rvores geradas pelo Algoritmo 1

Valores dos coecientes de regresso.

Resumo das bases de dados utilizadas neste experimento, onde

c representa o nmero de classes; a, a# e aa indica o nmero

total de atributos, o nmero de atributos nmericos e o nmero de atributos

de cada base, respectivamente. Bases esto

Resumo das bases de dados utilizadas neste experimento. . . . . . . . . . . .

Valores AUC, mdia, mediana e

mdio obtidos nos experimentos. Dados

em negrito representam valores excluidos da anlise da diferena do AUC. . .

Resultados do teste de Friedman para os valores AUC usando todas bases/8

Resultados do teste de Friedman para os valores AUC usando 128 rvores e

mdio para cada valor de

e a porcentagem do tempo mdio de execuo.

a partir de uma Random Forest para classicao de

Durante o desenvolvimento deste trabalho o autor recebeu auxlio nanceiro do CNPq

uma tcnica computacionalmente eciente que pode operar rapida-

para a classicao de bases de dados

Expresso Gnica, Classicador

Curva ROC e rea AUC do classicador A . . . . . . . . . . . . . . . . . . .

Curva ROC e rea AUC do classicador B

Desoxirribose. Adaptado de (Alberts, Johnson, Lewis, Ra, Roberts & Walter

Nucleotdeo de DNA. Adaptado de (Alberts, Johnson, Lewis, Ra, Roberts

Estrutura de DNA. Adaptado de (Alberts, Johnson, Lewis, Ra, Roberts &

Expresso gnica. Adaptado de (Alberts, Johnson, Lewis, Ra, Roberts &

do RNA. Adaptado de (Alberts, Johnson, Lewis, Ra, Roberts &

rvore criada pelo classicador J48 utilizando a base DLBCLTumor.

Matriz de confuso do classicador A . . . . . . . . . . . . . . . . . . . . . .

Matriz de confuso do classicador B . . . . . . . . . . . . . . . . . . . . . .

Valores do AUC para os 12 classicadores, desvio padro e

Resultados do teste de Friedman para os valores de AUC para os 12 classicadores.

(Nmero de ns das rvores para os 12 classicadores) e desvio padro.

Resultados do teste de Friedman para os nmeros de ns dos 9 classicadores.

Valores dos coecientes de regresso.

apresenta um desempenho excelente em tarefas de classicao e possui

a partir do qual o aumento do nmero de rvores no resulta em um ganho signicativo

Formalmente, em classicao, um exemplo um par

onde ca subentendido o fato que

a classe dada pelo classicador

de cada exemplo com a classe atribuda pelo classicador

(1-especicidade), conhecido como curva

2001). A sensibilidade da classicao a razo entre os verdadeiros positivos e o total de

exemplos positivos, conforme mostrado na Equao 2.5. A especicidade da classicao

Quanto maior o valor de AUC, melhor o desempenho do classicador. Os valores de