Sie sind auf Seite 1von 101

Uma abordagem para a construo de uma nica rvore

a partir de uma Random Forest para classicao de


bases de expresso gnica
Thais Mayumi Oshiro

Dissertao de Mestrado apresentada

Universidade de So Paulo
para
obteno do ttulo
de
Mestre em Bioinformtica
Programa: Interunidades em Bioinformtica
Orientador: Prof. Dr. Jos Augusto Baranauskas

Durante o desenvolvimento deste trabalho o autor recebeu auxlio nanceiro do CNPq

Ribeiro Preto, setembro de 2013

Aos meus pais, Waldemar e Mitsuko,


e meu namorado, Silvio.

Agradecimentos
Agradeo primeiramente a Deus, pelas oportunidades que sempre me forneceu e pelas
bnos ao longo de minha vida.
Aos meus pais, Waldemar e Mitsuko, a quem devo tudo. Sem eles no chegaria aonde
cheguei e no seria metade da pessoa que sou hoje. Agradeo por todo amor e carinho,
pela incrvel dedicao, pela fora e garra, e por todas as oportunidades que sempre me
ofereceram.
A toda minha famlia, por todo o apoio e amor que sempre dedicaram a mim, por sempre
acreditar em mim e me incentivar.
Agradeo ao meu namorado, Silvio, por todo o amor, carinho, pacincia, amizade e apoio
que sempre me deu! Se cheguei at aqui, com toda a certeza, foi porque ele esteve ao meu
lado me incentivando sempre!
A meu grande amigo Newton, por toda a sua pacincia, companheirismo, alegria, pela
sua maravilhosa amizade!
Ao meu orientador, Prof. Jos Augusto Baranauskas, por ter sido um excelente professor
e orientador, por toda a ajuda e apoio no desenvolvimento deste projeto, pela pacincia em
me ensinar e ajudar e por toda a sabedoria compartilhada.

iii

Resumo
Random Forest

uma tcnica computacionalmente eciente que pode operar rapida-

mente sobre grandes bases de dados. Ela tem sido usada em muitos projetos de pesquisa
recentes e aplicaes do mundo real em diversos domnios, entre eles a bioinformtica uma
vez que a

Random Forest

consegue lidar com bases que apresentam muitos atributos e pou-

cos exemplos. Porm, ela de difcil compreenso para especialistas humanos de diversas
reas. A pesquisa de mestrado aqui relatada tem como objetivo criar um modelo simblico,
ou seja, uma nica rvore a partir da

Random Forest

para a classicao de bases de dados

de expresso gnica. Almeja-se assim, aumentar a compreenso por parte dos especialistas
humanos sobre o processo que classica os exemplos no mundo real tentando manter um
bom desempenho. Os resultados iniciais obtidos com o algoritmo aqui proposto so promissores, uma vez que ela apresenta, em alguns casos, desempenho melhor do que outro
algoritmo amplamente utilizado (J48) e um pouco inferior

Random Forest.

Alm disso, a

rvore criada apresenta, no geral, tamanho menor do que a rvore criada pelo algoritmo J48.

Palavras chave: Aprendizado de Mquina,

Random Forest,

Simblico.

iv

Expresso Gnica, Classicador

Abstract
Random Forest is a computationally ecient technique which can operate quickly over
large datasets. It has been used in many research projects and recent real-world applications
in several elds, including bioinformatics since Random Forest can handle datasets having
many attributes, and few examples. However, it is dicult for human experts to understand
it. The research reported here aims to create a symbolic model, i.e. a single tree from a
Random Forest for the classication of gene expression datasets. Thus, we hope to increase
the understanding by human experts on the process that classies the examples in the
real world trying to keep a good performance. Initial results obtained from the proposed
algorithm are promising since it presents in some cases performance better than other widely
used algorithm (J48) and a slightly lower than a Random Forest. Furthermore, the induced
tree presents, in general, a smaller size than the tree built by the algorithm J48.
Keywords: Machine Learning, Random Forest, Gene Expression, Symbolic Classier.

Lista de Figuras
2.1

Exemplo de curva ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

10

2.2

Clculo aproximado da medida AUC

. . . . . . . . . . . . . . . . . . . . . .

10

2.3

Curva ROC e rea AUC do classicador A . . . . . . . . . . . . . . . . . . .

11

2.4

Curva ROC e rea AUC do classicador B

. . . . . . . . . . . . . . . . . . .

11

2.5

Validao cruzada utilizando 5

. . . . . . . . . . . . . . . . . . . . . . .

12

2.6

Estrutura de uma rvore de deciso . . . . . . . . . . . . . . . . . . . . . . .

14

2.7

Funcionamento dos mtodos

3.1

Desoxirribose. Adaptado de (Alberts, Johnson, Lewis, Ra, Roberts & Walter

folds

Bagging

(a) e

Random Forest

(b) . . . . . . . .

2010) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2

20

Nucleotdeo de DNA. Adaptado de (Alberts, Johnson, Lewis, Ra, Roberts


& Walter 2010)

3.3

17

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

21

Bases nitrogenadas do DNA. Adaptado de (Klug, Cummings, Palladino &


Spencer 2010) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

21

3.4

Ligao fosfodister. Adaptado de (Klug, Cummings, Palladino & Spencer 2010) 21

3.5

Estrutura de DNA. Adaptado de (Alberts, Johnson, Lewis, Ra, Roberts &


Walter 2010)

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

22

3.6

Ribose. Adaptado de (Alberts, Johnson, Lewis, Ra, Roberts & Walter 2010)

23

3.7

Base nitrogenada Uracila. Adaptado de (Klug, Cummings, Palladino & Spencer 2010) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.8

Molcula de tRNA ligada um cdon no mRNA. Adaptado de (Alberts,


Johnson, Lewis, Ra, Roberts & Walter 2010) . . . . . . . . . . . . . . . . .

3.9

25

Expresso gnica. Adaptado de (Alberts, Johnson, Lewis, Ra, Roberts &


Walter 2010)

3.10

23

Splicing

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

26

do RNA. Adaptado de (Alberts, Johnson, Lewis, Ra, Roberts &

Walter 2010)

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

28

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

32

3.11

Microarray

4.1

rvore criada pelo classicador J48 utilizando a base DLBCLTumor.

vi

. . . .

44

4.2

rvore criada pelo Algoritmo 1 utilizando a base DLBCLTumor. . . . . . . .

44

5.1

Resultados das mtricas J e JN para as 24 bases.

. . . . . . . . . . . . . . .

51

5.2

Resultados das mtricas JNP e P para as 24 bases.

. . . . . . . . . . . . . .

51

B.1

Valor AUC em todas as bases de dados (29 bases) . . . . . . . . . . . . . . .

83

B.2

Valor AUC nas 8 bases com baixa densidade . . . . . . . . . . . . . . . . . .

83

B.3

Valor AUC nas 21 bases com alta densidade

. . . . . . . . . . . . . . . . . .

83

B.4

Diferenas do valor AUC em todas as bases

. . . . . . . . . . . . . . . . . .

83

B.5

Diferenas do valor AUC nas 8 bases com baixa densidade

. . . . . . . . . .

83

B.6

Diferenas do valor AUC nas 21 bases com alta densidade . . . . . . . . . . .

83

B.7

Porcentagem de atributos usados em todas as bases . . . . . . . . . . . . . .

83

B.8

Porcentagem de atributos usados nas 8 bases com baixa densidade . . . . . .

83

B.9

Porcentagem de atributos usados nas 21 bases com alta densidade . . . . . .

84

B.10 Frequncia dos 10 atributos mais usados em todas bases. O eixo x corresponde
ao nmero do atributo e o eixo y corresponde frequncia. Embora todos os
eixos y tenham cado em um intervalo de 0 e 1, este intervalo varia em alguns
grcos para melhor visualizao.

. . . . . . . . . . . . . . . . . . . . . . . .

B.11 Frequncia dos 10 atributos mais usados em todas bases usando o erro

of-bag

estimado.

of-bag

estimado e

out-

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

B.12 Frequncia dos 10 atributos mais usados em todas bases usando o erro

minN um = 5.

86

87

out-

. . . . . . . . . . . . . . . . . . . . . . . .

89

Lista de Tabelas
2.1

Conjunto de exemplos no formato atributo-valor . . . . . . . . . . . . . . . .

2.2

Exemplo de uma matriz de confuso

. . . . . . . . . . . . . . . . . . . . . .

2.3

Matriz de confuso do classicador A . . . . . . . . . . . . . . . . . . . . . .

11

2.4

Matriz de confuso do classicador B . . . . . . . . . . . . . . . . . . . . . .

11

3.1

Os 20 aminocidos com seus respectivos smbolos, abreviaturas e os cdons


que os codicam . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

rank

5.1

Valores do AUC para os 12 classicadores, desvio padro e

5.2

Resultados do teste de Friedman para os valores de AUC para os 12 classicadores.

mdio. . . .

52

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

53

(Nmero de ns das rvores para os 12 classicadores) e desvio padro.

54

5.3

log10

5.4

Resultados do teste de Friedman para os nmeros de ns dos 9 classicadores.

5.5

Valores das mtricas de comparao entre rvores geradas pelo Algoritmo 1


(A1-2a(90)) e pelo algoritmo J48

5.6

24

. . . . . . . . . . . . . . . . . . . . . . . .

55

55

Valores das mtricas de comparao entre rvores geradas pelo Algoritmo 1


(A1-2a(90)) e pela

Random Tree

. . . . . . . . . . . . . . . . . . . . . . . .

5.7

Valores dos coecientes de regresso.

A.1

Resumo das bases de dados utilizadas neste experimento, onde


mero de exemplos;

. . . . . . . . . . . . . . . . . . . . . .

56
56

n indica o n-

c representa o nmero de classes; a, a# e aa indica o nmero

total de atributos, o nmero de atributos nmericos e o nmero de atributos


nominais, respectivamente; MISS representa a porcentagem de atributos com
valores ausentes, sem considerar o atributo classe; as ltimas 3 colunas so as
mtricas de densidade
ordenadas por

D2

D1 , D2 , D3

de cada base, respectivamente. Bases esto

em ordem crescente.

. . . . . . . . . . . . . . . . . . . . .

72

A.2

Resumo das bases de dados utilizadas neste experimento. . . . . . . . . . . .

75

B.1

Valores AUC, mdia, mediana e

rank

mdio obtidos nos experimentos. Dados

em negrito representam valores excluidos da anlise da diferena do AUC. . .

viii

80

B.2

Resultados do teste de Friedman para os valores AUC usando todas bases/8


baixa densidade/21 alta densidade . . . . . . . . . . . . . . . . . . . . . . . .

B.3

82

Resultados do teste de Friedman para os valores AUC usando 128 rvores e


considerando um nvel de signicncia de 5%;

minN um

rank

mdio para cada valor de

e a porcentagem do tempo mdio de execuo.

. . . . . . . . . . .

88

Sumrio
Lista de Figuras

vi

Lista de Tabelas

viii

Sumrio

Introduo

1.1

Motivao

1.2

Objetivo .

1.3

Organizao do Trabalho .

Conceitos Computacionais
2.1

Aprendizado de Mquina .

5
.

2.1.1

Conceitos Bsicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.1.2

rvores de Deciso

. . . . . . . . . . . . . . . . . . . . . . . . . . . .

11

2.1.3

Mtodos

Ensemble

. . . . . . . . . . . . . . . . . . . . . . . . . . . .

13

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

15

2.1.4
2.1.5
2.2

Bagging . . .
Random Trees

&

Random Forests

Consideraes Finais .

. . . . . . . . . . . . . . . . . . . .

16

18

Conceitos Biolgicos
3.1

19

Biologia Molecular - Conceitos Bsicos .

19

3.1.1

DNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

19

3.1.2

RNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

22

3.1.3

Expresso gnica

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .

24

3.1.4

Microarrays

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

30

3.2

Consideraes Finais .

33

5
6

Proposta Metodolgica

34

4.1

Trabalhos Relacionados

34

4.2

Proposta para construo de uma nica rvore.

36

4.3

Mtricas de Similaridade de rvores

41

4.4

Consideraes Finais .

43

Resultados & Discusso

46

5.1

Comparao das rvores .

49

5.2

Consideraes Finais .

50

Concluses

57

6.1

Principais resultados e publicaes .

58

6.2

Trabalhos Futuros .

58

Referncias Bibliogrcas

A
B

59

Bases de Dados

71

A.1

Bases de dados usadas para os experimentos realizados .

71

A.2

Bases de dados usadas para o Algoritmo 1

73

Experimentos Realizados

76

B.1

Mtricas de densidade .

76

B.2

Experimento 1

78

B.3

Experimento 2

85

Captulo

Introduo

sabido que uma combinao de opinies leva, na maior parte das vezes, a uma deciso
melhor do que uma deciso tomada por um nico indivduo. Por exemplo, em um ambiente
mdico, casos difceis so melhores solucionados por uma junta composta de vrios mdicos
(e assim, por vrias opinies) do que por um nico mdico.
Na rea de aprendizado de mquina isto tambm vlido, uma vez que esperado
que a combinao de classicadores apresente um desempenho melhor do que um nico
classicador (Witten & Frank 1999). Assim, h um grande interesse de pesquisa na rea
de aprendizado de mquina no que diz respeito a

ensembles

(Dietterich 2000; Kuncheva

2004)  mtodos que geram muitos classicadores e combinam os seus resultados. amplamente aceito que o desempenho de um conjunto de muitos classicadores fracos geralmente
melhor do que um nico classicador, dada a mesma quantidade de informao de treinamento (Sirikulviriya & Sinthupinyo 2011). Os mtodos
so

boosting

dom Forests

(Freund & Schapire 1996),

bagging

ensembles

amplamente conhecidos

(Breiman 1996), e mais recentemente

Ran-

(Breiman 2001; Liaw & Wiener 2002).

Random Forests

(Breiman 2001) um algoritmo

ensemble

proposto por Breiman que

MOTIVAO

constri muitas rvores de deciso as quais so utilizadas para classicar um novo exemplo.

Random Forest

apresenta um desempenho excelente em tarefas de classicao e possui

caractersticas que a tornam ideal para bases de expresso gnica (Daz-Uriarte & de Andrs
2006).
A anlise de dados de expresso gnica importante para a medicina e biologia uma vez
que auxilia no diagnstico de doenas, ajuda no entendimento da resposta de uma doena
uma droga, proporciona prognsticos precisos para pacientes especcos, entre outros (Klassen, Cummings & Saldaa 2008). Porm, bases de expresso gnica tipicamente possuem
muitos atributos e poucas amostras (exemplos) devido diculdade de coletar e processar
amostras, especialmente para dados obtidos a partir de humanos (Klassen, Cummings &
Saldaa 2008). Essa caracterstica diculta o processo de classicao, pois h muitos atributos irrelevantes e redundantes. Sistemas de aprendizado de mquina so adequados para
este problema, mas eles precisam lidar com altos nveis de rudo, uma vez que geralmente,
somente um pequeno nmero de genes relevante para um determinado problema (Nanni,
Brahnam & Lumini 2012).

1.1

Motivao

Atualmente,

Random Forest

um mtodo de aprendizado

ensemble

amplamente utili-

zado na literatura e reas aplicadas. Segundo (Daz-Uriarte & de Andrs 2006),

Forest

Random

apresenta uma srie de caractersticas que a tornam ideal para bases de dados de

expresso gnica: pode ser usada quando h muito mais atributos do que exemplos; pode ser
usada para problemas de duas classes ou problemas multi-classe; tem um bom desempenho
preditivo mesmo quando a maioria das variveis preditivas so rudos e, portanto, no necessita de uma pr-seleo de genes; no superajusta; pode lidar com uma mistura de atributos
nominais e numricos e h pouca necessidade de ajustar os parmetros para alcanar um
bom desempenho.
Porm, mesmo a

Random Forest apresentando um bom desempenho em altas dimenses,

ela de difcil compreenso para especialistas humanos. Em geral, mais fcil compreender
como uma nica rvore de deciso classica um novo exemplo do que um conjunto de rvores.
Neste sentido, o estudo realizado neste trabalho busca um aumento de compreensibilidade

OBJETIVO

a partir de uma

Random Forest, tentando manter

o bom desempenho da

Random Forest.

Todavia, deve-se ressaltar que segundo (Gamberger, Lavrac, Zelezny & Tolar 2004), classicadores mais simples, como o aqui proposto, podem apresentar uma qualidade preditiva
(desempenho) mais baixa do que classicadores mais complexos, como por exemplo

Random

Forest. Alm disso, de acordo com Tan, Steinbach & Kumar (2005) o uso de uma combinao
de classicadores aumenta a taxa de acerto se comparado a rvores de deciso obtidas por
abordagens mais simples; porm, perde-se uma estrutura facilmente interpretvel.

1.2

Objetivo

O objetivo geral do presente trabalho analisar se a gerao de uma nica rvore a partir
das rvores de uma

Random Forest

consegue manter um desempenho similar ao de uma

Random Forest, uma vez que sabido que a Random Forest apresenta um bom desempenho
em bases de dados de expresso gnica (Pang, Lin, Holford, Enerson, Lu, Lawton, Floyd &
Zhao 2006; Daz-Uriarte & de Andrs 2006). Com isso o trabalho aqui desenvolvido poder
facilitar a compreenso por parte dos especialistas humanos sobre o processo que classica
os exemplos no mundo real.
Os objetivos especcos so:

analisar se h um nmero timo de rvores em uma

Random Forest, ou seja, um limiar

a partir do qual o aumento do nmero de rvores no resulta em um ganho signicativo


do desempenho e somente aumenta o custo computacional;

analisar a frequncia que um atributo aparece no n raiz de uma


de descobrir se a

Random Forest

Random Forest a m

utiliza todos os atributos com uma frequncia igual

ou se h um subconjunto mais utilizado;

comparar o desempenho da criao de uma rvore, proposta neste trabalho, ao desempenho de outros algoritmos amplamente conhecidos como a

Random Forest, J48 e

Random Tree ;

comparar as rvores geradas por diferentes algoritmos a m de descobrir se suas estruturas (ns utilizados) so semelhantes ou no, por meio de medidas j existentes e
medidas que foram propostas neste estudo.

ORGANIZAO DO TRABALHO

1.3

Organizao do Trabalho

O presente trabalho est organizado da seguinte maneira: no Captulo 2 so apresentados alguns conceitos computacionais utilizados no desenvolvimento deste projeto, incluindo
aprendizado de mquina, mtodos

ensemble

Random Forest. Os conceitos biolgicos utili-

zados neste projeto, tais como expresso gnica e

microarray, so apresentados no Captulo 3.

A metodologia aqui proposta e a descrio de experimentos realizados encontram-se no Captulo 4. No Captulo 5 so discutidos os resultados obtidos e as concluses. No Apndice A so
descritas as bases de dados utilizadas no desenvolvimento deste trabalho. No Apndice B so
descritos alguns experimentos adicionais realizados, seus resultados e as concluses obtidas.

Captulo

Conceitos Computacionais
Neste captulo sero apresentados alguns conceitos computacionais utilizados no projeto,
como por exemplos conceitos sobre Aprendizado de Mquina, rvores de deciso e

Random

Forest.

2.1

Aprendizado de Mquina

Aprendizado de Mquina (AM) uma rea de Inteligncia Articial (IA) que visa o
desenvolvimento de tcnicas computacionais capazes de adquirir conhecimento de forma
automtica. Um sistema de aprendizado um algoritmo que toma decises baseado em
experincias acumuladas por meio da soluo bem sucedida de problemas anteriores (Weiss
& Kulikowski 1991).
Por exemplo, para classicar pacientes entre doente ou saudvel (com cncer ou no, por
exemplo), pode-se analisar o nvel de expresso gnica de cada caso, pois as vezes um gene
mais ou menos expresso do que o normal pode causar tal doena (cncer).
Aprendizado de Mquina permite obter concluses genricas sobre um conjunto particular de exemplos, sendo realizado a partir de raciocnio sobre exemplos fornecidos por um

APRENDIZADO DE MQUINA

processo externo ao sistema de aprendizado. O aprendizado de mquina pode ser dividido


em supervisionado, no-supervisionado e semissupervisionado (Monard & Baranauskas 2003;
Bruce 2001)
O foco deste estudo concentra-se no aprendizado supervisionado, aquele em que classe
associada conhecida (Mitchell 1997). Assim, o algoritmo de aprendizado aprende por meio
de um conjunto de entradas e sadas desejadas (classes associadas). Em geral, cada exemplo
descrito por um vetor de atributos e o rtulo da classe a qual este exemplo pertence.
Formalmente, no aprendizado supervisionado fornecida uma caracterstica do objeto a ser
alcanada, ou seja, o algoritmo recebe o valor da sada desejada para entrada apresentada.
Os sistemas de aprendizado podem ser divididos ainda em simblicos e no-simblicos (Michalski 1983; Kubat, Bratko & Michalski 1998). Os mtodos simblicos ou orientados a
conhecimento desenvolvem representaes simblicas do conhecimento, as quais so, geralmente, facilmente interpretadas por seres humanos. So exemplos de mtodos simblicos as
rvores de deciso e conjuntos de regras.
Os mtodos no-simblicos ou caixa-preta por sua vez, so caracterizados pelo desenvolvimento de representaes prprias do conhecimento, as quais, geralmente, no so facilmente
interpretadas por seres humanos. Como exemplos de mtodos no-simblicos, podemos citar
as Redes Neurais Articiais, K-NN e Naive Nayes.

2.1.1 Conceitos Bsicos


Nesta seo, sero apresentados alguns conceitos bsicos de Aprendizado de Mquina
utilizados durante o desenvolvimento deste projeto.

Classicador
Dado um conjunto de exemplos de treinamento, um indutor (ou algoritmo de aprendizado) gera como sada um

conceito) de

classicador

(tambm denominado

ou

descrio de

forma que, dado um novo exemplo, ele possa predizer precisamente sua classe.

Formalmente, em classicao, um exemplo um par

f (xi )

hiptese

(xi , f (xi ))

onde

xi

a entrada e

a sada. A tarefa de um indutor , dado um conjunto de exemplos, induzir uma

funo

h()

hiptese

que aproxima

f (),

normalmente desconhecida. Neste caso,

sobre a funo objetivo

f (),

ou seja,

h(xi ) f (xi ).

h()

chamada uma

APRENDIZADO DE MQUINA

Como pode ser observado, no aprendizado supervisionado todo exemplo


um atributo especial

yi ,

o rtulo ou

classe,

(xi , yi )

possui

que descreve o fenmeno de interesse, isto , a

meta que se deseja aprender e poder fazer previses a respeito. Um exemplo no-rotulado

xi

consiste do exemplo, exceto o rtulo, ou seja, um vetor de valores dos atributos. Os rtulos
so tipicamente pertencentes a um conjunto discreto (nominal) de classes
no caso de

classicao

ou de valores reais no caso de

regresso.

{C1 , C2 , . . . , Ck }

O foco deste estudo a

classicao.
Um

conjunto de exemplos

composto por exemplos contendo valores de atributos bem

como a classe associada. Na Tabela 2.1 mostrado o formato padro de um conjunto de


exemplos
(i

com

= 1, 2, . . . , n)

exemplo

n exemplos e a atributos. Nessa tabela, a linha i refere-se ao i-simo exemplo


e a entrada

xij

refere-se ao valor do

j -simo (j = 1, 2, . . . , a)

Xj

do

i.

Tabela 2.1:

X1

X2

Xa

z1
z2

x11
x21

x12
x22

x1a
x2a

y1
y2

.
.
.

.
.
.

.
.
.

..

.
.
.

.
.
.

zn

xn1

xn2

...

xna

yn

denotados por

(xi , yi ),

Conjunto de exemplos no formato atributo-valor

Como pode ser notado, exemplos so tuplas

zi = (xi1 , xi2 , . . . , xia , yi ) = (~xi , yi )

onde ca subentendido o fato que

xi

X 1 X2 . . . X a

yi

pertence a uma das

tambm

um vetor. A ltima coluna,

yi = f (xi ), a funo que tenta-se predizer a partir dos atributos. Cada xi


conjunto

atributo

classes, isto ,

um elemento do

yi {C1 , C2 , . . . , Ck }.

Medidas de desempenho
Em Aprendizado de Mquina, utilizam-se algumas medidas para avaliar o desempenho
do classicador. Dentre tais medidas, pode-se citar: taxa de erro, taxa de acerto e AUC.
A taxa de erro de um classicador
Equao 2.1, onde

denotada por err(h) e obtida por meio da

n o nmero de exemplos, yi

a classe dada pelo classicador

a classe verdadeira do exemplo

h para o exemplo i. Essa medida compara a classe verdadeira

de cada exemplo com a classe atribuda pelo classicador


ou seja, se

yi = h(xi ),

ento

i e h(xi )

||yi 6= h(xi )|| = 1;

h.

Se as duas classes forem iguais,

caso contrrio,

||yi 6= h(xi )|| = 0.

APRENDIZADO DE MQUINA

err(h) =

1X
||yi 6= h(xi )||
n i=1

(2.1)

A preciso ou taxa de acerto denotada por acc(h) e corresponde ao complemento da


taxa de erro, conforme mostrado na Equao 2.2.

acc(h) = 1 err(h)

(2.2)

As taxas de erro e acerto tambm podem ser obtidas por meio de uma matriz de confuso. A matriz de confuso uma matriz cuja dimenso corresponde ao nmero de classes
existentes em um determinado conjunto de exemplos. A sua diagonal principal corresponde
ao nmero de acertos de cada classe e os elementos fora da diagonal principal correspondem
ao nmero de erros. Na Tabela 2.2 mostrado um exemplo de uma matriz de confuso referente a um conjunto de exemplos com duas classes geralmente denominadas como positiva
e negativa.
Nesta tabela, verdadeiros positivos corresponde ao exemplo que positivo e foi classicado como positivo; falsos positivos so os exemplos negativos que foram classicados
como positivos; verdadeiros negativos so os exemplos negativos e que foram classicados
como negativos; e falsos negativos so os exemplos positivos que foram classicados como
negativos.
A partir da matriz de confuso, pode-se ento obter a taxa de erro e a taxa de acerto,
representadas pelas Equaes 2.3 e 2.4, respectivamente.

err(h) =

FN + FP
V P + FN + FP + V N

(2.3)

acc(h) =

VP +VN
V P + FN + FP + V N

(2.4)

area under the ROC curve ),

Outra medida de desempenho, AUC (


da gerao de um grco de sensibilidade

versus

obtida por meio

(1-especicidade), conhecido como curva

receiver operating characteristic ) e calculando a rea embaixo da curva (Hand & Till

ROC (

2001). A sensibilidade da classicao a razo entre os verdadeiros positivos e o total de

APRENDIZADO DE MQUINA

Tabela 2.2:

Exemplo de uma matriz de confuso

Predio Positiva

Predio Negativa

Classe Positiva

Verdadeiro Positivo (VP)

Falso Negativo (FN)

Classe Negativa

Falso Positivo (FP)

Verdadeiro Negativo (VN)

exemplos positivos, conforme mostrado na Equao 2.5. A especicidade da classicao


a razo entre os verdadeiros negativos e o total de exemplos negativos, conforme mostrado
na Equao 2.6.

sensibilidade =

especif icidade =

VP
V P + FN

VN
FP + V N

(2.5)

(2.6)

Na Figura 2.1 ilustrado um exemplo de curva ROC. Nesta gura, h um nico ponto
P(0,4 , 0,8) e a curva ROC desse ponto uma curva que tem incio no ponto (0,0), passa
pelo ponto P e atinge o ponto (1,1). Para calcular um valor AUC aproximado dessa curva,
pode-se transformar essa curva em linhas retas, obtendo um grco semelhante ao ilustrado
na Figura 2.2. Assim, o valor AUC aproximado pode ser calculado por meio da rea do
trapzio somado rea do tringulo. Dessa forma, o valor AUC aproximado do ponto P
seria:

AU C =

(1 + 0, 8) 0, 6 0, 4 0, 8
+
= 0, 54 + 0, 16 = 0, 7
2
2

(2.7)

Quanto maior o valor de AUC, melhor o desempenho do classicador. Os valores de


AUC variam em um intervalo

[0, 1].

interessante ressaltar que AUC e preciso nem sempre representam a mesma correlao,
ou seja, um alto valor de AUC nem sempre implica em uma alta preciso (Huang & Ling
2005). Por exemplo, considerando um conjunto de exemplos com 10 exemplos positivos e 90
negativos, suponha-se que dois classicadores (A e B) erraram as classes de 8 exemplos, ou
seja, a preciso dos dois classicadores ser 92%. Entretanto, considerando-se que os 8 erros

APRENDIZADO DE MQUINA

Figura 2.1:

Exemplo de curva ROC

Figura 2.2:

10

Clculo aproximado da medida AUC

do classicador A esto entre os exemplos negativos, a taxa de falsos positivos 9% e a taxa


de falsos negativos 0%. Supondo-se agora que os 8 erros do classicador B esto entre os
exemplos positivos, a taxa de falsos positivos ser de 0% mas a taxa de falsos negativos ser
de 80%. Nas Tabelas 2.3 e 2.4, so apresentadas as matrizes de confuso dos classicadores A
e B, respectivamente. Com base nesses valores, possvel calcular os valores de sensibilidade
e especicidade de cada classicador. Assim, o classicador A possui valor de sensibilidade
igual a 1 e especicidade igual a 0,9. J o classicador B possui sensibilidade igual a 0,2 e
especicidade igual a 1. Sendo assim, os dois classicadores possuem diferentes curvas ROC
e, consequentemente, diferentes reas AUC (conforme ilustrado nas Figuras 2.3 e 2.4).
Segundo (Ling, Huang & Zhang 2003) o AUC deveria substituir a preciso (ou taxa
de erro, uma vez que esta igual a (1 preciso)) na comparao de classicadores pois
mostrou-se uma medida melhor em extensas comparaes experimentais.

Validao Cruzada
Validao cruzada (r

-fold cross validation)

um mtodo de amostragem utilizado para

anlise de desempenho que consiste em dividir aleatoriamente os exemplos em


mutuamente exclusivas (

e a hiptese induzida testada no

folds

parties

folds ) de tamanho aproximadamente igual a n/r exemplos, sendo n

o nmero total de exemplos. Os exemplos nos

que todos os

fold

r 1 folds

so ento usados para treinamento

restante. Tal processo repetido

vezes, de modo

sejam usados uma vez como conjunto de teste, conforme ilustrado na

Figura 2.5. Nesta gura, foi utilizado

igual a 5.

APRENDIZADO DE MQUINA

Tabela 2.3:

Matriz de confuso do classicador A


Predio Positiva

Predio Negativa

Classe Positiva

10 (VP)

0 (FN)

Classe Negativa

8 (FP)

82 (VN)

Tabela 2.4:

11

Matriz de confuso do classicador B


Predio Positiva

Predio Negativa

Classe Positiva

2 (VP)

8 (FN)

Classe Negativa

0 (FP)

90 (VN)

Figura 2.3: Curva ROC e rea AUC do


classicador A

Curva ROC e rea AUC do


classicador B
Figura 2.4:

A seguir, sero apresentados alguns algoritmos e estratgias de AM utilizados no desenvolvimento do presente projeto: rvores de Deciso,

Bagging, Random Forest

Random

Tree.

2.1.2 rvores de Deciso


rvores de Deciso pertencem a famlia de algoritmos de AM indutivo

duction of Decision Trees.

Top Down In-

Uma rvore de deciso utiliza uma estratgia de dividir-para-

conquistar, decompondo um problema maior em sub-problemas mais simples, de forma recursiva. A construo de uma rvore de deciso baseia-se na escolha de um atributo que
servir para particionar os exemplos em subconjuntos correspondentes a cada valor do atri-

APRENDIZADO DE MQUINA

Figura 2.5:

12

Validao cruzada utilizando 5 folds

buto. Passa-se ento os exemplos para os subconjuntos de acordo com o valor do atributo
escolhido e para cada subconjunto, observa-se se todos os exemplos pertencem a uma mesma
classe. Se isso ocorrer, associa-se essa classe um n folha contendo todos os exemplos desse
subconjunto. Caso contrrio, escolhido um novo atributo para particionar os exemplos e
o processo repetido at que haja uma homogeneidade das classes dos exemplos de um determinado subconjunto. Porm, uma rvore pode crescer muito, tornando-se especca para
uma determinada base de dados e causando assim um
Poda uma tcnica que evita o problema de

overtting

overtting

(super-ajuste).

por meio da gerao de uma

hiptese mais genrica a partir do conjunto de treinamento. Como consequncia da poda,


as folhas no necessariamente contero exemplos de uma nica classe e, assim, a poda pode
causar a classicao incorreta de exemplos de treinamento. H basicamente dois mtodos
de poda (Baranauskas 2001):

1. pr-poda: durante a gerao da hiptese, alguns exemplos de treinamento so delibe-

13

APRENDIZADO DE MQUINA

radamente ignorados, de forma que a hiptese nal no classique todos os exemplos


de treinamento corretamente;

2. ps-poda: inicialmente, uma hiptese que explica os exemplos de treinamento gerada.


Aps isso, a hiptese generalizada por meio da eliminao de algumas partes, tais
como o corte de alguns ramos em uma rvore de deciso.

Uma rvore de deciso pode ser usada para classicar novos exemplos. Assim, quando desejase classicar um novo exemplo, percorre-se a rvore a partir da raiz e desvia-se em cada n de
deciso, segundo o atributo correspondente at que se atinja um n folha e, ento, associa-se
a esse novo exemplo a classe correspondente a esse n folha.
Na Figura 2.6 ilustada a estrutura da rvore de deciso do exemplo para classicar o
diagnstico de um novo paciente em saudvel ou doente. Comeando pela raiz da rvore,
o primeiro gene selecionado foi `Gene 36'. Se nvel de expresso do `Gene 36'

362,

ento

segue-se pelo ramo da esquerda da rvore, o que leva a outro gene, `Gene 103'. Se o nvel de
expresso do `Gene 103'

116,

nvel de expresso do `Gene 9'

segue-se pelo ramo da esquerda levando ao `Gene 9'. Se o

53

segue-se pelo ramo da esquerda atingindo um n folha

com a classe Saudvel associada a ele. Caso o nvel de expresso do `Gene 9'

> 53

ento

segue-se pelo ramo da direita chegando no diagnstico Doente. O processo repetido at que
um n folha tenha sido alcanado. A classe associada ao n folha alcanado aps percorrer
a rvore (saudvel ou doente) ser a classe (o diagnstico) associado ao novo paciente.
rvores de Deciso podem fornecer outras medidas comparativas alm das citadas na Seo 2.1.1. Uma delas o tamanho da rvore, ou seja, o nmero total de ns (incluindo os ns
folhas) que essa rvore possui. Por exemplo, o tamanho da rvore apresentada na Figura 2.6
9, pois ela possui quatro ns (correspondendo a quatro genes diferentes) e cinco ns folhas (correspondendo s duas classes do problema). Medidas adicionais so apresentadas na
Seo 4.3.

2.1.3 Mtodos Ensemble


Mtodos

ensemble

so algoritmos de aprendizado que constroem um conjunto de clas-

sicadores e combinam seus votos para classicar um novo exemplo (Dietterich 2000). O
voto corresponde classe fornecida por cada um dos classicadores para esse novo exem-

APRENDIZADO DE MQUINA

Figura 2.6:

plo. Os mtodos

bagging

ensembles

(Breiman 1996) e

O mtodo

boosting

14

Estrutura de uma rvore de deciso

amplamente conhecidos so

Random Forests

boosting

(Freund & Schapire 1996),

(Breiman 2001; Liaw & Wiener 2002).

cria diferentes classicadores base reponderando sequencialmente os

exemplos no conjunto de treinamento. No incio, todos os exemplos so inicializados com


pesos iguais. Cada exemplo classicado erroneamente pelo classicador anterior recebe um
peso maior na prxima iterao do treinamento, a m de tentar classic-lo corretamente.
O erro computado, o peso dos exemplos classicados corretamente reduzido e o peso dos
exemplos classicados incorretamente aumentado. O voto de cada classicador individual
ponderado proporcionalmente ao seu desempenho (Wang, Hao, Ma & Jiang 2011).
No mtodo

bagging (bootstrap aggregation), diferentes subconjuntos de treinamento so

formados aleatoriamente com reposio a partir do conjunto de treinamento completo. Cada


subconjunto de treinamento usado como entrada para os classicadores base. Todos os
classicadores extrados so combinados usando um voto majoritrio. Enquanto o
pode gerar classicadores em paralelo,

Random Forests

outro mtodo

boosting

bagging

os gera sequencialmente.

ensemble, o qual constri muitas rvores de deciso que

sero usadas para classicar um novo exemplo por meio do voto majoritrio. Cada rvore de

APRENDIZADO DE MQUINA

15

deciso usa um subconjunto de atributos selecionados aleatoriamente a partir do conjunto


original, contendo todos os atributos. Alm disso, cada rvore usa uma amostra
diferente da base de dados da mesma maneira que o
Geralmente,

bagging

bootstrap

bagging.

mais preciso do que um nico classicador, porm as vezes ele

muito menos preciso do que o

boosting.

Por outro lado, o

boosting

pode criar

ensembles

menos precisos do que um nico classicador. Alm disso, em algumas situaes, o


pode super-ajustar base de dados ruidosas, diminuindo seu desempenho.
por outro lado, so mais robustas do que

bagging

boosting ;

boosting

boosting

Random Forests,

com relao a rudo; mais rpido do que

seu desempenho to bom quanto

boosting

e as vezes melhor e no

Bagging

uma vez que a

super-ajusta (Breiman 2001).


Neste estudo, h um interesse especial pelo mtodo

Forest

Random

utiliza este mtodo para criar as rvores de uma oresta. Dessa forma, o mtodo

Bagging ser detalhado na seo seguinte.

2.1.4 Bagging
O mtodo

Bagging

(Breiman 1996) um dos algoritmos de aprendizado

antigos. Ele usa amostras

bootstrap

ensemble

mais

do conjunto de treinamento (Efron 1979). Amostragem

bootstrap uma tcnica de amostragem com reposio: a partir do conjunto de treinamento


inicial, so selecionados aleatoriamente exemplos para um novo subconjunto de treinamento.

Bagging

Assim, no mtodo

diferentes subconjuntos so aleatoriamente construdos, com

reposio, a partir do conjunto original. Devido reposio, alguns exemplos podem ser
escolhidos mais de uma vez e outros podem no ser escolhidos. A amostragem
mais comumente utilizada a

E0 ,

bootstrap

explicada a seguir.

Cada subconjunto gerado possui o mesmo tamanho (nmero de exemplos) do conjunto


original. Considerando um conjunto de treinamento

bootstrap

do conjunto de treinamento a partir de

Cada subconjunto

Tk

com

exemplos,

Tk

uma amostra

com reposio, contendo

usado para treinar um classicador diferente

{hk (x)}.

exemplos.

A estratgia

de combinao dos classicadores o voto majoritrio.


Para uma dada amostra
bilidade

1 (1 n1 )n

Tk ,

um exemplo do conjunto de treinamento

de ser selecionado pelo menos uma vez entre os

tem uma proba-

n exemplos selecionados

16

APRENDIZADO DE MQUINA

aleatoriamente. Para um valor grande de


que signica que cada amostra

bootstrap

n,

isto aproximadamente

1 1/e 63, 2%,

contm, em mdia, somente cerca de 63,2% dos

T,

exemplos do conjunto de treinamento original

com muitos exemplos de treinamento apa-

recendo mltiplas vezes (Bauer & Kohavi 1999; Dietterich 2000). Os exemplos que no foram
selecionados na amostra

Tk

formam o conjunto

out-of-bag, ou seja, so os exemplos que no

foram utilizados para o treino na construo do classicador


Assim, a avaliao
namento especco
sicadores

{hk (x)}

T,

out-of-bag

hk .

funciona da seguinte maneira: dado um conjunto de trei-

geram-se conjuntos de treinamento

bootstrap Tk ,

e os deixam votarem para criar o classicador

constroem-se clas-

bagged.

Para cada

(x, y)

no conjunto de treinamento, agregam-se os votos somente sobre os classicadores para os


quais

Tk

no contm

(x, y).

Este o estimador

out-of-bag, que fornece uma estimativa para

o erro de generalizao (Breiman 2001).


Na Figura 2.7 so ilustrados os mtodos

Bagging (a)

Random Forest(b),

o qual ser

explicado na Seo 2.1.5 juntamente com a diferena entre ambos (parte tracejada).
Segundo (Acuna & Rojas 2001; Breiman 1996; Freund & Schapire 1996),

Bagging muito

ecaz quando os classicadores utilizados possuem um comportamento instvel (como por


exemplo, as rvores de deciso). Um classicador conhecido como instvel quando pequenas mudanas no conjunto de treinamento podem causar grandes mudanas no classicador
gerado. Nestes casos, um nico classicador instvel no capaz de oferecer uma resposta
convel ao contrrio de um conjunto de classicadores, uma vez que um classicador composto pode ter maior chance de acerto (Lopes 2007).

2.1.5 Random Trees & Random Forests


Considerando um conjunto de treinamento
amostra

bootstrap

exemplos e usando

Random Tree
possveis, usando

com

a atributos e n exemplos, seja Tk

do conjunto de treinamento a partir de

atributos aleatrios (m

a)

uma

com reposio, contendo

em cada n das rvores.

uma rvore induzida aleatoriamente a partir de um conjunto de rvores

m atributos aleatrios em cada n. O termo aleatoriamente

cada rvore tem uma chance igual de ser amostrada.

Random Trees

ecientemente e a combinao de grandes conjuntos de

signica que

podem ser geradas

Random Trees

geralmente leva a

APRENDIZADO DE MQUINA

(a)
Figura 2.7:

17

(b)

Funcionamento dos mtodos Bagging (a) e Random Forest (b)

modelos precisos (Zhao & Zhang 2008; Dubath, Rimoldini, Sveges, Blomme, Lpez, Sarro,
De Ridder, Cuypers, Guy, Lecoeur, Nienartowicz, Jan, Beck, Mowlavi, De Cat, Lebzelter &
Eyer 2011).

Random Forest

denido formalmente como segue (Breiman 2001): um classicador

composto por uma coleo de rvores

{hk (x)}, k = 1, 2, . . . , L,

onde

Tk

so amostras alea-

trias independentes e identicamente distribudas e cada rvore vota na classe mais popular
para a entrada

x.

Como j foi mencionado,

Random Forests

aplicam o mesmo mtodo que o

produzir amostras aleatrias de conjuntos de treinamento (amostras

Random Tree.

bagging

bootstraps )

para

para cada

Cada novo conjunto de treinamento construdo, com reposio, a partir

do conjunto de treinamento original. A rvore construda usando este novo subconjunto


e uma seleo aleatria de atributos. A cada n da rvore, um subconjunto de

atributos

selecionado aleatoriamente e avaliado. O melhor atributo , ento, escolhido para dividir


o n. O valor

xado para todos os ns. As rvores crescem sem poda. Na Figura 2.7

(b) ilustrado o funcionamento de uma

Random Forest

que diferencia do funcionamento

CONSIDERAES FINAIS

do

bagging

na parte tracejada da gura, uma vez que na

construdas selecionando aleatoriamente


acontece no

bagging

em que todos os

bagging

bagging

as rvores so

atributos em cada n das rvores, o que no

atributos so usados.

Breiman (2001) justica o uso do mtodo


o uso do

Random Forest

18

bagging

em

Random Forests

por duas razes:

parece melhorar o desempenho quando atributos aleatrios so usados;

pode ser usado para fornecer estimativas contnuas do erro de generalizao do

conjunto combinado de rvores, assim como estimativas para fora e correlao, usando o
estimador

out-of-bag.

O erro de classicao da oresta depende da fora das rvores individuais da oresta


e da correlao entre quaisquer duas rvores na oresta (Breiman 2001; Breiman & Cutler
2004; Breiman 2004; Ma, Guo & Cukic 2007), a saber:

Correlao entre as rvores da oresta: duas medidas de aleatoriedade (uso do

bagging

e seleo aleatria de atributos) fazem com que as rvores sejam diferentes e, portanto,
diminui a correlao entre elas. A baixa correlao tende a diminuir a taxa do erro de
classicao.

Fora da rvore individual na oresta: pode ser interpretada como uma medida de
desempenho para cada rvore. Uma rvore com uma taxa de erro baixa um classicador forte. Assim, aumentando a fora das rvores individuais, reduz-se a taxa de
erro da oresta.

2.2

Consideraes Finais

Neste captulo foram apresentados alguns conceitos utilizados durante o desenvolvimento


deste projeto de mestrado, como por exemplo, aprendizado de mquina,
rvores de Deciso. Foi descrito como uma

Random Forest

Random Forest funciona e como ela construda.

No captulo seguinte so apresentados conceitos de biologia envolvendo expresso gnica.

Captulo

Conceitos Biolgicos
Neste captulo sero apresentados alguns conceitos biolgicos utilizados no projeto, como
expresso gnica e

3.1

microarrays.

Biologia Molecular - Conceitos Bsicos

Durante o desenvolvimento do presente trabalho, foram utilizados dados de expresso


gnica obtidos por meio da tcnica conhecida como

microarray. Assim, esta seo traz alguns

conceitos importantes para o entendimento de tal tcnica.

3.1.1 DNA
Uma molcula de DNA (cido desoxirribonucleico) consiste em duas longas tas antiparalelas entrelaadas em forma de dupla hlice, compostas por uma sequncia de nucleotdeos. Os nucleotdeos so compostos de acares pentoses (com cinco carbonos), um ou
mais grupos fosfatos ligados aos carbonos e uma base contendo nitrognio. O acar dos
nucleotdeos de DNA uma desoxirribose (Figura 3.1) ligada a um grupo fosfato e a base
nitrogenada pode ser adenina, citosina, guanina ou timina (Alberts, Johnson, Lewis, Ra,

19

BIOLOGIA MOLECULAR - CONCEITOS BSICOS

Figura 3.1:

20

Desoxirribose. Adaptado de (Alberts, Johnson, Lewis, Ra, Roberts & Walter 2010)

Roberts & Walter 2010), conforme ilustrado na Figura 3.2. Para simplicar a nomenclatura
dos nucleotdeos utilizada a abreviao da base nitrogenada que o identica, ou seja, nucleotdeos com a base nitrogenada adenina so abreviados pela letra (A), citosina (C), guanina
(G) e timina (T). As bases nitrogenadas podem ser de dois tipos: purinas, com um anel
duplo (adenina e guanina) e pirimidinas, com um anel simples (citosina e timina) (Klug,
Cummings, Palladino & Spencer 2010), conforme ilustrado na Figura 3.3.
As bases dos nucleotdeos mantm as duas tas de DNA unidas por meio de pontes de
hidrognio entre elas. Segundo o modelo de Watson-Crick (Watson & Crick 1953), a base
(A) pareia somente com a base (T) e a base (C) pareia somente com a base (G). A adenina
forma duas pontes de hidrognio com a timina e a guanina forma trs pontes de hidrognio
com a citosina. Esse pareamento especco das bases A = T e G

C resulta em uma com-

plementariedade das bases, ou seja, as tas de DNA so complementares (Klug, Cummings,


Palladino & Spencer 2010). Assim, ao saber a sequncia de uma das tas, automaticamente,
sabe-se a sequncia da sua ta complementar.
A ta de DNA possui uma polaridade indicada por uma extremidade 3' e por uma
extremidade 5'. Na extremidade 3' h um grupo hidroxil livre ligado ao carbono nmero 3
da pentose e na extremidade 5' h um fosfato livre ligado ao carbono nmero 5 da pentose.
A unio dos nucleotdeos feita por meio de uma ligao fosfodister entre a extremidade
3' de um nucleotdeo e a extremidade 5' de outro (Klug, Cummings, Palladino & Spencer
2010) (Figura 3.4). Assim, o termo anti-paralelas signica que enquanto uma ta corre no
sentido 5' para 3', a outra ta vai no sentido 3' para 5'. Uma estrutura de DNA, ilustrando
todas as caractersticas citadas anteriormente, mostrada na Figura 3.5.
Uma sequncia de nucleotdeos no DNA armazena a informao gentica. Os segmentos
de DNA que contm a informao gentica so denominados genes. A srie completa de

BIOLOGIA MOLECULAR - CONCEITOS BSICOS

21

Figura 3.2:

Nucleotdeo de DNA. Adaptado de (Alberts, Johnson, Lewis, Ra, Roberts & Walter

Figura 3.3:

Bases nitrogenadas do DNA. Adaptado de (Klug, Cummings, Palladino & Spencer

2010)

2010)

Figura 3.4:

Ligao fosfodister. Adaptado de (Klug, Cummings, Palladino & Spencer 2010)

BIOLOGIA MOLECULAR - CONCEITOS BSICOS

Figura 3.5:

2010)

22

Estrutura de DNA. Adaptado de (Alberts, Johnson, Lewis, Ra, Roberts & Walter

informaes genticas contidas no DNA denominada genoma. O genoma contm informaes para todas as protenas e molculas de RNA que o organismo ir sintetizar (Alberts,
Johnson, Lewis, Ra, Roberts & Walter 2010). As protenas possuem diversas funes biolgicas (Lewis 2001), entre elas pode-se citar a funo estrutural e a funo regulatria.
O uxo da informao gentica ocorre da seguinte maneira: a partir do DNA formado o
RNA (processo denominado transcrio) e o RNA utilizado como molde para a sntese de
protenas (processo denominado traduo). Este princpio (DNA

RNA protena) co-

nhecido como dogma central da biologia molecular (Alberts, Johnson, Lewis, Ra, Roberts
& Walter 2010; Klug, Cummings, Palladino & Spencer 2010).

3.1.2 RNA
A molcula de RNA (cido ribonucleico) tambm composta por uma sequncia de
nucleotdeos unidos entre si por meio de ligaes fosfodister. Porm, o RNA possui algumas
diferenas do DNA (Alberts, Johnson, Lewis, Ra, Roberts & Walter 2010; Klug, Cummings,
Palladino & Spencer 2010):

o acar dos nucleotdeos do RNA ribose em vez de desoxirribose, conforme ilustrado


na Figura 3.6;

as bases nitrogenadas do RNA podem ser adenina (A), guanina (G) e citosina (C),
assim como no DNA, porm o RNA contm a base uracila (U), em vez da timina (T).
A estrutura da base uracila apresentada na Figura 3.7. Nesse caso, a base adenina

BIOLOGIA MOLECULAR - CONCEITOS BSICOS

Figura 3.6:

Figura 3.7:

23

Ribose. Adaptado de (Alberts, Johnson, Lewis, Ra, Roberts & Walter 2010)

Base nitrogenada Uracila. Adaptado de (Klug, Cummings, Palladino & Spencer 2010)

pareia com a base uracila e a base guanina pareia com a base citosina (assim como no
DNA);

a estrutura do RNA uma ta simples;

Existem trs classes principais de RNA: RNA mensageiro (mRNA), RNA transportador
(tRNA) e RNA ribossmico (rRNA). O mRNA uma molcula de ta simples, produzida
a partir de um lamento molde de DNA, em um processo conhecido como transcrio. O
mRNA tem como funo transmitir a informao gentica do ncleo para o citoplasma, pois
os genes esto localizados no ncleo celular e os ribossomos (responsveis pela sntese de
protenas) localizam-se no citoplasma. A sequncia de um mRNA lida em grupos de trs
nucleotdeos por vez. Cada uma dessas trincas de nucleotdeos (denominadas cdons) codicam um nico aminocido (subunidade que forma as protenas). Diversos cdons codicam
um mesmo aminocido, conforme mostrado na Tabela 3.1.
O tRNA uma molcula que carrega os aminocidos para o ribossomo durante a traduo. Cada tRNA liga-se em uma extremidade a um aminocido especco, possuindo em sua
outra extremidade uma sequncia de trs nucleotdeos denominada anticdon. O anticdon,
por meio do pareamento de bases, habilita o tRNA a reconhecer um cdon (ou um grupo

BIOLOGIA MOLECULAR - CONCEITOS BSICOS

Tabela 3.1:

codicam

24

Os 20 aminocidos com seus respectivos smbolos, abreviaturas e os cdons que os

Smbolo

Abreviao

Cdons

Ala

GCU, GCG, GCC, GCA

Arg

CGU, CGG, CGC, CGA , AGG, AGA

Asp

GAU, GAC

Asn

AAU, AAC

Cys

UGU, UGC

Glu

GAG, GAA

Gln

CAG, CAA

Gly

GGU, GGG, GGC, GGA

His

CAU, CAA

Ile

AUU, AUC, AUA

Leu

CUU, CUG, CUC, CUA, UUG, UUA

Lys

AAG, AAA

Met

AUG

Phe

UUU, UUC

Pro

CCU, CCG, CCC, CCA

Ser

UCU, UCG, UCC, UCA, AGU, AGC

Thr

ACU, ACG, ACC, ACA

Trp

UGG

Tyr

UAU, UAC

Val

GUU, GUG, GUC, GUA

de cdons) no mRNA, conforme ilustrado na Figura 3.8.


O rRNA juntamente com as protenas ribossomais (mais de 50 protenas diferentes)
formam os ribossomos. O ribossomo agarra-se poro terminal de um mRNA e desloca-se
ao longo desse mRNA capturando molculas de tRNA, formando assim uma nova cadeia de
protena por meio da ligao dos aminocidos transportados pelos tRNAs (Alberts, Johnson,
Lewis, Ra, Roberts & Walter 2010). Os ribossomos so formados por duas subunidades
de tamanhos diferentes, conhecidas como subunidades maior e menor. Estas subunidades
interligam-se para sintetizar as protenas e possuem papel fundamental nos sinais de incio
da traduo.

3.1.3 Expresso gnica


Expresso gnica o processo pelo qual as sequncias de nucleotdeos dos genes so
interpretados em aminocidos e, assim, em protenas. Tal processo ilustrado na Figura 3.9.

BIOLOGIA MOLECULAR - CONCEITOS BSICOS

25

Molcula de tRNA ligada um cdon no mRNA. Adaptado de (Alberts, Johnson,


Lewis, Ra, Roberts & Walter 2010)

Figura 3.8:

A expresso gnica composta por duas etapas: transcrio e traduo.


A transcrio (primeiro passo da expresso gnica) o processo no qual um RNA
formado a partir de uma ta-molde de DNA. Esse processo pode ser subdividido em trs
fases: iniciao, alongamento e trmino (Klug, Cummings, Palladino & Spencer 2010).
O DNA possui uma regio denominada promotora. Essa regio uma sequncia especial
de nucleotdeos que indica o incio para a sntece de RNA. Esta regio reconhecida pela
RNA-polimerase e outras molculas utilizadas na transcrio, denominadas fatores gerais de
transcrio. A RNA-polimerase a enzima que realiza a transcrio, por meio da catalisao
da formao de ligaes fosfodister que conectam os nucleotdeos formando assim uma
molcula de RNA. A RNA-polimerase move-se sobre o DNA, abrindo a dupla hlice e, assim,
expondo uma nova regio da ta-molde para o pareamento de bases por complementariedade.
A molcula de RNA estendida na direo 5' para 3'. Os fatores gerais de transcrio so
protenas que ajudam a posicionar corretamente a RNA-polimerase sobre o promotor. Sem
estes fatores, a RNA-polimerase no consegue ligar-se diretamente aos stios promotores
e iniciar a transcrio. Alm disso, esses fatores auxiliam na separao das duas tas de
DNA para que a transcrio inicie e liberam a RNA-polimerase do promotor, uma vez que
a transcrio tenha iniciado.

BIOLOGIA MOLECULAR - CONCEITOS BSICOS

Figura 3.9:

26

Expresso gnica. Adaptado de (Alberts, Johnson, Lewis, Ra, Roberts & Walter 2010)

Os ncleos eucariticos possuem trs tipos de RNA-polimerases: RNA-polimerase I,


RNA-polimerase II e RNA-polimerase III. Os trs tipos so estruturalmente similares, porm
transcrevem direntes tipos de genes. As RNA-polimerases I e III transcrevem os genes que
codicam tRNA, rRNA e diversos pequenos RNAs. J a RNA-polimerase II transcreve a
grande maioria dos genes, inclusive os que codicam mRNA e consequentemente, as protenas. Sendo assim, ser utilizada a RNA-polimerase II para explicar o conceito de expresso
gnica.
A iniciao ocorre quando a RNA-polimerase II e os fatores gerais de transcrio reconhecem e ligam-se regio promotor para formar um complexo de iniciao de transcrio.
Aps a formao deste complexo sobre o DNA, a RNA-polimerase dever ter acesso tamolde no ponto inicial da transcrio. Ento, um dos fatores de transcrio responsvel
pela abertura do DNA e assim, pela exposio da ta molde. A RNA-polimerase mantmse no promotor at sofrer uma srie de alteraes estruturais que permitem sua sada do
promotor e a entrada na fase de extenso (alongamento) da transcrio (Alberts, Johnson,
Lewis, Ra, Roberts & Walter 2010).
Aps isso, comea a etapa de alongamento e desenrolamento da dupla hlice. A RNA-

BIOLOGIA MOLECULAR - CONCEITOS BSICOS

27

polimerase desliza ao longo da molcula de DNA, separando por um momento as duas tas,
onde uma delas servir de molde para a formao da molcula de mRNA correspondente.
Aps a transcrio, a molcula de DNA volta ao seu estado original, ou seja, a dupla hlice.
Por m, o processo termina quando a RNA polimerase II reconhece uma sequncia de
terminao especca no DNA.
Em clulas eucariticas, o RNA transcrito chamado de pr-mRNA ou RNA transcrito
primrio. Tal transcrito passa por um processamento constitudo de trs etapas:

Capeamento na extremidade 5': ocorre a adio de uma estrutura (

cap

5'). O

cap

adicionado antes mesmo que o transcrito primrio esteja completo, ou seja, assim que a
RNA-polimerase II produziu aproximadamente 25 nucleotdeos de RNA, a extremidade
5' da nova molcula de RNA modicada pela adio do

cap. Este cap ajuda a clula

a distinguir os mRNAs dos outros tipos de molculas de RNA, como por exemplo,
as molculas produzidas pelas RNA-polimerases I e III. Alm disso, este capeamento
ajuda o RNA a ser adequadamente processado e exportado (Alberts, Johnson, Lewis,
Ra, Roberts & Walter 2010);

Poliadenilao na extremidade 3': a extremidade 3' do transcrito primrio clivada


enzimaticamente e ento, ocorre a poliadenilao por adio de uma cauda de poli-A
(aproximadamente 200 nucleotdeos A) (Klug, Cummings, Palladino & Spencer 2010;
Alberts, Johnson, Lewis, Ra, Roberts & Walter 2010). Na ausncia dessa cauda,
os transcritos de RNA so rapidamente degradados (Klug, Cummings, Palladino &
Spencer 2010);

Splicing : remoo dos ntrons (sequncias no codicantes) e unio dos xons (sequncias codicantes), conforme ilustrado na Figura 3.10. Uma vantagem do

splicing

que ele permite que um mesmo gene produza um grupo de diferentes protenas. Isso
acontece devido s diferentes maneiras de

splicing

que os transcritos de muitos genes

sofrem.

Somente aps ter ocorrido o

splicing

e processamento das extremidades 5' e 3', o pr-

mRNA ser denominado mRNA (Alberts, Johnson, Lewis, Ra, Roberts & Walter 2010).

BIOLOGIA MOLECULAR - CONCEITOS BSICOS

Figura 3.10: Splicing

2010)

28

do RNA. Adaptado de (Alberts, Johnson, Lewis, Ra, Roberts & Walter

Aps o processamento, o mRNA torna-se maduro e , ento, transportado para o citoplasma,


para que ocorra a traduo.
Na traduo, realizada a sntese de protena a partir de um mRNA, em associao aos
ribossomos. No processo de traduo, so utilizados os tRNAs, os quais servem de molcula
adaptadora entre um cdon de mRNA e o aminocido correspondente. Assim, a sequncia
de nucleotdeos do mRNA lida de uma extremidade outra de trs em trs nucleotdeos.
O processo de traduo, assim como o processo de transcrio, pode ser dividido em trs
fases: iniciao, alongamento e terminao (Klug, Cummings, Palladino & Spencer 2010). O
incio da traduo ocorre quando uma subunidade ribossomal menor se liga a uma molcula
de mRNA em um cdon de iniciao (AUG), o qual reconhecido por um tRNA especial
(tRNA iniciador) que sempre carrega o aminocido metionina. Uma subunidade ribossomal
maior se liga para completar o ribossomo e iniciar a sntese proteica. A subunidade menor
fornece uma regio sobre a qual os tRNAs podem ser ecientemente pareados sobre os cdons
de um mRNA e a subunidade maior catalisa a formao das ligaes peptdicas entre os
aminocidos, formando uma cadeia polipeptdica (protena) (Alberts, Johnson, Lewis, Ra,
Roberts & Walter 2010).
Uma vez que a sntese foi iniciada, cada novo aminocido adicionado cadeia em
formao em um ciclo de quatro passos principais: ligao do tRNA, formao da ligao
peptdica, translocao das subunidades maior e menor. Como resultado resultado dos dois
passos de translocao (subunidades maior e menor), o ribossomo completo move-se trs nu-

BIOLOGIA MOLECULAR - CONCEITOS BSICOS

29

cleotdeos sobre o mRNA e posicionado para dar incio ao prximo ciclo (Alberts, Johnson,
Lewis, Ra, Roberts & Walter 2010). Esse ciclo repetido cada vez que um aminocido
adicionado cadeia polipeptdica.
A molcula de mRNA lida cdon a cdon, na direo 5' para 3', at alcanar um dos
trs cdons de terminao (UAA, UAG ou UGA). Estes cdons no so reconhecidos por
um tRNA e portanto, no determinam um aminocido. Assim, os cdons de terminao
sinalizam para o ribossomo o nal da traduo. Ento, protenas conhecidas como fatores
de liberao ligam-se aos ribossomos, nalizando a traduo e liberando o polipeptdeo
completo. O ribossomo, ento, libera o mRNA e separa-se nas duas subunidades maior e
menor (Alberts, Johnson, Lewis, Ra, Roberts & Walter 2010).

Tcnicas
A anlise da expresso gnica pode fornecer informaes importantes sobre as funes
de uma clula (Alberts 1997). Existem diversas tcnicas para obter a expresso dos genes

Serial Analysis of Gene Expression), MPSS (Massively Parallel

como, por exemplo, SAGE (

Signature Sequence technology )

microarray

(de Souto, Lorena, Delbem & de Carvalho

2003). Esta ltima tcnica merece um destaque entre as demais pois as bases utilizadas no
desenvolvimento desta pesquisa so bases de expresso gnica por

Serial Analysis of Gene Expression)

A tcnica SAGE (

microarrays.

(Velculescu, Zhang, Vogelstein &

Kinzler 1995) baseada principalmente em dois princpios (Yamamoto, Wakatsuki, Hada &
Ryo 2001): primeiro, uma pequena sequncia de cDNA (DNA complementar) de 9-10 pares

tag

de bases (

ou etiqueta) possui informaes sucientes para a identicao de um nico

transcrito; segundo, mltiplos

tags

lando a sequncia de milhares de

podem ser concatenados (ligados) e sequenciados, reve-

tags simultaneamente, ou seja, a concatenao possibilita a

anlise dos transcritos de um modo serial. Essa anlise serial dos


de mecanismos para a identicao dos limites de cada

tags de sequncia necessita

tag.

Tanto problemas tcnicos como problemas intrnsecos ao mtodo SAGE so destacados


para a tcnica de SAGE. Como problemas tcnicos destacam-se a desvantagem da necessidade de uma quantidade relativamente alta de mRNA e diculdade relativa em construir
bibliotecas de

tags

(Yamamoto, Wakatsuki, Hada & Ryo 2001). J entre os problemas in-

BIOLOGIA MOLECULAR - CONCEITOS BSICOS

trnsecos ao mtodo SAGE destaca-se o comprimento do

tag

30

extremamente curto (9-10

pares de bases) e isso diculta novas anlises, especialmente quando os

tags

so derivados

de genes no conhecidos (Yamamoto, Wakatsuki, Hada & Ryo 2001).


MPSS (

Massively Parallel Signature Sequence technology ) (Brenner, Johnson, Bridgham,

Golda, Lloyd, Johnson, Luo, McCurdy, Foy, Ewan, Roth, George, Eletr, Albrecht, Vermaas,
Williams, Moon, Burcham, Pallas, DuBridge, Kirchner, Fearon, Mao & Corcoran 2000)
uma tcnica baseada na produo de sequncias curtas de 16-20 bases adjacentes ao stio de
restrio da enzima

DpnII mais prximo extremidade 3' do mRNA (Liu ). Neste mtodo,

h uma combinao de clonagem e amplicao de cDNA na superfcie de milhares de

microbeads e uma elevada capacidade de sequenciamento de DNA no baseada em gel. A sua


desvantagem o elevado custo, pois uma tecnologia baseada em instrumentos sosticados
e protegida por direitos autorais.
A tcnica de

microarray

merece um destaque entre as demais pois as bases utilizadas no

desenvolvimento desta pesquisa so bases de expresso gnica por

microarrays.

Assim, tal

tcnica ser descrita em maiores detalhes na seo seguinte.

3.1.4 Microarrays
A tecnologia de

microarrays, ou microarranjos de DNA, usada para examinar a expres-

so de milhares de genes em diferentes tecidos de um determinado organismo de maneira


simultnea (Guindalini & Tuk 2007). Essa tecnologia pode ser utilizada tambm para o
estudo da genmica funcional (Lockhart, Dong, Byrne, Follettie, Gallo, Chee, Mittmann,
Wang, Kobayashi, Norton & Brown 1996; Sharp, Xu, Lit, Walker, Apperson, Gilbert, Glauser, Wong, Hershey, Liu, Pinter, Zhan, Liu & Ran 2006), o qual busca identicar variaes
na expresso de determinados genes, as quais podem ser respostas biolgicas naturais de
uma patologia, ou alguma outra condio experimental (Cheung, Morley, Aguilar, Massimi,
Kucherlapati & Childs 1999).
A maior parte desta tecnologia consiste em uma lmina de microscopia, na qual molculas de DNA de ta simples so aplicadas de forma ordenada, isto , em um arranjo. O
preparo de um

microarray

comea pela extrao de mRNA. Ento, geralmente feita uma

transcrio reversa do mRNA, sintetizando assim cDNA marcado com nucleotdeos identi-

BIOLOGIA MOLECULAR - CONCEITOS BSICOS

31

cados por uorescncia. O cDNA (DNA complementar) um DNA sintetizado a partir de


uma molcula de mRNA, cujos ntrons (sequncias no codicantes) j foram removidos. Os
cDNAs so ento desnaturados e incubados com o

microarray

para hibridizar com os seus

pontos, os quais contm as sequncias complementares de DNA. Aps isso, o


lavado e depois rastreado com um

microarray

laser que faz uorescer o cDNA hibridizado. Os pontos u-

orescentes revelam quais os genes que se expressam em um determinado tecido e o seu nvel
relativo de expresso, uma vez que quanto mais brilhante o ponto, mais o respectivo mRNA
se expressa naquele tecido (Klug, Cummings, Palladino & Spencer 2010). Tal processo ilustrado na Figura 3.11. Nesta gura, o primeiro passo ilustrado o isolamento do mRNA das
amostras de interesse, por exemplo uma amostra de uma pessoa normal (Amostra A) e de
uma pessoa com cncer (Amostra B). A partir desses mRNAs, realizada uma transcrio
reversa, sintetizando cDNAs (DNAs complementares) - passo 2. Tais cDNAs so marcados
por meio de nucleotdeos identicados por uorescncia. Assim, os cDNAs referentes uma
amostra, por exemplo Amostra A, so marcados pela cor vermelha e os cDNAs referentes
outra amostra, Amostra B, so marcados pela cor verde (passo 3). Os cDNAs marcados so

microarray

desnaturados e incubados com o


do

microarray

para que ocorra a hibridizao com os pontos

onde encontram-se as sequncias complementares de DNA, como ilustrado

no passo 4. Por m, o

microarray

passa por um laser para uorescer o cDNA que hibridizou

(passo 5). Portanto, os pontos que apresentam a cor vermelha, so pontos onde somente o
cDNA marcado com a cor vermelha (Amostra A) hibridizou, ou seja, o gene referente quele
ponto s expresso na Amostra A; os pontos com a cor verde so pontos onde somente o
cDNA marcado com a cor verde (Amostra B) hibridizou, ou seja, o gene referente quele
ponto s expresso na Amostra B; e os pontos com cor amarela so pontos onde tanto o
cDNA marcado com a cor vermelha quanto o cDNA marcado com a cor verde hibridizaram,
ou seja, o gene referente quele ponto expresso tanto na Amostra A quanto na Amostra
B. Dessa maneira, a partir dos pontos que uoresceram possvel determinar quais genes
so expressos nas duas amostras de interesse. A intensidade da uorescncia indica o nvel
relativo de expresso, ou seja, quanto mais brilhante for o ponto, mais expresso o respectivo
mRNA naquele tecido (Klug, Cummings, Palladino & Spencer 2010).
Uma vez que os

microarrays

permitem o estudo de milhares de genes ao mesmo tempo,

BIOLOGIA MOLECULAR - CONCEITOS BSICOS

Figura 3.11: Microarray

32

CONSIDERAES FINAIS

33

eles podem gerar uma grande quantidade de dados sobre expresso gnica. Assim, programas
de computador que analisem tais dados so essenciais para organizar o perl de dados de
expresso gnica (Klug, Cummings, Palladino & Spencer 2010), que o foco do captulo
seguinte.

3.2

Consideraes Finais

Neste captulo foram fornecidos alguns conceitos a respeito de

microarrays

e expresso

gnica. No captulo seguinte ser apresentada a metodologia proposta para a gerao de uma
nica rvore a partir de uma

Random Forest.

Captulo

Proposta Metodolgica
Neste captulo so descritos alguns trabalhos relacionados encontrados na literatura. A
seguir, descrita a metodologia utilizada na realizao do presente projeto, juntamente com
os resultados de um experimento preliminar utilizando a metodologia proposta.

4.1

Trabalhos Relacionados

Uma vez que

Random Forests so ecientes, multi-classe e capazes de lidar com um amplo

espao de atributos, elas tm sido amplamente utilizadas em diversos domnios, inclusive


na bioinformtica, por exemplo em (Wu, Abbott, Fishman, McMurray, Mor, Stone, Ward,
Williams & Zhao 2003; Lee, Park & Song 2005; Daz-Uriarte & de Andrs 2006; Goldstein,
Hubbard, Cutler & Barcellos 2010).
Em (Wu, Abbott, Fishman, McMurray, Mor, Stone, Ward, Williams & Zhao 2003) so
comparados resultados obtidos com vrios classicadores para distinguir entre pacientes
com cncer de ovrio e indivduos normais baseados em dados de espectrometria de massa
(MS) obtidos em amostras de soro. Foi utilizada a taxa de erro como medida de desempenho.
Concluiu-se que o mtodo da

Random Forest

conduz a uma taxa de classicao errada mais

34

35

TRABALHOS RELACIONADOS

baixa. Alm disso, as anlises preliminares sugerem que

Random Forest e mtodos similares

a ela podem ser mais teis do que outros mtodos para classicar exemplos baseados em
bases de MS.
O trabalho de Lee, Park & Song (2005) analisou o desempenho de classicadores desenvolvidos (entre eles a

Random Forest)

em bases de

microarray

e forneceu orientaes para

encontrar as ferramentas de classicao mais apropriadas em diversas situaes. Foram


utilizadas 7 bases de dados, entre elas Lymphoma, uma relacionada com cncer de pulmo
e uma de leucemia. Tambm foi utilizada a taxa de erro como medida de desempenho. A
concluso obtida foi que classicadores como

bagging, boosting

Random Forest melhoram


Random Forest

o desempenho de CART (rvore de classicao) signicativamente e que a


o melhor mtodo dentre os trs quando o nmero de classes moderado.
Em (Daz-Uriarte & de Andrs 2006) foi investigado o uso de
sicar bases de dados de

microarray

Random Forest

(incluindo problemas multi-classes) e foi proposto um

novo mtodo de seleo de genes em problemas de classicao baseados na


Foi analisado o desempenho da

para clas-

Random Forest

Random Forest.

alterando seus parmetros, como o nmero

de rvores a serem criadas, nmero de atributos selecionados aleatoriamente e nmero mnimo de exemplos em cada folha. Foi utilizado um nmero mnimo de exemplos entre 1 e
5, nmero de rvores igual a 1000, 2000, 5000, 10000, 20000 e 40000 e diversos nmeros de
atributos selecionados aleatoriamente. Foi concludo que mudanas nestes parmetros apresentam, na maioria das vezes, efeitos insignicantes, sugerindo que os valores

default

so

boas opes. Alm disso, concluiu-se que o tempo de execuo aumenta linearmente com
o nmero de rvores e a mudana no nmero mnimo de exemplos entre 1 e 5 tem efeitos
insignicantes e assim, seu valor

default

de 1 apropriado. Foi utilizada a taxa de erro

of-bag. A concluso geral obtida que devido ao seu desempenho, Random Forest
de genes usando

Random Forest

out-

e seleo

deveriam tornar-se parte da caixa de ferramentas padro

dos mtodos para predio de classes e seleo de genes utilizando bases de

microarray.

Em (Goldstein, Hubbard, Cutler & Barcellos 2010) foi apresentada uma das primeiras
ilustraes de sucesso analisando bases de genoma de associao ampla (GWA) com um
algoritmo de aprendizado de mquina (

Random Forests ) usando uma base de esclerose m-

tlipla (MS). Foram construdas orestas com 50, 250, 500, 1000 e 2000 rvores e nmero de

PROPOSTA PARA CONSTRUO DE UMA NICA RVORE

36

atributos selecionados aleatoriamente igual a 10% do nmero de atributos. Foi concluido que
10% do nmero de atributos parece minimizar a taxa do erro

out-of-bag, porm no muito.

A convergncia parece ocorrer entre 200-400 rvores. Tal resultado interessante, uma vez
que possui a mesma ordem de grandeza que os resultados obtidos em nossas pesquisas (64128 rvores) em (Oshiro, Perez & Baranauskas 2012). Foi concluido que a

Random Forest

computacionalmente vivel para bases de GWA e os resultados obtidos fazem sentido biolgico baseados em estudos anteriores. Mais importante, novos genes foram identicados
como potencialmente associados com MS, sugerindo assim novas direes de investigao
para esta doena complexa.
No foi encontrado nenhum trabalho na literatura com um tema semelhante ao aqui
proposto, usando

Random Forest. Porm, em (Aziz & Ahmed 2011), foi introduzido um novo

mtodo para gerar um classicador timo e preciso a partir de rvores para vrias amostras
da mesma base de dados. Foi utilizada a mtrica ganho de informao para selecionar o n
que ir fazer parte da nova rvore e as rvores foram geradas por meio do mtodo

bagging.

criado ento um mapa contendo todos os ns utilizados por todas as rvores em todos os
nveis, ou seja, do n raiz ao n folha. Para cada nvel, calculado o ganho de informao
de cada atributo utilizado neste nvel e o atributo com maior ganho ento utilizado como
o n daquele nvel da rvore nal. Isto feito at que a rvore nal tenha sido criada.
Foi concludo que dessa maneira consegue-se criar uma nica rvore e pode-se vericar os
resultados facilmente usando este nico classicador ao invs de vrios. No estudo, contudo,
no h informaes sobre o desempenho da rvore criada ou at mesmo comparaes entre
a rvore nal e outros classicadores.
Na seo seguinte descrito o mtodo proposto nesta pesquisa de mestrado para a
construo de uma nica rvore.

4.2

Proposta para construo de uma nica rvore

Nesta seo apresentada a proposta para a construo de uma nica rvore a partir
das rvores de uma

Random Forest. Foi utilizado o software de cdigo aberto Weka (Hall et

al. 2009) para a implementao do algoritmo proposto.


O resultado de uma

Random Forest,

como j foi mencionado, so

rvores. Em um

37

PROPOSTA PARA CONSTRUO DE UMA NICA RVORE

estudo preliminar deste mestrado, constatou-se que conforme o nmero de rvores geradas
em uma

Random Forest

vai crescendo, tal oresta tende a usar todos os atributos da base

de dados (Oshiro, Perez & Baranauskas 2012). Porm isso no algo til, uma vez que nem
todos os atributos existentes so importantes para a classicao. Assim, foi utilizada uma
mtrica para identifcar quais poderiam ser os melhores atributos e, consequentemente, qual
seria o atributo a ser escolhido como um n para compor a rvore nal desta pesquisa. A
partir deste atributo, novas orestas foram geradas com

rvores para cada subrvore do

atributo e o processo foi repetido, como pode ser visto no Algoritmo 1. O parmetro
utilizado com seu valor

foi

default igual a log 2 (a), pois esta parece ser frequentemente uma boa

escolha (Liaw & Wiener 2002).


A construo da rvore proposta, descrita no Algoritmo 1, tem como incio a gerao
de uma

Random Forest

a qual composta por

L Random Trees

(RT1 , RT2 ,

. . .,

RTL )

como indicado na linha 5. Nas linhas 7 a 9 construdo um mapa, o qual contm o nome
do atributo utilizado na raiz da

k -sima

rvore, Raiz(RTk ), e sua mtrica correspondente,

Mtrica(Raiz(RTk )). Aps isso, construdo um mapa nal o qual contm o nome de todos
os atributos utilizados nas razes das

rvores e as mdias das suas respectivas mtricas.

Tais mdias so calculadas por meio da razo entre a somatria dos valores das mtricas
do atributo

e o nmero de vezes que este atributo foi selecionado para ser a raiz de uma

rvore, ou seja, o nmero de vezes que este atributo aparece no

mapa, como mostrado nas

linhas 10 a 13. A seguir, escolhido o atributo para compor a rvore nal. selecionado o
atributo que apresenta o maior valor da mtrica utilizada, conforme mostrado na linha 14.
Este atributo ir compor a rvore nal (linha 16). Nas linhas 17 a 20 mostrado como o
processo se repete para todos os valores do atributo escolhido, ou seja, para cada valor
que o atributo escolhido pode assumir gerada uma nova base
para uma nova

Random Forest.

Ai

Ti a qual servir de parmetro

Na linha 1 mostrado o ponto de parada do algoritmo, ou

seja, a rvore para de crescer quando todos os exemplos de uma determinada base pertencem
a uma mesma classe

c.

Assim, criado um n folha, o qual possui a classe

c.

Para realizar a construo de uma nica rvore a partir das vrias rvores de uma

Random Forest e vericar se esta proposta seria vivel, duas questes precisam ser analisadas:
1. a quantidade de rvores a serem construdas em uma oresta. A literatura associada

PROPOSTA PARA CONSTRUO DE UMA NICA RVORE

Algoritmo 1

Construo de uma nica rvore usando

38

Random Forest

T : um conjunto de n exemplos rotulados {(xi , yi ), i = 1, 2, . . . , n}


L: nmero de rvores a serem geradas na oresta
m: nmero de atributos a serem selecionados aleatoriamente em cada n de cada rvore

Require:

minNum : nmero mnimo de exemplos em uma folha


rvore: rvore nal obtida
procedure construirrvore(T ,L,m,minNum)
if T contm apenas exemplos de uma nica classe c then
rvore Dena folha com classe c
return rvore

Ensure:

1:
2:
3:

4: end if
5:
6:
7:
8:

RF {RT1 , RT2 , . . ., RTL } construirRandomForest(T ,L,m,minNum)


mapa mapaFinal
for k 1 at L do
mapa mapa {(Raiz(RTk ), Mtrica(Raiz(RTk )))}

9: end for

cada (, ) mapa do
Seja (, ) da forma {(, M1 ), (, M2 ), . . . , (, Mw )} representando os valores da mtrica para
o atributo no mapa
Pw
Mi
mapaFinal mapaFinal {(, = i=1
)}
w

10: for
11:
12:

13: end for


14:
15:
16:
17:
18:
19:

Seja A argmax|(,)mapaFinal
Sejam A1 ,A2 ,. . .,Ar os possveis valores do atributo A
rvore Dena n com A como raiz e sejam S(A1 ),S(A2 ),. . .,S(Ar ) os subramos de A
for i 1 at r do
Dena Ti = {(x,y ) T | A = Ai }
S(Ai ) construirrvore(Ti ,L,m,minNum)

20: end for


21: return

rvore

PROPOSTA PARA CONSTRUO DE UMA NICA RVORE

39

fornece poucas informaes a respeito de quantas rvores devem ser usadas para constituir uma

Random Forest

com bom desempenho usando a medida AUC. As vezes,

aumentar o nmero de rvores somente aumenta o custo computacional sem obter um


ganho signicativo no desempenho;

2. a frequncia que os atributos so utilizados na raiz das rvores. Atributos irrevelantes


no levam somente a um baixo desempenho mas tambm adicionam diculdades extras
em descobrir conhecimento potencialmente til (Oh, Lee & Moon 2004; Saeys, Inza
& Larraaga 2007). Dessa maneira, identicar um subconjunto ou um nico melhor
atributo em uma base de dados de

microarray

pode melhorar o conhecimento humano

sobre o tema.

Visando responder essas duas questes, foram realizados dois experimentos neste estudo.
No primeiro experimento (Oshiro, Perez & Baranauskas 2012) visou-se analisar o desempenho da

Random Forest conforme o nmero de rvores aumenta. Tal experimento buscou por

um nmero (ou um intervalo de nmeros) de rvores a partir do qual no h mais ganho


signicativo de desempenho, a menos que enormes recursos computacionais estejam disponveis para grandes bases de dados. Foram construdas

Random Forests

variando o nmero de

rvores das orestas em taxas exponenciais. Foram propostas e utilizadas algumas mtricas
de densidade para bases de dados, as quais so descritas no Apndice B.1. A partir de tal
experimento, pde-se concluir que um intervalo entre 64 e 128 rvores o mais indicado,
uma vez que possvel obter um bom balano entre o AUC e o tempo de processamento.
interessante ressaltar que em (Goldstein, Hubbard, Cutler & Barcellos 2010) foi encontrado um intervalo entre 200 e 400 rvores e foi utilizada como medida de desempenho a
taxa de erro, diferentemente da medida aqui utilizada (AUC). Como j mencionado, segundo (Ling, Huang & Zhang 2003) o AUC deveria substituir a preciso (ou taxa de erro,
uma vez que esta igual a (1 preciso)) na comparao de classicadores pois mostrou-se
uma medida melhor baseado em extensas comparaes experimentais. Os resultados deste
experimento so descritos e discutidos mais detalhadamente no Apndice B.2, tendo sido
publicado em (Oshiro, Perez & Baranauskas 2012).
No segundo experimento (Oshiro & Baranauskas 2012), avaliou-se se uma

Random Forest

PROPOSTA PARA CONSTRUO DE UMA NICA RVORE

40

utiliza todos os atributos de uma maneira uniforme ou se existem atributos que so mais
utilizados que os demais e se tais atributos possuem um bom desempenho. Este experimento
foi dividido em trs etapas: a primeira etapa visava analisar a frequncia que os atributos
apareciam na raiz das rvores; a segunda etapa buscava analisar o desempenho dos dez
atributos mais utilizados na raiz das rvores usando o erro
etapa visava analisar o desempenho da

Random Forest

execuo, uma vez que sabido que as rvores em uma


mesmo considerando o fato de que a

Random Forest

da pr-poda pode acelerar a induo da


mostram que a

out-of-bag

estimado; a terceira

usando pr-poda e seu tempo de

Random Forest

crescem sem poda

no superajusta. Alm disso, o uso

Random Forest.

Os resultados deste experimento

Random Forest escolhe um subconjunto de atributos que so mais utilizados

nas razes das rvores geradas. Alm disso, o uso do erro

out-of-bag

estimado permite di-

ferenciar os atributos que apresentavam frequncias similares e, assim, identicar o melhor


atributo usado para compor a raiz de uma rvore. Os resultados deste experimento so descritos e discutidos mais detalhadamente no Apndice B.3, tendo sido publicado em (Oshiro
& Baranauskas 2012).
Utilizando os resultados obtidos nos dois experimentos citados anteriormente, foram realizados experimentos com o Algoritmo 1. No Captulo 5 so apresentados os resultados do
Algoritmo 1 a partir da
dores:

Random Forest,

Random Forest

comparados com o desempenho de trs classica-

J48 (rvore de deciso da Weka (Hall, Frank, Holmes, Pfahringer,

Reutemann & Witten 2009), que fornece como sada uma nica rvore) e uma rvore gerada
de forma aleatria (classicador

Random Tree

da Weka (Hall, Frank, Holmes, Pfahringer,

Reutemann & Witten 2009)). Foram utilizadas como medidas comparativas o AUC e o nmero de ns das rvores. Para avaliar o desempenho, foi realizada validao cruzada com
10-

folds. As

bases utilizadas neste experimento encontram-se descritas no Apndice A.2.

A avaliao estatstica dos resultados uma parte essencial na validao de novos mtodos
de aprendizado de mquina (Demar 2006). O teste estatstico pode ser paramtrico (teste t,
ANOVA) ou no paramtrico (Wilcoxon, Friedman). Segundo (Demar 2006) os testes no
paramtricos devem ter preferncia em relao aos testes paramtricos, pois eles so mais
provveis a rejeitar a hiptese nula e no correm os riscos de violaes das suposies dos
testes paramtricos. Tal concluso foi baseada nas propriedades estatsticas de cada teste,

MTRICAS DE SIMILARIDADE DE RVORES

41

nos seus pressuspostos e no conhecimento dos dados de aprendizagem de mquina.


Assim, a m de analisar se os resultados dos experimentos reportados no captulo seguinte so signicativamente diferentes, aplicou-se o teste de Friedman (Friedman 1940),
considerando um nvel de signicncia de 5%. Se o teste de Friedman rejeita a hiptese nula,
necessrio um teste

post-hoc

para vericar em quais pares de classicadores as diferen-

as so realmente signicativas (Demar 2006). O teste

post-hoc

utilizado foi Benjamini-

Hochberg (Benjamini & Hochberg 1995) e foi realizada uma comparao todos

versus todos,

executando todas as possveis comparaes. Os testes foram realizados no software R para


computao estatstica (http://www.r-project.org/).

4.3

Mtricas de Similaridade de rvores

Uma vez que o desempenho mdio da rvore proposta conhecido assim como o desempenho mdio de outros classicadores, interessante analisar as rvores obtidas por estes
mtodos com mtricas alm do desempenho (taxa de acerto, taxa de erro, AUC, entre outras). Assim, foram utilizadas duas mtricas da literatura e propostas outras duas neste
trabalho visando comparar o quo similares so as rvores criadas pela metodologia proposta, pelo J48 e pela

Random Tree,

Forest, pois essa fornece

uma vez que no h como comparar com a

uma oresta como sada, ou seja,

Random

rvores.

Para calcular trs das mtricas propostas, foi utilizado como base o Coeciente de Jaccard (Jaccard 1901). Tal coeciente analisa a similaridade entre dois conjuntos de amostras
e calculado por meio da seguinte frmula:

Jaccard(A, B) =

|A B|
|A B|

(4.1)

Em um estudo recente (Perner 2011) foi proposta uma mtrica para clculo da similaridade entre duas rvores. Nesse estudo so realizados cinco passos: primeiro as duas rvores
de deciso so transformadas em um conjunto de regras; depois, as regras das duas rvores
so ordenadas de acordo com o nmero

att

de atributos em uma regra; ento, as subes-

truturas de todas as regras so construdas por meio da decomposio das regras em suas
subestruturas; a seguir, duas regras

das duas rvores de deciso so comparadas; por

MTRICAS DE SIMILARIDADE DE RVORES

ltimo, a medida de similaridade

SIMij =
onde

att

= max {atti ,

SIMij

calculada, conforme Equao 4.2.

1
(Sim1 + Sim2 + . . . + Simk + . . . + Simatt )
att

attj }

42

(4.2)

1
Simk =

se subestrutura for idntica


caso contrrio

Se a regra contm um atributo numrico () ento a medida de similaridade dada por:

0
k1 k1 |x|
|x|
S = 1
=1
=1
t
t
t
S = 0

onde

k1

para

x<t

xt

um atributo numrico,

usurio para permitir que

para

(4.3)
(4.4)

0 k2 = k1 + x

um valor escolhido pelo

esteja em um intervalo de tolerncia de

desenvolvimento do presente trabalho, foi considerado um valor de

s%

de

k1 .

Para o

igual a 10%.

Foram utilizadas quatro mtricas de similaridade de rvores: Jaccard, Jaccard por nvel,
Jaccard por nvel & teste de Petra e teste de Petra. Dentre as quatro mtricas, duas foram
reutilizadas da literatura (mtricas J e P) e duas foram propostas neste estudo (mtricas
JN e JNP). Todas as mtricas apresentam valores no intervalo

[0, 1],

sendo que as rvores

completamente similares resultam em 1; caso contrrio, resultam em zero.

1. Jaccard (J): representa a porcentagem de similaridade entre duas rvores (A e B) em


relao aos atributos utilizados por cada uma.

2. Jaccard por nvel (JN): representa a similaridade entre duas rvores em relao aos
atributos utilizados em cada nvel, porm no analisa a topologia da rvore. Aplica-se
a frmula 4.1 em cada nvel das rvores, somando os valores e dividindo pelo nmero
total de niveis;

43

CONSIDERAES FINAIS

3. Jaccard por nvel & teste de Petra (JNP): Mesmo raciocnio da mtrica JN, porm
quando o atributo numrico, aplica-se a frmula 4.3 desenvolvida por (Perner 2011).
Assim, se dois atributos numricos de duas rvores diferentes so iguais em um mesmo
nvel, ao invs de resultar em 1 (pela frmula de JN), a similaridade calculada pela
frmula 4.3;

4. Teste de Petra (P): representa a similaridade topolgica entre as rvores.


Como exemplo, considere duas rvores distintas (ilustradas nas Figuras 4.1 e 4.2), geradas
por diferentes classicadores e utilizando a mesma base de dados.

Mtrica 1: Jaccard
J=

2
= 0, 5
4

(4.5)

Mtrica 2: Jaccard por nvel


1
3

1+
2

JN =

= 0, 67

Mtrica 3: Jaccard por nvel + teste de Petra t1

(4.6)

= 83,1 e

x1

= 13;

t2

= 5,5 e

x2

= 0,5

(1

JN P =

13
)
83,1

+ (1

0,5
5,5

0, 84 + 0, 30
= 0, 57
2

(4.7)

Mtrica 4: Teste de Petra t1 = 83,1 e x1 = 13; t2 = 5,5 e x2 = 0,5

P =

(1

13
)
83,1

13 )+(1 0,5 ))
((1 83,1
5,5

0, 84 + 0, 44
= 0, 64
2

(4.8)

possvel notar a partir dos exemplos fornecidos que, computacionalmente, a mtrica


(Jaccard) a mtrica mais simples de ser calculada; a mtrica
simples do que as mtricas
simples do que a mtrica

4.4

e a mtrica

(Jaccard por nvel) mais

(Jaccard por nvel + teste de Petra) mais

(Teste de Petra).

Consideraes Finais

Este projeto de mestrado tem como objetivo criar uma nica rvore a partir das rvores geradas por uma

Random Forest.

Para atingir tal objetivo, foram realizados dois

CONSIDERAES FINAIS

Figura 4.1:

rvore criada pelo classicador J48 utilizando a base DLBCLTumor.

Figura 4.2:

rvore criada pelo Algoritmo 1 utilizando a base DLBCLTumor.

44

CONSIDERAES FINAIS

45

experimentos preliminares, reportados em (Oshiro, Perez & Baranauskas 2012) e (Oshiro &
Baranauskas 2012). Uma vez que a rvore nal foi criada, comparou-se a sua estrutura
estrutura de outras rvores criadas por outros algoritmos a m de analisar se ambas rvores
so similares e, portanto, fornecem as mesmas informaes a respeito de uma determinada
base de dados, ou seja, um determinado problema biolgico.
Tambm foram apresentadas neste captulo a metodologia utilizada neste projeto e as
mtricas de similaridade entre rvores utilizadas, sendo que duas mtricas foram propostas resultantes deste estudo. Foram realizados 2 experimentos que serviram de base para a
construo da rvore nal. No captulo seguinte so apresentados os resultados dos experimentos realizados utilizando a metodologia proposta, assim como os resultados das mtricas
de similaridades.

Captulo

Resultados & Discusso


Aps obter as respostas s questes levantadas na Seo 4.2, achou-se melhor construir
orestas visando a estabilidade dos atributos mais utilizados, ou seja, orestas usando
rvores ou

2a rvores. Estes valores foram escolhidos com base nos resultados do Experimento

2 descrito na Seo B.3. importante ressaltar que com o primeiro experimento descobriu-se
o nmero de rvores necessrio para obter um bom desempenho da

Random Forest sem um

alto custo computacional. Porm, para se obter uma estabilidade dos atributos utilizados
pelas rvores, o nmero de rvores deve ser maior. Assim, foi realizado o segundo experimento
e descobriu-se ento, o nmero de rvores necessrio para se obter uma maior estabilidade
do conjunto de atributos mais utilizados. Uma vez que com o aumento do nmero de rvores
todos os atributos parecem ser utilizados, necessrio o uso de uma mtrica para ltrar os
melhores atributos e, assim, no utilizar um atributo que no importante ou bom para o
desempenho da rvore nal. Visando isso, foi utilizada a mtrica da frequncia considerando
o erro

out-of-bag

estimado.

A m de melhorar o erro

out-of-bag

estimado utilizado, um novo experimento foi rea-

lizado. Neste novo experimento foi utilizada apenas uma porcentagem dos erros

46

out-of-bag

47

de um determinado atributo. Ou seja, foram descartados os maiores erros

out-of-bag

de um

atributo visando assim, eliminar possveis rudos com relao essa mtrica. Por exemplo,
supondo que um atributo foi utilizado 4 vezes e obteve erros

out-of-bag

de 0.2, 0.4, 0.1 e 0.9.

Nesse caso, o valor 0.9 pode ser um rudo, uma vez que este erro elevado pode ser causado
pela escolha dos demais atributos da rvore e, portanto, no seria relacionado diretamente ao
atributo na raiz. Assim, utilizando apenas uma porcentagem dos erros obtidos (no exemplo,
menos de 75%), o valor 0.9 no levado em considerao.
Foram testados quatro valores de porcentagens: 70%, 80%, 90% e 95%. Os melhores resultados foram obtidos utilizando 70% e 90%. Dessa forma, foram realizados trs experimentos
utilizando o Algoritmo 1: uso da mtrica da frequncia considerando o erro

out-of-bag

timado (100% dos valores obtidos) e considerando uma porcentagem dos erros

es-

out-of-bag

obtidos (70% e 90%).


Procurando analisar melhor o desempenho da rvore proposta, seus resultados foram
comparados com outros trs classicadores:

Forest
a

foi executada com seus valores

2a.

Random Forest, J48 e Random Tree. A Random

default

e os nmeros de rvores utilizados foram 128,

O valor 128 foi escolhido baseado no Experimento 1, descrito no Apndice B.2 e a

concluso que a partir desse nmero o desempenho da


signicativamente. Apesar disso, orestas contendo

Random Forest
e

2a

no parece melhorar

rvores foram construdas para

uma melhor comparao com a rvore proposta. O classicador J48 foi executado com seus
valores

default,

com poda e sem poda. O classicador

com seus valores

Random Tree

tambm foi executado

default. Foram realizados testes de Friedman para analisar se os resultados

obtidos eram signicativamente diferentes.


Na Tabela 5.1 esto os valores de AUC obtidos e na Tabela 5.3 so mostrados os nmeros
de ns (tamanho) das rvores e orestas criadas em funo de

log10 , j que os nmeros de ns

das orestas variam muito. Nas duas tabelas so apresentados os resultados dos seguintes
classicadores: Algoritmo 1 utilizando

2a

rvores e 100% dos valores de erro

(A1-a(100) e A1-2a-(100)); Algoritmo 1 utilizando

out-of-bag
de erro

2a

rvores e 70% dos valores de erro

(A1-a(70) e A1-2a-(70)); Algoritmo 1 utilizando

out-of-bag

a e 2a rvores e 90% dos valores

(A1-a(90) e A1-2a-(90)); J48 com seus valores

e J48 com seus valores

default

e sem poda (J48(U));

out-of-bag

default

Random Tree

e com poda (J48)

com seus valores

default

48

(RT);

Random Forest

com seus valores

default

e nmero de rvores igual a 128,

2a

rvores (RF-128, RF-a e RF-2a, respectivamente).


Nas Tabelas 5.2 e 5.4 so apresentados os resultados dos testes de Friedman para os
valores de AUC e nmero de ns, respectivamente. Nestas tabelas,

M (N)

indica que o clas-

sicador na linha especicada melhor (signicativamente) do que o classicador na coluna


especicada;

O (H)

o classicador na linha especicada pior (signicativamente) do que o

classicador na coluna especicada;

indica nenhuma diferena. O tringulo inferior destas

tabelas no so mostrados pois eles apresentam resultados opostos ao tringulo superior por
simetria.
Analisando a Tabela 5.1 pode-se observar que a

Random Forest,

na mdia, apresentou

os melhores valores de AUC na maioria das bases (com exceo das bases DLBCLOutcome,
ma-2003-breast e prostate-outcome) e o melhor

rank

mdio. Em duas bases (E2A-PBX1-

completo e T-ALL-completo) quase todos os classicadores, com exceo da

Random Tree,

apresentaram AUC igual a um. Comparando a metodologia proposta com o J48, J48(U) e
a

Random Tree,

pode-se notar que o Algoritmo 1 utilizando 90% dos erros

rvores (A1-2a(90)) apresentou o melhor

rank

out-of-bag

e 2a

mdio dentre os quatro algoritmos. No geral,

o Algoritmo 1 apresentou valores de AUC um pouco melhores do que os algoritmos J48 e


J48(U) e muito melhores em relao a

Random Tree.

Isso pode ser conrmado ao analisar

a Tabela 5.2, uma vez que pode-se notar que os classicadores J48 e J48(U) foram piores,
porm no signicativamente, do que o Algoritmo 1 no geral (com exceo somente do A1a(100)) e a
a

Random Tree foi signicativamente pior do que todos os demais classicadores. J

Random Forest

foi signicativamente melhor do que os demais classicadores. Analisando

o desvio padro, os algoritmos J48 e J48(U) mostraram-se um pouco mais estveis do que o
Algoritmo 1 no geral, no entanto, o melhor

rank

mdio do desvio padro dentre os quatro

algoritmos restantes foi do Algoritmo 1 utilizando 70% dos erros


(A1-2a(70)). J a

Random Tree

out-of-bag

e 2a rvores

mostrou-se bem mais instvel como esperado.

Na realizao do teste de Friedman para os nmeros de ns das rvores foram utilizados


somente 9 dos 12 classicadores, para os quais este teste aplicvel. Foram tirados os valores
da

Random Forest

uma vez que eles eram valores extremamente altos por se tratar de uma

oresta. Assim, tais valores foram desconsiderados a m de uma melhor comparao entre

COMPARAO DAS RVORES

49

os nmeros de ns das rvores criadas por cada classicador.


Analisando a Tabela 5.3, nota-se que a

Random Forest apresenta o pior desempenho com

relao ao nmero de ns utilizados (tamanho da rvore). J o J48, o J48(U) e o Algoritmo


1, mais uma vez, apresentam desempenhos similares e melhores do que a
melhor

rank

Random Tree

mdio dentre os quatro do Algoritmo 1 utilizando 100% dos erros

e 2a rvores (A1-2a(100)). Analisando a Tabela 5.4, nota-se que a

Random Tree

e o

out-of-bag

foi pior sig-

nicativamente do que os outros trs classicadores. Ao comparar o classicador J48 com o


Algoritmo 1, pode-se observar que o J48 foi melhor signicativamente em trs das sete comparaes, pior (no signicativamente) em uma das sete e melhor (no signicativamente)
em duas das sete comparaes. J o algoritmo J48(U) foi melhor signicativamente em trs
das sete comparaes e pior (no signicativamente) em quatro das sete comparaes. Com
relao ao desvio padro, o Algoritmo 1 mostrou-se to estvel quanto o J48 e o J48(U) e
apresentou o menor

5.1

rank

mdio.

Comparao das rvores

Como descrito na Seo 4.3, foram desenvolvidas algumas mtricas para comparao de
rvores. Nesta seo, os resultados de tais mtricas sero apresentados comparando-se as rvores geradas pelo Algoritmo 1 s rvores geradas pelo algoritmo J48 e pela

Random Tree.

Uma vez que os valores obtidos pelo algorimto J48 com poda e sem poda foram muito parecidos, utilizou-se as rvores geradas pelo J48 com poda, pois essa sua congurao

default.

Como mencionado anteriormente, foram testados quatro valores diferentes de porcentagem


dos erros

out-of-bag

de um determinado atributo na execuo do Algoritmo 1. Nesta seo,

entretanto, s foram comparadas as rvores utilizando 90% dos erros

out-of-bag

e orestas

construdas com 2a rvores (A1-2a(90)). Essa escolha foi baseada nos resultados do teste de
Friedman apresentados na seo anterior.
Na Tabela 5.5, so comparadas as rvores geradas utilizando as 24 bases descritas na
Seo A.2 e o Algoritmo 1 (A1-2a(90)) e J48. Na Tabela 5.6, so comparados o Algoritmo
1 (A1-2a(90)) e

Random Tree. Os

valores acima de 0,5 esto destacados em negrito.

Analisando os valores obtidos mostrados na Tabela 5.5 possvel notar que as rvores
obtidas utilizando o Algoritmo 1 so, em geral, diferentes das rvores obtidas pelo J48.

50

CONSIDERAES FINAIS

Ou seja, as rvores apresentam atributos diferentes em suas estruturas. Pode-se observar,


entretanto, que h algumas rvores parecidas, como o caso das rvores obtidas a partir
das bases MLL-completo e T-ALL-completo, uma vez que ambas apresentam valores de
mtricas acima de 0,5. No caso da base T-ALL, podemos notar que as rvores obtidas pelos
dois algoritmos apresentam os mesmos genes nos mesmos nveis, pois as mtricas J e JN
possuem valores iguais a 1.
Observando os resultados apresentados na Tabela 5.6, pode-se notar que as rvores geradas pelos dois algoritmos (Algoritmo 1 e

Random Tree ) so completamente diferentes, uma

vez que a maioria das mtricas apresentaram valores iguais a 0. Somente em alguns casos os
valores da mtrica 1 foram diferentes de zero, porm, o valor mais alto atingido foi 0,02.
Foi calculado o quadrado do coeciente de correlao (regresso linear) entre as 4 mtricas propostas para vericar se havia uma correlao entre elas. Uma vez que as rvores
obtidas pelos algoritmos J48 e Algoritmo 1 (A1-2a(90)) apresentaram valores de similaridade
maiores do que zero em quase todas as bases, foram utilizados os resultados apresentados
na Tabela 5.5 para calcular o coeciente de correlao entre as mtricas. Os coecientes de
correlao

R2

obtidos so apresentados na Tabela 5.7.

Analisando os resultados apresentados na Tabela 5.7 possvel notar que as mtricas

M1

M2

M1

a mais simples de ser calculada (conforme mostrado na Seo 4.3), pode-se sugerir a

esto correlacionadas, assim como as mtricas

utilizao da mtrica

M1

(Jaccard) no lugar da mtrica

M3

M2

M4 .

Uma vez que a mtrica

(Jaccard por nvel), pois as duas

esto correlacionadas, ou seja, no apresentam resultados muito diferentes. Pode-se tambm


sugerir o uso da mtrica

M3

(Jaccard por nvel + teste de Petra) no lugar da mtrica

M4

(Teste de Petra), uma vez que as duas tambm esto correlacionadas. Tais correlaes podem
ser observadas nas Figuras 5.1 e

5.2

5.2.

Consideraes Finais

Neste captulo foram apresentados os resultados obtidos utilizando a metodologia proposta e outros classicadores j conhecidos. Foram tambm mostradas mtricas de similaridade entre as rvores geradas por essa metodologia e as rvores geradas pelos demais
classicadores.

CONSIDERAES FINAIS

Figura 5.1:

Figura 5.2:

Resultados das mtricas J e JN para as 24 bases.

Resultados das mtricas JNP e P para as 24 bases.

51

A1-a(100)

0,77 (0,07)
0,62 (0,13)
0,71 (0,16)
0,40 (0,39)
0,85 (0,08)
0,89 (0,09)
0,62 (0,33)
0,50 (0,25)
0,60 (0,30)
0,60 (0,11)
0,90 (0,09)
0,55 (0,17)
0,75 (0,17)
0,67 (0,17)
0,84 (0,17)
0,93 (0,16)
0,86 (0,12)
0,88 (0,12)
0,94 (0,05)
0,56 (0,08)
0,59 (0,17)
1,00 (0,00)
0,80 (0,09)
1,00 (0,00)

7,79 (7,62)

Base de dados

welsh-2001-GNF
butte-data-set
nielsen-soft-2002
prostate-outcome
alizadeh-lymph
MLL-completo
lungcancer-ontario
DLBCLOutcome
pomeroy-cns-dataset-C
breastCancer-completo
lung-harvard
ma-2003-breast
aml-all-completo
DLBCLTumor
leung-2002-gastric
lung-Michigan
prostate-tumorVSNormal
lungCancer-completo
ovarian-61902
DLBCL-NIH-completo
BCR-ABL-completo
E2A-PBX1-completo
Hyperdip50-completo
T-ALL-completo

Rank Mdio

7,33 (7,71)

0,78 (0,10)
0,68 (0,08)
0,74 (0,14)
0,18 (0,29)
0,83 (0,12)
0,89 (0,10)
0,63 (0,36)
0,44 (0,20)
0,62 (0,22)
0,62 (0,14)
0,90 (0,08)
0,57 (0,23)
0,76 (0,16)
0,68 (0,15)
0,84 (0,20)
0,89 (0,21)
0,91 (0,10)
0,91 (0,12)
0,95 (0,05)
0,61 (0,14)
0,56 (0,17)
1,00 (0,00)
0,77 (0,09)
1,00 (0,00)

A1-2a(100)

Tabela 5.1:

6,94 (7,81)

0,78 (0,09)
0,67 (0,11)
0,74 (0,13)
0,43 (0,41)
0,82 (0,07)
0,87 (0,12)
0,62 (0,33)
0,50 (0,22)
0,55 (0,24)
0,56 (0,18)
0,93 (0,07)
0,50 (0,23)
0,81 (0,13)
0,74 (0,24)
0,87 (0,11)
0,94 (0,16)
0,85 (0,14)
0,90 (0,08)
0,95 (0,06)
0,54 (0,07)
0,65 (0,29)
1,00 (0,00)
0,81 (0,10)
1,00 (0,00)

A1-a(70)

6,94 (6,34)

0,81 (0,12)
0,65 (0,08)
0,72 (0,14)
0,33 (0,37)
0,81 (0,06)
0,88 (0,09)
0,59 (0,33)
0,49 (0,23)
0,61 (0,18)
0,57 (0,11)
0,89 (0,08)
0,57 (0,20)
0,84 (0,15)
0,73 (0,26)
0,86 (0,12)
0,94 (0,16)
0,90 (0,09)
0,92 (0,09)
0,96 (0,05)
0,64 (0,08)
0,53 (0,12)
1,00 (0,00)
0,83 (0,08)
1,00 (0,00)

A1-2a(70)

7,21 (6,83)

0,77 (0,08)
0,65 (0,13)
0,76 (0,11)
0,43 (0,33)
0,79 (0,09)
0,89 (0,10)
0,54 (0,34)
0,56 (0,19)
0,60 (0,30)
0,58 (0,13)
0,92 (0,06)
0,49 (0,19)
0,82 (0,13)
0,74 (0,17)
0,88 (0,15)
0,93 (0,15)
0,83 (0,14)
0,91 (0,10)
0,95 (0,04)
0,53 (0,09)
0,55 (0,18)
1,00 (0,00)
0,82 (0,08)
1,00 (0,00)

A1-a(90)

6,50 (7,19)

0,75 (0,10)
0,71 (0,07)
0,73 (0,12)
0,33 (0,37)
0,81 (0,12)
0,89 (0,10)
0,59 (0,33)
0,49 (0,23)
0,63 (0,23)
0,65 (0,14)
0,92 (0,08)
0,57 (0,25)
0,84 (0,15)
0,70 (0,19)
0,88 (0,12)
0,89 (0,21)
0,89 (0,10)
0,93 (0,08)
0,97 (0,04)
0,62 (0,11)
0,56 (0,18)
1,00 (0,00)
0,81 (0,09)
1,00 (0,00)

A1-2a(90)

7,41 (6,44)

0,76 (0,11)
0,61 (0,08)
0,66 (0,15)
0,23 (0,25)
0,90 (0,06)
0,89 (0,09)
0,80 (0,23)
0,51 (0,12)
0,50 (0,12)
0,62 (0,19)
0,94 (0,06)
0,49 (0,16)
0,75 (0,22)
0,65 (0,23)
0,92 (0,11)
0,99 (0,02)
0,79 (0,11)
0,92 (0,08)
0,95 (0,05)
0,51 (0,13)
0,57 (0,28)
1,00 (0,00)
0,83 (0,08)
1,00 (0,01)

J48

7,46 (6,50)

0,76 (0,11)
0,61 (0,08)
0,66 (0,15)
0,23 (0,25)
0,90 (0,06)
0,89 (0,09)
0,80 (0,23)
0,51 (0,12)
0,50 (0,12)
0,62 (0,19)
0,94 (0,06)
0,49 (0,16)
0,75 (0,22)
0,65 (0,23)
0,92 (0,11)
0,99 (0,02)
0,79 (0,11)
0,92 (0,08)
0,95 (0,05)
0,50 (0,14)
0,57 (0,28)
1,00 (0,00)
0,83 (0,08)
1,00 (0,01)

J48(U)

10,12 (8,81)

0,76 (0,11)
0,64 (0,11)
0,72 (0,20)
0,38 (0,32)
0,74 (0,12)
0,72 (0,12)
0,57 (0,29)
0,44 (0,28)
0,62 (0,15)
0,50 (0,17)
0,79 (0,09)
0,48 (0,18)
0,66 (0,19)
0,69 (0,17)
0,81 (0,16)
0,72 (0,26)
0,68 (0,09)
0,75 (0,14)
0,81 (0,11)
0,54 (0,05)
0,60 (0,21)
0,74 (0,14)
0,71 (0,14)
0,83 (0,14)

RT

Valores do AUC para os 12 classicadores, desvio padro e rank mdio.

4,02 (4,60)

0,93 (0,06)
0,81 (0,09)
0,96 (0,04)
0,25 (0,42)
0,99 (0,03)
0,98 (0,03)
0,65 (0,39)
0,43 (0,30)
0,59 (0,24)
0,79 (0,13)
0,98 (0,02)
0,42 (0,18)
0,99 (0,03)
0,97 (0,06)
0,99 (0,02)
1,00 (0,00)
0,95 (0,08)
1,00 (0,00)
1,00 (0,01)
0,64 (0,11)
0,96 (0,04)
1,00 (0,00)
0,99 (0,01)
1,00 (0,00)

RF-128

3,14 (4,04)

0,94 (0,06)
0,86 (0,12)
0,95 (0,07)
0,35 (0,47)
1,00 (0,01)
0,99 (0,02)
0,65 (0,39)
0,43 (0,31)
0,66 (0,19)
0,78 (0,11)
0,99 (0,01)
0,38 (0,15)
1,00 (0,00)
0,98 (0,04)
0,99 (0,02)
1,00 (0,00)
0,95 (0,08)
1,00 (0,00)
1,00 (0,01)
0,66 (0,11)
0,99 (0,02)
1,00 (0,00)
0,99 (0,01)
1,00 (0,00)

RF-a

3,12 (4,00)

0,94 (0,06)
0,86 (0,11)
0,95 (0,07)
0,35 (0,47)
1,00 (0,01)
0,99 (0,02)
0,65 (0,39)
0,45 (0,28)
0,63 (0,19)
0,77 (0,12)
0,98 (0,02)
0,39 (0,15)
1,00 (0,00)
0,98 (0,04)
0,99 (0,02)
1,00 (0,00)
0,95 (0,08)
1,00 (0,00)
1,00 (0,01)
0,66 (0,11)
0,99 (0,02)
1,00 (0,00)
0,99 (0,01)
1,00 (0,00)

RF-2a

CONSIDERAES FINAIS

52

Classicador
A1-a(100)
A1-2a(100)
A1-a(70)
A1-2a(70)
A1-a(90)
A1-2a(90)
J48
J48(U)
RT
RF-128
RF-a
RF-2a

A1-2a(100)
O

O
O

A1-a(70)
O
O
M

A1-2a(70)
O
O
M
M

A1-a(90)
O
O
O
O
O

A1-2a(90)
O
M
M
M
M
M

J48
O
M
M
M
M
M
M

J48(U)
N
N
N
N
N
N
N
N

RT

H
H
H
H
H
H
H
H
H

RF-128

H
H
H
H
H
H
H
H
H
O

RF-a

Resultados do teste de Friedman para os valores de AUC para os 12 classicadores.

A1-a(100)

Tabela 5.2:

H
H
H
H
H
H
H
H
H
O
O

RF-2a

CONSIDERAES FINAIS

53

Base de dados
welsh-2001-GNF
butte-data-set
nielsen-soft-2002
prostate-outcome
alizadeh-lymph
MLL-completo
lungcancer-ontario
DLBCLOutcome
pomeroy-cns-dataset-C
breastCancer-completo
lung-harvard
ma-2003-breast
aml-all-completo
DLBCLTumor
leung-2002-gastric
lung-Michigan
prostate-tumorVSNormal
lungCancer-completo
ovarian-61902
DLBCL-NIH-completo
BCR-ABL-completo
E2A-PBX1-completo
Hyperdip50-completo
T-ALL-completo
Rank Mdio

A1-a(100)
0,98 (1,65)
1,26 (1,90)
1,06 (1,26)
0,68 (0,63)
1,23 (1,48)
0,85 (1,33)
0,79 (1,03)
0,98 (1,35)
0,99 (1,03)
1,12 (1,14)
1,18 (1,48)
1,14 (1,49)
0,75 (0,97)
0,85 (0,94)
0,97 (0,84)
0,48 (0,00)
1,06 (1,35)
0,75 (0,97)
0,87 (1,58)
1,58 (3,02)
0,93 (1,58)
0,48 (0,00)
1,20 (1,41)
0,48 (0,00)
5,54 (4,52)

A1-2a(100)
1,03 (0,63)
1,24 (1,26)
1,06 (1,58)
0,60 (1,05)
1,20 (1,41)
0,81 (1,35)
0,78 (1,41)
0,97 (1,26)
0,96 (1,14)
1,10 (0,84)
1,18 (1,75)
1,09 (1,35)
0,76 (1,03)
0,83 (0,63)
0,96 (0,63)
0,48 (0,00)
1,05 (1,14)
0,72 (0,63)
0,85 (0,00)
1,53 (1,69)
0,91 (1,03)
0,48 (0,00)
1,18 (1,14)
0,48 (0,00)
3,44 (4,04)

Tabela 5.3:

J48(U)
1,19 (1,26)
1,29 (0,97)
1,03 (0,84)
0,60 (1,05)
1,18 (1,33)
0,70 (0,00)
0,70 (0,00)
0,91 (1,03)
0,90 (1,05)
1,06 (1,35)
1,04 (0,00)
1,12 (0,32)
0,64 (0,97)
0,79 (1,03)
0,92 (0,97)
0,48 (0,00)
1,07 (2,15)
0,82 (1,26)
1,01 (1,69)
1,55 (6,45)
0,95 (0,00)
0,48 (0,00)
1,23 (2,49)
0,48 (0,00)
3,79 (4,44)

RT
RF-128
RF-a
1,49 (3,33) 3,50 (127,84) 5,50 (11994,41)
1,69 (4,37) 3,71 (54,82) 5,46 (1694,76)
1,40 (3,58) 3,43 (64,93) 5,07 (2017,28)
0,89 (1,40) 2,95 (12,45) 4,94 (1544,84)
1,62 (3,55) 3,65 (76,89) 5,15 (2793,06)
1,32 (2,39) 3,34 (41,43) 5,34 (4140,53)
1,22 (2,46) 3,20 (92,52) 4,55 (2026,73)
1,32 (2,39) 3,31 (27,23) 5,06 (1094,37)
1,28 (1,99) 3,29 (36,12) 5,04 (1480,86)
1,47 (1,14) 3,48 (32,02) 5,76 (4838,67)
1,64 (5,10) 3,68 (64,91) 5,67 (7710,42)
1,47 (3,24) 3,47 (58,66) 4,65 (578,79)
1,19 (2,95) 3,23 (15,09) 4,97 (1078,48)
1,18 (2,74) 3,23 (48,53) 4,97 (1595,72)
1,50 (4,09) 3,50 (96,37) 5,22 (3627,53)
0,88 (2,32) 2,98 (23,34) 4,72 (584,94)
1,55 (3,94) 3,55 (79,28) 5,55 (6457,51)
1,26 (5,27) 3,31 (48,12) 5,30 (2767,56)
1,59 (4,16) 3,60 (70,97) 5,67 (3470,19)
2,02 (6,33) 4,02 (131,46) 5,79 (4520,41)
1,51 (5,32) 3,52 (134,91) 5,52 (8970,52)
1,45 (6,34) 3,53 (102,94) 5,52 (6449,84)
1,81 (9,20) 3,81 (132,42) 5,81 (6894,66)
1,54 (9,11) 3,55 (67,92) 5,55 (5870,10)
9,00 (8,71) 10,00 (10,00) 11,00 (11,00)

(Nmero de ns das rvores para os 12 classicadores) e desvio padro.

A1-a(70) A1-2a(70) A1-a(90) A1-2a(90)


J48
0,97 (1,58) 1,03 (0,63) 0,99 (1,69) 1,03 (0,63) 1,19 (1,26)
1,26 (2,15) 1,25 (1,35) 1,26 (1,93) 1,25 (1,35) 1,29 (0,97)
1,06 (1,90) 1,05 (1,75) 1,06 (1,84) 1,05 (1,75) 1,03 (0,84)
0,66 (0,84) 0,62 (1,03) 0,66 (0,84) 0,62 (1,03) 0,60 (1,05)
1,23 (1,48) 1,21 (1,65) 1,23 (1,14) 1,20 (1,41) 1,18 (1,33)
0,86 (1,14) 0,81 (1,35) 0,81 (1,35) 0,81 (1,35) 0,70 (0,00)
0,82 (0,84) 0,79 (1,40) 0,82 (0,84) 0,79 (1,40) 0,70 (0,00)
1,00 (1,41) 0,97 (1,26) 0,97 (0,84) 0,97 (1,26) 0,91 (1,03)
0,97 (0,84) 0,97 (1,26) 0,99 (1,03) 0,96 (1,14) 0,90 (1,05)
1,12 (1,14) 1,10 (1,26) 1,11 (1,63) 1,11 (1,33) 1,06 (1,35)
1,20 (1,40) 1,18 (1,63) 1,20 (1,70) 1,18 (1,63) 1,04 (0,00)
1,13 (1,58) 1,09 (1,40) 1,14 (1,49) 1,09 (1,90) 1,11 (0,63)
0,75 (0,97) 0,73 (0,84) 0,75 (0,97) 0,75 (0,97) 0,64 (0,97)
0,86 (1,14) 0,85 (0,00) 0,86 (1,14) 0,85 (0,00) 0,79 (1,03)
0,97 (0,84) 0,96 (0,63) 0,98 (0,97) 0,96 (0,63) 0,92 (0,97)
0,53 (0,84) 0,51 (0,63) 0,56 (0,97) 0,48 (0,00) 0,48 (0,00)
1,06 (1,65) 1,06 (1,65) 1,08 (1,94) 1,06 (1,65) 1,07 (2,15)
0,78 (1,05) 0,73 (0,84) 0,76 (1,03) 0,73 (0,84) 0,82 (1,26)
0,87 (1,58) 0,85 (0,00) 0,87 (0,84) 0,85 (0,00) 1,01 (1,69)
1,57 (2,49) 1,53 (1,90) 1,58 (3,02) 1,53 (2,35) 1,50 (3,29)
0,98 (1,90) 0,91 (1,03) 0,94 (1,75) 0,91 (1,03) 0,95 (0,00)
0,48 (0,00) 0,48 (0,00) 0,48 (0,00) 0,48 (0,00) 0,48 (0,00)
1,23 (1,14) 1,20 (1,03) 1,21 (1,03) 1,19 (0,97) 1,23 (2,49)
0,48 (0,00) 0,48 (0,00) 0,48 (0,00) 0,48 (0,00) 0,48 (0,00)
6,10 (5,16) 3,75 (4,23) 6,06 (5,27) 3,73 (4,23) 3,58 (4,40)

log10

RF-2a
5,80 (24085,36)
5,77 (3314,13)
5,37 (4000,00)
5,24 (3058,18)
5,45 (5598,30)
5,64 (8443,43)
4,85 (3959,00)
5,36 (2164,65)
5,34 (2938,35)
6,06 (9510,87)
5,97 (15527,99)
4,95 (1175,47)
5,27 (2265,65)
5,27 (3234,82)
5,52 (7099,53)
5,03 (1261,95)
5,85 (12661,41)
5,60 (5639,96)
5,98 (6763,88)
6,09 (9349,92)
5,82 (18209,36)
5,82 (12681,04)
6,11 (13835,23)
5,86 (11593,31)
12,00 (12,00)

CONSIDERAES FINAIS

54

55

CONSIDERAES FINAIS

Tabela 5.4:

Classicador
A1-a(100)
A1-2a(100)
A1-a(70)
A1-2a(70)
A1-a(90)
A1-2a(90)
J48
J48(U)
RT

Resultados do teste de Friedman para os nmeros de ns dos 9 classicadores.


A1-a(100)

A1-2a(100)

A1-a(70)

A1-2a(70)

A1-a(90)

A1-2a(90)

J48

J48(U)

RT

M
N

H
M
H

M
N
O
N

H
M
H
O
H

H
M
H
O
H
O

H
M
H
M
H
M
M

N
N
N
N
N
N
N
N

Valores das mtricas de comparao entre rvores geradas pelo Algoritmo 1 (A12a(90)) e pelo algoritmo J48

Tabela 5.5:

Base de dados

Mtrica J

Mtrica JN

Mtrica JNP

Mtrica P

0,01
0,01
0,04
0,18
0,08

0,00
0,02
0,00
0,20
0,05

0,00
0,00
0,00
0,03
0,00
0,09
0,30
0,06
0,07
0,02
0,07
0,00
0,13
0,15
0,00
0,00
0,09
0,02
0,21
0,02
0,01
0,00
0,02
0,00
0,05
0,02

welsh-2001-GNF
butte-data-set
nielsen-soft-2002
prostate-outcome
alizadeh-lymph
MLL-completo
lungcancer-ontario
DLBCLOutcome
pomeroy-cns-dataset-C
breastCancer-completo
lung-harvard
ma-2003-breast
aml-all-completo
DLBCLTumor
leung-2002-gastric
lung-Michigan
prostate-tumorVSNormal
lungCancer-completo
ovarian-61902
DLBCL-NIH-completo
BCR-ABL-completo
E2A-PBX1-completo
Hyperdip50-completo
T-ALL-completo

0,57

0,60

1,00

1,00

0,00
0,01
0,00
0,02
0,00
0,18
0,28
0,04
0,09
0,03
0,06
0,00
0,13
0,16
0,00
0,00
0,08
0,03
0,24
0,03
0,01
0,00
0,02
0,00

Mdia
Mediana

0,15
0,09

0,17
0,07

0,06
0,03

0,39
0,06
0,09
0,07
0,15
0,05
0,10
0,10
0,14
0,00
0,15
0,16
0,13
0,03
0,01
0,00
0,04

0,43
0,08
0,14
0,06
0,24
0,03
0,15
0,20
0,03
0,00
0,28
0,22
0,27
0,03
0,03
0,00
0,02

CONSIDERAES FINAIS

56

Valores das mtricas de comparao entre rvores geradas pelo Algoritmo 1 (A12a(90)) e pela Random Tree
Tabela 5.6:

Base de dados
welsh-2001-GNF
butte-data-set
nielsen-soft-2002
prostate-outcome
alizadeh-lymph
MLL-completo
lungcancer-ontario
DLBCLOutcome
pomeroy-cns-dataset-C
breastCancer-completo
lung-harvard
ma-2003-breast
aml-all-completo
DLBCLTumor
leung-2002-gastric
lung-Michigan
prostate-tumorVSNormal
lungCancer-completo
ovarian-61902
DLBCL-NIH-completo
BCR-ABL-completo
E2A-PBX1-completo
Hyperdip50-completo
T-ALL-completo
Mdia
Mediana

Tabela 5.7:

Mtrica J

Mtrica JN

Mtrica JNP

Mtrica P

0,01
0,00
0,01
0,00
0,01
0,00
0,00
0,00
0,01
0,01
0,00
0,02
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00

0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,01
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00

0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00

0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00

Valores dos coecientes de regresso.


Mtricas comparadas

R2

J e JN
JeJNP
J e M4
JN e JN P
JN e P
JN P e P

0,94
0,07
0,04
0,16
0,11
0,93

Captulo

Concluses
Aps a execuo dos dois experimentos preliminares explicados anteriormente foi gerada
a rvore a partir de uma

Random Forest. Tal rvore foi gerada usando Random Forests com

a e 2a rvores, a frequncia considerando o erro out-of-bag

estimado como mtrica de escolha

dos atributos que iriam compor a rvore nal e uma porcentagem desses atributos a serem
considerados (100%, 90% e 70%). Foram analisadas 24 bases de expresso gnica (descritas
na Seo A.2). No geral, o algoritmo proposto apresentou um desempenho igual ou melhor
do que o classicador J48 e

Random Tree

e um desempenho inferior ao da

Random Forest.

A rvore tambm apresentou, no geral, nmeros de ns similares ao J48 e menores do que a

Random Tree.
Quando comparadas as estruturas das rvores criadas pelo Algoritmo 1, J48 e

Tree

Random

pde-se concluir que as rvores obtidas pelo Algoritmo 1 so mais parecidas com as

obtidas pelo J48, porm essa similaridade no alta. Essa diferena nas estruturas das
rvores, ou seja, nos genes utilizados por cada uma para classicar novos exemplos, pode ser
muito interessante, uma vez que as informaes obtidas por meio de cada uma so diferentes.
Assim, o algoritmo aqui proposto pode fornecer informaes diferentes a respeito das bases

57

PRINCIPAIS RESULTADOS E PUBLICAES

58

de expresso gnica com relao aos algoritmos existentes at o momento, como por exemplo
J48 e

Random Tree.

Assim, analisando os resultados obtidos, pode-se notar que a metodologia proposta neste
estudo tem um bom potencial, uma vez que apresenta desempenho melhor do que alguns
classicadores j conhecidos em muitas bases de dados testadas e nmero de ns menores,
ou seja, rvores menores e mais simples de serem interpretadas por humanos. Alm disso, as
rvores criadas apresentaram estruturas (ns) diferentes das rvores geradas pelos demais
classicadores e, assim, elas podem fornecer informaes diferentes e at novas a respeito de
um determinado problema biolgico, ampliando assim o conhecimento humano.

6.1

Principais resultados e publicaes

O presente trabalho resultou em 2 publicaes em dois congressos internacionais.


O primeiro artigo (Oshiro, Perez & Baranauskas 2012), intitulado

a Random Forest?,
Data Mining

foi aceito no

How Many Trees in

8th International Conference on Machine Learning and

(MLDM 2012) e publicado em

Lecture Notes in Computer Science.

Este ar-

tigo referente ao primeiro experimento realizado durante o desenvolvimento do projeto de


mestrado, descrito na Seo B.2. DOI 10.1007/978-3-642-31537-4_13.
O segundo artigo (Oshiro & Baranauskas 2012), intitulado

Root Attribute Behavior

within a Random Forest, foi aceito no Intelligent Data Engineering and Automated Learning
(IDEAL 2012) e publicado em

Lecture Notes in Computer Science.

Este artigo tem como

tema o segundo experimento, descrito na Seo B.3. DOI 10.1007/978-3-642-32639-4_87.

6.2

Trabalhos Futuros

Os resultados obtidos neste projeto de mestrado so promissores, umas vez que a rvore
nal obtida apresentou uma estabilidade maior do que a

Random Tree

na maioria dos casos, maior do que o J48 e apresentou um


J48 e a

Random Tree

rank

(como esperado) e

mdio melhor do que o

para os valores de AUC obtidos e os nmeros de ns das rvores

criadas. Sendo assim, trabalhos futuros podero melhorar o desempenho e a estabilidade do


algoritmo proposto.
Outros mtodos para a criao da rvore nal podero ser desenvolvidos e seus resultados,

TRABALHOS FUTUROS

podero ser comparados aos obtidos neste trabalho.

59

Referncias
(2010). Cancer program data sets. Broad Institute.

Citado na pgina 73.

(2010). Dataset repository in ar (weka). BioInformatics Group Seville.

Citado na p-

gina 73.
(2010). Datasets. http://cilab.ujn.edu.cn/datasets.htm. Cilab.

Citado na pgina 73.

Acuna, E. & Rojas, A. (2001). Bagging classiers based on kernel density estimators. In

Proceedings of the International Conference on New Trends in Computational Statistics with Biomedical Applications, pp.
Alberts, B. (1997).

343350. Citado na pgina 16.

Biologia molecular da clula

(3 ed.). Artes Mdicas.

Citado na p-

gina 29.
Alberts, B., Johnson, A., Lewis, J., Ra, M., Roberts, K. & Walter, P. (2010).

Molecular da Clula

(5 ed.). Porto Alegre.

Biologia

Citado nas pginas vi, 20, 21, 22, 23, 24,

25, 26, 27, 28, and 29.


Alizadeh, A. A., Eisen, M. B., Davis, R. E., Ma, C., Lossos, I. S., Rosenwald, A., Boldrick,
J. C., Sabet, H., Tran, T., Yu, X., Powell, J. I., Yang, L., Marti, G. E., Moore, T.,
Hudson, J., Lu, L., Lewis, D. B., Tibshirani, R., Sherlock, G., Chan, W. C., Greiner, T. C., Weisenburger, D. D., Armitage, J. O., Warnke, R., Levy, R., Wilson, W.,
Grever, M. R., Byrd, J. C., Botstein, D., Brown, P. O. & Staudt, L. M. (2000). Distinct types of diuse large B-cell lymphoma identied by gene expression proling.

Nature 403 (6769), 503511.

Citado na pgina 73.

60

61

REFERNCIAS

Armstrong, S. A., Staunton, J. E., Silverman, L. B., Pieters, R., den Boer, M. L., Minden,
M. D., Sallan, S. E., Lander, E. S., Golub, T. R. & Korsmeyer, S. J. (2002). MLL
translocations specify a distinct gene expression prole that distinguishes a unique
leukemia.

Nat Genet 30, 4147.

Citado na pgina 73.

Aslan, O., Yildiz, O. T. & Alpaydin, E. (2009). Calculating the VC-dimension of decision
trees. In
193198.

International Symposium on Computer and Information Sciences 09,

pp.

Citado na pgina 77.

Aziz, A. & Ahmed, N. (2011). Construction of single classier from multiple interim classication trees.
172178.

International Journal of Computer Science and Network Security 11 (5),

Citado na pgina 36.

Baranauskas, J. A. (2001). Extrao automtica de conhecimento utilizando mltiplos indutores. Technical report, Instituto de Cincias Matemticas e de Computao, Universidade de So Paulo, Brasil.

Citado na pgina 12.

Bauer, E. & Kohavi, R. (1999). An empirical comparison of voting classication algorithms: Bagging, boosting, and variants.

Machine Learning 36 (1-2), 105139.

Citado

na pgina 16.
Beer, D. G., Kardia, S. L., Huang, C.-C., Giordano, T. J., Levin, A. M., Misek, D. E., Lin,
L., Chen, G., Gharib, T. G., Thomas, D. G., Lizyness, M. L., Kuick, R., Hayasaka, S.,
Taylor, J. M., Iannettoni, M. D., Orringer, M. B. & Hanash, S. (2002). Gene-expression
proles predict survival of patients with lung adenocarcinoma.

Nat Med 8 (8), 816824.

Citado na pgina 74.


Benjamini, Y. & Hochberg, Y. (1995). Controlling the false discovery rate: a practical and
powerful approach to multiple testing.

B 57, 289300.

Journal of the Royal Statistical Society Series

Citado na pgina 41.

Bhattacharjee, A., Richards, W. G., Staunton, J., Li, C., Monti, S., Vasa, P., Ladd, C.,
Beheshti, J., Bueno, R., Gillette, M., Loda, M., Weber, G., Mark, E. J., Lander, E. S.,
Wong, W., Johnson, B. E., Golub, T. R., Sugarbaker, D. J. & Meyerson, M. (2001).
Classication of human lung carcinomas by mRNA expression proling reveals distinct
adenocarcinoma subclasses.

Proceedings of the National Academy of Sciences of the

REFERNCIAS

United States of America 98 (24), 1379013795.


Breiman, L. (1996). Bagging predictors.

62

Citado na pgina 74.

Machine Learning 24 (2),

123140.

Citado nas

pginas 1, 14, 15, and 16.


Breiman, L. (2001). Random forests.

Machine Learning 45 (1), 532.

Citado nas pginas 1,

14, 15, 16, 17, and 18.


Breiman, L. (2004). Wald lecture ii, looking inside the black box. http://www.stat.
berkeley.edu/users/breiman. Citado na pgina 18.
Breiman, L. & Cutler, A. (2004). Random forests: Classication/clustering. http://www.
stat.berkeley.edu/users/breiman/RandomForests.

Citado na pgina 18.

Brenner, S., Johnson, M., Bridgham, J., Golda, G., Lloyd, D. H., Johnson, D., Luo, S., McCurdy, S., Foy, M., Ewan, M., Roth, R., George, D., Eletr, S., Albrecht, G., Vermaas,
E., Williams, S. R., Moon, K., Burcham, T., Pallas, M., DuBridge, R. B., Kirchner, J.,
Fearon, K., Mao, J. & Corcoran, K. (2000). Gene expression analysis by massively parallel signature sequencing (MPSS) on microbead arrays.
630634.

Nature biotechnology 18 (6),

Citado na pgina 30.

Bruce, R. (2001). A bayesian approach to semi-supervised learning.

North, 5764.

Citado

na pgina 6.
Butte, A. J., Tamayo, P., Slonim, D., Golub, T. R. & Kohane, I. S. (2000). Discovering
functional relationships between RNA expression and chemotherapeutic susceptibility
using relevance networks.

Proceedings of the National Academy of Sciences of the

United States of America 97 (22), 1218212186.

Citado na pgina 73.

Cheung, V. G., Morley, M., Aguilar, F., Massimi, A., Kucherlapati, R. & Childs, G.
(1999). Making and reading microarrays.

Nature genetics 21 (1 Suppl), 1519.

Citado

na pgina 30.
Daz-Uriarte, R. & de Andrs, S. A. (2006). Gene selection and classication of microarray
data using random forest.

BMC Bioinformatics 7,

3.

Citado nas pginas 2, 3, 34,

and 35.
de Souto, M. C. P., Lorena, A., Delbem, A. & de Carvalho, A. (2003). Tcnicas de Aprendi-

REFERNCIAS

zado de Mquina para Problemas de Biologia Molecular. In

Articial.

63

III Jornada de Inteligncia

Citado na pgina 29.

Demar, J. (2006). Statistical comparison of classiers over multiple data sets.

Machine Learning Research 7 (1), 130.

Citado nas pginas 40 and 41.

Dietterich, T. G. (2000). Ensemble Methods in Machine Learning.

puter Science 1857, 115.

Journal of

Lecture Notes in Com-

Citado nas pginas 1, 13, and 16.

Dubath, P., Rimoldini, L., Sveges, M., Blomme, J., Lpez, M., Sarro, L. M., De Ridder,
J., Cuypers, J., Guy, L., Lecoeur, I., Nienartowicz, K., Jan, A., Beck, M., Mowlavi,
N., De Cat, P., Lebzelter, T. & Eyer, L. (2011). Random forest automated supervised classication of hipparcos periodic variable stars.

Astronomical Society 414 (3), 26022617.

Monthly Notices of the Royal

Citado na pgina 17.

Efron, B. (1979). Bootstrap Methods: Another Look at the Jackknife.

Statistics 7 (1), 126.

The Annals of

Citado na pgina 15.

Frank, A. & Asuncion, A. (2010). UCI machine learning repository. http://archive.ics.uci.


edu/ml.

Citado na pgina 73.

Freund, Y. & Schapire, R. E. (1996). Experiments with a new boosting algorithm. In

Proceedings of the Thirteenth International Conference on Machine Learning,

Lake

Tahoe, California, pp. 148156. Citado nas pginas 1, 14, and 16.
Friedman, M. (1940). A comparison of alternative tests of signicance for the problem of m
rankings.

The Annals of Mathematical Statistics 11 (1), 8692.

Citado nas pginas 41,

76, and 88.


Gamberger, D., Lavrac, N., Zelezny, F. & Tolar, J. (2004). Induction of comprehensible
models for gene expression datasets by subgroup discovery methodology.

Biomedical Informatics 37, 269284.

Journal of

Citado nas pginas 3 and 84.

Goldstein, B., Hubbard, A., Cutler, A. & Barcellos, L. (2010). An application of random
forests to a genome-wide association dataset: Methodological considerations and new
ndings.

BMC Genetics 11 (1), 49.

Citado nas pginas 34, 35, and 39.

Golub, T. R., Slonim, D. K., Tamayo, P., Huard, C., Gaasenbeek, M., Mesirov, J. P.,

64

REFERNCIAS

Coller, H., Loh, M. L., Downing, J. R., Caligiuri, M. A., Bloomeld, C. D. & Lander,
E. S. (1999). Molecular classication of cancer: class discovery and class prediction by
gene expression monitoring.

Science 286 (5439), 531537.

Citado na pgina 74.

Gordon, G. J., Jensen, R. V., li Hsiao, L., Gullans, S. R., Blumenstock, J. E., Ramaswamy,
S., Richards, W. G., Sugarbaker, D. J. & Bueno, R. (2002). Translation of microarray
data into clinically relevant cancer diagnostic tests using gene expression ratios in lung
cancer and mesothelioma.

Cancer Research 62 (17), 4963.

Citado na pgina 74.

Guindalini, C. & Tuk, S. (2007). Use of microarrays in the search of gene expression patterns: application to the study of complex phenotypes.

Sao Paulo Brazil 1999 29 (4), 370374.

Revista brasileira de psiquiatria

Citado na pgina 30.

Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P. & Witten, I. H. (2009).
The weka data mining software: an update.

Association for Computing Machinery's

Special Interest Group on Knowledge Discovery and Data Mining Explor. Newsl. 11 (1),
1018.

Citado nas pginas 40, 85, and 88.

Hand, D. & Till, R. (2001).

A simple generalisation of the area under the ROC

curve for multiple class classication problems. Machine Learning 45 (2), 171
186.

Citado na pgina 8.

Huang, J. & Ling, C. X. (2005). Using AUC and accuracy in evaluating learning algorithms.

Knowledge and Data Engineering, IEEE Transactions on 17 (3),

299310.

Citado na pgina 9.
Jaccard, P. (1901). tude comparative de la distribution orale dans une portion des
Alpes et des Jura.
579.

Bulletin del la Socit Vaudoise des Sciences Naturelles 37,

547

Citado na pgina 41.

Klassen, M., Cummings, M. & Saldaa, G. (2008). Investigation of random forest performance with cancer microarray data. In T. Philip (Ed.),

cations, pp.

6469. ISCA.

Computers and Their Appli-

Citado na pgina 2.

Klug, W., Cummings, M., Palladino, M. & Spencer, C. (2010).

Conceitos de Gentica

(9

ed.). ArtMed Editora. Citado nas pginas vi, 20, 21, 22, 23, 25, 27, 28, 31, and 33.

REFERNCIAS

65

Kubat, M., Bratko, I. & Michalski, R. (1998). A review of machine learning methods.
Citado na pgina 6.
Kuncheva, L. I. (2004).
Interscience.

Combining Pattern Classiers: Methods and Algorithms.

Wiley-

Citado na pgina 1.

Lee, J., Park, M. & Song, S. (2005). An extensive comparison of recent classication tools
applied to microarray data.

Computational Statistics Data Analysis 48 (4),

869885.

Citado na pgina 34.


Leung, S. Y., Chen, X., Chu, K. M., Yuen, S. T., Mathy, J., Ji, J., Chan, A. S. Y., Li, R.,
Law, S., Troyanskaya, O. G., Tu, I.-P., Wong, J., So, S., Botstein, D. & Brown, P. O.
(2002). Phospholipase a2 group iia expression in gastric adenocarcinoma is associated with prolonged survival and less frequent metastasis.

Academy of Sciences 99 (25), 16203.


Lewis, R. (2001).

Citado na pgina 74.

Human genetics: concepts and applications

education. McGraw-Hill.

Proceedings of the National

(4 ed.). McGraw-Hill higher

Citado na pgina 22.

Liaw, A. & Wiener, M. (2002). Classication and regression by randomforest.


1822.

R News 2 (3),

Citado nas pginas 1, 14, and 37.

Ling, C., Huang, J. & Zhang, H. (2003). Auc: A better measure than accuracy in comparing learning algorithms. In Y. Xiang & B. Chaib-draa (Eds.),

Advances in Articial

Intelligence, Volume 2671 of Lecture Notes in Computer Science, pp. 991991. Springer
Berlin / Heidelberg.

Citado nas pginas 10 and 39.

Liu, E. T. Citado na pgina 30.


Lockhart, D. J., Dong, H., Byrne, M. C., Follettie, M. T., Gallo, M. V., Chee, M. S.,
Mittmann, M., Wang, C., Kobayashi, M., Norton, H. & Brown, E. L. (1996). Expression monitoring by hybridization to highdensity oligonucleotide arrays.

Biotechnology 14 (13), 16751680.

Nature

Citado na pgina 30.

Lopes, L. (2007). Aprendizagem de mquina baseada na combinao de classicadores em


bases de dados da rea de sade. Master's thesis, Pontifcia Universidade Catlica do
Paran. Citado na pgina 16.

REFERNCIAS

66

Ma, X.-J., Salunga, R., Tuggle, J. T., Gaudet, J., Enright, E., McQuary, P., Payette, T.,
Pistone, M., Stecker, K., Zhang, B. M., Zhou, Y.-X., Varnholt, H., Smith, B., Gadd,
M., Chateld, E., Kessler, J., Baer, T. M., Erlander, M. G. & Sgroi, D. C. (2003). Gene
expression proles of human breast cancer progression.

Academy of Sciences 100 (10), 59745979.

Proceedings of the National

Citado na pgina 74.

Ma, Y., Guo, L. & Cukic, B. (2007). Statistical framework for the prediction of faultproneness. In
Group.

Advances in machine learning applications in software engineering. Idea

Citado na pgina 18.

Michalski, R. S. (1983). A theory and methodology of inductive learning. In R. S. Michalski, J. G. Carbonell, & T. M. Mitchell (Eds.),

Machine learning : An articial

intelligence approach, Volume 1, pp. 83134. Morgan Kaufmann.


Mitchell, T. (1997).

Citado na pgina 6.

Machine Learning (Mcgraw-Hill International Edit).

McGraw-Hill

Education (ISE Editions). Citado nas pginas 6 and 76.


Monard, M. C. & Baranauskas, J. A. (2003).
Chapter 5, pp. 115140. Manole.

Induo de Regras e rvores de Deciso,

Citado na pgina 6.

Nanni, L., Brahnam, S. & Lumini, A. (2012). Combining multiple approaches for gene
microarray classication.

Bioinformatics 28 (8), 11511157.

Citado na pgina 2.

Netto, O. P., Nozawa, S. R., Mitrowsky, R. A. R., Macedo, A. A. & Baranauskas, J. A.


(2010). Applying decision trees to gene expression data from dna microarrays: A leukemia case study. In

XXX Congresso da Sociedade Brasileira de Computao,

Horizonte, MG, pp. 10p.

Belo

Citado nas pginas 72 and 84.

Nielsen, T., West, R., Linn, S., Alter, O., Knowling, M., Oconnell, J., Zhu, S., Fero, M.,
Sherlock, G. & Pollack, J. (2002). Molecular characterisation of soft tissue tumours: a
gene expression study.

The Lancet 359 (9314), 13011307.

Citado na pgina 73.

Oh, I.-S., Lee, J.-S. & Moon, B.-R. (2004). Hybrid genetic algorithms for feature selection.

IEEE Trans. Pattern Anal. Mach. Intell. 26, 14241437.

Citado na pgina 39.

Oshiro, T. M. & Baranauskas, J. A. (2012). Root attribute behavior within a random


forest. In

Intelligent Data Engineering and Automated Learning - IDEAL 2012, Volume

REFERNCIAS

7435 of

67

Lecture Notes in Computer Science, pp. 733742. Springer Berlin Heidelberg.

Citado nas pginas 39, 40, 45, 58, and 71.


Oshiro, T. M., Perez, P. S. & Baranauskas, J. A. (2012). How many trees in a random
forest? In P. Perner (Ed.),
Volume 7376 of
Heidelberg.

Machine Learning and Data Mining in Pattern Recognition,

Lecture Notes in Computer Science,

pp. 154168. Springer Berlin

Citado nas pginas 36, 37, 39, 45, 58, and 71.

Pang, H., Lin, A., Holford, M., Enerson, B. E., Lu, B., Lawton, M. P., Floyd, E. &
Zhao, H. (2006). Pathway analysis using random forests classication and regression.

Bioinformatics 22, 20282036.

Citado na pgina 3.

Perez, P. S. & Baranauskas, J. A. (2011). Analysis of decision tree pruning using windowing
in medical datasets with dierent class distributions. In

Proceedings of the Workshop

on Knowledge Discovery in Health Care and Medicine of the European Conference on


Machine Learning and Principles and Practice of Knowledge Discovery in Databases
(ECML PKDD KDHCM), Athens,

Greece, pp. 2839.

Perner, P. (2011). How to interpret decision trees? In

Citado na pgina 77.

Proceedings of the 11th international

conference on Advances in data mining: applications and theoretical aspects, ICDM'11,


Berlin, Heidelberg, pp. 4055. Springer-Verlag.

Citado nas pginas 41 and 43.

Petricoin, E. F., Ardekani, A. M., Hitt, B. A., Levine, P. J., Fusaro, V. A., Steinberg,
S. M., Mills, G. B., Simone, C., Fishman, D. A., Kohn, E. C. & Liotta, L. A. (2002).
Use of proteomic patterns in serum to identify ovarian cancer.
572577.

The Lancet 359 (9306),

Citado na pgina 74.

Pomeroy, S. L., Tamayo, P., Gaasenbeek, M., Sturla, L. M., Angelo, M., McLaughlin,
M. E., Kim, J. Y. H., Goumnerova, L. C., Black, P. M., Lau, C., Allen, J. C., Zagzag,
D., Olson, J. M., Curran, T., Wetmore, C., Biegel, J. A., Poggio, T., Mukherjee, S.,
Rifkin, R., Califano, A., Stolovitzky, G., Louis, D. N., Mesirov, J. P., Lander, E. S. &
Golub, T. R. (2002). Prediction of central nervous system embryonal tumour outcome
based on gene expression.

Nature 415 (6870), 436442.

Citado na pgina 74.

Rosenwald, A., Wright, G., Chan, W. C., Connors, J. M., Campo, E., Fisher, R. I., Gascoyne, R. D., Muller-Hermelink, H. K., Smeland, E. B., Giltnane, J. M., Hurt, E. M.,

68

REFERNCIAS

Zhao, H., Averett, L., Yang, L., Wilson, W. H., Jae, E. S., Simon, R., Klausner,
R. D., Powell, J., Duey, P. L., Longo, D. L., Greiner, T. C. & It Et Al (2002). The
use of molecular proling to predict survival after chemotherapy for diuse large-B-

New England Journal of Medicine 346 (25),

cell lymphoma.

19371947.

Citado na

pgina 75.
Saeys, Y., Inza, I. n. & Larraaga, P. (2007). A review of feature selection techniques in
bioinformatics.

Bioinformatics 23, 25072517.

Citado na pgina 39.

Sharp, F. R., Xu, H., Lit, L., Walker, W., Apperson, M., Gilbert, D. L., Glauser, T. A.,
Wong, B., Hershey, A., Liu, D.-Z. Z., Pinter, J., Zhan, X., Liu, X. & Ran, R. (2006).
The future of genomic proling of neurological diseases using blood.

rology 63 (11), 15291536.

Archives of neu-

Citado na pgina 30.

Shipp, M. A., Ross, K. N., Tamayo, P., Weng, A. P., Kutok, J. L., Aguiar, R. C., Gaasenbeek, M., Angelo, M., Reich, M., Pinkus, G. S., Ray, T. S., Koval, M. A., Last, K. W.,
Norton, A., Lister, T. A., Mesirov, J., Neuberg, D. S., Lander, E. S., Aster, J. C.
& Golub, T. R. (2002). Diuse large B-cell lymphoma outcome prediction by geneexpression proling and supervised machine learning.

Nature Medicine 8 (1),

6874.

Citado na pgina 74.


Singh, D., Febbo, P. G., Ross, K., Jackson, D. G., Manola, J., Ladd, C., Tamayo, P.,
Renshaw, A. A., D'Amico, A. V. & Richie, J. P. (2002). Gene expression correlates of
clinical prostate cancer behavior.

Cancer Cell 1 (2),

203209.

Citado nas pginas 73

and 74.
Sirikulviriya, N. & Sinthupinyo, S. (2011). Integration of rules from a random forest.

national Conference on Information and Electronics Engineering 6,

Inter-

194198.

Citado

Introduction to Data Mining

(1 ed.).

na pgina 1.
Tan, P.-N., Steinbach, M. & Kumar, V. (2005).
Addison Wesley.

No citado no texto.

van 't Veer, L. J., Dai, H., van de Vijver, M. J., He, Y. D., Hart, A. A., Mao, M.,
Peterse, H. L., van der Kooy, K., Marton, M. J., Witteveen, A. T., Schreiber, G. J.,
Kerkhoven, R. M., Roberts, C., Linsley, P. S., Bernards, R. & Friend, S. H. (2002).

69

REFERNCIAS

Nature 415 (6871), 530536.

Citado na pgina 74.

Vapnik, V., Levin, E. & Cun, Y. L. (1994). Measuring the vc-dimension of a learning

Neural Computation 6, 851876.

machine.

Citado na pgina 76.

Velculescu, V. E., Zhang, L., Vogelstein, B. & Kinzler, K. W. (1995). Serial analysis of
gene expression.

Science 270, 484487.

Citado na pgina 29.

Wang, G., Hao, J., Ma, J. & Jiang, H. (2011). A comparative assessment of ensemble
learning for credit scoring.

Expert Systems with Applications 38, 223230.

Citado na

pgina 14.
Watson, J. D. & Crick, F. H. C. (1953). Molecular Structure of Nucleic Acids: A Structure
for Deoxyribose Nucleic Acid.

Nature 171 (4356), 737738.

Weiss, S. M. & Kulikowski, C. A. (1991).

Citado na pgina 20.

Computer systems that learn : classication and

prediction methods from statistics, neural nets, machine learning, and expert systems.
Morgan Kaufmann Publishers. Citado na pgina 5.
Welsh, J. B., Sapinoso, L. M., Su, A. I., Kern, S. G., Wang-Rodriguez, J., Moskaluk, C. A.,
Frierson, H. F. & Hampton, G. M. (2001). Analysis of gene expression identies candidate markers and pharmacological targets in prostate cancer.
59748.

Cancer Research 61 (16),

Citado na pgina 73.

Wigle, D. A., Jurisica, I., Radulovich, N., Pintilie, M., Rossant, J., Liu, N., Lu, C., Woodgett, J., Seiden, I., Johnston, M., Keshavjee, S., Darling, G., Winton, T., Breitkreutz,
B.-J., Jorgenson, P., Tyers, M., Shepherd, F. A. & Tsao, M. S. (2002). Molecular proling of non-small cell lung cancer and correlation with disease-free survival.

Research 62 (11), 3005.

Cancer

Citado na pgina 73.

Witten, I. H. & Frank, E. (1999).

Data Mining: Practical Machine Learning Tools and

Techniques with Java Implementations,

Volume 1. Morgan Kaufmann.

Citado na

pgina 1.
Wu, B., Abbott, T., Fishman, D., McMurray, W., Mor, G., Stone, K., Ward, D., Williams, K. & Zhao, H. (2003). Comparison of statistical methods for classication of
ovarian cancer using a proteomics dataset.

Bioinformatics 19 (13), 16361643.

Citado

REFERNCIAS

70

na pgina 34.
Yamamoto, M., Wakatsuki, T., Hada, A. & Ryo, A. (2001). Use of serial analysis of gene
expression (SAGE) technology.

Journal of immunological methods 250 (1-2),

4566.

Citado nas pginas 29 and 30.


Yeoh, E. J., Ross, M. E., Shurtle, S. A., Williams, K. W., Patel, D., Mahfouz, R., Behm,
F. G., Raimondi, S. C., Relling, M. V., Patel, A. & Cheng (2002). Classication,
subtype discovery, and prediction of outcome in pediatric acute lymphoblastic leukemia
by gene expression proling.

Cancer Cell 1 (2), 133143.

Citado na pgina 75.

Zhao, Y. & Zhang, Y. (2008). Comparison of decision tree methods for nding active
objects.

Advances in Space Research 41, 19551959.

Citado na pgina 17.

Apndice

Bases de Dados
Neste apndice so descritas resumidamente as bases utilizadas nos experimentos preliminares (Oshiro, Perez & Baranauskas 2012) e (Oshiro & Baranauskas 2012) descritos no
Apndice B e na construo da rvore nal. As bases referentes aos experimentos esto no
Apndice A.1 e as referentes a construo da rvore nal esto no Apndice A.2.

A.1

Bases de dados usadas para os experimentos realizados

Todas as bases de dados usadas representam bases mdicas reais ou bases de expresso
gnica e nenhuma possui valor ausente para o atributo classe. Na Tabela A.1 mostrado
um resumo das bases de dados e as mtricas de densidade correspondentes, denidas na
Seo B.1. As bases esto ordenadas de acordo com a mtrica

D2

(vide Apndice B.1),

obtendo assim 8 bases de baixas densidades e 21 de altas densidades. No restante desta


seo, uma breve descrio de cada base fornecida.

Breast Cancer, Lung Cancer, CNS (Central Nervous System Tumour Outcome),Lymphoma,

71

BASES DE DADOS USADAS PARA OS EXPERIMENTOS REALIZADOS

72

Resumo das bases de dados utilizadas neste experimento, onde n indica o nmero de
exemplos; c representa o nmero de classes; a, a# e aa indica o nmero total de atributos, o nmero
de atributos nmericos e o nmero de atributos nominais, respectivamente; MISS representa a porcentagem de atributos com valores ausentes, sem considerar o atributo classe; as ltimas 3 colunas
so as mtricas de densidade D1 , D2 , D3 de cada base, respectivamente. Bases esto ordenadas por
D2 em ordem crescente.
Tabela A.1:

Base de dados

GCM (Global

de

a(a# ,aa )

MISS

D1

D2

D3

GCM
Lymphoma
CNS
Leukemia
Leukemia nom,
Ovarian 61902
Lung Cancer
C. Arrhythmia

190
96
60
72
72
253
32
452

14
9
2
2
2
2
3
16

16063 (16063, 0)
4026 (4026, 0)
7129 (7129, 0)
7129 (7129, 0)
7129 (7129, 0)
15154 (15154, 0)
56 (0, 56)
279 (206, 73)

0,00%
5,09%
0,00%
0,00%
0,00%
0,00%
0,28%
0,32%

0,54
0,55
0,46
0,48
0,48
0,57
0,86
1,08

0,27
0,28
0,38
0,40
0,40
0,50
0,59
0,59

0,26
0,27
0,34
0,36
0,36
0,46
0,52
0,58

Dermatology
HD Switz,
Lymphography
Hepatitis
HD Hungarian
HD Cleveland
P. Patient
WDBC
Splice Junction
Heart Statlog
Allhyper
Allhypo
Sick
Breast Cancer
Hypothyroid
ANN Thyroid
WBC
C. Method
Pima Diabetes
Liver Disorders
H. Survival

366
123
148
155
294
303
90
569
3190
270
3772
3772
3772
286
3163
7200
699
1473
768
345
306

6
5
4
2
5
5
3
2
3
2
5
4
2
2
2
3
2
3
2
2
2

34 (1, 33)
13 (6, 7)
18 (3, 15)
19 (6, 13)
13 (6, 7)
13 (6, 7)
8 (0, 8)
30 (30, 0)
60 (0, 60)
13 (13, 0)
29 (7, 22)
29 (7, 22)
29 (7, 22)
9 (0, 9)
25 (7, 18)
21 (6, 15)
9 (9, 0)
9 (2, 7)
8 (8, 0)
6 (6, 0)
3 (2, 1)

0,06%
17,07%
0,00%
5,67%
20,46%
0,18%
0,42%
0,00%
0,00%
0,00%
5,54%
5,54%
5,54%
0,35%
6,74%
0,00%
0,25%
0,00%
0,00%
0,00%
0,00%

1,67
1,88
1,73
1,71
2,21
2,22
2,16
1,86
1,97
2,18
2,44
2,44
2,44
2,57
2,50
2,92
2,98
3,32
3,19
3,26
5,21

1,17
1,25
1,25
1,48
1,59
1,60
1,63
1,66
1,70
1,91
1,97
2,03
2,24
2,26
2,29
2,56
2,66
2,82
2,86
2,87
4,58

1,12
1,18
1,17
1,34
1,52
1,53
1,50
1,54
1,63
1,75
1,91
1,97
2,12
2,07
2,16
2,46
2,48
2,69
2,67
2,65
4,21

Cancer Map),

Breast Cancer),

vival (H.

WDBC

Ovarian 61902, Leukemia, Leukemia nom., WBC

(Wisconsin Diagnostic Breast Cancer),

Haberman's

(Wisconsin

Lymphography

H. Sur-

so todas relacionadas a cancer e seus atributos consistem de

dados clnicos, laboratoriais e expresso gnica.

Leukemia

Leukemia nom.

representam a

mesma base, mas a segunda tem seus atributos discretizados (Netto et al. 2010).

C. Ar-

rhythmia (C. de Cardiac ), Heart Statlog, HD Cleveland, HD Hungarian e HD Switz. (Switz.


de

Switzerland )

esto relacionados a doenas cardacas e seus atributos representam dados

clnicos e laboratoriais.

Allhyper, Allhypo, ANN Thyroid, Hypothyroid e Sick

de bases relacionadas a condies da tireide.

Hepatitis

Liver Disorders

so uma srie

esto relaciona-

das com doenas do fgado, enquanto que

C. Method (C.

Pima Diabetes

P. Patient (P. de Postoperative ) so outras bases

(Pima Indians Diabetes) e

de

Contraceptive ), Dermatology,

BASES DE DADOS USADAS PARA O ALGORITMO 1

relacionadas a condies humanas.

Splice Junction

73

est relacionado a tarefa de previso de

limites entre exons e introns. As bases foram obtidas no Repositrio UCI (Frank & Asuncion
2010), exceto

CNS, Lymphoma, GCM

Ovarian 61902

foi obtida em (Dat 2010);

ECML

que foram obtidas a partir de (Dat 2010);

Leukemia e Leukemia nom. foram obtidas em (Can

2010).

A.2

Bases de dados usadas para o Algoritmo 1

Foram utilizadas 24 bases de expresso gnica por

microarray,

descritas resumidamente

na Tabela A.2, cuja legenda a mesma da Tabela A.1. A seguir, uma breve descrio de
cada base utilizada.

welsh-2001-GNF est relacionada com a classicao de amostras de tecido da prstata (Welsh et al. 2001);

butte-data-set est relacionada com a diferenciao entre diversos tipos de cncer:


mama, ovrio, leucemia, entre outros (Butte et al. 2000);

nielsen-soft-2002 est relacionada com a diferenciao entre os tipos de cncer: sarcoma


sinovial, tumor estromal gastrointestinal, leiomiossarcoma, lipossarcoma, histiocitoma
broso maligno e Schwannoma (Nielsen et al. 2002);

prostate-outcome est relacionada com a classicao do resultado clnico em pacientes


com tumor, os quais foram avaliados com relao recorrncia da doena aps a
cirurgia em um perodo de quatro anos (Singh et al. 2002);

alizadeh-lymph est relacionada com a classicao de pacientes de acordo com a


variao molecular do linfoma de clulas B (Alizadeh et al. 2000);

MLL-completo est relacionada com a diferenciao de pacientes com leucemia mieloide aguda, leucemia linfoctica aguda e leucemia de linhagem misturada (MLL) (Armstrong et al. 2002);

lungcancer-ontario est relacionada com a classicao de pacientes que tiveram tumor em: pacientes que apresentaram metstase local ou distante, ou como livre da
doena (Wigle et al. 2002);

BASES DE DADOS USADAS PARA O ALGORITMO 1

74

DLBCLOutcome est relacionada com a classicao de pacientes (curados ou fatais)


com linfoma de clulas B quanto ao resultado clnico da doena (Shipp et al. 2002);

pomeroy-cns-dataset-C est relacionada com a classicao de pacientes com meduloblastoma em pacientes que sobreviveram ao tratamento e pacientes que no sobreviveram (Pomeroy et al. 2002);

breastCancer-completo est relacionada com a classicao de paciente com cncer de


mama (van 't Veer et al. 2002);

lung-harvard est relacionada com a diferenciao de pacientes entre os diferentes tipos


de tumores e tambm pacientes normais (Bhattacharjee et al. 2001);

ma-2003-breast est relacionada com a classicao de pacientes com: carcinoma ductal

in-situ, carcinoma

ductal invasivo e hiperplasia ductal atpica (Ma et al. 2003);

aml-all-completo est relacionada com a classicao de pacientes com: leucemia mieloide aguda (AML) ou leucemia linfoblstica aguda (ALL) (Golub et al. 1999);

DLBCLTumor est relacionada com a classicao da morfologia das amostras em


linfoma de clulas B e linfoma folicular (Shipp et al. 2002);

leung-2002-gastric est relacionada com a classicao de pacientes em: tumor gstrico


primrio, tumor com metstase e mucosa normal (Leung et al. 2002);

lung-Michigan est relacionada com a classicao de pacientes em tendo adenocarcinoma primrio de pulmo ou no tendo (Beer et al. 2002);

prostate-tumorVSNormal est relacionada com a diferenciao entre amostra normal


e amostra com tumor (Singh et al. 2002);

lungCancer-completo est relacionada com a classicao de cncer de pulmo entre


mesotelioma pleural maligno e adenocarcinoma (Gordon et al. 2002);

ovarian-61902 est relacionada com a distino entre pacientes com cncer e pacientes
normais (Petricoin et al. 2002);

BASES DE DADOS USADAS PARA O ALGORITMO 1

75

DLBCL-NIH-completo est relacionada com a classicao de pacientes com linfoma


de clulas B em: bito ou sobrevivncia (Rosenwald et al. 2002);

BCR-ABL-completo est relacionada com a classicao de subtipos de leucemia linfoblstica peditrica (Yeoh et al. 2002);

E2A-PBX1-completo, Hyperdip50-completo e T-ALL-completo esto relacionados com


a classicao de subtipos de leucemia linfoblstica peditrica (Yeoh et al. 2002).

Tabela A.2:

Resumo das bases de dados utilizadas neste experimento.

Base de dados
welsh-2001-GNF
butte-data-set
nielsen-soft-2002
prostate-outcome
alizadeh-lymph
MLL-completo
lungcancer-ontario
DLBCLOutcome
pomeroy-cns-dataset-C
breastCancer-completo
lung-harvard
ma-2003-breast
aml-all-completo
DLBCLTumor
leung-2002-gastric
lung-Michigan
prostate-tumorVSNormal
lungCancer-completo
ovarian-61902
DLBCL-NIH-completo
BCR-ABL-completo
E2A-PBX1-completo
Hyperdip50-completo
T-ALL-completo

a(a# ,aa )

55
68
46
21
96
72
39
58
60
97
203
61
72
77
126
96
136
181
253
240
327
327
327
327

14
9
6
2
9
3
2
2
2
2
5
3
2
2
3
2
2
2
2
2
2
2
2
2

12626 (12626,0)
7245 (7245,0)
5520 (5520,0)
12600 (12600,0)
4026 (4026,0)
12582 (12582,0)
2880 (2880,0)
7129 (7129,0)
7129 (7129,0)
24481 (24481,0)
12600 (12600,0)
1946 (1941,5)
7129 (7129,0)
7129 (7129,0)
6688 (6688,0)
7129 (7129,0)
12600 (12600,0)
12533 (12533,0)
15154 (15154,0)
7399 (7399,0)
12558 (12558,0)
12558 (12558,0)
12558 (12558,0)
12558 (12558,0)

MISS

D1

D2

D3

0,00%
0,00%
0,00%
0,00%
5,09%
0,00%
5,96%
0,00%
0,00%
0,00%
0,00%
0,30%
0,00%
0,00%
5,87%
0,00%
0,00%
0,00%
0,00%
10,30%
0,00%
0,00%
0,00%
0,00%

0,42
0,47
0,44
0,32
0,55
0,45
0,46
0,46
0,46
0,45
0,56
0,54
0,48
0,49
0,55
0,51
0,52
0,55
0,57
0,62
0,61
0,61
0,61
0,61

0,14
0,23
0,24
0,25
0,29
0,34
0,37
0,38
0,38
0,38
0,39
0,40
0,40
0,41
0,42
0,44
0,45
0,48
0,50
0,54
0,54
0,54
0,54
0,54

0,14
0,22
0,22
0,21
0,27
0,31
0,33
0,34
0,34
0,34
0,37
0,36
0,36
0,37
0,39
0,39
0,40
0,44
0,46
0,49
0,50
0,50
0,50
0,50

Apndice

Experimentos Realizados
As bases utilizadas nestes experimentos preliminares encontram-se descritas na Seo A.1.
Na Seo B.1, so discutidas algumas mtricas de densidade propostas nesta pesquisa e utilizadas na execuo do primeiro experimento. Nas Sees B.2 e B.3 so discutidos os resultados
obtidos nos experimentos preliminares 1 e 2, respectivamente.
A m de analisar se os resultados so signicativamente diferentes, aplicou-se o teste
de Friedman (Friedman 1940), considerando um nvel de signicncia de 5%, assim como
explicado na Seo 4.2.

B.1

Mtricas de densidade

sabido a partir da teoria do aprendizado computacional que, dado um espao de hipteses (neste caso, denido pela

Random Forest), possvel determinar a complexidade do

conjunto de treinamento (tamanho) para um classicador convergir (com maior probabilidade) para uma hiptese bem sucedida (Mitchell 1997, Chap. 7). Isto requer conhecimento
do tamanho do espao de hipteses (ou seja, sua cardinalidade) ou sua capacidade fornecida pela dimenso VC (Vapnik, Levin & Cun 1994). Na prtica, encontrar o tamanho do

76

MTRICAS DE DENSIDADE

77

espao de hipteses ou a capacidade difcil e apenas recentemente uma abordagem deniu


a dimenso VC para rvores de deciso binrias, pelo menos parcialmente, uma vez que esta
abordagem foi denida em termos de subrvores direta e esquerda (Aslan, Yildiz & Alpaydin
2009), enquanto que o padro ouro deveria ser denido em termos do espao de exemplos.
Por outro lado, mtricas de bases de dados (espao de exemplos) so muito menos discutidas na literatura. Nosso interesse , uma vez que o espao de hipteses xado (mas
seu tamanho ou sua dimenso VC so ambos desconhecidos ou innitos), quais conjuntos
de treinamento

parecem

ter um volume suciente para que o aprendizado possa ser bem

sucedido. Em um trabalho relacionado, algumas mtricas de balanceamento de classe foram


propostas (Perez & Baranauskas 2011). Uma vez que neste estudo foram usadas bases de
dados com diferentes nmeros de classes, exemplos e atributos, elas no podem ser agrupadas em algum sentido intuitivo usando essas trs dimenses. Com base nisso, so propostas
trs diferentes mtricas, mostradas em (B.1), (B.2) e (B.3), onde cada base de dados tem
classes,

atributos e

exemplos.

Estas mtricas foram projetadas usando as seguintes ideias. Para um objeto fsico, a
densidade

sua massa dividida pelo seu volume. Para uma base de dados, foi conside-

rada sua massa como o nmero de exemplos; seu volume foi dado por seus atributos. Aqui
considera-se o conceito de volume de um objeto (base de dados) como sua capacidade, ou
seja, a quantidade de uido (atributos) que o objeto pode conter, em vez de a quantidade
de espao que o objeto desloca. Sob estas consideraes, tem-se

D ,

n
. Uma vez que,
a

em geral, estes nmeros variam consideravelmente, um melhor modo de olhar para eles foi
usando ambos nmeros na escala logartmica natural,

D,

ln n
o qual nos leva a (B.1). Na
ln a

prxima mtrica, foi considerado que o nmero de exemplos (massa) torna-se rarefeito pelo
nmero de classes, resultando em (B.2) e a ltima mtrica engloba bases de dados vazias
(sem exemplos) e bases sem o rtulo da classe (aprendizado no supervisionado).

EXPERIMENTO 1

D1 , loga n

(B.1)

n
c
n+1
, loga
c+1

D2 , loga

(B.2)

D3

(B.3)

Considerando a hiptese comum em aprendizado de mquina que


para cada mtrica

78

Di , Di 0, i = 1, 2, 3.

Considera-se que se

Di < 1,

c n,

bvio que,

a densidade baixa e

talvez o aprendizado a partir dessa base pode ser difcil, sob o ponto de vista computacional.
Caso contrrio,

B.2

Di 1,

a densidade alta e o aprendizado

pode ser

mais fcil.

Experimento 1

Neste experimento foram utilizadas duas medidas para analisar os resultados: a rea
mdia ponderada sob a curva ROC (AUC) e a porcentagem de atributos usados em cada

Random Forest.

Para avaliar o desempenho deste experimento, usaram-se 10 repeties de

validao cruzada com 10-folds. A mdia de todas as repeties para uma dada oresta em
uma determinada base foi tomada como o valor do desempenho (AUC e porcentagem) para
o par.
Os valores de AUC obtidos para cada base (29 bases, descritas no Apndice A.1) e cada
nmero de rvores usadas na

Random Forest

so mostrados na Tabela B.1. Tambm so

mostrados os valores da mdia e da mediana assim como o


Friedman. Mdia, mediana e o

rank

rank

mdio obtido no teste de

mdio so apresentados para os seguintes grupos: todas

as bases; somente as 8 bases com baixa densidade; e somente as 21 bases com alta densidade.
Como pode ser observado, em todos os grupos (todos/8 baixa-densidade/ 21 alta-densidade)
a oresta com 4096 rvores tem o menor (melhor)

rank

de todos. Alm disso, no grupo das

21 alta-densidade, pode-se observar que as orestas com 2048 e 4096 rvores apresentam
o mesmo

rank.

Analisando o grupo usando todas as bases e as 8 com baixa densidade,

pode-se notar que a oresta com 512 rvores tem um

rank

melhor do que a oresta com

1024 rvores, contrariando o esperado. Outro resultado interessante que os valores de m-

EXPERIMENTO 1

79

dia e mediana das bases com alta densidade para cada uma das trs primeiras iteraes,

L = 2, 4, 8,

so maiores do que os valores das bases com baixa densidade; o oposto ver-

dadeiro para

L = 16, . . . , 4096.

Isto pode sugerir que bases com baixa densidade, de fato,

exigem um poder de expresso maior (orestas maiores) do que bases com alta densidade.
Esta potncia expressiva, naturalmente, pode ser expressa como o tamanho do espao da
Random Forest (hiptese) ou sua dimenso VC.
A m de obter um melhor entendimento, os valores AUC tambm so apresentados nas
Figuras B.1, B.2 e B.3 considerando todas as bases, somente as 8 com baixa densidade e somente as 21 bases com alta densidade, respectivamente. Como pode ser visto, nas Figuras B.1
e B.2, ambas mdia e mediana aumentam conforme o nmero de rvores aumenta, mas alm
de 64 rvores estas guras no apresentam grandes mudanas. Na Figura B.3, a mdia e a
mediana no apresentam maiores mudanas a partir de 32 e 16 rvores, respectivamente.
Com estes resultados pode-se observar um comportamento assinttico, onde um aumento
nos valores do AUC so difceis de se obter, mesmo dobrando o nmero de rvores dentro
da oresta. Um modo de compreender este comportamento assinttico computando a
diferena entre o AUC de uma iterao com a prxima (por exemplo, entre 2 e 4, 4 e 8,
etc.). Estes resultados so apresentados nas Figuras B.4, B.5 e B.6 para todas as bases,
8 baixa densidade e 21 alta densidade, respectivamente. Para esta anlise, ns excluimos
as diferenas dos AUC das bases que atingiram o valor de AUC igual a 99.99% antes de
4096 rvores (valores em negrito na Tabela B.1). Analisando esta tabela, podemos notar que
usando todas as bases e as 8 com baixa densidade, as diferenas do AUC (mdia e mediana)
entre 32 e 64 rvores na oresta esto abaixo de 1%. Considerando as 21 bases com alta
densidade, estas diferenas esto abaixo de 1% entre 16 e 32 rvores na oresta e abaixo de
0.3% entre 32 e 64 rvores.
Analisando a Figura B.4 foi feito um ajuste dos valores de mdia e mediana por meio dos
mnimos quadrados para curva
AUC (ganho) e

g = aLb ,

onde

representa a porcentagem da diferena do

L o nmero de rvores dentro da oresta. Obteve-se, usando todas as bases

e o valor da mediana da diferena do AUC

a = 6.42 e b = 0.83 com coeciente de correlao

R2 = 0.99

e usando a mdia da diferena do AUC

correlao

R2 = 0.98. Para ns prticos, possvel aproximar para g w L7 % com coeciente de

a = 6.06

b = 0.65

com coeciente de

EXPERIMENTO 1

80

Valores AUC, mdia, mediana e rank mdio obtidos nos experimentos. Dados em
negrito representam valores excluidos da anlise da diferena do AUC.

Tabela B.1:

Nmero de rvores

Bases

GCM

0.72

0.77

0.83

Lymphoma

0.85

0.92

0.96

CNS

0.50

0.52

0.56

16

32

64

128

256

0.87

0.89

0.98

0.98

0.58

512

1024

0.91

0.91

0.99

0.99

0.59

0.59

0.59

2048

4096

0.92

0.92

0.99

0.99

0.92

0.93

0.93

0.99

0.99

0.58

0.60

0.99

0.60

0.60

0.60

Leukemia

0.76

0.85

0.93

0.97

0.98

0.98

0.99

0.99

0.99

0.99

0.99

1.00

Leukemia nom.

0.72

0.81

0.91

0.96

0.99

1.00

1.00

1.00

1.00

1.00

1.00

1.00

Ovarian 61902

0.90

0.96

0.98

0.99

0.99

0.99

1.00

1.00

1.00

1.00

1.00

1.00

Lung Cancer

0.58

0.64

0.66

0.65

0.65

0.66

0.66

0.68

0.69

0.68

0.68

0.69

C. Arrhythmia

0.71

0.77

0.82

0.85

0.87

0.88

0.89

0.89

0.89

0.89

0.89

0.89

Dermatology

0.97

0.99

1.00

1.00

1.00

1.00

1.00

1.00

1.00

1.00

1.00

1.00

HD Switz.

0.55

0.55

0.58

0.58

0.60

0.61

0.60

0.60

0.60

0.61

0.61

0.61

Lymphography

0.82

0.87

0.90

0.92

0.93

0.93

0.93

0.93

0.93

0.93

0.93

0.93

Hepatitis

0.76

0.80

0.83

0.84

0.85

0.85

0.85

0.85

0.86

0.85

0.86

0.86

HD Hungarian

0.80

0.84

0.86

0.87

0.88

0.88

0.88

0.88

0.88

0.88

0.88

0.88

HD Cleveland

0.80

0.84

0.87

0.88

0.89

0.89

0.90

0.89

0.89

0.89

0.90

0.90

P. Patient

0.45

0.45

0.46

0.46

0.45

0.45

0.45

0.45

0.45

0.45

0.45

0.45

WDBC

0.96

0.98

0.99

0.99

0.99

0.99

0.99

0.99

0.99

0.99

0.99

0.99

Splice Junction

0.87

0.93

0.97

0.99

0.99

0.99

0.99

1.00

1.00

1.00

1.00

1.00

Heart Statlog

0.80

0.84

0.87

0.89

0.89

0.89

0.90

0.90

0.90

0.90

0.90

0.90

Allhyper

0.89

0.95

0.98

0.99

0.99

1.00

1.00

1.00

1.00

1.00

1.00

1.00

Allhypo

0.98

1.00

1.00

1.00

1.00

1.00

1.00

1.00

1.00

1.00

1.00

1.00

Sick

0.92

0.97

0.99

0.99

1.00

1.00

1.00

1.00

1.00

1.00

1.00

1.00

Breast Cancer

0.60

0.63

0.64

0.65

0.65

0.66

0.66

0.67

0.66

0.66

0.66

0.66

Hypothyroid

0.95

0.97

0.98

0.98

0.99

0.99

0.99

0.99

0.99

0.99

0.99

0.99

ANN Thyroid

0.99

1.00

1.00

1.00

1.00

1.00

1.00

1.00

1.00

1.00

1.00

1.00

WBC

0.97

0.98

0.99

0.99

0.99

0.99

0.99

0.99

0.99

0.99

0.99

0.99

C. Method

0.62

0.64

0.66

0.66

0.67

0.67

0.67

0.68

0.68

0.68

0.68

0.68

Pima Diabetes

0.72

0.76

0.79

0.81

0.81

0.82

0.82

0.82

0.82

0.82

0.83

0.83

Liver Disorders

0.66

0.70

0.72

0.74

0.75

0.76

0.76

0.77

0.77

0.77

0.77

0.77

H. Survival

0.58

0.60

0.61

0.62

0.63

0.63

0.64

0.64

0.64

0.64

0.64

0.64

Mdia

0.77

0.81

0.84

0.85

0.86

0.86

0.86

0.87

0.87

0.87

0.87

0.87

Mediana

0.80

0.84

0.87

0.89

0.89

0.91

0.91

0.92

0.92

0.92

0.93

0.93

11.83

10.55

8.79

8.05

6.88

5.81

5.12

4.62

4.31

4.39

3.91

3.72

Mdia

0.72

0.78

0.83

0.85

0.87

0.88

0.88

0.88

0.88

0.88

0.89

0.89

Mediana

0.72

0.79

0.87

0.91

0.93

0.94

0.95

0.96

0.96

0.96

0.96

0.96

12.00

11.00

9.62

8.81

7.94

6.25

4.81

4.44

3.37

3.69

3.37

2.69

Mdia

0.79

0.82

0.84

0.85

0.86

0.86

0.86

0.86

0.86

0.86

0.86

0.86

Mediana

0.80

0.84

0.87

0.89

0.89

0.89

0.90

0.90

0.90

0.90

0.90

0.90

11.76

10.38

8.47

7.76

6.47

5.64

5.24

4.69

4.66

4.66

4.12

4.12

Todas

Rank mdio
8 baixa-densidade

Rank mdio
21 alta-densidade

Rank mdio

EXPERIMENTO 1

correlao

L=8
L),

81

R2 = 0.99, o qual indica que este um bom ajuste tambm. Por exemplo, usando

rvores com AUC igual a 0.90, possvel estimar o AUC para 16 rvores (dobrando

assim,

g w 78 %

e o valor do AUC esperado para 16 rvores

0.90 (1 +

7/8
)
100

w 0.91.

Certamente, esta frmula pode ser usada com qualquer nmero positivo de rvores, por
exemplo, considerando uma oresta com 100 rvores, o ganho esperado no AUC para uma
oresta com 200 rvores 0.07%.
Na Tabela B.2 so representados os resultados do teste

post-hoc aps o teste de Friedman

e a rejeio da hiptese nula. Nela so mostrados os resultados usando todas as bases, as 8


com baixa densidade e as 21 com alta densidade. Nesta tabela

M (N)

indica que a

Random

Forest na linha especicada melhor (signicativamente) do que a Random Forest na coluna


especicada;
que a

O (H)

Random Forest

na coluna especicada pior (signicativamente) do

Random Forest na coluna especicada; indica nenhuma diferena. O tringulo inferior

desta tabela no mostrado pois ele apresenta resultados opostos ao tringulo superior por
simetria.
Algumas observaes importantes podem ser feitas a partir da Tabela B.2. Primeiro,

j
pode-se observar que no h diferena signicativa entre um dado nmero de rvores (2 )
j+1
e seu dobro (2
), em todos os casos. Quando h uma diferena signicativa, isto somente
j
aparece quando comparado o nmero de rvores (2 ) com pelo menos quatro vezes este
j+2
nmero (2
). Segunda observao importante que a partir de
signicativa foi encontrada apenas em

uma diferena

4096 = 212 , somente quando a Random Forest cresceu

sessenta e quatro vezes. Terceiro ponto, a partir de


signicativa entre as orestas at

64 = 26

4096

128 = 27

rvores, no h mais diferena

rvores.

Visando analisar a porcentagem de atributos usados, os boxplots deste experimento so


mostrados nas Figuras B.7, B.8 e B.9 para todas as bases, as 8 bases com baixa densidade e
as 21 bases com alta densidade, respectivamente. Considerando a Figura B.7, os valores de
mdia e mediana da oresta usando 128 rvores corresponde a 80.91% e 99.64% dos atributos,
respectivamente. Quando analisam-se as 8 bases com baixa densidade na Figura B.8,
possvel notar que mesmo com 4096 rvores na oresta, nem todos os atributos foram usados.
Porm, como pode ser visto, esta curva tem um formato diferente (sigmoidal) das demais
curvas nas Figuras B.7 e B.9 (exponencial). Alm disso, a curva sigmoidal parece crescer at

Nmero
de rvores
2
4
8
16
32
64
128
256
512
1024
2048
4096

Tabela B.2:

/O/H
/O/O

/O/O

4
H

/O/H
/O/H
O / O / O

16
H

/O/H
/O/H
O / O / O
O / O / O
H

32
H

/H/H
/H/H
H / O / H
H / O / O
O / O / O
H

64
H

/H/H
/H/H
H / H / H
H / O / H
O / O / O
O / O / O
H

128
H

/H/H
/H/H
H / H / H
H / H / H
H / O / O
O / O / O
O / O / O
H

256
H

/H/H
/H/H
H / H / H
H / H / H
H / H / O
O / O / O
O / O / O
O / O / O
H

512
H

/H/H
/H/H
H / H / H
H / H / H
H / H / O
O / O / O
O / O / O
O / O / O
M / M /
H

1024
H

/H/H
/H/H
H / H / H
H / H / H
H / H / O
O / O / O
O / O / O
O / O / O
O / / O
O / O / O
H

2048
H

/H/H
/H/H
H / H / H
H / H / H
H / H / O
H / O / O
O / O / O
O / O / O
O / O / O
O / O / O
O / O /
H

4096

Resultados do teste de Friedman para os valores AUC usando todas bases/8 baixa densidade/21 alta densidade

EXPERIMENTO 1

82

EXPERIMENTO 1

83

seu mximo em 100%.

Figura B.1: Valor AUC em todas as bases de Figura B.2: Valor AUC nas 8 bases com baixa
dados (29 bases)
densidade

Figura B.3:

densidade

Valor AUC nas 21 bases com alta Figura B.4: Diferenas do valor AUC em todas
as bases

Diferenas do valor AUC nas 8 bases Figura B.6: Diferenas do valor AUC nas 21 bacom baixa densidade
ses com alta densidade

Figura B.5:

Porcentagem de atributos usados em Figura B.8: Porcentagem de atributos usados


todas as bases
nas 8 bases com baixa densidade
Figura B.7:

EXPERIMENTO 1

Figura B.9:

84

Porcentagem de atributos usados nas 21 bases com alta densidade

Concluso
Este primeiro experimento preliminar analisou o nmero de rvores para serem geradas
por uma

Random Forest.

Os resultados obtidos neste experimento mostram que, as vezes,

um nmero maior de rvores em uma oresta somente aumenta o custo computacional


e no apresenta ganho de desempenho signicativo. Eles tambm indicam que a mdia
e mediana do AUC tende a convergir assintoticamente. Outra observao que no h
diferena signicativa entre o uso de um nmero de rvores dentro de uma

Random Forest

e o seu dobro. A anlise de 29 bases de dados mostra que a partir de 128 rvores no h
mais diferena signicativa entre as orestas usando 256, 512, 1024, 2048 e 4096 rvores.
Os valores da mdia e mediana do AUC no apresentam maiores mudanas a partir de 64
rvores. Portanto, possvel sugerir, baseado neste experimento, um intervalo entre 64 e 128
rvores na oresta. Utilizando esses nmeros de rvores possvel obter um bom balano
entre AUC, tempo de processamento e uso de memria. Tambm foi descoberta uma relao
experimental (inversamente proporcional) para o ganho do AUC quando dobra-se o nmero
de rvores em qualquer oresta. Analisando a porcentagem de atributos usados, pode-se
notar que a mediana alcana o conjunto inteiro de atributos com 128 rvores na oresta.
Assim, assintoticamente a tendncia indica que a

Random Forest vai usar todos os atributos

e isso no interessante em alguns casos, por exemplo em bases com muitos atributos (ou
seja, bases de expresso gnica), uma vez que nem todos so importantes para o aprendizado
do conceito (Netto, Nozawa, Mitrowsky, Macedo & Baranauskas 2010; Gamberger, Lavrac,
Zelezny & Tolar 2004).

EXPERIMENTO 2

B.3

85

Experimento 2

Aps a realizao do Experimento 1 e a descoberta de que um intervalo entre 64 e 128


rvores em uma oresta o mais indicado para uma estimativa de preciso, tentou-se gerar
orestas contendo 128 rvores para vericar a frequncia que os atributos aparecem nas razes
das rvores. Porm, os experimentos utilizando essa quantidade de rvores no apresentaram
estabilidade no subconjunto dos atributos mais utilizados. Tambm foram testadas orestas
utilizando

a
rvores, novamente sem estabilidade, onde
2

base. Finalmente, orestas contendo

2a

o nmero de atributos de uma

rvores apresentaram resultados estveis. Com

isso possvel observar que uma boa preciso pode ser alcanada rapidamente com 64128
rvores; este ponto de vista v a

Random Forest

fatores especcos dentro de uma

Random Forest, ou seja, analisando a Random Forest como

como uma caixa preta. Porm, analisando

uma caixa branca, mais rvores podem ser necessrias para encontrar outras mtricas que
no desempenho.
A seguir, os resultados de cada etapa deste experimento sero apresentados. Todas as
etapas deste experimento utilizam a posio do atributo (ou seja, o ndice do atributo na
base de acordo com o Weka (Hall, Frank, Holmes, Pfahringer, Reutemann & Witten 2009),
o qual comea no zero) como seu ID. Para avaliar o desempenho, foi realizada validao
cruzada com 10-folds. Foram utilizadas 14 bases das 29 descritas no Apndice A.1, pois
foram analisadas somente as bases que apresentavam nmero de atributos maior do que 25,
a m de melhor analisar a estabilidade dos atributos mais usados, uma vez que existiam
bases com 3 atributos e assim, seriam geradas orestas muito pequenas (com no mximo 6
rvores).

Etapa 1.

Nesta etapa do experimento, buscou-se pela frequncia mdia dos atributos

no nvel da raiz, por exemplo, se os atributos aparecem uniformemente ou se existe um


subconjunto deles que mais frequentemente usado.
Duas medidas foram usadas na realizao desta etapa: o nmero de vezes que um atributo estava entre os

atributos selecionados aleatoriamente pelas rvores no nvel da raiz

(vezesSelecionado) e o nmero de vezes que este atributo foi, de fato, escolhido para ser o n
raiz (vezesRaiz ). Ento, usou-se a razo entre eles (F requencia

= vezesRaiz /vezesSelecionado)

86

EXPERIMENTO 2

Frequncia dos 10 atributos mais usados em todas bases. O eixo x corresponde ao


nmero do atributo e o eixo y corresponde frequncia. Embora todos os eixos y tenham cado em
um intervalo de 0 e 1, este intervalo varia em alguns grcos para melhor visualizao.

Figura B.10:

para analisar a frequncia dos atributos. Aps ordenar as frequncias de todos os atributos
de cada base, foi possvel notar que elas apresentaram um comportamento exponencial. Na
Figura B.10 somente as dez maiores frequncias so mostradas. H quatro linhas em cada
grco representando a mdia e a mediana das frequncias para orestas utilizando
rvores (ordenadas pelas frequncias mdias da oresta usando

2a

rvores). A partir desta

gura, possvel observar que em alguns casos h um nico atributo que sobressai (por
exemplo, nas bases Allhyper e Allhypo, ambas contendo poucos atributos) e em outros casos, h um subconjunto de atributos mais frequentemente usados (por exemplo, nas bases
Lymphoma e Leukemia, ambas contendo um grande nmero de atributos).

Etapa 2.

Aps a realizao da Etapa 1, vericou-se que haviam atributos que apre-

sentavam frequncias muito prximas. Por exemplo, suponha que existem trs atributos na
subconjunto de atributos mais usados: A, B e C. Assumindo que todos eles possuem a mesma
frequncia, porm o atributo A tem erro

out-of-bag

estimado igual a 0.90, B igual a 0.65 e

C igual a 0.20. Neste caso, assume-se que o atributo C o melhor do subconjunto, uma vez
que seu desempenho o melhor. A questo que surge como estimar o erro

out-of-bag

para

EXPERIMENTO 2

Figura B.11:

estimado.

Frequncia dos 10 atributos mais usados em todas bases usando o erro

87

out-of-bag

um dado atributo. Sabe-se que o atributo do nvel de raiz o mais importante na rvore e
portanto, pode-se assumir que ele determina o desempenho da rvore. Baseado nessa suposio, utilizou-se o erro

out-of-bag

da rvore quando o atributo

uma estimativa do desempenho do atributo

est no nvel da raiz como

Com estas modicaes, foi realizada a segunda etapa do experimento, na qual as frequncias foram alteradas para

F requencia(1 OOB), onde OOB

corresponde ao erro

out-of-bag

mdio de um atributo como explicado anteriormente. Os resultados deste experimento so


mostrados na Figura B.11. Analisando os resultados, pode-se observar que em todas as bases
a frequncia tem um comportamento exponencial ou similar, mesmo nas bases que apresentaram um comportamento linear na primeira etapa. Deste modo, usando o erro

out-of-bag

estimado, h geralmente um nico atributo que sobressai em cada base.

Etapa 3. Como mencionado anteriormente, Random Forests no super-ajustam, embora


as rvores dentro delas crescem sem poda. Neste experimento, foi analisado o comportamento
da pr-poda, uma vez que isto pode acelerar a induo da
pr-poda das rvores da

Random Forest,

o parmetro

Random Forest.

minN um

Para realizar a

foi usado. Tal parmetro

EXPERIMENTO 2

88

Resultados do teste de Friedman para os valores AUC usando 128 rvores e considerando um nvel de signicncia de 5%; rank mdio para cada valor de minN um e a porcentagem
do tempo mdio de execuo.
Tabela B.3:

minN um

1
2
3
5
7
11
13
17
19
23
Rank Mdio
Tempo(%)

11

13

17

19

23

O
O

O
O
O

M
M
M
M

M
M
M
M
M

O
M
M
M
O
O

M
M
M
M
M
M
M

M
M
M
M
M
M
M
M

M
M
M
M
M
M
M
M
M

5.18
100.00

4.64
95.04

4.46
92.22

4.39
85.49

5.46
81.80

5.54
76.15

4.93
73.64

6.25
70.30

6.79
69.39

7.36
66.91

determina o nmero mnimo de exemplos em uma folha, onde o valor defaut na Weka (Hall,
Frank, Holmes, Pfahringer, Reutemann & Witten 2009) 1.0, o que gera rvores muito
grandes. Baseado nisso, foram utilizados dez valores diferentes de

minN um:

1, 2, 3, 5,

7, 11, 13, 17, 19 e 23. Como explicado na Seo B.2, para a estimao da preciso um
intervalo de 64128 rvores suciente. Desse modo, foram construdas orestas com 128
rvores. Para analisar os diversos valores de

minN um,

os valores AUC foram usados e

o teste de Friedman (Friedman 1940) foi aplicado, considerando um nvel de signicncia


de 5%. Tambm foi observado o tempo mdio de execuo para induzir a oresta usando
cada diferente valor de

minN um.

Esta medida foi utilizada com base no tempo mdio de

execuo para induzir a oresta usando

minN um = 1,

ou seja, o tempo de execuo para

induzir esta oresta foi tomado como 100% e as porcentagens restantes foram calculadas
baseadas nesta, visto que para valores maiores de

minN um

o tempo menor, devido ao

processo de pr-poda que interrompe o crescimento das rvores.


Na Tabela B.3 so apresentados os resultados do teste
e a rejeio da hiptese nula, o
de cada valor de

minN um.

rank

post-hoc aps o teste de Friedman

mdio e a porcentagem do tempo mdio de execuo

Nesta tabela, a legenda a mesma da Tabela B.2

Pode-se observar que o tempo de execuo diminui conforme o valor de

minN um

au-

menta, o que esperado uma vez que valores maiores representam uma rvore menor e
portanto, um tempo de execuo mais curto. Embora no h diferenas signicativas, possvel notar a partir da Tabela B.3 que
o melhor

rank

minN um = 5

parece ser um valor interessante com

mdio. Usando este valor, os passos da segunda etapa foram repetidos e os

EXPERIMENTO 2

Figura B.12: Frequncia dos 10 atributos mais usados em todas bases usando o erro
estimado e minN um = 5.

89

out-of-bag

resultados so mostrados na Figura B.12. Como possvel notar, no houve diferenas signicativas entre os comportamentos das frequncias mostrados nas Figuras B.11 e B.12, mas
este ltimo quase 15% mais rpido do que o primeiro. Contudo, houve diferenas em alguns subconjuntos dos dez atributos mais usados. Por exemplo, em quatro bases (Leukemia,
Lymphoma, Ovarian e WDBC) os dez atributos mais usados foram os mesmos em ambas
etapas, porm a sequncia deles foi diferente; em outras quatro bases (Arrhythmia, CNS,
Leukemia nom. e Lung Cancer) alguns atributos apareceram em ambas etapas (na mesma
ordem e em ordem diferente) e houve alguns atributos diferentes entre elas. Por outro lado,
em seis bases (Allhyper, Allhypo, Dermatology, Sick, Splice e Thyroid) as sequncias dos
dez atributos mais usados foram as mesmas em ambas etapas.

Concluso
Este segundo experimento preliminar visou analisar a frequncia que os atributos aparecem nas razes das rvores de uma Random Forest. Foram construdas
usando

2a

rvores, onde

Random Forests

o nmero de atributos da base de dados. Analizando os

resultados, pode ser observado que a

Random Forest

escolhe um subconjunto de atributos

90

EXPERIMENTO 2

mais utilizados ou um nico atributo em cada base. Alm disso, a frequncia que os atributos aparecem na raiz tem um comportamento exponencial. Parece que quando usa-se

2a

rvores, o subconjunto de atributos estvel. Pode-se tambm observar que nem sempre que
um atributo usado mais do que outro, seu desempenho melhor. As vezes outro atributo
apresenta um erro

out-of-bag

estimado menor e quando essa mtrica usada, este atributo

ca a frente do primeiro. Usando o erro

out-of-bag

estimado como um complemento, pode-se

notar que em todas as bases, um atributo sobressaiu. interessante notar que em bases de
dados de expresso gnica, encontrar um subconjunto ou um nico melhor atributo pode
facilitar a descoberta de conhecimento e melhorar o desempenho da classicao.

Das könnte Ihnen auch gefallen