Sie sind auf Seite 1von 58

rvore de Deciso

Prof. Alexandre Monteiro


Recife

Contatos

Prof. Guilherme Alexandre Monteiro Reinaldo

Apelido: Alexandre Cordel

E-mail/gtalk: alexandrecordel@gmail.com
greinaldo@fbv.edu.br

Site: http://www.alexandrecordel.com.br/fbv

Celular: (81) 9801-1878

rvores de Deciso ADs (1/4)

Forma mais simples:

Lista de perguntas respostas sim ou no


Hierarquicamente arranjadas
Levam a uma deciso

Estrutura da rvore determinada por meio de aprendizado

Baseia-se em conhecimento a priori

ADs treinamento (1/10)

Treinamento

AD encontra regras que recursivamente


bifurcam (baseadas nos valores dos
atributos) o conjunto de dados
- Sub-conjuntos homogneos intra sub-conjuntos e
- Sub-conjuntos heterogneos inter sub-conjuntos

Contedo dos sub-conjuntos pode ser descrito por um


conjunto de regras

ADs treinamento (2/10)


Base de Dados Tempo

Instncia
D1
D2
D3
D4
D5
D6
D7
D8
D9
D10
D11
D12
D13
D14

Outlook
sunny
sunny
overcast
rain
rain
rain
overcast
sunny
sunny
rain
sunny
overcast
overcast
rain

Temperature
hot
hot
hot
mild
cool
cool
cool
mild
cool
mild
mild
mild
hot
mild

Humidity
high
high
high
high
normal
normal
normal
high
normal
normal
normal
high
normal
high

Wind
weak
strong
weak
weak
weak
strong
strong
weak
weak
weak
strong
strong
weak
strong

Play
no
no
yes
yes
yes
no
yes
no
yes
yes
yes
yes
yes
no
5

ADs treinamento (3/10)


Outlook?
Sunny

Rain
Overcast

Inst
D9
D11
D1
D2
D8

Outlook
sunny
sunny
sunny
sunny
sunny

Temp
cool
mild
hot
hot
mild

Hum
normal
normal
high
high
high

Wind
weak
strong
weak
strong
weak

Play
yes
yes
no
no
no

Inst
D3
D7
D12
D13

Outlook
overcast
overcast
overcast
overcast

Inst
D5
D4
D10
D6
D14
Temp
hot
cool
mild
hot

Hum
high
normal
high
normal

Wind
weak
strong
strong
weak

Outlook
rain
rain
rain
rain
rain

Temp
cool
mild
mild
cool
mild

Play
yes
yes
yes
yes

Hum
normal
high
normal
normal
high

Wind
weak
weak
weak
strong
strong

Play
yes
yes
yes
no
no

ADs treinamento (4/10)


Teste
Exemplo
If outlook=sunny D1
D2
D8
D9
D11
If
D3
outlook=overcast D7
D12
D13
If outlook=rain
D4
D5
D6
D10
D14

Outlook
Sunny
Sunny
Sunny
Sunny
Sunny
Overcast
Overcast
Overcast
Overcast
Rain
Rain
Rain
Rain
Rain

Temperature
Hot
Hot
Mild
Cool
Mild
Hot
Cold
Mild
Hot
Mild
Cool
Cool
Mild
Mild

Humidity
High
High
High
Normal
Normal
High
Normal
High
Normal
High
Normal
Normal
Normal
High

Wind
Weak
Strong
Weak
Weak
Strong
Weak
Strong
Strong
Weak
Weak
Weak
Strong
Weak
Strong

Play?
No
No
No
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
No
Yes
No

ADs treinamento (5/10)


Outlook?
Sunny

YES

Humidity ?
Normal

Inst
D9
D11

Outlook Temp
sunny
cool
sunny
mild

Hum Wind Play


normalweak yes
normalstrong yes

Rain

Overcast

High

Inst
D1
D2
D8

Outlook
sunny
sunny
sunny

Temp Hum
hot
high
hot
high
mild
high

Wind
weak
strong
weak

Play
no
no
no

ADs treinamento (6/10)


Teste
If outlook=sunny
and
humidity=high

Exemplo
D1
D2
D8

Outlook
Sunny
Sunny
Sunny

Temperature
Hot
Hot
Mild

Humidity
High
High
High

Wind
Weak
Strong
Weak

If outlook=sunny
and
humidity=nomal
If
outlook=overcast

D9
D11

Sunny
Sunny

Cool
Mild

Normal
Normal

Weak Yes
Strong Yes

Overcast
Overcast
Overcast
Overcast
Rain
Rain
Rain
Rain
Rain

Hot
Cold
Mild
Hot
Cool
Mild
Mild
Cool
Mild

High
Normal
High
Normal
Normal
High
High
Normal
Normal

Weak
Strong
Strong
Weak
Strong
Strong
Weak
Weak
Weak

D3
D7
D12
D13
If outlook=rain
D6
and wind=strong D14
If outlook=rain
D4
and wind=weak D5
D10

Play?
No
No
No

Yes
Yes
Yes
Yes
No
No
Yes
Yes
Yes

ADs treinamento (7/10)


Outlook?
Sunny

YES

Humidity?
Normal

Rain

Overcast

Wind?

High
Weak

YES

Strong

NO
Inst
D5
D4
D10

Outlook
rain
rain
rain

Temp
cool
mild
mild

Hum
normal
high
normal

Wind
weak
weak
weak

Play
yes
yes
yes

Inst
D6
D14

Outlook Temp Hum Wind Play


rain
cool
normal strong no
rain
mild
high
strong no

10

ADs treinamento (8/10)


Outlook?
Sunny

Humidity?
Normal

YES

High

NO

Overcast

Rain

YES

Wind?
Weak

Strong

NO

YES

11

ADs treinamento (9/10)


Teste
If outlook=sunny
and
humidity=high

Exemplo
D1
D2
D8

Outlook
Sunny
Sunny
Sunny

Temperature
Hot
Hot
Mild

Humidity
High
High
High

Wind
Weak
Strong
Weak

If outlook=sunny
and
humidity=nomal
If
outlook=overcast

D9
D11

Sunny
Sunny

Cool
Mild

Normal
Normal

Weak Yes
Strong Yes

Overcast
Overcast
Overcast
Overcast
Rain
Rain
Rain
Rain
Rain

Hot
Cold
Mild
Hot
Cool
Mild
Mild
Cool
Mild

High
Normal
High
Normal
Normal
High
High
Normal
Normal

Weak
Strong
Strong
Weak
Strong
Strong
Weak
Weak
Weak

D3
D7
D12
D13
If outlook=rain
D6
and wind=strong D14
If outlook=rain
D4
and wind=weak D5
D10

12

Play?
No
No
No

Yes
Yes
Yes
Yes
No
No
Yes
Yes
Yes

ADs treinamento (10/10)


Como classificar <rain,hot,high,normal,strong>?

Outlook?
Sunny

Humidity?
Normal

YES

High

NO

Overcast

Rain

YES

Wind?
Weak

Strong

NO

YES
13

Induo top-down de rvores de deciso

Qual o melhor atributo?


Dados de tempo
[29+ , 35-]

[29+ , 35-]
A1=?

[21+, 5-]

[8+, 30-]

A2=?

[18+ , 33-]

[11+ , 2-]

14

Entropia (1/3)

S uma amostra dos exemplos de treinamento

p a proporo de exemplos positivos em S

p a proporo de exemplos negativos em S

Entropia mede a impureza de S:


Entropia(S)=- p log2 p - p log2 p
Para mais de duas (n) classes

15

Entropia (2/3)

Entropia(S) = especifica o nr. mnimo de bits de


informao necessrio para codificar uma
classificao de um membro arbitrrio de S.

16

Entropia (3/3)

Portanto, o nr. de bits esperados para codificar


ou de elementos aleatrios de S:
p (-log2 p) + p (-log2 p)
Entropia(S)=- p log2 p - p log2 p

17

Entropia - Exemplo I

Se p 1, o destinatrio sabe que o exemplo


selecionado ser positivo
Nenhuma mensagem precisa ser enviada
Entropia 0 (mnima)
Se p 0.5, um bit necessrio para indicar se o
exemplo selecionado ou
Entropia 1 (mxima)
Se p 0.8, ento uma coleo de mensagens podem
ser codificadas usando-se - em mdia menos de um bit
- cdigos mais curtos para e mais longos para
18

Entropia - Grfico

19

Entropia - Exemplo I

Suponha que S uma coleo de 14 exemplos,


incluindo 9 positivos e 5 negativos (o exemplo da base
de dados Tempo)
Notao: [9+,5-]
A entropia de S em relao a esta classificao
booleana dada por:
Entropy([9,5]) (9 / 14) log 2 (9 / 14) (5 / 14) log 2 (5 / 14)
0.940

20

Ganho de Informao

No contexto das rvores de deciso a entropia usada para


estimar a aleatoriedade da varivel a prever (classe).

Dado um conjunto de exemplos, que


atributo escolher para teste?
- Os valores de um atributo definem parties do conjunto
de exemplos.
- O ganho de informao mede a reduo da entropia
causada pela partio dos exemplos de acordo com os
valores do atributo

A construo de uma rvore de deciso guiada pelo


objetivo de diminuir a entropia, ou seja, a aleatoriedade
(dificuldade de previso) da varivel que define as classes.

Critrio de ganho (1/2)


Gain(S, A) = reduo esperada da
entropia devido a classificao
de acordo com A
| Sv |
Gain( S , A) Entropy( S )
Entropy( S v )
vValues( A ) | S |

22

Critrio de ganho (2/2)

Usar o critrio de ganho para decidir!

[29+ , 35-]

[29+ , 35-]
A1=?

[21+, 5-]

[8+, 30-]

A2=?

[18+ , 33-]

[11+ , 2-]

23

Exemplo de Critrio de Ganho

Exemplo Critrio de Ganho

Critrio de ganho - Exemplo (1/2)

Suponha que S uma coleo de exemplos de treinamento ([9+,5-])


descritos por atributos incluindo Wind, que pode ter os valores Weak
and Strong (base de dados Tempo).
Values (Wind ) Weak , Strong
S [9,5]
SW eak [6,2]
S Strong [3,3]
Gain( S , Wind ) Entropy( S )

| Sv |
Entropy( S v )

|
S
|
v{W eak, Strong}

Entropy( S ) (8 / 14) Entropy( SW eak ) (6 / 14) Entropy( S Strong )


0.940 (8 / 14) * 0.811 (6 / 14) * 1.00
0.048

26

Critrio de ganho - Exemplo (2/2)

27

Exemplos de treinamento (1/3)


Instncia
D1
D2
D3
D4
D5
D6
D7
D8
D9
D10
D11
D12
D13
D14

Outlook
sunny
sunny
overcast
rain
rain
rain
overcast
sunny
sunny
rain
sunny
overcast
overcast
rain

Temperature
hot
hot
hot
mild
cool
cool
cool
mild
cool
mild
mild
mild
hot
mild

Humidity
high
high
high
high
normal
normal
normal
high
normal
normal
normal
high
normal
high

Wind
weak
strong
weak
weak
weak
strong
strong
weak
weak
weak
strong
strong
weak
strong
28

Play
no
no
yes
yes
yes
no
yes
no
yes
yes
yes
yes
yes
no

Exemplos de treinamento (2/3)

Que atributo deve ser selecionado para ser a raiz da rvore?

Gain(S,Outlook) = 0.246
Gain(S,Humidity) = 0.151
Gain(S,Wind) = 0.048
Gain(S,Temperature) = 0.029

em que S denota a coleo de exemplos na tabela anterior

29

30

Overfitting em rvores de deciso

Suponha que adicionamos um exemplo de treinamento com rudo


#15:
Sunny, Hot, Normal, Strong, PlayTennis=No
Qual seria seu efeito na rvore anterior:

31

Overfitting

Considere o erro da hiptese h sobre


dados do treinamento: errotrain(h)
distribuio completa D dos dados: erroD(h)

Uma hiptese h H overfits (se super


ajusta) o conjunto de dados se h uma
hiptese alternativa h H tal que
errotrain(h) < errotrain(h) e
erroD(h) > erroD(h)

32

Overfitting na aprendizagem de rvores


de deciso (1/2)

33

Overfitting na aprendizagem de rvores


de deciso (2/2)

Como evitar overfitting?


Parar o crescimento da rvore quando a diviso dos
dados no estatisticamente significativa (pre-prune)
Deixar a rvore crescer completamente para, ento,
poda-la (post-prune)

Como escolher a melhor rvore:


Medir a performance sobre o cj. de dados treinamento
Medir a performance sobre um cj. de dados (separado)
de validao
MDL: minimizar - size(tree)+size(misclassification(tree))
34

Reduzindo o erro atravs da poda

Divida os dados em cj. de treinamento e


validao
Faa at que uma poda adicional seja
prejudicial:
1. Avalie o impacto sobre o cj. de validao de
podar cada n possvel (e seus descendentes)
2. Gulosamente remova aquele que melhora mais a
performance no cj. de validao

35

Efeito do uso da tcnica de poda

36

Podando as regras

1. Converta a rvore para um conjunto equivalente de regras

2. Pode cada regra independentemente umas das outras

3. Ordene as regras finais em uma seqncia desejada para uso

Este um dos mtodos mais utilizados

37

Atributos com valores contnuos

Crie um atributo discreto para testar um que seja contnuo

Temperature = 82.5
(Temperature > 72.3) = t,f

Temperature:
PlayTennis:

40

48

NO NO

60
YES

72

80

90

YES

YES

NO

38

Atributos Numricos: Exemplo


Amostra Sensor1 Sensor2
1
96,37
15,01
2
59,58
11,32
3
73,52
11,05
4
92,94
14,08
5
87,26
13,60
6
99,30
15,83
7
99,68
15,94
8
65,19
12,28
9
77,83
10,27
10
98,65
15,65
11
46,11
13,55
12
79,66
16,67
13
56,51
14,38
14
51,60
15,77
15
77,20
16,77
16
50,57
13,78
17
77,73
13,41
18
58,10
13,68
19
75,01
15,70
20
65,10
15,58

Classe
Normal
Normal
Normal
Normal
Normal
Normal
Normal
Normal
Normal
Normal
Adulterada
Adulterada
Adulterada
Adulterada
Adulterada
Adulterada
Adulterada
Adulterada
Adulterada
Adulterada

39

Atributos Numricos: Exemplo


Amostra sensor1
7
99,68
6
99,30
10
98,65
1
96,37
4
92,94
5
87,26
12
79,66
9
77,83
17
77,73
15
77,20
19
75,01
3
73,52
8
65,19
20
65,10
2
59,58
18
58,10
13
56,51
14
51,60
16
50,57
11
46,11

Classe
Normal
Normal
Normal
Normal
Normal
Normal
Adulterada
Normal
Adulterada
Adulterada
Adulterada
Normal
Normal
Adulterada
Normal
Adulterada
Adulterada
Adulterada
Adulterada
Adulterada

Amostra Sensor2
15
16,77
12
16,67
7
15,94
6
15,83
14
15,77
19
15,70
10
15,65
20
15,58
1
15,01
13
14,38
4
14,08
16
13,78
18
13,68
5
13,60
11
13,55
17
13,41
8
12,28
2
11,32
3
11,05
40
9
10,27

Classe
Adulterada
Adulterada
Normal
Normal
Adulterada
Adulterada
Normal
Adulterada
Normal
Adulterada
Normal
Adulterada
Adulterada
Normal
Adulterada
Adulterada
Normal
Normal
Normal
Normal

Atributos Numricos: Exemplo


Amostra sensor1 Classe
7
99,68 Normal
6
99,30 Normal
10
98,65 Normal
1
96,37 Normal
4
92,94 Normal
5
87,26 Normal
12
9
17
15
19
3
8
20
2
18
13
14
16
11

79,66
77,83
77,73
77,20
75,01
73,52
65,19
65,10
59,58
58,10
56,51
51,60
50,57
46,11

Adulterada
Normal
Adulterada
Adulterada
Adulterada
Normal
Normal
Adulterada
Normal
Adulterada
Adulterada
Adulterada
Adulterada
Adulterada

41

Atributos Numricos: Exemplo


Amostra sensor1 Classe
7
99,68 Normal
6
99,30 Normal
10
98,65 Normal
1
96,37 Normal
4
92,94 Normal
5
87,26 Normal
12
79,66 Adulterada
9
77,83 Normal
17
15
19
3
8
20
2
18
13
14
16
11

77,73
77,20
75,01
73,52
65,19
65,10
59,58
58,10
56,51
51,60
50,57
46,11

Adulterada
Adulterada
Adulterada
Normal
Normal
Adulterada
Normal
Adulterada
Adulterada
Adulterada
Adulterada
Adulterada

42

Atributos Numricos: Exemplo


Sensor_1?

> 83,46

Amostra Sensor1 Sensor2 Classe


7
99,68
15,94 Normal
6
99,30
15,83 Normal
10
98,65
15,65 Normal
1
96,37
15,01 Normal
4
92,94
14,08 Normal
5
87,26
13,60 Normal

<= 83,46

Amostra Sensor1 Sensor2 Classe


12
79,66
16,67 Adulterada
9
77,83
10,27 Normal
17
77,73
13,41 Adulterada
15
77,20
16,77 Adulterada
19
75,01
15,70 Adulterada
3
73,52
11,05 Normal
8
65,19
12,28 Normal
20
65,10
15,58 Adulterada
2
59,58
11,32 Normal
18
58,10
13,68 Adulterada
13
56,51
14,38 Adulterada
14
51,60
15,77 Adulterada
16
50,57
13,78 Adulterada
43
11
46,11
13,55 Adulterada

Atributos Numricos: Exemplo

Amostra Sensor1 Classe


12
79,66 Adulterada
9
77,83 Normal
17
77,73 Adulterada
15
77,20 Adulterada
19
75,01 Adulterada
3
73,52 Normal
8
65,19 Normal
20
65,10 Adulterada
2
59,58 Normal
18
58,10 Adulterada
13
56,51 Adulterada
14
51,60 Adulterada
16
50,57 Adulterada
11
46,11 Adulterada

Amostra Sensor2 Classe


15
16,77 Adulterada
12
16,67 Adulterada
14
15,77 Adulterada
19
15,70 Adulterada
20
15,58 Adulterada
13
14,38 Adulterada
16
13,78 Adulterada
18
13,68 Adulterada
11
13,55 Adulterada
17
13,41 Adulterada
8
12,28 Normal
2
11,32 Normal
3
11,05 Normal
9
10,27 Normal

44

Atributos Numricos: Exemplo


Sensor_1?

> 83,46

Amostra Sensor1 Sensor2 Classe


7
99,68
15,94 Normal
6
99,30
15,83 Normal
10
98,65
15,65 Normal
1
96,37
15,01 Normal
4
92,94
14,08 Normal
5
87,26
13,60 Normal

<= 83,46

Amostra Sensor1 Sensor2 Classe


12
79,66
16,67 Adulterada
9
77,83
10,27 Normal
17
77,73
13,41 Adulterada
15
77,20
16,77 Adulterada
19
75,01
15,70 Adulterada
3
73,52
11,05 Normal
8
65,19
12,28 Normal
20
65,10
15,58 Adulterada
2
59,58
11,32 Normal
18
58,10
13,68 Adulterada
13
56,51
14,38 Adulterada
14
51,60
15,77 Adulterada
16
50,57
13,78 Adulterada
45
11
46,11
13,55 Adulterada

Atributos Numricos: Exemplo


Sensor_1?
> 83,46
Amostra Sensor1 Sensor2 Classe
7
99,68
15,94 Normal
6
99,30
15,83 Normal
10
98,65
15,65 Normal
1
96,37
15,01 Normal
4
92,94
14,08 Normal
5
87,26
13,60 Normal

<= 83,46

Sensor_2?
> 12,84

Amostra Sensor1 Sensor2 Classe


15
77,20
16,77 Adulterada
12
79,66
16,67 Adulterada
14
51,60
15,77 Adulterada
19
75,01
15,70 Adulterada
20
65,10
15,58 Adulterada
13
56,51
14,38 Adulterada
16
50,57
13,78 Adulterada
18
58,10
13,68 Adulterada
11
46,11
13,55 Adulterada
17
77,73
13,41 Adulterada

<= 12,84

Amostra Sensor1 Sensor2 Classe


8
65,19
12,28 Normal
2
59,58
11,32 Normal
3
73,52
11,05 Normal
9
77,83
10,27 Normal

46

Atributos Numricos: Exemplo

20
18
16
14
12

Padres

10

Sensor_2 >= 12,84

Sensor_1 >= 83,46

6
4
2
0
0

10

20

30

40

50

60

70

80

90 100 110

47

Atributos Numricos: Exemplo (Rudo)


Amostra Sensor1 Sensor2
Classe
1
96,37
15,01 Normal
2
59,58
11,32 Normal
3
73,52
11,05 Normal
4
92,94
14,08 Normal
5
87,26
13,60 Normal
6
99,30
15,83 Normal
7
99,68
15,94 Normal
8
65,19
12,28 Normal
9
77,83
10,27 Normal
10
98,65
15,65 Normal
11
46,11
13,55 Adulterada
12
79,66
16,67 Adulterada
13
56,51
14,38 Adulterada
14
51,60
15,77 Adulterada
15
77,20
16,77 Adulterada
16
50,57
13,78 Adulterada
17
77,73
13,41 Adulterada
18
58,10
13,68 Adulterada
19
75,01
15,70 Adulterada
20
65,10
15,58 Adulterada
21
73,2
13,02 Normal
22
74,8
13,2 Normal

48

Atributos Numricos: Exemplo (Rudo)


Sensor_1?
> 83,46
Amostra Sensor1 Sensor2 Classe
7
99,68
15,94 Normal
6
99,30
15,83 Normal
10
98,65
15,65 Normal
1
96,37
15,01 Normal
4
92,94
14,08 Normal
5
87,26
13,60 Normal

<= 83,46

Sensor_2?
> 12,74

Amostra Sensor1 Sensor2


15
77,20
16,77
12
79,66
16,67
14
51,60
15,77
19
75,01
15,70
20
65,10
15,58
13
56,51
14,38
16
50,57
13,78
18
58,10
13,68
11
46,11
13,55
17
77,73
13,41
21
73,2
22
74,8

<= 12,74

Classe
Adulterada
Adulterada
Adulterada
Adulterada
Adulterada
Adulterada
Adulterada
Adulterada
Adulterada
Adulterada
13,02 Normal
13,2 Normal

Amostra Sensor1 Sensor2 Classe


8
65,19
12,28 Normal
2
59,58
11,32 Normal
3
73,52
11,05 Normal
9
77,83
10,27 Normal

49

Atributos Numricos: Exemplo (Rudo)


Sensor_1?
> 83,46
Amostra Sensor1 Sensor2 Classe
7
99,68
15,94 Normal
6
99,30
15,83 Normal
10
98,65
15,65 Normal
1
96,37
15,01 Normal
4
92,94
14,08 Normal
5
87,26
13,60 Normal

>13,30

Amostra Sensor1 Sensor2 Classe


15
77,20
16,77 Adulterada
12
79,66
16,67 Adulterada
14
51,60
15,77 Adulterada
19
75,01
15,70 Adulterada
20
65,10
15,58 Adulterada
13
56,51
14,38 Adulterada
16
50,57
13,78 Adulterada
18
58,10
13,68 Adulterada
11
46,11
13,55 Adulterada
17
77,73
13,41 Adulterada

<= 83,46

Sensor_2?
> 12,74

<= 12,74

Sensor_2?
<=13,30
21
22

73,2
74,8

Amostra Sensor1 Sensor2 Classe


8
65,19
12,28 Normal
2
59,58
11,32 Normal
3
73,52
11,05 Normal
9
77,83
10,27 Normal

13,02 Normal
13,2 Normal

Overfitting!

50

Atributos com vrios valores (1/2)

Problema:
Se o atributo tem vrios valores, Gain o selecionar
Suponha o uso de Date = 3/06/00 como atributo

Um abordagem: use GainRatio

51

Atributos com vrios valores (2/2)

Gain( S , A)
GainRation ( S , A)
SplitInformation( S , A)
| Si |
| Si |
SplitInformation( S , A)
log 2
|S|
i 1 | S |
c

Onde Si um subconjunto de S para o qual A tem valor vi

52

Atributos com custo

Considere
Diagnstico mdico, BloodTest tem custo R$500
Robtica, Width_from_1ft tem custo 23 sec.

Como aprender uma rvore consistente com


um valor de custo esperado baixo?
Uma abordagem: substitua Gain por:

53

Atributos com custo (2/2)


Tan e Schlimmer (1990)

Gain 2 ( S , A)
Cost ( S , A)
Nunez (1988)

2 Gain( S , A)
(Cost ( A) 1) w

Onde w [0,1] determinar a importncia


do custo

54

Valores de atributo desconhecidos (1/2)

E se valores do atributo A esto faltando para


alguns exemplos?
Mesmo assim use os exemplos de treinamento, e
organize a rvore como segue:
Se um n n testa A, atribua um valor para A que seja
o mais comum entre os outros exemplos classificados
n n
Atribua para A um valor que seja o mais comum entre
os outros exemplos com o mesmo valor objetivo
(target value)
55

Valores de atributo desconhecidos (2/2)


Atribua uma probabilidade pi para cada valor
possvel vi de A
- atribua uma frao pi de exemplos para cada descendente da rvore

Classifique exemplos novos da mesma maneira

56

ADs - concluso

Vantagens:
Estrutura de fcil manipulao
Produzem modelos que podem ser facilmente
interpretados por humanos
Desvantagens:
Pouca robustez a dados de grande dimenso
Acurcia afetada por atributos pouco relevantes
Dificuldade em lidar com dados contnuos

57

Referncias
Machine Learning. Tom Mitchell. McGraw-Hill.1997.