Beruflich Dokumente
Kultur Dokumente
4. Algoritmos Básicos
1
Inferência de regras rudimentares
Pseudo-código para o 1R
2
Avaliação dos atributos para os dados
meteorológicos
3
O problema do sobre-ajustamento
Evitando o sobre-ajustamento
4
Conjuntos de regras resultantes
Discussão do 1R
5
Modelação estatística
Bayes ingénuo
6
Dados para um novo dia
Regra de bayes
7
Classificação usando o método de Bayes
Prova E
Pr[ yes | E ] =
Probabilidade da
classe “yes” Pr[Outlook = Sunny | yes ] ×
Pr[Temperature = Cool | yes ] ×
Pr[ Humidity = High | yes ] ×
Pr[Windy = True | yes ] ×
Pr[ yes ]
Pr[ E ]
2 / 9 × 3 / 9 × 3 / 9 × 3 / 9 × 9 / 14
=
Pr[ E ]
O Pr[E] no denominador desaparecerá aquando
da normalização
Análise Inteligente de Dados
8
Problema da frequência zero
E se o valor de um atributo não ocorrer com
todos os valores da classe, e.g.
“Humidity=High” para a classe “yes”?
A probabilidade seria 0!
Pr[ yes | E ] = 0
Remédio: adicionar 1 à contagem de cada
combinação valor de atributo/classe (estimador
de Laplace)
Resultado: as probabilidades nunca serão 0!
Análise Inteligente de Dados
Valores em falta
Durante o treino:
a instância não é incluída na contagem da
frequência da combinação valor de
atributo/classe
Na classificação:
o atributo é omitido dos cálculos
Exemplo:
9
Lidar com atributos numéricos
10
Classificação de um novo dia
Densidades de probabilidade
ε ε
Pr[ c − < x < c − ] ≈ ε × f (c )
2 2
Isto não muda o cálculo da probabilidade
a posteriori já que já que os ε se
cancelam
b
Relação exacta: Pr[ a ≤ x ≤ b] = f (t )dt∫ a
11
Discussão do Bayes “ingénuo”
12
Como escolher o atributo
13
Cálculo da informação
“Outlook”=“Sunny”
inf([ 2,3]) = entropia ( 2 / 5,3 / 5)
= −2 / 5 log(2 / 5) − 3 / 5 log(3 / 5) = 0.971 bits
“Outlook”=“Sunny”
inf([ 4,0]) = entropia (1,0)
= −1 log(1) − 0 log(0) = 0
“Outlook”=“Sunny”
inf([ 3,2]) = entropia (3 / 5,2 / 5)
= −3 / 5 log(3 / 5) − 2 / 5 log(2 / 5) = 0.971 bits
Informação esperada do atributo:
inf([ 3,2], [4,0, [3,2]) = (5 / 14) × 0.971 + ( 4 / 14) × 0 + (5 / 14) × 0.971
= 0.693 bits
Análise Inteligente de Dados
14
Cálculo do ganho de informação
Continuando a ramificação
15
Árvore de decisão final
16
Código ID
Entropia:
inf(" ID Code" ) = inf([0,1]) + inf([0,1]) + ... + inf([0,1]) = 0 bits
17
O ratio de ganho
Ratio de ganho:
uma alteração ao ganho de informação que
diminui a tendência descrita atrás
O ratio de ganho leva em atenção o
número e “tamanho” dos ramos aquando
da escolha do atributo
Corrige o ganho de informação tendo em
conta a informação intrínseca à ramificação
Informação intrínseca:
Entropia da distribuição de instâncias pelos
ramos
Análise Inteligente de Dados
18
Ratios para os dados atmosféricos
19
Discussão do ID3
Algoritmos de cobertura
20
Exemplo de geração de uma regra
Árvore de decisão
correspondente
produz exactamente as mesmas
predições
Mas:
Os conjuntos de regras podem ser
mais
“perspicazes” quando as árvores
de
decisão sofrem de sub-árvores
replicadas
Quando há várias classes, os
algoritmos de cobertura
concentram-se numa classe de
cada vez
21
Um algoritmo simples de cobertura
rule after
adding new
term
Selecção de um teste
22
Dados das lentes de contacto
Regra modificada
23
Refinamento das regras
Estado actual
Testes possíveis
Regra modificada
24
Refinamento
Estado actual
Testes possíveis
Resultado
Regra final:
25
Pseudo-código para o PRISM
26
Separar para conquistar
27
Conjuntos de itens
28
Regras a partir de um conjunto de itens
29
Regras para um mesmo conjunto
Conjunto de itens
30
Um exemplo
Ordenados lexicograficamente
Conjuntos candidatos de 4 itens
31
Exemplo
32
Outras questões
Modelos lineares
33
Minimização do erro quadrático
Classificação
34
Regressão logística
35
Aprendizagem baseada nas instâncias
36
Discussão do 1-NN
Alguns comentários
37
Alguns comentários
38