Beruflich Dokumente
Kultur Dokumente
DataMining e Aprendizado
Inteligncia Artificial
DataMining
n O DataMining (DM) uma das ferramentas mais utilizadas para
extra
extrao
o de conhecimento a partir de grandes bases de dados
(Knowledge Discovery in Databases
Databases KDD (da qual DM faz parte)),
parte)),
tanto em reas de neg
negcio como cient
cientficas.
DataWarehouse:
DataWarehouse: dep
depsito de informa
informaoo para permitir decis
decises.
Informa
Informao o muito mais que somente dados armazenados. Pelo
contr
contrrio, s
so dados adquiridos de diversas aplica
aplicaes
es e sistemas
diferentes, integrados em reas l
lgicas de interesse, i.e., estruturados
de forma acess
acessvel e compreens
compreensvel.
Inteligncia Artificial
Inteligncia Artificial
Objetivo e T
Tcnicas de DataMining
n O DM visa, entre outras coisas, extrair conhecimento (padr
(padres,
comportamentos, rela
relaes,
es, etc) de uma DataWarehouse. Para isto,
utiliza-
utiliza-se de t
tcnicas, como por exemplo:
Cont... T
Tcnicas de DataMining
Anlise de Cluster: agrupa informaes homogneas de grupos
heterogneos, selecionando o item que melhor representa e
caracteriza cada grupo.
Inteligncia Artificial
Aprendizado
n Por que aprender ?
n Capacidade de aprender parte fundamental do conceito de
intelig
inteligncia.
ncia.
n Um agente aprendiz mais flex
flexvel -> aprendizado permite lidar com
situa
situaes
es novas (mundo
(mundo din mico). D autonomia ao agente.
dinmico). agente.
n Aprendizado facilita tarefa do projetista -> programar apenas o
essencial
n Para aumentar a efici
eficincia do sistema de IA (agente
(agente).
).
n Para permitir adaptabilidade do sistema
ambiente din
dinmico
reatividade !!
Inteligncia Artificial
Aprendizado
n Paradigmas de Aprendizado:
Aprendizado:
n Aprendizagem supervisionada:
supervisionada:
Dado um conjunto de exemplos prpr-classificados, aprender uma
descri
descrio
o geral que encapsula a informa
informao o contida nesses
exemplos e que pode ser usada para prever casos futuros
n Aprendizagem no-supervisionada:
supervisionada:
Dada uma cole
coleo
o de dados nno classificados, agrup
agrup-los por
regularidades (criar clusters de informa
informao)o)
Aprendizado Indutivo
Inteligncia Artificial
Aprendizado Indutivo
n Paradigma:
Paradigma: aprendizado supervisionado.
supervisionado.
n Caracter
Caractersticas:
sticas:
Infer
Inferncia de uma regra geral (hip
hiptese)
tese) a partir de exemplos
particulares (Exemplos de Treinamento)
Treinamento)
Precis
Preciso diretamente proporcional quantidade de exemplos.
exemplos.
n Abordagem:
Abordagem:
incremental
incremental: atualiza hip
hiptese a cada novo exemplo
n mais flex
flexvel ... Por
Porm a ordem de apresenta
apresentao
o importante!
importante!
no incremental:
incremental: gera hip
hiptese a partir de todo conjunto de exemplos
n mais eficiente e pr
prtica
n Mtodos:
todos:
simb
simblicos (ex:ID3 e C4.5);
no-simb
simblicos (ex:Redes
(ex:Redes Neurais).
Neurais).
Inteligncia Artificial
ID3
n O Mtodo usualmente aplicado para GENERALIZAES
n Classificam instncias ordenando-as de cima para baixo em uma
rvore de deciso
Inteligncia Artificial
n Exemplo:
n Queremos criar regras gerais (em forma de rvore de deciso) que permite o
sistema decidir se haver ou no uma partida de tnis
Inteligncia Artificial
Inteligncia Artificial
NO SIM NO SIM
Inteligncia Artificial
n Necessita-se:
n Ter uma regra que determine qual atributo deve ser considerado em
cada nvel da rvore
n Usar processo de busca para definir a rvore, onde cada estado
uma rvore de deciso parcial (hiptese de uma rvore de deciso)
n O ID3:
Usa um regra chamada ganho
Usa uma busca gulosa (onde o atributo de maior ganho escolhido) que
assemelha-se a busca Steepest Hill-Climbing, onde cada estado (n)
uma rvore de deciso.
Inteligncia Artificial
n redu
reduo
o esperada da entropia devido a classifica
classificao
o de acordo com A
n Entropia: quanto mais puro for o conjunto, menor a entropia
n Conjuntos mais puros: os que possuem ss positivos ou s
s negativos
n O ganho ser maior para o Atributo que dividir melhor o
conjunto de treinamento em positivos e negativos
Inteligncia Artificial
Inteligncia Artificial
[D1,D2...,D14]
[9+,5-]
Tempo
Sol Chuva
Nublado
[D1,D2,D8,D9,D11] [D4,D5,D6,D10,D14]
[2+,3-] [D3,D7,D12, D13] [3+,2-]
[4+,0-]
? ?
SIM
Em cada ? o ID3 escolhe qual atributo oferece o melhor ganho com
rela
relaoo aos exemplos j
j classificados por TEMPO.
Inteligncia Artificial
Tempe Umid
Vento Tempo
Clculo do Erro
n Erro e preciso
Taxa de erro de uma rvore
Onde:
1 n h = classificador
err ( h) = yi h ( xi ) n = numero de exemplos
n i =1 yi a sada correta do exemplo xi
|| E || = 1 se yi = h(xi)
0 se yi h(xi)
Preciso: acc(h) = 1 - err(h)
Distribuio de Classes para um conjunto de exemplos T:
1 n
distr (Cj ) = yi = Cj
n i =1
Para cada Classe Cj T
Inteligncia Artificial
Al
Alm do ID3...
Atributos Num
Numricos
n Mtodo Padr
Padro: Separa
Separaoo Bin
Binria (Ex: temp < 45)
n Todo atributo num
numrico tem diversos pontos de separa
separao
o.
n Solu
Soluo
o:
Calcule o ganho para cada ponto de separa
separaoo
Escolha o melhor ponto de separa
separaoo (o que d
d maior ganho)
ganho)
O ganho desse melhor ponto ser
ser o valor de ganho do atributo
64 65 68 69 70 71 72 72 75 75
75 80 81 83 85
Yes No Yes Yes Yes No No Yes Yes Yes No Yes Yes No
n Computacionalmente caro
Inteligncia Artificial
Mais veloz
veloz
n Podemos calcular os pontos de separa
separao
o mais
rapidamente:
rapidamente:
Valor 64 65 68 69 70 71 72 72 75 75 80 81 83 85
Classe Yes No Yes Yes Yes No No Yes Yes Yes No Yes Yes No
n Os pontos de separa
separaoo s
s precisam ser calculados nos
pontos entre classes diferentes (Fayyad & Irani,
Irani, 1992)
n Pontos intermedi
intermedirios s pontos de separa
separaoo acima n
no
podem ser pontos de separa
separa o
o timos
Inteligncia Artificial
Informa
Informao
o Incompleta
... E se alguns valores de atributos est
esto faltando ?
n Solu
Solues
es (com os exemplos de treinamento):
Se o n
n n testa o atributo A, atribua ao valor que falta o valor mais
comum de A entre todos os exemplos escolhidos para o n n n.
Inteligncia Artificial
n Qualquer hip
hiptese seriamente errada, ir
ir ser
desmascarada logo ap
aps poucos exemplos. Qualquer
hip
hiptese consistente com uma quantidade grande de
exemplos, ter
ter pouca probabilidade de estar seriamente
errada.
n A fun
funoo f um elemento de H.
n Uma hip
hiptese h dita aproximadamente correta se erro(h) com
rela
relao
o a f seja menor que um
H
Hruim f
Inteligncia Artificial
Overfitting - Hiper-
Hiper-Especializa
Especializao
o
n problema de todos algoritmos de aprendizagem!!
aprendizagem!!
Defini
Definio o: dado um espa
espao de hip hip tese h H overfits os
hipteses H, uma hip
dados de treinamento se existir uma outra hip
hip tese h H, tal que h tem menor
erro que h no conjunto de treinamento,
treinamento, mas h tem um menor erro que h sobre a
distribui
distribuio
o total de inst
instncias.
ncias.
Preciso Com os exemplos de treinamento
Inteligncia Artificial
Solucionando Overfitting
n 1a. Soluo:
n Parar de crescer a rvore antes de alcan
alcanar o ponto de classifica
classificaoo
perfeita dos exemplos de treinamento.
treinamento. Mas,
Mas, quando parar?
parar?
Valida
Validao
o cruzada:
cruzada: tenta estimar qu
quo bem a hip
hiptese corrente ir
ir
predizer dados ainda n
no recebidos (vistos
vistos). Segue os seguintes
passos:
passos:
n 1. Divide-
Divide-se o conjunto de treinamento em dois conjuntos: Conjunto de
Treinamento (CT) e Conjunto de Valida
Validaoo (CV)
n 2. Cria-
Cria-se a rvore de decis
deciso a partir de CT e usa CV para verificar a
percentagem de erro.
n Repete-
Repete-se os passos 1 e 2 para diversos CT e CV
CVs diferentes e aleat
aleatrios
Solucionando Overfitting
n 2a. Solu
Soluo
o
n Abordagens que provoquem o overfitting e depois podam a rvore
(post-pruning)
(post-
Mtodo do Erro Reduzido:
Reduzido:
considera-
considera-se cada n n como candidato folha da rvore (elimina sub-
sub-
rvore abaixo dele); o n se torna folha (nova rvore)
rvore) sempre que a
precis
preciso da classifica
classificaoo n
no diminuir em rela
relao
o rvore original,
usando o conjunto de valida
validao
o.
Mtodo de Poda de regras
Converte rvore em regras
Poda cada regra independentemente das outras regras, sempre
verificando se a precis
preciso aumenta
Ordena as regras finais na sequ
sequncia desejada para uso
isso: C4.5
Algoritmo que faz isso:
Inteligncia Artificial
Detalhando o Post-
Post-pruning
n Primeiro,
Primeiro, crie a rvore completa
n Ent
Ento, fa
faa a poda !!!
n Duas opera
operaes es de poda:
poda:
Reposi
Reposioo de sub-
sub-rvore
Eleva
Elevao
o de sub-
sub-rvore
Reposi
Reposio
o de Sub-
Sub-rvores
n Mtodo Bottom-
Bottom-up
Inteligncia Artificial
Eleva
Elevao
o de sub-
sub-rvore
n Remova um n
n Redistribua as inst
instncias
n Mais lenta que a Reposi
Reposio
o de Sub-
Sub-
rvore
X
Inteligncia Artificial
Inteligncia Artificial
f = 5/14
e = 0.46
e < 0.51
podar !!!
An
Anlise de tempo de uma rvore de decis
deciso
n Assuma
m atributos
n exemplos de treinamento
Profundidade de uma rvore O (log n)
n Construir a rvore O (m n log n)
n Reposi
Reposioo de sub-
sub-rvore O (n)
n Eleva
Elevao
o de sub-
sub-rvore O (n (log n)2)
Inteligncia Artificial
C4.5 e C5.0
n C4.5 uma extenso do ID3.
n Algumas caractersticas adicionais:
Trabalha com atributos com nmeros contnuos
Encontra separao da rvore com critrios numricos (Ex: > 140)
Resolve o problema da regra de Ganho usando Razo_de_Ganho
A Regra de Ganho tende a ser maior para atributos com mais valores
Ps-poda baseada no conjunto de treinamento visando a diminuio do
overfitting e conseqente aumento da preciso.
C4.5 pode lidar com informao incompleta (falta de algum atributo, por
exemplo)
Verso C5.0 comercial: mais precisa e mais veloz (usa outras tcnicas
mais modernas)
Aplica
Aplicaes
es Atuais de Aprendizado
n Automa
Automao
o Residencial Inteligente
Sistema aprende regras com o Habitante
Aprende comportamentos
n Controle de SPAM
Aprende automaticamente as caracter
caractersticas de SPAMs
Valida constantemente as regras anti-
anti-SPAM
n Autom
Automvel Inteligente
Aprende o modo de dirigir do motorista
Inteligncia Artificial
Bibliografia
Para aprofundamento nos assuntos desta aula, segue a seguinte
refer
referncia bibliogr
bibliogrfica
n Rich, E. (Intelig
(Inteligncia Artificial)
Cap
Captulo 17 (Aprendizado)
n Russel & Norvig (Artificial Intelligence)
Cap
Captulo 18 (Aprendizado)
n Rezende, Solange (Sistemas Inteligentes)
Caps. 4 e 5 (Aprendizado) e Cap. 12 (DataMining)