Beruflich Dokumente
Kultur Dokumente
Objectivos gerais
Abrir horizontes em temas actuais
Aprender tcnicas usadas em Sistemas de apoio deciso ou Business Intelligence Mtodos de DataMining
Pesquisa de informao em grandes bases de dados Aprender com experincia passada
Mtodos de Optimizao
Resolver problemas de pesquisa complicados
Bibliografia
Data Mining Techniques, for sales and customer support
Berry, M., Linoff, G., John Wiley and Sons, 1997
Introduo a Data Mining Redes Neuronais Perceptro multicamada (MLP) Redes Neuronais Mapas auto-organizados (SOM) rvores de deciso Introduo s tcnicas de optimizao Algoritmos Genticos
Machine Learning
Mitchell, Tom,, McGraw H 1997 ill,
Software
SAS - Enterprise Miner Disponvel nas salas SPSS - Clementine IBM - Intelligent Miner open source em Java - WEKA SAP Mdulos de Business Intelligence Matlab Toolboxs de NN, DT, GA, etc Outros Statistica Neural Networks, SOM_PAK,
C4.5(original), SNNS, plug-ins para Excel, etc, etc, etc,
etc,
Repositrio de Irvine
www.ics.uci.edu/~mlearn Dados, software, artigos
Homepage do WEKA
www.mkp.com/datamining
SOM (H.U.T.)
www.cis.hut.fi/research/som-research/ Software, bibliografia sobre SOM
Informao poder...
gua vida...
Todos os anos morre gente afogada...
AGIR
Tipos de problemas
Predio
Classificao Regresso
O que vamos estudar ?
Descoberta de conhecimento
Deteco de desvios Segmentao de bases de dados Clustering Regras de associao Sumarizao Visualizao Pesquisa em texto
Exemplos
Deteco de fraudes na utilizao de um carto de crdito Deferir, ou no, um pedido de crdito Prever perdas com seguros
Como descrevo os exemplos?
Prever os nveis de audincia dos canais de televiso Classificar os efeitos hidrofnicos produzidos por diferentes navios Analisar as respostas de um inqurito mdico Escolher clientes a quem direccionar uma campanha de marketing Cross s - elling, fidelizao, etc, etc,
Problemas a montante...
Recolha de dados Representao dos dados Armazenagem, organizao, e disponibilizao dos dados Pr-processamento dos dados
Tipos de atributos
Booleanos ou binrios
S tomam dois valores
Exemplo
Empresa de seguros de sade
Dado, vector, registo ou padro Altura
1.60 1.72 1.66 1.82 1.71
Nominais
Tomam um conjunto de valores no ordenados
Peso
79 82 65 87 66
Sexo
M M F M F
Idade
41 32 28 35 42
Usa ginsio
S S N N N
Ordinais
Tomam um conjunto (finito) de valores ordenados
N N N S S
Numricos
Data Warehouse
Forma Standard
Bases de dados
Transformaes de variveis... Vid Data preparation for Data Mining, Dorian Pyle, Morgan Kaufmann, 1999
Introduo aprendizagem
Aprender a partir dos dados conhecidos
Fases do processo
Exemplos (Treino)
Exemplo de aprendizagem
(1)
Exemplos (Treino)
Algoritmo
Conhecimento
Aprendizagem
Classificao
Exemplos (novos)
Interpretador
CLASSIFICAO
Algoritmo
Conhecimento
Aprendizagem
Agncia imobiliria pretende estimar qual a gama de preos para cada clinente Exemplos de treino:
Dados histricos Ordenado vs custos de casas compradas
Classificao
Exemplos (novos)
Interpretador
Exemplo de aprendizagem
(2)
Exemplos (Treino)
Algoritmo
Conhecimento
Aprendizagem
Classificao
Exemplos (novos)
Exemplo de aprendizagem
(3)
Exemplos (Treino)
Algoritmo
Conhecimento
Aprendizagem
Interpretador
CLASSIFICAO
Classificao
Exemplos (novos)
Interpretador
CLASSIFICAO
Algoritmo
Regresso linear
Exemplos novos
Um novo cliente, com ordenado x
Representao do conhecimento
Recta (declive e ordenada na origem)
Interpretao
Usar a recta (mtodo de previso usado) para obter uma PREVISO
E o Manel ? Altura=1.73 Peso=85 Idade=31 Ordenado=2800 Ginsio=N Ter encargos para a seguradora ?
N N N S S
Dados
Previses
Professor/Aluno
Tipos de Aprendizagem
SUPERVISIONADA vs NO SUPERVISIONADA INCREMENTAL vs BATCH PROBLEMAS
Todo o processo de aprendizagem pode ser caracterizado por um protocolo entre o professor e o aluno. O professor pode variar entre o tipo dialogante e o no cooperante.
Onde j vi isto ?
Protocolos Professor/Aluno
Professor nada cooperante
S d os exemplos => no supervisionada
Professor cooperante
D exemplos classificados => supervisionada
No incremental (batch)
Os exemplos so apresentados todos ao mesmo tempo e so considerados em conjunto.
Problema do n de atributos
Poucos atributos
No conseguimos distinguir classes
Muitos atributos
Caso mais vulgar em Datamining Praga da dimensionalidade Visualizao difcil e efeitos estranhos
Aprendizagem online
Os exemplos so apresentados um de cada vez
Aprendizagem mista
Uma mistura dos dois casos anteriores
Problema da separabilidade
Separveis
Erro possvel
No separveis
Erro sempre > Erro de Bayes
Erro mnimo possvel para um classificador
A representao de conhecimento com menor probabilidade de erro. A representao de conhecimento mais provvel
Problemas ...
Adequabilidade da representao do conhecimento tarefa que se quer aprender Rudo
Rudo na classificao dos exemplos ou nos valores dos atributos. M informao pior que nenhuma informao
Generalizao e overfitting
Aprender demais
Decorar os dados. Vamos ver isso agora...
Os dados
Exemplo de overfitting
Seja um conjunto de 11 pontos. Encontrar um polinmio de grau M que represente esses 11 pontos.
1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0 0,2 0,4 0,6 0,8 1
Universo
Amostra (bem conhecida)
y ( x ) = wi x i
i =0
Aproximao M = 1
y ( x ) = w0 + w1 x
1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0 0,2 0,4 0,6 0,8 1
Aproximao M = 3
y ( x ) = w0 + w1 x + w2 x 2 + w3 x 3
1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0 0,2 0,4 0,6 0,8 1
Data M=3
Aprocimao M = 10
y (x ) = w0 + w1 x + w2 x 2 + w3 x 3 + w4 x 5 + w6 x 6 + w7 x 7 + w8 x 8 + w9 x 9 + w10 x10
1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0 0,2 0,4 0,6 0,8 1
Overfitting
1 0,9 0,8 0,7 0,6
Da ta M=10
Curva de Overfiting
1 0,9
Fases do processo
Conjunto de Teste
A melhor Representao
Probabilidade de erro
Aprendizagem
Conjunto de treino
Classificao
Exemplos (Teste)
Interpretador
CLASSIFICAO
Generalizao
O objectivo no aprender a agir no conjunto de treino mas sim no universo desconhecido !
Como preparar para o desconhecido ?
Conjunto de treino/validao/teste
Known, Dados conhecidos labeled data Conjunto de Training treino set New, Dados unlabeled Novos data Trabalho til
Validation Conj. de set Validao Controla o processo de aprendizagem Conj. Test Teste set
Treina
Classificador Classifier
Processo de aprendizagem
A aprendizagem um processo de optimizao (Minimizao do erro) Algoritmo de optimizao
Mtodo do gradiente Subir a encosta Guloso Algoritmos genticos Simulated annealing
O que o bias da pesquisa?
Conjunto de validao
Quanto maior, melhor a estimao do treino ptimo
Conjunto de teste
Quanto maior, melhor a estimao do desempenho do classificador
Tarefas do projecto
Preparao dos dados. Reduo dos dados. Modelao e predio dos dados. Casos e anlise das solues
Aproximao exploratria...
Physical phenomena
Features Caractersticas
Data Warehouse
Forma Standard
Classifier Classificador
Desenho do classificador
Fundamental features
Caractersticas fundamentais
Informao til
Validao
Dependncias temporais
Atributos reduzidos
Testa o melhor
Conjunto de validao
Consideraes finais
Subconjunto de treino
Soluo
10
Os principais paradigmas
Redes Neuronais Baseados em instncias Algoritmos genticos Induo de regras Aprendizagem analtica
Exemplos de problemas
Exemplos (1)
Um banco quer estudar as caractersticas dos seus clientes. Para isso precisa de encontrar grupos de clientes para os caracterizar. Quais as variveis do problema? Como descrever os diferentes clientes. Que problema de aprendizagem se est a tratar?
Exemplo (2)
Uma empresa de ramo automvel resolveu desenvolver um sistema automtico de conduo de automveis. Quais as variveis do problema? Como descrever os diferentes ambientes. Que problema de aprendizagem se est a tratar?
11
Exemplo (3)
Quer estudar-se a relao entre o custo das casas e os bairros de Lisboa. Quais as variveis do problema? Como descrever os diferentes bairros. um problema problema de predio, mas ser de classificao ou de regresso?
Exemplo (4)
Uma empresa de seguros do ramo automvel quer detectar as fraudes das declaraes de acidentes. Quais as variveis do problema? Como descrever os clientes e os acidentes? um problema problema de predio, mas ser de classificao ou de regresso?
12