Sie sind auf Seite 1von 12

Sistemas de Apoio Deciso Introduo ao DataMining

V 1.0, V.Lobo, EN/ISEGI, 2005

Objectivos gerais
Abrir horizontes em temas actuais

Sistemas de Apoio Deciso


Data Mining & Optimizao Victor Lobo

Aprender tcnicas usadas em Sistemas de apoio deciso ou Business Intelligence Mtodos de DataMining
Pesquisa de informao em grandes bases de dados Aprender com experincia passada

Mtodos de Optimizao
Resolver problemas de pesquisa complicados

Programa (parte relativa a tcnicas)


1. 2. 3. 4. 5. 6.

Bibliografia
Data Mining Techniques, for sales and customer support
Berry, M., Linoff, G., John Wiley and Sons, 1997

Introduo a Data Mining Redes Neuronais Perceptro multicamada (MLP) Redes Neuronais Mapas auto-organizados (SOM) rvores de deciso Introduo s tcnicas de optimizao Algoritmos Genticos

Principles of Data Mining


Hand, D., Mannila,H,,Smyth,P.; MIT Press, 2001

Machine Learning
Mitchell, Tom,, McGraw H 1997 ill,

Haykin, Bishop, Hertz, Breiman, Salvador,

Software
SAS - Enterprise Miner Disponvel nas salas SPSS - Clementine IBM - Intelligent Miner open source em Java - WEKA SAP Mdulos de Business Intelligence Matlab Toolboxs de NN, DT, GA, etc Outros Statistica Neural Networks, SOM_PAK,
C4.5(original), SNNS, plug-ins para Excel, etc, etc, etc,
etc,

Alguns sites interessantes


Nosso patrocinador !

Machine Learning Network


www.mlnet.org Software, dados, conferncias, projectos, etc.

Repositrio de Irvine
www.ics.uci.edu/~mlearn Dados, software, artigos

Homepage do WEKA
www.mkp.com/datamining

SOM (H.U.T.)
www.cis.hut.fi/research/som-research/ Software, bibliografia sobre SOM

Sistemas de Apoio Deciso Introduo ao DataMining


V 1.0, V.Lobo, EN/ISEGI, 2005

O que Data Mining?

Introduo ao Data Mining

Data Mining a pesquisa de informao til em grande quantidades de dados


O que ser til? O que pretende obter?

Consequncia do enorme volume de informao actualmente disponvel

Informao poder...
gua vida...
Todos os anos morre gente afogada...

E o que fazer depois de ter os dados organizados ?

necessrio trabalhar a informao Hierarquia de compreenso e utilidade


Conhecimento Informao Dados

O ciclo de data mining

Simplificando, Data Mining


A utilizao de trs tcnicas diferentes:
Bases de dados Estatstica Aprendizagem mquina.
(Machine Learning)

Escolher dados Identificar probelmas

ANALISAR (DATA MINING)

Vamos estudar tudo isto?

AGIR

Para resolver dois tipos de problemas


Predio Descobrir novo conhecimento
MEDIR

Sistemas de Apoio Deciso Introduo ao DataMining


V 1.0, V.Lobo, EN/ISEGI, 2005

Predio e novo conhecimento


Predio
aprender critrios de deciso para ser capaz de classificar casos desconhecidos

Tipos de problemas

Predio
Classificao Regresso
O que vamos estudar ?

Descoberta de conhecimento
Deteco de desvios Segmentao de bases de dados Clustering Regras de associao Sumarizao Visualizao Pesquisa em texto

Descobrir novo conhecimento


encontrar padres desconhecidos existentes nos dados Gostava de ver
exemplos?

Exemplos
Deteco de fraudes na utilizao de um carto de crdito Deferir, ou no, um pedido de crdito Prever perdas com seguros
Como descrevo os exemplos?

Prever os nveis de audincia dos canais de televiso Classificar os efeitos hidrofnicos produzidos por diferentes navios Analisar as respostas de um inqurito mdico Escolher clientes a quem direccionar uma campanha de marketing Cross s - elling, fidelizao, etc, etc,

Problemas a montante...
Recolha de dados Representao dos dados Armazenagem, organizao, e disponibilizao dos dados Pr-processamento dos dados

Representao dos dados


Representao mais usada = tabela
(Existem muitas outras...)

Tipos de atributos
Booleanos ou binrios
S tomam dois valores

Exemplo
Empresa de seguros de sade
Dado, vector, registo ou padro Altura
1.60 1.72 1.66 1.82 1.71

Um exemplo? Varivel, caracterstica, ou atributo Ordenado


3000 4000 2500 2000 3500

Nominais
Tomam um conjunto de valores no ordenados

Peso
79 82 65 87 66

Sexo
M M F M F

Idade
41 32 28 35 42

Usa ginsio
S S N N N

Encargos para seguradora

Ordinais
Tomam um conjunto (finito) de valores ordenados

N N N S S

Numricos

Sistemas de Apoio Deciso Introduo ao DataMining


V 1.0, V.Lobo, EN/ISEGI, 2005

Como organizar os dados?


Data warehouse
o suporte centralizado de informao importante para a deciso.
uma base de dados? Como organizo tudo isto?

O modelo de data warehouse


Bases de dados Mtodos preditivos

Data Warehouse

Forma Standard

Passos para construir a data warehouse


Extrair Transformar Limpar Integrar Data Warehouse

Pr-processamento dos dados


Tratar dos missing values
Elimin los, substitu los, etc -

Corrigir factores de escala entre atributos


Normalizao linear por min/max Normalizar mdia e desvio padro Outras

Bases de dados

Transformaes de variveis... Vid Data preparation for Data Mining, Dorian Pyle, Morgan Kaufmann, 1999

Alguns problemas importantes que NO vamos tratar...


Escolha dos atributos Visualizao
Dados multidimensionais Problema central em datamining

Introduo aprendizagem
Aprender a partir dos dados conhecidos

OLAP e outras tcnicas de reporting


On line Analytical Processing -

Regras de Associao e Market Basket Analysis

Sistemas de Apoio Deciso Introduo ao DataMining


V 1.0, V.Lobo, EN/ISEGI, 2005

Fases do processo
Exemplos (Treino)

Exemplo de aprendizagem
(1)

Exemplos (Treino)

Algoritmo

Conhecimento

Aprendizagem

Classificao

Exemplos (novos)

Interpretador

CLASSIFICAO

Algoritmo

Conhecimento

Aprendizagem

Agncia imobiliria pretende estimar qual a gama de preos para cada clinente Exemplos de treino:
Dados histricos Ordenado vs custos de casas compradas

Classificao

Exemplos (novos)

Interpretador

CLASSIFICAO Custo da casa Ordenado

Exemplo de aprendizagem
(2)

Exemplos (Treino)

Algoritmo

Conhecimento

Aprendizagem

Classificao

Exemplos (novos)

Exemplo de aprendizagem
(3)

Exemplos (Treino)

Algoritmo

Conhecimento

Aprendizagem

Interpretador

CLASSIFICAO

Classificao

Exemplos (novos)

Interpretador

CLASSIFICAO

Algoritmo
Regresso linear

Exemplos novos
Um novo cliente, com ordenado x

Representao do conhecimento
Recta (declive e ordenada na origem)

Interpretao
Usar a recta (mtodo de previso usado) para obter uma PREVISO

Custo da casa Ordenado

Custo da casa Ordenado

Outro problema de predio


Exemplo da seguradora Existem um conjunto de dados conhecidos
Conjunto de treino

Tipos de sistemas de previso


Clssicos
Regresses lineares, logsticas, etc...

Queremos prever o que vai ocorrer noutros casos


Empresa de seguros de sade quer estimar custos com um novo cliente
Conjunto de treino (dados histricos) Altura Peso Sexo Idade Ordenado Usa ginsio
1.60 1.72 1.66 1.82 1.71 79 82 65 87 66 M M F M F 41 32 28 35 42 3000 4000 2500 2000 3500 S S N N N
Encargos para seguradora

Redes Neuronais rvores de deciso


Regresses lineares

E o Manel ? Altura=1.73 Peso=85 Idade=31 Ordenado=2800 Ginsio=N Ter encargos para a seguradora ?

N N N S S

Dados

Redes neuronais rvores de deciso

Previses

Sistemas de Apoio Deciso Introduo ao DataMining


V 1.0, V.Lobo, EN/ISEGI, 2005

Professor/Aluno

Tipos de Aprendizagem
SUPERVISIONADA vs NO SUPERVISIONADA INCREMENTAL vs BATCH PROBLEMAS

Todo o processo de aprendizagem pode ser caracterizado por um protocolo entre o professor e o aluno. O professor pode variar entre o tipo dialogante e o no cooperante.
Onde j vi isto ?

Protocolos Professor/Aluno
Professor nada cooperante
S d os exemplos => no supervisionada

Formas de adquirir o conhecimento


Incremental
Os exemplos so apresentados um de cada vez e a estrutura de representao vai s - e alterando

Professor cooperante
D exemplos classificados => supervisionada

Professor pouco cooperante


S diz se os resultados esto certos ou errados => aprendizagem por reforo

No incremental (batch)
Os exemplos so apresentados todos ao mesmo tempo e so considerados em conjunto.

Professor dialogante - ORCULO

Acesso aos exemplos


Aprendizagem offline
Todos os exemplos esto disponveis ao mesmo tempo

Problema do n de atributos
Poucos atributos
No conseguimos distinguir classes

Muitos atributos
Caso mais vulgar em Datamining Praga da dimensionalidade Visualizao difcil e efeitos estranhos

Aprendizagem online
Os exemplos so apresentados um de cada vez

Aprendizagem mista
Uma mistura dos dois casos anteriores

Atributos importantes vs redundantes


Quais os atributos importantes para a tarefa?

Sistemas de Apoio Deciso Introduo ao DataMining


V 1.0, V.Lobo, EN/ISEGI, 2005

Problema da separabilidade
Separveis
Erro possvel

Problema do melhor tipo de modelo


A representao de conhecimento mais simples.
Mais fcil de entender rvores de deciso vs redes neuronais

No separveis
Erro sempre > Erro de Bayes
Erro mnimo possvel para um classificador

A representao de conhecimento com menor probabilidade de erro. A representao de conhecimento mais provvel

Navalha de Occam ...

Problemas ...
Adequabilidade da representao do conhecimento tarefa que se quer aprender Rudo
Rudo na classificao dos exemplos ou nos valores dos atributos. M informao pior que nenhuma informao

Generalizao e overfitting

Enormes quantidades de dados


Quais so importantes? Tempo de processamento

Aprender demais
Decorar os dados. Vamos ver isso agora...

Os dados

Exemplo de overfitting
Seja um conjunto de 11 pontos. Encontrar um polinmio de grau M que represente esses 11 pontos.
1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0 0,2 0,4 0,6 0,8 1

Universo
Amostra (bem conhecida)

y ( x ) = wi x i
i =0

Sistemas de Apoio Deciso Introduo ao DataMining


V 1.0, V.Lobo, EN/ISEGI, 2005

Aproximao M = 1
y ( x ) = w0 + w1 x
1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0 0,2 0,4 0,6 0,8 1

Aproximao M = 3
y ( x ) = w0 + w1 x + w2 x 2 + w3 x 3
1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0 0,2 0,4 0,6 0,8 1

Data M=3

Aprocimao M = 10
y (x ) = w0 + w1 x + w2 x 2 + w3 x 3 + w4 x 5 + w6 x 6 + w7 x 7 + w8 x 8 + w9 x 9 + w10 x10
1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0 0,2 0,4 0,6 0,8 1

Overfitting
1 0,9 0,8 0,7 0,6
Da ta M=10

Da ta M=1 M=3 M=10

0,5 0,4 0,3 0,2 0,1 0 0 0,2 0,4 0,6 0,8 1

Curva de Overfiting
1 0,9

Fases do processo
Conjunto de Teste

A melhor Representao

Probabilidade de erro

0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0

Exemplos (Validao) Exemplos (Treino)


Algoritmo Conhecimento

Aprendizagem

Conjunto de treino

Complexidade da representao do conhecimento

Classificao

Exemplos (Teste)

Interpretador

CLASSIFICAO

Sistemas de Apoio Deciso Introduo ao DataMining


V 1.0, V.Lobo, EN/ISEGI, 2005

Generalizao
O objectivo no aprender a agir no conjunto de treino mas sim no universo desconhecido !
Como preparar para o desconhecido ?

Conjunto de treino/validao/teste
Known, Dados conhecidos labeled data Conjunto de Training treino set New, Dados unlabeled Novos data Trabalho til

Validation Conj. de set Validao Controla o processo de aprendizagem Conj. Test Teste set

Manter um conjunto de teste de reserva

Treina

Classificador Classifier

Prev a capacidade de generalizao

Diviso dos dados


Conjunto de treino
Quanto maior, melhor o classificador obtido

Processo de aprendizagem
A aprendizagem um processo de optimizao (Minimizao do erro) Algoritmo de optimizao
Mtodo do gradiente Subir a encosta Guloso Algoritmos genticos Simulated annealing
O que o bias da pesquisa?

Conjunto de validao
Quanto maior, melhor a estimao do treino ptimo

Conjunto de teste
Quanto maior, melhor a estimao do desempenho do classificador

Formas de adquirir o conhecimento

Tarefas do projecto

Projecto do sistema de aprendizagem

Preparao dos dados. Reduo dos dados. Modelao e predio dos dados. Casos e anlise das solues

Sistemas de Apoio Deciso Introduo ao DataMining


V 1.0, V.Lobo, EN/ISEGI, 2005

Aproximao exploratria...
Physical phenomena

Preparao dos dados


Objectivos

Fenmeno Medies experimentais

Raw Dados em data bruto

Extraco de caractersticas (feature extraction)

Extraco optimizada das caractersticas

Anlise exploratria de dados perspectivas

Features Caractersticas

Data Warehouse

Transformao dos dados

Forma Standard

Classifier Classificador

Desenho do classificador

Fundamental features

Caractersticas fundamentais

Seleco de caractersticas (feature selection)

Informao til

Validao

Dependncias temporais

Reduo dos dados


Mtodos de reduo Conjunto de treino Forma standard reduzida Conjunto de validao Conjunto de teste

Modelao iterativa e predio


Mudana de parmetros Conjunto de treino Mtodo de predio Soluo

Forma standard inicial

Conjunto de treino inicial

Atributos reduzidos

Testa o melhor

Conjunto de teste inicial

Conjunto de validao

Anlise das solues


Conjunto de teste Conjunto de treino Seleco de um subconjunto

Anlise da medida de desempenho Mtodo de predio

Consideraes finais

Subconjunto de treino

Soluo

10

Sistemas de Apoio Deciso Introduo ao DataMining


V 1.0, V.Lobo, EN/ISEGI, 2005

Os principais paradigmas
Redes Neuronais Baseados em instncias Algoritmos genticos Induo de regras Aprendizagem analtica

Alguns pontos para meditar(1)


Que modelos so mais adequados para um caso especfico? Que algoritmos de treino so mais adequados para um caso especfico? Quantos exemplos so necessrios? Qual a confiana que podemos ter na medida de desempenho? Como pode o conhecimento a priori ajudar o processo de induo?

Alguns pontos para meditar(2)


Qual a melhor estratgia para escolher o processo exemplo? Em que medida a estratgia altera o processo de aprendizagem? Quais as funes objectivo que se devem escolher para aprender? Poder esta escolha ser automatizada? Como pode o sistema alterar automaticamente a sua representao para melhorar a capacidade de representar e aprender a funo objectivo?

Exemplos de problemas

Exemplos (1)
Um banco quer estudar as caractersticas dos seus clientes. Para isso precisa de encontrar grupos de clientes para os caracterizar. Quais as variveis do problema? Como descrever os diferentes clientes. Que problema de aprendizagem se est a tratar?

Exemplo (2)
Uma empresa de ramo automvel resolveu desenvolver um sistema automtico de conduo de automveis. Quais as variveis do problema? Como descrever os diferentes ambientes. Que problema de aprendizagem se est a tratar?

11

Sistemas de Apoio Deciso Introduo ao DataMining


V 1.0, V.Lobo, EN/ISEGI, 2005

Exemplo (3)
Quer estudar-se a relao entre o custo das casas e os bairros de Lisboa. Quais as variveis do problema? Como descrever os diferentes bairros. um problema problema de predio, mas ser de classificao ou de regresso?

Exemplo (4)
Uma empresa de seguros do ramo automvel quer detectar as fraudes das declaraes de acidentes. Quais as variveis do problema? Como descrever os clientes e os acidentes? um problema problema de predio, mas ser de classificao ou de regresso?

12

Das könnte Ihnen auch gefallen