Beruflich Dokumente
Kultur Dokumente
CRISPDM
Process
Model
Rodrigo Cunha
O que CRISP-DM?
Metodologia padro no proprietria que
identifica as diferentes fases na implantao de
um projeto de data mining (DMP).
CRISP-DM
http://www.crisp-dm.org/
Fonte: http://www.kdnuggets.com/polls/
Source: http://www.crisp-dm.org/
Nveis do CRISP-DM
Phases
CRISP
Process Model
Generic Tasks
Mapping
Specialized
Tasks
Process
Instances
CRISP
Process
Data
Data
understanding
understanding
Data
Data
preparation
preparation
Data
Deployment
Deployment
Modelling
Modelling
Evaluation
Evaluation
Processo de Descoberta do
Conhecimento [Fayyad 96]
Interpretation/
Evaluation
Data Mining
Transformation
Preprocessing
Selection
Data
Sources
Target
Data
Patterns /
Models
Transformed
Data
Preprocessed
Data
Knowledge
CRISP-DM X KDD
6. Evaluation 7. Deployment
Interpretation/
Evaluation
5. Modeling
Data Mining
4.3 Construct
Data
Transformation
Patterns /
Models
Transformed
Data
Preprocessed
Data
3. Data
Understanding
Data
Sources
2. Business
Understanding
Target
Data
Knowledge
Exemplo: Projeto
Minerao de Dados
Utilizando CRISP-DM
Objetivo do Projeto
Descrever todo o processo de desenvolvimento da soluo
do projeto: Minerao de dados para a diagnstico de falhas.
Fase 1 no projeto de DM
Business Understanding:
Definio dos objetivos do negcio
Detectar as falhas do sistema, a partir do histrico das ocorrncias
e da condio dos alarmes de sinalizao de problemas nos
sistemas.
Recursos Disponveis
Dados em um data warehouse (ORACLE)
Suposies e Restries
Alarme Crtico = Falha
SDH Alcatel
Classificao de padres
Regras de classificao
Etapa 2:
Etapa 3:
Etapa 4:
Etapa 5:
Implantao do prottipo
Data
Data
understanding
understanding
Data
Data
preparation
preparation
Data
Deployment
Deployment
Modelling
Modelling
Evaluation
Evaluation
Fase 2 no projeto de DM
Data Understanding
Coletar dados iniciais
Fase 2 no projeto de DM
Data Understanding
Descrever os dados
491.127 alarmes
75934 (15,46%) so alarmes crticos (falhas).
Campo
NOME DO
CAMPO
EQUIPAMENTO
ALARME
MODULO
LOCAL
NOME LOCAL
GERENCIA
SEVERIDA
DATAALARME
DATANORM
10
ROTA
Fase 2 no projeto de DM
Data Understanding
Descrever os dados
Tipo de alarmes
Freqncia
Percentual
CRITICAL
75934
15,5 %
MAJOR
234780
47,8 %
MINOR
147797
30,1 %
WARNING
32616
6,6 %
Fase 2 no projeto de DM
Data Understanding
Verificar qualidade dos dados
Boa qualidade dos dados
0% de missings
0% de outliers
Data
Data
understanding
understanding
Data
Data
preparation
preparation
Data
Deployment
Deployment
Modelling
Modelling
Evaluation
Evaluation
Fase 3 no projeto de DM
Data Preparation:
Preparar os dados para importao no software
de DM.
Derivar campos calculados (se necessrio)
Integrar bases de dados externas (IBGE,
Correios, etc.)
Limpeza dos dados: outliers e missings.
Codificar campos em: irrelevante, categrico e
numrico.
Fase 3 no projeto de DM
Data preparation:
Campos Calculados:
Fase 3 no projeto de DM
Data preparation:
Pr-Processamento:
5 (cinco) atributos relevantes
3 natureza numrica
Normalizao [0...1]
2 natureza categrica
Transformao 1 de n
Varivel de sada
WARNING para No-FALHA
MINOR para No-FALHA
MAJOR para No-FALHA
CRITICO para FALHA
Data
Data
understanding
understanding
Data
Data
preparation
preparation
Data
Deployment
Deployment
Modelling
Modelling
Evaluation
Evaluation
Fase 4 no projeto de DM
Modeling:
Selecionar as tcnicas de modelagem
Redes Neurais
Regras de Classificao
Catalogar parmetros utilizados
50% para treinamento,
25% para validao
25% para teste
Retornar ao Data Preparation
Software: Tanagra
Tanagra O que ?
Autor: Ricco RAKOTOMALALA
Universidade de Lyon - FRANCE
Tanagra uma ferramenta free para minerao de
dados
open source project
DELPHI (verso 6.0)
Tanagra
Vantagens
Ferramenta grfica
Modular (Componentes)
Alta produtividade
Cdigo Aberto
Integra algoritmos de terceiros
Muito Eficiente!
Desvantagens
Help deficiente
Muitos BUGS
Pr-Processamento e Preparao dos
Dados
Fase 4 no projeto de DM
Modeling:
Regras de Classificao:
Rede Neural:
Arquitetura
Algoritmo:
Camadas Escondidas:
Neurnios Escondidos:
MLP
Backpropagation
1
2, 4, 8 e 20
Taxa de Aprendizado:
Nmero de iteraes:
100, 1000 e
10000
Problema:
Nmero de Entradas:
Nmero de Sadas
Diagnstico de
Falhas
16
2
Padres de
Treinamento
50%
Padres de Validao
25%
Padres de Teste
25%
Data
Data
understanding
understanding
Data
Data
preparation
preparation
Data
Deployment
Deployment
Modelling
Modelling
Evaluation
Evaluation
Fase 5 no projeto de DM
Evaluation Rede Neural:
Fase 5 no projeto de DM
Evaluation - Regras de Classificao:
Regras que caracterizam situaes de falhas:
SE LOCAL = "XINGO MARGEM ESQUERD"
ENTO
FALHA EM 41.45%, REPRESENTANDO
6.9% DA MASSA.
SE LOCAL = "ANGELIM (REPETIDORA)"
ENTO
FALHA EM 38.35%, REPRESENTANDO
8.2% DA MASSA.
SE QTDWARNI = "DE 0 AT 1"
ENTO
FALHA EM 23.30%, REPRESENTANDO
12% DA MASSA.
Fase 5 no projeto de DM
Evaluation - Regras de Classificao:
Regras que caracterizam situaes de alarmes:
SE LOCAL = "RECIFE - COS"
ENTO
FALHA EM 00.95%, REPRESENTANDO
25.54% DA MASSA.
SE LOCAL = "USINA DE SOBRADINHO"
ENTO
FALHA EM 01.58%, REPRESENTANDO
11.69% DA MASSA.
SE QTDMINOR = "DE 1 AT 2"
ENTO
FALHA EM 01.63%, REPRESENTANDO
15.60% DA MASSA.
Data
Data
understanding
understanding
Data
Data
preparation
preparation
Data
Deployment
Deployment
Modelling
Modelling
Evaluation
Evaluation
Fase 6 no projeto de DM
Deployment
Entrega do produto do projeto de minerao de dados.
Software em produo (on-line)
Software analtico (off-line)
Relatrio com um resumo das etapas do
processo CRISP-DM.
Treinamento e Apresentao para o Usurio
Funo
Fabricante
Fase
Excel
Planilha
Microsoft
Avaliao de
desempenho
ORACLE
DISCOVERY
Data Warehouse
ORACLE
Entendendo os
dados
Access
Banco de Dados
Microsoft
Entendendo os
dados
Word
Editor de texto
Microsoft
Entendendo o
negcio
Oxedit
Manipulao de grandes
arquivos texto.
OX
Entendendo os
dados
TANAGRA
Minerao de Dados
Universidade
de Lyon
Modelagem
SPSS
Manipulao de dados
SPSS
Preparao dos
dados
Concluses
Necessidade de uma ferramenta de minerao de
dados completa.
Apresentao metodologia CRISP-DM em um problema
prtico de minerao de dados.
Formalizao
Replicao
Bom poder de classificao da rede neural (poderia ser
colocado em produo)
Regras extraem conhecimento para tomada de deciso
do especialista (off-line)
Trabalhos Futuros
Utilizao de outros algoritmos de aprendizagem
KNN
Regresso Logstica
Anlise Discriminante
Apresentao dos artefatos gerados em cada
uma das fases do CRISP-DM.
Referncia Bibliogrfica
Han, J., Kamber M. (2001) Data Mining: Concepts and
techniques. Morgan Kaufman Publishers, San Francisco,
CA.
Witten, I., Frank, E. (2000) Data Mining: Pratical
Machine Learning Tools and Techniques with Java
Implementations. San Diego, California: Academic
Press.
FAYYAD, U. M.; PIATETSKY-SHAPIRO, G.; SMYTH, P.
From data mining to knowledge discovery: An overview :
in Fayyad, Piatetsky-Shapiro, Smyth and Uthurusamy,
1996.
Referncia Bibliogrfica
Pgina do Tanagra http://eric.univ-lyon2.fr/~ricco/tanagra/en/tanagra.ht
ml
Pgina do CRISP-DM www.crisp-dm.org
REINARTZ, T.; WIRTH, R.; CLINTON, J.;
KHABAZA, T.; HEJLESEN, J.; CHAPMAN, P.;
KERBER, R. The current CRISP-DM process
model for data mining. Berlin: Technical University.,
1998.
Perguntas?