Sie sind auf Seite 1von 55

1

SAMUEL LIMA DO NASCIMENTO

Aplicao de Metodologia de Minerao de Dados

Monografia apresentada ao Curso de Sistemas de Informao das Faculdades Integradas de Patos - FIP, como requisito para avaliao da disciplina de Trabalho de Concluso de Curso, para obteno do ttulo de Bacharel em Sistemas de Informao.

Orientador: Ricardo Santos Oliveira

Dezembro/2008 PATOS-PB

SAMUEL LIMA DO NASCIMENTO

Aplicao de Metodologia de Minerao de Dados

Banca examinadora do Trabalho de Concluso de Curso apresentado ao Curso de Bacharelado em Sistemas de Informao das Faculdades Integradas de Patos FIP, para obteno do ttulo de Bacharel em Sistemas de Informao.

________________________________________ Orientador: Ricardo Santos Oliveira

________________________________________ 1 Examinador (a):

________________________________________ 2 Examinador (a):

RESUMO
Devido crescente quantidade de dados gerada pelos atuais sistemas de informao, automatizar a busca por informao til se faz necessrio. Nesse contexto surgem as aplicaes de minerao de dados. Para nortear o processo de desenvolvimento de aplicaes de minerao de dados foi proposto o processo de KDD (Knowledge Data Discovery Descoberta de conhecimento em dados) com a utilizao da Metodologia CRISP-DM. O processo de KDD visa descobrir informaes teis a partir de um volume de dados, tendo a Minerao como um dos passos do processo. A CRISP-DM (Cross Industry Standard Process for Data Mining) um processo livre de ferramenta e hierrquico, dividido em quatro nveis integrados, onde um nvel produz o artefato necessrio para o desenvolvimento do prximo nvel. A metodologia CRISP-DM uma das mais usadas por grandes organizaes e empresas em todo o planeta devido a sua abrangncia total a qualquer problema de Minerao de Dados e suportada pela maioria das ferramentas computacionais. Neste trabalho ser desenvolvido um estudo de caso, onde a minerao de dados ser desenvolvida de acordo com a metodologia proposta e o processo de KDD, para que se possa analisar os resultados obtidos.

Palavras-Chave: Minerao de Dados, KDD, CRISP-DM.

LISTA DE FIGURAS
FIGURA 1. Etapas Operacionais do Processo de KDD ....................................................... 14 FIGURA 2. Uma Viso das Etapas que Compem o processo de KDD ........................... 15 FIGURA 3. Nveis da Metodologia CRISP-DM ...................................................................... 18 FIGURA 4. Fases do Modelo de Referncia da CRISP-DM................................................ 21 FIGURA 5. Entendimento do Negcio ..................................................................................... 24 FIGURA 6. Entendimento dos Dados ...................................................................................... 27 FIGURA 7. Preparao dos Dados .......................................................................................... 29 FIGURA 8. Modelagem .............................................................................................................. 31 FIGURA 9. Avaliao .................................................................................................................. 34 FIGURA 10. Implantao ........................................................................................................... 36 FIGURA 11. Dados da Base Labor .......................................................................................... 40 FIGURA 12. Todos os atributos da Base ................................................................................ 40 FIGURA 13. Atributos da Base Aps Eliminao .................................................................. 41 FIGURA 14. Minerao com o BayesNet - Todo o Conjunto de Dados ............................ 42 FIGURA 15. Minerao com o NaiveBayes - Todo o Conjunto de Dados......................... 43 FIGURA 16. Minerao com o NaiveBayesSimple - Todo o Conjunto de Dados ............ 43 FIGURA 17. Minerao com o MultilayerPerceptron - Todo o Conjunto de Dados ......... 44 FIGURA 18. Minerao com o MultilayerPerceptron Validao Cruzada ...................... 44 FIGURA 19. Minerao com o BayesNet Validao Cruzada ......................................... 45 FIGURA 20. Minerao com o NaiveBayes Validao Cruzada ..................................... 45 FIGURA 21. Minerao com o NaiveBayesSimple Validao Cruzada ......................... 46

LISTA DE TABELAS
TABELA 1. Atividades planejadas .............................................................................................. 9 TABELA 2. Dimenses dos Contextos e Exemplos .............................................................. 19 TABELA 3. Resultados da Minerao ..................................................................................... 46

SUMRIO

CAPTULO 1 - INTRODUO ................................................................................................... 7 1.1. JUSTIFICATIVA ................................................................................................................. 8 1.2. OBJETIVO.......................................................................................................................... 8 1.3. METODOLOGIA ................................................................................................................ 8 1.4. ORGANIZAO DA MONOGRAFIA ............................................................................. 9 CAPTULO 2 - MINERAO DE DADOS .............................................................................. 10 CAPTULO 3 - KDD .................................................................................................................... 13 CAPTULO 4 - CRISP-DM ........................................................................................................ 18 4.1. Entendimento do Negcio ............................................................................................. 23 4.2. Entendimento dos Dados .............................................................................................. 26 4.3. Preparao dos Dados................................................................................................... 28 4.4. Modelagem ...................................................................................................................... 31 4.5. Avaliao .......................................................................................................................... 33 4.6. Implantao...................................................................................................................... 35 CAPTULO 5 - ESTUDO DE CASO ........................................................................................ 38 5.1. Produes ........................................................................................................................ 47 5.1.1. Entendimento do Negcio ...................................................................................... 47 5.1.1.1. Determinar os Objetivos do Negcio ............................................................ 47 5.1.1.2. Avaliar a Situao ............................................................................................. 47 5.1.1.3. Determinar as Metas da Minerao de Dados ............................................ 48 5.1.1.4. Produo do Plano do Projeto ....................................................................... 49 5.1.2. Entendimento dos Dados ....................................................................................... 49 5.1.2.1. Coleta Inicial de Dados.................................................................................... 49 5.1.2.2. Descrio dos Dados ....................................................................................... 49 5.1.2.3. Explorao dos Dados .................................................................................... 49 5.1.2.4. Verificao da Qualidade dos Dados ............................................................ 49 5.1.3. Preparao dos Dados ........................................................................................... 50 5.1.3.1. Selecionar Dados ............................................................................................. 50 5.1.3.2. Limpar Dados .................................................................................................... 50 5.1.4. Modelagem ............................................................................................................... 50 5.1.4.1. Selecionar a Tcnica de Modelagem ............................................................ 50 5.1.4.2. Gerar Design dos Testes ................................................................................. 50 5.1.4.3. Construir o Modelo ........................................................................................... 50 5.1.5. Avaliao ................................................................................................................... 50 5.1.5.1. Avaliar os Resultados ...................................................................................... 50 5.1.5.2. Processo de Reviso ....................................................................................... 51 5.1.5.3. Determinar os Prximos Passos.................................................................... 51 5.1.6. Implantao .............................................................................................................. 51 CAPTULO 6 CONCLUSO .................................................................................................. 52 REFERNCIAS ........................................................................................................................... 53

CAPTULO 1 - INTRODUO
No mercado atual cada vez mais se acumulam informaes em grandes bases de dados, informaes essas que em muitos casos podem se tornar extremamente valiosas para as empresas se utilizadas de maneira correta. Contudo, devido ao grande volume de informaes existentes na maioria das bases de dados a serem analisadas, torna-se difcil para o especialista analisar manualmente todos esses dados. Por isso, preciso utilizar as tcnicas que extraiam a maior quantidade possvel de informaes significativas dos dados, de maneira automtica, com um mnimo de interveno do especialista. Uma dessas tcnicas a Minerao de Dados (MD). Essa atividade realizada por meio de softwares gratuitos ou no. Contudo, alguns dos softwares no gratuitos destinam-se a grandes volumes de dados, ou seja, so acessveis apenas para empresas de maior porte, restando os gratuitos para estudos acadmicos e bases no to robustas. Mas necessrio evidenciar que isso no quer dizer que eles no possam ser usados por empresas de maior porte que tenham grandes volumes de dados. Porm, para se obter o melhor desempenho possvel necessrio seguir todos os passos da MD corretamente e na seqncia proposta. A MD apenas uma etapa dentro do processo da descoberta de informaes numa base de dados. Por isso, necessria, para maior eficcia da MD a utilizao de uma Metodologia de Minerao de Dados (MMD), pois ela aborda todas as etapas e passos a serem seguidos dentro de um processo de descoberta de informaes. O foco deste trabalho o processo de minerao de dados conhecido como KDD (Knowledge Data Discovery Descoberta de conhecimento em dados). Existe uma padronizao deste processo no sentido de fornecer uma metodologia completa para o desenvolvimento de tarefas de minerao de dados, a CRISP-DM, que ser descrita e utilizada em um estudo de caso em captulos posteriores. A metodologia CRISP-DM (Cross Industry Standard Process for Data Mining) um processo livre de ferramenta e hierrquico, dividido em quatro nveis integrados, onde um nvel produz o artefato necessrio para o desenvolvimento do prximo nvel. O ciclo de vida de um processo nesta metodologia possui seis fases. Ela uma das mais usadas por grandes organizaes e empresas em todo o planeta devido a sua

abrangncia total a qualquer problema de Minerao de Dados e suportada pela maioria das ferramentas computacionais.

1.1. JUSTIFICATIVA

Com a quantidade crescente de informaes armazenadas em bancos de dados coorporativos, muita informao til pode estar perdida em meio a uma grande quantidade de dados. Essas informaes podem ser valiosos aliados tomada de decises por parte de gerentes de empresas. Para encontrar informao importante fundamental dispor de ferramentas capazes de realizar um trabalho que seria de extrema dificuldade para um especialista humano. A minerao de dados tem esse objetivo. Organizar o processo de minerao de dados importante para a obteno de resultados de qualidade. Nesse contexto, as metodologias organizam, no somente o ato de minerao de dados como todo o processo, desde a preparao dos dados at a emisso de relatrios gerenciais. Um processo bem definido de acordo com uma metodologia pode, inclusive, ser aproveitado em futuras atividades de descoberta de conhecimento.

1.2. OBJETIVO

Este trabalho pretende utilizar o processo KDD apoiado na Metodologia CRISPDM. Para tanto, ser desenvolvido um estudo de caso, onde se pretende realizar um processo de minerao de dados de acordo com os passos definidos no processo e na metodologia, verificando-se a qualidade dos resultados alcanados.

1.3. METODOLOGIA

Este trabalho ser realizado atravs de pesquisas em livros, artigos cientficos, internet e manuais. Para tanto, esto programadas as seguintes atividades:

TABELA 1. Atividades planejadas Atividade 1 Descrio Realizar reviso bibliogrfica sobre o tema de processos e metodologias utilizadas em Minerao de Dados, com o objetivo de contextualizar e entender a rea estudada; Definir os principais conceitos utilizados; Definir estudo de caso; Realizar o estudo de caso; Avaliar os resultados obtidos; Escrever a monografia; Defender a monografia.

2 3 4 5 6 7

1.4. ORGANIZAO DA MONOGRAFIA Neste captulo introdutrio, apresentou-se o tema da pesquisa, o objetivo, relevncia e metodologia utilizada. No captulo 2, sero apresentados os conceitos bsicos sobre minerao de dados. J o captulo 3, o processo de KDD ser abordado. O captulo 4 mostrar a metodologia CRISP-DM. Por fim, o captulo 5 trar o estudo de caso.

10

CAPTULO 2 - MINERAO DE DADOS


De acordo com estudos propostos para essa pesquisa, este captulo tem como objetivo apresentar os conceitos bsicos sobre Minerao de Dados. A rea surgiu no final da dcada de 80, e enfoca a extrao de conhecimento, atualmente tratado mais como informaes, de grandes repositrios de volumes de dados utilizando o computador. O conceito do que Minerao de Dados diverge entre os vrios estudiosos dessa rea. Porm existe um conceito que o mais aceito, elaborado por Fayyad, Piatetsky-Shapiro, & Smyth: Extrao de Conhecimento de Base de Dados o processo de identificao de padres vlidos, novos, potencialmente teis e compreensveis embutidos nos dados. (FAYYAD, 1996) Essa rea incorpora diversos conceitos e tcnicas de outras reas que esto ligadas, na maioria das vezes, a algum setor das empresas, como por exemplo: Banco de Dados, Aprendizado de Mquina, Estatstica, Recuperao de Informao, Computao Paralela e Distribuda. Porm, as reas que vm contribuindo cada vez mais significativamente para o desenvolvimento da rea de Minerao de Dados so as seguintes: Banco de Dados, pois com a crescente busca por bancos de dados mais robustos e poderosos durante os ltimos anos, aumentou-se o poder das tcnicas de gerenciamento de dados; Aprendizado de Mquina, por causa dos avanos nos algoritmos, que se tornaram cada vez mais poderosos. A partir da evoluo dos computadores e do maior poder de processamento de informaes dos mesmos, tornou-se possvel utilizar as tcnicas prticas de anlise de dados; Estatstica, pois com a sua utilizao freqente no cotidiano e seus avanos foi possvel se construir uma slida fundamentao terica indispensvel para a Minerao de Dados. Zhou apud REZENDE (2008) avalia as perspectivas das reas de Banco de

11

Dados, Aprendizado de Mquina e Estatstica, e ressalta as suas abordagens distintas para com os aspectos da Minerao de Dados. O mesmo relata que do ponto de vista de Banco de Dados destaca-se a eficincia, pois enfoca o processo da descoberta de informaes significativas como um todo, em um grande volume de dados. J do aspecto do Aprendizado de Mquina enfatiza-se a efetividade, cuja perspectiva influenciada por heursticas eficazes para a anlise de dados. Por fim, para a Estatstica, foca-se a validade, pois ressalta o rigor matemtico que auxiliam os mtodos de Minerao de Dados. Em REZENDE (2008), encontram-se muitas caracterizaes da rea de Minerao de Dados sob muitos pontos de vista, os que mais se destacam so os da rea de: Banco de Dados, onde a Minerao vista como um processo de descoberta de conhecimento interessante em grandes quantidades de dados sejam eles armazenados em Bases de Dados, Data Warehouses ou outros repositrios de dados; Aprendizado de Mquina, que aborda a Minerao como a extrao de conhecimento implcito, previamente desconhecido e potencialmente til a partir de dados; Estatstica, que v a Minerao como a anlise de conjuntos de dados, geralmente em grandes quantidades, para identificar relacionamentos inesperados e resumir os dados gerando novos que so compreensveis e teis para o proprietrio dos dados. Existe ainda um ponto importante a ser mencionado, que o chamado KDD (Knowledge Discovery in Databases, Descoberta de Conhecimento em Bancos de dados). Para W. Frawley apud REZENDE (2008), KDD a extrao de conhecimento previamente desconhecido, implcito e potencialmente til, obtido atravs dos dados. Porm, atualmente as opinies divergem muito a respeito dos termos Minerao de Dados e KDD. Enquanto alguns autores e estudiosos vem os termos como sinnimos, outros consideram a Minerao de Dados como um dos passos de KDD. Entretanto, aps algumas anlises dos pensamentos, foi observado que a definio do que KDD dada por W. Frawley, citada anteriormente, exatamente a definio dada por Witten &

12

Frank para a perspectiva da rea de Aprendizado de Mquina para com Minerao de Dados. Como este fato (mesma opinio entre os estudiosos), fica fcil se entender o porqu da divergncia de opinies, contudo, no apenas um caso, em particular, que nos far saber da verdade ou condenar todas as outras opinies. Portanto, necessrio, um estudo minucioso para poder se chegar a um consenso e um resultado preciso. interessante abordar que as tcnicas utilizadas em Minerao de Dados devem ser vistas como prticas para poder se melhorar os resultados das exploraes realizadas com as ferramentas atuais. O objetivo da Minerao de Dados consiste em encontrar informaes teis a partir de um conjunto de dados, que possam ser um diferencial na hora da tomada de deciso dos usurios finais. Podem-se utilizar regras e relaes entre dados para extrair as informaes. Para tanto, necessrio que essas informaes sejam moldadas ao ponto de se tornarem compreensveis e teis para os seres humanos. Mas, isso no significa dizer que o processo de Minerao de Dados acontece da mesma forma para todos os casos, pois para cada um ser necessrio orientar o procedimento em funo dos tipos de dados que esto armazenados nos repositrios e dos objetivos de negcio dos usurios finais. importante ressaltar tambm que os dados dos repositrios precisam passar por reestruturaes, pois, quase sempre, no esto na forma necessria que exigida para se realizar as consultas e anlises da Minerao de Dados. Ainda hoje, existe um conceito errado sobre a Minerao de Dados, que diz que os sistemas de minerao so automticos e, por isso, seriam capazes de utilizar a tcnica para minerar os dados sozinhos, sem a influncia de especialistas. Todavia, sabe-se que esse processo de descoberta de informaes se d atravs da cooperao entre os especialistas, usurios, responsveis pela aplicao e os sistemas.

13

CAPTULO 3 - KDD
Este captulo aborda a definio, etapas, passos e viso geral do processo de KDD. A Minerao de Dados e a KDD tm, cada vez mais, atrado a ateno das indstrias, da mdia e das pesquisas. FAYYAD (1996) aborda uma avaliao desses dois campos, o relacionamento entre eles e o de ambos com os campos do aprendizado de mquina, estatstica, e banco de dados. Ainda traz aplicaes do mundo real, tcnicas especficas de minerao de dados, os desafios encontrados no mundo real das aplicaes de KDD, e o presente e o futuro das pesquisas na rea. A KDD preocupa-se com as teorias e ferramentas que so utilizadas para extrao de informaes teis de grandes volumes de dados. O problema bsico deste processo mapear os dados de baixo nvel (que so os volumes grandes de dados, encontrados nas bases de dados) para formas mais compreensveis para o ser humano, como: relatrios e modelos de predio de casos futuros. O ponto central deste processo a aplicao de mtodos especficos de Minerao de Dados para a descoberta de padro e extrao. O processo de Descoberta de Conhecimento feito anteriormente manualmente pelos tcnicos passou a ser no decorrer dos anos, invivel, devido ao grande aumento das bases de dados e do nmero de variveis envolvidas. A partir da viu-se que era preciso automatizar este processo, criando-se tcnicas e ferramentas para este fim. Na cincia, a primeira rea em que se utilizaram esses processos foi a astronomia, para melhor desempenho na anlise de imagem, classificao e catalogao de objetos espaciais, a partir de um sistema utilizado por astrnomos. Nos negcios, o processo de KDD est presente nas seguintes reas: marketing, investimentos, descoberta de fraudes, telecomunicaes e agentes de Internet. No decorrer dos anos, foram atribudos vrios nomes a descoberta de padres teis em dados, alguns como: extrao de conhecimento, descoberta de informao, informaes armazenadas, arqueologia de dados e minerao de dados. Primeiro popularizou-se na rea de banco de dados, depois em Inteligncia Artificial e Aprendizado de Mquina.

14

Para FAYYAD et. al. (1996), o KDD abordado como um processo de nvel global que visa descobrir informaes teis a partir de um volume de dados, e Minerao de Dados um passo em particular dentro desse processo. J GOLDSCHMIDT e PASSOS (2005), caracterizam o processo de KDD como sendo composto por etapas operacionais. Contudo, os mesmos utilizam os mesmos passos descritos por FAYYAD et al. Como visto na Figura 1, eles apresentam um resumo pragmtico das etapas, tendo seu significado da seguinte forma: o prprocessamento contm os passos relacionados a coleta, organizao e tratamento dos dados; a minerao de dados onde busca-se informaes teis nos dados; e o psprocessamento, caracteriza-se pelo tratamento das informaes obtidas, avaliando a utilidade dos mesmos, tendo em vista que, nem sempre, a mesma faz-se necessria.

FIGURA 1. Etapas Operacionais do Processo de KDD

Os outros passos do processo de KDD so: preparao dos dados, seleo dos dados, limpeza dos dados, incorporao de conhecimento anterior e a interpretao dos resultados da minerao. Este processo continua evoluindo e, no decorrer de sua evoluo, alcanou as reas de Aprendizado de Mquina, Reconhecimento de Padro, Bancos de Dados, Estatsticas, Inteligncia Artificial, Aquisio de Conhecimento para Sistemas Especialistas, Visualizao de Dados e Computao de Alto-Desempenho. O componente da Minerao de Dados no KDD baseia-se em tcnicas de Aprendizado de Mquina, Reconhecimento de Padro e Estatstica pra encontrar padres de dados no passo de Minerao de Dados dentro do processo de KDD.

15

O processo de KDD aborda como os dados so armazenados e acessados, como algoritmos podem ser escalados para grandes volumes de dados e como podem ser corrigidos com eficaz, como os resultados podem ser interpretados e visualizados e como a interao homem-mquina pode ser realizada.

FIGURA 2. Uma Viso das Etapas que Compem o processo de KDD

No processo de KDD, as fases so (ou podem ser) realizadas vrias vezes, afim de que se possa remodelar passos anteriores, buscando deixar o processo o mais confivel e preciso o possvel. Um processo de KDD envolve o banco de dados junto com qualquer seleo exigida, pr-processamento, pr-aprovao e transformaes. A Figura 2 mostra o processo de KDD, onde se pode ver que o mesmo inclui uma etapa de avaliao ou interpretao, na qual podemos avaliar os padres da minerao para determinar quais podem ser considerados como novo conhecimento. Esse processo interativo e iterativo, pois envolve muitos passos que acarretam em muitas decises que devem ser tomadas pelo usurio. A seguir descrevem-se alguns passos bsicos: 1. desenvolvida uma compreenso do que ser abordado no processo e se leva em considerao os conhecimentos anteriores e identificam-se as metas que o cliente deseja atingir. 2. criado um conjunto de dados prvio: selecionando um conjunto de dados ou observando-se um subconjunto de variveis ou uma amostragem de dados, os quais sero usados na execuo do processo

16

para se obter as informaes. 3. feita uma limpeza nos dados e um pr-processamento. Esse passo envolve a remoo de rudos, se necessrio, a coleta de informaes necessrias para a criao do modelo, decidir a estratgia que ser utilizada para tratar os campos de dados que tiverem inconsistncia, e responder pelo tempo de sucesso e mudanas conhecidas. 4. feita uma reduo dos dados e uma projeo, que tem como objetivo achar caractersticas teis para representar os dados de acordo com as metas da tarefa. A reduo da dimenso dos dados ou os mtodos de transformaes podem reduzir o nmero de variveis ou encontrar representaes invariantes para os dados. 5. Combinam-se as metas do primeiro passo com um determinado mtodo de Minerao de Dados. Dentre eles: sumarizao, classificao e regresso. 6. feita uma anlise exploratria, modelos e seleo de hipteses, onde se escolhe o(s) algoritmo(s) de Minerao de Dados e seleciona-se o(s) mtodo(s) que sero utilizados para procurar padres a partir dos dados. 7. a etapa da minerao de dados, onde se busca encontrar padres que interessam uma representao em particular ou um conjunto de representaes, incluindo regras de classificao ou rvores, regresso e agregao. Esse passo depende de todos os outros, pois se os mesmos no forem desempenhados da melhor maneira, o resultado poder tambm no ser o mais preciso. 8. Esse consiste na interpretao dos padres que foram extrados, nesse caso pode-se voltar a qualquer um dos passos de 1 a 7, a fim de customizar o processo e fazer correes tambm deixando o processo mais iterativo. Pode-se ter nesse passo a visualizao de padres e modelos extrados ou visualizao dos dados extrados dos modelos. 9. onde se trata o que ser feito com os conhecimentos obtidos atravs do processo, podendo us-los para integrao com outro sistema, usar os conhecimentos diretamente, ou document-lo e report-lo s pessoas

17

interessadas. O processo de KDD pode envolver reavaliao dos passos e remodelagem da mesma, podendo tambm conter laos entre quaisquer de dois passos, cabe-se enfatizar que esse processo possui significativa iterao. Contudo, muitos dos trabalhos feitos por FAYYAD et al. anteriormente sobre KDD enfoca o passo de Minerao de Dados. Porm, no processo, ele necessita de todos os outros para poder ser realizado, deixando evidente que os outros apesar de mais simples que a minerao, so de extrema importncia para a realizao do processo.

18

CAPTULO 4 - CRISP-DM
Este captulo abordar os nveis, fases, atividades e artefatos da metodologia. Ela surgiu em 1996, quando o mercado de Minerao de Dados era imaturo e ainda no tinha recebido influncias de outras reas. definida como um processo hierrquico que contm um conjunto de tarefas que possuem quatro nveis de abstrao: phases (fases), generic tasks (tarefas genricas), specialized tasks (tarefas especializadas) e process instances (instncias de processos). Essa diviso de tarefas pode ser visualizada na Figura 3. (CHAPMAN et al., 2000)

FIGURA 3. Nveis da Metodologia CRISP-DM

No primeiro nvel, o processo de Minerao de Dados organizado em fases, cada uma composta por vrias tarefas genricas do segundo nvel. J no segundo nvel, so tratadas as tarefas de cada uma das fases do primeiro nvel, para poderem ser passadas para o terceiro nvel como aes. Esse nvel

19

chamado de tarefas genricas porque compreende qualquer problema de Minerao de Dados que venha a ser abordado. O terceiro nvel o responsvel por descrever como as aes do segundo nvel devem ser tratadas dependendo da situao em que se encontram. Essa descrio de fases e tarefas segundo os passos de execuo apresentados acima em uma ordem especfica representa uma seqncia de eventos. Porm, o que acontece na prtica que muitas das tarefas criadas podem ser executadas em ordem diferente e, freqentemente ser preciso voltar a certas tarefas e repetir certas aes. Por fim, o quarto nvel um registro das aes, decises e resultados obtidos atravs do processo. Ele organizado de acordo com as tarefas determinadas nos nveis mais altos, mas representa o que aconteceu de fato, ao invs do que acontece geralmente. Atualmente, se distinguem os contextos de minerao de dados entre quatro diferentes dimenses: o domnio da aplicao, que aborda a rea onde o projeto se realiza; o tipo do problema de Minerao de Dados, que descreve as classes de objetivos que o projeto aborda; o aspecto tcnico, que abrange questes especficas que descrevem diferentes desafios encontrados durante o processo; e, a ferramenta e tcnica, que especificam qual tcnica ou ferramenta ser aplicada durante o projeto de Minerao de Dados. Um contexto formado de uma ou mais dessas dimenses. Conforme a Tabela 2 pode-se visualizar as dimenses dos contextos e alguns exemplos para cada um.

TABELA 2. Dimenses dos Contextos e Exemplos Dimenso Contexto da Minerao de Dados Tipo do Problema Aspecto de Minerao de Tcnico Dados Modelagem da Descrio e Falta de Responsabilidade Sumarizao Valores Previso de Segmentao Rudos Mudanas ... Descrio do ... Conceito Classificao Predio Domnio da Aplicao Ferramenta e tcnica Clementine MineSet rvore de Deciso

Exemplos

20

Anlise de Dependncia Na Metodologia o mapeamento dos contextos se distingue entre os nveis genrico e especializado, tambm considerados mapeamento para o presente e para o futuro. Mapeamento para o presente, utilizado se for o caso de aplicar o modelo do processo genrico para se realizar um nico projeto de Minerao de Dados e tentar esquematizar tarefas genricas e as descries do projeto que ser usado uma nica vez. Mapeamento para o futuro, elaborado de acordo com um contexto pr-definido e especializado sistematicamente de acordo com o modelo genrico do processo. Com isso, esse modelo poder ser usado posteriormente ao final do processo, em outro processo servindo como base de conhecimento e referncia. (TAFT, 2005) Para se saber qual dos mapeamentos o mais apropriado em um determinado projeto, necessrio observar os propsitos do seu contexto de projeto de Minerao de Dados e os objetivos da organizao. Para se poder mapear um modelo genrico para o de nvel especializado preciso apenas seguir uma estratgia bsica, que serve para ambos os tipos de mapeamento, que : Analisar seu contexto especfico; Remover detalhes que no sero usados no seu contexto; Acrescentar os detalhes que iro ser necessrios ao seu contexto; Particularizar contedos genricos levando em considerao as

caractersticas concretas de seu contexto; Permitir que os contedos genricos possam ser renomeados, a fim de prover idias mais claras e explicitas dos mesmos. O modelo atual do processo de Minerao de Dados prov uma viso geral do ciclo de vida de um projeto de Minerao. Ele possui as fases de um projeto, suas tarefas e relaes entre elas. Neste nvel de descrio no possvel visualizar todas as relaes.

21

FIGURA 4. Fases do Modelo de Referncia da CRISP-DM

Como mostra a Figura 4, o ciclo de vida de um processo CRISP-DM consiste em seis fases. A seqncia no rgida, podendo-se voltar para fases anteriores e reavaliar as informaes. Porm, a fase seguinte depende da resposta da fase anterior para que possa ser realizada. Pode-se ver tambm que no centro da figura encontra-se a base de dados, o que significa dizer que, o processo tem como base os dados e se desenvolve centrando-se neles. As setas indicam as dependncias entre as fases. (MARKOV, 2007) O anel externo simboliza a natureza cclica do processo de Minerao de Dados. Onde se pode ver que ela no acaba, nem mesmo depois que a soluo implementada, pois o que se aprende durante o processo e depois de sua implementao pode ser usado em novos projetos. A seguir sero explicadas as seis fases mostradas na Figura 3. Entendimento do Negcio - esta fase centra-se na compreenso dos objetivos e nas exigncias do negcio, depois transforma o conhecimento em um problema de Minerao de Dados e idealizado um plano preliminar para se chegar aos objetivos. Entendimento dos Dados - comea com uma coleta inicial de dados e atividades para poder se familiarizar com eles, para poder identificar

22

problemas de qualidade neles, para ver perspiccias nos mesmos ou para detectar subconjuntos a fim de se obter informaes escondidas. Preparao dos Dados - esta fase abrange as atividades que sero usadas para se chegar aos dados em estado final, a partir dos dados iniciais. Essas atividades podem ser feitas vrias vezes, sem ordem definida, e com uso de ferramentas de modelagem. Modelagem - nessa fase so selecionadas e aplicadas vrias tcnicas de modelagem, calibrando os parmetros para deixar os valores otimizados. Um problema de Minerao de Dados pode ser solucionado atravs de vrias tcnicas diferentes, porm algumas exigem que os dados estejam em formas especficas, pois caso contrrio, os resultados no sero verdadeiros. Algumas vezes necessrio voltar fase de Preparao dos Dados para poder reavaliar o modelo e alterar o que puder causar inconsistncia ou falha no mesmo. Avaliao - ao se chegar nesta fase se ter construdo um modelo que parea ter alta qualidade. Contudo importante avaliar mais

detalhadamente o modelo e os passos executados para cri-lo antes de proceder implantao definitiva, a fim de que o modelo atinja os objetivos esperados. Um objetivo importante ver se no se deixou de considerar algum dado importante para o projeto. Isto pode ser visto na Figura 3, onde temos uma seta saindo da Avaliao e direcionada ao Entendimento do Negcio. Implantao - a ltima fase do ciclo, no entanto, na maioria das vezes, a criao do modelo no o fim do projeto, pois os conhecimentos precisam ser organizados e apresentados a fim de que o cliente possa utiliz-lo. Mas, muitas vezes necessrio aplicar esses modelos em tempo real dentro de uma organizao de processos decisrios. Essa implantao pode ser simples ou muito complexa dependendo dos requisitos que se tenha. Porm, na maioria dos casos o cliente que define as etapas da implantao, e isso deixa o profissional com uma misso muito importante, que fazer com que o cliente possa entender as

23

questes tcnicas e pontos importantes, que devem ser levados em conta para definir as etapas e se fazer uso dos modelos criados da melhor maneira possvel, pois, caso contrrio, todo o trabalho que se teve para se gerar o modelo pode ser perdido.

4.1. Entendimento do Negcio

A Figura 5 apresenta todas as fases, porm destaca a primeira do modelo CRISP-DM, a de Entendimento do Negcio, e suas tarefas e produes que sero descritas melhor agora. A primeira tarefa Determinar os Objetivos do Negcio, nela que o analista de dados deve entender o que o cliente realmente quer realizar, levando em considerao as restries e a competio entre os objetivos, tendo tambm como dever descobrir fatores importantes para o processo. Se algum pular esta tarefa, o mesmo estar se arriscando a perder todo o tempo e esforo que foi gasto para produzir respostas certas a questes erradas.

24

FIGURA 5. Entendimento do Negcio

As produes obtidas ao fim dessa tarefa so: Background, que o registro de informao da situao de negcio da organizao no comeo do projeto; Objetivos do negcio, que descrevem o objetivo primrio do cliente de uma perspectiva de negcio. Contudo, geralmente o cliente possui outras perguntas de negcio relacionadas que gostaria de fazer; Critrios de sucesso do negcio, responsvel por expor os critrios para um til ou prspero resultado para o projeto. Isto pode ser bastante especfico e capaz de ser mensurvel. J a segunda tarefa Avaliar a Situao, esta etapa envolve achar fatos mais detalhados sobre todos os recursos, restries, suposies e outros fatores que determinam a meta de anlise de dados e do plano de projeto. Nessa tarefa sero obtidas as seguintes produes:

25

Inventrio de Recursos, que uma lista de recursos disponveis para o projeto, incluindo: pessoal, dados, recursos computacionais e programas;

Exigncias, Suposies e Restries, a lista de exigncias possui todas as exigncias do projeto incluindo horrio de concluso, compreensibilidade, qualidade dos resultados e segurana, o que proporciona a certeza de que os dados so confiveis e possam ser usados. J a lista de suposies, contm as suposies feitas sobre os dados do projeto, que podem ser conferidos, ou no, durante o processo. E, finalmente a lista de restries mostra as restries na disponibilidade de recursos, e a partir dela que podemos observar a necessidade de se incluir restries tecnolgicas, como por exemplo, o tamanho de dados que sero usados;

Riscos e Contingncias, que so duas listas, uma delas aborda os riscos ou eventos que podem ocorrer e atrasar o projeto ou causar sua falha. E a outra descreve os planos de contingncias, cujo contedo as aes a serem tomadas para cada risco ou evento da lista de riscos ou eventos;

Terminologia, esta consiste num glossrio de terminologia pertinente ao projeto, onde se podem ter dois componentes, um deles um glossrio terminolgico de negcio relevante que forma parte da compreenso de negcio do projeto. E o outro um glossrio de terminologia de Minerao de Dados, ilustrada com exemplos relevantes ao problema de negcio em questo;

Custos e Benefcios, que onde se constri uma anlise de custo benefcio do projeto para comparar os custos com o potencial benefcio para o negcio ter xito.

A terceira tarefa Determinar as Metas da Minerao de Dados, ela declara os objetivos do projeto em termos tcnicos. As produes obtidas por essa tarefa so: Metas da Minerao de Dados, onde se descreve as produes que se planejou para o projeto e que tornam possvel a realizao dos objetivos empresariais; Critrios de Sucesso da Minerao de Dados define os critrios que

26

devem ser seguidos para se conseguir um bom resultado para o projeto em termos tcnicos. A quarta tarefa a Produo do Plano do Projeto, que descreve o planejamento que ser utilizado para se alcanar s metas da Minerao de Dados e tambm as metas do negcio. Ele deve tambm citar os passos que devem ser executados durante o resto do projeto, compreendendo ainda uma seleo de ferramentas e tcnicas que sero utilizadas. Para esta tarefa so elaboradas as seguintes produes: Plano do projeto, que possui a lista das fases a serem executadas para a realizao do projeto, juntamente com a durao, recursos requeridos, contribuies, produes e dependncias. necessrio tambm realizar uma anlise verificando as dependncias entre horrio e riscos, e prover aes e recomendaes caso os riscos apaream. Evidencia-se igualmente que o plano contm detalhados planos para cada uma das fases e que esse documento, ao trmino de cada fase, deve passar por uma reviso do progresso e realizaes do processo e ser atualizado; Avaliao Inicial das Ferramentas e Tcnicas, esta aborda a idia de que ao final da primeira fase deve ser executada uma avaliao inicial para se ver o desempenho das ferramentas e tcnicas.

4.2. Entendimento dos Dados

A Figura 6 enfoca a segunda fase do modelo CRISP-DM, a de Entendimento dos Dados, suas tarefas e produes, que sero apresentadas abaixo.

27

Entendimento do Negcio

Entendimento dos Dados

Preparao dos Dados

Modelagem

Avaliao

Implantao

Coleta Inicial de Dados

Relatrio da Coleta Inicial de Dados

Descrio dos Dados

Relatrio da Descrio dos Dados

Explorao dos Dados

Relatrio de Explorao dos Dados

Verificao da Qualidade dos Dados

Relatrio da Qualidade dos Dados

FIGURA 6. Entendimento dos Dados

A primeira tarefa desta fase a Coleta Inicial de Dados, ela consiste em pegar os dados ou obter acesso aos mesmos, os quais foram listados nos recursos do projeto. Como produo para esta tarefa, temos apenas o Relatrio da Coleta Inicial de Dados, que contm o conjunto de dados adquirido, juntamente com sua localizao no projeto, os mtodos usados para poder adquiri-los e qualquer problema que venha a ser encontrado. J a segunda tarefa a Descrio dos Dados, que consiste em analisar superficialmente as propriedades dos dados coletados e logo aps reportar os resultados encontrados durante a atividade.

28

Tambm se tem apenas uma produo para a segunda tarefa, que o Relatrio da Descrio dos Dados, que descreve os dados que foram adquiridos, incluindo: quantidade dos dados, formato dos dados, identidades dos campos e qualquer outra caracterstica que for encontrada. A terceira tarefa, Explorao dos Dados, aborda questes de Minerao de Dados atravs de anlises realizadas nos relatrios. Questes estas que podem ser distribuio dos principais atributos, relaes entre atributos e anlises estatsticas. Estas anlises podem ter grande valor, pois podem refinar a descrio dos dados e a qualidade dos relatrios. Possui-se uma nica produo para esta tarefa, que o Relatrio de Explorao dos Dados. Ele descreve os resultados desta tarefa, a hiptese inicial e seu impacto no restante do projeto. Dependendo do caso, podem-se incluir grficos e enredos que apontam algumas caractersticas dos dados. Em seguida vem a quarta tarefa que a Verificao da Qualidade dos Dados, que tem o objetivo de examinar a qualidade nos dados, levando-se em conta se todas as principais questes foram atendidas. Questes como: os dados esto completos? Esto corretos ou contm erros? H valores perdidos nos dados? A produo dessa fase somente uma o Relatrio da Qualidade dos Dados, que uma lista com os resultados da verificao da qualidade dos dados. Se existirem problemas de qualidade, ela deve conter as possveis solues para cada caso. Essas solues geralmente dependem dos dados e de conhecimento de negcio.

4.3. Preparao dos Dados

A Figura 7 foca a terceira fase do modelo CRISP-DM, a de Preparao dos Dados, com suas tarefas e produes, que sero abordadas a seguir.

29

FIGURA 7. Preparao dos Dados

Esta fase comea com duas produes que so: Conjunto de Dados, que so os dados produzidos pela fase de Preparao dos Dados e que sero utilizados para a modelagem ou para se trabalhar no projeto; Descrio do Conjunto de Dados, que descreve ou dados que sero utilizados para a modelagem ou trabalhos no projeto. A primeira tarefa desta fase a de Selecionar Dados. nela que se decide que dados sero usadas para se realizar as anlises. So levados em considerao alguns

30

critrios como: a relevncia das metas da Minerao de Dados, qualidade e restries tcnicas como o mximo de volume possvel de dados e os tipos de dados. Nesta tarefa tem-se apenas uma produo, que a Razo para

Incluso/Excluso, que uma lista que contm os dados a serem excludos ou includos e as respectivas razes para essas decises. J a segunda fase trata da Limpar Dados, que aumenta o nvel de qualidade dos dados at o nvel que esperado pelas tcnicas de anlise que foram prselecionadas. Ela pode envolver a seleo de subconjuntos de dados que estejam prontos para serem aplicados na tcnica, a insero de faltas satisfatrias ou tcnicas de estimao de dados, que foram perdidos na modelagem. A produo dessa tarefa o Relatrio da Limpeza dos Dados, que tem a funo de descrever que aes e decises foram tomadas, mediante os problemas encontrados na qualidade dos dados reportados durante a tarefa de Verificao da Qualidade dos Dados na fase de Entendimento dos Dados. As transformaes que os dados sofrem, devido ao processo de limpeza dos dados, influem consideravelmente nos resultados, podendo causar um impacto inesperado nos resultados. Na terceira tarefa, Construir Dados utiliza-se operaes de preparao de dados para a produo de atributos derivados, novos registros ou valores transformados por atributos existentes. Suas produes so: Atributos Derivados so novos atributos que foram construdos de um ou mais atributos existentes no mesmo registro; Registros Gerados, que descrevem a criao completa dos novos registros. A quarta tarefa a de Integrar Dados, que se constitui de mtodos que combinam informaes de vrias tabelas ou registros para poder criar novos registros ou valores. Para esta tarefa temos a seguinte produo: Juno de Dados, que se refere a juntar duas ou mais tabelas que tm diferentes informaes sobre os mesmo objetos, combinando-as a por meio de determinados campos que possuem alguma relao. A quinta tarefa, Formatar Dados, consiste em realizar modificaes sintticas, que so feitas para que os significados dos dados no sejam alterados, mas que podem

31

ser exigidos pelo software de modelagem. Tem como sada apenas uma produo, Dados Reformatados, que so os dados a serem utilizados na ferramenta, eles precisam ser reformatados por exigncias dos prprios softwares, pois alguns requerem uma ordem definida dos atributos, como o primeiro campo da tupla ser um identificador nico para cada um dos registros.

4.4. Modelagem

A Figura 8 exibe a quarta fase do modelo CRISP-DM, a de Modelagem. Suas tarefas e produes sero vistas abaixo.

Entendimento do Negcio

Entendimento dos Dados

Preparao dos Dados

Modelagem

Avaliao

Implantao

Selecionar a tcnica de modelagem

Modelagem Tcnica

Pressupostos da Modelagem

Gerar Design dos Testes

Design dos Testes

Construir o Modelo

Parmetros de Configurao

Modelos

Descrio do Modelo

Avaliar o Modelo

Modelo de Avaliao

Reviso dos Parmetros de Configurao

FIGURA 8. Modelagem

32

Sua primeira tarefa Selecionar a Tcnica de Modelagem, que o primeiro passo da Modelagem, pois nela que se seleciona a tcnica de modelagem que ser utilizada no processo. Tem como produes: Modelagem Tcnica, que um documento que aborda a modelagem tcnica que ser utilizada. Pressupostos da Modelagem, que um registro de todas as hipteses feitas pelas Tcnicas de Modelagem, pois isso advm do fato de que muitas tcnicas de modelagem fazem suposies sobre os dados, como a de que todos os atributos tm distribuies uniformes, no faltam valores, entre outras coisas. J a segunda tarefa, Gerar Design dos Testes, cobre a necessidade de se determinar um processo ou mecanismo que ser usado para se testar a qualidade e validade do modelo. A produo dessa tarefa o Design dos Testes, que descreve o plano desenvolvido para o treinamento, testes e avaliao dos modelos. O principal objetivo do plano decidir como dividir o conjunto de dados disponveis para o treinamento dos dados, testes dos dados e validao do conjunto de dados. A funo da terceira tarefa Construir o Modelo, atravs da execuo da ferramenta de modelagem sobre o conjunto de dados preparados, para criar um ou mais modelos. So geradas trs produes, que so: Parmetros de Configurao, que contm a lista de parmetros e seus valores, que foram escolhidos de acordo com a ferramenta, e juntamente com a justificao da escolha de cada parmetro; Modelos, estes so os modelos reais produzidas atravs das ferramentas de modelagem utilizadas; Descrio do Modelo, cujo contedo relata o modelo criado. um relatrio sobre a interpretao dos modelos e documento com algumas dificuldades encontradas com seus significados. A quarta tarefa, Avaliao do Modelo, cabe ao engenheiro de minerao de dados, que interpreta os modelos de acordo com os seus conhecimentos, os critrios

33

de sucesso da Minerao de Dados e o resultado desejado dos testes. Essa tarefa tambm leva em considerao todos os outros resultados que foram produzidos durante o andamento do projeto. Nesta tarefa so obtidas duas produes: Modelo de Avaliao, que contm a lista das qualidades dos modelos que foram gerados e classifica a qualidade dos mesmos em relaes a cada um; Reviso dos Parmetros de Configurao, que serve para ajustar os Parmetros de Configurao antes da prxima vez que ser executado a tarefa de Construo do Modelo. Essa iterao acontecer at que se tenha total certeza de que foi encontrado o melhor modelo(s). Essas revises e avaliaes precisam ser documentadas.

4.5. Avaliao

A Figura 9 mostra a quinta fase do modelo CRISP-DM, a de Avaliao, com suas tarefas e produes, que ser exposta a seguir.

34

FIGURA 9. Avaliao

A primeira tarefa desta fase a de Avaliar os Resultados, que consiste em testar a exatido e a generalidade do modelo. Este passo avalia o grau em que o modelo atende os objetivos empresariais e possibilita a descoberta de alguma deficincia no modelo. So obtidas duas produes: Avaliao dos Resultados da Minerao de Dados a Respeito dos Critrios do Sucesso do Negcio, onde se resume os resultados da avaliao e se d uma declarao final dizendo se o projeto j cumpre ou no os objetivos iniciais do negcio; Modelos Aprovados, que so os modelos gerados que satisfizeram os critrios de seleo e sucesso do negcio. J a segunda tarefa o Processo de Reviso, neste ponto esperado que o modelo produzido seja satisfatrio e satisfaa as necessidades do negcio. Este momento oportuno para se fazer uma anlise mais aprofundada no engajamento da Minerao de Dados, para se ter certeza de que no foi esquecido nenhum fator

35

importante ou tarefa. Para esta tarefa tem-se a produo Reviso do Processo, que revisa o processo e aponta as atividades que foram perdidas e que devem ser repetidas. Seguindo-se temos como a terceira tarefa Determinar os Prximos Passos, na qual se decide se o projeto finalizado e posteriormente comea-se a implantao ou se d incio a novas iteraes ou novos projetos de Minerao de Dados. Inclui tambm a anlise dos restantes dos recursos oramentais e influencia as decises. So obtidas duas produes atravs desta tarefa: Lista de Possveis Aes, que contm as possveis novas aes a serem realizadas, junto com suas razes e os prs e contras de cada uma; Deciso, que descreve o modo de se proceder quanto determinada deciso e descreve-se tambm a razo da deciso.

4.6. Implantao

A Figura 10 expe a sexta fase do modelo CRISP-DM, que a Implantao, suas tarefas e produes, que ser abordada a seguir.

36

Entendimento do Negcio

Entendimento dos Dados

Preparao dos Dados

Modelagem

Avaliao

Implantao

Implantao

Plano de Implantao

Acompanhamento e Manuteno

Plano de Acompanhamento e Manuteno

Produo do Relatrio Final

Relatrio Final

Apresentao Final

Reviso do Modelo

Documentao da Experincia

FIGURA 10. Implantao

Essa primeira tarefa a Implantao do Plano, que pega os resultados da avaliao e conclui uma estratgia de implantao. Se um procedimento geral foi identificado como criador de modelos relevante(s), este procedimento ser

documentado para posterior implantao. Para esta tarefa temos uma produo, Plano de Implantao, que descreve a estratgia da implantao, com as medidas necessrias e o modo de execut-las. J a segunda tarefa o Plano de Acompanhamento e Manuteno, que prov uma cuidadosa preparao de uma estratgia de manuteno, que ajuda a evitar desnecessrios longos perodos de uso incorreto dos resultados da Minerao de

37

Dados. Ela possui uma nica produo, Acompanhamento e Manuteno do Plano, que aborda a estratgia de acompanhamento e manuteno, que inclui as medidas necessrias e o modo de execut-las. A terceira tarefa a Produo do Relatrio Final, que escrito no final do projeto pelo lder e sua equipe. Dependendo do plano de implantao o relatrio que ser escrito por ser um resumo do projeto e suas experincias ou a apresentao final do(s) resultado(s) da Minerao de Dados. Obtm-se duas produes: o Relatrio Final atravs desta tarefa, este o ltimo escrito resultante do engajamento do processo de Minerao de Dados. Ela inclui todas as prestaes anteriores e organiza e resume os resultados; e, a Apresentao Final, que o momento em que se conclui o projeto, e os resultados so apresentados oralmente ao cliente. Chega-se ento a quarta tarefa que a Reviso do Modelo, que avalia o que deu certo e o que deu errado, o que foi bem feito e o que precisa ser melhorado. A produo obtida desta tarefa a Documentao da Experincia, que relata as importantes experincias obtidas durante o projeto. Tambm abrange qualquer um dos relatrios que foram escritos durante as fases do projeto e suas tarefas, feitas por qualquer um dos membros.

38

CAPTULO 5 - ESTUDO DE CASO


O presente captulo descrever o estudo de caso, atividades realizadas e resultados obtidos. Para atender os objetivos propostos anteriormente foi realizado o processo de KDD apoiado na Metodologia CRISP-DM. A base utilizada foi a labor do software de minerao de dados WEKA (que foi o software utilizado para o processo de minerao), ela pode ser obtida tambm em ASUNCION (2007). Os dados da base so relativos a acordos coletivos feitos no setor empresarial e de servios pessoais no Canad em 1987 e no primeiro trimestre de 1988. A base possui 57 instncias e 16 atributos. Porm esta base que vem como demonstrao no software WEKA possui 17 atributos, o novo atributo class que classifica o acordo como mal ou bom. Se este atributo no existisse seria necessrio realizar o processo para descobrir os valores dele. Seus atributos so: duration perodo de durao do acordo; aumento salarial do primeiro ano; aumento salarial do segundo ano; aumento salarial do terceiro ano; ajuste do custo de vida;

wage-increase-first-year

wage-increase-second-year wage-increase-third-year cost-of-living-adjustment working-hours pension

horrio de trabalho;

penso; espera de pagamento; diferena de turnos; abono escolar; feriados;

standby-pay shift-differential

education-allowance statutory-holidays vacation frias;

longterm-disability-assistance contribution-to-dental-plan bereavement-assistance contribution-to-health-plan

assistncia a longo prazo por deficincia; contribuio para o plano dentrio;

assistncia de luto; contribuio para o plano de sade;

39

class O

classificao do acordo. Environment for Knowledge Analysis) foi

software WEKA (Waikato

desenvolvido pela Universidade de Waikato, Nova Zelndia, open source e implementado em Java. Possui uma coleo de algoritmos de aprendizagem de mquina usados para resoluo de problemas de Minerao de Dados.

A seguir sero descritas as produes obtidas em cada um dos passos do KDD:

1. Compreenso do Processo

A base tem como finalidade analisar

acordos coletivos feitos no setor empresarial e servios pessoais, dizendo se o acordo bom ou mal, para melhor adaptao do processo e da metodologia foi imaginado que o cliente seria um sindicato.

2. Seleo do Conjunto de Dados

Foram analisados os dados da base

(Figura 11) e seus atributos, chegando-se ao entendimento de que trs atributos no seriam relevantes. So eles: Standby-pay; Shift-differential; Statutory-holidays.

A Figura 12 mostra todos os atributos da base, j a Figura 13 apresenta os atributos que restaram aps a eliminao dos trs citados acima.

40

FIGURA 11. Dados da Base Labor

FIGURA 12. Todos os atributos da Base

41

FIGURA 13. Atributos da Base Aps Eliminao

3. Realizao da Limpeza e Pr-processamento dos Dados

Foi

adotado o algoritmo normalize (normalizar) para tratar os campos de dados que tinham inconsistncia. Os campos numricos ficam entre 0 e 1. J no tratamento dos valores faltosos foi utilizado o algoritmo replaceMissingValues (substituir valores ausentes), que utiliza a moda (valores categricos) e a mdia (valores numricos) para preencher os campos. 4. Reduo da Quantidade de Dados de dados da base era pequeno. 5. Seleo do Mtodo de Minerao de Dados classificao. 6. Seleo do(s) Algoritmo(s) minerao foram: BayesNet; NaiveBayes; NaiveBayesSimple; Os algoritmos escolhidos para a Foi adotado o mtodo de No foi necessrio, pois o nmero

42

MultilayerPerceptron. Foram utilizados os quatro

7. Realizao da Minerao dos Dados

algoritmos citados acima de duas maneiras: usando todo o conjunto de dados e usando validao cruzada com 10 conjuntos (nove so usados para treino e o ltimo para teste). 8. Interpretao dos Resultados Os algoritmos utilizados na minerao

geraram uma matriz de confuso (que mostra o nmero de classificaes corretas em oposio s classificaes preditas para cada classe) como resultado do processamento de cada um. As Figuras 14, 15, 16 e 17 apresentam o resultado da minerao utilizando todo o conjunto de dados, j as Figuras 18, 19, 20 e 21 mostram o resultado obtido com a utilizao da validao cruzada.

FIGURA 14. Minerao com o BayesNet - Todo o Conjunto de Dados

43

FIGURA 15. Minerao com o NaiveBayes - Todo o Conjunto de Dados

FIGURA 16. Minerao com o NaiveBayesSimple - Todo o Conjunto de Dados

44

FIGURA 17. Minerao com o MultilayerPerceptron - Todo o Conjunto de Dados

FIGURA 18. Minerao com o MultilayerPerceptron Validao Cruzada

45

FIGURA 19. Minerao com o BayesNet Validao Cruzada

FIGURA 20. Minerao com o NaiveBayes Validao Cruzada

46

FIGURA 21. Minerao com o NaiveBayesSimple Validao Cruzada

TABELA 3. Resultados da Minerao Algoritmo Instncias Classificadas Instncias Classificadas Erro Mdio Raiz Mdia de Erro ao Quadrado 0.066

Corretamente Incorretamente Absoluto BayesNet Conjunto NaiveBayes - Todo o Cojunto NaiveBayesSimple Todo o Conjunto MultilayerPerceptron Todo o Conjunto BayesNet Cruzada NaiveBayes - Validao Validao Todo o 54 3 0.8831

56

0.0487

0.1331

56

0.0438

0.1258

57

0.005

0.0102

48 52

9 5

0.1494 0.1067

0.3116 0.267

47

Cruzada NaiveBayesSimple Validao Cruzada MultilayerPerceptron Validao Cruzada 52 5 0.0969 0.2522

48

0.1561

0.3578

Pode-se

observar,

conforme

Tabela

3,

que

Minerao

com

MultilayerPerceptron utilizando todo o conjunto de dados obteve 100% de instncias classificadas corretamente, tendo tambm uma mdia de erros insignificante, sendo esta a melhor alternativa a ser utilizada em pesquisas posteriores, caso a base seja alimentada com mais dados, ou como informaes para alimentar um programa ou outra base.

9. Aes a serem Tomadas

Os conhecimentos obtidos serviro de base

para saber quais dos acordos so mais vantajosos para o empregado.

5.1. Produes 5.1.1. Entendimento do Negcio 5.1.1.1. Determinar os Objetivos do Negcio Objetivos do Negcio o cliente quer saber quais tipos de acordos so

mais vantajosos para o associado. 5.1.1.2. Avaliar a Situao Inventrio de Recursos 1 pessoa, base de dados labor, 1 notebook com

processador de 1.73GHz e 256 RAM, software WEKA. Exigncias, Suposies e Restries Lista de exigncias:

O projeto deve ser finalizado at o dia 20 de Novembro de 2008; Os resultados devem ser claros; Deve-se obter o melhor resultado possvel. Riscos e Contingncias Lista de riscos: 1. Dificuldades na realizao de todas as tarefas; 2. No obter resultado satisfatrio;

48

3. Limitao de recursos computacionais disponveis. Lista de Contingncias: 1. Pesquisar e obter ajuda de pessoas que tm experincia na rea de descoberta do conhecimento; 2. Reavaliar as tarefas e passos realizados para melhorar o projeto e encontrar resultados mais satisfatrios; 3. Obter recursos que satisfaam as necessidades do projeto. 5.1.1.3. Determinar as Metas da Minerao de Dados Metas da Minerao de Dados Objetivos do Negcio; produes para o projeto:

Inventrio de Recursos; Exigncias, Suposies e Restries; Riscos e Contingncias; Metas da Minerao de Dados; Critrios de Sucesso da Minerao de Dados; Plano do Projeto; Avaliao Inicial das Ferramentas e Tcnicas; Relatrio da Coleta Inicial de Dados; Relatrio da Descrio dos Dados; Relatrio de Explorao dos Dados; Relatrio da Qualidade dos Dados; Razo para Incluso/Excluso; Relatrio da Limpeza dos Dados; Modelagem Tcnica; Pressupostos da Modelagem; Design dos Testes; Parmetros de Configurao; Avaliao dos Resultados da Minerao de Dados; Reviso do Processo; Lista de Possveis Aes.

49

Critrios de Sucesso da Minerao de Dados as produes definidas nas metas. 5.1.1.4. Produo do Plano do Projeto Plano do Projeto

devem ser obtidas todas

para a realizao do projeto foi estipulada a durao

de seis semanas, onde seriam executadas todas as fases da metodologia CRISP-DM e os passos do KDD (dentro da fase de minerao da metodologia). Avaliao Inicial das Ferramentas e Tcnicas foram analisadas as

ferramentas Orange e WEKA. E foi escolhida a ferramenta WEKA, por ter uma interface mais simples e que possibilitou uma compreenso dos resultados de maneira mais clara. J as tcnicas selecionadas foram: BayesNet, NaiveBayes, NaiveBayesSimple e MultilayerPerceptron.

5.1.2. Entendimento dos Dados 5.1.2.1. Coleta Inicial de Dados Relatrio da Coleta Inicial de Dados foi adquirida a base labor que vem

como demonstrao junto com o software WEKA. 5.1.2.2. Descrio dos Dados Relatrio da Descrio dos Dados A base possui 57 instncias e 17

atributos, sendo os dados categricos e numricos. 5.1.2.3. Explorao dos Dados Relatrio de Explorao dos Dados apesar da base ser pequena ela

contm muitos atributos, aumentando as chances de resultados diferentes. E tambm no exigindo muito dos recursos computacionais. 5.1.2.4. Verificao da Qualidade dos Dados Relatrio da Qualidade dos Dados foi observado que a base possui

muitos dados faltosos alm de alguns atributos que no apresentam relevncia ao processo de minerao (descritos no 2 passo do KDD). Para resolver esses problemas ser necessrio aplicar algoritmos para preencher os dados e remover os atributos, respectivamente para cada problema.

50

5.1.3. Preparao dos Dados 5.1.3.1. Selecionar Dados Razo para Incluso/Excluso Dados a serem excludos: standby-pay,

Shift-differential e Statutory-holidays, devido ao fato de se ver que esses atributos seriam irrelevantes para a minerao. 5.1.3.2. Limpar Dados Relatrio da Limpeza dos Dados Foi adotado o algoritmo normalize

(normalizar) para tratar os campos de dados que tinham inconsistncia. Os campos numricos ficam entre 0 e 1. J no tratamento dos valores faltosos foi utilizado o algoritmo replaceMissingValues (substituir valores ausentes), que utiliza a moda (valores categricos) e a mdia (valores numricos) para preencher os campos.

5.1.4. Modelagem 5.1.4.1. Selecionar a Tcnica de Modelagem Modelagem Tcnica foram utilizados os algoritmos BayesNet,

NaiveBayes, NaiveBayesSimple e MultilayerPerceptron. Pressupostos da Modelagem ou inconsistncias. 5.1.4.2. Gerar Design dos Testes Design dos Testes foram adotados os mtodos de validao cruzada a base no possui valores faltosos, rudos

com 10 conjuntos e utilizando todo a base. 5.1.4.3. Construir o Modelo Parmetros de Configurao os parmetros no foram alterados, foram

utilizados os que vm por padro na ferramenta.

5.1.5. Avaliao 5.1.5.1. Avaliar os Resultados Avaliao dos Resultados da Minerao de Dados o

MultilayerPerceptron utilizando todo o conjunto de dados obteve 100% de

51

instncias classificadas corretamente, tendo tambm uma mdia de erros insignificante, sendo esta a melhor alternativa a ser utilizada em pesquisas posteriores, caso a base seja alimentada com mais dados, ou como informaes para alimentar um programa ou outra base. 5.1.5.2. Processo de Reviso Reviso do Processo ou falta de atividades. 5.1.5.3. Determinar os Prximos Passos Lista de Possveis Aes as aes possveis a serem tomadas utilizar Foi analisado todo o processo e no houve perda

os resultados obtidos para analisar e comparar com novos acordos propostos para sempre que possvel obter os melhores. Ou utilizar os resultados como base para um programa de interesse da organizao.

5.1.6. Implantao Esta parte est ligada a tomada de deciso por parte da empresa. Por este motivo no teve nenhuma produo.

52

CAPTULO 6 CONCLUSO
Aps levantamento da reviso bibliogrfica, foi percebido que a metodologia CRISP-DM teria o mesmo grau de complexidade do processo de desenvolvimento RUP, devido ao seu grande nmero de produes (artefatos) produzidas e o detalhamento de cada atividade. Na fase do estudo de caso, percebeu-se o quanto difcil para apenas uma pessoa gerir e realizar todo o processo de descoberta de conhecimento. E nesse estudo, encontraram-se muitas dificuldades como, falta de um cliente real e de pessoas que tem domnio sobre os dados, para auxiliar no foco dos objetivos. Por esses motivos, tambm no foi possvel obter todas as produes que a metodologia aborda. Mesmo assim, foi uma experincia muito importante e desafiadora para o crescimento profissional e pessoal.

53

REFERNCIAS
CHAPMAN, Pete, CLINTON, Julian, KERBER, Randy, KHABAZA, Thomas, REINARTZ, Thomas, SHEARER, Colin and WIRTH, Rdiger. CRISP-DM 1.0: Step-by-step data mining guide. 2000. Disponvel em <http://www.crisp-dm.org/Process/index.htm> Acesso em 23 fevereiro 2008.

CRTES, Srgio da Costa, PORCARO, Rosa Maria e LIFSCHITZ, Srgio. Minerao de Dados Funcionalidades, Tcnicas e Abordagens. PUC-RioInf.MMC 10/02 Maio, 2002. Disponvel em <ftp://ftp.inf.puc-

rio.br/pub/docs/techreports/02_10_cortes.pdf> Acesso em 27 maio 2008.

FAYYAD, Usama; PIATETSKY-SHAPIRO, Gregory; SMYTH, Padhraic. From Data Mining to Knowledge Discovery in Databases. Artigo publicado na AI Magazine, 1996. Disponvel em

<www.daedalus.es/fileadmin/daedalus/doc/MineriaDeDatos/fayyad96.pdf> Acesso em 10 de agosto de 2008.

MARKOV, Zdravko, LAROSE, Daniel T. DATA MINING THE WEB: Uncovering Patterns in Web Content, Structure and Usage. Central Connecticut State University, New Britain, CT. 2007.

REZENDE, Solange Oliveira. Minerao de Dados. Disponvel em <http://www.addlabs.uff.br/enia_site/dw/mineracaodedados.pdf> Acesso em 26 maio 2008. TAFT, Margaret, KRISHNAN, Ramkumar, HORNICK, Mark, MUHKIN, Denis, TANG, George, THOMAS, Shiby, STENGARD, Peter. Oracle Data Mining Concepts, 10g Release 2. Junho de 2005. ASUNCION, A. & NEWMAN, D.J. (2007). UCI Machine Learning Repository [http://www.ics.uci.edu/~mlearn/MLRepository.html]. Irvine, CA: University of California,

54

School of Information and Computer Science.

55

FUNDAO FRANCISCO MASCARENHAS - FFM FACULDADES INTEGRADAS DE PATOS - FIP CURSO DE BACHARELADO EM SISTEMAS DE INFORMAO

SAMUEL LIMA DO NASCIMENTO

Aplicao de Metodologia de Minerao de Dados

Dezembro/2008 PATOS - PB

Das könnte Ihnen auch gefallen