Beruflich Dokumente
Kultur Dokumente
2006.2
RESUMO
Este trabalho apresenta a anlise de tcnicas, ferramentas e metodologias para praticar-se
uma importante rea da administrao de dados em uma organizao, denominada de
Minerao de Dados, visando melhoria da qualidade dos mesmos. As etapas do
processo de minerao de dados so detalhadas. Algumas tcnicas utilizadas durante o
processo so abordadas. analisada a utilizao da minerao de dados atualmente em
diversas reas importantes de nossa sociedade. So tambm analisadas ferramentas que
auxiliam este processo.
ABSTRACT
This work presents an analysis of techniques, tools and methodologies for the practice of
an important area of Data Administration in an organization, known as Data Mining. It is
aimed at improving data quality. The stages of the data mining process are detailed too.
Some techniques used during the process are focussed. The use of data mining on
different important areas of our society is analyzed. Tools that assist this process are also
analyzed.
Keywords: Data Mining, Data Quality, Data Administration, Data Architecture, Data
Modeling
AGRADECIMENTOS
Aos meus pais, por sempre terem colocado a minha educao em
primeiro lugar, e por sempre terem se sacrificado para que eu pudesse
realizar os meus objetivos.
Aos meus irmos e amigos, por serem fonte de minha inspirao, e da
minha felicidade.
Ao meu orientador, Fernando, pelos ensinamentos, apoio e ajuda no
desenvolvimento deste trabalho.
SUMRIO
1
Introduo ................................................................................................................ 10
1.1
Problemtica............................................................................................................... 10
1.2
Objetivos da Monografia........................................................................................... 12
1.2.1
Objetivo Principal................................................................................................................. 12
1.2.2
1.3
Relevncia................................................................................................................... 12
1.4
1.5
2.2
Tcnicas....................................................................................................................... 22
2.3
Tipos de Algoritmos................................................................................................... 27
3.2
Varejo.......................................................................................................................... 33
3.3
Mercado Financeiro................................................................................................... 34
4.2
4.3
Concluses................................................................................................................ 46
5.1
Trabalhos Futuros...................................................................................................... 46
5.2
Consideraes Finais.................................................................................................. 47
Referncias ............................................................................................................... 48
LISTA DE FIGURAS
Figura 1: Evoluo do valor estratgico de bases de dados (Baseado em [Navega,
2002])........................................................................................................................ 13
Figura 2: Fases do CRISP-DM Process Model (Baseado em [The CRISP-DM
Consortium, 2000]) ................................................................................................... 19
Figura 3: Fluxo da minerao de dados em anlise de emprstimo [SAS, 2007]. .......... 37
Figura 4: Anlise de Agrupamentos [SAS, 2007]. .......................................................... 38
Figura 5: Comparao de tcnicas [SAS, 2007].............................................................. 39
Figura 6: Anlise de agrupamentos de clientes bancrios [IBM, 2007].......................... 40
Figura 7: Grfico de setores circulares INT_CREDITCARD [IBM, 2007].................... 41
Figura 8: Tabela de clientes, com os agrupamentos informados [IBM, 2007]. .............. 41
Figura 9: Anlise de afinidades [IBM, 2007].................................................................. 42
Figura 10: Wizards para criao de modelos de minerao de dados [Oracle, 2007]..... 44
Figura 11: Visualizao em forma de rvore para segmentao de clientes [Oracle,
2007]. ........................................................................................................................ 44
Figura 12: Grficos para visualizao de resultados em formato MS Excel [Oracle,
2007]. ........................................................................................................................ 45
1 Introduo
Cada vez mais, imensos volumes de informao tm sido sistematicamente
coletados e armazenados por grandes organizaes. A quantidade de informao
armazenada ultrapassa a habilidade tcnica e a capacidade humana na sua
interpretao. Bancos de dados, por exemplo, so medidos hoje em gigabytes e
terabytes.
O custo de uma m qualidade desses dados pode ser decisivo para o sucesso de uma
empresa. Com isso, essencial o estudo da Administrao de Dados para garantir a
qualidade dos dados que so inseridos e recuperados em uma base de dados. A
administrao de dados consiste no desenvolvimento e execuo de estratgias,
prticas e procedimentos para o processo de gerncia do ciclo de vida completo dos
dados em uma empresa [DAMA International, 2006].
1.1 Problemtica
As organizaes tm se mostrado extremamente eficientes em capturar, organizar e
armazenar grandes quantidades de dados, obtidos de suas operaes dirias. Porm,
a maioria delas ainda no usa adequadamente essa gigantesca massa de dados para
transform-la em conhecimentos que possam ser utilizados em suas prprias
atividades. Com a gerao de um volume cada vez maior de informao, essencial
tentar aproveitar o mximo possvel desse investimento.
10
Uma definio importante para KDD foi elaborada por Usama Fayyad (Fayyad et al. 1996): "...o processo
11
1.3 Relevncia
Quando aplicada em uma empresa, a minerao de dados melhora a interao entre
empresa e cliente, aumenta vendas e dirige as estratgias de marketing. A
minerao de dados, porm, pode ser aplicada a qualquer massa de dados, sejam
eles oriundos da Medicina, Economia, Astronomia, Geologia, entre outras reas de
estudo. A relevncia deste trabalho fundamenta-se na importncia da adoo de
tcnicas de minerao de dados para melhorar a qualidade de dados em um SGBD,
como parte do trabalho de Administrao de Dados.
12
13
14
15
2 Minerao de Dados
A Minerao de Dados pode ser definida como um conjunto de tcnicas
automticas de explorao de grandes massas de dados de forma a descobrir novos
padres e relaes que, devido ao volume de dados, no seriam facilmente
descobertas a olho nu pelo ser humano. De fato, muitas so as tcnicas utilizadas,
porm a minerao de dados ainda mais uma arte do que uma cincia. O
sentimento do especialista no pode ser dispensado, mesmo que as mais sofisticadas
tcnicas sejam utilizadas.
Ainda que as tcnicas da Minerao de Dados sejam antigas, foi apenas nos ltimos
anos que passaram a ser usadas como explorao de dados, por vrios motivos
[Carvalho, 2005]:
De acordo com o Wikipedia: Data Warehouse uma coleo de dados orientados por assuntos,
integrados, variveis com o tempo e no volteis, para dar suporte ao processo de tomada de deciso; Data
Warehousing um processo em andamento que aglutina dados de fontes heterogneas, incluindo dados
histricos e dados externos para atender necessidade de consultas estruturadas e ad-hoc, relatrios
analticos e de suporte a deciso [Wikipedia, 2006].
16
17
O atual processo para minerao de dados prope uma viso geral do ciclo de vida
de um projeto de minerao de dados. Ele contm as fases correspondentes de um
projeto, suas respectivas tarefas e relacionamentos entre essas tarefas.
Figura 2: Fases do CRISP-DM Process Model (Baseado em [The CRISP-DM Consortium, 2000])
Segue abaixo uma sntese das etapas pertencentes ao modelo CRISP [The CRISPDM Consortium, 2000]:
Essa fase inicial tem o foco no entendimento do negcio que visa obter
conhecimento sobre os objetivos do negcio e seus requisitos, e ento converter
esse conhecimento em uma definio de um problema de minerao de dados, e um
plano preliminar designado para alcanar esses objetivos.
19
Essa fase se inicia com uma coleta inicial de dados, e com procedimentos e
atividades visando a familiarizao com os dados, para identificar possveis
problemas de qualidade, ou detectar subconjuntos interessantes para formar
hipteses.
A fase de preparao de dados consiste na preparao dos dados que visa a limpeza,
transformao, integrao e formatao dos dados da etapa anterior. a atividade
pela qual os rudos, dados estranhos ou inconsistentes so tratados. Esta fase
abrange todas as atividades para construir o conjunto de dados final (dados que
sero alimentados nas ferramentas de minerao), a partir do conjunto de dados
inicial.
20
Fase que consiste na modelagem dos dados, a qual visa a aplicao de tcnicas de
modelagem sobre o conjunto de dados preparado na etapa anterior.
21
Em muitos casos ser o cliente, no o analista dos dados, que realizar as etapas da
execuo. Entretanto, mesmo se o analista no se encarregar da execuo
importante que ele faa o cliente compreender que medidas devero ser tomadas a
fim de empregar efetivamente os modelos criados.
2.2 Tcnicas
Existem 5 (cinco) tcnicas gerais de minerao de dados que englobam todas as
outras formas de apresentao e permitem uma viso mais global e apropriada ao
assunto. So elas a classificao, a estimativa, a previso, a anlise de afinidades e a
anlise de agrupamentos [Carvalho, 2005].
22
2.2.1 Classificao
Como no mundo fsico nada exatamente igual, por mais semelhante que parea,
para se criar classes preciso permitir que detalhes sejam desprezados e somente as
caractersticas principais sejam observadas. A tarefa de classificar geralmente exige
a comparao de um objeto ou dado com outros dados ou objetos que supostamente
pertenam a classes anteriormente definidas. Para comparar dados ou objetos
utiliza-se uma mtrica ou forma de medida de diferenas entre eles.
2.2.2 Estimativa
Estimar algum ndice determinar seu valor mais provvel diante de dados do
passado ou de dados de outros ndices semelhantes sobre os quais se tem
conhecimento.
Suponha que se deseja determinar o gasto de famlias cariocas com lazer e que para
isto se possua ndices de gastos de famlias paulistanas com lazer, em funo da
faixa etria e padro scio-cultural. No se sabe exatamente quanto as famlias
cariocas gastam com lazer mas se pode estimar baseando-se nos dados das famlias
paulistanas. Certamente que esta estimativa pode levar a grandes erros, uma vez que
Rio de Janeiro e So Paulo so cidades com geografias diferentes e que oferecem
diferentes opes de lazer a seus habitantes.
24
2.2.3 Previso
A previso, como tarefa tpica de DM, est associada avaliao de um valor futuro
de uma varivel a partir dos dados histricos do seu comportamento passado.
Assim, pode-se prever, por exemplo, se o ndice bovespa subir ou descer no dia
seguinte; qual ser o valor de determinada ao daqui a um determinado perodo de
tempo; o nmero de clientes que sero perdidos por uma empresa, em um dado
horizonte futuro de tempo; qual ser a populao de uma certa cidade daqui a dez
anos; entre outras coisas.
Os algoritmos que podem ser utilizados aqui so, dentre outros, as redes neurais, a
regresso, e as rvores de deciso.
25
26
27
28
Dentre as vantagens dos algoritmos baseados em redes neurais, est a sua robustez
ao lidar com erros no conjunto de treinamento, possibilitando uma alta tolerncia a
dados com rudos. Tambm possui boa escalabilidade e como diversos algoritmos
tm sido desenvolvidos para extrao de regras de classificao de redes neurais, a
sua interpretabilidade tem melhorado [Gouva, 2005; Sousa, 1998].
29
3 Aplicaes Prticas
Segundo estimativas do The Data Warehousing Institute [TDWI, 2006], a m
qualidade sobre os dados dos clientes, custa, s nos Estados Unidos, 611 bilhes de
dlares por ano. A realidade que dados mal-administrados causam mais prejuzos
ainda que isso. Dado a importncia de negcio atrelada administrao de dados,
focando na qualidade dos mesmos, impressionante a forma causal com a qual
muitas empresas encaram e administram este recurso.
Esta tpica tarefa de minerao de dados usada por grandes lojas de departamentos
e administradoras de carto de crdito e se utiliza dos dados das compras dos
clientes no passado recente para traar perfis de consumo. Informaes como idade,
30
sexo, estado civil, salrio, moradia prpria ou alugada, bairro e cidade tambm so
informaes importantes pois permitem a setorizao ainda mais fina dos clientes.
Se os produtos comprados so avaliados de alguma forma quanto satisfao do
cliente atravs de pesquisas por telefone ou Internet por exemplo, um quadro ainda
maior pode ser traado.
A rede de lojas possui 3 (trs) bases de dados, contendo uma delas os dados dos
clientes para fins de credirio e verificao de residncia, cheques, entre outros;
outra base contendo os dados sobre produtos em estoque, seus preos e descries;
e a terceira base contendo os dados sobre as compras executadas. Uma empresa de
data warehouse foi contratada para unificar estes 3 (trs) bancos de dados e permitir
anlises globais dos seus negcios. Aps a construo do data warehouse, foi fcil
agregar dados sobre os clientes que realizam compras de produtos das 5 (cinco)
categorias.
31
A rede neural criou um grupo de clientes contendo 48% do total com um perfil
bastante semelhante ao perfil mdio descrito acima, com exceo de gastarem o
dobro em decorao. O segundo maior grupo possui 29% dos clientes e tem 52 anos
em mdia, gastando a metade que a mdia total em esportes e aproximadamente
US$ 500,00 a mais da mdia em moblia. O terceiro grupo possui 20% dos clientes
e consome aproximadamente o mesmo que a mdia geral com a diferena de gastar
apenas um quarto da mdia em decorao. O ltimo grupo tem apenas 26 anos de
idade em mdia e representa 11% do total gastando o dobro da mdia em esportes.
Com base nesses resultados a empresa decidiu dividir sua mala-direta em grupos
com diferentes ofertas: Em artigos de decorao para o primeiro grupo, em moblia
para o segundo segmento de clientes, e em material esportivo para o quarto perfil de
clientela. Certamente que os analistas de minerao de dados poderiam ter
caminhado um pouco alm e procurado dividir os clientes em mais subgrupos de
forma a permitir uma viso mais especfica. Porm, os quatro grupos descritos
foram suficientes para as necessidades da empresa naquele momento [Carvalho,
2005].
32
3.2 Varejo
Vrios fatores podem contribuir para a necessidade de previso de vendas tais como
a manuteno do cliente que no se frustra ao encontrar na loja o que deseja, o
menor custo com estoques pela manuteno de estoques mais ajustados s vendas
futuras, a melhor alocao de vendedores em funo da previso das vendas para o
futuro perodo, entre outros.
33
aquecimento das vendas. Como prever o futuro no nada fcil, a maior quantidade
de informao pertinente possvel deve ser considerada em qualquer metodologia.
Foi escolhido pelo uso de uma rede neural. O treinamento da rede neural foi feito
com dados de quatro anos e meio deixando os ltimos seis meses do perodo de 5
(cinco) anos de vendas para a testagem da capacidade de previso do sistema. O
aprendizado mostrou-se eficiente tendo um erro mximo de previso em algumas
semanas de 20%, porm o erro mdio se manteve dentro dos desejados 10%.
Desta forma, o sistema passou a prever as vendas dos prximos 15 dias fornecendo
mais tempo para a encomenda e transporte do produto. A cada quatro semanas, a
rede neural era ensinada de novo, incluindo-se os dados de mais 4 (quatro) semanas
ocorridas seis meses antes e testando-se o erro de previso utilizando-se sempre os
ltimos 6 (seis) meses de vendas, agora incluindo as ltimas quatro semanas
recentemente terminadas.
34
A LBS concluiu que a melhor soluo seria o uso de redes neurais. Decidiu
construir uma rede neural para cada papel ao invs de uma nica rede neural para os
milhares de papis existentes. Cada uma delas foi treinada com dados dos ltimos 3
(trs) meses e a cada nova semana era re-treinada. As redes neurais se mostraram
muito adaptveis s flutuaes do mercado financeiro. Vrios experimentos se
fizeram necessrios para a determinao das variveis importantes para a previso
das tendncias de cada papel especfico.
De fato, a LBS foi uma das mais importantes empresas do mercado financeiro nos
EUA durante 7 (sete) anos consecutivos. Sua carteira cresceu durante este perodo
de 25% a 100% ao ano e nunca houve uma perda maior que 7% durante este tempo.
Se a minerao dos dados foi a responsvel por este sucesso no se pode afirmar,
mas certamente alguma importncia tiveram, pois recursos considerveis foram
destinados a este projeto [Carvalho, 2005].
35
4 Anlise de Ferramentas
Este captulo tem como objetivo analisar 3 (trs) ferramentas disponveis no
mercado que auxiliam no processo de minerao de dados, descrevendo uma viso
geral das mesmas e detalhando suas principais funcionalidades. Tambm sero
apresentadas algumas telas capturadas das ferramentas para melhor ilustrar a
demonstrao da mesma.
37
38
Entre os componentes que compem o DWE est o Intelligent Miner, cujo site da
ferramenta [IBM, 2007] o classifica com uma poderosa ferramenta para anlise de
dados integrada. As tradicionais tcnicas de minerao de dados (anlise de
39
40
41
42
O Darwin Data Mining Software da Oracle, descrito em seu site oficial [Oracle,
2007] como uma poderosa ferramenta de minerao de dados que ajuda a
transformar gigantes massas de dados em inteligncia corporativa. Darwin ajuda a
encontrar padres significativos e correlaes em dados corporativos. Padres que
permitem um melhor entendimento e previso do comportamento de clientes.
Tambm segundo o site, utilizando o Darwin pode-se traar estratgias para vendas
conjuntas para clientes existentes, pode-se obter novos clientes, detectar fraudes,
identificar clientes mais lucrativos e traar perfis de clientes com maior eficcia.
43
Figura 10: Wizards para criao de modelos de minerao de dados [Oracle, 2007].
Figura 11: Visualizao em forma de rvore para segmentao de clientes [Oracle, 2007].
44
Figura 12: Grficos para visualizao de resultados em formato MS Excel [Oracle, 2007].
45
5 Concluses
Neste trabalho foi abordado o tema da minerao de dados (data mining), como
importante rea da administrao de dados que visa melhoraria da qualidade dos
mesmos e gerao de conhecimentos novos a partir deles.
Com a concluso deste trabalho, pode-se identificar alguns estudos futuros que
podem ser feitos a partir do tema. Mais especificamente, pode-se realizar um estudo
de caso da aplicao de um processo de minerao de dados em uma empresa,
desde o entendimento do negcio, at avaliao do processo.
46
Tambm pode ser feita uma anlise de retorno de investimento de empresas reais
que investiram na minerao de dados com o objetivo de aumentar os seus lucros.
47
6 Referncias
48
[Pelegrin et al., 2005] Diana Colombo Pelegrin, Diego Paz Casagrande, Merisandra
Crtes de Mattos, Priscyla Waleska Targino de Azevedo Simes, Rafael Charnovscki,
Jane Bettiol. As Tarefas de Associao e de Classificao na Shell de Data Mining
Orion.
Disponvel
em:
http://www.dcc.unesc.net/sulcomp/artigos/sessaoOral/22103.pdf.
Acessado
em
Fevereiro de 2007.
[SAS,
2007]
SAS
Entreprise
Miner.
Disponvel
em:
http://www.sas.com/technologies/analytics/datamining/miner/. Acessado em Maro de
2007.
[Sferra e Corra, 2003] Heloisa Helena Sferra, ngela M. C. Jorge Corra. Conceitos
e Aplicaes de Data Mining. Disponvel em:
http://www.unimep.br/phpg/editora/revistaspdf/rct22art02.pdf. Acessado em Janeiro de
2007
[Sousa, 1998] Mauro Srgio Ribeiro de Sousa, 1998. Minerao de Dados: Uma
implementao fortemente acoplada a um sistema gerenciador de banco de dados
paralelo. Disponvel em:
http://www.cos.ufrj.br/~marta/papers/TeseMauroS.pdf.
Acessado em Janeiro de 2007.
[TDWI, 2006] The data warehousing institute. Disponvel em: http://www.tdwi.org/.
Acessado em Maro de 2007.
[The CRISP-DM Consortium, 2000] CRoss Industry Standard Process for Data
Mining. Disponvel em: http://www.crisp-dm.org. Acessado em Janeiro de 2007.
[Wikipedia, 2006] Sistema de Gerenciamento de Banco de Dados. Disponvel em:
http://pt.wikipedia.org/wiki/SGBD. Acessado em Dezembro de 2006.
[Witten, 2000] Witten, Ian H.; Frank, Eibe. Data Mining Practical machine learning
tools and techniques with java implementations. 2000
[Goldschmidt e Passos, 2005] Ronaldo Goldschmidt, Emmanuel Passos. Data Mining:
um Guia Prtico. 2005
49
Assinaturas
___________________________________________________
Fernando da Fonseca de Souza (orientador)
___________________________________________________
Thiago Miranda Amorim Silva (aluno)
50