Beruflich Dokumente
Kultur Dokumente
1
2
Minerao de Dados
Minerao de Dados a explorao e a anlise, por meio automtico ou
semiautomtico, de grandes quantidades de dados, a fim de descobrir padres e regras
significativas (BERRY e LINOFF, 1997).
O processo de Minerao de Dados baseia-se na interao entre vrias classes de
usurios, e grande parte do seu sucesso depende dessa interao. Existem trs classes
diferentes nas quais podem ser divididos os usurios deste processo: especialista do domnio,
que deve oferecer apoio para a execuo do processo e possuir grande conhecimento do
domnio da aplicao; analista, que deve conhecer profundamente todas as etapas que fazem
parte do processo e o usurio especialista no processo de extrao de conhecimento; e o
usurio final, que utiliza o conhecimento obtido no processo para a tomada de deciso
(REZENDE, 2005). Os principais objetivos da minerao de dados so: descobrir
relacionamentos entre dados e fornecer subsdios para que possa ser feita uma previso de
tendncias futuras, baseada no passado.
A Minerao de Dados utilizada nas mais diversas reas, desde a descoberta de
pesos de atributos em um sistema de raciocnio baseado em casos, conforme (SILVEIRA,
2003).
Tcnica de Classificao
Conforme os autores WEISS e INDURKHYA (1998) explicam que classificao o
processo de encontrar um conjunto de modelos que descrevem e distinguem classes, com o
propsito de utilizar o modelo final (refinado) para predizer a classe de objetos que ainda no
foram classificados. O modelo construdo baseia-se na anlise prvia de um conjunto de
dados de amostragem ou dados de treinamento, contendo objetos corretamente classificados.
A classificao consiste na predio de um valor categrico, como, por exemplo, predizer a
cobertura ou no de uma classe de defeitos. Na regresso, o atributo a ser predito consiste em
um valor contnuo como, por exemplo, predizer a porcentagem de cobertura para um
determinado critrio de teste.
O algoritmo J48 surgiu da necessidade de recodificar o algoritmo C4.5, que,
originalmente, escrito na linguagem C, para a linguagem Java (WITTEN, et al., 2005). Ele
tem a finalidade de gerar uma rvore de deciso baseada em um conjunto de dados de
treinamento, sendo este modelo usado para classificar as instncias no conjunto de teste.
Um dos aspectos para a grande utilizao do algoritmo J48 pelos especialistas em
Data Mining que o mesmo se mostra adequado para os procedimentos, envolvendo as
variveis (dados) qualitativas contnuas e discretas presentes nas bases de dados. O algoritmo
J48, proposto por QUINLAN (1993), considerado o que apresenta o melhor resultado na
montagem de rvores de deciso, a partir de um conjunto de dados de treinamento. Para a
montagem da rvore, o algoritmo J48 utiliza a abordagem de dividir-para-conquistar, onde
um problema complexo decomposto em subproblemas mais simples, aplicando
recursivamente a mesma estratgia a cada subproblema, dividindo o espao definido pelos
atributos em subespaos, associando-se a eles uma classe (WITTEN E FRANK, 2005).
Regras de Associao
A minerao de regras de associao pode ser vista como uma das mais importantes
tarefas de minerao de dados. O desafio de encontrar regras de associao, no contexto de
bases de dados, foi inicialmente exposto em (AGRAWAL et.al, 1993) e consiste na busca por
padres associativos que indiquem o relacionamento entre conjuntos de itens.
O algoritmo Apriori foi proposto por (AGRAWAL, IMIELINKSYI & SWAMI,
1993), e o algoritmo mais utilizado para descobrir regras de associao. Para isto, o
Metodologia
O trabalho desenvolvido rene caractersticas qualitativa e quantitativa em sua
trajetria metodolgica, (MINAYO, 2010). As etapas da pesquisa so as que seguem:
Levantamento Bibliogrfico (Estudo sobre as tcnicas de Minerao de Dados Classificao e
Associao; Anlise e estudo sobre o funcionamento dos algoritmos J48 e Apriori; Pesquisa e
anlise sobre linguagens de programao com suporte a implementao dos algoritmos
citados, como tambm estudo sobre a ferramenta Weka; Projeto lgico da implementao
necessria para o desenvolvimento do ambiente experimental) e Desenvolvimento prtico
(Obter informaes sobre os requisitos de hardware e software para a extrao e validao dos
dados nos testes com os algoritmos; Criao da base de dados utilizando MYSQL;
Implementao dos algoritmos de classificao e associao: J48 e Apriori; Gerao de perfis
de usurios aplicando as tcnicas de classificao e associao na identificao e classificao
de indicadores de sade; Anlise dos resultados das tcnicas j citadas e desenvolvimento de
um estudo comparativo, apresentando aquele algoritmo que demonstrou melhor desempenho
na identificao e classificao de indicadores de sade, gerando perfis de usurios.
Conforme ilustra a Figura 1 (Diagrama de Casos de Uso) no primeiro momento o
usurio ir acessar o sistema. Aps ser realizado o clculo do IMC (ndice de Massa
Corporal), para isso dever ser informado o peso e a altura. Para gerao do perfil com o
resultado j obtido do IMC devero ser apresentados a presso arterial sistlica, presso
arterial diastlica e circunferncia da cintura. O perfil poder ser normal, pequeno risco,
mdio risco e grande risco.
Resultados
Para a visualizao dos resultados foi utilizada a ferramenta weka, integrada ao
sistema. Aps a implementao do sistema, a base de dados foi integrada ao software Weka a
fim de obter a visualizao em forma grfica.
Em um primeiro momento avaliou-se o algoritmo J48, por meio da aplicao da
regra de use training set . Foi selecionado um conjunto de treinamento e dividido em duas
partes: cerca de sessenta (60) por cento dos dados utilizados para criar o modelo Aps, para
testar a exatido do algoritmo foi aplicada a regra supplied test set com os dados restantes de
cerca de 40 por cento, colocando-os em um conjunto de testes. Conforme ilustra a Figura 3 o
algoritmo de classificao apresentou como Correctly Classified Instances (instancias
classificadas corretamente) (85,6115%) e s Incorrectly Classified Instances (14,3885%).
Apresentou um erro mdio de 0,0911 em um nmero total de instancias (139). Baseando-se
na taxa de correteza de 85,61%, pode-se constatar que atravs de uma anlise inicial ,esse
um modelo muito bom.
139
140
120
100
85,6115
80
60
40
14,3885
20
0,2411
0,0911
0
Instancias
corretas
Instancias
incorretas
Total
139
83
56
Modelo Treinamento
9 10 6
0 0 2
1 0 0
0 0 2
Modelo Teste
Total
100,00%
80,00%
60,00%
40,00%
91,61%
80%
J48
Apriori
20,00%
8,37%
0,00%
J48
Apriori
20%
Grau Correteza
Grau Incorreteza
91,61%
8,37%
80%
20%
Referncias
AGRAWAL, Rakesh; IMIELINSKI, T.; SWAMI, A. Mining Association Rules between
Sets of Items in Large Databases. SIGMOD , Washington,USA, 1993.
BATISTA, Gustavo Enrique de Almeida Prado Alves. Pr-processamento em aprendizado
de
mquina
supervisionado.
2003.
Disponvel
em:
<http://www.teses.usp.br/teses/disponiveis/55/55134/tde-06102003160219/publico/TeseDoutorado.pdf>. Acesso em: 21 set. 2012.
BERRY, M. J. A.; LINOFF, G. Data Mining Tehniques for marketing, sales,
andcustomer support. United States: Wiley Computer Publishing, 1997.
COLLAZO, K.; BARRETO, J. KDD ferramenta para analise de dados epidemiolgico.
Anais do III Congresso Brasileiro de Computao Workshop de Informtica aplicada
Sade-CBXOMP2003, Itaja, p.2226, 1003. Acessado em: 01 maio, 20012 (MADUELL,
2007.
MACHADO, Letcia Santos. Minerao do Uso da Web na Educao a Distncia:
Propostas para a Conduo de um Processo a partir de um Estudo de Caso. Dissertao
em Cincia da Computao. Pontifcia Universidade Catlica do Rio Grande do Sul. Porto
Alegre.2002. Disponvel em:.
<http://www.
pucrs.br/uni/poa/info/pos/dissertacoes/arquivos/leticiam.pdf>. Acesso em: 10 mai. 2012.
MINAYO, Maria Ceclia de Souza. Pesquisa social: teoria, mtodo e criatividade. 29. ed.
Petrpolis, RJ: Vozes, 2010.
MOZZAQUATRO, Patricia Mariotto. Estudo da Aquisio e Modelos de Perfil de
Usurios da Biblioteca Digital Acadmica. Trabalho de Concluso de Curso em Sistemas
de Informao. Universidade Luterana do Brasil, Cachoeira do Sul, 2006.
QUINLAN, J. R.; C4.5: Programs for machine learning. Morgan Kaufmann PublishersInc.,
San Francisco, CA, USA, 1993.
REFAAT, M.Data Preparation for Data Mining Usisg SAS. So Francisco:Elsevier, 2007.
REZENDE, Solange Oliveira. Minerao de Dados. In: XXV Congresso da Sociedade
Brasileira de