Monografia Gal

CENTRO UNIVERSITÁRIO DA BAHIA
FACULDADE DE CIÊNCIA DA COMPUTAÇÃO E TECNOLOGIA

BACHARELADO EM SISTEMAS DE INFORMAÇÃO
GLACYENE LAGO VIANNA
APLICAÇÃO DA TÉCNICA DE ÁRVORE DE DECISÃO

UTILIZANDO ALGORITMO J48 PARA ANALISAR
OCORRÊNCIA DE SINISTRALIDADE EM UMA OPERADORA
DE SEGURO SAÚDE
Salvador
2006

DE SEGURO SAÚDE
Monografia apresentada ao Curso de

Bacharelado em Sistemas de Informação
da Faculdade de Ciência da Computação
e Tecnologia, Centro Universitário da
Bahia, como requisito parcial para
obtenção do grau de Bacharel em
Sistemas de Informação.
Orientador: Prof. Carlos A. Chagas Palma.

Co-Orientador: Prof. Grimaldo O. Lopes.
Salvador
2006
TERMO DE APROVAÇÃO

DE SEGURO SAÚDE
Monografia aprovada como requisito parcial para obtenção do grau de Bacharel em

Sistemas de Informação, Centro Universitário da Bahia, pela seguinte banca
examinadora:
Orientador: Carlos A. Chagas Palma
Carlos A. Chagas Palma

MBA em Gestão Empresarial
Centro Universitário da Bahia
Examinador 1: Grimaldo Lopes Oliveira
Examinador 1: Grimaldo Lopes Oliveira

Especialista em Análise de Sistemas
Faculdades Jorge Amado
Examinador 2: Eduardo M. de Freitas Jorge
Eduardo M. de Freitas Jorge

Mestre em Banco de Dados
Examinador 3: Othon Marcelo Nunes Batista
Othon Marcelo Nunes Batista

Mestre em Informática
Salvador, 03 de julho de 2006.

AGRADECIMENTOS
Agradeço a minha família pelo constante incentivo.

Ao professor Grimaldo Lopes que me ajudou muito na realização deste trabalho.
A Mauricio Andrade por permitir meu acesso aos dados.
Ao professor Eduardo Jorge pelo auxílio dado no desenvolvimento deste trabalho.
Ao meu orientador Carlos Palma pela paciência e confiança em mim.
Aos meus colegas e amigos Adriano Lavigne, Alexandre Uzeda, Carlos Santos
sempre presentes.
A minha amiga Luciana Santos por quem tenho muito admiração e carinho.
E a todos aqueles que compartilharam comigo a jornada desses cinco anos.
RESUMO
A tecnologia da mineração de dados tem se destacado mundialmente, pois a mesma

proporciona a descoberta do conhecimento útil em grandes bases de dados. A
extração de conhecimento em base de dados consiste na seleção e processamento
de dados com a finalidade de identificar novos padrões, dar maior precisão em
padrões conhecidos e modelar o mundo real. A mineração de dados é uma das
etapas da extração do conhecimento e que se refere ao exame de grandes
quantidades de dados, estabelecendo relações entre esses dados. Este trabalho
tem como finalidade aplicar a técnica de árvore de decisão, que é uma técnica de
mineração de dados, num banco de dados de uma seguradora de saúde para
descoberta do conhecimento sobre sinistralidade, no qual serão abordadas as
características, processos, algoritmos, técnicas, áreas de utilização da mineração de
dados, que no caso desta pesquisa foi realizada na área de seguro saúde.
Palavras-chave: descoberta do conhecimento, mineração de dados, seguro saúde.

LISTA DE FIGURAS
FIGURA 1. PROCESSO KDD 16

FIGURA 2. ÁRVORE DE DECISÃO DA LOJA X 24
FIGURA 3. ANÁLISE ESTATÍSTICA DA ÁRVORE DE DECISÃO DA LOJA X 25
FIGURA 4. ARQUIVO NO FORMATO ARFFF 28
FIGURA 5. TELA INICIAL DO PACOTE WEKA 29
FIGURA 6. CARREGANDO O ARQUIVO ARFF 30
FIGURA 7. ABA CLASIFER DO WEKA 31
FIGURA 8. ÁRVORE DE DECISÃO COM ALGORITMO J48 32
FIGURA 9. POCESSO DE MINERAÇÃO DE DADOS 33
FIGURA 10. PARTE DA PRIMEIRA ÁRVORE DE DECISÃO 36
FIGURA 11. PARTE DA SEGUNDA ÁRVORE DE DECISÃO 37
FIGURA 12. PARTE DA TERCEIRA ÁRVORE DE DECISÃO 38
LISTA DE TABELAS
TABELA 1. REAJUSTE FINANCEIRO 12

TABELA 2. REAJUSTE POR SINISTRALIDADE DO UNIBANCO 13
TABELA 3. REAJUSTE POR SINISTRALIDADE DA SUL AMÉRICA 13
TABELA 4. PROBABILIDADE DE KAPPA 23
TABELA 5. BANCO DE DADOS DA LOJA X 23
LISTA DE SIGLAS
KDD - EXTRAÇÃO DO CONHECIMENTO DE BASE DE DADOS

ANS - AGÊNCIA NACIONAL DE SAÚDE
WEKA - DADOS WAIKATO ENVIRONMENT FOR KNOWLEDGE ANALYSIS
SUMÁRIO
INTRODUÇÃO 09
1. CONHECENDO SEGURO SAÚDE 11
2. EXTRAÇÃO DO CONHECIMENTO DE BASE DE DADOS 15
2.1. Etapa da extração do conhecimento de base de dados 16
2.2. Mineração de dados 18

2.2.1. Tarefas e técnicas da mineração de dados 19
2.2.1.1 Árvore de decisão usando algoritmo J48 22
2.2.2. Escolhendo a técnica de mineração de dados mais adequada 25
2.2.3 Áreas de aplicação da mineração de dados 25
3. MINERADOR DE DADOS WAIKATO ENVIRONMENT FOR KNOWLEDGE

ANALYSIS 27
4. EXPERIMENTO REALIZADO 33
4.1. Conclusão dos experimentos 38
CONSIDERAÇÕES 39
REFERRÊNCIAS 40
Anexo A -TABELA DO BANCO DE DADOS DA SEGURADORA DE SAÚDE 42
Anexo B - PARTE DOS DADOS UTILIZADOS PARA MINERAÇÃO DE DADOS,

ARQUIVO TREINAMENTO 43
Anexo C -PRIMEIRA ÁRVORE 44
Anexo D – SEGUNDA ÁRVORE 46
Anexo E -TERCEIRA ÁRVORE 49

9
INTRODUÇÃO
Segundo Madelena (2002), durante várias décadas, desde a invenção do primeiro

computador, o principal objetivo da utilização do computador é solucionar problemas
operacionais da organização. A grande maioria das organizações ainda não possui
meios de utilização dos recursos computacionais na tomada de decisão, apesar da
existência de grandes bancos de dados com muitas informações sobre o negócio da
empresa, ainda são encontradas dificuldades na descoberta de conhecimento
baseada nessas informações.
Essas dificuldades podem estar relacionadas aos fatores de: falta de conhecimento
da existência de técnicas de mineração de dados; alto custo das ferramentas
disponíveis no mercado; falta de parâmetro de referência na escolha de técnica e da
ferramenta mais adequadas a cada problema a ser solucionado (Madalena, 2002).
Carvalho (1999) diz que a quantidade de dados disponíveis vem crescendo

assustadoramente nos últimos anos e vários fatores contribuíram para este incrível
aumento. O baixo custo na armazenagem pode ser vista como a principal causa do
surgimento destas enormes bases de dados. Um outro fator é a disponibilidade de
computadores de alto desempenho a um custo razoável, como conseqüência, estes
bancos de dados passam a conter verdadeiros tesouros de informação e, devido ao
seu volume, ultrapassam a habilidade técnica e a capacidade humana na sua
interpretação.
Esta ampla disponibilidade de imensas bases de dados, aliados à necessidade de

transformar tais dados em informação e conhecimento úteis para o suporte à
decisão, tem demandado investimentos consideráveis da comunidade científica e da
indústria de software. A informação e o conhecimento obtidos podem ser utilizados
para diversas aplicações, que vão do gerenciamento de negócios, controle de
produção e análise de mercado ao projeto de engenharia e exploração científica
(Han & Kamber, 2001).
As ferramentas e técnicas empregadas para análise automática e inteligente destes

imensos repositórios são os objetos tratados pelo campo emergente da descoberta
10
de conhecimento em bancos de dados, da expressão em inglês Knowledge

Discovery in Databases (KDD). Mineração de dados é a etapa em KDD responsável
pela seleção dos métodos a serem utilizados para localizar padrões nos dados,
seguida da efetiva busca por padrões de interesse numa forma particular de
representação, juntamente com a busca pelo melhor ajuste dos parâmetros do
algoritmo para a tarefa em questão (SILVA, 2005).
O objetivo deste trabalho consiste na aplicação da técnica mineração de dados:

árvore de decisão com o algoritmo J48 numa base de dados de uma seguradora de
saúde, de forma a encontrar padrões nos dados interessantes que analisam a
sinistralidade.
Para o experimento deste trabalho, o objetivo é minerar a base de dados de uma

seguradora de saúde em planos coletivos para proporcionar um maior conhecimento
em relação à ocorrência de sinistralidade acima de 75%.
Este trabalho está organizado da seguinte forma: nas próximas seções apresentam
uma visão geral sobre seguro saúde, extração de conhecimento e sobre o software
Weka. Essas seções têm como objetivo fornecer ao leitor subsídios para o
entendimento da seção seguinte, que é o experimento.
Os aspectos metodológicos definidos para o trabalho em questão foram à pesquisa

do tipo bibliográfica, documental e coleta de dados, tendo seguido a ordem: foi feito
um levantamento bibliográfico a respeito de seguro saúde, descoberta do
conhecimento e do software Weka e suas aplicabilidades no mercado atual; no
segundo momento, após elaboração do referencial teórico, foi realizada análise em
base de dados de uma seguradora de saúde para coleta de dados; após todas as
análises, foi realizado experimento, baseando-se no problema definido e no objetivo
desta pesquisa, partindo para análise das respostas encontradas.
11
1. CONHECENDO SEGURO SAÚDE
Neste capítulo será abordado o histórico do seguro saúde, as regras que regem o
seu funcionamento e toda a rotina de reajuste estabelecida por decreto lei, sendo
dado maior atenção ao reajuste por sinistralidade porque será a abordagem deste
trabalho. Terá também uma explanação de quais critérios são adotados na análise
prévia de ocorrência de prejuízo em um contrato firmado entre a seguradora de
saúde e uma empresa.
O marco inicial da atividade seguradora no Brasil está ligada à vinda da corte

portuguesa para o País, em 1808 devido à ofensiva de Napoleão Bonaparte na
Europa. Tendo a necessidade de proteger as embarcações marítimas levando à
formação das primeiras companhias, voltadas exatamente para o seguro marítimo.
Desde então, o setor se desenvolveu e expandiu seus segmentos para: seguro de
vida, de auto, de casa, de mercadorias entre outros (seguros em dia, 2006).
O seguro saúde é regido por regras que orientam o funcionamento do setor (que
surgiu em meados dos anos sessenta e se expandiu significativamente nos anos
oitenta) está definido na Lei 9.656/98 e na MP 2.177-44 atualmente em vigor com o
texto legal que estabeleceu critérios para entrada, funcionamento e saída de
operação de empresas no setor, discriminou os padrões de cobertura e de qualidade
da assistência e transferiu para o poder Executivo Federal a responsabilidade pela
regulação da atividade econômica das operadoras e da assistência à saúde por elas
prestada e o dever de fiscalização do cumprimento das normas vigentes (seguros
em dia, 2006).
É feito um contrato entre as partes, empresa (seus empregados) e uma operadora

de seguro saúde mediante regras em cláusulas que ditam direitos e deveres,
inclusive valor pago mensalmente para prestação de serviços médicos, hospitalares.
Para reajuste destes serviços é respeitada a data de aniversário do contrato e
levando em considerações dois tipos de reajustes: reajuste financeiro e o reajuste
por sinistralidade.
12
O reajuste financeiro leva em consideração a inflação nos custos hospitalares,

médicos e farmacêuticos ocorrendo anualmente. Esse reajuste é fiscalizado pela
Agência Nacional de Saúde Suplementar (ANS) que autoriza os limites conforme a
tabela 1.
TABELA 1
Reajuste financeiro
Reajustes autorizados pela ANS
Reajuste Reajuste Reajuste Reajuste
Seguradora 1999 2000 2001 2002
Bradesco Saúde 9,36% 5,42% 8,71% 7,69%
Sul América Aetna 9,44% 5,42% 8,71% 7,69%
Fonte: Agência Nacional de Saúde (ANS)
O reajuste por sinistralidade considera a utilização do seguro pelos segurados

levando em consideração o uso global de toda a carteira, se for constatado a
utilização acima da média que hoje é entre 70% a 80% a seguradora solicita junto a
Agência Nacional de Saúde Suplementar um aumento na mensalidade do contrato
só podendo ocorrer uma vez por ano. A seguir o reajuste por sinistralidade com
maiores detalhes, pois esse é o foco deste trabalho.
Sinistralidade é a relação entre a utilização e os custos que a empresa paga à

seguradora de saúde. Ela é regida por cláusula contratual aplicada geralmente em
contratos coletivos com mais de 30 usuários. A média tida como aceitável pela maior
parte das empresas do ramo é de 70% até 80%, ou seja, de cada 100 reais que o
cliente (pessoa jurídica) paga no mês, pode utilizar 70 a 80 reais. A partir daí
considera-se que determinada apólice ou contrato é deficitário (Seguro em dia,
2006).
Quando comprovado alto índice de sinistralidade no seguro saúde é permitido

reajuste na mensalidade, sendo esse aumento negociado livremente entre as partes
com a fiscalização e autorização da Agência Nacional de Saúde. Podendo ainda a
seguradora usar o fator moderador de copaticipação, isso quer dizer que pode ser
cobrado do associado uma parte do valor das suas consultas medicas, por exemplo,
induzindo com isso a baixa no índice de ocorrência de sinistralidade. Cada
13
seguradora possui uma metodologia de reajuste diferente da outra conforme tabelas

2 e 3.
Tabela 2
Reajuste por sinistralidade do Unibanco.
Cláusula de reajuste por sinistralidade:

AIG Unibanco – Cláusula
Fórmula de reajuste por
sinistralidade: CN = SS x CA / 70
onde:
CN = Custo Novo
SS = Sinistralidade no semestre
CA = Custo Atual
70 = Limite máximo de sinistralidade (70%)

Todos os semestres em Junho e
Dezembro. Com reavaliação
trimestral considerando também o
número de segurados na apólice. E
Periodicidade da apuração: ainda no aniversário do contrato.
Base de cálculo para sinistralidade: Último semestre
Tabela 3
Reajuste por sinistralidade da Sul América.
Sul América - Cláusula

Fórmula de reajuste por sinistralidade: PN = PA x (I S P) / 0,75
onde:
PN = Preço Novo
PA = Preço Atual
ISP = Índice ( Sinistro / Prêmio Pago )
0,75 = Limite máximo de sinistralidade (75%)
Periodicidade da A partir do sexto mês de vigência, a cada
apuração: trimestre.
No primeiro ano de vigência, a primeira
avaliação considera os últimos 9 meses. A
Base de cálculo para partir daí, sempre se consideram os últimos 12
sinistralidade: meses.
As seguradoras de seguro saúde têm investido em pesquisas anteriores a

contratação, é preciso saber se há doenças pré-existentes e quantas vidas o
contrato terá para avaliar previamente um índice alto de sinistralidade. É analisado
14
também a faixa etária, o sexo e quantidade de dependentes, que por exemplo pode
gerar as seguintes informações: no contrato de 600 vidas, 100 são mulheres no
período fértil, neste caso é esperado um uso de serviços ginecológicos maiores,
como maternidade; no caso de ter 50 pessoas com idades acima de 55 sem
problemas pré-existentes é esperado checape anual.
15
2. A EXTRAÇÃO DO CONHECIMENTO DE BASE DE DADOS
Neste capítulo apresenta-se o contexto necessário ao entendimento do que é

extração do conhecimento de base de dados, começando pelo conceito até as
etapas que o compõem. Dando mais ênfase a etapa de mineração de dados com
uma análise mais completa, já que é o objetivo desta pesquisa.
A sociedade está inserida em uma época, onde a informação e o conhecimento

exercem papéis competitivos fundamentais. Com o advento da informática, as
pessoas em geral e as organizações passaram a fazer grande uso da informação e,
a partir disso, novas formas de armazenamentos surgiram. Por isso, busca-se
aproveitar de maneira otimizada a grande quantidade de informações que existem
nos bancos de dados informatizados das organizações.
No entanto, devido ao grande volume de dados armazenados, que ultrapassam a

habilidade técnica e a capacidade humana de interpretação, a maioria das
organizações torna-se incapazes de aproveitarem as informações contidas nas
bases de dados. Para suprir essa incapacidade humana em filtrar uma informação
de um banco de dados, surge o KDD – extração do conhecimento de base de dados
como ferramenta para viabilizar a análise de grandes bancos de dados.
A extração do conhecimento de base de dados é uma seqüência de vários passos

para identificar em dados padrões válidos, os novos conhecimentos. Pode-se definir
ainda como um ramo da computação que utiliza técnicas e ferramentas para extrair
informações úteis de grandes bases de dados, visando melhorar o entendimento de
um problema ou um procedimento de tomada de decisão (FAYYAD e PIATETSKI-
SHAPIRO, 1996).
É preciso definir o objetivo e metas a serem alcançadas, para depois seguir as

etapas da extração do conhecimento de base de dados. As etapas mais importantes
são: o pré-processamento onde acontece o tratamento dos dados; e a mineração de
dados com algoritmo estatístico, trazendo informação estatística que permitem ao
usuário identificar o quanto o novo conhecimento é confiável.
16
As etapas da extração do conhecimento de base de dados, conforme a figura 1, são:

seleção, pré-processamento, transformação, mineração de dados e interpretação do
resultado (FAYYAD e PIATETSKI-SHAPIRO, 1996), que serão abordadas no tópico
seguinte, bem como a análise de cada uma delas.
Figura 1. Processo KDD.

Fonte: Fayyad, 1996.
2.1 ETAPAS DA EXTRAÇÃO DO CONHECIMENTO DE BASE DE

DADOS.
O processo da extração do conhecimento de base de dados (KDD) começa

obviamente com o entendimento do domínio da aplicação e dos objetivos finais a
serem atingidos e em seguida, é feito um agrupamento organizado de uma massa
de dados, com atributos selecionados. A etapa da limpeza dos dados vem a seguir,
através de um pré-processamento dos dados, visando adequá-los aos algoritmos.
Isso se faz através da integração de dados heterogêneos, eliminação de dados
desnecessários, repetições de dados, problemas de tipagem entre outros.
Os dados pré-processados devem ainda passar por uma transformação que os

armazena adequadamente, visando facilitar o uso da ferramenta e técnicas de
mineração de dados. Chegando assim à interpretação das informações obtidas, no
qual encontra-se o conhecimento que trará o resultado esperado.
Na fase de seleção dos dados é estabelecido o objetivo da mineração e feita a

análise da base de dados definindo quais os atributos serão usados para descoberta
do conhecimento. É também definido a ferramenta, técnica e algoritmo a ser
17
aplicado (OTUSUKA e ROCHA, 2002). Para isso, é preciso uma análise cuidadosa
dos dados, pois na etapa do conhecimento é possível constatar que é necessário
voltar à análise da base de dados para selecionar outros atributos que apresentem
uma resposta mais precisa a cerca do problema estabelecido. Para evitar que isso
aconteça é aconselhável fazer uma base de testes para ter certeza que os atributos
escolhidos trarão novos conhecimentos.
No pré-processamento é necessária que dos dados selecionados estejam corretos

para a mineração de dados, por isso é feita uma revisão, certificando de que todos
os atributos escolhidos estão corretos e desta forma eliminar eventuais dados
incompletos, problemas com repetição de registro etc. Por este motivo o pré-
processamento também conhecido como etapa da limpeza dos dados, segundo
Manilla (1994) é a etapa que consome até 80% do tempo necessário para todo o
processo da descoberta de conhecimento sendo ela uma das etapas mais
importante para o sucesso no processo da descoberta do conhecimento em base de
dados.
Na etapa de transformação, os dados precisam ser transformados para um formato

adequado para a tarefa de mineração de dados, podendo ser usados em forma
numérica, texto ou mesmo em nova base de dados transacional, que já traz os
dados pré-processados visando integridade, consistência e limpeza dos mesmos
(VIANA, 2004), combinando os atributos em questão. Essa transformação deve levar
em conta a significância dos dados e o volume para ser alterada, essa avaliação são
estabelecidos com o objetivo do estudo (MARTINS, 1998).
O resultado da transformação são informações consolidadas num formato mais

estatístico e menos transacional, sendo em geral um arquivo distinto das bases de
dados originais. Portanto quando a base de dados é muito grande, é recomendável
trabalhar com uma amostra aplicando as técnicas de mineração para ter certeza que
os atributos escolhidos darão bons resultados (CRUZ, 2000).
A mineração de dados é uma das etapas mais importante do processo da extração

do conhecimento de base de dados (KDD), nesta etapa são aplicados técnicas e
algoritmos estatísticos para a extração do conhecimento. A técnica e algoritmos
18
devem ser definidos de acordo com o problema, Segundo Diniz e Louzada (2000)
pode ocorrer à necessidade de se aplicar várias técnicas e vários algoritmos
estatísticos no mesmo problema, para achar o conhecimento mais preciso.
A interpretação dos resultados da mineração dos dados é a fase de entendimento,

que pode ser vista através de ferramentas de visualização de dados como:
intelligent Miner da IBM, MineSet da Silicon Graphics Inc (AMO, 2004) e o Weka
desenvolvida pela Universidade de Waikato (Nova Zelândia). Essas ferramentas
permitem a visualização do resultado da mineração de forma clara e precisa o
resultado da extração. É possível ter a necessidade de retornar a alguma das fases
do KDD de forma a obter um resultado mais completo acerca do problema definido.
Na fase de interpretação é medido também o esforço dedicado na busca do

conhecimento e avaliado o impacto ocasionado pelo mesmo. Podendo ser redefinido
a técnica e algoritmo a ser aplicado na mineração de dados para alcançar o
resultado esperado. No próximo capitulo será detalhado mineração de dados.
2.2. MINERAÇÃO DE DADOS
Neste tópico serão apresentados os conceitos de mineração de dados, assim como

suas tarefas, com seus respectivos tipos e técnicas de mineração de dados, citando
algumas delas. Abordando sempre de maneira conceitual e exemplar para melhor
compreensão.
A mineração de dados é um processo de exploração e análise de grandes massas

de dados. O objetivo é de descobrir padrões ou informações que permitam uma
melhor compreensão dos mesmos e o resultado obtido pode ser usado no
gerenciamento da informação, processamento de pedido de informação, tomada de
decisão, controle de processo e outras aplicações. Segundo Amo (2004 p.196) nos
anos 80 a mineração de dados consistia essencialmente em extrair informações de
gigantescas bases de dados da maneira mais automatizada possível.
19
Descobrir informações sem um prévio conhecimento é algo complicado já que as

bases de dados são armazenadores de dados históricos e fazer um levantamento de
forma aleatório sem definir qual o problema e qual o resultado esperado pode levar a
um esforço inútil. É por isso que a mineração de dados envolve tarefas e técnicas,
aliadas a bons sistemas de informações como é o caso dos mineradores de dados.
Esse é um dos motivos porque as organizações investem em ferramentas que o
auxiliem na gestão dos seus negócios, obtendo como retorno redução nos custos
com armazenamento de dados consistentes.
2.2.1 Tarefas e técnicas da mineração de dados
Este tópico apresenta os conceitos das tarefas e técnicas básicas da mineração de

dados, fazendo associações entre as mesmas e exemplificando-as de forma a
facilitar o entendimento. Dando ênfase à tarefa de classificação e a técnica de
árvore de decisão porque são as aplicadas no experimento deste trabalho.
A tarefa consiste na definição do que se está buscando, quais padrões têm interesse
em encontrar ou qual padrão o surpreenderia. Pode-se citar como exemplo um gasto
exagerado de um cliente de cartão de crédito, fora dos padrões usuais de seus
gastos. Enquanto as técnicas de mineração de dados são compostas por grupos de
algoritmos estatísticos aplicados para solucionar o problema proposto na tarefa,
podendo ser aplicada várias técnicas em um mesmo problema, ao mesmo tempo,
podendo ainda aplicar vários algoritmos da mesma técnica que permite obter um
resultado mais preciso.
As classes de tarefas são: classificação, associação, cluster (agrupamento) sendo

que cada tarefa apresenta várias técnicas, e algumas técnicas podem ser utilizadas
para solucionar tarefas diferentes (VIANA, 2004). As técnicas de mineração de
dados são: regra de associação e árvore de decisão, detecção de cluster, análise de
regressão e etc.
A tarefa de classificação serve para examinar as características de um projeto ou

situação e atribuir a ele uma classe pré-definida, permitindo assim o agrupamento
de dados em classes. Segundo Dias (2001), o objetivo é descobrir um
20
relacionamento entre um atributo meta (cujo valor será previsto) e um conjunto de

atributos de previsão. Uma técnica a ser aplicada a esta tarefa é a árvore de decisão
que será abordada em tópico adiante, pois é a técnica empregada na fase do
experimento deste trabalho.
Por exemplo: Numa população de um estado pode ser analisada pela sua renda
para medir o grau de pobreza do país, assim tem as classes A, B e C, de forma que
o governo lance programas assistencialistas. E quando for incluir uma nova pessoa
ele já será automaticamente classificado conforme sua renda (VIANA, 2004).
Em outro exemplo pode-se citar que um gerente do supermercado está interessado

em descobrir que tipo de características de seus clientes os classificam em “bom
comprador” ou “mau comprador”. Neste caso um modelo de classificação pode
incluir a seguinte regra: Bom cliente é aquele que faz compras grandes
mensalmente e utiliza o cartão próprio do supermercado, já o mau comprador é
aquele que compra esporadicamente com cartão do supermercado. Com esta
classificação podem-se identificar as características dos compradores como: faixa
etária, preferência de produto, faixa econômica entre outros.
A tarefa de associação estuda um padrão de relacionamento entre X → Y, onde X e

Y são conjuntos de valores (itens de produtos, diagnósticos de uma doenças e etc.).
Para essa tarefa aplica-se a técnica de regras de associação que estabelecem
relacionamento estatístico entre X e Y de forma a descobrir qual a melhor
associação entre os objetos, mostrando ligações entre os elementos proporcionando
desta forma novos conhecimentos no relacionamento entre os mesmos.
Por exemplo: Uma análise das transações de compra de um supermercado pode

encontrar itens que tendem a ocorrer junto em uma mesma compra como café e
leite. O resultado da compra do café junto com o leite são importantes para
promoções e controle de estoque (VIANA, 2004).
Outro exemplo de associação é o resultado obtido numa análise realizada em uma

loja de conveniência, constatou-se que os homens que são pais, quando vão a loja
comprar frauda descartável também compra cerveja. Esse é uma regra de
21
associação que permite a empresa uma visão de comportamento dos clientes,

permitindo uma compra associada entre os produtos (VIANA, 2004).
A tarefa de associação é também conhecida como descritiva porque ela é usada

para identificar padrões em dados históricos, como no exemplo acima que descobriu
que o cliente que compra café também compra leite, permitindo desta forma uma
arrumação das prateleiras que contenha os dois produtos.
Os outliers são análise de fatos que não ocorrem com freqüência, muitos métodos
de mineração de dados descartam estes outliers como sendo indesejado. Entretanto
pode ser muito importante na análise de fraude como, por exemplo, detectar o uso
fraudulento de cartões de crédito, ao descobrir que certos clientes efetuaram
compras de valores extremamente altas, fora do seu padrão habitual de gastos.
(AMO, 2004). Para essa tarefa pode aplicar as técnicas de classificação ou de
associação.
A tarefa de cluster (agrupamento) trabalha particionando em classe de elementos

similares. O algoritmo descobre essas classes a partir das alternativas encontradas
na base de dados, agrupando assim um conjunto de objetos semelhantes.
Diferentemente da classificação que trabalha com classes pré-definidas conforme
um estudo prévio (AMO, 2004). Para essa tarefa pode aplicar a técnica de detecção
de cluster.
Por exemplo: Uma população inteira de dados sobre tratamento de uma doença
pode ser dividida em grupos A, B e C baseados na semelhança de efeitos colaterais
produzidos (VIANA, 2004).
Um outro exemplo é uma operadora de cartões de créditos que deseja saber o

comportamento de compras de seus clientes por região do país. Aplicando
algoritmos estatísticos de associação será possível saber quais regiões compra
parcelado e qual período ele consomem mais.
22
2.2.1.1 Árvore de decisão usando o algoritmo J48
Neste tópico serão abordados a técnica de árvore de decisão e o algoritmo J48

mostrando de que forma é medida a exatidão do experimento com essa técnica,
através de exemplo para melhor compreensão.
Uma árvore de decisão é uma estrutura de árvore, usada para dedução da classe de
um atributo, tendo um nó principal (nó-pai) que representa uma única classe, um nó
interno (nó-decisão) que representa um teste sobre o valor de um atributo e a partir
do nó decisão tem os nós filhos que representam um dos possíveis resultados do
teste sobre o valor do atributo.
A quantidade de nós geradas na árvore depende da escolha do atributo que será o

nó pai e do fator de confiança escolhido, para então gerar o nó decisão e determinar
a quantidade de nós filhos que teoricamente só estão contidos elementos de uma
mesma classe. O fator de confiança é percentual estatístico escolhido pelo usuário
para medir a confiança dos dados que estão sendo minerados gerando uma
probabilidade de acertos para as classes.
O algoritmo J48 é uma implementação do algoritmo C4.5 release 8 que gera árvore
de decisão (última publicação da família de algoritmos que geram árvores de
decisão antes do C5.0, versão mais recente e disponível apenas comercialmente) e,
também é considerado o mais popular algoritmo da Weka. O J48 constrói um
modelo de árvore de decisão baseado num conjunto de dados de treinamento, e usa
esse modelo para classificar exatidão do classificador num conjunto de teste. A
exatidão do classificador é analisada através da estatística de Kappa, que são
apresentados no resultado na mineração e seguem uma faixa para classifica-los em
fraco, regular, moderado, bom e excelente (tabela 4), se o resultado for de fraco a
moderado significa que os dados precisam de ajustes.
23
Tabela 4
Probabilidade de Kappa.
PROBABILIDADE DE KAPPA NÍVEL DE EXATIDÃO DO CLASSIFICADOR
< 0,20 Fraco
0,21 - 0,40 Regular
0,41 – 0,60 Moderado
0,61 – 0,80 Bom
> 0,81 Excelente
Fonte: OLIVEIRA, 2003.
Durante o processo de utilização do algoritmo J48 é interessante conhecer alguns

parâmetros que podem ser modificados para proporcionar melhores resultados
como, por exemplo, o uso de podas na árvore, o número mínimo de instâncias por
folha e a construção de árvore binária.
Exemplo de construção da árvore com J48: Um banco de dados da loja X que

analisa dados do cliente, visando à aprovação ou não (atributo objetivo) de crédito
para empréstimo pessoal. Esta amostra é pequena, com 4 atributos e 16 registros
que já passou pela seleção e transformação dos dados, e a linha da coluna
resultado não representa os clientes inadimplentes e o sim adimplentes. A coluna
tempo representa tempo de trabalho conforme mostra a tabela 4. A figura 2 mostra a
árvore de decisão da loja X após ser minerado.
24
Tabela 5
Banco de dados da loja X.
Nome Cargo Tempo Resultado
Daniel Programador 2 Não
João Consultor 9 Sim
Carlos Professor 5 Não
Maria Professor 7 Sim
Fonte: VIANA, 2004.
Cargo
Outros
Consultor Tempo
>6 <=6
Aprovado Reprovado
Aprovado
Figura 2. Árvore de decisão da loja X.

Fonte: VIANA, 2004.
A figura 2 é a árvore de decisão da loja X que tem como nó principal o atributo

cargo, e nos mostra que o consultor tem seu cadastro aprovado quando em outros
cargos leva em consideração além do cargo o nó tempo de trabalho. Desta forma
tem-se a seguinte informação: se o tempo de trabalho for acima de 6 anos o
cadastro está aprovado, se for menor ou igual a 6 anos o cadastro está reprovado.
Portanto os cadastros aprovados conforme banco de dados analisado, e exibidos na
tabela 5 os clientes com cadastro aprovado para empréstimo foram: Alcides que é
consultor e tem 9 anos de trabalho e Almir que é professor e tem 7 anos de trabalho
(VIANA, 2004). Analisando a árvore de decisão quanto à estatística de Kappa, tem-
25
se que a exatidão do classificador é zero, estando no nível fraco (figura 3) indicando

que é necessário ajustes nos dados.
cheme: weka.classifiers.trees.J48 -C 0.25 -M 2

Relation: x
Instances: 4
Attributes: 4
nome
cargo
tempo
resultado
=== Evaluation on training set ===
=== Summary ===
Correctly Classified Instances 2

Incorrectly Classified Instances 2
Kappa statistic 0
Figura 3. Análise estatística da árvore de decisão da loja X.
2.2.2 Escolhendo a técnica de mineração de dados mais adequada
A escolha de uma técnica para mineração de dados não é uma tarefa fácil,
dependerá do problema (tarefa) proposto e dos dados disponíveis para análise.
Segundo Berry (1997), selecionar a técnica de mineração de dados depende de dois
fatores: traduzir o problema do negócio a ser resolvido e compreender a natureza
dos dados disponíveis em termos de conteúdo, tipos de campos de dados e
estrutura da relação entre os registros.
Em primeiro lugar é necessário estabelecer a meta da mineração de dados, ou seja,

o que pretende saber com a aplicação da mesma. Em segundo lugar, determinar as
características dos dados para análise e selecioná-los, depois escolher a melhor
técnica de mineração de dados para meta estabelecida (Madalena, 2002).
2.2.3 Áreas de aplicação da mineração de dados
A mineração de dados tem se mostrado muito útil na tomada de decisão, por isso
vem se expandindo rapidamente em várias áreas como: marketing, comércio,
medicina entre outras.
26
Em marketing são aplicadas técnicas de mineração para traçar perfil de

consumidores, padrões de compra, tendência eleitoral, perfil de preferência popular
entre outros, tendo como objetivo realizar marketing direcionado de produtos,
prestação de serviços, vender imagens de marcas ou pessoas ou mesmo realizar
programas de fidelização dos clientes.
No comércio, as empresas de cartões de crédito utilizam a mineração de dados

para traçar perfil de grupos e desta forma trabalhar com promoções direcionadas a
cada grupo (MINERAÇÃO, 2002). Podendo também nesta mineração saber o perfil
de compra de cada cliente e desta forma se prevenir contra fraude nos cartões de
crédito.
Em comércio varejista a mineração de dados pode auxiliar de forma surpreendente

através da técnica de associação que indica quais produtos tem a tendência de
serem comprados juntos. Permitindo assim uma arrumação da prateleira de forma a
induzir a venda casada de produtos.
Na medicina a mineração de dados é utilizada para identificar e classificar terapias

de sucesso para diferentes doenças e mesmo em novos diagnósticos, gerando
grupos com mesmas características nos sintomas para desta forma agilizar a
identificação da doença no paciente (MINERAÇÃO, 2002).
27
3. MINERADOR DE DADOS WAIKATO ENVIRONMENT FOR

KNOWLEDGE ANALYSIS
A ferramenta de mineração de dados weka foi desenvolvida pela Universidade de

Waikato em Nova Zelândia que a colocou como domínio público disponível em
(http://www.cs.waikato.ac.nz/~ml/weka/). A ferramenta weka é composta por um
conjunto de implementações de algoritmos de diversas técnicas de mineração de
dados (WAIKATO, 2000).
Métodos de classificação:
• árvore de decisão induzida;

• regras de aprendizagem;
• naive Bayes;
• tabelas de decisão;
• regressão local de pesos;
• aprendizado baseado em instância;
• regressão lógica;
• perceptron;
• perceptron multicamada;
• comitê de perceptrons;
• SVM.
Métodos para predição numérica:
• regressão linear;
• geradores de árvores modelo;
• regressão local de pesos;
• aprendizado baseado em instância;
• tabelas de decisão;
• perceptron multicamadas.
O Weka requer um arquivo de leitura com a extensão arff, no qual temos que
descrever todos os atributos definindo os valores entre “{}” separados por vírgulas
depois é listado as instâncias, ou seja, os registros a serem minerados com os
valores dos atributos para cada instância também separados por vírgulas, em caso
de ausência de um registro deve ser atribuída pelo símbolo “?”. A figura 3 mostra um
arquivo no formato ARFF pronto para ser minerado no Weka.
28
Figura 4. Arquivo no formato ARFF.

Fonte: Waikato, 2000.
O arquivo na extensão ARFF pode ser feito em qualquer editor de texto, sendo
necessário como usar a palavra @relation e o nome_do_conjuto_de_dados após
coloca a palavra @attribute e o nome_atributo e abaixo @data para em seguida
vim os dados propriamente dito para a serem minerados, conforme citado na figura
4.
A tela inicial do minerador Weka com três botões conforme figura 5. O primeiro botão
Simple CLI executa os algoritmos do Weka através de linha de comando. O segundo
botão Explorer executa o módulo gráfico para execução dos algoritmos. O terceiro
botão Experimenter executa o módulo para manipular base de dados.
29
Figura 5. Tela inicial do pacote Weka.

Para executar um dos algoritmos do pacote Weka pressiona o botão Explorer, a

janela Weka Knowledge Explorer será aberta, deve-se então carregar os dados para
serem analisados os quais podem ser originados de um arquivo (Open file...) de uma
URL (Open URL...) ou ainda de um banco de dados (Open DB...)
No caso de utilizar dados originados de um arquivo, para tanto pressiona o botão

Open file... localiza o arquivo arquivo.arff criado anteriormente como mostra a Figura
6. Em base relation tem o nome da relação, quantidade de instâncias e quantidade
de atributos, abaixo no lado esquerdo encontra-se a lista de atributos do arquivo que
carregou. No lado esquerdo tem a seleção do atributo para mostragem em cubo da
quantidade de linhas que cada um tem.
30
Figura 6. Carregando o arquivo ARFF.

Na parte superior se encontra as seguintes abas preprocess onde se pode abrir,

editar e salvar a base, classify conjunto de algoritmos que implementam os
esquemas de aprendizagem que funcionam como classificadores cluster contém os
algoritmos para geração de grupos, associate conjunto de algoritmos para gerar
regras de associação, select attributes determina a relevância dos atributos,
visualise explora os dados.
Este trabalho usará a tarefa de classificação, então será explicado a aba classify
conforme figura 7, no campo classifier seleciona qual algoritmo será utilizado para
classificação, por padrão o ZeroR é instanciado, clica sobre o nome do algoritmo e
uma nova janela é aberta, seleciona então o algoritmo no caso deste trabalho será
adotado o J48, ainda na figura 06 encontra-se a tela de parâmetros que vale
ressaltar que cada classificador possui parâmetros próprios.
Em test options defini algumas opções de teste como conjunto de treinamento (use
training set), fornecer um conjunto de teste (supplied test set), validação cruzada
31
(cross-validation) com o número de partições e porcentagem dos dados usados para

treinamento (percentage split) em More options dar algumas opções de saída. Após
essas definições clicar em start e obterá o resultado.
No caso deste exemplo, como tem poucos registros serão usados os dados como
um conjunto de treinamento ativando a opção Use training set (figura 7), em seguida
pressiona Start para iniciar a execução do algoritmo.
Figura 7. Aba classifer do Weka.

Para gerar a árvore de decisão utilizando, por exemplo, o algoritmo J48 que se
encontra no pacote Weka, clica com o botão direito no resultado da mineração em
result list conforme mostra a figura 7 e escolhe a opção visualize tree, terá um
resultado como mostra a figura 8.
32
Figura 8. Árvore de decisão com algoritmo J48.

33
4. EXPERIMENTO REALIZADO
O objetivo deste experimento é minerar a base de dados de uma seguradora de

saúde em planos coletivos para proporcionar um maior conhecimento em relação à
ocorrência de sinistralidade acima de 75%. Para alcançar esse objetivo são definidas
as etapas a serem seguidas (figura 10) e mais adiante descrito cada passo adotado
para alcançar o objetivo.
Para o experimento foi utilizadas a tarefa de classificação com a técnica de árvore

de decisão aplicando-se o algoritmo J48 de forma a ser analisado os resultados
focando no objetivo descrito no parágrafo anterior. A amostra utilizada contém dados
de 700 segurados, somando um total de 6300 registros a serem analisados na
mineração de dados.
DEFINIÇÃO Árvore de
DA
PESQUISA não decisão
AVALIAÇÃO
MODELO DE KAPPA
ANÁLISE E INADEQUADO E DE CONFIANÇA
ESCOLHA
DOS ATRIBUTOS
NO BANCO DE DADOS
MINERAÇÃO
sim DOS
EXECUÇÃO
DADOS
ETAPAS
KDD
PRÉ
SELEÇÃO ARQUIVO ARQUIVO
PROCESSAMENTO/
DOS TESTE TREINAMENTO
LIMPEZA
DADOS
TRANSFORMAÇÃO
ANÁLISE
DOS COMPUTACIONAL
DADOS SELEÇÃO
ARQUIVOS
TREINAMENTO E
TESTE
Figura 9. Processo para mineração de dados.

Fonte: OLIVEIRA, 2003.
34
4.1 DESCRIÇÕES DAS ETAPAS DO EXPERIMENTO
Definição da pesquisa - foi realizado um estudo de mercado no período de Janeiro

a Março de 2005 para definir qual segmento seria aplicado a mineração de dados,
de forma a auxiliar na tomada de decisão. A principio ficou definido a pesquisa e
experimento no segmento de matérias recicláveis em uma ONG localizada no bairro
do Rio Vermelho na cidade do Salvador. Após ser firmada a parceria, foi realizado
todo o processo de armazenamentos dos dados em banco de dados que a ONG já
possuía em papel, sendo definido os atributos a serem usados na mineração de
dados, de forma a descobrir qual o roteiro de coleta de materiais recicláveis os
carros de mão traria mais matérias recicláveis dos bairros do Rio Vermelho e
Amaralina. Em Dezembro de 2005 a ONG informa através de sua nova diretoria que
não tem mais interesse em participar da pesquisa.
Em Janeiro começa uma nova pesquisa para definir qual segmento aplicar o
experimento e constatou-se que o segmento de seguro saúde seria uma boa fonte
de pesquisa por está em destaque com discussões sobre reajustes nas
mensalidades. Partiu-se então para o contato com as seguradoras de saúde em
Salvador para apresentar a proposta sem obter êxito. Preparou-se então uma base
de dados baseada em conhecimento teórico obtido através de pesquisa no ramo e
ao minerar os dados constatou-se que a base de dados era inconsistente.
Em abril de 2006 em contato com um profissional de gestão de uma seguradora

saúde obtive um banco de dados consistente que permitiu a realização dos
experimentos citados detalhadamente mais adiante. Tendo como definição da
pesquisa a descoberta de ocorrência de sinistralidade acima de 75% em seguro
saúde através de aplicação de uma técnica de mineração de dados.
Análise e escolha dos atributos no banco de dados – foi realizado a análise do

banco de dados em conjunto com um profissional da área de seguro saúde,
avaliando quais atributos podem proporcionar uma visão melhor na ocorrência de
sinistralidade. E chegou-se ao consenso dos seguintes atributos (anexo A): mês de
forma a descobrir quais os meses que ocorre mais uso do seguro saúde; usuário
para saber quem mais usa o plano o titular ou outros; plano para dizer que tipo de
35
plano onera mais o seguro; sexo para aponta se possível quem mais utiliza o
plano;faixa para saber qual a faixa etária estar usando mais o plano, essa faixa é
determinada pela Agência Nacional de Saúde e é fixa para todos os seguros saúde;
localidade que mostrará qual localidade usa mais o plano;situação; limitação; receita
e despesa, no qual os dois últimos irão compor o atributo sinistralidade.
Execução etapas do KDD – após a escolha dos atributos, os dados foram

armazenados no Excel Microsoft Office XP para seguir as etapas de seleção dos
dados, pré-processamento e transformação dos dados conforme figura 10. Nesta
etapa foi criado o atributo sinistralidade resultante da operação feita entre os
atributos receita e despesa. Após essa etapa o arquivo foi exportado para o editor de
texto Word Microsoft Office XP como um arquivo “.txt” tendo um ponto e vírgula
como separador entre os valores de um atributo e outro, para mais tarde ser salvo o
com a extensão .arff que é o arquivo lido pelo minerador Weka-3-4 utilizado no
experimento.
Análise computacional: seleção do arquivo treinamento e teste - Após a

formatação, foi criado dois arquivos, “sinistralidade.arff” que é de treinamento com 9
atributos e 6300 registros (anexo B) que gerou as árvores de decisões (anexos C, D,
E) e o “testesinistralidade.arff” que é o arquivo de teste com 711 registros e 9
atributos para medir a exatidão do classificador e a confiança através da estatística
de Kappa (Tabela 4 capítulo 2 seção 2.2.1.1) que apresentou bons resultados
conforme abordado no tópico resultados obtidos, mais adiante e a confiança através
das margem de erros que apresentaram bons resultados.
Mineração dos dados - com o arquivo treinamento pronto, foi realizado a mineração
de dados no software Weka-3-4, escolhido pela confiabilidade dos algoritmos e por
implementar o algoritmo J48 escolhido para este trabalho. Após a mineração é
observado o índice estatístico de Kappa que mede a exatidão do classificador e a
confiança, valores dados quando é gerada a árvore de decisão, que apresentou
satisfatórios nas três árvores geradas (anexos C, D, E), em seguida foi minerado o
arquivo teste que confirmou a exatidão do classificador através da estatística de
Kappa.
36
Árvore de decisão – será abordado detalhadamente individualmente como foi

gerada as árvores de decisões e quais resultados obtidos com elas.
No primeiro experimento foi escolhido o atributo situação (solteiro, casado) como nó

principal, gerando uma árvore de decisão (anexo C) com índice estatístico de Kappa
de 0,87 (excelente) e nível de confiança de 0,25%, tendo como objetivo a análise de
ocorrência de sinistralidade acima de 75% . Têm-se as seguintes observações:
• existe ocorrência de sinistralidade no seguro saúde do plano produto-1,
usuário titular e faixa etária de 049 a 053 sendo observados que a situação é
solteiro. Portanto nesta faixa etária os solteiros usam mais o seguro saúde
que o casado podendo ser visto na figura 10;
• teve ocorrência de sinistralidade também na faixa etária de 059 a 999 com

usuário titular nos planos e situações: produto-1 casado; produto-2 solteiro;
produto-3 solteiro; produto-5 solteiro (figura 10).
| | faixa = 049a053
| | | plano = PRODUTO-1
| | | | usuario = TITULAR
| | | | | sinistralidade = >75: SOLTEIRO
| | faixa = 059a999
| | | usuario = TITULAR
| | | | sinistralidade = >75
| | | | | plano = PRODUTO-1: CASADO
| | | | | plano = PRODUTO-2: SOLTEIRO
Figura 10. Parte da primeira árvore de decisão.
Neste primeiro experimento contata-se que a ocorrência de sinistralidade acima de

75% é freqüente para solteiros e usuários titulares nas faixas etárias de 049 a 053 e
059 a 999.
Na análise do segundo experimento se escolheu o atributo sexo como nó principal

(anexo D), que teve 0,97 de índice de Kappa (excelente) e nível de confiança de
0,25%, observando-se a ocorrência de sinistralidade acima de 75% nos seguintes
casos (figura 11).
37
• A árvore de decisão nos revela que ocorre sinistralidade acima de 75% na

faixa etária de 024 a 028 com limitação sem carência sendo do sexo
feminino. Neste caso só foram utilizados os atributos faixa etária, limitação e
sexo;
• na faixa etária de 039 a 043 aparece o plano produto-1 e o sexo feminino.

Utilizando também 03 atributos apenas;
• já na faixa etária de 054 a 058 pode-se notar que trás maiores informações
como usuário titular, plano produto-1, sexo feminino e sinistralidade acima de
75%;
• na faixa etária de 059 a 999, o plano continua sendo o produto-1, o usuário

titular, o sexo feminino e sinistralidade acima de 75%.
| faixa = 024a028
| | limitação = SEMCARENCIA
| | | sisnistralidade = >75: F
| faixa = 039a043
| | plano = PRODUTO-1
| faixa = 054a058
| | usuario = TITULAR
| | | | sisnistralidade = >75: F
| faixa = 059a999
Figura 11. Parte da segunda árvore de decisão.
No terceiro experimento o atributo escolhido como nó principal foi usuário (anexo F)

e apresentou um índice de Kappa de 0,93 (excelente) e nível de confiança de
0,25%, tendo a seguinte observação (figura 12).
• houve ocorrência de sinistralidade acima 75% na fixa etária mais uma vez de
059 a 999 sendo o usuário titular com plano produto-1 e sexo feminino.
38
| faixa = 059a999
| | | situação = CASADO
| | | | sexo = F
| | | | | sisnistralidade = >75: TITULAR
Figura 12. Parte da terceira árvore de decisão.
4.2 RESULTADOS
Os resultados obtidos nos experimentos indicam que há constante ocorrência de

sinistralidade acima de 75% no produto-1 e faixa etária de 059 a 999 (figura 14),
devendo ser dado maior atenção há esse item. Observa-se também que o nó
principal sexo (figura 12) nos trás maiores informações, apontando desta forma
quatro faixas-etárias como responsáveis pela ocorrência de sinistralidade acima de
75% .
A seguir apresentar-se a tabela 14 com todos os resultados obtidos com a

mineração de dados, confirmando a observação feita no parágrafo anterior, e
alertando para a ocorrência de sinistralidade em outras três faixas etárias
correlacionando com outros atributos conforme demonstrado na figura 14.
39
| faixa = 024a028
| faixa = 039a043
| | faixa = 049a053
| | | | | sinistralidade = >75: SOLTEIRO
| faixa = 054a058
| faixa = 059a999
| | faixa = 059a999
| | | | sinistralidade = >75
| | | | | plano = PRODUTO-1: CASADO
| faixa = 059a999
| | | | sexo = F
| | | | | sisnistralidade = >75: TITULAR
Figura 13. Resultado geral das minerações

Tendo em mãos os dados gerados com a mineração dos dados a seguradora de
saúde pode realizar um plano estratégico de forma a evitar que essa apólices sejam
deficitárias para a empresa.
Com os experimentos realizados, pôde se observar que as hipóteses geradas, na

aplicação do algoritmo J48 e dos métodos aplicados foram válidas, visto os
percentuais de erros apresentados. Além disso, observou uma grande consistência
das regras geradas pela ferramenta Weka-3-4 na identificação de que fatores
contribuem para aumentar a ocorrência de sinistralidade nos seguros saúde.
40
É importante testar vários atributos para saber qual deles vai trazer maiores
informações a respeito do problema estabelecido. Com esses resultados pode-se
estudar melhor a proposta de seguro saúde a ser feita numa organização, levando
em consideração as respostas obtidas neste experimento para desta forma, evitar
prejuízo no contrato firmado entre as partes.
41
CONSIDERAÇÕES
Nesta monografia foi apresentado o problema de mineração de dados de

classificação, com a aplicação da técnica de árvore de decisão com o algoritmo
estatístico J48 em uma base de dados de uma seguradora saúde para avaliar as
regras de classificação, de forma a obter conhecimento de quais apólices de seguros
saúde podem ser deficitárias para a empresa.
Para alcançar o objetivo proposto nesta pesquisa foi realizado experimento com o
software Weka que é uma ferramenta de mineração de dados, que proporcionou
colocar em prática o processo do KDD descrito anteriormente. Porém a grande
dificuldade encontrada foi obter uma base de dados consistente para aplicar o
algoritmo estatístico J48 o que implicou numa pesquisa mais minuciosa a respeito de
base de dados.
É importante salientar que o sucesso de um projeto de mineração de dados pode

transformar o modo de atuação de uma empresa, passando a atuar pro ativamente,
e não relativamente à situação de mercado.
Para trabalhos futuros tem a possibilidade de trabalhar com a base de dados do

experimento desta pesquisa, aplicando outros algoritmos estáticos, ou mesmo outras
técnicas de mineração de dados para fazer comparações na regras encontradas, de
forma a avaliar qual o resultado que mais satisfaz ao problema proposto.
42
REFERÊNCIAS
AGÊNCIA NACIONAL DE SAÚDE. Disponível em: www.ans.gov.br. Acesso em

20/04/2006.
AMO, Sandra. Técnicas de mineração de dados. XXIV CONGRESSO DA

SOCIEDADE BRASILEIRA DE COMPUTAÇÃO, 31/06 a 06/08, 2004, Salvador.
Anais do SBC, Bahia: Sociedade Brasileira de Computação, 2004. p. 195-233.
BERRY, M.J.A.; LINOFF, G. Data Mining Techniques. New York: John Wiley &
Sons, Inc. 1997.
CARVALHO, Deborah Ribeiro. Data Mining Através de Indução de Regras e

Algoritmos Genéticos. Dissertação para obtenção do grau de Mestre, Pontifícia
Universidade Católica do
Paraná – 1999.
CRUZ, Priscila Gomes Bastos. Data Mining Através de Regra de Associação e

Arvore de Decisão. Monografia para obtenção do grau de tecnologo em
Processamento de Dados, Universidade Tuiuti do Paraná – 2000.
DINIZ, Carlos: LOUZADA NETO. Francisco. Data Mining uma Introdução. IN: 14º
SINAP 24 jun. 2000. Caxambu. (Organizado pela ABE – Associação Brasileira de
Estatística).
DIAS. M. M. Um modelo de formalização do processo de desenvolvimento de

sistemas de descoberta de conhecimento em banco de dados. Tese
(Doutorado) – Curso de Pós-Graduação em Engenharia de Produção, Universidade
Federal de Santa Catarina, Florianópolis, 2001.
FAYYAD, Usama; PIATETSKI-SHAPIRO, Gregory; SMITY, Padhraic. The KDD

Process for Extracting Useful Knowledge from Volumes of Data. In:
Communications of the ACM, pp. 27-34, Nov. 1996.
HAN, J.; KAMBER, M. Data Mining: Concepts and Techniques. Simon Fraser
University: Morgan Kaufmann Publishers, 2001. 550 p.
MARTINS, Celly de Siqueira. Utilização da Extração de Conhecimento de Bases

de Dados para identificar Padrões de Evasão de Alunos de Graduação da
UNICAMP. Dissertação (Mestrado em Informática) – Universidade de Campinas,
São Paulo. 1998. 144p.
MADELENA, Maria Dias. Parâmetros na escolha de técnicas e ferramentas de

mineração de dados. Artigo divulgado pela Universidade Estadual de Maringá no
Paraná – 2002.
MANILLA, H. Finding Interesting Rules From Large Sets of Discovered

Association Rules, 3rd International Conference on Information and Knowledge
Management –1994.
43
MINERAÇÃO. Técnicas, Aplicações e Tendências. Disponível em

<http://www.rpi.edu/~arunmk/dm1.html>. Acesso em: 18/11/2005. 2002.
OLIVEIRA, Grimaldo: LOPES. Utilização da mineração de dados pela técnica de

árvore de decisão para identificar regras de risco para a obesidade. Monografia
apresentada para obtenção de título de especialista em análise de sistemas, Centro
de pós-graduação e pesquisa Visconde de Cairu Bahia – 2003.
SEGUROS EM DIA. disponível em < www.seguros.com.br\reajuste.asp>, acesso

em: 10/04/2006.
SILVA, Marcelino Pereira Dos Santos. Mineração de Dados - Conceitos,

Aplicações e Experimentos com Weka. Artigo divulgado pela Universidade do
Estado do Rio Grande do Norte (UERN) Mossoró, RN – 2005.
WAIKATO, U.d. Weka Knowledge Explorer (Waikato Environment for

Knowledge Knowledge Analysis). Nova Zelândia, 2000.
VIANA, Reinaldo. Mineração de dados: Introdução e aplicação. Revista SQL

Magazine, ano 1 edição 10 p. 16-25, 2004.
ANEXO A TABELA DO BANCO DE DADOS DA SEGURADORA DE SAÚDE

44
ATRIBUTO DESCRIÇÃO FORMATO
MÊS Mês 1-january

2-february
3-march
4-april
5-may
6-june
7-july
8-august
9-september
10-october
11-november
12-december
USUÁRIO Usuário 1-titular
2-dependente
3-extra
PLANO Plano 1-produto 1
2-produto 2
3-produto 3
4-produto 5
SEXO Sexo 1-masculino
2-feminino
FAIXA Faixa 1-000a018
2-019a023
3-024a028
4-029a033
5-034a038
6-039a043
7-044a048
8-049a053
9-054a058
10-059a999
LOCALIDADE Localidade 1-capital

2-interior
SITUAÇÃO Situação 1-solteiro
2-casado
LIMITAÇÃO Limitação 1-sem carência
2-carência
SINISTRALIDADE Sinistralidade 1-<75
2->75
ANEXO B PARTE DOS DADOS UTILIZADOS PARA MINERAÇÃO DE DADOS,

ARQUIVO TREINAMENTO
april,TITULAR,PRODUTO-3,F,039a043,CAPITAL,SOLTEIRO,SEMCARENCIA,>75
45
january,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,<75
february,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,<75
march,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,<75
april,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,<75
may,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,>75
november,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,>75
december,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,>75
january,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,>75
february,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,<75
march,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,>75
april,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,<75
may,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,<75
june,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,>75
july,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,>75
august,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,<75
september,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,<75
october,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,<75
november,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,<75
december,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,>75
january,DEPENDENTE,PRODUTO-2,F,019a023,CAPITAL,SOLTEIRO,SEMCARENCIA,<75
february,DEPENDENTE,PRODUTO-2,F,019a023,CAPITAL,SOLTEIRO,SEMCARENCIA,<75
march,DEPENDENTE,PRODUTO-2,F,019a023,CAPITAL,SOLTEIRO,SEMCARENCIA,<75
april,DEPENDENTE,PRODUTO-2,F,019a023,CAPITAL,SOLTEIRO,SEMCARENCIA,<75
may,DEPENDENTE,PRODUTO-2,F,019a023,CAPITAL,SOLTEIRO,SEMCARENCIA,<75
june,DEPENDENTE,PRODUTO-2,F,019a023,CAPITAL,SOLTEIRO,SEMCARENCIA,<75
july,DEPENDENTE,PRODUTO-2,F,019a023,CAPITAL,SOLTEIRO,SEMCARENCIA,<75
august,DEPENDENTE,PRODUTO-2,F,019a023,CAPITAL,SOLTEIRO,SEMCARENCIA,<75
ANEXO C PRIMEIRA ÁRVORE
limitação = SEMCARENCIA
| sexo = F
46
| | faixa = 000a018: SOLTEIRO (19.0)

| | faixa = 019a023: SOLTEIRO (70.0/2.0)
| | faixa = 024a028: SOLTEIRO (32.0/4.0)
| | faixa = 029a033
| | | localidade = CAPITAL
| | | | plano = PRODUTO-1: CASADO (44.0/7.0)
| | | | plano = PRODUTO-2: CASADO (0.0)
| | | | plano = PRODUTO-3
| | | | | usuario = TITULAR: SOLTEIRO (14.0)
| | | | | usuario = DEPENDENTE: CASADO (3.0)
| | | | | usuario = EXTRA: SOLTEIRO (0.0)
| | | localidade = INTERIOR: SOLTEIRO (17.0/1.0)
| | faixa = 034a038: SOLTEIRO (145.0/2.0)
| | faixa = 039a043
| | | plano = PRODUTO-1: SOLTEIRO (12.0)
| | | plano = PRODUTO-3: CASADO (28.0/4.0)
| | faixa = 044a048
| | | plano = PRODUTO-3: CASADO (26.0)
| | faixa = 049a053
| | | | | sisnistralidade = <75: CASADO (25.0/11.0)
| | | | | sisnistralidade = >75: SOLTEIRO (8.0/1.0)
| | | | usuario = DEPENDENTE: SOLTEIRO (16.0)
| | | | usuario = EXTRA: SOLTEIRO (0.0)
| | faixa = 054a058
| | | plano = PRODUTO-1: SOLTEIRO (49.0/10.0)
| | faixa = 059a999
| | | | sisnistralidade = <75: SOLTEIRO (165.0/2.0)
| | | | sisnistralidade = >75
| | | | | plano = PRODUTO-1: CASADO (6.0)
| | | | | plano = PRODUTO-2: SOLTEIRO (12.0)
| | | usuario = DEPENDENTE: CASADO (24.0)
| | | usuario = EXTRA: SOLTEIRO (24.0)
| sexo = M
47
| | faixa = 000a018: CASADO (0.0)

| | faixa = 019a023: SOLTEIRO (19.0)
| | faixa = 024a028: SOLTEIRO (64.0/8.0)
| | faixa = 029a033
| | | usuario = TITULAR: CASADO (16.0)
| | | usuario = DEPENDENTE: SOLTEIRO (0.0)
| | faixa = 034a038: SOLTEIRO (17.0)
| | faixa = 039a043
| | | usuario = TITULAR: SOLTEIRO (44.0/13.0)
| | faixa = 044a048
| | | usuario = TITULAR: SOLTEIRO (22.0)
| | faixa = 049a053
| | | localidade = CAPITAL
| | | | plano = PRODUTO-2: SOLTEIRO (5.0)
| | | localidade = INTERIOR: SOLTEIRO (5.0)
| | faixa = 054a058: CASADO (54.0/8.0)
| | faixa = 059a999: CASADO (85.0)
limitação = CARENCIA: SOLTEIRO (368.0/7.0)
Árvore com 58 folhas e 79 nós de decisão.

Estatística de Kappa = 0,87
ANEXO D SEGUNDA ÁRVORE
situação = SOLTEIRO
48
| faixa = 000a018
| | limitação = SEMCARENCIA: F (19.0)
| | limitação = CARENCIA
| | | plano = PRODUTO-1: M (141.0/69.0)
| | | plano = PRODUTO-2: F (72.0/24.0)
| | | plano = PRODUTO-3: F (0.0)
| | | plano = PRODUTO-5: M (29.0/5.0)
| faixa = 019a023: F (122.0/19.0)
| faixa = 024a028
| | | sisnistralidade = <75: M (71.0/17.0)
| | | sisnistralidade = >75: F (13.0/2.0)
| | limitação = CARENCIA: F (18.0)
| faixa = 029a033
| | usuario = TITULAR: F (35.0)
| | usuario = DEPENDENTE: F (2.0)
| | usuario = EXTRA: M (24.0)
| faixa = 034a038
| | localidade = CAPITAL: F (117.0)
| | localidade = INTERIOR
| | | usuario = TITULAR: M (17.0)
| | | usuario = DEPENDENTE: F (26.0)
| | | usuario = EXTRA: F (0.0)
| faixa = 039a043
| | | sisnistralidade = <75: M (34.0/10.0)
| | | sisnistralidade = >75: F (2.0)
| | plano = PRODUTO-2: F (24.0)
| | | localidade = CAPITAL: F (4.0)
| | | localidade = INTERIOR: M (7.0)
| faixa = 044a048
| | plano = PRODUTO-3: M (22.0)
| faixa = 049a053
| | | localidade = CAPITAL: F (79.0/5.0)
| | | localidade = INTERIOR: M (5.0)
| faixa = 054a058
| faixa = 059a999: F (224.0)
situação = CASADO
49
| faixa = 000a018: M (0.0)

| faixa = 019a023: F (2.0)
| faixa = 024a028
| | | localidade = CAPITAL: M (8.0)
| | | localidade = INTERIOR: F (2.0)
| | usuario = EXTRA: F (0.0)
| faixa = 029a033: F (57.0/16.0)
| faixa = 034a038: F (2.0)
| faixa = 039a043
| | | usuario = TITULAR: F (24.0)
| | | usuario = DEPENDENTE: M (4.0)
| faixa = 044a048
| | usuario = TITULAR: F (26.0)
| | usuario = DEPENDENTE: M (20.0)
| | usuario = EXTRA: F (0.0)
| faixa = 049a053
| | plano = PRODUTO-1: M (39.0/15.0)
| | plano = PRODUTO-3: F (14.0/1.0)
| faixa = 054a058
| | | | sisnistralidade = <75: M (32.0/8.0)
| | | | sisnistralidade = >75: F (2.0)
| | | plano = PRODUTO-2: M (22.0)
| | | plano = PRODUTO-3: F (1.0)
| | | plano = PRODUTO-5: M (0.0)
| faixa = 059a999
| | | | sisnistralidade = <75: M (24.0/2.0)
| | | | sisnistralidade = >75: F (8.0/2.0)
| | | usuario = DEPENDENTE: F (25.0/1.0)

50
ANEXO E TERÇEIRA ÁRVORE
limitação = SEMCARENCIA
51
| faixa = 000a018: DEPENDENTE (19.0)

| faixa = 019a023: DEPENDENTE (89.0/3.0)
| faixa = 024a028
| | | sexo = F: TITULAR (26.0/3.0)
| | | sexo = M
| | | | situação = SOLTEIRO: EXTRA (55.0/25.0)
| | | | situação = CASADO: TITULAR (8.0)
| | plano = PRODUTO-2: DEPENDENTE (2.0)
| | plano = PRODUTO-3: DEPENDENTE (5.0/1.0)
| | plano = PRODUTO-5: TITULAR (0.0)
| faixa = 029a033
| | plano = PRODUTO-1: TITULAR (77.0/3.0)
| | | situação = SOLTEIRO: TITULAR (14.0)
| | | situação = CASADO: DEPENDENTE (3.0)
| | plano = PRODUTO-5: EXTRA (24.0)
| faixa = 034a038
| | localidade = CAPITAL
| | localidade = INTERIOR
| | | sexo = F: DEPENDENTE (26.0)
| | | sexo = M: TITULAR (17.0)
| faixa = 039a043
| | situação = SOLTEIRO: TITULAR (71.0)
| | situação = CASADO
| | | sexo = F: TITULAR (24.0)
| | | sexo = M
| | | | plano = PRODUTO-1: TITULAR (13.0)
| | | | plano = PRODUTO-3: DEPENDENTE (4.0)
| faixa = 044a048
| | sexo = F: TITULAR (137.0/8.0)
| | sexo = M
| faixa = 049a053: TITULAR (153.0/16.0)
| faixa = 054a058
| | plano = PRODUTO-1: TITULAR (73.0/1.0)
| | | sexo = F: DEPENDENTE (24.0)
| | | sexo = M: TITULAR (30.0)
| faixa = 059a999
52
| | | | sexo = F
| | | | | sisnistralidade = <75: DEPENDENTE (25.0/2.0)
| | | | | sisnistralidade = >75: TITULAR (7.0/1.0)
| | | | sexo = M: TITULAR (25.0/1.0)
| | | sexo = F: TITULAR (48.0)
| | | sexo = M: DEPENDENTE (24.0)
limitação = CARENCIA
| faixa = 024a028
| | situação = SOLTEIRO: EXTRA (18.0/1.0)
| | situação = CASADO: DEPENDENTE (7.0)
| faixa = 049a053
| faixa = 054a058: EXTRA (12.0)


Monografia Gal

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Monografia Gal

Hochgeladen von

Copyright:

Verfügbare Formate

CENTRO UNIVERSITÁRIO DA BAHIA

FACULDADE DE CIÊNCIA DA COMPUTAÇÃO E TECNOLOGIA

GLACYENE LAGO VIANNA

APLICAÇÃO DA TÉCNICA DE ÁRVORE DE DECISÃO

APLICAÇÃO DA TÉCNICA DE ÁRVORE DE DECISÃO

Monografia apresentada ao Curso de

Orientador: Prof. Carlos A. Chagas Palma.

GLACYENE LAGO VIANNA

APLICAÇÃO DA TÉCNICA DE ÁRVORE DE DECISÃO

Monografia aprovada como requisito parcial para obtenção do grau de Bacharel em

Orientador: Carlos A. Chagas Palma

Carlos A. Chagas Palma

Examinador 1: Grimaldo Lopes Oliveira

Examinador 1: Grimaldo Lopes Oliveira

Examinador 2: Eduardo M. de Freitas Jorge

Eduardo M. de Freitas Jorge

Examinador 3: Othon Marcelo Nunes Batista

Othon Marcelo Nunes Batista

Salvador, 03 de julho de 2006.

Agradeço a minha família pelo constante incentivo.

A tecnologia da mineração de dados tem se destacado mundialmente, pois a mesma

Palavras-chave: descoberta do conhecimento, mineração de dados, seguro saúde.

FIGURA 1. PROCESSO KDD 16

TABELA 1. REAJUSTE FINANCEIRO 12

KDD - EXTRAÇÃO DO CONHECIMENTO DE BASE DE DADOS

1. CONHECENDO SEGURO SAÚDE 11

2. EXTRAÇÃO DO CONHECIMENTO DE BASE DE DADOS 15

2.1. Etapa da extração do conhecimento de base de dados 16

2.2. Mineração de dados 18

3. MINERADOR DE DADOS WAIKATO ENVIRONMENT FOR KNOWLEDGE

4.1. Conclusão dos experimentos 38

Anexo A -TABELA DO BANCO DE DADOS DA SEGURADORA DE SAÚDE 42

Anexo B - PARTE DOS DADOS UTILIZADOS PARA MINERAÇÃO DE DADOS,

Anexo C -PRIMEIRA ÁRVORE 44

Anexo D – SEGUNDA ÁRVORE 46

Anexo E -TERCEIRA ÁRVORE 49

Segundo Madelena (2002), durante várias décadas, desde a invenção do primeiro

Carvalho (1999) diz que a quantidade de dados disponíveis vem crescendo

Esta ampla disponibilidade de imensas bases de dados, aliados à necessidade de

As ferramentas e técnicas empregadas para análise automática e inteligente destes

de conhecimento em bancos de dados, da expressão em inglês Knowledge

O objetivo deste trabalho consiste na aplicação da técnica mineração de dados:

Para o experimento deste trabalho, o objetivo é minerar a base de dados de uma

Os aspectos metodológicos definidos para o trabalho em questão foram à pesquisa

1. CONHECENDO SEGURO SAÚDE

O marco inicial da atividade seguradora no Brasil está ligada à vinda da corte

É feito um contrato entre as partes, empresa (seus empregados) e uma operadora

O reajuste financeiro leva em consideração a inflação nos custos hospitalares,

O reajuste por sinistralidade considera a utilização do seguro pelos segurados

Sinistralidade é a relação entre a utilização e os custos que a empresa paga à

Quando comprovado alto índice de sinistralidade no seguro saúde é permitido

seguradora possui uma metodologia de reajuste diferente da outra conforme tabelas

Cláusula de reajuste por sinistralidade:

70 = Limite máximo de sinistralidade (70%)

Sul América - Cláusula

As seguradoras de seguro saúde têm investido em pesquisas anteriores a

2. A EXTRAÇÃO DO CONHECIMENTO DE BASE DE DADOS

Neste capítulo apresenta-se o contexto necessário ao entendimento do que é

A sociedade está inserida em uma época, onde a informação e o conhecimento

No entanto, devido ao grande volume de dados armazenados, que ultrapassam a

A extração do conhecimento de base de dados é uma seqüência de vários passos

É preciso definir o objetivo e metas a serem alcançadas, para depois seguir as

As etapas da extração do conhecimento de base de dados, conforme a figura 1, são:

Figura 1. Processo KDD.