Beruflich Dokumente
Kultur Dokumente
Salvador
2006
GLACYENE LAGO VIANNA
Salvador
2006
TERMO DE APROVAÇÃO
SUMÁRIO
INTRODUÇÃO 09
4. EXPERIMENTO REALIZADO 33
CONSIDERAÇÕES 39
REFERRÊNCIAS 40
INTRODUÇÃO
Essas dificuldades podem estar relacionadas aos fatores de: falta de conhecimento
da existência de técnicas de mineração de dados; alto custo das ferramentas
disponíveis no mercado; falta de parâmetro de referência na escolha de técnica e da
ferramenta mais adequadas a cada problema a ser solucionado (Madalena, 2002).
Este trabalho está organizado da seguinte forma: nas próximas seções apresentam
uma visão geral sobre seguro saúde, extração de conhecimento e sobre o software
Weka. Essas seções têm como objetivo fornecer ao leitor subsídios para o
entendimento da seção seguinte, que é o experimento.
Neste capítulo será abordado o histórico do seguro saúde, as regras que regem o
seu funcionamento e toda a rotina de reajuste estabelecida por decreto lei, sendo
dado maior atenção ao reajuste por sinistralidade porque será a abordagem deste
trabalho. Terá também uma explanação de quais critérios são adotados na análise
prévia de ocorrência de prejuízo em um contrato firmado entre a seguradora de
saúde e uma empresa.
O seguro saúde é regido por regras que orientam o funcionamento do setor (que
surgiu em meados dos anos sessenta e se expandiu significativamente nos anos
oitenta) está definido na Lei 9.656/98 e na MP 2.177-44 atualmente em vigor com o
texto legal que estabeleceu critérios para entrada, funcionamento e saída de
operação de empresas no setor, discriminou os padrões de cobertura e de qualidade
da assistência e transferiu para o poder Executivo Federal a responsabilidade pela
regulação da atividade econômica das operadoras e da assistência à saúde por elas
prestada e o dever de fiscalização do cumprimento das normas vigentes (seguros
em dia, 2006).
TABELA 1
Reajuste financeiro
Reajustes autorizados pela ANS
Reajuste Reajuste Reajuste Reajuste
Seguradora 1999 2000 2001 2002
Bradesco Saúde 9,36% 5,42% 8,71% 7,69%
Sul América Aetna 9,44% 5,42% 8,71% 7,69%
Fonte: Agência Nacional de Saúde (ANS)
Tabela 3
Reajuste por sinistralidade da Sul América.
também a faixa etária, o sexo e quantidade de dependentes, que por exemplo pode
gerar as seguintes informações: no contrato de 600 vidas, 100 são mulheres no
período fértil, neste caso é esperado um uso de serviços ginecológicos maiores,
como maternidade; no caso de ter 50 pessoas com idades acima de 55 sem
problemas pré-existentes é esperado checape anual.
15
aplicado (OTUSUKA e ROCHA, 2002). Para isso, é preciso uma análise cuidadosa
dos dados, pois na etapa do conhecimento é possível constatar que é necessário
voltar à análise da base de dados para selecionar outros atributos que apresentem
uma resposta mais precisa a cerca do problema estabelecido. Para evitar que isso
aconteça é aconselhável fazer uma base de testes para ter certeza que os atributos
escolhidos trarão novos conhecimentos.
devem ser definidos de acordo com o problema, Segundo Diniz e Louzada (2000)
pode ocorrer à necessidade de se aplicar várias técnicas e vários algoritmos
estatísticos no mesmo problema, para achar o conhecimento mais preciso.
A tarefa consiste na definição do que se está buscando, quais padrões têm interesse
em encontrar ou qual padrão o surpreenderia. Pode-se citar como exemplo um gasto
exagerado de um cliente de cartão de crédito, fora dos padrões usuais de seus
gastos. Enquanto as técnicas de mineração de dados são compostas por grupos de
algoritmos estatísticos aplicados para solucionar o problema proposto na tarefa,
podendo ser aplicada várias técnicas em um mesmo problema, ao mesmo tempo,
podendo ainda aplicar vários algoritmos da mesma técnica que permite obter um
resultado mais preciso.
Por exemplo: Numa população de um estado pode ser analisada pela sua renda
para medir o grau de pobreza do país, assim tem as classes A, B e C, de forma que
o governo lance programas assistencialistas. E quando for incluir uma nova pessoa
ele já será automaticamente classificado conforme sua renda (VIANA, 2004).
Os outliers são análise de fatos que não ocorrem com freqüência, muitos métodos
de mineração de dados descartam estes outliers como sendo indesejado. Entretanto
pode ser muito importante na análise de fraude como, por exemplo, detectar o uso
fraudulento de cartões de crédito, ao descobrir que certos clientes efetuaram
compras de valores extremamente altas, fora do seu padrão habitual de gastos.
(AMO, 2004). Para essa tarefa pode aplicar as técnicas de classificação ou de
associação.
Por exemplo: Uma população inteira de dados sobre tratamento de uma doença
pode ser dividida em grupos A, B e C baseados na semelhança de efeitos colaterais
produzidos (VIANA, 2004).
Uma árvore de decisão é uma estrutura de árvore, usada para dedução da classe de
um atributo, tendo um nó principal (nó-pai) que representa uma única classe, um nó
interno (nó-decisão) que representa um teste sobre o valor de um atributo e a partir
do nó decisão tem os nós filhos que representam um dos possíveis resultados do
teste sobre o valor do atributo.
O algoritmo J48 é uma implementação do algoritmo C4.5 release 8 que gera árvore
de decisão (última publicação da família de algoritmos que geram árvores de
decisão antes do C5.0, versão mais recente e disponível apenas comercialmente) e,
também é considerado o mais popular algoritmo da Weka. O J48 constrói um
modelo de árvore de decisão baseado num conjunto de dados de treinamento, e usa
esse modelo para classificar exatidão do classificador num conjunto de teste. A
exatidão do classificador é analisada através da estatística de Kappa, que são
apresentados no resultado na mineração e seguem uma faixa para classifica-los em
fraco, regular, moderado, bom e excelente (tabela 4), se o resultado for de fraco a
moderado significa que os dados precisam de ajustes.
23
Tabela 4
Probabilidade de Kappa.
PROBABILIDADE DE KAPPA NÍVEL DE EXATIDÃO DO CLASSIFICADOR
Tabela 5
Banco de dados da loja X.
Nome Cargo Tempo Resultado
Cargo
Outros
Consultor Tempo
>6 <=6
Aprovado Reprovado
Aprovado
A escolha de uma técnica para mineração de dados não é uma tarefa fácil,
dependerá do problema (tarefa) proposto e dos dados disponíveis para análise.
Segundo Berry (1997), selecionar a técnica de mineração de dados depende de dois
fatores: traduzir o problema do negócio a ser resolvido e compreender a natureza
dos dados disponíveis em termos de conteúdo, tipos de campos de dados e
estrutura da relação entre os registros.
A mineração de dados tem se mostrado muito útil na tomada de decisão, por isso
vem se expandindo rapidamente em várias áreas como: marketing, comércio,
medicina entre outras.
26
Métodos de classificação:
• regressão linear;
• geradores de árvores modelo;
• regressão local de pesos;
• aprendizado baseado em instância;
• tabelas de decisão;
• perceptron multicamadas.
O Weka requer um arquivo de leitura com a extensão arff, no qual temos que
descrever todos os atributos definindo os valores entre “{}” separados por vírgulas
depois é listado as instâncias, ou seja, os registros a serem minerados com os
valores dos atributos para cada instância também separados por vírgulas, em caso
de ausência de um registro deve ser atribuída pelo símbolo “?”. A figura 3 mostra um
arquivo no formato ARFF pronto para ser minerado no Weka.
28
O arquivo na extensão ARFF pode ser feito em qualquer editor de texto, sendo
necessário como usar a palavra @relation e o nome_do_conjuto_de_dados após
coloca a palavra @attribute e o nome_atributo e abaixo @data para em seguida
vim os dados propriamente dito para a serem minerados, conforme citado na figura
4.
A tela inicial do minerador Weka com três botões conforme figura 5. O primeiro botão
Simple CLI executa os algoritmos do Weka através de linha de comando. O segundo
botão Explorer executa o módulo gráfico para execução dos algoritmos. O terceiro
botão Experimenter executa o módulo para manipular base de dados.
29
Este trabalho usará a tarefa de classificação, então será explicado a aba classify
conforme figura 7, no campo classifier seleciona qual algoritmo será utilizado para
classificação, por padrão o ZeroR é instanciado, clica sobre o nome do algoritmo e
uma nova janela é aberta, seleciona então o algoritmo no caso deste trabalho será
adotado o J48, ainda na figura 06 encontra-se a tela de parâmetros que vale
ressaltar que cada classificador possui parâmetros próprios.
Em test options defini algumas opções de teste como conjunto de treinamento (use
training set), fornecer um conjunto de teste (supplied test set), validação cruzada
31
No caso deste exemplo, como tem poucos registros serão usados os dados como
um conjunto de treinamento ativando a opção Use training set (figura 7), em seguida
pressiona Start para iniciar a execução do algoritmo.
Para gerar a árvore de decisão utilizando, por exemplo, o algoritmo J48 que se
encontra no pacote Weka, clica com o botão direito no resultado da mineração em
result list conforme mostra a figura 7 e escolhe a opção visualize tree, terá um
resultado como mostra a figura 8.
32
4. EXPERIMENTO REALIZADO
DEFINIÇÃO Árvore de
DA
PESQUISA não decisão
AVALIAÇÃO
MODELO DE KAPPA
ANÁLISE E INADEQUADO E DE CONFIANÇA
ESCOLHA
DOS ATRIBUTOS
NO BANCO DE DADOS
MINERAÇÃO
sim DOS
EXECUÇÃO
DADOS
ETAPAS
KDD
PRÉ
SELEÇÃO ARQUIVO ARQUIVO
PROCESSAMENTO/
DOS TESTE TREINAMENTO
LIMPEZA
DADOS
TRANSFORMAÇÃO
ANÁLISE
DOS COMPUTACIONAL
DADOS SELEÇÃO
ARQUIVOS
TREINAMENTO E
TESTE
Em Janeiro começa uma nova pesquisa para definir qual segmento aplicar o
experimento e constatou-se que o segmento de seguro saúde seria uma boa fonte
de pesquisa por está em destaque com discussões sobre reajustes nas
mensalidades. Partiu-se então para o contato com as seguradoras de saúde em
Salvador para apresentar a proposta sem obter êxito. Preparou-se então uma base
de dados baseada em conhecimento teórico obtido através de pesquisa no ramo e
ao minerar os dados constatou-se que a base de dados era inconsistente.
plano onera mais o seguro; sexo para aponta se possível quem mais utiliza o
plano;faixa para saber qual a faixa etária estar usando mais o plano, essa faixa é
determinada pela Agência Nacional de Saúde e é fixa para todos os seguros saúde;
localidade que mostrará qual localidade usa mais o plano;situação; limitação; receita
e despesa, no qual os dois últimos irão compor o atributo sinistralidade.
Mineração dos dados - com o arquivo treinamento pronto, foi realizado a mineração
de dados no software Weka-3-4, escolhido pela confiabilidade dos algoritmos e por
implementar o algoritmo J48 escolhido para este trabalho. Após a mineração é
observado o índice estatístico de Kappa que mede a exatidão do classificador e a
confiança, valores dados quando é gerada a árvore de decisão, que apresentou
satisfatórios nas três árvores geradas (anexos C, D, E), em seguida foi minerado o
arquivo teste que confirmou a exatidão do classificador através da estatística de
Kappa.
36
| | faixa = 049a053
| | | plano = PRODUTO-1
| | | | usuario = TITULAR
| | | | | sinistralidade = >75: SOLTEIRO
| | faixa = 059a999
| | | usuario = TITULAR
| | | | sinistralidade = >75
| | | | | plano = PRODUTO-1: CASADO
| | | | | plano = PRODUTO-2: SOLTEIRO
| | | | | plano = PRODUTO-3: SOLTEIRO
| | | | | plano = PRODUTO-5: SOLTEIRO
Figura 10. Parte da primeira árvore de decisão.
• já na faixa etária de 054 a 058 pode-se notar que trás maiores informações
como usuário titular, plano produto-1, sexo feminino e sinistralidade acima de
75%;
| faixa = 024a028
| | limitação = SEMCARENCIA
| | | sisnistralidade = >75: F
| faixa = 039a043
| | plano = PRODUTO-1
| | | sisnistralidade = >75: F
| faixa = 054a058
| | usuario = TITULAR
| | | plano = PRODUTO-1
| | | | sisnistralidade = >75: F
| faixa = 059a999
| | plano = PRODUTO-1
| | | usuario = TITULAR
| | | | sisnistralidade = >75: F
Figura 11. Parte da segunda árvore de decisão.
| faixa = 059a999
| | plano = PRODUTO-1
| | | situação = CASADO
| | | | sexo = F
| | | | | sisnistralidade = >75: TITULAR
Figura 12. Parte da terceira árvore de decisão.
4.2 RESULTADOS
| faixa = 024a028
| | limitação = SEMCARENCIA
| | | sisnistralidade = >75: F
| faixa = 039a043
| | plano = PRODUTO-1
| | | sisnistralidade = >75: F
| | faixa = 049a053
| | | plano = PRODUTO-1
| | | | usuario = TITULAR
| | | | | sinistralidade = >75: SOLTEIRO
| faixa = 054a058
| | usuario = TITULAR
| | | plano = PRODUTO-1
| | | | sisnistralidade = >75: F
| faixa = 059a999
| | plano = PRODUTO-1
| | | usuario = TITULAR
| | | | sisnistralidade = >75: F
| | faixa = 059a999
| | | usuario = TITULAR
| | | | sinistralidade = >75
| | | | | plano = PRODUTO-1: CASADO
| | | | | plano = PRODUTO-2: SOLTEIRO
| | | | | plano = PRODUTO-3: SOLTEIRO
| | | | | plano = PRODUTO-5: SOLTEIRO
| faixa = 059a999
| | plano = PRODUTO-1
| | | situação = CASADO
| | | | sexo = F
| | | | | sisnistralidade = >75: TITULAR
É importante testar vários atributos para saber qual deles vai trazer maiores
informações a respeito do problema estabelecido. Com esses resultados pode-se
estudar melhor a proposta de seguro saúde a ser feita numa organização, levando
em consideração as respostas obtidas neste experimento para desta forma, evitar
prejuízo no contrato firmado entre as partes.
41
CONSIDERAÇÕES
Para alcançar o objetivo proposto nesta pesquisa foi realizado experimento com o
software Weka que é uma ferramenta de mineração de dados, que proporcionou
colocar em prática o processo do KDD descrito anteriormente. Porém a grande
dificuldade encontrada foi obter uma base de dados consistente para aplicar o
algoritmo estatístico J48 o que implicou numa pesquisa mais minuciosa a respeito de
base de dados.
REFERÊNCIAS
BERRY, M.J.A.; LINOFF, G. Data Mining Techniques. New York: John Wiley &
Sons, Inc. 1997.
DINIZ, Carlos: LOUZADA NETO. Francisco. Data Mining uma Introdução. IN: 14º
SINAP 24 jun. 2000. Caxambu. (Organizado pela ABE – Associação Brasileira de
Estatística).
HAN, J.; KAMBER, M. Data Mining: Concepts and Techniques. Simon Fraser
University: Morgan Kaufmann Publishers, 2001. 550 p.
april,TITULAR,PRODUTO-3,F,039a043,CAPITAL,SOLTEIRO,SEMCARENCIA,>75
45
january,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,<75
february,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,<75
march,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,<75
april,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,<75
may,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,>75
november,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,>75
december,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,>75
january,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,>75
february,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,<75
march,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,>75
april,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,<75
may,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,<75
june,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,>75
july,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,>75
august,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,<75
september,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,<75
october,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,<75
november,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,<75
december,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,>75
january,DEPENDENTE,PRODUTO-2,F,019a023,CAPITAL,SOLTEIRO,SEMCARENCIA,<75
february,DEPENDENTE,PRODUTO-2,F,019a023,CAPITAL,SOLTEIRO,SEMCARENCIA,<75
march,DEPENDENTE,PRODUTO-2,F,019a023,CAPITAL,SOLTEIRO,SEMCARENCIA,<75
april,DEPENDENTE,PRODUTO-2,F,019a023,CAPITAL,SOLTEIRO,SEMCARENCIA,<75
may,DEPENDENTE,PRODUTO-2,F,019a023,CAPITAL,SOLTEIRO,SEMCARENCIA,<75
june,DEPENDENTE,PRODUTO-2,F,019a023,CAPITAL,SOLTEIRO,SEMCARENCIA,<75
july,DEPENDENTE,PRODUTO-2,F,019a023,CAPITAL,SOLTEIRO,SEMCARENCIA,<75
august,DEPENDENTE,PRODUTO-2,F,019a023,CAPITAL,SOLTEIRO,SEMCARENCIA,<75
limitação = SEMCARENCIA
| sexo = F
46
situação = SOLTEIRO
48
| faixa = 000a018
| | limitação = SEMCARENCIA: F (19.0)
| | limitação = CARENCIA
| | | plano = PRODUTO-1: M (141.0/69.0)
| | | plano = PRODUTO-2: F (72.0/24.0)
| | | plano = PRODUTO-3: F (0.0)
| | | plano = PRODUTO-5: M (29.0/5.0)
| faixa = 019a023: F (122.0/19.0)
| faixa = 024a028
| | limitação = SEMCARENCIA
| | | sisnistralidade = <75: M (71.0/17.0)
| | | sisnistralidade = >75: F (13.0/2.0)
| | limitação = CARENCIA: F (18.0)
| faixa = 029a033
| | usuario = TITULAR: F (35.0)
| | usuario = DEPENDENTE: F (2.0)
| | usuario = EXTRA: M (24.0)
| faixa = 034a038
| | localidade = CAPITAL: F (117.0)
| | localidade = INTERIOR
| | | usuario = TITULAR: M (17.0)
| | | usuario = DEPENDENTE: F (26.0)
| | | usuario = EXTRA: F (0.0)
| faixa = 039a043
| | plano = PRODUTO-1
| | | sisnistralidade = <75: M (34.0/10.0)
| | | sisnistralidade = >75: F (2.0)
| | plano = PRODUTO-2: F (24.0)
| | plano = PRODUTO-3
| | | localidade = CAPITAL: F (4.0)
| | | localidade = INTERIOR: M (7.0)
| | plano = PRODUTO-5: F (0.0)
| faixa = 044a048
| | plano = PRODUTO-1: F (63.0)
| | plano = PRODUTO-2: F (24.0)
| | plano = PRODUTO-3: M (22.0)
| | plano = PRODUTO-5: F (24.0)
| faixa = 049a053
| | usuario = TITULAR
| | | localidade = CAPITAL: F (79.0/5.0)
| | | localidade = INTERIOR: M (5.0)
| | usuario = DEPENDENTE: F (39.0)
| | usuario = EXTRA: M (7.0)
| faixa = 054a058
| | plano = PRODUTO-1: F (39.0)
| | plano = PRODUTO-2: M (8.0)
| | plano = PRODUTO-3: F (0.0)
| | plano = PRODUTO-5: M (12.0)
| faixa = 059a999: F (224.0)
situação = CASADO
49
limitação = SEMCARENCIA
51
| | | situação = CASADO
| | | | sexo = F
| | | | | sisnistralidade = <75: DEPENDENTE (25.0/2.0)
| | | | | sisnistralidade = >75: TITULAR (7.0/1.0)
| | | | sexo = M: TITULAR (25.0/1.0)
| | plano = PRODUTO-2: TITULAR (140.0)
| | plano = PRODUTO-3
| | | sexo = F: TITULAR (48.0)
| | | sexo = M: DEPENDENTE (24.0)
| | plano = PRODUTO-5: EXTRA (24.0)
limitação = CARENCIA
| faixa = 000a018: DEPENDENTE (242.0)
| faixa = 019a023: DEPENDENTE (35.0)
| faixa = 024a028
| | situação = SOLTEIRO: EXTRA (18.0/1.0)
| | situação = CASADO: DEPENDENTE (7.0)
| faixa = 029a033: DEPENDENTE (0.0)
| faixa = 034a038: DEPENDENTE (0.0)
| faixa = 039a043: DEPENDENTE (0.0)
| faixa = 044a048: DEPENDENTE (0.0)
| faixa = 049a053
| | plano = PRODUTO-1: DEPENDENTE (0.0)
| | plano = PRODUTO-2: DEPENDENTE (0.0)
| | plano = PRODUTO-3: DEPENDENTE (23.0)
| | plano = PRODUTO-5: EXTRA (7.0)
| faixa = 054a058: EXTRA (12.0)
| faixa = 059a999: DEPENDENTE (24.0)