Beruflich Dokumente
Kultur Dokumente
Daniel Bozza
Especialista em Banco de Dados, Unicenp. E-mail: daniel.bozza@nuvital.com.br
Frank Kono
Especialista em Banco de Dados, Unicenp. E-mail: frank.kono@gvt.com.br23b
Resumo: Este artigo tem como objetivo encontrar uma possvel tendncia a ser
observada, no tocante as pessoas que almejem se candidatar e conseqentemente
se eleger Deputado Estadual na cidade de Curitiba. Para alcanar o objetivo, ser
analisado e preparado um conjunto de dados que envolvem as eleies de 1994 e
1998 e posteriormente sero aplicadas algumas tcnicas de Data Minining para que
possam ser geradas regras de associaes. Tais regras ou resultados sero
analisados para ento se determinar a existncia ou no de tendncias no tocante
ao perfil dos candidatos ao cargo de suplente de Deputado Estadual na cidade de
Curitiba.Por fim sero apresentados os resultados encontrados, quer sejam eles
confirmando uma certa tendncia ou no.
Palavras-chave: Data Mining, Classificao, Algoritmo J48
1 INTRODUO
Inicialmente, ser feita uma breve descrio do processo que envolve a
descoberta de conhecimento, passando, posteriormente, para o desenvolvimento do
trabalho, levando-se em considerao o cronograma, o escopo inicial do projeto, o
negcio em questo e a parte lgica. A parte lgica ser subdividida na busca da
base de dados, que ir dar suporte a todo o processo de descoberta de
conhecimento, bem como a gerao do modelo de dado para o DW, a extrao dos
dados irrelevantes para o processo, a conseqente limpeza e padronizao dos
dados, para que estes estejam adequados ao objetivo do trabalho.
Ainda, na parte lgica ser abordado o item referente gerao do arquivo
.arff, tomando como base os dados disponveis, bem como a escolha do mtodo e
algoritmo, que sero utilizados sobre os dados para a busca do conhecimento. Mais
especificamente, no caso do algoritmo, ser feita uma descrio em relao ao seu
funcionamento e parmetros que podem ser alterados e seus efeitos.
Tendo sido gerados os arquivos.arff, imprescindveis para a utilizao no
weka, ser, ento, feita uma explanao sobre a ferramenta weka e demonstrado
como utiliz-la. Muitos sero os resultados gerados pelo weka, e, por causa disso,
Gesto & Conhecimento, v. 5, n.1 , jan./jun. 2007: 54 - 94
ser dada devida ateno a uma explanao sobre como interpretar os resultados
do weka.
Por fim, o(s) arquivo(s) .arff sero aplicados no weka e os resultados sero
gerados, dando incio, ento, a toda uma explanao e interpretao sobre os
resultados a fim de encontrar uma possvel tendncia em relao aos dados, a qual
: Ser que pode-se determinar um padro, uma semelhana no perfil dos
candidatos que conseguem ser eleitos ao cargo de deputado estadual na cidade de
Curitiba ?
FONTE: Os autores.
55
grficos,
dados
numricos,
os
quais
sero
analisados
gerados
pelos
algoritmos,
exaustivamente.
-Conhecimento:
analisando
os
padres
informaes estratgicas no
conhecidas .
CONHECIMENTO
3.1 CRONOGRAMA
56
FIGURA 2 CRONOGRAMA
FONTE: Os autores.
Onde:
- Tarefa: refere-se atividade executada;
- Etapa: refere-se relao atividade * etapa descrita no item 2 deste artigo;
- Semana/Dias: tempo em semanas para a execuo da atividade
57
- trabalhar os dados: alguns dados, como idade e qtd. de votos, tiveram seus
valores alterados para uma faixa de nmeros;
- gerar arquivo.arff: gerao do arquivo .arff;
- aplicar o arquivo .arff ao algoritmo: aplicar os algoritmos sobre os arquivos
.arff;
O motivo para tantas alteraes foi que, ao aplicar o arquivo .arff no weka,
os resultados eram muito abrangentes, ou seja, muitos eram os cargos ou muitas
eram as cidades e a interpretao tornou-se invivel. Analisando que, para cada
uma das alteraes, era necessrio voltar ao item de extrao de dados (vide figura
2 - Cronograma ), pode-se afirmar que o trabalho era exaustivo, as mudanas no
foram fceis, pois o retrabalho custou muito tempo e esforo.
58
59
FONTE: Os autores
60
FONTE: Os autores.
61
escopo, foram, ento, geradas novas bases de dados para a cidade de Curitiba e
para o cargo de Deputado Estadual.
- eleicoes_1994.mdb (359 registros)
- eleicoes_1998.mdb ( 411 registros )
Tipo dados
varchar
Varchar
Varchar
Varchar
Varchar
Varchar
Integer
Varchar
Integer
integer
Descrio
Armazena a descrio do sexo
Armazena a descrio do grau de instruo (escolaridade)
Armazena a descrio do est.civil
Armazena a descrio da profisso
Armazena a sigla do partido
Armazena a situao do candidato
Armazena o ano de eleio
Armazena o nome do cargo
Armazena a faixa de idade
Armazena a faixa de votos
FONTE: Os autores.
62
Conforme descrito no item 3.4.2 foi criada uma tabela chamada TAB_WEKA,
a qual ir armazenar todos os dados que, posteriormente, sero exportados para a
criao do arquivo (.arff ). Neste momento, foram montados os sqls que iro gerar a
massa de dados para popular a TAB_WEKA.mdb (formato de banco Access).
Abaixo, sero descritos os passos para a gerao dos dados na
TAB_WEKA:
- Inicialmente, foi criada uma consulta para visualizao dos dados, conforme
a figura do anexo n 1 Tabela de dados do weka.
63
64
Faixa
% idade >=20 e idade <= 30
% idade >=31 e idade <= 40
% idade >=41 e idade <= 50
% idade >=51 e idade <= 60
% idade >=61 e idade <= 70
% idade >=71 e idade <= 80
% idade >=81 e idade <= 90
% idade >=91
Valor
1
2
3
4
5
6
7
8
Votos
%votos >=0
e votos <= 200
%votos >=201
e votos <= 400
%votos >=401
e votos <= 600
%votos >=601
e votos <= 800
%votos >=801
e votos <= 1000
%votos >=1001
e votos <= 5000
%votos >=5001
e votos <= 10000
%votos >=10001 e votos <= 15000
%votos >=15001 e votos <= 20000
%votos >=20001 e votos <= 25000
%votos >=25001 e votos <= 30000
%votos >=30001 e votos <= 40000
%votos >=40001 e votos <= 50000
%votos >=50001 e votos <=
100000
%votos >=100001 e votos
<=1000000
%votos >=1000001 e votos
<=2000000
%votos >=2000001
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
FONTE: Os autores.
3.4.7 Gerao do arquivo .arff
65
- Declarando o data
@Data 5,masculino,1graucompleto,casado,outros,pdt,10,eleito,1994,deputadoestadual
Este somente um exemplo das vrias linhas que o atributo @Data contm.
Para a anlise dos trs arquivos .arff, foi escolhido o Mtodo de Classificao
e o algoritmo J48. Isso em decorrncia do escopo do trabalho e dos valores que
compem o arquivo .arff. Aps anlises dos diferentes mtodos, que podem ser
aplicados, e das formas de se minerar os dados e das caractersticas dos dados,
constatou-se que os diferentes mtodos podem ser aplicados com diferentes
algoritmos a diferentes tipos de dados; tudo depende do tipo de problema que se
deseja solucionar.
O mtodo de classificao foi escolhido por melhor responder questo alvo
deste artigo, ou seja, com o mtodo de classificao pode-se inferir (prever) que
determinados candidatos, com um determinado perfil, consigam se eleger. Neste
caso, o atributo cargo denominado como atributo alvo da classificao (poderia ser
outro) e, sobre este, regras de classificao em relao ao outros atributos sero
geradas.
As formas mais comuns de representao de conhecimento dos algoritmos de
classificao so regras e rvores. Os algoritmos Id3, C45, J48, ADTree,
UserClassifier, PredictionNode, Splitter, ClassifierTree, M5Prime, por exemplo,
geram, como resultado, rvores de classificao, enquanto que outros como Prism,
Part, OneR geram regras de classificao. J o algoritmo escolhido para a anlise
dos dados foi o J48, isso levando-se em considerao o tipo dos dados que sero
analisados.
66
Abaixo, ser feita uma breve explanao, um pouco mais detalhada com
relao ao algoritmo J48:
J48 constri uma rvore de deciso. A forma de construo a
ser
segundo
atributo
mais
significativo,
e,
assim,
Com relao ao algoritmo J48 podem-se alterar os valores padres dos seus
vrios atributos, conforme a descrio dos atributos na tabela abaixo:
B
S
L
FONTE: Os autores.
Os parmetros acima mencionados podem ser configurados na seguinte tela
do weka:
67
FONTE: Os autores.
Clicando sobre o boto Choose surgira a tela para configurao dos
parmetros:
FIGURA 6 PARMETROS J48 NO WEKA
FONTE: Os autores.
Onde cada campo representa um parmetro a ser configurado:
1) binarySplits:
2) confidenceFactor:
3) debug:
4) minNumObj:
5) numFolds:
6) reducedErrorPruning :
7) saveInstanceData:
68
8) seed:
9) subtreeRaising:
10)unpruned:
11)useLaplace:
FONTE: Os autores.
3.4.9.1 Buscando o arquivo .arff
69
FONTE: Os autores.
Obs:. Neste artigo esto sendo processados trs arquivos .arff, conforme item
3.4.7 .
70
FONTE: Os autores.
O maior problema encontrado, foi com relao aos valores do atributo idade
e votos, pois os mesmos possuam, inicialmente, uma seqncia de valores muito
grande e, para resolver isso, foram criadas faixas para agrupar os valores, conforme
descrito no item 3.4.6.
Abaixo, sero feitas algumas observaes para que o leitor possa entender
como os dados podem ser analisados ou interpretados. Tais resultados foram
obtidos atravs da aplicao do Mtodo de Classificao, utilizando-se o algoritmo
J48.
71
FONTE: Os autores.
Onde, na classificao de exemplos (levando-se em conta todos os registros
analisados ), o fator de preciso para o cargo de suplente foi de 91,70%
FONTE: Os autores.
possvel analisar que:
- dos 15 exemplos(1linha), 12 foram classificados corretamente como eleito,
3 foram classificados erroneamente como suplente;
- dos 3 exemplos (2linha), 1 foi classificado erroneamente como eleito e 2
foram classificados erroneamente como suplente;
- dos 4 exemplos (3linha), 4 foram classificados erroneamente como
suplente;
72
suas
respectivas
diagonais,
correspondem
aos
valores
classificados
FONTE: Os autores.
73
FONTE: Os autores.
3.4.11.3 Anlise da Arvore de Deciso
FONTE: Os autores.
FONTE: Os autores.
74
sexo = masculino
| anoeleicao > 1996
| |
situacao = eleito
| |
|
votos <= 13
| |
|
|
estcivil = casado: deputadoestadual (37.0/3.0)
3.4.12 Resultado
75
E1
E2
N
registros
bd original
N
registros
treinamento
349.606
349.606
349.606
N
registro
s testes
770
comentrio
FONTE: Os autores.
Abaixo sero demonstrados os resultados obtidos com o primeiro
treinamento e com o ltimo treinamento. A anlise ser subdividida da seguinte
forma:
- anlise dos grficos;
- anlise dos resultados gerados pelo J48.
FONTE: Os autores.
Gesto & Conhecimento, v. 5, n.1 , jan./jun. 2007
76
FONTE: Os autores.
A maior barra representa a faixa de idade, entre 3,947 a 4,316; isso
corresponde faixa aproximada de 48 a 54 anos, com um total de 288 instncias, ou
seja 37,4% de todos os registros (770). Observe que a predominncia nesta faixa
do sexo masculino.
A segunda anlise feita foi em relao ao sexo e sexo:
77
FONTE: Os autores.
A maior barra corresponde ao sexo masculino, com 705 instncias, o que
corresponde a 91,56%; j a menor barra corresponde ao sexo feminino, com 65
registros, o que corresponde a 8,44%. Um ponto interessante, levando em
considerao que estes dados referem-se somente cidade de Curitiba, que para
o grau de instruo, l e escreve, somente 3 instncias foram selecionadas.
A terceira anlise feita foi em relao ao sexo e o grau de instruo:
FONTE: Os autores.
78
FONTE: Os autores.
A maior barra corresponde situao civil de casado, com um total de 584
instncias, o que corresponde a 75,85% de todos os registros (770). Observe que a
predominncia do sexo masculino.
A quinta anlise foi feita em relao ao sexo e profisso:
GRFICO 5 RELAO AO SEXO E PROFISSO
FONTE: Os autores.
Gesto & Conhecimento, v. 5, n.1 , jan./jun. 2007
79
Neste item ser feita meno de trs barras. A maior representa a profisso
outros. No se pode afirmar o motivo pelo qual, na base de dados, muitas
instncias foram classificadas como outros. A segunda maior barra representa a
profisso de Proprietrio de Estabelecimento, com 77 instncias, o que representa
a 10% do total. A terceira maior barra representa a profisso de Advogado, com 73
instncias, o que representa 9,48 %. Note que a predominncia tambm do sexo
masculino.
A sexta anlise foi feita em relao ao sexo e partido:
FONTE: Os autores.
Neste item ser feita meno de duas barras. A maior barra representa o
partido PMDB, com 105 instncias, o que representa 13,64 % de todos os
registros. A segunda maior barra representa o partido PT, com 99 instncias, o que
representa 12,87% de todos os registros. Note que a predominncia tambm do
sexo masculino.
A stima anlise foi feita em relao ao sexo e quantidade de votos:
80
FONTE: Os autores.
A maior barra representa a faixa de votos, aproximada entre 4.800 a 15.000
votos, com 191 instncias, o que representa 24,80%. Note que a predominncia
tambm do sexo masculino.
A oitava anlise foi feita em relao ao sexo e a situao:
FONTE: Os autores.
A maior barra corresponde situao de Suplente com 648 instncias, o
que representa 84,15% do total de instncias. Note que a predominncia tambm
do sexo masculino.Com este grfico pode-se chegar s seguintes concluses:
81
Uma outra informao que pode ser retirada deste grfico, a de se clicar
sobre qualquer um dos x, azul ou vermelho, automaticamente, sero demonstradas
todas as informaes referentes ao x selecionado, ou melhor dizendo, ao x que
representa uma determinada instncia.
FONTE: Os autores.
3.4.12.1.1 Tendncias encontradas
82
Candidatos Suplentes
% Sucesso
Masculino
705
587
82,26
Feminino
65
61
93,85
FONTE: Os autores.
Onde:
-
83
FONTE: Os autores.
c) Perfil em relao ao grau de instruo e idade
FONTE: Os autores.
Gesto & Conhecimento, v. 5, n.1 , jan./jun. 2007
84
FONTE: Os autores.
85
FONTE: Os autores.
4 RESULTADOS GERADOS PELO ALGORITMO J48
86
FONTE: Os autores.
Este o cabealho do resultado do J48, no qual tem-se as seguintes
informaes:
87
FONTE: Os autores.
As informaes abaixo, demonstram o tamanho da rvore que ser gerada:
FONTE: Os autores.
Onde,
- J48 pruned tree: indica que ser feita a poda na rvore;
- logo aps montada uma srie de linhas classificatrias, na qual se
demonstra a regra e os valores para os atributos;
- Number of leaves: nmero de nveis que a rvore gerou;
- Size of the tree: o tamanho da rvore.
88
FONTE: Os autores.
Ser, ento, apresentada a rvore gerada pelo weka:
FONTE: Os autores.
89
FONTE: Os autores.
- Correctly classified instances: representa o nmero de instncias
classificadas corretamente;
- Incorrectly classified instances: representa o nmero de instncias
classificadas de forma errada.
FONTE: Os autores.
Nota-se nesta tabela o seguinte: o fator de preciso de acerto, para o cargo
de suplente, foi de 96.4%, o mais alto dentre todos os cargos; muito importante, visto
90
FONTE: Os autores.
Da matriz de confuso podem-se extrair as seguintes informaes:
- de todos os 770 registros analisados, o J48 conseguiu classificar
corretamente 712 ,sendo que estes esto subdivididos da seguinte forma:
76 cargo eleito
1 cargo media
13 no eleito
622 - suplente
91
5 CONCLUSES
qual o diferencial que as mulheres tem em relao aos homens para ter
um melhor desempenho ?
92
REFERNCIAS
93
ANEXOS
FONTE: Os autores.
94