Sie sind auf Seite 1von 41

DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS

sDESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS


Claudio Tavares
Especialista em Banco de Dados, Unicenp. E-mail: cludio.tavares@renault.com

Daniel Bozza
Especialista em Banco de Dados, Unicenp. E-mail: daniel.bozza@nuvital.com.br

Frank Kono
Especialista em Banco de Dados, Unicenp. E-mail: frank.kono@gvt.com.br23b

Resumo: Este artigo tem como objetivo encontrar uma possvel tendncia a ser
observada, no tocante as pessoas que almejem se candidatar e conseqentemente
se eleger Deputado Estadual na cidade de Curitiba. Para alcanar o objetivo, ser
analisado e preparado um conjunto de dados que envolvem as eleies de 1994 e
1998 e posteriormente sero aplicadas algumas tcnicas de Data Minining para que
possam ser geradas regras de associaes. Tais regras ou resultados sero
analisados para ento se determinar a existncia ou no de tendncias no tocante
ao perfil dos candidatos ao cargo de suplente de Deputado Estadual na cidade de
Curitiba.Por fim sero apresentados os resultados encontrados, quer sejam eles
confirmando uma certa tendncia ou no.
Palavras-chave: Data Mining, Classificao, Algoritmo J48

1 INTRODUO
Inicialmente, ser feita uma breve descrio do processo que envolve a
descoberta de conhecimento, passando, posteriormente, para o desenvolvimento do
trabalho, levando-se em considerao o cronograma, o escopo inicial do projeto, o
negcio em questo e a parte lgica. A parte lgica ser subdividida na busca da
base de dados, que ir dar suporte a todo o processo de descoberta de
conhecimento, bem como a gerao do modelo de dado para o DW, a extrao dos
dados irrelevantes para o processo, a conseqente limpeza e padronizao dos
dados, para que estes estejam adequados ao objetivo do trabalho.
Ainda, na parte lgica ser abordado o item referente gerao do arquivo
.arff, tomando como base os dados disponveis, bem como a escolha do mtodo e
algoritmo, que sero utilizados sobre os dados para a busca do conhecimento. Mais
especificamente, no caso do algoritmo, ser feita uma descrio em relao ao seu
funcionamento e parmetros que podem ser alterados e seus efeitos.
Tendo sido gerados os arquivos.arff, imprescindveis para a utilizao no
weka, ser, ento, feita uma explanao sobre a ferramenta weka e demonstrado
como utiliz-la. Muitos sero os resultados gerados pelo weka, e, por causa disso,
Gesto & Conhecimento, v. 5, n.1 , jan./jun. 2007: 54 - 94

Tavares, Claudio; Bozza, Daniel e Kono, Frank

ser dada devida ateno a uma explanao sobre como interpretar os resultados
do weka.
Por fim, o(s) arquivo(s) .arff sero aplicados no weka e os resultados sero
gerados, dando incio, ento, a toda uma explanao e interpretao sobre os
resultados a fim de encontrar uma possvel tendncia em relao aos dados, a qual
: Ser que pode-se determinar um padro, uma semelhana no perfil dos
candidatos que conseguem ser eleitos ao cargo de deputado estadual na cidade de
Curitiba ?

2 O PROCESSO DE DESCOBERTA DE CONHECIMENTO DO DATA MINING


(DM)

A anlise das grandes quantidades de dados armazenadas nos SGBDs,


visando encontrar informaes estratgicas no conhecidas, tem exigido tcnicas
mais adequadas, sendo que o processo de DM permite em suas vrias etapas
extrair tais informaes.
De forma macro, pode-se definir o processo de DM como:
- definio do problema;
- pr-processamento dos dados;
- minerao (analise) dos dados;
- interpretao.

FIGURA 1: ETAPAS NO PROCESSO DE DM

FONTE: Os autores.

Gesto & Conhecimento, v. 5, n.1 , jan./jun. 2007

55

DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS

A figura acima demonstra, de forma grfica, o processo da descoberta de


conhecimento, onde cada parte da figura representa:
-Dados: conjunto de dados armazenados em uma ou mais base(s) de dados,
os quais so a matria prima de todo o processo de Data Mining.
- Dados Selecionados: de todos os dados disponveis ser separado um
conjunto que contenha os dados que sejam relevantes para a questo,
dvida, informao estratgica que se pretende obter.
- Dados processados: todos os dados selecionados sero previamente prprocessados, ou seja, sero tratados, limpos consistidos, visando remoo
de qualquer rudo nos dados.
- Dados Transformados: depois de processados ou tratados, os dados sero
formatados de forma a adequ-los ferramenta de minerao ( weka ).
- Padres: os dados transformados aplicados aos algoritmos previamente
escolhidos na ferramenta de minerao ( weka ) iro resultar em padres,
regras,

grficos,

dados

numricos,

os

quais

sero

analisados

gerados

pelos

algoritmos,

exaustivamente.
-Conhecimento:

analisando

os

padres

possivelmente sero encontradas as

informaes estratgicas no

conhecidas .

PLANEJAMENTO E DESCRIO DO PROCESSO DE DESCOBERTA DO

CONHECIMENTO

3.1 CRONOGRAMA

O cronograma abaixo representa as vrias atividades que envolveram o


processo de DM neste artigo.

Gesto & Conhecimento, v. 5, n.1 , jan./jun. 2007

56

Tavares, Claudio; Bozza, Daniel e Kono, Frank

FIGURA 2 CRONOGRAMA

FONTE: Os autores.

Onde:
- Tarefa: refere-se atividade executada;
- Etapa: refere-se relao atividade * etapa descrita no item 2 deste artigo;
- Semana/Dias: tempo em semanas para a execuo da atividade

As tarefas executadas foram as seguintes:


- entender o funcionamento do weka: inicialmente, a ferramenta do weka era
desconhecida pelo grupo;
- escrever o artigo: este processo deu-se durante todo o tempo do trabalho;
- buscar o problema a ser resolvido: o grupo no tinha bem claro o problema
que pretendia resolver;
- encontrar a(s) base(s) de dados: aps definir o problema, deu-se incio a
busca pela(s) base(s) de dados que conteriam os dados necessrios para o
trabalho;
- modelar os dados: desenhar o modelo de dados;
- limpar os dados: tratar os dados adequadamente;
Gesto & Conhecimento, v. 5, n.1 , jan./jun. 2007

57

DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS

- trabalhar os dados: alguns dados, como idade e qtd. de votos, tiveram seus
valores alterados para uma faixa de nmeros;
- gerar arquivo.arff: gerao do arquivo .arff;
- aplicar o arquivo .arff ao algoritmo: aplicar os algoritmos sobre os arquivos
.arff;

3.2 O ESCOPO INICIAL DO PROJETO

De posse das bases de dados referentes s eleies de 1994, 1996 e 1998,


as quais contemplavam os cargos de Deputado Estadual, Deputado Federal,
Senador, Prefeito, Governador e Presidente de todos os municpios do Pas,
entendeu-se que a abrangncia era muito grande. A partir deste momento, muitas
foram as mudanas no escopo, as quais so melhores identificadas na figura 2 Cronograma, pois as tarefas marcadas no cronograma em azul representam o clico
de extrao e interpretao dos dados devido s alteraes no escopo.
Abaixo so listadas as vrias alteraes:
1 - a idia era a de se trabalhar como todos os registros relacionados com o
cargo de Deputado Estadual a nvel nacional.
2 - posteriormente, a idia foi alterada para se trabalhar somente com os
registros relacionados com o cargo de Deputado Estadual do Estado do
Paran.
3 - finalmente, decidiu-se trabalhar somente com os registros relacionados
com o cargo de Deputado Estadual da cidade de Curitiba.

O motivo para tantas alteraes foi que, ao aplicar o arquivo .arff no weka,
os resultados eram muito abrangentes, ou seja, muitos eram os cargos ou muitas
eram as cidades e a interpretao tornou-se invivel. Analisando que, para cada
uma das alteraes, era necessrio voltar ao item de extrao de dados (vide figura
2 - Cronograma ), pode-se afirmar que o trabalho era exaustivo, as mudanas no
foram fceis, pois o retrabalho custou muito tempo e esforo.

Gesto & Conhecimento, v. 5, n.1 , jan./jun. 2007

58

Tavares, Claudio; Bozza, Daniel e Kono, Frank

3.3 ANLISE DO NEGCIO

O negcio em questo, neste artigo, o de se analisar os dados


disponibilizados na(s) base(s) de dados, referentes aos candidatos ao cargo de
Deputado Estadual na cidade de Curitiba e verificar se existe alguma tendncia de
perfil para que um candidato possa garantir a sua eleio.

3.4 ANLISE LGICA

Este item ser subdividido para contemplar o detalhamento de vrias etapas,


desde a busca dos dados at a gerao dos resultados pelo(s) algoritmo(s) do weka.

3.4.1 Busca da(s) base(s) de dados

O(s) banco(s) de dado(s) foram encontrados no seguinte link:


http://www.tse.gov.br/utilidades/download/see.html

Os dados estavam distribudos em bases de dados distintas, ou seja, uma


base para cada um dos anos (1994, 1996 e 1998), logo foram feitos os downloads
dos seguintes arquivos:
1 donwload - 1994C.exe (Banco de Dados 1994 completo) tamanho
instalado 30,90 mb qtd. de linhas na tab_candidato era de 11.999;
2 download - 1996C.exe (Banco de Dados 1996 completo) tamanho
instalado 54,00 mb qtd. de linhas na tab_candidato era de 322.698;
3 download - 1998C.exe (Banco de Dados 1998 completo) tamanho
instalado 35,34 mb qtd. de linhas na tab_candidato era de 14.909.

importante salientar, que os dados acima referem-se base de dados


completa, ou seja, todos os registros a nvel nacional, contendo todos os cargos e
cidades. Posteriormente, os arquivos foram descompactados e gerado, para cada
um dos anos (1994, 1996 e 1998), um arquivo .mdb.

Gesto & Conhecimento, v. 5, n.1 , jan./jun. 2007

59

DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS

A figura abaixo representa o modelo de dados do(s) banco(s), sendo que


este modelo idntico para os trs anos ( 94, 96 e 98 ):

FIGURA 3 MODELO DE DADOS ORIGINAL

FONTE: Os autores

3.4.2 Gerando o Modelo de Dados para o DW

Analisando o modelo da figura 3 Modelo de Dados original, foi feita uma


anlise de todas as tabelas e seus atributos e, de acordo com o escopo do artigo, ou
seja, a pergunta que se pretende responder, vide item 3.3, foi identificado que
muitos dados das tabelas do modelo original eram desnecessrias para o novo
modelo. A partir deste momento, foi gerado um novo modelo de dados, o qual ir
suportar os dados necessrios para que se possa encontrar a resposta deste artigo:

Gesto & Conhecimento, v. 5, n.1 , jan./jun. 2007

60

Tavares, Claudio; Bozza, Daniel e Kono, Frank

FIGURA 4 MODELO DE DADOS DO DW ELEIES

FONTE: Os autores.

importante salientar, que nem todos os atributos descritos no modelo de


dados do DW iro aparecer no arquivo que ser utilizado no weka, mas todos os
atributos sero necessrios para a gerao da tabela TAB_WEKA, conforme
descrita no modelo de dados o anexo 1, pois esta tabela ir conter todos os dados
que, posteriormente, sero exportados e que daro origem ao arquivo ( .arff ), o qual
ser utilizado no weka.

3.4.3 Extrao de Dados

Os dados continuaro sendo trabalhados de forma distinta, ou seja, para


cada ano ser criado um novo modelo de dados e um arquivo ( .arff). De acordo com
o modelo de dados do DW e com as trs etapas descritas no item 3.2 Escopo Inicial
do Projeto, foram, ento, gerados as seguintes bases de dados:
- eleicoes_1994.mdb
- eleicoes_1996.mdb
- eleicoes_1998.mdb

Estas bases, inicialmente, continham todos os valores para o atributo cargo


(dep. Estadual, prefeito, etc) para a cidade de Curitiba. Aps as alteraes de

Gesto & Conhecimento, v. 5, n.1 , jan./jun. 2007

61

DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS

escopo, foram, ento, geradas novas bases de dados para a cidade de Curitiba e
para o cargo de Deputado Estadual.
- eleicoes_1994.mdb (359 registros)
- eleicoes_1998.mdb ( 411 registros )

Totalizando 770 registros, os quais iro compor o arquivo (.arff ) final.


Abaixo, relacionam-se alguns dos motivos para se trabalhar com os dados em bases
diferentes:
- por exemplo, na tabela profisso do ano de 1994 tinha-se advogado com o
valor 1, para a chave primria; e, no ano de 1996, tinha-se advogado com o
valor de 7, como chave primria. Este problema de atributos iguais com
valores de chaves primrias diferentes foi identificado em outras tabelas.
Realizar um mapeamento de-para entre as tabelas seria muito custoso e,
por isso, decidiu-se manter os dados em bancos distintos.

Na tabela abaixo, pode-se visualizar com mais detalhes a tabela de dados


do WEKA

TABELA 1 TABELA DE DADOS DO WEKA


Atributo
NOMSEXO
NOMGRAINS
NOMESTCIV
NOMPROFIS
SGLPAR
NOMSITUA
ANOELEIC
NOMCAR
FAIXAIDADE
FAIXAVOTOS

Tipo dados
varchar
Varchar
Varchar
Varchar
Varchar
Varchar
Integer
Varchar
Integer
integer

Descrio
Armazena a descrio do sexo
Armazena a descrio do grau de instruo (escolaridade)
Armazena a descrio do est.civil
Armazena a descrio da profisso
Armazena a sigla do partido
Armazena a situao do candidato
Armazena o ano de eleio
Armazena o nome do cargo
Armazena a faixa de idade
Armazena a faixa de votos

FONTE: Os autores.

3.4.4 Limpeza dos Dados

Abaixo, sero descritos os tratamentos ou limpeza as quais os dados foram


submetidos. Foram removidos os espaos em branco na descrio dos atributos por
exemplo:
Gesto & Conhecimento, v. 5, n.1 , jan./jun. 2007

62

Tavares, Claudio; Bozza, Daniel e Kono, Frank

- Na tabela profisso, o atributo profisso continha o seguinte valor (auxiliar


de escritrio), sendo que este valor foi substitudo por (auxiliardeescritorio)

Foram removidos os acentos:


- Na tab_profissao, o atributo profisso continha o seguinte valor (mdico) e
foi substitudo por medico sem o acento (as no acompanham o
atributo). Este item ii refere-se ao tratamento feito para a remoo de
acentos e caracteres especiais dos valores dos atributos.

Foram padronizados os valores dos atributos:


- No banco eleicao_1994.mdb tab_profissao, o atributo profisso continha o
seguinte valor ( funcionrio pblico ) e, no banco eleicao_1996.mdb
tab_profissao, o atributo profisso continha o seguinte valor (func. Pblico),
foi feito um tratamento para que, em ambos os bancos, o valor fosse
substitudo por ( funcpublico).

Estes tratamentos foram feitos em todas as tabelas/atributos para que todos


os dados estivessem padronizados.

3.4.5 Gerao dos dados

Conforme descrito no item 3.4.2 foi criada uma tabela chamada TAB_WEKA,
a qual ir armazenar todos os dados que, posteriormente, sero exportados para a
criao do arquivo (.arff ). Neste momento, foram montados os sqls que iro gerar a
massa de dados para popular a TAB_WEKA.mdb (formato de banco Access).
Abaixo, sero descritos os passos para a gerao dos dados na
TAB_WEKA:
- Inicialmente, foi criada uma consulta para visualizao dos dados, conforme
a figura do anexo n 1 Tabela de dados do weka.

Feita uma conferncia do resultado gerado no anexo n 1, posteriormente foi


utilizado outro recurso do banco .mdb para com base no resultado do select criar
uma nova tabela contendo todos os dados gerados pela consulta (TAB_WEKA).
Gesto & Conhecimento, v. 5, n.1 , jan./jun. 2007

63

DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS

Na TAB_WEKA foram feitos os seguintes tratamentos:


- foram retirados os seguintes campos: Nomcan, datnas, codcan, nommun;
- foi renomeado o campo Expr1 para idade;
- todos os valores dos atributos texto foram descritos com letras minsculas.
- os campos da tabela TAB_WEKA foram ordenados na seguinte seqncia:
- IDADE, NOMSEXO, NOMGRAINS, NOMEESTCIV, NOMPROFIS, SGLPAR,
VOTOS, NOMSITUAC, ANOELEICAO, NOMCAR, sendo que esta seqncia
ser a mesma que o arquivo ( .arff ) conter.

importante salientar, que a TAB_WEKA foi criada em cada um dos dois


bancos de dados (1994 e 1996), logo todo o procedimento foi aplicado na tabela dos
dois bancos.

3.4.6 Padronizao dos Dados

Na tabela de dados Weka foi necessrio padronizar os valores de dois


atributos, idade e quantidade de votos, isto porque eles continham uma seqncia
de valores muito abrangente, o que dificultava o processamento e entendimento dos
resultados. Para resolver este problema foram criadas faixas que enquadravam os
valores dos atributos, valores estes representados na tabela abaixo.

Gesto & Conhecimento, v. 5, n.1 , jan./jun. 2007

64

Tavares, Claudio; Bozza, Daniel e Kono, Frank

TABELA 2 FAIXA IDADE E VOTOS


Atributo
Idade

Faixa
% idade >=20 e idade <= 30
% idade >=31 e idade <= 40
% idade >=41 e idade <= 50
% idade >=51 e idade <= 60
% idade >=61 e idade <= 70
% idade >=71 e idade <= 80
% idade >=81 e idade <= 90
% idade >=91

Valor
1
2
3
4
5
6
7
8

Votos

%votos >=0
e votos <= 200
%votos >=201
e votos <= 400
%votos >=401
e votos <= 600
%votos >=601
e votos <= 800
%votos >=801
e votos <= 1000
%votos >=1001
e votos <= 5000
%votos >=5001
e votos <= 10000
%votos >=10001 e votos <= 15000
%votos >=15001 e votos <= 20000
%votos >=20001 e votos <= 25000
%votos >=25001 e votos <= 30000
%votos >=30001 e votos <= 40000
%votos >=40001 e votos <= 50000
%votos >=50001 e votos <=
100000
%votos >=100001 e votos
<=1000000
%votos >=1000001 e votos
<=2000000
%votos >=2000001

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

FONTE: Os autores.
3.4.7 Gerao do arquivo .arff

Neste momento, as tabelas TAB_WEKA (ano 1994) e TAB_WEKA (ano 1998)


j esto criadas e com seus dados tratados. Foram gerados trs arquivos .arff para
os testes:
- eleicoes_1994.arff, contendo 359 registros.
- eleicoes_1998.arff, contendo 411 registros.
- eleicoes_94_98.arff, o qual contm todos os dados de 1994 e 1998,
totalizando 770 registros.

O arquivo .arff foi subdividido da seguinte forma:


- Declarando o arquivo
@relation eleies

- Declarando todos os atributos


@attribute idade real
@attribute sexo {masculino, ...}

@attribute grauinstrucao {1graucompleto, ..}


Gesto & Conhecimento, v. 5, n.1 , jan./jun. 2007

65

DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS

@attribute estcivil {casado, ...}


@attribute profisso {administrador, ...}
@attribute partido {pan, ...}
@attribute votos real
@attribute situao {eleito, ...}
@attribute anoeleicao real
@attribute cargo {deputadoestadual, ...}

- Declarando o data
@Data 5,masculino,1graucompleto,casado,outros,pdt,10,eleito,1994,deputadoestadual

Este somente um exemplo das vrias linhas que o atributo @Data contm.

3.4.8 Escolha do Mtodo e Algoritmo

Para a anlise dos trs arquivos .arff, foi escolhido o Mtodo de Classificao
e o algoritmo J48. Isso em decorrncia do escopo do trabalho e dos valores que
compem o arquivo .arff. Aps anlises dos diferentes mtodos, que podem ser
aplicados, e das formas de se minerar os dados e das caractersticas dos dados,
constatou-se que os diferentes mtodos podem ser aplicados com diferentes
algoritmos a diferentes tipos de dados; tudo depende do tipo de problema que se
deseja solucionar.
O mtodo de classificao foi escolhido por melhor responder questo alvo
deste artigo, ou seja, com o mtodo de classificao pode-se inferir (prever) que
determinados candidatos, com um determinado perfil, consigam se eleger. Neste
caso, o atributo cargo denominado como atributo alvo da classificao (poderia ser
outro) e, sobre este, regras de classificao em relao ao outros atributos sero
geradas.
As formas mais comuns de representao de conhecimento dos algoritmos de
classificao so regras e rvores. Os algoritmos Id3, C45, J48, ADTree,
UserClassifier, PredictionNode, Splitter, ClassifierTree, M5Prime, por exemplo,
geram, como resultado, rvores de classificao, enquanto que outros como Prism,
Part, OneR geram regras de classificao. J o algoritmo escolhido para a anlise
dos dados foi o J48, isso levando-se em considerao o tipo dos dados que sero
analisados.

Gesto & Conhecimento, v. 5, n.1 , jan./jun. 2007

66

Tavares, Claudio; Bozza, Daniel e Kono, Frank

Abaixo, ser feita uma breve explanao, um pouco mais detalhada com
relao ao algoritmo J48:
J48 constri uma rvore de deciso. A forma de construo a

abordagem top-down, em que o atributo mais significativo, ou seja, o mais


generalizado, quando comparado a outros atributos do conjunto,
considerado raiz da rvore. Na seqncia da construo, o prximo n da
rvore

ser

segundo

atributo

mais

significativo,

e,

assim,

sucessivamente, at gerar o n folha, que representa o atributo alvo da


instncia. O processo de gerao de regras, para classificao de
sistemas normalmente atua em dois estgios: as regras so induzidas e
posteriormente refinadas. Isto feito atravs de dois mtodos, atravs da
gerao das rvores de deciso e o posterior mapeamento da rvore em
regras e, ento, aplicando processos de refinamento, ou pela utilizao do
paradigma separar pra conquistar. . Assim como na rvore de
deciso, esse processo tambm possuiu um estgio de otimizao das
regras geradas

Com relao ao algoritmo J48 podem-se alterar os valores padres dos seus
vrios atributos, conforme a descrio dos atributos na tabela abaixo:

TABELA 3 PARMETROS J48


U
C
M
R
N

B
S
L

usa a rvore sem poda


confidence: escolhe o fator de confiana
inicial para a podar -> default:0.25
escolhe o nmero mnimo de instncias por
folha -> default:2
usa a poda com reduo de erro
escolhe o nmero de parties para a poda
com reduo de erro, onde uma partio
utilizada como conjunto de poda ->default:3
usa rvore binria
no utiliza subrvore de poda
no apaga a rvore depois de construda

FONTE: Os autores.
Os parmetros acima mencionados podem ser configurados na seguinte tela
do weka:

Gesto & Conhecimento, v. 5, n.1 , jan./jun. 2007

67

DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS

FIGURA 5 ESCOLHA DO ALGORITMO NO WEKA

FONTE: Os autores.
Clicando sobre o boto Choose surgira a tela para configurao dos
parmetros:
FIGURA 6 PARMETROS J48 NO WEKA

FONTE: Os autores.
Onde cada campo representa um parmetro a ser configurado:
1) binarySplits:
2) confidenceFactor:
3) debug:
4) minNumObj:
5) numFolds:
6) reducedErrorPruning :
7) saveInstanceData:

Gesto & Conhecimento, v. 5, n.1 , jan./jun. 2007

68

Tavares, Claudio; Bozza, Daniel e Kono, Frank

8) seed:
9) subtreeRaising:
10)unpruned:
11)useLaplace:

3.4.9 Abrindo o Weka

Com o aplicativo do weka aberto em modo Explorer, aparecer a seguinte


janela:
FIGURA 7 WEKA

FONTE: Os autores.
3.4.9.1 Buscando o arquivo .arff

Seleciona-se a opo OpenFile para encontrar o arquivo eleicoes.arff e,


aps escolhido o arquivo, a seguinte tela foi apresentada. O arquivo eleicoes.arff
estava no seguinte diretrio: ..weka-3-4\data\eleicoes.arff

FIGURA 8 TELA WEKA


Gesto & Conhecimento, v. 5, n.1 , jan./jun. 2007

69

DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS

FONTE: Os autores.
Obs:. Neste artigo esto sendo processados trs arquivos .arff, conforme item
3.4.7 .

Nesta visualizao, podem-se analisar os seguintes dados:


- as abas Classify, Cluster, Associate, Select Atributes so os mtodos que
podemos escolher para gerar os dados;
- na guia Visualize, podemos visualizar os resultados dos algoritmos atravs
de alguns grficos, os quais veremos posteriormente;
- o boto Chosse nos permite navegar em uma rvore na qual podemos
escolher o algoritmo;
- no campo onde aparece a palavra NONE, podemos alterar os parmetros
de configurao para o algoritmo;
- na rea Currente Rellation temos a qtd. de instncias, n de atributos e,
tambm, a relao que ser usada inicialmente para gerar alguns grficos;na rea Attributes temos a relao de todos os atributos;
- no boto visualize all, poderemos obter vrias informaes atravs de
grficos.
3.4.10 Verses do arquivo .arff

Foram geradas duas verses para o arquivo .arff, visando encontrar os


atributos que efetivamente iriam ser utilizados, bem como os tipos de dados dos
atributos, conforme descrito na figura abaixo:

Gesto & Conhecimento, v. 5, n.1 , jan./jun. 2007

70

Tavares, Claudio; Bozza, Daniel e Kono, Frank

FIGURA 9 VERSES GERADAS PARA O ARQUIVO .ARFF

FONTE: Os autores.
O maior problema encontrado, foi com relao aos valores do atributo idade
e votos, pois os mesmos possuam, inicialmente, uma seqncia de valores muito
grande e, para resolver isso, foram criadas faixas para agrupar os valores, conforme
descrito no item 3.4.6.

3.4.11 Interpretando os dados gerados pelo J48 no weka

Abaixo, sero feitas algumas observaes para que o leitor possa entender
como os dados podem ser analisados ou interpretados. Tais resultados foram
obtidos atravs da aplicao do Mtodo de Classificao, utilizando-se o algoritmo
J48.

3.4.11.1 Anlise da preciso

O algoritmo J48 apresenta o seguinte quadro:

FIGURA 10 ANALISE DE PRECISO

Gesto & Conhecimento, v. 5, n.1 , jan./jun. 2007

71

DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS

FONTE: Os autores.
Onde, na classificao de exemplos (levando-se em conta todos os registros
analisados ), o fator de preciso para o cargo de suplente foi de 91,70%

3.4.11.2 Anlise da Matriz de Confuso

A matriz de confuso contm informaes muito importantes para o


entendimento do resultado do algoritmo, dentre elas:
- a quantidade de instncias classificadas corretamente;
- a quantidade de instncias classificadas erroneamente;
- a quantidade de instncias que o algoritmo acreditava ser de um tipo
(eleito) e na verdade foram classificadas como (no eleito) por exemplo:

FIGURA 11 MATRIZ DE CONFUSO

FONTE: Os autores.
possvel analisar que:
- dos 15 exemplos(1linha), 12 foram classificados corretamente como eleito,
3 foram classificados erroneamente como suplente;
- dos 3 exemplos (2linha), 1 foi classificado erroneamente como eleito e 2
foram classificados erroneamente como suplente;
- dos 4 exemplos (3linha), 4 foram classificados erroneamente como
suplente;

Gesto & Conhecimento, v. 5, n.1 , jan./jun. 2007

72

Tavares, Claudio; Bozza, Daniel e Kono, Frank

- dos 101 exemplos (4linha), 100 foram classificados corretamente como


suplente e 1 foi classificado erroneamente como eleito.

Mas como chegou-se ao numero das instncias classificadas corretamente e


erroneamente no exemplo acima? Para isso, basta analisar o quadro abaixo, no qual
a somatria dos valores, que fazem parte da diagonal marcada como azul,
representam os valores classificados como corretos e os demais valores somados
em

suas

respectivas

diagonais,

correspondem

aos

valores

classificados

erroneamente. Obviamente, na somatria dos valores errados, deve-se excluir os


valores que fazem interseco com a linha em azul.

FIGURA 12 MATRIZ DE CONFUSO

FONTE: Os autores.

Com isto, obtemos o seguinte resultado:


-

Instncias classificadas corretamente: 112;

Instncias classificadas erroneamente: 11;

Perfazendo um total de 123 instncias analisadas.

Estes valores, apresentados pela matriz de confuso, so os mesmos que o


algoritmo do weka apresenta, conforme quadro abaixo:

Gesto & Conhecimento, v. 5, n.1 , jan./jun. 2007

73

DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS

FIGURA 13 RESULTADOS WEKA

FONTE: Os autores.
3.4.11.3 Anlise da Arvore de Deciso

FIGURA 14 ARVORE DE DECISO

FONTE: Os autores.

Onde os valores tem a seguinte representao:

FIGURA 15 PERCENTUAL DE ACERTOS

FONTE: Os autores.

Gesto & Conhecimento, v. 5, n.1 , jan./jun. 2007

74

Tavares, Claudio; Bozza, Daniel e Kono, Frank

Neste artigo, no foram abordadas todas as possibilidades de interpretao


dos resultados do algoritmos J48. As interpretaes que aqui foram abordadas
permitiro realizar uma anlise inicial dos resultados.

3.4.11.4 Anlise Acertos * Erros

Tomando como exemplo parte do resultado do arquivo eleies.arff

sexo = masculino
| anoeleicao > 1996
| |
situacao = eleito
| |
|
votos <= 13
| |
|
|
estcivil = casado: deputadoestadual (37.0/3.0)

O que significam os valores ( 37.0 / 3.0 ):


-

37 significa o nmero de acertos, ou seja, 37 registros, nos quais a regra


acima se aplica corretamente;

3 significa o nmero de erros, ou seja, 3 registros, nos quais a regra


acima no se aplica corretamente.

3.4.12 Resultado

A tabela abaixo, demonstra os diferentes experimentos realizados para se


encontrar o resultado do weka que mais se aproximasse do desejado, em termos
dos valores dos atributos.

Gesto & Conhecimento, v. 5, n.1 , jan./jun. 2007

75

DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS

TABELA 4 ETAPAS DOS EXPERIMENTOS


Exp.

E1

E2

N
registros
bd original

N
registros
treinamento

349.606

349.606

349.606

N
registro
s testes

770

comentrio

Inicialmente, foi feito


um teste com todos os
registros de todos os
anos e todas as
cidades.
Ficou
impraticvel a anlise
Neste momento, foram
gerados os testes com
todos os registros para
que o J48 pudesse
gerar os resultados a
serem analisados.

FONTE: Os autores.
Abaixo sero demonstrados os resultados obtidos com o primeiro
treinamento e com o ltimo treinamento. A anlise ser subdividida da seguinte
forma:
- anlise dos grficos;
- anlise dos resultados gerados pelo J48.

3.4.12.1 Resultado gerado pelos grficos

No tocante aos grficos, possvel escolher um dos atributos como chave


para que o resultado seja baseado neste. O atributo escolhido neste momento foi o
atributo sexo. A tela para a escolha do atributo no weka a seguinte:

FIGURA 16 ESCOLHA DO ATRIBUTO

FONTE: Os autores.
Gesto & Conhecimento, v. 5, n.1 , jan./jun. 2007

76

Tavares, Claudio; Bozza, Daniel e Kono, Frank

Os grficos sero gerados pelo boto Visualize All, conforme mostrado na


figura acima. No grfico gerado pelo boto ,o sexo masculino est representado pela
cor azul e o sexo feminino pela cor vermelha, conforme grficos abaixo.
A primeira anlise feita foi em relao ao Sexo e Idade:
GRFICO 1 RELAO AO SEXO E IDADE

FONTE: Os autores.
A maior barra representa a faixa de idade, entre 3,947 a 4,316; isso
corresponde faixa aproximada de 48 a 54 anos, com um total de 288 instncias, ou
seja 37,4% de todos os registros (770). Observe que a predominncia nesta faixa
do sexo masculino.
A segunda anlise feita foi em relao ao sexo e sexo:

Gesto & Conhecimento, v. 5, n.1 , jan./jun. 2007

77

DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS

GRFICO 2 RELAO AO SEXO E SEXO

FONTE: Os autores.
A maior barra corresponde ao sexo masculino, com 705 instncias, o que
corresponde a 91,56%; j a menor barra corresponde ao sexo feminino, com 65
registros, o que corresponde a 8,44%. Um ponto interessante, levando em
considerao que estes dados referem-se somente cidade de Curitiba, que para
o grau de instruo, l e escreve, somente 3 instncias foram selecionadas.
A terceira anlise feita foi em relao ao sexo e o grau de instruo:

GRFICO 3 RELAO AO SEXO E GRAU DE INSTRUO

FONTE: Os autores.

Gesto & Conhecimento, v. 5, n.1 , jan./jun. 2007

78

Tavares, Claudio; Bozza, Daniel e Kono, Frank

A maior barra, corresponde ao grau de instruo Superior Completo, com


um total de 390 instncias, o que corresponde a 50,64% de todos os registros (770).
Observe que a predominncia do sexo masculino.
A quarta anlise feita foi em relao ao sexo e estado civil:
GRFICO 4 RELAO AO SEXO E ESTADO CIVIL

FONTE: Os autores.
A maior barra corresponde situao civil de casado, com um total de 584
instncias, o que corresponde a 75,85% de todos os registros (770). Observe que a
predominncia do sexo masculino.
A quinta anlise foi feita em relao ao sexo e profisso:
GRFICO 5 RELAO AO SEXO E PROFISSO

FONTE: Os autores.
Gesto & Conhecimento, v. 5, n.1 , jan./jun. 2007

79

DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS

Neste item ser feita meno de trs barras. A maior representa a profisso
outros. No se pode afirmar o motivo pelo qual, na base de dados, muitas
instncias foram classificadas como outros. A segunda maior barra representa a
profisso de Proprietrio de Estabelecimento, com 77 instncias, o que representa
a 10% do total. A terceira maior barra representa a profisso de Advogado, com 73
instncias, o que representa 9,48 %. Note que a predominncia tambm do sexo
masculino.
A sexta anlise foi feita em relao ao sexo e partido:

GRFICO 6 RELAO AO SEXO E PARTIDO POLTICO

FONTE: Os autores.

Neste item ser feita meno de duas barras. A maior barra representa o
partido PMDB, com 105 instncias, o que representa 13,64 % de todos os
registros. A segunda maior barra representa o partido PT, com 99 instncias, o que
representa 12,87% de todos os registros. Note que a predominncia tambm do
sexo masculino.
A stima anlise foi feita em relao ao sexo e quantidade de votos:

Gesto & Conhecimento, v. 5, n.1 , jan./jun. 2007

80

Tavares, Claudio; Bozza, Daniel e Kono, Frank

GRFICO 7 RELAO AO SEXO E QUANTIDADE DE VOTOS

FONTE: Os autores.
A maior barra representa a faixa de votos, aproximada entre 4.800 a 15.000
votos, com 191 instncias, o que representa 24,80%. Note que a predominncia
tambm do sexo masculino.
A oitava anlise foi feita em relao ao sexo e a situao:

GRFICO 8 RELAO AO SEXO E SITUAO

FONTE: Os autores.
A maior barra corresponde situao de Suplente com 648 instncias, o
que representa 84,15% do total de instncias. Note que a predominncia tambm
do sexo masculino.Com este grfico pode-se chegar s seguintes concluses:

Gesto & Conhecimento, v. 5, n.1 , jan./jun. 2007

81

DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS

existe uma predominncia da cor azul (sexo masculino) em relao a cor


vermelha (sexo feminino);

e a concentrao da cor azul para o cargo de suplente.

Uma outra informao que pode ser retirada deste grfico, a de se clicar
sobre qualquer um dos x, azul ou vermelho, automaticamente, sero demonstradas
todas as informaes referentes ao x selecionado, ou melhor dizendo, ao x que
representa uma determinada instncia.

FIGURA 17 DADOS PONTUAIS DO WEKA

FONTE: Os autores.
3.4.12.1.1 Tendncias encontradas

a) Perfil do candidato a suplente de deputado estadual na cidade de Curitiba

- ter idade entre 48 a 54 anos;


- ser do sexo masculino;
- possuir um grau de instruo Superior Completo;
- ser casado;
- ter como profisso proprietrio de estabelecimento ou advogado;
- ser filiado aos partidos PMBD ou PT.
Gesto & Conhecimento, v. 5, n.1 , jan./jun. 2007

82

Tavares, Claudio; Bozza, Daniel e Kono, Frank

Um fato marcante em todos as relaes que o sexo masculino predominou


em todos os atributos.

b) Perfil do candidato vencedor em relao ao atributo Sexo

Observe a tabela abaixo:

TABELA 5 RELAO SEXO * SUCESSO


Sexo

Candidatos Suplentes

% Sucesso

Masculino

705

587

82,26

Feminino

65

61

93,85

FONTE: Os autores.

Onde:
-

candidatos: refere-se quantidade total de candidatos, nos anos de 1994


e 1998;

suplentes: quantidade de candidatos que alcanaram a posio de


suplente de deputados estadual;

% de sucesso: representa a relao em (%) entre o total de candidatos *


suplentes / por 100.

No ano de 1994, as mulheres tiveram um desempenho muito melhor do que


os homens, pois 5% do total de mulheres candidatas foram eleitas, em contrapartida,
somente 2,33% dos candidatos homens se elegeram. O grfico abaixo, ilustra a
distribuio de candidatos em relao ao sexo:

Gesto & Conhecimento, v. 5, n.1 , jan./jun. 2007

83

DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS

GRFICO 9 DISTRIBUIO DE CANDIDATOS EM RELAO AO SEXO

FONTE: Os autores.
c) Perfil em relao ao grau de instruo e idade

No grfico abaixo, pode-se visualizar que existe uma distribuio bastante


proporcional referente ao grau de instruo, onde cada cor representa um nvel de
escolaridade (eixo x) em relao a faixa de idade (eixo x ):
GRFICO 10 DISTRIBUIO REFERENTE AO GRAU DE INSTRUO

FONTE: Os autores.
Gesto & Conhecimento, v. 5, n.1 , jan./jun. 2007

84

Tavares, Claudio; Bozza, Daniel e Kono, Frank

d) Perfil em relao ao grau de instruo e sexo

No grfico abaixo, possvel visualizar a relao entre sexo e grau de


instruo. Note que a maior concentrao para ambos os sexos o grau de
instruo superior completo.

GRFICO 11 RELAO ENTRE SEXO E GRAU DE INSTRUO

FONTE: Os autores.

e) Perfil do grau de instruo na cidade de Curitiba

O grfico abaixo, demonstra que, na cidade de Curitiba, pouqussimos so


os candidatos com grau de instruo ( l e escreve):

Gesto & Conhecimento, v. 5, n.1 , jan./jun. 2007

85

DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS

GRFICO 12 GRAU DE INSTRUO EM CURITIBA

FONTE: Os autores.
4 RESULTADOS GERADOS PELO ALGORITMO J48

Foi utilizado o mtodo de classificao e o algoritmo J48. Os parmetros do


J48 alterados foram os seguintes:

TABELA 6 PARMETROS DO J48


C

confidence: escolhe o fator de


confiana inicial para a podar
-> default:0.25
M escolhe o nmero mnimo de
instncias por folha ->
default:2
FONTE: Os autores.
Onde:
C = 0.9
M = 0.25

Os demais atributos foram mantidos com os valores default do J48.

Gesto & Conhecimento, v. 5, n.1 , jan./jun. 2007

86

Tavares, Claudio; Bozza, Daniel e Kono, Frank

Os resultados que sero apresentados e suas respectivas anlises, tomaram


como base a argumentao terica apresentada no item 3.4.11 Interpretando os
dados gerados pelo J48 no weka e o item 3.4.9.1 Buscando o arquivo .arff . Ao
aplicar o arquivo .arff ao algoritmo, inicialmente temos um resumo gerado pelo J48
com relao as regras, atributos e instncias analisadas:

FIGURA 18 ALGORITMO J48

FONTE: Os autores.
Este o cabealho do resultado do J48, no qual tem-se as seguintes
informaes:

- Schema: que demonstra o metdo, o algoritmo e os parametros utilizados;


- Relation: informa o nome do arquivo .arff e dois dos parmetros que foram
removidos.

Os parmetros aqui removidos foram cargo e ano da eleio, isso porque o


nico valor para o atributo cargo, no arquivo .arff, suplente de deputado estadual e
os anos so de 1994 e 1998, visto que, neste momento, a temporalidade no era
importante.

- Instances: total de instancias analisadas;


- Abribute: relao dos atributos analisados;
- Test-mode: informa que ser realizada cross-validation.

Gesto & Conhecimento, v. 5, n.1 , jan./jun. 2007

87

DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS

Posteriormente, o J48 gera vrias regras sobre a relao existente entre os


atributos. Estas regras iro, posteriormente, dar origem rvore:

FIGURA 19 REGRAS GERADAS

FONTE: Os autores.
As informaes abaixo, demonstram o tamanho da rvore que ser gerada:

FIGURA 16 NVEIS DA RVORE

FONTE: Os autores.
Onde,
- J48 pruned tree: indica que ser feita a poda na rvore;
- logo aps montada uma srie de linhas classificatrias, na qual se
demonstra a regra e os valores para os atributos;
- Number of leaves: nmero de nveis que a rvore gerou;
- Size of the tree: o tamanho da rvore.

Gesto & Conhecimento, v. 5, n.1 , jan./jun. 2007

88

Tavares, Claudio; Bozza, Daniel e Kono, Frank

No weka, possvel visualizar a rvore gerada para as regras acima


mencionadas, executando os seguinte passos: Aps o J48 ter concludo o seu
processamento de um clique com o boto direito do mouse sobre a ltima linha do
campo Result list e escolha a opo Visualize tree.

FIGURA 20 CHAMADA DA RVORE

FONTE: Os autores.
Ser, ento, apresentada a rvore gerada pelo weka:

FIGURA 21 ARVORE DE DECISO

FONTE: Os autores.

Gesto & Conhecimento, v. 5, n.1 , jan./jun. 2007

89

DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS

necessrio que a rvore acima seja expandida para melhor visualizao.


Outro conjunto de informaes muito importante referente ao sumrio, ou seja, um
breve resumo do que foi gerado pelo J48:

FIGURA 22 RESULTADO J48

FONTE: Os autores.
- Correctly classified instances: representa o nmero de instncias
classificadas corretamente;
- Incorrectly classified instances: representa o nmero de instncias
classificadas de forma errada.

Um dos parmetros do J48 alterados foi o C 0.9 ou seja, desejava-se


alcanar 90% de sucesso, mas o J48 retornou um sucesso de 92.4675 %, bem
acima do desejado. Tambm, apresentada uma tabela informando, dentre muitos
parmetros, o fator de preciso:

FIGURA 23 RESULTADO J48

FONTE: Os autores.
Nota-se nesta tabela o seguinte: o fator de preciso de acerto, para o cargo
de suplente, foi de 96.4%, o mais alto dentre todos os cargos; muito importante, visto

Gesto & Conhecimento, v. 5, n.1 , jan./jun. 2007

90

Tavares, Claudio; Bozza, Daniel e Kono, Frank

que o objetivo inicial do trabalho era o de encontrar uma tendncia para os


candidatos ao cargo de suplente de deputado estadual.
J a matriz de confuso, conforme apresentada na figura abaixo, muito
importante para que se possa extrair informaes valiosas.

FIGURA 24 MATRIZ DE CONFUSO

FONTE: Os autores.
Da matriz de confuso podem-se extrair as seguintes informaes:
- de todos os 770 registros analisados, o J48 conseguiu classificar
corretamente 712 ,sendo que estes esto subdivididos da seguinte forma:

76 cargo eleito

1 cargo media

13 no eleito

622 - suplente

- de todos os 770 registros analisados, o J48 classificou erroneamente 58,


sendo que estes esto subdivididos da seguinte forma:
dos 17 registros que eram para ser classificados como eleito, 4
foram classificados como mdia e 13 como suplente;
dos 14 registros que eram para ser classificados como mdia, 5
foram classificados como eleito e 9 como suplente;
do total de 1 registro que era para ser classificado como no eleito,
este 1 foi classificado como suplente;
dos 26 registros que eram para ser classificados como suplente, 21
foram classificados como eleito, 3 como mdia e 2 com no eleito.

Gesto & Conhecimento, v. 5, n.1 , jan./jun. 2007

91

DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS

Para chegar a esta concluso basta somar todos os valores de cada


linha, excluindo os valores que fazem parte da diagonal que inicia-se em (a,a) e
termina em (a,e).

5 CONCLUSES

Os dados analisados vm a comprovar um fato j conhecido, o de que as


pessoas do sexo masculino tm uma representatividade muito maior na Cmara dos
Deputados do que as mulheres. Mas, outro fato muito interessante que as
mulheres tm um desempenho muito melhor do que os homens, quando estas se
elegem, o que nos leva seguinte indagao:
-

qual o diferencial que as mulheres tem em relao aos homens para ter
um melhor desempenho ?

ser que os eleitores homens tem votado nas mulheres acreditando


neste potencial? ou ser que as eleitoras mulheres tem votado na
candidata mulher, como uma forma de revolta contra o desempenho
masculino ?

Sabe-se que as mulheres tem alcanado, com muita naturalidade, os postos


que, anteriormente, eram de exclusividade masculina e isto tambm fica evidenciado
pelos resultados deste trabalho, pois se elas, candidatas mulheres, continuarem a
ter um desempenho melhor do que os homens, logo o quadro no cenrio poltico
ser revertido, ou seja, haver mais mulheres na poltica do que homens.
Um ponto interessante, o de que o nvel de escolaridade dos candidatos
eleitos tem sido no inferior ao Superior Completo, o que reflete o anseio da
sociedade, no tocante a colocar no meio poltico pessoas mais esclarecidas, mais
cultas, com uma viso mais ampla do todo.
Normalmente, quando uma pessoa necessita de um conselho acerca de
alguma deciso, ir buscar esta ajuda com pessoas mais velhas e mais experientes,
o que deixa claro que pessoas de mais idade tem mais experincia na vida.Em
relao a isto, os dados encontrados na aplicao do algoritmo, demonstraram que
os candidatos eleitos estavam na faixa dos 45 aos 55 anos, ou seja, acima da
metade da sua vida; isso, se considerarmos a expectativa de vida em,
Gesto & Conhecimento, v. 5, n.1 , jan./jun. 2007

92

Tavares, Claudio; Bozza, Daniel e Kono, Frank

aproximadamente, 90 anos, o que vem a afirmar que a sociedade tambm acredita


que candidatos com idade mdia tm experincias suficientes para auxiliar a
sociedade em seus problemas, fazendo para isso uso de seu poder poltico.
Outro fato muito interessante, em relao profisso do candidato, pois a
facilidade de comunicao, a habilidade de convencimento est diretamente
relacionada entre o poltico e a populao. Com base nisto, foi identificado que as
duas profisses que tiveram o maior destaque foram a de proprietrio de
estabelecimento comercial e advogado, duas profisso que esto diretamente
envolvidas com o pblico exercendo seu poder de convencimento e habilidade em
tcnicas de relacionamento. Ser que por acaso que os polticos tem tais
habilidades ?
Artigo recebido em 23/04/2007 e aprovado em 15/05/2007.

REFERNCIAS

CAMEIRO, A. J. Esboo da NETLIG - A rede de antigos alunos da LIG.


Universidade do Minho, Escola de Engenharia, Licenciatura em Informtica de
Gesto, OPO III - Tecnologias e Sistemas de Informao, 2004/2005. Disponvel:
http://72.14.205.104/search?q=cache:iVPvv5OgFL4J:papadocs.dsi.uminho.pt:8080/retrieve/7
37/Relat%C3%B3rio.pdf+%22Aurora+Jo%C3%A3o+Cameir%C3%A3o%22&hl=ptBR&ct=clnk&cd=1&gl=br&lr=lang_pt
CARVALHO, L, A. V. de. Datamining: a minerao de dados no Marketing,
Medicina, Economia, Engenharia e Administrao. So Paulo: Cincia Moderna,
2006.
DIAS, M. M. Parmetros na escolha de tcnicas e ferramentas de minerao de
dados. Acta Scientiarum, UEM - Maring - PR, v. 24, n. 6, p. 1715-1725, 2002.
MALUF, R. T. A Carreira Poltica na Cmara Municipal de So Paulo. Doutorado
em Cincia Poltica. Universidade de So Paulo, USP, Brasil, 2006.
MARTINHAGO, S. Descoberta de conhecimento sobre o processo seletivo da
UFPR. Dissertao de Mestrado em Cincias, do Programa de Ps-graduao em
Mtodos Numricos em Engenharia, Departamento de Matemtica, Setor de
Cincias Exatas e Departamento de Construo Civil, Setor de Tecnologia da
Universidade
Federal
do
Paran,
2005.
Disponvel
em:
http://www.ppgmne.ufpr.br/dissertacoes/D120_Sergio_Martinhago06072005.pdf
Gesto & Conhecimento, v. 5, n.1 , jan./jun. 2007

93

DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS

SENKO, L.G. M. Um Mtodo Baseado em Lgica Paraconsistente para


Deteco de Inconsistncias em Classificadores Base de Regras. Mestrado
em Informtica Aplicada. Pontifcia Universidade Catlica do Paran, PUC-PR,
Brasil, 2006.
SILVA, M. P. dos S. Anlise de episdios de tornados em Santa Catarina:
caracterizao sintica e minerao de dados. Mestrado em Sensoriamento
Remoto, Instituto Nacional de Pesquisas Espaciais, INPE, Brasil, 2003.
SILVA, M. P. dos S. SKDQL Uma Linguagem Declarativa de Especificaes de
Consultas e Processos para Descoberta de Conhecimento em Bancos de
Dados e sua Implementao. Mestrado em Cincias da Computao. Universidade
Federal de Pernambuco, UFPE, Brasil, 2003.
TSE - Tribunal Superior Eleitoral. Bases de Dados das Eleies, Disponvel em:
http://www.tse.gov.br, Junho, 2006.
TSUNODA, D. F. Abordagens evolucionrias para a descoberta de padres e
classificao de protenas. Doutorado em Ps Graduao em Engenharia Eltrica
e Informtica. Universidade Tecnolgica Federal do Paran, UTFPR, Brasil, 2004.

ANEXOS

ANEXO 1 TABELA DE DADOS DO WEKA

FONTE: Os autores.

Gesto & Conhecimento, v. 5, n.1 , jan./jun. 2007

94

Das könnte Ihnen auch gefallen