Artigo Mineração de Dados

INTRODUÇÃO AO DATA MINING E APLICAÇÕES
Adriel V. M. Araújo 1 , Diêgo G. Piovezana1 ,

Mateus F. M. C. Cota 1 , Maycon A. Carvalho1
1
Centro Federal de Educação Tecnológica de Minas Gerais (CEFET-MG)
– campus Timóteo 35180-008 – Timóteo – MG – Brasil
Abstract. Data Mining techniques have been extensively studied and applied
by industry and science in an attempt to extend the knowledge gained from data
stored in previous experiences. This study proposes to present concepts and te-
chniques on data mining and also to apply techniques proposing to analyze the
profile of the candidates submitted to the National High School Examination
(ENEM), aiming to generate a forecast of future results mining data obtained in
previous bases generated by the National Institute of Studies and Educational
Research Anı́sio Teixeira (INEP). In this way, it was tried to compare the stu-
dent’s notes in the capitals of the country, making a progression of the notes for
the year 2018.
Resumo. As técnicas de Mineração de dados tem sido muito estudadas e

aplicadas pela indústria e ciência na tentativa de ampliar o conhecimento
adquirido a partir de dados armazenados em experiências anteriores. Este
estudo propõe apresentar conceitos e técnicas sobre mineração de dados e
também aplicar técnicas propondo analisar o perfil dos candidatos submetidos
ao Exame Nacional do Ensino Médio (ENEM), visando gerar uma previsão
de resultados futuros minerando dados obtidos em bases anteriores geradas
pelo Instituto Nacional de Estudos e Pesquisas Educacionais Anı́sio Teixeira
(INEP). Desta maneira, buscou-se comparar as notas dos aluno nas capitais
do paı́s, fazendo uma progressão das notas para o ano de 2018.
Palavras-chave: Mineração de Dados, ENEM, Educação, K Nearest Neighbor
1. Introdução
Os constantes avanços na área da Tecnologia da Informação têm viabilizado o armaze-
namento de grandes e múltiplas bases de dados [Goldschmidt et al. 2015]. Por isso, uma
vez associadas a necessidade crescente de perpetuar informações, principalmente devido
ao desenvolvimento das novas formas de comunicação e produção, surgiram questões
relacionadas a utilização e serventia das cada vez maiores bases de dados.
Neste contexto, a proposta desse artigo além de introduzir os conceitos de Data
mining, também aplicar um processo de mineração de dados, visando estudar, compreen-
der e relacionar dados brutos de um banco de dados com milhões de colunas. Os dados
contidos nesse repositório, são resultados e informações de candidatos que realizaram o
Exame Nacional do Ensino Médio (ENEM) no ano de 2016 e 2017. Tal base de dados, é
disponibilizada pelo próprio órgão que administra o exame e pode ser encontrado no se-
guinte link http://portal.inep.gov.br/microdados. Com tal aplicação, espera-se gerar uma
previsão dos resultados futuros de cada capital do paı́s.
O artigo está organizado como segue: a seção 2 segue com a revisão bibliográfica;
na seção 3 descreve as fases do processo de descoberta de conhecimento em bases de
dados, também descreve mais detalhadamente a mineração de dados e um dos métodos
usados para fazer essa busca de conhecimento; na seção 4 é descrito a relação de data
mining com bancos de dados; na seção 5 descreve-se a metodologia usada para mineração
de dados nas bases de dados das provas do ENEM de 2016 e de 2017; na seção 6 são
discutidos os resultados encontrados da seção 5; na seção 7 vem as conclusões sobre o
Data Mining e sobre os resultados obtidos e na última seção as referências usadas para a
criação deste artigo.
2. Fundamentação teórica
Os dados brutos, tais como foram descritos, apesar de não serem úteis no estado in na-
tura, são extremamente importantes quando investigados por técnicas de análise de dados.
Contudo, até três décadas atrás, o processo de análise de dados era, na grande maioria dos
casos, manual, lento e extremamente complexo [Félix 1998].
Contudo, com o passar do tempo, a quantidade de informação gerada e arma-
zenada cresceu exponencialmente criando bases de dados já na ordem dos gigabytes e
terabytes[Félix 1998]. Somado a isso, tais conjuntos não são desafiadores apenas por
serem extensos, mas também pela complexidade dos elementos e da relação entre eles.
Muitas vezes, os dados analisados não estão bem estruturados, podendo estar hiperligados
(como em páginas da web), partirem de estruturas sequenciais e tridimensionais, (como
em análises de ácido desoxirribonucleico - DNA), ou mesmo serem dados climáticos ob-
tidos em diversas partes do planeta como fruto de medidas temporais. Além disso, como
se não bastasse, as técnicas para extração de informação nestes casos exigem suporte para
alta dimensionalidade e alta escalabilidade, ou seja, devem respectivamente trabalhar com
muitas dimensões e terem capacidade de ora trabalhar com bases na ordem dos gigabytes,
ora com petabytes [Tan et al. 2009].
Conclui-se, portanto, que extrações manuais se fizeram humanamente impossı́veis
e impulsionaram a busca de uma nova forma de estudar as informações obtidas e absorver
conhecimento, Data Mining.
3. Knowledge Discovery in Databases

No contexto da absorção de conhecimento, existe uma área denominada Descoberta de
Conhecimento em Bases de Dados (Knowledge Discovery in Databases - KDD), que,
nos últimos anos, despertou grande interesse entre às comunidades cientı́fica e indus-
trial. A expressão Mineração de Dados (Data Mining), é na realidade, uma das eta-
pas da Descoberta de Conhecimento em Bases de Dados [Goldschmidt et al. 2015]. Se-
gundo [Fayyad et al. 1996], o KDD consiste em um processo não trivial que almeja a
identificação de padrões válidos, novos, potencialmente úteis e compreensı́veis, que estão
embutidos nos dados.
Para entender melhor o conceito de KDD é necessário entender a diferença entre
dado, informação e conhecimento. O dado é entendido como um elemento da informação,
um conjunto de letras, números ou dı́gitos que, tomados isoladamente, não transmitem
nenhum conhecimento. A informação é todo dado trabalhado, útil, tratado, com valor
atribuı́do ou agregado a ele e com sentido natural e lógico para quem usa a informação.
Quando a informação é trabalhada por pessoas e pelos recursos computacionais, possibi-
litando a geração de cenários, simulações e oportunidades, pode ser chamada de conheci-
mento [Salgado et al. 2007].
Segundo [Maimon and Rokach 2005], KDD é o processo organizado que visa bus-
car novos padrões e informações úteis dentro de grandes conjuntos de dados, sendo o pro-
cesso de mineração de dados o núcleo desse processo, que envolvem seus algoritmos que
exploram dados, modelando e encontrando padrões até então desconhecidos. As etapas
no processo de KDD podem ser observadas na figura 1 abaixo:
Figura 1. Etapas do processo de KDD
Fonte: [Félix 1998]
Esse processo é composto de várias etapas que vão da definição e compreensão

do problema até a etapa da análise na qual os dados são interpretados e avaliados, o Data
mining é um desses processos [Félix 1998], [Fayyad et al. 1996].
A primeira se trata da definição dos objetivos a atingir, que geralmente é realizada
por especialistas do domı́nio ou os proprietários da base de dados com o apoio do especi-
alista do KDD, a fim de definir o domı́nio da aplicação, conhecimento prévio, resultados
esperados, entre outros. O produto dessa iteração deve ser uma documentação completa
do domı́nio do problema [Félix 1998], [Fayyad et al. 1996], [Silva 2017].
A próxima etapa consiste em selecionar, ou criar, uma base de dados usando um
conjunto de elementos de várias fontes de dados. Isto envolve considerações de homo-
geneidade dos dados e identificação das fontes desses dados. Nessa etapa consegue-se
melhor identificar as limitações do domı́nio [Félix 1998], [Silva 2017].
A compreensão dos dados é uma etapa importante pois, em muitas aplicações é
imprescindı́vel interpretar os dados para ter um melhor entendimento do domı́nio. Vale
ressaltar que a visualização dos dados tem um papel importante para que se tenha uma
percepção visual e entendimento, as capacidades de cálculo e as associações de uma forma
mais compreensı́vel [Félix 1998].
Na etapa de seleção das amostras mais representativas, a escolha de uma amostra
que reflita com fidelidade a base de dados usada é de grande importância para as demais
etapas do KDD [Félix 1998]. [Soczek and Orlovski ] cita Santos (2005) que afirma que
essa etapa é onde o analisador separa a informação, visando os arquivos necessários para
obter informações, e descartando os arquivos sem utilidades.
O enriquecimento do conjunto de dados as vezes é necessário para agregar dados
externos a base, quando o conjunto de dados selecionado necessita de algo mais para
atingir as metas determinadas no inı́cio do processo [Félix 1998].
Na etapa de limpeza e conjunto de dados, inclui basicamente, a padronização e
eliminação de ruı́dos gerados de diversas formas nos conjuntos de dados. Alguns pon-
tos devem ser considerados nessa etapa, como já citado, a padronização do conteúdo
dos registros, análise de valores desconhecidos para determinar se é melhor eliminar
ou tratar esses dados, eliminação de dados duplicados, tratamento de ruı́dos e cuida-
dos com dados fora dos limites estabelecidos, já que os dados são encontrados com
inúmeras inconsistências [Félix 1998], [Fonseca and Namen 2016] e [Silva 2017]. Se-
gundo [Han and Kamber 2006] essa etapa também corrige erros que são encontrados em
bases de dados, que se não tratados, podem comprometer muito a eficácia do resultado da
Mineração de Dados.
Na preparação do conjunto de dados, é necessário fazer algumas adaptações no
conjunto de dados de acordo com a técnica de Data mining que será usada. Alguns desses
aspectos são a simplificação dos valores, agrupamento de valores contı́nuos, normalização
dos dados, transformação de colunas, entre outros [Félix 1998] e [Silva 2017].
Enfim vem a etapa do Data mining, que devido a sua complexidade e importância,
é divida em três sub-etapas: redução de instâncias ou atributos, descoberta de padrões e
pré-avaliação do conhecimento obtido por parte do especialista do KDD [Félix 1998]. A
primeira sub-etapa, se refere a não necessidade de enviar todas as instâncias ou atributos
do conjunto de dados aos algoritmos de Aprendizado de Máquina, a não ser que o espe-
cialista determine o contrário. Reduzir atributos ou instâncias representa a obtenção de
poucas regras ou árvores sem grande complexidade que consegue descrever o modelo. A
segunda sub-etapa visa encontrar padrões, modelos ou classificações dentro do conjunto
de dados através de técnicas de Aprendizado de Máquina. A terceira sub-etapa, tem como
objetivo fazer uma filtragem, eliminando o conhecimento obtido que não representa valor
nenhum e situações óbvias do senso comum [Félix 1998].
A nona etapa é a avaliação do modelo e julgamento da utilidade do conhecimento
extraı́do. A avaliação é uma tarefa difı́cil que envolve uma utilização de técnicas de
visualização para auxiliar o especialista a decidir a importância e utilidade do conheci-
mento extraı́do, bem como a remoção de redundância e irrelevância [Félix 1998].
”A última etapa é a consolidação e utilização do conhecimento extraı́do. Ela pres-
supõe a verificação e solução do potenciais conflitos com o conhecimento existente antes
do processo de KDD”[Félix 1998]. Segundo [Fonseca and Namen 2016] e [Silva 2017],
após uma análise minuciosa, usa-se o conhecimento diretamente incorporando-o a sis-
temas de decisões ou documenta esse conhecimento, expondo as partes interessadas os
novos conhecimentos gerados.
[Soczek and Orlovski ] cita Bonnard (2010) que diz que um dos maiores ı́ndices
de fracasso e informações incorretas vem das etapas de pré-processamento mal aplicadas,
sendo comum as bases de dados estarem dispostas fora de formato adequado, dados rui-
dosos, dados faltantes ou incompletos. Por isso, é fundamental para o sucesso do método
aplicar todas as etapas.
3.1. Mineração de dados
A mineração de dados, segundo [Silva 2017] é definida como um dos processos do KDD
no qual pode extrair informações implı́citas, desconhecidas e úteis a partir da base de
dados. Com esse tipo de abordagem, o trabalho que antes havia se tornado inviável, agora
pode ser feito e executado por técnicas de Data Mining. Tais técnicas surgem visando
auxiliar no processo de atribuição de valores e significado nos elementos contidos no
interior desses imensos repositórios.
O valor dos dados armazenados está tipicamente ligado à capacidade de extrair
conhecimento de mais alto nı́vel a partir deles, ou seja, informação útil que sirva para
apoio à tomada de decisão, e/ou para exploração e melhor entendimento do fenômeno ge-
rador de dados [Goldschmidt et al. 2015]. Contudo, adquirir conhecimento é uma tarefa
complexa com várias etapas que vão desde a extração, a interpretação e representação do
conhecimento [Félix 1998]. Portanto, o conceito de Data Mining está se tornando cada
vez mais popular como uma ferramenta de descoberta de informações, que podem re-
velar estruturas de conhecimento que guiem decisões em condições de certeza limitada
[Côrtes et al. 2002].
A medida que a necessidade foi crescendo e a tecnologia foi se popularizando,
profissionais e pesquisadores de diversas áreas, unidos com o objetivo de explorar esse
novo campo, exploraram diversas vertentes computacionais buscando eficiência e escala-
bilidade.
A seguir, são relacionadas as principais áreas de interesse na utilização de
mineração de dados [Dias 2002]:
• Marketing: As técnicas são usadas para descobrir preferência do consumidor e

padrões de compra, com o objetivo de fazer de produtos e promoções de acordo
com o perfil do consumidor;
• Detecção de fraudes: por exemplo, desenvolvimento de modelos que predizem
quem será um bom cliente ou aquele poderá se tornar inadimplente nos pagamen-
tos;
• Medicina: Caracterizar comportamento de paciente para prever visitas, identificar
terapias médicas de sucesso para diferentes doenças, buscar por padrões de novas
doenças;
• Ciência: Técnicas de mineração de dados podem ajudar cientistas em suas pes-
quisas, como encontrar padrões em estruturas moleculares, dados genéticos;
• Controle de processos e controle de qualidade: Auxiliar no planejamento es-
tratégico de linhas de produção e buscar por padrões de condições fı́sicas na em-
balagem e armazenamento de produtos;
• Banco. Detectar padrões de uso de cartão de crédito fraudulento, identificar cli-
entes “leais”, determinar gastos com cartão de crédito por grupos de clientes, en-
contrar correlações escondidas entre diferentes indicadores financeiros;
3.2. Técnicas de mineração de dados

Segundo [Loh 2014] temos como principais técnicas de mineração de dados que será
descrita a seguir.
3.2.1. Regras de associação
O objetivo dessa técnica é avaliar que valores aparecem muito juntos nas mesmas
transições ou eventos (ex.: carrinho de compras), mas também pode ser utilizada para
identificar relações entre atributos dentro de uma mesma entidade (ex.: clientes do sexo
feminino costumam morar mais no bairro X). Essa técnica é a mais famosa e ficou conhe-
cida depois que uma rede de supermercados ao utilizar uma ferramenta de data mining
com essa técnica, descobriu que, nas sexta-feiras, quem comprava fraldas também com-
prava cerveja[Sferra and Corrêa 2004].
3.2.2. Regras de correlação
A técnica procurar avaliar a similaridade entre duas variáveis numéricas. Esse tipo de
análise não diz se um atributo leva, se é causa ou se é consequência de um outro, ele
apenas indica que há uma forte relação entre os atributos, pelos seus valores quantitativos.
Essa análise pode indicar a força da correlação entre os atributos. Exemplos: Número de
horas de treinamento de um funcionário x Número de falhas; Número de vendedores x
tamanho da receita; aumento de vendas x aumento de salário; Número de promoções x
aumento de clientes[Sferra and Corrêa 2004].
3.2.3. Correlação assı́ncrona
A técnica procurar avaliar se tem correlação entre duas variáveis, mas utilizando como
marco zero, momentos distintos no tempo. Por exemplo, segundo Steven sugere haver
uma relação entre a redução de crimes no Natal de 1989 nos EUA e a legalização do
aborto naquele paı́s 20 anos antes.
3.2.4. Análise de regressão e Modelos de Predição
É uma técnica estatı́stica que estuda a relação entre duas ou mais variáveis, procurando
elaborar um modelo para explicar o com portamento relativo destas variáveis. Normal-
mente, essa técnica é uma função matemática que relaciona as variáveis, ou seja, com
base no valor da variável dependente, é possı́vel calcular o valor de outras variáveis. Por
exemplo, imagine que a Coca Cola tivesse uma função relacionando o dia do ano com a
quantidade vendida do seu produto. A função iria dizer quanto a Coca Cola iria vender
num determinado dia futuro.
Usando as análises de regressão citadas anteriormente, é possı́vel fazer simulações
fornecendo como entrada dados ainda não observador. Por exemplo: se tivesse um
modelo que relacionasse número de vagas nas escolas com número de empregos, e
terı́amos informações sobre idade e nı́vel de escolaridade de cada pessoa, e que ainda
fosse possı́vel determinar a taxa de crescimento da população, vagas nas escolas e empre-
gos, usando a análise de regressão seria possı́vel ter uma função matemática relacionando
essas variáveis.
3.2.5. Média e detecção de desvios
Na falta de uma função podemos usar pontos médios. Por exemplo, podemos fazer uma
função média com os valores médios de um histórico de vendas de 3 anos ou mesmo
utilizar intervalos, e isto ajudaria a prever o comportamento para anos futuros.
A detecção de desvios é uma técnica utiliza funções ou intervalos médios
(padrões), mas seu objetivo é estar atento aos desvios dos valores médios; (outliers).
Em alguns casos eles são mais importantes que os demais casos, por exemplo investigar
por que somente uma pessoa comprou o produto X no último mês, por que um vendedor
não atingiu a meta, análise de saı́das de um determinado material do almoxarifado de uma
empresa.
3.2.6. Sequência de tempo e séries temporais
A técnica de sequência de tempo analisa sequências de eventos. Por exemplo se muitas

pessoas compram uma TV fina hoje e voltam depois de 3 meses para comprar um home
theater, isto é uma função dessa técnica.
Quando não é possı́vel encontrar uma função que descreve um comportamento de
uma variável, por exemplo valor das ações de uma empresa ao longo do tempo, pode-
se tentar prever pelo menos valores futuros num pequeno espaço de tempo usando séries
temporais. Uma das formas de fazer isso é analisar repetições de séries por vários perı́odos
de tempo. Mas como ela é baseada na premissa de que os comportamentos se repetem, se
isso não acontecer, não há por que usar séries temporais [Sferra and Corrêa 2004].
3.2.7. Classificação e clusterização
A técnica de classificação tem por objetivo encontrar a classe de um elemento. Essa

classe também de ser uma ação como, por exemplo, aprovar ou rejeitar um pedido de
empréstimo. Para que essa técnica funcione, as classes deverão já existir previamente
[Sferra and Corrêa 2004].
Clusterização ou agrupamento é uma técnica que recebe um grupo de elementos
e daı́ identifica as classes, ou seja, diferente da técnica de classificação, as classes não
existem ainda ou não são conhecidas. O princı́pio dessa técnica é colocar no mesmo
grupo os elementos mais similares e em grupos diferentes os elementos poucos similares
3.2.8. Sumarização
Consiste em identificar e indicar similaridades entre registros do conjunto de dados.

Como exemplo, considere um conjunto de dados com informações sobre clientes que
assinam um determinado tipo de revista semanal. Nesse caso, a tarefa de Sumarização
pode ser realizada para buscar caracterı́sticas que sejam comuns a boa parte dos clientes
3.2.9. Outros
[Tan et al. 2009] e [Salgado et al. 2007] listam algumas outras técnicas recorrentes em
Data Mining que são:
• Uso das redes neurais usando como modelos não lineares que aprendem através
de treino;
• Árvores de decisão que representam conjunto de decisão, que gera regras para a
classificação de um conjunto de dados;
• Algoritmos genéticos que são técnicas de otimização que usam processos tais
como combinações genéticas, mutações e seleção natural baseadas no conceito
de evolução;
• Método do vizinho-mais-próximo que classifica cada registro numa base de dados
baseada na combinação das classes dos k registros mais semelhantes a este, que
também é conhecido como K-nearest neighbor;
• Computação paralela e distribuı́da e busca e recuperação de informação.
Por isso, com todo esse arcabouço teórico desenvolvido, as técnicas de Data Mi-
ning tornaram possı́vel prever e descrever o comportamento de imensas bases de da-
dos. Essa área se mostrou eficiente de tal maneira, que tem sido usada, inclusive,
para descrever ou tentar prever o comportamento humano. Como exemplo, segundo
[Song et al. 2016] utilizam técnicas de mineração de dados para tentar observar riscos
de depressão na população de adolescentes e jovens adultos, utilizando dados de 164 re-
des sociais populares diferentes na Coreia do Sul. Utilizando o trabalho produzido por
eles é possı́vel concluir que, apesar do processo de Mineração de dados ser o núcleo da
análise, ela faz parte de um grande processo com diversas etapas que ocorrem antes e
depois do processo de extração de dados.
3.3. K-nearest neighbor (KNN)

O KNN é um algoritmo não-paramétrico muito usado em Data Science e Data Mining
para a classificação ou regressão de dados. Tal algoritmo necessita de no mı́nimo 2 bases
de dados previamente classificadas, que serão usadas para o aprendizado e para poder
classificar os valores da base de dados desconhecida. Já a saı́da dos dados depende de que
maneira o algoritmo é usado, se é para classificação ou se é para regressão.[Altman 1992]
O termo não-paramétrico no KNN significa que o algoritmo em si, não possui um
limite fixo da quantidade de parâmetros ou dados que podem ser alimentados a função, ou
seja, o tamanho e complexidade tem um tamanho potencialmente infinito, já que ambos
podem crescer infinitamente.
Quando usado para classificação, o dado ou objeto é classificado, por meio da
pluralidade das classes dos seus vizinhos, ou seja, a classe do objeto a ser atribuı́do é o
mais comum em seus vizinhos mais próximos.
No KNN a escolha de vizinhos é feita por um valor N, esse valor N é uma quanti-
dade de vizinhos mais próximos do valor desconhecido. A escolha desse valor N, é uma
escolha arbitrária, no qual que ele é influenciado tão como o tamanho da base de dados,
como também a qualidade do mesmo. Por causa disto, muitas vezes é necessário rodar o
KNN várias vezes, variando esse valor ate que ache um valor que é a melhor quantidade
de vizinhos para a solução.[Cota 2018]
Quando usado para regressão, o KNN, atribui a classe de saı́da do objeto como
uma média entre os valores dos seus vizinhos mais próximos.
O KNN, é um tipo de algoritmo baseado em lazy learning, no qual a função apro-
xima os valores localmente e toda computação é gasta na etapa de classificação. Apesar
disto é um dos algoritmos mais simples de mineração de dados e machine learning.
No caso do KNN, o dado a ser classificado, não é comparado com outros dados,
mas é realizado um cálculo matemático que mede a distância entre outros dados e com
isso faz a sua classificação. O cálculo matemático, é qualquer fórmula que pode ser usada
para a medição da distância entre dois pontos, como por exemplo, as fórmulas Euclidiana,
Manhattan, Minkowski, Ponderada, entre outras.
Apesar de que muitos exemplos do KNN serem modelos de classificação de dados,
ele é um algoritmo que pode ser usado para previsão de dados, onde que se ao invés de
aplicar fórmulas de medição de distância, aplicar fórmulas de crescimento de funções, ele
pode ser usado para a previsão de dados.
Como o KNN é um algoritmo que usa bases previamente treinadas, ele é suscetı́vel
a ruı́dos, que são causados quando se usa bases de dados não bem classificadas, que faz
com que os dados a serem classificados sejam mal classificados.[Côrtes et al. 2002]
4. Relação com diversos banco de dados

4.1. Banco de Dados Geográfico
Segundo Miller, os sistemas de informação geográfica geram uma grande quantidade de
dados num ambiente computacional, no qual a cobertura e o volume de dados digitais
geográficos é bastante extensa e cresce continuamente [Gazola and Furtado 2007]. Com
isso as técnicas de mineração de dados se tornam de grande importância para a descoberta
de conhecimento escondido em bases de dados geográficos.
Segundo Miller e Han [Miller and Han 2009], existem várias caracterı́sticas que
devem ser levadas em consideração ao analisar dados geográficos, tais como a incerteza
dos dados; posição geográfica local; o tempo interage com o espaço; redundância de
dados e o elemento de localização.
A mineração de dados geográficos envolve a aplicação de ferramentas compu-
tacionais para revelar padrões em objetos e eventos distribuı́dos no espaço geográfico
e ao longo do tempo. Esses padrões podem envolver as propriedades espaciais de
objetos individuais e eventos e as relações espaço-temporais entre os objetos e even-
tos, além de atributos não espaciais de interesse na mineração de dados tradicional.
[Oliveira and Venturieri 2017]
Para exemplificar uma utilização de mineração de dados em um banco de ge-
ográfico, temos do Anais do XXVII Congresso Brasileiro de Cartografia e XXVI Espo-
sicarta, um artigo com o seguinte tı́tulo: Utilização de mineração de dados e métricas
de paisagem para o mapeamento automatizado de tipologias de paisagem na Amazônia
oriental. Esse artigo tem como objetivo apresentar um mapeamento de tipos de paisagem
através da mineração de dados e métricas de Ecologia de Paisagem, utilizando dados do
projeto TerraClass Amazônia dos anos de 2008 e 2010.
Para fazer essa mineração de dados, foi usado o plugin GeoDMA do software
livre Terra View e o algoritmo C4.5 que faz o uso da técnica de mineração de dados
pela indução de árvores de decisão. O geoDMA é um sistema de análise de imagem que
integra várias ferramentas entre elas a ferramentas de técnicas de mineração de dados
[Oliveira and Venturieri 2017].
4.2. Big Data

O conceito de Big Data pode ser definido, de maneira resumida, como uma coleção
de bases de dados tão complexa e volumosa que torna difı́cil (ou impossı́vel) exe-
cutar operações simples (eg., remoção, ordenação, sumarização) de forma efici-
ente utilizando Sistemas de Gerenciamento de Banco de Dados (SGBD) tradicionais
[Rodrigues Vieira et al. 2012]. Por conta disso, tecnologias nas mais diversas áreas sur-
gem em busca de tornar mais eficientes as aplicações de operações simples, facilitar a
extração de informações úteis e relevantes, que inicialmente não tem ligação, ou mesmo
criar maneiras de entender como tais dados se relacionam.
No dia-a-dia de pequenas e médias empresas, as informações ficam perdidas ou
esquecidas em algum lugar, sem que tragam qualquer benefı́cio para a organização. Os
sistemas de gestão são capazes de armazenar em seus bancos de dados os acontecimen-
tos do dia-a-dia, como estoques, pedidos, compras, orçamentos, contábil, financeiro,
jurı́dico, pós-venda, relacionamento com cliente, vendas. O Data mining pode anali-
sar esse histórico de acontecimentos inseridos diariamente nos sistemas e garantir que no
final do processo todos os dados sejam agrupados para que possam ser visualizados como
um todo, trazendo informações concretas, consistentes e decisivas, o que facilita as toma-
das de decisões das empresas que necessitam de maior rapidez no fluxo das informações
[Fontes et al. 2016].
4.3. Banco de dados orientado a objetos

Um banco de dados orientado a objeto é um banco em que cada informação é armaze-
nada na forma de objetos, e só pode ser manipulada através de métodos definidos pela
classe que esteja o objeto. O conceito de banco de dados orientado a objeto e linguagem
orientado a objeto é o mesmo, tendo uma diferença somente na persistência dos dados
[Carvalho Galante et al. ]. Esse modelo ganhou espaço nas áreas de banco de dados es-
pacias, telecomunicações e nas área cientı́ficas como a fı́sica de alta energia e a biologia
molecular.
O data mining também pode ser usado em banco de dados orientado a objeto,
para buscar algum conhecimento. Como no artigo Uma Linguagem de Consulta para
Mineração de Dados em Banco de Dados Geográficos Orientado a Objetos, dos autores
Nara Martini Bigolin, Vania Bogorny e Luis Otávio Alvares que apresentam uma lingua-
gem de consulta que permite automatizar as etapas de descoberta de conhecimento em
bancos espaciais orientados a objetos [Bigolin et al. ]. No qual fizeram um estudo que
teve por objetivo classificar objetos espaciais (casas) em áreas urbanas e não urbanas,
em um banco de dados cedido pelo Instituto Geográfico Nacional (IGN) da França. A
mineração de dados descobria a quantidade de casas que pertencem ou não a uma zona
urbana, para uma região do mapa formada por três cidades. Além do data mining foram
usadas outras ferramentas e técnicas para automatizar esse processo.
4.4. Data Warehouse

Data Warehouse é uma importante tecnologia existente no desenvolvimento de soluções
de Business Intelligence (BI). Ela é a base para o armazenamento das informações ne-
cessárias para a utilização por gestores e analistas na tomada de decisão [Elias 2014].
Segundo Vieira, Data Warehouse pode ser definido como um depósito de banco de dados
somente leitura utilizado para análise de uma grande quantidade de informações de outros
sistemas, fornecendo um histórico de dados que possibilitam a criação de filtros com o
propósito de encontrar e extrair informações pertinentes. Desse modo Data Warehouse
se comporta como uma coleção de dados que podem ser utilizados como suporte para
determinada aplicação [Vieira 2013].
Comparando os processos de Data Mining e Data Warehouse, é possı́vel observar:
• Data Mining é extração inteligente de dados. De acordo com alguns especialistas,

o Data Warehouse, fornece memória mas não inteligência. A mineração de dados
é uma ferramenta que permite adicionar inteligência à memória que a organização
possui, permitindo realizar descobertas importantes dentro de grandes volumes de
dados;
• Data Warehouse é repositório centralizado de dados. O Data Warehouse integra
os dados corporativos de uma empresa em um único repositório;
• Data Mining não é uma evolução do Data Warehouse. A Mineração de Dados sur-
giu no inı́cio dos anos 90, a partir da reunião de ideias proveniente de diferentes
áreas como Inteligência Artificial, Banco de Dados, Estatı́stica, e Visualização
de Dados. A principal motivação para o surgimento da Mineração de Dados
encontra-se no fato de as organizações estarem armazenando de forma contı́nua
uma enorme quantidade de dados a respeito de seus negócios nas últimas décadas;
• Data Mining não depende do Data Warehouse, mas obtém-se melhores resultados
quando aplicados em conjunto. Especialistas de[U+FB01]nem Data Warehouse
como um depósito central de dados, extraı́do de dados operacionais, em que a
informação é orientada a assuntos, não volátil e de natureza histórica. Devido a
essas caracterı́sticas, Data Warehouses tendem a se tornar grandes repositórios de
dados extremamente organizados, facilitando a aplicação do Data Mining;
• Cada empresa deve saber escolher qual das técnicas é importante para o seu
negócio. (Uma, outra ou as duas);
• Data Warehouse aliado a ferramentas estatı́sticas desempenham papel semelhante
ao Data Mining, mas não descobrem novos padrões de comportamento(a não ser
empiricamente). Já o Data Mining descobre novos padrões de comportamento dos
dados. [Desconhecido ]
4.5. Banco de Dados NoSQL
NoSQL é um movimento que promove soluções de armazenamento de dados de forma
não relacionais. Ele é composto por diversas ferramentas que, de forma particular e es-
pecı́fica, resolvem problemas como tratamento de grandes volumes de dados, execução
de consultas com baixa latência e modelos flexı́veis de armazenamento de dados, como
documentos XML ou JSON.
As tecnologias NoSQL não têm como objetivo substituir os bancos de dados relacionais,
mas apenas propor algumas soluções que em determinados cenários são mais adequadas.
Desta forma é possı́vel trabalhar com tecnologias NoSQL e banco de dados relacionais
dentro de uma mesma aplicação[Porcelli 2011].
A mineração de dados pode também ser usada no NoSQL, porém, como se trata de
um modelo não relacional, pode-se utilizar a técnica de Data Mining sobre dados semi-
estruturados/ não estruturados limitados ao escopo dos possı́veis formatos de dados arma-
zenados em NoSQL. A semi-estruturada não possui estrutura rı́gida, segundo Kanimozhi
and Venkatesan, como por exemplo XML ou JSON. A não estruturada não possui es-
trutura alguma, que pode se referir a documentos comerciais, PDFs, conteúdos de redes
sociais, vı́deos, áudios, entre outros. Uma outra alternativa é realizar a conversão dos
dados semi-estruturados para uma estrutura formal, utilizando técnicas de mineração para
encontrar padrões e extrair informações[Thieli et al. ].
Dessa forma, o surgimento e popularização do NoSQL na última década, trouxe uma
lacuna na análise de dados que geralmente trata apenas de dados no formato relacional.
Portanto, a técnica de mineração de dados foi-se aprimorada de forma a se tornar possı́vel
atender a nova demanda.
5. Metodologia
Para mostrar a aplicabilidade do Data Mining, utilizamos os banco de dados públicos
disponibilizados pelo ENEM dos anos de 2016 e 2017 e geramos um algoritmo pra tentar
prever qual seria a nota das capitais no ano de 2018.
Para fazer esta analise foi-se utilizado o jupyter, que é um ambiente em python
para o processamento de dados, e pandas, que é uma ferramenta pra trabalhar com bases
de dados. Um dos problemas para fazer as analises desses dados era que a base de dados
de cada ano era muito gigante. Isso fez com que tenha sido necessário filtrar essas duas
bases de dados, eliminando campos que não seriam utilizados na analise e gerar uma base
de dados menores e por ai começar a analise.
Esse refinamento dos dados, começou por eliminar as colunas que não seriam
necessárias na analise, como por exemplo, cotas e respostas e salvar as colunas necessárias
para o calculo, que são, Nome da cidade da prova e as notas em cada critério de avaliação
do ENEM. Isso fez com que as bases de dados saı́ssem de 5GB cada para 400MB cada.
Apos esse primeiro refinamento, calculamos a media de todas as cidades no banco de
dados e depois de calculada essa media, apagamos todas as cidades que não eram as
capitais, resultando assim em um banco de dados com o nome da capital e a nota media
em cada quesito de avaliação do ENEM.
Com esses refinamentos, saiu-se de dois bancos de 5GB cada para um banco de
200kB. Tendo refinado e preparado todos os dados. Criou-se um algoritmo baseado no
KNN que ele calcula a diferença de notas entre os anos de 2017 e 2016 e extrapola esses
dados para 2018 para cada cidade.
6. Resultados
Aqui serão apresentados e discutidos os resultados provenientes da parte prática do tra-

balho, usando o algoritmo KNN na base de dados do ENEM de 2016 e de 2017 (figura
2).
Uma coisa que notou-se com a aplicação do KNN nos anos de 2016 e 2017 foi
que as notas em todas as capitais aumentaram, algumas pouco e outras muito, onde que
as capitais mais desenvolvidas tiveram um aumento maior da nota do que a menos desen-
volvidas. Abaixo encontra-se um gráfico mostrando o quanto aumentou a nota em cada
capital.
Figura 2. Fonte: Autores

NO MUNICIPIO PROVA 2017 2016 2018 diferença
Rio Branco 490.293586 487.780850 492.806323 2.512736

Maceió 509.690861 507.191991 512.189732 2.498871
Macapá 492.642306 491.485921 493.798692 1.156385
Manaus 495.221006 494.877848 495.564163 0.343158
Salvador 521.151096 512.626273 529.675918 8.524822
Fortaleza 533.757678 524.471641 543.043716 9.286038
Brası́lia 529.709693 520.955431 538.463956 8.754263
Vitória 555.130732 546.949010 563.312454 8.181722
Goiânia 542.935112 531.323698 554.546525 11.611414
São Luı́s 502.581009 500.814634 504.347385 1.766375
Cuiabá 511.568693 504.763430 518.373957 6.805264
Campo Grande 528.344092 512.651260 544.036925 15.692833
Belo Horizonte 553.474627 543.636859 563.312395 9.837768
Belém 514.853674 508.104989 521.602360 6.748686
João Pessoa 521.955073 520.473279 523.436866 1.481793
Curitiba 553.122208 537.249119 568.995298 15.873089
Recife 525.403855 524.571204 526.236507 0.832651
Teresina 520.032072 508.051507 532.012638 11.980566
Rio de Janeiro 546.489496 545.527489 547.451503 0.962007
Natal 531.194965 528.498805 533.891125 2.696160
Porto Alegre 550.491848 538.942001 562.041695 11.549847
Porto Velho 497.049402 494.988838 499.109966 2.060564
Boa Vista 495.033318 494.527536 495.539101 0.505782
Florianópolis 564.475692 556.837663 572.113721 7.638029
São Paulo 532.889465 531.812736 533.966195 1.076729
Aracaju 527.996399 519.877266 536.115532 8.119133
Palmas 510.823159 503.479644 518.166675 7.343516
7. Conclusão
Conclui-se por meio desse texto que os conceitos aqui apresentados são e continuarão
sendo de suma importância para o desenvolvimento de um profissional que trabalha com
análise de dados. Tais técnicas abrangem o mercado, a academia e torna-se cada vez mais
presente na vida cotidiana das pessoas. Com a aplicação descrita acima, foi possı́vel ob-
servar a capacidade de previsão do Knn e aplicar partes do Kdd no processo de mineração.
Essa aplicação gerou resultados que possibilitaram comparar as regiões do pais em relação
a seu desempenho no Exame Nacional do Ensino Médio. Com isso, foi possı́vel enten-
der de maneira mais direta o quão poderosa e custosa é aplicação dos conceito de Data
Mining.
Referências
[Altman 1992] Altman, N. S. (1992). An Introduction to Kernel and Nearest-Neighbor Non-
parametric Regression. The American Statistician, 46(3):175–185.
[Bigolin et al. ] Bigolin, N. M., Bogorny, V., and Alvares, L. O. Uma Linguagem de Con-
sulta para Mineração de Dados em Banco de Dados Geográficos Orientado a Objetos.
Technical report.
[Carvalho Galante et al. ] Carvalho Galante, A., Salesiana, F., Auxiliadora, M., Leonardo,
E., Moreira, R., Flávio, M. A., and Brandão, C. Banco de dados orientado a objetos:
uma realidade. Technical report.
[Côrtes et al. 2002] Côrtes, S. d. C., Porcaro, R. M., and Lifschitz, S. (2002). Mineração de
Dados: Funcionalidades, Técnicas e Abordagens. Technical report, Rio de Janeiro.
[Cota 2018] Cota, J. M. M. D. C. (2018). Análise dos bolsistas de produtividade na plata-
forma de currı́culos Lattes do CNPq. page 10.
[Desconhecido ] Desconhecido. Data Mining X Data Warehouse - Mineração de Dados 1o
B.
[Dias 2002] Dias, M. M. (2002). Parâmetros na escolha de técnicas e ferramentas de
mineração de dados. page 11.
[Elias 2014] Elias, D. (2014). Conhecendo a arquitetura de Data Warehouse - Business
Intelligence.
[Fayyad et al. 1996] Fayyad, U., Piatetsky-Shapiro, G., and Smyth, P. (1996). From Data
Mining to Knowledge Discovery in Databases. 17:18.
[Félix 1998] Félix, L. C. M. (1998). Data Mining no Processo de Extração de Conheci-
mento de Bases de Dados. Technical report, Dissertação (Mestrado em Ciências de
Computação e Matemática Computacional) - Universidade de São Paulo, São Carlos.
[Fonseca and Namen 2016] Fonseca, S. O. d. and Namen, A. A. (2016). Mineração em
Bases de Dados do Inep: Uma Análise Exploratória Para Nortear Melhorias no Sistema
Educacional Brasileiro. Educação em Revista, 32(1):133–157.
[Fontes et al. 2016] Fontes, N. R., Almeida, J. W. R. d., and Silva, G. d. (2016). Utilização
do Big Data para obter vantagens competitivas. 1, page 10.
[Gazola and Furtado 2007] Gazola, A. and Furtado, A. L. (2007). Bancos de Dados Ge-
ográficos Inteligentes. page 21.
[Goldschmidt et al. 2015] Goldschmidt, R., Passos, E., and Bezerra, E. (2015). Data mi-
ning: Conceitos, técnicas, algortimos, orientações e aplicações. Elsevier Editora Ltda,
Rio de Janeiro, 2 edition.
[Han and Kamber 2006] Han, J. and Kamber, M. (2006). Data Mining: Concepts and Te-
chniques. Diane Cerra, San Francisco, 2 edition.
[Loh 2014] Loh, S. (2014). BI na era do big data para cientistas de dados - indo além de
cubos e dashboards na busca pelos porquês, explicações e padrões. page 159.
[Maimon and Rokach 2005] Maimon, O. and Rokach, L. (2005). Data Mining and Kno-
wledge Discovery Handbook. Springer-Verlag, New York, 2 edition.
[Miller and Han 2009] Miller, H. J. and Han, J. (2009). Geographic data mining and kno-
wledge discovery: An overview. In Geographic Data Mining and Knowledge Disco-
very, Second Edition, pages 1–26. CRC Press.
[Oliveira and Venturieri 2017] Oliveira, R. R. S. and Venturieri, A. (2017). Utilização de
Mineração de Dados e Métricas de Paisagem Para o Mapeamento Automatizado de
Tipologias De Paisagem Na Amazônia Oriental. page 5.
[Porcelli 2011] Porcelli, A. (2011). O que é NoSQL? - Java Magazine 87.
[Rodrigues Vieira et al. 2012] Rodrigues Vieira, M., Maimone De Figueiredo, J., Liberatti,
G., Fellipe, A., and Viebrantz, M. (2012). Minicurso 1 Bancos de Dados NoSQL:
Conceitos, Ferramen-tas, Linguagens e Estudos de Casos no Contexto de Big Data.
Technical report.
[Salgado et al. 2007] Salgado, A. B., Uzai, D. d. O., Salema, H. A. M., and Netto, J. M.
(2007). Minerando regras de associação: Uma ferramenta de Data Mining. Technical
report, CEFET-RJ, Campos dos Goytcazes.
[Sferra and Corrêa 2004] Sferra, H. H. and Corrêa, [U+FFFD] M. C. J. (2004). Conceitos
e Aplicações de Data Mining. 22, 11:19–34.
[Silva 2017] Silva, A. L. S. (2017). Aplicação de Mineração de Dados na Descoberta de
Perfis de Alunos De Uma Escola de Ensino Público. Technical report, Universidade
Federal do Rio Grande do Norte, Caicó.
[Soczek and Orlovski ] Soczek, F. C. and Orlovski, R. Mineração de Dados: Conceitos e
aplicação de algoritmos em uma Base de Dados na área da saúde. Technical report.
[Song et al. 2016] Song, J., Song, T. M., Seo, D. C., and Jin, J. H. (2016). Data Mining
of Web-Based Documents on Social Networking Sites That Included Suicide-Related
Words Among Korean Adolescents. Journal of Adolescent Health, 59(6):668–673.
[Tan et al. 2009] Tan, P.-N., Steinbach, M., and Kumar, V. (2009). Introdução ao Data
Mining.
[Thieli et al. ] Thieli, F., Machado, S., and De Brum Saccol, D. MineraçMineraç˜Mineração
de dados para modelos NoSQL: um survey. Technical report.
[Vieira 2013] Vieira, B. (2013). Conceito de Data Warehouse, Data Mart, Data Mining e
Text Mining — Bruno Vieira - MSP.

Artigo Mineração de Dados

Hochgeladen von

Dokumentinformationen

Originalbeschreibung:

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Artigo Mineração de Dados

Hochgeladen von

Copyright:

Verfügbare Formate

INTRODUÇÃO AO DATA MINING E APLICAÇÕES

Adriel V. M. Araújo 1 , Diêgo G. Piovezana1 ,

Resumo. As técnicas de Mineração de dados tem sido muito estudadas e

Palavras-chave: Mineração de Dados, ENEM, Educação, K Nearest Neighbor

3. Knowledge Discovery in Databases

Figura 1. Etapas do processo de KDD

Fonte: [Félix 1998]

Esse processo é composto de várias etapas que vão da definição e compreensão

3.1. Mineração de dados

• Marketing: As técnicas são usadas para descobrir preferência do consumidor e

3.2. Técnicas de mineração de dados

3.2.1. Regras de associação

3.2.2. Regras de correlação

3.2.3. Correlação assı́ncrona

3.2.4. Análise de regressão e Modelos de Predição

3.2.5. Média e detecção de desvios

3.2.6. Sequência de tempo e séries temporais

A técnica de sequência de tempo analisa sequências de eventos. Por exemplo se muitas

3.2.7. Classificação e clusterização

A técnica de classificação tem por objetivo encontrar a classe de um elemento. Essa

Consiste em identificar e indicar similaridades entre registros do conjunto de dados.

3.3. K-nearest neighbor (KNN)

4. Relação com diversos banco de dados

4.2. Big Data

4.3. Banco de dados orientado a objetos

4.4. Data Warehouse

• Data Mining é extração inteligente de dados. De acordo com alguns especialistas,

Aqui serão apresentados e discutidos os resultados provenientes da parte prática do tra-

Figura 2. Fonte: Autores

Rio Branco 490.293586 487.780850 492.806323 2.512736

Das könnte Ihnen auch gefallen