Sie sind auf Seite 1von 16

INTRODUÇÃO AO DATA MINING E APLICAÇÕES

Adriel V. M. Araújo 1 , Diêgo G. Piovezana1 ,


Mateus F. M. C. Cota 1 , Maycon A. Carvalho1
1
Centro Federal de Educação Tecnológica de Minas Gerais (CEFET-MG)
– campus Timóteo 35180-008 – Timóteo – MG – Brasil

Abstract. Data Mining techniques have been extensively studied and applied
by industry and science in an attempt to extend the knowledge gained from data
stored in previous experiences. This study proposes to present concepts and te-
chniques on data mining and also to apply techniques proposing to analyze the
profile of the candidates submitted to the National High School Examination
(ENEM), aiming to generate a forecast of future results mining data obtained in
previous bases generated by the National Institute of Studies and Educational
Research Anı́sio Teixeira (INEP). In this way, it was tried to compare the stu-
dent’s notes in the capitals of the country, making a progression of the notes for
the year 2018.

Resumo. As técnicas de Mineração de dados tem sido muito estudadas e


aplicadas pela indústria e ciência na tentativa de ampliar o conhecimento
adquirido a partir de dados armazenados em experiências anteriores. Este
estudo propõe apresentar conceitos e técnicas sobre mineração de dados e
também aplicar técnicas propondo analisar o perfil dos candidatos submetidos
ao Exame Nacional do Ensino Médio (ENEM), visando gerar uma previsão
de resultados futuros minerando dados obtidos em bases anteriores geradas
pelo Instituto Nacional de Estudos e Pesquisas Educacionais Anı́sio Teixeira
(INEP). Desta maneira, buscou-se comparar as notas dos aluno nas capitais
do paı́s, fazendo uma progressão das notas para o ano de 2018.

Palavras-chave: Mineração de Dados, ENEM, Educação, K Nearest Neighbor

1. Introdução
Os constantes avanços na área da Tecnologia da Informação têm viabilizado o armaze-
namento de grandes e múltiplas bases de dados [Goldschmidt et al. 2015]. Por isso, uma
vez associadas a necessidade crescente de perpetuar informações, principalmente devido
ao desenvolvimento das novas formas de comunicação e produção, surgiram questões
relacionadas a utilização e serventia das cada vez maiores bases de dados.
Neste contexto, a proposta desse artigo além de introduzir os conceitos de Data
mining, também aplicar um processo de mineração de dados, visando estudar, compreen-
der e relacionar dados brutos de um banco de dados com milhões de colunas. Os dados
contidos nesse repositório, são resultados e informações de candidatos que realizaram o
Exame Nacional do Ensino Médio (ENEM) no ano de 2016 e 2017. Tal base de dados, é
disponibilizada pelo próprio órgão que administra o exame e pode ser encontrado no se-
guinte link http://portal.inep.gov.br/microdados. Com tal aplicação, espera-se gerar uma
previsão dos resultados futuros de cada capital do paı́s.
O artigo está organizado como segue: a seção 2 segue com a revisão bibliográfica;
na seção 3 descreve as fases do processo de descoberta de conhecimento em bases de
dados, também descreve mais detalhadamente a mineração de dados e um dos métodos
usados para fazer essa busca de conhecimento; na seção 4 é descrito a relação de data
mining com bancos de dados; na seção 5 descreve-se a metodologia usada para mineração
de dados nas bases de dados das provas do ENEM de 2016 e de 2017; na seção 6 são
discutidos os resultados encontrados da seção 5; na seção 7 vem as conclusões sobre o
Data Mining e sobre os resultados obtidos e na última seção as referências usadas para a
criação deste artigo.

2. Fundamentação teórica
Os dados brutos, tais como foram descritos, apesar de não serem úteis no estado in na-
tura, são extremamente importantes quando investigados por técnicas de análise de dados.
Contudo, até três décadas atrás, o processo de análise de dados era, na grande maioria dos
casos, manual, lento e extremamente complexo [Félix 1998].
Contudo, com o passar do tempo, a quantidade de informação gerada e arma-
zenada cresceu exponencialmente criando bases de dados já na ordem dos gigabytes e
terabytes[Félix 1998]. Somado a isso, tais conjuntos não são desafiadores apenas por
serem extensos, mas também pela complexidade dos elementos e da relação entre eles.
Muitas vezes, os dados analisados não estão bem estruturados, podendo estar hiperligados
(como em páginas da web), partirem de estruturas sequenciais e tridimensionais, (como
em análises de ácido desoxirribonucleico - DNA), ou mesmo serem dados climáticos ob-
tidos em diversas partes do planeta como fruto de medidas temporais. Além disso, como
se não bastasse, as técnicas para extração de informação nestes casos exigem suporte para
alta dimensionalidade e alta escalabilidade, ou seja, devem respectivamente trabalhar com
muitas dimensões e terem capacidade de ora trabalhar com bases na ordem dos gigabytes,
ora com petabytes [Tan et al. 2009].
Conclui-se, portanto, que extrações manuais se fizeram humanamente impossı́veis
e impulsionaram a busca de uma nova forma de estudar as informações obtidas e absorver
conhecimento, Data Mining.

3. Knowledge Discovery in Databases


No contexto da absorção de conhecimento, existe uma área denominada Descoberta de
Conhecimento em Bases de Dados (Knowledge Discovery in Databases - KDD), que,
nos últimos anos, despertou grande interesse entre às comunidades cientı́fica e indus-
trial. A expressão Mineração de Dados (Data Mining), é na realidade, uma das eta-
pas da Descoberta de Conhecimento em Bases de Dados [Goldschmidt et al. 2015]. Se-
gundo [Fayyad et al. 1996], o KDD consiste em um processo não trivial que almeja a
identificação de padrões válidos, novos, potencialmente úteis e compreensı́veis, que estão
embutidos nos dados.
Para entender melhor o conceito de KDD é necessário entender a diferença entre
dado, informação e conhecimento. O dado é entendido como um elemento da informação,
um conjunto de letras, números ou dı́gitos que, tomados isoladamente, não transmitem
nenhum conhecimento. A informação é todo dado trabalhado, útil, tratado, com valor
atribuı́do ou agregado a ele e com sentido natural e lógico para quem usa a informação.
Quando a informação é trabalhada por pessoas e pelos recursos computacionais, possibi-
litando a geração de cenários, simulações e oportunidades, pode ser chamada de conheci-
mento [Salgado et al. 2007].
Segundo [Maimon and Rokach 2005], KDD é o processo organizado que visa bus-
car novos padrões e informações úteis dentro de grandes conjuntos de dados, sendo o pro-
cesso de mineração de dados o núcleo desse processo, que envolvem seus algoritmos que
exploram dados, modelando e encontrando padrões até então desconhecidos. As etapas
no processo de KDD podem ser observadas na figura 1 abaixo:

Figura 1. Etapas do processo de KDD

Fonte: [Félix 1998]

Esse processo é composto de várias etapas que vão da definição e compreensão


do problema até a etapa da análise na qual os dados são interpretados e avaliados, o Data
mining é um desses processos [Félix 1998], [Fayyad et al. 1996].
A primeira se trata da definição dos objetivos a atingir, que geralmente é realizada
por especialistas do domı́nio ou os proprietários da base de dados com o apoio do especi-
alista do KDD, a fim de definir o domı́nio da aplicação, conhecimento prévio, resultados
esperados, entre outros. O produto dessa iteração deve ser uma documentação completa
do domı́nio do problema [Félix 1998], [Fayyad et al. 1996], [Silva 2017].
A próxima etapa consiste em selecionar, ou criar, uma base de dados usando um
conjunto de elementos de várias fontes de dados. Isto envolve considerações de homo-
geneidade dos dados e identificação das fontes desses dados. Nessa etapa consegue-se
melhor identificar as limitações do domı́nio [Félix 1998], [Silva 2017].
A compreensão dos dados é uma etapa importante pois, em muitas aplicações é
imprescindı́vel interpretar os dados para ter um melhor entendimento do domı́nio. Vale
ressaltar que a visualização dos dados tem um papel importante para que se tenha uma
percepção visual e entendimento, as capacidades de cálculo e as associações de uma forma
mais compreensı́vel [Félix 1998].
Na etapa de seleção das amostras mais representativas, a escolha de uma amostra
que reflita com fidelidade a base de dados usada é de grande importância para as demais
etapas do KDD [Félix 1998]. [Soczek and Orlovski ] cita Santos (2005) que afirma que
essa etapa é onde o analisador separa a informação, visando os arquivos necessários para
obter informações, e descartando os arquivos sem utilidades.
O enriquecimento do conjunto de dados as vezes é necessário para agregar dados
externos a base, quando o conjunto de dados selecionado necessita de algo mais para
atingir as metas determinadas no inı́cio do processo [Félix 1998].
Na etapa de limpeza e conjunto de dados, inclui basicamente, a padronização e
eliminação de ruı́dos gerados de diversas formas nos conjuntos de dados. Alguns pon-
tos devem ser considerados nessa etapa, como já citado, a padronização do conteúdo
dos registros, análise de valores desconhecidos para determinar se é melhor eliminar
ou tratar esses dados, eliminação de dados duplicados, tratamento de ruı́dos e cuida-
dos com dados fora dos limites estabelecidos, já que os dados são encontrados com
inúmeras inconsistências [Félix 1998], [Fonseca and Namen 2016] e [Silva 2017]. Se-
gundo [Han and Kamber 2006] essa etapa também corrige erros que são encontrados em
bases de dados, que se não tratados, podem comprometer muito a eficácia do resultado da
Mineração de Dados.
Na preparação do conjunto de dados, é necessário fazer algumas adaptações no
conjunto de dados de acordo com a técnica de Data mining que será usada. Alguns desses
aspectos são a simplificação dos valores, agrupamento de valores contı́nuos, normalização
dos dados, transformação de colunas, entre outros [Félix 1998] e [Silva 2017].
Enfim vem a etapa do Data mining, que devido a sua complexidade e importância,
é divida em três sub-etapas: redução de instâncias ou atributos, descoberta de padrões e
pré-avaliação do conhecimento obtido por parte do especialista do KDD [Félix 1998]. A
primeira sub-etapa, se refere a não necessidade de enviar todas as instâncias ou atributos
do conjunto de dados aos algoritmos de Aprendizado de Máquina, a não ser que o espe-
cialista determine o contrário. Reduzir atributos ou instâncias representa a obtenção de
poucas regras ou árvores sem grande complexidade que consegue descrever o modelo. A
segunda sub-etapa visa encontrar padrões, modelos ou classificações dentro do conjunto
de dados através de técnicas de Aprendizado de Máquina. A terceira sub-etapa, tem como
objetivo fazer uma filtragem, eliminando o conhecimento obtido que não representa valor
nenhum e situações óbvias do senso comum [Félix 1998].
A nona etapa é a avaliação do modelo e julgamento da utilidade do conhecimento
extraı́do. A avaliação é uma tarefa difı́cil que envolve uma utilização de técnicas de
visualização para auxiliar o especialista a decidir a importância e utilidade do conheci-
mento extraı́do, bem como a remoção de redundância e irrelevância [Félix 1998].
”A última etapa é a consolidação e utilização do conhecimento extraı́do. Ela pres-
supõe a verificação e solução do potenciais conflitos com o conhecimento existente antes
do processo de KDD”[Félix 1998]. Segundo [Fonseca and Namen 2016] e [Silva 2017],
após uma análise minuciosa, usa-se o conhecimento diretamente incorporando-o a sis-
temas de decisões ou documenta esse conhecimento, expondo as partes interessadas os
novos conhecimentos gerados.
[Soczek and Orlovski ] cita Bonnard (2010) que diz que um dos maiores ı́ndices
de fracasso e informações incorretas vem das etapas de pré-processamento mal aplicadas,
sendo comum as bases de dados estarem dispostas fora de formato adequado, dados rui-
dosos, dados faltantes ou incompletos. Por isso, é fundamental para o sucesso do método
aplicar todas as etapas.

3.1. Mineração de dados

A mineração de dados, segundo [Silva 2017] é definida como um dos processos do KDD
no qual pode extrair informações implı́citas, desconhecidas e úteis a partir da base de
dados. Com esse tipo de abordagem, o trabalho que antes havia se tornado inviável, agora
pode ser feito e executado por técnicas de Data Mining. Tais técnicas surgem visando
auxiliar no processo de atribuição de valores e significado nos elementos contidos no
interior desses imensos repositórios.
O valor dos dados armazenados está tipicamente ligado à capacidade de extrair
conhecimento de mais alto nı́vel a partir deles, ou seja, informação útil que sirva para
apoio à tomada de decisão, e/ou para exploração e melhor entendimento do fenômeno ge-
rador de dados [Goldschmidt et al. 2015]. Contudo, adquirir conhecimento é uma tarefa
complexa com várias etapas que vão desde a extração, a interpretação e representação do
conhecimento [Félix 1998]. Portanto, o conceito de Data Mining está se tornando cada
vez mais popular como uma ferramenta de descoberta de informações, que podem re-
velar estruturas de conhecimento que guiem decisões em condições de certeza limitada
[Côrtes et al. 2002].
A medida que a necessidade foi crescendo e a tecnologia foi se popularizando,
profissionais e pesquisadores de diversas áreas, unidos com o objetivo de explorar esse
novo campo, exploraram diversas vertentes computacionais buscando eficiência e escala-
bilidade.
A seguir, são relacionadas as principais áreas de interesse na utilização de
mineração de dados [Dias 2002]:

• Marketing: As técnicas são usadas para descobrir preferência do consumidor e


padrões de compra, com o objetivo de fazer de produtos e promoções de acordo
com o perfil do consumidor;
• Detecção de fraudes: por exemplo, desenvolvimento de modelos que predizem
quem será um bom cliente ou aquele poderá se tornar inadimplente nos pagamen-
tos;
• Medicina: Caracterizar comportamento de paciente para prever visitas, identificar
terapias médicas de sucesso para diferentes doenças, buscar por padrões de novas
doenças;
• Ciência: Técnicas de mineração de dados podem ajudar cientistas em suas pes-
quisas, como encontrar padrões em estruturas moleculares, dados genéticos;
• Controle de processos e controle de qualidade: Auxiliar no planejamento es-
tratégico de linhas de produção e buscar por padrões de condições fı́sicas na em-
balagem e armazenamento de produtos;
• Banco. Detectar padrões de uso de cartão de crédito fraudulento, identificar cli-
entes “leais”, determinar gastos com cartão de crédito por grupos de clientes, en-
contrar correlações escondidas entre diferentes indicadores financeiros;

3.2. Técnicas de mineração de dados


Segundo [Loh 2014] temos como principais técnicas de mineração de dados que será
descrita a seguir.

3.2.1. Regras de associação

O objetivo dessa técnica é avaliar que valores aparecem muito juntos nas mesmas
transições ou eventos (ex.: carrinho de compras), mas também pode ser utilizada para
identificar relações entre atributos dentro de uma mesma entidade (ex.: clientes do sexo
feminino costumam morar mais no bairro X). Essa técnica é a mais famosa e ficou conhe-
cida depois que uma rede de supermercados ao utilizar uma ferramenta de data mining
com essa técnica, descobriu que, nas sexta-feiras, quem comprava fraldas também com-
prava cerveja[Sferra and Corrêa 2004].

3.2.2. Regras de correlação

A técnica procurar avaliar a similaridade entre duas variáveis numéricas. Esse tipo de
análise não diz se um atributo leva, se é causa ou se é consequência de um outro, ele
apenas indica que há uma forte relação entre os atributos, pelos seus valores quantitativos.
Essa análise pode indicar a força da correlação entre os atributos. Exemplos: Número de
horas de treinamento de um funcionário x Número de falhas; Número de vendedores x
tamanho da receita; aumento de vendas x aumento de salário; Número de promoções x
aumento de clientes[Sferra and Corrêa 2004].

3.2.3. Correlação assı́ncrona

A técnica procurar avaliar se tem correlação entre duas variáveis, mas utilizando como
marco zero, momentos distintos no tempo. Por exemplo, segundo Steven sugere haver
uma relação entre a redução de crimes no Natal de 1989 nos EUA e a legalização do
aborto naquele paı́s 20 anos antes.

3.2.4. Análise de regressão e Modelos de Predição

É uma técnica estatı́stica que estuda a relação entre duas ou mais variáveis, procurando
elaborar um modelo para explicar o com portamento relativo destas variáveis. Normal-
mente, essa técnica é uma função matemática que relaciona as variáveis, ou seja, com
base no valor da variável dependente, é possı́vel calcular o valor de outras variáveis. Por
exemplo, imagine que a Coca Cola tivesse uma função relacionando o dia do ano com a
quantidade vendida do seu produto. A função iria dizer quanto a Coca Cola iria vender
num determinado dia futuro.
Usando as análises de regressão citadas anteriormente, é possı́vel fazer simulações
fornecendo como entrada dados ainda não observador. Por exemplo: se tivesse um
modelo que relacionasse número de vagas nas escolas com número de empregos, e
terı́amos informações sobre idade e nı́vel de escolaridade de cada pessoa, e que ainda
fosse possı́vel determinar a taxa de crescimento da população, vagas nas escolas e empre-
gos, usando a análise de regressão seria possı́vel ter uma função matemática relacionando
essas variáveis.

3.2.5. Média e detecção de desvios

Na falta de uma função podemos usar pontos médios. Por exemplo, podemos fazer uma
função média com os valores médios de um histórico de vendas de 3 anos ou mesmo
utilizar intervalos, e isto ajudaria a prever o comportamento para anos futuros.
A detecção de desvios é uma técnica utiliza funções ou intervalos médios
(padrões), mas seu objetivo é estar atento aos desvios dos valores médios; (outliers).
Em alguns casos eles são mais importantes que os demais casos, por exemplo investigar
por que somente uma pessoa comprou o produto X no último mês, por que um vendedor
não atingiu a meta, análise de saı́das de um determinado material do almoxarifado de uma
empresa.

3.2.6. Sequência de tempo e séries temporais

A técnica de sequência de tempo analisa sequências de eventos. Por exemplo se muitas


pessoas compram uma TV fina hoje e voltam depois de 3 meses para comprar um home
theater, isto é uma função dessa técnica.
Quando não é possı́vel encontrar uma função que descreve um comportamento de
uma variável, por exemplo valor das ações de uma empresa ao longo do tempo, pode-
se tentar prever pelo menos valores futuros num pequeno espaço de tempo usando séries
temporais. Uma das formas de fazer isso é analisar repetições de séries por vários perı́odos
de tempo. Mas como ela é baseada na premissa de que os comportamentos se repetem, se
isso não acontecer, não há por que usar séries temporais [Sferra and Corrêa 2004].

3.2.7. Classificação e clusterização

A técnica de classificação tem por objetivo encontrar a classe de um elemento. Essa


classe também de ser uma ação como, por exemplo, aprovar ou rejeitar um pedido de
empréstimo. Para que essa técnica funcione, as classes deverão já existir previamente
[Sferra and Corrêa 2004].
Clusterização ou agrupamento é uma técnica que recebe um grupo de elementos
e daı́ identifica as classes, ou seja, diferente da técnica de classificação, as classes não
existem ainda ou não são conhecidas. O princı́pio dessa técnica é colocar no mesmo
grupo os elementos mais similares e em grupos diferentes os elementos poucos similares
[Sferra and Corrêa 2004].
3.2.8. Sumarização

Consiste em identificar e indicar similaridades entre registros do conjunto de dados.


Como exemplo, considere um conjunto de dados com informações sobre clientes que
assinam um determinado tipo de revista semanal. Nesse caso, a tarefa de Sumarização
pode ser realizada para buscar caracterı́sticas que sejam comuns a boa parte dos clientes
[Sferra and Corrêa 2004].

3.2.9. Outros

[Tan et al. 2009] e [Salgado et al. 2007] listam algumas outras técnicas recorrentes em
Data Mining que são:
• Uso das redes neurais usando como modelos não lineares que aprendem através
de treino;
• Árvores de decisão que representam conjunto de decisão, que gera regras para a
classificação de um conjunto de dados;
• Algoritmos genéticos que são técnicas de otimização que usam processos tais
como combinações genéticas, mutações e seleção natural baseadas no conceito
de evolução;
• Método do vizinho-mais-próximo que classifica cada registro numa base de dados
baseada na combinação das classes dos k registros mais semelhantes a este, que
também é conhecido como K-nearest neighbor;
• Computação paralela e distribuı́da e busca e recuperação de informação.
Por isso, com todo esse arcabouço teórico desenvolvido, as técnicas de Data Mi-
ning tornaram possı́vel prever e descrever o comportamento de imensas bases de da-
dos. Essa área se mostrou eficiente de tal maneira, que tem sido usada, inclusive,
para descrever ou tentar prever o comportamento humano. Como exemplo, segundo
[Song et al. 2016] utilizam técnicas de mineração de dados para tentar observar riscos
de depressão na população de adolescentes e jovens adultos, utilizando dados de 164 re-
des sociais populares diferentes na Coreia do Sul. Utilizando o trabalho produzido por
eles é possı́vel concluir que, apesar do processo de Mineração de dados ser o núcleo da
análise, ela faz parte de um grande processo com diversas etapas que ocorrem antes e
depois do processo de extração de dados.

3.3. K-nearest neighbor (KNN)


O KNN é um algoritmo não-paramétrico muito usado em Data Science e Data Mining
para a classificação ou regressão de dados. Tal algoritmo necessita de no mı́nimo 2 bases
de dados previamente classificadas, que serão usadas para o aprendizado e para poder
classificar os valores da base de dados desconhecida. Já a saı́da dos dados depende de que
maneira o algoritmo é usado, se é para classificação ou se é para regressão.[Altman 1992]
O termo não-paramétrico no KNN significa que o algoritmo em si, não possui um
limite fixo da quantidade de parâmetros ou dados que podem ser alimentados a função, ou
seja, o tamanho e complexidade tem um tamanho potencialmente infinito, já que ambos
podem crescer infinitamente.
Quando usado para classificação, o dado ou objeto é classificado, por meio da
pluralidade das classes dos seus vizinhos, ou seja, a classe do objeto a ser atribuı́do é o
mais comum em seus vizinhos mais próximos.
No KNN a escolha de vizinhos é feita por um valor N, esse valor N é uma quanti-
dade de vizinhos mais próximos do valor desconhecido. A escolha desse valor N, é uma
escolha arbitrária, no qual que ele é influenciado tão como o tamanho da base de dados,
como também a qualidade do mesmo. Por causa disto, muitas vezes é necessário rodar o
KNN várias vezes, variando esse valor ate que ache um valor que é a melhor quantidade
de vizinhos para a solução.[Cota 2018]
Quando usado para regressão, o KNN, atribui a classe de saı́da do objeto como
uma média entre os valores dos seus vizinhos mais próximos.
O KNN, é um tipo de algoritmo baseado em lazy learning, no qual a função apro-
xima os valores localmente e toda computação é gasta na etapa de classificação. Apesar
disto é um dos algoritmos mais simples de mineração de dados e machine learning.
No caso do KNN, o dado a ser classificado, não é comparado com outros dados,
mas é realizado um cálculo matemático que mede a distância entre outros dados e com
isso faz a sua classificação. O cálculo matemático, é qualquer fórmula que pode ser usada
para a medição da distância entre dois pontos, como por exemplo, as fórmulas Euclidiana,
Manhattan, Minkowski, Ponderada, entre outras.
Apesar de que muitos exemplos do KNN serem modelos de classificação de dados,
ele é um algoritmo que pode ser usado para previsão de dados, onde que se ao invés de
aplicar fórmulas de medição de distância, aplicar fórmulas de crescimento de funções, ele
pode ser usado para a previsão de dados.
Como o KNN é um algoritmo que usa bases previamente treinadas, ele é suscetı́vel
a ruı́dos, que são causados quando se usa bases de dados não bem classificadas, que faz
com que os dados a serem classificados sejam mal classificados.[Côrtes et al. 2002]

4. Relação com diversos banco de dados


4.1. Banco de Dados Geográfico
Segundo Miller, os sistemas de informação geográfica geram uma grande quantidade de
dados num ambiente computacional, no qual a cobertura e o volume de dados digitais
geográficos é bastante extensa e cresce continuamente [Gazola and Furtado 2007]. Com
isso as técnicas de mineração de dados se tornam de grande importância para a descoberta
de conhecimento escondido em bases de dados geográficos.
Segundo Miller e Han [Miller and Han 2009], existem várias caracterı́sticas que
devem ser levadas em consideração ao analisar dados geográficos, tais como a incerteza
dos dados; posição geográfica local; o tempo interage com o espaço; redundância de
dados e o elemento de localização.
A mineração de dados geográficos envolve a aplicação de ferramentas compu-
tacionais para revelar padrões em objetos e eventos distribuı́dos no espaço geográfico
e ao longo do tempo. Esses padrões podem envolver as propriedades espaciais de
objetos individuais e eventos e as relações espaço-temporais entre os objetos e even-
tos, além de atributos não espaciais de interesse na mineração de dados tradicional.
[Oliveira and Venturieri 2017]
Para exemplificar uma utilização de mineração de dados em um banco de ge-
ográfico, temos do Anais do XXVII Congresso Brasileiro de Cartografia e XXVI Espo-
sicarta, um artigo com o seguinte tı́tulo: Utilização de mineração de dados e métricas
de paisagem para o mapeamento automatizado de tipologias de paisagem na Amazônia
oriental. Esse artigo tem como objetivo apresentar um mapeamento de tipos de paisagem
através da mineração de dados e métricas de Ecologia de Paisagem, utilizando dados do
projeto TerraClass Amazônia dos anos de 2008 e 2010.
Para fazer essa mineração de dados, foi usado o plugin GeoDMA do software
livre Terra View e o algoritmo C4.5 que faz o uso da técnica de mineração de dados
pela indução de árvores de decisão. O geoDMA é um sistema de análise de imagem que
integra várias ferramentas entre elas a ferramentas de técnicas de mineração de dados
[Oliveira and Venturieri 2017].

4.2. Big Data


O conceito de Big Data pode ser definido, de maneira resumida, como uma coleção
de bases de dados tão complexa e volumosa que torna difı́cil (ou impossı́vel) exe-
cutar operações simples (eg., remoção, ordenação, sumarização) de forma efici-
ente utilizando Sistemas de Gerenciamento de Banco de Dados (SGBD) tradicionais
[Rodrigues Vieira et al. 2012]. Por conta disso, tecnologias nas mais diversas áreas sur-
gem em busca de tornar mais eficientes as aplicações de operações simples, facilitar a
extração de informações úteis e relevantes, que inicialmente não tem ligação, ou mesmo
criar maneiras de entender como tais dados se relacionam.
No dia-a-dia de pequenas e médias empresas, as informações ficam perdidas ou
esquecidas em algum lugar, sem que tragam qualquer benefı́cio para a organização. Os
sistemas de gestão são capazes de armazenar em seus bancos de dados os acontecimen-
tos do dia-a-dia, como estoques, pedidos, compras, orçamentos, contábil, financeiro,
jurı́dico, pós-venda, relacionamento com cliente, vendas. O Data mining pode anali-
sar esse histórico de acontecimentos inseridos diariamente nos sistemas e garantir que no
final do processo todos os dados sejam agrupados para que possam ser visualizados como
um todo, trazendo informações concretas, consistentes e decisivas, o que facilita as toma-
das de decisões das empresas que necessitam de maior rapidez no fluxo das informações
[Fontes et al. 2016].

4.3. Banco de dados orientado a objetos


Um banco de dados orientado a objeto é um banco em que cada informação é armaze-
nada na forma de objetos, e só pode ser manipulada através de métodos definidos pela
classe que esteja o objeto. O conceito de banco de dados orientado a objeto e linguagem
orientado a objeto é o mesmo, tendo uma diferença somente na persistência dos dados
[Carvalho Galante et al. ]. Esse modelo ganhou espaço nas áreas de banco de dados es-
pacias, telecomunicações e nas área cientı́ficas como a fı́sica de alta energia e a biologia
molecular.
O data mining também pode ser usado em banco de dados orientado a objeto,
para buscar algum conhecimento. Como no artigo Uma Linguagem de Consulta para
Mineração de Dados em Banco de Dados Geográficos Orientado a Objetos, dos autores
Nara Martini Bigolin, Vania Bogorny e Luis Otávio Alvares que apresentam uma lingua-
gem de consulta que permite automatizar as etapas de descoberta de conhecimento em
bancos espaciais orientados a objetos [Bigolin et al. ]. No qual fizeram um estudo que
teve por objetivo classificar objetos espaciais (casas) em áreas urbanas e não urbanas,
em um banco de dados cedido pelo Instituto Geográfico Nacional (IGN) da França. A
mineração de dados descobria a quantidade de casas que pertencem ou não a uma zona
urbana, para uma região do mapa formada por três cidades. Além do data mining foram
usadas outras ferramentas e técnicas para automatizar esse processo.

4.4. Data Warehouse


Data Warehouse é uma importante tecnologia existente no desenvolvimento de soluções
de Business Intelligence (BI). Ela é a base para o armazenamento das informações ne-
cessárias para a utilização por gestores e analistas na tomada de decisão [Elias 2014].
Segundo Vieira, Data Warehouse pode ser definido como um depósito de banco de dados
somente leitura utilizado para análise de uma grande quantidade de informações de outros
sistemas, fornecendo um histórico de dados que possibilitam a criação de filtros com o
propósito de encontrar e extrair informações pertinentes. Desse modo Data Warehouse
se comporta como uma coleção de dados que podem ser utilizados como suporte para
determinada aplicação [Vieira 2013].
Comparando os processos de Data Mining e Data Warehouse, é possı́vel observar:

• Data Mining é extração inteligente de dados. De acordo com alguns especialistas,


o Data Warehouse, fornece memória mas não inteligência. A mineração de dados
é uma ferramenta que permite adicionar inteligência à memória que a organização
possui, permitindo realizar descobertas importantes dentro de grandes volumes de
dados;
• Data Warehouse é repositório centralizado de dados. O Data Warehouse integra
os dados corporativos de uma empresa em um único repositório;
• Data Mining não é uma evolução do Data Warehouse. A Mineração de Dados sur-
giu no inı́cio dos anos 90, a partir da reunião de ideias proveniente de diferentes
áreas como Inteligência Artificial, Banco de Dados, Estatı́stica, e Visualização
de Dados. A principal motivação para o surgimento da Mineração de Dados
encontra-se no fato de as organizações estarem armazenando de forma contı́nua
uma enorme quantidade de dados a respeito de seus negócios nas últimas décadas;
• Data Mining não depende do Data Warehouse, mas obtém-se melhores resultados
quando aplicados em conjunto. Especialistas de[U+FB01]nem Data Warehouse
como um depósito central de dados, extraı́do de dados operacionais, em que a
informação é orientada a assuntos, não volátil e de natureza histórica. Devido a
essas caracterı́sticas, Data Warehouses tendem a se tornar grandes repositórios de
dados extremamente organizados, facilitando a aplicação do Data Mining;
• Cada empresa deve saber escolher qual das técnicas é importante para o seu
negócio. (Uma, outra ou as duas);
• Data Warehouse aliado a ferramentas estatı́sticas desempenham papel semelhante
ao Data Mining, mas não descobrem novos padrões de comportamento(a não ser
empiricamente). Já o Data Mining descobre novos padrões de comportamento dos
dados. [Desconhecido ]
4.5. Banco de Dados NoSQL
NoSQL é um movimento que promove soluções de armazenamento de dados de forma
não relacionais. Ele é composto por diversas ferramentas que, de forma particular e es-
pecı́fica, resolvem problemas como tratamento de grandes volumes de dados, execução
de consultas com baixa latência e modelos flexı́veis de armazenamento de dados, como
documentos XML ou JSON.
As tecnologias NoSQL não têm como objetivo substituir os bancos de dados relacionais,
mas apenas propor algumas soluções que em determinados cenários são mais adequadas.
Desta forma é possı́vel trabalhar com tecnologias NoSQL e banco de dados relacionais
dentro de uma mesma aplicação[Porcelli 2011].
A mineração de dados pode também ser usada no NoSQL, porém, como se trata de
um modelo não relacional, pode-se utilizar a técnica de Data Mining sobre dados semi-
estruturados/ não estruturados limitados ao escopo dos possı́veis formatos de dados arma-
zenados em NoSQL. A semi-estruturada não possui estrutura rı́gida, segundo Kanimozhi
and Venkatesan, como por exemplo XML ou JSON. A não estruturada não possui es-
trutura alguma, que pode se referir a documentos comerciais, PDFs, conteúdos de redes
sociais, vı́deos, áudios, entre outros. Uma outra alternativa é realizar a conversão dos
dados semi-estruturados para uma estrutura formal, utilizando técnicas de mineração para
encontrar padrões e extrair informações[Thieli et al. ].
Dessa forma, o surgimento e popularização do NoSQL na última década, trouxe uma
lacuna na análise de dados que geralmente trata apenas de dados no formato relacional.
Portanto, a técnica de mineração de dados foi-se aprimorada de forma a se tornar possı́vel
atender a nova demanda.

5. Metodologia
Para mostrar a aplicabilidade do Data Mining, utilizamos os banco de dados públicos
disponibilizados pelo ENEM dos anos de 2016 e 2017 e geramos um algoritmo pra tentar
prever qual seria a nota das capitais no ano de 2018.
Para fazer esta analise foi-se utilizado o jupyter, que é um ambiente em python
para o processamento de dados, e pandas, que é uma ferramenta pra trabalhar com bases
de dados. Um dos problemas para fazer as analises desses dados era que a base de dados
de cada ano era muito gigante. Isso fez com que tenha sido necessário filtrar essas duas
bases de dados, eliminando campos que não seriam utilizados na analise e gerar uma base
de dados menores e por ai começar a analise.
Esse refinamento dos dados, começou por eliminar as colunas que não seriam
necessárias na analise, como por exemplo, cotas e respostas e salvar as colunas necessárias
para o calculo, que são, Nome da cidade da prova e as notas em cada critério de avaliação
do ENEM. Isso fez com que as bases de dados saı́ssem de 5GB cada para 400MB cada.
Apos esse primeiro refinamento, calculamos a media de todas as cidades no banco de
dados e depois de calculada essa media, apagamos todas as cidades que não eram as
capitais, resultando assim em um banco de dados com o nome da capital e a nota media
em cada quesito de avaliação do ENEM.
Com esses refinamentos, saiu-se de dois bancos de 5GB cada para um banco de
200kB. Tendo refinado e preparado todos os dados. Criou-se um algoritmo baseado no
KNN que ele calcula a diferença de notas entre os anos de 2017 e 2016 e extrapola esses
dados para 2018 para cada cidade.

6. Resultados

Aqui serão apresentados e discutidos os resultados provenientes da parte prática do tra-


balho, usando o algoritmo KNN na base de dados do ENEM de 2016 e de 2017 (figura
2).
Uma coisa que notou-se com a aplicação do KNN nos anos de 2016 e 2017 foi
que as notas em todas as capitais aumentaram, algumas pouco e outras muito, onde que
as capitais mais desenvolvidas tiveram um aumento maior da nota do que a menos desen-
volvidas. Abaixo encontra-se um gráfico mostrando o quanto aumentou a nota em cada
capital.

Figura 2. Fonte: Autores


NO MUNICIPIO PROVA 2017 2016 2018 diferença

Rio Branco 490.293586 487.780850 492.806323 2.512736


Maceió 509.690861 507.191991 512.189732 2.498871
Macapá 492.642306 491.485921 493.798692 1.156385
Manaus 495.221006 494.877848 495.564163 0.343158
Salvador 521.151096 512.626273 529.675918 8.524822
Fortaleza 533.757678 524.471641 543.043716 9.286038
Brası́lia 529.709693 520.955431 538.463956 8.754263
Vitória 555.130732 546.949010 563.312454 8.181722
Goiânia 542.935112 531.323698 554.546525 11.611414
São Luı́s 502.581009 500.814634 504.347385 1.766375
Cuiabá 511.568693 504.763430 518.373957 6.805264
Campo Grande 528.344092 512.651260 544.036925 15.692833
Belo Horizonte 553.474627 543.636859 563.312395 9.837768
Belém 514.853674 508.104989 521.602360 6.748686
João Pessoa 521.955073 520.473279 523.436866 1.481793
Curitiba 553.122208 537.249119 568.995298 15.873089
Recife 525.403855 524.571204 526.236507 0.832651
Teresina 520.032072 508.051507 532.012638 11.980566
Rio de Janeiro 546.489496 545.527489 547.451503 0.962007
Natal 531.194965 528.498805 533.891125 2.696160
Porto Alegre 550.491848 538.942001 562.041695 11.549847
Porto Velho 497.049402 494.988838 499.109966 2.060564
Boa Vista 495.033318 494.527536 495.539101 0.505782
Florianópolis 564.475692 556.837663 572.113721 7.638029
São Paulo 532.889465 531.812736 533.966195 1.076729
Aracaju 527.996399 519.877266 536.115532 8.119133
Palmas 510.823159 503.479644 518.166675 7.343516

7. Conclusão
Conclui-se por meio desse texto que os conceitos aqui apresentados são e continuarão
sendo de suma importância para o desenvolvimento de um profissional que trabalha com
análise de dados. Tais técnicas abrangem o mercado, a academia e torna-se cada vez mais
presente na vida cotidiana das pessoas. Com a aplicação descrita acima, foi possı́vel ob-
servar a capacidade de previsão do Knn e aplicar partes do Kdd no processo de mineração.
Essa aplicação gerou resultados que possibilitaram comparar as regiões do pais em relação
a seu desempenho no Exame Nacional do Ensino Médio. Com isso, foi possı́vel enten-
der de maneira mais direta o quão poderosa e custosa é aplicação dos conceito de Data
Mining.

Referências
[Altman 1992] Altman, N. S. (1992). An Introduction to Kernel and Nearest-Neighbor Non-
parametric Regression. The American Statistician, 46(3):175–185.
[Bigolin et al. ] Bigolin, N. M., Bogorny, V., and Alvares, L. O. Uma Linguagem de Con-
sulta para Mineração de Dados em Banco de Dados Geográficos Orientado a Objetos.
Technical report.
[Carvalho Galante et al. ] Carvalho Galante, A., Salesiana, F., Auxiliadora, M., Leonardo,
E., Moreira, R., Flávio, M. A., and Brandão, C. Banco de dados orientado a objetos:
uma realidade. Technical report.
[Côrtes et al. 2002] Côrtes, S. d. C., Porcaro, R. M., and Lifschitz, S. (2002). Mineração de
Dados: Funcionalidades, Técnicas e Abordagens. Technical report, Rio de Janeiro.
[Cota 2018] Cota, J. M. M. D. C. (2018). Análise dos bolsistas de produtividade na plata-
forma de currı́culos Lattes do CNPq. page 10.
[Desconhecido ] Desconhecido. Data Mining X Data Warehouse - Mineração de Dados 1o
B.
[Dias 2002] Dias, M. M. (2002). Parâmetros na escolha de técnicas e ferramentas de
mineração de dados. page 11.
[Elias 2014] Elias, D. (2014). Conhecendo a arquitetura de Data Warehouse - Business
Intelligence.
[Fayyad et al. 1996] Fayyad, U., Piatetsky-Shapiro, G., and Smyth, P. (1996). From Data
Mining to Knowledge Discovery in Databases. 17:18.
[Félix 1998] Félix, L. C. M. (1998). Data Mining no Processo de Extração de Conheci-
mento de Bases de Dados. Technical report, Dissertação (Mestrado em Ciências de
Computação e Matemática Computacional) - Universidade de São Paulo, São Carlos.
[Fonseca and Namen 2016] Fonseca, S. O. d. and Namen, A. A. (2016). Mineração em
Bases de Dados do Inep: Uma Análise Exploratória Para Nortear Melhorias no Sistema
Educacional Brasileiro. Educação em Revista, 32(1):133–157.
[Fontes et al. 2016] Fontes, N. R., Almeida, J. W. R. d., and Silva, G. d. (2016). Utilização
do Big Data para obter vantagens competitivas. 1, page 10.
[Gazola and Furtado 2007] Gazola, A. and Furtado, A. L. (2007). Bancos de Dados Ge-
ográficos Inteligentes. page 21.
[Goldschmidt et al. 2015] Goldschmidt, R., Passos, E., and Bezerra, E. (2015). Data mi-
ning: Conceitos, técnicas, algortimos, orientações e aplicações. Elsevier Editora Ltda,
Rio de Janeiro, 2 edition.
[Han and Kamber 2006] Han, J. and Kamber, M. (2006). Data Mining: Concepts and Te-
chniques. Diane Cerra, San Francisco, 2 edition.
[Loh 2014] Loh, S. (2014). BI na era do big data para cientistas de dados - indo além de
cubos e dashboards na busca pelos porquês, explicações e padrões. page 159.
[Maimon and Rokach 2005] Maimon, O. and Rokach, L. (2005). Data Mining and Kno-
wledge Discovery Handbook. Springer-Verlag, New York, 2 edition.
[Miller and Han 2009] Miller, H. J. and Han, J. (2009). Geographic data mining and kno-
wledge discovery: An overview. In Geographic Data Mining and Knowledge Disco-
very, Second Edition, pages 1–26. CRC Press.
[Oliveira and Venturieri 2017] Oliveira, R. R. S. and Venturieri, A. (2017). Utilização de
Mineração de Dados e Métricas de Paisagem Para o Mapeamento Automatizado de
Tipologias De Paisagem Na Amazônia Oriental. page 5.
[Porcelli 2011] Porcelli, A. (2011). O que é NoSQL? - Java Magazine 87.
[Rodrigues Vieira et al. 2012] Rodrigues Vieira, M., Maimone De Figueiredo, J., Liberatti,
G., Fellipe, A., and Viebrantz, M. (2012). Minicurso 1 Bancos de Dados NoSQL:
Conceitos, Ferramen-tas, Linguagens e Estudos de Casos no Contexto de Big Data.
Technical report.
[Salgado et al. 2007] Salgado, A. B., Uzai, D. d. O., Salema, H. A. M., and Netto, J. M.
(2007). Minerando regras de associação: Uma ferramenta de Data Mining. Technical
report, CEFET-RJ, Campos dos Goytcazes.
[Sferra and Corrêa 2004] Sferra, H. H. and Corrêa, [U+FFFD] M. C. J. (2004). Conceitos
e Aplicações de Data Mining. 22, 11:19–34.
[Silva 2017] Silva, A. L. S. (2017). Aplicação de Mineração de Dados na Descoberta de
Perfis de Alunos De Uma Escola de Ensino Público. Technical report, Universidade
Federal do Rio Grande do Norte, Caicó.
[Soczek and Orlovski ] Soczek, F. C. and Orlovski, R. Mineração de Dados: Conceitos e
aplicação de algoritmos em uma Base de Dados na área da saúde. Technical report.
[Song et al. 2016] Song, J., Song, T. M., Seo, D. C., and Jin, J. H. (2016). Data Mining
of Web-Based Documents on Social Networking Sites That Included Suicide-Related
Words Among Korean Adolescents. Journal of Adolescent Health, 59(6):668–673.
[Tan et al. 2009] Tan, P.-N., Steinbach, M., and Kumar, V. (2009). Introdução ao Data
Mining.
[Thieli et al. ] Thieli, F., Machado, S., and De Brum Saccol, D. MineraçMineraç˜Mineração
de dados para modelos NoSQL: um survey. Technical report.
[Vieira 2013] Vieira, B. (2013). Conceito de Data Warehouse, Data Mart, Data Mining e
Text Mining — Bruno Vieira - MSP.

Das könnte Ihnen auch gefallen