Beruflich Dokumente
Kultur Dokumente
Abstract. Data Mining techniques have been extensively studied and applied
by industry and science in an attempt to extend the knowledge gained from data
stored in previous experiences. This study proposes to present concepts and te-
chniques on data mining and also to apply techniques proposing to analyze the
profile of the candidates submitted to the National High School Examination
(ENEM), aiming to generate a forecast of future results mining data obtained in
previous bases generated by the National Institute of Studies and Educational
Research Anı́sio Teixeira (INEP). In this way, it was tried to compare the stu-
dent’s notes in the capitals of the country, making a progression of the notes for
the year 2018.
1. Introdução
Os constantes avanços na área da Tecnologia da Informação têm viabilizado o armaze-
namento de grandes e múltiplas bases de dados [Goldschmidt et al. 2015]. Por isso, uma
vez associadas a necessidade crescente de perpetuar informações, principalmente devido
ao desenvolvimento das novas formas de comunicação e produção, surgiram questões
relacionadas a utilização e serventia das cada vez maiores bases de dados.
Neste contexto, a proposta desse artigo além de introduzir os conceitos de Data
mining, também aplicar um processo de mineração de dados, visando estudar, compreen-
der e relacionar dados brutos de um banco de dados com milhões de colunas. Os dados
contidos nesse repositório, são resultados e informações de candidatos que realizaram o
Exame Nacional do Ensino Médio (ENEM) no ano de 2016 e 2017. Tal base de dados, é
disponibilizada pelo próprio órgão que administra o exame e pode ser encontrado no se-
guinte link http://portal.inep.gov.br/microdados. Com tal aplicação, espera-se gerar uma
previsão dos resultados futuros de cada capital do paı́s.
O artigo está organizado como segue: a seção 2 segue com a revisão bibliográfica;
na seção 3 descreve as fases do processo de descoberta de conhecimento em bases de
dados, também descreve mais detalhadamente a mineração de dados e um dos métodos
usados para fazer essa busca de conhecimento; na seção 4 é descrito a relação de data
mining com bancos de dados; na seção 5 descreve-se a metodologia usada para mineração
de dados nas bases de dados das provas do ENEM de 2016 e de 2017; na seção 6 são
discutidos os resultados encontrados da seção 5; na seção 7 vem as conclusões sobre o
Data Mining e sobre os resultados obtidos e na última seção as referências usadas para a
criação deste artigo.
2. Fundamentação teórica
Os dados brutos, tais como foram descritos, apesar de não serem úteis no estado in na-
tura, são extremamente importantes quando investigados por técnicas de análise de dados.
Contudo, até três décadas atrás, o processo de análise de dados era, na grande maioria dos
casos, manual, lento e extremamente complexo [Félix 1998].
Contudo, com o passar do tempo, a quantidade de informação gerada e arma-
zenada cresceu exponencialmente criando bases de dados já na ordem dos gigabytes e
terabytes[Félix 1998]. Somado a isso, tais conjuntos não são desafiadores apenas por
serem extensos, mas também pela complexidade dos elementos e da relação entre eles.
Muitas vezes, os dados analisados não estão bem estruturados, podendo estar hiperligados
(como em páginas da web), partirem de estruturas sequenciais e tridimensionais, (como
em análises de ácido desoxirribonucleico - DNA), ou mesmo serem dados climáticos ob-
tidos em diversas partes do planeta como fruto de medidas temporais. Além disso, como
se não bastasse, as técnicas para extração de informação nestes casos exigem suporte para
alta dimensionalidade e alta escalabilidade, ou seja, devem respectivamente trabalhar com
muitas dimensões e terem capacidade de ora trabalhar com bases na ordem dos gigabytes,
ora com petabytes [Tan et al. 2009].
Conclui-se, portanto, que extrações manuais se fizeram humanamente impossı́veis
e impulsionaram a busca de uma nova forma de estudar as informações obtidas e absorver
conhecimento, Data Mining.
A mineração de dados, segundo [Silva 2017] é definida como um dos processos do KDD
no qual pode extrair informações implı́citas, desconhecidas e úteis a partir da base de
dados. Com esse tipo de abordagem, o trabalho que antes havia se tornado inviável, agora
pode ser feito e executado por técnicas de Data Mining. Tais técnicas surgem visando
auxiliar no processo de atribuição de valores e significado nos elementos contidos no
interior desses imensos repositórios.
O valor dos dados armazenados está tipicamente ligado à capacidade de extrair
conhecimento de mais alto nı́vel a partir deles, ou seja, informação útil que sirva para
apoio à tomada de decisão, e/ou para exploração e melhor entendimento do fenômeno ge-
rador de dados [Goldschmidt et al. 2015]. Contudo, adquirir conhecimento é uma tarefa
complexa com várias etapas que vão desde a extração, a interpretação e representação do
conhecimento [Félix 1998]. Portanto, o conceito de Data Mining está se tornando cada
vez mais popular como uma ferramenta de descoberta de informações, que podem re-
velar estruturas de conhecimento que guiem decisões em condições de certeza limitada
[Côrtes et al. 2002].
A medida que a necessidade foi crescendo e a tecnologia foi se popularizando,
profissionais e pesquisadores de diversas áreas, unidos com o objetivo de explorar esse
novo campo, exploraram diversas vertentes computacionais buscando eficiência e escala-
bilidade.
A seguir, são relacionadas as principais áreas de interesse na utilização de
mineração de dados [Dias 2002]:
O objetivo dessa técnica é avaliar que valores aparecem muito juntos nas mesmas
transições ou eventos (ex.: carrinho de compras), mas também pode ser utilizada para
identificar relações entre atributos dentro de uma mesma entidade (ex.: clientes do sexo
feminino costumam morar mais no bairro X). Essa técnica é a mais famosa e ficou conhe-
cida depois que uma rede de supermercados ao utilizar uma ferramenta de data mining
com essa técnica, descobriu que, nas sexta-feiras, quem comprava fraldas também com-
prava cerveja[Sferra and Corrêa 2004].
A técnica procurar avaliar a similaridade entre duas variáveis numéricas. Esse tipo de
análise não diz se um atributo leva, se é causa ou se é consequência de um outro, ele
apenas indica que há uma forte relação entre os atributos, pelos seus valores quantitativos.
Essa análise pode indicar a força da correlação entre os atributos. Exemplos: Número de
horas de treinamento de um funcionário x Número de falhas; Número de vendedores x
tamanho da receita; aumento de vendas x aumento de salário; Número de promoções x
aumento de clientes[Sferra and Corrêa 2004].
A técnica procurar avaliar se tem correlação entre duas variáveis, mas utilizando como
marco zero, momentos distintos no tempo. Por exemplo, segundo Steven sugere haver
uma relação entre a redução de crimes no Natal de 1989 nos EUA e a legalização do
aborto naquele paı́s 20 anos antes.
É uma técnica estatı́stica que estuda a relação entre duas ou mais variáveis, procurando
elaborar um modelo para explicar o com portamento relativo destas variáveis. Normal-
mente, essa técnica é uma função matemática que relaciona as variáveis, ou seja, com
base no valor da variável dependente, é possı́vel calcular o valor de outras variáveis. Por
exemplo, imagine que a Coca Cola tivesse uma função relacionando o dia do ano com a
quantidade vendida do seu produto. A função iria dizer quanto a Coca Cola iria vender
num determinado dia futuro.
Usando as análises de regressão citadas anteriormente, é possı́vel fazer simulações
fornecendo como entrada dados ainda não observador. Por exemplo: se tivesse um
modelo que relacionasse número de vagas nas escolas com número de empregos, e
terı́amos informações sobre idade e nı́vel de escolaridade de cada pessoa, e que ainda
fosse possı́vel determinar a taxa de crescimento da população, vagas nas escolas e empre-
gos, usando a análise de regressão seria possı́vel ter uma função matemática relacionando
essas variáveis.
Na falta de uma função podemos usar pontos médios. Por exemplo, podemos fazer uma
função média com os valores médios de um histórico de vendas de 3 anos ou mesmo
utilizar intervalos, e isto ajudaria a prever o comportamento para anos futuros.
A detecção de desvios é uma técnica utiliza funções ou intervalos médios
(padrões), mas seu objetivo é estar atento aos desvios dos valores médios; (outliers).
Em alguns casos eles são mais importantes que os demais casos, por exemplo investigar
por que somente uma pessoa comprou o produto X no último mês, por que um vendedor
não atingiu a meta, análise de saı́das de um determinado material do almoxarifado de uma
empresa.
3.2.9. Outros
[Tan et al. 2009] e [Salgado et al. 2007] listam algumas outras técnicas recorrentes em
Data Mining que são:
• Uso das redes neurais usando como modelos não lineares que aprendem através
de treino;
• Árvores de decisão que representam conjunto de decisão, que gera regras para a
classificação de um conjunto de dados;
• Algoritmos genéticos que são técnicas de otimização que usam processos tais
como combinações genéticas, mutações e seleção natural baseadas no conceito
de evolução;
• Método do vizinho-mais-próximo que classifica cada registro numa base de dados
baseada na combinação das classes dos k registros mais semelhantes a este, que
também é conhecido como K-nearest neighbor;
• Computação paralela e distribuı́da e busca e recuperação de informação.
Por isso, com todo esse arcabouço teórico desenvolvido, as técnicas de Data Mi-
ning tornaram possı́vel prever e descrever o comportamento de imensas bases de da-
dos. Essa área se mostrou eficiente de tal maneira, que tem sido usada, inclusive,
para descrever ou tentar prever o comportamento humano. Como exemplo, segundo
[Song et al. 2016] utilizam técnicas de mineração de dados para tentar observar riscos
de depressão na população de adolescentes e jovens adultos, utilizando dados de 164 re-
des sociais populares diferentes na Coreia do Sul. Utilizando o trabalho produzido por
eles é possı́vel concluir que, apesar do processo de Mineração de dados ser o núcleo da
análise, ela faz parte de um grande processo com diversas etapas que ocorrem antes e
depois do processo de extração de dados.
5. Metodologia
Para mostrar a aplicabilidade do Data Mining, utilizamos os banco de dados públicos
disponibilizados pelo ENEM dos anos de 2016 e 2017 e geramos um algoritmo pra tentar
prever qual seria a nota das capitais no ano de 2018.
Para fazer esta analise foi-se utilizado o jupyter, que é um ambiente em python
para o processamento de dados, e pandas, que é uma ferramenta pra trabalhar com bases
de dados. Um dos problemas para fazer as analises desses dados era que a base de dados
de cada ano era muito gigante. Isso fez com que tenha sido necessário filtrar essas duas
bases de dados, eliminando campos que não seriam utilizados na analise e gerar uma base
de dados menores e por ai começar a analise.
Esse refinamento dos dados, começou por eliminar as colunas que não seriam
necessárias na analise, como por exemplo, cotas e respostas e salvar as colunas necessárias
para o calculo, que são, Nome da cidade da prova e as notas em cada critério de avaliação
do ENEM. Isso fez com que as bases de dados saı́ssem de 5GB cada para 400MB cada.
Apos esse primeiro refinamento, calculamos a media de todas as cidades no banco de
dados e depois de calculada essa media, apagamos todas as cidades que não eram as
capitais, resultando assim em um banco de dados com o nome da capital e a nota media
em cada quesito de avaliação do ENEM.
Com esses refinamentos, saiu-se de dois bancos de 5GB cada para um banco de
200kB. Tendo refinado e preparado todos os dados. Criou-se um algoritmo baseado no
KNN que ele calcula a diferença de notas entre os anos de 2017 e 2016 e extrapola esses
dados para 2018 para cada cidade.
6. Resultados
7. Conclusão
Conclui-se por meio desse texto que os conceitos aqui apresentados são e continuarão
sendo de suma importância para o desenvolvimento de um profissional que trabalha com
análise de dados. Tais técnicas abrangem o mercado, a academia e torna-se cada vez mais
presente na vida cotidiana das pessoas. Com a aplicação descrita acima, foi possı́vel ob-
servar a capacidade de previsão do Knn e aplicar partes do Kdd no processo de mineração.
Essa aplicação gerou resultados que possibilitaram comparar as regiões do pais em relação
a seu desempenho no Exame Nacional do Ensino Médio. Com isso, foi possı́vel enten-
der de maneira mais direta o quão poderosa e custosa é aplicação dos conceito de Data
Mining.
Referências
[Altman 1992] Altman, N. S. (1992). An Introduction to Kernel and Nearest-Neighbor Non-
parametric Regression. The American Statistician, 46(3):175–185.
[Bigolin et al. ] Bigolin, N. M., Bogorny, V., and Alvares, L. O. Uma Linguagem de Con-
sulta para Mineração de Dados em Banco de Dados Geográficos Orientado a Objetos.
Technical report.
[Carvalho Galante et al. ] Carvalho Galante, A., Salesiana, F., Auxiliadora, M., Leonardo,
E., Moreira, R., Flávio, M. A., and Brandão, C. Banco de dados orientado a objetos:
uma realidade. Technical report.
[Côrtes et al. 2002] Côrtes, S. d. C., Porcaro, R. M., and Lifschitz, S. (2002). Mineração de
Dados: Funcionalidades, Técnicas e Abordagens. Technical report, Rio de Janeiro.
[Cota 2018] Cota, J. M. M. D. C. (2018). Análise dos bolsistas de produtividade na plata-
forma de currı́culos Lattes do CNPq. page 10.
[Desconhecido ] Desconhecido. Data Mining X Data Warehouse - Mineração de Dados 1o
B.
[Dias 2002] Dias, M. M. (2002). Parâmetros na escolha de técnicas e ferramentas de
mineração de dados. page 11.
[Elias 2014] Elias, D. (2014). Conhecendo a arquitetura de Data Warehouse - Business
Intelligence.
[Fayyad et al. 1996] Fayyad, U., Piatetsky-Shapiro, G., and Smyth, P. (1996). From Data
Mining to Knowledge Discovery in Databases. 17:18.
[Félix 1998] Félix, L. C. M. (1998). Data Mining no Processo de Extração de Conheci-
mento de Bases de Dados. Technical report, Dissertação (Mestrado em Ciências de
Computação e Matemática Computacional) - Universidade de São Paulo, São Carlos.
[Fonseca and Namen 2016] Fonseca, S. O. d. and Namen, A. A. (2016). Mineração em
Bases de Dados do Inep: Uma Análise Exploratória Para Nortear Melhorias no Sistema
Educacional Brasileiro. Educação em Revista, 32(1):133–157.
[Fontes et al. 2016] Fontes, N. R., Almeida, J. W. R. d., and Silva, G. d. (2016). Utilização
do Big Data para obter vantagens competitivas. 1, page 10.
[Gazola and Furtado 2007] Gazola, A. and Furtado, A. L. (2007). Bancos de Dados Ge-
ográficos Inteligentes. page 21.
[Goldschmidt et al. 2015] Goldschmidt, R., Passos, E., and Bezerra, E. (2015). Data mi-
ning: Conceitos, técnicas, algortimos, orientações e aplicações. Elsevier Editora Ltda,
Rio de Janeiro, 2 edition.
[Han and Kamber 2006] Han, J. and Kamber, M. (2006). Data Mining: Concepts and Te-
chniques. Diane Cerra, San Francisco, 2 edition.
[Loh 2014] Loh, S. (2014). BI na era do big data para cientistas de dados - indo além de
cubos e dashboards na busca pelos porquês, explicações e padrões. page 159.
[Maimon and Rokach 2005] Maimon, O. and Rokach, L. (2005). Data Mining and Kno-
wledge Discovery Handbook. Springer-Verlag, New York, 2 edition.
[Miller and Han 2009] Miller, H. J. and Han, J. (2009). Geographic data mining and kno-
wledge discovery: An overview. In Geographic Data Mining and Knowledge Disco-
very, Second Edition, pages 1–26. CRC Press.
[Oliveira and Venturieri 2017] Oliveira, R. R. S. and Venturieri, A. (2017). Utilização de
Mineração de Dados e Métricas de Paisagem Para o Mapeamento Automatizado de
Tipologias De Paisagem Na Amazônia Oriental. page 5.
[Porcelli 2011] Porcelli, A. (2011). O que é NoSQL? - Java Magazine 87.
[Rodrigues Vieira et al. 2012] Rodrigues Vieira, M., Maimone De Figueiredo, J., Liberatti,
G., Fellipe, A., and Viebrantz, M. (2012). Minicurso 1 Bancos de Dados NoSQL:
Conceitos, Ferramen-tas, Linguagens e Estudos de Casos no Contexto de Big Data.
Technical report.
[Salgado et al. 2007] Salgado, A. B., Uzai, D. d. O., Salema, H. A. M., and Netto, J. M.
(2007). Minerando regras de associação: Uma ferramenta de Data Mining. Technical
report, CEFET-RJ, Campos dos Goytcazes.
[Sferra and Corrêa 2004] Sferra, H. H. and Corrêa, [U+FFFD] M. C. J. (2004). Conceitos
e Aplicações de Data Mining. 22, 11:19–34.
[Silva 2017] Silva, A. L. S. (2017). Aplicação de Mineração de Dados na Descoberta de
Perfis de Alunos De Uma Escola de Ensino Público. Technical report, Universidade
Federal do Rio Grande do Norte, Caicó.
[Soczek and Orlovski ] Soczek, F. C. and Orlovski, R. Mineração de Dados: Conceitos e
aplicação de algoritmos em uma Base de Dados na área da saúde. Technical report.
[Song et al. 2016] Song, J., Song, T. M., Seo, D. C., and Jin, J. H. (2016). Data Mining
of Web-Based Documents on Social Networking Sites That Included Suicide-Related
Words Among Korean Adolescents. Journal of Adolescent Health, 59(6):668–673.
[Tan et al. 2009] Tan, P.-N., Steinbach, M., and Kumar, V. (2009). Introdução ao Data
Mining.
[Thieli et al. ] Thieli, F., Machado, S., and De Brum Saccol, D. MineraçMineraç˜Mineração
de dados para modelos NoSQL: um survey. Technical report.
[Vieira 2013] Vieira, B. (2013). Conceito de Data Warehouse, Data Mart, Data Mining e
Text Mining — Bruno Vieira - MSP.