Beruflich Dokumente
Kultur Dokumente
Capítulo
1
Mineração de Dados Educacionais: Conceitos, Téc-
nicas, Ferramentas e Aplicações
Evandro Costa, Ryan S.J.d. Baker, Lucas Amorim, Jonathas Magalhães, Tar-
sis Marinho
Abstract
With the increasing use of Interactive Learning Environments (ILEs) or even Learning
Management Systems (LMSs) on the Web to support student learning, an increasingly
massive volume of data is being generated by students and instructors participating in
a range of interactions. This creates an opportunity for researching online learning, but
these data are still only being exploited to a limited degree, compared to the quantity of
findings that could be obtained from these data. For example, in order to understand stu-
dent behaviors and the ways in which students learn, researchers in the emerging field of
Educational Data Mining (EDM) have worked to develop data mining methods that are
relevant for these types of data sets and research questions. The results of EDM analy-
ses have proven useful for improving educational practices and the design of curriculum,
both for classroom and distance use of educational technologies. They have also proven
useful for supporting adaptive personalization in online education. In this chapter, the
principal concepts and techniques of EDM will be discussed, with examples from rele-
vant educational data sets and with reference to common applications of EDM methods.
Such methods will be discussed to address the following data mining tasks: classification
and regression, clustering, and association rule mining. Methods specially developed for
predicting student knowledge, emotion, and preparation for future learning, will also be
discussed.
Resumo
Com o crescente uso de Ambientes Virtuais de Aprendizagem (AVA) na Web e outras tec-
nologias para apoio ao processo de ensino e aprendizagem, um grande volume de dados
tem sido gerado a partir das diferentes modalidades de interação no sistema envolvendo
principalmente estudantes e professores. Entretanto, boa parte desses dados não têm sido
Jornada de Atualização em Informática na Educação - JAIE 2012 2/29
1.1. Introdução
1.1.1. Motivações
Diariamente, motivada principalmente pelas novas tecnologias de coleta e armazena-
mento de dados e pelo advento da Web, uma vasta quantidade de dados é produzida
para os mais diversos setores, a exemplo de Saúde, Educação, Negócios. Portanto, parte
ponderável desses dados necessita urgentemente ser analisada.
Em particular, verifica-se que muitas instituições educacionais que fazem uso de
Ambientes Virtuais de Aprendizagem (AVAs), ou outras tecnologias de apoio ao processo
de ensino e aprendizagem dos estudantes, estão produzindo um grande volume de dados.
Assim, considerando a existência de recursos computacionais suficientes para tais insti-
tuições, surge então um desafio macro que é o de como explorar adequadamente esses
dados, visando obter informação valiosa, considerando principalmente requisitos de qua-
lidade de consistência e corretude, de rápido tempo de obtenção e o seu caráter oportuno.
Por exemplo, isso remete a questões importantes, tais como: o que especificamente fazer
com esses dados educacionais? Como reverter estas informações extraídas em benefícios
para as instituições, para estudantes e professores envolvidos no contexto de um curso?
Como cada um destes atores podem identificar e utilizar as informações escondidas nos
dados coletados de tal modo que consigam tirar proveitos delas?
Um cenário particular e importante do que foi descrito acima é o da Universi-
dade Aberta do Brasil1 , na qual se geram grandes volumes de dados, através do uso de
AVAs. Portanto, trata-se de um exemplo de instituição que se beneficiaria (ou talvez já se
beneficia) muito da utilização apropriada de análise de dados, ou mais especialmente de
mineração de dados educacionais.
1 http://www.uab.capes.gov.br/
Jornada de Atualização em Informática na Educação - JAIE 2012 3/29
bases de dados (identificado numa área que em inglês se denomina Knowledge Discovery
in Databases, KDD). Em KDD verifica-se ainda a inclusão de mais duas grandes etapas:
pré-processamento de dados (preparação de dados, abrangendo mecanismos para capta-
ção, organização e tratamento dos dados) e pós-processamento dos resultados obtidos na
mineração de dados. Neste sentido, de acordo com Fayyad et al. [Fayyad et al. 1996],
“KDD é o processo não trivial de identificação de padrões, a partir de dados, que sejam
válidos, novos, potencialmente úteis e compreensíveis”. Trata-se, portanto, de uma de-
finição abrangente, na qual KDD é descrito como um processo geral de descoberta de
conhecimento composto pelas três grandes etapas mencionadas. Os padrões menciona-
dos devem ser novos, compreensíveis e úteis, ou seja, deverão trazer algum benefício
novo que possa ser compreendido rapidamente pelo usuário para uma possível tomada de
decisão.
No entanto, há uma falta de consenso entre os autores sobre uma definição para
o termo Mineração de Dados, dificultando a consolidação de uma definição única. Há
inclusive autores que consideram Data Mining como sinônimo de KDD, referindo-se a
ambas como uma disciplina que objetiva a extração automática de padrões interessantes
e implícitos de grandes coleções de dados [Klösgen and Zytkow 2002]. Doravante neste
texto, por simplicidade, não distinguiremos mais estes dois termos.
Mineração de Dados é uma área interdisciplinar, mobilizando principalmente co-
nhecimentos de análise estatística de dados, aprendizagem de máquina, reconhecimento
de padrões e visualização de dados [Cabena et al. 1998].
Para descobrir conhecimento que seja relevante, é importante estabelecer metas
bem definidas. Segundo Fayyad et al. [Fayyad et al. 1996], no processo de descoberta de
conhecimento as metas são definidas em função dos objetivos na utilização do sistema,
podendo ser de dois tipos básicos: verificação ou descoberta. Quando a meta é do tipo
verificação, o sistema está limitado a verificar hipóteses definidas pelo usuário, enquanto
que na descoberta o sistema encontra novos padrões de forma autônoma. A meta do tipo
descoberta, em geral, está relacionada com as seguintes tarefas de mineração de dados:
predição e descrição, sendo o foco do presente texto.
Tarefas Preditivas objetivam predizer o valor de um determinado atributo (variá-
vel) baseado nos valores de outros atributos. O atributo a ser predito é comumente conhe-
cido como a variável preditiva, dependente ou alvo, enquanto que os atributos usados para
fazer a predição são conhecidos com as variáveis preditoras, independentes ou explicati-
vas. De modo mais abstrato, a predição se utiliza de uma tupla de variáveis para predizer
outras variáveis ou valores desconhecidos [Fayyad et al. 1996].
Tarefas Descritivas procuram encontrar padrões (correlações, tendências, grupos,
trajetórias e anomalias) que descrevam os dados.
As metas de predição e descrição são alcançadas abordando alguma das seguintes
tarefas e métodos de mineração de dados: classificação, regressão, agrupamento, sumari-
zação, modelagem de dependência e identificação de mudanças e desvios.
Jornada de Atualização em Informática na Educação - JAIE 2012 4/29
Apesar de algumas iniciativas primeiras com workshops específicos dentro das conferên-
cias sobre Artificial Intelligence in Education (AIEd) e sobre Intelligent Tutoring Sys-
tems (ITS), foi somente em 2005, em Pittsburgh, EUA, que foi organizado o primeiro
Workshop on Educational Data Mining, como parte do 20th National Conference on Ar-
tificial Intelligence (AAAI 2005). Daí em diante, houve mais algumas realizações deste
workshop entre 2006 e 2007. Seguindo-se, em 2008 lança-se, em Montreal, Canadá, a
primeira conferência em EDM: First International Conference on Educational Data Mi-
ning, evento este que se estabeleceu e ganhou regularidade de realização anual, estando
agora em 2012 na sua quinta edição. Em 2009, esta sociedade investiu na criação de um
periódico e publicou o seu primeiro volume do JEDM - Journal of Educational Data Mi-
ning. Em 2011 constituiu-se a sociedade científica para EDM (International Educational
Data Mining Society 2 ). Enfim, a área de EDM está bem consolidada internacionalmente,
mas, ainda dando os seus primeiros passos no Brasil, ficando a produção por conta de
algumas poucas iniciativas de pesquisas isoladas.
alguns desafios práticos que se apresentam em vários contextos educacionais estão rela-
cionados, por exemplo, a falta de padronização dos dados, o que acaba exigindo grande
esforço de pré-processamento [Baker 2011]. Além disso, há a necessidade de adequação
dos algoritmos clássicos de mineração de dados para lidar com especificidades ineren-
tes aos dados educacionais, tais como a não independência estatística e a hierarquia dos
dados [Baker 2010a].
Entre as tarefas e métodos de mineração de dados educacionais a serem discutidos
no presente texto, incluem-se: classificação e regressão, agrupamento de dados, minera-
ção de regras de associação. Outras abordagens, entretanto, serão comentadas.
A tarefa de classificação diz respeito ao processo de encontrar um modelo que des-
creve e distingue classes de dados ou conceitos. Os modelos são derivados com base nas
análises de coleções de dados, denominadas conjuntos de treinamentos, os quais corres-
pondem a objetos de dados para os quais os rótulos de classes são conhecidos. O modelo
é usado para predizer o rótulo de classe de objetos para os quais o rótulo de classe é desco-
nhecido. Ele associa um item de dado a uma ou várias classes predefinidas. Os modelos
derivados podem ser representados em várias formas, tais como: árvore de decisão, regras
de classificação, funções matemáticas, redes neurais [Han and Kamber 2000].
Enquanto na classificação a predição é feita para um atributo classificador que
assume valores discretos, em modelos de regressão a variável alvo é continua, ou seja,
associa um item de dado a uma ou mais variáveis de predição de valores reais. Por sua
vez, a análise de agrupamento de dados procura associar um item de dado com um ou
vários agrupamentos determinados pelos dados, valendo-se principalmente de medidas
de similaridades. Já a abordagem de mineração de regras de associação busca encontrar
possíveis relações interessantes entre atributos de uma base de dados. Estas abordagens
serão discutidas em detalhes na próxima seção deste capítulo, onde se discutem outras
abordagens.
• Predição
Classificação
Regressão
• Agrupamento
• Mineração de Relações
Mineração de Regras de Associação
Mineração de Correlações
Mineração de Padrões Sequenciais
Mineração de Causas
Dos métodos destacados na taxonomia acima, alguns dos mais demandados estão
descritos em detalhes, quais sejam: Predição, Agrupamento e Mineração de Relações
(apenas Regras de Associação) e os demais estão sucintamente discutidos.
1.2.1. Predição
Na tarefa de predição, a meta é desenvolver modelos que façam inferência sobre aspectos
específicos dos dados (variáveis preditivas) por meio da análise e associação dos diversos
aspectos encontrados nos dados (variáveis preditoras). Um modelo preditivo pode ser
entendido como uma função f (X, β ) ≈ Y , onde X é um conjunto de variáveis preditoras,
β são parâmetros desconhecidos e Y é a variável preditiva Y . Em outras palavras, deseja-
se estimar o valor de Y por meio da descoberta de β utilizando-se X. No processo de
predição, é fundamental que boa parte dos dados sejam rotulados manualmente, ou seja,
a aprendizagem do modelo ocorrerá de forma supervisionada e dar-se-á utilizando um
conjunto de treinamento com valores previamente conhecidos de Y .
Segundo Baker et al. [Baker 2011], há dois benefícios relacionados à utilização
da predição em EDM. Primeiro, os métodos de predição podem ser utilizados para es-
tudar quais aspectos de um modelo são importantes para predição. Esta estratégia é fre-
quentemente utilizada em pesquisas que tentam, de forma direta, predizer os benefícios
educacionais de determinadas técnicas e ferramentas para um conjunto de estudantes, isso
sem considerar os fatores intermediários, como apresentado em [Romero et al. 2008]. Se-
gundo, os métodos de predição auxiliam a predizer o valor das variáveis utilizadas em um
Jornada de Atualização em Informática na Educação - JAIE 2012 7/29
modelo. O intuito de utilizar essa abordagem é verificar quais dados são mais impor-
tantes para o modelo pois analisar todos os dados de um grande banco de dados para
gerar um modelo é inviável, do ponto de vista financeiro e de tempo [Baker 2011]. Dessa
forma, o modelo pode ser construído utilizando parte dos dados e então ser aplicado para
modelar dados mais extensos [Baker et al. 2008]. Esse tipo de técnica pode auxiliar no
desenvolvimento e uso de atividades instrucionais, pois consegue-se estimar os benefícios
educacionais antes mesmo da atividade ser aplicada aos alunos.
Em EDM, são utilizados mais frequentemente dois tipos de técnicas de predição:
classificação e regressão. Na classificação a variável preditiva é binária ou categórica e
na regressão a variável preditiva é contínua. Em ambos os casos, as variáveis preditoras
podem ser categóricas ou contínuas.
A Figura 1.1 representa o funcionamento de um modelo classificador, que tem
como entrada um conjunto de treinamento, que consiste de um conjunto de amostras
(ou instâncias) de dados onde a classe já é conhecida (ver Tabela 1.1a). A partir desse
conjunto de dados, o processo de aprendizagem induz um modelo classificador que em
seguida é testado junto a um conjunto de testes, que consiste de um conjunto de amostras
cujas classes são ocultadas (ver Tabela 1.1b) e precisam ser preditas a partir do modelo.
de classificação. Em [Damez et al. 2005], é utilizado uma árvore de decisão fuzzy para
modelagem de usuário no intuito de distinguir usuários experientes de leigos. É utili-
zado um agente para aprender as características cognitivas das interações dos usuários e
classificá-los. Feng et al. [Feng and Koedinger 2005] buscam por fontes de erro em pre-
dizer o conhecimento de um estudante. Eles utilizam regressão stepwise para predizer
quais métricas explicam o erro na predição de resultados de exames.
Em relação à regressão, os algoritmos mais populares são regressão linear, re-
des neurais e máquinas de vetores de suporte para regressão. Como exemplo de uti-
lização de técnicas de regressão em EDM, podemos citar o trabalho de Beck & Wo-
olf [Beck and Woolf 2000] que utilizam regressão linear para predizer variáveis observá-
veis. O modelo é acoplado num agente de aprendizagem dentro de um STI. O agente
aprende a predizer a probabilidade da próxima resposta do estudante estar correta e em
quanto tempo o estudante gerará a resposta.
A seguir são apresentados alguns algoritmos de predição, relativamente há mo-
delos de classificação, descrevendo o método de indução de árvore de decisão e o de
máquina de vetor de suporte, além do modelo de regressão, apresentado através da abor-
dagem de regressão linear.
Árvores de decisão são modelos estatísticos que utilizam treinamento supervisionado para
classificação e predição dos dados. Ou seja, no conjunto de treinamento as variáveis
preditivas Y são conhecidas. Uma árvore de decisão possui uma estrutura de árvore, onde
cada nó interno (não-folha), pode ser entendido como um atributo de teste, e cada nó-folha
(nó-terminal) possui um rótulo de classe [Han and Kamber 2000]. O nó de mais alto nível
numa árvore de decisão é chamado de nó-raiz. Um exemplo de árvore de decisão pode
ser visto na Figura 1.2.
Após aprendido os parâmetros do modelo, a árvore de decisão irá classificar uma
instância de acordo com o caminho que satisfazer as condições desde o nó-raiz até o nó-
folha, ao final do processo a instância será rotulada de acordo com o nó-folha. Os algorit-
mos mais populares de árvore de decisão são o C4.5 [Quinlan 1993], C5.0 [RuleQuest ] e
o CART [Breiman 1984].
O algoritmo C4.5, tem como entrada um conjunto de treinamento de dados já
classificados (rotulados) e gera um modelo, a partir de um conjunto de dados semelhante,
porém não rotulado (conjunto de teste), na forma de uma Árvore de Decisão, utilizando o
conceito de entropia da informação. A cada nó da árvore, é selecionado um atributo dos
dados que divide o conjunto de amostras de forma mais efetiva em subconjuntos destina-
dos a uma classe ou outra. O critério utilizado para a divisão é o ganho de informação
(diferença na entropia) que resulta da escolha do atributo divisor. O atributo com maior
ganho de informação é escolhido para tomar a decisão [Quinlan 1993]. O algoritmo C5.0
é uma melhoria do algoritmo C4.5 que promete regras mais precisas, árvores de deci-
são menores e outras melhorias relacionadas à eficiência e ao custo computacional do
algoritmo em si.
Jornada de Atualização em Informática na Educação - JAIE 2012 9/29
Máquina de Vetores de Suporte (do inglês, Support Vector Machine (SVM)) é um algo-
ritmo supervisionado utilizado para a tarefa de classificação que utiliza um hiperplano
como separador de classes [Tan et al. 2005]. Este hiperplano é descoberto usando os ve-
tores de suporte (conjunto de treinamento) e funciona como um suporte para o limite da
decisão ao classificar.
Para dar uma explicação intuitiva do funcionamento da técnica de SVM, consi-
dere os dados de treinamento apresentados na Figura 1.3. Suponha que os dados sejam
relativos a uma turma com informações dos alunos, representados por círculos, como as-
siduidade e número de postagens num fórum de discussão (variáveis preditoras). Além
disso os dados rotulam cada aluno conforme seu desempenho na disciplina (variável pre-
ditiva), alunos que passaram da disciplina (círculos brancos) e alunos que não atingiram a
nota mínima (círculos cinzas). Intuitivamente, a meta do SVM é descobrir qual a melhor
forma de separar os dois grupos de alunos.
Nota-se que existe um número infinito de hiperplanos (linha tracejada) que podem
separar as classes apresentadas (círculos brancos e círculos cinzas). Então o objetivo do
SVM é encontrar qual o melhor hiperplano, ou seja aquele que maximize a distância
entre as instâncias das classes vizinhas. Um exemplo de melhor hiperplano para os dados
apresentados na Figura 1.3 encontrado pelo SVM é apresentado na Figura 1.4.
Jornada de Atualização em Informática na Educação - JAIE 2012 10/29
Regressão linear é uma técnica de predição que envolve uma variável preditiva y e uma
única variável preditora x, onde y é modelado em função linear de x [Han and Kamber 2000]:
y = b + wx, (1)
1.2.2. Agrupamento
Em agrupamento, o objetivo é dividir o conjunto de dados em grupos, de forma que os ob-
jetos contidos nos dados fiquem agrupados naturalmente de acordo com a semelhança en-
tre eles. Os algoritmos de agrupamento são técnicas de aprendizado não-supervisionado,
logo os grupos ou categorias, e até mesmo suas quantidades, não são conhecidos inicial-
mente. A equação abaixo nos diz quantos grupos de k objetos são possíveis dentro de um
conjunto de dados contendo n objetos.
Jornada de Atualização em Informática na Educação - JAIE 2012 11/29
1 k
i k
N(n, k) = ∑ (−1) (k − i)n . (2)
k! i=0 i
Se tomarmos, por exemplo, n = 25 e k = 5, temos que N(n, k) = 2.436.648.974.110.751.
Esta tarefa é portanto muito complexa e considerada um problema NP-Hard. 3 4
Os algoritmos de agrupamento podem tanto começar sem nenhuma hipótese a
priori sobre os grupos nos dados (tal como o algoritmo k-means com reinício aleatório),
ou começar de uma hipótese específica, gerada possivelmente por pesquisa anterior em
outros dados. Um algoritmo de agrupamento pode gerar grupos do tipo hard, onde cada
3 Um problema é considerado NP-Hard quando pode-se assumir que sua complexidade é, pelo menos,
tão grande quanto a do problema NP mais complexo.
4 NP é o conjunto de problemas de decisão onde as instâncias para as quais a resposta é sim podem ser
Figura 1.5. Gráfico dos dados da Tabela 1.2, onde nota (Nota final) e tempo
(Tempo de utilização).
elemento pertence a somente um grupo (ex.: algoritmo k-means), ou do tipo soft (também
conhecido como fuzzy), onde um elemento pode pertencer a mais de um grupo (ex.:
Modelos de Mistura Gaussiana).
Diversos trabalhos na área de Mineração de Dados Educacionais fazem uso das
técnicas de agrupamento, em [Moreno et al. 2012], um Algoritmo Genético é utilizado
para realizar agrupamento inter-homogêneo e intra-heterogêneo de estudantes para fins
de atividades de aprendizagem colaborativa. Diversas características dos estudantes são
consideradas, tais como uma estimativa de seu nível de conhecimento e estimativas de
suas habilidades de comunicação e de liderança.
Em [Xu ], um método estatístico (mistura de distribuições de probabilidade) de
agrupamento do tipo fuzzy, chamado de Análise Latente de Classes, é utilizado para agru-
par professores de acordo com os seus comportamentos ao utilizar uma biblioteca digital
para auxílio à preparação de conteúdo instrucional. Em [Amershi 2009], diferentes tipos
de estudantes são identificados em ambientes de aprendizagem a partir de dados oriundos
de logs da interface e do rastreamento do movimento dos olhos, esses dados servem de
entrada para um algoritmo de agrupamento do tipo K-Means que se encarrega de agrupar
os estudantes de acordo com suas similaridades comportamentais.
Em [Talavera 2004], também é utilizado um método estatístico para identificar
padrões de comportamento de estudantes em um cenário de colaboração num ambiente
de aprendizagem. Em [Shen 2003], os estudantes são agrupados de acordo com suas
preferências com o intuito de melhor adaptar os sistemas de ensino a distância de acordo
com suas necessidades. Ainda em [Shen 2003], são construídos modelos representativos
Jornada de Atualização em Informática na Educação - JAIE 2012 13/29
de cada grupo, que é por fim utilizado para identificar as melhores práticas de ensino e
sugestão de material de acordo com as preferências dos membros de cada grupo.
Em seguida, alguns algoritmos de agrupamento bastante usados em EDM são
mostrados.
Esse processo é repetido até que os elementos sejam atribuídos aos mesmos grupos
das interações anteriores por repetidas interações, de forma que os centróides permaneçam
estáveis daí em diante.
Tal como aponta [Witten and Frank 2005], este método de agrupamento é simples
e efetivo. É fácil provar que o processo minimiza a distância quadrática total de cada ponto
do grupo ao seu centróide, e assim que a iteração estabiliza, cada ponto estará atribuído
Jornada de Atualização em Informática na Educação - JAIE 2012 14/29
ção antiga pela nova população gerada com indivíduos mais aptos.
Além das abordagens descritas acima, existem outras abordagens também bastante usadas
em EDM, incluindo métodos estatísticos como Análise de Fatores e Modelos de Mistura
Gaussiana.
Os Modelos de Mistura Gaussiana constituem um método estatístico de agrupa-
mento do tipo fuzzy. A base dos algoritmos de agrupamento estatístico é o modelo de
misturas finitas, onde uma mistura é uma conjunto de k distribuições de probabilidade,
representando os k grupos, que governam os valores de atributos dos membros daquele
grupo. Em outras palavras, cada distribuição dá a probabilidade de uma instância em
particular ter um certo conjunto de atributos se ela for um membro daquele grupo. Cada
instância em particular pertence a um e somente um dos grupos, mas não se sabe a qual
deles [Witten and Frank 2005].
Com esta fundamentação, os Modelos de Mistura Gaussiana são capazes de pro-
duzir agrupamentos com grupos que se sobrepõem ou até mesmo deixar algumas instân-
cias do conjunto de dados sem estar atribuídas a nenhum grupo. Esta flexibilidade pode
ser interessante para algumas aplicações. Uma das desvantagens desta abordagem é um
custo computacional relativamente alto.
Mineração de regras de associação introduzida em [Agrawal et al. 1993], é uma das mais
importantes técnicas de mineração de dados, tendo como objetivo central derivar regras
de conhecimento, referindo-se a relacionamentos entre objetos de um conjunto de dados,
visando exibir características e tendências. Isto é, procura-se associação entre itens do tipo
“uma transação que contém os itens X também possui o conjunto de itens Y ” (X → Y ),
sendo X ∩Y = 0. / Assim, a regra tem a forma “Se X, então Y ”, onde X é denominado de
corpo da regra e Y de cabeça da regra. A cada regra derivada pelo algoritmo, verifica-se
a sua validade e importância. Para isso, faz-se uso de duas medidas básicas: o suporte
e a confiança, comparando-as com os seus respectivos limiares estabelecidos (suporte
mínimo e confiança mínima).
A medida de suporte diz respeito à ocorrência relativa da regra de associação
detectada dentro do conjunto de dados de transações, sendo calculada pelo quociente
entre o número de transações que sustentam a regra e o número total de transações. Já a
medida de confiança de uma regra de associação refere-se ao grau com o qual a regra é
verdadeira entre os registros individuais, sendo calculada pelo quociente entre o número
de transações sustentando a regra e o número de transações sustentando apenas o corpo
da regra.
Um exemplo de uso dessa técnica em EDM é a mineração de regras em um banco
de dados de notas de alunos em disciplinas. Neste contexto seria possível derivar regras
como “90% dos alunos que têm bom desempenho nas disciplinas de Lógica e Matemática
são bem sucedidos também em Programação”.
Os algoritmos clássicos de mineração de regras de associacão derivam regras ape-
nas conjuntivas, limitando-se a utilização do operador lógico AND. Desde meados dos
anos 90 que vários algoritmos clássicos de derivação de regras de associação têm sido de-
senvolvidos, por exemplo: quantitative association rule [Srikant and Agrawal 1996], ge-
neralized association rule [Srikant and Agrawal 1995], sequential patterns [Mannila et al. 1997]
e association rules extended with negation [Tsur et al. 1998]. A literatura de algoritmos
de regras de associação é ampla, mas no presente texto vamos ressaltar apenas o clássico
algoritmo Apriori. Apriori [Agrawal et al. 1993] consolidou-se como o primeiro algo-
ritmo de mineração de regras de associação assumido como eficiente. Esse algoritmo
combina uma estratégia de busca denominada Breadth-first search (BFS) com uma estru-
tura de árvore para contagem de ocorrência de candidatos.
de visualização da informação [Hershkovitz and Nachmias 2008, Kay et al. 2006]. Al-
guns exemplos dessas particularidades são destacadas por Baker [Baker 2010a]: Os dados
são organizados em termos da estrutura do material de aprendizagem (habilidades, pro-
blemas, unidades, aulas) e da estrutura de contexto de aprendizagem (alunos, professores,
pares de colaboração, classes e escolas).
A destilação dos dados para facilitar decisões humanas tem dois propósitos prin-
cipais [Baker 2010b]: a) Identificação - os dados são apresentados de forma que humanos
possam identificar os padrões mais facilmente, que são difíceis de expressar formalmente;
b) Classificação - a destilação de dados pode ser usada também para apoiar a modelos de
predição. Neste caso, parte dos dados são exibidos para serem rotulados por humanos.
Esses rótulos são utilizados como base para a construção desses modelos.
Segundo Baker[Baker et al. 2006], uma área chave para destilação de dados para
facilitar decisões humanas é a metodologia de repetição de texto. Essa metodologia con-
siste em apresentar pequenas partes da base de dados em formato de texto, após rece-
berem rótulos por agentes humanos. Ainda segundo Baker[Baker 2010a], a repetição de
texto tem sido utilizadas para, por exemplo: o desenvolvimento de modelos de predi-
ção para usuários que tentam trapacear o sistema em vários ambientes de aprendizagem
[Baker et al. 2006, Baker et al. 2010].
A identificação de padrões de aprendizagem e diferenças individuais dos estudan-
tes a partir da visualização é um método chave para exploração de bases de dados educa-
cionais [Baker 2010a]. Como o exemplo apresentado por Baker [Baker 2010a] dentro do
domínio do modelo do estudante, como pode ser visto na Figura 1.8.
Esta técnica permite que novos atributos sejam derivados apartir dos atributos originais
com o intuito de facilitar a extração de determinada informação de forma mais eficaz. O
novo conjunto de atributos pode substituir ou ser agregado aos atributos originais. Con-
Jornada de Atualização em Informática na Educação - JAIE 2012 19/29
sidere, por exemplo, um conjunto de fotografias onde deseja-se classificar de acordo com
a presença ou não de uma face humana. Os dados brutos, contendo informações apenas
a nível de pixels, podem não ser interessantes para essa tarefa, mas novos atributos, num
nível mais alto, podem ser gerados a partir de outros algoritmos que detectem a presença,
ou não, de certas bordas na imagem. Esses novos atributos podem servir de entrada a um
conjunto maior de técnicas de classificação [Tan et al. 2005].
As tabelas de sumarização são muito utilizadas quando se trabalha com um banco de da-
dos relacional constituído de várias tabelas e precisa-se apenas de uma parte desses dados.
Para isso, cria-se uma nova tabela apenas com a informação desejada, já transformada,
para a técnica de mineração que se deseja aplicar. Essa tarefa é utilizada em EDM, por
exemplo, quando se realiza classificação em dados do Moodle [Romero et al. 2008].
Essa tarefa é necessária quando os dados de entrada da técnica de mineração que se pre-
tende utilizar precisam estar em um formato específico e diferente do formato atual dos
dados.
• Modelagem do estudante;
• Modelagem do domínio;
• Suporte pedagógico;
• Descoberta científica.
Nesta seção serão apresentadas como aplicações que utilizam a mineração de da-
dos educacionais podem auxiliar educadores em diferentes áreas, ou mesmo algum sis-
tema computacional, a exemplo de um STI.
1.5.1. WEKA
Weka é uma coleção do estado da arte de algoritmos de aprendizagem de máquina e ferra-
mentas de pré-processamento [Hall et al. 2009]. É uma ferramenta de código aberto e foi
desenvolvido na Universidade de Waikato na Nova Zelândia. Weka possui uma variedade
de algoritmos de aprendizagem, que incluem ferramentas de pré-processamento. Além
disso, oferece suporte a todo processo de mineração, que inclui suporte a preparação dos
dados de entrada, avaliação estatística da aprendizagem, visualização dos dados de en-
trada e os resultados. Todas as funcionalidades disponíveis podem ser acessadas através
de uma interface comum, apresentada na Figura 1.9.
A interface oferecida pelo Weka permite que os algoritmos de aprendizagem e
as diversas ferramentas para transformação possam ser aplicados as bases de dados sem
que seja necessário escrever nenhum código. O Weka inclui métodos para os problemas
padrões de mineração de dados, como: regressão, classificação, agrupamento, regras de
associação e seleção de atributos [Hall et al. 2009]. Todos os algoritmos aceitam o for-
mato padrão estabelecido para o Weka, o ARFF. ARFF é um formato de entrada específico
da ferramenta e tem a forma de uma tabela relacional simples. O ARFF pode ser lido de
um arquivo e/ou construído a partir de uma base de dados.
Na tela principal apresentada na Figura 1.9, o Weka disponibiliza quatro opções o
Jornada de Atualização em Informática na Educação - JAIE 2012 22/29
1.5.2. RapidMiner
O RapidMiner é um sistema de código aberto para a mineração de dados. É um aplicativo
distribuído de forma independente para análise de dados, mineração de texto e de dados,
além disso, permite a integração com outros produtos desenvolvidos pelo mesmo projeto.
Na Figura 1.11 é apresentada uma de suas telas, onde a fonte de dados carregada pode ser
Jornada de Atualização em Informática na Educação - JAIE 2012 24/29
visualizada.
• Poderosa, mas intuitiva interface gráfica para o usuário para o design do processo
de análise;
Algumas características interessantes dessa ferramenta são: o fato de ter seu có-
digo aberto e, por isso, disponível gratuitamente, funcionar na maioria das principais pla-
taformas e sistema operacional. Além de, assim como o Weka, disponibilizar o acesso as
suas funcionalidades por meio de uma interface gráfica intuitiva, linhas de comando e API
Java, possibilitando a construção de aplicações que a utilizem por meio de um mecanismo
simples. Além disso, o RapidMiner possui a biblioteca de algoritmos de aprendizagem
do Weka totalmente integrada e possibilita o acesso a diferentes fontes de dados, como:
Excel, Acess, Oracle, Microsoft SQL Server, MySQL, Postgres, Arquivos de texto, entre
outros.
Além das das características citadas, outras características são destacadas por de-
senvolvedores [Rapid-i 2012] como diferenciais da ferramenta, são algumas delas: solu-
ção mais abrangente disponível: mais de 500 operadores de integração e transformação
dos dados, mineração, avaliação, visualização; e conceito visualização multi-camadas de
dados garante a manipulação de dados mais eficiente, entre outras.
O RapidMiner também oferece uma extensa documentação que inclui: Tutorias
em videos, guia de instalação e um manual da ferramenta. O manual é muito bem cons-
truído e aborda, além de um passo-a-passo de como utilizar a ferramenta, uma introdução
aos conceitos fundamentais e necessários sobre mineração de dados.
Referências
[Agrawal et al. 1993] Agrawal, R., Imieliński, T., and Swami, A. (1993). Mining as-
sociation rules between sets of items in large databases. In Proceedings of the 1993
ACM SIGMOD international conference on Management of data, SIGMOD ’93, pages
207–216, New York, NY, USA. ACM.
[Amershi 2009] Amershi, S., C. C. (2009). Combining unsupervised and supervised
classification to build user models for exploratory learning environments. Journal of
Educational Data Mining, 1(1):18–71.
[Baker 2011] Baker, R.S.J.d., I. S. d. C. A. (2011). Mineração de dados educacionais:
Jornada de Atualização em Informática na Educação - JAIE 2012 26/29
[Fayyad et al. 1996] Fayyad, U. M., Piatetsky-Shapiro, G., and Smyth, P. (1996). Ad-
vances in knowledge discovery and data mining. In Fayyad, U. M., Piatetsky-Shapiro,
G., Smyth, P., and Uthurusamy, R., editors, A, chapter From data mining to knowledge
discovery: an overview, pages 1–34. American Association for Artificial Intelligence,
Menlo Park, CA, USA.
[Feng and Koedinger 2005] Feng, M., H. N. and Koedinger, K. (2005). Looking for sour-
ces of error in predicting students’ knowledge. In Educational Data Mining: Papers
From the 2005 AAAI Workshop, pages 54–61, Menlo Park. AAAI Press.
[Hall et al. 2009] Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P., and
Witten, I. H. (2009). The weka data mining software: an update. SIGKDD Explor.
Newsl., 11(1):10–18.
[Han and Kamber 2000] Han, J. and Kamber, M. (2000). Data mining: concepts and
techniques. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA.
[Kay et al. 2006] Kay, J., Maisonneuve, N., Yacef, K., and Reimann, P. (2006). The big
five and visualisations of team work activity. In Proceedings of the 8th international
conference on Intelligent Tutoring Systems, ITS’06, pages 197–206, Berlin, Heidel-
berg. Springer-Verlag.
[Klösgen and Zytkow 2002] Klösgen, W. and Zytkow, J. M., editors (2002). Handbook
of data mining and knowledge discovery. Oxford University Press, Inc., New York,
NY, USA.
[Koedinger et al. 2010a] Koedinger, K. R., Baker, R. S. J., Cunningham, K., Skogsholm,
A., Leber, B., and Stamper, J. (2010a). A data repository for the EDM community:
The PSLC DataShop. Handbook of Educational Data Mining, pages 43–55.
[Koedinger et al. 2010b] Koedinger, K. R., Baker, R. S. J., Cunningham, K., Skogsholm,
A., Leber, B., and Stamper, J. (2010b). A data repository for the EDM community:
The PSLC DataShop. Handbook of Educational Data Mining, pages 43–55.
[Kotsiantis 2009] Kotsiantis, S. (2009). Educational data mining: a case study for
predicting dropout-prone students. Int. J. Knowl. Eng. Soft Data Paradigm.,
1(2):101–111.
Jornada de Atualização em Informática na Educação - JAIE 2012 28/29
[Lloyd 1982] Lloyd, S. (1982). Least squares quantization in pcm. Information Theory,
IEEE Transactions on, 28(2):129 – 137.
[Mannila et al. 1997] Mannila, H., Toivonen, H., and Inkeri Verkamo, A. (1997). Disco-
very of frequent episodes in event sequences. Data Min. Knowl. Discov., 1(3):259–289.
[Mierswa et al. 2006] Mierswa, I., Wurst, M., Klinkenberg, R., Scholz, M., and Euler, T.
(2006). Yale: Rapid prototyping for complex data mining tasks. In Ungar, L., Craven,
M., Gunopulos, D., and Eliassi-Rad, T., editors, KDD ’06: Proceedings of the 12th
ACM SIGKDD international conference on Knowledge discovery and data mining,
pages 935–940, New York, NY, USA. ACM.
[Moreno et al. 2012] Moreno, J., Ovalle, D. A., and Vicari, R. M. (2012). A genetic
algorithm approach for group formation in collaborative learning considering multiple
student characteristics. Comput. Educ., 58(1):560–569.
[Passos and Goldsmith 2005] Passos, E. L. and Goldsmith, R. (2005). Data Mining: Um
guia Prático. Campus, 1 edition.
[Quinlan 1993] Quinlan, J. R. (1993). C4.5: programs for machine learning. Morgan
Kaufmann Publishers Inc., San Francisco, CA, USA.
[Romero et al. 2008] Romero, C., Ventura, S., Espejo, P. G., and Hervás, C. (2008). Data
mining algorithms to classify students. In In Proc. of the 1st Int. Conf. on Educational
Data Mining (EDM’08), p. 187191, 2008. 49 Data Mining 2009.
[Srikant and Agrawal 1995] Srikant, R. and Agrawal, R. (1995). Mining generalized as-
sociation rules. In Proceedings of the 21th International Conference on Very Large
Data Bases, VLDB ’95, pages 407–419, San Francisco, CA, USA. Morgan Kaufmann
Publishers Inc.
[Srikant and Agrawal 1996] Srikant, R. and Agrawal, R. (1996). Mining quantitative
association rules in large relational tables. In Proceedings of the 1996 ACM SIGMOD
international conference on Management of data, SIGMOD ’96, pages 1–12, New
York, NY, USA. ACM.
Jornada de Atualização em Informática na Educação - JAIE 2012 29/29
[Superby et al. 2009] Superby, J., Vandamme, J.-P., and Meskens, N. (2009). Determi-
nation of factors influencing the achievement of the first-year university students using
data mining methods. In Proceedings of the Workshop on Educational Data Mining
at the 8th International Conference on Intelligent Tutoring Systems (ITS 2006), pages
37–44.
[Talavera 2004] Talavera, L., G. E. (2004). Mining student data to characterize similar
behavior groups in unstructured collaboration spaces. Workshop on artificial intelli-
gence in CSCL. 16th European conference on artificial intelligence, pages 17–23.
[Tan et al. 2005] Tan, P.-N., Steinbach, M., and Kumar, V. (2005). Introduction to Data
Mining, (First Edition). Addison-Wesley Longman Publishing Co., Inc., Boston, MA,
USA.
[Tsur et al. 1998] Tsur, D., Ullman, J. D., Abiteboul, S., Clifton, C., Motwani, R., Nes-
torov, S., and Rosenthal, A. (1998). Query flocks: a generalization of association-rule
mining. SIGMOD Rec., 27(2):1–12.
[Witten and Frank 2005] Witten, I. H. and Frank, E. (2005). Data Mining: Practical Ma-
chine Learning Tools and Techniques. Morgan Kaufmann Series in Data Management
Systems. Morgan Kaufmann, 2nd edition.
[Xu ] Xu, B., R. M. Understanding teacher users of a digital library service: A clustering
approach.