Beruflich Dokumente
Kultur Dokumente
RECIFE
2016
RECIFE
2016
Catalogao na fonte
Bibliotecria Monick Raquel Silvestre da S. Portes, CRB4-1217
R175a
Aprovada em 22/12/2016.
________________________________________
Orientador: Prof. Dr. Alex Sandro Gomes
BANCA EXAMINADORA
__________________________________________
Prof. Dr. Fernando da Fonseca de Souza
Centro de Informtica / UFPE
__________________________________________
Carla Taciana Lima Loureno Silva Schuenemann
Centro de Informtica / UFPE
__________________________________________
Prof. Dr. Francisco Milton Mendes Neto
Departamento de Cincias Exatas e Naturais / UFERSA
_________________________________________
Prof. Dr. Francisco Ricardo Duarte
Secretaria de Educao a Distncia / SEAD
__________________________________________
Prof. Dr. Alexandre Magno Andrade Maciel
Escola Politcnica de Pernambuco / UPE
Agradecimentos
A Deus, que me guiou e me sustentou durante toda esta caminhada;
minha amada esposa, Silvana e s minhas amadas filhas Marcela e Sofia, pela
compreenso, pelo amor e por tudo que representam na minha vida;
Aos meus pais, que escolheram a educao dos filhos como pedra fundamental para a
nossa famlia;
Ao meu amigo e orientador, Prof. Alex Sandro, mais uma vez, pela confiana, suporte e
ateno, pelos ensinamentos e encaminhamentos essenciais para que esta tese fosse
produzida e, acima de tudo, por sua amizade sincera;
Aos irmos, cunhados e sobrinhos, pela torcida e apoio neste desafio;
Aos colegas Cavaleiros da EDM, Rodrigo Lins e Joo Sedraz, pela amizade,
reciprocidade, compartilhamento e disponibilidade de sempre em ajudar;
Aos professores Fernando Fonseca, Carla Silva, Milton Mendes, Ricardo Duarte,
Alexandre Maciel, Simone Santos e Ig Bittencourt, pelas valiosas sugestes para o
aperfeioamento desta tese;
Aos colegas do CCTE, por proporcionar um ambiente dinmico de interao e pesquisas,
de ajuda mtua e de objetivos compartilhados;
Ao NEAD/UPE, por nos conceder uma importante e fundamental base de dados para que
pudssemos desenvolver nossas pesquisas;
FACEPE e a Coordenao do DINTER/MINTER: Profa. Edna Barros e Prof. Max
Santana, por nos concederem e apoiarem esta inestimvel oportunidade de prosseguir
nossos estudos de ps-graduao;
Aos professores do CIN/UFPE, pela nossa formao em alto nvel tcnico-cientfico;
Aos servidores do CIN/UFPE, em especial Llia, Socorro e Daniel, por nos aturar e
nos atender sempre com presteza e zelo.
UNIVASF, por me conceder as condies necessrias para um bom desenvolvimento
desta minha formao; em particular, SEAD, por me oferecer toda a sua estrutura para
as pesquisas iniciais e complementares desta tese;
Aos bolsistas do PRO-SPB, pela contribuio no desenvolvimento da aplicao;
Aos colegas do DINTER/MINTER, pela reafirmao das amizades anteriores, pelas
novas amizades e pela colaborao mtua durante as disciplinas;
Aos colegas do colegiado de Engenharia de Computao/UNIVASF, pelo
companheirismo e apoio;
A todos que, de alguma forma, contriburam para que esse trabalho fosse desenvolvido.
Resumo
O crescimento da Educao a Distncia (EAD) tem sido apoiado por teorias para auxiliar
o planejamento e a execuo de cursos de maneira eficaz e eficiente. As pesquisas na rea
tambm refletem esse crescimento, medida que buscam atenuar ou resolver problemas
que surgem decorrentes dessa expanso, como por exemplo os altos ndices de evaso
ainda verificados na modalidade. Para a maioria das instituies que participaram do
Censo Anual da EAD no Brasil em 2015, o grande obstculo enfrentado tem sido a evaso
nos cursos, quando para 40% das instituies pesquisadas, a taxa mdia de evaso foi
entre 26% e 50% nos cursos totalmente ofertados a distncia por essas instituies.
Partindo de uma necessidade de renovao de teorias da EAD, bem como aplic-las no
sentido de auxiliar no enfrentamento nos desafios da modalidade, esta pesquisa enfocou
a Teoria da Distncia Transacional, proposta por Moore (1972, 1973, 1993, 2013). Foi
sugerida uma nova abordagem para determinao dos seus construtos, com o propsito
de aplic-los em um processo de deteco precoce de alunos com tendncias a evaso,
em cursos superiores ofertados a distncia. A utilizao de tcnicas de anlise
multivariada para a obteno dos construtos da distncia transacional teve a inteno de
buscar uma abordagem distinta das atualmente verificadas na literatura. Essa
determinao feita, na maioria dos casos, utilizando questionrios aplicados a alunos e
professores. Tambm, as evidncias na literatura apontam o uso de diversas tcnicas de
minerao de dados e aprendizagem de mquina na definio de modelos preditivos em
contextos educacionais, com ndices satisfatrios de acertos. A partir da obteno dos
componentes (variveis) dos construtos da distncia transacional, foi tambm definido e
validado um modelo de previso da evaso de alunos em cursos a distncia, a partir desses
componentes. Foram usados diversos algoritmos classificadores, sendo o classificador
por regresso logstica apresentado resultados mais relevantes quando comparados aos
registrados pela literatura na rea. Foi ento desenvolvida uma aplicao com o modelo
preditivo implementado, para testes com professores e tutores que atuam na EAD, sendo
a mesma bem avaliada por esses usurios.
Abstract
The growth of Distance Education (DE) has been supported by theories to aid in the
planning and execution of courses in an effective and efficient way. Research in this area
also reflects this growth, as they seek to mitigate or solve problems arising from this
expansion, such as the high rates of dropouts still observed in the modality. For most of
the institutions that participated in the DE Annual Census in Brazil in 2015, the greatest
obstacle has been the avoidance of courses, when for 40% of the institutions surveyed,
the average rate of dropout was between 26% and 50% in courses offered at a distance
by these institutions. Based on a need to renew DE theories, as well as applying them to
help addressing the challenges of the modality, this research focused on the Transactional
Distance Theory proposed by Moore (1972, 1973, 1993, 2013). It was suggested a new
approach to determine their constructs, with the purpose of applying them in a process of
early detection of students with tendencies to dropout, in higher distance courses. The use
of multivariate analysis techniques to obtain the transactional distance constructs, had the
intention of looking for a different approach than those currently found in the literature.
This determination is made, in most cases, using questionnaires applied to students and
teachers. In addition, the literature evidences the use of several techniques of data mining
and machine learning in the definition of predictive models in educational contexts, with
satisfactory indexes of precision. After obtaining the components (variables) of the
constructs, it was also defined and validated a model of prediction of the dropout students
in distance courses, from these components. Several classifiers algorithms were used, and
the logistic regression classifier presented more relevant results when compared to those
recorded in the literature. Since then, an application with the predictive model was
implemented for test with users and was been well accepted by teachers and tutors who
work with DE.
Keywords: Educational Data Mining. DE. Prediction. Supervised learning.
Lista de Figuras
Figura 1 Evoluo do nmero de matrculas em cursos de graduao no perodo 20032014, por modalidade de ensino. .................................................................................... 20
Figura 2 - Modelo de Aprendizagem On-line. ............................................................... 37
Figura 3 - Relao entre o dilogo e a estrutura e sua influncia na distncia transacional.
........................................................................................................................................ 48
Figura 4 Visualizao da influncia do dilogo e da estrutura na distncia transacional.
........................................................................................................................................ 48
Figura 5 - Relao entre o dilogo, estrutura, distncia transacional e a autonomia do
aluno. .............................................................................................................................. 49
Figura 6 - Multidisciplinaridade da Minerao de Dados. ............................................ 65
Figura 7 Exemplo de rvore de Deciso..................................................................... 70
Figura 8 Exemplo da classificao do kNN para dois valores de k. ........................... 72
Figura 9 Exemplo de Rede Neural Artificial. .............................................................. 73
Figura 10 Componentes da SVM. ............................................................................... 74
Figura 11 Relao logstica entre variveis dependente e independente..................... 76
Figura 12 - Processo de descoberta de conhecimento em banco de dados..................... 61
Figura 13 - Processo de KDD. ....................................................................................... 62
Figura 14 - Etapas da Minerao de Dados Educacionais.............................................. 77
Figura 15 - Taxonomia dos Mtodos para EDM. ........................................................... 83
Figura 16 - Fases do CRISP-DM.................................................................................. 103
Figura 17 Modelo de CRISP-EDM da pesquisa. ....................................................... 110
Figura 18 - Etapas 01 a 03 da pesquisa. ....................................................................... 111
Figura 19- Etapas 04 a 06 da pesquisa. ........................................................................ 111
Figura 20 - Etapas e aes da pesquisa. ....................................................................... 112
Figura 21 Processo de mapeamento das variveis da DT. ........................................ 116
Figura 22 Exemplo de um diagrama de caminhos em uma SEM/CFA. ................... 120
Figura 23 Matriz de Confuso. .................................................................................. 130
Figura 24 Curvas ROC para dois classificadores diferentes ..................................... 132
Figura 25 Arquitetura da implementao do modelo preditivo de evaso. ............... 135
Figura 26 Fluxo do processo de avaliao dos prottipos. ........................................ 137
Figura 27 Resultado para o Teste de Mardia para normalidade multivariada. .......... 154
Lista de Tabelas
Tabela 1 Taxas de evaso em cursos a distncia. ........................................................ 21
Tabela 2 Taxas de evaso em cursos superiores presenciais e a distncia. ................. 22
Tabela 3 - Dados dos Cursos de Graduao a Distncia da Universidade de Pernambuco.
...................................................................................................................................... 114
Tabela 4 Quantitativos e ndices de desistncia e evaso nos cursos analisados. ..... 148
Tabela 5 Quantitativos e ndices de desistncia e evaso nos cursos analisados. ..... 148
Tabela 6 Indicadores de ajuste e qualidade do modelo inicial. ................................. 156
Tabela 7 Indicadores de ajuste e qualidade do modelo final. ..................................... 160
Tabela 8 Resumo das bases de treinamento e testes usados no processo de EDM. .. 162
Tabela 9 N de casos (instncias) de cada classe em ambas as bases........................ 162
Tabela 10 Matrizes de Confuso para cada classificador usando a base completa. .. 164
Tabela 11 Mtricas de avaliao de cada classificador usando a base completa (valores
em destaque representam os melhores indicadores entre os classificadores). .............. 165
Tabela 12 Matrizes de Confuso para cada classificador usando a base do curso de
Pedagogia. .................................................................................................................... 166
Tabela 13 Mtricas de avaliao de cada classificador usando a base de Pedagogia.166
Tabela 14 Matrizes de Confuso para cada classificador usando a base do curso de
Biologia. ....................................................................................................................... 167
Tabela 15 Mtricas de avaliao de cada classificador usando a base de Biologia. . 168
Tabela 16 TFP e TFN para cada classificador, usando a base completa. .................. 171
Tabela 17 Matrizes de Confuso para cada base, aps o uso do Stepwise. ............... 175
Tabela 18 Mtricas de avaliao do modelo, sem e com o Stepwise. ....................... 175
Tabela 19 Resultados das Mtricas por perodo - Pedagogia. ................................... 176
Tabela 20 Resultados das Mtricas por perodo - Biologia. ...................................... 177
Tabela 21 Resultados de modelos preditivos de evaso em trabalhos relacionados. 194
Lista de Quadros
Quadro 1 - Atores e seus objetivos com a EDM. ........................................................... 79
Quadro 2 - reas de interesse de pesquisa em EDM. .................................................... 81
Quadro 3 Tcnicas e abordagens para alcance dos objetivos especficos. ................ 112
Quadro 4 Obras relacionadas a instrumentos de medio da DT usadas nesta pesquisa.
...................................................................................................................................... 116
Quadro 5 Questionrio AttrakDiff para expectativa e experincia do usurio.......... 139
Quadro 6 Tarefas realizadas pelos usurios nos testes de usabilidade do prottipo. 141
Quadro 7 Lista de Software e pacotes usados na aplicao do mtodo. ................... 142
Quadro 8 Descrio das principais tabelas do BD Moodle, onde foram coletados dados
desta pesquisa. .............................................................................................................. 144
Quadro 9 Tabelas e quantidade de registros por turmas em Biologia. ...................... 145
Quadro 10 - Tabelas e quantidade de registros por turmas em Pedagogia. .................. 146
Quadro 11 Lista das variveis e respectivos construtos atribudos pelos especialistas.
...................................................................................................................................... 149
Quadro 12 Lista das variveis eliminadas por apresentarem somente valores constantes
ou zerados em todos os casos. ...................................................................................... 152
Quadro 13 Lista das variveis utilizadas na Anlise Fatorial Confirmatria. ........... 152
Quadro 14 Lista final de variveis por construtos aps a CFA. ................................ 159
Quadro 15 Lista final das variveis do modelo, definida aps a Regresso Logstica
Stepwise. ....................................................................................................................... 174
Quadro 16 Resultados da execuo da Tarefa 1. ....................................................... 187
Quadro 17 Resultados da execuo da Tarefa 2. ....................................................... 187
Quadro 18 Resultados da execuo da Tarefa 3. ....................................................... 187
Quadro 19 Resultados da execuo da Tarefa 4. ....................................................... 188
Quadro 20 Resultados da execuo da Tarefa 5. ....................................................... 189
Quadro 21 Resultados da execuo da Tarefa 6. ....................................................... 190
Quadro 16 Importncia de cada varivel no modelo. ................................................ 195
AUC:
AVA:
BD:
Banco de Dados
CFA:
CRISP-DM:
DM:
Data Mining
DT:
Distncia Transacional
EAD:
Educao a Distncia
EDM:
GOF:
Goodness-of-Fit
IDE:
IES:
KDD:
LMS:
MOODLE:
ML:
Machine Learning
NEAD:
ROC:
SEAD:
SQL:
SVM:
UAB:
UNIVASF:
UPE:
Universidade de Pernambuco
Sumrio
1.
INTRODUO ...................................................................................................... 17
1.1.
1.1.1.
1.1.2.
1.1.3. Uma nova abordagem para a obteno dos construtos e aplicao da distncia
transacional ................................................................................................................. 24
1.2.
1.3.
1.4.
1.5.
1.6.
1.7.
2.1.1.
2.1.2.
2.1.3.
2.1.4.
2.1.5.
2.1.6.
2.1.7.
2.1.8.
2.1.9.
3.
3.1.
3.1.1.
3.2.
Etapas ........................................................................................................... 61
3.2.1.
3.2.2.
3.2.3.
3.2.4.
3.3.
3.3.1.
3.3.2.
3.3.3.
3.3.4.
3.4.
Cross Industry Standard Process for Data Mining (CRISP-DM) ...................... 102
3.4.1.
4.
4.1.
4.2.
4.3.
Etapa 02: Entendimento dos Dados Fase de coleta e preparao inicial dos dados
113
4.4. Etapa 02: Entendimento dos Dados - Mapeamento dos construtos da Distncia
Transacional na base de dados...................................................................................... 115
4.4.1. Associao entre itens de questionrios e variveis do banco de dados do
Moodle 116
4.4.2. Anlise das variveis por especialistas e suas respectivas relaes com os
construtos da DT....................................................................................................... 117
4.5.
Etapa 03: Preparao dos Dados - Anlise Fatorial Confirmatria ................... 118
4.5.1.
4.6.2.
4.6.3.
4.6.4.
4.6.5.
4.7.
4.7.1.
4.7.2.
4.8.
4.8.1.
4.8.2.
4.9.
5.
Quadro resumo das ferramentas utilizadas em cada etapa do mtodo. ............. 142
DETALHAMENTO DOS RESULTADOS DA PESQUISA .............................. 144
5.1.
5.2.
5.3.
5.3.1.
Definio das variveis e validao dos construtos por especialistas ........ 149
5.3.2.
Extrao das variveis nas bases de dados dos cursos ............................... 151
5.4.2.
5.4.3.
5.4.4. Impactos das Taxas de Falso Negativo (TFN) e Falso Positivo (TFP) na
predio e tratamento da evaso dos cursos. ............................................................ 170
5.4.5.
5.5.
5.6.
5.7.
5.7.1.
5.7.2.
5.7.3.
5.8.
6.
6.1.
6.2.
6.3.
6.4.
17
1. INTRODUO
A Educao a Distncia (EAD) vem crescendo de maneira acentuada nos
ltimos anos e assumido um importante papel no cenrio educacional, em particular na
formao em nvel superior de setores da populao que, dificilmente, alcanariam esse
nvel de escolaridade, por fatores sociais e econmicos diversos. Essa modalidade
viabiliza, dentre outras oportunidades, a formao em horrio flexvel distinto dos
ambientes escolares presenciais, alm de possuir um alcance geogrfico abrangente, que
permite a incluso cada vez maior de pessoas na educao profissional e superior.
O crescimento da Educao a Distncia exige anlises orientadas por teorias
para auxiliar o planejamento e a execuo de cursos de maneira eficaz e eficiente. A EAD
tem tido o xito de ver o seu desenvolvimento histrico em paralelo com o
desenvolvimento das suas teorias (ANDERSON e DRON, 2012).
Aliadas ao incremento da modalidade, as pesquisas na rea tambm devem
buscar atenuar ou resolver problemas que surgem decorrentes dessa expanso, como, por
exemplo, os altos ndices de evaso ainda verificados na modalidade. Para a maioria das
instituies brasileiras que participam do Censo Anual da EAD no Brasil, o maior
obstculo enfrentado tem sido a evaso nos cursos, onde para 40% das instituies
pesquisadas, a taxa mdia de evaso, em 2015, foi entre 26% e 50%, nos cursos totalmente
ofertados a distncia por essas instituies.
Com a evoluo tecnolgica, algumas das teorias da educao a distncia
precisam ser revisitadas e atualizadas, sobretudo em razo de novos recursos tecnolgicos
usados nos cursos, assim como a existncia de novos mtodos e processos que permitem
um novo olhar sobre elas, agregando uma importncia ainda mais significativa a essas
teorias consolidadas.
Partindo dessa viso da necessidade de renovao de teorias, bem como
aplic-las no sentido de auxiliar no enfrentamento nos desafios da EAD, esta pesquisa
enfoca a Teoria da Distncia Transacional, proposta por Moore (1972; 1993; 2013; 1973),
propondo uma nova abordagem para determinao dos seus construtos, com o propsito
de aplic-la em um modelo de deteco de alunos com tendncias evaso em cursos
superiores ofertados a distncia.
A Teoria da Distncia Transacional tem seus fundamentos no conceito de
transao, que foi originado por Dewey e Bentley (1949) e "conota a interao entre o
18
meio ambiente, os indivduos e os padres de comportamento em uma situao" (BOYD
e APPS, 1980).
Assim, a transao em educao a distncia a interao de professores e
alunos em ambientes que tm a caracterstica especial de serem espacialmente separados
um do outro. Esta separao conduz a padres especiais de comportamento de alunos e
professores e afeta profundamente tanto o ensino quanto a aprendizagem. Com essa
separao, surge um espao psicolgico e comunicacional a ser transposto, um espao de
potenciais mal-entendidos entre as intervenes do instrutor e as do aluno. Esse espao
psicolgico e comunicacional a distncia transacional (MOORE, 1993).
De forma simplificada, a Teoria da Distncia Transacional preconiza que os
cursos a distncia podem ser avaliados e planejados segundo uma medida dessa distncia,
a qual se baseia em trs conjuntos de variveis: autonomia do aluno, dilogo e estrutura
do curso. Estabelecer essa medida indicadora da distncia transacional e assim como
definir mecanismos ou procedimentos no sentido de reduzi-la tem sido o objetivo de
vrios estudos desde a sua definio (CHEN e WILLITS, 1999; CHEN, 2001b; ZHANG,
2003; SANDOE, 2005; HORZUM, 2011; GOEL et al., 2012; SWART et al., 2014;
HUANG et al., 2015; PAUL et al., 2015).
Assim, esta pesquisa desenvolveu um novo processo que permite a obteno
dos construtos da distncia transacional, em momentos distintos durante um curso online, a partir da utilizao dos diversos dados de interao dos professores, tutores e
alunos nesses cursos. Para isso, uma tcnica multivariada de anlises de dados foi
utilizada para obter os componentes da distncia transacional em ambientes virtuais de
aprendizagem e tambm algoritmos de minerao de dados foram usados para estabelecer
um modelo de deteco precoce da possibilidade de evaso dos alunos em cursos a
distncia. Esse processo poder ser replicado em outros cursos e ambientes virtuais de
aprendizagem, alm dos analisados neste estudo.
A utilizao de tcnicas de anlise multivariada e de minerao de dados para
a obteno dos construtos da distncia transacional deve-se ao fato de esta tese buscar
uma abordagem distinta das atualmente verificadas na literatura, na qual sua aferio
feita quase que exclusivamente utilizando questionrios aplicados a alunos e professores.
O uso de questionrios, nesses casos, alm de demandar um tempo maior para sua
aplicao e apurao dos resultados, pode apresentar vieses decorrentes de opinies
imprecisas ou incompletas dos respondentes.
19
Tambm, as evidncias na literatura apontam o uso eficaz de diversas tcnicas
de minerao de dados na definio de modelos preditivos com altos ndices de preciso.
A partir da obteno dos componentes (variveis) dos construtos da distncia transacional
ser tambm definido e validado um modelo preditivo de evaso de cursos a distncia
baseado nesses componentes.
Espera-se com isso contribuir com a Teoria da Distncia Transacional, a partir
de uma nova abordagem para a obteno dos seus construtos. Com esses construtos, ser
definido de um novo modelo para deteco precoce e eficaz de alunos com tendncias
evaso em cursos na modalidade EAD. Esse modelo ser desenvolvido com o uso de
tcnicas de minerao de dados em contextos educacionais.
http://portal.inep.gov.br/
20
Figura 1 Evoluo do nmero de matrculas em cursos de graduao no perodo 20032014, por modalidade de ensino.
Fonte:(INEP, 2015).
21
contnuo nem uma periodicidade regular para a abertura de novas turmas dos mesmos
cursos na modalidade.
O censo mais recente da EAD no Brasil, feito pela Associao Brasileira de
Educao a Distncia (ABED)2, com dados de 2015, consultou 368 instituies de todo
o pas, entre formadoras em vrios nveis (cursos credenciados, livres no corporativos e
livres corporativos) e fornecedores de produtos e servios para a modalidade. As
instituies formadoras somam 339 deste total, sendo 92 instituies educacionais
pblicas, 185 privadas, 38 ligadas aos Servios Nacionais de Aprendizagem (Senai,
Senac, Sebrae entre outros) e a ONG/Terceiro Setor e 24 ligadas a rgos pblicos. Essas
instituies respondem por mais de 25 mil cursos e mais de 5 milhes de alunos (3,9
milhes em 2014) nas diversas categorias de EAD (graduao, ps-graduao,
semipresenciais, livres e corporativos), o que tambm demonstra o crescimento e a
importncia para a EAD em vrios segmentos no pas.
Segundo esse levantamento, existiam em 2015, 785 cursos de graduao
(bacharelados, licenciaturas e tecnolgicos), 1.079 cursos de especializao lato sensu e
7 mestrados ofertados na modalidade.
Ainda de acordo com o censo da ABED, as taxas de evaso reportadas nos
cursos a distncia so maiores que as nos cursos presenciais (os cursos regulamentados
totalmente a distncia apresentam os ndices mais altos). O Censo EAD.BR 2015
registrou uma evaso entre 26% e 50%, com 40% das ocorrncias nas instituies que
oferecem cursos regulamentados totalmente a distncia. A Tabela 1 compara os ndices
dos 3 ltimos censos feitos pela Associao Brasileira de Educao a Distncia (ABED,
2014; 2015; 2016).
Tabela 1 Taxas de evaso em cursos a distncia.
Taxas de evaso
declaradas
At 25%
Entre 26 e 50%
Acima de 50%
No declararam
http://abed.org.br/arquivos/Censo_EAD_2015_POR.pdf
22
Alm dos ndices de evaso estarem em nveis elevados, observou-se tambm
que esto crescendo, o que demanda por pesquisas e aes que busquem no somente
estancar esse crescimento, mas tambm reduzir essas taxas.
Entre os motivos da evaso investigados pelas IES e declarados anualmente
no censo, a falta de tempo dos alunos tem sido a principal causa. Curiosamente, uma das
vantagens da modalidade exatamente a flexibilidade que a mesma oferece em relao
ao tempo para estudo. Novos estudos especficos podem confirmar ou contrapor-se a essa
declarao. Outros motivos apontados so: questes financeiras e a falta de adaptao
modalidade EAD ou metodologia do curso.
Outra fonte de dados sobre evaso o Mapa do Ensino Superior no Brasil,
Edies 2015 e 2016, publicados pelo Sindicado das Empresas Mantenedoras do Ensino
Superior (SEMESP)3 feita com base nos dados do INEP dos anos de 2013 e 2014. A
Tabela 2 resume esses indicadores das duas edies do relatrio.
Tabela 2 Taxas de evaso em cursos superiores presenciais e a distncia.
Ano
2013
2014
Cursos presenciais
IES pblicas
IES privadas
17,8%
27,4%
18,3%
27,9%
Curso a Distncia
IES pblicas
IES privadas
25,6%
29,2%
26,8%
32,5%
http://convergenciacom.net/pdf/mapa-ensino-superior-brasil-2015.pdf
http://convergenciacom.net/pdf/mapa_ensino_superior_2016.pdf
23
disciplinas. O trabalho de Rigo et al. (2014) usou dados de algumas disciplinas em trs
semestres de trs cursos de graduao para inferir sobre a evaso no curso. Apenas o
trabalho de Dos Santos et al. (2014) utilizou dados de um curso superior completo nas
suas anlises, sem, entretanto, fundamentar a escolha dos dados usados no modelo
preditivo. A carncia de uma associao do processo de escolha das variveis a uma teoria
especfica da EAD foi verificada em todos os trabalhos analisados.
Internacionalmente, a evaso na EAD tambm uma preocupao
evidenciada em trabalhos como os de Levy (2007); Lykourentzou et al. (2009); Yasmin
(2013); Woodley e Simpson (2014) e Yukselturk et al. (2014). Uma maior anlise dessa
literatura ser feita na Seo 3.3, sobre Minerao de dados educacionais.
24
incorporar conceitos essenciais das demais teorias analisadas. Essa abrangncia tambm
destacada nos trabalhos de Saba (2003;2007) e Gokool-Ramdoo (2008).
De fato, abordar a educao a distncia atravs de uma viso sistmica que
subdivide todas as componentes da distncia em vrios grupos, facilita diversas
intervenes, de tal forma que a modalidade possa favorecer a uma cultura de melhoria
contnua (GOKOOL-RAMDOO, 2008).
25
Assim, a presente pesquisa justificada pela apresentao de uma nova
abordagem para obteno dos construtos da distncia transacional na EAD, a partir dos
dados coletados que representem as interaes de professores, tutores e estudantes no
ambiente virtual, em diversos momentos de um curso on-line, no dependendo mais da
aplicao de questionrios ou de outros instrumentos para a obteno desses construtos.
Esses componentes tambm foram testados como preditores de alunos com
riscos de evaso no curso, possibilitando aos gestores, professores e tutores perceberem
de que maneira cada construto est influenciando na tendncia de evaso e,
consequentemente, adotar medidas no sentido de intervir para diminuir a distncia
transacional e reduzir esse risco.
26
O mtodo usado para responder s questes de investigao envolve um
estudo da literatura sobre distncia transacional e outras teorias da EAD; o exame de toda
a base de dados gerada na ocorrncia de cursos de graduao on-line mediados em um
ambiente virtual de aprendizagem; o uso de tcnicas de anlise multivariada e de
minerao de dados educacionais para extrair conhecimento a partir da base de dados e a
posterior aplicao desse conhecimento no estabelecimento de um modelo para deteco
precoce da possibilidade de evaso do aluno.
27
A ferramenta pode ser usada para ajudar a indicar aos alunos sobre a
importncia dos elementos no seu ambiente de aprendizagem e tambm usar
esses indicadores para identificar os seus atributos no curso que geram maior
risco de evaso, facilitando, assim, os esforos para reduzi-la e melhorar o
seu compromisso com sua autorregulao da aprendizagem no curso.
Contribuio para os gestores:
contribuies
so
as
mais
diretamente
identificadas
no
28
29
De acordo com esse autor, a estrutura de ensino a distncia determinada
consideravelmente pelos princpios da industrializao, em particular por aqueles de
racionalizao, diviso do trabalho e produo em massa.
Para ilustrar as caractersticas industriais de programas de educao a
distncia, Peters (1967) aplicou conceitos da literatura de gesto de negcios e
desenvolveu as seguintes categorias para anlise da modalidade, redefinindo, assim, os
termos para a EAD (SCHLOSSER e ANDERSON, 1994) (SIMONSON et al., 1999):
Racionalizao - A utilizao de medidas metdicas para reduzir a
quantidade necessria de energia, tempo e dinheiro para a EAD.
Diviso do trabalho - A diviso de uma tarefa em componentes mais simples
ou subtarefas. Por exemplo, a produo de materiais didticos do curso a distncia pode
ser feita por especialistas no assunto. Educadores experientes na modalidade podem rever
o contedo e adequ-lo ao processo de entrega do curso. Tutores ou auxiliares podem
incumbir-se de acompanhar a evoluo dos alunos ou mesmo corrigir atividades
desenvolvidas pelos estudantes.
Mecanizao - A EAD deve fazer uso de modernos meios de comunicao e
processamento de dados. Peters (1967) observou que a educao a distncia seria
impossvel sem equipamentos.
Linha de montagem - No desenvolvimento do curso de estudo a distncia,
os contedos produzidos so passados por diferentes reas e especialistas e alteraes
especficas podem ser feitas em cada fase. Os materiais desenvolvidos no so produtos
de um nico indivduo.
Produo em massa - Materiais didticos so produzidos em grande
quantidade em funo da demanda crescente dos cursos a distncia.
Trabalho preparatrio - Em uma situao de produo na qual uma diviso
de trabalho prevalece, a economia, qualidade e velocidade dos processos de trabalho
dependem do tipo certo de preparao. O sucesso da educao a distncia depende de
uma fase preparatria.
Planejamento - Um elemento essencial da preparao o planejamento, pois
requer a coordenao de muitos fatores que interagem entre si.
30
Organizao - Na educao a distncia, existe uma conexo imediata entre a
eficcia do mtodo de ensino e a organizao do processo. Por exemplo, com a
organizao, torna possvel os alunos receberem contedos de ensino predeterminados
em tempos previamente estabelecidos.
Mtodos de controle cientficos - Com os seus esforos para medir o sucesso
de um mtodo de ensino, a EAD introduziu um aspecto at ento negligenciado no ensino
universitrio. So os mtodos pelos quais os processos de trabalho so sistematicamente
analisados, em particular, por estudos de tempo e em conformidade com os resultados
obtidos a partir das medies e os dados empricos.
Formalizao - Por conta da diviso do trabalho e da mecanizao no
processo de fabricao, h uma necessidade muito maior para predeterminar as vrias
fases formalmente do que no trabalho manual. Todos os pontos do ciclo devem ser
determinados com exatido.
Padronizao - As limitaes de produo a um nmero restrito de tipos de
um produto para torn-los mais adequados para seu propsito, mais barato de produzir e
mais fcil de substituir.
Mudana de Funo - Os atores desse processo produtivo podem mudar de
papel de acordo com a necessidade ou circunstncia na qual o programa de ensino
desenvolvido.
Objetivao - Quanto mais o processo de produo determinado por
mquinas e princpios organizacionais, mais ela perde seu elemento subjetivo usado para
determinar o trabalho individual a um grau considervel. Em educao a distncia, a
maioria das funes de ensino so objetivas.
Concentrao e centralizao - O investimento necessrio para a produo
em massa mecanizada, envolvendo a diviso do trabalho, levou a grandes empresas
industriais com uma concentrao de capital, uma administrao centralizada com
frequncia e um mercado que, no raramente, monopolizado.
Peters (1967) concluiu ento que o processo de ensino gradualmente
reestruturado por meio da mecanizao e automatizao crescentes, implicando as
seguintes caractersticas estruturais (SIMONSON et al., 1999):
31
mtodo racionalizado que envolve a diviso do trabalho, para fornecer conhecimento que,
como resultado da aplicao dos princpios da organizao industrial, bem como o uso
extensivo de tecnologia, facilita a reproduo de atividade do ensino por muitas pessoas
e permite um grande nmero de estudantes estudarem ao mesmo tempo,
independentemente do seu local de residncia e de trabalho.
Alguns autores como Gomes (2004) e Simonson et al.(2008) criticam o fato
de a Teoria da Industrializao ser centrada na descrio dos processos de organizao e
estruturao das instituies que ofertam cursos em EAD do que propriamente numa
teoria de ensino ou da aprendizagem a distncia. O principal problema da comparao de
Peters (1967) seria adotar, segundo os seus crticos, os princpios e as caractersticas do
modelo industrial fordista, baseado nos princpios da baixa variabilidade do processo de
produo, baixa inovao dos produtos e baixa responsabilidade do trabalho como um
padro ideal de produo eficiente, que guia a estratgia organizacional.
Gomes (2004) tambm cita que, mesmo admitindo que seja possvel
industrializar o processo de ensino, no parece possvel industrializar o processo de
aprendizagem, dado que este um processo individual, interno e pessoal.
Apesar disso, Peters (2002) afirma que a educao a distncia um produto
da sociedade industrial no apenas por apresentar caractersticas do processo industrial,
mas tambm por ter a capacidade de responder s demandas educacionais tpicas de uma
sociedade industrializada, atraindo uma grande populao de estudantes, que buscam uma
melhoria no seu perfil profissional.
32
partir da motivao do estudante pela promoo do prazer de estudar, pelo uso de
materiais bem preparados e com foco na comunicao professor-aluno.
Holmberg (1985) observou que a sua teoria tinha valor explicativo relativo
eficcia do ensino no impacto dos sentimentos de pertencimento e cooperao, bem como
para a troca real de perguntas, respostas e argumentos na comunicao mediada
(SIMONSON et al., 2008).
Em outro texto seu, Holmberg (1986) apresentou sete premissas de fundo para
sua teoria (SCHLOSSER e SIMONSON, 2009; SIMONSON et al., 2008):
1. O ncleo de ensino a interao entre as partes de ensino e aprendizagem;
presume-se que interao simulada por meio da apresentao de assunto
em cursos pr-produzidos pode assumir parte da interao, fazendo os
alunos a considerarem solues, abordagens e diferentes pontos de vista
e, geralmente, interagirem com um curso;
2. O envolvimento emocional no estudo e os sentimentos de relao pessoal
entre o ensino e a aprendizagem, so partes susceptveis para contribuir
com o prazer da aprendizagem;
3. O prazer da aprendizagem apoia a motivao dos alunos;
4. A participao na tomada de decises sobre o estudo favorvel
motivao do estudante;
5. Uma forte motivao do aluno facilita a aprendizagem;
6. Um tom pessoal amigvel e o acesso fcil ao assunto contribuem para o
prazer da aprendizagem e para apoiar a motivao do aluno e, assim,
facilitar a aprendizagem nas apresentaes dos cursos pr-produzidos (ou
seja, mesmo em ensino na forma de trfego unidirecional, pode simular a
interao), bem como de comunicao didtica na forma de trfego nos
dois sentidos entre as partes de ensino e aprendizagem; e
7. A eficcia do ensino demonstrada pela aprendizagem dos alunos naquilo
que lhes foi ensinado.
Holmberg (1986) acreditou que esses pressupostos so a base dos princpios
essenciais da modalidade de educao a distncia. A partir dessas premissas, ele formou
sua teoria de que o ensino a distncia vai apoiar a motivao dos alunos, promover o
prazer de aprender e tornar o estudo individual relevante para o aluno e suas necessidades,
criando sentimentos de afinidade entre ele e a instituio de educao a distncia (seus
tutores, orientadores, entre outros), facilitando o acesso ao contedo do curso, envolvendo
o aluno em atividades, discusses e decises (SIMONSON et al., 2008).
Holmberg (1986) reconheceu tambm que essa sua teoria no era completa.
No entanto, acrescenta que no desprovida de poder explicativo, pois indica as
33
caractersticas essenciais de uma educao a distncia eficaz (SCHLOSSER e
SIMONSON, 2009).
Em 1995, ele ampliou, significativamente, sua teoria da educao a distncia.
Sua nova teoria tornou mais abrangente a EAD e dividida em oito partes conforme a
seguir (SCHLOSSER e SIMONSON, 2009):
1. A EAD atende a aprendizes individuais que no podem ou no querem
fazer uso do ensino presencial. Estes alunos so muito heterogneos;
2. A EAD significa que os alunos j no tm que se comprometer com
decises tomadas por outras pessoas sobre local de estudo, a diviso do
ano em termos de perodos de estudo e frias, horrios e requisitos de
entrada. A EAD promove, assim, a liberdade de escolha e independncia
dos alunos;
3. A sociedade beneficia-se da EAD, por um lado, das oportunidades de
estudo mais flexveis que proporcionam aos aprendizes individuais e, por
outro lado, a partir da formao profissional/ocupacional que ela
proporciona;
4. A EAD um instrumento recorrente para aprendizagem ao longo da vida
e para o livre acesso s oportunidades de aprendizagem e equidade;
5. Todo aprendizado causa aquisio de conhecimentos cognitivos e
habilidades cognitivas, bem como a aprendizagem afetiva e algum
aprendizado psicomotor tambm so efetivamente previstos pela EAD;
6. A EAD baseada em profunda aprendizagem como uma atividade
individual. O aprendizado orientado e apoiado por meios no contguos.
Ensino e aprendizagem dependem da comunicao mediada, geralmente
baseados em cursos pr-produzidos;
7. A EAD aberta aos processos behavioristas, cognitivos, construtivistas e
outros modos de aprendizagem. Ela tem um elemento de industrializao
como a diviso do trabalho, o uso de dispositivos mecnicos,
processamento eletrnico de dados e de comunicao de massa,
geralmente baseados em cursos pr-produzidos; e
8. As relaes pessoais, o prazer com o estudo e a empatia entre estudantes
e aqueles que os apoiam (tutores, orientadores, entre outros.) so
fundamentais para a aprendizagem na EAD. Sentimentos de empatia e
pertencimento promovem a motivao dos alunos para aprender e
influenciar, favoravelmente, a aprendizagem.
Em resumo, o proposto por Holmberg (1995) foi, por um lado, uma descrio
da educao a distncia e, por outro lado, uma teoria de que hipteses so geradas e que
tem poder explicativo medida que identifica uma abordagem geral favorvel
aprendizagem. A sua teoria est ancorada no estabelecimento de um sentimento de
relao pessoal entre o ensino e a aprendizagem, ou seja, na motivao do estudante.
34
35
Fazer com que o projeto e o desenvolvimento dos cursos sejam compatveis com
um "programa articulado de mdia";
36
para saber quando e onde ele estar pronto para aprender. Na pgina da Universidade do
Wisconsin, na sua referncia sobre Charles Wedemeyer4 afirmado que, j em 1965,
Wedemeyer previu o e-Learning de hoje, fazendo as seguintes observaes (SABA,
2014):
"... A extenso do aluno do futuro ser provavelmente no
assistir aulas; em vez disso, as oportunidades e os
processos de aprendizagem viro at ele. Ele vai aprender
em casa, no escritrio, no trabalho, na fbrica, loja ou na
fazenda. "
"... O professor ir atingir os estudantes no s em seu
prprio estado ou regio, mas a nvel nacional, uma vez que
os meios e mtodos utilizados por ele no ensino iro remover
as barreiras de espao e tempo em aprender ..."
Wedemeyer (1981) evidenciou, portanto, os quatro elementos de cada
situao de ensino/ aprendizagem: um professor, um aluno ou alunos, um sistema de
comunicaes e algo a ser ensinado ou aprendido. Ele props uma reorganizao desses
elementos para permitir uma maior liberdade do aluno. Ele acreditava que a chave para o
sucesso da educao a distncia era o desenvolvimento de relaes entre aluno e professor
(SIMONSON et al., 2008).
http://www.uwex.edu/disted/conference/wedemeyer/aboutcw.cfm
37
modelo abrangente, com componentes bem definidos e as respectivas interaes
estabelecidas. Assim, o autor apresentou um modelo de aprendizagem on-line no qual so
representadas, como principais variveis que interagem na construo de contextos e no
desenvolvimento de experincias de aprendizagem, os alunos e os professores, bem como
as interaes entre si e com os contedos. Tal modelo apresentado na Figura 2.
O modelo ilustra os dois principais atores humanos: alunos e professores e
suas interaes entre si e com contedo. Os alunos podem interagir diretamente com o
contedo que eles podem encontrar em vrios formatos. No entanto, muitos optam por
ter sua aprendizagem sequenciada em seu prprio ritmo, dirigida e avaliada com a ajuda
de um professor. Essa interao pode ocorrer dentro de uma comunidade de investigao
ou de aprendizagem, utilizando uma variedade de atividades sncronas e assncronas
(vdeo, udio, conferncia, chats, entre outras) baseadas na web (ANDERSON, 2008).
Figura 2 - Modelo de Aprendizagem On-line.
38
pesquisa, pois, por meio de agentes inteligentes, os contedos interagem uns com os
outros na explorao contnua das redes, obtendo-se, quase de forma instantnea, os
resultados da pesquisa.
Esses ambientes so particularmente ricos e permitem a aprendizagem de
habilidades sociais, a aprendizagem colaborativa de contedo, bem como o
desenvolvimento das relaes pessoais entre os participantes (ANDERSON, 2008).
O segundo modelo de aprendizagem ( direita da figura) ilustra as
ferramentas de aprendizagem estruturadas que so associadas aprendizagem
independente. As ferramentas mais comuns usadas nesta modalidade incluem simulaes,
exerccios e tutoriais de aprendizagem assistida por computador. Laboratrios virtuais,
onde os alunos realizam simulaes completas de experimentos de laboratrio e tm
acesso a sofisticadas ferramentas de pesquisa e recuperao, tambm esto se tornando
ferramentas comuns nos ambientes on-line (ANDERSON, 2008).
Textos impressos e em arquivos digitais tm sido muito utilizados para
transmitir interpretaes e percepes de professores no estudo independente. No entanto,
tambm deve ser enfatizado que, embora ocupado em estudo independente, o aluno no
est sozinho. Muitas vezes, os colegas no local de trabalho ou remotos e membros da
famlia tm se mostrado importantes fontes de apoio e assistncia aos alunos de estudo
independente (POTTER, 2013).
O modelo proposto por Anderson (2004) baseado em dois pilares: a
aprendizagem independente, com raiz no campo da educao a distncia, e a
aprendizagem colaborativa, com raiz nos paradigmas construtivista e scio-construtivista.
Ele considera importante para a construo do modelo pedaggico considerar as
potencialidades da Web, admitindo que uma aprendizagem de qualidade deve ser
centrada no aluno, no conhecimento, na comunidade e na avaliao, destacando a
importncia das formas de interao (MIRANDA et al., 2005).
A partir desse modelo apresentado, Anderson (2004) afirmou que o
planejamento instrucional do curso importante para a aprendizagem on-line, pois deve
proporcionar diversas situaes de aprendizagem, as quais assegurem uma boa qualidade
e quantidade de interaes entre os atores e o contedo.
O modelo pode ser considerado como um modelo aberto e flexvel, o qual
oferece, ao aluno e ao professor, a possibilidade de criarem ambientes orientados para
39
diferentes contextos de aprendizagem (formal, informal, tcnica, superior, entre outros),
facilidades de interao e oportunidades para o desenvolvimento de estratgias de
trabalho individual e colaborativo. Tambm evidencia as diversas formas de aprender e
de ensinar na Web, destacando as principais variveis envolvidas no processo de ensino
e aprendizagem e as relaes entre elas, perspectivando a grande importncia a atribuir
ao conceito de interao e aos vrios tipos de interao que devem ser privilegiados e
cultivados no contexto educativo (MIRANDA et al., 2005).
O desafio para os professores e desenvolvedores que trabalham em um curso
dentro do contexto de aprendizagem on-line a construo de um ambiente de
aprendizagem que seja, simultaneamente, centrado: no aluno, no contedo, na
comunidade e na avaliao. No h melhor meio nico de aprendizagem on-line, nem
existe uma especificao que estabelece o tipo de interao mais propcio aprendizagem
em todos os domnios e com todos os alunos. Em vez disso, os professores devem
aprender a desenvolver suas habilidades de modo que elas possam responder aos
estudantes e currculos emergentes existentes. O professor pode fazer isso por meio do
desenvolvimento de um repertrio de ensino on-line que contemple atividades de
aprendizagem que sejam adaptveis s diversas necessidades contextuais e estudantis
(ANDERSON, 2008).
40
Neste trabalho, tambm apresentamos estudos com aplicaes da sua teoria
dos ltimos quinze anos, em especial os trabalhos que visaram obteno da distncia
transacional (DT) ou que, de alguma forma, tentaram estabelec-la de modo quantitativo.
O conceito inicial de transao, como parte da distncia transacional,
derivado a partir do trabalho de Dewey e Bentley (1949) e desenvolvido por Boyd e Apps
(1980), segundo os quais a transao definida como "a interao entre o ambiente, os
indivduos e os padres de comportamento em uma situao".
A transao a que denominamos educao a distncia ocorre entre professores
e alunos num ambiente que possui como caracterstica especial a separao entre alunos
e professores. Essa separao conduz a padres de comportamento de alunos e
professores, afetando profundamente o ensino e a aprendizagem. Com a separao, surge
um espao psicolgico e comunicacional a ser transposto, um espao de potenciais malentendidos entre as intervenes do instrutor e as do aluno. Este espao psicolgico e
comunicacional a distncia transacional (MOORE, 1993).
A distncia transacional definida por Moore (1993) refere-se, ento, a uma
distncia, que mais do que uma separao geogrfica simples de aluno e professor. Em
vez disso, trata-se de uma distncia que causa dificuldades de compreenso e de
percepo. Enquanto professor e aluno esto fisicamente separados um do outro, a
separao fsica leva a lacunas psicolgicas e de comunicao. Essa lacuna pode tornar o
mais simples tpico em um desafio para ensinar (ZHANG, 2003).
Essas lacunas psicolgicas e comunicacionais entre um aluno e seu professor
nunca so exatamente iguais. Em outras palavras, a distncia transacional uma varivel
contnua e no discreta, um termo relativo e no absoluto (MOORE, 1993). Conforme
(RUMBLE, 1986) apud. (MOORE, 1993), em qualquer programa educacional, seja ele
presencial ou a distncia, existe alguma distncia transacional.
Assim, a educao a distncia um subconjunto do universo da educao e
educadores a distncia podem utilizar e contribuir para a teoria e a prtica da educao
convencional. No entanto, ao processo educacional ao qual, normalmente, nos referimos
como educao a distncia, a separao entre professor e aluno suficientemente
significativa para que as estratgias e tcnicas especiais de ensino-aprendizagem por eles
utilizadas possam ser identificadas como caractersticas distintivas dessa modalidade de
prtica educacional (MOORE, 1993).
41
Como questo central dessa teoria, a distncia transacional influenciada por
trs fatores bsicos: (i) o dilogo, que desenvolvido entre professor e aluno, (ii) a
estrutura, que se refere ao grau de flexibilidade estrutural do programa; e (iii) a
autonomia, que se refere medida que o aluno exerce controle sobre os procedimentos
de aprendizagem (GIOSSOS et al., 2009). Na seo seguinte, so aprofundados os
conceitos e detalhamentos dessas trs variveis da distncia transacional.
42
professores e alunos, ele no forneceu interpretaes claras sobre como o campo de
pesquisa pode medir esta construo qualitativa, recebendo, assim, crticas sobre a
validade e confiabilidade das diferentes medidas usadas para quantificar o dilogo
baseado na DT (GARRISON, 2000; GORSKY e CASPI, 2005). No entanto, uma teoria
robusta deve estar aberta a vrias maneiras de medir um mesmo construto que, em ltima
instncia, produz a mesma resposta (WEICK, 1989).
Moore (1993) afirmou que o aumento do dilogo implica na reduo da
distncia transacional. A percepo de que a distncia transacional diminui e a troca de
ideias relevantes mais eficaz quando o dilogo aumenta tambm apoiada por Saba e
Shearer (1994). Segundo esses autores, as variveis dilogo e estrutura no so estticas:
elas mudam ao longo do tempo, dependendo do desenvolvimento da interao entre o
instrutor e os alunos.
Para Gorsky e Caspi (2005), ao confrontarem a Teoria de Moore, apenas o
dilogo o determinante da distncia transacional, e as outras variveis afetam o dilogo.
J o trabalho de Dron (2005) destaca que, na Teoria da Distncia Transacional, a relao
entre estrutura e o dilogo (pelo menos em termos gerais) imutvel.
Em Shearer (2009), o dilogo conceituado como um subconjunto de todas
as comunicaes educacionais, na qual a inteno permitir trocas dialgicas que levam
ao aumento da compreenso do aluno e da construo do seu conhecimento.
Outros determinantes da extenso do dilogo, em um curso ou em uma aula,
so: o assunto do curso, a personalidade do professor, a capacidade de um aluno para
participar de forma ativa no dilogo e as diferenas culturais e lingusticas entre
instrutores e alunos (MOORE, 2013).
Estrutura
O segundo grupo de variveis representa a estrutura do curso. Essa estrutura
expressa a rigidez ou a flexibilidade dos objetivos educacionais, das estratgias de ensino
e dos mtodos de avaliao do programa em termos de: (i) estabelecer objetivos
educacionais do curso; (ii) ensinar tcnicas empregadas pelo curso e os procedimentos de
avaliao (iii); e, (iv) a extenso a que necessidades individuais so atendidas no curso
(ZHANG, 2003). Ela descreve em que medida um programa educacional pode acomodar
ou responder a cada necessidade individual do aluno (MOORE e KEARSLEY, 1996).
43
So os elementos do projeto do curso ou as maneiras de se estruturar o programa de ensino
para ser transmitido pelos diversos meios de comunicao.
Programas so estruturados de diferentes maneiras, de modo a se levar em
conta a necessidade de produzir, copiar, transmitir e controlar essas mensagens mediadas
(MOORE, 1993). A estrutura tambm se refere organizao e realizao de eventos e
atividades de aprendizagem em um ambiente de educao a distncia (KEARSLEY e
LYNCH, 1996).
Existem cursos nos quais h pouca ou nenhuma oportunidade para o estudante
construir seu prprio percurso dentro do curso de acordo com as necessidades pessoais,
j que os instrutores estabeleceram um roteiro para um determinado perodo de tempo.
Isso descreve um curso ou programa que tem um elevado grau de estrutura. Em
comparao, outros cursos so projetados com uma estrutura flexvel, na qual os alunos
podem seguir qualquer um dos vrios caminhos diferentes, ou muitos caminhos, por meio
do contedo ou pode negociar variaes significativas no programa com o instrutor
(MOORE, 2013).
A estrutura do curso deve identificar quais informaes so necessrias e
como o aluno deve saber encontrar, utilizar e gerir essas informaes. Um curso no
estruturado de forma eficaz pode potencialmente distanciar o aluno de toda a experincia
da aprendizagem on-line. Em contraste, da estruturao de um curso eficaz, a busca por
mais informaes poder ser incentivada e a distncia pedaggica minimizada
(SANDOE, 2005).
Autonomia
Segundo Moore (1993), a autonomia do aluno a extenso na qual ele exerce
um controle sobre os procedimentos de aprendizagem. A autonomia refere-se
capacidade do aluno para selecionar seus prprios objetivos de aprendizagem, fazer a
escolha de seus prprios mtodos de estudo e avaliar o seu progresso ou realizao. Com
uma maior autonomia, o aluno consegue tolerar uma maior distncia transacional em um
curso ou sistema de ensino a distncia (PRUITT, 2005). Autonomia, em outras palavras,
o grau de deciso que o aluno tem sobre questes como objetivos educacionais, seguido
de forma de ensino, mtodos de avaliao e progresso (GIOSSOS et al., 2009).
Por conta da sua autonomia, os alunos precisam se responsabilizar por julgar
e tomar decises acerca das estratgias de estudo. Mesmo quando um curso estruturado
44
para oferecer um maior nmero de instrues e a melhor orientao, se no houver
dilogo, os estudantes podem acabar por decidir por si prprios se as lies sero usadas,
e se for o caso quando, de que maneira e em que medida (MOORE, 1993).
Os programas de educao a distncia podem ser examinados para se verificar
em que medida o professor ou o aluno controlam os principais processos de ensinoaprendizagem, e podem, ento, ser classificados de acordo com o grau de autonomia do
aluno permitida por cada programa (GIOSSOS et al., 2009).
Vrios autores tm buscado refinar mais a definio da autonomia do aluno.
Ryan (1991) distinguiu a autonomia da independncia, mas afirmou que esses termos
foram, muitas vezes, utilizados alternadamente causando certa confuso na literatura.
Para ele, a autonomia em sentido da direo nas aes de uma pessoa e que a
independncia um estado de autossuficincia, em que um no tem o apoio de recursos
do outro.
Nolen (1995) descreveu a "autonomia de meios", centrada no controle que os
alunos tm sobre as estratgias de aprendizagem e que no envolvem o professor. Ela
distinguida da "autonomia intelectual", na qual os alunos tm para que, como e com que
finalidade eles estudam.
Em uma reviso da literatura sobre a autonomia, Littlewood (1996) revelou a
autonomia do aluno como uma variedade de diferentes graus de independncia em vez de
como um nvel absoluto. Ele definiu o termo como "a capacidade de pensar e agir de
forma independente ... em qualquer tipo de situao ...". De acordo com esse autor, essa
capacidade de aes independentes depende da aptido e da boa vontade do estudante.
Richardson (1998) analisou a literatura para validar o postulado de que a
autonomia do aluno poderia ser operacionalizada como um estilo cognitivo da
independncia do aluno. Em ltima anlise, ele refutou a utilizao de independncia de
campo como uma medida de autonomia do aluno ou como preditor de sucesso no ensino
a distncia, uma vez que foi confundida com inteligncia verbal, uma base para a seleo
de alunos no ensino superior.
Em outro trabalho sobre a autonomia, Littlewood (1999) tambm distingue
dois tipos de autonomia: proativa e reativa. Autonomia proativa, muito parecido com
autonomia intelectual de Nolen (1995), a autonomia, muitas vezes, citada na qual alunos
podem determinar seus objetivos de aprendizagem, selecionar materiais e mtodos para
45
o seu estudo, autoavaliar e estabelecer sua prpria agenda de aprendizagem. A autonomia
reativa corresponde autonomia dos meios de Nolen (1995), nos quais as instrues de
aprendizagem so colocadas por outros, mas, uma vez definidas, o aluno instigado para
organizar seus recursos para cumprir as metas de aprendizagem estabelecidas.
Na construo de um framework terico sobre ambientes de instruo on-line,
Jung (2001) revisou cinquenta e oito artigos sobre a instruo baseada na web e verificou
que as variveis de aprendizagem: autonomia e colaborao do aluno podem ser
enquadradas na categoria autonomia do aluno. Alm disso, tanto a colaborao quanto a
autonomia do aluno pareceram ganhar mais relevncia em ambientes de instruo
baseados na web. Em sua hiptese, Jung admitiu que esses ambientes podem proporcionar
uma maior autonomia do aluno, devido flexibilidade inerente sua estrutura, que
permite que os alunos usem estratgias de procura de informao de maneira interativa
ou espontnea.
Segundo Tori (2010), a autonomia do aluno tem uma relao direta com
estrutura do curso, sendo que essa autonomia necessria na EAD e tambm uma forma
de reduzir a distncia transacional.
Durante a pesquisa, que levou ao desenvolvimento da Teoria da Distncia
Transacional, tornou-se evidente que alguns programas podem permitir ou exigir o maior
exerccio de autonomia de aprendizagem do que os outros e que h condies nas quais
uma maior autonomia do aluno pode ser exercida e outras na quais um menor grau de
autonomia mais apropriado. Assim, os programas de ensino-aprendizagem podem ser
organizados, no s de acordo com a extenso da estrutura e do dilogo, mas tambm de
acordo com o grau de auto-gesto, ou a autonomia do aluno permitida por cada programa
(MOORE, 2013).
Outras variveis
Baseados na teoria de Moore e a partir de modelos de dinmica de sistemas,
Saba e Shearer (1994) definiram mais duas variveis para a distncia transacional: o
controle de aluno e o controle do professor. Mesmo assim, a concluso dos pesquisadores
foi que distncia transacional varia de acordo com a taxa de dilogo e de estrutura do
curso.
Hillman, Willis e Gunawardena (1994) perceberam que a interao entre o
aluno e a tecnologia na instruo no constava at ento na literatura sobre a Teoria da
46
Distncia Transacional; ento, acrescentaram a interao aluno-interface s outras formas
de interao j identificadas por Moore (1993), a fim de acomodar as caractersticas de
ensino mediado por computador.
Jung (2001) sugeriu que, na instruo baseada na web, as variveis de dilogo
incluem o dilogo acadmico, o colaborativo e a interao interpessoal, enquanto as
variveis de estrutura so de expanso, adaptabilidade de contedo e do layout visual. As
variveis de aprendizagem so autonomia do aluno e colaborao. Na sua pesquisa, Shin
(2003) expandiu a ideia de distncia transacional, postulando e testando o conceito de
presena transacional.
Nos seus trabalhos, Chen (2001a; 2001b) fez exploraes de quatro
dimenses da distncia transacional: instrutor-aluno, auno-aluno, aluno-contedo, e
aluno-interface de distncia transacional, demonstrando que esses foram fatores teis para
delinear a distncia transacional. Chen (2001a) tambm constatou que, em um curso com
base na Web, a experincia anterior com educao a distncia no teve efeito na
percepo dos alunos sobre a distncia transacional, mas a habilidade do aluno na
utilizao da Internet e da extenso do dilogo que ocorreu entre o professor e os alunos
e entre alunos tiveram efeitos significativos sobre a distncia.
J Tori (2002) identificou trs tipos de distncia na educao: espacial,
temporal e interativa, que, ao serem cruzadas com os trs tipos de interao identificados
por Moore (1989): aluno-professor, aluno-aluno e aluno-contedo, geram 512
possibilidades de distanciamento ou aproximao em atividades de aprendizagem. O
autor desenvolveu um conceito inverso da distncia transacional, ao propor uma frmula
para clculo do ndice de potencial de proximidade (ndice PP), para medir o potencial de
uma determinada atividade de aprendizagem, com base nas suas caractersticas, de
possibilitar uma sensao de presena sob a perspectiva do aluno.
Caspi et al. (2003) desenvolveram o que eles denominaram ser um "modelo
de reestruturao da distncia transacional", composto por quatro tipos de dilogo e foi
usado para examinar o efeito do tamanho do grupo sobre o comportamento dos alunos
em grupos de discusso assncrona.
Lowell (2004) mostrou a relao da presena social com a percepo da
distncia transacional em ambientes on-line, e Lemone (2005) estudou como os fatores
culturais podem afetar a distncia transacional. Dron (2007) estendeu a Teoria da
47
Distncia Transacional para o software social, tais como blogs, wikis e ambientes
colaborativos. Assim, a teoria expande-se e pesquisadores buscam evolu-la e encaix-la
em novos contextos e ambientes.
Os estudos de Braxton (1999), Lowell (2004) e Zhang (2003) ajudaram a
destacar que a distncia transacional afetada por mltiplas dimenses de interaes,
presena social, influncias culturais e outros aspectos da interao. No entanto, eles no
analisaram em profundidade os construtos subjacentes da teoria para ajudar a atingir
melhor as definies conceituais e operacionais dos termos da distncia transacional, nem
tambm exploraram uma possvel classificao ou medidas das variveis.
Seguindo as ideias de Saba e Shearer (1994), Dron (2006) definiu a varivel
de controle como sendo o controle transacional. Essa varivel de controle transacional
est relacionada com as escolhas dos atores da modalidade. Em todos os meios de EAD,
algumas das escolhas so feitas por professores e outras so feitas pelos alunos. A maneira
de como e quem faz essas escolhas define ento o controle transacional.
48
reduo da distncia transacional. Moore salienta que, se a estrutura cai abaixo de um
limiar, pode ocorrer um aumento da distncia transacional. Deve ser notado aqui que
Moore (1993) no especifica o que esse limiar da estrutura, segundo o qual a distncia
transacional aumenta (SANDOE, 2005).
Figura 3 - Relao entre o dilogo e a estrutura e sua influncia na distncia transacional.
49
Nas primeiras verses da sua teoria, Moore (1972; 1973) investigava a
distncia transacional em programas de educao a distncia, a partir da anlise de cursos
por correspondncia, rdio, tev entre outros. Da o seu foco no impacto dos nveis de
dilogo e da estrutura na distncia transacional. Com a evoluo dos meios de propagao
de contedos e, consequentemente, uma maior participao do aluno no processo de
ensino-aprendizagem a distncia, Moore (1993) ento passou a considerar a autonomia
do aluno como a terceira varivel da distncia transacional, mas que tambm impactada
pelo dilogo e pela estrutura, assim como incrementada (ou necessrio incrementar)
com o aumento da distncia transacional.
Uma vez que os alunos so atores de importncia crucial na transao de
ensino-aprendizagem, a natureza do aluno - principalmente o potencial para assumir a
responsabilidade de aprendizagem autnoma - pode ter um importante efeito sobre a
distncia transacional em qualquer programa educacional. Parece existir uma relao
entre dilogo, estrutura e autonomia do aluno, pois quanto maior a estrutura e menor o
dilogo em um programa, maior autonomia o aluno ter de exercer (MOORE, 1993).
Por outro lado, os alunos mais autnomos so mais confortveis com menos
dilogo, recebendo instrues por meio de materiais de curso mais altamente
estruturados. Tambm se sentem mais confortveis, com busca de informaes e tomada
de decises por si mesmos sobre o que, quando, onde, que forma e em que medida estudar.
Em outras palavras, quanto maior a distncia transacional mais os alunos tm de exercer
a sua autonomia. Essa relao entre a autonomia e as demais variveis da distncia
transacional pode ser visto no grfico 3D da Figura 5.
Figura 5 - Relao entre o dilogo, estrutura, distncia transacional e a autonomia do
aluno.
50
Cada plataforma 3D representa o nvel da distncia transacional observada
com o nvel combinado dos seus trs construtos. Esses dois grficos e outras variaes
dos mesmos foram incorporados no texto da ltima verso da sua teoria, em Moore
(2013).
Assim, Moore (1993) assumiu que: (i) a distncia transacional e dilogo so
inversamente proporcionais, o que significa que qualquer aumento em um conduz
diminuio do outro; (ii) O aumento da estrutura do curso leva reduo do dilogo e,
consequentemente, aumento da distncia transacional; (iii) A distncia transacional e a
autonomia so diretamente proporcionais um ao outro; com o aumento ou a diminuio
em um resulta em aumento ou diminuio no outro.
Um dos desafios para a aplicabilidade da Teoria da Distncia Transacional,
em programas de cursos em EAD, o estabelecimento de um processo de obteno dessa
distncia e como interpretar e aplicar os resultados nos programas educacionais
analisados. Na seo seguinte, so detalhados vrios trabalhos que buscaram estabelecer
essa mtrica.
51
medida em que tais variveis esto em oposio ou no esto em equilbrio,
independentemente do meio de entrega do curso, teoricamente isso pode afetar os alunos
de muitas maneiras, possivelmente, levando-os a deficincias nos potenciais ou desejos
de aprendizagem, pondo assim em risco a prpria meta, que foi inicialmente estabelecida
(SANDOE, 2005).
Segundo Goel et al. (2012), a rea problemtica predominante na Teoria da
Distncia Transacional tem sido a sua medio e de seus componentes - de dilogo,
estrutura e autonomia. Alguns trabalhos tm apresentado mecanismos de medio, mas
nenhum deles conseguiu, at ento, contemplar de maneira abrangente todos os conceitos
e propostas da teoria (HUANG et al., 2015).
Alguns procedimentos e instrumentos de coleta de dados para buscar medir
ou estabelecer indicadores da distncia transacional tm sidos verificados na literatura
sobre a teoria. A maioria dos trabalhos com abordagem quantitativa apresentam coletas
de dados a partir de questionrios com escalas tipo Likert (BISCHOFF et al., 1996;
BRAXTON, 1999; CHEN, 2001a; CHEN, 2001b; ZHANG, 2003; SANDOE, 2005;
HUANG et al., 2015. Tambm foram feitas anlises da transcrio de entrevistas abertas
(KANUKA, 2001; KASSANDRINOU et al., 2014) e qualitativas (KANUKA et al.,
2002; VEAL, 2009; USTATI e HASSAN, 2013).
Saba e Shearer (1994) utilizaram a dinmica de sistemas para analisar as
variveis de dilogo e estrutura. A modelagem dinmica de sistemas usada para estudar
sistemas industriais, biolgicos, ecolgicos e sociais, mas o estudo mostrou que ela
tambm pode ser usada com sucesso para modelar sistemas concebidos para verificar
conceitos fundamentais numa teoria de ensino a distncia. A dinmica de sistemas fornece
meios para o estudo de variveis inter-relacionadas, durante um perodo de tempo.
Uma das fases do desenvolvimento de um modelo baseado na dinmica do
sistema consiste em formalizar a relao entre os componentes (variveis) do sistema
estudado em um conjunto de equaes matemticas, que tambm so usadas como
cdigos computacionais para simular o modelo.
Segundo esses autores, as variveis dilogo e estrutura no so estticas: elas
mudam ao longo do tempo, dependendo do curso da interao entre instrutor e aluno e
que, mesmo diante de outras variveis (como as de controle do professor e do aluno), as
suas variaes influenciam diretamente na variao da distncia transacional.
52
Para analisar o efeito da distncia transacional sobre a educao dos
profissionais de sade em um ambiente de aprendizagem baseado em televiso, Bischoff
(1996) realizou um estudo exploratrio com 221 estudantes voluntrios em 13 cursos
pblicos de sade e de ps-graduao em enfermagem da Universidade do Hava em
Manoa. O questionrio aplicado foi desenvolvido pelo investigador e possua 68 itens
(em uma escala Likert de 5 pontos) sobre elementos de dilogo, a estrutura e a distncia
transacional em seus cursos. Usando a anlise de componentes principais e anlise de
consistncia interna, verificou-se a presena dos trs fatores: estrutura, dilogo e distncia
transacional. A distncia transacional foi medida perguntando aos alunos diretamente
sobre o grau de proximidade ou distncia que eles percebiam entre os demais membros
da turma.
O objetivo do estudo foi o de preencher 28 lacunas entre a teoria e a prtica
de coleta de dados empricos sobre a variveis da Teoria da Distncia Transacional,
comparando esses elementos em dois ambientes de aprendizagem: um em formato a
distncia (televiso interativa) e um formal tradicional (face a face). O estudo constatou
que: (a) no houve diferena significativa entre os dois grupos na estrutura e a distncia
transacional; e (b) o dilogo foi significativamente maior nos cursos a distncia.
O trabalho de Bischoff (1996) foi um dos primeiros esforos para aplicar
diretamente a teoria de Moore em uma pesquisa em educao a distncia. Ele no foi
realizado apenas para verificar a teoria, mas, em vez disso, utilizando os construtos na
teoria tradicional, pde comparar diversos cursos no formado de EAD. No entanto,
Bischoff (1996) fez vrias observaes sobre o desenvolvimento da escala e revelou a
necessidade de aperfeioamento do instrumento e a gerao de novos itens. Algumas das
sugestes de reviso foram consideradas e aproveitadas no estudo de Sandoe (2005).
Em sua tese de doutorado Braxton (1999), props uma "teoria refinada da
distncia transacional". Ela tambm buscou criar um instrumento para medir a distncia
transacional. Para esse refinamento, a autora usou dados relativos aos mtodos de design
instrucional na educao a distncia e da distncia transacional. Foram coletados dados
em pesquisas de campo usando questionrios, entrevistas e grupos focais virtuais.
As concluses dessa pesquisa foram usadas para criar uma ferramenta de
avaliao para auxiliar educadores a criar cursos em EAD, avaliando seus projetos antes
da realizao do curso. Essa avaliao pde permitir-lhes determinar o nvel de distncia
transacional em seus projetos de cursos propostos e para garantir que contemplem outros
53
fatores importantes que devem ser considerados durante a criao de cursos na
modalidade.
Chen (2001a; 2001b) props medir os componentes da distncia transacional
usando um questionrio com uma escala Likert de cinco pontos, que buscava descrever e
analisar todas as situaes reais de um aprendiz on-line. O instrumento de coleta de dados
continha 23 itens que descreviam todas as situaes que os alunos enfrentam, incluindo
todos os aspectos da comunicao no ambiente on-line, bem como a interao com os
materiais de aprendizagem e o meio de entrega utilizado. Usando 71 experincias de
aluno com a web, Chen (2001a; 2001b) examinou o postulado da teoria de Moore e
identificou os elementos constitutivos da distncia transacional. Foram avaliados quatro
tipos de interaes: aluno-aluno, aluno-interface, aluno-instrutor e aluno-contedo.
Foi realizada uma anlise fatorial exploratria, usando um mtodo de fator do
eixo principal e o autor concluiu que o conceito de distncia transacional representa ideias
multifacetadas. A distncia transacional, percebida pelos alunos, consistia em quatro
fatores (dimenses): a distncia transacional aluno-aluno referiu-se distncia
psicolgica, que os alunos percebem ao interagir com outros alunos; a distncia
transacional aluno-interface a que se referia ao grau de facilidade/dificuldade de
utilizao, que os alunos percebem quando eles usam os sistemas de entrega do curso; a
distncia transacional aluno-instrutor envolveu a distncia psicolgica de entendimentos
e comunicao, que os alunos percebem quando eles interagem com seu professor; e a
distncia transacional aluno-contedo, que se referiu distncia de entendimentos que os
alunos percebem como eles estudam os materiais do curso e medida que os materiais
satisfazem as suas necessidades de aprendizagem e expectativas para o curso.
Uma proposta de um mtodo para classificao e medio das distncias
envolvidas em um processo de aprendizagem, a fim de se possibilitar uma comparao
entre diferentes atividades educacionais, envolvendo elas ou no o uso de tecnologia
digital ou a presena fsica dos participantes foi apresentada por Tori (2002), a partir do
conceito e do clculo do ndice PP (Potencial de Proximidade), uma frmula matemtica,
que possibilita avaliar o potencial terico de presencialidade, associado a determinada
atividade de aprendizagem pela anlise de suas componentes a distncia (espacial,
temporal e interativa) nas trs relaes identificadas (aluno-professor, aluno-aluno e
aluno-contedo).
54
No seu estudo, Huang (2002) desenvolveu uma escala para medir as
percepes de estudantes em cursos on-line, para explorar quaisquer relaes entre as
percepes de estudantes e variveis demogrficas ou gerais (por exemplo: idade, sexo,
experincia com curso on-line, conhecimentos de informtica, entre outros) e investigar
as relaes entre interface e a interao. A pesquisa empregou, principalmente, pesquisa
correlacional e realizou regresses estatsticas descritivas, correlacionais e mltiplas. Seu
estudo tinha uma amostra pequena (n = 31), com a coleta de dados sendo feita ao longo
de dois trimestres a partir de questionrios aplicados aos alunos em uma universidade de
Taiwan. O estudo descobriu que a interao, a estrutura do curso e autonomia do aluno
foram correlacionados entre si, porque eles tinham a mesma varivel causal: a interface
de sistema de entrega. Ele tambm descobriu que os alunos devem possuir habilidades
necessrias para examinar o ambiente de aprendizagem antes que eles possam ser bemsucedidos.
Um instrumento desenvolvido por Zhang (2003) mediu a distncia
transacional em cursos baseados na web, no apenas entre aluno e professor, mas tambm
as distncias aluno-alunos, aluno-contedo e aluno-interface. Anlises fatoriais
confirmatrias e anlises exploratrias indicaram que os modelos de mensurao
propostos pela autora, especialmente aps as modificaes sugeridas por especialistas,
apresentaram um bom ajuste para os dados, que foram coletados a partir de questionrios
aplicados. Os procedimentos de modelagem de equaes estruturais foram testados para
a relao causal entre as quatro dimenses em relao ao nvel de distncia transacional
dos alunos em cursos baseados na web.
O fator mais forte que afetou a sensao de distncia transacional na pesquisa
de Zhang (2003) foi a distncia transacional entre aluno-alunos, seguido de distncia
transacional entre aluno-professor e, depois, pela distncia transacional aluno-contedo.
O estudo de Zhang (2003) foi atualizado por Paul et al. (2015) luz das
mudanas que ocorreram no ensino superior, especificamente na educao a distncia,
durante os 12 anos desde o lanamento do trabalho original. Houve um refinamento da
escala e uma reduo nos itens do questionrio, com uma validao de uma verso mais
parcimoniosa e que produziram estatsticas com melhor ajuste, alm de ser menos
demorado para ser concludo. Segundo os autores, essa nova escala, referida como a
Escala Revisada de Distncia Transacional, deve servir como uma ferramenta valiosa
para a pesquisa educacional e instruo no mundo em constante mudanas.
55
Na sua pesquisa, Sandoe (2005) projetou um instrumento para medir
especificamente a componente estrutura no ambiente on-line e o testou em 20 cursos. O
instrumento desenvolvido destacou-se em uma comparao com outros instrumentos de
campo em termos de sua capacidade de produzir informao rica e vlida sobre a estrutura
de cursos on-line. A coleta de dados foi baseada em questionrios aplicados e as anlises
dos dados foram feitas a partir de anlises das correlaes e discriminantes entre as
variveis coletadas.
Hughes (2010) tambm desenvolveu um instrumento de medio da distncia
transacional e seus construtos a partir de anlise multivarivel, para explorar os efeitos da
divulgao de mensagens educativas via e-mail para enfermeiros. Os dados foram
coletados a partir de surveys aplicados a 97 participantes da pesquisa. A anlise fatorial
dos dados coletados resultou em um modelo de quatro fatores, que explicou mais da
metade da varincia dos dados coletados. Dez variveis foram relacionadas com o fator
dilogo. Outras dez variveis foram associadas ao fator estrutura. A autonomia do aluno,
continha seis variveis explicativas. Um quarto fator foi a experincia do aluno e consistia
de seis variveis. Os resultados encontrados deram suporte teoria de distncia
transacional de Moore.
Apresentar uma escala para medir a distncia transacional em um ambiente
de aprendizagem hbrido foi a proposta de Horzum (2011). A escala, obtida a partir de
anlise multifatorial, foi composta por 38 itens e 5 subfatores e foi utilizada para medir a
percepo da distncia transacional em um ambiente de aprendizagem mista (blended
learning), com um grupo com 197 alunos. A coleta de dados se deu tambm a partir da
aplicao de questionrios.
Entre os quatro fatores principais, um alto nvel de correlao significativa
positiva foi encontrado entre a flexibilidade da estrutura e o dilogo. Alm disso, um nvel
elevado de correlao significativa negativa foi encontrado entre o dilogo e a
organizao de contedo e entre a flexibilidade de estrutura e a organizao do contedo
do curso. Verificou-se tambm uma relao negativa entre a estrutura e o dilogo. Essa
constatao est em consonncia com os pressupostos da teoria (MOORE, 1993;
MOORE e KEARSLEY, 1996; SABA E SHEARER, 1994) que sugere que, quando o
dilogo aumenta, a estrutura diminui e vice-versa.
Goel et al. (2012) exploraram a noo de dilogo como uma varivel central
da distncia transacional e, a partir da, identificaram situaes preditoras que influenciam
56
no dilogo. Tambm usaram os conceitos da Teoria da Distncia Transacional para prever
intenes dos indivduos de participar de novos cursos baseados em e-learning.
Os dados da pesquisa foram coletados a partir de questionrios on-line, em
uma amostra de 273 alunos em nove cursos de uma universidade norte-americana. Os
dados foram analisados por meio de equaes estruturais, mais especificamente com um
mtodo baseado em anlise de varincia. Os resultados apontaram uma forte influncia
dos fatores distncia transacional nas intenes dos indivduos para voltar para outra
experincia em e-learning. Os resultados do estudo tambm sugeriram recomendaes
para a concepo de cursos na modalidade.
O trabalho de Wengrowicz e Offir (2013) produziu um interessante estudo,
que examinou a percepo de distncia transacional dos professores em trs ambientes
distintos de ensino: totalmente a distncia; hbrido e o tradicional (presencial). Foram
coletados dados de 320 professores a partir de questionrios on-line, com uma escala de
Likert de 5 itens. Dessa amostra, 66 professores atuavam no ensino a distncia, 94
atuavam no misto e 160 no ambiente tradicional, todos em instituies de ensino superior
de Israel.
Os autores desenvolveram e validaram um instrumento para determinar a
distncia transacional percebida pelos professores, a Teachers Transactional Distance
Scale (TTDS). Foi usada uma anlise fatorial exploratria para a obteno dos resultados
da escala. Os resultados apontaram que a percepo da distncia transacional pelos
professores variava de acordo com a antiguidade dos mesmos, o nmero de alunos por
turma e quando estavam no ambiente inteiramente a distncia, indicando que no houve
essa percepo nos ambientes hbrido e presencial. Ainda segundo os autores, esses
resultados mostram que os professores a distncia devem ser treinados para esse novo
papel, a fim de perceberem a variao da distncia transacional.
O estudo recente de Huang et al (2015) verificou a teoria e sua
operacionalizao, examinando a relao entre o dilogo, a estrutura e a autonomia para
a distncia transacional, assim como os fatores ambientais e demogrficos dos alunos na
distncia transacional, no contexto da educao a distncia contempornea baseado na
web, caracterizada por um ambiente de aprendizagem mais interativo.
Um instrumento especialmente desenvolvido para o estudo mediu a
percepo de estudantes nos construtos relacionados com a distncia transacional. A
57
pesquisa foi feita com vrios estudantes de graduao e ps-graduao on-line de
universidades americanas. Um total de 227 estudantes responderam pesquisa, feita a
partir de questionrio on-line, que continha 103 itens, com uma escala de Likert de 7
pontos.
A partir de uma srie de hipteses definidas pelos autores, o trabalho buscou
uma melhor compreenso das relaes entre o dilogo, a estrutura, a autonomia do aluno
e a distncia transacional, testando empiricamente um modelo terico em ambientes de
ensino a distncia baseado na web. Alm disso, foi feita uma verificao do impacto de
fatores ambientais na distncia transacional e testes empricos do impacto dos atributos
diferentes da autonomia do aprendiz na distncia transacional. Foram usadas diversas
tcnicas e testes estatsticos como anlise de correlao e da varincia dos escores obtidos
nos construtos da teoria e tambm o teste t com amostras independentes para a anlise
dos dados coletados.
As concluses indicaram que altos nveis de estrutura e dilogo no so
necessariamente incompatveis, apoiando a relao inversa de estrutura, dilogo e a
autonomia do aluno para a distncia transacional. Fatores ambientais (tamanho da turma,
pr-requisitos, meios de comunicao usados para o dilogo entre outros) e caractersticas
do aprendiz (sexo, idade, etnia) que impactaram na distncia transacional foram
identificadas e tambm foram discutidas implicaes prticas dos resultados para o
projeto de cursos on-line.
Conforme evidenciado na anlise da literatura da Teoria da Distncia
Transacional, na maioria dos estudos sobre essa distncia, a definio e a obteno dos
construtos que compem essa distncia feita a partir de questionrios aplicados aos
alunos, por meio dos quais os pesquisadores definem uma srie de itens que
correspondem a cada grupo de variveis da distncia transacional. Procedimentos
estatsticos so, ento, realizados para obter os indicadores finais da distncia ou dos
construtos individualmente.
O uso dos questionrios para obter esses indicadores pode limitar as opinies
dos respondentes, o que pode, em algum momento, ter vieses que provoquem uma
medio inadequada ou mesmo a faa de maneira incompleta. Os prprios estudos
apontam algumas restries nesse mtodo, de modo a no ser possvel a sua generalizao
para diversas circunstncias na qual ocorre a distncia transacional. Uma das limitaes
58
apontadas a forma de coleta de dados sobre os quais calculada ou medida a distncia
transacional.
Assim, conforme percebido nessa seo, o desafio de se obter a distncia
transacional em cursos a distncia permanece. A utilizao de diferentes instrumentos de
obteno dos construtos e, por consequncia, a existncia de uma diversidade de anlises
e modelos no permitem ainda a generalizao ou uma padronizao de procedimentos
para se mensurar a distncia transacional, gerando mais um campo de pesquisa para a
modalidade de EAD.
59
A obteno dos construtos da distncia transacional pode refletir uma
condio ou um estado de um curso durante a sua realizao, permitindo, por exemplo,
que professores e tutores percebam um distanciamento de determinados alunos e possam
intervir no sentido de prever ou reverter situaes de evaso de alunos do curso
(HORZUM, 2011).
Em sua pesquisa, Mbwesa (2014), buscou estabelecer os componentes da
distncia transacional como preditores da satisfao dos alunos em um curso a distncia.
Os resultados do estudo indicaram que as distncias transacionais verificadas entre alunoaluno, aluno-professor e aluno-contedo foram preditores importantes da satisfao
percebida dos alunos com os cursos por EAD.
Embora a literatura indique uma possvel relao entre a distncia
transacional e seus construtos, com a tendncia de evaso dos alunos em cursos por EAD,
nenhum dos trabalhos analisados definiu de que forma ou em que nvel se d essa relao.
Esta pesquisa buscou estabelecer uma relao quantitativa, propondo o uso dos construtos
da distncia transacional como preditores do risco de evaso dos alunos em cursos de
graduao na modalidade.
60
3. MINERAO
DE
CONHECIMENTO
DADOS
DESCOBERTA
DE
61
processamento dos resultados da minerao. A Figura 6 mostra, de maneira simplificada,
o processo (TAN et al., 2009).
Figura 6 - Processo de descoberta de conhecimento em banco de dados.
Entrada
de dados
Pr-processamento
de dados
Minerao
de dados
Seleo de recursos
Reduo de dimensionalidade
Normalizao
Criao de subconjuntos
PsProcessamento
Informaes
Padres de filtragem
Visualizao
Interpretao de padres
Para Han et al. (2011) e Maimon e Rokach (2010), o KDD uma anlise
exploratria, automtica e a modelagem de grandes repositrios de dados. o processo
organizado de identificao de padres vlidos, novos, teis e compreensveis em
conjuntos de dados grandes e complexos.
Alguns autores consideram a minerao de dados com o prprio KDD ou
como seu sinnimo como o caso de Han et al. (2011) e Wang (2005), embora a maioria
considere a minerao como sendo parte do processo de KDD. Fayyad et al. (1996), em
seu texto clssico sobre o tema, estabeleceram bem os limites e diferenas de cada rea.
Para eles, o KDD refere-se a todo o processo de descoberta de conhecimento til em
dados e a minerao refere-se a uma determinada etapa nesse processo. A minerao de
dados a aplicao de algoritmos especficos para extrair padres de dados.
3.1.1. Etapas
O processo de descoberta de conhecimento (Figura 7) iterativo e interativo,
sendo composto por nove etapas. Observa-se que o processo iterativo acontece em cada
etapa, o que significa pode haver retorno a etapas anteriores para ajustes necessrios. O
processo tem muitos aspectos "artsticos", no sentido de que no se pode apresentar uma
frmula ou fazer uma taxonomia completa para as escolhas certas para cada tipo de passo
e aplicao. Assim, necessrio compreender, profundamente, o processo e as diferentes
necessidades e possibilidades em cada etapa (MAIMON e ROKACH, 2010).
62
Figura 7 - Processo de KDD.
63
A quinta etapa realizada com a combinao dos objetivos do processo de
KDD (etapa 1) para uma determinada tarefa ou mtodo de minerao de dados. Isso
feito tambm sobre os resultados das etapas anteriores, na qual, por exemplo, foi definido
se o modelo de minerao a ser usado ser preditivo ou descritivo.
J na sexta etapa, realizada a anlise exploratria, a escolha do modelo e a
seleo de hipteses: a escolha do(s) algoritmo(s) e mtodo(s) da minerao para a busca
de padres de dados. Este processo inclui decidir quais os modelos e parmetros que
podem ser apropriados (por exemplo, modelos de dados categricos so diferentes do que
os modelos de vetores sobre os reais) e combinando um mtodo de minerao de dados
com os critrios gerais do processo de KDD (por exemplo, o usurio final pode ser mais
interessado em compreender o modelo do que a sua capacidade preditiva).
Na stima etapa, acontece a minerao de dados, em busca de padres de
interesse em uma forma representacional particular ou um conjunto de tais
representaes, incluindo as regras de classificao ou rvores de deciso, regresso,
agrupamento, entre outros Neste passo, poder ser necessrio utilizar o algoritmo vrias
vezes at que um resultado satisfatrio seja obtido.
A oitava etapa de avaliao e interpretao dos padres extrados, podendo
haver retorno a qualquer um dos passos anteriores para outra iterao. Esse passo tambm
pode envolver a visualizao dos padres e modelos ou a visualizao dos dados
fornecidos pelos modelos extrados. Nesse passo, o conhecimento descoberto tambm
ser documentado para posterior utilizao.
A ltima etapa visa incorporar o conhecimento descoberto em outro sistema
para aes futuras ou, simplesmente, document-lo e relat-lo s partes interessadas. Essa
etapa inclui tambm a verificao e resoluo de potenciais conflitos com o conhecimento
extrado. Na verdade, o sucesso dessa etapa determina a eficcia global do processo de
KDD. Um dos desafios dessa etapa perder as "condies de laboratrio" e passar a ser
efetivamente prtico e abrangente (FAYYAD et al., 1996; MAIMON e ROKACH, 2010).
No estudo de Fayyad et al. (1996), os autores tambm descreveram vrias
reas que utilizam tcnicas de KDD para produzir automaticamente informaes teis a
partir de grandes massas de dados brutos. Desde ento, o KDD tem se tornado um
proeminente campo terico e prtico para busca de informaes relevantes que auxiliem
efetivamente nas tomadas de decises em diversas reas profissionais.
64
65
de dados, como a criao de algoritmos novos e inovadores (TAN et al., 2009). A Figura
8 ilustra a multidisciplinaridade da minerao de dados.
Figura 8 - Multidisciplinaridade da Minerao de Dados.
66
simultaneamente. O crescimento de dados exigiu poder de computao adicional, que,
por sua vez, impulsionou o desenvolvimento de mtodos estatsticos para a anlise de
grandes conjuntos de dados. Isso criou um ciclo evolutivo, permitindo que os dados, ainda
maiores e mais interessantes, possam ser coletados e analisados.
As tarefas de aprendizagem podem ser classificadas em aprendizado
supervisionado, no supervisionado, semissupervisionado e aprendizado ativo (HAN et
al., 2011):
Aprendizado supervisionado
a tarefa de aprendizagem de mquina para inferir uma funo a partir de
dados de treinamento (conjunto de exemplos, observaes, medidas, entre outros)
previamente rotulados. Na aprendizagem supervisionada, cada exemplo um par
constitudo por um objeto de entrada (normalmente um vetor) e um valor de sada
desejada (tambm chamado de sinal de superviso). Um algoritmo de aprendizagem
supervisionada analisa os dados de treinamento e produz uma funo inferida, a qual pode
ser usada para mapear novos exemplos. Em um cenrio ideal, a tarefa ir permitir ao
algoritmo determinar corretamente os rtulos de classe para instncias invisveis ou para
as seguintes (MOHRI et al., 2012). O aprendizado supervisionado est associado aos
modelos preditivos, e as suas tarefas mais comuns so a classificao (que tambm pode
ser no-supervisionada) e a regresso (WITTEN et al., 2011).
Aprendizado no supervisionado
Nas tarefas no supervisionadas, os dados no precisam de uma prcategorizao ou rtulos. O problema de aprendizado no supervisionado o de tentar
encontrar a estrutura oculta em dados sem rtulo. Uma vez que os exemplos fornecidos
so sem rtulos, no h nenhum sinal de erro ou recompensa para avaliar uma soluo
em potencial (MOHRI et al., 2012). O aprendizado no supervisionado est associado
aos modelos descritivos de minerao de dados, e sua tarefa mais comum a clusterizao
(agrupamento) (HAN et al., 2011).
Aprendizado semissupervisionado
uma classe de tcnicas de aprendizado de mquina que fazem uso de ambos
os exemplos (rotulados e no rotulados) para aprender um modelo. Numa abordagem, os
exemplos rotulados so usados para aprender os modelos da classe, e exemplos no
rotulados so usados para refinar as fronteiras entre as classes (HAN et al., 2011).
67
Aprendizado ativo
uma abordagem de aprendizado de mquina, que permite aos usurios
desempenhar um papel ativo no processo de aprendizagem. Uma abordagem de
aprendizagem ativa pode solicitar a um usurio (por exemplo, um especialista de
domnio) para rotular um exemplo, que pode ser a partir de um conjunto de exemplos no
rotulados ou sintetizados pelo programa de aprendizagem. O objetivo otimizar a
qualidade do modelo por meio da aquisio de conhecimento ativo dos usurios humanos,
dada a restrio de quantos exemplos que podem ser solicitados os rtulos (HAN et al.,
2011).
68
modelo tambm feita por uma tarefa preditiva ou descritiva. Por exemplo, o
agrupamento (ou clustering) e as regras de associao produzem modelos descritivos,
enquanto a classificao e a regresso geram modelos preditivos (PEA-AYALA,
2014a). As tarefas mais comuns da minerao de dados so descritas a seguir.
Agrupamento (Clustering): a tarefa com o objetivo de agrupar um
conjunto de dados de tal forma que os dados no mesmo grupo (denominado cluster) so
mais semelhantes entre si do que aos de outros grupos (clusters). Essa tarefa difere da
classificao, pois no necessita que os dados sejam previamente categorizados. O
prprio processo de agrupamento pode gerar rtulos nos dados aps os clusters formados
e cada conjunto formado pode ser visto como uma classe de objetos, a partir do qual
podem ser derivadas regras (HAN et al., 2011). Como exemplos da tarefa, na biologia, a
semelhana de dados genticos usada em cluster para inferir estruturas populacionais.
Na educao, a anlise de agrupamento pode ser usada para identificar grupos de escolas
ou alunos com propriedades semelhantes (TAN et al., 2009).
Anlise das regras de associao: usada para descobrir padres que
descrevem caractersticas altamente associadas entre os dados, buscando encontrar
relaes entre variveis. Os padres descobertos so normalmente representados na forma
de regras de implicao ou subconjunto de caractersticas (HAN et al., 2011). Aplicaes
teis da anlise de associao incluem identificar preferncias de consumidores por
determinados produtos comprados juntos, descoberta de genes que possuam
funcionalidade associada, entre outros (TAN et al., 2009).
Deteco de anomalias: a tarefa de identificar observaes cujas
caractersticas sejam significativamente diferentes do resto dos dados (outliers) que
podem ser interessantes ou erros de dados que requerem mais investigao. Aplicaes
de deteco de anomalias incluem deteco de fraudes, intromisses na rede ou padres
incomuns em doenas (TAN et al., 2009).
Classificao: a tarefa de organizar objetos em uma entre diversas
categorias pr-definidas. Nessa tarefa, o modelo analisa o conjunto de dados fornecidos,
na qual cada dado j contm o rtulo, indicando a qual categoria ele pertence, a fim de
"aprender" como classificar novos dados. Por exemplo, um programa de e-mail pode
tentar classificar um e-mail como "legtimo" ou como "spam", usando a classificao
baseada em e-mails anteriormente recebidos e rotulados (HAN et al., 2011).
69
Regresso: uma metodologia estatstica que mais frequentemente usada
para previso numrica, embora outros mtodos existam com essa finalidade (WITTEN
et al., 2011). A regresso tambm engloba a identificao de tendncias de distribuio
com base na informao disponvel. O objetivo tentar encontrar uma funo que modele
os dados com o menor erro possvel. Um exemplo usar um modelo de regresso para
estimar as vendas de um determinado produto em um perodo, a partir de dados de vendas
anteriores (HAN et al., 2011).
A principal diferena entre ambos os modelos preditivos que, enquanto a
classificao prev rtulos categricos (discretos, no ordenados) para os dados, a
regresso estabelece modelos de funes com valores contnuos.
Todas essas tarefas apresentadas podem usar o mesmo banco de dados de
maneiras diferentes e exigem o desenvolvimento de inmeras tcnicas de minerao de
dados. Devido diversidade de aplicaes, novas tarefas de minerao continuam a
emergir, tornando a minerao de dados um campo dinmico e de rpido crescimento.
Por exemplo, para descoberta de conhecimento eficaz em redes de informao, a
integrao de agrupamento e classificao podem levar descoberta de clusters de alta
qualidade (HAN et al., 2011).
Em relao s tarefas mais utilizadas especificamente para minerao de
dados provenientes de aplicaes educacionais, o estudo de Pea-Ayala (2014a), que
analisou 242 trabalhos entre 2010 a 2013, apontou que a classificao foi a tarefa mais
usada nos estudos, com 42,15% dos trabalhos, seguida pelo agrupamento (26,86%),
regresso (15,29%) e regras de associao (6,61%). As demais tarefas juntas atingiram
9,19% dos estudos.
70
Na classificao, os algoritmos que implementam esse processo so
chamados de classificadores. O termo "classificador, s vezes, tambm se refere funo
matemtica implementada por meio de um algoritmo de classificao, que mapeia os
dados de entrada para uma categoria.
No processo de classificao, duas etapas principais so realizadas: (a) a
aprendizagem, na qual dados de treinamento so analisados por um algoritmo
classificador, em que so atribudos os rtulos de classe e o modelo aprendido ou
classificador representado sob a forma de regras de classificao; e (b) a classificao,
na qual os dados de teste so usados para estimar a acurcia das regras de classificao.
Se a acurcia for considerada aceitvel, as regras podem ser aplicadas para a classificao
de novos dados (HAN et al., 2011).
Os principais classificadores so agrupados em cinco categorias principais:
rvores de deciso, classificadores baseados em regras, classificadores bayesianos,
classificadores de vizinho mais prximo, redes neurais artificiais e Support Vector
Machine (SVM) (WITTEN et al., 2011).
rvore de deciso: uma estrutura de rvore tipo fluxograma, na qual cada
n interno indica um teste em um atributo, cada ramo representa um resultado do teste e
cada folha (ou n terminal) tem um rtulo de classe. O n do nvel superior, em uma
rvore, o n raiz (WITTEN et al., 2011). Alguns algoritmos de rvore de deciso
produzem apenas rvores binrias (nas quais cada n interno ramifica para exatamente
dois outros ns), enquanto outras podem produzir rvores no binrias (HAN et al., 2011).
Um exemplo de rvore de deciso ilustrado na Figura 9.
Figura 9 Exemplo de rvore de Deciso.
71
As rvores de deciso podem manipular dados multidimensionais. Sua
representao dos conhecimentos adquiridos em forma de rvore intuitiva e,
geralmente, fcil de assimilar pelos seres humanos. As etapas de aprendizagem e de
classificao por rvores de deciso so simples e rpidas. Em geral, esses classificadores
tm boa preciso (HAN et al., 2011).
Classificadores baseados em regras: Um classificador baseado em regras
uma tcnica para classificar registros, usando um conjunto de regras do tipo If...Then.
Regras desse tipo so expresses da seguinte forma (TAN et al., 2009):
IF condio THEN concluso
Um exemplo a regra R1:
R1: IF idade=jovem AND estudante=sim THEN compra_computador= sim.
Onde A e B so eventos.
72
e redes neurais. Esses algoritmos tm apresentado alta acurcia e boa velocidade quando
aplicados a grandes bancos de dados (ZHANG, 2004).
Os classificadores Nave Bayes partem do princpio de que no existe relao
de dependncia entre os atributos. So altamente escalveis, exigindo uma srie de
parmetros lineares no nmero de variveis (caractersticas/preditoras) em um problema
de aprendizagem (WITTEN et al., 2011).
Classificadores de vizinho mais prximo: Este tipo de classificador um
algoritmo simples, que armazena todos os casos disponveis e classifica novos casos com
base em uma medida de similaridade (por exemplo, funes de distncia) aos casos j
armazenados.
O kNN (k Nearest Neighbors) o principal algoritmo desse tipo de
classificador e foi descrito pela primeira vez no incio de 1950. O mtodo pode consumir
muito tempo de processamento, dependendo da quantidade de exemplos do conjunto de
treinamento, e no ganhou popularidade at os anos 1970, quando o aumento do poder de
computao se tornou disponvel. Desde ento, tem sido amplamente utilizado na rea de
reconhecimento de padres (HAN et al., 2011). A Figura 10 ilustra o processo de
classificao, usando o kNN.
Figura 10 Exemplo da classificao do kNN para dois valores de k.
73
Redes Neurais Artificiais: uma tcnica com a qual se busca simular o
comportamento dos neurnios humanos. De forma genrica, uma rede neural pode ser
vista como um conjunto de unidades de entrada e sada conectadas por camadas
intermedirias e cada ligao possui um peso associado. Durante o processo de
aprendizado, a rede ajusta esses pesos para conseguir classificar corretamente um objeto.
uma tcnica que necessita de um longo perodo de treinamento, ajustes
finos dos parmetros e de difcil interpretao, no sendo possvel identificar de forma
clara a relao entre a entrada e a sada. Em contrapartida, as redes neurais conseguem
trabalhar de forma que no sofram com valores errados e tambm podem identificar
padres para os quais nunca foram treinados (ANDERSON, 1995).
A Figura 11 exibe uma estrutura bsica de rede neural artificial:
Figura 11 Exemplo de Rede Neural Artificial.
Dois dos algoritmos mais usuais para construo de redes neurais artificiais
direcionadas para o processo de classificao so o Backpropagation (RUMELHART et
74
al., 1988) e o Perceptron (ROSENBLATT, 1958). Ambos possuem variaes e
aplicaes diversas.
SVM (Support Vector Machines): Em uma tarefa de aprendizagem de duas
classes, o objetivo da SVM encontrar a melhor funo de classificao para distinguir
entre membros das duas classes nos dados de treinamento (HAN et al., 2011).
A mtrica para o conceito de "melhor" funo de classificao pode ser
realizada geometricamente, a partir do conceito de hiperplano, que uma generalizao
de um plano em diferentes dimenses. Por exemplo, para uma dimenso, o hiperplano
um simples ponto. Para duas dimenses, o hiperplano representado por uma reta.
No caso mais simples de classificao de duas classes, a SVM encontra um
hiperplano (chamado de superfcie de deciso) que separa as duas classes de dados com
a mais ampla margem possvel. Isso leva a uma boa preciso com generalizao em dados
no conhecidos ainda, assim como d suporte a mtodos de otimizao especializadas
que permitem a SVM para aprender a partir de uma grande quantidade de dados
(SAMMUT e WEBB, 2011).
Na Figura 12, dois hiperplanos (H1 e H2) so definidos e ambos separam
corretamente os exemplos nas duas classes, porm o H2 tem uma margem maior do que
H1 e seria usado como referncia para novas classificaes.
Figura 12 Componentes da SVM.
Vetores de Suporte
Objetos Classe 1
Objetos Classe 2
75
podem ser classificados, simplesmente testando o sinal da funo f(x); xn pertence classe
positiva se f(xn) > 0.
Como podem existir muitos desses hiperplanos lineares, a SVM garante
adicionalmente que a melhor funo encontrada por meio da otimizao da margem
entre as duas classes (WU et al., 2008).
Regresso Logstica: Embora denominada de regresso, a regresso logstica
tambm um classificador e pode ser usada para modelar um resultado categrico
binrio, diferente da regresso linear, que estabelece uma previso de medida dependente
mtrica (BAKER e INVENTADO, 2014). Tambm pertence categoria de
classificadores probabilsticos, pois o resultado da funo aplicada a cada instncia,
retorna a probabilidade de ela pertencer a uma classe alvo.
A regresso logstica, tambm conhecida como anlise logit, limitada, em
sua forma bsica, previso de dois grupos (classes), embora existam formulaes
alternativas, que permitem lidar com mais de dois grupos (HAIR et al., 2009).
Uma vantagem da regresso logstica no processo de classificao de uma
varivel dependente binria (binomial), que, nela, pode ser usado um conjunto de
variveis independentes numricas ou categricas (KLEINBAUM e KLEIN, 2010).
Os modelos de Regresso Logstica so formulados pela expresso:
Onde
76
previsto como 0 (o evento no ocorreu). Esse limiar pode ser ajustado de acordo com a
necessidade e o contexto da aplicao da tcnica.
Y
(Probabilidade do evento)
77
fruns de discusso, chats ou mesmo mensagens trocadas dentro do ambiente
(HAMMOUDA e KAMEL, 2007).
A Minerao de Dados Educacionais (EDM do ingls Educational Data
Mining) a aplicao de tcnicas de minerao de dados com dados provenientes de
plataformas ou ambientes de educao on-line (GARCA et al., 2011). Por um lado, o
aumento tanto do software educativo instrumental, bem como de bases de dados de
informao dos estudantes criaram grandes repositrios de dados que refletem como os
alunos aprendem (KOEDINGER et al., 2009). Por outro lado, o e-learning tem gerado
grandes quantidades de dados que, devidamente, explorados e classificados, podem
fornecer importantes informaes sobre os alunos e os cursos.
Assim, possvel compreender de forma mais eficaz e adequada, os alunos,
como eles aprendem, o papel do contexto no qual a aprendizagem ocorre, alm de outros
fatores que influenciam a aprendizagem. Por exemplo, possvel identificar em que
situao um tipo de abordagem instrucional (isto , aprendizagem individual ou
colaborativa) proporciona melhores benefcios educacionais ao aluno. Tambm possvel
verificar se o aluno est desmotivado ou confuso e, assim, personalizar o ambiente e os
mtodos de ensino para oferecer melhores condies de aprendizagem (BAKER et al.,
2011).
O processo de EDM converte os dados brutos de sistemas educacionais em
conhecimento que pode ser usada por desenvolvedores de software educacional,
professores, pesquisadores educacionais, entre outros Esse processo no difere muito de
outras reas de aplicao de minerao de dados porque ele se baseiae nos mesmos passos
do processo de minerao de dados em geral, conforme mostra a Figura 14 (GARCA et
al., 2011):
Figura 14 - Etapas da Minerao de Dados Educacionais.
78
Para que esse ciclo seja eficaz e produza o conhecimento relevante, a qual
possa no somente ser utilizado pelos atores da EAD, mas tambm retroalimentar o
sistema de ensino e ajudar a promover melhoras no processo, as etapas da EDM precisam
acontecer de maneira efetiva e consistente, possibilitando que resultados intermedirios e
finais sejam adequados e esperados. Os componentes e etapas ilustrados na Figura 14 so
descritos a seguir:
Ambiente Educacional: Dependendo do tipo de ambiente educacional (sala
de aula tradicional, ensino baseado em computador ou educao baseada na web) e um
sistema de informao que lhe d suporte (gesto de aprendizagem, tutor inteligente ou
sistema hipermdia adaptativo) diferentes tipos de dados podem ser coletados para
resolver diferentes problemas educacionais (ROMERO, CRISTOBAL et al., 2010).
Todos esses dados podem vir de diferentes fontes, incluindo dados administrativos,
observaes de campo, questionrios, medies recolhidas a partir de experimentos
controlados, notas finais e assim por diante (ROMERO e VENTURA, 2013a).
Os dados gerados pelos alunos e instrutores em ambientes de e-learning
podem fornecer rpidas e importantes compreenses acerca do desempenho, da
motivao e do nvel de participao dos alunos no curso. Essas compreenses podem
sugerir mudanas no curso, intervenes significativas na metodologia ou mesmo um
contato individual com alunos desmotivados ou com baixa interao (ROMERO et al.,
2008).
Pr-processamento. Os dados obtidos com o ambiente educacional tm que
primeiro ser pr-processados para transform-los em um formato apropriado para a
minerao. Algumas das principais tarefas do pr-processamento so: limpeza, seleo
de atributos, transformao e normalizao de atributos, integrao de dados, entre outros
(GARCA et al., 2011). Em contextos educativos, natural que o pr-processamento de
dados uma tarefa muito importante e complicada e, s vezes, esta etapa ocupa mais da
metade do tempo total gasto resolvendo o problema de minerao de dados
(BIENKOWSKI et al., 2012).
Minerao de dados. o passo central que identifica todo o processo. A
maioria das tcnicas de minerao de dados tradicionais, como a classificao,
agrupamento e as tcnicas de anlise de associao j foram aplicadas com sucesso no
domnio da educao. Outras tcnicas de DM tambm tm sido usadas (BAKER, 2010).
No entanto, os sistemas educacionais tm caractersticas especiais que requerem um
79
tratamento diferente do problema de minerao clssico. Por exemplo, os mtodos de
minerao de dados hierrquicos e a modelagem longitudinal de dados tm que ser usados
na EDM. Como consequncia, so necessrias algumas tcnicas especficas de minerao
de dados para lidar com a aprendizagem e outros dados sobre os alunos. No entanto, a
EDM, ainda, uma rea de pesquisa emergente e possvel admitir que o seu futuro
desenvolvimento ir resultar em uma melhor compreenso dos desafios especficos a este
campo e vai ajudar pesquisadores envolvidos na rea a ver que tcnicas podem ser
adotadas e que novas tcnicas customizadas tm de ser desenvolvidas (ROMERO e
VENTURA, 2013a).
Ps-processamento. a etapa final em que os resultados obtidos ou modelo
so interpretados e usados para tomar decises sobre o ambiente educacional. Os modelos
obtidos pelos algoritmos de EDM tm que ser compreensveis e teis para o processo de
tomada de deciso. Por exemplo, os modelos tipo "caixa-branca" como rvores de deciso
so preferveis aos modelos de "caixa-preta", como redes neurais mesmo esses ltimos
sendo mais precisos, mas so menos compreensveis.
As tcnicas de visualizao so tambm muito teis para mostrar os
resultados de uma forma que seja mais fcil de interpretar. Finalmente, os sistemas de
recomendao podem ser a melhor maneira de apresentar os resultados, informaes,
explicaes, recomendaes e comentrios para um usurio leigo em EDM. Assim, em
vez de mostrar o modelo obtido, uma lista de sugestes ou concluses sobre os resultados
e como aplic-los pode ser apresentada aos usurios (ROMERO e VENTURA, 2013a).
O conhecimento extrado deve entrar no ciclo do sistema e orientar, facilitar
e melhorar a aprendizagem como um todo, no apenas transformando dados em
conhecimento, mas tambm filtrando o conhecimento extrado para a tomada de deciso
(ROMERO et al., 2008).
Embora numa considerao inicial em que a EDM parece envolver apenas
dois grupos principais, os alunos e os instrutores, na verdade existem mais grupos
envolvidos com muitos mais objetivos e de acordo com os interesses individuais de cada
um, como pode ser visto no Quadro 1 (ROMERO e VENTURA, 2010):
Quadro 1 - Atores e seus objetivos com a EDM.
Usurios/Atores
Estudantes
80
Professores e tutores
Desenvolvedores de
cursos e pesquisadores
educacionais.
Organizaes
educacionais
Gestores
escolares,
administradores
de
rede e de sistemas
81
analisar grandes conjuntos de dados educacionais a fim de resolver as questes de
investigao educacional (BAKER e YACEF, 2009).
Nos ltimos anos, os pesquisadores comearam a investigar vrios mtodos
de minerao de dados para ajudar os instrutores e administradores a melhorar os sistemas
de e-learning (ROMERO e VENTURA, 2006). Romero e Ventura (2013a) apontaram os
principais temas atuais e de interesse da comunidade de pesquisadores em EDM,
brevemente descritos no Quadro 2.
Quadro 2 - reas de interesse de pesquisa em EDM.
Tpicos de Interesse
Frameworks e mtodos
genricos
Minerao em dados
educacionais
Minerao de processos
educativos
Adaptao e
personalizao orientada a
dados
Melhoramento do
software educacional
Avaliao das intervenes
de ensino
Emoo, afeto e escolhas
Integrando minerao de
dados e teorias
pedaggicas
Melhorar o apoio para os
professores
Replicao de estudos
Melhores prticas
Descrio
Para desenvolver ferramentas, frameworks, mtodos, algoritmos,
abordagens, e assim por diante, especificamente orientados para a
investigao de minerao de dados educacionais.
Para minerar dados de avaliao, navegao ou de interao, extrao de
resultados da pesquisa em educao entre outros.
Para extrair conhecimentos relacionados com o processo a partir de logs
de eventos gravados por sistemas educacionais.
Para aplicar mtodos e tcnicas de minerao de dados para melhorar a
adaptao e personalizao em ambientes e sistemas de ensino.
Muitos grandes conjuntos de dados educacionais so gerados por
softwares. Podemos usar as descobertas com EDM para melhorar a
eficcia do software?
Dados da aprendizagem do estudante fornecem um poderoso mecanismo
para determinar quais aes de ensino so bem-sucedidas. Como
podemos melhor utilizar esses dados a partir da EDM?
O nvel de interesse do aluno fundamental. Podemos detectar quando
os estudantes esto entediados e desinteressados? Que outros estados
afetivos ou escolhas de estudantes devemos acompanhar?
A minerao de dados tipicamente envolve a busca de um grande volume
de modelos. Podemos usar o conhecimento educacional e psicolgico
existente para melhor concentrar a pesquisa?
Que tipos de informao sobre a avaliao seria importante para ajudar
aos professores? Que tipos de sugestes instrucionais so viveis para
serem geradas e como seriam recebidas pelos professores?
Para aplicar uma tcnica usada anteriormente para um novo domnio, ou
para reanalisar um conjunto com uma nova tcnica de dados existentes.
Melhores prticas para a adaptao da minerao de dados, recuperao
de informao, sistema de recomendao, minerao de opinio e
respostas a questes tcnicas para o contexto educacional.
Embora a EDM seja uma rea de pesquisa ainda recente, artigos dessa rea
so frequentemente citados pela comunidade de Computao aplicada Educao
(BAKER et al., 2011). Essas pesquisas vm oferecendo contribuies significativas para
a teoria e a prtica da educao (BAKER, 2010).
82
At o ano de 2005, as pesquisas na rea de EDM eram relatadas somente em
conferncias das grandes reas da computao, educao e estatstica ou das subreas
afins. Naquele ano, aconteceu o I Workshop on Educational Data Mining, em Pittsburgh
(EUA), como evento satlite da 20th National Conference on Artificial Intelligence
(AAAI-05). A partir de ento, diversos Workshops de EDM aconteceram dentro de
eventos maiores, at o ano de 2008, quando aconteceu o primeiro evento exclusivo para
EDM: a I International Conference on Educational Data Mining, em Montreal, Canad.
Desde ento, essa conferncia acontece anualmente (ROMERO e VENTURA, 2013).
Da mesma forma que ocorreu com os eventos, nos quais os trabalhos foram
inicialmente publicados em eventos de reas afins, os artigos de pesquisas sobre EDM,
ainda, so muito publicados em peridicos internacionais reconhecidos como: Internet
and Higher Education, Computers and Education, Expert Systems with Applications,
Journal of the Learning Sciences, entre outros (RODRIGUES et al., 2014a).
Para estimular e auxiliar o trabalho de novos pesquisadores na rea e para se
ter uma percepo mais abrangente do nvel de pesquisa mundial em EDM, quatro
surveys fizeram um levantamento e classificao dos trabalhos internacionais na rea,
sendo fonte de referncias importantes para qualquer pesquisa em EDM: (BAKER e
YACEF, 2009; ROMERO e VENTURA, 2010; PEA-AYALA et al., 2009) e (PEAAYALA, 2014a). Aqui no Brasil, o estado da arte da pesquisa em EDM no pas, at
metade de 2014, foi descrito por Rodrigues et al. (2014a). Tambm foi criado, em 2014,
o Workshop de Minerao de Dados Educacionais (WMDE) como evento satlite do
Congresso Brasileiro de Informtica na Educao (CBIE).
Uma anlise desses artigos internacionais de reviso do estado da arte da
EDM indica que o sculo XXI representa o incio dessa rea de pesquisa, pois 98% dos
trabalhos foram publicados a partir do ano 2000. Em consequncia, a EDM ainda est em
fase "adolescente" como rea de pesquisa (PEA-AYALA, 2014a), mas j contemplada
com uma conferncia internacional especfica sobre o tema5, uma revista especializada6,
um handbook impresso (ROMERO, CRISTOBAL et al., 2010), dois livros publicados
(ROMERO e VENTURA, 2006; PEA-AYALA, 2014b) e uma sociedade cientfica7.
Esta sinergia revela o crescente interesse dos pesquisadores em EDM.
http://www.educationaldatamining.org/EDM2016/
http://www.educationaldatamining.org/JEDM/
7
http://www.educationaldatamining.org
6
83
84
Carvalho, (2011) e Romero e Ventura (2013), esses mtodos e algumas das suas
aplicaes na EDM so descritos de forma resumida a seguir:
Predio: O objetivo desenvolver modelos apropriados que deduzam
aspectos especficos dos dados, conhecidos como variveis preditivas, por meio da
anlise e fuso dos diversos aspectos encontrados nos dados, chamados de variveis
preditoras. Os tipos de mtodos de previses so classificao, regresso e estimativa de
densidade.
A principal diferena entre a classificao e a regresso diz respeito ao tipo
de dado da varivel predita (alvo): na classificao, a varivel alvo binria ou categrica
e, na regresso, a varivel numrica e contnua. Ainda segundo os autores, a estimao
de densidade, quando o valor previsto uma funo de densidade de probabilidade,
raramente utilizada na EDM devido falta de independncia estatstica dos dados. Na
EDM, a predio tem sido usada para prever o desempenho dos alunos e para a deteco
de comportamentos do aluno (ROMERO et al., 2013b); (BAKER et al., 2010).
Agrupamento - O objetivo principal encontrar dados que se agrupam
naturalmente, classificando os dados em diferentes grupos e/ou categorias. Esses grupos
e categorias no so conhecidos inicialmente. Utilizando-se de tcnicas de agrupamento
os grupos/categorias so automaticamente identificados por meio da manipulao das
caractersticas dos dados. Normalmente, algum tipo de medida de distncia usado para
decidir quo semelhantes so as instncias. Uma vez que um conjunto de aglomerados
foi determinado, os novos casos podem ser classificados por meio da determinao do
cluster mais prximo. Em EDM, o agrupamento pode ser usado para formar grupos com
materiais do curso semelhantes ou grupos de alunos com base em seus padres de
aprendizagem e de interao (VELLIDO et al., 2010).
Minerao de relaes - O objetivo dessa minerao identificar relaes
entre variveis e, normalmente, codific-las em regras para uso posterior. Esta tarefa pode
envolver a tentativa de aprender quais variveis so mais fortemente associadas com uma
varivel especfica, previamente conhecida e importante, ou pode envolver as relaes
entre quaisquer variveis presentes nos dados.
Existem diferentes tipos de relacionamento em tcnicas de minerao, tais
como a minerao de regras de associao (qualquer relao entre as variveis),
minerao de padres sequenciais (associaes temporais entre variveis), minerao
85
de correlaes (correlao linear positiva ou negativa entre as variveis), e minerao
de causas (relao de causalidade entre as variveis). Em EDM, a minerao de relaes
tem sido usada para identificar relacionamentos em padres de comportamento dos
alunos e diagnosticar os alunos com dificuldades de aprendizagem ou erros que,
frequentemente, ocorrem juntos (MERCERON e YACEF, 2010).
Destilao de dados para decises humanas - Nessa rea, so realizadas
pesquisas com o objetivo de apresentar dados complexos de maneira sumarizada para
facilitar sua compreenso e expor suas caractersticas mais importantes. Tcnicas de
visualizao e interfaces interativas podem ser usadas para facilitar a anlise dos dados e
tomadas de decises. Por meio da destilao, possvel que os dados sejam utilizados por
pessoas para inferir aspectos sobre esses dados e, assim, tomar decises que,
anteriormente, no poderiam ser tomadas e nem automatizadas apenas com o uso dos
mtodos da EDM. Em EDM, tem sido usada para ajudar os educadores a visualizar e
analisar as atividades dos alunos no curso e informaes de uso dos recursos educacionais
(MAZZA e MILANI, 2004).
Descoberta com modelos - realizada com a utilizao de um modelo
previamente validado de um fenmeno (usando previso, agrupamento ou engenharia de
conhecimento) como um componente em outra anlise, tal como predio ou minerao
de relacionamento (BAKER e YACEF, 2009). um mtodo, particularmente,
proeminente na EDM e d suporte identificao de relaes entre os comportamentos
dos alunos e as suas caractersticas ou variveis contextuais, a anlise de questes de
pesquisa por meio de uma ampla variedade de contextos e a integrao de frameworks
em modelos de aprendizado de mquina (BIENKOWSKI et al., 2012).
Alm desses mtodos, Romero e Ventura (2013) incluram os seguintes:
Anlise de redes sociais (SNA Social Network Analysis) - O objetivo do
SNA compreender e medir as relaes entre as entidades de informao conectadas em
rede. Na EDM, a SNA pode ser usada na minerao para interpretar e analisar a estrutura
e as relaes em tarefas colaborativas e as interaes com as ferramentas de comunicao
(RABBANY et al., 2011).
Deteco de outlier - Nesse mtodo, so descobertos pontos de dados que
so, significativamente, diferentes do que o resto dos dados. Um outlier uma observao
diferente (ou medio) geralmente bem maior ou bem menor do que os outros valores de
86
dados. Em EDM, a deteco de outlier pode ser usado para detectar alunos com
dificuldades de aprendizagem, desvios em aes ou comportamentos do aluno ou do
educador e para a deteco de processos irregulares de aprendizagem (UENO, 2004).
Minerao de processos - O conhecimento extrado a partir de processos
relacionados com registros de eventos gravados por um sistema de informao, para ter
uma representao visual clara de todo o processo. composto de trs subcampos:
verificao de conformidade, modelo de descoberta e de extenso do modelo. Em EDM,
a minerao de processo pode ser usada para refletir o comportamento de alunos em
termos da anlise de seus traos que consiste numa sequncia de curso, nota e registro de
tempo de aes para cada aluno (TRCKA et al., 2010).
Minerao de textos - Nesse mtodo, buscada informao de alta qualidade
a partir de textos. Tarefas de minerao de texto tpicos incluem a categorizao de textos,
agregao de texto, extrao de conceito/entidade, a produo de taxonomias granulares,
anlise de sentimento, sumarizao de documentos e modelagem de relaes entre
entidades. Na EDM, a minerao de texto tem sido usada para analisar o contedo dos
fruns de discusso, chats, pginas da web e outros documentos em geral (TANE et al.,
2004).
Rastreamento de conhecimento: Esse um mtodo popular para estimar o
domnio de habilidades do aluno e que tem sido usado em sistemas eficazes de tutoria
cognitiva. Ele usa um modelo cognitivo que mapeia um item de soluo de problemas
para as habilidades exigidas e os logs de respostas corretas e incorretas de estudantes
como prova dos seus conhecimentos em uma habilidade especial. Esse mtodo rastreia o
conhecimento do aluno ao longo do tempo (CORBETT e ANDERSON, 1994).
Com o uso dos mtodos da EDM (por exemplo: minerao de causas e
correlaes) em conjunto com software educacional, possvel apontar os diferentes
fatores que influenciam o comportamento do aluno e identificar aspectos sutis, muitas
vezes imperceptveis, do design de software que instigam ou incentivam o surgimento de
comportamentos indesejados e inadequados por parte dos alunos (KOEDINGER et al.,
2009). Por meio dessa verificao, a rea da EDM tambm contribui para oferecer
princpios de desenvolvimento que podem ser aplicados para criar software que reduzam
o problema de comportamento e otimizem a aprendizagem do aluno (BAKER et al.,
2011).
87
A aplicao de mtodos da EDM tem viabilizado a expanso do
conhecimento cientfico relacionado aos estados emocionais do aluno em AVA (por
exemplo: motivado, frustrado, confuso, entre outros). Eles tambm tm auxiliado a
identificar a relao entre esses estados emocionais e o comportamento apresentado pelo
aluno, principalmente, quando ocorrem aes inadequadas (tentativas de burlar o sistema)
ao interagir com software educacional (BAKER et al., 2011).
Pesquisas nessa rea tambm proporcionaram modelos automatizados, que
podem ser utilizados durante a interao dos alunos com os programas educacionais para
identificar quando os alunos esto tentando trapacear para conseguir melhores notas sem
terem aprendido o contedo adequadamente (KOEDINGER et al., 2009). Diversos
algoritmos que analisam em tempo real os dados das interaes dos alunos com a interface
do sistema foram desenvolvidos para verificar automaticamente quando comportamentos
inadequados ocorrem. Essa funcionalidade permite que sistemas educacionais
apresentem comportamentos inteligentes, oferecendo suporte e feedback apropriados
para melhorar a qualidade da aprendizagem dos alunos (BAKER et al., 2011).
88
modelos do estudante. Os modelos preditivos so predominantes nessa abordagem e
diferentes tcnicas e algoritmos de minerao tm sido utilizados para essa tarefa,
principalmente, Redes Bayesianas.
No trabalho de Macfadyen e Dawson (2010), foi afirmado que informaes,
pedagogicamente significativas, podem ser extradas a partir do rastreamento de
estudantes em sistemas de gerenciamento de aprendizagem (LMS - do ingls Learning
Management System). A partir das atividades on-line do aluno, pode ser previsto, com
certa preciso, o seu desempenho acadmico. Os autores propem modelos de regresso
para incorporar as variveis-chave (por exemplo, o nmero total de mensagens de
discusso postadas, o nmero total de mensagens enviadas entre outros) no processo de
previso.
Guruler, Istanbullu e Karahasan (2010) exploraram os fatores que tm
impacto sobre o sucesso de estudantes universitrios. Eles usaram uma ferramenta
especfica (MUSKUP DM) para fins de classificao. Os resultados revelaram que
determinadas informaes demogrficas do estudante e o seu respectivo nvel de renda
familiar estavam associados com o seu sucesso no curso.
Barrett et al. (2011) aplicaram uma metodologia baseada em KDD para
individualizar a educao que contemplou: orientao para cada estudante, agrupamento
temporrio de estudantes para o ensino orientado e uma combinao de dados de vrios
testes com fatores demogrficos e outros para separar os efeitos de mudanas de ensino e
do currculo dos fatores incontrolveis que afetam o aprendizado do aluno.
Goguadze et al. (2011) propuseram e avaliaram um modelo de estudante
baseado em rede bayesiana, no domnio do uso de casas decimais por crianas em idade
escolar. A preciso do modelo do estudante foi avaliada a partir de trs perspectivas
diferentes: sua capacidade de prever o resultado da resposta de um aluno, a exatido da
resposta e a presena de um equvoco particular. Os resultados mostram que as previses
do modelo alcanaram um elevado nvel de preciso, especialmente, em prever a presena
de equvocos de estudante no uso de decimais.
Baker et al. (2012) ajustaram modelos para detectar concentrao,
engajamento, confuso, frustrao e tdio dos alunos exclusivamente a partir de suas
interaes em um Tutor Cognitivo para lgebra (KOEDINGER e CORBETT, 2006). Os
89
detectores do modelo operaram exclusivamente nas informaes disponveis por meio de
aes semnticas dos alunos dentro da interface.
Holzhter et al. (2013) buscaram a soluo de duas questes: Como os
processos de aprendizagem podem ser otimizados utilizando modelos de processo e
controle baseado em regras? Como modelos de processos podem ser gerados com base
no conceito de estilo de aprendizagem? Assim, eles propuseram um mtodo de
modelagem de aluno por meio da combinao de minerao de processos e a abordagem
de estilo de aprendizagem como um mtodo de modelagem de aluno.
Modelagem de comportamento dos alunos - A caracterizao do
comportamento dos alunos um dos alvos preferenciais da EDM (Pea-Ayala, 2014).
Diversos traos de comportamento fazem parte dessa modelagem, tais como:
participando em jogos de azar, adivinhando, perguntando, pedindo ajuda, vontade de
colaborar, sries temporais de acesso e resposta, e muitos mais alvos. O objetivo
descrever ou prever determinados comportamentos padro, a fim de adaptar o sistema s
tendncias dos usurios.
O comportamento raro/pouco frequente dos alunos ao usar um LMS foi
explorado por Romero, Cristbal et al. (2010). A partir da, eles implementaram vrios
algoritmos a priori para descobrir regras de associao raras nos dados que refletiam esses
comportamentos. Tambm foi avaliada a relao e a influncia entre as atividades on-line
e os resultados finais obtidos pelos alunos.
Um framework de modelagem de usurio baseado nos logs de interao para
identificar os tipos de alunos, bem como o seu comportamento caracterstico de interao
e como os comportamentos se relacionam com a aprendizagem foi apresentado por
Kardan e Conati (2010).
Kck e Paramythis (2011) representaram as sequncias de atividade dos
alunos ao resolverem problemas, para detectar estilos predefinidos de resoluo de
problemas. Eles analisaram o comportamento do aluno ao longo de dimenses de
aprendizagem conhecidas para descobrir semiautomaticamente dimenses e padres de
aprendizagem para resolver problemas concretos.
Anaya e Boticario (2011) construram mtodo de modelagem da
aprendizagem colaborativa independente do domnio, baseada em minerao de dados,
90
que ajuda a esclarecer quais as questes de modelagem do usurio precisam ser
consideradas.
Antonenko et al. (2012) mineraram o fluxo de cliques em um servidor de logs
que refletia uso dos alunos de ambientes de aprendizagem on-line. Eles aplicaram a
anlise de cluster para analisar caractersticas do comportamento de aprendizagem,
enquanto os alunos se envolviam em uma atividade de resoluo de problemas.
No seu estudo, McCuaig e Baldwin (2012) afirmaram que os dados dos logs
das interaes dos alunos em LMS podem ser extrados para prever o sucesso ou o
fracasso dos mesmos, sem exigir que os resultados de avaliaes formais. O trabalho fez
parte de um esforo maior para melhorar os LMS existentes, dotando-os da capacidade
de reagir de forma inteligente para diferentes comportamentos do aluno. Por exemplo,
um LMS que poderia usar seus prprios arquivos de log para identificar os alunos com
dificuldades em um curso seria extremamente valioso para os instrutores. Os modelos
apresentados no trabalho baseiam-se no comportamento do aluno ao invs de avaliaes
de conhecimento de domnio, tornando, assim, o instrumento reutilizvel para outros
LMS e outros domnios.
Deteco de comportamentos indesejveis do estudante - O objetivo
detectar certos comportamentos indesejveis do estudante e descobrir ou detectar aqueles
alunos que tm algum tipo de problema ou comportamento incomum, tais como: aes
errneas, baixa motivao, uso indevido, trapaceando, abandono do curso, insucesso
acadmico, entre outros Vrias tcnicas de minerao (principalmente a classificao e o
agrupamento) tm sido utilizadas para revelar esses tipos de alunos, a fim de lhes
proporcionar ajuda adequada em tempo hbil (ROMERO e VENTURA, 2010).
Hernndez et al. (2006) apresentaram um modelo para identificao de alunos
que cometem fraude em avaliaes on-line, alm de identificar padres para detectar e
evitar essa prtica. Esse modelo, chamado de DMDC (Data Mining to Detect Cheats), foi
baseado em variveis comportamentais e demogrficas do aluno. Ele foi desenvolvido a
partir da aplicao de tcnica de agrupamento baseada em Rede de Kohonen
(KOHONEN, 1998).
Cocea e Weibelzahl (2007) utilizaram vrias tcnicas de classificao e
regresso para predio de nvel de engajamento do aluno em e-learning, analisando os
tempos gastos pelos alunos de forma ineficaz no ambiente. Ao rastrear o afastamento do
91
aluno, tem-se a possibilidade de intervir para motiv-lo no momento oportuno. Um
sistema web foi apresentado e comparado com anteriores, mostrando similaridade nos
resultados e a abordagem independente do sistema em uso, sendo baseado em dados
bsicos como nmero de pginas lidas, tempo gasto com leitura de pginas, nmero e
tempo gasto em testes/questionrios.
Uma abordagem para deteco de possveis sintomas de baixo desempenho
de alunos e-learning foi proposta por Agapito et al.(2009). O mtodo contm duas etapas
principais: gerao das regras de produo do algoritmo C4.5 e filtragem das regras mais
representativas, o que poderia indicar baixo desempenho dos alunos. Alm disso, a
abordagem foi avaliada com os arquivos de log de atividades do estudante com duas
verses de um sistema de questionrio baseado na Web. Algumas regras apontaram que
os alunos tinham dificuldades com atividades do curso. Essa informao pode ser
relevante para o instrutor ou designer do curso, porque eles podem melhorar o curso
adicionando novas atividades ou modificando as atividades existentes ou mesmo atuando
na estrutura do curso.
O trabalho de Lykourentzou et. al (2009) apresentou um mtodo de previso
de abandono dos cursos em e-learning baseado em trs tcnicas de aprendizado de
mquina mais comuns e nos dados detalhados de estudantes. As tcnicas de aprendizado
de mquina utilizadas foram redes neurais feedforward, mquinas de vetor de suporte
(SVM) e um conjunto probabilstico simplificado fuzzy ARTMAP. Como uma nica
tcnica pode falhar na classificao com preciso de alguns alunos de e-learning,
enquanto outra pode ter sucesso, trs esquemas de deciso, que combinaram de diferentes
maneiras os resultados das trs tcnicas de aprendizado de mquina, tambm foram
testados. As estimativas produzidas por cada tcnica de aprendizado de mquina, bem
como os produzidos por cada esquema deciso foram comparados em termos de preciso
global, sensibilidade e preciso. Os resultados experimentais indicaram que a combinao
dos resultados das trs tcnicas levou a uma identificao mais precisa e rpida de alunos
evadidos.
Manhes et al. (2011) avaliaram o uso da EDM para previso de estudantes
com risco de evaso em uma universidade, por meio de trs experimentos nos quais foram
aplicados dez algoritmos de classificao sobre uma base de dados dos alunos de
graduao num curso de Engenharia Civil. Os resultados mostraram que, utilizando as
92
primeiras notas semestrais dos calouros, possvel identificar com acurcia mdia
variando entre 75 a 80%, a situao final do aluno no curso.
Modelagem e previso de desempenho do estudante - A modelagem
orientada para representar e antecipar o desempenho do estudante um dos alvos
favoritos de abordagens de EDM. Vrios indicadores de desempenho so possveis de
serem modelados, tais como: eficincia, avaliao, realizao, competncia, utilizao de
recursos, tempo decorrido, exatido, deficincias, entre outros O objetivo estimar o
quanto bom o aluno ou ser capaz de realizar uma determinada tarefa, chegar a uma
meta de aprendizagem especfica ou dar resposta adequada a uma situao de
aprendizagem particular (PEA-AYALA, 2014a).
Baker et al. (2010), construram um modelo de regresso linear com
validao cruzada para prever o desempenho de um aluno em um Sistema Tutor
Inteligente (STI), por meio de testes de preparao para futura aprendizagem (PFL)
(BRANSFORD e SCHWARTZ, 1999). Os resultados apontaram um desempenho do
modelo proposto superior a modelos tradicionais como o Rastreamento Bayesiano de
Conhecimento (BKT) (CORBETT e ANDERSON, 1994). Outra caracterstica positiva
que o detector s precisa de quantidades limitadas de dados (os primeiros 20% dos dados
de um aluno de uma lio do tutor) para alcanar uma parte substancial do seu poder
preditivo, sugerindo que o detector de PFL pode ser usado para conduzir a interveno
precoce suficiente para influenciar a aprendizagem geral do aluno.
Dez algoritmos de classificao com validao cruzada para estimar
desempenho final e antecipar o insucesso escolar de estudantes foram usados por
Marquez-Vera et al. (2010). Assim, eles desenvolveram duas abordagens para resolver o
problema de classificar dados desbalanceados mediante o reequilbrio de dados e a
utilizao a classificao de custo sensvel (ELKAN, 2001) com ambas as abordagens
apresentando resultados satisfatrios.
Crespo e Antunes (2012) recomendaram a quantificao do desempenho dos
alunos no trabalho em equipe, fazendo uso das tcnicas eficazes para anlise de redes
sociais. O trabalho em equipe foi representado como uma rede, na qual os alunos
interagiam uns com os outros, conseguindo alguns resultados (representando seus graus).
Foi feita a explorao de uma arquitetura de rede e do fornecimento de uma estratgia
para quantificar a contribuio global de cada aluno por meio de adaptaes do algoritmo
PageRank (BRIN e PAGE, 2012).
93
Santos et al. (2012) relataram um estudo de caso sobre a aplicao de tcnicas
de minerao de dados (agrupamento e classificao) que permitem, em estgios
anteriores s avaliaes somativas, identificar alunos que tm maior risco de reprovao.
Os dados que sustentam a abordagem proposta so oriundos de avaliaes formativas
aplicadas no decorrer da disciplina por meio do Moodle. Os resultados mostraram que os
modelos criados permitem a identificao da propenso reprovao com taxa de acerto
em torno de 69%.
Gottardo et al.(2013) aplicaram tcnicas de balanceamento de classes para
melhorar os resultados de estimativas de desempenho futuro de estudantes, considerando
cenrios nos quais a quantidade de instncias das classes desbalanceado. Foi utilizada
uma tcnica conhecida como SMOTE (Synthetic Minority Over-sampling Technique)
(CHAWLA et al., 2002), uma tcnica que pode ser utilizada para ajustar a frequncia
relativa entre classes majoritrias e minoritrias nos dados. Os resultados obtidos apontam
para a viabilidade da aplicao de tcnica para identificar grupos de estudantes com maior
risco de reprovao.
Avaliao do aluno - O objetivo dessa abordagem possibilitar a
diferenciao da proficincia dos alunos em um nvel mais detalhado (por exemplo, por
questes ou temticas avaliadas) por meio de testes estticos e dinmicos, assim como
analisar as avaliaes on-line e offline que o aluno pode realizar (PEA-AYALA, 2014a).
Um estudo de caso apoiado por EDM, a partir de dados coletados em uma
avaliao on-line de estudantes, foi apresentado por Pechenizkiy et al. (2008). Durante a
avaliao, os alunos receberam, imediatamente, um feedback personalizado aps
responder cada pergunta do teste. O prprio estudo de caso mostrou tambm que, mesmo
com um conjunto de dados de tamanho modesto e problemas bem definidos, ainda um
pouco difcil de obter resultados significativos com tcnicas tradicionais de data mining,
tais como agrupamento, classificao e anlise de associao.
Rajibussalim (2010) avaliou a eficcia da EDM para a extrao de
conhecimentos sobre o impacto da reflexo sobre a aprendizagem, a partir de um sistema
de suporte reflexo, que adquire conhecimento sobre o comportamento e a
aprendizagem dos alunos e identifica padres de comportamento que levam a resultados
positivos ou negativos. Anlises estatsticas, agrupamento e classificao foram usadas e
os resultados da abordagem apontam na identificao de comportamentos que levam ao
94
incremento do desempenho do estudante no curso, dentre os quais a sua reflexo sobre
suas atividades e sua nota em teste de aprendizagem.
O trabalho de Lopez et al. (2012) projetou uma classificao a partir do uso
de agrupamento para prever as notas finais de estudantes universitrios iniciantes. O
artigo analisou se a participao dos alunos no frum do curso pode ser um bom preditor
de nota final e se a classificao proposta por meio de agrupamento pode obter a nota
com exatido similar aos algoritmos de classificao tradicionais. Diversos algoritmos de
clusters, usando a abordagem proposta, foram comparados com algoritmos de
classificao tradicionais para prever se os alunos passam ou reprovam no curso, com
base nos seus dados de uso do frum no ambiente Moodle. Os resultados mostraram que
o Algoritmo de Maximizao de Expectativas (EM) produz resultados semelhantes aos
demais algoritmos de classificao, especialmente quando se utiliza apenas um grupo de
atributos selecionados.
Gottardo et al.(2012) utilizaram algoritmos de classificao para identificar
quais parmetros de uma base de dados de interaes de estudantes em um ambiente
virtual possibilitariam uma inferncia sobre o desempenho final dos alunos. Os resultados
iniciais obtidos na pesquisa apontaram resultados satisfatrios, com acurcia dos
algoritmos na ordem de 76%, com um conjunto amplo de atributos que representem de
forma abrangente e generalizvel um estudante, considerando a diversidade de cursos
EAD existentes.
Apoio ao estudante e feedback - Durante a interao entre o aluno e o
ambiente virtual, o apoio ao estudante dado pelo sistema educacional relevante para
melhorar o desempenho e as realizaes dos alunos, ou para prevenir/corrigir seus
equvocos e falhas. Alm disso, a maioria dos sistemas educacionais deve oferecer
funcionalidades para monitorar o feedback dos alunos com o objetivo de expressar
sugestes, reclamaes, solicitaes e avaliaes (PEA-AYALA, 2014a).
O artigo de Merceron e Yacef (2005) apresenta vrios usos e abordagens da
EDM em um estudo de caso. Um dos objetivos do estudo foi identificar comportamento
particular entre estudantes que no realizavam, adequadamente, as tarefas em um tutor
on-line de lgica. A explorao de dados focada no nmero de tentativas de exerccios
combinada com a classificao, ajudou a identificar os alunos em risco que no haviam
treinado o suficiente no assunto. Os autores concluram que a EDM possui um grande
95
potencial para a educao, pois pode guiar a implementao de polticas pedaggicas mais
adequadas para cada turma ou curso.
Anjewierden et al. (2007) propuseram uma ferramenta para anlise de batepapo automatizado com feedback adaptativo para os alunos em tempo real, aplicando
abordagens de minerao de dados para o problema de classificar as mensagens. Os
resultados indicaram que a classificao de mensagens razoavelmente confivel e,
portanto, pode ser feita automaticamente e em tempo real. Isso possibilita, por exemplo,
aumentar a conscientizao dos alunos por meio da visualizao de seu comportamento
de interao por meio de avatares, resultando na melhoria dos ambientes de
aprendizagem.
Dominguez et al.(2010) apresentaram uma proposta de ferramenta para gerar
dicas aos estudantes que esto concluindo exerccios de programao. Essas dicas podem
ser links para tpicos, as quais so relevantes para o problema detectado e podem incluir
dicas preventivas para evitar futuros erros. A partir de dados de anos anteriores, foram
usadas as tarefas de agrupamento e classificao, alm de anlise numrica para gerao
das dicas. O sistema analisa grupos de padres que afetam o desempenho dos alunos
durante a sua interao com o sistema e os clusters formam a base para fornecer dicas
para os alunos em tempo real.
Hsieh e Wang (2010) propuseram um sistema para apoiar os alunos quando
eles examinam e tentam escolher material de aprendizagem coletado a partir da Internet.
O sistema de apoio baseado em duas abordagens principais: construo do caminho de
aprendizagem e a recomendao de objetos de aprendizagem. O sistema define um
conjunto de disciplinas candidatas do curso com base no algoritmo de classificao a
priori. Em seguida, na definio do caminho de aprendizagem, usa o conceito de anlise
formal para construir uma estrutura, usando palavras-chave extradas dos documentos
coletados para formar uma relao de hierarquia entre todos os conceitos representados
pelas palavras-chave.
As experincias mostram que as abordagens propostas alcanaram uma
preciso superior a 50% em encontrar cursos candidatos e, pelo menos, uma adequao
66,7% em construir os caminhos de aprendizagem. Mais de 77% dos alunos concordaram
que o caminho de aprendizagem foi apropriado e que o sistema proposto os ajudou a
aprender a linguagem de programao Java. Alm disso, 90% dos alunos concordaram
que os materiais didticos recomendados tambm ajudaram na aprendizagem.
96
O estudo de Jin et al. (2011) descreveu uma nova tcnica para representar,
classificar e utilizar programas de computador escritos por iniciantes como base para a
gerao de sugesto automtica para tutores de programao. Foram usadas tcnicas de
EDM e aprendizado de mquina para automatizar a criao de sugestes e dicas a partir
do agrupamento dos dados anteriores de estudantes na resoluo de problemas
semelhantes. Resultados preliminares mostraram que essa abordagem tem potencial para
ser uma fonte para gerao automtica de dicas para programadores novatos.
Apoio a professores, currculos e conhecimento do domnio - O objetivo
fornecer feedback para apoiar autores, professores e administradores de cursos na tomada
de decises sobre a forma de melhorar a aprendizagem dos alunos, organizar os recursos
de forma mais eficiente de instruo, entre outros, alm de capacit-los a tomar medidas
proativas e/ou corretivas apropriadas. importante salientar que essa tarefa diferente
de analisar dados e das tarefas de visualizao que fornecem informaes bsicas
diretamente a partir de dados (relatrios, estatsticas, entre outros). Alm disso, o
feedback pode fornecer informaes completamente novas e interessantes, encontradas
nos dados (ROMERO e VENTURA, 2010).
O planejamento do currculo talvez uma das tarefas mais importantes que
os professores devem executar antes de instruo. Enquanto esta tarefa facilitada por
uma riqueza de recursos e ferramentas on-line existentes, os professores esto cada vez
mais sobrecarregados para encontrar, adaptar e alinhar recursos relevantes que lhes do
suporte no seu planejamento. Consequentemente, existem oportunidades de pesquisa para
estudar e compreender o comportamento no planejamento on-line a fim de caracterizar o
comportamento mais geral de planejamento (MAULL et al., 2010).
Maull et al. (2010) modelaram e descobriram padres de como os professores
usam uma ferramenta de planejamento curricular on-line. Foram usados componentes de
web analytics da ferramenta e algoritmos de agrupamento para modelagem e descoberta
de padres no sistema. Os resultados revelaram que os professores esto envolvidos em
comportamento que mostram afinidade para o uso de recursos digitais interativos, bem
como a partilha de comportamentos sociais, indicando a possibilidade de
desenvolvimento de tcnicas de anlise centrada no professor para melhorar o
planejamento de tecnologias e tcnicas para estudar os padres de planejamento de
currculo on-line.
97
Barracosa e Antunes (2011) propuseram uma metodologia para minerao de
comportamentos de ensino, a partir de pesquisa aplicada aos alunos, fazendo uso de algum
conhecimento de domnio. A partir de classificao e da minerao de padro sequencial,
buscaram identificar padres de comportamentos frequentes de professores por um
perodo de tempo, determinando o conjunto de itens que caracterizam o comportamento
do professor nesse perodo. Com professores representados em sequncias temporais,
possvel, ento, aplicar a minerao de padro sequencial para identificar
comportamentos frequentes e tentar antecipar a sua evoluo.
Su et al. (2011) apresentaram um mecanismo de adaptao de contedo para
aprendizagem personalizada (Personalized Learning Content Adaptation Mechanism PLCAM) em ambientes de aprendizagem mvel, baseado em agrupamento e
classificao com rvore de deciso. O mecanismo capaz de gerenciar o histrico de
solicitaes de contedo dos alunos, entregando material de aprendizagem personalizado
para o aluno por meio de deciso, adaptao e processos de sntese de contedo. Aps a
entrega do contedo, o PLCAM prepara uma verso adaptada do contedo para a prxima
solicitao semelhante. O mecanismo define um formato de adaptao de dados que
consiste das preferncias do aluno, perfil de hardware, condies de rede e parmetros
de mdia e para descrever diversas necessidades dos alunos.
A partir do uso de sistemas educacionais adaptativos, Gaudioso et al. (2012)
apresentaram e validaram modelos preditivos que foram desenvolvidos para apoiar os
professores para monitorar, entender e avaliar a atividade dos alunos, especialmente
quando os alunos enfrentam problemas. Com os dados de um sistema educacional
adaptativo baseado na web para o ensino de Fsica no ensino secundrio, foram usadas
trs tcnicas de classificao para modelagem (rvore de deciso, gerao de regras e
JRip), com resultados globais com preciso acima dos 70% de acurcia, indicando a
possiblidade da melhora no processo de aprendizagem com a utilizao dos modelos.
Paiva et al. (2013) apresentaram uma ferramenta para recomendao
pedaggica baseada em EDM. O objetivo foi prover aos professores de cursos baseados
na web, recomendaes pedaggicas personalizadas geradas por especialistas no domnio
com base nos resultados da minerao dos dados educacionais dos alunos em ambientes
virtuais de aprendizagem, a partir de tcnicas de agrupamento, classificao e regresso.
A ferramenta seguiu o Processo de Recomendao Pedaggica e foi utilizada em um
estudo de caso com dados reais de um curso de lngua Espanhola com 200 alunos. Os
98
resultados permitiram detectar padres de interao teis, usados na criao de
recomendaes,
avaliadas
(relevncia)
por
especialistas
no
domnio
99
de responder eficazmente s mudanas que acontecem dentro e fora delas, mas que eles
tambm continuam a ser pertinentes ao seu propsito nas sociedades a que servem
(DANIEL, 2015).
Algumas das tendncias da EDM so listadas por Pea-Ayala (2014a), assim
como a respectiva anlise da literatura associada a cada uma delas. Uma das tendncias
corresponde ao padro de integrao de um mdulo de EDM com a arquitetura tpica da
grande diversidade de sistemas de ensino baseados em computador (por exemplo AVA e
LMS). Assim, mdulos de EDM que sejam adaptveis e parametrizveis para os diversos
ambientes de ensino podero ter boa acolhida por profissionais e instituies.
Outra tendncia vai exigir que a EDM fornea vrias funcionalidades durante
os trs estgios do ciclo de ensino-aprendizagem: a primeira fase corresponde prestao
de suporte proativo da EDM para adaptar o cenrio educacional de acordo com o perfil
do aluno antes de entregar um contedo. Durante a fase seguinte, de interao estudantesistema, desejvel que um mdulo de EDM adquira dados de logs e interprete o seu
significado, a fim de sugerir recomendaes, o qual pode ser utilizado pelo sistema para
personalizao de servios para os usurios em tempo real.
Na prxima fase, EDM deve proceder avaliao do ensino ministrado em
matria de servios prestados, resultados alcanados, grau de satisfao do usurio e a
utilidade dos recursos empregados.
Como a EDM considera mais aspectos quantitativos dos dados, outra
tendncia apontada na literatura a incorporao de aspectos qualitativos nas anlises e
modelos, por exemplo, usando processamento de linguagem natural para analisar os logs
de bate-papo dos estudantes, e em seguida, adicionando esses elementos ao modelo para
verificar se h uma melhora na taxa de predio (XING et al., 2015).
As aplicaes de EDM, em ambientes on-line, devem aproximar-se com o
uso de Big Data em ambientes educacionais (LIN e PREZ, 2015). Big Data referese a dados com tamanhos muito alm da capacidade de ferramentas de software comuns
para capturar, armazenar, gerenciar e processar esses dados em uma quantidade razovel
de tempo (SNIJDERS et al., 2012).
Alm disso, os cursos tipo MOOC (Massive Open On-line Courses)
tipicamente ministrados por instrutores reconhecidos em universidades de prestgio,
representam um novo e importante tpico para pesquisas e aplicaes da EDM. O
100
potencial mximo de EDM nos MOOC decorre de dois fatos: a diversidade dos alunos e
a altssima taxa de aluno por instrutor. Os participantes podem ter diferentes origens,
maturidade, experincia, nveis de educao, habilidades de linguagem, objetivos,
necessidades e estilos de aprendizagem, entre outros. Isso, por sua vez, sugere a
importncia de personalizar cursos. No entanto, dadas as taxas de estudante por instrutor,
isso impossvel sem sistemas automatizados. Apesar do fato de que a pesquisa sobre
esse tema est apenas emergindo e que as plataformas MOOC atuais fornecem
armazenamento de dados limitados, algumas pesquisas sobre MOOC adaptativos j
foram publicadas, como a de Daradoumis et al. (2013) (LIN e PREZ, 2015).
O trabalho de Daradoumis et al. (2013) props o uso de agentes de software
para melhorar e personalizar a gesto, execuo e avaliao em MOOC. Agentes
poderiam ajudar a redesenhar MOOC para turmas futuras mediante a coleta de
informao sobre padres de uso, navegao, reas de contedo problemticas, o uso da
ferramenta, perfis de estudante, entre outros. Algoritmos de aprendizagem/previso
poderiam ser aplicados pelos agentes para ajustar dinamicamente o contedo do curso de
acordo com o perfil de cada participante. Alm disso, os agentes podem ser tambm
utilizados para melhorar os testes automatizados, ajustando as questes de avaliao de
acordo com o nvel de escolaridade do participante.
Outras novas e necessrias tendncias so apontadas por Pea-Ayala (2014a):
Ferramentas amigveis de EDM para usurios no tcnicos; a padronizao de mtodos
de DM e dados; a integrao de funcionalidades de DM nos ambientes virtuais de
aprendizagem e o design das tcnicas especficas para a EDM.
Apesar das altas expectativas e da quantidade crescente de trabalhos sobre
EDM, a sua aplicao em ambientes educacionais ainda esbarra em algumas barreiras e
desafios importantes, tais como a falta de uma cultura orientada a dados e de ferramentas
rpidas, abrangentes e fceis de usar e entender e que possam ser integrados nos LMS
mais populares (LIN e PREZ, 2015).
Dentro de instituies de ensino superior, os dados esto crescendo
consideravelmente, mas a maior parte deles est espalhada por desktops, servidores e
departamentos e vm em vrios formatos, tornando difcil para recuper-los ou consolidlos. Para utilizar eficazmente esses dados, a capacidade de analisar diversos conjuntos de
informao necessria, independentemente de onde so originrios e consolidando os
dados armazenados em repositrios dentro das instituies. Isso um desafio
101
fundamental para implementao de estratgias de EDM no ensino superior (DANIEL e
BUTSON, 2013).
Embora a EDM venha sendo utilizada em cursos e instituies com sucesso,
necessrio passar do laboratrio para o mercado em geral e, para alcanar esse objetivo,
importante a realizao das aes que disseminem e favoream a rea de pesquisa com
aplicaes em escala e replicveis (ROMERO e VENTURA, 2013a).
Os educadores e as instituies devem desenvolver uma cultura de utilizar os
dados para tomar decises e melhorar a instruo orientada por dados. Os resultados da
pesquisa em EDM so normalmente obtidos no mbito restrito de projetos de pesquisa
especficos em ambientes educacionais. No entanto, necessrio obter resultados mais
gerais, por exemplo, se os mesmos parmetros do modelo do estudante tambm podem
ser utilizados com outras populaes de estudantes, ou se um modelo de previso ainda
confivel quando utilizado num contexto diferente. Existe, portanto, uma necessidade
crescente de estudos de replicao para testar generalizaes mais amplas. Como
consequncia prtica dessa necessidade, os pesquisadores de EDM se tornaram cada vez
mais interessados em repositrios de dados abertos e formatos de dados padro para
promover o intercmbio de dados e modelos (ROMERO e VENTURA, 2013a).
Alm disso, vrios desafios (metas, ambientes, modalidades, funcionalidades,
tipos de dados, ...) somente comearam a ser estudados recentemente no contexto da EDM
ou, ento, ainda esperam para serem discutidos, tais como: big data, computao em
nuvem, redes sociais, minerao na web, minerao de texto, ambientes virtuais em 3D,
minerao espacial, minerao semntica, aprendizagem colaborativa, assistentes de
aprendizagem, entre outros (PEA-AYALA, 2014a).
Uma barreira importante para a implementao de metodologias de EDM a
falta de conhecimento, tanto terica quanto prtica na rea, entre uma proporo
significativa de instrutores e gestores no que diz respeito ao emprego das ferramentas
necessrias, em compreender corretamente as sadas, tirar as concluses apropriadas ou
decidir que aes tomar (LIN e PREZ, 2015).
Para mitigar esse problema, importante aumentar a aceitao e desenvolver
uma cultura orientada a dados em ambientes educacionais (ROMERO e VENTURA,
2013a). Os pesquisadores j esto ajudando nessa transio mediante a divulgao de seus
resultados e contando com a colaborao de instrutores e/ou estudantes para avaliar as
102
suas propostas, por exemplo em GARCA et al., (2011), e detalhando seus experimentos
(dados, mtodos, entre outros) para a comunidade. Existem inmeras ferramentas para
facilitar a anlise dos dados, mas muitos tm sido implementadas em pequenos
experimentos. A EDM, ento, s ser capaz de obter resultados mais satisfatrios e
genricos, analisando mais estudantes, cursos e instituies (LIN e PREZ, 2015).
https://www.pmi.org
http://agilemethodology.org/
10
http://www.wthreex.com/rup/
11
http://www.crisp-dm.org/
9
103
dados, preparao dos dados, modelagem, avaliao e implantao (SHEARER, 2000).
O ciclo do CRISP-DM exibido na Figura 16.
A sequncia de fases no rigorosa. Na verdade, a maioria dos projetos
avanam e retornam entre as etapas se necessrio. Como metodologia, inclui descries
das fases normais de um projeto, as tarefas requeridas em cada fase e uma explicao
sobre as relaes entre as tarefas. Como modelo de processo, o CRISP-DM fornece uma
viso geral do ciclo de vida da minerao de dados (IBM, 2013).
Figura 16 - Fases do CRISP-DM.
104
subconjuntos interessantes para formar hipteses sobre informaes ocultas. Esse passo
essencial para evitar problemas inesperados durante a etapa seguinte (preparao de
dados) que normalmente a fase mais longa de um projeto (SHEARER, 2000; IBM,
2013).
Em um projeto de EDM, essa segunda etapa pode acontecer na anlise inicial
dos dados de um ambiente virtual de aprendizagem ou na compreenso dos dados
produzidos por um censo escolar.
Na etapa seguinte, acontece a preparao dos dados que abrange todas as
atividades necessrias para construir o conjunto de dados final, a partir dos dados brutos
iniciais. Esses dados preparados alimentaro a ferramenta de modelagem na etapa
seguinte. Tarefas de preparao de dados so susceptveis de serem executadas vrias
vezes e no em qualquer ordem preestabelecida. Essas tarefas incluem a seleo de
tabelas, registros e atributos, assim como a transformao e a limpeza dos dados
(CHAPMAN et al., 2000; SHEARER, 2000).
A preparao de dados um dos aspectos mais importantes e, muitas vezes,
o que exige mais tempo em minerao de dados, pois estima-se que essa etapa,
geralmente, leva entre 50-70% do tempo e esforo de um projeto. Dedicar recursos
adequados para os estgios iniciais de entendimento do negcio e esforos de dados pode
minimizar a sobrecarga relacionada, mas, ainda, ser necessrio dedicar muito esforo
para preparar e empacotar os dados para a minerao (IBM, 2013).
Em um contexto de EDM, a preparao dos dados pode envolver, por
exemplo, limpeza dos dados nos logs de acessos dos alunos ao ambiente virtual e
transformaes de notas dos estudantes (variveis contnuas) em conceitos (discretas).
A modelagem acontece na quarta etapa. De acordo com o problema de
minerao, vrias tcnicas podem ser usadas. A modelagem geralmente executada em
vrias iteraes, nas quais os analistas de dados executam vrios modelos, usando as
configuraes padro e vo ajustando os parmetros para valores otimizados. comum
tambm retornar para a fase de preparao de dados para manipulaes exigidas pelo
modelo (SHEARER, 2010; IBM, 2013).
Na EDM, a modelagem pode definir um modelo de previso de tendncia
evaso de alunos em EAD ou, ento, uma definio de agrupamento de alunos de acordo
com suas caractersticas de interao em um ambiente virtual.
105
Antes de proceder implantao definitiva do modelo construdo,
importante avali-lo mais profundamente e rever a sua construo para ter certeza que
atinge, adequadamente, os objetivos planejados. A quinta etapa, avaliao, a etapa chave
para garantir que a organizao pode utilizar os resultados obtidos e os conhecimentos
descobertos. Um objetivo fundamental determinar se h algum problema importante do
negcio que no foi suficientemente considerado. A seta direcionada etapa inicial indica
a possibilidade de retorno em funo da avaliao dos resultados no se mostra
satisfatria para os objetivos do projeto (CHAPMAN et al., 2000; IBM, 2013).
Um exemplo dessa etapa em um contexto educacional seria avaliar se os
modelos preditivos de desempenho de alunos atendem s taxas de acurcia
preestabelecidas ou, ento, se as regras de associao geradas de acordo com o perfil dos
alunos em e-learning possuem ndices de suporte e confiana satisfatrios.
A sexta e ltima etapa a implantao, na qual os novos conhecimentos
descobertos so usados para proporcionar melhorias na organizao. Nessa etapa, todo o
conhecimento adquirido deve ser organizado e apresentado de uma forma que o cliente
possa us-lo efetivamente dentro dos processos de tomada de deciso. Dependendo dos
requisitos, a fase de implantao pode ser to simples como gerar um relatrio ou to
complexo como a implementao de um processo de minerao de dados aplicvel em
toda a empresa (SHEARER, 2000; CHAPMAN et al., 2000).
Em um projeto envolvendo EDM, a implantao do modelo pode ser feita a
partir do uso de plug-ins ou mdulos de sistemas que realizam as tarefas de minerao na
plataforma de dados educacionais e apresente, de maneira simplificada e eficaz, os
resultados da aplicao dos modelos nos dados, auxiliando ento na tomada de deciso
que resulte em intervenes para melhoria do processo educacional.
Alm do CRISP-DM, existem outros modelos de processo de minerao,
muitos dos quais desenvolvidos por especialistas ou empresas para uso prprio, no sendo
difundidos para outras pessoas/organizaes.
Um outro modelo padronizado para processos de DM o SEMMA
(Acrnimo de Sample, Explore, Modify, Model, Assess) que foi desenvolvido pelo SAS
Institute12. Por estar muito atrelado ao prprio software de minerao da SAS, o modelo
12
http://www.sas.com/pt_br/home.html
106
bem menos utilizado que o CRISP-DM. Esse modelo considera um processo cclico
com os cinco estgios que formam a sua sigla (AZEVEDO e SANTOS, 2008):
1. Amostra (Sample) - Esta fase consiste na amostragem dos dados pela
extrao de uma parte de um grande conjunto de dados, grande o suficiente para conter a
informao significativa, ainda pequeno o suficiente para manipular rapidamente. Este
estgio apontado como sendo opcional.
2. Explorar (Explore) - Esta fase da explorao dos dados por meio da
procura de tendncias, imprevistos ou anomalias, a fim de ganhar a compreenso e ideias
sobre os mesmos.
3. Modificar (Modify) - Nesta fase, acontece a modificao dos dados
criando, selecionando e transformando as variveis para focalizar no processo de seleo
do modelo.
4. Modelo (Model) - Esta fase consiste na modelagem dos dados, permitindo
que o software de minerao procure, automaticamente, uma combinao de dados que
prev de forma confivel um resultado desejado.
5. Avaliar (Assess) - a etapa da avaliao dos dados, avaliando a utilidade
e confiabilidade dos resultados do processo de minerao de dados e estimando o quanto
correto ele executado.
O SEMMA oferece um processo fcil de entender, permitindo um
desenvolvimento organizado e manuteno adequada de projetos de minerao de dados.
Possui uma estrutura para a sua concepo, criao e evoluo, ajudando a apresentar
solues para problemas de negcios, bem como para encontrar os objetivos de minerao
em negcios (AZEVEDO e SANTOS, 2008).
107
O trabalho de Vialardi et al.(2011) apresentou a lgica por trs do projeto de
um sistema de recomendao para apoiar o processo de matrcula, usando registro de
desempenho acadmico dos alunos. Para construir o sistema, a metodologia CRISP-DM
foi aplicada a dados de alunos do Departamento de Cincia da Computao na
Universidade de Lima no Peru.
No estudo, os autores destacaram que o passo mais importante no CRISP-DM
a fase de modelagem. Nesse passo, os dados so analisados e os algoritmos apropriados
para a rea so definidos e aplicados, a fim de produzir novos padres de dados originais.
O desafio trabalhar com grandes conjuntos de dados, que podem apresentar seus
prprios problemas: rudo, dados faltando, volatilidade, entre outros
Os resultados do trabalho mostraram que o sistema teve um desempenho
muito bom, sendo capaz de prever com 85,36% de preciso sob condies reais de
matrcula dos alunos.
J o trabalho de Kabakchieva et al. (2010) apresentou um projeto de pesquisa
de minerao de dados baseado no CRISP-DM em uma universidade blgara, com o
principal objetivo de revelar o grande potencial de aplicaes de EDM para gesto
universitria. O objetivo do trabalho foi descobrir padres interessantes nos dados
disponveis, os quais poderiam contribuir para prever o desempenho do estudante na
universidade com base em suas caractersticas pessoais e pr-universitrias.
Durante a fase de entendimento do negcio, foram identificadas as
necessidades especficas de gesto de universidade. Na fase de compreenso de dados,
foram analisados os dados coletados dos candidatos a vagas na universidade e na fase de
pr-processamento de dados, os dados dos alunos que estavam em duas bases foram
extrados e organizados em um novo data warehouse. Na fase de modelagem, foram
usados vrios classificadores e os resultados do estudo, no geral, foram satisfatrios,
apresentando uma acurcia entre 60 e 75% nos algoritmos utilizados.
Sahay e Mehta (2010) apresentaram uma pesquisa para desenvolvimento de
software via web para auxiliar o ensino superior em instituies americanas situadas em
Salt Lake City, na avaliao e previso de questes-chave relacionadas ao sucesso do
aluno. Pelo do uso do KDD apoiado pelo CRISP-DM, a proposta do sistema incluiu o uso
de vrios algoritmos de minerao de dados e ferramenta de qualidade, tais como a
implantao da funo de qualidade para estudar e prever problemas relacionados
108
gesto de matrcula, taxa de abandono, tempo para concluso de curso e tambm pode
sugerir formas de melhorar os cursos e programas.
Kovacic (2010) apresentou um estudo que explorou variveis sociodemogrficas (idade, gnero, etnia, educao, status de trabalho e deficincia) e
ambientes de estudo (perodo no qual o aluno est matriculado: 1, 2 ou 3 e tipo de curso:
bacharelado em cincias aplicadas ou bacharelado em negcios), que podem influenciar
na permanncia ou, ento, na evaso de estudantes em uma universidade na Nova
Zelndia. Foram examinados em que medida esses fatores podem ajudar na identificao
prvia de alunos bem ou malsucedidos no curso.
O estudo, baseado na metodologia CRISP-DM e usando diferentes
classificadores na fase de modelagem, apontou que a somente a etnia e as variveis do
ambiente de estudo influenciaram no insucesso dos alunos e que o mtodo de
classificao CART foi o que apresentou os melhores resultados para os dados (60,5% de
preciso).
109
4. MTODO DA PESQUISA
Segundo Marconi e Lakatos (2010), uma investigao cientfica comea
quando h uma percepo de que conhecimentos existentes baseados em senso comum,
nas teorias filosficas ou cientficas no so suficientes para explicar determinados
problemas ou dvidas que surgem em situaes reais. O conhecimento cientfico no
deve ser visto como conhecimento emprico ou popular (senso comum), mas sim como
um conhecimento obtido de forma racional, conduzida por meios de procedimentos
cientficos.
Este captulo apresenta a metodologia empregada para o alcance dos objetivos
propostos nesta tese, explicitados no Captulo 1.
110
3 Generalizao das relaes - As relaes encontradas entre fatos ou
fenmenos so, ento, generalizadas, sendo possvel sua aplicao em novos fatos ou
fenmenos. Nesta etapa foi, ento, estabelecido um processo generalizado para obteno
dos construtos da distncia transacional e sua posterior aplicao em um modelo preditivo
da possibilidade da evaso do aluno.
O procedimento desta pesquisa foi experimental, j que observou e
manipulou diretamente as variveis relacionadas com o objeto de estudo (CERVO et al.,
2007). Neste tipo de pesquisa, a manipulao de variveis proporciona o estudo da relao
entre causa e efeitos de um determinado fenmeno (a evaso de alunos).
Em relao natureza das variveis, embora a maior parte do estudo tenha
sido ancorado em variveis quantitativas, questes qualitativas foram usadas no final do
processo para armazenar resultados das avaliaes da soluo computacional proposta.
111
Cada etapa do CRISP-EDM contemplou tcnicas e abordagens devidamente
adequadas ao domnio educacional sob anlise. Algumas das etapas foram divididas em
etapas menores para permitir um melhor desenvolvimento das mesmas. O design geral
do mtodo aplicado nesta pesquisa apresentado nas Figura 18 e Figura 19 seguintes.
Figura 18 - Etapas 01 a 03 da pesquisa.
112
Quadro 3 Tcnicas e abordagens para alcance dos objetivos especficos.
Objetivos especficos
Tcnica/Abordagem
Pesquisa bibliogrfica
CRISP-EDM (Etapa 1)
Pesquisa bibliogrfica
Entrevistas com especialistas
CRISP-EDM (Etapa 2)
CRISP-EDM (Etapa 3)
CRISP-EDM (Etapa 4)
CRISP-EDM (Etapa 5)
CRISP-EDM (Etapa 6)
Prototipao rpida
113
4.3. Etapa 02: Entendimento dos Dados Fase de coleta e preparao inicial
dos dados
Para o desenvolvimento da pesquisa, a fonte primria e principal de dados
foram os diversos bancos de dados do ambiente Moodle do Ncleo de Educao a
Distncia (NEAD) da Universidade de Pernambuco (UPE)13. Esse ncleo j conta com
cerca de oito (08) anos de atuao na modalidade, ofertando cursos de graduao,
especializao e extenso, com presena em diversas cidades do estado de Pernambuco.
A base de dados escolhida para ser explorada e analisada foi a de dois cursos
de graduao por EAD na UPE: as licenciaturas em Pedagogia e em Cincias Biolgicas.
Os dados foram oficialmente cedidos pela coordenao do Ncleo, assim como toda a
estrutura do ambiente virtual em uso por essa instituio. A escolha desses dois cursos foi
em razo dos mesmos apresentarem os menores (Pedagogia) e maiores (Biologia) ndices
13
Disponvel em http://www.upe.br/index.php/nead
114
de evaso conforme informao da coordenao do Ncleo. Um resumo da base utilizada
apresentado na Tabela 3.
Tabela 3 - Dados dos Cursos de Graduao a Distncia da Universidade de Pernambuco.
Curso
Biologia - Turma 3
Biologia - Turma 4
Pedagogia - Turma 1
Pedagogia - Turma 2
Semestre
Incio
2011.1
2012.2
2010.2
2012.2
Semestre
Fim
2014.2
2016.1
2014.1
2016.1
Semestres
disponveis
8
6
8
6
N
Alunos
27
112
150
323
Bases
distintas
4
4
3
4
Fonte: (NEAD/UPE).
14
115
cada base para selecionar os alunos que satisfizessem essa condio. Assim, eventuais
alunos veteranos que estivessem cursando uma disciplina na qual tivessem sido
reprovados anteriormente, por exemplo, no seriam includos na base de alunos da turma.
Essa lista de alunos de cada 1 perodo foi usada como referncia para a coleta de dados
nos perodos seguintes, com a devida uniformizao de identificadores e nomes de alunos,
conforme j relatado.
A partir das anlises dos dados das interaes dos alunos nos diversos
perodos dos cursos, foi possvel definir quais os que alunos tinham se evadido. Variveis
como: tempo mdio de acesso semanal, nmero de acessos ao ambiente no perodo e a
quantidade de diferentes locais ou momentos a partir dos quais o aluno acessou o
ambiente, quando apresentaram zeradas no perodo analisados, alm da no realizao
das atividades avaliativas, foram os indicadores usados para caracterizar os alunos
evadidos.
As verificaes de consistncia nos dados obtidos foram feitas a partir do
acesso com um perfil de administrador no ambiente virtual Moodle da UPE, comparando,
por exemplo, os registros de quantidade de determinadas interaes que os relatrios do
prprio ambiente disponibilizam, com os dados coletados pelos scripts SQL. Outras
verificaes eram feitas a partir do cruzamento de consultas distintas ao banco,
comparando, ento, os seus retornos com os valores j coletados.
Para a execuo dos procedimentos desta etapa, foram utilizados os
aplicativos MySQL Workbench e pgAdmin III para a extrao dos dados via scripts SQL;
o pacote estatstico R com a sua IDE RStudio, para anlises e tratamentos preliminares
dos dados e o Microsoft Excel, tambm para tratamento e uniformizao dos dados.
116
Inicialmente, foi estabelecido um modelo terico provisrio da DT, no qual
cada construto foi representado por um conjunto de variveis observadas, obtidas a partir
do cotejamento de questionrios usados em estudos sobre a distncia transacional, com
os registros de um banco de dados do Moodle.
Figura 21 Processo de mapeamento das variveis da DT.
Autor(es)
(CHEN e WILLITS,
1999)
Citaes*
96
143
(CHEN, 2001b)
35
(ZHANG, 2003)
21
(SANDOE, 2005)
15
(HORZUM, 2011)
117
Transactional distance revisited: Bridging face and empirical
validity
(GOEL et al., 2012)
Relative Proximity Theory: Measuring the Gap Between Actual (SWART et al.,
and Ideal On-line Course Delivery
2014)
Measuring transactional distance in web-based learning (HUANG et al.,
environments: an initial instrument development.
2015)
Revisiting Zhangs scale of transactional distance: refinement
and validation using structural equation modeling.
(PAUL et al., 2015)
(*) N de citaes coletados no Google Scholar em Nov/2016.
Fonte: (RAMOS et al., 2016).
11
4
1
2
Diversas tcnicas de anlise dos dados foram usadas nesses questionrios, tais
como: anlises fatoriais exploratria e confirmatria, modelagem de equaes estruturais,
anlises das correlaes e discriminantes, anlise de varincias, entres outras. No total,
esses questionrios geraram uma lista de 186 questes, categorizadas pelos respectivos
autores em cada um dos 3 construtos da distncia transacional.
O passo seguinte foi buscar estabelecer, para cada questo dessa lista, uma
associao com os registros no banco de dados do Moodle, estabelecendo um
mapeamento preliminar das variveis da DT. Foram associados campos de tabelas do
banco de dados s variveis, que poderiam servir para determinar cada construto.
Assim, foi identificado um conjunto inicial de variveis representativas da
DT, passveis de serem extradas diretamente do banco de dados, sem a necessidade de
aplicao de questionrios ou do uso de qualquer outra tcnica de coleta de dados. Esse
mapeamento preliminar foi, ento, submetido a professores que atuam na EAD, a partir
de um questionrio on-line, para sua confirmao e respectiva distribuio de cada item
nos trs construtos.
118
Transacional foi apresentada para que os professores tivessem uma melhor
contextualizao das perguntas do questionrio.
A inteno foi pedir que esses professores associassem cada uma das
variveis apresentadas a algum(ns) ou nenhum dos construtos da DT. Assim, para cada
uma das variveis listadas, o professor podia fazer associaes da mesma com os
construtos ou ento, caso assim percebesse, assinalar a opo nenhum entre as respostas
possveis.
No questionrio, tambm foi disponibilizado um campo tipo texto para o
professor, caso, assim, desejasse acrescentar algum comentrio ou mesmo propor uma
nova varivel no listada no instrumento de coleta. O questionrio aplicado com as
respectivas frequncias de cada resposta encontra-se no Apndice A deste texto.
119
Essa tcnica estatstica no designa variveis a fatores (construtos). Ao invs
disso, o pesquisador deve ser capaz de fazer essa designao inicialmente, antes que
quaisquer resultados possam ser obtidos. A tcnica ento aplicada para testar o grau em
que a distribuio feita pelo pesquisador se ajusta aos dados reais. Assim, a CFA nos diz
quo bem a especificao dos fatores combina com a realidade, permitindo, em certo
sentido, confirmar ou rejeitar a teoria pr-concebida.
A partir da CFA, as relaes entre as variveis e construtos so modeladas em
uma srie de regresses lineares, utilizando, para isso, uma matriz de covarincias. Assim,
pode-se rever o modelo gerado e ajust-lo seguidamente, ligando construtos e variveis
de outras formas na busca de melhores ajustes. Nessa abordagem, a carga fatorial de cada
varivel em relao ao seu construto representa o seu coeficiente na equao estrutural,
como numa regresso linear. A carga fatorial a correlao entre as variveis originais e
os fatores, possibilitando a compreenso mais detalhada de um fator sob o ponto de vista
dos dados que o compem.
Uma das maiores vantagens da CFA sua habilidade em avaliar a validade
de construtos associados a uma teoria. Validade de construto o grau em que um conjunto
de itens medidos realmente reflete o construto latente terico que aqueles itens devem
medir (HAIR et al., 2009).
Neste estudo, tambm foram seguidas as recomendaes de Jackson et al.
(2009) para realizao de uma CFA:
1. A formulao terica baseada na Teoria da Distncia Transacional, com a
especificao do modelo inicial a ser testado. Nesse caso, as variveis
previamente definidas e distribudas na etapa anterior pelos especialistas
(subseo 4.4.2) foram utilizadas para formar os trs construtos da teoria da
DT;
2. A coleta e preparao dos dados obtidos na base de dados do Moodle da UPE,
com verificao de normalidade, valores em falta, outliers, entre outros;
3. As decises da anlise inicial dos dados, por exemplo: tipo da matriz a ser
analisada (covarincia ou correlao), ferramenta estatstica e estimador a
serem utilizados; e
120
4. Critrios para avaliao do modelo: verificao se os ndices de qualidade de
ajuste (Goodness-of-Fit (GOF)), ndices de ajuste incremental e ndices de erro
mdio esto com valores compatveis com os recomendados na literatura.
O modelo fatorial confirmatrio pode tambm ser representado por meio de
um path diagram, na qual os crculos representam as variveis latentes e os quadrados
representam as variveis observadas, facilitando uma rpida visualizao e interpretao
do modelo, como no exemplo da Figura 22.
Figura 22 Exemplo de um diagrama de caminhos em uma SEM/CFA.
121
medidas de ajuste de parcimnia. A literatura recomenda usar uma combinao de
diferentes ndices dessas medidas, sem apelar para todos, pois existe certa redundncia
entre eles (HAIR et al., 2009).
Medidas de ajuste absoluto - So medidas diretas de quo bem o modelo
especificado pelo pesquisador reproduz os dados observados. Esses ndices no
comparam especificamente a GOF de um modelo com outro modelo e, sim, cada modelo
avaliado independentemente de outros modelos.
A estatstica 2 (qui-quadrado) o ndice bsico de ajuste absoluto. O seu
valor indica o grau de semelhana entre as matrizes esperadas e observadas, onde valores
mais baixos desse indicador indica maiores similaridades entre ambas, ou seja, modelos
melhores ajustados. No entanto, esse ndice apresenta duas propriedades matemticas que
so problemticas em seu emprego como nica medida GOF: a) ela uma funo
matemtica que depende do tamanho da amostra (N) e da diferena entre as matrizes de
covarincia estimada e observada. Quando N aumenta, 2 tambm aumenta; b) o valor de
2 pode ficar maior quando o nmero de variveis observadas aumenta. Por essas razes,
no recomendado usar somente esse ndice como nico indicador de ajuste do modelo
(HAIR et al., 2009).
O 2 normalizado uma medida GOF que representa uma proporo simples
de 2 com o nmero de graus de liberdade (gl) de um modelo. Geralmente, propores
2:gl na ordem de 3:1 so associadas a modelos mais ajustados, exceto nas circunstncias,
envolvendo amostras muito grandes (N>750) (HAIR et al., 2009).
O ndice de qualidade do ajuste (GFI) um ndice que tambm indica um
grau de similaridade entre as matrizes estimada e observada, embora seja menos sensvel
ao tamanho amostral. Esse ndice pode apresentar valores no intervalo de 0 a 1, com
valores mais altos (> 0.90), indicando melhores ajustes (JRESKOG e SRBOM, 1986).
A Raiz do erro quadrtico mdio de aproximao (RMSEA) tambm
outra medida que tenta corrigir a tendncia da estatstica 2 de rejeitar modelos com
amostras grandes ou com grande nmero de variveis. Tambm representa o quanto um
modelo se ajusta a uma populao e no somente a uma amostra usada para estimao.
Ela tenta corrigir a complexidade do modelo e tamanho amostral, incluindo cada um
desses dados na sua determinao. Esse tipo de indicador pertence a uma categoria de
ndices chamados de m qualidade do ajuste, na qual valores altos representam modelos
122
de ajustes ruins. Segundo Hair et al. (2009), valores abaixo de 0.07 so aceitveis para
amostras com N>250 e nmero de variveis maior que 30.
O Gamma hat
complexidade do modelo pela incluso dessas informaes no seu clculo. Valores tpicos
variam entre 0.9 e 1.0.
Medidas de ajuste incremental: Diferem dos ndices absolutos no sentido
que avaliam o quanto um modelo especificado se ajusta relativamente a algum modelo
alternativo de referncia, sendo que o modelo de referncia mais comum chamado de
modelo nulo, pois assume que todas as variveis observadas so no correlacionadas. Os
principais ndices de ajuste incremental usados neste trabalho so descritos a seguir:
O ndice de ajuste normalizado (NFI) representa uma proporo do valor
de 2 para o modelo ajustado e um modelo nulo dividida pelo valor 2 para o modelo nulo.
Seu valor est entre 0 e 1, sendo o ajuste perfeito correspondente a um NFI=1.0.
O ndice de ajuste comparativo (CFI) tambm um ndice de ajuste
incremental normalizado, como uma verso melhorada e estendida do NFI para incluir a
complexidade do modelo no clculo do indicador (HU e BENTLER, 1999). Valores
abaixo de 0.90, geralmente, no so associados a um bom modelo ajustado (Hair et al.
2009).
O ndice de Tucker Lewis (TLI) conceitualmente semelhante ao CFI, pois
tambm envolve uma comparao matemtica de um modelo terico especificado com
um modelo nulo de referncia (TUCKER e LEWIS, 1973). Como o TLI no
normalizado, seu valor pode ficar abaixo de 0 e acima de 1. No entanto, modelos com
bom ajuste tm valores que se aproximam de 1.
Medidas de ajuste de parcimnia: Este grupo de ndices foi especificamente
planejado para fornecer informaes sobre qual modelo, entre um grupo de modelos
concorrente, melhor, considerando seu ajuste relativo a sua complexidade. Esses ndices
so conceitualmente parecidos com a noo do R2 ajustado dos modelos de regresso; no
sentido, relacionam modelos com sua complexidade (HAIR et al., 2009).
Os principais ndices dessa categoria so: o ndice de qualidade de ajuste
de parcimnia (PGFI) e o ndice normalizado de parcimnia (PNFI). Como nesse
trabalho avaliamos um nico modelo em vrios ciclos de ajustes, esses ndices no so
teis para essa avaliao.
123
Na avaliao do modelo, as seguintes medidas de qualidade de ajuste entre o
modelo proposto e os dados da amostra foram utilizadas: ndice 2 /gl (razo entre o quiquadrado e n de graus de liberdade dos dados), o Gamma hat, o CFI (ndice de ajuste
comparativo), GFI (ndice de qualidade do ajuste), TLI (ndice de Tucker-Lewis) e o
RMSEA (Raiz do erro quadrtico mdio de aproximao).
http://www.biosoft.hacettepe.edu.tr/MVN/
http://lavaan.ugent.be/
17
https://cran.r-project.org/web/packages/semPlot/semPlot.pdf
16
124
conhecidos os rtulos de cada classe). O modelo usado para prever o rtulo da classe de
objetos para os quais a classe, ainda, desconhecida (HAN et al., 2011).
Para Mrquez-Vera et al. (2016), os algoritmos de classificao so as
tcnicas de minerao de dados mais aplicadas para a previso de abandono escolar do
aluno.
Na definio dos classificadores a serem utilizados nesta pesquisa, optou-se
por usar um algoritmo de cada uma das principais categorias de classificadores: rvore
de deciso, redes neurais, mquina de vetor de suporte, classificador baseado em
instncias e classificador probabilstico. A inteno foi comparar os principais ndices
de avaliao dos modelos preditivos e, a partir dessa anlise, definir qual o classificador
a ser adotado nas demais fases da pesquisa. Foram, ento, escolhidos os seguintes
classificadores: rvore de Deciso, SVM, Rede Neural, kNN e Regresso Logstica. Essas
escolhas foram baseadas em importantes trabalhos de reviso da literatura de EDM
(BAKER e YACEF, 2009; PEA-AYALA et al., 2009; ROMERO e VENTURA, 2010
e PEA-AYALA, 2014a), que apontam esses classificadores como os predominantes em
pesquisas na rea.
O processo de classificao binria envolveu um clculo da probabilidade,
pelo classificador, de um objeto de dados em anlise pertencer classe 1 (neste caso, com
alto risco de evaso) ou 0 (baixo risco de evaso). O valor divisor de classes para essa
probabilidade chamado de limiar de deciso (ou ponto de operao). Em todos os
classificadores testados, utilizou-se o limiar de deciso igual a 0,5, onde os objetos com
probabilidades acima desse limiar seriam classificados como alto risco de evaso. Nas
subsees seguintes, apresentado um detalhamento de cada classificador com as
ferramentas usadas nas suas respectivas aplicaes.
125
No contexto de resoluo de tarefas de classificao, uma rvore de deciso
representa o modelo capaz de guiar a tomada de deciso sobre a determinao da classe
qual um exemplar dos dados pertence.
A construo do modelo (rvore) realizada por meio de um algoritmo que
analisa interativamente os atributos descritivos de um conjunto de dados previamente
rotulados, constituindo o processo de aprendizagem do modelo do classificador (SILVA
et al., 2016).
Os principais algoritmos para construo de rvores de deciso so o C4.5
(QUINLAN, 1993) e o Classification and Regression Trees (CART) (BREIMAN et al.,
1984). Ambos algoritmos adotam uma abordagem "gulosa" na qual as rvores so
construdas de forma recursiva top-down, com o mtodo de dividir e conquistar. O
conjunto de treino recursivamente dividido em subconjuntos menores quando a rvore
est sendo construda (TAN et al., 2009).
Nesta pesquisa, foi usado o algoritmo CART (BREIMAN et al., 1984) para
definio do modelo classificador baseado em rvore de deciso. O CART foi escolhido
por ter sua implementao simplificada, com baixo tempo de execuo, alm de
possibilitar uma anlise da contribuio de cada varivel independente no modelo
preditor. Esse algoritmo implementado no software R por meio do pacote rpart18.
18
https://cran.r-project.org/web/packages/rpart/index.html
126
homogneas em ambos os lados. A partir desse limite, novos dados so classificados a
partir da aplicao da funo gerada no modelo e a posio do novo ponto de dados na
superfcie delimitada, indicar a qual classe o mesmo pertence (LANTZ, 2013).
A implementao no R da SVM usada neste trabalho foi a do pacote
kernlab19, que utiliza o mtodo Sequential Minimal Optimization (SMO), proposto
por Platt (1999) para aplicaes de SVM em grandes conjuntos de dados. Essa a
implementao padro do algoritmo.
19
20
https://cran.r-project.org/web/packages/kernlab/kernlab.pdf
https://cran.r-project.org/web/packages/nnet/nnet.pdf
127
21
https://cran.r-project.org/web/packages/caret/caret.pdf
128
linear. Portanto, em vez de prever uma estimativa de ponto do evento em si, o modelo
baseia-se para prever a probabilidade de sua ocorrncia (EN et al., 2012).
Em funo da necessidade da produo de sadas dicotmicas pelo modelo, a
regresso linear mltipla no pode ser aplicada nesse tipo de anlise, por causa dos
resduos do modelo no atenderem s suposies requeridas para a regresso linear:
varincia constante, mdia zero e normalidade dos dados (PARDOE, 2012).
Em um problema de duas classes, a probabilidade maior que 50% significa
que o processo atribudo classe designada como '1 ', caso contrrio, ' 0 '. Quando a
varivel de resultado tem mais de dois valores, o algoritmo ajustado para discriminar
entre todos os valores da varivel de sada e, portanto, chamada de regresso logstica
mltipla nominal (EN et al., 2012).
A utilizao crescente de modelos baseados em funes logsticas em razo
da sua flexibilidade e facilidade no seu uso e na interpretao dos resultados. A influncia
de cada fator no modelo detalhada e permite que sejam tomadas decises associadas a
esses fatores (HOSMER JR et al., 2013).
Tradicionalmente, os modelos estatsticos como regresso logstica e anlise
discriminante so usados com mais frequncia em estudos para identificar os fatores de
reteno e as suas contribuies para o abandono do estudante (KOVACIC, 2010).
O estudo sobre o estado da arte em EDM, feito por Pea-Ayala (2014),
tambm destacou o uso da regresso logstica em anlises preditivas em contextos
educacionais como: modelagem do estudante, modelagem do comportamento do
estudante, modelagem de desempenho, avaliao, suporte e feedback para os estudantes.
A aplicao da regresso logstica nesta pesquisa foi a partir do uso da funo
glm (Generalized Linear Models) integrante do core do software R. Esse mtodo
permite a gerao de diferentes modelos a partir da sua parametrizao. Para a regresso
logstica, os parmetros family=binomial (link="logit") foram passados na funo
glm, indicando a realizao do modelo de regresso pretendido na anlise.
Todos os scripts dos classificadores usados esto no Apndice B deste
trabalho.
129
130
discretizar a probabilidade e, ento, prever a classe. Outros modelos j produzem sadas
discretas indicando apenas a classe predita da instncia (FAWCETT, 2006; SILVA et al.,
2016).
Para distinguir entre a classe real e a classe prevista, so usados os rtulos (P,
N) para as previses de classe produzidos por um modelo. Dado um classificador e uma
instncia a classificar, h quatro resultados possveis:
Classe
Predita
(Modelo)
Negativo
Positivo
Negativo
VN
FP
Positivo
FN
VP
131
Obviamente, o melhor caso esperado para uma matriz de confuso o
preenchimento apenas da diagonal principal, o que resultaria em uma acurcia de 100%.
Preciso (Precision) - Representa a preditividade positiva, que o percentual
de acertos de verdadeiros positivos dentre todos os exemplos classificados como
positivos. Sua expresso :
Preciso = VP / (VP + FP)
Quanto maior a preciso, menor o erro de falsos positivos cometidos pelo
classificador.
Sensibilidade (Recall) - Indica a taxa de verdadeiros positivos, ou seja, o
percentual de verdadeiros positivos previstos corretamente pelo classificador.
Recall = VP / (VP + FN)
Um alto recall indica que o classificador produziu poucos exemplos positivos
classificados como falso negativos.
Muitas vezes, os modelos so desenvolvidos para que uma dessas mtricas
(precision e recall) seja otimizada. Por exemplo, um modelo que declare todas as
instncias como sendo positiva ter um timo recall, mas uma baixa preciso. De maneira
oposta, um modelo que classifique como positiva cada instncia de teste possui uma alta
preciso, mas um baixo recall. Construir um modelo que busque alto valores para ambas
as mtricas um desafio para os algoritmos de classificao.
Especificidade - Fornece a taxa de verdadeiros negativos, ou seja, o
percentual de instncias previstos corretamente como verdadeiros negativos. obtida
por:
Especificidade = VN / (VN + FP)
Taxa de Falsos Positivos - Indica o percentual de instncias negativas
previstas incorretamente como verdadeiros positivos.
TFP = FP / (FP + VN)
Taxa de Falsos Negativos - Indica o percentual de instncias positivas
previstas incorretamente como verdadeiros negativos.
TFN = FN / (FN + VP)
132
Para a obteno da Matriz de Confuso, foi usada a funo confusionMatrix
do pacote caret do R. Alm da matriz, a funo tambm retorna s suas mtricas e
estatsticas associadas.
C
Taxa de Verdadeiros Positivos (TVP)
133
A. TVP=0, TFP=0: O modelo prev que toda instncia seja uma classe
negativa.
B. TVP=1, TFP=1: O modelo prev que toda instncia seja uma classe
positiva.
C. TVP=1, TFP=0: O modelo ideal
Um bom modelo de classificao deve estar localizado o mais prximo
possvel do vrtice superior esquerdo do grfico, enquanto que um modelo que s faa
suposies aleatrias deve estar localizado na diagonal principal do grfico. Essa
suposio aleatria faz com que o modelo classifique como positivo uma instncia,
independente dos valores dos seus atributos. Qualquer modelo que faa classificaes
abaixo dessa diagonal tem desempenho pior do que o classificador aleatrio (FAWCETT,
2006).
A curva ROC til para comparar o desempenho relativo entre diferentes
classificadores. Na Figura 24, o classificador do modelo M1 melhor que M2 quando a
TFP for menor que, aproximadamente, 0,36. Acima desse ponto, M2 torna-se superior.
Pelas curvas, no se pode afirmar qual dos classificadores prevalece sobre o outro (TAN
et al., 2009).
A rea sob a Curva ROC fornece uma outra abordagem para avaliar qual o
modelo tem melhor desempenho como classificador.
Como uma curva ROC uma representao bidimensional do desempenho
do classificador, necessrio transformar a curva ROC a um nico valor escalar
representando o desempenho esperado, para, ento, poder comparar classificadores. Um
mtodo comum calcular a rea da regio sob a curva ROC, chamada de AUC (Area
Under Curve). Uma vez que a AUC uma poro da rea da unidade de quadrado, o seu
valor ir sempre estar entre 0,0 (pior caso) e 1,0 (modelo ideal). No entanto, por causa da
suposio aleatria que produz a linha diagonal entre (0, 0) e (1, 1) e uma rea de 0,5,
classificadores reais no devem ter uma AUC inferior a 0,5.
Assim, usando essa mtrica, um modelo que seja melhor do que outro, tem
um AUC maior (FAWCETT, 2006). Em Hanley e McNeil (1982), mostrado que essa
rea numericamente equivalente estatstica de Wilcoxon. A AUC uma mtrica
tradicional de desempenho, com um bom respaldo na literatura (BRADLEY, 1997;
DUDA et al., 2012; LING et al., 2003; PROVOST e FAWCETT, 2001) e, muitas vezes,
adotada como suficiente para comparar classificadores.
134
Para gerao da Curva ROC e clculo da respectiva AUC de cada
classificador, foi usado o pacote ROCR22 do R. Na plotagem do grfico comparativo
das Curvas ROC dos classificadores usados nesta pesquisa, foram usados os pacotes
plotROC23 e ggplot224.
22
https://cran.r-project.org/web/packages/ROCR/ROCR.pdf
https://cran.r-project.org/web/packages/plotROC/plotROC.pdf
24
https://cran.r-project.org/web/packages/ggplot2/ggplot2.pdf
23
135
as turmas ou ento j com a aplicao do modelo de previso da evaso. A inteno
fornecer uma srie de grficos de rpida e fcil interpretao, que consolide os dados de
cada disciplina nos cursos. A arquitetura proposta para a implementao da ferramenta
apresentada na Figura 25.
O principal componente dessa arquitetura o framework Shiny. Este um
pacote do software R que facilita o desenvolvimento de aplicaes web e que usa o
prprio R como motor de funes matemticas, estatsticas, de minerao entre outras.
Com ele, possvel construir interfaces interativas de maneira simples, sem a necessidade
de conhecimentos avanados em tecnologias de desenvolvimento web, como HTML, CSS
ou JavaScript. Isso alcanado por meio de componentes pr-construdos, os quais
facilitam a implementao de interfaces com pouco esforo (BAVARESCO e ROSA,
2015).
Figura 25 Arquitetura da implementao do modelo preditivo de evaso.
25
http://Shiny.rstudio.com/
136
pelo classificador na classe 1 (Evadiu) foram rotulados na aplicao para Alto Risco e os
definidos como classe 0 (No evadiu) como Baixo Risco.
Na implementao da aplicao piloto, foi usado o processo de prototipao.
Este consiste na construo de um modelo (prottipo) do sistema a ser implementado. No
processo de desenvolvimento de sistemas de informao, os prottipos so utilizados para
auxiliar os projetistas e desenvolvedores a construir aplicaes que sejam intuitivas e de
fcil utilizao por parte de seus usurios (ROGERS et al., 2013).
Foram desenvolvidos modelos conceituais da aplicao, nos quais foram
especificadas as telas e componentes essenciais da interface, bem como a navegao entre
elas. A prototipao foi realizada em duas etapas: 1) Prototipao inicial em baixa
fidelidade, a partir de elaborao de mockups com base nos dados e modelo
desenvolvidos; e 2) Prototipao em alta fidelidade, a partir da avaliao e ajustes dos
prottipos iniciais.
Na prototipao inicial, foram desenhadas as principais telas da aplicao,
com a disposio de diversos dos componentes (menus, abas, grficos e tabelas) em um
layout inicial para anlise e avaliao por usurios que atuam na EAD. Para o design
desses prottipos de baixa fidelidade, foi utilizada a ferramenta on-line Balsamiq26.
Na prototipao em alta fidelidade, os ajustes e sugestes obtidas na
prototipao inicial foram incorporadas na aplicao. Todas as funcionalidades da
aplicao puderam ser testadas em uma aplicao funcional, implementada usando o
Shiny e os pacotes para gerao de grficos rcharts e plotly.
26
https://balsamiq.com/index.html
137
Dois testes foram realizados com um grupo de usurios. O primeiro teste teve
o objetivo de analisar as expectativas iniciais com o prottipo de baixa fidelidade e a
experincia do usurio com o prottipo de alta fidelidade. Um segundo teste foi composto
por uma execuo de tarefas determinadas, usando o prottipo de alta fidelidade, para
avaliao de questes relativas usabilidade e entendimentos dos grficos apresentados
para tomada de decises. O fluxo dos testes apresentado na Figura 26.
Para os testes com usurios, foi usada uma amostra composta por 20
professores e tutores voluntrios, vinculados a quatro IES pblicas, que oferecem cursos
a partir da UAB: UPE, UNIVASF, UFRPE e IFPE. Todos possuam pelo menos um ano
de atuao na funo de professor ou tutor em EAD e com experincia no AVA Moodle.
Antes da execuo dos testes, foi feita uma apresentao geral da pesquisa,
abordando aspectos como: a Teoria da Distncia Transacional e a coleta de dados para
representar os seus construtos; o processo de predio da evaso dos alunos e a proposta
da ferramenta computacional de monitoramento e anlise da evaso em cursos por EAD.
Figura 26 Fluxo do processo de avaliao dos prottipos.
138
esse tempo, foi dado um conjunto de tarefas pr-definidas para que o mesmo pudesse
realizar no prottipo e tambm tomar decises hipotticas a partir dos resultados
observados na aplicao. Foi-lhe comunicado que o procedimento seria gravado para
anlises posteriores. Ao final dessa etapa, o voluntrio foi convidado a responder a um
segundo questionrio, dessa vez com o foco na avaliao da sua experincia com a
aplicao.
Na avaliao da atratividade a partir das expectativas e da experincia do
usurio aps o uso da aplicao, foi utilizado o questionrio AttrakDiff27, proposto por
Hassenzahl (2004; 2003) e desenvolvido para avaliao de qualidade e usabilidade de
sistemas sob a perspectiva do usurio (ou potenciais usurios). O questionrio AttrakDiff
contm 28 pares de adjetivos opostos (diferencial semntico), no qual o usurio deve
indicar em uma escala, que vai de -3 a 3, sua percepo ou opinio sobre como eles
experimentaram o sistema proposto ou testado.
Os 28 pares de palavras so agrupados em quatro caractersticas principais na
avaliao de sistemas ou produtos: 1) Qualidade Pragmtica (PQ), que se refere
usabilidade do sistema, ou seja, se os usurios esto conseguindo realizar tarefas e atingir
seus objetivos usando o sistema; 2) Qualidade Hednica Identidade (HQ-I), que
indica o quanto o sistema possibilita que o usurio se identifique com ele; 3) Qualidade
Hednica Estmulo (HQ-S), que permite avaliar o quanto o produto inovador,
desperta interesse e se possui recursos de contedo, interao e apresentao que
estimulam o usurio; e 4) Atratividade (ATT), que funciona como um indicador global
do sistema baseado na percepo de qualidade pelo usurio (HASSENZAHL, 2004).
O modelo de trabalho terico desta avaliao foi pesquisado e testado em
vrios estudos realizados por Hassenzahl e outros (HASSENZAHL, 2003;
HASSENZAHL, 2004; TRACTINSKY e HASSENZAHL, 2005; HASSENZAHL, 2006;
HASSENZAHL e TRACTINSKY, 2006 e BURMESTER e DUFNER, 2006).
Os estudos mostraram que as qualidades hednicas (ligadas s experincias
prazerosas) e as pragmticas (algo prtico e com objetivos definidos) so percebidas de
forma consistente e independente uma da outra. Ambas contribuem igualmente para a
classificao da atratividade do produto.
27
http://www.attrakdiff.de/index-en.html
139
O questionrio AttrakDiff usado nos dois momentos com os usurios
apresentado no Quadro 5.
Quadro 5 Questionrio AttrakDiff para expectativa e experincia do usurio.
Qualidade pragmtica (PQ)
-3 -2 -1 0 1 2 3
Tcnico
Complicado
Impraticvel
Rebuscado
Imprevisvel
Confuso
Desorganizado
Humanizado
Simples
Prtico
Direto
Previsvel
Claramente estruturado
Gerencivel
Qualidade Hednica Identidade (HQ-I)
-3 -2 -1 0 1 2 3
Isolador
Conectivo
Amador
Profissional
Deselegante
Elegante
Inferior
Alto Nvel
Segregador
Integrador
Afasta-me das pessoas
Aproxima-me das pessoas
No apresentvel
Apresentvel
Convencional
Sem imaginao
Cauteloso
Conservador
Entediante
Pouco exigente
Comum
Desagradvel
Feio
Enfadonho
Rejeitvel
Ruim
Repulsivo
Desmotivador
Atratividade (ATT)
-2 -1 0 1 2
3
Agradvel
Atraente
Simptico
Convidativo
Bom
Atrativo
Motivador
140
ajudando a compreender melhor o quanto o sistema atende ou no s necessidades dos
futuros usurios.
Ao aplicar o questionrio em dois instantes: aps a apresentao dos
prottipos de baixa fidelidade e aps a execuo das tarefas usando a aplicao funcional,
buscou-se identificar diferenas significativas na percepo inicial e avaliao final do
sistema, destacando os pontos nos quais e as diferenas foram mais acentuadas nos dois
momentos, quando a expectativa ficou acima da experincia, indicando certo nvel de
frustrao ou no inverso, indicando caractersticas positivas e estimulantes da aplicao.
Em relao usabilidade do produto, a sua avaliao aconteceu durante o
contato dos usurios com o prottipo funcional de alta fidelidade da aplicao. Segundo
a Norma ISO 9241 (1998), a usabilidade um fator, que assegura que os produtos so
fceis de usar, eficientes e agradveis sob a perspectiva do usurio. Para Rogers et al.
(2013), a usabilidade est ligada criao de interfaces transparentes de maneira a no
dificultar o processo, permitindo ao usurio pleno controle do ambiente sem se tornar um
obstculo durante a sua interao com o sistema.
A avaliao da usabilidade do prottipo de alta fidelidade ocorreu conforme
descrito por Rogers et al. (2013), a partir da observao e registro das aes dos usurios
durante a execuo de tarefas predeterminadas, assim como os seus comentrios acerca
da soluo e de suas tomadas de decises com base nas visualizaes obtidas.
Conforme registrado anteriormente, o prottipo funcional foi disponibilizado,
usando a base de testes, com os dados dos cursos de Biologia e Pedagogia. Na ferramenta,
o usurio pode interagir de diversas maneiras, seja somente visualizando dados gerais
sobre os indicadores das turmas e alunos ou, ento, usando o mdulo especfico de anlise
de evaso, no qual o modelo preditivo aplicado para cada aluno e todas as turmas
disponveis. Nos testes de usabilidade, cada usurio realizou seis tarefas, sendo duas com
o mdulo de viso geral dos dados e quatro no mdulo especfico de anlise de evaso.
A descrio das tarefas apresentada no Quadro 6.
141
28
https://www.techsmith.com/camtasia.html
142
RSTUDIO
MVN
LAVAAN
SEMPLOT
RPART
KERNLAB
NNET
CARET
ROCR
PLOTROC
GGPLOT2
SHINY
RCHARTS
PLOTLY
Descrio de uso na
Pesquisa
Execuo de scripts em
bases MySQL.
Execuo de scripts em
bases PostGreSQL.
Limpeza dos dados e
juno de tabelas.
Principal ferramenta
estatstica, minerao e
aprendizagem de
mquina na pesquisa.
IDE do R. Instalao de
pacotes e execuo de
scripts.
Teste de normalidade
multivariada dos dados.
Anlise Fatorial
Confirmatria (CFA)
Plotagem do Path
Diagram e obteno de
indicadores de ajuste do
modelo da CFA
Classificador baseado em
rvore de Deciso (CART)
Classificador SVM
Classificador Rede Neural
Classificador kNN e
obteno das matrizes
de confuso.
Gerao da curva ROC e
clculo da AUC.
Plotagem da
comparao dos grficos
de curva ROC dos
classificadores.
Pacote de gerao de
grficos no R.
Gerao de Dashboard
no R. Prototipao em
alta fidelidade.
Gerao de grficos
interativos no R.
Gerao de grficos
interativos no R.
Referncia
http://www.mysql.com/products/workbench/
https://www.pgadmin.org
https://products.office.com/pt-br/excel
https://www.r-project.org/
https://www.rstudio.com/
http://www.biosoft.hacettepe.edu.tr/MVN/
http://lavaan.ugent.be/
https://cran.r-project.org/web/packages/semPlot/semPlot.pdf
https://cran.r-project.org/web/packages/rpart/index.html
https://cran.r-project.org/web/packages/kernlab/kernlab.pdf
https://cran.r-project.org/web/packages/nnet/nnet.pdf
https://cran.r-project.org/web/packages/caret/caret.pdf
https://cran.r-project.org/web/packages/ROCR/ROCR.pdf
https://cran.r-project.org/web/packages/plotROC/plotROC.pdf
https://cran.r-project.org/web/packages/ggplot2/ggplot2.pdf
http://shiny.rstudio.com
https://ramnathv.github.io/rCharts/
https://plot.ly/r/
143
BALSAMIQ
ATTRAKDIFF
CAMTASIA
Prototipao em baixa
fidelidade.
Questionrio de
avaliao da experincia
do usurio.
Gravao dos testes de
usabilidade da aplicao.
https://balsamiq.com/index.html
http://www.attrakdiff.de/index-en.html
https://www.techsmith.com/camtasia.html
144
145
mdl_context
mdl_course
mdl_course_categories
mdl_forum
mdl_forum_discussions
mdl_forum_posts
mdl_log
mdl_message_read
mdl_resource
mdl_role_assignments
mdl_user
146
N Registros na
tabela
13.179
879.045
29.415
8.375
518.496
49.678
31.727
1.632.170
147.573
73.323
2.689.630
4.322.899
302.868
147
indicadores que, quase sempre, so levantados manualmente por gestores ou tcnicos
educacionais, que atuam no Ncleo.
Alm disso, como no existe uma integrao entre o sistema de gesto
acadmica e o ambiente virtual Moodle, os alunos que no fazem matrcula no sistema de
gesto, muitas vezes, continuam includos e mantidos nos seus cursos no Moodle, por
semestres seguidos, dificultando esse monitoramento da evaso.
Para ter uma boa viso dos indicadores dos cursos, foi feita uma anlise
criteriosa das informaes a partir dos dados coletados e processados inicialmente. A
verificao dos dados, em algumas variveis importantes do ambiente, pode fornecer
fortes indcios de desistncia ou da evaso do aluno.
Para esta pesquisa, foi considerado como desistente o aluno que, ao ser
matriculado no primeiro semestre do curso, no fez nenhuma interao no ambiente
virtual no perodo ou, se fez algo, foi bastante incipiente ao ponto de no se considerar
como relevantes tais interaes. Assim, algumas variveis do banco de dados do Moodle
foram usadas para se obter tal concluso:
como desistentes do curso e seus nomes foram excludos da base para as etapas seguintes
da pesquisa, pois nem sequer acessaram o ambiente uma nica vez no semestre. Alunos
tambm com valores muito baixos nesses indicadores tiveram outras variveis analisadas
para confirmar a sua desistncia:
148
quando est participando de um curso on-line. O sistema s contabiliza uma mensagem
como recebida quando o aluno, pelo menos, a abre para ler (essa informao fica
registrada na tabela mdl_message_read no BD do Moodle).
Dessa forma, aps a anlise dos dados dos primeiros perodos, essas mesmas
condies de desistncia foram utilizadas para se analisar a condio de evaso, no quais,
ao ser verificado os mesmos nveis de valores dessas variveis em alunos a partir do
segundo perodo, esses foram considerados e atribudos como evadidos no perodo. Como
essa informao de evaso foi essencial para a construo dos modelos preditivos, tomouse o cuidado de analisar a situao de cada aluno com o status de evadido nos dados dos
semestres seguintes, a fim de confirmar essa condio.
Por fim, aps o processo de verificao das taxas de desistncia e evaso nos
cursos analisados, foram obtidos os dados constantes na Tabela 4 e na Tabela 5.
Tabela 4 Quantitativos e ndices de desistncia e evaso nos cursos analisados.
PEDAGOGIA
Turma 1
N de Matriculados
Desistentes - 1 perodo
N Alunos analisados
N de Concluintes
N de Evadidos
Turma 2
N de Matriculados
Desistentes - 1 perodo
N Alunos analisados
N de Concluintes
N de Evadidos
150
19 12,7%
131
101 77,1%
30 22,9%
BIOLOGIA
Turma 3
N de Matriculados
Desistentes - 1 perodo
N Alunos analisados
N de Concluintes
N de Evadidos
27
2 7,4%
25
13 52,0%
12 48,0%
323
38 11,8%
285
233 81,8%
52 18,2%
Turma 4
N de Matriculados
Desistentes - 1 perodo
N Alunos analisados
N de Concluintes
N de Evadidos
120
2 1,7%
118
83 70,3%
35 29,7%
Turma 1
27 90,0%
3 10,0%
Turma 3
10 83,3%
2 16,7%
Turma 2
33 63,5%
19 36,5%
Turma 4
23 63,9%
13 36,1%
149
ocorre em maior nmero at a metade dos cursos (4 Perodo). A reduo dos nveis de
uma turma para outra em cada curso pode ser associada consolidao da modalidade
EAD na prpria universidade, a partir de ajustes na metodologia e no ambiente virtual de
aprendizagem, de modo a tornar os cursos mais atrativos. A UPE j detm uma larga
experincia no planejamento e oferta de cursos a distncia e isso um fator que, de certa
forma, tem ajudado a reduzir essas taxas, embora ainda sejam consideradas elevadas.
Construto
AUTONOMIA
150
Quantidade de acessos do aluno ao ambiente por turno (Manh), por
semestre.
Quantidade de acessos do aluno ao ambiente por turno (Tarde), por
semestre.
Quantidade de acessos do aluno ao ambiente por turno (Noite), por
semestre.
Quantidade de acessos do aluno ao ambiente por turno (Madrugada),
por semestre.
Tempo mdio semanal de utilizao da plataforma pelo aluno no
semestre.
Quantidade total de acessos do aluno ao ambiente no semestre.
Quantidade de diferentes locais ou momentos (IPs) a partir dos quais
o aluno acessou o ambiente, por semestre.
Quantidade de acessos do aluno aos diferentes tipos de recursos
disponibilizados (pgina web, vdeo, pdfs, entre outros), por disciplina.
Quantidade de acessos do aluno aos diferentes tipos de atividades
disponibilizadas (webquest, frum, quiz, entre outros), por disciplina.
Quantidade de acessos do aluno pgina de contedo (programa do
curso ou disciplina).
Quantidade de acessos do aluno pgina da agenda da disciplina.
Mdia semanal da quantidade de mensagens enviadas pelo aluno
dentro do ambiente, por semestre.
Quantidade de acessos do aluno aos fruns, por disciplina.
Quantidade geral de postagens do aluno em fruns, por disciplina.
Quantidade de postagens do aluno em fruns que foram respondidas
pelo professor ou tutor, por disciplina.
Quantidade de postagens do aluno em fruns que foram respondidas
por outros alunos, por disciplina.
Quantidade geral de mensagens enviadas pelo aluno dentro do
ambiente, por semestre.
Quantidade geral de mensagens recebidas pelo aluno dentro do
ambiente, por semestre.
Quantidade de colegas diferentes para quem o aluno enviou
mensagens no ambiente, por semestre.
Quantidade de mensagens dos professores recebidas pelo aluno no
ambiente, por semestre.
Quantidade de mensagens de colegas recebidas pelo aluno no
ambiente, por semestre.
Quantidade de mensagens enviadas pelo aluno para outros colegas no
ambiente, por semestre.
Quantidade de respostas de um professor para as dvidas do aluno em
fruns tipo "tira-dvidas", por disciplina.
Quantidade postagens em chats feita pelo aluno por disciplina.
Quantidade de mensagens enviadas pelo aluno aos professores pelo
ambiente, por semestre.
Quantidade de tpicos criados pelo aluno em frum do tipo "tiradvidas" por disciplina.
Quantidade de postagens do aluno em fruns em resposta a outros
alunos por disciplina.
AUTONOMIA
AUTONOMIA
AUTONOMIA
AUTONOMIA
AUTONOMIA
AUTONOMIA
AUTONOMIA
AUTONOMIA
AUTONOMIA
AUTONOMIA
AUTONOMIA
AUTONOMIA,
DILOGO
AUTONOMIA,
ESTRUTURA
DILOGO
DILOGO
DILOGO
DILOGO
DILOGO
DILOGO
DILOGO
DILOGO
DILOGO
DILOGO
DILOGO
DILOGO,
AUTONOMIA
DILOGO,
AUTONOMIA
DILOGO,
AUTONOMIA
151
Quantidade geral de recursos disponibilizados pelo professor (pgina
web, vdeo, pdfs, entre outros) por disciplina.
Quantidade geral de atividades disponibilizadas (webquest, frum,
quiz, entre outros) pelo professor por disciplina.
Quantidade de atividades com prazos de resposta ou envio definidos
por professor, por disciplina.
Quantidade de fruns de discusso disponibilizados sobre os
contedos por disciplina.
Quantidade de sesses de chats sobre contedos disponibilizadas, por
disciplina.
Quantidade de sesses de web conferncias disponibilizadas no curso,
por disciplina.
Disponibilidade (existncia) de pgina com a agenda (cronograma) do
curso ou disciplina.
Disponibilidade (existncia) de pgina com a programa (contedo) do
curso ou disciplina.
Disponibilidade (existncia) de pgina ou arquivo com regras e
orientaes gerais sobre a disciplina/curso.
Quantidade de atividades entregues por um aluno no prazo, por
disciplina.
Quantidade de atividades entregues por um aluno fora do prazo, por
disciplina.
ESTRUTURA
ESTRUTURA
ESTRUTURA
ESTRUTURA
ESTRUTURA
ESTRUTURA
ESTRUTURA
ESTRUTURA
ESTRUTURA
ESTRUTURA,
AUTONOMIA
ESTRUTURA,
AUTONOMIA
152
componente Chat em seus cursos, da as variveis associadas a esses componentes no
apresentarem nenhum registro.
Outras variveis apresentaram um valor constante em todos os casos, sendo
tambm descartadas das anlises posteriores, por no influenciarem nos modelos a serem
definidos ou estimados. Essas variveis (Quadro 12) foram, ento, eliminadas para as
demais fases seguintes da pesquisa.
Quadro 12 Lista das variveis eliminadas por apresentarem somente valores constantes
ou zerados em todos os casos.
Variveis
Quantidade de acessos do aluno pgina de contedo (programa do
curso ou disciplina).
Quantidade de acessos do aluno pgina da agenda da disciplina.
Quantidade postagens em chats feita pelo aluno por disciplina.
Quantidade de sesses de chats sobre contedos disponibilizadas por
disciplina.
Disponibilidade (existncia) de pgina com a programa (contedo) da
disciplina.
Disponibilidade (existncia) de pgina ou arquivo com regras e
orientaes gerais sobre a disciplina.
Construtos
AUTONOMIA
AUTONOMIA
DILOGO
ESTRUTURA
ESTRUTURA
ESTRUTURA
Variveis
Construto
var01
AUTONOMIA
153
var02
var03
var04
var05
var06
var07
AUTONOMIA
AUTONOMIA
AUTONOMIA
AUTONOMIA
AUTONOMIA
AUTONOMIA
var11
AUTONOMIA,
DILOGO
var12
AUTONOMIA,
ESTRUTURA
var13
DILOGO
var23
DILOGO,
AUTONOMIA
var24
DILOGO,
AUTONOMIA
var25
DILOGO,
AUTONOMIA
var08
var09
var10
var14
var15
var16
var17
var18
var19
var20
var21
var22
var26
var27
var28
AUTONOMIA
AUTONOMIA
AUTONOMIA
DILOGO
DILOGO
DILOGO
DILOGO
DILOGO
DILOGO
DILOGO
DILOGO
DILOGO
ESTRUTURA
ESTRUTURA
ESTRUTURA
154
var29
var30
var31
ESTRUTURA
ESTRUTURA
ESTRUTURA
var32
ESTRUTURA,
AUTONOMIA
var33
ESTRUTURA,
AUTONOMIA
: 2525.329
: 2800590
: 0
g2p
z.kurtosis
p.value.kurt
: 5471.942
: 3663.377
: 0
chi.small.skew : 2801927
p.value.small : 0
Result
: Data are not multivariate normal.
---------------------------------------
multivariada.
Henze-Zirkler's Multivariate Normality Test
--------------------------------------------data : dadosN
HZ
: 22.01409
p-value : 0
Result : Data are not multivariate normal.
---------------------------------------------
http://www.biosoft.hacettepe.edu.tr/MVN/
155
ser aplicado em situaes de normalidade dos dados. Nesse caso, optou-se por usar o
estimador dos Mnimos Quadrados Ponderados Diagonalmente (DWLS - Diagonally
Weighted Least Squares). Os mtodos baseados na soma dos quadrados mnimos no
requerem a normalidade e so tambm indicados para anlise de variveis categorizadas,
mas exigem tamanho amostral maior (N>400) (Hair et al. 2009), o que se encaixa nos
dados coletados (N=6554).
Seguindo a distribuio das variveis por cada construto, definida pelos
professores e descrita na Seo 5.2.1 deste trabalho, os dados foram testados com todo o
conjunto das variveis coletadas, como um modelo inicial, conforme a Figura 29, que
ilustra o trecho do script em R no qual so atribudas as diversas variveis para cada
construto. O script completo utilizado para a CFA apresentado no Apndice C desta
tese.
Figura 29 Modelo inicial dos construtos para a CFA.
#Modelo original com as variveis obtidas no questionrio
model <- '
autonomia =~ var01+var02+var03+var04+var05+var06+var07+var08+var09+var10
+var11 +var12
dialogo =~ var13+var14+var15+var16+var17+var18+var19+var20+var21+var22
+var23+var24+var25
estrutura =~ var26+var27+var28+var29+var30+var31+var32+var33
dialogo ~~ estrutura
dialogo ~~ autonomia
estrutura ~~ autonomia'
156
Figura 30 Path Diagram com resultado da CFA usando o modelo com todas as
variveis.
Alm disso, alguns dos ndices que avaliam a qualidade do ajuste do modelo
aos dados (descritos na Seo 4.4.4) tambm no apresentaram, para este modelo inicial,
valores satisfatrios. Esses ndices e seus valores de referncia recomendados so
mostrados na Tabela 6.
Tabela 6 Indicadores de ajuste e qualidade do modelo inicial.
Indicador
2 /gl
Gamma Hat
CFI
GFI
TLI
RNI
RMSEA
Valores recomendados
(Hu & Bentler, 1999)
<=2
>=0.95
>= 0.95
> =0.90
>= 0.95
>= 0.95
< = 0.06
Valores recomendados
(Hair et al., 2009)
<=3
> 0.90
> 0.90
> 0.90
> 0.90
> 0.90
< = 0.07
Valor obtido
(Modelo)
58.92
0.794
0.765
0.946
0.748
0.765
0.093
157
um modelo com bom ajuste aos dados. Os modelos usados nos dois ciclos intermedirios
so apresentados na Figura 31 e na Figura 32.
Figura 31 Modelo usado para o segundo ciclo da CFA.
#2 Ciclo da CFA
#Modelo aps retirada das variveis de baixa carga fatorial nos construtos.
model <- '
autonomia =~ var01+var02+var03+var04+var06+var07+var08+var09+var10
+var11 +var12
dialogo =~ var13+var15+var16+var17+var18+var19+var20+var21+var23+var25
estrutura =~ var26+var27+var28+var29+var30+var32
dialogo ~~ estrutura
dialogo ~~ autonomia
estrutura ~~ autonomia'
158
No quarto ciclo da CFA, o modelo j se mostrou satisfatrio, tanto em relao
s cargas fatoriais das variveis observadas, quanto em relao a vrios ndices de ajustes,
sendo ento considerado como o modelo a ser usado na definio dos construtos, para os
dados coletados.
Figura 33 Modelo final obtido aps o quarto ciclo da CFA.
#4 Ciclo da CFA
#Retirada de variveis de baixa carga fatorial nos construtos.
model <- '
autonomia =~ var01+var02+var03+var04+var06+var07+var10+var12
dialogo =~ var13+var16+var17+var18+var19+var20+var21+var23
estrutura =~ var26+var27+var29+var30
dialogo ~~ estrutura
dialogo ~~ autonomia
estrutura ~~ autonomia'
159
Para o construto Estrutura, o modelo ter restado apenas com 5 variveis pode
ser justificado pelo fato de que a UPE adota uma certa padronizao no formato do
ambiente dos seus cursos a distncia, na qual os cursos seguem modelos de layout predefinidos. Isso, de certa forma, impacta na pouca flexibilidade na estrutura dos cursos e,
por consequncia, em uma menor variabilidade dos indicadores desse construto.
O Quadro 14 apresenta o conjunto final de variveis representativas para cada
construto da distncia transacional, as quais foram obtidas a partir de consultas
estruturadas na base de dados do ambiente virtual da UPE. Para cada varivel, tambm
so apresentadas suas estatsticas descritivas bsicas obtidas, para fins de anlise
exploratria inicial dos dados. O script de clculo e exibio das estatsticas descritivas
bsicas encontra-se no Apndice D deste texto.
Quadro 14 Lista final de variveis por construtos aps a CFA.
Id
var01
var02
var03
var04
var06
var07
var10
var12
var13
var16
var17
var18
var19
Variveis
Mdia semanal da quantidade de
acessos do aluno ao ambiente no
semestre.
Quantidade de acessos do aluno ao
ambiente por turno (Manh), por
semestre.
Quantidade de acessos do aluno ao
ambiente por turno (Tarde), por
semestre.
Quantidade de acessos do aluno ao
ambiente por turno (Noite), por
semestre.
Tempo mdio semanal de utilizao da
plataforma pelo aluno no semestre.
Quantidade de acessos do aluno ao
ambiente no semestre.
Quantidade de acessos do aluno aos
diferentes
tipos
de
atividades
disponibilizadas (webquest, frum, quiz,
entre outros), por disciplina.
Quantidade de acessos do aluno aos
fruns, por disciplina.
Quantidade geral de postagens do aluno
em fruns, por disciplina.
Quantidade geral de mensagens
enviadas pelo aluno dentro do ambiente,
por semestre.
Quantidade geral de mensagens
recebidas pelo aluno dentro do
ambiente, por semestre.
Quantidade de colegas diferentes para
quem o aluno enviou mensagens no
ambiente, por semestre.
Quantidade
de
mensagens
dos
professores recebidas pelo aluno no
ambiente, por semestre.
Construto
Min
Mdia
Mediana
Max
3,11
2,62
23,85
20,73
15
296
29,95
22
273
28,28
22
271
0,19
0,13
6,11
80,84
68
620
4,52
4,13
76,14
20,4
15
526
2,98
26
7,65
297
28,16
23
264
0,95
32
20,43
16
171
AUTONOMIA
AUTONOMIA
AUTONOMIA
AUTONOMIA
AUTONOMIA
AUTONOMIA
AUTONOMIA
AUTONOMIA
DILOGO
DILOGO
DILOGO
DILOGO
DILOGO
160
Quantidade de mensagens de colegas
var20 recebidas pelo aluno no ambiente, por
semestre.
Quantidade de mensagens enviadas pelo
var21 aluno para outros colegas no ambiente,
por semestre.
Quantidade de mensagens enviadas pelo
var23 aluno aos professores pelo ambiente,
por semestre.
Quantidade
geral
de
recursos
disponibilizados pelo professor (pgina
var26
web, vdeo, pdfs, entre outros) por
disciplina.
Quantidade
geral
de
atividades
disponibilizadas (webquest, frum, quiz,
var27
entre outros) pelo professor por
disciplina.
Quantidade de atividades com prazos de
var28 resposta ou envio definidos por
professor, por disciplina.
Quantidade de fruns de discusso
var29 disponibilizados sobre os contedos por
disciplina.
Quantidade de sesses de web
var30 conferncias disponibilizadas no curso,
por disciplina.
DILOGO
0
4,29
102
2,13
97
3,98
201
3,46
25
10,5
11
17
1,41
3,47
0,38
DILOGO
DILOGO
ESTRUTURA
ESTRUTURA
ESTRUTURA
ESTRUTURA
ESTRUTURA
Esse conjunto final de variveis, embora tenha sido obtido a partir da anlise
e extrao de dados de um banco de dados do Moodle, contm indicadores genricos
presentes em ambientes virtuais de aprendizagem que, possivelmente, podem ser
coletados em outros ambientes similares, o que possibilita, ento, a replicao deste
mtodo de identificao dos construtos da DT em outros ambientes.
Na avaliao do modelo, as seguintes medidas de qualidade de ajuste entre o
modelo proposto e os dados da amostra foram utilizadas: ndice 2 /gl (razo entre o quiquadrado e n de graus de liberdade dos dados), CFI (ndice de Ajuste Comparativo), GFI
(ndice de Qualidade do Ajuste), NFI (ndice de Ajuste Normalizado), TLI (ndice de
Tucker-Lewis) e o RMSEA (Raiz do erro quadrtico mdio de aproximao).
Tabela 7 Indicadores de ajuste e qualidade do modelo final.
Indicador
2 /gl
Gamma Hat
CFI
GFI
TLI
RNI
RMSEA
Valores recomendados
(Hu & Bentler, 1999)
<=2
>=0.95
>= 0.95
> =0.90
>= 0.95
>= 0.95
< = 0.06
Valores recomendados
(Hair et al., 2009)
<=3
> 0.90
> 0.90
> 0.90
> 0.90
> 0.90
< = 0.07
Valor obtido
(Modelo)
22.11
0.947
0.929
0.945
0.920
0.929
0.056
161
O fato de o primeiro indicador (2 /gl) ter apresentado um valor acima do
recomendado no inviabiliza a anlise nem torna o modelo incompatvel com os dados.
Como esse ndice uma funo matemtica, a qual depende do tamanho da amostra e da
diferena entre as matrizes estimadas e observadas do modelo, comum para amostras
grandes (N >= 500) que esse valor seja alto, indicando uma possvel rejeio do modelo,
mesmo se a diferena entre as matrizes for mnima (HU e BENTLER, 1999; HOOPER
et al., 2008; HAIR et al., 2009). Por isso, outros indicadores de ajustes foram
desenvolvidos e so amplamente utilizados em CFA, como os utilizados neste trabalho.
Embora o modelo especificado possa promover um bom ajuste dos dados
teoria, a partir dos critrios de validao usados, ele no o nico. A CFA apenas
confirma que ele um entre diversos modelos possveis e aceitveis para os dados usados.
Este mtodo de mapeamento dos construtos da distncia transacional, a partir
da coleta e anlise dos dados de interao dos estudantes e dos dados das disciplinas no
ambiente virtual foi submetido em um artigo, que foi aprovado e apresentado no XXVII
Simpsio Brasileiro de Informtica na Educao (SBIE), realizado em outubro de
2016, em Uberlndia-MG (RAMOS et al., 2016).
162
caso desta pesquisa, foram usadas duas bases distintas para treinamento e teste, conforme
apresentado na Tabela 8, no sendo necessrias novas validaes nas bases para
verificao da aleatoriedade.
Tabela 8 Resumo das bases de treinamento e testes usados no processo de EDM.
BASE DE
TREINAMENTO
PERODOS
N
DO CURSO INSTNCIAS
PERODOS
N
DO CURSO INSTNCIAS
BASE DE TESTES
Biologia - Turma 3
1.150
Biologia - Turma 4
3.190
Pedagogia - Turma 1
5.504
Pedagogia - Turma 2
8.250
TOTAL
6.654
TOTAL
11.440
N de Casos
No evadiu
9.502
83,1%
Evadiu
1.938
Total
11.440
Classe
N de Casos
No evadiu
4.941
74,3%
16,9%
Evadiu
1.713
25,7%
100%
Total
6.654
100%
163
Para cada um dos classificadores, foi usado um mesmo conjunto de variveis,
baseado nos resultados obtidos na Anlise Fatorial Confirmatria, descrita na Seo 5.3.
A varivel dependente do modelo foi o campo EVADIU presente nas bases de dados, no
qual, para cada instncia, foi atribudo o valor binrio 0 (para no evadidos) e 1 (para
evadidos) conforme os critrios apresentados na Seo 5.2. A Figura 35 exibe o conjunto
de variveis usadas nos classificadores, enquanto que os scripts de cada uma das tcnicas
usadas encontra-se no Apndice B.
Figura 35 Conjunto de variveis utilizadas na definio dos modelos
EVADIU ~ var01+var02+var03+var04+var06+var07+var10+var12+var13+var16
+var17+var18+var19+var20+var21+var23+var26+var27+var29+var30
164
indicadores serviram de parmetros para a determinao da tcnica a ser adotada para o
modelo preditivo final a ser implementado. As matrizes obtidas e as mtricas de cada
classificador so apresentadas nos tpicos a seguir.
Referncia (Real)
RegLog
NO EVADIU
VN
EVADIU
FN
NO EVADIU
FP
VP
EVADIU
Referncia (Real)
NO EVADIU
KNN
EVADIU
8901
779
601
1159
Referncia (Real)
NO EVADIU
9314
108
Modelo (Previsto)
Modelo (Previsto)
NO EVADIU
EVADIU
TreeDecision
EVADIU
1231
707
Modelo (Previsto)
NO EVADIU
EVADIU
Referncia (Real)
NO EVADIU
9035
467
EVADIU
742
1196
Referncia (Real)
NO EVADIU
EVADIU
9146
837
356
1101
Referncia (Real)
NO EVADIU
EVADIU
8807
754
695
1184
Uma anlise simplificada dessas matrizes, pode ser feita tomando como
exemplo o classificador baseado na regresso logstica. Dos 9.777 casos classificados
como no evadidos pelo algoritmo, o modelo acertou 9.035 (92,4%). Para os classificados
como evadidos, o modelo acertou 1.196 de 1.663 casos (71,92%). As mtricas de
165
avaliao de cada classificador so exibidas na Tabela 11 e seu respectivo grfico
comparativo na Figura 36.
Tabela 11 Mtricas de avaliao de cada classificador usando a base completa (valores
em destaque representam os melhores indicadores entre os classificadores).
RegLog
SVM
RECALL
0,617
0,365
0,598
0,612
0,568
PRECISION
0,719
0,867
0,659
0,615
0,756
AUC
ACCURACY
0,856
0,796
0,882
0,828
0,879
0,788
0,869
0,896
0,894
NeuralNet TreeDecision
KNN
0,797
RECALL
RegLog
PRECISION
SVM
AUC
NeuralNet
TreeDecision
ACCURACY
KNN
166
deste estudo, os Falsos Negativos representam os alunos evadidos, mas o modelo apontou
o contrrio. Os Falsos Positivos indicam os alunos que o modelo classificou como sendo
evadidos, mas, na realidade, eles permaneceram no curso. Como praticamente
impossvel gerar modelos perfeitos nos quais esses dois valores sejam zerados, busca-se
ento escolher qual tcnica e respectivo algoritmo classificador que reduza o possvel
esses valores, alm de analisar o desempenho sob outras mtricas.
Uma discusso detalhada acerca da importncia dos indicadores Falso
Positivo e Falso Negativo para esta pesquisa apresentada na Subseo 5.4.4.
b) Base de testes Pedagogia
Com o objetivo de analisar o desempenho de cada modelo preditivo nas bases
distintas dos cursos, os modelos de cada classificador foram aplicados, usando-se a base
de testes de cada curso em separado. A base de Pedagogia tinha 8.250 instncias, e os
seus resultados so apresentados na Tabela 12, Tabela 13 e Figura 37 a seguir.
Tabela 12 Matrizes de Confuso para cada classificador usando a base do curso de
Pedagogia.
Classificador
Modelo (Previsto)
NO EVADIU
Referncia (Real)
EVADIU
FN
NO EVADIU
FP
VP
EVADIU
EVADIU
NeuralNet
Modelo (Previsto)
EVADIU
NO EVADIU
6641
466
EVADIU
439
704
SVM
NO EVADIU
Referncia (Real)
NO EVADIU
6927
EVADIU
731
153
439
EVADIU
Referncia (Real)
Modelo (Previsto)
Referncia (Real)
NO EVADIU
Modelo (Previsto)
RegLog
NO EVADIU
VN
NO EVADIU
6739
EVADIU
341
721
KNN
449
Referncia (Real)
Modelo (Previsto)
NO EVADIU
EVADIU
NO EVADIU
6825
477
EVADIU
255
693
TreeDecision
Modelo (Previsto)
Referncia (Real)
NO EVADIU
EVADIU
NO EVADIU
6624
433
EVADIU
456
737
SVM
NeuralNet TreeDecision
RECALL
0,616
0,375
0,409
0,630
0,592
PRECISION
0,679
0,742
0,652
0,618
0,731
AUC
0,859
0,782
0,779
0,791
0,808
ACCURACY
0,904
0,893
0,885
0,892
0,911
KNN
167
Figura 37 Grfico comparativo das mtricas por classificador, base Pedagogia.
RECALL
PRECISION
RegLog
SVM
AUC
NeuralNet
ACCURACY
TreeDecision
KNN
Referncia (Real)
NO EVADIU
VN
EVADIU
FN
FP
VP
Referncia (Real)
NO EVADIU
EVADIU
NO EVADIU
2260
313
EVADIU
162
455
SVM
Modelo (Previsto)
NO EVADIU
EVADIU
Referncia (Real)
RegLog
Modelo (Previsto)
Referncia (Real)
NO EVADIU
EVADIU
NO EVADIU
2296
293
EVADIU
126
475
KNN
Modelo (Previsto)
Referncia (Real)
NO EVADIU
EVADIU
NO EVADIU
2321
360
EVADIU
101
408
TreeDecision
NO EVADIU
2387
EVADIU
Modelo (Previsto)
500
NO EVADIU
35
268
EVADIU
Referncia (Real)
NO EVADIU
2183
EVADIU
239
447
321
168
Tabela 15 Mtricas de avaliao de cada classificador usando a base de Biologia.
RegLog
SVM
RECALL
0,618
0,349
0,592
0,582
0,531
PRECISION
0,790
0,884
0,737
0,652
0,802
AUC
0,849
0,869
0,785
0,836
0,773
0,775
0,832
0,851
0,824
0,855
ACCURACY
NeuralNet TreeDecision
KNN
RECALL
PRECISION
RegLog
SVM
AUC
NeuralNet
ACCURACY
TreeDecision
KNN
169
Figura 39 Conjunto das curvas ROC dos classificadores utilizados, usando a base de
dados completa.
170
Figura 40 Grfico comparativo das curvas ROC, base Completa.
O grfico aponta que, sob essa mtrica, a classificao dos alunos baseados
no modelo de Regresso Logstica tem desempenho melhor do que o dos demais
classificadores em praticamente todos os casos, pois sua curva ROC est mais prxima
do ponto (0,1) do classificador perfeito, e com isso, apresenta melhores taxas para os
positivos verdadeiros. Alm disso, a sua rea sob a curva (AUC), visualmente e conforme
os dados da Tabela 11, maior, confirmando tambm esse melhor desempenho.
171
poderia ser direcionado para alunos que, realmente, estivessem em condies reais de
evaso (os Verdadeiros Positivos). Haver, ento, um desperdcio de recursos
proporcionais quantidade de Falsos Positivos.
De certo modo, as aes pedaggicas de reverter uma probabilidade de evaso
de um aluno que, na realidade, no teria essa tendncia, podem reforar ainda mais a
possibilidade de no evaso do mesmo. Ou seja, haveria o custo na ao que no seria
muito necessria, mas o impacto final das medidas ainda seria vlido.
Numa situao de Falso Negativo, o problema ainda maior, pois o modelo
analisa aqueles alunos que renem o conjunto de caractersticas para evaso, mas no
consegue classific-los nessa categoria. Esses alunos ficam quase imperceptveis aos
olhos do professor ou tutor, pois so includos automaticamente na categoria majoritria
das instncias analisadas, entre uma quantidade bem maior de estudantes e que no esto
nos focos dos monitoramentos, pois apresentam at ento indicadores satisfatrios no
curso. Por no aparecer no grupo de potenciais candidatos evaso, o aluno poder no
ter o acompanhamento adequado e receber as orientaes devidas, agravando ainda mais
o seu risco de evadir-se. Em se confirmando a evaso, o desperdcio seria ainda maior
que o da situao de Falso Positivo.
Por isso, ao serem analisados os diversos resultados das mtricas de avaliao
dos classificadores apresentados nesta Seo, resolveu-se tambm incluir no conjunto de
mtricas para a definio do classificador a ser usado na implementao do modelo, as
duas taxas de classificao falsas: a Taxa de Falsos Positivos (TFP) e a Taxa de Falsos
Negativos (TFN), definidas na Subseo 4.6.1 como:
SVM
TFN
0,383
0,635
0,402
0,389
0,432
TFP
0,049
0,011
0,063
0,073
0,037
0,432
0,647
0,465
0,462
0,469
Soma
NeuralNet TreeDecision
KNN
172
Na soma das duas taxas de erros, o modelo classificador baseado na
Regresso Logstica foi melhor, com a menor taxa combinada. Alm disso, a sua Taxa de
Falsos Negativos foi ligeiramente inferior que a da rvore de Deciso.
173
174
reduzido de variveis identificado. Esse conjunto, geralmente, to bom quanto e s
vezes at melhor que o conjunto com todas as variveis originalmente includas (Hair
et al., 2009).
Na aplicao do Stepwise, o modelo de partida foi exatamente o exibido na
Figura 35. A funo step, do pacote stats do Software R foi utilizada para aplicar o
algoritmo do mtodo no modelo inicial. O resultado do processo mostrado na Figura
41, com o conjunto resultante das variveis de maior importncia para o modelo.
Figura 41 Modelo da Regresso Logstica aps o Stepwise.
Glm (formula = EVADIU ~ var01 + var02 + var03 + var04 + var10 + var12 + var13 +
var16 + var17 + var20 + var21 + var26 + var27 + var29, family = binomial(link =
"logit"), data = treinamento)
Esse modelo foi obtido aps sete (7) iteraes do algoritmo e resultou em um
conjunto com quatorze (14) variveis significativas, sendo seis (6) relacionadas com o
construto Autonomia; cinco (5) com o Dilogo e trs (3) com a Estrutura. A lista dessas
variveis est no Quadro 15.
Quadro 15 Lista final das variveis do modelo, definida aps a Regresso Logstica
Stepwise.
Id
Variveis
Construto
AUTONOMIA
var02 Quantidade de acessos do aluno ao ambiente por turno (Manh), por semestre.
AUTONOMIA
var03 Quantidade de acessos do aluno ao ambiente por turno (Tarde), por semestre.
AUTONOMIA
var04 Quantidade de acessos do aluno ao ambiente por turno (Noite), por semestre.
AUTONOMIA
var10
AUTONOMIA
AUTONOMIA
DILOGO
DILOGO
DILOGO
DILOGO
DILOGO
ESTRUTURA
ESTRUTURA
ESTRUTURA
175
Aps a aplicao do mtodo Stepwise, foram novamente geradas as matrizes
de confuso e calculadas as respectivas mtricas associadas, para que se pudesse avaliar
o impacto numrico da reduo de variveis nos indicadores do modelo. Os resultados
comparativos com o modelo anterior sem Stepwise so exibidos na Tabela 17, e as
mtricas de avaliao em ambos os modelos esto na Tabela 18.
Tabela 17 Matrizes de Confuso para cada base, aps o uso do Stepwise.
Base Completa - Sem Stepwise
RegLog
Referncia (Real)
Modelo (Previsto)
NO EVADIU
NO EVADIU
9035
EVADIU
RegLog
EVADIU
Modelo (Previsto)
742
467
1196
NO EVADIU
NO EVADIU
NO EVADIU
6739
EVADIU
NO EVADIU
721
EVADIU
NO EVADIU
NO EVADIU
RegLog
EVADIU
NO EVADIU
126
475
EVADIU
NO EVADIU
2298
124
Com Stepwise
RECALL
0,617
0,620
PRECISION
0,719
0,729
AUC
ACCURACY
0,856
0,894
0,857
0,896
Sem Stepwise
Com Stepwise
RECALL
0,616
0,618
PRECISION
0,679
0,681
AUC
ACCURACY
0,859
0,904
0,860
0,905
Sem Stepwise
Com Stepwise
RECALL
0,618
0,622
PRECISION
0,790
0,794
AUC
ACCURACY
0,849
0,869
0,849
0,870
Base Pedagogia
Base Biologia
447
723
Referncia (Real)
Modelo (Previsto)
293
Base Completa
EVADIU
339
2296
EVADIU
NO EVADIU
6741
Referncia (Real)
Modelo (Previsto)
1208
Referncia (Real)
Modelo (Previsto)
449
740
448
RegLog
EVADIU
341
EVADIU
Referncia (Real)
Modelo (Previsto)
NO EVADIU
9044
EVADIU
Referncia (Real)
EVADIU
290
478
176
Embora o ganho numrico com a adoo do Stepwise tenha sido pequeno, o
fato de a abordagem selecionar um nmero menor de variveis, estas ainda apresentam
alto poder discriminatrio entre os grupos (classes), o que pode favorecer as etapas
seguintes do processo, como a implantao do modelo e coleta de novos dados em tempo
de execuo do programa. Menos variveis representam menos consultas ao banco de
dados, tempo menor de processamento do modelo e, do ponto de vista do usurio, pode
representar menor exigncia de carga cognitiva no uso da aplicao, em razo do menor
nmero de informaes que ele precisa para tomar conhecimento da situao dos alunos
em relao s suas probabilidades de evaso.
Dessa forma, o modelo da evaso baseado na abordagem Stepwise da
Regresso Logstica foi definido como o modelo preditivo a ser implementado e testado
nas demais fases desta pesquisa.
RECALL
0,346
0,355
0,538
0,846
PRECISION
0,526
0,741
0,643
0,673
AUC
0,775
0,790
0,813
0,945
ACCURACY
0,863
0,891
0,892
0,920
177
Fonte: Elaborado pelo Autor (2016).
Figura 42 Mtricas do classificador para os perodos iniciais de Pedagogia.
Pedagogia
1,000
0,800
0,600
0,400
0,200
2
ACURCIA
AUC
RECALL
5
PRECISION
RECALL
0,314
0,340
0,547
0,955
PRECISION
0,806
0,730
0,696
0,869
AUC
0,704
0,738
0,835
0,991
ACCURACY
0,817
0,811
0,833
0,955
Biologia
1,000
0,900
0,800
0,700
0,600
0,500
0,400
0,300
0,200
0,100
2
ACURCIA
AUC
4
RECALL
5
PRECISION
178
Observou-se que, j no segundo perodo dos cursos, os indicadores apontam
resultados satisfatrios (com exceo do Recall), considerando o nmero reduzido de
instncias testadas e a precocidade dos dados dos alunos. No geral, os resultados vo
ficando melhores nos perodos mais adiantados do curso. Isso porque as interaes dos
alunos acontecem de maneira mais regular; h uma maior consistncia nos dados que
definem um aluno com tendncia evaso do que os que no tm essa caracterstica. Com
isso, o classificador consegue prever ambas as classes (evadidos e no evadidos) com
taxas crescentes de acertos e desempenho.
Nota-se que o desempenho do classificador no 5 perodo de Pedagogia
(Tabela 19) apresenta trs das mtricas com ndices maiores do que o verificado em toda
a base desse curso (Tabela 18), com uma pequena diferena na Precision.
No caso de Biologia, todas as mtricas no 5 perodo apresentam ndices
melhores que quando usada a base completa do curso para os testes. Isso refora a
afirmao de que, medida que o curso avana, o poder preditivo do classificador
tambm melhora.
179
180
Para cada curso, perodo e disciplina escolhida pelo usurio, alm das abas de
visualizao, as tabelas de indicadores e de alunos da turma seriam exibidas, permitindo
uma interao entre essas tabelas e os grficos apresentados. Caixas informativas acima
das abas j indicariam os percentuais de alto e baixo risco de evaso para os alunos da
turma selecionada e, ao posicionar o mouse sobre algum ponto do grfico, informaes
daquele ponto so retornadas em uma hint na tela, facilitando o entendimento da
informao apresentada.
181
As trs abas descritas no prottipo de baixa fidelidade (Geral Indicadores e
Alunos), foram implementadas. Na lateral esquerda, o usurio escolhe o mdulo de
interesse e depois o curso, perodo e disciplina que deseja ver os dados. Na parte central
e superior da interface, duas caixas exibem o percentual de cada grupo de risco, em
relao ao total de alunos da turma, considerando as possibilidades de evaso dos alunos
na disciplina selecionada. Para se chegar a esses percentuais, a ferramenta usa o modelo
de regresso obtido e incorporado ao seu cdigo, para classificar cada um dos alunos da
turma, aplicando o modelo aos dados do aluno. Aps isso, feita a contagem de alunos
em cada uma das classes preditas. O detalhe desse processo exibido na Figura 46.
Figura 46 Processo de classificao e exibio de dados da turma.
182
As tabelas na lateral direita exibem a lista de indicadores e a lista de alunos
da turma selecionada. Essas tabelas so reativas aos grficos, permitindo uma seleo de
indicadores e de alunos, em suas respectivas abas. Ambas tabelas so retrteis, para
permitir uma melhor visualizao geral da aplicao. A seleo dos indicadores tambm
pode ser por construto, a partir da caixa de seleo localizada na parte superior da tabela
de indicadores.
O prottipo ficou totalmente funcional, com todas as caractersticas
projetadas, permitindo a realizao dos testes com os usurios de maneira abrangente e
satisfatria. O seu cdigo-fonte est disponvel no repositrio GitHub, no endereo
https://github.com/grupoccte/DashBoard.
183
Os resultados desses testes foram divididos em duas categorias: 1) Resultados
da avaliao das expectativas e experincias do usurio, a partir do Questionrio
AttrakDiff; e 2) Resultado da avaliao da usabilidade. Esses resultados so apresentados
a seguir e, ao final, tambm so listadas opinies e sugestes consideradas importantes
para a implementao final da aplicao.
1 Resultados das expectativas e experincias dos usurios:
Os resultados da avaliao das expectativas e experincias dos usurios so
apresentados em trs grficos fornecidos pela ferramenta AttrakDiff. O primeiro deles
denominado Portflio de Resultados (Figura 48), que mostra uma combinao da
avaliao da qualidade hednica com a qualidade pragmtica.
Figura 48 Portflio dos Resultados dos dois questionrios aplicados.
184
A apresentao do portflio subdividida em quadrantes, que ajudam
estabelecer quais caractersticas predominantes o produto possui. So os seguintes
quadrantes: suprfluo, muito auto orientado, muito orientado para tarefas, neutro, auto
orientado, orientado para tarefas e desejado. Dependendo dos valores das dimenses, o
produto ficar em uma ou mais regio desses quadrantes. A Figura 48 exibe o Portflio
obtido com os resultados dos dois questionrios.
O valor mdio das dimenses representado pelo pequeno quadrado,
indicando como os usurios classificaram o produto. O intervalo de confiana desse valor
indicado pelo retngulo no qual o quadrado est includo. Quanto maior o retngulo de
confiana, menos certeza se tem a qual regio ele pertence, pois o mesmo pode ultrapassar
o limite de um quadrante. Um pequeno retngulo de confiana uma vantagem porque
significa que os resultados da investigao so mais confiveis e menos coincidentes.
Como o questionrio aplicado a uma pequena amostra de usurios, o intervalo de
confiana tambm demonstra, estatisticamente, a regio a qual estaria o valor real caso
fosse aplicado a um grande nmero de usurios.
Os resultados exibidos nesse grfico apontam que o produto foi classificado
como "Desejado nos dois momentos. Suas qualidades pragmticas e hednicas so
claramente destacadas nesse quadrante, indicando que o produto auxilia, desperta o
interesse e estimula os usurios.
O intervalo de confiana da qualidade pragmtica maior do que o da
qualidade hednica, para o questionrio da experincia do usurio, embora esteja somente
localizado em um nico quadrante. Isso pode ser atribudo s classificaes diferentes
dadas pelos usurios, indicando tambm que h espaos ainda para melhoria do produto
em termos de sua qualidade pragmtica.
Para permitir um melhor detalhamento da avaliao dos usurios, so tambm
calculados os valores mdios em cada um dos itens, exibidos no grfico dos pares de
palavras (Figura 49).
Merecem ateno as ocorrncias de valores extremos em cada item. Esses
valores mostram quais caractersticas esto no nvel crtico ou bem aceitveis no produto.
Nesse caso, tanto a expectativa quanto experincia dos usurios, receberam avaliaes
acima do neutro e no houve nenhuma ocorrncia de pontos crticos, pois todos os valores
mdios esto maiores que os valores neutros.
185
De um modo geral, em todos os itens, os prottipos foram bem avaliados,
tendo a experincia superado a expectativa em quase 60% dos itens (16/28), o que
tambm demonstra que os prottipos de alta fidelidade foram ainda melhores avaliados
que os de baixa fidelidade.
Figura 49 Valores mdios em cada par de palavras.
186
O terceiro grfico (Figura 50) apresenta o Diagrama de valores mdios para
cada dimenso avaliada. Nessa apresentao, a qualidade hednica distingue entre os
aspectos de estmulo e identidade. Alm disso, apresentada a classificao da
atratividade do produto.
Figura 50 Diagrama de valores mdios em cada dimenso.
187
2 Resultados da avaliao da usabilidade:
A anlise da gravao da execuo das seis tarefas propostas no teste gerou
alguns indicativos importantes sobre a usabilidade e contribuies para melhorias na
aplicao. As duas primeiras tarefas foram realizadas no Mdulo de Viso Geral de
Dados, com as visualizaes genricas dos dados, sem aplicao do modelo de previso.
Essas tarefas serviram para que os usurios tambm pudessem ir se familiarizando com a
ferramenta, j que eles no tiveram nenhum treinamento especfico de uso da mesma. Os
Quadros 16 a 21mostram os resultados de cada tarefa e suas respectivas observaes sobre
a usabilidade.
Quadro 16 Resultados da execuo da Tarefa 1.
Tarefa 1 Mdulo Viso Geral dos Dados (Aba Geral) Visualizar dados de uma determinada
disciplina e descobrir a mdia dessa turma no indicador: Quantidade de mensagens enviadas
por aluno aos professores.
Tempo (s)
Erros
Pedidos Ajuda
Cliques
Mdia
D.P.
Mdia
D.P
Mdia
D.P
Mdia
D.P
91,16
39,72
1,05
1,22
0,89
0,99
9,05
2,37
Observaes sobre a usabilidade:
- Durante a atividade, alguns usurios confundiram a tabela de "indicadores" com a "aba
indicadores".
- Alguns usurios ficaram inseguros em relao mdia solicitada, mas conseguiram encontr-la.
D.P
2,23
188
o usurio deve identificar os dois indicadores que apresentam MAIORES diferenas entre os
alunos com baixo risco e os de alto risco de evaso.
Tempo (s)
Erros
Pedidos Ajuda
Cliques
Mdia
D.P.
Mdia
D.P
Mdia
D.P
Mdia
D.P
87,67
37,42
0,78
1,00
1,00
1,08
8,61
2,35
Observaes sobre a usabilidade:
- Um usurio era daltnico, o que inviabilizou a sua realizao dessa tarefa em funo da
necessidade de associar uma cor a cada uma das condies de risco de evaso.
- Alguns usurios confundiram os eixos do grfico e a terminologia frequncia do alunos e
mdia do aluno.
Essa tarefa tambm foi de fcil e rpida execuo pela maioria dos usurios,
sendo realizada com maiores dificuldades apenas por um usurio, cujo tempo chegou ao
triplo da mdia dos demais, embora tenha cometido apenas um erro e no solicitado ajuda.
Em relao deciso a ser tomada acerca dos alunos com alto risco mostrados
no grfico, a maior parte dos usurios refora a necessidade de fazer contato com os
alunos para identificar possveis problemas que estariam levando ao baixo nmero de
acessos ao ambiente e. por consequncia, ter alto risco de evaso no curso. Alguns dos
comentrios so transcritos a seguir:
189
- "Faria contato por meio do tutor, telefone e e-mail para identificar as causas das
dificuldades de acesso.";
- "Eu faria uma aula de orientao explicando a melhor forma de acessar o ambiente.
Verificava se era problema de senha ou de login. Tentava orientar os alunos.";
- "Devemos estimular o acesso dirio, disparando mensagens para os grupos de risco, pelo
ambiente, celular ou em ltimo caso, por telefone mesmo.";
- "Devemos focar nos alunos de alto risco, com contatos individuais e abordagens mais
personalizadas. Os alunos precisam tambm saber que esto sendo acompanhados.";
- "Estou com um problema real idntico a esse em uma turma. Enviamos WhatsApp,
mensagens pelo sistema e telefonamos. Mais algumas vezes no temos sucesso.";
- "Verifica-se pelo grfico que os alunos mostrados tm baixo ndice de acesso. No adianta
mandar mensagens pelo sistema. A ao seria mandar e-mail individual, para o aluno tambm
saber que acompanhado."
190
- "Essa questo de acesso aos fruns tem relao com a questo anterior. Se o aluno no est
acessando o ambiente ele tambm no vai acessar os fruns.";
- "Aumentar o feedback dos professores e tutores nos fruns, para assim estimular a
participao dos alunos.";
- "Tentar verificar com o aluno se ele no est se sentindo motivado a utilizar os fruns.
Analisar o aluno nos outros indicadores para verificar se o aluno est com problema;
- "Verificar se o aluno est entrando no ambiente, se o aluno estiver entrando no ambiente e
no utilizando o frum, eu iria entrar em contato para verificar o motivo."
191
3 Opinies e sugestes relevantes dadas pelos usurios:
A partir da anlise dos resultados da execuo das tarefas pelos potenciais
usurios da aplicao, possvel afirmar que, mesmo em se tratando ainda de um
prottipo funcional, a ferramenta consegue alcanar seu objetivo principal, que de
apresentar aos professores e tutores um conjunto de visualizaes grficas, geradas a
partir dos dados das disciplinas e dos alunos nos cursos a distncia estudados.
Mesmo com pouco tempo para se acostumarem com a aplicao, eles
executaram os testes sem apresentar grandes dificuldades e conseguiram perceber a
importncia do uso de uma ferramenta computacional com os recursos disponibilizados.
Destacam-se a seguir uma srie de comentrios e sugestes sobre a aplicao, feitos
durante os testes.
- Achei importante essa informao no grfico, para o tutor agir adequadamente e no tempo
certo. ;
- Seria bom o professor poder selecionar os alunos em situao de risco e o sistema gerar
uma lista com todos os alunos selecionados. ;
- O grfico permite observar o detalhe do aluno com menor risco de evaso e na
possibilidade desse aluno mudar de grupo. ;
- A gente no tem essa cultura de tomar aes antes que as coisas aconteam. Essa
ferramenta nos d essa informao, o professor precisa criar a cultura de, com essa informao,
tomar uma ao. Essa ferramenta deve estar tambm com as pessoas que se preocupem com a
gesto do curso. ;
- "Essa ferramenta vai facilitar a visualizao dos dados do Moodle que o professor no
consegue entender. ".
192
Na etapa do processo de coleta e preparao inicial dos dados, destaca-se o
entendimento das principais tabelas do Moodle (Quadro 8) e seus respectivos registros,
relacionados com as interaes dos alunos e a estrutura dos cursos. O conhecimento
dessas tabelas permite entender a dinmica do armazenamento de informaes no Moodle
e possibilita a extrao de diferentes dados, inclusive para outros tipos de procedimentos
diferentes de minerao de dados educacionais.
Os scripts SQL podem ser adaptados e usados para coletar outras variveis
que no esto associadas Teoria da Distncia Transacional, assim como as variveis
coletadas podem ser utilizadas em outros contextos diferentes dessa teoria, j que
representam registros importantes dos alunos e dos recursos didticos utilizados nos
cursos oferecidos na plataforma. Novas anlises e inferncias sobre esses dados podem
ser realizadas, fortalecendo, ainda mais, as pesquisas na modalidade.
A abordagem proposta para a obteno dos componentes que podem obter os
construtos da distncia transacional, a partir do mapeamento das variveis no BD do
Moodle que representam esses construtos, lana uma nova perspectiva para as pesquisas
sobre a sua teoria. Embora no tenha sido estabelecida uma medida da distncia
transacional, o fato de se poder dispor de suas componentes de maneira mais automtica
e em momentos distintos de um curso, representa um passo importante para novas
aplicaes da teoria na educao a distncia.
As variveis obtidas na Anlise Fatorial Confirmatria representam o modelo
relacionado com o conjunto de dados analisados nesta pesquisa. Ento, cabe esclarecer
que as variveis aqui definidas podem no ser as nicas a representar os construtos, mas
o fazem dentro de padres de validao aceitveis, segundo as mtricas de avaliao
encontradas na literatura.
Em outras instituies que adotam o Moodle ou, at mesmo, outros
ambientes virtuais, esse processo de definio das variveis representativas tambm pode
ser aplicado, a partir da observao e coleta dessas variveis definidas para representar os
construtos da distncia transacional.
Em relao s taxas de evaso obtidas nos cursos analisados, reforado que
o processo de obteno dessas taxas tambm pode acontecer de maneira automtica, a
partir de consultas a determinadas variveis na base de dados do Moodle. As variveis
descritas na Seo 5.2 possibilitam identificar um aluno evadido ou com grande
193
possibilidade de evadir-se do curso, j que registram suas principais interaes no
ambiente, inclusive todos os seus acessos.
Apesar de toda a experincia da UPE na modalidade que, ao longo dos anos,
vem adotando procedimentos, que buscaram e conseguiram reduzir os ndices de evaso
nos seus cursos, mesmo assim, muito ainda pode ser feito, a partir do uso de instrumentos
eficazes de acompanhamento e de fornecimento de informaes atualizadas sobre o
comportamento do aluno no seu curso. A juno da experincia das instituies com
novas tecnologias decisrias pode ajudar a atenuar, ainda mais, esses ndices de evaso
nos cursos a distncia.
A etapa de descoberta de conhecimento em bases de dados acrescentou o
componente de inteligncia computacional pesquisa. Um conjunto de cinco tcnicas e
algoritmos de aprendizagem de mquina foi utilizado para a obteno do modelo
preditivo para evaso de alunos. Um fato relevante nesta etapa que no houve a
necessidade de diviso da base de dados em bases para treinamento e testes, como
geralmente ocorre em processos de aprendizagem supervisionado. As bases distintas
testaram e destacaram a capacidade preditiva dos modelos, evitando problemas como sub
e superestimao de parmetros nos modelos descobertos.
Nas trs bases nas quais os classificadores foram testados (completa,
pedagogia e biologia), os resultados foram melhores nas bases com os dados somente de
um dos cursos, o que indica que o modelo, embora tenha sido gerado a partir de uma base
completa, funciona melhor quando aplicado a cursos separados. Isso tem uma implicao
positiva na implementao, j que os dados a serem usados na aplicao, geralmente, so
analisados separadamente por curso.
As taxas de falsos positivos e falsos negativos, analisadas como mtricas
complementares dos classificadores, tm um contexto importante na anlise de evaso, j
que esses erros podem consumir a ateno e procedimentos desnecessrios do professor
ou tutor. Reduzir, ainda mais, essas taxas um desafio e demanda novas e contnuas
investigaes. Possivelmente, uma combinao de classificadores pode contribuir com a
diminuio desses erros.
Embora os resultados tenham apontado pequenas diferenas na mtricas de
avaliao dos classificadores, optou-se pelo uso da regresso logstica como a tcnica
responsvel por gerar e testar os modelos preditivos, conforme as justificativas
194
apresentadas na Subseo 5.4.5. Esse classificador tem tido destaque na literatura de
EDM pela sua versatilidade e adequao a diferentes contextos educacionais, alm de
indicar, com mais clareza, a contribuio de cada fator nas previses calculadas.
A literatura de previso de evaso em EAD, usando tcnicas de minerao de
dados, ainda limitada. A maioria dos trabalhos sobre evaso em cursos presenciais e
outros fazem predies de abandono de disciplinas on-line. Mesmo assim, foi possvel
comparar um dos resultados obtidos nesta pesquisa com outros trabalhos relacionados na
literatura. Nesses trabalhos, a mtrica de avaliao do classificador, que predomina, a
acurcia. A Tabela 21 exibe os dados desses outros estudos, mostrando que esta pesquisa,
com uma acurcia de 89,62%, obtida na Regresso Logstica com Stepwise, apresentou
resultado melhor que esses trabalhos relacionados.
Tabela 21 Resultados de modelos preditivos de evaso em trabalhos relacionados.
Obra
(KOTSIANTIS et al., 2003)
(MORRIS et al., 2005)
(ROBLYER et al., 2008)
(LYKOURENTZOU et al., 2009)
(KOVACIC, 2010)
(YASMIN, 2013)
(YUKSELTURK et al., 2014)
(RIGO et al., 2014)
(CAMBRUZZI, 2014)
(DOS SANTOS et al., 2014)
(SILVA et al., 2015)
(QUEIROGA et al., 2015)
Algoritmos/Tcnicas
Naive Bayes
Anlise Discriminante Preditiva
Regresso logstica
Combinao de tcnicas
rvore de Deciso
rvore de Deciso
Redes Neurais
Redes Neurais
Redes Neurais
rvore de Deciso
rvore de Deciso
Vrios
Acurcia
83%
74,5%
79,3%
85%
60,5%
84,8%
87% (*)
76,5%
75,7%
81,64%
73,37%
79,76%
195
Essas variveis, listadas no Quadro 15, podem facilmente ser extradas do
banco de dados do Moodle. So tambm de fcil compreenso dentro do contexto da
EAD, pois representam interaes dos alunos e componentes da estrutura dos cursos. No
ser difcil para os tutores ou professores, ao perceberem que alguns desses indicadores
se apresentem insatisfatrios em alguns momentos do curso ou para determinados alunos,
saberem onde atuar e tomarem decises sobre procedimentos didtico-pedaggicos, no
sentido de fazer com que esses baixos indicadores sejam revertidos.
Para avaliar a importncia relativa dos preditores individuais no modelo,
tambm foi examinado o valor absoluto da estatstica t para cada parmetro do modelo.
Com isso, foi possvel estabelecer um ranking das quatorze variveis no modelo final,
apresentado no Quadro 22.
Quadro 22 Importncia de cada varivel no modelo.
Varivel
var13
var12
var10
var17
var21
var01
var29
var16
var20
var26
var04
var03
var02
var27
Descrio
Quantidade geral de postagens do aluno em fruns, por
disciplina.
Quantidade de acessos do aluno aos fruns, por
disciplina.
Quantidade de acessos do aluno aos diferentes tipos de
atividades disponibilizadas (webquest, frum, quiz, entre
outros), por disciplina.
Quantidade geral de mensagens recebidas pelo aluno
dentro do ambiente, por semestre.
Quantidade de mensagens enviadas pelo aluno para
outros colegas no ambiente, por semestre.
Mdia semanal da quantidade de acessos do aluno ao
ambiente no semestre.
Quantidade de fruns de discusso disponibilizados
sobre os contedos por disciplina.
Quantidade geral de mensagens enviadas pelo aluno
dentro do ambiente, por semestre.
Quantidade de mensagens de colegas recebidas pelo
aluno no ambiente, por semestre.
Quantidade geral de recursos disponibilizados pelo
professor (pgina web, vdeo, pdfs, entre outros) por
disciplina.
Quantidade de acessos do aluno ao ambiente por turno
(Noite), por semestre.
Quantidade de acessos do aluno ao ambiente por turno
(Tarde), por semestre.
Quantidade de acessos do aluno ao ambiente por turno
(Manh), por semestre.
Quantidade geral de atividades disponibilizadas
(webquest, frum, quiz, entre outros) pelo professor por
disciplina.
Construto
Estatstica t
DILOGO
19,82
AUTONOMIA
12,54
AUTONOMIA
8,89
DILOGO
8,55
DILOGO
6,16
AUTONOMIA
6,00
ESTRUTURA
5,64
DILOGO
5,49
DILOGO
4,06
ESTRUTURA
3,70
AUTONOMIA
3,66
AUTONOMIA
2,78
AUTONOMIA
2,74
ESTRUTURA
1,57
196
Segundo a teoria de Moore (1993), necessria uma maior autonomia do
aluno para que ele possa transpor barreiras impostas pela distncia transacional. Assim,
no modelo final, a autonomia est representada pela maior quantidade de variveis (seis).
Moore (1993) tambm afirmou que o dilogo inversamente proporcional DT, ou seja,
quanto maior o dilogo, menor a distncia. No modelo, cinco variveis representam esse
construto. J a estrutura tem com a DT uma relao direta, sendo representada por
somente trs variveis. Em suma, o arranjo final das variveis fornece indcios de que
cada construto foi organizado de tal modo a reduzir a distncia transacional e, ao mesmo
tempo, influenciar no risco de evaso do aluno.
Essa lista de variveis preditoras por cada construto estabelece uma relao
entre os construtos da Teoria da Distncia Transacional e a evaso dos alunos na EAD,
confirmando, para os cursos e dados analisados, as suposies encontradas na literatura
acerca dessa relao.
A percepo dos nveis de cada uma dessas variveis para cada aluno, a partir
do modelo de predio definido, pode auxiliar o instrutor ou tutor na sua ao preventiva
e assim buscar a reverso de possveis alunos com tendncias de evaso.
Ao ser calculada a mdia do valor da estatstica t para cada construto, obtmse: Dilogo = 8,82; Autonomia = 6,10 e Estrutura = 3,64. Isso indica o menor impacto
desse ltimo construto na predio de evaso nos cursos analisados. Tanto a quantidade
de variveis, quanto o menor valor da estrutura, podem estar associados ao fato de que a
estrutura dos cursos da UPE tem o design de cursos uniforme, permitindo pouca alterao
nos layouts em cada curso e tambm alguns dos recursos do ambiente no terem registros
de seus acessos.
Quando foi aplicado o modelo final nos perodos iniciais de cada curso,
observou-se uma acurcia no 2s perodos acima de 80% de acertos e a melhora crescente
nas taxas de acertos do classificador nos perodos seguintes. medida que o curso
avana, mais informao se torna progressivamente disponvel, sobre as atitudes,
atividades e o desempenho dos alunos. Quanto mais cedo a previso pode ser feita, mais
rapidamente as partes relevantes podem reagir e, ento, serem prestadas as assistncias
especficas aos alunos em risco de abandono, a fim de tentar corrigir a atitude ou o
comportamento do aluno com riscos de abandono ou outras caractersticas que
desmotivam sua participao no curso.
197
Essa identificao precoce de alunos com risco de evaso deve aumentar as
chances de reverso da situao crtica. A aplicao do modelo por disciplinas em cada
perodo do curso tambm importante, pois, na implementao, todas as anlises e
visualizaes levaram em conta os dados com o agrupamento por curso/perodo/
disciplina.
Ao ser observada lista das variveis significativas do modelo, percebe-se que
so indicativos triviais em cursos a distncia, de fcil percepo e compreenso pelos
profissionais da modalidade. Isso impacta diretamente nas aes que podem ser feitas no
sentido de melhorar esses indicadores e, como consequncia, reduzir a probabilidade de
evaso dos alunos com esse risco.
No uma tarefa complexa para o professor ou tutor, por exemplo, estimular
seus alunos a acessarem e postarem mais nos fruns de discusso da disciplina, motivlos a acessarem com frequncia as diversas atividades e tambm trocarem mensagens
com seus colegas, discutindo assuntos relevantes e de interesse do curso. Mas para haver
esses estmulos, preciso que o professor e o tutor saibam realmente quando devem agir.
Deve existir algo que os sinalize onde os problemas esto acontecendo e, claro, ambos
devem estar preparados para realizar os procedimentos adequados, a partir do momento
em que tomarem cincia dos problemas.
Foi a partir dessa necessidade de sinalizao adequada e objetiva para
professores e tutores, que a ferramenta de anlise de evaso foi planejada e desenvolvida.
Como ltima etapa do processo metodolgico adotado nesta pesquisa, a implantao e a
avaliao da soluo computacional incorporou o modelo preditivo, abstraindo a sua
complexidade e o deixou transparente para seus usurios, por meio de uma srie de
grficos e informaes, tornando a tarefa de acompanhamento dos alunos mais
simplificada.
O uso do framework Shiny para integrao e visualizao de dados
possibilitou o uso do poder de tratamento e anlise de dados do Software R alinhado com
recursos de modernos de gerao de interfaces interativas, tais como: CSS, JavaScript e
HTML 5, resultando em uma aplicao dinmica, responsiva e, visualmente, atraente.
A participao dos futuros usurios nas etapas de prototipao e avaliao da
ferramenta foi um fator importante para torn-la mais funcional, de uso prtico e eficaz
no seu objetivo de subsidiar tomadas de decises. A partir da anlise e feedback dos
198
prottipos iniciais, a aplicao experimental foi desenvolvida e testada por um grupo de
20 usurios com experincia em atuao na EAD. Esses usurios testaram e classificaram
de maneira bastante satisfatria a aplicao, destacaram a sua utilidade e deram
contribuies importantes para suas melhorias. Alguns comentrios dados por usurios
durante os testes corroboram com essa anlise:
- "A ferramenta vai permitir individualizar o problema de cada aluno. Isso possibilitar um
foco maior na situao de dificuldade de cada aluno. Quando for contatar o aluno, o tutor j vai
com o diagnstico do mesmo, permitindo um atendimento especfico. Isso bem diferente da
ferramenta atual que no permite esse tipo de diagnstico.";
- Seria bom que o aluno pudesse ter acesso aos seus grficos, para que ele tambm soubesse
do seu desempenho perante a turma. ;
- Acho importante essa informao para o tutor agir adequadamente e no tempo certo. .
199
as variveis obtiveram carga fatorial acima de 0.40, o que indica uma boa
representatividade em cada construto.
2. Como um conjunto de variveis relacionadas com a distncia transacional pode
ser usado para modelar a previso da evaso de alunos em cursos de graduao
a distncia?
Inicialmente, foram usadas as vinte e uma (21) variveis obtidas na Anlise
Fatorial Confirmatria e os resultados foram satisfatrios para o modelo preditivo. Aps
o uso do mtodo Stepwise na Regresso Logstica, o conjunto foi reduzido para quatorze
(14) variveis significativas, com um aumento do poder preditivo e ndices de acerto
relevantes quando comparados a trabalhos semelhantes na literatura. Alm disso, esse
conjunto possui uma diversidade de variveis autodescritivas para os trs construtos e
tambm so extradas diretamente no banco de dados do ambiente, sem nenhuma
necessidade de transformao adicional.
Por fim, no contexto geral desta pesquisa, so destacadas as suas principais
contribuies: a aplicao de uma teoria consolidada na EAD para obteno de variveis
relevantes, que foram usados como componentes de um modelo de previso de evaso,
tendo esse modelo apresentado resultados satisfatrios frente a outros estudos correlatos
sobre a evaso e sendo o mesmo implantado em uma ferramenta interativa e simplificada,
para um melhor acompanhamento dos alunos em cursos na modalidade a distncia.
200
6. CONSIDERAES FINAIS
A Educao a Distncia representa um campo profcuo para pesquisadores
em diversas reas do conhecimento. Ao mesmo tempo que a modalidade uma grande
alternativa para formao e difuso do conhecimento, ainda so evidentes os seus
obstculos e desafios.
Um dos desafios que foi tratado nesta tese foi a questo da evaso, que, no
pas, apresenta ndices elevados e ainda o principal desafio a superar, segundo grande
parte das instituies de ensino superior que oferecem cursos na modalidade.
A reduo das taxas de abandono um dos pilares para a expanso e o sucesso
deste tipo de curso. Um dos elementos-chave na reduo das taxas de evaso a
identificao precisa e antecipada dos estudantes em situao de risco e o que pode estar
provocando essa tendncia. Assim que esses alunos forem identificados, os instrutores
sero capazes de atender melhor s suas necessidades especficas e tomar as medidas
apropriadas para reduzir sua probabilidade de abandonar o curso. Espera-se que a
identificao prvia de alunos propensos desistncia tambm auxilie os gestores e
instrutores em seus planejamentos estratgicos dos cursos.
6.1. Contribuies
As pesquisas desenvolvidas nesta tese buscaram unir uma das teorias
estabelecidas na EAD com tcnicas de estatstica multivariadas e de aprendizagem de
mquina, usando, para isso, uma metodologia consolidada no processo de descoberta de
conhecimento em bases de dados.
A Teoria da Distncia Transacional, ao longo de seus mais de 40 anos desde
a sua primeira definio por Moore (1972), tem influenciado pesquisas e avanos na
educao a distncia. Ela tem uma importncia histrica para a modalidade, pois
representa uma das primeiras abordagens tericas sobre o tema, fornecendo um quadro
geral da pedagogia da educao a distncia. Ela permite a gerao de nmero quase
infinito de hipteses para pesquisas sobre a interao entre as estruturas do curso, o
dilogo entre professores, tutores e alunos e propenso do aluno para exercer o controle
do processo de aprendizagem.
Este estudo apresentou uma proposta alternativa para a obteno dos
construtos da distncia transacional a partir da extrao de dados diretamente do banco
201
de dados do AVA Moodle. Esse banco composto por mais de 400 tabelas, cada uma
com vrios campos e uma complexidade nos relacionamentos entre essas tabelas,
atributos, chaves, entre outros.
A identificao de quais variveis compem cada construto da distncia
transacional no banco de dados do Moodle possibilitar a sua extrao e utilizao em
outras instncias do AVA e permitir a continuidade de novas pesquisas relacionadas ao
tema nesse e em outros ambientes virtuais, usando inclusive processos mais avanados
como a Educational Data Mining (EDM), como foi o caso da abordagem preditiva
desenvolvida nesta tese.
Outras vantagens so que os pesquisadores podem abrir mo de usar
questionrios para obter os indicadores da distncia transacional, assim como podem
coletar dados em diversos momentos do curso. Embora o conjunto de variveis neste
trabalho seja resultante do processamento dos dados de dois cursos em uma instituio
que utilizou o Moodle, o processo como um todo poder ser replicado e utilizado em
outros cursos, instituies e mesmo para diferentes ambientes virtuais de aprendizagem,
desde que seja possvel a extrao dos dados relacionados com as variveis da distncia
transacional do seu banco de dados.
A partir da extrao das variveis e da sua validao por Anlise Fatorial
Confirmatria (AFC), um processo tpico de descoberta de conhecimento em bases de
dados foi aplicado nessas variveis, com o uso de mtodos de EDM, para definir um
modelo relevante para a previso do risco de evaso dos alunos na EAD.
aparente que o uso de tcnicas de minerao de dados em contextos
educacionais oferece oportunidades para educadores e pesquisadores para obter mais
conhecimentos teis e relacionamentos mais interessantes entre as variveis em grandes
conjuntos de dados. Por meio das tcnicas e algoritmos da minerao de dados
educacionais, os pesquisadores podem descobrir quais comportamentos e tomar decises
que levam ao sucesso do aluno, identificar alunos que esto em risco de evaso ou de
fraco desempenho, personalizar e adaptar o contedo e a instruo para atender s
necessidades individuais e melhorar e otimizar o uso dos recursos educacionais. Alm
disso, considerando a apatia dos alunos em relao s metodologias atuais de coleta de
dados, como levantamentos baseados em questionrios, pode ser mais eficaz e til para
pesquisadores educacionais coletarem dados abrangentes diretamente de ambientes de
aprendizagem on-line.
202
importante ressaltar que essas tcnicas devem vir embutidas em aplicaes
computacionais de fcil uso, com interfaces amigveis e com ferramentas de visualizao,
de modo a proporcionar aos usurios sem os conhecimentos especficos, maneiras
transparentes de se beneficiarem das capacidades descritivas e preditivas da minerao
de dados.
Apesar de a ferramenta apresentada neste trabalho ter sido desenvolvida para
fins de monitoramento da evaso, a mesma pode ser usada para acompanhamento geral
da participao do aluno nos cursos e outras finalidades pedaggicas, j que os construtos
podem ser usados em outras condies para o planejamento e monitoramento da execuo
dos cursos. A disponibilidade de uma ferramenta grfica personalizvel, que extrai e
visualiza dados em tempo real sobre o envolvimento dos alunos e a probabilidade de seu
sucesso - indicando quais estudantes esto no caminho certo e os que podem precisar de
ajuda adicional pode ser um recurso inestimvel para todos os educadores a distncia.
A tendncia que se observa que mais estudantes entraro em cursos e
programas de aprendizagem on-line nos prximos anos; portanto, mais dados sero
coletados sobre vrios tipos de informaes e comportamentos dos alunos. preciso
ento mais pesquisas para extrair e generalizar conhecimento significativo a partir dessas
informaes, usando os esforos de minerao de dados no domnio da aprendizagem online.
A metodologia dos testes e as anlises dos seus resultados permitem concluir
que um conjunto de variveis representativas da distncia transacional, quando
incorporadas a um modelo preditivo de evaso de alunos, sendo esse tambm associado
a uma ferramenta de visualizao para tutores, professores e gestores, pode fornecer
informaes e subsdios para que esses atores possam tomar decises e intervir no
processo educacional de modo a buscar reduzir o risco de evaso de um ou de um grupo
de alunos em EAD.
203
de outros algoritmos e a modificao dos mtodos de pr-processamento. Alm disso, a
triangulao do mtodo de pesquisa com dados qualitativos (por exemplo, entrevistando
os desistentes) pode ajudar os pesquisadores a validar e interpretar os resultados de cada
tcnica de minerao de dados, vendo a imagem multidimensional do problema.
Optou-se por utilizar o conjunto de variveis que definiram cada um dos
construtos da distncia transacional sem, entretanto, estabelecer uma mtrica para essa
distncia. Tambm no se buscou confirmar as suposies tericas de que quanto maior
a distncia transacional entre o aluno e seu curso, maior a sua possibilidade de evaso. A
inteno foi deixar evidenciada qual a contribuio de cada uma das variveis no modelo
e com isso tornar mais claro para os professores e tutores, como cada um dos indicadores
dos alunos est influenciando na sua possibilidade de evaso.
Nos algoritmos de aprendizagem de mquina e minerao, foram usados os
parmetros default para cada um dos classificadores utilizados. Dessa forma, procurouse dar condies semelhantes na execuo de cada um dos algoritmos.
204
mais refinados, tambm pode ser feito. Novas anlises com combinao de
classificadores, usando tcnicas tipo ensemble of classifiers podem apresentar ndices
mais significativos.
Em funo das caractersticas evolutivas do aprendizado de mquina, tambm
possvel pensar em modelos cada vez mais precisos e eficientes, na medida que mais
dados forem sendo incorporados ao processo e, por consequncia, o modelo vai sendo
ajustado e aperfeioado nova realidade dos dados.
Em relao aplicao desenvolvida, a mesma j est sendo evoluda com os
resultados dos testes e as sugestes dadas pelos usurios. Ela vai estar funcionando em
tempo real j em 2017. Para isso, um primeiro passo j foi dado, a instalao e
disponibilizao de um servidor prprio para aplicaes Shiny, eliminando limitaes de
uso e nmero de aplicaes existentes no servidor oficial do framework.
Alm disso, h uma inteno de tornar annimas todas as bases liberadas pela
UPE e disponibiliz-las em formato de dados abertos, para que a comunidade de
pesquisadores possa utiliz-la livremente na produo de novos conhecimentos e
desenvolvimento de algoritmos e mtodos focados no contexto educacional.
Sugere-se tambm como trabalhos futuros, a produo de um guia de boas
prticas para a reduo da evaso, a partir do uso da ferramenta e do compartilhamento
de experincias exitosas entre os diversos atores que atuam na modalidade.
6.4. Publicaes
Durante o perodo desta pesquisa, foram desenvolvidos alguns trabalhos
preliminares com temticas afins e tambm diretamente relacionados com o estudo, no
sentido de promover um aperfeioamento do pesquisador, alm de proporcionar uma
apropriao de contedos e ferramentas necessrias ao bom andamento desta pesquisa.
Artigos publicados em Peridicos
205
206
207
REFERNCIAS
ABED. Censo EAD.BR: Relatrio Analtico da Aprendizagem a Distncia no Brasil
- 2013. Associao Brasileira de Educao a Distncia. 2014
______. Censo EAD.BR: Relatrio Analtico da Aprendizagem a Distncia no Brasil
- 2014. Associao Brasileira de Educao a Distncia. 2015
______. Censo EAD.BR: Relatrio Analtico da Aprendizagem a Distncia no Brasil
- 2015. Associao Brasileira de Educao a Distncia. 2016
AGAPITO, J. B.; SOSNOVSKY, S.; ORTIGOSA, A. Detecting symptoms of low
performance using production rules. Educational Data Mining 2009, 2009.
ANAYA, A. R.; BOTICARIO, J. G. Content-free collaborative learning modeling using
data mining. User Modeling and User-Adapted Interaction, v. 21, n. 1-2, p. 181-216,
2011. ISSN 0924-1868.
ANDERSON, J. A. An introduction to neural networks.
0262510812.
208
AZEVEDO, A. I. R. L.; SANTOS, M. F. KDD, SEMMA and CRISP-DM: a parallel
overview. IADIS European Conference on Data Mining, 2008, IADIS. p.182185.
BAKER, R. Data mining for education. International encyclopedia of education, v. 7,
p. 112-118, 2010.
BAKER, R. S.; GOWDA, S.; CORBETT, A. Automatically detecting a student's
preparation for future learning: Help use is key. Educational Data Mining 2011, 2010.
BAKER, R. S. et al. Towards Sensor-Free Affect Detection in Cognitive Tutor Algebra.
International Educational Data Mining Society, 2012.
BAKER, R. S.; INVENTADO, P. Educational data mining and learning analytics. In:
(Ed.). Learning Analytics: From Research to Practice. New York: Springer, 2014.
p.61-75. ISBN 1461433045.
BAKER, R. S.; YACEF, K. The state of educational data mining in 2009: A review and
future visions. JEDM-Journal of Educational Data Mining, v. 1, n. 1, p. 3-17, 2009.
ISSN 2157-2100.
BAKER, R. S. J. D.; ISOTANI, S.; CARVALHO, A. M. J. B. D. Mineraao de dados
educacionais: Oportunidades para o brasil. Revista Brasileira de Informtica na
Educao, v. 19, n. 2, 2011.
BARRACOSA, J.; ANTUNES, C. Anticipating teachers performance. KDD 2011
Workshop: Knowledge Discovery in Educational Data, 2011. p.77-82.
BARRETT, J. et al. From data to actionable knowledge: a collaborative effort with
educators. Proceedings of KDD, 2011.
BAVARESCO, J. L. B.; ROSA, R. S. D. Redes Neurais com Neuralnet e Shiny. II
Simpsio de Informtica IFSUL. Passo Fundo - RS: Instituto Federal de
Educao,Cincia e Tecnologia Sul-Rio-Grandense: 55-64 p. 2015.
BIENKOWSKI, M.; FENG, M.; MEANS, B. Enhancing teaching and learning through
educational data mining and learning analytics: An issue brief. US Department of
Education, Office of Educational Technology, p. 1-57, 2012.
BISCHOFF, W. R. et al. Transactional distance and interactive television in the distance
education of health professionals. American Journal of Distance Education, v. 10, n.
3, p. 4-19, 1996. ISSN 0892-3647.
BOYD, R.; APPS, J. Redefining the Discipline of Adult Education. San Francisco:
Jossey-Bass, 1980.
209
BRADLEY, A. P. The use of the area under the ROC curve in the evaluation of machine
learning algorithms. Pattern recognition, v. 30, n. 7, p. 1145-1159, 1997. ISSN 00313203.
BRANSFORD, J. D.; SCHWARTZ, D. L. Rethinking transfer: A simple proposal with
multiple implications. Review of research in education, p. 61-100, 1999. ISSN 0091732X.
BRAXTON, S. N. Empirical comparison of technical and non-technical distance
education courses to derive a refined transactional distance theory as the framework
for a utilization-focused evaluation tool. 1999. (DsC.). The George Washington
University
BREIMAN, L. et al. Classification and regression trees.
0412048418.
BRIN, S.; PAGE, L. Reprint of: The anatomy of a large-scale hypertextual web search
engine. Computer networks, v. 56, n. 18, p. 3825-3833, 2012. ISSN 1389-1286.
BROWN, T. A. Confirmatory factor analysis for applied research.
Publications, 2015. ISBN 146251779X.
Guilford
210
CHEN, Y. J. Dimensions of transactional distance in the world wide web learning
environment: a factor analysis. British Journal of Educational Technology, v. 32, n. 4,
p. 459-470, 2001b. ISSN 1467-8535.
CHEN, Y. J.; WILLITS, F. K. Dimensions of educational transactions in a
videoconferencing learning environment. American Journal of Distance Education, v.
13, n. 1, p. 45-59, 1998. ISSN 0892-3647.
______. Dimensions of educational transactions in a videoconferencing learning
environment. American Journal of Distance Education, v. 13, n. 1, p. 45-59, 1999.
ISSN 0892-3647.
CLESIO, F. Metodologia de projetos de minerao de dados CRoss Industry
Standard Process for Data Mining CRISP-DM. Agregador Brasileiro sobre
Minerao de Dados. 2015 2012.
COCEA, M.; WEIBELZAHL, S. Cross-system validation of engagement prediction from
log files. In: (Ed.). Creating new learning experiences on a global scale: Springer,
2007. p.14-25. ISBN 3540751947.
CORBETT, A. T.; ANDERSON, J. R. Knowledge tracing: Modeling the acquisition of
procedural knowledge. User modeling and user-adapted interaction, v. 4, n. 4, p. 253278, 1994. ISSN 0924-1868.
CRESPO, P.; ANTUNES, C. Social networks analysis for quantifying students
performance in teamwork. Educational Data Mining 2012, 2012.
DANIEL, B. Big Data and analytics in higher education: Opportunities and challenges.
British Journal of Educational Technology, 2015. ISSN 1467-8535.
DANIEL, B. K.; BUTSON, R. Technology enhanced analytics (TEA) in higher
education. Proceedings of the International Conference on Educational Technologies,
2013, ERIC. p.89-96.
DARADOUMIS, T. et al. A review on massive e-learning (MOOC) design, delivery and
assessment. P2P, Parallel, Grid, Cloud and Internet Computing (3PGCIC), 2013 Eighth
International Conference on, 2013, IEEE. p.208-213.
DE OLIVEIRA JNIOR, J. G.; NORONHA, R. V.; KAESTNER, C. A. A. Anlise da
Correlao da Evaso de Cursos de Graduao com o Emprstimo de Livros em
Biblioteca. Anais dos Workshops do Congresso Brasileiro de Informtica na Educao,
2014. p.601.
DEWEY, J.; BENTLEY, A. F. Knowing and the Known. Boston: Beacon Press, 1949.
211
DOMINGUEZ, A. K.; YACEF, K.; CURRAN, J. R. Data Mining for Individualised Hints
in e-Learning. Proceedings of the International Conference on Educational Data Mining.
Pittsburgh, PA, USA: Carniege Learning, 2010, ERIC. p.91-100.
DOS SANTOS, R. N.; DE ALBURQUEQUE, C.; SOARES, E. D. Uma Abordagem
Genrica de Identificao Precoce de Estudantes com Risco de Evaso em um AVA
utilizando Tcnicas de Minerao de Dados. XIX Congreso Internacional de
Informtica Educativa. Fortaleza-CE 2014.
DRON, J. E-learning and the building habits of termites. Journal of Educational
Multimedia and Hypermedia, v. 14, n. 4, p. 321-342, 2005. ISSN 1055-8896.
______. The teacher, the learner and the collective mind. AI & SOCIETY, v. 21, n. 1-2,
p. 200-216, 2006. ISSN 0951-5666.
______. Designing the undesignable: Social software and control. Journal of
Educational Technology & Society, v. 10, n. 3, p. 60-71, 2007. ISSN 1176-3647.
DUC, T. H. Designing distance learning for the 21 st century. 2012. Blekinge Institute
of Technology
DUDA, R. O.; HART, P. E.; STORK, D. G. Pattern classification. John Wiley & Sons,
2012. ISBN 111858600X.
EKWUNIFE-ORAKWUE, K. C.; TENG, T.-L. The impact of transactional distance
dialogic interactions on student learning outcomes in on-line and blended environments.
Computers & Education, v. 78, p. 414-427, 2014. ISSN 0360-1315.
ELKAN, C. The foundations of cost-sensitive learning. International joint conference on
artificial intelligence, 2001, Citeseer. p.973-978.
FAWCETT, T. An introduction to ROC analysis. Pattern recognition letters, v. 27, n.
8, p. 861-874, 2006. ISSN 0167-8655.
FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data mining to
knowledge discovery in databases. AI magazine, v. 17, n. 3, p. 37, 1996. ISSN 07384602.
GARCA, E. et al. A collaborative educational association rule mining tool. The
Internet and Higher Education, v. 14, n. 2, p. 77-88, 2011. ISSN 1096-7516.
GARRISON, R. Theoretical challenges for distance education in the 21st century: A shift
from structural to transactional issues. The International Review of Research in Open
and Distributed Learning, v. 1, n. 1, 2000. ISSN 1492-3831.
212
GAUDIOSO, E.; MONTERO, M.; HERNANDEZ-DEL-OLMO, F. Supporting teachers
in adaptive educational systems through predictive models: A proof of concept. Expert
Systems with Applications, v. 39, n. 1, p. 621-625, 2012. ISSN 0957-4174.
GIOSSOS, Y. et al. Reconsidering Moores transactional distance theory. European
Journal of Open, Distance and E-Learning,. 2: 1-6 p. 2009.
GOEL, L.; ZHANG, P.; TEMPLETON, M. Transactional distance revisited: Bridging
face and empirical validity. Computers in Human Behavior, v. 28, n. 4, p. 1122-1129,
2012.
ISSN
0747-5632.
Disponvel
em:
<
http://www.sciencedirect.com/science/article/pii/S0747563212000222 >.
GOGUADZE, G. et al. Evaluating a bayesian student model of decimal misconceptions.
Educational Data Mining 2011, 2011.
GOMES, M. J. Educao a distncia: um estudo de caso sobre formao contnua de
professores via Internet. Braga: Centro de Investigao em Educao- Universidade do
Minho - Portugal, 2004.
GOKOOL-RAMDOO, S. Beyond the theoretical impasse: Extending the applications of
transactional distance education theory. The International Review of Research in Open
and Distributed Learning, v. 9, n. 3, 2008.
GORSKY, P.; CASPI, A. A critical analysis of transactional distance theory. The
Quarterly Review of Distance Education, v. 6, n. 1, p. 1-11, 2005.
GOTTARDO, E.; KAESTNER, C.; NORONHA, R. Aplicao de Tcnicas de
Minerao de Dados para Estimativa de Desempenho Acadmico de Estudantes em
um AVA Utilizando Dados com Classes Desbalanceadas. ICBL2013 International
Conference on Interactive Computer aided Blended Learning. Florianpolis-SC, Brazil
2013.
GOTTARDO, E.; KAESTNER, C.; NORONHA, R. V. Avaliao de Desempenho de
Estudantes em Cursos de Educao a Distncia Utilizando Minerao de Dados. Anais
do Workshop de Desafios da Computao Aplicada Educao, 2012. p.30-39.
GURULER, H.; ISTANBULLU, A.; KARAHASAN, M. A new student performance
analysing system using knowledge discovery in higher educational databases.
Computers & Education, v. 55, n. 1, p. 247-254, 2010. ISSN 0360-1315.
HAIR, J. F. et al. Anlise multivariada de dados.
8577805344.
213
HAN, J.; KAMBER, M.; PEI, J. Data mining: concepts and techniques: concepts and
techniques. Elsevier, 2011. ISBN 0123814804.
HAND, D. J.; MANNILA, H.; SMYTH, P. Principles of data mining. MIT press, 2001.
ISBN 026208290X.
HANLEY, J. A.; MCNEIL, B. J. The meaning and use of the area under a receiver
operating characteristic (ROC) curve. Radiology, v. 143, n. 1, p. 29-36, 1982. ISSN
0033-8419.
HASSENZAHL, M. The thing and I: understanding the relationship between user and
product. In: (Ed.). Funology: Springer, 2003. p.31-42. ISBN 1402029667.
______. The interplay of beauty, goodness, and usability in interactive products. Humancomputer interaction, v. 19, n. 4, p. 319-349, 2004. ISSN 0737-0024.
______. Hedonic, emotional, and experiential perspectives on product quality.
Encyclopedia of human computer interaction, p. 266-272, 2006.
HASSENZAHL, M.; TRACTINSKY, N. User experience-a research agenda. Behaviour
& information technology, v. 25, n. 2, p. 91-97, 2006. ISSN 0144-929X.
HERNNDEZ, J.-A. et al. Detecting cheats in on-line student assessments using Data
Mining. Conference on Data Mining| DMIN, 2006. p.205.
HILLMAN, D. C.; WILLIS, D. J.; GUNAWARDENA, C. N. Learnerinterface
interaction in distance education: An extension of contemporary models and strategies
for practitioners. American Journal of Distance Education, v. 8, n. 2, p. 30-42, 1994.
ISSN 0892-3647.
HOLMBERG, B. The feasibility of a theory of teaching for distance education and a
proposed theory. FernUniversitat, Hagen (West Germany), Hagen, 1985.
______. Growth and structure of distance education. London: Routledge, 1986.
HOLZHTER, M.; FROSCH-WILKE, D.; KLEIN, U. Exploiting learner models using
data mining for e-learning: a rule based approach. In: (Ed.). Intelligent and Adaptive
Educational-Learning Systems: Springer, 2013. p.77-105. ISBN 3642301703.
HOOPER, D.; COUGHLAN, J.; MULLEN, M. Structural equation modelling:
Guidelines for determining model fit. Articles, p. 2, 2008.
HORZUM, M. B. Developing Transactional Distance Scale and Examining Transactional
Distance Perception of Blended Learning Students in Terms of Different Variables.
214
Educational Sciences: Theory and Practice, v. 11, n. 3, p. 1582-1587, 2011. ISSN
1303-0485.
HOSMER JR, D. W.; LEMESHOW, S.; STURDIVANT, R. X. Applied logistic
regression. John Wiley & Sons, 2013. ISBN 0470582472.
HSIEH, T.-C.; WANG, T.-I. A mining-based approach on discovering courses pattern for
constructing suitable learning path. Expert systems with applications, v. 37, n. 6, p.
4156-4167, 2010. ISSN 0957-4174.
HU, L. T.; BENTLER, P. M. Cutoff criteria for fit indexes in covariance structure
analysis: Conventional criteria versus new alternatives. Structural equation modeling:
a multidisciplinary journal, v. 6, n. 1, p. 1-55, 1999. ISSN 1070-5511.
HUANG, H.-M. Student perceptions in an on-line mediated environment. International
Journal of Instructional Media, v. 29, n. 4, p. 405, 2002. ISSN 0092-1815.
HUANG, X. et al. Understanding transactional distance in webbased learning
environments: An empirical study. British Journal of Educational Technology, 2015.
ISSN 1467-8535.
HUGHES, W. G. Transactional Distance Theory: The Effect of Disseminating
Educational Messages to Frontline Registered Nurses in an Acute Care Hospital
Setting. 2010. Ph.D. Southeastern Louisiana University
IBM, C. IBM SPSS Modeler 16 Users Guide. p.50. 2013
INEP. Censo da Educao Superior 2014 - Notas Estatsticas. Instituto Nacional de
Estudos e Pesquisas Educacionais Ansio Teixeira. 2015
IRELAND, T. Situating connectivism. Retrieved, v. 2, 2007. Disponvel em: <
http://design.test.olt.ubc.ca/Situating_Connectivism >. Acesso em: Abr 2015.
JIN, W. et al. Towards Automatic Hint Generation for a Data-Driven Novice
Programming Tutor. Workshop on Knowledge Discovery in Educational Data, 17th
ACM Conference on Knowledge Discovery and Data Mining, 2011.
JRESKOG, K. G.; SRBOM, D. LISREL VI: Analysis of linear structural
relationships by maximum likelihood, instrumental variables, and least squares
methods. Scientific Software, 1986. ISBN 0894980246.
JUNG, I. Building a theoretical framework of webbased instruction in the context of
distance education. British Journal of Educational Technology, v. 32, n. 5, p. 525-534,
2001. ISSN 1467-8535.
215
KABAKCHIEVA, D.; STEFANOVA, K.; KISIMOV, V. Analyzing university data for
determining student profiles and predicting performance. Educational Data Mining 2011,
2010.
KANUKA, H. University student perceptions of the use of the Web in distance-related
programs. The Canadian Journal of Higher Education, v. 31, n. 3, p. 49, 2001. ISSN
0316-1218.
KANUKA, H.; COLLETT, D.; CASWELL, C. University instructor perceptions of the
use of asynchronous text-based discussion in distance courses. The American Journal
of Distance Education, v. 16, n. 3, p. 151-167, 2002. ISSN 0892-3647.
KARDAN, S.; CONATI, C. A Framework for Capturing Distinguishing User Interaction
Behaviors in Novel Interfaces. Educational Data Mining 2011, 2010.
KASSANDRINOU, A.; ANGELAKI, C.; MAVROIDIS, I. Transactional Distance
among Open University Students: How Does it Affect the Learning Process? European
Journal of Open, Distance and E-Learning, v. 17, n. 1, p. 26-42, 2014. ISSN 10275207.
KEARSLEY, G.; LYNCH, W. Structural issues in distance education. Journal of
Education for Business, v. 71, n. 4, p. 191-195, 1996. ISSN 0883-2323.
KEEGAN, D. The foundations of distance education. New York: Routledge, 2013.
KLEINBAUM, D. G.; KLEIN, M. Analysis of matched data using logistic regression. In:
(Ed.). Logistic Regression: Springer, 2010. p.389-428. ISBN 1441917411.
KCK, M.; PARAMYTHIS, A. Activity sequence modelling and dynamic clustering for
personalized e-learning. User Modeling and User-Adapted Interaction, v. 21, n. 1-2,
p. 51-97, 2011. ISSN 0924-1868.
KOEDINGER, K. R. et al. Educational software features that encourage and discourage
gaming the system. Proceedings of the 14th International Conference on Artificial
Intelligence in Education, 2009. p.475-482.
KOEDINGER, K. R.; CORBETT, A. Cognitive tutors: Technology bringing learning
sciences to the classroom. na, 2006.
KOHONEN, T. The self-organizing map. Neurocomputing, v. 21, n. 1, p. 1-6, 1998.
ISSN 0925-2312.
KORKMAZ, S.; GOKSULUK, D.; ZARARSIZ, G. MVN: an R package for assessing
multivariate normality. The R Journal, v. 6, n. 2, p. 151-162, 2014.
216
KOTSIANTIS, S. B.; PIERRAKEAS, C.; PINTELAS, P. E. Preventing student dropout
in distance learning using machine learning techniques. Knowledge-Based Intelligent
Information and Engineering Systems, 2003, Springer. p.267-274.
KOVACIC, Z. Early prediction of student success: Mining students' enrolment data.
Informing Science & IT Education Conference (InSITE), 2010.
LANTZ, B. Machine learning with R. Packt Publishing Ltd, 2013. ISBN 1782162151.
LEMONE, K. Analyzing cultural influences on elearning transactional issues. World
conference on e-learning in corporate, government, healthcare, and higher education,
2005. p.2637-2644.
LEVY, Y. Comparing dropouts and persistence in e-learning courses. Computers &
education, v. 48, n. 2, p. 185-204, 2007. ISSN 0360-1315.
LIN, L. C.; PREZ, . A. J. Educational Data Mining and Learning Analytics:
differences, similarities, and time evolution. RUSC. Universities and Knowledge
Society Journal, v. 12, n. 3, p. 98-112, 2015. ISSN 1698-580X.
LING, C. X.; HUANG, J.; ZHANG, H. AUC: a statistically consistent and more
discriminating measure than accuracy. IJCAI, 2003. p.519-524.
LITTLEWOOD, W. Autonomy: An anatomy and a framework. System, v. 24, n. 4, p.
427-435, 1996. ISSN 0346-251X.
______. Defining and developing autonomy in East Asian contexts. Applied linguistics,
v. 20, n. 1, p. 71-94, 1999. ISSN 0142-6001.
LOPEZ, M. I. et al. Classification via Clustering for Predicting Final Marks Based on
Student Participation in Forums. International Educational Data Mining Society,
2012.
LOWELL, N. O. An investigation of factors contributing to perceived transactional
distance in an on-line setting. 2004. 127 (PhD.). University of Northern Colorado,
Greeley.
LYKOURENTZOU, I. et al. Dropout prediction in e-learning courses through the
combination of machine learning techniques. Computers & Education, v. 53, n. 3, p.
950-965, 2009. ISSN 0360-1315.
MACFADYEN, L. P.; DAWSON, S. Mining LMS data to develop an early warning
system for educators: A proof of concept. Computers & Education, v. 54, n. 2, p. 588599, 2010. ISSN 0360-1315.
217
MAIMON, O.; ROKACH, L. Data Mining and Knowledge Discovery Handbook. 2nd.
Springer,
2010.
ISBN
978-0-387-09822-7.
Disponvel
em:
<
http://www.springer.com/br/book/9780387098227 >.
MANHES, L. M. B. et al. Identificao dos fatores que influenciam a evaso em cursos
de graduao por meio de sistemas baseados em minerao de dados: Uma abordagem
quantitativa. Anais do VIII Simpsio Brasileiro de Sistemas de Informao, So
Paulo, 2012.
MANHES, L. M. B. et al. Previso de Estudantes com Risco de Evaso Utilizando
Tcnicas de Minerao de Dados. Anais do XXII SBIE-XVII WIE, Aracaju, 2011.
MARBOUTI, F.; DIEFES-DUX, H. A.; MADHAVAN, K. Models for early prediction
of at-risk students in a course using standards-based grading. Computers & Education,
v. 103, p. 1-15, 2016. ISSN 0360-1315.
MARCONI, M. D. A.; LAKATOS, E. M. Fundamentos de metodologia cientfica. In:
(Ed.). Fundamentos de metodologia cientfica: Atlas, 2010.
MARQUEZ-VERA, C.; ROMERO, C.; VENTURA, S. Predicting school failure using
data mining. Educational Data Mining 2011, 2010.
MRQUEZVERA, C. et al. Early dropout prediction using data mining: a case study
with high school students. Expert Systems, v. 33, n. 1, p. 107-124, 2016. ISSN 14680394.
MARTINS, L. C.; LOPES, D. A.; RAABE, A. Um Assistente de Predio de Evaso
aplicado a uma disciplina Introdutria do curso de Cincia da Computao. anais do
Simpsio Brasileiro de Informtica na Educao, 2012.
MAULL, K. E.; SALDIVAR, M. G.; SUMNER, T. On-line curriculum planning behavior
of teachers. Educational Data Mining 2010, 2010.
MAZZA, R.; MILANI, C. Gismo: a graphical interactive student monitoring tool for
course management systems. International Conference on Technology Enhanced
Learning, Milan, 2004. p.1-8.
MCCUAIG, J.; BALDWIN, J. Identifying Successful Learners from Interaction
Behaviour. International Educational Data Mining Society, 2012.
MERCERON, A.; YACEF, K. Educational Data Mining: a Case Study. AIED, 2005.
p.467-474.
______. Measuring correlation of strong symmetric association rules in educational
data. CRC Press, 2010.
218
MIRANDA, L.; MORAIS, C.; DIAS, P. Abordagens pedaggicas para ambientes online. VII Simpsio Internacional de Informtica Educativa SIIE05. Leiria, Portugal
2005.
MOHRI, M.; ROSTAMIZADEH, A.; TALWALKAR, A. Foundations of machine
learning. MIT press, 2012. ISBN 026201825X.
MOORE, M.; KEARSLEY, G. Distance Education: A Systems View..
Publishers, 1996. 146-51.
Wadsworth
219
PARDOE, I. Applied regression modeling: a business approach. John Wiley & Sons,
2012. ISBN 0470052651.
PAUL, R. C. et al. Revisiting Zhangs scale of transactional distance: refinement and
validation using structural equation modeling. Distance Education, v. 36, n. 3, p. 364382, 2015. ISSN 0158-7919.
PECHENIZKIY, M. et al. Mining the student assessment data: Lessons drawn from a
small scale case study. Educational Data Mining 2008, 2008.
PEA-AYALA, A. Educational data mining: A survey and a data mining-based analysis
of recent works. Expert Systems with Applications, v. 41, n. 4, Part 1, p. 1432-1462,
2014a.
ISSN
0957-4174.
Disponvel
em:
<
http://www.sciencedirect.com/science/article/pii/S0957417413006635 >.
______. Educational Data Mining. Applications and Trends. Springer, 2014b.
PEA-AYALA, A.; DOMNGUEZ, R.; MEDEL, J. D. J. Educational data mining: a
sample of review and study case. World Journal On Educational Technology, v. 1, n.
2, p. 118-139, 2009. ISSN 1309-0348.
PENG, Y. et al. A descriptive framework for the field of data mining and knowledge
discovery. International Journal of Information Technology & Decision Making, v.
7, n. 04, p. 639-682, 2008. ISSN 0219-6220.
PETERS, O. Distance education and industrial production: a comparative
interpretation in outline. 1967.
______. Distance Education in post-industrial society. In: (Ed.). Otto Peters on distance
education: The industrialization of teaching and learning. London: Psychology Press,
1994. p.220-245.
______. Distance education in transition: new trends and challenges. Bibliotheksund Informationssytem der Universitt Oldenburg, 2002.
PLATT, J. C. 12 fast training of support vector machines using sequential minimal
optimization. Advances in kernel methods, p. 185-208, 1999.
POTTER, J. Beyond access: Student perspectives on support service needs in distance
learning. Canadian Journal of University Continuing Education, v. 24, n. 1, 2013.
ISSN 0318-9090.
PRATI, R.; BATISTA, G.; MONARD, M. Curvas ROC para avaliao de classificadores.
Revista IEEE Amrica Latina, v. 6, n. 2, p. 215-222, 2008.
220
PROVOST, F.; FAWCETT, T. Robust classification for imprecise environments.
Machine learning, v. 42, n. 3, p. 203-231, 2001. ISSN 0885-6125.
PRUITT, D. Transactional distance and learner autonomy as predictors of student
performance in distance learning courses delivered by three modalities. 2005.
Unpublished doctoral dissertation, Tulane University, USA,
QUEIROGA, E.; CECHINEL, C.; ARAJO, R. Um Estudo do Uso de Contagem de
Interaes Semanais para Predio Precoce de Evaso em Educao a Distncia. Anais
dos Workshops do Congresso Brasileiro de Informtica na Educao, 2015. p.1074.
QUINLAN, J. R. C4. 5: Programming for machine learning. Morgan Kauffmann, 1993.
RABBANY, R.; TAKAFFOLI, M.; ZAANE, O. R. Analyzing participation of students
in on-line courses using social network analysis techniques. Proceedings of educational
data mining, 2011, Citeseer.
RAJIBUSSALIM. Mining Students' Interaction Data from a System that Support
Learning by Reflection. 3rd Educational Data Mining Conference, 2010. p.249-256.
RAMOS, J. L. C. et al. A Comparative Study between Clustering Methods in Educational
Data Mining. IEEE Latin America Transactions, v. 14, n. 8, p. 3755-3761, 2016. ISSN
1548-0992.
RAMOS, J. L. C. et al. Mapeamento de dados de um LMS para medida de construtos da
distncia transacional. Simpsio Brasileiro de Informtica na Educao, v. 27, n. 1, p.
1056, 2016. ISSN 2316-6533.
RICHARDSON, J. T. Field independence in higher education and the case of distance
learning. International Journal of Educational Research, v. 29, n. 3, p. 241-250, 1998.
ISSN 0883-0355.
RIGO, S. J. et al. Aplicaes de Minerao de Dados Educacionais e Learning Analytics
com foco na evaso escolar: oportunidades e desafios. Revista Brasileira de
Informtica na Educao, v. 22, n. 01, p. 132, 2014. ISSN 1414-5685.
ROBLYER, M. et al. Toward practical procedures for predicting and promoting success
in virtual school students. The Amer. Jrnl. of Distance Education, v. 22, n. 2, p. 90109, 2008. ISSN 0892-3647.
RODRIGUES, R. L. et al. A literatura brasileira sobre minerao de dados educacionais.
Anais dos Workshops do Congresso Brasileiro de Informtica na Educao, 2014a.
______. A literatura brasileira sobre minerao de dados educacionais. Anais dos
Workshops do Congresso Brasileiro de Informtica na Educao, 2014b.
221
ROGERS, Y.; SHARP, H.; PREECE, J. Design de Interao. Bookman Editora, 2013.
ISBN 8582600089.
ROMERO, C. et al. Web usage mining for predicting final marks of students that use
Moodle courses. Computer Applications in Engineering Education, v. 21, n. 1, p. 135146, 2013b. ISSN 1099-0542.
ROMERO, C. et al. Mining rare association rules from e-learning data. Educational Data
Mining 2010, 2010.
ROMERO, C.; VENTURA, S. Data Mining in E-learning (Advances in Management
Information), Wit Pr. Computational Mechanics, 2006.
ROMERO, C.; VENTURA, S. Educational data mining: a review of the state of the art.
Systems, Man, and Cybernetics, Part C: Applications and Reviews, IEEE
Transactions on, v. 40, n. 6, p. 601-618, 2010. ISSN 1094-6977.
ROMERO, C.; VENTURA, S. Data mining in education. Wiley Interdisciplinary
Reviews: Data Mining and Knowledge Discovery, v. 3, n. 1, p. 12-27, 2013. ISSN
1942-4795.
______. Data mining in education. Wiley Interdisciplinary Reviews: Data Mining and
Knowledge Discovery, v. 3, n. 1, p. 12-27, 2013a. ISSN 1942-4795.
ROMERO, C.; VENTURA, S.; GARCA, E. Data mining in course management
systems: Moodle case study and tutorial. Computers & Education, v. 51, n. 1, p. 368384, 2008. ISSN 0360-1315.
ROMERO, C. et al. Handbook of educational data mining. CRC Press, 2010. ISBN
1439804583.
ROSENBLATT, F. The perceptron: a probabilistic model for information storage and
organization in the brain. Psychological review, v. 65, n. 6, p. 386, 1958. ISSN 19391471.
RUMBLE, G. The planning and management of distance education. Croom Helm,
1986.
RUMELHART, D. E.; HINTON, G. E.; WILLIAMS, R. J. Learning representations by
back-propagating errors. Cognitive modeling, v. 5, p. 3, 1988.
RYAN, R. M. The nature of the self in autonomy and relatedness. In: (Ed.). The self:
Interdisciplinary approaches: Springer, 1991. p.208-238. ISBN 1468482661.
222
SABA, F. Introduction to Distance Education: Theorists and Theories Charles
Wedemeyer. DISTANCE-EDUCATOR.COM. SABA, F. 2014.
SABA, F.; SHEARER, R. L. Verifying key theoretical concepts in a dynamic model of
distance education. American Journal of Distance Education, Vol. 8, No. 1, 1994, pp.
36-59,
2009-09-24
1994.
Disponvel
em:
<
http://www.tandfonline.com/doi/abs/10.1080/08923649409526844#.VW7_089Viko >.
SABA, F. (2003). Distance education theory, methodology, and epistemology: A
pragmatic paradigm. In M. G. Moore & W. G. Anderson (Eds.) Handbook of Distance
Education (pp. 3-21). Mahwah, NJ: Lawrence Erlbaum.
SABA, F. (2007). A systems approach in theory building. In M. G. Moore
(Ed.) Handbook of distance education. (pp.43-57). Mahwah, NJ: Lawrence Erlbaum.
SAHAY, A.; MEHTA, K. Assisting higher education in assessing, predicting, and
managing issues related to student success: A web-based software using data mining and
quality function deployment. Academic and Business Research Institute Conference,
2010.
SAMMUT, C.; WEBB, G. I. Encyclopedia of machine learning. Springer Science &
Business Media, 2011. ISBN 0387307680.
SANDOE, C. Measuring transactional distance of on-line courses: The structure
component. 2005. 141 PhD. University of South Florida
SANTOS, H.; CAMARGO, F.; CAMARGO, S. Minerando Dados de Ambientes Virtuais
de Aprendizagem para Predio de Desempenho de Estudantes. Conferencias LACLO,
v. 3, n. 1, 2012. ISSN 1982-1611.
SARGEANT, Joan et al. Facilitating interpersonal interaction and learning online: linking
theory and practice. Journal of Continuing Education in the Health Professions, v. 26,
n. 2, p. 128-136, 2006.
SCHLOSSER, C. A.; ANDERSON, M. L. Distance education: Review of the
literature. Washington: AECT Publication Sales, 1994.
SCHLOSSER, L. A.; SIMONSON, M. R. Distance education: definitions and glossary
of terms. IAP, 2009.
SEMESP. Mapa do Ensino Superior no Brasil - 2015. Sindicato das Mantenedoras de
Ensino Superior 2015
______. Mapa do Ensino Superior no Brasil - 2016. Sindicato das Mantenedoras de
Ensino Superior 2016
223
EN, B.; UA, E.; DELEN, D. Predicting and analyzing secondary education placementtest scores: A data mining approach. v. 39, n. 10, p. 94689476, August 2012 2012.
Disponvel em: < http://dx.doi.org/10.1016/j.eswa.2012.02.112 >.
SHEARER, C. The CRISP-DM Model: The New Blueprint for Data Mining. Journal of
Data Warehousing, v. 5, n. 4, p. 13-22, 2000.
SHEARER, R. L. Transactional distance and dialogue: An exploratory study to
refine the theoretical construct of dialogue in on-line learning. 2009.
The
Pennsylvania State University
SHETH, J.; PATEL, B. Best practices for adaptation of Data mining techniques in
Education Sector. National Journal of System and Information Technology, v. 3, n. 2,
p. 186, 2010. ISSN 0974-3308.
SHIN, N. Transactional presence as a critical predictor of success in distance learning.
Distance Education, v. 24, n. 1, p. 69-86, 2003. ISSN 0158-7919.
SILVA, F. et al. Um modelo preditivo para diagnstico de evaso baseado nas interaes
de alunos em fruns de discusso. Anais do Simpsio Brasileiro de Informtica na
Educao, 2015. p.1187.
SILVA FILHO, R. L. L. et al. A evaso no ensino superior brasileiro. Cadernos de
pesquisa, v. 37, n. 132, p. 641-659, 2007.
SILVA, J. et al. Uma abordagem para integrao do Moodle com o framework Shiny
para Learning Analytics. Anais dos Workshops do Congresso Brasileiro de Informtica
na Educao, 2016. p.930.
SILVA, L. A.; PERES, S. M.; BOSCARIOLI, C. Introduo Minerao de Dados Com Aplicaes em R. 1. Rio de Janeiro: Elsevier, 2016.
Disponvel em: <
http://www.saraiva.com.br/introducao-a-mineracao-de-dados-com-aplicacao-em-r9356556.html >.
SIMONSON, M.; SCHLOSSER, C.; HANSON, D. Theory and distance education: A
new discussion. American Journal of Distance Education. 13: 60-75 p. 1999.
SIMONSON, M. et al. Teaching and Learning at a Distance: Foundations of
Distance Education. Boston: Pearson Education, 2008.
SNIJDERS, C.; MATZAT, U.; REIPS, U.-D. Big data: Big gaps of knowledge in the field
of internet science. International Journal of Internet Science, v. 7, n. 1, p. 1-5, 2012.
ISSN 1662-5544.
224
STEINMAN, Debbie. Educational experiences and the online student. TechTrends, v. 51,
n. 5, p. 46-52, 2007.
SU, J.-M. et al. A personalized learning content adaptation mechanism to meet diverse
user needs in mobile learning environments. User modeling and user-adapted
interaction, v. 21, n. 1-2, p. 5-49, 2011. ISSN 0924-1868.
SWART, W. et al. Relative proximity theory: Measuring the gap between actual and
ideal on-line course delivery. American Journal of Distance Education, v. 28, n. 4, p.
222-240, 2014. ISSN 0892-3647.
TAN, P.-N.; STEINBACH, M.; KUMAR, V. Introduo ao datamining: minerao
de dados. Ciencia Moderna, 2009. ISBN 8573937610.
TANE, J.; SCHMITZ, C.; STUMME, G. Semantic resource management for the web: an
e-learning application. Proceedings of the 13th international World Wide Web conference
on Alternate track papers & posters, 2004, ACM. p.1-10.
TORI, R. Mtricas para uma Educao sem Distncia. Revista Brasileira de
Informtica na Educao, SBC, v. 10, n. 2, 2002.
______. Educao sem distncia. Senac, 2010. ISBN 8573599219.
TRACTINSKY, N.; HASSENZAHL, M. Arguing for aesthetics in human-computer
interaction. I-com, v. 4, n. 3/2005, p. 66-68, 2005. ISSN 1618-162X.
TRCKA, N.; PECHENIZKIY, M.; VAN DER AALST, W. Process mining from
educational data. Chapman & Hall/CRC, 2010.
TUCKER, L. R.; LEWIS, C. A reliability coefficient for maximum likelihood factor
analysis. Psychometrika, v. 38, n. 1, p. 1-10, 1973. ISSN 0033-3123.
UENO, M. On-line Outlier Detection System for Learning Time Data in E-Learning and
Its Evaluation. CATE, 2004. p.248-253.
USTATI, R.; HASSAN, S. S. S. Distance Learning Students Need: Evaluating
Interactions From Moores Theory Of Transactional Distance. Turkish On-line Journal
of Distance Education, v. 14, n. 2, 2013.
VEAL, B. L. Transactional distance and course structure: A qualitative study. Open
Access Theses and Dissertations from the College of Education and Human Sciences,
p. 51, 2009.
VELLIDO, A.; CASTRO, F.; NEBOT, A. Clustering educational data. Handbook of
educational data mining, p. 75-92, 2010.
225
VIALARDI, C. et al. A data mining approach to guide students through the enrollment
process based on academic performance. User modeling and user-adapted interaction,
v. 21, n. 1-2, p. 217-248, 2011. ISSN 0924-1868.
VONDERWELL, Selma. An examination of asynchronous communication experiences
and perspectives of students in an online course: A case study. The Internet and higher
education, v. 6, n. 1, p. 77-90, 2003.
WANG, J. Encyclopedia of data warehousing and mining. IGI Global, 2005. ISBN
1591405599.
WEDEMEYER, C. A. Learning at the back door: Reflections on non-traditional
learning in the lifespan. Madison, WI.: University of Wisconsin Press, 1981.
WEICK, K. E. Theory construction as disciplined imagination. Academy of
management review, v. 14, n. 4, p. 516-531, 1989. ISSN 0363-7425.
WENGROWICZ, N.; OFFIR, B. Teachers' Perceptions of Transactional Distance in
Different Teaching Environments. American Journal of Distance Education, v. 27, n.
2, p. 111-121, 2013. ISSN 0892-3647.
WITTEN, I. H.; FRANK, E.; HALL, M. A. Data Mining: Practical machine learning
tools and techniques. Morgan Kaufmann, 2011. ISBN 008047702X.
WOODLEY, A.; SIMPSON, O. Student dropout: The elephant in the room. On-line
distance education: Towards a research agenda, p. 459-484, 2014.
WU, X. et al. Top 10 algorithms in data mining. Knowledge and Information Systems,
v. 14, n. 1, p. 1-37, 2008. ISSN 0219-1377.
XING, W. et al. Participation-based student final performance prediction model through
interpretable Genetic Programming: Integrating learning analytics, educational data
mining and theory. Computers in Human Behavior, v. 47, p. 168-181, 2015. ISSN
0747-5632.
YASMIN, D. Application of the classification tree model in predicting learner dropout
behaviour in open and distance learning. Distance Education, v. 34, n. 2, p. 218-231,
2013. ISSN 0158-7919.
YUKSELTURK, E.; OZEKES, S.; TREL, Y. K. Predicting dropout student: an
application of data mining methods in an on-line education program. European Journal
of Open, Distance and E-learning, v. 17, n. 1, p. 118-133, 2014. ISSN 1027-5207.
226
ZHANG, A. Transactional Distance in Web-based College Learning Environments:
Toward Measurement and Theory Construction. PhD Thesis. VCU Retrospective
ETD Collection. Richmond. 2003
ZHANG, H. The optimality of naive Bayes. AA, v. 1, n. 2, p. 3, 2004.
227
228
229
230
231
232
233
234
235
#
#
#
#
#
#
#
Classificador SVM
Classificador rvore de deciso
Classificador Neural Network
Classificador KNN e Gerao da Matriz de Confuso
Gerao da Curva ROC
Pacote Grfico
Pacote para manipulao e tratamento de dados
236
summary(modeloSVM)
5. Avaliando o classificador
# Aplicao dos dados da base de teste para avaliao do modelo inicial
classificacaoProb <- predict(modeloInicial,newdata=teste,type="response")
# Somente para o modelo com Stepwise
classificacaoProb <- predict(modelo,newdata=teste,type="response")
classificacaoBinaria <- ifelse(classificacaoProb > 0.5,1,0)
# Gerao da Matriz de confuso e demais mtricas para a anlise do modelo
MatrizDeConfusao<confusionMatrix(data
=
classificacaoBinaria,
reference=teste$EVADIU8, positive = "1")
print(MatrizDeConfusao)
# Curva ROC
FG <- prediction(classificacaoProb, teste$EVADIU8)
pFG <- performance(FG, measure = "tpr", x.measure = "fpr")
plot(pFG,col="blue",lwd=2,main="ROC Curve for Logistic")
abline(a=0,b=1,lwd=2,lty=2,col="gray")
aucFG <- performance(FG, measure ="auc")
aucFG <- aucFG@y.values[[1]]
aucFG
237
#
#
#
#
238
estrutura =~ var26 + var27 + var28 + var29 + var30
dialogo ~~ estrutura
dialogo ~~ autonomia
estrutura ~~ autonomia
'
file="modifiInd.csv")
239
1. Introduo
Este documento apresenta a sumarizao dos dados constantes nas bases "Treinamento"
e "Testes" usadas nos processos seguintes de aprendizado de mquina.
dados[,
10:43]
<<-
matrizsumario1
<dimnames(matrizsumario1)
"Mediana",
"Mdia",
colnames(treinamento)
length(treinamento)
matrix(NA,
nrow=linhas,
ncol=7)
(list(nomevariaveis,
c("Min.",
"1o.
Qt.",
"Desvio
Padro","3o.
Qt.","Max.")))
for
(i
in
1:linhas)
{
matrizsumario1[i,] <- round(c(min(treinamento[,i]), quantile(treinamento[,
i], 0.25), median(treinamento[, i]), mean(treinamento[, i]), sd(treinamento[,
i]),quantile(treinamento[,
i],
0.75),
max(treinamento[,
i])),2)
}
matrizsumario1
##
## var01
## var02
## var03
## var04
## var05
## var06
## var07
## var08
## var09
## var10
## var11
## var12
## var13
## var14
## var15
## var16
Max.
23.85
296.00
273.00
271.00
46.00
6.11
620.00
205.00
51.20
76.14
11.42
526.00
26.00
15.00
13.00
297.00
240
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
var17
var18
var19
var20
var21
var22
var23
var24
var25
var26
var27
var28
var29
var30
var31
var32
var33
EVADIU8
0
0
0
0
0
0
0
0
0
0
6
0
0
0
0
0
0
0
8.00
23.00
0.00
0.00
0.00
16.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
2.00
9.00
11.00
1.00
2.00
3.00
4.00
0.00
0.00
0.00
0.00
0.00
1.00
0.00
0.00
0.00
0.00 0.26
28.16
0.95
20.43
4.29
2.13
0.01
3.98
0.02
0.73
3.46
10.50
1.41
3.47
0.38
0.47
1.06
0.23
0.44
27.07
43.00
2.60
1.00
21.02
35.00
11.38
2.00
7.06
1.00
0.15
0.00
9.71
4.00
0.18
0.00
1.43
1.00
4.87
6.00
2.16
11.00
0.76
2.00
1.00
4.00
0.78
0.00
0.50
1.00
0.86
2.00
0.55
0.00
1.00
1.00
264.00
32.00
171.00
102.00
97.00
5.00
201.00
4.00
19.00
25.00
17.00
3.00
4.00
2.00
1.00
3.00
2.00
var01
var02
var03
var04
var05
var06
var07
var08
var09
var10
var11
var12
var13
var14
var15
var16
var17
var18
var19
var20
var21
241
##
##
##
##
##
##
##
##
##
##
##
##
##
var22
var23
var24
var25
var26
var27
var28
var29
var30
var31
var32
var33
EVADIU8
0
0
0
0
0
4
0
0
0
1
0
0
0
0.00
0.00
0.00
0.00
0.00
8.00
1.00
3.00
0.00
1.00
1.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
11.00
2.00
4.00
0.00
1.00
2.00
0.00
0.00
0.07
3.33
0.12
0.32
1.53
9.75
1.69
3.48
0.96
1.00
1.39
0.00
0.17
0.34
6.65
0.42
0.94
2.25
2.80
0.59
0.89
1.70
0.00
0.83
0.07
0.38
0.00
4.00
0.00
0.00
4.00
12.00
2.00
4.00
0.25
1.00
2.00
0.00
0.00
8.00
75.00
6.00
16.00
10.00
19.00
3.00
4.00
5.00
1.00
3.00
2.00
1.00
242
243
244
245
Casos de Uso: Mdulos Viso geral dos dados e Anlise de Evaso (Aba Geral)
Fluxo Principal de Eventos
Passos Aes
1
O professor seleciona o mdulo ao qual deseja fazer utilizao, entre as
opes: Viso geral dos dados, Anlise de Desempenho e Anlise de
Evaso
2
O Professor seleciona o Perodo ao qual deseja informaes
3
O professor Seleciona a Disciplina a qual deseja informaes
4
O professor visualizar o grfico por default a primeira aba (Geral)
5
Ao passar o mouse em cima da barra aparecer um hint com informaes
sobre Descrio da varivel (indicador), valor mnimo, valor mximo e mdia.
6
O usurio poder selecionar na tabela de indicadores qual indicador deseja
mostrar no grfico, para isto, a tabela dever ser um objeto reativo trocando
informaes com o grfico. Podem ser selecionadas mais de um indicador. Na
medida em que o usurio for selecionando uma varivel, sua barra mostrada
no grfico.
7
Ao selecionar a varivel na tabela reativa, dever ser plotado o grfico, com
o ttulo referente a descrio da varivel.
8
O usurio seleciona o mdulo Anlise de Evaso.
9
Ao selecionar as informaes aparecer uma tela contendo dois objetos
visuais com os percentuais de alunos na classe 0 (Baixo Risco) e da classe 1
(Alto Risco), de acordo com a varivel (EVASAO) da base.
10
O usurio poder selecionar (Por grupo ou empilhado).
11
O usurio poder selecionar Alto Risco ou Baixo Risco.
12
O usurio poder selecionar os grupos de variveis que ser mostrado
(Dilogo Autonomia e Estrutura) de acordo com o construto de cada varivel.
Fluxo Alternativo
Passos Aes
1.1
Se o usurio selecionar qualquer um dos trs mdulos o sistema dever
escolher (Curso, Perodo e Disciplina) como o primeiro curso da base, o
primeiro perodo da base e a primeira disciplina.
11.1 Caso o usurio selecione Alto Risco mostrar apenas as barras referente a esse
grupo, caso o usurio selecione satisfatrio ser mostrado apenas as barras
referente ao grupo de Baixo Risco.
246
Casos de Uso: Mdulos Viso geral dos dados e Anlise de Evaso (Aba
Indicadores)
Fluxo Principal de Eventos
Passos Aes
1
O Usurio seleciona o mdulo ao qual deseja fazer utilizao. Tendo as
opes entre: Viso geral dos dados, Anlise de Desempenho e Anlise de
Evaso
2
O Usurio seleciona o perodo ao qual deseja informaes
3
O Usurio Seleciona a Disciplina a qual deseja informaes
4
O Usurio visualizar o grfico da figura 1 por default a primeira aba (Geral)
5
O Usurio Clica na aba 2 (Indicadores)
6
O Usurio visualizar um grfico com a primeira varivel da tabela
Indicadores. No rodap de todos os grficos deve ter uma observao Clique
e arraste sobre uma regio para Zoom.
7
Ao passar o mouse em cima de alguma bolha aparecer um hint com o nome
do aluno, valor desse indicador para o aluno, valor mnimo, valor mximo, e
mdia da varivel na disciplina selecionada.
8
O usurio poder selecionar na tabela de indicadores qual indicador deseja
mostrar no grfico, para isto, a tabela dever ser um objeto reativo trocando
informaes com o grfico.
9
Ao selecionar a varivel na tabela de indicadores, dever ser plotado o grfico,
com o ttulo referente a descrio da varivel.
10
Ao selecionar um aluno, a bolha que o representa tambm ser destacada no
grfico, com seu respectivo hint.
11
As aes 7, 8, 9, 10 tambm esto disponveis para o mdulo Anlise de
Evaso.
12
O Usurio seleciona o mdulo Anlise de Evaso.
13
Ao selecionar as informaes aparecer uma tela contendo dois objetos
visuais com os percentuais de alunos na classe 0 (Baixo Risco) e da classe 1
(Alto Risco), de acordo com a varivel (EVASAO) da base.
14
O Usurio poder selecionar Alto Risco, Baixo Risco ou ambos.
Fluxo Alternativo
Passos Aes
1.1
Se o Usurio selecionar qualquer um dos trs mdulos o sistema dever
escolher (Curso, Perodo e Disciplina) como o primeiro curso da base, o
primeiro perodo da base e a primeira disciplina.
14.1 Caso o Usurio selecione Alto Risco mostrar apenas as bolhas referente a
esse grupo. Caso o usurio selecione Baixo Risco ser mostrado apenas as
barras desse grupo. Ambas as opes tambm podem ser selecionadas.
247
Casos de Uso: Mdulos Viso geral dos dados e Anlise de Evaso (Aba Alunos)
Fluxo Principal de Eventos
Passos Aes
1
O professor seleciona o mdulo ao qual deseja fazer utilizao. Tendo as
opes entre: Viso geral dos dados, Anlise de Desempenho e Anlise de
Evaso
2
O Professor seleciona o perodo ao qual deseja informaes
3
O professor Seleciona a Disciplina a qual deseja informaes
4
O professor visualizar o grfico da figura 1 por default a primeira aba (Geral)
5
O usurio poder selecionar na tabela Alunos qual aluno deseja mostrar no
grfico, para isto, a tabela dever ser um objeto reativo trocando informaes
com o grfico.
6
Ao selecionar um aluno na tabela reativa, dever ser plotado o grfico, com o
ttulo referente ao nome do aluno.
7
O usurio seleciona o mdulo Anlise de Evaso.
8
Ao selecionar as informaes aparecer uma tela [figura 3] contendo dois
objetos visuais com os percentuais de alunos na classe 0 (Baixo Risco) em
verde e da classe 1 (Alto Risco) em vermelho, de acordo com a varivel
(EVASAO) da base.
9
O usurio poder selecionar clicando na legenda somente baixo risco,
somente a frequncia do aluno, ambos ou nenhum.
10
O usurio poder selecionar os grupos de variveis que ser mostrado
(Dilogo Autonomia e Estrutura) de acordo com o construto de cada varivel.
Fluxo Alternativo
Passos Aes
1.1
Se o usurio selecionar qualquer um dos trs mdulos o sistema dever
escolher (Curso, Perodo e Disciplina) como o primeiro curso da base, o
primeiro perodo da base e a primeira disciplina.
9.1
Caso o usurio selecione Frequncia do Aluno, mostrar apenas as bolinhas
referente a esses dados, caso o usurio selecione Mdia da Turma ser
mostrado apenas as bolinhas com esses dados para cada indicador.
248
249
250
251
FROM
(SELECT * FROM mdl_logstore_standard_log WHERE "courseid" IN (SELECT * FROM
id_disciplinas) AND "userid" IN (SELECT * FROM id_alunos)
UNION
SELECT * FROM mdl_logstore_standard_log
WHERE "action"='loggedout'
AND
"userid" IN (SELECT * FROM id_alunos)
UNION
SELECT *
FROM mdl_logstore_standard_log
WHERE "action"='loggedin'
AND
"userid" IN (SELECT * FROM id_alunos)) log;
252
COALESCE(var22.var22,0)
COALESCE(var23.var23,0)
COALESCE(var24.var24,0)
COALESCE(var25.var25,0)
COALESCE(var26.var26,0)
COALESCE(var27.var27,0)
COALESCE(var28.var28,0)
COALESCE(var29.var29,0)
COALESCE(var30.var30,0)
COALESCE(var31.var31,0)
COALESCE(var32.var32,0)
COALESCE(var33.var33,0)
COALESCE(var34.var34,0)
COALESCE(var35.var35,0)
COALESCE(var36.var36,0)
COALESCE(var37.var37,0)
COALESCE(var38.var38,0)
COALESCE(var39.var39,0)
AS
AS
AS
AS
AS
AS
AS
AS
AS
AS
AS
AS
AS
AS
AS
AS
AS
AS
"var22",
"var23",
"var24",
"var25",
"var26",
"var27",
"var28",
"var29",
"var30",
"var31",
"var32",
"var33",
"var34",
"var35",
"var36",
"var37",
"var38",
"var39"
253
INNER JOIN base b ON b.aluno_id=r.useridfrom AND r.timecreated BETWEEN
b.data_inicio and b.data_final
GROUP BY b.disciplina_id, b.aluno_id) AS var04
ON var04.disciplina_id = base.disciplina_id AND var04.aluno_id =
base.aluno_id
LEFT OUTER JOIN
(SELECT b.disciplina_id, b.aluno_id, count(*) AS "var05"
FROM mdl_message_read r
INNER JOIN base b ON b.aluno_id=r.useridto AND r.timecreated BETWEEN
b.data_inicio and b.data_final
GROUP BY b.disciplina_id, b.aluno_id) AS var05
ON var05.disciplina_id = base.disciplina_id AND var05.aluno_id =
base.aluno_id
LEFT OUTER JOIN
(SELECT temp.disciplina_id, count(*) AS "var07"
FROM (SELECT b.disciplina_id,module, count(*)
FROM (SELECT distinct(disciplina_id), data_inicio, data_final FROM base)
b
INNER
JOIN
(SELECT
*
FROM
mdl_log
WHERE
"cmid">0
AND
/*Atividades*/("module"='webquestscorm'
OR
"module"='forum'
OR
"module"='quiz')) l
ON b.disciplina_id=l.course AND l.time BETWEEN b.data_inicio and
b.data_final
GROUP BY b.disciplina_id,l.module) AS temp
GROUP BY temp.disciplina_id) AS var07
ON var07.disciplina_id = base.disciplina_id
LEFT OUTER JOIN
(SELECT temp.disciplina_id, count(*) AS "var08"
FROM (SELECT b.disciplina_id,module,cmid, count(*)
FROM (SELECT distinct(disciplina_id), data_inicio, data_final FROM base)
b
INNER
JOIN
(SELECT
*
FROM
mdl_log
WHERE
"cmid">0
AND
/*Recursos*/("module"='resource' OR "module"='folder' OR "module"='glossary'))
l
ON b.disciplina_id=l.course AND l.time BETWEEN b.data_inicio and
b.data_final
GROUP BY b.disciplina_id,l.module,cmid) AS temp
GROUP BY temp.disciplina_id) AS var08
ON var08.disciplina_id = base.disciplina_id
LEFT OUTER JOIN
(SELECT temp.disciplina_id, count(*) AS "var09"
FROM (SELECT b.disciplina_id,module,cmid, count(*)
FROM (SELECT distinct(disciplina_id), data_inicio, data_final FROM base)
b
INNER
JOIN
(SELECT
*
FROM
mdl_log
WHERE
"cmid">0
AND
/*Atividades*/("module"='webquestscorm'
OR
"module"='forum'
OR
"module"='quiz')) l
ON b.disciplina_id=l.course AND l.time BETWEEN b.data_inicio and
b.data_final
GROUP BY b.disciplina_id,l.module,cmid) AS temp
GROUP BY temp.disciplina_id) AS var09
ON var09.disciplina_id = base.disciplina_id
254
LEFT OUTER JOIN
(SELECT temp.disciplina_id,temp.aluno_id, ROUND(AVG(temp.total),2) AS
"var10"
FROM (SELECT b.disciplina_id,b.aluno_id, module,cmid, count(*) AS
"total"
FROM base b
INNER JOIN (SELECT * FROM mdl_log WHERE "cmid">0 AND
/*Atividades*/
("module"='webquestscorm' AND "action"='view submission') OR
("module"='forum' AND "action"='view forum') OR
("module"='quiz' AND "action"='view') OR
/*Recursos considerados*/
("module"='resource' AND "action"='view') OR
("module"='folder' AND "action"='view') OR
("module"='glossary' AND "action"='view')) l
ON b.disciplina_id=l.course AND b.aluno_id=l.userid AND l.time BETWEEN
b.data_inicio and b.data_final
GROUP BY b.disciplina_id,b.aluno_id,l.module,cmid) AS temp
GROUP BY temp.disciplina_id, temp.aluno_id) AS var10
ON var10.disciplina_id = base.disciplina_id AND var10.aluno_id =
base.aluno_id
LEFT OUTER JOIN
(SELECT b.disciplina_id,b.aluno_id, count(*) AS "var13a"
FROM base b
INNER JOIN (SELECT * FROM mdl_log WHERE "action"='login' AND extract(hour
from to_timestamp(time)) >= 6 AND extract(hour from to_timestamp(time)) < 12)
l
ON b.aluno_id=l.userid AND l.time BETWEEN b.data_inicio and b.data_final
GROUP BY b.disciplina_id,b.aluno_id) AS var13a
ON
var13a.aluno_id = base.aluno_id AND var13a.disciplina_id =
base.disciplina_id
LEFT OUTER JOIN
(SELECT b.disciplina_id,b.aluno_id, count(*) AS "var13b"
FROM base b
INNER JOIN (SELECT * FROM mdl_log WHERE "action"='login' AND extract(hour
from to_timestamp(time)) >= 12 AND extract(hour from to_timestamp(time)) < 18)
l
ON b.aluno_id=l.userid AND l.time BETWEEN b.data_inicio and b.data_final
GROUP BY b.disciplina_id,b.aluno_id) AS var13b
ON
var13b.aluno_id = base.aluno_id AND var13b.disciplina_id =
base.disciplina_id
LEFT OUTER JOIN
(SELECT b.disciplina_id,b.aluno_id, count(*) AS "var13c"
FROM base b
INNER JOIN (SELECT * FROM mdl_log WHERE "action"='login' AND extract(hour
from to_timestamp(time)) >= 18 AND extract(hour from to_timestamp(time)) < 24)
l
ON b.aluno_id=l.userid AND l.time BETWEEN b.data_inicio and b.data_final
GROUP BY b.disciplina_id,b.aluno_id) AS var13c
ON
var13c.aluno_id = base.aluno_id AND var13c.disciplina_id =
base.disciplina_id
255
INNER JOIN (SELECT * FROM mdl_log WHERE "action"='login' AND extract(hour
from to_timestamp(time)) >= 0 AND extract(hour from to_timestamp(time)) < 6) l
ON b.aluno_id=l.userid AND l.time BETWEEN b.data_inicio and b.data_final
GROUP BY b.disciplina_id,b.aluno_id) AS var13d
ON
var13d.aluno_id = base.aluno_id AND var13d.disciplina_id =
base.disciplina_id
LEFT OUTER JOIN
(SELECT b.disciplina_id,b.aluno_id, count(*) AS "var14"
FROM mdl_webquestscorm a
INNER JOIN mdl_webquestscorm_submissions s
ON a.id=s.webquestscorm AND a.timedue >= s.timecreated
INNER JOIN base b
ON b.disciplina_id= a.course AND b.aluno_id=s.userid AND s.timecreated
BETWEEN b.data_inicio and b.data_final
GROUP BY b.disciplina_id,b.aluno_id) AS var14
ON
var14.aluno_id = base.aluno_id AND var14.disciplina_id =
base.disciplina_id
LEFT OUTER JOIN
(SELECT b.disciplina_id,b.aluno_id, count(*) AS "var15"
FROM mdl_webquestscorm a
INNER JOIN mdl_webquestscorm_submissions s
ON a.id=s.webquestscorm AND a.timedue <= s.timecreated
INNER JOIN base b
ON b.disciplina_id= a.course AND b.aluno_id=s.userid AND s.timecreated
BETWEEN b.data_inicio and b.data_final
GROUP BY b.disciplina_id,b.aluno_id) AS var15
ON
var15.aluno_id = base.aluno_id AND var15.disciplina_id =
base.disciplina_id
LEFT OUTER JOIN
(SELECT temp.disciplina_id, temp.aluno_id, count(*) AS "var16"
FROM (SELECT b.disciplina_id, b.aluno_id, r.useridto, count(*) AS
"var16_temp"
FROM mdl_message_read r
INNER JOIN base b ON b.aluno_id=r.useridfrom AND r.timecreated BETWEEN
b.data_inicio and b.data_final
INNER
JOIN
alunos
a
ON
a.aluno_id=r.useridto
AND
a.disciplina_id=b.disciplina_id
GROUP BY b.disciplina_id, b.aluno_id,r.useridto) AS temp
GROUP BY temp.disciplina_id, temp.aluno_id) AS var16
ON var16.disciplina_id = base.disciplina_id AND var16.aluno_id =
base.aluno_id
LEFT OUTER JOIN
(SELECT d.course,d.userid, SUM(d.intervalo) AS "var17" FROM
(SELECT c.course, c.userid,
CASE
WHEN c.proxima_action='login' THEN 0
WHEN c.proximo_time= NULL THEN 0
ELSE c.proximo_time - c.time END AS "intervalo"
FROM
(SELECT
a.id,a.course,a.userid,a.module,a.action,a.time,b.action
AS
"proxima_action", b.time AS "proximo_time" FROM log_reduzido a INNER JOIN
log_reduzido b ON a.userid=b.userid AND (b.id-1)=a.id) c
INNER JOIN (SELECT distinct(disciplina_id), data_inicio, data_final FROM
base) b ON c.course=b.disciplina_id AND c.time BETWEEN b.data_inicio and
b.data_final) d
256
GROUP BY d.course,d.userid) AS var17
ON var17.course = base.disciplina_id AND var17.userid = base.aluno_id
LEFT OUTER JOIN
(SELECT b.disciplina_id,b.aluno_id, count(*) AS "var18"
FROM base b
INNER JOIN (SELECT * FROM mdl_log WHERE action='login') l
ON b.aluno_id=l.userid AND l.time BETWEEN b.data_inicio and b.data_final
GROUP BY b.disciplina_id,b.aluno_id) AS var18
ON
var18.aluno_id = base.aluno_id AND var18.disciplina_id =
base.disciplina_id
LEFT OUTER JOIN
(SELECT b.disciplina_id, b.aluno_id, count(*) AS "var19"
FROM mdl_message_read r
INNER JOIN base b ON b.aluno_id=r.useridfrom AND r.timecreated BETWEEN
b.data_inicio and b.data_final
INNER
JOIN
professores
p
ON
p.professor_id=r.useridto
AND
p.disciplina_id=b.disciplina_id
GROUP BY b.disciplina_id, b.aluno_id) AS var19
ON var19.disciplina_id = base.disciplina_id AND var19.aluno_id =
base.aluno_id
LEFT OUTER JOIN
(SELECT b.disciplina_id, b.aluno_id, count(*) AS "var20"
FROM mdl_message_read r
INNER JOIN base b ON b.aluno_id=r.useridto AND r.timecreated BETWEEN
b.data_inicio and b.data_final
INNER
JOIN
professores
p
ON
p.professor_id=r.useridfrom
AND
p.disciplina_id=b.disciplina_id
GROUP BY b.disciplina_id, b.aluno_id) AS var20
ON var20.disciplina_id = base.disciplina_id AND var20.aluno_id =
base.aluno_id
LEFT OUTER JOIN
(SELECT b.disciplina_id, b.aluno_id, count(*) AS "var21"
FROM mdl_message_read r
INNER JOIN base b ON b.aluno_id=r.useridto AND r.timecreated BETWEEN
b.data_inicio and b.data_final
INNER
JOIN
alunos
a
ON
a.aluno_id=r.useridfrom
AND
a.disciplina_id=b.disciplina_id
GROUP BY b.disciplina_id, b.aluno_id) AS var21
ON var21.disciplina_id = base.disciplina_id AND var21.aluno_id =
base.aluno_id
LEFT OUTER JOIN
(SELECT b.disciplina_id, b.aluno_id, count(*) AS "var22"
FROM mdl_message_read r
INNER JOIN base b ON b.aluno_id=r.useridfrom AND r.timecreated BETWEEN
b.data_inicio and b.data_final
INNER
JOIN
alunos
a
ON
a.aluno_id=r.useridto
AND
a.disciplina_id=b.disciplina_id
GROUP BY b.disciplina_id, b.aluno_id) AS var22
ON var22.disciplina_id = base.disciplina_id AND var22.aluno_id =
base.aluno_id
LEFT OUTER JOIN
(SELECT b.disciplina_id, count(*) AS "var23"
FROM mdl_webquestscorm a
257
INNER JOIN (SELECT distinct(disciplina_id),data_inicio,data_final FROM
base) b
ON b.disciplina_id=a.course AND a.timedue BETWEEN b.data_inicio and
b.data_final
GROUP BY b.disciplina_id) AS var23
ON var23.disciplina_id = base.disciplina_id
LEFT OUTER JOIN
(SELECT temp.disciplina_id,temp.aluno_id, count(*) AS "var24"
FROM (SELECT b.disciplina_id,b.aluno_id, ip, count(*) AS "Num_Acesso_IP"
FROM (SELECT * FROM mdl_log WHERE "action"='login') l
INNER JOIN base b
ON b.aluno_id=l.userid AND l.time BETWEEN b.data_inicio and b.data_final
GROUP BY b.disciplina_id,b.aluno_id,l.ip) AS temp
GROUP BY temp.disciplina_id, temp.aluno_id) AS var24
ON var24.disciplina_id = base.disciplina_id AND var24.aluno_id =
base.aluno_id
LEFT OUTER JOIN
(SELECT p1.disciplina_id,receptor, count(*) AS "var25"
FROM posts p1
INNER JOIN professores p2 ON p2.disciplina_id=p1.disciplina_id AND
p2.professor_id=p1.emissor
INNER JOIN alunos p3 ON p3.disciplina_id=p1.disciplina_id AND
p3.aluno_id=p1.receptor
INNER
JOIN
base
b
ON
b.disciplina_id=p1.disciplina_id
AND
b.aluno_id=p1.receptor AND p1.data BETWEEN b.data_inicio and b.data_final
WHERE p1.nome_forum LIKE '%duvida%' OR p1.nome_forum LIKE '%dvida%'
GROUP BY p1.disciplina_id, receptor) AS var25
ON var25.disciplina_id = base.disciplina_id AND var25.receptor =
base.aluno_id
LEFT OUTER JOIN
(SELECT temp.disciplina_id,temp.aluno_id, ROUND(AVG(temp.total),2) AS
"var26"
FROM (SELECT b.disciplina_id,b.aluno_id, module,cmid, count(*) AS
"total"
FROM base b
INNER JOIN (SELECT * FROM mdl_log WHERE "cmid">0 AND
/*Recursos considerados*/
("module"='resource' AND "action"='view') OR
("module"='folder' AND "action"='view') OR
("module"='glossary' AND "action"='view')) l
ON b.disciplina_id=l.course AND b.aluno_id=l.userid AND l.time BETWEEN
b.data_inicio and b.data_final
GROUP BY b.disciplina_id,b.aluno_id,l.module,cmid) AS temp
GROUP BY temp.disciplina_id, temp.aluno_id) AS var26
ON var26.disciplina_id = base.disciplina_id AND var26.aluno_id =
base.aluno_id
LEFT OUTER JOIN
(SELECT temp.disciplina_id,temp.aluno_id, ROUND(AVG(temp.total),2) AS
"var27"
FROM (SELECT b.disciplina_id,b.aluno_id, module,cmid, count(*) AS
"total"
FROM base b
INNER JOIN (SELECT * FROM mdl_log WHERE "cmid">0 AND
/*Atividades*/
("module"='webquestscorm' AND "action"='view submission') OR
258
("module"='forum' AND "action"='view forum') OR
("module"='quiz' AND "action"='view')) l
ON b.disciplina_id=l.course AND b.aluno_id=l.userid AND l.time BETWEEN
b.data_inicio and b.data_final
GROUP BY b.disciplina_id,b.aluno_id,l.module,cmid) AS temp
GROUP BY temp.disciplina_id, temp.aluno_id) AS var27
ON var27.disciplina_id = base.disciplina_id AND var27.aluno_id =
base.aluno_id
LEFT OUTER JOIN
(SELECT temp.disciplina_id, count(*) AS "var28" FROM
(SELECT distinct b.disciplina_id,f.id, f.course
FROM mdl_forum f
INNER JOIN mdl_forum_discussions d ON f.id=d.forum
INNER JOIN mdl_forum_posts p ON d.id=p.discussion
INNER JOIN (SELECT distinct(disciplina_id),data_inicio,data_final FROM
base) b
ON b.disciplina_id=f.course AND p.created BETWEEN b.data_inicio and
b.data_final
WHERE f.name LIKE '%temtico%' OR f.name LIKE '%Temtico%' OR f.name
LIKE '%Tematico%' OR f.name LIKE '%tematico%') temp
GROUP BY temp.disciplina_id) AS var28
ON var28.disciplina_id = base.disciplina_id
LEFT OUTER JOIN
(SELECT b.disciplina_id, count(*) "var29"
FROM (SELECT distinct(disciplina_id) FROM base) b
INNER JOIN mdl_chat c ON b.disciplina_id=c.course
GROUP BY b.disciplina_id) AS var29
ON var29.disciplina_id = base.disciplina_id
LEFT OUTER JOIN
(SELECT b.disciplina_id, count(*) AS "var30"
FROM (SELECT * FROM mdl_resource WHERE "name" LIKE '%conferenc%' OR
"name" LIKE '%confernc%') r
INNER JOIN (SELECT distinct(disciplina_id) FROM base) b
ON b.disciplina_id=r.course
GROUP BY b.disciplina_id) AS var30
ON var30.disciplina_id = base.disciplina_id
LEFT OUTER JOIN
(SELECT b.disciplina_id,b.aluno_id, count(*) AS "var31"
FROM base b
INNER JOIN (SELECT * FROM mdl_log WHERE "action"='view forum') l
ON b.aluno_id=l.userid AND b.disciplina_id=l.course AND l.time BETWEEN
b.data_inicio and b.data_final
GROUP BY b.disciplina_id,b.aluno_id) AS var31
ON
var31.aluno_id = base.aluno_id AND var31.disciplina_id =
base.disciplina_id
LEFT OUTER JOIN
(SELECT b.disciplina_id,b.aluno_id, count(*) AS "var32"
FROM base b
INNER JOIN (SELECT * FROM mdl_log WHERE "action" = 'view section' AND
"info" = '2') l
ON b.aluno_id=l.userid AND b.disciplina_id=l.course AND l.time BETWEEN
b.data_inicio and b.data_final
GROUP BY b.disciplina_id,b.aluno_id) AS var32
259
ON
var32.aluno_id
base.disciplina_id
base.aluno_id
AND
var32.disciplina_id
260