Beruflich Dokumente
Kultur Dokumente
0034-7612
Knowledge management using data mining: a case study of the Federal Uni-
versity of Lavras
The management of knowledge embraces every form of production, storage, distribu-
tion and use of the knowledge, making necessary the use of information technologies
to facilitate the process, due to the great increase in the volume of data. An emergent
methodology that tries to solve the problem of the analysis of great amounts of data
is the knowledge discovery in database (KDD) and data mining, a technique that is
part of this methodology. This article aims to develop, apply and analyze a tool of
data mining, to extract knowledge regarding peoples scientific production involved
with the research at the Federal University of Lavras (Ufla). The methodology used
involved bibliographical research, documental research, and method of case study.
Once it was just used referring data to the scientific production of Ufla. The limitations
found in the analysis of the results indicate that it is still necessary to standardize
the completion of the Lattes curricula to refine the analyses, and establish indica-
tors. The result was the creation of a structured database, which is part of a larger
process of development of science and technology indicators, with the objective of
aiding the elaboration of new policies of scientific and technological management
and improvement of the superior education system in Brazil.
1. Introduo
por possurem uma grande quantidade de dados, possuem uma falsa sensao
de que esto bem informadas; porm essas informaes de nada servem se
no forem analisadas de forma correta e em tempo hbil.
Em outras palavras, a coleta e o armazenamento de dados, por si s, no
contribuem para melhorar a estratgia da organizao. necessrio que sejam
feitas anlises sobre essa grande quantidade de dados, estabelecendo-se indi-
cadores para descobrir padres de comportamento implcitos nos dados, assim
como relaes de causa e efeito. Processar e analisar as informaes geradas
pelas enormes bases de dados atuais de forma correta esto entre os requisitos
essenciais para uma boa tomada de deciso.
Num ambiente extremamente mutvel, como o das organizaes na
atualidade, torna-se necessria a aplicao de tcnicas e ferramentas autom-
ticas que agilizem o processo de extrao de informaes relevantes de grandes
volumes de dados. Uma metodologia emergente, que tenta solucionar o proble-
ma da anlise de grandes quantidades de dados e ultrapassa a habilidade e a
capacidade humanas, a descoberta de conhecimento em banco de dados.
Data mining, ou minerao de dados, uma tcnica que faz parte de uma
das etapas da descoberta de conhecimento em banco de dados. Ela capaz de
revelar, automaticamente, o conhecimento que est implcito em grandes quan-
tidades de informaes armazenadas nos bancos de dados de uma organizao.
Essa tcnica pode fazer, entre outras, uma anlise antecipada dos eventos, possi-
bilitando prever tendncias e comportamentos futuros, permitindo aos gestores
a tomada de decises baseada em fatos e no em suposies.
possvel extrair, por exemplo, um grande nmero de informaes teis
a partir da anlise da produo cientfica, tecnolgica e bibliogrfica desenvol-
vida na Universidade Federal de Lavras (Ufla). Para isso, foi criado um banco
de dados gerado a partir de arquivos extrados da plataforma Lattes e, poste-
riormente, foi desenvolvida uma ferramenta de data mining, utilizando os re-
cursos de um sistema gerenciador de banco de dados, para identificar padres
e tendncias, gerando base para a gesto do conhecimento na instituio.
As instituies de ensino superior (IES) so organizaes voltadas para
o conhecimento. Ao longo dos ltimos anos, diversos autores vm discutindo
como avaliar a qualidade dos servios prestados por essas instituies e nunca
se questionou tanto a qualidade e os valores cobrados por esses servios. Tem-
se acentuado a necessidade de reflexo sobre a gesto das IES, preparando-as
para as transformaes que esto ocorrendo no ambiente em que operam.
Cabe s prprias IES gerarem solues para gesto de polticas de cincia, tec-
nologia e inovao, que tenham um horizonte maior de planejamento a partir
dessa enorme massa de dados ainda subutilizados.
2. Gesto do conhecimento
Tipos de conhecimento
junto de atividades deve ter, como principal meta, o apoio ao processo decis-
rio em todos os nveis. Para isso, preciso estabelecer polticas, procedimentos
e tecnologias que sejam capazes de coletar, distribuir e utilizar efetivamente
o conhecimento, bem como representar fator de mudana no comportamento
organizacional (Tarapanoff, 2001).
Criando conhecimento
Data mining
Talvez a definio mais importante de data mining tenha sido elaborada por
Fayyad e colaboradores (1996:4): ...o processo no-trivial de identificar, em
dados, padres vlidos, novos, potencialmente teis e ultimamente compre-
ensveis.
Data mining, ou minerao de dados, uma rea de pesquisa multidis-
ciplinar, incluindo principalmente as tecnologias de bancos de dados, inteli-
gncia artificial, estatstica, reconhecimento de padres, sistemas baseados em
conhecimento, recuperao da informao, computao de alto desempenho
e visualizao de dados. Embora muita informao j exista sobre o tema, no
existe uma padronizao e classificao universalmente aceita sobre o assun-
to, de maneira a facilitar os interessados da rea na conduo de seus projetos
de pesquisa. Uma das justificativas justamente essa dimenso de novidade
do tema e sua relevncia na soluo para anlise de grandes volumes de da-
dos. Alm disso, o material existente sobre data mining possui abordagens
heterogneas, dependendo da origem ou do pblico-alvo a que se destina. O
tema estudado e abordado por profissionais de diversas reas e cada uma
possui abordagens especficas, adequadas para as suas necessidades.
Os seguintes pontos so algumas das razes pelas quais o data mining
vem se tornando necessrio para uma boa gesto organizacional: os volumes
de dados so muito importantes para um tratamento utilizando somente tc-
nicas clssicas de anlise; o usurio final no necessariamente um estatsti-
entre os dados devam ser conhecidas a priori. Ao ser aplicada a tcnica, novas
relaes entre os dados iro surgir.
A anlise automatizada e antecipada oferecida pelo data mining vai
muito alm da simples anlise de eventos passados, que fornecida pelas
ferramentas de retrospectiva tpicas de sistemas de apoio deciso. Com a
utilizao da tcnica, novas informaes de cunho explcito podem ser ge-
radas e podem fazer parte do conjunto de conhecimentos explcitos de uma
organizao, podendo servir de subsdio para gerar insights e elementos para
conhecimento tcito.
O objetivo do data mining descobrir, de forma automtica ou semi-
automtica, o conhecimento que est escondido nas grandes quantidades de
informaes armazenadas nos bancos de dados da organizao, permitindo
agilidade na tomada de deciso. Uma organizao que emprega o data mining
capaz de: criar parmetros para entender o comportamento dos dados, que
podem ser referentes a pessoas envolvidas com a organizao; identificar afi-
nidades entre dados que podem ser, por exemplo, entre pessoas e produtos e
ou servios; prever hbitos ou comportamentos das pessoas e analisar hbitos
para se detectar comportamentos fora do padro entre outros.
Em termos gerais, segundo Elmasri e Navathe (2002), a tcnica de data
mining compreende os seguintes propsitos:
t previso pode mostrar como certos atributos dentro dos dados iro com-
portar-se no futuro;
t identificao padres de dados podem ser utilizados para identificar a
existncia de um item, um evento ou uma atividade;
t classificao pode repartir os dados de modo que diferentes classes ou
categorias possam ser identificadas com base em combinaes de parme-
tros;
t otimizao do uso de recursos limitados, como tempo, espao, dinheiro ou
matria-prima e maximizar variveis de resultado como vendas ou lucros
sob um determinado conjunto de restries.
Um modelo linear tem sido utilizado para explicar o vnculo entre conheci-
mento e desempenho econmico e, a partir dele, os governos comearam a
articular polticas pblicas em relao cincia. Essa viso deu origem ao mo-
delo linear de C&T ou modelo linear de inovao, desenhado a partir de dois
aforismos: a pesquisa bsica (o conhecimento geral e um entendimento da
natureza e de suas leis) deve ser conduzida sem a preocupao com fins pr-
ticos; e a pesquisa aplicada converte as descobertas da pesquisa bsica em
inovaes tecnolgicas que vo ao encontro das necessidades da sociedade.
Ao longo de vrios anos, esse modelo influenciou largamente universidades,
porm, atualmente vem sendo questionado.
A plataforma Lattes
4. Gesto de universidades
5. Metodologia
e nos casos em que o fenmeno no pode ser estudado fora do contexto onde
naturalmente ocorre.
Yin (1989) afirma que o estudo de caso uma inquirio emprica que
investiga um fenmeno contemporneo dentro de um contexto da vida real.
De acordo com Yin (1989), a preferncia pelo uso do estudo de caso deve ser
dada quando do estudo de eventos contemporneos, em situaes nas quais
os comportamentos relevantes no podem ser manipulados, mas possvel se
fazer observaes diretas e sistemticas.
O estudo de caso de que trata este artigo foi realizado na Universidade
Federal de Lavras (Ufla), mais especificamente nos setores envolvidos com
o desenvolvimento de pesquisa cientfica. O estudo utilizou dados de fontes
secundrias como base para as anlises, extrados dos currculos de pessoas
ligadas, de forma direta e indireta, pesquisa cientfica da Ufla. Os dados fo-
ram disponibilizados pelo uso da ferramenta Lattes extrator, que faz parte da
plataforma Lattes.
Entre as etapas predefinidas da tcnica de descoberta de conhecimento
em bancos de dados (DCBD) foram realizadas:
t seleo dos dados por meio do Lattes extrator, foram selecionados e
extrados, inicialmente, mais de mil documentos da plataforma Lattes, que
continham os registros de toda a produo cientfica dos docentes, de alu-
nos, ex-alunos, mestrandos e doutorandos da Ufla, entre outras pessoas.
Em seguida, foram selecionados 575 currculos que continham dados es-
pecficos referentes s produes cientfica, tecnolgica e bibliogrfica dos
mesmos, principalmente dos professores;
t pr-processamento dos dados realizado a partir da eliminao de in-
congruncias e/ou erros dos dados (filtragem). Os dados selecionados na
etapa anterior ainda continham algumas inconsistncias, como ausncia de
especificao de campos importantes e duplicao de outras especificaes.
Filtrando-se essas informaes, o banco de dados resultante passou a conter
28.389 linhas. Nessa etapa do processo de DCBD no foi realizado o enri-
quecimento dos dados pelo fato de eles serem referentes a outras pessoas,
extrados dos documentos disponveis na plataforma Lattes, que j continha
as informaes necessrias descoberta de conhecimento proposta;
t transformao dos dados foram feitos dois tipos de codificao de dados.
O primeiro consistiu na transformao dos documentos obtidos no formato
XML (dados semi-estruturados) em documentos SQL (BD relacional), con-
tendo o cdigo de insero e os dados a serem inseridos no banco de dados.
O segundo tipo foi, basicamente, a execuo desses cdigos SQL, gerados
Resultados e discusses
O objetivo da consulta era avaliar se havia uma relao entre o tempo de con-
cluso do mestrado e o tempo de incio do doutorado. Pela imagem percebe-se
um padro de comportamento, pois a maioria das pessoas leva entre zero e
trs anos de intervalo entre esses dois tipos de ps-graduao. Nessa mesma
consulta pde-se observar a presena de outliers como pessoas que levaram
mais de 20 anos entre o mestrado e o doutorado. Essa funo envolveu a ta-
bela contendo dados gerais das pessoas e duas tabelas sobre ps-graduao.
No total, o resultado envolve 483 pessoas do banco de dados que cursaram
mestrado e doutorado.
Anlises de clusters
7. Concluso
O objetivo deste artigo foi construir e analisar uma ferramenta de data mi-
ning, como parte do processo de descoberta de conhecimento em banco de
dados, para extrair conhecimento referente produo cientfica das pessoas
envolvidas com a Ufla, por meio dos dados extrados da plataforma Lattes.
Para tanto, foi implementado um programa para transformar os dados semi-
estruturados selecionados dessa plataforma num banco de dados estruturado
criado no Oracle. A partir da, foi desenvolvida uma ferramenta automtica
de descoberta de conhecimento, utilizando a tcnica de data mining, cujos
resultados gerados foram analisados. Entende-se, portanto, que os objetivos
foram alcanados.
Os resultados considerados mais expressivos e sua anlise podem ser
assim sintetizados. Com relao s limitaes e aos problemas envolvendo os
dados extrados da plataforma Lattes:
t um dos grandes problemas encontrados para realizar a anlise dos dados
a falta de padronizao dos valores cadastrados;
t outro problema refere-se ao prprio formato do currculo Lattes, que no
deixa claro qual a funo de cada pessoa ligada instituio;
t poucas pessoas atualizam seus currculos Lattes periodicamente e, quando
atualizam, a maioria dos currculos preenchida de forma parcial.
t pessoas que no esto atuando na Ufla publicam mais do que quando esto;
o fato de no estar atuando pode significar que possa estar fazendo ps-
graduao e, por isso, tende a uma maior quantidade de produo e, con-
seqentemente, de publicao. Por outro lado, ao estarem atuando na Ufla
em atividades de ensino e direo, as pessoas tm menor disponibilidade de
tempo para a produo de trabalhos em pesquisa, conseqentemente, um
nmero menor de pesquisas e publicaes;
t a mdia de publicaes no exterior por pessoa maior para aquelas que
cursaram ps-graduao fora do Brasil;
t a maioria das publicaes foi realizada enquanto as pessoas exerciam ativi-
dades de pesquisa, seguidas pelas pessoas que exerciam atividades de ensi-
no e, por fim, enquanto exerciam atividades de direo.
Referncias bibliogrficas