Sie sind auf Seite 1von 56

UNIVERSIDADE FEDERAL RURAL DE PERNAMBUCO

UNIDADE ACADMICA DE SERRA TALHADA


BACHARELADO EM SISTEMAS DE INFORMAO




RONNIE EDSON DE SOUZA SANTOS




Tcnicas de Processamento de Linguagem
Natural Aplicadas ao Processo de Minerao
de Textos: uma Reviso Sistemtica




Serra Talhada,
2012

Ronnie Edson de Souza Santos







Tcnicas de Processamento de Linguagem
Natural Aplicadas ao Processo de Minerao
de Textos: uma Reviso Sistemtica






Projeto de Concluso de Curso apresentada ao Curso
de Bacharelado em Sistemas de Informao da
Unidade Acadmica de Serra Talhada da
Universidade Federal Rural de Pernambuco como
requisito parcial obteno do grau de Bacharel.

Orientador: Prof. MSc Ellen Polliana Ramos Souza
Coorientador: Prof. MSc Jorge S. Correia Neto







Serra Talhada
2012
































Ficha catalogrfica


S237t Santos, Ronnie Edson de Sousa
Tcnicas de processamento de linguagem natural
aplicadas ao processo de minerao de textos: uma reviso
sistemtica / Ronnie Edson de Sousa Santos. 2012.
55 f.: il.

Orientadora: Ellen Polliana Ramos de Souza.
Monografia (Bacharelado em Sistemas de Informao)
Universidade Federal Rural de Pernambuco. Unidade
Acadmica de Serra Talhada, Serra Talhada, 2012.
Inclui Referncias e apndice.

1. Textos- Minerao. 2. Linguagem natural
processamento. 3. Textos - reviso sistemtica. I.
Sousa, Ellen Polliana Ramos de. II. Ttulo

CDD 004






UNIVERSIDADE FEDERAL RURAL DE PERNAMBUCO
UNIDADE ACADMICA DE SERRA TALHADA
BACHARELADO EM SISTEMAS DE INFORMAO


RONNIE EDSON DE SOUZA SANTOS


Tcnicas de Processamento de Linguagem Natural Aplicadas ao Processo de
Minerao de Textos: uma Reviso Sistemtica


Trabalho de Concluso de Curso julgado adequado para obteno do ttulo de Bacharel em
Sistemas de Informao, defendida e aprovada por unanimidade em 06/11/2012 pela banca
examinadora.

Banca Examinadora:







DEDICATRIA

















Dedico este trabalho aos meus pais
que me deram toda a base necessria para
que eu me tornasse o homem que sou e que
hoje acompanham e iluminam meus passos
de algum lugar em outro plano.


AGRADECIMENTOS
Agradeo primeiramente ao Deus criador de todas as coisas e ao nosso senhor Jesus
Cristo pela interveno nos momentos mais difceis da minha vida e pela inspirao para a
concluso das tarefas e projetos.
Agradeo aos meus irmos Robson e Kcia e ao meu av Eloi, fonte da minha fora,
perseverana e da minha esperana, por acreditarem em mim em todos os momentos da minha
graduao e por me darem coragem para lutar pela vitria. Tambm aos meus familiares, que
mesmo distantes sempre acreditaram no meu sucesso, em especial a tia Franscisca e me
Elisa.
Agradeo ao meu melhor amigo Vanut, principal parceiro nesta jornada na
graduao e presente em todos os trabalhos, seminrios e artigos desenvolvidos ao longo
destes 5 anos. Tambm a sua famlia na qual eu fui acolhido como filho por tia Diva, tio Neno
e como irmo por Vanessa.
Agradeo a minha orientadora Prof Ellen Souza pelo acompanhmento, pelo apoio e
principalmente pela pacincia nos momentos mais difceis da construo deste trabalho.
Tambm ao meu co-orientador Prof Jorge Correia pela ateno e o apoio dispensado no
somente a este trabalho, mas a tantos outros desenvolvidos ao longo de toda a graduao.
Agradeo aos amigos sobreviventes da turma 2008.1, Andresa e Clbia
(intergrantes do Quarteto), alm de Mouglas e Thuran, os quais dividiram comigo todos
momentos bons e ruins em pelo menos todas as disciplinas obrigatrias do curso.
Agradeo tambm a cada professor que esteve a frente de alguma das 42 disciplinas
as quais eu cursei na graduao e tambm aos demais professores que trabalham para o
crescimento do curso de Sistemas de Informao e da UAST.
E finalmente agradeo a Celina, Gabriela, Ivo, Keyla, Hemerson, Janaina, Aline e
Graziella que se preocuparam e acompanharam o andamento deste. E tambm aos amigos que
estiveram prximos durante a concluso desta ltima etapa da graduao e torceram para que
este trabalho fosse bem sucedido: Manu, Camila, Cleyton, Alex, Jadson, Allan e a todos os
outros presentes tambm nos momentos necessrios para relaxar das ideias.





























O esprito sem limites o maior tesouro do
homem.
(J.K. Rowling)

RESUMO
Introduo: A minerao de textos a atividade que surgiu com o propsito de descobrir
conhecimento em dados no estruturados (textuais) que so o tipo mais recorrente de dado no
meio digital, desde a popularizao da web. Este processo utiliza alm de algoritmos prprios,
tcnicas j conhecidas e consolidadas, dentre elas o Processamento de Linguagem Natural
(PLN) tem incrementado os resultados obtidos e justificado o esforo computacional
necessrio. Objetivo: Este estudo tem como objetivo identificar e avaliar as tcnicas e/ou
algoritmos de PLN disponveis para realizar minerao em bases de dados textuais com o
intuito realizar diversas discusses sobre as tcnicas e/ou algoritmos aplicados nos ltimos
anos atravs das experincias relevantes neste contexto. Alm disso, os resultados desta
pesquisa podero ser aplicados diretamente em uma rede social especfica de carter
colaborativo, desenvolvida atravs de uma parceria entre a UFRPE e a AACD. Mtodo: Foi
utilizada a tcnica de pesquisa conhecida como Reviso Sistemtica, cujo propsito
identificar, avaliar e interpretar todos os trabalhos disponveis e relevantes sobre uma
determinada questo de pesquisa, executando um processo de reviso rigoroso, confivel e
passvel de auditagem, podendo inclusive ser replicado. A reviso sistemtica foi conduzida
em trs etapas: planejamento que incluiu o marco de avaliao do planejamento, execuo
que tambm possuiu uma avaliao e apresentao dos resultados. Resultado: Foram
encontrados 74 trabalhos em duas grandes bases de produes cientficas dos quais 24
trabalhos foram includos na pesquisa aps passarem pelos critrios de incluso e excluso
definidos pela reviso e a sua anlise forneceu evidncias com as quais pde-se elaborar uma
lista com 11 tcnicas usados em PLN e aplicadas na minerao de textos e responder as
questes definidas sobre vantagens e problemas na aplicao de cada uma, experincias no
contexto das redes sociais e recorrncia das tcnicas. Concluses: Dentre todas as tcnicas, a
ontologia se mostrou a mais eficiente, primeiramente por ter sido aplicada em diversos
contextos e segundo pelas suas caractersticas, sendo capaz de armazenar textos de modo no
ambguo em formato padronizado e de realizar a indexao semntica e a recuperao da
informao.
Palavras-chave: Minerao de textos, Processamento de linguagem natural, reviso
sistemtica.


ABSTRACT

Introduction: Text mining is an activity that raised aiming to discover knowledge in
not-structured data (textual) the most recurrent type of data in digital plan, since the
popularization of web. This process uses itself algorithms as well as known and
consolidated techniques, among which can be highlighted Natural Language Processing
(NLP) which has incremented obtained results and has justified the necessary
computational effort. Objective: This study aims to identify and evaluate the techniques
and/or NLP algorithms available to perform data mining in textual databases in order to
perform discussion about techniques and algorithms that have been applied in last years
in this context. Method: It was used the Systematic review technique, which proposes to
identify, evaluate and interpret all available and relevant works about some research
question, performing a rigorous review process, trustable and allowing to auditing, and
may even be replicated. A Systematic Review was conducted in three steps: planning
which include planning evaluation, execution which also include execution evaluation
and presentation of results. Result: It was found 74 works in two large bases of scientific
productions in which, 24 works were included in the research after being filtered by the
inclusion and exclusion criteria defined by the systematic review. The analysis of these
studies provided evidences with which it was possible to elaborate a list with 11 NLP
techniques applied in text mining, and to each of these techniques it were answered
questions about advantages and problems in application, experiences in social network
context and the use of these techniques in last decade. Conclusion: Among all
techniques, the ontology was presented as the most efficient, first for have been applied
in several contexts throughout a decade and se cond for its features, being capable to
store text in a non-ambiguous way in a standardized format and perform semantic
indexing and information retrieval.

Keywords: Text Data Mining, Natural Language Processing, Systematic review


LISTA DE ILUSTRAES
Figura 1 Etapas do processamento de linguagem natural 19
Figura 2 Processo de Reviso Sistemtica 21
Figura 3 Quantidade total de trabalhos retornados pela string de busca nas bases 29
Figura 4 Quantidade de estudos selecionados pelos critrios de incluso e excluso 29
Figura 5 Quantidade de estudos selecionados estudo empregado 29
Figura 6 Quantidade de estudos selecionados pelos critrios de incluso e excluso 30
Figura 7 Distribuio dos estudos por pas 31


LISTA DE TABELAS
Tabela 1 Tcnicas identificadas pela reviso sistemtica 34
Tabela 2 Vantagens e limitaes das tcnicas identificadas 41
Tabela 3 Distribuio de tcnicas por ano 42
Tabela 4 Construo da string de busca da reviso sistemtica 53






11
SUMRIO
1 INTRODUO 13
1.1 Motivao/ Justificativa 13
1.2 Objetivos 15
1.2.1 Objetivo Geral 15
1.2.2 Objetivos Especficos 15
2 REFERENCIAL CONCEITUAL 16
2.1 Minerao de Textos 16
2.2 Processamento de Linguagem Natural 17
2.3 Reviso Sistemtica 20
2.4 Rede Social GenNet 22
2.5 Sntese do captulo 24
3 PROCEDIMENTOS METODOLGICOS 25
3.1 Execuo da Reviso Sistemtica 25
3.2 Sntese do captulo 27
4 TCNICAS DE PROCESSAMENTO DE LINGUAGEM NATURAL APLICADAS
AO PROCESSO DE MINERAO DE TEXTOS 28
4.1 Foco das Pesquisas Primrias 31
4.1.1 Extrao de conhecimento em textos 31
4.1.2 Representao do contedo de documentos 32
4.1.3 Classificao de textos 32
4.1.4 Busca de informaes em textos 33
4.2 Respostas para as questes da reviso sistemtica 34
4.2.1 Quais so as tcnicas, algoritmos ou estruturao de dados utilizados pelo PLN
esto sendo aplicadas na minerao de textos? 34
4.2.2 De que formas so aplicadas? 35
4.2.3 Quais so as vantagens e as limitaes observadas pelas pesquisas primrias? 40
4.2.4 Qual a tcnica mais recorrente? 42
4.2.5 Existe alguma experincia do uso de PLN aplicado minerao de textos
postados em redes sociais virtuais? 43
4.3 Sntese do captulo 44


12
5 CONCLUSO 46
5.1 Consideraes finais 46
5.2 Contribuies deste trabalho 47
5.3 Proposta para trabalhos futuros 48
REFERNCIAS 49
APNDICE A PROTOCOLO DE REVISO SISTEMTICA 51
APNDICE B LISTA DE ESTUDOS PRIMRIOS USADOS NA REVISO
SISTEMTICA 54




























13
1 Introduo
Este captulo apresentado o contedo introdutrio deste trabalho. A seo 1.1
trata brevemente dos tpicos referentes motivao e justificativa para
realizao deste projeto e na seo 1.2, o objetivo geral e os objetivos especficos
da pesquisa so elucidados.
1.1 Motivao/ Justificativa
A sobrecarga de informao um fenmeno contemporneo descrito e observado a
partir do crescimento exponencial na disposio de informaes, registrada principalmente
aps a popularizao e a expanso da Internet (OLIVEIRA et al., 2011; SILVA, 2003). Neste
contexto, a maior parte dos dados disponveis est armazenada em documentos na forma de
textos escritos em linguagem natural. Como o paradigma de programao tradicional possui
uma srie de dificuldades para captar as relaes difusas e muitas vezes ambguas em
documentos de texto (MACHADO et al., 2010), novas formas de automao e extrao de
conhecimento desse emaranhado textual so, cada vez mais, objeto de estudo da Computao.
Com a finalidade de resolver problemas de descoberta de conhecimento em bases de
texto, surge a minerao de textos, oferecendo um conjunto de mtodos que permite a
navegao, organizao e descoberta inteligente de informao em bases de dados textuais.
Segundo Passos e Aranha (2006), a minerao de textos um campo multidisciplinar que
inclui subsdios da Informtica, Estatstica, Lingustica e da Cincia Cognitiva capazes de
lidar com um grande nmero de palavras e estruturas em linguagem natural.
Para o processamento de informaes pelos algoritmos computacionais, a forma
textual no a mais adequada, uma vez que no estruturada e no explicita a semntica
contida nos textos. Neste sentido, os sistemas de minerao de textos no podem
simplesmente submeter um conjunto de textos desestruturados para os algoritmos de
descoberta de conhecimento (ARANHA, 2007; GOMES, 2008). Para tal, tcnicas de
Processamento de Linguagem Natural (PLN) so empregadas com o intuito de preparar os
dados textuais, nos quais se busca algum tipo de conhecimento. Assim, o principal objetivo do
PLN prover um nvel mais alto de compreenso da linguagem natural atravs do uso de


14
recursos computacionais, com o emprego de tcnicas para o rpido processamento de texto
(MACHADO et al., 2010). Ainda com relao minerao de textos, o emprego de tcnicas e
algoritmos de PLN est associado atividade conhecida como pr-processamento, executada
logo aps a coleta dos dados (SOARES, 2008).
Atualmente, existem diferentes abordagens e tcnicas para o uso do PLN,
dependendo do que se deseja buscar, do contexto de trabalho e da qualidade do resultado a ser
produzido. A literatura apresenta experincias do uso de PLN para resolver questes como
extrao de informao, recuperao de informao, traduo automtica, gerao automtica
de texto, gerao de linguagem natural, interpretao de linguagem natural, simplificao de
texto, correo ortogrfica e reconhecimento de discussos, dentre outras (SCHNEIDER,
2001).
Segundo Aranha (2007), considerando em particular o processo de descoberta de
conhecimento, as prticas de PLN so meios agregadores de valores semnticos ao texto,
capazes de gerar diversos benefcios na busca por padres especficos. Assim, este estudo tem
como objetivo identificar e avaliar as tcnicas e/ou algoritmos de PLN disponveis para
realizar minerao em bases de dados textuais com o intuito de discutir sobre as abordagens
aplicadas nos ltimos anos, a forma de utilizao e o contexto em que foi aplicado, as
experincias relevantes neste contexto, bem como vantagens e desvantagens das tcnicas de
PLN aplicadas minerao de textos. Pretende-se ainda, identificar experincias na rea de
minerao de textos compartilhados em redes sociais virtuais, visto que estes ambientes
possuem atualmente um alto nvel de circulao de informao, principalmente na forma de
texto. Alm disso, os resultados desta pesquisa podero ser aplicados diretamente em uma
rede social especfica de carter colaborativo, a rede GenNet que foi desenvolvida atravs de
uma parceria entre a UFRPE e a AACD.
Para resolver tal problema, foi utilizada a tcnica de pesquisa conhecida como
Reviso Sistemtica, cujo propsito identificar, avaliar e interpretar trabalhos disponveis e
relevantes sobre uma determinada questo de pesquisa, executando um processo de reviso
rigoroso, confivel e passvel de auditagem, podendo inclusive ser replicado (MAFRA, 2006).
A reviso sistemtica desenvolve uma anlise crtica sobre os estudos coletados no processo
de identificao de trabalhos relacionados com a questo central a ser respondida. Assim, o
resultado da reviso possibilitar tambm a identificao de novos aspectos sobre o tema e
novas linhas de estudo.


15
1.2 Objetivos
A seguir apresentado o objetivo geral deste projeto e como o mesmo ser
implementado em termos de seus objetivos especficos.
1.2.1 Objetivo Geral
Este trabalho est pautado no desenvolvimento de uma reviso sistemtica com o
objetivo de identificar, analisar e interpretar dados que relatem o uso das tcnicas de PLN em
diversos contextos, considerando as pesquisas que buscaram explorar o uso de tcnicas de
Processamento de Linguagem Natural aplicadas minerao de textos.
1.2.2 Objetivos Especficos
Como objetivos especficos do trabalho foram determinados:
1. Realizar o levantamento da produo cientfica sobre aplicao de PLN em
minerao de texto;
2. Montar uma lista de evidncias encontradas nas experincias publicadas sobre
PLN e minerao de textos;
4. Discutir as abordagens existentes para o uso de PNL na minerao de textos
em diversos contextos;
5. Analisar as vantagens e desvantagens do uso das tcnicas de PNL aplicadas nos
ltimos anos;
6. Identificar experincias de aplicaes de PLN e minerao de textos em redes
sociais virtuais.



16
2 Referencial Conceitual
Neste captulo apresentada uma breve explanao sobre os contedos que so
abordados pelo trabalho. A seo 2.1 apresenta os conceitos e definies sobre o
processo de minerao de textos. Na seo 2.2 apresentada a tcnica de
processamento de linguagem natural, comumente utilizada no contexto da
minerao de textos. A seo 2.3 trata da abordagem metodolgica denominada
Reviso Sistemtica, que ser aplicada por este estudo para que os objetivos
sejam atingidos. Por fim, a seo 2.4 apresenta um resumo geral de todo o
referencial conceitual da pesquisa.
2.1 Minerao de Textos
O avano das tecnologias para aquisio e armazenamento de dados tem permitido
que o volume de informao gerado em formato digital aumente de forma signicativa.
Estimativas indicam que, no perodo de 2003 a 2010, a quantidade de informao no universo
digital ultrapassou cinco hexabytes e cerca de 80% desses dados esto em de texto
(REZENDE et al., 2011).
Nesse contexto, a minerao de textos uma importante abordagem aplicada na
transformao desses itens textuais em conhecimento til. Oliveira (2011) ressalta que essa
transformao baseada na investigao de padres, tendncias e regularidades de textos e
documentos em uma linguagem compreensvel, tendo como produto final a extrao de
informaes relevantes. Assim, a minerao de textos busca extrair informao de maneira
inteligente e confivel a partir de grandes volumes de dados textuais.
Minerar dados do tipo texto um mtodo interdisciplinar que envolve as reas de
recuperao de informao, aprendizagem de mquina, estatstica, lingustica computacional e
minerao de dados. Cada uma dessas reas, ou a interseco das mesmas, usada para
transformar o texto em um formato que a mquina consiga process-lo e entend-lo
(MACHADO et al., 2010). A principal diferena entre o processo de minerao de dados
tradicional e a minerao de textos que, enquanto a abordagem convencional trabalha


17
exclusivamente com dados estruturados, a minerao de textos lida com dados em linguagem
natural e que, portanto, possui pouca ou nenhuma estrutura (REZENDE et al., 2011;
SOARES, 2008).
Segundo Passos e Aranha (2006), a minerao de textos utiliza alm de algoritmos
prprios, tcnicas j conhecidas e consolidadas como:
a) Indexao: serve para realizar a busca rpida de documentos atravs de palavras-
chave. Fornece uma estrutura de dados de armazenamento inteligente que proporciona
aumento significativo de desempenho;
b) Processamento de Linguagem Natural: utiliza conhecimentos da rea de lingustica
para aproveitar ao mximo o contedo do texto, extraindo entidades e relacionamentos,
detectando sinnimos, corrigindo palavras e ainda desambiguizando-as;
c) Minerao de Dados: as tcnicas inteligentes de minerao de dados so muito teis
para identificar os conhecimentos relevantes em banco de dados organizados e pr-
processados. As tcnicas mais utilizadas so classificao e clusterizao, dentre outras.
Embora existam abordagens do processo de minerao de textos que no fazem uso
de PLN, a sua utilizao tem incrementado os resultados obtidos, justificando o esforo
computacional adicional, como afirma Aranha (2007).
2.2 Processamento de Linguagem Natural
O Processamento de Linguagem Natural surgiu devido necessidade de
compreenso automtica e comunicao em geral do ser humano com o computador. Trata-se
de um mecanismo criado no somente para extrair as informaes de textos, mas tambm para
facilitar a entrada de dados nos sistemas e a estruturao desses dados (BULEGON, 2010).
Segundo Aranha (2007), o PLN o campo da Cincia da Computao e da Lingustica que
abrange um conjunto de mtodos formais para analisar textos e gerar frases em um idioma
humano atravs do uso de programas computacionais.
Bulegon (2010) ressalta tambm a diviso do Processamento de Linguagem Natural
em quatro etapas: anlise morfolgica, anlise sinttica, anlise semntica e anlise
pragmtica, que so realizadas nesta mesma ordem.


18
A anlise morfolgica responsvel por definir artigos, substantivos, verbos e
adjetivos, armazenando-os em um tipo de dicionrio. Depois de construdo o dicionrio, a
anlise sinttica faz uso dele procurando mostrar relacionamento entre as palavras e, num
segundo momento, verifica sujeito, predicado, complementos nominais e verbais, adjuntos e
apostos. Na anlise semntica, ocorre o encontro de termos ambguos, de sufixos e afixos, ou
seja, questes de significado associados aos morfemas componentes de uma palavra, o sentido
real da frase ou palavra. Para a juno e visualizao de todas as etapas, a anlise pragmtica
faz a conexo de todo o mecanismo e mostra visualmente o resultado. Para este caso, existem
algoritmos que disponibilizam o texto em forma de rvore apresentando todos os passos
seguidos at a concluso do processamento.
A figura 1 mostra uma expresso do ponto de vista de cada etapa do processamento
de linguagem natural. Atravs desde esquema pode-se perceber que na etapa da anlise
morfolgica, cada termo da sentena foi analisado individualmente e sua funo gramatical na
orao foi reconhecida (representada por cores individualmente). Por exemplo: O (artigo),
Senhor (substantivo), Esperou (verbo).
No prximo passo, a anlise sinttica verifica o relacionamento entre as palavras
indicando, por exemplo, que artigo est se referindo a cada substantivo e tambm elementos
como o sujeito (O senhor) e o predicado da frase (esperou a esposa voltar do banco sentando
no banco). Este relacionamento apresentado por cores nos mesmos tons.
A anlise semntica destaca radicais (esper, volt, sent) das palavras e realiza
desambiguaes como no caso do termo banco. Por fim, a anlise pragmtica realiza o
processamento da expresso como um todo, podendo identificar, por exemplo, oraes de
sentido irnico.










19
Figura 1 Etapas do processamento de linguagem natural.

Fonte: Elaborada pelo autor (2012).

As abordagens atuais da PLN se dividem basicamente em quatro categorias
principais: simblica, estatstica, de conexo e hbrida (CERQUEIRA, 2010). A abordagem
simblica est ligada aos fenmenos e paradigmas da lingustica e representa, atravs de
algoritmos, as regras conhecidas na linguagem. Os mtodos estatsticos utilizam clculos
matemticos para gerar modelos e regras a partir de exemplos de textos e sentenas. O
procedimento de conexo tambm desenvolve modelos generalistas, porm este utiliza os
mtodos estatsticos para complementar os mtodos de representao de conhecimento. Por
fim, a abordagem hbrida mescla mtodos vindos de abordagens diferentes para suprir as
necessidades do sistema ou mesmo reforar seus pontos fracos.
Dependendo do tipo de sistema e da abordagem de PLN utilizada, existem diversas
tcnicas e algoritmos que podem ser empregados: aprendizado por regras, programao lgica
indutiva, rvores, algortimo de classificao nave bayes, ontologias e modelos de Markov,
dentre outros (LADEIRA, 2010).


20
2.3 Reviso Sistemtica
O termo Reviso Sistemtica refere-se a uma metodologia de pesquisa que visa obter
e avaliar um conjunto de evidncias pertencentes a um contexto especfico (BIOLCHINI et
al., 2005). Diferentemente do mtodo comum de reviso da literatura, a reviso sistemtica
possui, como o nome sugere, um conjunto de passos formais e mtodos sistemticos
executados sobre um tpico em particular com a inteno de induzir a identificao, seleo e
produo de evidncias, considerando os conhecimentos e as iniciativas existentes no campo
de interesse (MIAN et al., 2005).
Revises sistemticas so geralmente utilizadas em reas com grande incidncia de
estudos empricos, como o caso da medicina e da psicologia. Na engenharia de software,
Kitchenham et al. (2004) adaptaram o mtodo de revises sistemticas utilizado na medicina
e nas cincias sociais, produzindo um material de referncia que tem sido utilizado para guiar
a construo de revises em diversos tpicos da engenharia de software (CAVALCANTI;
SILVA, 2011).
Dessa forma, a reviso sistemtica considerada um estudo secundrio, pois se
baseia nos mtodos e resultados de outros estudos, chamados de estudos primrios, como o
caso dos surveys, estudos de caso e experimentos. O desenvolvimento de uma abordagem
sistemtica e no de uma simples reviso da literatura possibilita ao pesquisador identificar,
avaliar e interpretar pesquisas disponveis e relevantes sobre uma determinada questo, um
tpico ou um fenmeno de interesse (MAFRA; TRAVASSOS, 2006).
Para executar o desenvolvimento de uma reviso sistemtica consistente utiliza-se
obrigatoriamente um protocolo de busca de pesquisas, atravs do qual a mesma reviso pode
ser executada por outros pesquisadores interessados. Os esforos na aplicao do mtodo
atravs do protocolo de busca devem prover a identificao de relatos de pesquisas que
apoiam ou no a questo ou tpico de interesse. Neste sentido, nenhum trabalho identificado
poder ser descartado da anlise executada atravs da reviso sistemtica, cujo resultado ser
a gerao de evidncias em determinado contexto (BIOLCHINI et al., 2005).
Alm de todos estes aspectos, a reviso sistemtica no consiste em um simples
rearranjo de dados e informaes publicadas anteriormente em estudos primrios. A reviso
sistemtica tambm um tipo de abordagem metodolgica com a finalidade de integrar
resultados experimentais e a sua aplicao poder enfatizar a descoberta de problemas gerais e


21
incentivar o diagnstico e a anlise de inconsistncias encontradas ao comparar estudos
individuais (MAFRA; TRAVASSOS, 2006).
Segundo Biochini et al. (2005), o processo de reviso sistemtica pode ser dividido
operacionalmente em trs fases, como apresentado na Figura 2.

Figura 2 - Processo de Reviso Sistemtica.

Fonte: Biochini et al. (2005).

O Planejamento: o primeiro estgio do processo e est relacionado com a
formulao do problema, os objetivos e a questo que iro guiar o trabalho do pesquisador e a
definio sobre quais artigos so relevantes ou no para a pesquisa. O protocolo de
planejamento da reviso sistemtica, elaborado neste momento, contm as definies da
execuo da reviso. O marco desta etapa a aprovao do protocolo. Neste estgio podem
surgir problemas que invalidem o protocolo de planejamento se, por exemplo, grande parte
dos artigos retornados pela busca for de natureza diferente da requerida pelo protocolo;
Caso o protocolo de planejamento da reviso sistemtica seja aprovado, na etapa de
Excecuo ocorre a avaliao dos trabalhos retornados pela busca nos repositrios, utilizando
por base a questo principal a ser respondida. Tambm so definidas quais evidncias
encontradas nos estudos primrios devem ser consideradas e quais podem ser descartadas.
Nesta etapa tambm existe um marco de avaliao da excecuo que est relacionado com a
anlise e interpretao das evidncias coletadas. A questo central da pesquisa utilizada para
definir que procedimentos o pesquisador deve seguir para que possa realizar inferncias sobre
os dados obtidos.
Por fim, a Anlise dos Resultados a fase final do processo e refere-se s concluses
da reviso sistemtica. Baseado na questo central do estudo definem-se quais das
informaes obtidas sero includas e apresentadas e quais no sero. Um rigoroso processo


22
para separar o que e o que no importante aplicado, pois a omisso de informaes pode
invalidar as concluses, caso o estudo no possa ser reproduzido por outros pesquisadores.
Biochini et al. (2005) tambm definem que a atividade de empacotamento de dados e
informaes deve ser executada durante todo o processo, para possibilitar a replicao da
reviso sistemtica. Por fim, ainda importante ressaltar que mesmo parecendo sequencial, o
processo de reviso sistemtica acontece de forma iterativa.
2.4 Rede Social GenNet
Na sociedade atual existe uma crescente necessidade de realizao de tarefas e de
resoluo de problemas de forma colaborativa, estejam os atores no mesmo local e ao mesmo
tempo ou no (BRITO; PEREIRA, 2004). As ferramentas de trabalho colaborativo criam
ambientes virtuais que permitem que atividades habitualmente executadas em conjunto, por
duas ou mais pessoas, possam continuar a serem realizadas, mesmo que os indivduos estejam
fisicamente distantes (TEIXEIRA FILHO, 2002).
Este tipo de configurao em rede peculiar ao ser humano. Ele se agrupa com seus
semelhantes e vai estabelecendo relaes de interesses que se desenvolvem e se modificam
conforme sua trajetria, entre as quais, relaes de trabalho. Essas redes sociais constituem
uma das estratgias subjacentes utilizadas pela sociedade para compartilhar informaes e
experincias, mediante as relaes entre os atores que as integram (TOMAL; ALCAR; DI
CHIARA, 2005).
Os sites de redes sociais so servios web que permitem que os indivduos i)
construam um perfil pblico ou semi-pblico; ii) articulem uma lista de amigos com os quais
eles compartilham uma conexo; iii) que possam navegar pelas listas de seus amigos
buscando novos possveis amigos para sua prpria rede (BOYD; ELLISON, 2007); iv) que
troquem mensagens; v) compartilhem contedos e; vi) agreguem contedos de sites parceiros
(STROUD, 2007 apud CORREIA NETO, 2011)
A rede social GenNet est diretamente relacionada com o desenvolvimento de
processos e tecnologias, contextualizados em ambientes colaborativos, voltados para a
promoo de aes de incluso social de indivduos portadores de doenas genticas com
deficincia fsica. O conjunto de funcionalidades da rede resultado da anlise de quatro


23
grandes redes sociais, selecionadas a partir do grau de popularidade na web e tambm da
natureza dos seus servios, alm de dados obtidos atravs de entrevistas com os principais
perfis de usurios almejados pela rede: mdicos, associaes e famlias de pacientes
(SANTOS; CORREIA NETO; VILAR, 2011).
Atravs da interao com as funcionalidades apresentadas acima, o usurio do
GenNet ter acesso a:
Seo aberta ao pblico geral (enciclopdia virtual) com informaes diversas;
Tpicos de orientao sobre aes, auxlios e atividades;
Ferramentas de capacitao (ainda no disponveis na verso atual);
Perfil social do usurio na rede, no qual o usurio indica o seu tipo representao: se
mdico, associao ou outros tipos usurio (pacientes, familiares, advogados,
assistentes sociais);
Envio e recebimento de mensagens de outros participantes;
Permisso para adicionar pessoas que tenham interesse em estabelecer relaes e
tambm criar grupos de usurios para o compartilhamento de materiais;
Participao de fruns de discusso para troca de informao com outros usurios;
Espao para publicao de ideias e experincias na forma de dirio virtual (blog) que
poder ser acompanhado pelos demais usurios da rede;
Ferramentas para que os grupos de usurios possam formar estruturas em
comunidades para interao;
Mtodos com os quais os usurios possam encontrar participantes com interesses
comuns ao ingressar na rede.
Alm disso, o material compartilhado no GenNet, como postagens no dirio e os
comentrios das discusses, poder ser avaliado pelos prprios usurios da rede e ter seu
contedo indicado para outros perfis de interesse. Por isso, as prximas verses da rede social
devero ser apoiadas por tcnicas computacionais inteligentes, como algoritmos de
recomendao e tcnicas de minerao de texto e busca por contedo para melhorar a
colaborao e as aes com os usurios.


24
2.5 Sntese do captulo
O avano das tecnologias para aquisio e armazenamento de dados tem permitido
que o volume de informao gerado em formato digital aumente de forma signicativa. Nesse
contexto, a minerao de textos uma importante abordagem aplicada na transformao
desses itens textuais em conhecimento til. A minerao de textos utiliza alm de algoritmos
prprios, tcnicas j conhecidas e consolidadas como: Indexao, Processamento de
Linguagem Natural e Minerao de Dados. Embora existam abordagens do processo de
minerao de textos que no fazem uso de PLN, a sua utilizao tem incrementado os
resultados obtidos e justificado o esforo computacional adicional.
O Processamento de Linguagem Natural surgiu devido necessidade de
compreenso automtica e comunicao em geral do ser humano com o computador. Trata-se
de um mecanismo criado no somente para extrair as informaes de textos, mas tambm para
facilitar a entrada de dados nos sistemas e a estruturao desses dados. Dependendo do tipo de
sistema e da abordagem de PLN aplicada, existem diversas tcnicas e algoritmos que podem
ser empregados. Uma maneira de descobrir qual destas tcnicas a mais indicada para um
determinado contexto, atravs da realizao de reviso sistemtica.
Diferentemente do mtodo comum de reviso da literatura, a Reviso Sistemtica
possui, como o nome sugere, um conjunto de passos formais e mtodos sistemticos
executados sobre um tpico em particular com a inteno de induzir a identificao, seleo e
produo de evidncias atravs de uma metodologia de pesquisa rigorosa, confivel, imparcial
e passvel de auditagem. Tem tambm a finalidade de integrar resultados experimentais e a
sua aplicao poder enfatizar a resoluo de questes como, por exemplo, qual das tcnicas
de PLN a mais indicada para minerar texto de postagens em redes sociais.
Os sites de redes sociais so servios web que permitem que os indivduos construam
um perfil pblico ou semi-pblico, articulem uma lista de amigos, troquem mensagens,
compartilhem e agregem contedos. A rede social GenNet, por exemplo, est diretamente
relacionada com o desenvolvimento de processos e tecnologias, contextualizados em
ambientes colaborativos, voltados para a promoo de aes de incluso social de indivduos
portadores de doenas genticas com deficincia fsica. Buscando melhorar a colaborao e as
aes com os usurios, esta rede em particular precisa utilizar, por exemplo, tcnicas de
minerao de texto atravs do processamento de linguagem, pois a maior parte das
informaes trocadas na rede est na forma de texto.


25
3 Procedimentos Metodolgicos

Este captulo apresenta a estratgia de ao utilizada por esta pesquisa. A
primeira seo trata da metodologia de reviso sistemtica escolhida para ser
executada visando o alcance dos objetivos definidos. A seo seguinte apresenta
o Protocolo de Reviso Sistemtica.
3.1 Execuo da Reviso Sistemtica
Para o desenvolvimento deste trabalho, optou-se pela implementao de uma reviso
sistemtica como mtodo de pesquisa, visto a sua eficincia em vrios campos da engenharia
de software (MAFRA; TRAVASSOS, 2006). Assim, a reviso sistemtica, conforme
apresentado na seo 2.3, ser desenvolvida tomando por base os trabalhos disponveis em
grandes repositrios internacionais de pesquisas em Cincia da Computao. O guia de
referncia metodolgica de Biochini et al. (2005) foi utilizado para a conduo deste estudo e
sua escolha deve-se ao fato dele ser baseado na proposta inicial de Kitchenham et al. (2004),
pioneira na aplicao de revises sistemticas na engenharia de software, e segue o esquema
apresentado no captulo anterior.
A partir das definies do guia de desenvolvimento de reviso sistemtica
desenvolvido por Biochini et al. (2005), o mtodo utilizado para a execuo deste trabalho
consistiu em trs etapas.
3.1.1. Planejamento
Foram definidos claramente objetivos, questo central e foco da reviso sistemtica,
bem como as especificaes do problema e os termos de busca e fontes atravs dos quais os
estudos primrios foram selecionados para esta pesquisa. Para tal, o protocolo de reviso
sistemtica (apresentado no apndice A) foi criado contendo informaes do tipo critrios de
incluso e excluso de estudos primrios, idioma dos trabalhos (ingls), mtodo de busca
(automtico), tipos de trabalho e definio do procedimento de seleo de trabalhos a fim de
responder as seguintes perguntas:


26
1. Quais tcnicas, algoritmos ou estruturao de dados utilizados pelo PLN esto
sendo aplicadas na minerao de textos?
2. De que forma eles so aplicados?
3. Quais so as vantagens e as limitaes observadas nas tcnicas?
4. Qual a tcnica mais recorrente?
5. Existe alguma experincia do uso de PLN aplicado minerao de textos
postados em redes sociais virtuais?
Aps definio do protocolo, este foi avaliado pelos orientadores para que a string de
busca fosse validada e as questes de pesquisa fossem elaboradas de forma consistente. Nesta
etapa, a string de busca foi retestada nas bases, para garantir a consistncia dos dados
retornados e consequentemente da reviso sistemtica.

3.1.2. Execuo
Todos os trabalhos primrios obtidos atravs da string de busca (Apndice A tabela
4) foram avaliados tomando por base os critrios de incluso e excluso definidos no
protocolo de reviso. Neste processo, verificou-se o contedo dos estudos primrios
considerando a seguinte ordem: ttulo, resumo, concluses e texto completo.
Esta etapa permitiu que fossem selecionados apenas os estudos primrios relevantes
para o contexto desta pesquisa. Foi construda uma lista de estudos, os quais forneceram as
informaes e experincias que foram extradas para que o protocolo de reviso sistemtica
fosse respondido. Neste momento, todos os trabalhos includos nesta lista tiveram o seu
contedo completo analisado, para que nenhuma evidncia ou informao importante fosse
desconsiderada.
Neste ponto, foi necessrio verificar a consistncia da etapa de busca e seleo dos
estudos primrios. Para tanto, os orientadores da pesquisa executaram a string de busca
novamente nos repositrios de estudos primrios, selecionaram uma amostra dos trabalhos
retornados com o intuito de confirmar os resultados obtidos pelo autor.




27
3.1.3. Resultado das Anlises
Aps avaliao da execuo, os resultados foram sumarizados. Para tanto, um
protocolo de apresentao de resultados foi criado, com a inteno de apresentar as
informaes atravs de estruturas na forma de tabelas e grficos para facilitar a compreenso
das concluses.
Alm disso, foram apresentados os comentrios finais da reviso sistemtica,
contendo a quantidade de trabalhos obtidos pela busca nos repositrios e a quantidade
selecionada para a reviso, registro de qualquer tipo de tendncia de invalidao de busca,
seleo e extrao que puderam influenciar os resultados da reviso sistemtica e o contexto
em que o resultado da reviso sistemtica poder ser aplicado.
3.2 Sntese do captulo
A reviso sistemtica foi conduzida em trs etapas: planejamento que teve como
marco a avaliao do planejamento, execuo que incluiu tambm uma avaliao da execuo
e apresentao dos resultados. Sendo as etapas de avaliao realizadas em conjunto com os
orientadores.
As definies de como foi implementada a reviso sistemtica est no protocolo de
reviso, o qual contm, com as perguntas a serem respondidas por este trabalho, os termos da
string de busca e as fontes (IEEE e Capes) utilizadas para a identificao de estudos primrios
e os critrios de incluso de artigos e a forma de apresentao dos resultados (grficos, tabelas
e tpicos textuais).












28
4 Tcnicas de Processamento de Linguagem
Natural Aplicadas ao Processo de Minerao
de Textos
Neste captulo so apresentados os resultados desta pesquisa, as tcnicas de PLN
identificadas nas evidncias publicadas nos estudos primrios, bem como as
vantagens e limitaes das tcnicas. Os grficos e tabelas apresentam a
sumarizao das informaes sobre PLN e minerao de textos.

A execuo da string de busca nas fontes selecionadas para o desenvolvimento desta
pesquisa em 4 de abril de 2012 retornou um total de 74 trabalhos distribudos entre os anos de
2002 e 2011, conforme apresentado na figura 3. O filtro aplicado atravs dos critrios de
incluso e excluso dos estudos primrios ocorreu na seguinte sequencia de leitura:
primeiramente utilizando o ttulo dos trabalhos, em seguinda o abstract, as concluses e por
fim o texto completo, reduzindo o corpus inicial da pesquisa para 24 estudos como poder ser
observado na figura 4.
Atravs dos critrios de incluso e excluso foram retirados trabalhos que tratavam
de resultados referentes a apenas um dos temas deste estudo, somente PLN ou somente
minerao de textos. Tambm foram excludos estudos primrios que faziam somente
referncia e citaes aos temas, que no tratavam de uma tcnica especfica ou cuja aplicao
se dava em um idioma de estrutura diferente do ingls, como o chins e o grego. O ingls foi
o idioma escolhido como critrio de escolha dos estudos primrios, pois os peridicos e
eventos mais relevantes da rea publicam pesquisas principalmente neste idioma.
Uma informao importante a ser considerada que quatro trabalhos potencialmente
relevantes para a pesquisa no estavam acessveis nas bases e por isso no participaram da
etapa de incluso e excluso de estudos da reviso sistemtica. Nestes trabalhos s estavam
disponveis os resumos do texto, ou um esboo de apresentao do contedo.



29
Figura 3 Quantidade total de trabalhos retornados pela string de busca nas bases IEEE e Capes

Fonte: Elaborada pelo autor (2012).

Figura 4 Quantidade de estudos selecionados pelos critrios de incluso e excluso

Fonte: Elaborada pelo autor (2012).

Dentre os trabalhos selecionados, 42% (10/24) dos estudos eram de carcter terico
ou conceitual e revises da literatura, 50% (12/24) apresentavam estudos de caso e 8% (2/24)
dos trabalhos descreviam experimentos formais do uso de Processamento de Linguagem
Natural em Minerao de Textos, conforme mostrado na figura 5.

Figura 5 Quantidade de estudos selecionados estudo empregado.

Fonte: Elaborada pelo autor (2012).


30

Quanto rea de aplicao dos estudos selecionados, 54% (13/24) dos trabalhos so
da rea da Computao enquanto 46% (11/24) dos estudos primrios foram desenvolvidos na
rea mdica (figura 6).
Como evidncias na rea da medicina, podem-se citar os trabalhos relacionados com
a minerao de abstracts de trabalhos publicados em um repositrio de artigos mdicos,
identificao e classificao de termos mdicos, minerao da descrio de protenas, dentre
outras aplicaes.
No caso especfico de aplicao na rea da computao, foram identificados estudos
que exploraram as tcnicas de processamento de linguagem natural associadas minerao de
textos para realizar desambiguao de elementos em textos, anlise semntica, consulta a
banco de dados estruturados atravs de querys em linguagem natural, representao de
imagens atravs de textos extrados de legendas e sumarizao de documentos para
construo semi-automtica de apresentaes.

Figura 6 Quantidade de estudos por rea de aplicao.

Fonte: Elaborada pelo autor (2012).

De acordo com a base na qual os trabalhos foram encontrados, os anais de
conferncias forneceram 54% (13/24) e os peridicos 46% (11/24) dos estudos primrios
selecionados pelo critrio de incluso e excluso da reviso sistemtica.
Foram identificadas pesquisas sobre o tema em 11 pases, sendo 42% (10/24) dos
trabalhos de autoria dos Estados Unidos, 17% (4/24) da Inglaterra, 8% (2/24) da India e 29%
(7/24) dos trabalhos somados por Frana, Brasil, Japo, China, Alemanha, Equador e Irlanda
(um trabalho para cada pas, ou seja, 4%). Por fim, em 4% (1/24) dos trabalhos no foi
identificada a localizao geogrfica dos pesquisadores. Esta informao foi derivada atravs


31
da consulta da instituio a qual os autores do estudo estavam filiados. A Figura 6 apresenta a
distribuio dos estudos primrios por pas de origem.

Figura 6 Distribuio dos estudos por pas.

Fonte: Elaborada pelo autor (2012).
4.1 Foco das Pesquisas Primrias
Os trabalhos selecionados para a reviso sistemtica fazem uso de Processamento de
Linguagem Natural para minerar textos com a inteno de prover o desenvolvimento de
diversas atividades. Dentre estas atividades, esto a extrao de conhecimento em dados do
tipo textual, representao do contedo de documentos, classificao de textos, busca em
textos e outros processos semnticos. Deve-se ressaltar que estes processos no
necessariamente ocorrem de forma isolada, tendo sido encontradas evidncias de experincias
que combinam estas atividades, dependendo do resultado desejado.
4.1.1 Extrao de conhecimento em textos
A extrao de conhecimento em textos uma evidncia que pode ser descrita como a
atividade na qual os pesquisadores procuram retirar informaes de um documento para
aplicao em um dado contexto e a identificao de padres em documentos, por exemplo,
que termo est geralmente associado a determinado tema, ou contedo.
Neste processo deve-se considerar a importncia do PLN para a desambiguao de
termos, a combinao de sinnimos e a importncia de palavras que descrevem o mesmo
sentido. Extrair conhecimento em textos requer elementos tericos da rea da Lingustica, no


32
sentido de que palavras pertencentes a uma sentena devem ser capturadas sem perder a sua
representatividade lxica, sinttica e semntica no contexto.
Dentre as experincias de extrao de conhecimento, foram encontradas aplicaes
de processamento de textos para minerar abstracts de trabalhos cientficos a fim de descobrir
a relevncia de determinada pesquisa, alm de evidncias de utilizao de PLN para
reconhecimento, interpretao e processamento de opinies e sentimentos escritos em
linguagem natural.
4.1.2 Representao do contedo de documentos
Considerando que a maior parte dos documentos disponvel na web processvel,
mas no entendveis por mquinas, os estudos primrios apontam que a atividade de
representao da informao relevante em textos, continua sendo uma tarefa complicada. Um
problema comum deste tpico a representao de um documento extenso atravs de apenas
uma frase, ou um conjunto de termos que determinem o contedo do texto.
Neste contexto, utiliza-se geralmente uma abordagem na qual palavras-chave
frequentemente encontradas no texto pode representar o contedo de um documento por
completo. No entanto, essa tcnica conhecida como keywording pode apresentar problemas,
principalmente se for considerado o relacionamento direto entre a incidncia de uma palavra
no contexto e a sua importncia, alm do efeito produzido pela ambiguidade dos termos do
documento.
Ao se aplicar tcnicas de Processamento de Linguagem Natural para minerar textos a
fim de representar o contedo presente em documentos, pode-se realizar indexao dos
termos de forma mais significativa, reduzindo consideravelmente o grau de ambiguidade entre
as palavras encontradas e aumentando a eficcia da recuperao da informao necessria na
representao dos documentos.
4.1.3 Classificao de textos
Pode-se definir a atividade de classificao de textos, como a distribuio de um
conjunto de documentos em categorias distintas, dependendo da informao contida no texto.
Esta evidncia envolve as pesquisas da rea mdica que na ltima dcada apresentou um


33
considervel crescimento de novos termos (palavras), criados para a definio de conceitos
recm-identificados ou variaes de termos j existentes na literatura. Nesta realidade, a
terminologia um elemento essencial, pois atravs dela pode-se desenvolver o estudo dos
termos e as suas aplicaes em contextos especficos.
Este tipo de estudo permite que palavras possam ser reconhecidas, conectadas e
organizadas em categorias de termos formando classes de palavras e estruturas do tipo rede de
termos, em sistemas de armazenamento de produes bibliogrficas, por exemplo. No
entanto, para que novos termos descobertos sejam adicionados a uma estrutura j existente, a
classificao baseada no significado o primeiro passo para a construo de estruturas
semnticas que possuam associaes entre as palavras atravs de links para identificao de
termos correlacionados e generalizao de sinnimos na mesma classe.
Assim, tcnicas automticas de reconhecimento e classificao de termos podem
auxiliar o processo de criao e manuteno de sistemas de armazenamento de documentos
atravs da especificao da terminologia dos termos, sobretudo na rea mdica, na qual
tcnicas manuais no conseguem lidar com a classificao do nmero crescente de termos e
da estrutura complexa de terminologias biomdicas.
4.1.4 Busca de informaes em textos
Na busca de conceitos e informaes em textos, as abordagens para a captura da
informao semntica ainda envolvem intermedirios humanos, exigindo tarefas como a
etiquetagem de termos. Entretanto, a utilizao de tcnicas de PLN e minerao de textos
pode melhorar o processamento de investigao de informaes em dados textuais.
A evidncia encontrada neste contexto pela reviso sistemtica trata de um sistema
de perguntas e respostas que se utiliza da minerao e do PLN para buscar em um documento
de texto a resposta mais coerente, dada uma determinada pergunta. A busca ocorre dentro do
texto e identifica que pargrafo pode ser utilizado como resposta da questo.
Desta forma, ao invs de buscas feitas por palavras-chave, podem ser buscados
termos relacionados com os de uma consulta realizada, considerando a semntica e tambm
questes de ambiguidade de palavras e sinnimos, dentre outras caractersticas que possam
deixar a busca mais parecida com a linguagem natural.



34
4.2 Respostas para as questes da reviso sistemtica
Nesta seo so apresentadas as respostas para as perguntas definidas no protocolo
de reviso sistemtica, que foram definidas atravs das evidncias observadas nas
experincias publicadas nos estudos primrios selecionados para a reviso.
4.2.1 Quais so as tcnicas, algoritmos ou estruturao de dados
utilizados pelo PLN esto sendo aplicadas na minerao de
textos?
Por meio da anlise das evidncias encontradas na metodologia, nos resultados e nas
concluses dos estudos primrios, pde-se elaborar uma lista (Tabela 1) de tcnicas,
algoritmos e estruturao de dados usados em PLN e aplicados na minerao de textos para
resolver questes de extrao, representao, busca e classificao dos estudos primrios.
No entanto, deve-se salientar que nem todos os trabalhos primrios mostram de
forma detalhada o uso da tcnica, muitas vezes ocultando informaes como a forma com a
qual os dados textuais so estruturados ou como a tcnica foi avaliada e escolhida para o
estudo.
A sigla PLNMT utilizada neste estudo para indicar a ordem a qual o artigo foi
includo atravs dos critrios da reviso sistemtica.

Tabela 1 Tcnicas identificadas pela reviso sistemtica.
Tipo Nome Trabalho primrio
Tcnica Stemming [PLNMT 8]
Vetores [PLNMT 1] [PLNMT 4]
[PLNMT 12]
Raciocnio Baseado em Casos [PLNMT 7]
Term Connection [PLNMT 6]
Teoria da Possibilidade [PLNMT 13]
Latent Semantic Indexing [PLNMT 14]
Algoritmo Agrupamento de Markov [PLNMT 12]


35
Naive Bayes [PLNMT 7] [PLNMT 10]
Estruturao Gramtica Livre de Contexto [PLNMT 5]
rvore [PLNMT 3]
Ontologia [PLNMT 1] [PLNMT 2] [PLNMT 3]
[PLNMT 7] [PLNMT 9]
[PLNMT 11] [PLNMT 14] [PLNMT 15]
[PLNMT 16] [PLNMT 17]
[PLNMT 18] [PLNMT 19] [PLNMT 20]
[PLNMT 21] [PLNMT 22]
[PLNMT 23] [PLNMT 24]
Fonte: Elaborada pelo autor (2012).
4.2.2 De que formas so aplicadas?
Stemming
Stemming uma tcnica a aplicada s listas de palavras-chave para remover termos
no descritivos e concentrar palavras relacionadas em um determinado contexto. Assim, o
texto pr-processado para a remoo de capitalizao, pontuao e strings que contm
caracteres especiais. Permite inferir diferentes formas para uma mesma palavra mapeada e
com isso possvel encontrar mais informaes sobre um mesmo tpico sem a necessidade do
uso de variaes lingusticas (plural, flexo de gnero e nmero, entre outros).
Presente em somente um estudo, do total de pesquisas analisadas pela reviso
sistemtica, pode-se observar a utilizao desta tcnica em experincias que visam extrair
informaes e padres em textos atravs do mapeamento e anlise da frequncia com que
termos so encontrados em documento.
Um exemplo simples da aplicao da tcnica a reduo dos termos "fishing",
"fished", "fish", "fisher" para o radical comum "fish".






36
Vetores
Seja C um conjunto finito de conceitos, ento um vetor conceitual V a combinao
linear desses elementos. Por exemplo, os diferentes significados do elemento porta no vetor V
podem ser projetados pelos seguintes conceitos (CONCEITO [intensidade da ocorrncia]):
V(porta) = (ABERTURA [0,3], BARREIRA [0,31], PORTO [0,33], EXTERIOR [0,35],
INTERIOR [0,37]). Na prtica, o maior conceito o que tem maior significado para o
contexto e podem ser utilizadas as operaes comuns entre vetores.
Esta tcnica eficiente em atividades de classificao temtica de termos, podendo
ser aplicada na substituio de palavras e na aproximao semntica, pois possui resultados
bastante satisfatrios com sinnimos e antnimos de palavras. Alm disto, a aplicao dos
vetores pode acontecer de forma isolada e tambm apoiado a outras tcnicas como o
algoritmo de naive bayes e a aplicao de regras.

Raciocnio Baseado em Casos
Por ser baseada na lembrana de experincias especficas que possam ser teis para
que o problema (caso) a ser resolvido, nesta tcnica aplica-se a hiptese de que problemas
similares tendem a ter solues semelhantes. Portanto, a avaliao dessa similaridade a
chave desta tcnica. A avaliao depende do domnio do problema e da representao, aonde
cada caso corresponde a uma resposta e necessrio aproximar matematicamente as solues.
Raciocnio baseado em casos particularmente eficiente para resoluo de
problemas de classificao de termos, sobretudo quando o contexto rene elementos da
linguagem natural. Pode ser usado como um mecanismo inteligente para processamento de
texto, minerao e recuperao da informao.
Esta tcnica esteve associada ao uso de ontologias e do algoritmo naive bayes e foi
observada em apenas uma pesquisa primria que tratou da classificao de documentos de
uma base mdica.

Term Connection
Atravs desta tcnica o processamento ocorre primeiramente com o reconhecimento
da estrutura do texto, depois com a execuo da desambiguao das palavras e, por fim, com
o significado semntico dos termos. A Term Connection fundamentada no princpio de que


37
se deve averiguar significados semnticos inerentes dos termos ao fazer anlise do contexto
semntico de acordo com a ordem da associao das palavras.
A tcnica denotada por P = {t
a
, R, t
b
}, sendo t
a
e t
b
a representao dos

termos da
sentena e t
a
a palavra que aparece antes de t
b
. Neste esquema, R o relacionamento entre
estes dois termos e representa o significado da relao dos termos num contexto especfico.
Assim possvel determinar quais so os termos principais e quais so os termos
subordinados em uma sentena qualquer.
A Term Connection foi uma tcnica observada em apenas um estudo primrio, dentre
o total coletado pela reviso sistemtica, e foi associada a estruturas como rvores, grafos e
mquinas de estado, aplicada no contexto da representao da informao contida em
documentos.

Teoria da Possibilidade
Esta tcnica foi utilizada em apenas um estudo primrio, no processo de extrao do
significado e das informaes contidas em documentos em linguagem natural que pertencem
a um conjunto de domnios especficos. Os textos em linguagem natural so divididos em trs
unidades (sujeito - verbo objeto) que so representadas na forma de palavras-chave e
posteriormente agrupadas como eventos.
A tcnica analisa, por exemplo, dadas duas sentenas O ser humano um primata
e Ns podemos ser felizes, a ocorrncia do termo ser nos dois eventos e a probabilidade
do termo fazer parte do conjunto de sujeitos ou de predicados das sentenas encontradas no
texto.

Latent Semantic Indexing
A tcnica encontrada em apenas um estudo primrio usada para lidar com
imperfeies deixadas pelas ontologias no processo de extrao de conhecimento. O texto
estruturado de modo a eliminar todos os tipos de pontuao, formando assim um documento
somente com termos ou palavras-chave. Estas palavras so utilizadas para formar uma matriz
de termos e a cada termo atribudo um peso para mostrar a importncia desse elemento.



38
Algoritmo de Agrupamento de Markov
As evidncias consideram este algoritmo muito rpido e escalvel, sendo aplicado
como forma de evitar o uso direto de PLN. O algoritmo foi aplicado para representar o
relacionamento entre os termos atravs do agrupamento de grafos formados por termos
provenientes de vetores e, desta forma, extrair informaes de documentos e criar uma lista
indexada com dados de cada texto processado. Este algoritmo complementado por outras
tcnicas de PLN, como o raciocnio baseado em casos e o algoritmo de classificao nayve
bayes, e foi observado em apenas dois estudos primrios.

Algoritmo Naive Bayes
O algoritmo de classificao Naive Bayes aplicado para maximizar a probabilidade
de um determinado termo poder ser associado a uma classe especfica baseada nas suas
caractersticas e na caracterstica da classe. A aplicao do algoritmo foi observada em dois
estudos primrios, e em ambos foi utilizado como uma abordagem complementar de outras
tcnicas, como apoio da tcnica de raciocnio baseado em casos ou como fator de otimizao
dos resultados obtidos por ontologias.

Ontologias
No processamento de linguagem natural atravs de ontologias, as palavras so
agrupadas e classificadas segundo uma ontologia de domnio (domain-specific ontology), de
forma que as sequncias que tiverem o mesmo significado apresentem a mesma
representao. As tarefas que envolvem o uso de ontologias em processamento de textos so:
Extrao do domnio relevante da terminologia e sinnimos;
Descoberta de conceitos que podem ser considerados como abstraes do pensamento
humano e derivar uma hierarquia de conceitos para organiza-los;
Extenso da hierarquia de um conceito existente adicionando novos conceitos;
Aprendizagem no-taxonmica de relacionamentos;
Extrao do domnio relevante da terminologia e sinnimos;
Extrao de instncias de relaes e conceitos;


39
Descoberta de outras relaes axiomticas ou regras que envolvem conceitos e
relaes.
Foi observado que outras tcnicas so utilizadas em conjunto com as ontologias,
como aconteceu com as tcnicas de raciocnio baseado em casos e a tcnica latent semantic
indexing. A ontologia pode utilizar tambm abordagens complementares ao seu escopo, como
o algoritmo de classificao naive bayes e as rvores semnticas e outras tcnicas ou
envolvimento humano para estruturao de dados.

rvores
A rvore aplicada para representar relacionamentos lgicos entre as palavras em
uma sentena. Atravs dos estudos primrios pde-se perceber que este tipo de estrutura
associado a ontologias de domnio pode ser utilizado para extrair informaes de um
determinado contexto.

Gramtica Livre de Contexto
As regras da Gramtica Livre de Contexto so usadas como analisador para detectar
frases e termos-chave que possam representar um documento de texto, dado que a maioria das
estruturas do texto de linguagem natural pode ser eficazmente descrita usando gramtica livre
do contexto.
Como as palavras podem ter mltiplos sentidos (como substantivo, verbo, adjetivo),
o analisador deve consultar todas as combinaes possveis de sentidos dos termos, antes de
realizar anlises em nvel de sentena. Neste esquema, os espaos em branco podem ser
usados como delimitadores.
Um exemplo simples de uma regra que pode ser criada para representar uma
sentena atravs da gramtica livre de contexto S-> Art Subst V Adj. Ou seja, qualquer
frase formada por um artigo, seguido de um substantivo e posteriormente de um verbo e um
adjetivo, pode ser representada por esta regra. No entanto, seria necessria a criao de vrias
outras regras que processassem as diversas formas em que as sentenas poderiam aparecer no
documento.


40
4.2.3 Quais so as vantagens e as limitaes observadas pelas
pesquisas primrias?
Embora alguns autores no apresentem explicitamente as vantagens e limitaes do
uso das tcnicas quando aplicadas para resolver questes de processamento de textos, foi
possvel analisar os resultados e as concluses dos estudos primrios e extrair algumas
informaes relevantes neste contexto.
A Tabela 2 abaixo mostra resumidamente as vantagens e limitaes das tcnicas
usadas nos trabalhos analisados. Apesar de apresentar vantagens relevantes, algumas das
tcnicas identificadas s foram aplicadas em um nico estudo primrio, ou seja, existem
poucas evidncias que comprovem realmente o efeito da tcnica no contexto do
processamento de linguagem natural, diferentemente no caso de ontologias (tcnica recorrente
em muitos estudos).
Pode-se, no entanto, apresentar uma lista mais detalhada de vantagens e
desvantagens de algumas tcnicas, segundo os relatos nos estudos primrios:
Apesar de oferecer uma grande reduo do conjunto de dados textuais a serem
processados, stemming uma tcnica que necessita de maior investigao, pois ao
final do seu processamento muitos radicais idnticos podero ser produzidos,
principalmente quando verbos so processados. Alm disso, outro problema que pode
surgir a formao de radicais que no representem o conjunto total de palavras
derivadas do termo;
A tcnica que utiliza vetores funciona muito bem para vetores que foram calculados a
partir de definies hipernicas. Mas para termos muito gerais a eficincia do vetor
reduzida;
Mesmo exigindo muitos recursos e esforos, a tcnica de raciocnio baseado em casos
tem uma grande vantagem que a capacidade de aprender atravs do armazenamento
de problemas de classificao recentemente resolvidos;
A tcnica baseada em term connection coloca nfase na anlise semntica, comeando
com a anlise de sentena e, posteriormente, do discurso, sendo capaz de processar
aparies irregulares da linguagem em textos reais como da poesia;


41
A aplicao da teoria da possibilidade apresentou bons resultados no estudo primrio,
porm o problema dos dados esparsos foi observado. Este problema comum em
tcnicas estatsticas usadas em PLN, pois mesmo grandes colees de texto podem no
gerar estimativas confiveis da probabilidade de eventos;
O algoritmo de agrupamento de Markov tem como vantagens o fato de ser no-
supervisionado, rpido e escalvel. No entanto, o algoritmo ao ser aplicado adequado
a um contexto especfico de dados, podendo se tornar ineficiente em outro;
No caso das ontologias, pode-se inferir que atravs delas a informao necessria e
adquirida atravs de textos em linguagem natural pode ser armazenada de modo no
ambguo em formato padronizado, o que descreve o conhecimento em um modelo
formal. Alm disso, ontologias permitem a indexao semntica e a recuperao da
informao, fornecendo meios de fuso de dados por sinnimos ou conceitos definidos
usando vrias descries. A tcnica pode apresentar, no entanto, necessidade de
melhoria contnua no sentido de aprimorar o modelo em aspectos de escopo,
relacionamentos ou granularidade.
Tabela 2 Vantagens e limitaes das tcnicas identificadas.
Nome Vantagem Limitao
Stemming
Reduo do tamanho de
dados textuais
Pouca clareza e necessidade
de maior investigao
Vetores

Bons resultados para termos
hipernimos

Pouco eficiente para
contextos genricos
Raciocnio Baseado
em Casos

Aprendizagem incremental

Muitos recursos requeridos
Term Connection nfase na semntica No identificado
Teoria da
Possibilidade

Boa performance

Dados esparsos
Latent Semantic
Indexing
Lida com imperfeies da
ontologia

No identificado
Agrupamento de
Markov

Mtodo no-supervisionado

Dependente de contexto
Naive Bayes
Potencializa o poder de
outras tcnicas

No identificado
Gramtica Livre de
Contexto
Mais eficiente que mtodos
estatsticos
No aplica semntica aos
dados
rvore

No identificado
Relevante quantidade de
erros identificados
Ontologia
Flexibilidade de aplicao
em diversos contextos:
extrao, classificao,

Pode requerer melhoria
contnua


42
busca, dentre outros.
Fonte: (Elaborada pelo autor, 2012)
Alm das evidncias apresentadas acima, pode-se concluir que outra grande
vantagem do uso de ontologias est no fato da tcnica possuir vrias experincias publicadas
em diversos aspectos da minerao de textos em linguagem natural ao longo da ltima
dcada. Enquanto isso, outras tcnicas no foram muito exploradas no mesmo perodo, apesar
de apresentarem relevantes vantagens.
4.2.4 Qual a tcnica mais recorrente?
Pode-se perceber que a ontologia a tcnica de PLN mais utilizada para minerao
de texto na ltima dcada (tabela 3), sendo aplicada em quase todos os anos durante o perodo
composto entre 2001 e 2011. Neste intervalo, a tcnica foi aplicada tanto como nica
abordagem, quanto foi complementada com outras tcnicas identificadas.
Outras abordagens identificadas nos estudos primrios, apesar de oferecerem grandes
vantagens e resultados satisfatrios, no possuem tanta incidncia de utilizao quantos as
ontologias. Alm disso, em alguns casos como das tcnicas de stemming, rvores e a
gramtica livre de contexto, a aplicao ocorreu apenas uma vez e no incio do perodo
compreendido pelo estudo.
Tabela 3 Distribuio das tcnicas por ano.
Tcnica 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011
Stemming
Vetores
RBC
Term Connection
T. Possibilidade
LSI
Markov
Naive Bayes
GLC
rvore


43
Ontologia
Fonte: Elaborada pelo autor (2012).
Assim, as evidncias mostram que as ontologias tm sido frequentemente utilizadas
ao longo dos 10 anos compreendidos pela reviso sistemtica, sendo que, nos ltimos 3 anos,
as pesquisas identificas envolveram somente a aplicao desta tcnica. As ontologias foram
aplicadas em mais da metade dos trabalhos analisados para a extrao de informao de dados
no-estruturados, para representao do contedo de textos, para realizar buscas em
documentos e tambm no processo de classificao de textos.
A razo para a popularidade da aplicao tcnica para minerar textos em linguagem
natural o fato das ontologias proverem um vocabulrio para representao do conhecimento
e um conjunto de conceitos que o sustenta, impedindo desta maneira que interpretaes
ambguas ocorram.
Alm disso, a ontologia permite que uma definio exata da informao seja
estabelecida, possibilitando assim sua escrita em linguagem formal, evitando que espaos
semnticos existentes na linguagem natural sejam processados de modo equivocado. Ou seja,
uma determinada palavra mapeada em uma ontologia de domnio especfico no ter outro
significado.
4.2.5 Existe alguma experincia do uso de PLN aplicado minerao
de textos postados em redes sociais virtuais?
Ao longo da ltima dcada no foram encontradas pesquisas que abordassem o uso
de tcnicas de processamento de linguagem natural para minerar textos postados em redes
sociais virtuais. No entanto, mesmo no tendo sido evidenciada diretamente a aplicao das
tcnicas de PLN especificamente em redes sociais, existe uma evidncia que apresenta
informaes de relativamente importncia neste contexto.
O trabalho [PLNMT 21] trata de um paradigma conhecido como Sentic Computing,
um novo paradigma de minerao e anlise de opinio e sentimento que explora tcnicas da
Inteligncia Artificial e da Web Semntica para melhor reconhecer, interpretar e processar as
opinies e sentimentos em um texto de linguagem natural. Baseado em ontologias, o
processamento textual interpreta os mais comuns indicadores de valncia afetiva contidos em


44
linguagem natural, como por exemplo, pontuao especial, palavras de exclamao, advrbios
de grau e emoticons. A tcnica foi utilizada em uma experincia para extrair informao
estruturada diretamente a partir de opinies de pacientes de um site.
Atravs da anlise deste estudo conclui-se que este mtodo baseado em ontologias
poderia ser utilizado para minerar postagens em redes sociais virtuais, uma vez que a forma
de interao dos usurios em redes sociais virtuais acontece de forma natural, aonde
predominam opinies e sentimentos nos textos postados em fruns de discusso, comunidades
ou mensagens trocadas diretamente com outro usurio.
Para tal, pode-se utilizar a estrutura de modo a construir conceitos e fornecer, para
cada um deles, a freqncia relativa e a ocorrncia do conceito no texto, sua conotao
(positiva ou negativa), e o grau de intensidade com que o conceito expresso.
4.3 Sntese do captulo
A execuo da string de busca nas fontes selecionadas para o desenvolvimento desta
pesquisa em 4 de abril de 2012 retornou um total de 74 trabalhos distribudos entre os anos de
2002 e 2011. O filtro realizado atravs dos critrios de incluso e excluso dos estudos
primrios reduziu o corpus inicial da pesquisa com 24 estudos.
Os trabalhos selecionados para a reviso sistemtica fazem uso de Processamento de
Linguagem Natural para minerar textos com a inteno de prover o desenvolvimento de
diversas atividades como a extrao de conhecimento em dados do tipo textual, representao
do contedo de documentos, classificao de textos, busca em textos e outros processos
semnticos.
Por meio da anlise das evidncias encontradas na metodologia, nos resultados e nas
concluses dos estudos primrios pde-se elaborar uma lista de tcnicas, algoritmos e
estruturao de dados usados em PLN e aplicadas na minerao de textos: stemming, vetores,
raciocnio baseado em casos, term connection, teoria da possibilidade, latent semantic
indexing, agrupamento de Markov, naive bayes, gramtica livre de contexto, rvores e
ontologias.
Destas tcnicas, a ontologia se mostrou a mais eficiente, primeiramente por ter sido
aplicada em diversos contextos ao longo de uma dcada e segundo pelas suas caractersticas,


45
sendo capaz de armazenar textos de modo no ambguo em formato padronizado e de realizar
a indexao semntica e a recuperao da informao, fornecendo meios de fuso de dados
por sinnimos ou conceitos definidos. No entanto, a tcnica pode apresentar a necessidade de
melhoria contnua no sentido de aprimorar o modelo em aspectos de escopo, relacionamentos
ou granularidade.
No foi identificada nenhuma experincia de aplicao de PLN e minerao de
textos para redes sociais virtuais, porm uma importante evidncia foi observada com o uso
de ontologias aplicadas no contexto de Sentic Computing para minerao de opinies e
sentimentos de usurios em um site, informaes relevantes ao se considerar a minerao de
publicaes em redes sociais virtuais as quais ocorrem de modo semelhante.
Assim, pde-se perceber que a ontologia a tcnica de PLN mais utilizada para
minerao de texto na ltima dcada, sendo aplicada em quase todos os anos durante o
perodo composto entre 2001 e 2011.













46
5 CONCLUSO
Neste captulo apresentam-se as consideraes finais sobre o trabalho
desenvolvido nesta monografia. Na seo 5.1 so apresentas as consideraes
finais sobre o trabalho. Na seo 5.2 so descritas as contribuies desta
monografia e na seo 5.3 algumas propostas para trabalhos futuros.
5.1 Consideraes finais
Esta reviso sistemtica foi realizada tendo com base os 24 estudos primrios
selecionados atravs de critrios de incluso e excluso dentre 74 trabalhos que foram
retornados pela string de busca. As perguntas de pesquisa da reviso sistemtica
definidas no protocolo foram todas respondidas, exceto no caso do uso de tcnicas de
processamento de linguagem natural na minerao de redes sociais virtuais. Neste caso
particular, no foi identificado nenhum estudo que tratasse exclusivamente deste tema,
porm um dos trabalhos fazia grande referncia a um contexto similar ao das redes
sociais virtuais, a minerao de opinio e sentimentos.
Foram identificadas um total de 11 tcnicas utilizadas para extrao de padres
e conhecimentos em textos, bem como para a representao de contedo, busca e
classificao de termos. Dentre estas tcnicas, a que apresentou maiores vantagens foi a
ontologia, aplicada para processar textos em linguagem natural durante toda a dcada
compreendida por este estudo. A tcnica pode, inclusive, ser aplicada para minerao de
textos de redes socias, um contexto em que predominam postagens com opinies e
expresses de sentimento.
Para tal, deve-se considerar a importncia do planejamento do domnio da
ontologia, de modo a evitar a presena de palavras ambiguas. A melhor forma de desviar
os problemas com ambiguidade de termos no processamento de linguagem natural
criando um domnio consistente, no qual os conceitos existentes e as suas relaes
possam representar cada termo de forma nica, evitando os casos com lacunas existentes
na natureza da semntica das palavras.


47
Pode-se considerar ainda o uso de tcnicas complementares que possam ampliar
a capacidade do processamento de textos com ontologias. O uso do algoritmo de
classificao nayve bayes poder aumentar a probabilidade de um determinado termo
pertencer a um domnio. A tcnica latent semantic indexing capaz de lidar com
algumas das imperfeies geradas pela definio do domnio da ontologia. E finalmente,
a tcnica term conection que pode lidar com irregularidades nos textos. Neste ltimo
caso a associao com as ontologias poderia produzir melhores resultados no
processamento de textos de redes sociais, no entanto faz-se necessaria a elaborao de
um estudo para investigar essa combinao de tcnicas.
Ainda deve-se destacar a grande incidncia de pesquisas em minerao de
textos e processamento de linguagem natural na rea mdica, cujo principal interesse est
voltado para a extrao automtica de conhecimento em estudos empricos da rea e a
classificao e organizao das bases textuais que guardam os trabalhos e experimentos
publicados.
Uma limitao recorrente nesta pesquisa foi contedo disponibilizado pelos
autores nos textos dos estudos primrios, nos quais muitas vezes as informaes sobre as
tcnicas foram ocultadas ou transmitidas de forma incompleta. Isto resultou em poucos
dados para elaborar uma discusso mais aprofundada em alguns casos particulares, como
na aplicao de rvores e do algoritmo de Markov para processar linguagem natural.
5.2 Contribuies deste trabalho
Este trabalho apresentou como principal contribuio uma viso geral da
aplicao de tcnicas diversas para o processamento de linguagem natural e minerao
de textos. Neste sentido, apresentada uma lista com todas as tcnicas identificadas, o
contexto, a forma de aplicao e estruturao de dados e suas tendncias, alm de
vantagens e limitaes do uso de cada tcnica.
Os resultados da pesquisa oferecem ainda contribuio para as reas de PLN,
minerao de textos e tambm para o universo das redes sociais virtuais, no que se refere
a extrao de postagens feitas por usurios, identificao de padres de relacionamento
ou recomendao de contedo. Alm disso, os achados deste estudo podem se utilizados


48
como guia na seleo e aplicao de tcnicas de PLN para minerao de textos em
diversas situaes.
5.3 Proposta para trabalhos futuros
A continuidade deste estudo prev ainda a execuo da mesma string de busca
em outras bases conceitudas para identificao de mais trabalhos e posteriormente de
mais evidncias que complementem os resultados obtidos at o momento. Alm disso,
essa atividade prev a busca manual em conferncias especficas da rea de PLN e
minerao de textos e a incluso das pesquisas realizadas em 2012, e tambm de estudos
publicados em portugus.
Em longo prazo pretende-se intensificar as pesquisas na rea criando estratgias
prticas e especficas de aplicao dos resultados desta reviso sistemtica. Para tal,
sero realizados estudos para criao e aplicao de ontologias de domnio para
minerao de textos em uma rede social especfica e tambm em documentos de
requisitos de software. Alm disso, sero definidos estudos que possam produzir
resultados sobre o uso combinado de ontologias com outras tcnicas complementares
como nayve bayes, latent semantic indexing e term conection.
Por fim, outras discusses devero ser criadas para ampliar o entendimento do
uso das outras tcnicas apresentadas neste trabalho, sobretudos aquelas que apresentaram
bons resultados nas evidncias dos estudos primrios e que, no entanto, no foram
exploradas com tanta intensidade na ltima dcada. Neste contexto pode-se destacar a
tcnica stemming e a gramtica livre de contexto.









49
REFERNCIAS
ARANHA, C. N. Uma Abordagem de Pr-Processamento Automtico para Minerao
de Textos em Portugus: Sob o Enfoque da Inteligncia Computacional. Tese (Doutorado
em Engenharia Eltrica) Pontifica Universidade Catlica do Rio de Janeiro PUC - Rio, Rio
de Janeiro, 2007.
BIOLCHINI, J.; MIAN, P. G.; NATALI, A. C. C.; TRAVASSOS, G. H. Systematic Review
in Software Engineering. . Relatrio Tcnico (Programa de Engenharia de Sistemas e
Computao) Universidade Federal do Rio de Janeiro UFRJ Rio de Janeiro, 2005.
BOYD, Danah M.; ELLISON, Nicole B. Social Network Sites: Definition, History, and
Scholarship. Journal of Computer-Mediated Communication. V. 13, n. 1, article 11, 2007.
BRITO, R. F.; PEREIRA, A. T. C. Um Estudo para Ambientes Colaborativos e suas
Ferramentas. Anais do Congresso Nacional de Ambientes Hipermdia para Aprendizagem.
Anais... Santa Catarina, 2004.
BULEGON, H.; MORO, C. M. C. Minerao de texto e o processamento de linguagem
natural em sumrios de alta hospitalar. Journal of Health Informatics, 2010.
CAVALCANTI, T. R; SILVA, F. Q. B. Historical, Conceptual, and Methodological Aspects
of the Publications of the Brazilian Symposium on Software Engineering: A Systematic
Mapping Study. Anais do 25th Brazilian Symposium on Software Engineering (SBES).
Anais... So Paulo, 2011.
CERQUEIRA, A. D. O.; DINIZ, A. M.; DORTA, C.; KUNIYOSHI, P. S. Implementao de
Buscas Utilizando Linguagem Natural Atravs de Algoritmos Adaptativos. Trabalho de
Concluso de Curso - Escola Politcnica da Universidade de So Paulo, 2010.
CORREIA NETO, J.S.; SILVA, A.A.B.; FONSECA, D. Sites de Redes Sociais Corporativas:
entre o pessoal e o profissional. In: EnADI, 3., 2011, Porto Alegre-RS. Anais. Porto Alegre-
RS, III EnADI, 2011.
GOMES, R. M. Minerao de Textos na Desambiguao de Sentido de Palavras Dirigida
por Tcnicas de Agrupamento sob o Enfoque da Minerao de Textos. Dissertao
(Mestrado em Engenharia Eltrica) Pontifica Universidade Catlica do Rio de Janeiro PUC
- Rio, Rio de Janeiro, 2009.
KITCHENHAM, B.; DYB, T.; JRGENSEN, M. Evidence-based Software Engineering.
26th International Conference on Software Engineering, (ICSE 04), Proceedings. IEEE,
Washington DC, USA, pp 273 281, 2004.
LADEIRA, A. P. Processamento de Linguagem Natural: Caracterizao da Produo
Cientfica dos Pesquisadores Brasileiros. Tese (Doutorado em Cincia da Informao)
Universidade Federal de Minas Gerais, Belo Horizonte, 2010.
MACHADO, A. P.; FERREIRA, R.; BITTENCOURT, I. I.; ELIAS; E.; BRITO, P.; COSTA,
E. Minerao de Texto em Redes sociais virtuais Aplicada Educao a Distncia. Revista
Digital da CVA - Ricesu, ISSN 1519-8529, v. 6, n. 23, Julho de 2010.


50
MAFRA, S. N.; TRAVASSOS, G. H. Estudos Primrios e Secundrios Apoiando a Busca
por Evidncia em Engenharia de Software. Relatrio Tcnico (Programa de Engenharia de
Sistemas e Computao) Universidade Federal do Rio de Janeiro UFRJ Rio de Janeiro,
2006.
MIAN, P.; CONTE, T.; NATALI, A.; BIOLCHINI, J.; MENDES, E.; TRAVASSOS, G. H.
Lessons Learned On Applying Systematic Reviews To Software Engineering. 3rd
International Workshop Guidelines For Empirical Work In the Workshop Series On
Empirical Software Engineering (Wsese). Proceedings, 2005.
OLIVEIRA, A. S.; MOTTA, R. A. S. M.; CUNHA, G.; SANTOS, R. M.; GOLDSCHMIDT,
R. R. Minerao de textos: uma experincia usando TMSK e RIKTEXT. RevISTa
Publicao tcnico-cientfica do Instituto Superior de Tecnologia em Cincias da Computao
do Rio de Janeiro, 2011.
PASSOS, E.; ARANHA, C. A Tecnologia de Minerao de Textos. RESI - Revista
Eletrnica de Sistemas de Informao, n. 2, 2006.
REZENDE, S. O.; MARCACINI, R. M.; MOURA, M. F. O uso da Minerao de Textos para
Extrao e Organizao No Supervisionada de Conhecimento. Revista de Sistemas de
Informao da FSMA n. 7 (2011) pp. 7-21.
SANTOS, R. E. S.; CORREIA NETO, J. S.; VILAR, G. Relatrio (Projeto de Extenso)
Departamento de Informtica da Universidade Federal Rural de Pernambuco DEINFO -
UFRPE- Recife, 2011.
SCHNEIDER, M. O. Processamento de Linguagem Natural (PLN). Relatrio (Curso de
Mestrado em Sistemas de Computao) Pontifcia Universidade Catlica de Campinas - PUC-
Campinas, So Paulo, 2001.
SILVA, T. M. S.. Extrao de Informao para Busca Semntica na Web Baseada em
Ontologias. Dissertao (Mestrado em Engenharia Eltrica) Universidade Federal de Santa
Catarina UFSC, Florianopolis 2003.
SOARES, F. A. Minerao de Textos na Coleta Inteligente de Dados na Web. Dissertao
(Mestrado em Engenharia Eltrica) Pontifica Universidade Catlica do Rio de Janeiro PUC
- Rio, Rio de Janeiro, 2008.
TEIXEIRA FILHO, J. Comunidades Virtuais. Rio de Janeiro, SENAC, 2002.
TOMAL, M. I.; ALCAR, A. R.; DI CHIARA, I. G. Das redes sociais inovao. Revista
Cincia da Informao, Braslia, v. 34, n. 2, p. 93-104, maio/ago 2005. Acesso em: 02 mar.
2012. Disponvel em: http://www.scielo.br/pdf/ci/v34n2/28559.pdf






51
APNDICE A Protocolo de Reviso Sistemtica
Formulao da Pergunta
Visando identificar, analisar e interpretar evidncias do uso de tcnicas de
processamento de linguagem natural aplicadas minerao de textos nos estudos primrios na
ltima dcada, o protocolo de reviso sistemtica foi elaborado visando responder as
seguintes perguntas:
1. Quais tcnicas, algoritmos ou estruturao de dados utilizados pelo PLN esto
sendo aplicadas na minerao de textos?
2. De que forma eles so aplicados?
3. Quais so as vantagens e as limitaes observadas nas tcnicas?
4. Qual a tcnica mais recorrente?
5. Existe alguma experincia do uso de PLN aplicado minerao de textos
postados em redes sociais virtuais?

Amplitude da Pergunta
A. Interveno: Minerao de textos.
B. Controle: nenhum
C. Efeito: identificao das tcnicas de PLN que esto sendo utilizadas no processo de
minerao de textos.
D. Populao: Pesquisadores e projetos que explorem minerao de texto com PLN,
sistemas de recomendao de contedo, recuperao da informao, dentre outros.
E. Resultados: pretende-se elaborar uma lista com as tcnicas e/ou algoritmos de PLN
aplicados minerao de textos, o contexto no qual foram utilizadas, assim como as
vantagens e limitaes observadas. Alm disso, busca-se identificar a tcnica mais
aplicada e se existe algum tipo de experincia de aplicao em redes sociais virtuais.
F. Aplicaes: a pesquisa servir de base para a elaborao de estudos e identificao de
novas linhas de pesquisa em reas como: recuperao de informao, minerao de


52
texto, representao de documentos e sistemas de recomendao de textos em redes
sociais virtuais.
Critrios de Seleo de Fontes
Nesta pesquisa, so considerados trabalhos disponveis na forma online. Os artigos
devem estar escritos em ingls e devem relatar a aplicao de tcnicas de PNL para minerao
de textos. O ingls foi o idioma utilizado nesta pesquisa, pois a grande maioria dos estudos
publicados na rea est disponibilizada neste idioma. Alm disso, os peridicos e conferncias
mais relevantes tambm recebem estudos em ingls e eventualmente em outro idioma.
Para realizao deste estudo, optou-se por duas fontes de pesquisa de bibliotecas
digitais que renem trabalhos acadmicos produzidos por grandes pesquisadores em todo o
mundo, IEEE Xplorer (IEEE) e Peridicos Capes (CAPES), e os trabalhos primrios foram
selecionados atravs da string de busca apresentada na Tabela 4.
Tabela 4 Construo da string de busca da reviso sistemtica.
Palavra-chave String de Busca
Natural Language
Processing
(Natural Language Processing OR Natural Language
Process OR NLP OR text processing OR semantics
processing)
Technique AND (technique OR method OR algorithm OR function OR
application OR approach)
Text Mining AND (Text Mining OR text data mining OR text
analyses OR text classification OR text)
Fonte: Elaborada pelo autor (2012).

Critrios de incluso e excluso dos estudos
Estudos retornados pela string de busca foram includos quando escritos em ingls e
relataram experincias de aplicao de tcnicas de PLN em minerao de textos atravs de
estudo de caso, experimentos, surveys, revises de literatura e outras tcnicas de metodologia
cientfica bem definidas. Estudos escritos em um idioma diferente do ingls ou que
apresentaram experimentos com textos em outros idiomas foram excludos do processo.




53
Processo de Seleo de Estudos Primrios
Os artigos foram selecionados nas fontes supracitadas, seguindo a ordem de leitura:
ttulo, resumo, concluses, texto completo;
Para refinar a lista de trabalhos retornados, o texto completo de todos os estudos foi
lido e analisado, respeitando-se sempre os critrios de incluso e excluso;
Atravs deste filtro, foi construda uma lista de produes includas na anlise
sistemtica e tambm de trabalhos excludos no processo;
Quando houve dvidas, o trabalho foi classificado como includo ou excludo pelos
orientadores;
Aps a seleo dos estudos, a extrao das informaes relevantes para a reviso
sistemtica foi conduzida.

Sumarizao dos Resutados
As informaes extradas das evidncias do uso das tcnicas de PLN em minerao
de textos foram analisadas e os resultados apresentados atravs de planilhas, grficos e
tpicos textuais apresentados na seo 4 da monografia.
















54
APNDICE B Lista de estudos primrios usados na
reviso sistemtica
[PLNMT 1] YANDELL, M. D.; MAJOROS, W. H. Genomics and natural language
processing. Nature Journal, 2002.
[PLNMT 2] KIM, J. D.; OHTA, T.; TATEISI, Y.; TSUJII, J. GENIA corpusa semantically
annotated corpus for bio-textmining. Bioinformatics Journal, 2003.
[PLNMT 3] NOVICHKOVA S.; EGOROV, S.; DARASELIA, N. MedScan, a natural
language processing engine for MEDLINE abstracts. Bioinformatics Journal, 2003.
[PLNMT 4] PRINCE, V; LAFOURCADE, M. Mixing Semantic Networks and Conceptual
Vectors: the Case of Hyperonymy. IEEE International Conference on Cognitive
Informatics, 2003.
[PLNMT 5] SHARMA, R.; RAMAN, S. Phrase-based Text Representation for Managing
the Web Documents. International Conference on Information Technology: Computers and
Communications, 2003.
[PLNMT 6] LI, L.Y.; HE, Z. L.; YI, Y. Principles and Algorithms of Semantic Analysis.
International Conference on Machine Learning and Cybernetics, 2003.
[PLNMT 7] SPASIC, I.; ANANIADOU, S.; TSUJII, J. MaSTerClass: a case-based reasoning
system for the classication of biomedical terms. Bioinformatics Journal, 2005.
[PLNMT 8] MOON, N.; SINGH, R. Experiments in Text-Based Mining and Analysis of
Biological Information from MEDLINE on Functionally-Related Genes. International
Conference on Systems Engineering, 2005.
[PLNMT 9] FRIEDMAN, C.; BORLAWSKY, T.; SHAGINA, L.; XING, H. R.; LUSSIER,
Y. A. Bio-Ontology and text: bridging the modeling gap. Bioinformatics Journal, 2006.
[PLNMT 10] PIWOWAR, H. A.; CHAPMAN, W. W. Identifying Data Sharing in
Biomedical Literature. Nature Journal, 2008.
[PLNMT 11] GOLDSMITH, E. J.; MENDIRATTA, S.; AKELLA, R.; DAHLGREN, K.
Natural Language Query in the Biochemistry and Molecular Biology Domains Based on
Cognition Search. Nature Journal, 2008.
[PLNMT 12] THEODOSIOU, T.; DARZENTAS, N.; ANGELIS, L.; OUZOUNIS, C. A.
PuReD-MCL: a graph-based PubMed document clustering methodology. Bioinformatics
Journal, 2008.
[PLNMT 13] KHOURY, R; KARRAY, F; KAMEL, M. F. Domain Representation Using
Possibility Theory: An Exploratory Study. IEEE TRANSACTIONS ON FUZZY
SYSTEMS Journal, 2008.


55
[PLNMT 14] KESORN, K.; POSLAD, S. Semantic Representation of Text Captions to
Aid Sport Image Retrieval. Internacional Symposium on Intelligent Signal Processing and
Communication Systems, 2008.
[PLNMT 15] SOUSAN, W. L.; WYLIE, K. L.; CHEN, Z. Constructing Domain Ontology
from Texts: A Practical Approach and a Case Study. International Conference on Next
Generation Web Services Practices, 2009.
[PLNMT 16] PRASAD, K. G.; MATHIVANAN, H.; JAYAPRAKASAM, M.; GEETHA, T.
V. Document Summarization and Information Extraction for Generation of
Presentation Slides. International Conference on Advances in Recent Technologies in
Communication and Computing, 2009.
[PLNMT 17] MCSHANE, M. Reference Resolution Challenges for Intelligent Agents: The
Need for Knowledge. IEEE Journal, 2009.
[PLNMT 18] SUCUNUTA, M. E.; RIOFRIO, G. E. Architecture of a Question-Answering
System for a Specific Repository of Documents. International Conference on Software
Technology and Engineering, 2010.
[PLNMT 19] QASEMIZADEH, B.; BUITELAAR, P.; MONAGHAN, F. Developing a
Dataset for Technology Structure Mining. International Conference on Semantic
Computing, 2010.
[PLNMT 20] MCSHANE, M.; BEALE, S.; NIRENBURG, S. Reference Resolution
Supporting Lexical Disambiguation. International Conference on Semantic Computing,
2010.
[PLNMT 21] CAMBRIA, E.; HUSSAIN, A.; DURRANI, T.; HAVASI, C.; ECKL, C.;
MUNRO, J. Sentic Computing for Patient Centered Applications. International
Conference on Signal Processing, 2010.
[PLNMT 22] ROSA, J. L. G. Biologically Plausible Connectionist Prediction of Natural
Language Thematic Relations. IEEE Journal, 2011.
[PLNMT 23] RICHARDSON, K. D.; BOBROW, D. G.; CONDORAVDI, C.;
WALDINGER, R.; DAS, A. English Access to Structured Data. IEEE International
Conference on Semantic Computing, 2011.
[PLNMT 24] Ivchenko, O.; Younesi, E.; Shahid, M.; Wolf, A.; Mller, B.; Hofmann-Apitius,
M. PLIO an ontology for formal description of proteinligand interactions. Bioinformatics
Journal, 2011.

Das könnte Ihnen auch gefallen