0 Bewertungen0% fanden dieses Dokument nützlich (0 Abstimmungen)
719 Ansichten56 Seiten
A mineração de textos é uma atividade que surgiu com o propósito de descobrir conhecimento em dados não estruturados (textuais). Este processo utiliza além de algoritmos próprios, técnicas já conhecidas e consolidadas, dentre elas o processamento de linguagem natural (PLN), que tem incrementado os resultados obtidos. Este estudo tem como objetivo identificar e avaliar as técnicas de PLN disponíveis para realizar mineração em bases de dados textuais, utilizando o método de pesquisa conhecido como mapeamento sistemático, cujo propósito é identificar, avaliar e interpretar todos os trabalhos disponíveis e relevantes sobre uma determinada questão de pesquisa. Assim, foram identificados 24 estudos com 12 técnicas de PLN aplicadas para resolver questões de extração, representação, busca e classificação de textos, as quais foram discutidas a utilização, vantagens e desvantagens associadas.
A mineração de textos é uma atividade que surgiu com o propósito de descobrir conhecimento em dados não estruturados (textuais). Este processo utiliza além de algoritmos próprios, técnicas já conhecidas e consolidadas, dentre elas o processamento de linguagem natural (PLN), que tem incrementado os resultados obtidos. Este estudo tem como objetivo identificar e avaliar as técnicas de PLN disponíveis para realizar mineração em bases de dados textuais, utilizando o método de pesquisa conhecido como mapeamento sistemático, cujo propósito é identificar, avaliar e interpretar todos os trabalhos disponíveis e relevantes sobre uma determinada questão de pesquisa. Assim, foram identificados 24 estudos com 12 técnicas de PLN aplicadas para resolver questões de extração, representação, busca e classificação de textos, as quais foram discutidas a utilização, vantagens e desvantagens associadas.
A mineração de textos é uma atividade que surgiu com o propósito de descobrir conhecimento em dados não estruturados (textuais). Este processo utiliza além de algoritmos próprios, técnicas já conhecidas e consolidadas, dentre elas o processamento de linguagem natural (PLN), que tem incrementado os resultados obtidos. Este estudo tem como objetivo identificar e avaliar as técnicas de PLN disponíveis para realizar mineração em bases de dados textuais, utilizando o método de pesquisa conhecido como mapeamento sistemático, cujo propósito é identificar, avaliar e interpretar todos os trabalhos disponíveis e relevantes sobre uma determinada questão de pesquisa. Assim, foram identificados 24 estudos com 12 técnicas de PLN aplicadas para resolver questões de extração, representação, busca e classificação de textos, as quais foram discutidas a utilização, vantagens e desvantagens associadas.
Tcnicas de Processamento de Linguagem Natural Aplicadas ao Processo de Minerao de Textos: uma Reviso Sistemtica
Serra Talhada, 2012
Ronnie Edson de Souza Santos
Tcnicas de Processamento de Linguagem Natural Aplicadas ao Processo de Minerao de Textos: uma Reviso Sistemtica
Projeto de Concluso de Curso apresentada ao Curso de Bacharelado em Sistemas de Informao da Unidade Acadmica de Serra Talhada da Universidade Federal Rural de Pernambuco como requisito parcial obteno do grau de Bacharel.
Orientador: Prof. MSc Ellen Polliana Ramos Souza Coorientador: Prof. MSc Jorge S. Correia Neto
Serra Talhada 2012
Ficha catalogrfica
S237t Santos, Ronnie Edson de Sousa Tcnicas de processamento de linguagem natural aplicadas ao processo de minerao de textos: uma reviso sistemtica / Ronnie Edson de Sousa Santos. 2012. 55 f.: il.
Orientadora: Ellen Polliana Ramos de Souza. Monografia (Bacharelado em Sistemas de Informao) Universidade Federal Rural de Pernambuco. Unidade Acadmica de Serra Talhada, Serra Talhada, 2012. Inclui Referncias e apndice.
1. Textos- Minerao. 2. Linguagem natural processamento. 3. Textos - reviso sistemtica. I. Sousa, Ellen Polliana Ramos de. II. Ttulo
CDD 004
UNIVERSIDADE FEDERAL RURAL DE PERNAMBUCO UNIDADE ACADMICA DE SERRA TALHADA BACHARELADO EM SISTEMAS DE INFORMAO
RONNIE EDSON DE SOUZA SANTOS
Tcnicas de Processamento de Linguagem Natural Aplicadas ao Processo de Minerao de Textos: uma Reviso Sistemtica
Trabalho de Concluso de Curso julgado adequado para obteno do ttulo de Bacharel em Sistemas de Informao, defendida e aprovada por unanimidade em 06/11/2012 pela banca examinadora.
Banca Examinadora:
DEDICATRIA
Dedico este trabalho aos meus pais que me deram toda a base necessria para que eu me tornasse o homem que sou e que hoje acompanham e iluminam meus passos de algum lugar em outro plano.
AGRADECIMENTOS Agradeo primeiramente ao Deus criador de todas as coisas e ao nosso senhor Jesus Cristo pela interveno nos momentos mais difceis da minha vida e pela inspirao para a concluso das tarefas e projetos. Agradeo aos meus irmos Robson e Kcia e ao meu av Eloi, fonte da minha fora, perseverana e da minha esperana, por acreditarem em mim em todos os momentos da minha graduao e por me darem coragem para lutar pela vitria. Tambm aos meus familiares, que mesmo distantes sempre acreditaram no meu sucesso, em especial a tia Franscisca e me Elisa. Agradeo ao meu melhor amigo Vanut, principal parceiro nesta jornada na graduao e presente em todos os trabalhos, seminrios e artigos desenvolvidos ao longo destes 5 anos. Tambm a sua famlia na qual eu fui acolhido como filho por tia Diva, tio Neno e como irmo por Vanessa. Agradeo a minha orientadora Prof Ellen Souza pelo acompanhmento, pelo apoio e principalmente pela pacincia nos momentos mais difceis da construo deste trabalho. Tambm ao meu co-orientador Prof Jorge Correia pela ateno e o apoio dispensado no somente a este trabalho, mas a tantos outros desenvolvidos ao longo de toda a graduao. Agradeo aos amigos sobreviventes da turma 2008.1, Andresa e Clbia (intergrantes do Quarteto), alm de Mouglas e Thuran, os quais dividiram comigo todos momentos bons e ruins em pelo menos todas as disciplinas obrigatrias do curso. Agradeo tambm a cada professor que esteve a frente de alguma das 42 disciplinas as quais eu cursei na graduao e tambm aos demais professores que trabalham para o crescimento do curso de Sistemas de Informao e da UAST. E finalmente agradeo a Celina, Gabriela, Ivo, Keyla, Hemerson, Janaina, Aline e Graziella que se preocuparam e acompanharam o andamento deste. E tambm aos amigos que estiveram prximos durante a concluso desta ltima etapa da graduao e torceram para que este trabalho fosse bem sucedido: Manu, Camila, Cleyton, Alex, Jadson, Allan e a todos os outros presentes tambm nos momentos necessrios para relaxar das ideias.
O esprito sem limites o maior tesouro do homem. (J.K. Rowling)
RESUMO Introduo: A minerao de textos a atividade que surgiu com o propsito de descobrir conhecimento em dados no estruturados (textuais) que so o tipo mais recorrente de dado no meio digital, desde a popularizao da web. Este processo utiliza alm de algoritmos prprios, tcnicas j conhecidas e consolidadas, dentre elas o Processamento de Linguagem Natural (PLN) tem incrementado os resultados obtidos e justificado o esforo computacional necessrio. Objetivo: Este estudo tem como objetivo identificar e avaliar as tcnicas e/ou algoritmos de PLN disponveis para realizar minerao em bases de dados textuais com o intuito realizar diversas discusses sobre as tcnicas e/ou algoritmos aplicados nos ltimos anos atravs das experincias relevantes neste contexto. Alm disso, os resultados desta pesquisa podero ser aplicados diretamente em uma rede social especfica de carter colaborativo, desenvolvida atravs de uma parceria entre a UFRPE e a AACD. Mtodo: Foi utilizada a tcnica de pesquisa conhecida como Reviso Sistemtica, cujo propsito identificar, avaliar e interpretar todos os trabalhos disponveis e relevantes sobre uma determinada questo de pesquisa, executando um processo de reviso rigoroso, confivel e passvel de auditagem, podendo inclusive ser replicado. A reviso sistemtica foi conduzida em trs etapas: planejamento que incluiu o marco de avaliao do planejamento, execuo que tambm possuiu uma avaliao e apresentao dos resultados. Resultado: Foram encontrados 74 trabalhos em duas grandes bases de produes cientficas dos quais 24 trabalhos foram includos na pesquisa aps passarem pelos critrios de incluso e excluso definidos pela reviso e a sua anlise forneceu evidncias com as quais pde-se elaborar uma lista com 11 tcnicas usados em PLN e aplicadas na minerao de textos e responder as questes definidas sobre vantagens e problemas na aplicao de cada uma, experincias no contexto das redes sociais e recorrncia das tcnicas. Concluses: Dentre todas as tcnicas, a ontologia se mostrou a mais eficiente, primeiramente por ter sido aplicada em diversos contextos e segundo pelas suas caractersticas, sendo capaz de armazenar textos de modo no ambguo em formato padronizado e de realizar a indexao semntica e a recuperao da informao. Palavras-chave: Minerao de textos, Processamento de linguagem natural, reviso sistemtica.
ABSTRACT
Introduction: Text mining is an activity that raised aiming to discover knowledge in not-structured data (textual) the most recurrent type of data in digital plan, since the popularization of web. This process uses itself algorithms as well as known and consolidated techniques, among which can be highlighted Natural Language Processing (NLP) which has incremented obtained results and has justified the necessary computational effort. Objective: This study aims to identify and evaluate the techniques and/or NLP algorithms available to perform data mining in textual databases in order to perform discussion about techniques and algorithms that have been applied in last years in this context. Method: It was used the Systematic review technique, which proposes to identify, evaluate and interpret all available and relevant works about some research question, performing a rigorous review process, trustable and allowing to auditing, and may even be replicated. A Systematic Review was conducted in three steps: planning which include planning evaluation, execution which also include execution evaluation and presentation of results. Result: It was found 74 works in two large bases of scientific productions in which, 24 works were included in the research after being filtered by the inclusion and exclusion criteria defined by the systematic review. The analysis of these studies provided evidences with which it was possible to elaborate a list with 11 NLP techniques applied in text mining, and to each of these techniques it were answered questions about advantages and problems in application, experiences in social network context and the use of these techniques in last decade. Conclusion: Among all techniques, the ontology was presented as the most efficient, first for have been applied in several contexts throughout a decade and se cond for its features, being capable to store text in a non-ambiguous way in a standardized format and perform semantic indexing and information retrieval.
Keywords: Text Data Mining, Natural Language Processing, Systematic review
LISTA DE ILUSTRAES Figura 1 Etapas do processamento de linguagem natural 19 Figura 2 Processo de Reviso Sistemtica 21 Figura 3 Quantidade total de trabalhos retornados pela string de busca nas bases 29 Figura 4 Quantidade de estudos selecionados pelos critrios de incluso e excluso 29 Figura 5 Quantidade de estudos selecionados estudo empregado 29 Figura 6 Quantidade de estudos selecionados pelos critrios de incluso e excluso 30 Figura 7 Distribuio dos estudos por pas 31
LISTA DE TABELAS Tabela 1 Tcnicas identificadas pela reviso sistemtica 34 Tabela 2 Vantagens e limitaes das tcnicas identificadas 41 Tabela 3 Distribuio de tcnicas por ano 42 Tabela 4 Construo da string de busca da reviso sistemtica 53
11 SUMRIO 1 INTRODUO 13 1.1 Motivao/ Justificativa 13 1.2 Objetivos 15 1.2.1 Objetivo Geral 15 1.2.2 Objetivos Especficos 15 2 REFERENCIAL CONCEITUAL 16 2.1 Minerao de Textos 16 2.2 Processamento de Linguagem Natural 17 2.3 Reviso Sistemtica 20 2.4 Rede Social GenNet 22 2.5 Sntese do captulo 24 3 PROCEDIMENTOS METODOLGICOS 25 3.1 Execuo da Reviso Sistemtica 25 3.2 Sntese do captulo 27 4 TCNICAS DE PROCESSAMENTO DE LINGUAGEM NATURAL APLICADAS AO PROCESSO DE MINERAO DE TEXTOS 28 4.1 Foco das Pesquisas Primrias 31 4.1.1 Extrao de conhecimento em textos 31 4.1.2 Representao do contedo de documentos 32 4.1.3 Classificao de textos 32 4.1.4 Busca de informaes em textos 33 4.2 Respostas para as questes da reviso sistemtica 34 4.2.1 Quais so as tcnicas, algoritmos ou estruturao de dados utilizados pelo PLN esto sendo aplicadas na minerao de textos? 34 4.2.2 De que formas so aplicadas? 35 4.2.3 Quais so as vantagens e as limitaes observadas pelas pesquisas primrias? 40 4.2.4 Qual a tcnica mais recorrente? 42 4.2.5 Existe alguma experincia do uso de PLN aplicado minerao de textos postados em redes sociais virtuais? 43 4.3 Sntese do captulo 44
12 5 CONCLUSO 46 5.1 Consideraes finais 46 5.2 Contribuies deste trabalho 47 5.3 Proposta para trabalhos futuros 48 REFERNCIAS 49 APNDICE A PROTOCOLO DE REVISO SISTEMTICA 51 APNDICE B LISTA DE ESTUDOS PRIMRIOS USADOS NA REVISO SISTEMTICA 54
13 1 Introduo Este captulo apresentado o contedo introdutrio deste trabalho. A seo 1.1 trata brevemente dos tpicos referentes motivao e justificativa para realizao deste projeto e na seo 1.2, o objetivo geral e os objetivos especficos da pesquisa so elucidados. 1.1 Motivao/ Justificativa A sobrecarga de informao um fenmeno contemporneo descrito e observado a partir do crescimento exponencial na disposio de informaes, registrada principalmente aps a popularizao e a expanso da Internet (OLIVEIRA et al., 2011; SILVA, 2003). Neste contexto, a maior parte dos dados disponveis est armazenada em documentos na forma de textos escritos em linguagem natural. Como o paradigma de programao tradicional possui uma srie de dificuldades para captar as relaes difusas e muitas vezes ambguas em documentos de texto (MACHADO et al., 2010), novas formas de automao e extrao de conhecimento desse emaranhado textual so, cada vez mais, objeto de estudo da Computao. Com a finalidade de resolver problemas de descoberta de conhecimento em bases de texto, surge a minerao de textos, oferecendo um conjunto de mtodos que permite a navegao, organizao e descoberta inteligente de informao em bases de dados textuais. Segundo Passos e Aranha (2006), a minerao de textos um campo multidisciplinar que inclui subsdios da Informtica, Estatstica, Lingustica e da Cincia Cognitiva capazes de lidar com um grande nmero de palavras e estruturas em linguagem natural. Para o processamento de informaes pelos algoritmos computacionais, a forma textual no a mais adequada, uma vez que no estruturada e no explicita a semntica contida nos textos. Neste sentido, os sistemas de minerao de textos no podem simplesmente submeter um conjunto de textos desestruturados para os algoritmos de descoberta de conhecimento (ARANHA, 2007; GOMES, 2008). Para tal, tcnicas de Processamento de Linguagem Natural (PLN) so empregadas com o intuito de preparar os dados textuais, nos quais se busca algum tipo de conhecimento. Assim, o principal objetivo do PLN prover um nvel mais alto de compreenso da linguagem natural atravs do uso de
14 recursos computacionais, com o emprego de tcnicas para o rpido processamento de texto (MACHADO et al., 2010). Ainda com relao minerao de textos, o emprego de tcnicas e algoritmos de PLN est associado atividade conhecida como pr-processamento, executada logo aps a coleta dos dados (SOARES, 2008). Atualmente, existem diferentes abordagens e tcnicas para o uso do PLN, dependendo do que se deseja buscar, do contexto de trabalho e da qualidade do resultado a ser produzido. A literatura apresenta experincias do uso de PLN para resolver questes como extrao de informao, recuperao de informao, traduo automtica, gerao automtica de texto, gerao de linguagem natural, interpretao de linguagem natural, simplificao de texto, correo ortogrfica e reconhecimento de discussos, dentre outras (SCHNEIDER, 2001). Segundo Aranha (2007), considerando em particular o processo de descoberta de conhecimento, as prticas de PLN so meios agregadores de valores semnticos ao texto, capazes de gerar diversos benefcios na busca por padres especficos. Assim, este estudo tem como objetivo identificar e avaliar as tcnicas e/ou algoritmos de PLN disponveis para realizar minerao em bases de dados textuais com o intuito de discutir sobre as abordagens aplicadas nos ltimos anos, a forma de utilizao e o contexto em que foi aplicado, as experincias relevantes neste contexto, bem como vantagens e desvantagens das tcnicas de PLN aplicadas minerao de textos. Pretende-se ainda, identificar experincias na rea de minerao de textos compartilhados em redes sociais virtuais, visto que estes ambientes possuem atualmente um alto nvel de circulao de informao, principalmente na forma de texto. Alm disso, os resultados desta pesquisa podero ser aplicados diretamente em uma rede social especfica de carter colaborativo, a rede GenNet que foi desenvolvida atravs de uma parceria entre a UFRPE e a AACD. Para resolver tal problema, foi utilizada a tcnica de pesquisa conhecida como Reviso Sistemtica, cujo propsito identificar, avaliar e interpretar trabalhos disponveis e relevantes sobre uma determinada questo de pesquisa, executando um processo de reviso rigoroso, confivel e passvel de auditagem, podendo inclusive ser replicado (MAFRA, 2006). A reviso sistemtica desenvolve uma anlise crtica sobre os estudos coletados no processo de identificao de trabalhos relacionados com a questo central a ser respondida. Assim, o resultado da reviso possibilitar tambm a identificao de novos aspectos sobre o tema e novas linhas de estudo.
15 1.2 Objetivos A seguir apresentado o objetivo geral deste projeto e como o mesmo ser implementado em termos de seus objetivos especficos. 1.2.1 Objetivo Geral Este trabalho est pautado no desenvolvimento de uma reviso sistemtica com o objetivo de identificar, analisar e interpretar dados que relatem o uso das tcnicas de PLN em diversos contextos, considerando as pesquisas que buscaram explorar o uso de tcnicas de Processamento de Linguagem Natural aplicadas minerao de textos. 1.2.2 Objetivos Especficos Como objetivos especficos do trabalho foram determinados: 1. Realizar o levantamento da produo cientfica sobre aplicao de PLN em minerao de texto; 2. Montar uma lista de evidncias encontradas nas experincias publicadas sobre PLN e minerao de textos; 4. Discutir as abordagens existentes para o uso de PNL na minerao de textos em diversos contextos; 5. Analisar as vantagens e desvantagens do uso das tcnicas de PNL aplicadas nos ltimos anos; 6. Identificar experincias de aplicaes de PLN e minerao de textos em redes sociais virtuais.
16 2 Referencial Conceitual Neste captulo apresentada uma breve explanao sobre os contedos que so abordados pelo trabalho. A seo 2.1 apresenta os conceitos e definies sobre o processo de minerao de textos. Na seo 2.2 apresentada a tcnica de processamento de linguagem natural, comumente utilizada no contexto da minerao de textos. A seo 2.3 trata da abordagem metodolgica denominada Reviso Sistemtica, que ser aplicada por este estudo para que os objetivos sejam atingidos. Por fim, a seo 2.4 apresenta um resumo geral de todo o referencial conceitual da pesquisa. 2.1 Minerao de Textos O avano das tecnologias para aquisio e armazenamento de dados tem permitido que o volume de informao gerado em formato digital aumente de forma signicativa. Estimativas indicam que, no perodo de 2003 a 2010, a quantidade de informao no universo digital ultrapassou cinco hexabytes e cerca de 80% desses dados esto em de texto (REZENDE et al., 2011). Nesse contexto, a minerao de textos uma importante abordagem aplicada na transformao desses itens textuais em conhecimento til. Oliveira (2011) ressalta que essa transformao baseada na investigao de padres, tendncias e regularidades de textos e documentos em uma linguagem compreensvel, tendo como produto final a extrao de informaes relevantes. Assim, a minerao de textos busca extrair informao de maneira inteligente e confivel a partir de grandes volumes de dados textuais. Minerar dados do tipo texto um mtodo interdisciplinar que envolve as reas de recuperao de informao, aprendizagem de mquina, estatstica, lingustica computacional e minerao de dados. Cada uma dessas reas, ou a interseco das mesmas, usada para transformar o texto em um formato que a mquina consiga process-lo e entend-lo (MACHADO et al., 2010). A principal diferena entre o processo de minerao de dados tradicional e a minerao de textos que, enquanto a abordagem convencional trabalha
17 exclusivamente com dados estruturados, a minerao de textos lida com dados em linguagem natural e que, portanto, possui pouca ou nenhuma estrutura (REZENDE et al., 2011; SOARES, 2008). Segundo Passos e Aranha (2006), a minerao de textos utiliza alm de algoritmos prprios, tcnicas j conhecidas e consolidadas como: a) Indexao: serve para realizar a busca rpida de documentos atravs de palavras- chave. Fornece uma estrutura de dados de armazenamento inteligente que proporciona aumento significativo de desempenho; b) Processamento de Linguagem Natural: utiliza conhecimentos da rea de lingustica para aproveitar ao mximo o contedo do texto, extraindo entidades e relacionamentos, detectando sinnimos, corrigindo palavras e ainda desambiguizando-as; c) Minerao de Dados: as tcnicas inteligentes de minerao de dados so muito teis para identificar os conhecimentos relevantes em banco de dados organizados e pr- processados. As tcnicas mais utilizadas so classificao e clusterizao, dentre outras. Embora existam abordagens do processo de minerao de textos que no fazem uso de PLN, a sua utilizao tem incrementado os resultados obtidos, justificando o esforo computacional adicional, como afirma Aranha (2007). 2.2 Processamento de Linguagem Natural O Processamento de Linguagem Natural surgiu devido necessidade de compreenso automtica e comunicao em geral do ser humano com o computador. Trata-se de um mecanismo criado no somente para extrair as informaes de textos, mas tambm para facilitar a entrada de dados nos sistemas e a estruturao desses dados (BULEGON, 2010). Segundo Aranha (2007), o PLN o campo da Cincia da Computao e da Lingustica que abrange um conjunto de mtodos formais para analisar textos e gerar frases em um idioma humano atravs do uso de programas computacionais. Bulegon (2010) ressalta tambm a diviso do Processamento de Linguagem Natural em quatro etapas: anlise morfolgica, anlise sinttica, anlise semntica e anlise pragmtica, que so realizadas nesta mesma ordem.
18 A anlise morfolgica responsvel por definir artigos, substantivos, verbos e adjetivos, armazenando-os em um tipo de dicionrio. Depois de construdo o dicionrio, a anlise sinttica faz uso dele procurando mostrar relacionamento entre as palavras e, num segundo momento, verifica sujeito, predicado, complementos nominais e verbais, adjuntos e apostos. Na anlise semntica, ocorre o encontro de termos ambguos, de sufixos e afixos, ou seja, questes de significado associados aos morfemas componentes de uma palavra, o sentido real da frase ou palavra. Para a juno e visualizao de todas as etapas, a anlise pragmtica faz a conexo de todo o mecanismo e mostra visualmente o resultado. Para este caso, existem algoritmos que disponibilizam o texto em forma de rvore apresentando todos os passos seguidos at a concluso do processamento. A figura 1 mostra uma expresso do ponto de vista de cada etapa do processamento de linguagem natural. Atravs desde esquema pode-se perceber que na etapa da anlise morfolgica, cada termo da sentena foi analisado individualmente e sua funo gramatical na orao foi reconhecida (representada por cores individualmente). Por exemplo: O (artigo), Senhor (substantivo), Esperou (verbo). No prximo passo, a anlise sinttica verifica o relacionamento entre as palavras indicando, por exemplo, que artigo est se referindo a cada substantivo e tambm elementos como o sujeito (O senhor) e o predicado da frase (esperou a esposa voltar do banco sentando no banco). Este relacionamento apresentado por cores nos mesmos tons. A anlise semntica destaca radicais (esper, volt, sent) das palavras e realiza desambiguaes como no caso do termo banco. Por fim, a anlise pragmtica realiza o processamento da expresso como um todo, podendo identificar, por exemplo, oraes de sentido irnico.
19 Figura 1 Etapas do processamento de linguagem natural.
Fonte: Elaborada pelo autor (2012).
As abordagens atuais da PLN se dividem basicamente em quatro categorias principais: simblica, estatstica, de conexo e hbrida (CERQUEIRA, 2010). A abordagem simblica est ligada aos fenmenos e paradigmas da lingustica e representa, atravs de algoritmos, as regras conhecidas na linguagem. Os mtodos estatsticos utilizam clculos matemticos para gerar modelos e regras a partir de exemplos de textos e sentenas. O procedimento de conexo tambm desenvolve modelos generalistas, porm este utiliza os mtodos estatsticos para complementar os mtodos de representao de conhecimento. Por fim, a abordagem hbrida mescla mtodos vindos de abordagens diferentes para suprir as necessidades do sistema ou mesmo reforar seus pontos fracos. Dependendo do tipo de sistema e da abordagem de PLN utilizada, existem diversas tcnicas e algoritmos que podem ser empregados: aprendizado por regras, programao lgica indutiva, rvores, algortimo de classificao nave bayes, ontologias e modelos de Markov, dentre outros (LADEIRA, 2010).
20 2.3 Reviso Sistemtica O termo Reviso Sistemtica refere-se a uma metodologia de pesquisa que visa obter e avaliar um conjunto de evidncias pertencentes a um contexto especfico (BIOLCHINI et al., 2005). Diferentemente do mtodo comum de reviso da literatura, a reviso sistemtica possui, como o nome sugere, um conjunto de passos formais e mtodos sistemticos executados sobre um tpico em particular com a inteno de induzir a identificao, seleo e produo de evidncias, considerando os conhecimentos e as iniciativas existentes no campo de interesse (MIAN et al., 2005). Revises sistemticas so geralmente utilizadas em reas com grande incidncia de estudos empricos, como o caso da medicina e da psicologia. Na engenharia de software, Kitchenham et al. (2004) adaptaram o mtodo de revises sistemticas utilizado na medicina e nas cincias sociais, produzindo um material de referncia que tem sido utilizado para guiar a construo de revises em diversos tpicos da engenharia de software (CAVALCANTI; SILVA, 2011). Dessa forma, a reviso sistemtica considerada um estudo secundrio, pois se baseia nos mtodos e resultados de outros estudos, chamados de estudos primrios, como o caso dos surveys, estudos de caso e experimentos. O desenvolvimento de uma abordagem sistemtica e no de uma simples reviso da literatura possibilita ao pesquisador identificar, avaliar e interpretar pesquisas disponveis e relevantes sobre uma determinada questo, um tpico ou um fenmeno de interesse (MAFRA; TRAVASSOS, 2006). Para executar o desenvolvimento de uma reviso sistemtica consistente utiliza-se obrigatoriamente um protocolo de busca de pesquisas, atravs do qual a mesma reviso pode ser executada por outros pesquisadores interessados. Os esforos na aplicao do mtodo atravs do protocolo de busca devem prover a identificao de relatos de pesquisas que apoiam ou no a questo ou tpico de interesse. Neste sentido, nenhum trabalho identificado poder ser descartado da anlise executada atravs da reviso sistemtica, cujo resultado ser a gerao de evidncias em determinado contexto (BIOLCHINI et al., 2005). Alm de todos estes aspectos, a reviso sistemtica no consiste em um simples rearranjo de dados e informaes publicadas anteriormente em estudos primrios. A reviso sistemtica tambm um tipo de abordagem metodolgica com a finalidade de integrar resultados experimentais e a sua aplicao poder enfatizar a descoberta de problemas gerais e
21 incentivar o diagnstico e a anlise de inconsistncias encontradas ao comparar estudos individuais (MAFRA; TRAVASSOS, 2006). Segundo Biochini et al. (2005), o processo de reviso sistemtica pode ser dividido operacionalmente em trs fases, como apresentado na Figura 2.
Figura 2 - Processo de Reviso Sistemtica.
Fonte: Biochini et al. (2005).
O Planejamento: o primeiro estgio do processo e est relacionado com a formulao do problema, os objetivos e a questo que iro guiar o trabalho do pesquisador e a definio sobre quais artigos so relevantes ou no para a pesquisa. O protocolo de planejamento da reviso sistemtica, elaborado neste momento, contm as definies da execuo da reviso. O marco desta etapa a aprovao do protocolo. Neste estgio podem surgir problemas que invalidem o protocolo de planejamento se, por exemplo, grande parte dos artigos retornados pela busca for de natureza diferente da requerida pelo protocolo; Caso o protocolo de planejamento da reviso sistemtica seja aprovado, na etapa de Excecuo ocorre a avaliao dos trabalhos retornados pela busca nos repositrios, utilizando por base a questo principal a ser respondida. Tambm so definidas quais evidncias encontradas nos estudos primrios devem ser consideradas e quais podem ser descartadas. Nesta etapa tambm existe um marco de avaliao da excecuo que est relacionado com a anlise e interpretao das evidncias coletadas. A questo central da pesquisa utilizada para definir que procedimentos o pesquisador deve seguir para que possa realizar inferncias sobre os dados obtidos. Por fim, a Anlise dos Resultados a fase final do processo e refere-se s concluses da reviso sistemtica. Baseado na questo central do estudo definem-se quais das informaes obtidas sero includas e apresentadas e quais no sero. Um rigoroso processo
22 para separar o que e o que no importante aplicado, pois a omisso de informaes pode invalidar as concluses, caso o estudo no possa ser reproduzido por outros pesquisadores. Biochini et al. (2005) tambm definem que a atividade de empacotamento de dados e informaes deve ser executada durante todo o processo, para possibilitar a replicao da reviso sistemtica. Por fim, ainda importante ressaltar que mesmo parecendo sequencial, o processo de reviso sistemtica acontece de forma iterativa. 2.4 Rede Social GenNet Na sociedade atual existe uma crescente necessidade de realizao de tarefas e de resoluo de problemas de forma colaborativa, estejam os atores no mesmo local e ao mesmo tempo ou no (BRITO; PEREIRA, 2004). As ferramentas de trabalho colaborativo criam ambientes virtuais que permitem que atividades habitualmente executadas em conjunto, por duas ou mais pessoas, possam continuar a serem realizadas, mesmo que os indivduos estejam fisicamente distantes (TEIXEIRA FILHO, 2002). Este tipo de configurao em rede peculiar ao ser humano. Ele se agrupa com seus semelhantes e vai estabelecendo relaes de interesses que se desenvolvem e se modificam conforme sua trajetria, entre as quais, relaes de trabalho. Essas redes sociais constituem uma das estratgias subjacentes utilizadas pela sociedade para compartilhar informaes e experincias, mediante as relaes entre os atores que as integram (TOMAL; ALCAR; DI CHIARA, 2005). Os sites de redes sociais so servios web que permitem que os indivduos i) construam um perfil pblico ou semi-pblico; ii) articulem uma lista de amigos com os quais eles compartilham uma conexo; iii) que possam navegar pelas listas de seus amigos buscando novos possveis amigos para sua prpria rede (BOYD; ELLISON, 2007); iv) que troquem mensagens; v) compartilhem contedos e; vi) agreguem contedos de sites parceiros (STROUD, 2007 apud CORREIA NETO, 2011) A rede social GenNet est diretamente relacionada com o desenvolvimento de processos e tecnologias, contextualizados em ambientes colaborativos, voltados para a promoo de aes de incluso social de indivduos portadores de doenas genticas com deficincia fsica. O conjunto de funcionalidades da rede resultado da anlise de quatro
23 grandes redes sociais, selecionadas a partir do grau de popularidade na web e tambm da natureza dos seus servios, alm de dados obtidos atravs de entrevistas com os principais perfis de usurios almejados pela rede: mdicos, associaes e famlias de pacientes (SANTOS; CORREIA NETO; VILAR, 2011). Atravs da interao com as funcionalidades apresentadas acima, o usurio do GenNet ter acesso a: Seo aberta ao pblico geral (enciclopdia virtual) com informaes diversas; Tpicos de orientao sobre aes, auxlios e atividades; Ferramentas de capacitao (ainda no disponveis na verso atual); Perfil social do usurio na rede, no qual o usurio indica o seu tipo representao: se mdico, associao ou outros tipos usurio (pacientes, familiares, advogados, assistentes sociais); Envio e recebimento de mensagens de outros participantes; Permisso para adicionar pessoas que tenham interesse em estabelecer relaes e tambm criar grupos de usurios para o compartilhamento de materiais; Participao de fruns de discusso para troca de informao com outros usurios; Espao para publicao de ideias e experincias na forma de dirio virtual (blog) que poder ser acompanhado pelos demais usurios da rede; Ferramentas para que os grupos de usurios possam formar estruturas em comunidades para interao; Mtodos com os quais os usurios possam encontrar participantes com interesses comuns ao ingressar na rede. Alm disso, o material compartilhado no GenNet, como postagens no dirio e os comentrios das discusses, poder ser avaliado pelos prprios usurios da rede e ter seu contedo indicado para outros perfis de interesse. Por isso, as prximas verses da rede social devero ser apoiadas por tcnicas computacionais inteligentes, como algoritmos de recomendao e tcnicas de minerao de texto e busca por contedo para melhorar a colaborao e as aes com os usurios.
24 2.5 Sntese do captulo O avano das tecnologias para aquisio e armazenamento de dados tem permitido que o volume de informao gerado em formato digital aumente de forma signicativa. Nesse contexto, a minerao de textos uma importante abordagem aplicada na transformao desses itens textuais em conhecimento til. A minerao de textos utiliza alm de algoritmos prprios, tcnicas j conhecidas e consolidadas como: Indexao, Processamento de Linguagem Natural e Minerao de Dados. Embora existam abordagens do processo de minerao de textos que no fazem uso de PLN, a sua utilizao tem incrementado os resultados obtidos e justificado o esforo computacional adicional. O Processamento de Linguagem Natural surgiu devido necessidade de compreenso automtica e comunicao em geral do ser humano com o computador. Trata-se de um mecanismo criado no somente para extrair as informaes de textos, mas tambm para facilitar a entrada de dados nos sistemas e a estruturao desses dados. Dependendo do tipo de sistema e da abordagem de PLN aplicada, existem diversas tcnicas e algoritmos que podem ser empregados. Uma maneira de descobrir qual destas tcnicas a mais indicada para um determinado contexto, atravs da realizao de reviso sistemtica. Diferentemente do mtodo comum de reviso da literatura, a Reviso Sistemtica possui, como o nome sugere, um conjunto de passos formais e mtodos sistemticos executados sobre um tpico em particular com a inteno de induzir a identificao, seleo e produo de evidncias atravs de uma metodologia de pesquisa rigorosa, confivel, imparcial e passvel de auditagem. Tem tambm a finalidade de integrar resultados experimentais e a sua aplicao poder enfatizar a resoluo de questes como, por exemplo, qual das tcnicas de PLN a mais indicada para minerar texto de postagens em redes sociais. Os sites de redes sociais so servios web que permitem que os indivduos construam um perfil pblico ou semi-pblico, articulem uma lista de amigos, troquem mensagens, compartilhem e agregem contedos. A rede social GenNet, por exemplo, est diretamente relacionada com o desenvolvimento de processos e tecnologias, contextualizados em ambientes colaborativos, voltados para a promoo de aes de incluso social de indivduos portadores de doenas genticas com deficincia fsica. Buscando melhorar a colaborao e as aes com os usurios, esta rede em particular precisa utilizar, por exemplo, tcnicas de minerao de texto atravs do processamento de linguagem, pois a maior parte das informaes trocadas na rede est na forma de texto.
25 3 Procedimentos Metodolgicos
Este captulo apresenta a estratgia de ao utilizada por esta pesquisa. A primeira seo trata da metodologia de reviso sistemtica escolhida para ser executada visando o alcance dos objetivos definidos. A seo seguinte apresenta o Protocolo de Reviso Sistemtica. 3.1 Execuo da Reviso Sistemtica Para o desenvolvimento deste trabalho, optou-se pela implementao de uma reviso sistemtica como mtodo de pesquisa, visto a sua eficincia em vrios campos da engenharia de software (MAFRA; TRAVASSOS, 2006). Assim, a reviso sistemtica, conforme apresentado na seo 2.3, ser desenvolvida tomando por base os trabalhos disponveis em grandes repositrios internacionais de pesquisas em Cincia da Computao. O guia de referncia metodolgica de Biochini et al. (2005) foi utilizado para a conduo deste estudo e sua escolha deve-se ao fato dele ser baseado na proposta inicial de Kitchenham et al. (2004), pioneira na aplicao de revises sistemticas na engenharia de software, e segue o esquema apresentado no captulo anterior. A partir das definies do guia de desenvolvimento de reviso sistemtica desenvolvido por Biochini et al. (2005), o mtodo utilizado para a execuo deste trabalho consistiu em trs etapas. 3.1.1. Planejamento Foram definidos claramente objetivos, questo central e foco da reviso sistemtica, bem como as especificaes do problema e os termos de busca e fontes atravs dos quais os estudos primrios foram selecionados para esta pesquisa. Para tal, o protocolo de reviso sistemtica (apresentado no apndice A) foi criado contendo informaes do tipo critrios de incluso e excluso de estudos primrios, idioma dos trabalhos (ingls), mtodo de busca (automtico), tipos de trabalho e definio do procedimento de seleo de trabalhos a fim de responder as seguintes perguntas:
26 1. Quais tcnicas, algoritmos ou estruturao de dados utilizados pelo PLN esto sendo aplicadas na minerao de textos? 2. De que forma eles so aplicados? 3. Quais so as vantagens e as limitaes observadas nas tcnicas? 4. Qual a tcnica mais recorrente? 5. Existe alguma experincia do uso de PLN aplicado minerao de textos postados em redes sociais virtuais? Aps definio do protocolo, este foi avaliado pelos orientadores para que a string de busca fosse validada e as questes de pesquisa fossem elaboradas de forma consistente. Nesta etapa, a string de busca foi retestada nas bases, para garantir a consistncia dos dados retornados e consequentemente da reviso sistemtica.
3.1.2. Execuo Todos os trabalhos primrios obtidos atravs da string de busca (Apndice A tabela 4) foram avaliados tomando por base os critrios de incluso e excluso definidos no protocolo de reviso. Neste processo, verificou-se o contedo dos estudos primrios considerando a seguinte ordem: ttulo, resumo, concluses e texto completo. Esta etapa permitiu que fossem selecionados apenas os estudos primrios relevantes para o contexto desta pesquisa. Foi construda uma lista de estudos, os quais forneceram as informaes e experincias que foram extradas para que o protocolo de reviso sistemtica fosse respondido. Neste momento, todos os trabalhos includos nesta lista tiveram o seu contedo completo analisado, para que nenhuma evidncia ou informao importante fosse desconsiderada. Neste ponto, foi necessrio verificar a consistncia da etapa de busca e seleo dos estudos primrios. Para tanto, os orientadores da pesquisa executaram a string de busca novamente nos repositrios de estudos primrios, selecionaram uma amostra dos trabalhos retornados com o intuito de confirmar os resultados obtidos pelo autor.
27 3.1.3. Resultado das Anlises Aps avaliao da execuo, os resultados foram sumarizados. Para tanto, um protocolo de apresentao de resultados foi criado, com a inteno de apresentar as informaes atravs de estruturas na forma de tabelas e grficos para facilitar a compreenso das concluses. Alm disso, foram apresentados os comentrios finais da reviso sistemtica, contendo a quantidade de trabalhos obtidos pela busca nos repositrios e a quantidade selecionada para a reviso, registro de qualquer tipo de tendncia de invalidao de busca, seleo e extrao que puderam influenciar os resultados da reviso sistemtica e o contexto em que o resultado da reviso sistemtica poder ser aplicado. 3.2 Sntese do captulo A reviso sistemtica foi conduzida em trs etapas: planejamento que teve como marco a avaliao do planejamento, execuo que incluiu tambm uma avaliao da execuo e apresentao dos resultados. Sendo as etapas de avaliao realizadas em conjunto com os orientadores. As definies de como foi implementada a reviso sistemtica est no protocolo de reviso, o qual contm, com as perguntas a serem respondidas por este trabalho, os termos da string de busca e as fontes (IEEE e Capes) utilizadas para a identificao de estudos primrios e os critrios de incluso de artigos e a forma de apresentao dos resultados (grficos, tabelas e tpicos textuais).
28 4 Tcnicas de Processamento de Linguagem Natural Aplicadas ao Processo de Minerao de Textos Neste captulo so apresentados os resultados desta pesquisa, as tcnicas de PLN identificadas nas evidncias publicadas nos estudos primrios, bem como as vantagens e limitaes das tcnicas. Os grficos e tabelas apresentam a sumarizao das informaes sobre PLN e minerao de textos.
A execuo da string de busca nas fontes selecionadas para o desenvolvimento desta pesquisa em 4 de abril de 2012 retornou um total de 74 trabalhos distribudos entre os anos de 2002 e 2011, conforme apresentado na figura 3. O filtro aplicado atravs dos critrios de incluso e excluso dos estudos primrios ocorreu na seguinte sequencia de leitura: primeiramente utilizando o ttulo dos trabalhos, em seguinda o abstract, as concluses e por fim o texto completo, reduzindo o corpus inicial da pesquisa para 24 estudos como poder ser observado na figura 4. Atravs dos critrios de incluso e excluso foram retirados trabalhos que tratavam de resultados referentes a apenas um dos temas deste estudo, somente PLN ou somente minerao de textos. Tambm foram excludos estudos primrios que faziam somente referncia e citaes aos temas, que no tratavam de uma tcnica especfica ou cuja aplicao se dava em um idioma de estrutura diferente do ingls, como o chins e o grego. O ingls foi o idioma escolhido como critrio de escolha dos estudos primrios, pois os peridicos e eventos mais relevantes da rea publicam pesquisas principalmente neste idioma. Uma informao importante a ser considerada que quatro trabalhos potencialmente relevantes para a pesquisa no estavam acessveis nas bases e por isso no participaram da etapa de incluso e excluso de estudos da reviso sistemtica. Nestes trabalhos s estavam disponveis os resumos do texto, ou um esboo de apresentao do contedo.
29 Figura 3 Quantidade total de trabalhos retornados pela string de busca nas bases IEEE e Capes
Fonte: Elaborada pelo autor (2012).
Figura 4 Quantidade de estudos selecionados pelos critrios de incluso e excluso
Fonte: Elaborada pelo autor (2012).
Dentre os trabalhos selecionados, 42% (10/24) dos estudos eram de carcter terico ou conceitual e revises da literatura, 50% (12/24) apresentavam estudos de caso e 8% (2/24) dos trabalhos descreviam experimentos formais do uso de Processamento de Linguagem Natural em Minerao de Textos, conforme mostrado na figura 5.
Figura 5 Quantidade de estudos selecionados estudo empregado.
Fonte: Elaborada pelo autor (2012).
30
Quanto rea de aplicao dos estudos selecionados, 54% (13/24) dos trabalhos so da rea da Computao enquanto 46% (11/24) dos estudos primrios foram desenvolvidos na rea mdica (figura 6). Como evidncias na rea da medicina, podem-se citar os trabalhos relacionados com a minerao de abstracts de trabalhos publicados em um repositrio de artigos mdicos, identificao e classificao de termos mdicos, minerao da descrio de protenas, dentre outras aplicaes. No caso especfico de aplicao na rea da computao, foram identificados estudos que exploraram as tcnicas de processamento de linguagem natural associadas minerao de textos para realizar desambiguao de elementos em textos, anlise semntica, consulta a banco de dados estruturados atravs de querys em linguagem natural, representao de imagens atravs de textos extrados de legendas e sumarizao de documentos para construo semi-automtica de apresentaes.
Figura 6 Quantidade de estudos por rea de aplicao.
Fonte: Elaborada pelo autor (2012).
De acordo com a base na qual os trabalhos foram encontrados, os anais de conferncias forneceram 54% (13/24) e os peridicos 46% (11/24) dos estudos primrios selecionados pelo critrio de incluso e excluso da reviso sistemtica. Foram identificadas pesquisas sobre o tema em 11 pases, sendo 42% (10/24) dos trabalhos de autoria dos Estados Unidos, 17% (4/24) da Inglaterra, 8% (2/24) da India e 29% (7/24) dos trabalhos somados por Frana, Brasil, Japo, China, Alemanha, Equador e Irlanda (um trabalho para cada pas, ou seja, 4%). Por fim, em 4% (1/24) dos trabalhos no foi identificada a localizao geogrfica dos pesquisadores. Esta informao foi derivada atravs
31 da consulta da instituio a qual os autores do estudo estavam filiados. A Figura 6 apresenta a distribuio dos estudos primrios por pas de origem.
Figura 6 Distribuio dos estudos por pas.
Fonte: Elaborada pelo autor (2012). 4.1 Foco das Pesquisas Primrias Os trabalhos selecionados para a reviso sistemtica fazem uso de Processamento de Linguagem Natural para minerar textos com a inteno de prover o desenvolvimento de diversas atividades. Dentre estas atividades, esto a extrao de conhecimento em dados do tipo textual, representao do contedo de documentos, classificao de textos, busca em textos e outros processos semnticos. Deve-se ressaltar que estes processos no necessariamente ocorrem de forma isolada, tendo sido encontradas evidncias de experincias que combinam estas atividades, dependendo do resultado desejado. 4.1.1 Extrao de conhecimento em textos A extrao de conhecimento em textos uma evidncia que pode ser descrita como a atividade na qual os pesquisadores procuram retirar informaes de um documento para aplicao em um dado contexto e a identificao de padres em documentos, por exemplo, que termo est geralmente associado a determinado tema, ou contedo. Neste processo deve-se considerar a importncia do PLN para a desambiguao de termos, a combinao de sinnimos e a importncia de palavras que descrevem o mesmo sentido. Extrair conhecimento em textos requer elementos tericos da rea da Lingustica, no
32 sentido de que palavras pertencentes a uma sentena devem ser capturadas sem perder a sua representatividade lxica, sinttica e semntica no contexto. Dentre as experincias de extrao de conhecimento, foram encontradas aplicaes de processamento de textos para minerar abstracts de trabalhos cientficos a fim de descobrir a relevncia de determinada pesquisa, alm de evidncias de utilizao de PLN para reconhecimento, interpretao e processamento de opinies e sentimentos escritos em linguagem natural. 4.1.2 Representao do contedo de documentos Considerando que a maior parte dos documentos disponvel na web processvel, mas no entendveis por mquinas, os estudos primrios apontam que a atividade de representao da informao relevante em textos, continua sendo uma tarefa complicada. Um problema comum deste tpico a representao de um documento extenso atravs de apenas uma frase, ou um conjunto de termos que determinem o contedo do texto. Neste contexto, utiliza-se geralmente uma abordagem na qual palavras-chave frequentemente encontradas no texto pode representar o contedo de um documento por completo. No entanto, essa tcnica conhecida como keywording pode apresentar problemas, principalmente se for considerado o relacionamento direto entre a incidncia de uma palavra no contexto e a sua importncia, alm do efeito produzido pela ambiguidade dos termos do documento. Ao se aplicar tcnicas de Processamento de Linguagem Natural para minerar textos a fim de representar o contedo presente em documentos, pode-se realizar indexao dos termos de forma mais significativa, reduzindo consideravelmente o grau de ambiguidade entre as palavras encontradas e aumentando a eficcia da recuperao da informao necessria na representao dos documentos. 4.1.3 Classificao de textos Pode-se definir a atividade de classificao de textos, como a distribuio de um conjunto de documentos em categorias distintas, dependendo da informao contida no texto. Esta evidncia envolve as pesquisas da rea mdica que na ltima dcada apresentou um
33 considervel crescimento de novos termos (palavras), criados para a definio de conceitos recm-identificados ou variaes de termos j existentes na literatura. Nesta realidade, a terminologia um elemento essencial, pois atravs dela pode-se desenvolver o estudo dos termos e as suas aplicaes em contextos especficos. Este tipo de estudo permite que palavras possam ser reconhecidas, conectadas e organizadas em categorias de termos formando classes de palavras e estruturas do tipo rede de termos, em sistemas de armazenamento de produes bibliogrficas, por exemplo. No entanto, para que novos termos descobertos sejam adicionados a uma estrutura j existente, a classificao baseada no significado o primeiro passo para a construo de estruturas semnticas que possuam associaes entre as palavras atravs de links para identificao de termos correlacionados e generalizao de sinnimos na mesma classe. Assim, tcnicas automticas de reconhecimento e classificao de termos podem auxiliar o processo de criao e manuteno de sistemas de armazenamento de documentos atravs da especificao da terminologia dos termos, sobretudo na rea mdica, na qual tcnicas manuais no conseguem lidar com a classificao do nmero crescente de termos e da estrutura complexa de terminologias biomdicas. 4.1.4 Busca de informaes em textos Na busca de conceitos e informaes em textos, as abordagens para a captura da informao semntica ainda envolvem intermedirios humanos, exigindo tarefas como a etiquetagem de termos. Entretanto, a utilizao de tcnicas de PLN e minerao de textos pode melhorar o processamento de investigao de informaes em dados textuais. A evidncia encontrada neste contexto pela reviso sistemtica trata de um sistema de perguntas e respostas que se utiliza da minerao e do PLN para buscar em um documento de texto a resposta mais coerente, dada uma determinada pergunta. A busca ocorre dentro do texto e identifica que pargrafo pode ser utilizado como resposta da questo. Desta forma, ao invs de buscas feitas por palavras-chave, podem ser buscados termos relacionados com os de uma consulta realizada, considerando a semntica e tambm questes de ambiguidade de palavras e sinnimos, dentre outras caractersticas que possam deixar a busca mais parecida com a linguagem natural.
34 4.2 Respostas para as questes da reviso sistemtica Nesta seo so apresentadas as respostas para as perguntas definidas no protocolo de reviso sistemtica, que foram definidas atravs das evidncias observadas nas experincias publicadas nos estudos primrios selecionados para a reviso. 4.2.1 Quais so as tcnicas, algoritmos ou estruturao de dados utilizados pelo PLN esto sendo aplicadas na minerao de textos? Por meio da anlise das evidncias encontradas na metodologia, nos resultados e nas concluses dos estudos primrios, pde-se elaborar uma lista (Tabela 1) de tcnicas, algoritmos e estruturao de dados usados em PLN e aplicados na minerao de textos para resolver questes de extrao, representao, busca e classificao dos estudos primrios. No entanto, deve-se salientar que nem todos os trabalhos primrios mostram de forma detalhada o uso da tcnica, muitas vezes ocultando informaes como a forma com a qual os dados textuais so estruturados ou como a tcnica foi avaliada e escolhida para o estudo. A sigla PLNMT utilizada neste estudo para indicar a ordem a qual o artigo foi includo atravs dos critrios da reviso sistemtica.
Tabela 1 Tcnicas identificadas pela reviso sistemtica. Tipo Nome Trabalho primrio Tcnica Stemming [PLNMT 8] Vetores [PLNMT 1] [PLNMT 4] [PLNMT 12] Raciocnio Baseado em Casos [PLNMT 7] Term Connection [PLNMT 6] Teoria da Possibilidade [PLNMT 13] Latent Semantic Indexing [PLNMT 14] Algoritmo Agrupamento de Markov [PLNMT 12]
35 Naive Bayes [PLNMT 7] [PLNMT 10] Estruturao Gramtica Livre de Contexto [PLNMT 5] rvore [PLNMT 3] Ontologia [PLNMT 1] [PLNMT 2] [PLNMT 3] [PLNMT 7] [PLNMT 9] [PLNMT 11] [PLNMT 14] [PLNMT 15] [PLNMT 16] [PLNMT 17] [PLNMT 18] [PLNMT 19] [PLNMT 20] [PLNMT 21] [PLNMT 22] [PLNMT 23] [PLNMT 24] Fonte: Elaborada pelo autor (2012). 4.2.2 De que formas so aplicadas? Stemming Stemming uma tcnica a aplicada s listas de palavras-chave para remover termos no descritivos e concentrar palavras relacionadas em um determinado contexto. Assim, o texto pr-processado para a remoo de capitalizao, pontuao e strings que contm caracteres especiais. Permite inferir diferentes formas para uma mesma palavra mapeada e com isso possvel encontrar mais informaes sobre um mesmo tpico sem a necessidade do uso de variaes lingusticas (plural, flexo de gnero e nmero, entre outros). Presente em somente um estudo, do total de pesquisas analisadas pela reviso sistemtica, pode-se observar a utilizao desta tcnica em experincias que visam extrair informaes e padres em textos atravs do mapeamento e anlise da frequncia com que termos so encontrados em documento. Um exemplo simples da aplicao da tcnica a reduo dos termos "fishing", "fished", "fish", "fisher" para o radical comum "fish".
36 Vetores Seja C um conjunto finito de conceitos, ento um vetor conceitual V a combinao linear desses elementos. Por exemplo, os diferentes significados do elemento porta no vetor V podem ser projetados pelos seguintes conceitos (CONCEITO [intensidade da ocorrncia]): V(porta) = (ABERTURA [0,3], BARREIRA [0,31], PORTO [0,33], EXTERIOR [0,35], INTERIOR [0,37]). Na prtica, o maior conceito o que tem maior significado para o contexto e podem ser utilizadas as operaes comuns entre vetores. Esta tcnica eficiente em atividades de classificao temtica de termos, podendo ser aplicada na substituio de palavras e na aproximao semntica, pois possui resultados bastante satisfatrios com sinnimos e antnimos de palavras. Alm disto, a aplicao dos vetores pode acontecer de forma isolada e tambm apoiado a outras tcnicas como o algoritmo de naive bayes e a aplicao de regras.
Raciocnio Baseado em Casos Por ser baseada na lembrana de experincias especficas que possam ser teis para que o problema (caso) a ser resolvido, nesta tcnica aplica-se a hiptese de que problemas similares tendem a ter solues semelhantes. Portanto, a avaliao dessa similaridade a chave desta tcnica. A avaliao depende do domnio do problema e da representao, aonde cada caso corresponde a uma resposta e necessrio aproximar matematicamente as solues. Raciocnio baseado em casos particularmente eficiente para resoluo de problemas de classificao de termos, sobretudo quando o contexto rene elementos da linguagem natural. Pode ser usado como um mecanismo inteligente para processamento de texto, minerao e recuperao da informao. Esta tcnica esteve associada ao uso de ontologias e do algoritmo naive bayes e foi observada em apenas uma pesquisa primria que tratou da classificao de documentos de uma base mdica.
Term Connection Atravs desta tcnica o processamento ocorre primeiramente com o reconhecimento da estrutura do texto, depois com a execuo da desambiguao das palavras e, por fim, com o significado semntico dos termos. A Term Connection fundamentada no princpio de que
37 se deve averiguar significados semnticos inerentes dos termos ao fazer anlise do contexto semntico de acordo com a ordem da associao das palavras. A tcnica denotada por P = {t a , R, t b }, sendo t a e t b a representao dos
termos da sentena e t a a palavra que aparece antes de t b . Neste esquema, R o relacionamento entre estes dois termos e representa o significado da relao dos termos num contexto especfico. Assim possvel determinar quais so os termos principais e quais so os termos subordinados em uma sentena qualquer. A Term Connection foi uma tcnica observada em apenas um estudo primrio, dentre o total coletado pela reviso sistemtica, e foi associada a estruturas como rvores, grafos e mquinas de estado, aplicada no contexto da representao da informao contida em documentos.
Teoria da Possibilidade Esta tcnica foi utilizada em apenas um estudo primrio, no processo de extrao do significado e das informaes contidas em documentos em linguagem natural que pertencem a um conjunto de domnios especficos. Os textos em linguagem natural so divididos em trs unidades (sujeito - verbo objeto) que so representadas na forma de palavras-chave e posteriormente agrupadas como eventos. A tcnica analisa, por exemplo, dadas duas sentenas O ser humano um primata e Ns podemos ser felizes, a ocorrncia do termo ser nos dois eventos e a probabilidade do termo fazer parte do conjunto de sujeitos ou de predicados das sentenas encontradas no texto.
Latent Semantic Indexing A tcnica encontrada em apenas um estudo primrio usada para lidar com imperfeies deixadas pelas ontologias no processo de extrao de conhecimento. O texto estruturado de modo a eliminar todos os tipos de pontuao, formando assim um documento somente com termos ou palavras-chave. Estas palavras so utilizadas para formar uma matriz de termos e a cada termo atribudo um peso para mostrar a importncia desse elemento.
38 Algoritmo de Agrupamento de Markov As evidncias consideram este algoritmo muito rpido e escalvel, sendo aplicado como forma de evitar o uso direto de PLN. O algoritmo foi aplicado para representar o relacionamento entre os termos atravs do agrupamento de grafos formados por termos provenientes de vetores e, desta forma, extrair informaes de documentos e criar uma lista indexada com dados de cada texto processado. Este algoritmo complementado por outras tcnicas de PLN, como o raciocnio baseado em casos e o algoritmo de classificao nayve bayes, e foi observado em apenas dois estudos primrios.
Algoritmo Naive Bayes O algoritmo de classificao Naive Bayes aplicado para maximizar a probabilidade de um determinado termo poder ser associado a uma classe especfica baseada nas suas caractersticas e na caracterstica da classe. A aplicao do algoritmo foi observada em dois estudos primrios, e em ambos foi utilizado como uma abordagem complementar de outras tcnicas, como apoio da tcnica de raciocnio baseado em casos ou como fator de otimizao dos resultados obtidos por ontologias.
Ontologias No processamento de linguagem natural atravs de ontologias, as palavras so agrupadas e classificadas segundo uma ontologia de domnio (domain-specific ontology), de forma que as sequncias que tiverem o mesmo significado apresentem a mesma representao. As tarefas que envolvem o uso de ontologias em processamento de textos so: Extrao do domnio relevante da terminologia e sinnimos; Descoberta de conceitos que podem ser considerados como abstraes do pensamento humano e derivar uma hierarquia de conceitos para organiza-los; Extenso da hierarquia de um conceito existente adicionando novos conceitos; Aprendizagem no-taxonmica de relacionamentos; Extrao do domnio relevante da terminologia e sinnimos; Extrao de instncias de relaes e conceitos;
39 Descoberta de outras relaes axiomticas ou regras que envolvem conceitos e relaes. Foi observado que outras tcnicas so utilizadas em conjunto com as ontologias, como aconteceu com as tcnicas de raciocnio baseado em casos e a tcnica latent semantic indexing. A ontologia pode utilizar tambm abordagens complementares ao seu escopo, como o algoritmo de classificao naive bayes e as rvores semnticas e outras tcnicas ou envolvimento humano para estruturao de dados.
rvores A rvore aplicada para representar relacionamentos lgicos entre as palavras em uma sentena. Atravs dos estudos primrios pde-se perceber que este tipo de estrutura associado a ontologias de domnio pode ser utilizado para extrair informaes de um determinado contexto.
Gramtica Livre de Contexto As regras da Gramtica Livre de Contexto so usadas como analisador para detectar frases e termos-chave que possam representar um documento de texto, dado que a maioria das estruturas do texto de linguagem natural pode ser eficazmente descrita usando gramtica livre do contexto. Como as palavras podem ter mltiplos sentidos (como substantivo, verbo, adjetivo), o analisador deve consultar todas as combinaes possveis de sentidos dos termos, antes de realizar anlises em nvel de sentena. Neste esquema, os espaos em branco podem ser usados como delimitadores. Um exemplo simples de uma regra que pode ser criada para representar uma sentena atravs da gramtica livre de contexto S-> Art Subst V Adj. Ou seja, qualquer frase formada por um artigo, seguido de um substantivo e posteriormente de um verbo e um adjetivo, pode ser representada por esta regra. No entanto, seria necessria a criao de vrias outras regras que processassem as diversas formas em que as sentenas poderiam aparecer no documento.
40 4.2.3 Quais so as vantagens e as limitaes observadas pelas pesquisas primrias? Embora alguns autores no apresentem explicitamente as vantagens e limitaes do uso das tcnicas quando aplicadas para resolver questes de processamento de textos, foi possvel analisar os resultados e as concluses dos estudos primrios e extrair algumas informaes relevantes neste contexto. A Tabela 2 abaixo mostra resumidamente as vantagens e limitaes das tcnicas usadas nos trabalhos analisados. Apesar de apresentar vantagens relevantes, algumas das tcnicas identificadas s foram aplicadas em um nico estudo primrio, ou seja, existem poucas evidncias que comprovem realmente o efeito da tcnica no contexto do processamento de linguagem natural, diferentemente no caso de ontologias (tcnica recorrente em muitos estudos). Pode-se, no entanto, apresentar uma lista mais detalhada de vantagens e desvantagens de algumas tcnicas, segundo os relatos nos estudos primrios: Apesar de oferecer uma grande reduo do conjunto de dados textuais a serem processados, stemming uma tcnica que necessita de maior investigao, pois ao final do seu processamento muitos radicais idnticos podero ser produzidos, principalmente quando verbos so processados. Alm disso, outro problema que pode surgir a formao de radicais que no representem o conjunto total de palavras derivadas do termo; A tcnica que utiliza vetores funciona muito bem para vetores que foram calculados a partir de definies hipernicas. Mas para termos muito gerais a eficincia do vetor reduzida; Mesmo exigindo muitos recursos e esforos, a tcnica de raciocnio baseado em casos tem uma grande vantagem que a capacidade de aprender atravs do armazenamento de problemas de classificao recentemente resolvidos; A tcnica baseada em term connection coloca nfase na anlise semntica, comeando com a anlise de sentena e, posteriormente, do discurso, sendo capaz de processar aparies irregulares da linguagem em textos reais como da poesia;
41 A aplicao da teoria da possibilidade apresentou bons resultados no estudo primrio, porm o problema dos dados esparsos foi observado. Este problema comum em tcnicas estatsticas usadas em PLN, pois mesmo grandes colees de texto podem no gerar estimativas confiveis da probabilidade de eventos; O algoritmo de agrupamento de Markov tem como vantagens o fato de ser no- supervisionado, rpido e escalvel. No entanto, o algoritmo ao ser aplicado adequado a um contexto especfico de dados, podendo se tornar ineficiente em outro; No caso das ontologias, pode-se inferir que atravs delas a informao necessria e adquirida atravs de textos em linguagem natural pode ser armazenada de modo no ambguo em formato padronizado, o que descreve o conhecimento em um modelo formal. Alm disso, ontologias permitem a indexao semntica e a recuperao da informao, fornecendo meios de fuso de dados por sinnimos ou conceitos definidos usando vrias descries. A tcnica pode apresentar, no entanto, necessidade de melhoria contnua no sentido de aprimorar o modelo em aspectos de escopo, relacionamentos ou granularidade. Tabela 2 Vantagens e limitaes das tcnicas identificadas. Nome Vantagem Limitao Stemming Reduo do tamanho de dados textuais Pouca clareza e necessidade de maior investigao Vetores
Bons resultados para termos hipernimos
Pouco eficiente para contextos genricos Raciocnio Baseado em Casos
Aprendizagem incremental
Muitos recursos requeridos Term Connection nfase na semntica No identificado Teoria da Possibilidade
Boa performance
Dados esparsos Latent Semantic Indexing Lida com imperfeies da ontologia
No identificado Agrupamento de Markov
Mtodo no-supervisionado
Dependente de contexto Naive Bayes Potencializa o poder de outras tcnicas
No identificado Gramtica Livre de Contexto Mais eficiente que mtodos estatsticos No aplica semntica aos dados rvore
No identificado Relevante quantidade de erros identificados Ontologia Flexibilidade de aplicao em diversos contextos: extrao, classificao,
Pode requerer melhoria contnua
42 busca, dentre outros. Fonte: (Elaborada pelo autor, 2012) Alm das evidncias apresentadas acima, pode-se concluir que outra grande vantagem do uso de ontologias est no fato da tcnica possuir vrias experincias publicadas em diversos aspectos da minerao de textos em linguagem natural ao longo da ltima dcada. Enquanto isso, outras tcnicas no foram muito exploradas no mesmo perodo, apesar de apresentarem relevantes vantagens. 4.2.4 Qual a tcnica mais recorrente? Pode-se perceber que a ontologia a tcnica de PLN mais utilizada para minerao de texto na ltima dcada (tabela 3), sendo aplicada em quase todos os anos durante o perodo composto entre 2001 e 2011. Neste intervalo, a tcnica foi aplicada tanto como nica abordagem, quanto foi complementada com outras tcnicas identificadas. Outras abordagens identificadas nos estudos primrios, apesar de oferecerem grandes vantagens e resultados satisfatrios, no possuem tanta incidncia de utilizao quantos as ontologias. Alm disso, em alguns casos como das tcnicas de stemming, rvores e a gramtica livre de contexto, a aplicao ocorreu apenas uma vez e no incio do perodo compreendido pelo estudo. Tabela 3 Distribuio das tcnicas por ano. Tcnica 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 Stemming Vetores RBC Term Connection T. Possibilidade LSI Markov Naive Bayes GLC rvore
43 Ontologia Fonte: Elaborada pelo autor (2012). Assim, as evidncias mostram que as ontologias tm sido frequentemente utilizadas ao longo dos 10 anos compreendidos pela reviso sistemtica, sendo que, nos ltimos 3 anos, as pesquisas identificas envolveram somente a aplicao desta tcnica. As ontologias foram aplicadas em mais da metade dos trabalhos analisados para a extrao de informao de dados no-estruturados, para representao do contedo de textos, para realizar buscas em documentos e tambm no processo de classificao de textos. A razo para a popularidade da aplicao tcnica para minerar textos em linguagem natural o fato das ontologias proverem um vocabulrio para representao do conhecimento e um conjunto de conceitos que o sustenta, impedindo desta maneira que interpretaes ambguas ocorram. Alm disso, a ontologia permite que uma definio exata da informao seja estabelecida, possibilitando assim sua escrita em linguagem formal, evitando que espaos semnticos existentes na linguagem natural sejam processados de modo equivocado. Ou seja, uma determinada palavra mapeada em uma ontologia de domnio especfico no ter outro significado. 4.2.5 Existe alguma experincia do uso de PLN aplicado minerao de textos postados em redes sociais virtuais? Ao longo da ltima dcada no foram encontradas pesquisas que abordassem o uso de tcnicas de processamento de linguagem natural para minerar textos postados em redes sociais virtuais. No entanto, mesmo no tendo sido evidenciada diretamente a aplicao das tcnicas de PLN especificamente em redes sociais, existe uma evidncia que apresenta informaes de relativamente importncia neste contexto. O trabalho [PLNMT 21] trata de um paradigma conhecido como Sentic Computing, um novo paradigma de minerao e anlise de opinio e sentimento que explora tcnicas da Inteligncia Artificial e da Web Semntica para melhor reconhecer, interpretar e processar as opinies e sentimentos em um texto de linguagem natural. Baseado em ontologias, o processamento textual interpreta os mais comuns indicadores de valncia afetiva contidos em
44 linguagem natural, como por exemplo, pontuao especial, palavras de exclamao, advrbios de grau e emoticons. A tcnica foi utilizada em uma experincia para extrair informao estruturada diretamente a partir de opinies de pacientes de um site. Atravs da anlise deste estudo conclui-se que este mtodo baseado em ontologias poderia ser utilizado para minerar postagens em redes sociais virtuais, uma vez que a forma de interao dos usurios em redes sociais virtuais acontece de forma natural, aonde predominam opinies e sentimentos nos textos postados em fruns de discusso, comunidades ou mensagens trocadas diretamente com outro usurio. Para tal, pode-se utilizar a estrutura de modo a construir conceitos e fornecer, para cada um deles, a freqncia relativa e a ocorrncia do conceito no texto, sua conotao (positiva ou negativa), e o grau de intensidade com que o conceito expresso. 4.3 Sntese do captulo A execuo da string de busca nas fontes selecionadas para o desenvolvimento desta pesquisa em 4 de abril de 2012 retornou um total de 74 trabalhos distribudos entre os anos de 2002 e 2011. O filtro realizado atravs dos critrios de incluso e excluso dos estudos primrios reduziu o corpus inicial da pesquisa com 24 estudos. Os trabalhos selecionados para a reviso sistemtica fazem uso de Processamento de Linguagem Natural para minerar textos com a inteno de prover o desenvolvimento de diversas atividades como a extrao de conhecimento em dados do tipo textual, representao do contedo de documentos, classificao de textos, busca em textos e outros processos semnticos. Por meio da anlise das evidncias encontradas na metodologia, nos resultados e nas concluses dos estudos primrios pde-se elaborar uma lista de tcnicas, algoritmos e estruturao de dados usados em PLN e aplicadas na minerao de textos: stemming, vetores, raciocnio baseado em casos, term connection, teoria da possibilidade, latent semantic indexing, agrupamento de Markov, naive bayes, gramtica livre de contexto, rvores e ontologias. Destas tcnicas, a ontologia se mostrou a mais eficiente, primeiramente por ter sido aplicada em diversos contextos ao longo de uma dcada e segundo pelas suas caractersticas,
45 sendo capaz de armazenar textos de modo no ambguo em formato padronizado e de realizar a indexao semntica e a recuperao da informao, fornecendo meios de fuso de dados por sinnimos ou conceitos definidos. No entanto, a tcnica pode apresentar a necessidade de melhoria contnua no sentido de aprimorar o modelo em aspectos de escopo, relacionamentos ou granularidade. No foi identificada nenhuma experincia de aplicao de PLN e minerao de textos para redes sociais virtuais, porm uma importante evidncia foi observada com o uso de ontologias aplicadas no contexto de Sentic Computing para minerao de opinies e sentimentos de usurios em um site, informaes relevantes ao se considerar a minerao de publicaes em redes sociais virtuais as quais ocorrem de modo semelhante. Assim, pde-se perceber que a ontologia a tcnica de PLN mais utilizada para minerao de texto na ltima dcada, sendo aplicada em quase todos os anos durante o perodo composto entre 2001 e 2011.
46 5 CONCLUSO Neste captulo apresentam-se as consideraes finais sobre o trabalho desenvolvido nesta monografia. Na seo 5.1 so apresentas as consideraes finais sobre o trabalho. Na seo 5.2 so descritas as contribuies desta monografia e na seo 5.3 algumas propostas para trabalhos futuros. 5.1 Consideraes finais Esta reviso sistemtica foi realizada tendo com base os 24 estudos primrios selecionados atravs de critrios de incluso e excluso dentre 74 trabalhos que foram retornados pela string de busca. As perguntas de pesquisa da reviso sistemtica definidas no protocolo foram todas respondidas, exceto no caso do uso de tcnicas de processamento de linguagem natural na minerao de redes sociais virtuais. Neste caso particular, no foi identificado nenhum estudo que tratasse exclusivamente deste tema, porm um dos trabalhos fazia grande referncia a um contexto similar ao das redes sociais virtuais, a minerao de opinio e sentimentos. Foram identificadas um total de 11 tcnicas utilizadas para extrao de padres e conhecimentos em textos, bem como para a representao de contedo, busca e classificao de termos. Dentre estas tcnicas, a que apresentou maiores vantagens foi a ontologia, aplicada para processar textos em linguagem natural durante toda a dcada compreendida por este estudo. A tcnica pode, inclusive, ser aplicada para minerao de textos de redes socias, um contexto em que predominam postagens com opinies e expresses de sentimento. Para tal, deve-se considerar a importncia do planejamento do domnio da ontologia, de modo a evitar a presena de palavras ambiguas. A melhor forma de desviar os problemas com ambiguidade de termos no processamento de linguagem natural criando um domnio consistente, no qual os conceitos existentes e as suas relaes possam representar cada termo de forma nica, evitando os casos com lacunas existentes na natureza da semntica das palavras.
47 Pode-se considerar ainda o uso de tcnicas complementares que possam ampliar a capacidade do processamento de textos com ontologias. O uso do algoritmo de classificao nayve bayes poder aumentar a probabilidade de um determinado termo pertencer a um domnio. A tcnica latent semantic indexing capaz de lidar com algumas das imperfeies geradas pela definio do domnio da ontologia. E finalmente, a tcnica term conection que pode lidar com irregularidades nos textos. Neste ltimo caso a associao com as ontologias poderia produzir melhores resultados no processamento de textos de redes sociais, no entanto faz-se necessaria a elaborao de um estudo para investigar essa combinao de tcnicas. Ainda deve-se destacar a grande incidncia de pesquisas em minerao de textos e processamento de linguagem natural na rea mdica, cujo principal interesse est voltado para a extrao automtica de conhecimento em estudos empricos da rea e a classificao e organizao das bases textuais que guardam os trabalhos e experimentos publicados. Uma limitao recorrente nesta pesquisa foi contedo disponibilizado pelos autores nos textos dos estudos primrios, nos quais muitas vezes as informaes sobre as tcnicas foram ocultadas ou transmitidas de forma incompleta. Isto resultou em poucos dados para elaborar uma discusso mais aprofundada em alguns casos particulares, como na aplicao de rvores e do algoritmo de Markov para processar linguagem natural. 5.2 Contribuies deste trabalho Este trabalho apresentou como principal contribuio uma viso geral da aplicao de tcnicas diversas para o processamento de linguagem natural e minerao de textos. Neste sentido, apresentada uma lista com todas as tcnicas identificadas, o contexto, a forma de aplicao e estruturao de dados e suas tendncias, alm de vantagens e limitaes do uso de cada tcnica. Os resultados da pesquisa oferecem ainda contribuio para as reas de PLN, minerao de textos e tambm para o universo das redes sociais virtuais, no que se refere a extrao de postagens feitas por usurios, identificao de padres de relacionamento ou recomendao de contedo. Alm disso, os achados deste estudo podem se utilizados
48 como guia na seleo e aplicao de tcnicas de PLN para minerao de textos em diversas situaes. 5.3 Proposta para trabalhos futuros A continuidade deste estudo prev ainda a execuo da mesma string de busca em outras bases conceitudas para identificao de mais trabalhos e posteriormente de mais evidncias que complementem os resultados obtidos at o momento. Alm disso, essa atividade prev a busca manual em conferncias especficas da rea de PLN e minerao de textos e a incluso das pesquisas realizadas em 2012, e tambm de estudos publicados em portugus. Em longo prazo pretende-se intensificar as pesquisas na rea criando estratgias prticas e especficas de aplicao dos resultados desta reviso sistemtica. Para tal, sero realizados estudos para criao e aplicao de ontologias de domnio para minerao de textos em uma rede social especfica e tambm em documentos de requisitos de software. Alm disso, sero definidos estudos que possam produzir resultados sobre o uso combinado de ontologias com outras tcnicas complementares como nayve bayes, latent semantic indexing e term conection. Por fim, outras discusses devero ser criadas para ampliar o entendimento do uso das outras tcnicas apresentadas neste trabalho, sobretudos aquelas que apresentaram bons resultados nas evidncias dos estudos primrios e que, no entanto, no foram exploradas com tanta intensidade na ltima dcada. Neste contexto pode-se destacar a tcnica stemming e a gramtica livre de contexto.
49 REFERNCIAS ARANHA, C. N. Uma Abordagem de Pr-Processamento Automtico para Minerao de Textos em Portugus: Sob o Enfoque da Inteligncia Computacional. Tese (Doutorado em Engenharia Eltrica) Pontifica Universidade Catlica do Rio de Janeiro PUC - Rio, Rio de Janeiro, 2007. BIOLCHINI, J.; MIAN, P. G.; NATALI, A. C. C.; TRAVASSOS, G. H. Systematic Review in Software Engineering. . Relatrio Tcnico (Programa de Engenharia de Sistemas e Computao) Universidade Federal do Rio de Janeiro UFRJ Rio de Janeiro, 2005. BOYD, Danah M.; ELLISON, Nicole B. Social Network Sites: Definition, History, and Scholarship. Journal of Computer-Mediated Communication. V. 13, n. 1, article 11, 2007. BRITO, R. F.; PEREIRA, A. T. C. Um Estudo para Ambientes Colaborativos e suas Ferramentas. Anais do Congresso Nacional de Ambientes Hipermdia para Aprendizagem. Anais... Santa Catarina, 2004. BULEGON, H.; MORO, C. M. C. Minerao de texto e o processamento de linguagem natural em sumrios de alta hospitalar. Journal of Health Informatics, 2010. CAVALCANTI, T. R; SILVA, F. Q. B. Historical, Conceptual, and Methodological Aspects of the Publications of the Brazilian Symposium on Software Engineering: A Systematic Mapping Study. Anais do 25th Brazilian Symposium on Software Engineering (SBES). Anais... So Paulo, 2011. CERQUEIRA, A. D. O.; DINIZ, A. M.; DORTA, C.; KUNIYOSHI, P. S. Implementao de Buscas Utilizando Linguagem Natural Atravs de Algoritmos Adaptativos. Trabalho de Concluso de Curso - Escola Politcnica da Universidade de So Paulo, 2010. CORREIA NETO, J.S.; SILVA, A.A.B.; FONSECA, D. Sites de Redes Sociais Corporativas: entre o pessoal e o profissional. In: EnADI, 3., 2011, Porto Alegre-RS. Anais. Porto Alegre- RS, III EnADI, 2011. GOMES, R. M. Minerao de Textos na Desambiguao de Sentido de Palavras Dirigida por Tcnicas de Agrupamento sob o Enfoque da Minerao de Textos. Dissertao (Mestrado em Engenharia Eltrica) Pontifica Universidade Catlica do Rio de Janeiro PUC - Rio, Rio de Janeiro, 2009. KITCHENHAM, B.; DYB, T.; JRGENSEN, M. Evidence-based Software Engineering. 26th International Conference on Software Engineering, (ICSE 04), Proceedings. IEEE, Washington DC, USA, pp 273 281, 2004. LADEIRA, A. P. Processamento de Linguagem Natural: Caracterizao da Produo Cientfica dos Pesquisadores Brasileiros. Tese (Doutorado em Cincia da Informao) Universidade Federal de Minas Gerais, Belo Horizonte, 2010. MACHADO, A. P.; FERREIRA, R.; BITTENCOURT, I. I.; ELIAS; E.; BRITO, P.; COSTA, E. Minerao de Texto em Redes sociais virtuais Aplicada Educao a Distncia. Revista Digital da CVA - Ricesu, ISSN 1519-8529, v. 6, n. 23, Julho de 2010.
50 MAFRA, S. N.; TRAVASSOS, G. H. Estudos Primrios e Secundrios Apoiando a Busca por Evidncia em Engenharia de Software. Relatrio Tcnico (Programa de Engenharia de Sistemas e Computao) Universidade Federal do Rio de Janeiro UFRJ Rio de Janeiro, 2006. MIAN, P.; CONTE, T.; NATALI, A.; BIOLCHINI, J.; MENDES, E.; TRAVASSOS, G. H. Lessons Learned On Applying Systematic Reviews To Software Engineering. 3rd International Workshop Guidelines For Empirical Work In the Workshop Series On Empirical Software Engineering (Wsese). Proceedings, 2005. OLIVEIRA, A. S.; MOTTA, R. A. S. M.; CUNHA, G.; SANTOS, R. M.; GOLDSCHMIDT, R. R. Minerao de textos: uma experincia usando TMSK e RIKTEXT. RevISTa Publicao tcnico-cientfica do Instituto Superior de Tecnologia em Cincias da Computao do Rio de Janeiro, 2011. PASSOS, E.; ARANHA, C. A Tecnologia de Minerao de Textos. RESI - Revista Eletrnica de Sistemas de Informao, n. 2, 2006. REZENDE, S. O.; MARCACINI, R. M.; MOURA, M. F. O uso da Minerao de Textos para Extrao e Organizao No Supervisionada de Conhecimento. Revista de Sistemas de Informao da FSMA n. 7 (2011) pp. 7-21. SANTOS, R. E. S.; CORREIA NETO, J. S.; VILAR, G. Relatrio (Projeto de Extenso) Departamento de Informtica da Universidade Federal Rural de Pernambuco DEINFO - UFRPE- Recife, 2011. SCHNEIDER, M. O. Processamento de Linguagem Natural (PLN). Relatrio (Curso de Mestrado em Sistemas de Computao) Pontifcia Universidade Catlica de Campinas - PUC- Campinas, So Paulo, 2001. SILVA, T. M. S.. Extrao de Informao para Busca Semntica na Web Baseada em Ontologias. Dissertao (Mestrado em Engenharia Eltrica) Universidade Federal de Santa Catarina UFSC, Florianopolis 2003. SOARES, F. A. Minerao de Textos na Coleta Inteligente de Dados na Web. Dissertao (Mestrado em Engenharia Eltrica) Pontifica Universidade Catlica do Rio de Janeiro PUC - Rio, Rio de Janeiro, 2008. TEIXEIRA FILHO, J. Comunidades Virtuais. Rio de Janeiro, SENAC, 2002. TOMAL, M. I.; ALCAR, A. R.; DI CHIARA, I. G. Das redes sociais inovao. Revista Cincia da Informao, Braslia, v. 34, n. 2, p. 93-104, maio/ago 2005. Acesso em: 02 mar. 2012. Disponvel em: http://www.scielo.br/pdf/ci/v34n2/28559.pdf
51 APNDICE A Protocolo de Reviso Sistemtica Formulao da Pergunta Visando identificar, analisar e interpretar evidncias do uso de tcnicas de processamento de linguagem natural aplicadas minerao de textos nos estudos primrios na ltima dcada, o protocolo de reviso sistemtica foi elaborado visando responder as seguintes perguntas: 1. Quais tcnicas, algoritmos ou estruturao de dados utilizados pelo PLN esto sendo aplicadas na minerao de textos? 2. De que forma eles so aplicados? 3. Quais so as vantagens e as limitaes observadas nas tcnicas? 4. Qual a tcnica mais recorrente? 5. Existe alguma experincia do uso de PLN aplicado minerao de textos postados em redes sociais virtuais?
Amplitude da Pergunta A. Interveno: Minerao de textos. B. Controle: nenhum C. Efeito: identificao das tcnicas de PLN que esto sendo utilizadas no processo de minerao de textos. D. Populao: Pesquisadores e projetos que explorem minerao de texto com PLN, sistemas de recomendao de contedo, recuperao da informao, dentre outros. E. Resultados: pretende-se elaborar uma lista com as tcnicas e/ou algoritmos de PLN aplicados minerao de textos, o contexto no qual foram utilizadas, assim como as vantagens e limitaes observadas. Alm disso, busca-se identificar a tcnica mais aplicada e se existe algum tipo de experincia de aplicao em redes sociais virtuais. F. Aplicaes: a pesquisa servir de base para a elaborao de estudos e identificao de novas linhas de pesquisa em reas como: recuperao de informao, minerao de
52 texto, representao de documentos e sistemas de recomendao de textos em redes sociais virtuais. Critrios de Seleo de Fontes Nesta pesquisa, so considerados trabalhos disponveis na forma online. Os artigos devem estar escritos em ingls e devem relatar a aplicao de tcnicas de PNL para minerao de textos. O ingls foi o idioma utilizado nesta pesquisa, pois a grande maioria dos estudos publicados na rea est disponibilizada neste idioma. Alm disso, os peridicos e conferncias mais relevantes tambm recebem estudos em ingls e eventualmente em outro idioma. Para realizao deste estudo, optou-se por duas fontes de pesquisa de bibliotecas digitais que renem trabalhos acadmicos produzidos por grandes pesquisadores em todo o mundo, IEEE Xplorer (IEEE) e Peridicos Capes (CAPES), e os trabalhos primrios foram selecionados atravs da string de busca apresentada na Tabela 4. Tabela 4 Construo da string de busca da reviso sistemtica. Palavra-chave String de Busca Natural Language Processing (Natural Language Processing OR Natural Language Process OR NLP OR text processing OR semantics processing) Technique AND (technique OR method OR algorithm OR function OR application OR approach) Text Mining AND (Text Mining OR text data mining OR text analyses OR text classification OR text) Fonte: Elaborada pelo autor (2012).
Critrios de incluso e excluso dos estudos Estudos retornados pela string de busca foram includos quando escritos em ingls e relataram experincias de aplicao de tcnicas de PLN em minerao de textos atravs de estudo de caso, experimentos, surveys, revises de literatura e outras tcnicas de metodologia cientfica bem definidas. Estudos escritos em um idioma diferente do ingls ou que apresentaram experimentos com textos em outros idiomas foram excludos do processo.
53 Processo de Seleo de Estudos Primrios Os artigos foram selecionados nas fontes supracitadas, seguindo a ordem de leitura: ttulo, resumo, concluses, texto completo; Para refinar a lista de trabalhos retornados, o texto completo de todos os estudos foi lido e analisado, respeitando-se sempre os critrios de incluso e excluso; Atravs deste filtro, foi construda uma lista de produes includas na anlise sistemtica e tambm de trabalhos excludos no processo; Quando houve dvidas, o trabalho foi classificado como includo ou excludo pelos orientadores; Aps a seleo dos estudos, a extrao das informaes relevantes para a reviso sistemtica foi conduzida.
Sumarizao dos Resutados As informaes extradas das evidncias do uso das tcnicas de PLN em minerao de textos foram analisadas e os resultados apresentados atravs de planilhas, grficos e tpicos textuais apresentados na seo 4 da monografia.
54 APNDICE B Lista de estudos primrios usados na reviso sistemtica [PLNMT 1] YANDELL, M. D.; MAJOROS, W. H. Genomics and natural language processing. Nature Journal, 2002. [PLNMT 2] KIM, J. D.; OHTA, T.; TATEISI, Y.; TSUJII, J. GENIA corpusa semantically annotated corpus for bio-textmining. Bioinformatics Journal, 2003. [PLNMT 3] NOVICHKOVA S.; EGOROV, S.; DARASELIA, N. MedScan, a natural language processing engine for MEDLINE abstracts. Bioinformatics Journal, 2003. [PLNMT 4] PRINCE, V; LAFOURCADE, M. Mixing Semantic Networks and Conceptual Vectors: the Case of Hyperonymy. IEEE International Conference on Cognitive Informatics, 2003. [PLNMT 5] SHARMA, R.; RAMAN, S. Phrase-based Text Representation for Managing the Web Documents. International Conference on Information Technology: Computers and Communications, 2003. [PLNMT 6] LI, L.Y.; HE, Z. L.; YI, Y. Principles and Algorithms of Semantic Analysis. International Conference on Machine Learning and Cybernetics, 2003. [PLNMT 7] SPASIC, I.; ANANIADOU, S.; TSUJII, J. MaSTerClass: a case-based reasoning system for the classication of biomedical terms. Bioinformatics Journal, 2005. [PLNMT 8] MOON, N.; SINGH, R. Experiments in Text-Based Mining and Analysis of Biological Information from MEDLINE on Functionally-Related Genes. International Conference on Systems Engineering, 2005. [PLNMT 9] FRIEDMAN, C.; BORLAWSKY, T.; SHAGINA, L.; XING, H. R.; LUSSIER, Y. A. Bio-Ontology and text: bridging the modeling gap. Bioinformatics Journal, 2006. [PLNMT 10] PIWOWAR, H. A.; CHAPMAN, W. W. Identifying Data Sharing in Biomedical Literature. Nature Journal, 2008. [PLNMT 11] GOLDSMITH, E. J.; MENDIRATTA, S.; AKELLA, R.; DAHLGREN, K. Natural Language Query in the Biochemistry and Molecular Biology Domains Based on Cognition Search. Nature Journal, 2008. [PLNMT 12] THEODOSIOU, T.; DARZENTAS, N.; ANGELIS, L.; OUZOUNIS, C. A. PuReD-MCL: a graph-based PubMed document clustering methodology. Bioinformatics Journal, 2008. [PLNMT 13] KHOURY, R; KARRAY, F; KAMEL, M. F. Domain Representation Using Possibility Theory: An Exploratory Study. IEEE TRANSACTIONS ON FUZZY SYSTEMS Journal, 2008.
55 [PLNMT 14] KESORN, K.; POSLAD, S. Semantic Representation of Text Captions to Aid Sport Image Retrieval. Internacional Symposium on Intelligent Signal Processing and Communication Systems, 2008. [PLNMT 15] SOUSAN, W. L.; WYLIE, K. L.; CHEN, Z. Constructing Domain Ontology from Texts: A Practical Approach and a Case Study. International Conference on Next Generation Web Services Practices, 2009. [PLNMT 16] PRASAD, K. G.; MATHIVANAN, H.; JAYAPRAKASAM, M.; GEETHA, T. V. Document Summarization and Information Extraction for Generation of Presentation Slides. International Conference on Advances in Recent Technologies in Communication and Computing, 2009. [PLNMT 17] MCSHANE, M. Reference Resolution Challenges for Intelligent Agents: The Need for Knowledge. IEEE Journal, 2009. [PLNMT 18] SUCUNUTA, M. E.; RIOFRIO, G. E. Architecture of a Question-Answering System for a Specific Repository of Documents. International Conference on Software Technology and Engineering, 2010. [PLNMT 19] QASEMIZADEH, B.; BUITELAAR, P.; MONAGHAN, F. Developing a Dataset for Technology Structure Mining. International Conference on Semantic Computing, 2010. [PLNMT 20] MCSHANE, M.; BEALE, S.; NIRENBURG, S. Reference Resolution Supporting Lexical Disambiguation. International Conference on Semantic Computing, 2010. [PLNMT 21] CAMBRIA, E.; HUSSAIN, A.; DURRANI, T.; HAVASI, C.; ECKL, C.; MUNRO, J. Sentic Computing for Patient Centered Applications. International Conference on Signal Processing, 2010. [PLNMT 22] ROSA, J. L. G. Biologically Plausible Connectionist Prediction of Natural Language Thematic Relations. IEEE Journal, 2011. [PLNMT 23] RICHARDSON, K. D.; BOBROW, D. G.; CONDORAVDI, C.; WALDINGER, R.; DAS, A. English Access to Structured Data. IEEE International Conference on Semantic Computing, 2011. [PLNMT 24] Ivchenko, O.; Younesi, E.; Shahid, M.; Wolf, A.; Mller, B.; Hofmann-Apitius, M. PLIO an ontology for formal description of proteinligand interactions. Bioinformatics Journal, 2011.