Sie sind auf Seite 1von 6

Alunos​: Flavio D F Jr;

Cláudio da Silva Pinheiro Júnior;


Luciano Costa Vianna Neto.

Referência​:
Dayan de F. Costa, Nadia Felix Felipe da Silva. ​Analisando Manchetes e Posts de
Redes Sociais para inferência de Aspectos e Sentimentos no Contexto
Financeiro. EnAComp - 2018 - ISSN: 2178-6992,
https://www.enacomp.com.br/docs/Anais_Enacomp2018.pdf.

1 - Introdução (máximo de 03 parágrafos): Do que o artigo (ou capítulo do livro)


trata? Quais são os objetivos da pesquisa? Descrever sucintamente (um
parágrafo) o conteúdo deste artigo (ou capítulo do livro).

Análise de sentimentos expressos em textos, tanto em mídias, e/ou redes


sociais, como fator de predição e/ou influência no mercado financeiro com
excelentes resultados práticos dentro de contextos determinados, como: finanças,
gestão e política.

Além disso, usaram um sistema de aprendizado supervisionado baseado em


Support Vector Machines (SVM) no qual foi apresentado no Open Challenge -
Financial Opinion Mining in FiQA (2018) - Tarefa 1, em que o principal objetivo é
realizar análise de sentimento em mídias do setor financeiro. Como também,
conseguiram atingir um erro quadrático de 0.0958436, o melhor da competição
nessa tarefa específica, utilizando o dataset de manchetes é notícias fornecido pelos
organizadores.

2 - Resumo do artigo, seção por seção:

INTRODUÇÃO​:
O grande uso de microblogs como Twitter e StockTwits para expressão de
sentimentos sobre a vida, negócios, trabalhos, entre outros, fazem com que as
marcas fiquem mais preocupadas com sua reputação. Textos cheios de opiniões
sobre o setor financeiro, são capazes de elevar ou decair o valor do mercado de
ações. Com isso a análise de sentimentos começaram a tornar um interesse do
mercado gerando diversas pesquisas no setor financeiro.

Vale mencionar que a análise de sentimentos é uma técnica de machine


learning que tem como objetivo obter a polaridade do texto ou sentença em questão
extraindo dele, por meio de processamento de linguagem natural, informações em
vários níveis de granularidade.

Universo: Open Challenge - Financial Opinion Mining in FiQA (2018) - Tarefa 1,


obtendo a 1ª colocação com erro médio quadrado (EMQ): 0,0958436 analisa
polaridade dos textos, em 3 níveis de granularidade:

1. Nível de documento: sentimento global expresso em determinado texto [Pang


and Lee 2004];
2. Nível de sentença: polaridade de cada sentença em determinado texto [Kim
and Hovy 2004];
3. Nível de aspecto: atributos do objeto [Wilson et al. 2009]. Sob técnicas
específicas, como word replacement.

A área de processamento de linguagem natural é cheia de desafios, um deles


é quando se trata de subjetividade, é relativamente fácil para um humano
identificá-la, porém para um algoritmo não. Por exemplo, uma ironia que na verdade
carrega um sentido positivo, poderá ser interpretada incorretamente por um
algoritmo caso o contexto e o tom utilizados não forem levados em consideração.

TRABALHOS RELACIONADOS​:
Introduzindo e esclarecendo estudos relacionados focados em análise de
sentimentos de mídias sociais como preditores de indicadores do futuro do mercado
de ações e análise de sentimentos baseadas em aspectos. Abordando
características, evoluções e resultados das técnicas utilizadas.

● Análise de sentimentos de tweets em textos oriundos de domínios financeiros

A publicação mais conhecida nessa área é a de Bollen [Bollen et al. 2010],


onde investigou medidas de humor coletivo derivadas de tweets e se havia
correlação de valor da DJIA (Down Jones Industrial Average). Além disso, Smailovic
[Smailovic et al. 2014] também analisou se o sentimento expresso em tweets que
discutiam sobre empresas selecionadas e seus produtos, podem indicar suas
mudanças nos preços das ações. Como também, Pagolu [Pagolu et al. 2016]
observou quão bem as alterações nos preços das ações de uma empresa, os
aumentos e quedas, estão correlacionados com a opinião pública sendo expressada
em tweets sobre aquela companhia.
Vale salientar que, segundo [Takala et al. 2014], a abordagem baseada em
aprendizado de máquina raramente ultrapassa setenta por cento de acurácia.

● Análise de sentimentos baseadas em aspectos

Um dos primeiros estudos sobre a análise de sentimentos baseadas em


aspectos é de [Hu and Liu 2004], que seguiu uma abordagem baseada em
frequência. Para compensar os erros resultantes [Zhuang et al. 2006] refez e
considerou a opinião mais próxima. Popescu and Etzioni [Popescu and Etzioni 2005]
sugeriram o uso de parsers sintáticos para remoção de termos nominais que
frequentemente não são aspectos. Beneficiando-se de estatísticas sobre o uso de
substantivos da língua inglesa, Scaffidi [Scaffidi et al. 2007] melhorou a abordagem
geral de confiar em nomes frequentes para extrair aspectos. Long [Long et al. 2010]
adicionou o uso de informações de distância e palavras dependentes (adjetivos).

AVALIAÇÃO EXPERIMENTAL​:
Atributos do dataset da competição:
● Target​: Em microblogs são siglas das ações das companhias sem a cashtag
($), em noticias ou manchetes é a principal companhia citada.
● Sentence​: Mensagem ou notícia/manchete da qual sentimento é extraído.
● Snippets​: A principal parte da sentença.
● Aspects​: Os aspectos associados às sentenças.
● Sentiment Score​: O sentimento da sentença entre -1 e 1, onde 1 é muito
positivo, -1 é muito negativo e 0 é neutro.

Técnicas utilizadas no sistema:

● N-grams:​ classifica 1 > 3 volume dados


● Tokenização:​ biblioteca tratativa URLs¸ e mails, DNS, IPs + abreviações
inglês
● Word Replacement:​ substituição palavras buscando padrões por repetição
● Word Embeddings:​ avaliando as coerências, ou nao, antes da resultante
● TF-IDF (Term Frequency-Inverse Document Frequency):​ indicando
frequência estatística, além de outras classificações/regressões como SVM
(Support Vector Machines).

Para análise de sentimentos, precisão, revocação e classificação de aspectos


foi utilizado algoritmos baseados em Support Vector Machine (SVM) do sklean, e
então aplicou-se o algoritmo de Support Vector Regression para análise de
sentimentos e o Support Vector Classifier para a tarefa de classificação. Na
abordagem do sistema não houve uso de Deep Learning.

CONCLUSÃO
Melhor erro quadrático do desafio com dataset de manchetes e notícias com
valor de 0.0958436. Temos uma direção. Parabéns! É possível obter bons
resultados utilizando abordagens simples de aprendizado de máquina aliadas a uma
boa seleção de atributos.
3 - Dúvidas:

- Como considerar os robôs formadores de opinião nas redes? dentro deste


contexto?
- o resultado com este nível de precisão e acurácia, tem referências de comparação?
- Existe a real tendência de programação em blocos (colaborativa) com
subcódigos/sistemas pré-desenvolvidos/avaliados?
- palavras/Variáveis relacionadas entre si, por exemplo, ou neutras naturalmente:
<finanças<> gestão <>política>, podem ser destrinchadas? alteradas conforme o
contexto, obtendo se diferentes sentimentos? ​ afetando”sentiment score”
- Por que não foi disponibilizado o próprio dataset no artigo?

4 - Perguntas Sugestivas:
- Houveram outros challenges? com que resultados comparativos?
- Já foi testado fora de um universo restrito?
- Não seria interessante quantificar as referências?
- Não seria mais interessante usar uma outra forma de peso para as frases?
- Não seria importante comentar o porquê da diferença entre os resultados para
“Manchetes e Notícias” e “Mensagens é Microblogs”, isto é, o porquê que um
conseguiu uma maior eficiência que o outro?

5 - Referências Chaves:

Além das citadas no item 2,Takala (2014) e Cortis (2017).

Bollen, J., Mao, H., and Zeng, X. (2010). ​Twitter mood predicts the stock market​.
CoRR, abs/1010.3003.

Hu, M. and Liu, B. (2004). ​Mining and summarizing customer reviews. In


Proceedings of the Tenth ACM SIGKDD International Conference on Knowledge
Discovery and Data Mining, KDD ’04, pages 168–177, New York, NY, USA. ACM.

Long, C., Zhang, J., and Zhut, X. (2010). ​A review selection approach for accurate
feature rating estimation. In Proceedings of the 23rd International Conference on
Computational Linguistics: Posters, COLING’10, pages 766–774, Stroudsburg, PA,
USA. Association for Computational Linguistics.

Pagolu, V. S., Challa, K. N. R., Panda, G., and Majhi, B. (2016). ​Sentiment analysis
of twitter data for predicting stock market movements​. CoRR, abs/1610.09225.

Popescu, A.-M. and Etzioni, O. (2005). ​Extracting product features and opinions
from reviews. In Proceedings of the Conference on Human Language Technology
and Empirical Methods in Natural Language Processing, HLT ’05, pages 339–346,
Stroudsburg, PA, USA. Association for Computational Linguistics.

Scaffidi, C., Bierhoff, K., Chang, E., Felker, M., Ng, H., and Jin, C. (2007). ​Red opal:
Product-feature scoring from reviews. In Proceedings of the 8th ACM Conference
on Electronic Commerce, EC ’07,pages 182–191, New York, NY, USA. ACM.

Smailovic, J., Grcar, M., Lavrac, N., and Znidarsic, M. (2014). ​Stream-based active
learning for sentiment analysis in the financial domain. ​Information Sciences,
285:181 – 203. Processing and Mining Complex Data Streams.

Takala, P., Malo, P., Sinha, A., and Ahlgren, O. (2014). ​Gold-standard for
topic-specific sentiment analysis of economic texts. In Chair), N. C. C., Choukri,
K., Declerck, T., Loftsson, H., Maegaard, B., Mariani,J., Moreno, A., Odijk, J., and
Piperidis, S., editors,Proceedings of the Ninth International Conference on Language
Resources and Evaluation (LREC’14), Reykjavik, Iceland. European Language
Resources Association (ELRA).

Zhuang, L., Jing, F., and Zhu, X.-Y. (2006). ​Movie review mining and
summarization. In Proceedings of the 15th ACM International Conference on
Information and Knowledge Management, CIKM ’06, pages 43–50, New York, NY,
USA. ACM.

Das könnte Ihnen auch gefallen