Expansão automática de léxico para Análise de Sentimentos de textos no domínio do Mercado Financeiro Brasileiro

Authors

  • Thiago de Sousa Universidade Federal de Goiás
  • Deborah Silva Alves Fernandes Universidade Federal de Goiás
  • Kéthlyn Campos Silva Universidade Federal de Goiás
  • Márcio Giovane C. Fernandes Universidade Estadual de Goiás

DOI:

https://doi.org/10.56762/tecnia.v10i2.1667

Keywords:

Expansão lexical, Mercado financeiro brasileiro, Processamento de Linguagem Natural, Redes sociais

Abstract

Este artigo explora a geração de léxicos especializados para o Mercado Financeiro Brasileiro (MFB), adotando uma abordagem híbrida que combina a criação de um léxico em português com a análise de sentimentos em tweets e notícias do MFB. A metodologia consiste em uma série de etapas que expandem um léxico semente por meio de técnicas como Word2Vec, sinônimos/antônimos e Pointwise Mutual Information (PMI). Os resultados demonstram que a abordagem lexical alcançou um F1-Score de 71,5% na classificação de tweets e 68,4% em notícias, enquanto a combinação do léxico com o modelo de aprendizagem de máquina support vector machine (SVM) resultou em um F1-Score de 80% para tweets. Além disso, o estudo destaca a eficácia da lematização no pré-processamento para melhorar a precisão e cobertura do léxico como também a oportunidade da abordagem demonstrada na criação de léxicos específicos.

Author Biographies

Thiago de Sousa , Universidade Federal de Goiás

http://lattes.cnpq.br/4775560054768783

Deborah Silva Alves Fernandes, Universidade Federal de Goiás

http://lattes.cnpq.br/0380764911708235

Kéthlyn Campos Silva, Universidade Federal de Goiás

http://lattes.cnpq.br/5116575413028514

Márcio Giovane C. Fernandes, Universidade Estadual de Goiás

http://lattes.cnpq.br/1875113877299989

References

BIRD, S. NLTK: The Natural Language Toolkit. Barcelona: Association for Computational Linguistics, 2006.

BOS, T.; FRASINCAR, F. Automatically building financial sentiment lexicons while ac- counting for negation. Cognitive Computation, [s. l.], v. 14, p. 442-460, 2022.

CAROSIA, A. E.; COELHO, G. P.; SILVA, A. E. Analyzing the brazilian financial market through portuguese sentiment analysis in social media. Applied Artificial Intelligence, London, v. 34, p. 1-19, 2020.

DAS, S. R.; DONINI, M.; ZAFAR, M. B.; HE, J.; KENTHAPADI, K. Finlex: An effective use of word embeddings for financial lexicon generation. The Journal of Finance and Data Science, Elsevier, v. 8, p. 1-11, 2022.

GARDNER, J. R.; KUSNER, M. J.; XU, Z. E.; WEINBERGER, K. Q.; CUNNINGHAM, J. P. Bayesian optimization with inequality constraints. ICML, [s. l.], p. 937-945, 2014.

HARTMANN, N.; FONSECA, E.; SHULBY, C.; TREVISO, M.; RODRIGUES, J.; ALUISIO, S. Portuguese word embeddings: Evaluating on word analogies and natural language tasks. Proceedings of Symposium in Information and Human Language Technology, Uberlândia, p. 122-131, oct. 2017.

JANUÁRIO, B. A.; CAROSIA, A. E. d. O.; SILVA, A. E. A. da; COELHO, G. P. Sentiment analysis applied to news from the brazilian stock market. IEEE Latin America Transactions, [s. l.], v. 20, n. 3, p. 512-518, 2021.

JUNG, E.; JAIN, H.; SINHA, A. P.; GAUDIOSO, C. Building a specialized lexicon for breast cancer clinical trial subject eligibility analysis. Health Informatics Journal, [s. l.], v. 27, 2021.

LOSADA, D. E.; GAMALLO, P. Evaluating and improving lexical resources for detecting signs of depression in text. Language Resources and Evaluation, [s. l.], v. 54, p. 1-24, 2020.

LOUGHRAN, T.; MCDONALD, B. When is a liability not a liability? textual analysis, dictionaries, and 10-ks. Journal of Finance, [s. l.], v. 66, p. 35-65, 2011.

MAHMOOD, A. T.; KAMARUDDIN, S. S.; NASER, R. K.; NADZIR, M. M. A combination of lexicon and machine learning approaches for sentiment analysis on facebook. Journal of System and Management Sciences, Pequim, v. 10, p. 140-150, 2020.

OLIVEIRA, N.; CORTEZ, P.; AREAL, N. Stock market sentiment lexicon acquisition using microblogging data and statistical measures. Decision Support Systems, Elsevier, v. 85, p. 62-73, 2016.

PEREIRA, D. A. A survey of sentiment analysis in the portuguese language. Artificial Intelligence Review, [s. l.], v. 54, p. 1087-1115, 2021.

SHAN, R.; JIANG, T.; WANG, Y. Research on the construction of domain sentiment lexicon based on label propagation algorithm. ACM International Conference Pro- ceeding Series, [s. l.], p. 1024-1029, 2021.

SMYWIŃSKI-POHL, A. et al. Automatic construction of a polish legal dictionary with mappings to extra-legal terms established via word embeddings. ICAIL, [s. l.], p. 234-238, 2019.

SNOEK, J.; LAROCHELLE, H.; ADAMS, R. P. Practical Bayesian Optimization of Machine Learning Algorithms. Advances in Neural Information Processing Systems, [s. l.], v. 25, p. 2951-2959, 2012.

WANG, Y. et al. Automatic construction of domain sentiment lexicon for semantic disambiguation. Multimedia Tools and Applications, [s. l.], v. 79, n. 31-32, p. 22355-22373, 2020.

Published

2025-09-25

How to Cite

Thiago de Sousa, Silva Alves Fernandes, D., Campos Silva, K., & Giovane C. Fernandes, M. (2025). Expansão automática de léxico para Análise de Sentimentos de textos no domínio do Mercado Financeiro Brasileiro. Revista Tecnia, 10(2), 17. https://doi.org/10.56762/tecnia.v10i2.1667

Issue

Section

Dossiê Temático - Tecnologias Habilitadoras para a Indústria 4.0

Categories