Expansão automática de léxico para Análise de Sentimentos de textos no domínio do Mercado Financeiro Brasileiro
DOI:
https://doi.org/10.56762/tecnia.v10i2.1667Palavras-chave:
Expansão lexical, Mercado financeiro brasileiro, Processamento de Linguagem Natural, Redes sociaisResumo
Este artigo explora a geração de léxicos especializados para o Mercado Financeiro Brasileiro (MFB), adotando uma abordagem híbrida que combina a criação de um léxico em português com a análise de sentimentos em tweets e notícias do MFB. A metodologia consiste em uma série de etapas que expandem um léxico semente por meio de técnicas como Word2Vec, sinônimos/antônimos e Pointwise Mutual Information (PMI). Os resultados demonstram que a abordagem lexical alcançou um F1-Score de 71,5% na classificação de tweets e 68,4% em notícias, enquanto a combinação do léxico com o modelo de aprendizagem de máquina support vector machine (SVM) resultou em um F1-Score de 80% para tweets. Além disso, o estudo destaca a eficácia da lematização no pré-processamento para melhorar a precisão e cobertura do léxico como também a oportunidade da abordagem demonstrada na criação de léxicos específicos.
Referências
BIRD, S. NLTK: The Natural Language Toolkit. Barcelona: Association for Computational Linguistics, 2006.
BOS, T.; FRASINCAR, F. Automatically building financial sentiment lexicons while ac- counting for negation. Cognitive Computation, [s. l.], v. 14, p. 442-460, 2022.
CAROSIA, A. E.; COELHO, G. P.; SILVA, A. E. Analyzing the brazilian financial market through portuguese sentiment analysis in social media. Applied Artificial Intelligence, London, v. 34, p. 1-19, 2020.
DAS, S. R.; DONINI, M.; ZAFAR, M. B.; HE, J.; KENTHAPADI, K. Finlex: An effective use of word embeddings for financial lexicon generation. The Journal of Finance and Data Science, Elsevier, v. 8, p. 1-11, 2022.
GARDNER, J. R.; KUSNER, M. J.; XU, Z. E.; WEINBERGER, K. Q.; CUNNINGHAM, J. P. Bayesian optimization with inequality constraints. ICML, [s. l.], p. 937-945, 2014.
HARTMANN, N.; FONSECA, E.; SHULBY, C.; TREVISO, M.; RODRIGUES, J.; ALUISIO, S. Portuguese word embeddings: Evaluating on word analogies and natural language tasks. Proceedings of Symposium in Information and Human Language Technology, Uberlândia, p. 122-131, oct. 2017.
JANUÁRIO, B. A.; CAROSIA, A. E. d. O.; SILVA, A. E. A. da; COELHO, G. P. Sentiment analysis applied to news from the brazilian stock market. IEEE Latin America Transactions, [s. l.], v. 20, n. 3, p. 512-518, 2021.
JUNG, E.; JAIN, H.; SINHA, A. P.; GAUDIOSO, C. Building a specialized lexicon for breast cancer clinical trial subject eligibility analysis. Health Informatics Journal, [s. l.], v. 27, 2021.
LOSADA, D. E.; GAMALLO, P. Evaluating and improving lexical resources for detecting signs of depression in text. Language Resources and Evaluation, [s. l.], v. 54, p. 1-24, 2020.
LOUGHRAN, T.; MCDONALD, B. When is a liability not a liability? textual analysis, dictionaries, and 10-ks. Journal of Finance, [s. l.], v. 66, p. 35-65, 2011.
MAHMOOD, A. T.; KAMARUDDIN, S. S.; NASER, R. K.; NADZIR, M. M. A combination of lexicon and machine learning approaches for sentiment analysis on facebook. Journal of System and Management Sciences, Pequim, v. 10, p. 140-150, 2020.
OLIVEIRA, N.; CORTEZ, P.; AREAL, N. Stock market sentiment lexicon acquisition using microblogging data and statistical measures. Decision Support Systems, Elsevier, v. 85, p. 62-73, 2016.
PEREIRA, D. A. A survey of sentiment analysis in the portuguese language. Artificial Intelligence Review, [s. l.], v. 54, p. 1087-1115, 2021.
SHAN, R.; JIANG, T.; WANG, Y. Research on the construction of domain sentiment lexicon based on label propagation algorithm. ACM International Conference Pro- ceeding Series, [s. l.], p. 1024-1029, 2021.
SMYWIŃSKI-POHL, A. et al. Automatic construction of a polish legal dictionary with mappings to extra-legal terms established via word embeddings. ICAIL, [s. l.], p. 234-238, 2019.
SNOEK, J.; LAROCHELLE, H.; ADAMS, R. P. Practical Bayesian Optimization of Machine Learning Algorithms. Advances in Neural Information Processing Systems, [s. l.], v. 25, p. 2951-2959, 2012.
WANG, Y. et al. Automatic construction of domain sentiment lexicon for semantic disambiguation. Multimedia Tools and Applications, [s. l.], v. 79, n. 31-32, p. 22355-22373, 2020.
Downloads
Publicado
Como Citar
Edição
Seção
Categorias
Licença
-
Autores e autoras que publicam na Tecnia concordam com os seguintes termos:
1) Autores e autoras mantêm os direitos autorais e concedem à revista o direito de primeira publicação, com o trabalho simultaneamente licenciado sob a Licença Creative Commons Attribution, que permite o compartilhamento do trabalho com reconhecimento da autoria e publicação inicial nesta revista.
2) Autores e autoras têm autorização para assumir contratos adicionais separadamente, para distribuição não exclusiva da versão do trabalho publicada nesta revista (ex.: publicar em repositório institucional ou como capítulo de livro), com reconhecimento de autoria e publicação inicial nesta revista.
3) Autores e autoras têm permissão e são estimulados a publicar e distribuir seu trabalho online (ex.: em repositórios institucionais ou na sua página pessoal) após a finalização do processo editorial, já que isso pode aumentar o impacto e a citação do trabalho publicado (Veja O Efeito do Acesso Livre).