Classificação Automática de Texto para Despesas Públicas no Tribunal de Contas do Estado de Goiás usando Deep Learning
Palavras-chave:
Aprendizado Profundo, Processamento de Linguagem Natural, Classificação de Despesas PúblicasResumo
Despesas públicas devem ser fiscalizadas pelo Tribunal de Contas do Estado de Goiás (TCE-GO) para garantir a corretude dos empenhos realizados. Contudo, devido ao grande volume de dados se faz necessária uma abordagem de classificação automática para garantir que os empenhos estejam coerentes com os gastos realizados e evitar possíveis fraudes com a categorização indevida. Em parceria com o IFG, TCE-GO desenvolveu um projeto onde foi aplicado modelos de classificação para automatização desta tarefa. Contudo, o projeto havia aplicado somente modelos baseados em tecnologias Emsemble e SVM, sem explorar os avanços de DeepLearning. Considerando a complexidade da base de dados e a possibilidade de aplicação de conceitos como transfer-learning e selfattention, este trabalho explora novas aplicações em DeepLearning considerando principalmente abordagens do modelo BERT (DEVLIN et al, 2018). O nosso objetivo é verificar na literatura possíveis estratégias de execução do BERT que possam melhorar a acurácia dos modelos já aplicados no TCE-GO. Nossos experimentos mostram que melhoramos a acurácia de classificação em 17% para macro-F1 e 5% para micro-F1.