QUANTIFICAÇÃO DE VIÉS RACIAL COM TÉCNICAS DE APRENDIZADO DE MÁQUINA EM PROPOSTAS LEGISLATIVAS
Palavras-chave:
viés racial, aprendizado de máquina, documentos legislativosResumo
O racismo está profundamente enraizado na cultura brasileira desde os tempos de sua formação, sendo um fenômeno que historicamente segregou e dificultou a integração social das pessoas. Mesmo nos dias atuais, embora muitas vezes de maneira inconsciente, o racismo persiste em nossa sociedade. Nesse contexto, justifica-se o objetivo da aplicação de técnicas computacionais recentes para detecção e análise quantitativa de viés racial em documentos produzidos por representantes da sociedade, como propostas legislativas. Para atingir tal objetivo, hipotetizamos que, na ausência de viés racial, é esperado que não seja possível identificar a cor do proponente de uma proposta legislativa utilizando unicamente o texto da proposta como fonte de informação para a decisão. Para corroborar ou rejeitar tal hipótese com uso de técnicas de aprendizado de máquina, inicialmente foram coletados os textos das propostas legislativas da câmara federal, bem como a cor dos parlamentares que as propuseram. Técnicas de pré-processamento clássicas, como separação (tokenização) e quantificação (TF-IDF) de termos, foram utilizadas para o tratamento inicial dos dados textuais, seguida de divisões dos documentos (com 5-fold crossvalidation) entre propostas legislativas de teste, em que se deseja prever a cor de seus proponentes, e propostas utilizadas para treinamento dos modelos de aprendizado de máquina. Seis modelos de aprendizado de máquina (Random Forests, SVM, SGD, kNN, Árvores de Decisão e Regressão Logística) foram utilizados para prever a cor dos deputados. A eficácia da predição foi então comparada com a predição aleatória esperada para rejeitar a hipótese de viés racial. Técnicas de modelagem de tópicos (LDA) e importância de atributos (infogain) foram utilizadas como estratégias de caracterização adicional dos resultados.Como resultados, observamos que não é possível rejeitar a hipótese de ausência de viés racial em documentos legislativos, haja vista que os melhores modelos (SVM, RF) tiveram ganhos de acurácia estatisticamente significativos (com paired t-test, 95% de confiança) de até 18% em relação às predições aleatórias. Tal conclusão não se repetiu em um conjunto de documentos de processos judiciais também avaliados no trabalho utilizando a mesma metodologia. Dentre os tópicos observados em propostas de parlamentares negros, destaca-se a prevalência de tópicos relacionados a grupos minoritários, o que evidencia a necessidade de representantes negros na câmara para que sejam tratados, aprovados e discutidos temas que refletem distorções sociais.