Por favor, use este identificador para citar o enlazar este ítem: https://repositorio.ufu.br/handle/123456789/46967
ORCID:  http://orcid.org/0009-0008-3826-5705
Tipo de documento: Trabalho de Conclusão de Curso
Tipo de acceso: Acesso Aberto
Título: Análise Comparativa de LLMs para Detecção de Racismo, Sexismo e Homofobia em Redes Sociais
Autor: Bou, Guilherme
Primer orientador: Rocha , Adriano Mendonça
Primer miembro de la banca: Tinoco, Claudiney Ramos
Segundo miembro de la banca: Pereira, Fabíola Souza Fernandes
Tercer miembro de la banca: Mendonça Rocha, Adriano
Resumen: Este trabalho investigou a eficácia de modelos de linguagem de grande escala (LLMs), incluindo os modelos GPT-3.5-Turbo, GPT-4.0, DeepSeek-V3 e Gemini-2.0-Flash, na detecção de discursos de ódio em redes sociais, com foco em três categorias principais: homofobia, sexismo e racismo. O objetivo central foi comparar o desempenho desses modelos em cenários reais, analisando tanto comentários brutos quanto pré-processados, para identificar a melhor relação entre precisão, custo e eficiência computacional. A metodologia adotada envolveu a coleta de dados de bases reais, totalizando mais de 2.000 comentários rotulados manualmente. Em seguida, aplicou-se técnicas de pré-processamento para avaliar o impacto na detecção de nuances linguísticas e implementou-se prompts padronizados para classificação. Os resultados indicaram que o DeepSeek-V3 apresentou o melhor equilíbrio entre desempenho e custo, alcançando F1-score médio de 93,37% e excelente desempenho em homofobia (99,63%), com custo de US$ 0,66, muito inferior ao do GPT-4.0 (US$ 26,99). Embora o GPT-4.0 tenha obtido a maior precisão agregada (94,19%), seu alto custo inviabiliza o uso em larga escala. O Gemini-2.0-Flash, apesar de ser o mais econômico (US$ 0,12), apresentou desempenho inconsistente, sobretudo em racismo pré-processado (46,15% de F1-score). Observou-se que o pré-processamento tradicional, em geral, reduziu o F1-score em 6,93%, exceto para a categoria de racismo nos modelos GPTs, em que houve melhoria na detecção.
Abstract: This study investigated the effectiveness of large language models (LLMs), including GPT-3.5-Turbo, GPT-4.0, DeepSeek-V3, and Gemini-2.0-Flash, in detecting hate speech on social media, focusing on three main categories: homophobia, sexism, and racism. The primary objective was to compare the performance of these models in real-world scenarios, analyzing both raw and pre-processed comments to identify the optimal balance between accuracy, cost, and computational efficiency. The methodology involved collecting data from real-world datasets, totaling over 2,000 manually labeled comments. Pre-processing techniques were then applied to assess their impact on detecting linguistic nuances, and standardized prompts were implemented for classification. The results indicated that DeepSeek-V3 provided the best balance between performance and cost, achieving an average F1-score of 93.37% and excellent performance on homophobia (99.63%), with a cost of US$ 0.66, significantly lower than GPT-4.0 (US$ 26.99). Although GPT-4.0 achieved the highest overall accuracy (94.19%), its high cost makes large-scale use impractical. Gemini-2.0-Flash, while the most economical (US$ 0.12), showed inconsistent performance, particularly on pre-processed racism comments (46.15% F1-score). It was observed that traditional pre-processing generally reduced the F1-score by 6.93%, except for the racism category in GPT models, where detection improved.
Palabras clave: LLMs
Homophobia
Homofobia
Racism
Sexismo
Sexism
Detecção
Detection
Área (s) del CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Idioma: por
País: Brasil
Editora: Universidade Federal de Uberlândia
Cita: BOU, Guilherme. Análise Comparativa de LLMs para Detecção de Racismo, Sexismo e Homofobia em Redes Sociais. 2025. 50 f. Trabalho de Conclusão de Curso (Graduação em Sistemas de Informação) – Universidade Federal de Uberlândia, Uberlândia, 2025.
URI: https://repositorio.ufu.br/handle/123456789/46967
Fecha de defensa: 4-sep-2025
Aparece en las colecciones:TCC - Sistemas de Informação (Monte Carmelo)

Ficheros en este ítem:
Fichero Descripción TamañoFormato 
AnaliseComparativaLLMs.pdf1.21 MBAdobe PDFVista previa
Visualizar/Abrir


Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons