Por favor, use este identificador para citar o enlazar este ítem:
https://repositorio.ufu.br/handle/123456789/46967| ORCID: | http://orcid.org/0009-0008-3826-5705 |
| Tipo de documento: | Trabalho de Conclusão de Curso |
| Tipo de acceso: | Acesso Aberto |
| Título: | Análise Comparativa de LLMs para Detecção de Racismo, Sexismo e Homofobia em Redes Sociais |
| Autor: | Bou, Guilherme |
| Primer orientador: | Rocha , Adriano Mendonça |
| Primer miembro de la banca: | Tinoco, Claudiney Ramos |
| Segundo miembro de la banca: | Pereira, Fabíola Souza Fernandes |
| Tercer miembro de la banca: | Mendonça Rocha, Adriano |
| Resumen: | Este trabalho investigou a eficácia de modelos de linguagem de grande escala (LLMs), incluindo os modelos GPT-3.5-Turbo, GPT-4.0, DeepSeek-V3 e Gemini-2.0-Flash, na detecção de discursos de ódio em redes sociais, com foco em três categorias principais: homofobia, sexismo e racismo. O objetivo central foi comparar o desempenho desses modelos em cenários reais, analisando tanto comentários brutos quanto pré-processados, para identificar a melhor relação entre precisão, custo e eficiência computacional. A metodologia adotada envolveu a coleta de dados de bases reais, totalizando mais de 2.000 comentários rotulados manualmente. Em seguida, aplicou-se técnicas de pré-processamento para avaliar o impacto na detecção de nuances linguísticas e implementou-se prompts padronizados para classificação. Os resultados indicaram que o DeepSeek-V3 apresentou o melhor equilíbrio entre desempenho e custo, alcançando F1-score médio de 93,37% e excelente desempenho em homofobia (99,63%), com custo de US$ 0,66, muito inferior ao do GPT-4.0 (US$ 26,99). Embora o GPT-4.0 tenha obtido a maior precisão agregada (94,19%), seu alto custo inviabiliza o uso em larga escala. O Gemini-2.0-Flash, apesar de ser o mais econômico (US$ 0,12), apresentou desempenho inconsistente, sobretudo em racismo pré-processado (46,15% de F1-score). Observou-se que o pré-processamento tradicional, em geral, reduziu o F1-score em 6,93%, exceto para a categoria de racismo nos modelos GPTs, em que houve melhoria na detecção. |
| Abstract: | This study investigated the effectiveness of large language models (LLMs), including GPT-3.5-Turbo, GPT-4.0, DeepSeek-V3, and Gemini-2.0-Flash, in detecting hate speech on social media, focusing on three main categories: homophobia, sexism, and racism. The primary objective was to compare the performance of these models in real-world scenarios, analyzing both raw and pre-processed comments to identify the optimal balance between accuracy, cost, and computational efficiency. The methodology involved collecting data from real-world datasets, totaling over 2,000 manually labeled comments. Pre-processing techniques were then applied to assess their impact on detecting linguistic nuances, and standardized prompts were implemented for classification. The results indicated that DeepSeek-V3 provided the best balance between performance and cost, achieving an average F1-score of 93.37% and excellent performance on homophobia (99.63%), with a cost of US$ 0.66, significantly lower than GPT-4.0 (US$ 26.99). Although GPT-4.0 achieved the highest overall accuracy (94.19%), its high cost makes large-scale use impractical. Gemini-2.0-Flash, while the most economical (US$ 0.12), showed inconsistent performance, particularly on pre-processed racism comments (46.15% F1-score). It was observed that traditional pre-processing generally reduced the F1-score by 6.93%, except for the racism category in GPT models, where detection improved. |
| Palabras clave: | LLMs Homophobia Homofobia Racism Sexismo Sexism Detecção Detection |
| Área (s) del CNPq: | CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| Idioma: | por |
| País: | Brasil |
| Editora: | Universidade Federal de Uberlândia |
| Cita: | BOU, Guilherme. Análise Comparativa de LLMs para Detecção de Racismo, Sexismo e Homofobia em Redes Sociais. 2025. 50 f. Trabalho de Conclusão de Curso (Graduação em Sistemas de Informação) – Universidade Federal de Uberlândia, Uberlândia, 2025. |
| URI: | https://repositorio.ufu.br/handle/123456789/46967 |
| Fecha de defensa: | 4-sep-2025 |
| Aparece en las colecciones: | TCC - Sistemas de Informação (Monte Carmelo) |
Ficheros en este ítem:
| Fichero | Descripción | Tamaño | Formato | |
|---|---|---|---|---|
| AnaliseComparativaLLMs.pdf | 1.21 MB | Adobe PDF | ![]() Visualizar/Abrir |
Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons
