Please use this identifier to cite or link to this item:
https://repositorio.ufu.br/handle/123456789/46967Full metadata record
| DC Field | Value | Language |
|---|---|---|
| dc.creator | Bou, Guilherme | - |
| dc.date.accessioned | 2025-09-23T17:14:42Z | - |
| dc.date.available | 2025-09-23T17:14:42Z | - |
| dc.date.issued | 2025-09-04 | - |
| dc.identifier.citation | BOU, Guilherme. Análise Comparativa de LLMs para Detecção de Racismo, Sexismo e Homofobia em Redes Sociais. 2025. 50 f. Trabalho de Conclusão de Curso (Graduação em Sistemas de Informação) – Universidade Federal de Uberlândia, Uberlândia, 2025. | pt_BR |
| dc.identifier.uri | https://repositorio.ufu.br/handle/123456789/46967 | - |
| dc.description.abstract | This study investigated the effectiveness of large language models (LLMs), including GPT-3.5-Turbo, GPT-4.0, DeepSeek-V3, and Gemini-2.0-Flash, in detecting hate speech on social media, focusing on three main categories: homophobia, sexism, and racism. The primary objective was to compare the performance of these models in real-world scenarios, analyzing both raw and pre-processed comments to identify the optimal balance between accuracy, cost, and computational efficiency. The methodology involved collecting data from real-world datasets, totaling over 2,000 manually labeled comments. Pre-processing techniques were then applied to assess their impact on detecting linguistic nuances, and standardized prompts were implemented for classification. The results indicated that DeepSeek-V3 provided the best balance between performance and cost, achieving an average F1-score of 93.37% and excellent performance on homophobia (99.63%), with a cost of US$ 0.66, significantly lower than GPT-4.0 (US$ 26.99). Although GPT-4.0 achieved the highest overall accuracy (94.19%), its high cost makes large-scale use impractical. Gemini-2.0-Flash, while the most economical (US$ 0.12), showed inconsistent performance, particularly on pre-processed racism comments (46.15% F1-score). It was observed that traditional pre-processing generally reduced the F1-score by 6.93%, except for the racism category in GPT models, where detection improved. | pt_BR |
| dc.description.sponsorship | Pesquisa sem auxílio de agências de fomento | pt_BR |
| dc.language | por | pt_BR |
| dc.publisher | Universidade Federal de Uberlândia | pt_BR |
| dc.rights | Acesso Aberto | pt_BR |
| dc.rights.uri | http://creativecommons.org/licenses/by-sa/3.0/us/ | * |
| dc.subject | LLMs | pt_BR |
| dc.subject | Homophobia | pt_BR |
| dc.subject | Homofobia | pt_BR |
| dc.subject | Racism | pt_BR |
| dc.subject | Sexismo | pt_BR |
| dc.subject | Sexism | pt_BR |
| dc.subject | Detecção | pt_BR |
| dc.subject | Detection | pt_BR |
| dc.title | Análise Comparativa de LLMs para Detecção de Racismo, Sexismo e Homofobia em Redes Sociais | pt_BR |
| dc.type | Trabalho de Conclusão de Curso | pt_BR |
| dc.contributor.advisor1 | Rocha , Adriano Mendonça | - |
| dc.contributor.advisor1Lattes | http://lattes.cnpq.br/9672436935373713 | pt_BR |
| dc.contributor.referee1 | Tinoco, Claudiney Ramos | - |
| dc.contributor.referee1Lattes | http://lattes.cnpq.br/2686526877112687 | pt_BR |
| dc.contributor.referee2 | Pereira, Fabíola Souza Fernandes | - |
| dc.contributor.referee2Lattes | http://lattes.cnpq.br/2320001731969968 | pt_BR |
| dc.contributor.referee3 | Mendonça Rocha, Adriano | - |
| dc.contributor.referee3Lattes | http://lattes.cnpq.br/9672436935373713 | pt_BR |
| dc.creator.Lattes | http://lattes.cnpq.br/1892880787492775 | pt_BR |
| dc.description.degreename | Trabalho de Conclusão de Curso (Graduação) | pt_BR |
| dc.description.resumo | Este trabalho investigou a eficácia de modelos de linguagem de grande escala (LLMs), incluindo os modelos GPT-3.5-Turbo, GPT-4.0, DeepSeek-V3 e Gemini-2.0-Flash, na detecção de discursos de ódio em redes sociais, com foco em três categorias principais: homofobia, sexismo e racismo. O objetivo central foi comparar o desempenho desses modelos em cenários reais, analisando tanto comentários brutos quanto pré-processados, para identificar a melhor relação entre precisão, custo e eficiência computacional. A metodologia adotada envolveu a coleta de dados de bases reais, totalizando mais de 2.000 comentários rotulados manualmente. Em seguida, aplicou-se técnicas de pré-processamento para avaliar o impacto na detecção de nuances linguísticas e implementou-se prompts padronizados para classificação. Os resultados indicaram que o DeepSeek-V3 apresentou o melhor equilíbrio entre desempenho e custo, alcançando F1-score médio de 93,37% e excelente desempenho em homofobia (99,63%), com custo de US$ 0,66, muito inferior ao do GPT-4.0 (US$ 26,99). Embora o GPT-4.0 tenha obtido a maior precisão agregada (94,19%), seu alto custo inviabiliza o uso em larga escala. O Gemini-2.0-Flash, apesar de ser o mais econômico (US$ 0,12), apresentou desempenho inconsistente, sobretudo em racismo pré-processado (46,15% de F1-score). Observou-se que o pré-processamento tradicional, em geral, reduziu o F1-score em 6,93%, exceto para a categoria de racismo nos modelos GPTs, em que houve melhoria na detecção. | pt_BR |
| dc.publisher.country | Brasil | pt_BR |
| dc.publisher.course | Sistemas de Informação | pt_BR |
| dc.sizeorduration | 50 | pt_BR |
| dc.subject.cnpq | CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO | pt_BR |
| dc.orcid.putcode | 192606429 | - |
| Appears in Collections: | TCC - Sistemas de Informação (Monte Carmelo) | |
Files in This Item:
| File | Description | Size | Format | |
|---|---|---|---|---|
| AnaliseComparativaLLMs.pdf | 1.21 MB | Adobe PDF | ![]() View/Open |
This item is licensed under a Creative Commons License
