Uma metodologia comparativa para avaliação de LLMs na detecção de phishing: um estudo envolvendo DeepSeek, Gemini e ChatGPT

Bustamante, Evelyn Estefania Bravo

Please use this identifier to cite or link to this item: https://repositorio.ufu.br/handle/123456789/46058

ORCID:	http://orcid.org/0009-0003-6851-5158
Document type:	Trabalho de Conclusão de Curso
Access type:	Acesso Aberto
Title:	Uma metodologia comparativa para avaliação de LLMs na detecção de phishing: um estudo envolvendo DeepSeek, Gemini e ChatGPT
Alternate title (s):	A comparative methodology for evaluating LLMs in phishing detection: a study involving DeepSeek, Gemini and ChatGPT
Author:	Bustamante, Evelyn Estefania Bravo
First Advisor:	Rocha, Adriano Mendonça
First coorientator:	Quincozes, Silvio Ereno
First member of the Committee:	Molinos, Diego Nunes
Second member of the Committee:	Menezes, Giullia Rodrigues de
Summary:	A detecção de phishing representa um desafio crescente no campo da segurança digital, devido à sofisticação das mensagens maliciosas e à dificuldade em identificar ataques de maneira automatizada e confiável. Embora Grandes Modelos de Linguagem (LLMs) tenham sido investigados como potenciais soluções, sua eficácia ainda precisa ser validada em cenários reais, especialmente para modelos mais recentes. Este estudo propõe uma avaliação comparativa entre os modelos Gemini, DeepSeek e ChatGPT, focando na classificação de e-mails legítimos e maliciosos. Com base em 1.009 amostras analisadas, o estudo caracterizou os e-mails com base nas red flags (características-chave) extraídas por cada modelo, e aplicou prompts padronizados para garantir consistência nos testes. As métricas de avaliação incluíram precisão, recall, acurácia e F1-Score, complementadas por uma análise qualitativa das respostas. Os resultados indicam que o DeepSeek se destaca em robustez, e obteve o melhor desempenho geral, com F1-Score de 92,38%.
Abstract:	Phishing detection is a growing challenge in the digital security field, due to the sophistication of malicious messages and the difficulty in identifying attacks in an automated and reliable manner. Although Large Language Models (LLMs) have been investigated as potential solutions, their effectiveness still needs to be validated in real scenarios, especially for newer models. This study proposes a comparative evaluation between the Gemini, DeepSeek and ChatGPT models, focusing on the classification of legitimate and malicious emails. Based on 1,009 analyzed samples, the study characterized the emails based on the red flags (key features) extracted by each model, and applied standardized prompts to ensure consistency in the tests. The evaluation metrics included precision, recall, accuracy and F1-Score, complemented by a qualitative analysis of the responses. The results indicate that DeepSeek stands out in robustness, and obtained the best overall performance, with an F1-Score of 92.38%.
Keywords:	Gemini DeepSeek ChatGPT Detecção de E-mails de Phishing Grandes Modelos de Linguagem
Area (s) of CNPq:	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::SISTEMAS DE INFORMACAO
Language:	por
Country:	Brasil
Publisher:	Universidade Federal de Uberlândia
Quote:	BUSTAMANTE, Evelyn Estefania Bravo. Uma metodologia comparativa para avaliação de LLMs na detecção de phishing: um estudo envolvendo DeepSeek, Gemini e ChatGPT 2025. 41 f. Trabalho de Conclusão de Curso (Graduação em Sistemas de Informação) – Universidade Federal de Uberlândia, Uberlândia, 2025.
URI:	https://repositorio.ufu.br/handle/123456789/46058
Date of defense:	9-May-2025
Appears in Collections:	TCC - Sistemas de Informação (Uberlândia)

Files in This Item:

File	Description	Size	Format
MetodologiaComparativaAvaliacao.pdf	Trabalho de Conclusão de Curso	2.62 MB	Adobe PDF	View/Open

Show full item record

This item is licensed under a Creative Commons License