Use este identificador para citar ou linkar para este item: https://repositorio.ufu.br/handle/123456789/46058
ORCID:  http://orcid.org/0009-0003-6851-5158
Tipo do documento: Trabalho de Conclusão de Curso
Tipo de acesso: Acesso Aberto
Título: Uma metodologia comparativa para avaliação de LLMs na detecção de phishing: um estudo envolvendo DeepSeek, Gemini e ChatGPT
Título(s) alternativo(s): A comparative methodology for evaluating LLMs in phishing detection: a study involving DeepSeek, Gemini and ChatGPT
Autor(es): Bustamante, Evelyn Estefania Bravo
Primeiro orientador: Rocha, Adriano Mendonça
Primeiro coorientador: Quincozes, Silvio Ereno
Primeiro membro da banca: Molinos, Diego Nunes
Segundo membro da banca: Menezes, Giullia Rodrigues de
Resumo: A detecção de phishing representa um desafio crescente no campo da segurança digital, devido à sofisticação das mensagens maliciosas e à dificuldade em identificar ataques de maneira automatizada e confiável. Embora Grandes Modelos de Linguagem (LLMs) tenham sido investigados como potenciais soluções, sua eficácia ainda precisa ser validada em cenários reais, especialmente para modelos mais recentes. Este estudo propõe uma avaliação comparativa entre os modelos Gemini, DeepSeek e ChatGPT, focando na classificação de e-mails legítimos e maliciosos. Com base em 1.009 amostras analisadas, o estudo caracterizou os e-mails com base nas red flags (características-chave) extraídas por cada modelo, e aplicou prompts padronizados para garantir consistência nos testes. As métricas de avaliação incluíram precisão, recall, acurácia e F1-Score, complementadas por uma análise qualitativa das respostas. Os resultados indicam que o DeepSeek se destaca em robustez, e obteve o melhor desempenho geral, com F1-Score de 92,38%.
Abstract: Phishing detection is a growing challenge in the digital security field, due to the sophistication of malicious messages and the difficulty in identifying attacks in an automated and reliable manner. Although Large Language Models (LLMs) have been investigated as potential solutions, their effectiveness still needs to be validated in real scenarios, especially for newer models. This study proposes a comparative evaluation between the Gemini, DeepSeek and ChatGPT models, focusing on the classification of legitimate and malicious emails. Based on 1,009 analyzed samples, the study characterized the emails based on the red flags (key features) extracted by each model, and applied standardized prompts to ensure consistency in the tests. The evaluation metrics included precision, recall, accuracy and F1-Score, complemented by a qualitative analysis of the responses. The results indicate that DeepSeek stands out in robustness, and obtained the best overall performance, with an F1-Score of 92.38%.
Palavras-chave: Gemini
DeepSeek
ChatGPT
Detecção de E-mails de Phishing
Grandes Modelos de Linguagem
Área(s) do CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::SISTEMAS DE INFORMACAO
Idioma: por
País: Brasil
Editora: Universidade Federal de Uberlândia
Referência: BUSTAMANTE, Evelyn Estefania Bravo. Uma metodologia comparativa para avaliação de LLMs na detecção de phishing: um estudo envolvendo DeepSeek, Gemini e ChatGPT 2025. 41 f. Trabalho de Conclusão de Curso (Graduação em Sistemas de Informação) – Universidade Federal de Uberlândia, Uberlândia, 2025.
URI: https://repositorio.ufu.br/handle/123456789/46058
Data de defesa: 9-Mai-2025
Aparece nas coleções:TCC - Sistemas de Informação (Uberlândia)

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
MetodologiaComparativaAvaliacao.pdfTrabalho de Conclusão de Curso2.62 MBAdobe PDFThumbnail
Visualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons