Please use this identifier to cite or link to this item:
https://repositorio.ufu.br/handle/123456789/46058
ORCID: | ![]() |
Document type: | Trabalho de Conclusão de Curso |
Access type: | Acesso Aberto |
Title: | Uma metodologia comparativa para avaliação de LLMs na detecção de phishing: um estudo envolvendo DeepSeek, Gemini e ChatGPT |
Alternate title (s): | A comparative methodology for evaluating LLMs in phishing detection: a study involving DeepSeek, Gemini and ChatGPT |
Author: | Bustamante, Evelyn Estefania Bravo |
First Advisor: | Rocha, Adriano Mendonça |
First coorientator: | Quincozes, Silvio Ereno |
First member of the Committee: | Molinos, Diego Nunes |
Second member of the Committee: | Menezes, Giullia Rodrigues de |
Summary: | A detecção de phishing representa um desafio crescente no campo da segurança digital, devido à sofisticação das mensagens maliciosas e à dificuldade em identificar ataques de maneira automatizada e confiável. Embora Grandes Modelos de Linguagem (LLMs) tenham sido investigados como potenciais soluções, sua eficácia ainda precisa ser validada em cenários reais, especialmente para modelos mais recentes. Este estudo propõe uma avaliação comparativa entre os modelos Gemini, DeepSeek e ChatGPT, focando na classificação de e-mails legítimos e maliciosos. Com base em 1.009 amostras analisadas, o estudo caracterizou os e-mails com base nas red flags (características-chave) extraídas por cada modelo, e aplicou prompts padronizados para garantir consistência nos testes. As métricas de avaliação incluíram precisão, recall, acurácia e F1-Score, complementadas por uma análise qualitativa das respostas. Os resultados indicam que o DeepSeek se destaca em robustez, e obteve o melhor desempenho geral, com F1-Score de 92,38%. |
Abstract: | Phishing detection is a growing challenge in the digital security field, due to the sophistication of malicious messages and the difficulty in identifying attacks in an automated and reliable manner. Although Large Language Models (LLMs) have been investigated as potential solutions, their effectiveness still needs to be validated in real scenarios, especially for newer models. This study proposes a comparative evaluation between the Gemini, DeepSeek and ChatGPT models, focusing on the classification of legitimate and malicious emails. Based on 1,009 analyzed samples, the study characterized the emails based on the red flags (key features) extracted by each model, and applied standardized prompts to ensure consistency in the tests. The evaluation metrics included precision, recall, accuracy and F1-Score, complemented by a qualitative analysis of the responses. The results indicate that DeepSeek stands out in robustness, and obtained the best overall performance, with an F1-Score of 92.38%. |
Keywords: | Gemini DeepSeek ChatGPT Detecção de E-mails de Phishing Grandes Modelos de Linguagem |
Area (s) of CNPq: | CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::SISTEMAS DE INFORMACAO |
Language: | por |
Country: | Brasil |
Publisher: | Universidade Federal de Uberlândia |
Quote: | BUSTAMANTE, Evelyn Estefania Bravo. Uma metodologia comparativa para avaliação de LLMs na detecção de phishing: um estudo envolvendo DeepSeek, Gemini e ChatGPT 2025. 41 f. Trabalho de Conclusão de Curso (Graduação em Sistemas de Informação) – Universidade Federal de Uberlândia, Uberlândia, 2025. |
URI: | https://repositorio.ufu.br/handle/123456789/46058 |
Date of defense: | 9-May-2025 |
Appears in Collections: | TCC - Sistemas de Informação (Uberlândia) |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
MetodologiaComparativaAvaliacao.pdf | Trabalho de Conclusão de Curso | 2.62 MB | Adobe PDF | ![]() View/Open |
This item is licensed under a Creative Commons License