Identificação de ameaças em fóruns da Dark Web e Surface Web: um estudo sobre a evolução temporal das discussões e generalização de modelos

Pereira, Miguel Henrique de Brito

Use este identificador para citar ou linkar para este item: https://repositorio.ufu.br/handle/123456789/48464

ORCID:	http://orcid.org/0000-0001-5461-0742
Tipo do documento:	Dissertação
Tipo de acesso:	Acesso Aberto
Título:	Identificação de ameaças em fóruns da Dark Web e Surface Web: um estudo sobre a evolução temporal das discussões e generalização de modelos
Título(s) alternativo(s):	Threat identification in Dark Web and Surface Web Forums: a study on the temporal evolution of discussions and model generalization
Autor(es):	Pereira, Miguel Henrique de Brito
Primeiro orientador:	Miani, Rodrigo Sanches
Primeiro membro da banca:	Quincozes, Silvio Ereno
Segundo membro da banca:	Kreutz, Diego Luis
Terceiro membro da banca:	Pereira, Miguel Henrique de Brito
Resumo:	Diante da crescente estruturação do cibercrime e do aumento de ameaças articuladas em ambientes anônimos, a Inteligência de Ameaças Cibernéticas (CTI) torna-se essencial para uma defesa proativa. Esta dissertação propõe dois estudos de caso com o intuito de avaliar aplicações práticas de CTI por meio da integração de técnicas de mineração de dados em fóruns da Surface Web e Dark Web. O primeiro estudo consiste em investigar a evolução temporal das discussões entre 2015 e 2024 utilizando modelagem de tópicos LDA, identificando padrões sazonais e uma transição temática de debates técnicos para práticas criminosas, como a comercialização de dados pessoais em língua portuguesa. O segundo estudo consiste em avaliar a eficácia da transferência de aprendizado para superar a escassez de dados rotulados no domínio da segurança. Para isso, foi utilizado um modelo baseado no algoritmo LightGBM com representação TF-IDF, desenvolvido previamente por um integrante do mesmo projeto de pesquisa, sendo este aplicado em domínios distintos e ambientes multilíngues, português e inglês. Os resultados demonstram que o modelo utilizado possui capacidade de generalização ao isolar vocabulários de risco em novas fontes, como mercados da Dark Web e fóruns de discussão genéricos, embora apresente alta sensibilidade a termos técnicos. Este estudo contribui para o desenvolvimento de modelos de CTI com alta eficiência e adaptabilidade em fontes de dados heterogêneas, auxiliando na antecipação de incidentes mesmo diante da escassez de dados rotulados.
Abstract:	In light of the increasing structuring of cybercrime and the rise of coordinated threats in anonymous environments, Cyber Threat Intelligence (CTI) becomes essential for proactive defense. This dissertation proposes two case studies aimed at evaluating practical applications of CTI through the integration of data mining techniques in Surface Web and Dark Web forums. The first study investigates the temporal evolution of discussions between 2015 and 2024 using topic modeling with LDA, identifying seasonal patterns and a thematic transition from technical debates to criminal practices, such as the commercialization of personal data in the Portuguese language. The second study evaluates the effectiveness of transfer learning to overcome the scarcity of labeled data in the security domain. To this end, a model based on the LightGBM algorithm with TF-IDF representation was employed, previously developed by a member of the same research project, and applied across distinct domains and multilingual environments, Portuguese and English. The results demonstrate that the model exhibits generalization capability by isolating risk-related vocabularies in new sources, such as Dark Web marketplaces and generic discussion forums, although it shows high sensitivity to technical terms. This study contributes to the development of CTI models with high efficiency and adaptability across heterogeneous data sources, supporting the anticipation of incidents even in the presence of limited labeled data.
Palavras-chave:	Ataques Cibernéticos Cyber Attacks Segurança Cibernética Cybersecurity Inteligência de Ameaças Cibernéticas Cyber Threat Intelligence Processamento de Linguagem Natural Natural Language Processing Aprendizado de Máquina Machine Learning Modelagem de Tópicos Topic Modeling
Área(s) do CNPq:	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
Assunto:	Computação Ciberterrorismo Crime por computador Portais da Web
Idioma:	por
País:	Brasil
Editora:	Universidade Federal de Uberlândia
Programa:	Programa de Pós-graduação em Ciência da Computação
Referência:	PEREIRA, Miguel Henrique de Brito. Identificação de ameaças em fóruns da Dark Web e Surface Web: um estudo sobre a evolução temporal das discussões e generalização de modelos. 2026. 105 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2026. DOI https://doi.org/10.14393/ufu.di.2026.5021.
Identificador do documento:	https://doi.org/10.14393/ufu.di.2026.5021
URI:	https://repositorio.ufu.br/handle/123456789/48464
Data de defesa:	28-Fev-2026
Objetivos de Desenvolvimento Sustentável (ODS):	ODS::ODS 8. Trabalho decente e crescimento econômico - Promover o crescimento econômico sustentado, inclusivo e sustentável, emprego pleno e produtivo, e trabalho decente para todos.
Aparece nas coleções:	DISSERTAÇÃO - Ciência da Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
IdentificacaoAmeacasForuns.pdf	Dissertação	14.86 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons