Identificação de ameaças em fóruns da Dark Web e Surface Web: um estudo sobre a evolução temporal das discussões e generalização de modelos

Pereira, Miguel Henrique de Brito

Please use this identifier to cite or link to this item: https://repositorio.ufu.br/handle/123456789/48464

ORCID:	http://orcid.org/0000-0001-5461-0742
Document type:	Dissertação
Access type:	Acesso Aberto
Title:	Identificação de ameaças em fóruns da Dark Web e Surface Web: um estudo sobre a evolução temporal das discussões e generalização de modelos
Alternate title (s):	Threat identification in Dark Web and Surface Web Forums: a study on the temporal evolution of discussions and model generalization
Author:	Pereira, Miguel Henrique de Brito
First Advisor:	Miani, Rodrigo Sanches
First member of the Committee:	Quincozes, Silvio Ereno
Second member of the Committee:	Kreutz, Diego Luis
Third member of the Committee:	Pereira, Miguel Henrique de Brito
Summary:	Diante da crescente estruturação do cibercrime e do aumento de ameaças articuladas em ambientes anônimos, a Inteligência de Ameaças Cibernéticas (CTI) torna-se essencial para uma defesa proativa. Esta dissertação propõe dois estudos de caso com o intuito de avaliar aplicações práticas de CTI por meio da integração de técnicas de mineração de dados em fóruns da Surface Web e Dark Web. O primeiro estudo consiste em investigar a evolução temporal das discussões entre 2015 e 2024 utilizando modelagem de tópicos LDA, identificando padrões sazonais e uma transição temática de debates técnicos para práticas criminosas, como a comercialização de dados pessoais em língua portuguesa. O segundo estudo consiste em avaliar a eficácia da transferência de aprendizado para superar a escassez de dados rotulados no domínio da segurança. Para isso, foi utilizado um modelo baseado no algoritmo LightGBM com representação TF-IDF, desenvolvido previamente por um integrante do mesmo projeto de pesquisa, sendo este aplicado em domínios distintos e ambientes multilíngues, português e inglês. Os resultados demonstram que o modelo utilizado possui capacidade de generalização ao isolar vocabulários de risco em novas fontes, como mercados da Dark Web e fóruns de discussão genéricos, embora apresente alta sensibilidade a termos técnicos. Este estudo contribui para o desenvolvimento de modelos de CTI com alta eficiência e adaptabilidade em fontes de dados heterogêneas, auxiliando na antecipação de incidentes mesmo diante da escassez de dados rotulados.
Abstract:	In light of the increasing structuring of cybercrime and the rise of coordinated threats in anonymous environments, Cyber Threat Intelligence (CTI) becomes essential for proactive defense. This dissertation proposes two case studies aimed at evaluating practical applications of CTI through the integration of data mining techniques in Surface Web and Dark Web forums. The first study investigates the temporal evolution of discussions between 2015 and 2024 using topic modeling with LDA, identifying seasonal patterns and a thematic transition from technical debates to criminal practices, such as the commercialization of personal data in the Portuguese language. The second study evaluates the effectiveness of transfer learning to overcome the scarcity of labeled data in the security domain. To this end, a model based on the LightGBM algorithm with TF-IDF representation was employed, previously developed by a member of the same research project, and applied across distinct domains and multilingual environments, Portuguese and English. The results demonstrate that the model exhibits generalization capability by isolating risk-related vocabularies in new sources, such as Dark Web marketplaces and generic discussion forums, although it shows high sensitivity to technical terms. This study contributes to the development of CTI models with high efficiency and adaptability across heterogeneous data sources, supporting the anticipation of incidents even in the presence of limited labeled data.
Keywords:	Ataques Cibernéticos Cyber Attacks Segurança Cibernética Cybersecurity Inteligência de Ameaças Cibernéticas Cyber Threat Intelligence Processamento de Linguagem Natural Natural Language Processing Aprendizado de Máquina Machine Learning Modelagem de Tópicos Topic Modeling
Area (s) of CNPq:	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
Subject:	Computação Ciberterrorismo Crime por computador Portais da Web
Language:	por
Country:	Brasil
Publisher:	Universidade Federal de Uberlândia
Program:	Programa de Pós-graduação em Ciência da Computação
Quote:	PEREIRA, Miguel Henrique de Brito. Identificação de ameaças em fóruns da Dark Web e Surface Web: um estudo sobre a evolução temporal das discussões e generalização de modelos. 2026. 105 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2026. DOI https://doi.org/10.14393/ufu.di.2026.5021.
Document identifier:	https://doi.org/10.14393/ufu.di.2026.5021
URI:	https://repositorio.ufu.br/handle/123456789/48464
Date of defense:	28-Feb-2026
Sustainable Development Goals SDGs:	ODS::ODS 8. Trabalho decente e crescimento econômico - Promover o crescimento econômico sustentado, inclusivo e sustentável, emprego pleno e produtivo, e trabalho decente para todos.
Appears in Collections:	DISSERTAÇÃO - Ciência da Computação

Files in This Item:

File	Description	Size	Format
IdentificacaoAmeacasForuns.pdf	Dissertação	14.86 MB	Adobe PDF	View/Open

Show full item record

This item is licensed under a Creative Commons License