Identificação de ameaças em fóruns da Dark Web e Surface Web: um estudo sobre a evolução temporal das discussões e generalização de modelos

Pereira, Miguel Henrique de Brito

Por favor, use este identificador para citar o enlazar este ítem: https://repositorio.ufu.br/handle/123456789/48464

ORCID:	http://orcid.org/0000-0001-5461-0742
Tipo de documento:	Dissertação
Tipo de acceso:	Acesso Aberto
Título:	Identificação de ameaças em fóruns da Dark Web e Surface Web: um estudo sobre a evolução temporal das discussões e generalização de modelos
Título (s) alternativo (s):	Threat identification in Dark Web and Surface Web Forums: a study on the temporal evolution of discussions and model generalization
Autor:	Pereira, Miguel Henrique de Brito
Primer orientador:	Miani, Rodrigo Sanches
Primer miembro de la banca:	Quincozes, Silvio Ereno
Segundo miembro de la banca:	Kreutz, Diego Luis
Tercer miembro de la banca:	Pereira, Miguel Henrique de Brito
Resumen:	Diante da crescente estruturação do cibercrime e do aumento de ameaças articuladas em ambientes anônimos, a Inteligência de Ameaças Cibernéticas (CTI) torna-se essencial para uma defesa proativa. Esta dissertação propõe dois estudos de caso com o intuito de avaliar aplicações práticas de CTI por meio da integração de técnicas de mineração de dados em fóruns da Surface Web e Dark Web. O primeiro estudo consiste em investigar a evolução temporal das discussões entre 2015 e 2024 utilizando modelagem de tópicos LDA, identificando padrões sazonais e uma transição temática de debates técnicos para práticas criminosas, como a comercialização de dados pessoais em língua portuguesa. O segundo estudo consiste em avaliar a eficácia da transferência de aprendizado para superar a escassez de dados rotulados no domínio da segurança. Para isso, foi utilizado um modelo baseado no algoritmo LightGBM com representação TF-IDF, desenvolvido previamente por um integrante do mesmo projeto de pesquisa, sendo este aplicado em domínios distintos e ambientes multilíngues, português e inglês. Os resultados demonstram que o modelo utilizado possui capacidade de generalização ao isolar vocabulários de risco em novas fontes, como mercados da Dark Web e fóruns de discussão genéricos, embora apresente alta sensibilidade a termos técnicos. Este estudo contribui para o desenvolvimento de modelos de CTI com alta eficiência e adaptabilidade em fontes de dados heterogêneas, auxiliando na antecipação de incidentes mesmo diante da escassez de dados rotulados.
Abstract:	In light of the increasing structuring of cybercrime and the rise of coordinated threats in anonymous environments, Cyber Threat Intelligence (CTI) becomes essential for proactive defense. This dissertation proposes two case studies aimed at evaluating practical applications of CTI through the integration of data mining techniques in Surface Web and Dark Web forums. The first study investigates the temporal evolution of discussions between 2015 and 2024 using topic modeling with LDA, identifying seasonal patterns and a thematic transition from technical debates to criminal practices, such as the commercialization of personal data in the Portuguese language. The second study evaluates the effectiveness of transfer learning to overcome the scarcity of labeled data in the security domain. To this end, a model based on the LightGBM algorithm with TF-IDF representation was employed, previously developed by a member of the same research project, and applied across distinct domains and multilingual environments, Portuguese and English. The results demonstrate that the model exhibits generalization capability by isolating risk-related vocabularies in new sources, such as Dark Web marketplaces and generic discussion forums, although it shows high sensitivity to technical terms. This study contributes to the development of CTI models with high efficiency and adaptability across heterogeneous data sources, supporting the anticipation of incidents even in the presence of limited labeled data.
Palabras clave:	Ataques Cibernéticos Cyber Attacks Segurança Cibernética Cybersecurity Inteligência de Ameaças Cibernéticas Cyber Threat Intelligence Processamento de Linguagem Natural Natural Language Processing Aprendizado de Máquina Machine Learning Modelagem de Tópicos Topic Modeling
Área (s) del CNPq:	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
Tema:	Computação Ciberterrorismo Crime por computador Portais da Web
Idioma:	por
País:	Brasil
Editora:	Universidade Federal de Uberlândia
Programa:	Programa de Pós-graduação em Ciência da Computação
Cita:	PEREIRA, Miguel Henrique de Brito. Identificação de ameaças em fóruns da Dark Web e Surface Web: um estudo sobre a evolução temporal das discussões e generalização de modelos. 2026. 105 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2026. DOI https://doi.org/10.14393/ufu.di.2026.5021.
Identificador del documento:	https://doi.org/10.14393/ufu.di.2026.5021
URI:	https://repositorio.ufu.br/handle/123456789/48464
Fecha de defensa:	28-feb-2026
Objetivos de Desarrollo Sostenible (ODS):	ODS::ODS 8. Trabalho decente e crescimento econômico - Promover o crescimento econômico sustentado, inclusivo e sustentável, emprego pleno e produtivo, e trabalho decente para todos.
Aparece en las colecciones:	DISSERTAÇÃO - Ciência da Computação

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
IdentificacaoAmeacasForuns.pdf	Dissertação	14.86 MB	Adobe PDF	Visualizar/Abrir

Mostrar el registro Dublin Core completo del ítem

Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons