Please use this identifier to cite or link to this item:
https://repositorio.ufu.br/handle/123456789/48464| ORCID: | http://orcid.org/0000-0001-5461-0742 |
| Document type: | Dissertação |
| Access type: | Acesso Aberto |
| Title: | Identificação de ameaças em fóruns da Dark Web e Surface Web: um estudo sobre a evolução temporal das discussões e generalização de modelos |
| Alternate title (s): | Threat identification in Dark Web and Surface Web Forums: a study on the temporal evolution of discussions and model generalization |
| Author: | Pereira, Miguel Henrique de Brito |
| First Advisor: | Miani, Rodrigo Sanches |
| First member of the Committee: | Quincozes, Silvio Ereno |
| Second member of the Committee: | Kreutz, Diego Luis |
| Third member of the Committee: | Pereira, Miguel Henrique de Brito |
| Summary: | Diante da crescente estruturação do cibercrime e do aumento de ameaças articuladas em ambientes anônimos, a Inteligência de Ameaças Cibernéticas (CTI) torna-se essencial para uma defesa proativa. Esta dissertação propõe dois estudos de caso com o intuito de avaliar aplicações práticas de CTI por meio da integração de técnicas de mineração de dados em fóruns da Surface Web e Dark Web. O primeiro estudo consiste em investigar a evolução temporal das discussões entre 2015 e 2024 utilizando modelagem de tópicos LDA, identificando padrões sazonais e uma transição temática de debates técnicos para práticas criminosas, como a comercialização de dados pessoais em língua portuguesa. O segundo estudo consiste em avaliar a eficácia da transferência de aprendizado para superar a escassez de dados rotulados no domínio da segurança. Para isso, foi utilizado um modelo baseado no algoritmo LightGBM com representação TF-IDF, desenvolvido previamente por um integrante do mesmo projeto de pesquisa, sendo este aplicado em domínios distintos e ambientes multilíngues, português e inglês. Os resultados demonstram que o modelo utilizado possui capacidade de generalização ao isolar vocabulários de risco em novas fontes, como mercados da Dark Web e fóruns de discussão genéricos, embora apresente alta sensibilidade a termos técnicos. Este estudo contribui para o desenvolvimento de modelos de CTI com alta eficiência e adaptabilidade em fontes de dados heterogêneas, auxiliando na antecipação de incidentes mesmo diante da escassez de dados rotulados. |
| Abstract: | In light of the increasing structuring of cybercrime and the rise of coordinated threats in anonymous environments, Cyber Threat Intelligence (CTI) becomes essential for proactive defense. This dissertation proposes two case studies aimed at evaluating practical applications of CTI through the integration of data mining techniques in Surface Web and Dark Web forums. The first study investigates the temporal evolution of discussions between 2015 and 2024 using topic modeling with LDA, identifying seasonal patterns and a thematic transition from technical debates to criminal practices, such as the commercialization of personal data in the Portuguese language. The second study evaluates the effectiveness of transfer learning to overcome the scarcity of labeled data in the security domain. To this end, a model based on the LightGBM algorithm with TF-IDF representation was employed, previously developed by a member of the same research project, and applied across distinct domains and multilingual environments, Portuguese and English. The results demonstrate that the model exhibits generalization capability by isolating risk-related vocabularies in new sources, such as Dark Web marketplaces and generic discussion forums, although it shows high sensitivity to technical terms. This study contributes to the development of CTI models with high efficiency and adaptability across heterogeneous data sources, supporting the anticipation of incidents even in the presence of limited labeled data. |
| Keywords: | Ataques Cibernéticos Cyber Attacks Segurança Cibernética Cybersecurity Inteligência de Ameaças Cibernéticas Cyber Threat Intelligence Processamento de Linguagem Natural Natural Language Processing Aprendizado de Máquina Machine Learning Modelagem de Tópicos Topic Modeling |
| Area (s) of CNPq: | CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO |
| Subject: | Computação Ciberterrorismo Crime por computador Portais da Web |
| Language: | por |
| Country: | Brasil |
| Publisher: | Universidade Federal de Uberlândia |
| Program: | Programa de Pós-graduação em Ciência da Computação |
| Quote: | PEREIRA, Miguel Henrique de Brito. Identificação de ameaças em fóruns da Dark Web e Surface Web: um estudo sobre a evolução temporal das discussões e generalização de modelos. 2026. 105 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2026. DOI https://doi.org/10.14393/ufu.di.2026.5021. |
| Document identifier: | https://doi.org/10.14393/ufu.di.2026.5021 |
| URI: | https://repositorio.ufu.br/handle/123456789/48464 |
| Date of defense: | 28-Feb-2026 |
| Sustainable Development Goals SDGs: | ODS::ODS 8. Trabalho decente e crescimento econômico - Promover o crescimento econômico sustentado, inclusivo e sustentável, emprego pleno e produtivo, e trabalho decente para todos. |
| Appears in Collections: | DISSERTAÇÃO - Ciência da Computação |
Files in This Item:
| File | Description | Size | Format | |
|---|---|---|---|---|
| IdentificacaoAmeacasForuns.pdf | Dissertação | 14.86 MB | Adobe PDF | ![]() View/Open |
This item is licensed under a Creative Commons License
