Please use this identifier to cite or link to this item: https://repositorio.ufu.br/handle/123456789/41232
Full metadata record
DC FieldValueLanguage
dc.creatorJesus Filho, Sebastião Alves de-
dc.date.accessioned2024-02-21T17:40:13Z-
dc.date.available2024-02-21T17:40:13Z-
dc.date.issued2024-01-29-
dc.identifier.citationJESUS FILHO, Sebastião Alves de. Identificação de posts maliciosos na dark web utilizando Aprendizado de Máquina Supervisionado. 2023. 111 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2024. DOI https://doi.org/10.14393/ufu.di.2023.8127pt_BR
dc.identifier.urihttps://repositorio.ufu.br/handle/123456789/41232-
dc.description.abstractIn the face of the constant growth and sophistication of cyber attacks, cybersecurity can no longer rely solely on traditional defense techniques and tools. Proactive detection of cyber threats has become a necessity in today’s world, enabling security teams to identify potential threats and adopt effective mitigation measures. The field of Cyber Threat Intelligence (CTI) plays a fundamental role by providing security analysts with evidencebased knowledge about cyber threats. Information extraction from CTI can occur through various techniques and involve different data sources; however, machine learning has proven to be a promising approach in this area. Regarding data sources, social networks and online discussion forums have been commonly explored. In this dissertation, text mining, Natural Language Processing (NLP), and machine learning techniques are applied to data collected from Dark Web forums with the aim of identifying malicious posts. The training dataset was labeled considering the occurrence of Indicators of Compromise (IoCs), contextual keywords, and manual analysis. Different classification algorithms were tested using various text representations to find the best model. The results revealed that the model using the LightGBM algorithm and TF-IDF (Term Frequency-Inverse Document Frequency) with Unigram representation achieved the best metrics of accuracy, precision, recall, and F1-score. Additionally, new unlabeled posts were submitted to the classifier, showing promising results when analyzed using Topic Modeling with Latent Dirichlet Allocation (LDA).pt_BR
dc.languageporpt_BR
dc.publisherUniversidade Federal de Uberlândiapt_BR
dc.rightsAcesso Abertopt_BR
dc.rightsAttribution 3.0 United States*
dc.rights.urihttp://creativecommons.org/licenses/by/3.0/us/*
dc.subjectAtaques Cibernéticospt_BR
dc.subjectCyber Attackspt_BR
dc.subjectSegurança Cibernéticapt_BR
dc.subjectCybersecuritypt_BR
dc.subjectInteligência de Ameaças Cibernéticaspt_BR
dc.subjectCyber Threat Intelligencept_BR
dc.subjectProcessamento de Linguagem Naturalpt_BR
dc.subjectNatural Language Processingpt_BR
dc.subjectAprendizado de Máquinapt_BR
dc.subjectMachine Learningpt_BR
dc.subjectModelagem de Tópicospt_BR
dc.subjectTopic Modelingpt_BR
dc.titleIdentificação de posts maliciosos na dark web utilizando Aprendizado de Máquina Supervisionadopt_BR
dc.title.alternativeDetection of malicious posts on the dark web using Supervised Machine Learningpt_BR
dc.typeDissertaçãopt_BR
dc.contributor.advisor1Miani, Rodrigo Sanches-
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/2992074747740327pt_BR
dc.contributor.referee1Quincozes, Silvio Ereno-
dc.contributor.referee1Latteshttp://lattes.cnpq.br/9401130360785458pt_BR
dc.contributor.referee2Zarpelão, Bruno Bogaz-
dc.contributor.referee2Latteshttp://lattes.cnpq.br/0260303520888425pt_BR
dc.creator.Latteshttps://lattes.cnpq.br/9911047186014902pt_BR
dc.description.degreenameDissertação (Mestrado)pt_BR
dc.description.resumoDiante do crescimento constante e da sofisticação dos ataques cibernéticos, a segurança cibernética não pode mais depender exclusivamente de técnicas e ferramentas tradicionais de defesa. A detecção proativa de ameaças cibernéticas torna-se uma necessidade nos dias atuais para que as equipes de segurança possam identificar potenciais ameaças e adotar medidas de mitigação eficazes. A área de Cyber Threat Intelligence (CTI), ou Inteligência de Ameaças Cibernéticas, desempenha um papel fundamental ao fornecer aos analistas de segurança conhecimento fundamentado em evidências sobre ameaças cibernéticas. A extração de informações de CTI pode ocorrer por meio de diversas técnicas e envolver diferentes fontes de dados; no entanto, o uso de aprendizado de máquina tem se mostrado uma abordagem promissora nessa área. Quanto à fonte de dados, as redes sociais e fóruns de discussão online têm sido comumente explorados. Nesta dissertação, aplicam-se técnicas de mineração de texto, Processamento de Linguagem Natural (PLN) e aprendizado de máquina em dados coletados de fóruns da Dark Web com o objetivo de identificar posts maliciosos. A base de dados para treinamento foi rotulada levando em consideração a ocorrência de Indicadores de Comprometimento (IoCs), palavras-chave contextuais, além de análise manual. Diferentes algoritmos de classificação foram testados utilizando diversas formas de representações de texto para encontrar o melhor modelo. Os resultados revelaram que o modelo com o algoritmo Light Gradient Boosting Machine (LightGBM) e Term Frequency (TF) - Inverse Document Frequency (IDF) - (TF-IDF - Unigram) como representação de texto alcançou as melhores métricas de acurácia, precisão, revocação e medida-F. Adicionalmente, novos posts não rotulados foram submetidos ao classificador, apresentando resultados promissores ao serem analisados com auxílio de um algoritmo de modelagem de tópicos - Latent Dirichlet Allocation (LDA).pt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.programPrograma de Pós-graduação em Ciência da Computaçãopt_BR
dc.sizeorduration111pt_BR
dc.subject.cnpqCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOpt_BR
dc.identifier.doihttps://doi.org/10.14393/ufu.di.2023.8127pt_BR
dc.crossref.doibatchid77ef8e15-c8e0-4a1a-9a23-e1544d58c22e-
dc.subject.autorizadoComputaçãopt_BR
dc.subject.odsODS::ODS 4. Educação de qualidade - Assegurar a educação inclusiva, e equitativa e de qualidade, e promover oportunidades de aprendizagem ao longo da vida para todos.pt_BR
Appears in Collections:DISSERTAÇÃO - Ciência da Computação

Files in This Item:
File Description SizeFormat 
IdentificacaodePostsMaliciosos.pdfDissertação6.21 MBAdobe PDFThumbnail
View/Open


This item is licensed under a Creative Commons License Creative Commons