Please use this identifier to cite or link to this item: https://repositorio.ufu.br/handle/123456789/36179
ORCID:  http://orcid.org/0000-0002-7138-2208
Document type: Trabalho de Conclusão de Curso
Access type: Acesso Embargado
Embargo Date: 2024-08-19
Title: Classificação de dados baseada em redes complexas para detecção de binários empacotados
Alternate title (s): Data classification based on complex networks for detecting packed binary
Author: Lima Filho, Ricardo Barbosa
First Advisor: Carneiro, Murillo Guimarães
First member of the Committee: Miani, Rodrigo Sanches
Second member of the Committee: Park, Kil Jin Brandini
Summary: A área de segurança da informação está constantemente sendo testada com novas vulnerabilidades e desafios para corrigi-lás, um exemplo são os binários empacotados que são executáveis maliciosos ofuscados no processo de compactação de um arquivo. No entanto, sistemas de antivírus encontram dificuldades para detectar o empacotado como perigoso, devido a técnica de ocultamento presente no arquivo. A classificação de dados que é um ramo do aprendizado de máquina apresenta diversas abordagens ao analisar os atributos físicos dos dados e não investigam padrões de formação, podendo limitar o desempenho. Redes complexas em aprendizado de máquina são estruturas que apresentam padrões de conexões não triviais, nem completamente regular e nem completamente aleatório. Mediante a sua versatilidade, o seu uso para classificação de dados tem se tornado cada vez mais relevante, por resultados bem sucedidos ao analisar suas medidas e propriedades para classificação de uma instância. A confeção de uma rede interliga dados por meio de suas características em comum, com isso é possível interpretar padrões estruturais e topológicos. Diante deste cenário, este trabalho propõe a construção de uma rede baseado em k-vizinhos mais próximos e o aprendizado de padrões da rede via conformidade padrão através de seis medidas de rede selecionadas na literatura: assortatividade, coeficiente de agrupamento, grau médio, intermedialidade, menor caminho médio e proximidade. Os resultados apontam uma acurácia média superior a noventa por cento, além de um melhor resultado nos sete empacotadores analisados em relação a diferentes classificadores da literatura, validando a rede gerada e auxiliando a detecção de arquivos empacotados.
Abstract: The information security field is constantly being tested with new vulnerabilities and challenges to fix them, an example is packed binaries that are malicious executables obfuscated in the process of compressing a file. However, antivirus systems find it difficult to detect the package as dangerous, due to the hiding technique present in the file. Data classification, which is a branch of machine learning, takes several approaches when analyzing physical data, which can limit performance. Complex networks in machine learning are structures that do not follow a regular or random pattern. Due to its versatility, its use for data classification has become increasingly relevant, due to successful results when analyzing its measures and properties for labeling an instance. The construction of a network interconnects data, through their common characteristics, with this it is possible to interpret structural and topological patterns. In view of this scenario, this work proposes the construction of a network based on k-nearest neighbors and the learning of network patterns via pattern compliance through six network measures selected in the literature: assortativity, clustering coefficient, average degree, betweenness, shortest mean path and closeness. The results point to an average accuracy of more than ninety percent, in addition to a better result in the seven packagers analyzed in relation to different classifiers in the literature, validating the generated network and helping the detection of packed files.
Keywords: Redes complexas
Complex networks
Conformidade padrão
High level rating
Classificação de dados
Data classification
Segurança da informação
Information security
Binários empacotados
Packed executables
Area (s) of CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Language: por
Country: Brasil
Publisher: Universidade Federal de Uberlândia
Quote: LIMA FILHO, Ricardo Barbosa. Classificação de dados baseada em redes complexas para detecção de binários empacotados. 2022. 46 f. Trabalho de Conclusão de Curso (Graduação em Sistemas de Informação) – Universidade Federal de Uberlândia, Monte Carmelo, 2022.
URI: https://repositorio.ufu.br/handle/123456789/36179
Date of defense: 19-Aug-2022
Appears in Collections:TCC - Sistemas de Informação (Monte Carmelo)

Files in This Item:
File Description SizeFormat 
ClassificacaoDadosBaseada.pdf
  Until 2024-08-19
8.64 MBAdobe PDFView/Open    Request a copy


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.