Please use this identifier to cite or link to this item: https://repositorio.ufu.br/handle/123456789/44498
ORCID:  http://orcid.org/0009-0009-1600-5563
Document type: Dissertação
Access type: Acesso Aberto
Title: Estruturas de indexação métricas em operações distribuídas de agrupamento por similaridade em dados de alta dimensionalidade
Alternate title (s): Metric indexing structures in distributed similarity clustering operations on high-dimensional data
Author: Silva, Ana Paula Cassiano Alves da
First Advisor: Razente, Humberto Luiz
First member of the Committee: Sousa, Elaine Parros Machado de
Second member of the Committee: Escarpinati, Mauricio Cunha
Summary: A prevalência de Big Data apresenta desafios significativos para a extração de conhecimento de grandes volumes de dados complexos. A análise de agrupamentos, crucial para identificar padrões e similaridades, utiliza técnicas como a busca e junção por similaridade, essencial para consultas baseadas em relações intrínsecas dos dados. No entanto, a alta dimensionalidade e o volume massivo de dados tornam essas operações computacionalmente caras. Sistemas distribuídos, como Apache Hadoop e Spark, têm sido implementados para melhorar o desempenho dessas análises. Técnicas de particionamento e poda, juntamente com métodos baseados em dissimilaridade, como funções de distância, são fundamentais para otimizar a manipulação dos dados. Recentemente, o operador Similarity Group-By (SGB) e sua evolução, o Distributed Similarity Grouping (DSG), têm mostrado avanços significativos, permitindo a computação de agrupamentos por similaridade em plataformas distribuídas. Contudo, a crescente demanda por análises mais rápidas e precisas requer melhorias contínuas. Neste contexto, propõe-se o operador Distributed Similarity Grouping with Vantage Point Tree (DSG-VPTree), uma inovação que integra a estrutura de dados Vantage Point Tree (VP-Tree) ao operador DSG, visando um particionamento mais eficiente. Este trabalho detalha a implementação do DSG-VPTree no ambiente Spark, avaliando seu desempenho em termos de tempo de execução do algoritmo, comparativamente ao operador DSG, demonstrando sua eficiência na superação das limitações de escalabilidade das soluções anteriores. A proposta oferece uma solução eficiente para operações de busca por similaridade em grandes volumes de dados, contribuindo para a evolução das técnicas de análise em Big Data. Os experimentos demonstram que o DSG-VPTree supera o DSG em 40%, apresentando menor tempo de execução e melhor escalabilidade em dados de alta dimensionalidade.
Abstract: The prevalence of Big Data presents significant challenges for extracting knowledge from large volumes of complex data. Cluster analysis, crucial for identifying patterns and similarities, uses techniques such as similarity search and join, essential for queries based on intrinsic data relationships. However, the high dimensionality and massive volume of data make these operations computationally expensive. Distributed systems, such as Apache Hadoop and Spark, have been implemented to improve the performance of these analyses. Partitioning and pruning techniques, along with dissimilarity-based methods such as distance functions, are key to optimizing data manipulation. Recently, the SGB operator and its evolution, the DSG, have shown significant advances, allowing clusters to be computed by similarity on distributed platforms. However, the growing demand for faster and more accurate analysis requires continuous improvements. In this context, we propose DSG-VPTree operator, an innovation that integrates the VP-Tree data structure with the DSG operator, aiming for a more efficient and balanced partitioning. This work details the implementation of the DSG-VPTree in the Spark environment, evaluating its performance in terms of execution time compared to the DSG operator, demonstrating its efficiency in overcoming the scalability limitations of previous solutions. The proposal offers an efficient solution for similarity search operations on large volumes of data, contributing to the evolution of analysis techniques in Big Data. The experiments show that the DSG-VPTree outperforms the DSG by 40%, with shorter execution times and better scalability on high-dimensional data.
Keywords: Busca por similaridade
Similarity Search
Particionamento de Dados
Data Partitioning
Alta Dimensionalidade
High Dimensionality
Avaliação de desempenho
Performance Evaluation
Map/Reduce
Apache Spark
Vantage-Point Tree
Método de Acesso Métrico
Metric Access Method
Area (s) of CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
Subject: Computação
Language: por
Country: Brasil
Publisher: Universidade Federal de Uberlândia
Program: Programa de Pós-graduação em Ciência da Computação
Quote: SILVA, Ana Paula Cassiano Alves da. Estruturas de indexação métricas em operações distribuídas de agrupamento por similaridade em dados de alta dimensionalidade. 2025. 80 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2025. DOI https://doi.org/10.14393/ufu.di.2024.619.
Document identifier: http://doi.org/10.14393/ufu.di.2024.619
URI: https://repositorio.ufu.br/handle/123456789/44498
Date of defense: 26-Aug-2024
Sustainable Development Goals SDGs: ODS::ODS 9. Indústria, Inovação e infraestrutura - Construir infraestrutura resiliente, promover a industrialização inclusiva e sustentável, e fomentar a inovação.
Appears in Collections:DISSERTAÇÃO - Ciência da Computação

Files in This Item:
File Description SizeFormat 
EstruturasIndexacaoMetricas.pdfDissertação2.03 MBAdobe PDFThumbnail
View/Open


This item is licensed under a Creative Commons License Creative Commons