Por favor, use este identificador para citar o enlazar este ítem: https://repositorio.ufu.br/handle/123456789/44498
Registro completo de metadatos
Campo DCValorLengua/Idioma
dc.creatorSilva, Ana Paula Cassiano Alves da-
dc.date.accessioned2025-01-07T14:12:32Z-
dc.date.available2025-01-07T14:12:32Z-
dc.date.issued2024-08-26-
dc.identifier.citationSILVA, Ana Paula Cassiano Alves da. Estruturas de indexação métricas em operações distribuídas de agrupamento por similaridade em dados de alta dimensionalidade. 2025. 80 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2025. DOI https://doi.org/10.14393/ufu.di.2024.619.pt_BR
dc.identifier.urihttps://repositorio.ufu.br/handle/123456789/44498-
dc.description.abstractThe prevalence of Big Data presents significant challenges for extracting knowledge from large volumes of complex data. Cluster analysis, crucial for identifying patterns and similarities, uses techniques such as similarity search and join, essential for queries based on intrinsic data relationships. However, the high dimensionality and massive volume of data make these operations computationally expensive. Distributed systems, such as Apache Hadoop and Spark, have been implemented to improve the performance of these analyses. Partitioning and pruning techniques, along with dissimilarity-based methods such as distance functions, are key to optimizing data manipulation. Recently, the SGB operator and its evolution, the DSG, have shown significant advances, allowing clusters to be computed by similarity on distributed platforms. However, the growing demand for faster and more accurate analysis requires continuous improvements. In this context, we propose DSG-VPTree operator, an innovation that integrates the VP-Tree data structure with the DSG operator, aiming for a more efficient and balanced partitioning. This work details the implementation of the DSG-VPTree in the Spark environment, evaluating its performance in terms of execution time compared to the DSG operator, demonstrating its efficiency in overcoming the scalability limitations of previous solutions. The proposal offers an efficient solution for similarity search operations on large volumes of data, contributing to the evolution of analysis techniques in Big Data. The experiments show that the DSG-VPTree outperforms the DSG by 40%, with shorter execution times and better scalability on high-dimensional data.pt_BR
dc.languageporpt_BR
dc.publisherUniversidade Federal de Uberlândiapt_BR
dc.rightsAcesso Abertopt_BR
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/us/*
dc.subjectBusca por similaridadept_BR
dc.subjectSimilarity Searchpt_BR
dc.subjectParticionamento de Dadospt_BR
dc.subjectData Partitioningpt_BR
dc.subjectAlta Dimensionalidadept_BR
dc.subjectHigh Dimensionalitypt_BR
dc.subjectAvaliação de desempenhopt_BR
dc.subjectPerformance Evaluationpt_BR
dc.subjectMap/Reducept_BR
dc.subjectApache Sparkpt_BR
dc.subjectVantage-Point Treept_BR
dc.subjectMétodo de Acesso Métricopt_BR
dc.subjectMetric Access Methodpt_BR
dc.titleEstruturas de indexação métricas em operações distribuídas de agrupamento por similaridade em dados de alta dimensionalidadept_BR
dc.title.alternativeMetric indexing structures in distributed similarity clustering operations on high-dimensional datapt_BR
dc.typeDissertaçãopt_BR
dc.contributor.advisor1Razente, Humberto Luiz-
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/4700164571979002pt_BR
dc.contributor.referee1Sousa, Elaine Parros Machado de-
dc.contributor.referee1Latteshttp://lattes.cnpq.br/6253898580239376pt_BR
dc.contributor.referee2Escarpinati, Mauricio Cunha-
dc.contributor.referee2Latteshttp://lattes.cnpq.br/5939941255055989pt_BR
dc.creator.Latteshttp://lattes.cnpq.br/3542152556715203pt_BR
dc.description.degreenameDissertação (Mestrado)pt_BR
dc.description.resumoA prevalência de Big Data apresenta desafios significativos para a extração de conhecimento de grandes volumes de dados complexos. A análise de agrupamentos, crucial para identificar padrões e similaridades, utiliza técnicas como a busca e junção por similaridade, essencial para consultas baseadas em relações intrínsecas dos dados. No entanto, a alta dimensionalidade e o volume massivo de dados tornam essas operações computacionalmente caras. Sistemas distribuídos, como Apache Hadoop e Spark, têm sido implementados para melhorar o desempenho dessas análises. Técnicas de particionamento e poda, juntamente com métodos baseados em dissimilaridade, como funções de distância, são fundamentais para otimizar a manipulação dos dados. Recentemente, o operador Similarity Group-By (SGB) e sua evolução, o Distributed Similarity Grouping (DSG), têm mostrado avanços significativos, permitindo a computação de agrupamentos por similaridade em plataformas distribuídas. Contudo, a crescente demanda por análises mais rápidas e precisas requer melhorias contínuas. Neste contexto, propõe-se o operador Distributed Similarity Grouping with Vantage Point Tree (DSG-VPTree), uma inovação que integra a estrutura de dados Vantage Point Tree (VP-Tree) ao operador DSG, visando um particionamento mais eficiente. Este trabalho detalha a implementação do DSG-VPTree no ambiente Spark, avaliando seu desempenho em termos de tempo de execução do algoritmo, comparativamente ao operador DSG, demonstrando sua eficiência na superação das limitações de escalabilidade das soluções anteriores. A proposta oferece uma solução eficiente para operações de busca por similaridade em grandes volumes de dados, contribuindo para a evolução das técnicas de análise em Big Data. Os experimentos demonstram que o DSG-VPTree supera o DSG em 40%, apresentando menor tempo de execução e melhor escalabilidade em dados de alta dimensionalidade.pt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.programPrograma de Pós-graduação em Ciência da Computaçãopt_BR
dc.sizeorduration80pt_BR
dc.subject.cnpqCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAOpt_BR
dc.identifier.doihttp://doi.org/10.14393/ufu.di.2024.619pt_BR
dc.orcid.putcode175236614-
dc.crossref.doibatchidb11bae58-83cc-4884-811e-c01c5fc0c0f9-
dc.subject.autorizadoComputaçãopt_BR
dc.subject.odsODS::ODS 9. Indústria, Inovação e infraestrutura - Construir infraestrutura resiliente, promover a industrialização inclusiva e sustentável, e fomentar a inovação.pt_BR
Aparece en las colecciones:DISSERTAÇÃO - Ciência da Computação

Ficheros en este ítem:
Fichero Descripción TamañoFormato 
EstruturasIndexacaoMetricas.pdfDissertação2.03 MBAdobe PDFVista previa
Visualizar/Abrir


Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons