Please use this identifier to cite or link to this item: https://repositorio.ufu.br/handle/123456789/21300
Full metadata record
DC FieldValueLanguage
dc.creatorBrito, Luiz Fernando Afra-
dc.date.accessioned2018-05-08T17:48:44Z-
dc.date.available2018-05-08T17:48:44Z-
dc.date.issued2018-03-08-
dc.identifier.citationBRITO, Luiz Fernando Afra. Estudo de Técnicas para Indexação e Recuperação de Sequências Numéricas: Segmentação Adaptativa e Processamento de Consultas em Lote - Uberlândia. 2018. 107 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2018pt_BR
dc.identifier.urihttps://repositorio.ufu.br/handle/123456789/21300-
dc.description.abstractIndexing structures and specialized search algorithms provide similarity queries. According to current literature, similarity queries should be fast and minimize the amount of space required. In this master’s thesis, we studied two approaches in order to meet these requirements in the context of numeric sequences. In the first approach, we proposed two representations to approximate sequences and to create lower bounding measures to the Euclidian distance: Error-Bounded Piecewise Linear Approximation (EBPLA) and Adaptive Indexable Piecewise Linear Approximation (AIPLA). In an innovative way, these two representations stored a set of coefficients such that its size was proportionally to the characteristics of the sequences. In experiments, the EBPLA, although flexible, obtained high approximation error and, consequently, the efficiency of its lower bounding was lower than the other representations. The other proposed representation, the AIPLA, provided the lowest approximation error and its lower bounding was similar to well known representations such as Piecewise Aggregate Approximation (PAA) and Indexable Piecewise Linear Approximation (IPLA). In the second approach we grouped query sequences, sent as batches, in order to reduce the time of similarity queries. Firstly we formed groups of queries and then we searched through indexing structures, such as R-Trees and M-Trees, only once. In our experiments, we evaluated 5 different strategies to group sequences. The results indicate the overall best strategy for grouping queries, the one which saved more access to secondary memory, is the one that unifies all queries in a single group. However, this grouping strategy can considerably increase the usage of primary memory for large batches. Therefore, in scenarios where primary memory is limited, we suggest the use of the strategy which creates N clusters from N initial sequences chosen randomly.pt_BR
dc.description.sponsorshipCAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superiorpt_BR
dc.languageporpt_BR
dc.publisherUniversidade Federal de Uberlândiapt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectAgrupamentopt_BR
dc.subjectClusteringpt_BR
dc.subjectBusca em lotept_BR
dc.subjectSequênciapt_BR
dc.subjectConsulta por similaridadept_BR
dc.subjectRedução de dimensionalidadept_BR
dc.subjectIndexaçãopt_BR
dc.subjectLower boundingpt_BR
dc.subjectBatch-mode searchpt_BR
dc.subjectDimensionality reductionpt_BR
dc.subjectSimilarity querypt_BR
dc.subjectIndexingpt_BR
dc.subjectSequencept_BR
dc.titleEstudo de Técnicas para Indexação e Recuperação de Sequências Numéricas: Segmentação Adaptativa e Processamento de Consultas em Lotept_BR
dc.title.alternativeStudy of Techniques for Indexing and Retrieval of Numerical Sequences: Adaptive Segmentation and Batch-mode Similarity Querypt_BR
dc.typeDissertaçãopt_BR
dc.contributor.advisor1Albertini, Marcelo Keese-
dc.contributor.referee1Razente, Humberto Luiz-
dc.contributor.referee2Rios, Ricardo Araújo-
dc.description.degreenameDissertação (Mestrado)pt_BR
dc.description.resumoEstruturas de indexação e algoritmos especializados de busca provêm consultas por similaridade. De acordo com a literatura atual, consultas por similaridade devem ser rápidas e utilizar o mínimo de espaço possível. Nesta dissertação foram estudadas abordagens para atender a esses requisitos no contexto de sequências numéricas. Na primeira abordagem foram propostas duas representações reduzidas das sequências para a criação de medidas lower bounding da distância euclidiana, sendo elas: Error-Bounded Piecewise Linear Approximation (EBPLA) e Adaptive Indexable Piecewise Linear Approximation (AIPLA). De modo inovador, essas duas propostas armazenaram um conjunto de coeficientes de tamanho adaptável às características das sequências. Em experimentos, a representação EBPLA, apesar de flexível, obteve erro de aproximação alto e, consequentemente, a eficiência de sua medida lower bounding foi inferior as outras representações. A outra proposta, AIPLA, proporcionou menores erros de aproximação e sua medida lower bounding foi comparável ás criadas a partir de representações tradicionais como Piecewise Aggregate Approximation (PAA) e Indexable Piecewise Linear Approximation (IPLA). A segunda abordagem teve como objetivo reduzir o tempo de consultas por meio do agrupamento de sequências de consulta enviadas em lote. Primeiramente formaram-se grupos de consultas para que, posteriormente, apenas uma varredura por grupo em R-Trees e M-Trees foi realizada. Ao todo foram avaliadas 5 estratégias para agrupar as consultas. Os resultados observados indicam que a estratégia que economiza mais acessos a memória secundária é aquela que cria um único grupo contendo todas as sequências de consulta. Entretanto, dependendo do tamanho do lote de consultas, a necessidade de espaço em memória principal pode aumentar consideravelmente ao utilizar essa estratégia. Por isso, em casos onde a quantidade de memória principal é limitada, sugere-se o uso da estratégia que cria N grupos a partir de N sequências de consultas escolhidas aleatoriamente.pt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.programPrograma de Pós-graduação em Ciência da Computaçãopt_BR
dc.sizeorduration107pt_BR
dc.subject.cnpqCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::BANCO DE DADOSpt_BR
dc.identifier.doihttp://dx.doi.org/10.14393/ufu.di.2018.253pt_BR
dc.orcid.putcode140274133-
dc.crossref.doibatchidpublicado no crossref antes da rotina xml-
Appears in Collections:DISSERTAÇÃO - Ciência da Computação

Files in This Item:
File Description SizeFormat 
EstudoTecnicasIndexacao.pdfDissertação2.32 MBAdobe PDFThumbnail
View/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.