Estudo de Técnicas para Indexação e Recuperação de Sequências Numéricas: Segmentação Adaptativa e Processamento de Consultas em Lote

Brito, Luiz Fernando Afra

Please use this identifier to cite or link to this item: https://repositorio.ufu.br/handle/123456789/21300

Full metadata record

DC Field	Value	Language
dc.creator	Brito, Luiz Fernando Afra	-
dc.date.accessioned	2018-05-08T17:48:44Z	-
dc.date.available	2018-05-08T17:48:44Z	-
dc.date.issued	2018-03-08	-
dc.identifier.citation	BRITO, Luiz Fernando Afra. Estudo de Técnicas para Indexação e Recuperação de Sequências Numéricas: Segmentação Adaptativa e Processamento de Consultas em Lote - Uberlândia. 2018. 107 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2018	pt_BR
dc.identifier.uri	https://repositorio.ufu.br/handle/123456789/21300	-
dc.description.abstract	Indexing structures and specialized search algorithms provide similarity queries. According to current literature, similarity queries should be fast and minimize the amount of space required. In this master’s thesis, we studied two approaches in order to meet these requirements in the context of numeric sequences. In the first approach, we proposed two representations to approximate sequences and to create lower bounding measures to the Euclidian distance: Error-Bounded Piecewise Linear Approximation (EBPLA) and Adaptive Indexable Piecewise Linear Approximation (AIPLA). In an innovative way, these two representations stored a set of coefficients such that its size was proportionally to the characteristics of the sequences. In experiments, the EBPLA, although flexible, obtained high approximation error and, consequently, the efficiency of its lower bounding was lower than the other representations. The other proposed representation, the AIPLA, provided the lowest approximation error and its lower bounding was similar to well known representations such as Piecewise Aggregate Approximation (PAA) and Indexable Piecewise Linear Approximation (IPLA). In the second approach we grouped query sequences, sent as batches, in order to reduce the time of similarity queries. Firstly we formed groups of queries and then we searched through indexing structures, such as R-Trees and M-Trees, only once. In our experiments, we evaluated 5 different strategies to group sequences. The results indicate the overall best strategy for grouping queries, the one which saved more access to secondary memory, is the one that unifies all queries in a single group. However, this grouping strategy can considerably increase the usage of primary memory for large batches. Therefore, in scenarios where primary memory is limited, we suggest the use of the strategy which creates N clusters from N initial sequences chosen randomly.	pt_BR
dc.description.sponsorship	CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior	pt_BR
dc.language	por	pt_BR
dc.publisher	Universidade Federal de Uberlândia	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject	Agrupamento	pt_BR
dc.subject	Clustering	pt_BR
dc.subject	Busca em lote	pt_BR
dc.subject	Sequência	pt_BR
dc.subject	Consulta por similaridade	pt_BR
dc.subject	Redução de dimensionalidade	pt_BR
dc.subject	Indexação	pt_BR
dc.subject	Lower bounding	pt_BR
dc.subject	Batch-mode search	pt_BR
dc.subject	Dimensionality reduction	pt_BR
dc.subject	Similarity query	pt_BR
dc.subject	Indexing	pt_BR
dc.subject	Sequence	pt_BR
dc.title	Estudo de Técnicas para Indexação e Recuperação de Sequências Numéricas: Segmentação Adaptativa e Processamento de Consultas em Lote	pt_BR
dc.title.alternative	Study of Techniques for Indexing and Retrieval of Numerical Sequences: Adaptive Segmentation and Batch-mode Similarity Query	pt_BR
dc.type	Dissertação	pt_BR
dc.contributor.advisor1	Albertini, Marcelo Keese	-
dc.contributor.referee1	Razente, Humberto Luiz	-
dc.contributor.referee2	Rios, Ricardo Araújo	-
dc.description.degreename	Dissertação (Mestrado)	pt_BR
dc.description.resumo	Estruturas de indexação e algoritmos especializados de busca provêm consultas por similaridade. De acordo com a literatura atual, consultas por similaridade devem ser rápidas e utilizar o mínimo de espaço possível. Nesta dissertação foram estudadas abordagens para atender a esses requisitos no contexto de sequências numéricas. Na primeira abordagem foram propostas duas representações reduzidas das sequências para a criação de medidas lower bounding da distância euclidiana, sendo elas: Error-Bounded Piecewise Linear Approximation (EBPLA) e Adaptive Indexable Piecewise Linear Approximation (AIPLA). De modo inovador, essas duas propostas armazenaram um conjunto de coeficientes de tamanho adaptável às características das sequências. Em experimentos, a representação EBPLA, apesar de flexível, obteve erro de aproximação alto e, consequentemente, a eficiência de sua medida lower bounding foi inferior as outras representações. A outra proposta, AIPLA, proporcionou menores erros de aproximação e sua medida lower bounding foi comparável ás criadas a partir de representações tradicionais como Piecewise Aggregate Approximation (PAA) e Indexable Piecewise Linear Approximation (IPLA). A segunda abordagem teve como objetivo reduzir o tempo de consultas por meio do agrupamento de sequências de consulta enviadas em lote. Primeiramente formaram-se grupos de consultas para que, posteriormente, apenas uma varredura por grupo em R-Trees e M-Trees foi realizada. Ao todo foram avaliadas 5 estratégias para agrupar as consultas. Os resultados observados indicam que a estratégia que economiza mais acessos a memória secundária é aquela que cria um único grupo contendo todas as sequências de consulta. Entretanto, dependendo do tamanho do lote de consultas, a necessidade de espaço em memória principal pode aumentar consideravelmente ao utilizar essa estratégia. Por isso, em casos onde a quantidade de memória principal é limitada, sugere-se o uso da estratégia que cria N grupos a partir de N sequências de consultas escolhidas aleatoriamente.	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.program	Programa de Pós-graduação em Ciência da Computação	pt_BR
dc.sizeorduration	107	pt_BR
dc.subject.cnpq	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::BANCO DE DADOS	pt_BR
dc.identifier.doi	http://dx.doi.org/10.14393/ufu.di.2018.253	pt_BR
dc.orcid.putcode	140274133	-
dc.crossref.doibatchid	publicado no crossref antes da rotina xml	-
Appears in Collections:	DISSERTAÇÃO - Ciência da Computação

Files in This Item:

File	Description	Size	Format
EstudoTecnicasIndexacao.pdf	Dissertação	2.32 MB	Adobe PDF	View/Open

Show simple item record