Um novo método de indexação para consultas por similaridade utilizando mapeamentos unidimensionais baseados em focos globais

Lima, Rafael Lucas Bernardes

Please use this identifier to cite or link to this item: https://repositorio.ufu.br/handle/123456789/24057

Full metadata record

DC Field	Value	Language
dc.creator	Lima, Rafael Lucas Bernardes	-
dc.date.accessioned	2019-01-24T14:00:50Z	-
dc.date.available	2019-01-24T14:00:50Z	-
dc.date.issued	2016-09-08	-
dc.identifier.citation	LIMA, Rafael Lucas Bernardes. Um novo método de indexação para consultas por similaridade utilizando mapeamentos unidimensionais baseados em focos globais. 2016. 128 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2018. DOI http://dx.doi.org/10.14393/ufu.di.2019.314	pt_BR
dc.identifier.uri	https://repositorio.ufu.br/handle/123456789/24057	-
dc.description.abstract	To recovering complex data the most appropriate is to use similarity queries. To opti- mize the response of a query the access methods are used. When a set of objects is deĄned by a distance function (metric) can be said that these objects became part of a metric space, which allows the preparation of Metric Access Methods (MAM). Generally MAM are represented by a hierarchical structure. There are several variations of metric trees, and an interesting structure to work is the B+Tree, a useful feature of this structure is that the leaf nodes are stored in a doubly linked list facilitating navigation between the nodes. The GroupSim method presents an approach based on mapping, indexing and retrieval of objects. First is performed the mapping of objects to one-dimensional spaces based on representative objects previously chosen, after mapping are generated one-dimensional vectors which are indexed in a single structure B+Tree, allowing sub- sequently more eicient queries are applied. Through experiments carried out it was possible to note that the proposed method has a performance superior to other methods may be found in the literature. By performing KNN queries with k varying between 10 and 100, using diferent sets of data it was possible to assess the proposed method. Some of the results were obtained by comparing the GroupSim and iDistance method using the Euclidian function and Sierpinski database, the proposed method achieves an average of 3.400% better performance. Compared to OmniB - Forest the best performance achieved is using the database Covertype and the Euclidean distance function, in this case the proposed method comes to have an average performance for query 1000% better and in comparison with sequential access to performance also arrives to 1000% using the data- base Sierpinskie and the Euclidean distance function. Based on the results obtained from the experiments, it is clear that the proposed method has superior performance to some methods in the literature, like the iDistance and the OmniB-Forest.	pt_BR
dc.language	por	pt_BR
dc.publisher	Universidade Federal de Uberlândia	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject	B+-Tree	pt_BR
dc.subject	Métodos de acesso	pt_BR
dc.subject	GroupSim	pt_BR
dc.subject	Access methods	pt_BR
dc.subject	Computação	pt_BR
dc.subject	Recuperação de dados (Computação)	pt_BR
dc.subject	Recuperação da informação	pt_BR
dc.title	Um novo método de indexação para consultas por similaridade utilizando mapeamentos unidimensionais baseados em focos globais	pt_BR
dc.title.alternative	A new indexing method for similarity queries using one-dimensional mappings based on global foci	pt_BR
dc.type	Dissertação	pt_BR
dc.contributor.advisor1	Razente, Humberto Luiz	-
dc.contributor.referee1	Seraphim, Enzo	-
dc.contributor.referee1Lattes	http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4769636P6	pt_BR
dc.contributor.referee2	Nascimento, Marcelo Zanchetta do	-
dc.contributor.referee2Lattes	http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4770535J0	pt_BR
dc.creator.Lattes	http://lattes.cnpq.br/6931488865244266	pt_BR
dc.description.degreename	Dissertação (Mestrado)	pt_BR
dc.description.resumo	Para recuperação de dados complexos o mais adequado é que se utilizem consultas por similaridade. Para otimizar a resposta à uma consulta são utilizados os métodos de acesso. Quando um conjunto de objetos é deĄnido por meio de uma função de distância (métrica) pode-se dizer que esses objetos passam a compor um espaço métrico, o que possibilita a elaboração dos Métodos de Acesso Métricos (MAMs). Geralmente os MAMs são representados por meio de uma estrutura hierárquica. Existem diversas variações das árvores métricas, e uma estrutura interessante para se trabalhar é a B+Tree, uma característica útil dessa estrutura é que os nós folhas são armazenados em uma lista duplamente encadeada facilitando a navegação entre os nós. O método GroupSim apresenta uma abordagem baseada no mapeamento, indexação e recuperação de objetos. Primeiramente é realizado o mapeamento dos objetos para espaços unidimensionais baseando-se em objetos representativos previamente escolhidos, após o mapeamento são gerados vetores unidimensionais os quais são indexados em uma única estrutura B+Tree, possibilitando posteriormente que consultas mais eĄcientes sejam aplicadas. Por meio de experimentos efetuados foi possível notar que o método proposto apresenta um desempenho superior a outros métodos que podem ser encontrados na literatura. Realizando-se consultas knn com k variando entre 10 e 100, e utilizando diferentes conjuntos de dados foi possível avaliar o método proposto. Alguns dos resultados obtidos foram comparando o método GroupSim e o iDistance utilizando a função Euclidiana e a base de dados Sierpinski, o método proposto consegue um desempenho de tempo médio 3.400% melhor. Comparando com a OmniB - Forest o melhor desempenho obtido é utilizando a base de dados Covertype e a função de distância Euclidiana, neste caso o método proposto chega a ter um desempenho de tempo médio para consulta 1000% melhor, e comparando com Acesso Sequencial o desempenho também chega a 1000% utilizando a base de dados Sierpinski e a função de distância Euclidiana. Com base nos resultados obtidos por meio dos experimentos, é possível aĄrmar que o método proposto apresenta desempenho superior à alguns métodos presentes na literatura, como o iDistance e o OmniB-Forest.	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.program	Programa de Pós-graduação em Ciência da Computação	pt_BR
dc.sizeorduration	128	pt_BR
dc.subject.cnpq	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO	pt_BR
dc.identifier.doi	http://dx.doi.org/10.14393/ufu.di.2019.314	pt_BR
dc.crossref.doibatchid	publicado no crossref antes da rotina xml	-
Appears in Collections:	DISSERTAÇÃO - Ciência da Computação

Files in This Item:

File	Description	Size	Format
NovoMétodoIndexação.pdf		7.55 MB	Adobe PDF	View/Open

Show simple item record