Please use this identifier to cite or link to this item: https://repositorio.ufu.br/handle/123456789/27335
Document type: Dissertação
Access type: Acesso Aberto
Attribution-NonCommercial-NoDerivs 3.0 United States
Title: Dependência entre termos no modelo vetorial
Alternate title (s): Dependency between terms in the vector model
Author: Santos, Karina Silveira
First Advisor: Souza, João Nunes de
First coorientator: Silva, Ilmério Reis da
First member of the Committee: Guliato, Denise
Second member of the Committee: Ziviani, Nivio
Summary: O número de informações eletrônicas disponíveis para acesso nas bibliotecas digitais e na Web vem crescendo em ritmo acelerado. Em decorrência disto, a tarefa de encontrar informação útil torna-se difícil. Melhorar essa situação requer avanços no projeto e implementação de sistemas de recuperação de informação, dentre elas, algoritmos de ranking. O Modelo Vctorial é uma abordagem que vem sendo utilizada ao longo dos anos para prover tal ordenação. Neste modelo, cada termo do índice corresponde a um vetor, e esses vetores, em conjunto, geram a base do espaço vetorial de interesse. Nesta base, os vetores são ortogonais entre si, indicando que os respectivos termos são mutuamente independentes. Entretanto, esta é uma simplificação que não corresponde à realidade. Diante desse cenário, apresentamos, neste trabalho, uma extensão ao Modelo Vetorial para contemplar a correlação entre os termos. No modelo proposto, os vetores de termos, originalmente ortogonais, são rotados no espaço refletindo geometricamente a semântica de dependência entre os termos. Essa rotação pode ser feita com base em técnicas que resultem em informações sobre o relacionamento entre termos da coleção. Propomos as técnicas regras de associação e a geração de termos lexicograficamente semelhantes. A geração de regras de associação é uma conhecida técnica da mineração de dados. Ela é utilizada na recuperação de informação para encontrar conjuntos de termos que co-ocorrem na coleção de documentos. A técnica de obtenção de termos lexicograficamente semelhantes é uma estratégia semelhante à extração de radicais. A eficácia de recuperação do modelo proposto é avaliada para as duas técnicas, empregando as medidas de Precisão e Revocação. Os resultados mostram que há um aumento na efetividade de recuperação do modelo proposto em comparação ao Modelo Vetorial clássico para todas as coleções de referência avaliadas, obtendo um ganho de até 31% na média da precisão.
Abstract: The number of available electronic Information for access in digital libraries and Web is growing fast. An immediate consequence is that lhe task of finding useful information becomes difficult. Improving upon this situation requires progresses in the project and implemenlation of information retrieval systems, among them, ranking algorithms. The Vector Space Model is an approach, which has been used along the years to provide such ranking. In this model, each index term corresponds to a vector, and these vectors, together, generatc the basis of the vector space of interest. In this basis, the vectors are pairwaise orthogonal, indicating that the corresponding terms are mutually independent. However, this simplification does not correspond to the reality. Then, we present, in this work, an extension to the Vector Model to take into account the correlation between terms. In the proposed model, term vectors, originally orthogonal, are rotated in space geometrically reflecting the dependence semantics among terms. This rotation is done with any technique that generates information on the relationship among terms of the collection. We propose two techniques, named, association rules and the generation of terms lexicographically similar. The generation of association rules is a known data mining technique. It is used in the information retrieval to fínd sets of terms that co-occur in documents collection. The technique of obtaining terms lexicographically similar creatures is a strategy similar to the extraction of radicais. The retrieval effectiveness of the proposed model is evaluated for the two techniques using the measures of precision and recall. The results shows that our model improves in average precision, relative to the standard Vector Model, for all collections evaluated, leading to a gain up to 31%.
Keywords: Informações eletrônicas
Bibliotecas digitais
Modelo vetorial
Vetor
Area (s) of CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Language: por
Country: Brasil
Publisher: Universidade Federal de Uberlândia
Program: Programa de Pós-graduação em Ciência da Computação
Quote: SANTOS, Karina Silveira. Dependência entre termos no modelo vetorial. 2003. 85 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2019. DOI http://doi.org/10.14393/ufu.di.2003.17
Document identifier: http://doi.org/10.14393/ufu.di.2003.17
URI: https://repositorio.ufu.br/handle/123456789/27335
Date of defense: 2003
Appears in Collections:DISSERTAÇÃO - Ciência da Computação

Files in This Item:
File Description SizeFormat 
DependênciaEntreTermos.pdf4.09 MBAdobe PDFThumbnail
View/Open


This item is licensed under a Creative Commons License Creative Commons