Please use this identifier to cite or link to this item: https://repositorio.ufu.br/handle/123456789/44409
ORCID:  http://orcid.org/0009-0000-0269-7903
Document type: Trabalho de Conclusão de Curso
Access type: Acesso Aberto
Title: Redução de Dimensionalidade com Descida de Gradiente: Uma Alternativa ao PCA para Preservação de Distâncias
Alternate title (s): Dimensionality Reduction with Gradient Descent: An Alternative to PCA for Distance Preservation
Author: Pinheiro, Gabriel de Castro Teixeira
First Advisor: Travencolo, Bruno Augusto Nassif
First member of the Committee: Fernandes, Marcia Aparecida
Second member of the Committee: Silva, Thiago Henrique Pereira
Summary: Este trabalho apresenta uma abordagem para a redução de dimensionalidade, utilizando descida de gradiente para reduzir as dimensões preservando melhor as distâncias entre os vetores originais. Em muitas aplicações, como no uso de embeddings gerados por LLMs (Large Language Models), a distância entre os vetores é uma métrica fundamental para representar a similaridade semântica entre os textos vetorizados. No entanto, esses vetores frequentemente possuem milhares de dimensões, o que torna inviável a aplicação de técnicas de visualização de dados ou reconhecimento de padrões sem uma redução dimensional. Métodos tradicionais, como o PCA (Principal Component Analysis), são amplamente utilizados para esse propósito, mas tendem a distorcer as distâncias entre os vetores durante o processo de redução. A técnica proposta neste trabalho visa minimizar essa distorção, oferecendo uma alternativa para reduzir as dimensões preservando as relações de proximidade entre os vetores no espaço reduzido. Foram realizados experimentos com comentários deixados publicamente na Google Play Store por usuários dos aplicativos analisados. Os comentários foram vetorizados pelo modelo text-embedding-3-small da OpenAI e, posteriormente, as 1536 dimensões de saída do modelo foram reduzidas para apenas duas utilizando PCA e o método proposto. Comparando os resultados dos dois algoritmos, pôde-se observar que ambos conseguiram manter uma separação clara entre comentários positivos e negativos, o que indica que preservaram bem a relação semântica original dos dados. O PCA demonstrou melhor desempenho na identificação e separação de grupos semânticos dentro dos comentários, preservando a topologia dos dados originais e facilitando a análise de clusters. Por outro lado, o método proposto mostrou-se mais eficaz na detecção de comentários anômalos, ou outliers, destacando aqueles que se distanciam significativamente dos demais e preservando as distâncias reais entre vetores no espaço reduzido. Com os experimentos realizados, foi demonstrado que tanto o PCA quanto o método proposto têm pontos positivos e negativos. Como conclusão, o método proposto é uma alternativa para a redução de dimensionalidade quando o objetivo é preservar melhor as distâncias entre os vetores, como na detecção de anomalias. No entanto, assim como o PCA, ele não é uma solução definitiva. Os dois métodos têm suas limitações e aplicabilidades específicas, a escolha entre eles deve ser guiada pelas necessidades de cada análise, reconhecendo que nenhum deles é uma solução definitiva, mas sim ferramentas complementares.
Keywords: Redução de Dimensionalidade, Descida de Gradiente, Preservaçao de Distâncias, PCA, LLM, Similaridade Semântica, Visualização de Dados Textuais, Preservação.
Area (s) of CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Language: por
Country: Brasil
Publisher: Universidade Federal de Uberlândia
Quote: PINHEIRO. Gabriel de Castro Teixeira. Redução de Dimensionalidade com Descida de Gradiente: Uma Alternativa ao PCA para Preservação de Distâncias. 2024. 35 f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) – Universidade Federal de Uberlândia, Uberlândia, 2024.
URI: https://repositorio.ufu.br/handle/123456789/44409
Date of defense: 26-Nov-2024
Appears in Collections:TCC - Ciência da Computação

Files in This Item:
File Description SizeFormat 
ReducaoDimensionalidadeDescida.pdfTCC8.97 MBAdobe PDFThumbnail
View/Open


This item is licensed under a Creative Commons License Creative Commons