Por favor, use este identificador para citar o enlazar este ítem:
https://repositorio.ufu.br/handle/123456789/44409
ORCID: | http://orcid.org/0009-0000-0269-7903 |
Tipo de documento: | Trabalho de Conclusão de Curso |
Tipo de acceso: | Acesso Aberto |
Título: | Redução de Dimensionalidade com Descida de Gradiente: Uma Alternativa ao PCA para Preservação de Distâncias |
Título (s) alternativo (s): | Dimensionality Reduction with Gradient Descent: An Alternative to PCA for Distance Preservation |
Autor: | Pinheiro, Gabriel de Castro Teixeira |
Primer orientador: | Travencolo, Bruno Augusto Nassif |
Primer miembro de la banca: | Fernandes, Marcia Aparecida |
Segundo miembro de la banca: | Silva, Thiago Henrique Pereira |
Resumen: | Este trabalho apresenta uma abordagem para a redução de dimensionalidade, utilizando descida de gradiente para reduzir as dimensões preservando melhor as distâncias entre os vetores originais. Em muitas aplicações, como no uso de embeddings gerados por LLMs (Large Language Models), a distância entre os vetores é uma métrica fundamental para representar a similaridade semântica entre os textos vetorizados. No entanto, esses vetores frequentemente possuem milhares de dimensões, o que torna inviável a aplicação de técnicas de visualização de dados ou reconhecimento de padrões sem uma redução dimensional. Métodos tradicionais, como o PCA (Principal Component Analysis), são amplamente utilizados para esse propósito, mas tendem a distorcer as distâncias entre os vetores durante o processo de redução. A técnica proposta neste trabalho visa minimizar essa distorção, oferecendo uma alternativa para reduzir as dimensões preservando as relações de proximidade entre os vetores no espaço reduzido. Foram realizados experimentos com comentários deixados publicamente na Google Play Store por usuários dos aplicativos analisados. Os comentários foram vetorizados pelo modelo text-embedding-3-small da OpenAI e, posteriormente, as 1536 dimensões de saída do modelo foram reduzidas para apenas duas utilizando PCA e o método proposto. Comparando os resultados dos dois algoritmos, pôde-se observar que ambos conseguiram manter uma separação clara entre comentários positivos e negativos, o que indica que preservaram bem a relação semântica original dos dados. O PCA demonstrou melhor desempenho na identificação e separação de grupos semânticos dentro dos comentários, preservando a topologia dos dados originais e facilitando a análise de clusters. Por outro lado, o método proposto mostrou-se mais eficaz na detecção de comentários anômalos, ou outliers, destacando aqueles que se distanciam significativamente dos demais e preservando as distâncias reais entre vetores no espaço reduzido. Com os experimentos realizados, foi demonstrado que tanto o PCA quanto o método proposto têm pontos positivos e negativos. Como conclusão, o método proposto é uma alternativa para a redução de dimensionalidade quando o objetivo é preservar melhor as distâncias entre os vetores, como na detecção de anomalias. No entanto, assim como o PCA, ele não é uma solução definitiva. Os dois métodos têm suas limitações e aplicabilidades específicas, a escolha entre eles deve ser guiada pelas necessidades de cada análise, reconhecendo que nenhum deles é uma solução definitiva, mas sim ferramentas complementares. |
Palabras clave: | Redução de Dimensionalidade, Descida de Gradiente, Preservaçao de Distâncias, PCA, LLM, Similaridade Semântica, Visualização de Dados Textuais, Preservação. |
Área (s) del CNPq: | CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
Idioma: | por |
País: | Brasil |
Editora: | Universidade Federal de Uberlândia |
Cita: | PINHEIRO. Gabriel de Castro Teixeira. Redução de Dimensionalidade com Descida de Gradiente: Uma Alternativa ao PCA para Preservação de Distâncias. 2024. 35 f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) – Universidade Federal de Uberlândia, Uberlândia, 2024. |
URI: | https://repositorio.ufu.br/handle/123456789/44409 |
Fecha de defensa: | 26-nov-2024 |
Aparece en las colecciones: | TCC - Ciência da Computação |
Ficheros en este ítem:
Fichero | Descripción | Tamaño | Formato | |
---|---|---|---|---|
ReducaoDimensionalidadeDescida.pdf | TCC | 8.97 MB | Adobe PDF | Visualizar/Abrir |
Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons