Please use this identifier to cite or link to this item: https://repositorio.ufu.br/handle/123456789/44409
Full metadata record
DC FieldValueLanguage
dc.creatorPinheiro, Gabriel de Castro Teixeira-
dc.date.accessioned2024-12-19T17:50:29Z-
dc.date.available2024-12-19T17:50:29Z-
dc.date.issued2024-11-26-
dc.identifier.citationPINHEIRO. Gabriel de Castro Teixeira. Redução de Dimensionalidade com Descida de Gradiente: Uma Alternativa ao PCA para Preservação de Distâncias. 2024. 35 f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) – Universidade Federal de Uberlândia, Uberlândia, 2024.pt_BR
dc.identifier.urihttps://repositorio.ufu.br/handle/123456789/44409-
dc.languageporpt_BR
dc.publisherUniversidade Federal de Uberlândiapt_BR
dc.rightsAcesso Abertopt_BR
dc.rights.urihttp://creativecommons.org/licenses/by/3.0/us/*
dc.subjectRedução de Dimensionalidade, Descida de Gradiente, Preservaçao de Distâncias, PCA, LLM, Similaridade Semântica, Visualização de Dados Textuais, Preservação.pt_BR
dc.titleRedução de Dimensionalidade com Descida de Gradiente: Uma Alternativa ao PCA para Preservação de Distânciaspt_BR
dc.title.alternativeDimensionality Reduction with Gradient Descent: An Alternative to PCA for Distance Preservationpt_BR
dc.typeTrabalho de Conclusão de Cursopt_BR
dc.contributor.advisor1Travencolo, Bruno Augusto Nassif-
dc.contributor.advisor1Latteshttps://lattes.cnpq.br/2590427557264952pt_BR
dc.contributor.referee1Fernandes, Marcia Aparecida-
dc.contributor.referee1Latteshttps://lattes.cnpq.br/8946715881289701pt_BR
dc.contributor.referee2Silva, Thiago Henrique Pereira-
dc.contributor.referee2Latteshttps://lattes.cnpq.br/3301985425227294pt_BR
dc.description.degreenameTrabalho de Conclusão de Curso (Graduação)pt_BR
dc.description.resumoEste trabalho apresenta uma abordagem para a redução de dimensionalidade, utilizando descida de gradiente para reduzir as dimensões preservando melhor as distâncias entre os vetores originais. Em muitas aplicações, como no uso de embeddings gerados por LLMs (Large Language Models), a distância entre os vetores é uma métrica fundamental para representar a similaridade semântica entre os textos vetorizados. No entanto, esses vetores frequentemente possuem milhares de dimensões, o que torna inviável a aplicação de técnicas de visualização de dados ou reconhecimento de padrões sem uma redução dimensional. Métodos tradicionais, como o PCA (Principal Component Analysis), são amplamente utilizados para esse propósito, mas tendem a distorcer as distâncias entre os vetores durante o processo de redução. A técnica proposta neste trabalho visa minimizar essa distorção, oferecendo uma alternativa para reduzir as dimensões preservando as relações de proximidade entre os vetores no espaço reduzido. Foram realizados experimentos com comentários deixados publicamente na Google Play Store por usuários dos aplicativos analisados. Os comentários foram vetorizados pelo modelo text-embedding-3-small da OpenAI e, posteriormente, as 1536 dimensões de saída do modelo foram reduzidas para apenas duas utilizando PCA e o método proposto. Comparando os resultados dos dois algoritmos, pôde-se observar que ambos conseguiram manter uma separação clara entre comentários positivos e negativos, o que indica que preservaram bem a relação semântica original dos dados. O PCA demonstrou melhor desempenho na identificação e separação de grupos semânticos dentro dos comentários, preservando a topologia dos dados originais e facilitando a análise de clusters. Por outro lado, o método proposto mostrou-se mais eficaz na detecção de comentários anômalos, ou outliers, destacando aqueles que se distanciam significativamente dos demais e preservando as distâncias reais entre vetores no espaço reduzido. Com os experimentos realizados, foi demonstrado que tanto o PCA quanto o método proposto têm pontos positivos e negativos. Como conclusão, o método proposto é uma alternativa para a redução de dimensionalidade quando o objetivo é preservar melhor as distâncias entre os vetores, como na detecção de anomalias. No entanto, assim como o PCA, ele não é uma solução definitiva. Os dois métodos têm suas limitações e aplicabilidades específicas, a escolha entre eles deve ser guiada pelas necessidades de cada análise, reconhecendo que nenhum deles é uma solução definitiva, mas sim ferramentas complementares.pt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.courseCiência da Computaçãopt_BR
dc.sizeorduration35pt_BR
dc.subject.cnpqCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOpt_BR
dc.orcid.putcode174173198-
Appears in Collections:TCC - Ciência da Computação

Files in This Item:
File Description SizeFormat 
ReducaoDimensionalidadeDescida.pdfTCC8.97 MBAdobe PDFThumbnail
View/Open


This item is licensed under a Creative Commons License Creative Commons