Please use this identifier to cite or link to this item: https://repositorio.ufu.br/handle/123456789/47477
Full metadata record
DC FieldValueLanguage
dc.creatorCorsi, Ana Luísa Matias-
dc.date.accessioned2025-10-20T18:21:33Z-
dc.date.available2025-10-20T18:21:33Z-
dc.date.issued2025-10-09-
dc.identifier.citationCORSI, Ana Luísa Matias. Estudo de caso de um sistema de gerenciamento de banco de dados vetorial para manipulação de dados de redes sociais online. 2025. 60 f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) – Universidade Federal de Uberlândia, Uberlândia, 2025.pt_BR
dc.identifier.urihttps://repositorio.ufu.br/handle/123456789/47477-
dc.description.abstractThe growing volume of unstructured data, driven by social media platforms, poses chal lenges for traditional relational Database Management Systems (DBMS), which are lim ited to lexical searches. Vector DBMSs emerge as a solution, yet they introduce archi tectural complexity. An alternative is the integration of vector capabilities into existing DBMSs. This work aims to evaluate the viability of the PostgreSQL extension PGVec tor as an integrated solution for the analysis of unstructured data. To this end, a case study was developed using a dataset of tweets from the X platform (formerly Twitter). The workflow covers text preprocessing and the generation of vector representations (em beddings) using the “paraphrase-multilingual-MiniLM-L12-v2” model from the sentence transformers library. The generated embeddings were stored and indexed in PostgreSQL using PGVector. Subsequently, the K-means clustering algorithm was applied for unsu pervised topic discovery, with the optimal number of clusters (K) determined by the Elbow Method. The results demonstrate the applicability of the integrated approach, enabling the execution of a complete Machine Learning pipeline within the relational ecosystem. This work contributes by presenting a practical and validated roadmap, serving as a resource for future applications in the field.pt_BR
dc.description.sponsorshipPesquisa sem auxílio de agências de fomentopt_BR
dc.languageporpt_BR
dc.publisherUniversidade Federal de Uberlândiapt_BR
dc.rightsAcesso Abertopt_BR
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/us/*
dc.subjectSistema de Gerenciamento de Banco de Dados Vetorialpt_BR
dc.subjectPGVectorpt_BR
dc.subjectEmbeddingspt_BR
dc.subjectK-Meanspt_BR
dc.subjectDados de Redes Sociais Onlinept_BR
dc.subjectVector Database Management Systempt_BR
dc.subjectOnline Social Media Datapt_BR
dc.titleEstudo de caso de um sistema de gerenciamento de banco de dados vetorial para manipulação de dados de redes sociais onlinept_BR
dc.title.alternativeCase study of a vector database management system for handling online social network datapt_BR
dc.typeTrabalho de Conclusão de Cursopt_BR
dc.contributor.advisor1Barioni, Maria Camila Nardini-
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/3785426518998830pt_BR
dc.contributor.referee1Razente, Humberto Luiz-
dc.contributor.referee1Latteshttp://lattes.cnpq.br/4700164571979002pt_BR
dc.contributor.referee2Lima, Maria Adriana Vidigal de-
dc.contributor.referee2Latteshttp://lattes.cnpq.br/0532686872124118pt_BR
dc.description.degreenameTrabalho de Conclusão de Curso (Graduação)pt_BR
dc.description.resumoO crescente volume de dados não estruturados, impulsionado por plataformas de redes sociais online, apresenta desafios para os Sistemas de Gerenciamento de Bancos de Da dos relacionais tradicionais, limitados a buscas lexicais. SGBDs vetoriais surgem como solução, porém introduzem complexidade arquitetônica. Uma alternativa é a integração de capacidades vetoriais em SGBDs existentes. Este trabalho tem como objetivo ava liar a viabilidade da extensão PGVector do PostgreSQL como solução integrada para a análise de dados não estruturados. Para isso, foi desenvolvido um estudo de caso que utiliza um conjunto de dados de tweets da plataforma X (antigo Twitter). O método de trabalho abrange o pré-processamento dos textos e a geração de representações ve toriais (embeddings) por meio do modelo “paraphrase-multilingual-MiniLM-L12-v2” da biblioteca sentence-transformers. Os embeddings gerados foram armazenados e indexados no PostgreSQL utilizando o PGVector. Subsequentemente, foi aplicado o algoritmo de clusterização K-means para a descoberta de tópicos de forma não supervisionada, com o número ideal de clusters (K) sendo determinado pelo Método do Cotovelo. Os resul tados demonstram a aplicabilidade da abordagem integrada, permitindo a execução de um pipeline completo de Machine Learning dentro do ecossistema relacional. O trabalho contribui ao apresentar um roteiro prático e validado, servindo como um recurso para futuras aplicações na área.pt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.courseCiência da Computaçãopt_BR
dc.sizeorduration60pt_BR
dc.subject.cnpqCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::BANCO DE DADOSpt_BR
dc.orcid.putcode194750786-
Appears in Collections:TCC - Ciência da Computação

Files in This Item:
File Description SizeFormat 
EstudoCasoSGBD.pdfTCC5.1 MBAdobe PDFThumbnail
View/Open


This item is licensed under a Creative Commons License Creative Commons