Please use this identifier to cite or link to this item: https://repositorio.ufu.br/handle/123456789/47477
ORCID:  http://orcid.org/0009-0003-0754-7113
Document type: Trabalho de Conclusão de Curso
Access type: Acesso Aberto
Title: Estudo de caso de um sistema de gerenciamento de banco de dados vetorial para manipulação de dados de redes sociais online
Alternate title (s): Case study of a vector database management system for handling online social network data
Author: Corsi, Ana Luísa Matias
First Advisor: Barioni, Maria Camila Nardini
First member of the Committee: Razente, Humberto Luiz
Second member of the Committee: Lima, Maria Adriana Vidigal de
Summary: O crescente volume de dados não estruturados, impulsionado por plataformas de redes sociais online, apresenta desafios para os Sistemas de Gerenciamento de Bancos de Da dos relacionais tradicionais, limitados a buscas lexicais. SGBDs vetoriais surgem como solução, porém introduzem complexidade arquitetônica. Uma alternativa é a integração de capacidades vetoriais em SGBDs existentes. Este trabalho tem como objetivo ava liar a viabilidade da extensão PGVector do PostgreSQL como solução integrada para a análise de dados não estruturados. Para isso, foi desenvolvido um estudo de caso que utiliza um conjunto de dados de tweets da plataforma X (antigo Twitter). O método de trabalho abrange o pré-processamento dos textos e a geração de representações ve toriais (embeddings) por meio do modelo “paraphrase-multilingual-MiniLM-L12-v2” da biblioteca sentence-transformers. Os embeddings gerados foram armazenados e indexados no PostgreSQL utilizando o PGVector. Subsequentemente, foi aplicado o algoritmo de clusterização K-means para a descoberta de tópicos de forma não supervisionada, com o número ideal de clusters (K) sendo determinado pelo Método do Cotovelo. Os resul tados demonstram a aplicabilidade da abordagem integrada, permitindo a execução de um pipeline completo de Machine Learning dentro do ecossistema relacional. O trabalho contribui ao apresentar um roteiro prático e validado, servindo como um recurso para futuras aplicações na área.
Abstract: The growing volume of unstructured data, driven by social media platforms, poses chal lenges for traditional relational Database Management Systems (DBMS), which are lim ited to lexical searches. Vector DBMSs emerge as a solution, yet they introduce archi tectural complexity. An alternative is the integration of vector capabilities into existing DBMSs. This work aims to evaluate the viability of the PostgreSQL extension PGVec tor as an integrated solution for the analysis of unstructured data. To this end, a case study was developed using a dataset of tweets from the X platform (formerly Twitter). The workflow covers text preprocessing and the generation of vector representations (em beddings) using the “paraphrase-multilingual-MiniLM-L12-v2” model from the sentence transformers library. The generated embeddings were stored and indexed in PostgreSQL using PGVector. Subsequently, the K-means clustering algorithm was applied for unsu pervised topic discovery, with the optimal number of clusters (K) determined by the Elbow Method. The results demonstrate the applicability of the integrated approach, enabling the execution of a complete Machine Learning pipeline within the relational ecosystem. This work contributes by presenting a practical and validated roadmap, serving as a resource for future applications in the field.
Keywords: Sistema de Gerenciamento de Banco de Dados Vetorial
PGVector
Embeddings
K-Means
Dados de Redes Sociais Online
Vector Database Management System
Online Social Media Data
Area (s) of CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::BANCO DE DADOS
Language: por
Country: Brasil
Publisher: Universidade Federal de Uberlândia
Quote: CORSI, Ana Luísa Matias. Estudo de caso de um sistema de gerenciamento de banco de dados vetorial para manipulação de dados de redes sociais online. 2025. 60 f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) – Universidade Federal de Uberlândia, Uberlândia, 2025.
URI: https://repositorio.ufu.br/handle/123456789/47477
Date of defense: 9-Oct-2025
Appears in Collections:TCC - Ciência da Computação

Files in This Item:
File Description SizeFormat 
EstudoCasoSGBD.pdfTCC5.1 MBAdobe PDFThumbnail
View/Open


This item is licensed under a Creative Commons License Creative Commons