Use este identificador para citar ou linkar para este item:
https://repositorio.ufu.br/handle/123456789/47477| ORCID: | http://orcid.org/0009-0003-0754-7113 |
| Tipo do documento: | Trabalho de Conclusão de Curso |
| Tipo de acesso: | Acesso Aberto |
| Título: | Estudo de caso de um sistema de gerenciamento de banco de dados vetorial para manipulação de dados de redes sociais online |
| Título(s) alternativo(s): | Case study of a vector database management system for handling online social network data |
| Autor(es): | Corsi, Ana Luísa Matias |
| Primeiro orientador: | Barioni, Maria Camila Nardini |
| Primeiro membro da banca: | Razente, Humberto Luiz |
| Segundo membro da banca: | Lima, Maria Adriana Vidigal de |
| Resumo: | O crescente volume de dados não estruturados, impulsionado por plataformas de redes sociais online, apresenta desafios para os Sistemas de Gerenciamento de Bancos de Da dos relacionais tradicionais, limitados a buscas lexicais. SGBDs vetoriais surgem como solução, porém introduzem complexidade arquitetônica. Uma alternativa é a integração de capacidades vetoriais em SGBDs existentes. Este trabalho tem como objetivo ava liar a viabilidade da extensão PGVector do PostgreSQL como solução integrada para a análise de dados não estruturados. Para isso, foi desenvolvido um estudo de caso que utiliza um conjunto de dados de tweets da plataforma X (antigo Twitter). O método de trabalho abrange o pré-processamento dos textos e a geração de representações ve toriais (embeddings) por meio do modelo “paraphrase-multilingual-MiniLM-L12-v2” da biblioteca sentence-transformers. Os embeddings gerados foram armazenados e indexados no PostgreSQL utilizando o PGVector. Subsequentemente, foi aplicado o algoritmo de clusterização K-means para a descoberta de tópicos de forma não supervisionada, com o número ideal de clusters (K) sendo determinado pelo Método do Cotovelo. Os resul tados demonstram a aplicabilidade da abordagem integrada, permitindo a execução de um pipeline completo de Machine Learning dentro do ecossistema relacional. O trabalho contribui ao apresentar um roteiro prático e validado, servindo como um recurso para futuras aplicações na área. |
| Abstract: | The growing volume of unstructured data, driven by social media platforms, poses chal lenges for traditional relational Database Management Systems (DBMS), which are lim ited to lexical searches. Vector DBMSs emerge as a solution, yet they introduce archi tectural complexity. An alternative is the integration of vector capabilities into existing DBMSs. This work aims to evaluate the viability of the PostgreSQL extension PGVec tor as an integrated solution for the analysis of unstructured data. To this end, a case study was developed using a dataset of tweets from the X platform (formerly Twitter). The workflow covers text preprocessing and the generation of vector representations (em beddings) using the “paraphrase-multilingual-MiniLM-L12-v2” model from the sentence transformers library. The generated embeddings were stored and indexed in PostgreSQL using PGVector. Subsequently, the K-means clustering algorithm was applied for unsu pervised topic discovery, with the optimal number of clusters (K) determined by the Elbow Method. The results demonstrate the applicability of the integrated approach, enabling the execution of a complete Machine Learning pipeline within the relational ecosystem. This work contributes by presenting a practical and validated roadmap, serving as a resource for future applications in the field. |
| Palavras-chave: | Sistema de Gerenciamento de Banco de Dados Vetorial PGVector Embeddings K-Means Dados de Redes Sociais Online Vector Database Management System Online Social Media Data |
| Área(s) do CNPq: | CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::BANCO DE DADOS |
| Idioma: | por |
| País: | Brasil |
| Editora: | Universidade Federal de Uberlândia |
| Referência: | CORSI, Ana Luísa Matias. Estudo de caso de um sistema de gerenciamento de banco de dados vetorial para manipulação de dados de redes sociais online. 2025. 60 f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) – Universidade Federal de Uberlândia, Uberlândia, 2025. |
| URI: | https://repositorio.ufu.br/handle/123456789/47477 |
| Data de defesa: | 9-Out-2025 |
| Aparece nas coleções: | TCC - Ciência da Computação |
Arquivos associados a este item:
| Arquivo | Descrição | Tamanho | Formato | |
|---|---|---|---|---|
| EstudoCasoSGBD.pdf | TCC | 5.1 MB | Adobe PDF | ![]() Visualizar/Abrir |
Este item está licenciada sob uma Licença Creative Commons
