Please use this identifier to cite or link to this item: https://repositorio.ufu.br/handle/123456789/43701
ORCID:  http://orcid.org/0009-0005-2552-7938
Document type: Trabalho de Conclusão de Curso
Access type: Acesso Aberto
Title: Análise comparativa de algoritmos de classificação de texto
Alternate title (s): Comparative analysis of text classification algorithms
Author: Borges, Beatriz Ribeiro
First Advisor: Gabriel, Paulo Henrique Ribeiro
First member of the Committee: Travençolo, Bruno Augusto Nassif
Second member of the Committee: Miani, Rodrigo Sanches
Summary: A mineração de texto foca na extração de informações de dados não estruturados, como textos em linguagem natural. Diferente da mineração de dados tradicionais, que trabalha com dados estruturados em tabelas, a mineração de texto lida com informações que muitas vezes não seguem um padrão definido. A classificação de texto é uma importante tarefa que visa categorizar automaticamente grandes volumes de dados textuais em classes predefinidas. Embora algoritmos clássicos como Naive Bayes e Máquinas de Vetores de Suporte (SVM) sejam amplamente usados, eles têm limitações na captura de nuances semânticas complexas, pois analisam palavras isoladamente e não consideram o contexto completo. O BERT (Bidirectional Encoder Representations from Transformers) oferece uma alternativa poderosa ao Processamento de Linguagem Natural (PLN) ao capturar o contexto das palavras bidirecionalmente, o que melhora a qualidade das representações textuais. Essa capacidade avançada fez com que o BERT se tornasse uma escolha mais interessante para diversas tarefas de PLN. Com base nisso, este trabalho compara o desempenho do BERT com algoritmos clássicos em tarefas de classificação de texto, utilizando quatro bases de dados públicas (duas em inglês e duas em português) para análise em diferentes contextos linguísticos e de complexidade com classificações binárias e multiclasses. Os resultados mostram que o BERT supera os algoritmos tradicionais em acurácia e medida F1, embora os métodos clássicos ainda se saiam bem em tarefas simples com menos dados. Além dessas métricas, é relevante considerar o custo computacional do BERT, que é significativamente maior, com tempos de treinamento prolongados e maior demanda de recursos. Portanto, a escolha entre BERT e algoritmos clássicos deve equilibrar desempenho e recursos computacionais disponíveis.
Abstract: Text mining focuses on extracting information from unstructured data, such as natural language texts. Unlike traditional data mining, which works with structured data in tables, text mining deals with information that often does not follow a defined pattern. Text classification is an important task that aims to automatically categorize large volumes of textual data into predefined classes. Although classical algorithms such as Naive Bayes and Support Vector Machines (SVM) are widely used, they have limitations in capturing complex semantic nuances, as they analyze words in isolation and do not consider the full context. BERT (Bidirectional Encoder Representations from Transformers offers a powerful alternative to Natural Language Processing (NLP) by capturing the context of words bidirectionally, which improves the quality of textual representations. This advanced capability has made BERT a more interesting choice for several NLP tasks. Based on this, this work compares the performance of BERT with classical algorithms in text classification tasks, using four public databases (two in English and two in Portuguese) for analysis in different linguistic and complexity contexts with binary and multiclass classifications. The results show that BERT outperforms traditional algorithms in accuracy and F1 measure, although classical methods still perform well in simple tasks with less data. In addition to these metrics, it is relevant to consider the computational cost of BERT, which is significantly higher, with longer training times and greater resource demand. Therefore, the choice between BERT and classical algorithms must balance performance and available computational resources.
Keywords: BERT
classificação de texto
text classification
naive bayes
SVM
Area (s) of CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::SISTEMAS DE INFORMACAO
Language: por
Country: Brasil
Publisher: Universidade Federal de Uberlândia
Quote: BORGES, Beatriz Ribeiro. Análise comparativa de algoritmos de classificação de texto. 2024. 67 f. Trabalho de Conclusão de Curso (Graduação em Sistemas de Informação) – Universidade Federal de Uberlândia, Uberlândia, 2024.
URI: https://repositorio.ufu.br/handle/123456789/43701
Date of defense: 17-Oct-2024
Appears in Collections:TCC - Sistemas de Informação (Uberlândia)

Files in This Item:
File Description SizeFormat 
AnáliseComparativaAlgoritmos.pdfTCC1.39 MBAdobe PDFThumbnail
View/Open


This item is licensed under a Creative Commons License Creative Commons