Análise comparativa de algoritmos de classificação de texto

Borges, Beatriz Ribeiro

Por favor, use este identificador para citar o enlazar este ítem: https://repositorio.ufu.br/handle/123456789/43701

ORCID:	http://orcid.org/0009-0005-2552-7938
Tipo de documento:	Trabalho de Conclusão de Curso
Tipo de acceso:	Acesso Aberto
Título:	Análise comparativa de algoritmos de classificação de texto
Título (s) alternativo (s):	Comparative analysis of text classification algorithms
Autor:	Borges, Beatriz Ribeiro
Primer orientador:	Gabriel, Paulo Henrique Ribeiro
Primer miembro de la banca:	Travençolo, Bruno Augusto Nassif
Segundo miembro de la banca:	Miani, Rodrigo Sanches
Resumen:	A mineração de texto foca na extração de informações de dados não estruturados, como textos em linguagem natural. Diferente da mineração de dados tradicionais, que trabalha com dados estruturados em tabelas, a mineração de texto lida com informações que muitas vezes não seguem um padrão definido. A classificação de texto é uma importante tarefa que visa categorizar automaticamente grandes volumes de dados textuais em classes predefinidas. Embora algoritmos clássicos como Naive Bayes e Máquinas de Vetores de Suporte (SVM) sejam amplamente usados, eles têm limitações na captura de nuances semânticas complexas, pois analisam palavras isoladamente e não consideram o contexto completo. O BERT (Bidirectional Encoder Representations from Transformers) oferece uma alternativa poderosa ao Processamento de Linguagem Natural (PLN) ao capturar o contexto das palavras bidirecionalmente, o que melhora a qualidade das representações textuais. Essa capacidade avançada fez com que o BERT se tornasse uma escolha mais interessante para diversas tarefas de PLN. Com base nisso, este trabalho compara o desempenho do BERT com algoritmos clássicos em tarefas de classificação de texto, utilizando quatro bases de dados públicas (duas em inglês e duas em português) para análise em diferentes contextos linguísticos e de complexidade com classificações binárias e multiclasses. Os resultados mostram que o BERT supera os algoritmos tradicionais em acurácia e medida F1, embora os métodos clássicos ainda se saiam bem em tarefas simples com menos dados. Além dessas métricas, é relevante considerar o custo computacional do BERT, que é significativamente maior, com tempos de treinamento prolongados e maior demanda de recursos. Portanto, a escolha entre BERT e algoritmos clássicos deve equilibrar desempenho e recursos computacionais disponíveis.
Abstract:	Text mining focuses on extracting information from unstructured data, such as natural language texts. Unlike traditional data mining, which works with structured data in tables, text mining deals with information that often does not follow a defined pattern. Text classification is an important task that aims to automatically categorize large volumes of textual data into predefined classes. Although classical algorithms such as Naive Bayes and Support Vector Machines (SVM) are widely used, they have limitations in capturing complex semantic nuances, as they analyze words in isolation and do not consider the full context. BERT (Bidirectional Encoder Representations from Transformers offers a powerful alternative to Natural Language Processing (NLP) by capturing the context of words bidirectionally, which improves the quality of textual representations. This advanced capability has made BERT a more interesting choice for several NLP tasks. Based on this, this work compares the performance of BERT with classical algorithms in text classification tasks, using four public databases (two in English and two in Portuguese) for analysis in different linguistic and complexity contexts with binary and multiclass classifications. The results show that BERT outperforms traditional algorithms in accuracy and F1 measure, although classical methods still perform well in simple tasks with less data. In addition to these metrics, it is relevant to consider the computational cost of BERT, which is significantly higher, with longer training times and greater resource demand. Therefore, the choice between BERT and classical algorithms must balance performance and available computational resources.
Palabras clave:	BERT classificação de texto text classification naive bayes SVM
Área (s) del CNPq:	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::SISTEMAS DE INFORMACAO
Idioma:	por
País:	Brasil
Editora:	Universidade Federal de Uberlândia
Cita:	BORGES, Beatriz Ribeiro. Análise comparativa de algoritmos de classificação de texto. 2024. 67 f. Trabalho de Conclusão de Curso (Graduação em Sistemas de Informação) – Universidade Federal de Uberlândia, Uberlândia, 2024.
URI:	https://repositorio.ufu.br/handle/123456789/43701
Fecha de defensa:	17-oct-2024
Aparece en las colecciones:	TCC - Sistemas de Informação (Uberlândia)

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
AnáliseComparativaAlgoritmos.pdf	TCC	1.39 MB	Adobe PDF	Visualizar/Abrir

Mostrar el registro Dublin Core completo del ítem

Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons