Análise comparativa de algoritmos de classificação de texto

Borges, Beatriz Ribeiro

Please use this identifier to cite or link to this item: https://repositorio.ufu.br/handle/123456789/43701

Full metadata record

DC Field	Value	Language
dc.creator	Borges, Beatriz Ribeiro	-
dc.date.accessioned	2024-10-22T12:40:45Z	-
dc.date.available	2024-10-22T12:40:45Z	-
dc.date.issued	2024-10-17	-
dc.identifier.citation	BORGES, Beatriz Ribeiro. Análise comparativa de algoritmos de classificação de texto. 2024. 67 f. Trabalho de Conclusão de Curso (Graduação em Sistemas de Informação) – Universidade Federal de Uberlândia, Uberlândia, 2024.	pt_BR
dc.identifier.uri	https://repositorio.ufu.br/handle/123456789/43701	-
dc.description.abstract	Text mining focuses on extracting information from unstructured data, such as natural language texts. Unlike traditional data mining, which works with structured data in tables, text mining deals with information that often does not follow a defined pattern. Text classification is an important task that aims to automatically categorize large volumes of textual data into predefined classes. Although classical algorithms such as Naive Bayes and Support Vector Machines (SVM) are widely used, they have limitations in capturing complex semantic nuances, as they analyze words in isolation and do not consider the full context. BERT (Bidirectional Encoder Representations from Transformers offers a powerful alternative to Natural Language Processing (NLP) by capturing the context of words bidirectionally, which improves the quality of textual representations. This advanced capability has made BERT a more interesting choice for several NLP tasks. Based on this, this work compares the performance of BERT with classical algorithms in text classification tasks, using four public databases (two in English and two in Portuguese) for analysis in different linguistic and complexity contexts with binary and multiclass classifications. The results show that BERT outperforms traditional algorithms in accuracy and F1 measure, although classical methods still perform well in simple tasks with less data. In addition to these metrics, it is relevant to consider the computational cost of BERT, which is significantly higher, with longer training times and greater resource demand. Therefore, the choice between BERT and classical algorithms must balance performance and available computational resources.	pt_BR
dc.language	por	pt_BR
dc.publisher	Universidade Federal de Uberlândia	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/us/	*
dc.subject	BERT	pt_BR
dc.subject	classificação de texto	pt_BR
dc.subject	text classification	pt_BR
dc.subject	naive bayes	pt_BR
dc.subject	SVM	pt_BR
dc.title	Análise comparativa de algoritmos de classificação de texto	pt_BR
dc.title.alternative	Comparative analysis of text classification algorithms	pt_BR
dc.type	Trabalho de Conclusão de Curso	pt_BR
dc.contributor.advisor1	Gabriel, Paulo Henrique Ribeiro	-
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/3181954061121790	pt_BR
dc.contributor.referee1	Travençolo, Bruno Augusto Nassif	-
dc.contributor.referee1Lattes	http://lattes.cnpq.br/2590427557264952	pt_BR
dc.contributor.referee2	Miani, Rodrigo Sanches	-
dc.contributor.referee2Lattes	http://lattes.cnpq.br/2992074747740327	pt_BR
dc.creator.Lattes	http://lattes.cnpq.br/4183941256471858	pt_BR
dc.description.degreename	Trabalho de Conclusão de Curso (Graduação)	pt_BR
dc.description.resumo	A mineração de texto foca na extração de informações de dados não estruturados, como textos em linguagem natural. Diferente da mineração de dados tradicionais, que trabalha com dados estruturados em tabelas, a mineração de texto lida com informações que muitas vezes não seguem um padrão definido. A classificação de texto é uma importante tarefa que visa categorizar automaticamente grandes volumes de dados textuais em classes predefinidas. Embora algoritmos clássicos como Naive Bayes e Máquinas de Vetores de Suporte (SVM) sejam amplamente usados, eles têm limitações na captura de nuances semânticas complexas, pois analisam palavras isoladamente e não consideram o contexto completo. O BERT (Bidirectional Encoder Representations from Transformers) oferece uma alternativa poderosa ao Processamento de Linguagem Natural (PLN) ao capturar o contexto das palavras bidirecionalmente, o que melhora a qualidade das representações textuais. Essa capacidade avançada fez com que o BERT se tornasse uma escolha mais interessante para diversas tarefas de PLN. Com base nisso, este trabalho compara o desempenho do BERT com algoritmos clássicos em tarefas de classificação de texto, utilizando quatro bases de dados públicas (duas em inglês e duas em português) para análise em diferentes contextos linguísticos e de complexidade com classificações binárias e multiclasses. Os resultados mostram que o BERT supera os algoritmos tradicionais em acurácia e medida F1, embora os métodos clássicos ainda se saiam bem em tarefas simples com menos dados. Além dessas métricas, é relevante considerar o custo computacional do BERT, que é significativamente maior, com tempos de treinamento prolongados e maior demanda de recursos. Portanto, a escolha entre BERT e algoritmos clássicos deve equilibrar desempenho e recursos computacionais disponíveis.	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.course	Sistemas de Informação	pt_BR
dc.sizeorduration	67	pt_BR
dc.subject.cnpq	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::SISTEMAS DE INFORMACAO	pt_BR
dc.orcid.putcode	170128382	-
Appears in Collections:	TCC - Sistemas de Informação (Uberlândia)

Files in This Item:

File	Description	Size	Format
AnáliseComparativaAlgoritmos.pdf	TCC	1.39 MB	Adobe PDF	View/Open

Show simple item record

This item is licensed under a Creative Commons License