Please use this identifier to cite or link to this item: https://repositorio.ufu.br/handle/123456789/43701
Full metadata record
DC FieldValueLanguage
dc.creatorBorges, Beatriz Ribeiro-
dc.date.accessioned2024-10-22T12:40:45Z-
dc.date.available2024-10-22T12:40:45Z-
dc.date.issued2024-10-17-
dc.identifier.citationBORGES, Beatriz Ribeiro. Análise comparativa de algoritmos de classificação de texto. 2024. 67 f. Trabalho de Conclusão de Curso (Graduação em Sistemas de Informação) – Universidade Federal de Uberlândia, Uberlândia, 2024.pt_BR
dc.identifier.urihttps://repositorio.ufu.br/handle/123456789/43701-
dc.description.abstractText mining focuses on extracting information from unstructured data, such as natural language texts. Unlike traditional data mining, which works with structured data in tables, text mining deals with information that often does not follow a defined pattern. Text classification is an important task that aims to automatically categorize large volumes of textual data into predefined classes. Although classical algorithms such as Naive Bayes and Support Vector Machines (SVM) are widely used, they have limitations in capturing complex semantic nuances, as they analyze words in isolation and do not consider the full context. BERT (Bidirectional Encoder Representations from Transformers offers a powerful alternative to Natural Language Processing (NLP) by capturing the context of words bidirectionally, which improves the quality of textual representations. This advanced capability has made BERT a more interesting choice for several NLP tasks. Based on this, this work compares the performance of BERT with classical algorithms in text classification tasks, using four public databases (two in English and two in Portuguese) for analysis in different linguistic and complexity contexts with binary and multiclass classifications. The results show that BERT outperforms traditional algorithms in accuracy and F1 measure, although classical methods still perform well in simple tasks with less data. In addition to these metrics, it is relevant to consider the computational cost of BERT, which is significantly higher, with longer training times and greater resource demand. Therefore, the choice between BERT and classical algorithms must balance performance and available computational resources.pt_BR
dc.languageporpt_BR
dc.publisherUniversidade Federal de Uberlândiapt_BR
dc.rightsAcesso Abertopt_BR
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/us/*
dc.subjectBERTpt_BR
dc.subjectclassificação de textopt_BR
dc.subjecttext classificationpt_BR
dc.subjectnaive bayespt_BR
dc.subjectSVMpt_BR
dc.titleAnálise comparativa de algoritmos de classificação de textopt_BR
dc.title.alternativeComparative analysis of text classification algorithmspt_BR
dc.typeTrabalho de Conclusão de Cursopt_BR
dc.contributor.advisor1Gabriel, Paulo Henrique Ribeiro-
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/3181954061121790pt_BR
dc.contributor.referee1Travençolo, Bruno Augusto Nassif-
dc.contributor.referee1Latteshttp://lattes.cnpq.br/2590427557264952pt_BR
dc.contributor.referee2Miani, Rodrigo Sanches-
dc.contributor.referee2Latteshttp://lattes.cnpq.br/2992074747740327pt_BR
dc.creator.Latteshttp://lattes.cnpq.br/4183941256471858pt_BR
dc.description.degreenameTrabalho de Conclusão de Curso (Graduação)pt_BR
dc.description.resumoA mineração de texto foca na extração de informações de dados não estruturados, como textos em linguagem natural. Diferente da mineração de dados tradicionais, que trabalha com dados estruturados em tabelas, a mineração de texto lida com informações que muitas vezes não seguem um padrão definido. A classificação de texto é uma importante tarefa que visa categorizar automaticamente grandes volumes de dados textuais em classes predefinidas. Embora algoritmos clássicos como Naive Bayes e Máquinas de Vetores de Suporte (SVM) sejam amplamente usados, eles têm limitações na captura de nuances semânticas complexas, pois analisam palavras isoladamente e não consideram o contexto completo. O BERT (Bidirectional Encoder Representations from Transformers) oferece uma alternativa poderosa ao Processamento de Linguagem Natural (PLN) ao capturar o contexto das palavras bidirecionalmente, o que melhora a qualidade das representações textuais. Essa capacidade avançada fez com que o BERT se tornasse uma escolha mais interessante para diversas tarefas de PLN. Com base nisso, este trabalho compara o desempenho do BERT com algoritmos clássicos em tarefas de classificação de texto, utilizando quatro bases de dados públicas (duas em inglês e duas em português) para análise em diferentes contextos linguísticos e de complexidade com classificações binárias e multiclasses. Os resultados mostram que o BERT supera os algoritmos tradicionais em acurácia e medida F1, embora os métodos clássicos ainda se saiam bem em tarefas simples com menos dados. Além dessas métricas, é relevante considerar o custo computacional do BERT, que é significativamente maior, com tempos de treinamento prolongados e maior demanda de recursos. Portanto, a escolha entre BERT e algoritmos clássicos deve equilibrar desempenho e recursos computacionais disponíveis.pt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.courseSistemas de Informaçãopt_BR
dc.sizeorduration67pt_BR
dc.subject.cnpqCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::SISTEMAS DE INFORMACAOpt_BR
dc.orcid.putcode170128382-
Appears in Collections:TCC - Sistemas de Informação (Uberlândia)

Files in This Item:
File Description SizeFormat 
AnáliseComparativaAlgoritmos.pdfTCC1.39 MBAdobe PDFThumbnail
View/Open


This item is licensed under a Creative Commons License Creative Commons