Use este identificador para citar ou linkar para este item: https://repositorio.ufu.br/handle/123456789/46635
ORCID:  http://orcid.org/0009-0002-3219-7314
Tipo do documento: Dissertação
Tipo de acesso: Acesso Aberto
Título: BioJ48: adaptando o método J48 para mlassificação de dados biológicos desbalanceados
Título(s) alternativo(s): BioJ48: adapting the J48 method for classification of imbalanced biological data
Autor(es): Villa, Thacyo Euqueres De
Primeiro orientador: Amaral, Laurence Rodrigues do
Primeiro membro da banca: Tavares, Marcelo
Segundo membro da banca: Braga, Leticia da Conceição
Resumo: Modelos de classificação baseados em árvores de decisão são amplamente utilizados em Machine Learning (ML) devido à sua alta interpretabilidade e precisão. No entanto, algoritmos tradicionais de árvores de decisão, como o J48 (uma implementação do C4.5), enfrentam desafios quando aplicados a conjuntos de dados biológicos desbalanceados, nos quais a quantidade de registros por classe varia significativamente. Esse desbalanceamento pode levar a métricas de desempenho enganosas, pois os modelos tendem a favorecer a classe majoritária, negligenciando a classe minoritária, que muitas vezes é crucial em aplicações médicas e biológicas. Este estudo propõe modificações no algoritmo J48 para melhorar sua sensibilidade e especificidade na classificação de dados biológicos desbalanceados. A pesquisa explora ajustes no cálculo de ganho de informação, visando aprimorar o desempenho do algoritmo sem comprometer sua interpretabilidade. Diversas métricas de avaliação são analisadas para garantir uma abordagem de classificação mais equilibrada. A metodologia envolve a implementação e teste do J48 modificado, chamado bioJ48, em conjuntos de dados biológicos reais com diferentes graus de desbalanceamento. Experimentos comparativos entre o J48 tradicional e o bioJ48 são conduzidos, avaliando a eficácia preditiva com base em métricas como acurácia, precisão, recall e F1-score. Os resultados esperados incluem um modelo de classificação aprimorado, capaz de identificar melhor as classes minoritárias em dados biológicos, proporcionando uma avaliação de desempenho mais confiável por meio de métricas diversificadas. As modificações propostas visam contribuir para o campo de ML, oferecendo uma solução prática para o problema do desbalanceamento de classes na análise de dados biológicos.
Abstract: Decision tree-based classification models are widely used in Machine Learning (ML) due to their high interpretability and accuracy. However, traditional decision tree algorithms, such as J48 (an implementation of C4.5), face challenges when applied to imbalanced biological datasets, where the number of records per class varies significantly. This imbalance can lead to misleading performance metrics, as models tend to favor the majority class while neglecting the minority class, which is often crucial in medical and biological applications. This study proposes modifications to the J48 algorithm to improve its sensitivity and specificity when classifying imbalanced biological data. The research explores adjustments in information gain calculation, aiming to enhance the algorithm’s performance without compromising interpretability. Various evaluation metrics are analyzed to ensure a more balanced classification approach. The research methodology involves the implementation and testing of the modified J48, named bioJ48, on real biological datasets with different degrees of class imbalance. Comparative experiments between traditional J48 and bioJ48 are conducted, evaluating their predictive effectiveness based on key performance metrics such as accuracy, precision, recall, and F1-score. The expected results include an improved classification model that better identifies minority classes in biological datasets, providing a more reliable evaluation of performance through diversified metrics. The proposed modifications aim to contribute to the field of ML by offering a practical solution to class imbalance issues in biological data analysis.
Palavras-chave: BioJ48
J48
C4.5
Classificação
Classification
Desbalanceamento de Classes
Class Imbalance
Aprendizado de Máquina
Machine Learning
Dados Biológicos
Biological Data
Inteligência Artificial
Artificial Intelligence
Área(s) do CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Assunto: Computação
Inteligência artificial
Aprendizado do computador
Algoritmos computacionais
Idioma: por
País: Brasil
Editora: Universidade Federal de Uberlândia
Programa: Programa de Pós-graduação em Ciência da Computação
Referência: VILLA, Thacyo Euqueres De. Bioj48: adaptando o método J48 para classificação de dados biológicos desbalanceados. 2025. 53 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2025. DOI http://doi.org/10.14393/ufu.di.2025.5552.
Identificador do documento: http://doi.org/10.14393/ufu.di.2025.5552
URI: https://repositorio.ufu.br/handle/123456789/46635
Data de defesa: 10-Jul-2025
Objetivos de Desenvolvimento Sustentável (ODS): ODS::ODS 3. Saúde e bem-estar - Assegurar uma vida saudável e promover o bem-estar para todos, em todas as idades.
Aparece nas coleções:DISSERTAÇÃO - Ciência da Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
BioJ48AdaptandoMétodo.pdfDissertação ou Tese2.02 MBAdobe PDFThumbnail
Visualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons