Please use this identifier to cite or link to this item: https://repositorio.ufu.br/handle/123456789/46635
ORCID:  http://orcid.org/0009-0002-3219-7314
Document type: Dissertação
Access type: Acesso Aberto
Title: BioJ48: adaptando o método J48 para mlassificação de dados biológicos desbalanceados
Alternate title (s): BioJ48: adapting the J48 method for classification of imbalanced biological data
Author: Villa, Thacyo Euqueres De
First Advisor: Amaral, Laurence Rodrigues do
First member of the Committee: Tavares, Marcelo
Second member of the Committee: Braga, Leticia da Conceição
Summary: Modelos de classificação baseados em árvores de decisão são amplamente utilizados em Machine Learning (ML) devido à sua alta interpretabilidade e precisão. No entanto, algoritmos tradicionais de árvores de decisão, como o J48 (uma implementação do C4.5), enfrentam desafios quando aplicados a conjuntos de dados biológicos desbalanceados, nos quais a quantidade de registros por classe varia significativamente. Esse desbalanceamento pode levar a métricas de desempenho enganosas, pois os modelos tendem a favorecer a classe majoritária, negligenciando a classe minoritária, que muitas vezes é crucial em aplicações médicas e biológicas. Este estudo propõe modificações no algoritmo J48 para melhorar sua sensibilidade e especificidade na classificação de dados biológicos desbalanceados. A pesquisa explora ajustes no cálculo de ganho de informação, visando aprimorar o desempenho do algoritmo sem comprometer sua interpretabilidade. Diversas métricas de avaliação são analisadas para garantir uma abordagem de classificação mais equilibrada. A metodologia envolve a implementação e teste do J48 modificado, chamado bioJ48, em conjuntos de dados biológicos reais com diferentes graus de desbalanceamento. Experimentos comparativos entre o J48 tradicional e o bioJ48 são conduzidos, avaliando a eficácia preditiva com base em métricas como acurácia, precisão, recall e F1-score. Os resultados esperados incluem um modelo de classificação aprimorado, capaz de identificar melhor as classes minoritárias em dados biológicos, proporcionando uma avaliação de desempenho mais confiável por meio de métricas diversificadas. As modificações propostas visam contribuir para o campo de ML, oferecendo uma solução prática para o problema do desbalanceamento de classes na análise de dados biológicos.
Abstract: Decision tree-based classification models are widely used in Machine Learning (ML) due to their high interpretability and accuracy. However, traditional decision tree algorithms, such as J48 (an implementation of C4.5), face challenges when applied to imbalanced biological datasets, where the number of records per class varies significantly. This imbalance can lead to misleading performance metrics, as models tend to favor the majority class while neglecting the minority class, which is often crucial in medical and biological applications. This study proposes modifications to the J48 algorithm to improve its sensitivity and specificity when classifying imbalanced biological data. The research explores adjustments in information gain calculation, aiming to enhance the algorithm’s performance without compromising interpretability. Various evaluation metrics are analyzed to ensure a more balanced classification approach. The research methodology involves the implementation and testing of the modified J48, named bioJ48, on real biological datasets with different degrees of class imbalance. Comparative experiments between traditional J48 and bioJ48 are conducted, evaluating their predictive effectiveness based on key performance metrics such as accuracy, precision, recall, and F1-score. The expected results include an improved classification model that better identifies minority classes in biological datasets, providing a more reliable evaluation of performance through diversified metrics. The proposed modifications aim to contribute to the field of ML by offering a practical solution to class imbalance issues in biological data analysis.
Keywords: BioJ48
J48
C4.5
Classificação
Classification
Desbalanceamento de Classes
Class Imbalance
Aprendizado de Máquina
Machine Learning
Dados Biológicos
Biological Data
Inteligência Artificial
Artificial Intelligence
Area (s) of CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Subject: Computação
Inteligência artificial
Aprendizado do computador
Algoritmos computacionais
Language: por
Country: Brasil
Publisher: Universidade Federal de Uberlândia
Program: Programa de Pós-graduação em Ciência da Computação
Quote: VILLA, Thacyo Euqueres De. Bioj48: adaptando o método J48 para classificação de dados biológicos desbalanceados. 2025. 53 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2025. DOI http://doi.org/10.14393/ufu.di.2025.5552.
Document identifier: http://doi.org/10.14393/ufu.di.2025.5552
URI: https://repositorio.ufu.br/handle/123456789/46635
Date of defense: 10-Jul-2025
Sustainable Development Goals SDGs: ODS::ODS 3. Saúde e bem-estar - Assegurar uma vida saudável e promover o bem-estar para todos, em todas as idades.
Appears in Collections:DISSERTAÇÃO - Ciência da Computação

Files in This Item:
File Description SizeFormat 
BioJ48AdaptandoMétodo.pdfDissertação ou Tese2.02 MBAdobe PDFThumbnail
View/Open


This item is licensed under a Creative Commons License Creative Commons