Please use this identifier to cite or link to this item:
https://repositorio.ufu.br/handle/123456789/46635| ORCID: | http://orcid.org/0009-0002-3219-7314 |
| Document type: | Dissertação |
| Access type: | Acesso Aberto |
| Title: | BioJ48: adaptando o método J48 para mlassificação de dados biológicos desbalanceados |
| Alternate title (s): | BioJ48: adapting the J48 method for classification of imbalanced biological data |
| Author: | Villa, Thacyo Euqueres De |
| First Advisor: | Amaral, Laurence Rodrigues do |
| First member of the Committee: | Tavares, Marcelo |
| Second member of the Committee: | Braga, Leticia da Conceição |
| Summary: | Modelos de classificação baseados em árvores de decisão são amplamente utilizados em Machine Learning (ML) devido à sua alta interpretabilidade e precisão. No entanto, algoritmos tradicionais de árvores de decisão, como o J48 (uma implementação do C4.5), enfrentam desafios quando aplicados a conjuntos de dados biológicos desbalanceados, nos quais a quantidade de registros por classe varia significativamente. Esse desbalanceamento pode levar a métricas de desempenho enganosas, pois os modelos tendem a favorecer a classe majoritária, negligenciando a classe minoritária, que muitas vezes é crucial em aplicações médicas e biológicas. Este estudo propõe modificações no algoritmo J48 para melhorar sua sensibilidade e especificidade na classificação de dados biológicos desbalanceados. A pesquisa explora ajustes no cálculo de ganho de informação, visando aprimorar o desempenho do algoritmo sem comprometer sua interpretabilidade. Diversas métricas de avaliação são analisadas para garantir uma abordagem de classificação mais equilibrada. A metodologia envolve a implementação e teste do J48 modificado, chamado bioJ48, em conjuntos de dados biológicos reais com diferentes graus de desbalanceamento. Experimentos comparativos entre o J48 tradicional e o bioJ48 são conduzidos, avaliando a eficácia preditiva com base em métricas como acurácia, precisão, recall e F1-score. Os resultados esperados incluem um modelo de classificação aprimorado, capaz de identificar melhor as classes minoritárias em dados biológicos, proporcionando uma avaliação de desempenho mais confiável por meio de métricas diversificadas. As modificações propostas visam contribuir para o campo de ML, oferecendo uma solução prática para o problema do desbalanceamento de classes na análise de dados biológicos. |
| Abstract: | Decision tree-based classification models are widely used in Machine Learning (ML) due to their high interpretability and accuracy. However, traditional decision tree algorithms, such as J48 (an implementation of C4.5), face challenges when applied to imbalanced biological datasets, where the number of records per class varies significantly. This imbalance can lead to misleading performance metrics, as models tend to favor the majority class while neglecting the minority class, which is often crucial in medical and biological applications. This study proposes modifications to the J48 algorithm to improve its sensitivity and specificity when classifying imbalanced biological data. The research explores adjustments in information gain calculation, aiming to enhance the algorithm’s performance without compromising interpretability. Various evaluation metrics are analyzed to ensure a more balanced classification approach. The research methodology involves the implementation and testing of the modified J48, named bioJ48, on real biological datasets with different degrees of class imbalance. Comparative experiments between traditional J48 and bioJ48 are conducted, evaluating their predictive effectiveness based on key performance metrics such as accuracy, precision, recall, and F1-score. The expected results include an improved classification model that better identifies minority classes in biological datasets, providing a more reliable evaluation of performance through diversified metrics. The proposed modifications aim to contribute to the field of ML by offering a practical solution to class imbalance issues in biological data analysis. |
| Keywords: | BioJ48 J48 C4.5 Classificação Classification Desbalanceamento de Classes Class Imbalance Aprendizado de Máquina Machine Learning Dados Biológicos Biological Data Inteligência Artificial Artificial Intelligence |
| Area (s) of CNPq: | CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| Subject: | Computação Inteligência artificial Aprendizado do computador Algoritmos computacionais |
| Language: | por |
| Country: | Brasil |
| Publisher: | Universidade Federal de Uberlândia |
| Program: | Programa de Pós-graduação em Ciência da Computação |
| Quote: | VILLA, Thacyo Euqueres De. Bioj48: adaptando o método J48 para classificação de dados biológicos desbalanceados. 2025. 53 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2025. DOI http://doi.org/10.14393/ufu.di.2025.5552. |
| Document identifier: | http://doi.org/10.14393/ufu.di.2025.5552 |
| URI: | https://repositorio.ufu.br/handle/123456789/46635 |
| Date of defense: | 10-Jul-2025 |
| Sustainable Development Goals SDGs: | ODS::ODS 3. Saúde e bem-estar - Assegurar uma vida saudável e promover o bem-estar para todos, em todas as idades. |
| Appears in Collections: | DISSERTAÇÃO - Ciência da Computação |
Files in This Item:
| File | Description | Size | Format | |
|---|---|---|---|---|
| BioJ48AdaptandoMétodo.pdf | Dissertação ou Tese | 2.02 MB | Adobe PDF | ![]() View/Open |
This item is licensed under a Creative Commons License
