Please use this identifier to cite or link to this item:
https://repositorio.ufu.br/handle/123456789/45108
ORCID: | ![]() |
Document type: | Dissertação |
Access type: | Acesso Aberto |
Title: | Melhoria da quantidade e qualidade de predições do Genppi via uso do Random Forest em Common Lisp para identificar similaridade proteica. |
Alternate title (s): | Enhancing protein interaction prediction in the Genppi Software: leveraging Random Forest and RIS (Reduced Interaction Sampling) Algorithms – A Novel Algorithm for Interaction Sample Selection that Preserves the Topological Information of the Network. Aprimorando a Predição de Interações Proteicas no Software Genppi: Utilizando os algoritmos Random Forest e RIS (Reduced Interaction Sampling) - um novo algoritmo para seleção de amostras de interações que preserva a informação topológica da rede. Improving the Quantity and Quality of Genppi Predictions through the Use of Random Forest in Common Lisp for Protein Similarity Identification. |
Author: | Silva, Alisson William da |
First Advisor: | Santos, Anderson Rodrigues dos |
First member of the Committee: | Campos, Sérgio Vale Aguiar |
Second member of the Committee: | Travençolo, Bruno Augusto Nassif |
Summary: | O contexto deste estudo reside na crescente necessidade de métodos computacionais eficientes para prever PPIs, dada a importância dessas interações para a compreensão da biologia celular e o desenvolvimento de novos fármacos. Métodos experimentais são dispendiosos e demorados, tornando as abordagens computacionais uma alternativa promissora. A versão original do Genppi já representava um avanço nesse campo, mas sua capacidade era limitada pela dependência de alta similaridade proteica. Este trabalho apresenta um avanço significativo no desenvolvimento do software Genppi, uma ferramenta de bioinformática dedicada à predição de redes de interação proteína-proteína (PPI) em genomas bacterianos. A versão 1.5 do Genppi incorpora o algoritmo Random Forest, implementado em Common Lisp, com o objetivo de superar as limitações da versão anterior e ampliar a precisão e a abrangência na análise de interações proteicas, especialmente em cenários de baixa similaridade sequencial. A pesquisa aborda tanto a implementação do aprendizado de máquina quanto a otimização da geração de redes através do algoritmo RIS (Reduced Interaction Sampling), desenvolvido para lidar com a complexidade computacional inerente à análise de genomas completos. A metodologia empregada foi multifacetada. Inicialmente, o algoritmo Random Forest foi integrado ao Genppi, permitindo a classificação de similaridade proteica de maneira eficiente. Em seguida, para otimizar o desempenho do software, o algoritmo RIS foi implementado para reduzir a complexidade computacional associada à geração de redes de interação a partir de perfis filogenéticos conservados com um grande número de genes. A avaliação da eficácia dessas implementações envolveu a geração de 180 redes de interação em diferentes configurações, variando o modo de operação (Features, Machine Learning), o parâmetro Top_N (definindo o número de nós mais relevantes) e o número de arquivos analisados. As redes geradas foram submetidas a uma análise rigorosa utilizando diversas métricas topológicas (Grau, Betweenness Centrality, Bridging Centrality) e testes estatísticos (Kolmogorov-Smirnov, Correlação de Kendall Tau, Índice de Fleiss) para avaliar a estabilidade, precisão e integridade estrutural das redes. Os resultados demonstraram que a integração do Random Forest, no modo Machine Learning, ampliou significativamente a capacidade do Genppi de prever interações proteicas. A aplicação do modelo ao genoma da bactéria Buchnera Aphidicola revelou uma sobreposição de até 62% com interações documentadas no banco de dados STRING, validando a precisão e completude das predições. O modo Features, que utiliza características biofísicas pré-definidas, também apresentou resultados consistentes, mantendo uma alta estabilidade estrutural mesmo com a aplicação do algoritmo RIS. A análise do algoritmo RIS revelou que, embora introduza alguma aleatoriedade, a identificação de nós críticos permanece robusta para valores de Top_N maiores ou iguais a 100, indicando que a redução do número de arestas não compromete significativamente a integridade da rede. A Média Global Ponderada (MGP) e outros indicadores confirmaram que o algoritmo preserva a estrutura global das redes, mesmo com a redução da complexidade computacional. Em conclusão, este trabalho demonstra que a combinação do algoritmo Random Forest com o algoritmo RIS representa um avanço significativo na predição de redes de interação proteica. A integração do Random Forest permitiu ao Genppi superar a limitação da dependência de alta similaridade sequencial, enquanto o algoritmo RIS otimizou o desempenho do software, permitindo a análise de genomas complexos de forma eficiente. A validação dos resultados com o banco de dados STRING e a análise estatística rigorosa confirmam a precisão e a robustez das predições geradas pelo Genppi 1.5. A disponibilização pública dos dados e códigos promove a transparência e a reprodutibilidade da pesquisa, incentivando a colaboração e o avanço da bioinformática. Este estudo contribui para o desenvolvimento de ferramentas mais eficazes para a compreensão dos processos moleculares em organismos bacterianos, com potencial para aplicações em biomedicina, biotecnologia e outras áreas científicas. O Genppi, aprimorado com essas novas funcionalidades, se consolida como uma solução robusta e escalável para a predição de interações proteína-proteína, baseada em aprendizado de máquina e características biofísicas dos genomas. |
Abstract: | The context of this study lies in the growing need for efficient computational methods to predict PPIs, given the importance of these interactions for understanding cellular biology and developing new drugs. Experimental methods are costly and time-consuming, making computational approaches a promising alternative. The original version of Genppi already represented an advancement in this field, but its capabilities were limited by its dependence on high protein sequence similarity. This work presents a significant advancement in the development of the Genppi software, a bioinformatics tool dedicated to predicting protein-protein interaction (PPI) networks in bacterial genomes. Version 1.5 of Genppi incorporates the Random Forest algorithm, implemented in Common Lisp, with the goal of overcoming the limitations of the previous version and expanding the accuracy and scope of protein interaction analysis, especially in scenarios with low sequence similarity. The research addresses both the implementation of machine learning and the optimization of network generation through the RIS algorithm (Reduced Interaction Sampling), developed to handle the computational complexity inherent in analyzing complete genomes. The methodology employed was multifaceted. Initially, the Random Forest algorithm was integrated into Genppi, enabling efficient protein similarity classification. Subsequently, to optimize software performance, the RIS algorithm was implemented to reduce the computational complexity associated with generating interaction networks from conserved phylogenetic profiles with a large number of genes. Evaluating the effectiveness of these implementations involved generating 180 interaction networks in different configurations, varying the operating mode (Features, Machine Learning), the Top_N parameter (defining the number of most relevant nodes), and the number of files analyzed. The generated networks were subjected to rigorous analysis using various topological metrics (Degree, Betweenness Centrality, Bridging Centrality) and statistical tests (Kolmogorov-Smirnov, Kendall Tau correlation, Fleiss’ Kappa) to assess the stability, accuracy, and structural integrity of the networks. The results demonstrated that the integration of Random Forest in Machine Learning mode significantly expanded Genppi’s ability to predict protein interactions. Applying the model to the genome of the bacterium Buchnera Aphidicola revealed an overlap of up to 62% with interactions documented in the STRING database, validating the accuracy and completeness of the predictions. The Features mode, which utilizes predefined biophysical characteristics, also presented consistent results, maintaining high structural stability even with the application of the RIS algorithm. Analysis of the RIS algorithm revealed that, although it introduces some randomness, the identification of critical nodes remains robust for Top_N values greater than or equal to 100, indicating that reducing the number of edges does not significantly compromise the network’s integrity. The Weighted Global Mean (MGP) and other indicators confirmed that the algorithm preserves the global structure of the networks, even with reduced computational complexity. In conclusion, this work demonstrates that the combination of the Random Forest algorithm with the RIS algorithm represents a significant advancement in the prediction of protein interaction networks. The integration of Random Forest allowed Genppi to overcome the limitation of dependence on high sequence similarity, while the RIS algorithm optimized software performance, enabling efficient analysis of complex genomes. Validation of the results with the STRING database and rigorous statistical analysis confirm the accuracy and robustness of the predictions generated by Genppi 1.5. Public availability of the data and code promotes transparency and reproducibility of the research, encouraging collaboration and advancement in bioinformatics. This study contributes to the development of more effective tools for understanding molecular processes in bacterial organisms, with potential applications in biomedicine, biotechnology, and other scientific fields. Genppi, enhanced with these new features, solidifies its position as a robust and scalable solution for predicting protein-protein interactions based on machine learning and biophysical characteristics of genomes. |
Keywords: | Genppi Biologia Computacional Florestas Randômicas Redes de Interação Proteica Bioinformática Computational Biology Random Forest Protein Interaction Networks Bioinformatics Computação |
Area (s) of CNPq: | CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
Subject: | Computação Inteligência artificial Bioinformática |
Language: | por |
Country: | Brasil |
Publisher: | Universidade Federal de Uberlândia |
Program: | Programa de Pós-graduação em Ciência da Computação |
Quote: | SILVA, Alisson William da. Melhoria da quantidade e qualidade das predições do Genppi via uso do Random Forest para identificar similaridade proteica. 2025. 144 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2025. DOI 10143/ufu.di.2025.39 |
Document identifier: | http://doi.org/10.14393/ufu.di.2025.39 |
URI: | https://repositorio.ufu.br/handle/123456789/45108 |
Date of defense: | 24-Jan-2025 |
Sustainable Development Goals SDGs: | ODS::ODS 3. Saúde e bem-estar - Assegurar uma vida saudável e promover o bem-estar para todos, em todas as idades. ODS::ODS 9. Indústria, Inovação e infraestrutura - Construir infraestrutura resiliente, promover a industrialização inclusiva e sustentável, e fomentar a inovação. |
Appears in Collections: | DISSERTAÇÃO - Ciência da Computação |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
MelhoriaQuantidadeQualidade.pdf | 6.57 MB | Adobe PDF | ![]() View/Open |
This item is licensed under a Creative Commons License