Classificação de proteínas expostas na superficie com Random Forest

Moreira, Amanda Silva

Please use this identifier to cite or link to this item: https://repositorio.ufu.br/handle/123456789/36327

Full metadata record

DC Field	Value	Language
dc.creator	Moreira, Amanda Silva	-
dc.date.accessioned	2022-10-25T14:29:12Z	-
dc.date.available	2022-10-25T14:29:12Z	-
dc.date.issued	2022-08-19	-
dc.identifier.citation	MOREIRA, Amanda Silva. Classificação de proteínas expostas na superfície com Random Forest. 2022. 53 f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) – Universidade Federal de Uberlândia, Uberlândia, Uberlândia, 2022.	pt_BR
dc.identifier.uri	https://repositorio.ufu.br/handle/123456789/36327	-
dc.description.abstract	One of the leading causes of disease and death worldwide is bacterial infections. For example, we can mention tuberculosis, caused by the bacterium Mycobacterium tuberculosis, which still kills one and a half million people worldwide yearly, according to recent data from the World Health Organization. Vaccination is the best strategy to combat these infections. However, developing vaccines for pathogens have obstacles, such as identifying target proteins. For Mycobacterium tuberculosis alone, there are more than 4,000 proteins that are candidates for targets for building a vaccine. An alternative is the use of genomic information in the search for proteins that are good candidates. This work aimed to test popular Machine Learning algorithms, implemented in WEKA software, to classify surface exposed proteins, using the hydrophobic pattern in the amino acid sequence of 40 genomes causing severe human diseases. The random forests had a 72.83% accuracy, performing as well as the Support Vector Machine and Multilayer Perceptron algorithms, reaching of 70 and 65% accuracy, respectively. The results show the satisfactory performance of the algorithms used to classify proteins exposed on the surface, especially considering the difficulty in identifying them.	pt_BR
dc.description.sponsorship	UFU - Universidade Federal de Uberlândia	pt_BR
dc.language	por	pt_BR
dc.publisher	Universidade Federal de Uberlândia	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.rights.uri	http://creativecommons.org/licenses/by/3.0/us/	*
dc.subject	Aprendizado de máquina	pt_BR
dc.subject	Random Forest	pt_BR
dc.subject	Proteínas bacterianas expostas	pt_BR
dc.subject	PSE	pt_BR
dc.subject	WEKA	pt_BR
dc.subject	Vacinas	pt_BR
dc.title	Classificação de proteínas expostas na superficie com Random Forest	pt_BR
dc.type	Trabalho de Conclusão de Curso	pt_BR
dc.contributor.advisor1	Santos, Anderson Rodrigues dos	-
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/3752226356973936	pt_BR
dc.contributor.referee1	Soares, Alexsandro Santos	-
dc.contributor.referee1Lattes	http://lattes.cnpq.br/8559724221713699	pt_BR
dc.contributor.referee2	Gabriel, Paulo Henrique Ribeiro	-
dc.contributor.referee2Lattes	http://lattes.cnpq.br/3181954061121790	pt_BR
dc.creator.Lattes	https://lattes.cnpq.br/7215743701674734	pt_BR
dc.description.degreename	Trabalho de Conclusão de Curso (Graduação)	pt_BR
dc.description.resumo	Uma das principais causas de doenças e mortes no mundo são infecções bacterianas. A título de exemplo, podemos citar a tuberculose, causada pela bactéria Mycobacterium tuberculosis, que ainda mata um milhão e meio de pessoas no mundo, por ano, de acordo com dados recentes da Organização Mundial da Saúde. A vacinação é a melhor estratégia no combate à estas infecções. Entretanto, o desenvolvimento de vacinas para patógenos tem obstáculos, como por exemplo, identificar as proteínas alvo. Somente para Mycobacterium tuberculosis há mais de quatro mil proteínas candidatas a alvos para construção de uma vacina. Uma alternativa é o uso de informações genômicas na busca de proteínas que são boas candidatas. O objetivo deste estudo é testar algoritmos populares em Aprendizado de Máquina , implementados no software WEKA, para classificar proteínas expostas na superfície, a partir do padrão hidrofóbico presente na sequência de aminoácidos de 40 genomas, causadores de doenças graves em humanos. As florestas aleatórias tiveram 72,83% de acurácia, tendo tão bons resultados quanto os algoritmos Support Vector Machine e Multilayer Perceptron que alcançaram 70 e 65% de acurácia, respectivamente. Os resultados mostram o bom desempenho dos algoritmos usados para classificar as proteínas expostas na superfície, principalmente considerando a dificuldade em identificá-las.	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.course	Ciência da Computação	pt_BR
dc.sizeorduration	53	pt_BR
dc.subject.cnpq	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO	pt_BR
Appears in Collections:	TCC - Ciência da Computação

Files in This Item:

File	Description	Size	Format
ClassificaçãoProteínasExpostas.pdf		1.25 MB	Adobe PDF	View/Open

Show simple item record

This item is licensed under a Creative Commons License