Implementação do Q-learning no rastreamento de referências constantes em um aeropêndulo

Morais Filho, Cleiton Kennedy de

Please use this identifier to cite or link to this item: https://repositorio.ufu.br/handle/123456789/39534

Full metadata record

DC Field	Value	Language
dc.creator	Morais Filho, Cleiton Kennedy de	-
dc.date.accessioned	2023-11-28T14:12:30Z	-
dc.date.available	2023-11-28T14:12:30Z	-
dc.date.issued	2023-11-14	-
dc.identifier.citation	MORAIS FILHO, Cleiton Kennedy de. Implementação do Q-learning no rastreamento de referências constantes em um aeropêndulo. 2023. 44 f. Trabalho de Conclusão de Curso (Graduação em Engenharia Mecatrônica) – Universidade Federal de Uberlândia, Uberlândia, 2023.	pt_BR
dc.identifier.uri	https://repositorio.ufu.br/handle/123456789/39534	-
dc.language	por	pt_BR
dc.publisher	Universidade Federal de Uberlândia	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.rights.uri	http://creativecommons.org/licenses/by/3.0/us/	*
dc.subject	Aprendizado por reforço	pt_BR
dc.subject	Q-learning	pt_BR
dc.subject	Aeropêndulo	pt_BR
dc.subject	Controle em malha fechada	pt_BR
dc.title	Implementação do Q-learning no rastreamento de referências constantes em um aeropêndulo	pt_BR
dc.title.alternative	Implementation of Q-learning in tracking constant references in an aeropendulum	pt_BR
dc.type	Trabalho de Conclusão de Curso	pt_BR
dc.contributor.advisor1	Assis, Pedro Augusto Queiroz de	-
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/5309540309123503	pt_BR
dc.contributor.referee1	Andrade, João Rodrigo	-
dc.contributor.referee1Lattes	http://lattes.cnpq.br/3633955382225394	pt_BR
dc.contributor.referee2	Paes, Luiz Eduardo dos Santos	-
dc.contributor.referee2Lattes	http://lattes.cnpq.br/7357828735124785	pt_BR
dc.creator.Lattes	Não possui	pt_BR
dc.description.degreename	Trabalho de Conclusão de Curso (Graduação)	pt_BR
dc.description.resumo	O objetivo deste trabalho é aplicar um método de aprendizado de máquina no controle de um aeropêndulo. Especificamente, o método \textit{Q-Learning} de aprendizado por reforço é utilizado para fazer com que a haste do aeropêndulo seja guiada para uma referência. Para isso, primeiramente um modelo matemático não linear para descrever a dinâmica do sistema é desenvolvido. Mais ainda, o espaço de estados e ações admissíveis foram discretizados, e foi definida uma função de recompensas para fazer com que o agente aprenda a realizar a tarefa de controle. Tal função retorna recompensas positivas ao agente caso a haste permaneça em um ângulo de referência com a base. Já recompensas negativas são atribuídas quando um estado terminal é atingido. As ações possíveis de serem tomadas em um estado são acelerar ou desacelerar o motor. A magnitude da aceleração/desaceleração depende da magnitude do erro de rastreamento. Análises do número de episódios de treinamento necessários para que o agente aprenda a realizar a tarefa, e da influência dos parâmetros de ajuste no aprendizado são realizadas. Os resultados mostram que o agente aprendeu a controlar o aeropêndulo sem erro de rastreamento em regime permanente em todos os casos após o treinamento, indicando a viabilidade da aplicação deste tipo de método no controle de sistemas não lineares. Identificou-se que são necessários aproximadamente 2900 episódios para que o aprendizado seja concluído. Mais ainda, verificou-se que ao aumentar o fator de ganância e a taxa de aprendizagem, a resposta transitória do sistema melhorou. Já variando-se o fator de desconto, os melhores resultados foram obtidos com valores intermediários.	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.course	Engenharia Mecatrônica	pt_BR
dc.sizeorduration	44	pt_BR
dc.subject.cnpq	CNPQ::ENGENHARIAS::ENGENHARIA MECANICA	pt_BR
dc.orcid.putcode	147692878	-
Appears in Collections:	TCC - Engenharia Mecatrônica

Files in This Item:

File	Description	Size	Format
ImplementaçãoQlearningRastreamento.pdf	TCC	14.13 MB	Adobe PDF	View/Open

Show simple item record

This item is licensed under a Creative Commons License