Implementação do Q-learning no rastreamento de referências constantes em um aeropêndulo

Morais Filho, Cleiton Kennedy de

Por favor, use este identificador para citar o enlazar este ítem: https://repositorio.ufu.br/handle/123456789/39534

ORCID:	http://orcid.org/0009-0008-3811-7745
Tipo de documento:	Trabalho de Conclusão de Curso
Tipo de acceso:	Acesso Aberto
Título:	Implementação do Q-learning no rastreamento de referências constantes em um aeropêndulo
Título (s) alternativo (s):	Implementation of Q-learning in tracking constant references in an aeropendulum
Autor:	Morais Filho, Cleiton Kennedy de
Primer orientador:	Assis, Pedro Augusto Queiroz de
Primer miembro de la banca:	Andrade, João Rodrigo
Segundo miembro de la banca:	Paes, Luiz Eduardo dos Santos
Resumen:	O objetivo deste trabalho é aplicar um método de aprendizado de máquina no controle de um aeropêndulo. Especificamente, o método \textit{Q-Learning} de aprendizado por reforço é utilizado para fazer com que a haste do aeropêndulo seja guiada para uma referência. Para isso, primeiramente um modelo matemático não linear para descrever a dinâmica do sistema é desenvolvido. Mais ainda, o espaço de estados e ações admissíveis foram discretizados, e foi definida uma função de recompensas para fazer com que o agente aprenda a realizar a tarefa de controle. Tal função retorna recompensas positivas ao agente caso a haste permaneça em um ângulo de referência com a base. Já recompensas negativas são atribuídas quando um estado terminal é atingido. As ações possíveis de serem tomadas em um estado são acelerar ou desacelerar o motor. A magnitude da aceleração/desaceleração depende da magnitude do erro de rastreamento. Análises do número de episódios de treinamento necessários para que o agente aprenda a realizar a tarefa, e da influência dos parâmetros de ajuste no aprendizado são realizadas. Os resultados mostram que o agente aprendeu a controlar o aeropêndulo sem erro de rastreamento em regime permanente em todos os casos após o treinamento, indicando a viabilidade da aplicação deste tipo de método no controle de sistemas não lineares. Identificou-se que são necessários aproximadamente 2900 episódios para que o aprendizado seja concluído. Mais ainda, verificou-se que ao aumentar o fator de ganância e a taxa de aprendizagem, a resposta transitória do sistema melhorou. Já variando-se o fator de desconto, os melhores resultados foram obtidos com valores intermediários.
Palabras clave:	Aprendizado por reforço Q-learning Aeropêndulo Controle em malha fechada
Área (s) del CNPq:	CNPQ::ENGENHARIAS::ENGENHARIA MECANICA
Idioma:	por
País:	Brasil
Editora:	Universidade Federal de Uberlândia
Cita:	MORAIS FILHO, Cleiton Kennedy de. Implementação do Q-learning no rastreamento de referências constantes em um aeropêndulo. 2023. 44 f. Trabalho de Conclusão de Curso (Graduação em Engenharia Mecatrônica) – Universidade Federal de Uberlândia, Uberlândia, 2023.
URI:	https://repositorio.ufu.br/handle/123456789/39534
Fecha de defensa:	14-nov-2023
Aparece en las colecciones:	TCC - Engenharia Mecatrônica

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
ImplementaçãoQlearningRastreamento.pdf	TCC	14.13 MB	Adobe PDF	Visualizar/Abrir

Mostrar el registro Dublin Core completo del ítem

Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons