Implementação de algoritmos de aprendizado por reforço no controle de um carro pêndulo

Alves Júnior, Tércio de Melo

Please use this identifier to cite or link to this item: https://repositorio.ufu.br/handle/123456789/39375

Full metadata record

DC Field	Value	Language
dc.creator	Alves Júnior, Tércio de Melo	-
dc.date.accessioned	2023-11-10T12:51:08Z	-
dc.date.available	2023-11-10T12:51:08Z	-
dc.date.issued	2023-08-23	-
dc.identifier.citation	ALVES JÚNIOR, Tércio de Melo. Implementação de algoritmos de aprendizado por reforço no controle de um carro pêndulo. 2023. 63 f. Trabalho de Conclusão de Curso (Graduação em Engenharia Mecatrônica) – Universidade Federal de Uberlândia, Uberlândia, 2023.	pt_BR
dc.identifier.uri	https://repositorio.ufu.br/handle/123456789/39375	-
dc.description.sponsorship	Pesquisa sem auxílio de agências de fomento	pt_BR
dc.language	por	pt_BR
dc.publisher	Universidade Federal de Uberlândia	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject	SARSA	pt_BR
dc.subject	Reinforcement learning	pt_BR
dc.subject	Q-learning	pt_BR
dc.subject	Deep q-learning	pt_BR
dc.title	Implementação de algoritmos de aprendizado por reforço no controle de um carro pêndulo	pt_BR
dc.type	Trabalho de Conclusão de Curso	pt_BR
dc.contributor.advisor1	Assis, Pedro Augusto Queiroz de	-
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/5309540309123503	pt_BR
dc.contributor.referee1	Lobato, Fran	-
dc.contributor.referee1Lattes	http://lattes.cnpq.br/7640108116459444	pt_BR
dc.contributor.referee2	Silva, Leonardo	-
dc.contributor.referee2Lattes	http://lattes.cnpq.br/7676004124949982	pt_BR
dc.description.degreename	Trabalho de Conclusão de Curso (Graduação)	pt_BR
dc.description.resumo	No Reinforcement Learning (RL) ou aprendizado baseado em reforço, pretende-se fazer com que o agente aprenda a realizar uma tarefa por meio de interações com o ambiente. Sendo um ramo da Inteligência Artificial não supervisionado, nos métodos de RL o aprendizado é realizado com base em tentativa e erro. O objetivo é determinar a sequência de ações que maximizam o somatório de recompensas a longo prazo, o que é denominado retorno. Neste trabalho serão avaliados quatro algoritmos de aprendizado baseado em reforço para o controle de um carro pêndulo. Em particular são implementados SARSA, Q-Learning, Deep Q-Learning e Double Deep Q-Learning. O objetivo dos métodos con siste em treinar um agente para manter uma haste equilibrada e o carro dentro de um certo intervalo em torno da origem. Com esse propósito é definida uma função que retorna recompensas positivas, caso esses objetivos sejam alcançados, e recompensas negativas, caso contrário. Para tais objetivos, será utilizado a linguagem Python, tanto para implementação, quanto para simulação e exibição dos resultados. Os resultados da simulação no modelo não linear do sistema demonstram a capacidade de aprendizado do agente, pois foi possível realizar a tarefa proposta utilizando todos os métodos implementados. Mais ainda, usando essas simulações, avaliam-se efeitos de variações nos parâmetros de ajuste dos métodos no aprendizado do agente. Esses resultados podem orientar outros projetistas na implementação dos métodos de RL considerados. Constatou-se que o método Double Deep Q-Learning proporcionou um aprendizado mais rápido, tornando-se assim o melhor entre os métodos testados.	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.course	Engenharia Mecatrônica	pt_BR
dc.sizeorduration	62	pt_BR
dc.subject.cnpq	CNPQ::OUTROS::ENGENHARIA MECATRONICA	pt_BR
dc.orcid.putcode	146421395	-
Appears in Collections:	TCC - Engenharia Mecatrônica

Files in This Item:

File	Description	Size	Format
ImplementaçãoAlgoritmosAprendizado.pdf		16.98 MB	Adobe PDF	View/Open

Show simple item record