Please use this identifier to cite or link to this item: https://repositorio.ufu.br/handle/123456789/39375
Full metadata record
DC FieldValueLanguage
dc.creatorAlves Júnior, Tércio de Melo-
dc.date.accessioned2023-11-10T12:51:08Z-
dc.date.available2023-11-10T12:51:08Z-
dc.date.issued2023-08-23-
dc.identifier.citationALVES JÚNIOR, Tércio de Melo. Implementação de algoritmos de aprendizado por reforço no controle de um carro pêndulo. 2023. 63 f. Trabalho de Conclusão de Curso (Graduação em Engenharia Mecatrônica) – Universidade Federal de Uberlândia, Uberlândia, 2023.pt_BR
dc.identifier.urihttps://repositorio.ufu.br/handle/123456789/39375-
dc.description.sponsorshipPesquisa sem auxílio de agências de fomentopt_BR
dc.languageporpt_BR
dc.publisherUniversidade Federal de Uberlândiapt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectSARSApt_BR
dc.subjectReinforcement learningpt_BR
dc.subjectQ-learningpt_BR
dc.subjectDeep q-learningpt_BR
dc.titleImplementação de algoritmos de aprendizado por reforço no controle de um carro pêndulopt_BR
dc.typeTrabalho de Conclusão de Cursopt_BR
dc.contributor.advisor1Assis, Pedro Augusto Queiroz de-
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/5309540309123503pt_BR
dc.contributor.referee1Lobato, Fran-
dc.contributor.referee1Latteshttp://lattes.cnpq.br/7640108116459444pt_BR
dc.contributor.referee2Silva, Leonardo-
dc.contributor.referee2Latteshttp://lattes.cnpq.br/7676004124949982pt_BR
dc.description.degreenameTrabalho de Conclusão de Curso (Graduação)pt_BR
dc.description.resumoNo Reinforcement Learning (RL) ou aprendizado baseado em reforço, pretende-se fazer com que o agente aprenda a realizar uma tarefa por meio de interações com o ambiente. Sendo um ramo da Inteligência Artificial não supervisionado, nos métodos de RL o aprendizado é realizado com base em tentativa e erro. O objetivo é determinar a sequência de ações que maximizam o somatório de recompensas a longo prazo, o que é denominado retorno. Neste trabalho serão avaliados quatro algoritmos de aprendizado baseado em reforço para o controle de um carro pêndulo. Em particular são implementados SARSA, Q-Learning, Deep Q-Learning e Double Deep Q-Learning. O objetivo dos métodos con siste em treinar um agente para manter uma haste equilibrada e o carro dentro de um certo intervalo em torno da origem. Com esse propósito é definida uma função que retorna recompensas positivas, caso esses objetivos sejam alcançados, e recompensas negativas, caso contrário. Para tais objetivos, será utilizado a linguagem Python, tanto para implementação, quanto para simulação e exibição dos resultados. Os resultados da simulação no modelo não linear do sistema demonstram a capacidade de aprendizado do agente, pois foi possível realizar a tarefa proposta utilizando todos os métodos implementados. Mais ainda, usando essas simulações, avaliam-se efeitos de variações nos parâmetros de ajuste dos métodos no aprendizado do agente. Esses resultados podem orientar outros projetistas na implementação dos métodos de RL considerados. Constatou-se que o método Double Deep Q-Learning proporcionou um aprendizado mais rápido, tornando-se assim o melhor entre os métodos testados.pt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.courseEngenharia Mecatrônicapt_BR
dc.sizeorduration62pt_BR
dc.subject.cnpqCNPQ::OUTROS::ENGENHARIA MECATRONICApt_BR
dc.orcid.putcode146421395-
Appears in Collections:TCC - Engenharia Mecatrônica

Files in This Item:
File Description SizeFormat 
ImplementaçãoAlgoritmosAprendizado.pdf16.98 MBAdobe PDFThumbnail
View/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.