Por favor, use este identificador para citar o enlazar este ítem:
https://repositorio.ufu.br/handle/123456789/39375Registro completo de metadatos
| Campo DC | Valor | Lengua/Idioma |
|---|---|---|
| dc.creator | Alves Júnior, Tércio de Melo | - |
| dc.date.accessioned | 2023-11-10T12:51:08Z | - |
| dc.date.available | 2023-11-10T12:51:08Z | - |
| dc.date.issued | 2023-08-23 | - |
| dc.identifier.citation | ALVES JÚNIOR, Tércio de Melo. Implementação de algoritmos de aprendizado por reforço no controle de um carro pêndulo. 2023. 63 f. Trabalho de Conclusão de Curso (Graduação em Engenharia Mecatrônica) – Universidade Federal de Uberlândia, Uberlândia, 2023. | pt_BR |
| dc.identifier.uri | https://repositorio.ufu.br/handle/123456789/39375 | - |
| dc.description.sponsorship | Pesquisa sem auxílio de agências de fomento | pt_BR |
| dc.language | por | pt_BR |
| dc.publisher | Universidade Federal de Uberlândia | pt_BR |
| dc.rights | Acesso Aberto | pt_BR |
| dc.subject | SARSA | pt_BR |
| dc.subject | Reinforcement learning | pt_BR |
| dc.subject | Q-learning | pt_BR |
| dc.subject | Deep q-learning | pt_BR |
| dc.title | Implementação de algoritmos de aprendizado por reforço no controle de um carro pêndulo | pt_BR |
| dc.type | Trabalho de Conclusão de Curso | pt_BR |
| dc.contributor.advisor1 | Assis, Pedro Augusto Queiroz de | - |
| dc.contributor.advisor1Lattes | http://lattes.cnpq.br/5309540309123503 | pt_BR |
| dc.contributor.referee1 | Lobato, Fran | - |
| dc.contributor.referee1Lattes | http://lattes.cnpq.br/7640108116459444 | pt_BR |
| dc.contributor.referee2 | Silva, Leonardo | - |
| dc.contributor.referee2Lattes | http://lattes.cnpq.br/7676004124949982 | pt_BR |
| dc.description.degreename | Trabalho de Conclusão de Curso (Graduação) | pt_BR |
| dc.description.resumo | No Reinforcement Learning (RL) ou aprendizado baseado em reforço, pretende-se fazer com que o agente aprenda a realizar uma tarefa por meio de interações com o ambiente. Sendo um ramo da Inteligência Artificial não supervisionado, nos métodos de RL o aprendizado é realizado com base em tentativa e erro. O objetivo é determinar a sequência de ações que maximizam o somatório de recompensas a longo prazo, o que é denominado retorno. Neste trabalho serão avaliados quatro algoritmos de aprendizado baseado em reforço para o controle de um carro pêndulo. Em particular são implementados SARSA, Q-Learning, Deep Q-Learning e Double Deep Q-Learning. O objetivo dos métodos con siste em treinar um agente para manter uma haste equilibrada e o carro dentro de um certo intervalo em torno da origem. Com esse propósito é definida uma função que retorna recompensas positivas, caso esses objetivos sejam alcançados, e recompensas negativas, caso contrário. Para tais objetivos, será utilizado a linguagem Python, tanto para implementação, quanto para simulação e exibição dos resultados. Os resultados da simulação no modelo não linear do sistema demonstram a capacidade de aprendizado do agente, pois foi possível realizar a tarefa proposta utilizando todos os métodos implementados. Mais ainda, usando essas simulações, avaliam-se efeitos de variações nos parâmetros de ajuste dos métodos no aprendizado do agente. Esses resultados podem orientar outros projetistas na implementação dos métodos de RL considerados. Constatou-se que o método Double Deep Q-Learning proporcionou um aprendizado mais rápido, tornando-se assim o melhor entre os métodos testados. | pt_BR |
| dc.publisher.country | Brasil | pt_BR |
| dc.publisher.course | Engenharia Mecatrônica | pt_BR |
| dc.sizeorduration | 62 | pt_BR |
| dc.subject.cnpq | CNPQ::OUTROS::ENGENHARIA MECATRONICA | pt_BR |
| dc.orcid.putcode | 146421395 | - |
| Aparece en las colecciones: | TCC - Engenharia Mecatrônica | |
Ficheros en este ítem:
| Fichero | Descripción | Tamaño | Formato | |
|---|---|---|---|---|
| ImplementaçãoAlgoritmosAprendizado.pdf | 16.98 MB | Adobe PDF | ![]() Visualizar/Abrir |
Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.
