Uma nova abordagem de  aprendizagem de máquina combinando elicitação automática de casos, aprendizagem por reforço e mineração de  padrões sequenciais para agentes jogadores de damas

Castro Neto, Henrique de

Por favor, use este identificador para citar o enlazar este ítem: https://repositorio.ufu.br/handle/123456789/18143

Registro completo de metadatos

Campo DC	Valor	Lengua/Idioma
dc.creator	Castro Neto, Henrique de	-
dc.date.accessioned	2017-03-09T16:32:03Z	-
dc.date.available	2017-03-09T16:32:03Z	-
dc.date.issued	2016-11-21	-
dc.identifier.citation	CASTRO NETO, Henrique de. Uma nova abordagem de aprendizagem de máquina combinando elicitação automática de casos, aprendizagem por reforço e mineração de padrões sequenciais para agentes jogadores de damas. 2016. 166 f. Tese (Doutorado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2016. DOI http://doi.org/10.14393/ufu.te.2016.145	pt_BR
dc.identifier.uri	https://repositorio.ufu.br/handle/123456789/18143	-
dc.description.abstract	ake into account, in addition to the environment, the minimizing action of an opponent (such as in games), it is fundamental that the agent has the ability to progressively trace a proĄle of its adversary that aids it in the process of selecting appropriate actions. However, it would be unsuitable to construct an agent with a decision-making system based on only the elaboration of this proĄle, as this would prevent the agent from having its Şown identityŤ, which would leave it at the mercy of its opponent. Following this direction, this work proposes an automatic hybrid Checkers player, called ACE-RL-Checkers, equipped with a dynamic decision-making mechanism, which adapts to the proĄle of its opponent over the course of the game. In such a system, the action selection process (moves) is conducted through a composition of Multi-Layer Perceptron Neural Network and case library. In the case, Neural Network represents the ŞidentityŤ of the agent, i.e., it is an already trained static decision-making module and makes use of the Reinforcement Learning TD( ) techniques. On the other hand, the case library represents the dynamic decision-making module of the agent, which is generated by the Automatic Case Elicitation technique (a particular type of Case-Based Reasoning). This technique has a pseudo-random exploratory behavior, which makes the dynamic decision-making on the part of the agent to be directed, either by the game proĄle of the opponent or randomly. However, when devising such an architecture, it is necessary to avoid the following problem: due to the inherent characteristics of the Automatic Case Elicitation technique, in the game initial phases, in which the quantity of available cases in the library is extremely low due to low knowledge content concerning the proĄle of the adversary, the decisionmaking frequency for random decisions is extremely high, which would be detrimental to the performance of the agent. In order to attack this problem, this work also proposes to incorporate onto the ACE-RL-Checkers architecture a third module composed of a base of experience rules, extracted from games played by human experts, using a Sequential Pattern Mining technique. The objective behind using such a base is to reĄne and accelerate the adaptation of the agent to the proĄle of its opponent in the initial phases of their confrontations. Experimental results conducted in tournaments involving ACE-RL-Checkers and other agents correlated with this work, conĄrm the superiority of the dynamic architecture proposed herein.	pt_BR
dc.description.sponsorship	Fundação de Amparo a Pesquisa do Estado de Minas Gerais	pt_BR
dc.language	por	pt_BR
dc.publisher	Universidade Federal de Uberlândia	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject	Computação	pt_BR
dc.subject	Jogo de damas por computador	pt_BR
dc.subject	Teoria dos jogos	pt_BR
dc.subject	Aprendizado do computador	pt_BR
dc.subject	Aprendizagem de Máquina	pt_BR
dc.subject	Aprendizagem por Reforço	pt_BR
dc.subject	Método das Diferenças Temporais	pt_BR
dc.subject	Raciocínio Baseado em Casos	pt_BR
dc.subject	Elicitação Automática de Casos	pt_BR
dc.subject	Mineração de Padrões Sequenciais	pt_BR
dc.subject	Mineração de Dados	pt_BR
dc.subject	Computação Evolutiva	pt_BR
dc.subject	Algoritmo Genético	pt_BR
dc.subject	Game Theory	pt_BR
dc.subject	Machine Learning	pt_BR
dc.subject	Reinforcement Learning	pt_BR
dc.subject	Temporal Difference Methods	pt_BR
dc.subject	Case-Based Reasoning	pt_BR
dc.subject	Automatic Case Elicitation	pt_BR
dc.subject	Sequential Pattern Mining	pt_BR
dc.subject	Data Mining	pt_BR
dc.subject	Evolutionary Computation	pt_BR
dc.subject	Genetic Algorithm	pt_BR
dc.title	Uma nova abordagem de aprendizagem de máquina combinando elicitação automática de casos, aprendizagem por reforço e mineração de padrões sequenciais para agentes jogadores de damas	pt_BR
dc.type	Tese	pt_BR
dc.contributor.advisor1	Julia, Rita Maria da Silva	-
dc.contributor.advisor1Lattes	http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4788590Z8	pt_BR
dc.contributor.referee1	Hruschka Júnior, Estevam Rafael	-
dc.contributor.referee1Lattes	http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4792901E6	pt_BR
dc.contributor.referee2	Chaimowicz, Luiz	-
dc.contributor.referee2Lattes	http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4791836U1	pt_BR
dc.contributor.referee3	Lopes, Carlos Roberto	-
dc.contributor.referee3Lattes	http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4788535Z4	pt_BR
dc.contributor.referee4	Albertini, Marcelo Keese	-
dc.contributor.referee4Lattes	http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4184508T7	pt_BR
dc.creator.Lattes	http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4263530E9	pt_BR
dc.description.degreename	Tese (Doutorado)	pt_BR
dc.description.resumo	Agentes que operam em ambientes onde as tomadas de decisão precisam levar em conta, além do ambiente, a atuação minimizadora de um oponente (tal como nos jogos), é fundamental que o agente seja dotado da habilidade de, progressivamente, traçar um perĄl de seu adversário que o auxilie em seu processo de seleção de ações apropriadas. Entretanto, seria improdutivo construir um agente com um sistema de tomada de decisão baseado apenas na elaboração desse perĄl, pois isso impediria o agente de ter uma Şidentidade própriaŤ, o que o deixaria a mercê de seu adversário. Nesta direção, este trabalho propõe um sistema automático jogador de Damas híbrido, chamado ACE-RL-Checkers, dotado de um mecanismo dinâmico de tomada de decisões que se adapta ao perĄl de seu oponente no decorrer de um jogo. Em tal sistema, o processo de seleção de ações (movimentos) é conduzido por uma composição de Rede Neural de Perceptron Multicamadas e biblioteca de casos. No caso, a Rede Neural representa a ŞidentidadeŤ do agente, ou seja, é um módulo tomador de decisões estático já treinado e que faz uso da técnica de Aprendizagem por Reforço TD( ). Por outro lado, a biblioteca de casos representa o módulo tomador de decisões dinâmico do agente que é gerada pela técnica de Elicitação Automática de Casos (um tipo particular de Raciocínio Baseado em Casos). Essa técnica possui um comportamento exploratório pseudo-aleatório que faz com que a tomada de decisão dinâmica do agente seja guiada, ora pelo perĄl de jogo do adversário, ora aleatoriamente. Contudo, ao conceber tal arquitetura, é necessário evitar o seguinte problema: devido às características inerentes à técnica de Elicitação Automática de Casos, nas fases iniciais do jogo Ű em que a quantidade de casos disponíveis na biblioteca é extremamente baixa em função do exíguo conhecimento do perĄl do adversário Ű a frequência de tomadas de decisão aleatórias seria muito elevada, o que comprometeria o desempenho do agente. Para atacar tal problema, este trabalho também propõe incorporar à arquitetura do ACE-RLCheckers um terceiro módulo, composto por uma base de regras de experiência extraída a partir de jogos de especialistas humanos, utilizando uma técnica de Mineração de Padrões Sequenciais. O objetivo de utilizar tal base é reĄnar e acelerar a adaptação do agente ao perĄl de seu adversário nas fases iniciais dos confrontos entre eles. Resultados experimentais conduzidos em torneio envolvendo ACE-RL-Checkers e outros agentes correlacionados com este trabalho, conĄrmam a superioridade da arquitetura dinâmica aqui proposta.	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.program	Programa de Pós-graduação em Ciência da Computação	pt_BR
dc.sizeorduration	166	pt_BR
dc.subject.cnpq	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO	pt_BR
dc.identifier.doi	http://doi.org/10.14393/ufu.te.2016.145	pt_BR
dc.orcid.putcode	81753129	-
dc.crossref.doibatchid	58434145-d6ec-45ce-b3f5-4a5d7e4364e9	-
Aparece en las colecciones:	TESE - Ciência da Computação

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
NovaAbordagemAprendizagem.pdf	Tese	32.55 MB	Adobe PDF	Visualizar/Abrir

Mostrar el registro sencillo del ítem