A deep learning system to perform multi-instance multi-label event classification in video game footage

Julia, Etienne da Silva

Please use this identifier to cite or link to this item: https://repositorio.ufu.br/handle/123456789/36957

Full metadata record

DC Field	Value	Language
dc.creator	Julia, Etienne da Silva	-
dc.date.accessioned	2023-02-03T16:47:04Z	-
dc.date.available	2023-02-03T16:47:04Z	-
dc.date.issued	2022-08-17	-
dc.identifier.citation	JULIA, Etienne da Silva. A deep learning system to perform multi-instance multi-Label event classification in video game footage. 2022. 85 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2022. DOI https://doi.org/10.14393/ufu.di.2022.562	pt_BR
dc.identifier.uri	https://repositorio.ufu.br/handle/123456789/36957	-
dc.description.abstract	Video games, in addition to representing an extremely relevant field of entertainment and market, have been widely used as a case study in artificial intelligence for representing a problem with a high degree of complexity. In such studies, the investigation of approaches that endow player agents with the ability to retrieve relevant information from game scenes stands out, since such information can be very useful to improve their learning ability. This work is divided into two parts, the first proposes and analyses new deep learning-based models to identify game events occurring in Super Mario Bros gameplay footage. These models are composed of a feature extractor convolutional neural network (CNN) and a classifier neural network (NN). The extracting CNN aims to produce a feature-based representation for game scenes and submit it to the classifier so that the latter can identify the game event present in each scene. The main contribution of this first part is to demonstrate the greater performance reached by the models that associate chunk representation of the data with the resources of the classifier recurrent neural networks (RNN). The second part of the study presents two deep learning (DL) models designed to deal with multi-instance multi-labels (MIML) event classification in gameplay footage. The architecture of these models is based on a data generator script, a convolutional neural network (CNN) feature extractor, and a deep classifier neural network. The main contributions of this second part are: 1) implementation of an automatic data generator script to produce the frames from the game footage; 2) construction of a frame-based and a chunk-based pre-processed/balanced datasets to train the models; 3) generating a fine-tuned MobileNetV2, from the standard MobileNetV2, specialized in dealing with gameplay footage; 4) implementation of the DL models to perform MIML event classification in gameplay footage.	pt_BR
dc.language	eng	pt_BR
dc.publisher	Universidade Federal de Uberlândia	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.rights.uri	http://creativecommons.org/licenses/by/3.0/us/	*
dc.subject	Gameplay Footage	pt_BR
dc.subject	Game Events	pt_BR
dc.subject	Feature Extraction	pt_BR
dc.subject	Classification	pt_BR
dc.subject	Super Mario Bros	pt_BR
dc.subject	CNN	pt_BR
dc.subject	RNN	pt_BR
dc.subject	Frames	pt_BR
dc.subject	Chunks	pt_BR
dc.subject	MIML	pt_BR
dc.subject	Event Classification	pt_BR
dc.subject	Multi-Label	pt_BR
dc.subject	Deep MIML Network	pt_BR
dc.subject	Multi-Label Classification	pt_BR
dc.subject	Multi-Instance Classification	pt_BR
dc.subject	Video Classification	pt_BR
dc.title	A deep learning system to perform multi-instance multi-label event classification in video game footage	pt_BR
dc.title.alternative	Um modelo de aprendizagem profunda para a classificação multi-instância, multi-rótulos em vídeos de jogos digitais	pt_BR
dc.type	Dissertação	pt_BR
dc.contributor.advisor1	Nascimento, Marcelo Zanchetta do	-
dc.contributor.advisor1Lattes	http://buscatextual.cnpq.br/buscatextual/visualizacv.do;jsessionid=46FC2E0026CDF55DF8BAF50271EEFC47.buscatextual_66	pt_BR
dc.contributor.referee1	Oliveira, Marcelo Costa	-
dc.contributor.referee1Lattes	http://buscatextual.cnpq.br/buscatextual/visualizacv.do?metodo=apresentar&id=K4779304E6	pt_BR
dc.contributor.referee2	Gabriel, Paulo Henrique Ribeiro	-
dc.contributor.referee2Lattes	http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4164477D2	pt_BR
dc.creator.Lattes	https://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K2092191H4&tokenCaptchar=03AIIukzieI11Xkf51RKE5mHgIMIFhZr4HCCMgVqhFQpLtlVcrZA9khJTTHSxSr0iKi2jr-hN67p97pOds2SqOBYnjoRD8oNZaMP696Jr---mjSuL11h_5I6CoBPzSr-u3sOM7j8K7t86T23NMxtkVwOYCqN7IE1hgy5O6_sovaoJruNnzlvdl9skM5F8uLQOJuAp6tUg6sq7vD9DdVOE-7BhXwHF2UdXcs41ve7voxVU937I83TUvA7swcnm6Ve8RAtuBIagSOkCsLa-0aVuyVIIyLZ5-Qrgn4uvG1seEaxhJcAlbEdh1-MgICk5ajvez9JnFaq2-6Uae9FAyHns6YPIvsbX3XiA7yH58DyJyYBzRPqzMpVtFigdDINkV8Q6wEUvxeQy_XbwsiV75xhs0-Mzxrl7qYJlB7RkCxBFMOaOi6tVxiZEUs_uuRFBA-A0z9IJPYSjYHAwsz21nj8TWC_AHyh_GiMvRHMozVrnrSaAGH5UFpiptgVnBdGQMLqzhowoOJa5YuJQ-Q3TAoBeEEwYGiLCvmQWDmQ	pt_BR
dc.description.degreename	Dissertação (Mestrado)	pt_BR
dc.description.resumo	Jogos digitais, além de serem um setor da indústria de entretenimento extremamente relevante, são muito utilizados como objetos de estudo na inteligência artificial, uma vez que representam um cenário de alta complexidade. Nesses estudos, destaca-se a investigação de abordagens para capacitar agentes jogadores com a habilidade de recuperar informações relevantes, já que isso é muito útil para maximizar a capacidade de aprendizagem desses agentes. Esse trabalho é dividido em duas partes, a primeira propõe e analiza novos modelos profundos de aprendizagem para identificar eventos em vídeos do jogo Super Mario Bros. Esses modelos são compostos por uma rede neural convolucional (CNN), responsável pela extração de características, e uma rede neural artificial (NN) para a classificação. O objetivo da CNN é produzir uma nova representação para as cenas de jogo que maximize a performance da rede classificadora na tarefa de identificar eventos de jogo. A principal contribuiçaõ dessa primeira parte é a demonstração de uma performance superior obtida por modelos que utilizam de uma representação dos dados por \textit{chunks} combinados com os recursos de uma rede neural recorrente (RNN) para a classificação. A segunda parte apresenta dois modelos de aprendizagem profunda (DL) desenvolvidos para tratar com a classificação de eventos multi-instâncias multi-rótulos (MIML) em vídeos de jogo. A arquitetura desses modelos é baseada em um script para a geração de dados, em uma rede neural convolucional (CNN), em um extrator de características e em uma rede classificadora. As principais contribuições dessa segunda parte são: 1) a implemetação de um gerador de dados automático para produzir e rotular frames a partir de videos de jogos; 2) A construção de um de datasets balanceados para o treinamento dos modelos; 3) a implementação de uma MobileNetV2 refinada para tratar especificamente de vídeos de jogos; 4) a implementação de modelos de aprendizagem profunda para a realização de classificação de eventos em cenários MIML.	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.program	Programa de Pós-graduação em Ciência da Computação	pt_BR
dc.sizeorduration	85	pt_BR
dc.subject.cnpq	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO::COMPUTABILIDADE E MODELOS DE COMPUTACAO	pt_BR
dc.subject.cnpq	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::PROCESSAMENTO GRAFICO (GRAPHICS)	pt_BR
dc.identifier.doi	http://doi.org/10.14393/ufu.di.2022.562	pt_BR
dc.crossref.doibatchid	433cbc70-25f2-40dd-afb5-ee4d7fefccc7	-
dc.subject.autorizado	Computação	pt_BR
dc.subject.autorizado	Jogos para computador	pt_BR
dc.subject.autorizado	Indústria de entretenimento	pt_BR
dc.subject.autorizado	Vídeogames	pt_BR
Appears in Collections:	DISSERTAÇÃO - Ciência da Computação

Files in This Item:

File	Description	Size	Format
DeepLearningSystem.pdf	Dissertação	3.85 MB	Adobe PDF	View/Open

Show simple item record

This item is licensed under a Creative Commons License