Please use this identifier to cite or link to this item: https://repositorio.ufu.br/handle/123456789/36957
Document type: Dissertação
Access type: Acesso Aberto
Title: A deep learning system to perform multi-instance multi-label event classification in video game footage
Alternate title (s): Um modelo de aprendizagem profunda para a classificação multi-instância, multi-rótulos em vídeos de jogos digitais
Author: Julia, Etienne da Silva
First Advisor: Nascimento, Marcelo Zanchetta do
First member of the Committee: Oliveira, Marcelo Costa
Second member of the Committee: Gabriel, Paulo Henrique Ribeiro
Summary: Jogos digitais, além de serem um setor da indústria de entretenimento extremamente relevante, são muito utilizados como objetos de estudo na inteligência artificial, uma vez que representam um cenário de alta complexidade. Nesses estudos, destaca-se a investigação de abordagens para capacitar agentes jogadores com a habilidade de recuperar informações relevantes, já que isso é muito útil para maximizar a capacidade de aprendizagem desses agentes. Esse trabalho é dividido em duas partes, a primeira propõe e analiza novos modelos profundos de aprendizagem para identificar eventos em vídeos do jogo Super Mario Bros. Esses modelos são compostos por uma rede neural convolucional (CNN), responsável pela extração de características, e uma rede neural artificial (NN) para a classificação. O objetivo da CNN é produzir uma nova representação para as cenas de jogo que maximize a performance da rede classificadora na tarefa de identificar eventos de jogo. A principal contribuiçaõ dessa primeira parte é a demonstração de uma performance superior obtida por modelos que utilizam de uma representação dos dados por \textit{chunks} combinados com os recursos de uma rede neural recorrente (RNN) para a classificação. A segunda parte apresenta dois modelos de aprendizagem profunda (DL) desenvolvidos para tratar com a classificação de eventos multi-instâncias multi-rótulos (MIML) em vídeos de jogo. A arquitetura desses modelos é baseada em um script para a geração de dados, em uma rede neural convolucional (CNN), em um extrator de características e em uma rede classificadora. As principais contribuições dessa segunda parte são: 1) a implemetação de um gerador de dados automático para produzir e rotular frames a partir de videos de jogos; 2) A construção de um de datasets balanceados para o treinamento dos modelos; 3) a implementação de uma MobileNetV2 refinada para tratar especificamente de vídeos de jogos; 4) a implementação de modelos de aprendizagem profunda para a realização de classificação de eventos em cenários MIML.
Abstract: Video games, in addition to representing an extremely relevant field of entertainment and market, have been widely used as a case study in artificial intelligence for representing a problem with a high degree of complexity. In such studies, the investigation of approaches that endow player agents with the ability to retrieve relevant information from game scenes stands out, since such information can be very useful to improve their learning ability. This work is divided into two parts, the first proposes and analyses new deep learning-based models to identify game events occurring in Super Mario Bros gameplay footage. These models are composed of a feature extractor convolutional neural network (CNN) and a classifier neural network (NN). The extracting CNN aims to produce a feature-based representation for game scenes and submit it to the classifier so that the latter can identify the game event present in each scene. The main contribution of this first part is to demonstrate the greater performance reached by the models that associate chunk representation of the data with the resources of the classifier recurrent neural networks (RNN). The second part of the study presents two deep learning (DL) models designed to deal with multi-instance multi-labels (MIML) event classification in gameplay footage. The architecture of these models is based on a data generator script, a convolutional neural network (CNN) feature extractor, and a deep classifier neural network. The main contributions of this second part are: 1) implementation of an automatic data generator script to produce the frames from the game footage; 2) construction of a frame-based and a chunk-based pre-processed/balanced datasets to train the models; 3) generating a fine-tuned MobileNetV2, from the standard MobileNetV2, specialized in dealing with gameplay footage; 4) implementation of the DL models to perform MIML event classification in gameplay footage.
Keywords: Gameplay Footage
Game Events
Feature Extraction
Classification
Super Mario Bros
CNN
RNN
Frames
Chunks
MIML
Event Classification
Multi-Label
Deep MIML Network
Multi-Label Classification
Multi-Instance Classification
Video Classification
Area (s) of CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO::COMPUTABILIDADE E MODELOS DE COMPUTACAO
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::PROCESSAMENTO GRAFICO (GRAPHICS)
Subject: Computação
Jogos para computador
Indústria de entretenimento
Vídeogames
Language: eng
Country: Brasil
Publisher: Universidade Federal de Uberlândia
Program: Programa de Pós-graduação em Ciência da Computação
Quote: JULIA, Etienne da Silva. A deep learning system to perform multi-instance multi-Label event classification in video game footage. 2022. 85 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2022. DOI https://doi.org/10.14393/ufu.di.2022.562
Document identifier: http://doi.org/10.14393/ufu.di.2022.562
URI: https://repositorio.ufu.br/handle/123456789/36957
Date of defense: 17-Aug-2022
Appears in Collections:DISSERTAÇÃO - Ciência da Computação

Files in This Item:
File Description SizeFormat 
DeepLearningSystem.pdfDissertação3.85 MBAdobe PDFThumbnail
View/Open


This item is licensed under a Creative Commons License Creative Commons