A deep learning system to perform multi-instance multi-label event classification in video game footage

Julia, Etienne da Silva

Please use this identifier to cite or link to this item: https://repositorio.ufu.br/handle/123456789/36957

Document type:	Dissertação
Access type:	Acesso Aberto
Title:	A deep learning system to perform multi-instance multi-label event classification in video game footage
Alternate title (s):	Um modelo de aprendizagem profunda para a classificação multi-instância, multi-rótulos em vídeos de jogos digitais
Author:	Julia, Etienne da Silva
First Advisor:	Nascimento, Marcelo Zanchetta do
First member of the Committee:	Oliveira, Marcelo Costa
Second member of the Committee:	Gabriel, Paulo Henrique Ribeiro
Summary:	Jogos digitais, além de serem um setor da indústria de entretenimento extremamente relevante, são muito utilizados como objetos de estudo na inteligência artificial, uma vez que representam um cenário de alta complexidade. Nesses estudos, destaca-se a investigação de abordagens para capacitar agentes jogadores com a habilidade de recuperar informações relevantes, já que isso é muito útil para maximizar a capacidade de aprendizagem desses agentes. Esse trabalho é dividido em duas partes, a primeira propõe e analiza novos modelos profundos de aprendizagem para identificar eventos em vídeos do jogo Super Mario Bros. Esses modelos são compostos por uma rede neural convolucional (CNN), responsável pela extração de características, e uma rede neural artificial (NN) para a classificação. O objetivo da CNN é produzir uma nova representação para as cenas de jogo que maximize a performance da rede classificadora na tarefa de identificar eventos de jogo. A principal contribuiçaõ dessa primeira parte é a demonstração de uma performance superior obtida por modelos que utilizam de uma representação dos dados por \textit{chunks} combinados com os recursos de uma rede neural recorrente (RNN) para a classificação. A segunda parte apresenta dois modelos de aprendizagem profunda (DL) desenvolvidos para tratar com a classificação de eventos multi-instâncias multi-rótulos (MIML) em vídeos de jogo. A arquitetura desses modelos é baseada em um script para a geração de dados, em uma rede neural convolucional (CNN), em um extrator de características e em uma rede classificadora. As principais contribuições dessa segunda parte são: 1) a implemetação de um gerador de dados automático para produzir e rotular frames a partir de videos de jogos; 2) A construção de um de datasets balanceados para o treinamento dos modelos; 3) a implementação de uma MobileNetV2 refinada para tratar especificamente de vídeos de jogos; 4) a implementação de modelos de aprendizagem profunda para a realização de classificação de eventos em cenários MIML.
Abstract:	Video games, in addition to representing an extremely relevant field of entertainment and market, have been widely used as a case study in artificial intelligence for representing a problem with a high degree of complexity. In such studies, the investigation of approaches that endow player agents with the ability to retrieve relevant information from game scenes stands out, since such information can be very useful to improve their learning ability. This work is divided into two parts, the first proposes and analyses new deep learning-based models to identify game events occurring in Super Mario Bros gameplay footage. These models are composed of a feature extractor convolutional neural network (CNN) and a classifier neural network (NN). The extracting CNN aims to produce a feature-based representation for game scenes and submit it to the classifier so that the latter can identify the game event present in each scene. The main contribution of this first part is to demonstrate the greater performance reached by the models that associate chunk representation of the data with the resources of the classifier recurrent neural networks (RNN). The second part of the study presents two deep learning (DL) models designed to deal with multi-instance multi-labels (MIML) event classification in gameplay footage. The architecture of these models is based on a data generator script, a convolutional neural network (CNN) feature extractor, and a deep classifier neural network. The main contributions of this second part are: 1) implementation of an automatic data generator script to produce the frames from the game footage; 2) construction of a frame-based and a chunk-based pre-processed/balanced datasets to train the models; 3) generating a fine-tuned MobileNetV2, from the standard MobileNetV2, specialized in dealing with gameplay footage; 4) implementation of the DL models to perform MIML event classification in gameplay footage.
Keywords:	Gameplay Footage Game Events Feature Extraction Classification Super Mario Bros CNN RNN Frames Chunks MIML Event Classification Multi-Label Deep MIML Network Multi-Label Classification Multi-Instance Classification Video Classification
Area (s) of CNPq:	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO::COMPUTABILIDADE E MODELOS DE COMPUTACAO CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::PROCESSAMENTO GRAFICO (GRAPHICS)
Subject:	Computação Jogos para computador Indústria de entretenimento Vídeogames
Language:	eng
Country:	Brasil
Publisher:	Universidade Federal de Uberlândia
Program:	Programa de Pós-graduação em Ciência da Computação
Quote:	JULIA, Etienne da Silva. A deep learning system to perform multi-instance multi-Label event classification in video game footage. 2022. 85 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2022. DOI https://doi.org/10.14393/ufu.di.2022.562
Document identifier:	http://doi.org/10.14393/ufu.di.2022.562
URI:	https://repositorio.ufu.br/handle/123456789/36957
Date of defense:	17-Aug-2022
Appears in Collections:	DISSERTAÇÃO - Ciência da Computação

Files in This Item:

File	Description	Size	Format
DeepLearningSystem.pdf	Dissertação	3.85 MB	Adobe PDF	View/Open

Show full item record

This item is licensed under a Creative Commons License