Aprendizado profundo para classificação de sentimentos em microblogs

Graciano, Gabriel Franco Dias

Please use this identifier to cite or link to this item: https://repositorio.ufu.br/handle/123456789/26220

ORCID:	http://orcid.org/0000-0002-4022-2754
Document type:	Trabalho de Conclusão de Curso
Access type:	Acesso Aberto
Title:	Aprendizado profundo para classificação de sentimentos em microblogs
Alternate title (s):	Deep learning for sentiment classification in microblogs
Author:	Graciano, Gabriel Franco Dias
First Advisor:	Carneiro, Murillo Guimarães
First member of the Committee:	Lopes, Carlos Roberto
Second member of the Committee:	Martins, Luiz Gustavo Almeida
Summary:	A Internet, atualmente, representa um dos maiores meios de comunicação e compartilhamento de informações. No Brasil e em vários outros países, a grande maioria da população a utiliza para uma série de atividades. Exemplos incluem as redes sociais e os microblogs, ambientes onde são frequentes as manifestações de opiniões e discussões sobre produtos, serviços ou outros assuntos de interesse geral. Neste contexto, a tarefa de classificação de sentimentos pode rotular opiniões expressas em tais veículos como positivas, negativas ou neutras, utilizando algoritmos para Processamento de Línguas Naturais (PLN) e Aprendizado de Máquina. O objetivo desse trabalho foi investigar a aplicação de técnicas de Aprendizado Profundo para classificação de sentimentos em publicações da rede social Twitter, considerando assuntos de interesse para a população. Especificamente, este estudo considerou a manifestação de opiniões sobre a corrida presidencial brasileira no ano de 2018. A coleta dos dados foi realizada por meio da Tweepy, uma Interface de Programação de Aplicativos (API) disponibilizada pelo Twitter, em todos os dias que houveram debates televisionados. A base de dados foi pré-processada utilizando técnicas de PLN. Para a realização dos experimentos, um conjunto relevante de algoritmos de classificação de dados foi selecionado a partir da literatura (naive Bayes, árvore de decisão, regressão logística, máquina de vetores de suporte), e comparados com as redes neurais profundas. Os resultados obtidos mostraram que o classificador de regressão logística alcançou o melhor desempenho entre os algoritmos tradicionais, com 54% de acurácia média. O desempenho das redes neurais profundas foi equivalente, alcançando até 54% de acurácia média de acordo com os ajustes dos parâmetros. Este resultado é visto como promissor, uma vez que há espaço para melhora de desempenho dessas técnicas se considerarmos que um número bastante reduzido de parâmetros foi estudado. Ademais, o baixo desempenho de outras técnicas, tais como o naive Bayes, evidenciam que o número de tweets (publicações do Twitter) rotulados na base de dados ainda é pequeno e que o desempenho geral das técnicas pode ser melhorado pela anotação de mais deles.
Abstract:	The Internet today represents one of the leading means of communication and information sharing. In Brazil and in several other countries, the vast majority of the population uses it for a variety of activities. Examples include social networks and microblogs, environments where there are frequent manifestation of opinions and discussions about products, services or other subjects of general interest. In this context, the task of sentiment analysis may label opinions expressed in such vehicles as positive, negative or neutral, using algorithms of natural language processing (NLP) and machine learning. The objective of this study was to investigate the application of deep learning techniques to sentiment classification on a Twitter corpus, considering subjects of interest to the population. Specifically, this study considered the manifestation of opinions about the Brazilian presidential elections of 2018. Data collection was done through Tweepy, an application programming interface (API) provided by Twitter, on all days of televised debates. The database was preprocessed using NLP techniques. To perform the experiments, a relevant set of data classification algorithms was selected from the literature (naive Bayes, decision tree, logistic regression and support vector machines), and compared with deep neural networks. The results obtained showed that the logistic regression classifier achieved the best performance among traditional algorithms, with an averaged accuracy of 54%. The predictive performance of the deep neural network was equivalent, achieving the same 54% of averaged accuracy in a given parameter setting. This result is promising because there is a large space for improving the performance of such a technique as a small amount of parameters was studied. In addition, the poor performance of other techniques, such as the naive Bayes, show that the number of labeled tweets (Twitter posts) on the database is still small and that the overall performance of the classification techniques can be improved by labeling more of them.
Keywords:	Aprendizado profundo Deep learning Aprendizado de máquina Machine learning Análise de sentimentos Sentiment analysis Redes neurais Neural networks Processamento de línguas naturais Natural language processing
Area (s) of CNPq:	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
Language:	por
Country:	Brasil
Publisher:	Universidade Federal de Uberlândia
Quote:	GRACIANO, Gabriel Franco Dias. Aprendizado profundo para classificação de sentimentos em microblogs. 2019. 48 f. Trabalho de Conclusão de Curso (Graduação em Sistemas de Informação) - Universidade Federal de Uberlândia, Monte Carmelo, 2019.
URI:	https://repositorio.ufu.br/handle/123456789/26220
Date of defense:	12-Jul-2019
Appears in Collections:	TCC - Sistemas de Informação (Monte Carmelo)

Files in This Item:

File	Description	Size	Format
AprendizadoProfundoPara.pdf		1.2 MB	Adobe PDF	View/Open

Show full item record

This item is licensed under a Creative Commons License