Please use this identifier to cite or link to this item:
https://repositorio.ufu.br/handle/123456789/38729
ORCID: | http://orcid.org/0009-0009-4015-4876 |
Document type: | Trabalho de Conclusão de Curso |
Access type: | Acesso Aberto |
Title: | Classificação do perfil dos clientes através de técnicas de mineração de dados |
Author: | Santos, Matheus Henrique |
First Advisor: | Silva, José Waldemar da |
First member of the Committee: | Paiva, Elaine Ribeiro de Faria |
Second member of the Committee: | Araújo, Lucio Borges |
Summary: | Atualmente volumes de dados cada vez maiores são gerados, porém nem sempre os mesmos são utilizados de forma “inteligente” para extração de informações. Nesse cenário, as ferramentas de mineração de dados são utilizadas para auxiliar a extrair informações que nem sempre são tão óbvias ou explícitas, o que faz com que ela seja uma das tecnologias mais promissoras da atualidade. O presente trabalho foi desenvolvido com a finalidade de criar um modelo de classificação, através de técnicas de mineração de dados, para a classificação do perfil dos clientes (Cliente Venda ou Cliente Não Venda) de uma empresa real. A estrutura deste Estudo de Caso utilizou a metodologia CRISP-DM, que é a mais usual em problemas que envolvam Mineração de Dados. Essa metodologia é segmentada em 06 etapas, que são: Entendimento do Negócio, Entendimento dos Dados, Preparação dos Dados, Modelagem, Avaliação e Utilização. Dois algoritmos de Classificação foram testados para desenvolvimento do modelo: Árvore de Decisão e Regressão Logística. Para aplicação nos algoritmos, a base de dados foi dividida em duas bases: Base de Treino (composta por 70% dos dados) e Base de Teste (Composta por 30% dos dados). Por se tratar de uma base com dados desbalanceados, devido a expressiva superioridade de clientes na classe Não Vendas, duas metodologias foram avaliadas para balanceamento dos dados: aplicação do SMOTE (Synthetic Minority Oversampling Technique) para técnica de sobreamostragem e ajuste dos pesos das classes minoritária e majoritária dentro das funções de custo dos algoritmos. Os modelos de Regressão Logística tanto para a aplicação do SMOTE quanto para ajuste dos pesos das classes apresentaram resultados semelhantes, e foram os que apresentaram melhores resultados. Com isso, o estudo permitiu concluir que o modelo de classificação encontrado, através da técnica de Regressão Logística, é de extrema relevância para a empresa, resultando em uma redução dos custos com a contactação dos clientes e um aumento expressivo do volume de retorno desses contatos (Vendas). |
Abstract: | Currently, ever-increasing volumes of data are generated, but they are not always used in an “intelligent” way to extract information. In this scenario, data mining tools are used to help extract information that is not always so obvious or explicit, which makes it one of the most promising technologies today. The present work was developed with the purpose of creating a classification model, through data mining techniques, for the classification of the profile of the customers (Customer for Sale or Customer Not for Sale) of a real company. The structure of this Case Study used the CRISP-DM methodology, which is the most common in problems involving Data Mining. This methodology is segmented into 06 stages, which are: Business Understanding, Data Understanding, Data Preparation, Modeling, Evaluation and Use. Two Classification algorithms were tested for model development: Decision Tree and Logistic Regression. For application in the algorithms, the database was divided into two bases: Training Base (composed of 70% of the data) and Test Base (Comprised of 30% of the data). As this is a database with unbalanced data, due to the significant superiority of customers in the Non-Sales class, two methodologies were evaluated for data balancing: application of SMOTE (Synthetic Minority Oversampling Technique) for oversampling technique and adjustment of weights of the minority and majority classes within the cost functions of the algorithms. The Logistic Regression models both for the application of SMOTE and for adjusting the weights of the classes presented similar results, and were the ones that presented the best results. With this, the study concluded that the classification model found, through the Logistic Regression technique, is extremely relevant for the company, resulting in a reduction in the costs of contacting customers and a significant increase in the volume of return of these contacts (Sales). |
Keywords: | Aprendizado de Máquina Regressão Logística Árvore de Decisão Perfil de Clientes Machine Learning Logistic Regression Decision Tree Customer Profile |
Area (s) of CNPq: | CNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA |
Language: | por |
Country: | Brasil |
Publisher: | Universidade Federal de Uberlândia |
Quote: | SANTOS, Matheus Henrique. Classificação do perfil dos clientes através de técnicas de mineração de dados. 2023. 59 f. Trabalho de Conclusão de Curso (Graduação em Estatística) – Universidade Federal de Uberlândia, Uberlândia, 2023. |
URI: | https://repositorio.ufu.br/handle/123456789/38729 |
Date of defense: | 13-Jun-2023 |
Appears in Collections: | TCC - Estatística |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
ClassificaçãoPerfilClientes.pdf | TCC | 1.3 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.