Uma avaliação empírica de transformações aleatórias aplicadas a ensembles de agrupamento de dados

Rodrigues, Gabriel Damasceno

Use este identificador para citar ou linkar para este item: https://repositorio.ufu.br/handle/123456789/24135

Tipo do documento:	Dissertação
Tipo de acesso:	Acesso Aberto
Título:	Uma avaliação empírica de transformações aleatórias aplicadas a ensembles de agrupamento de dados
Título(s) alternativo(s):	An empirical evaluation of random transformations applied to ensemble clustering
Autor(es):	Rodrigues, Gabriel Damasceno
Primeiro orientador:	Albertini, Marcelo Keese
Segundo membro da banca:	Carneiro, Murillo Guimarães
Terceiro membro da banca:	Naldi, Murilo Coelho
Resumo:	The number of ensemble clustering techniques have grown in recent years offering better average performance among domains and datasets. Other expected benefits are to find novelty clustering which are unattainable by any single clustering algorithm and to provide clustering stability, such that the quality is little affected by noise, outliers or sampling variations. The main clustering ensemble strategies are: to combine results of different clustering algorithms; to produce different results by resampling the data, such as in bagging and boosting techniques; and to execute a given algorithm multiple times with different parameters or initialization. Often ensemble techniques are developed for supervised settings and later adapted to the unsupervised setting. Recently, Blaser and Fryzlewicz proposed an ensemble technique to classification based on resampling and transforming input data. Specifically, they employed random rotations to improve significantly Random Forests performance. In this work, we have empirically studied the effects of random transformations based in rotation matrices, Mahalanobis distance and density proximity to improve ensemble clustering. Our experiments considered 12 data sets and 25 variations of random transformations, given a total of 5100 data sets applied to 8 algorithms and evaluated by 4 clustering measures. Statistical tests identified 17 random transformations that are viable to be applied to ensembles and standard clustering algorithms, which had positive effects on cluster quality. In our results, the best performing transforms were Mahalanobis-based transformations. The ensemble algorithms which best profited from these were CBA and bClust.
Abstract:	O número de técnicas de ensemble de agrupamento de dados cresceu nos últimos anos, oferecendo um melhor desempenho médio entre diversos domínios e conjuntos de dados. Benefícios colaterais são encontrar novos agrupamentos inatingíveis por um único algoritmo de agrupamento e também fornecer estabilidade de agrupamento. As principais estratégias de ensemble de agrupamento de dados são: combinar resultados de diferentes algoritmos de agrupamento; produzir resultados diferentes por meio de reamostragem dos dados, como nas técnicas de bagging e boosting; e executar um determinado algoritmo várias vezes com diferentes parâmetros ou inicialização. Muitas vezes, as técnicas de ensemble são desenvolvidas para ambientes supervisionados e, posteriormente, adaptadas para ambientes não supervisionados. Recentemente, Blaser e Fryzlewicz propuseram uma técnica de agrupamento para classificação baseada em reamostragem e transformação dos dados de entrada. Especificamente, eles empregaram rotações aleatórias para melhorar significativamente o desempenho de Random Forests. Neste trabalho, estudamos empiricamente os efeitos de transformações aleatórias baseadas em matrizes de rotação, distância de Mahalanobis e proximidade usando densidade para melhorar o ensemble de agrupamento de dados. Nossos experimentos consideraram 12 conjuntos de dados e 25 variações de transformações aleatórias, considerando então um total de 5100 conjuntos de dados aplicados a 8 algoritmos de agrupamento que foram avaliados por 4 medidas de avaliação. Testes estatísticos identificaram 17 transformações viáveis para serem aplicadas previamente em ensembles e em agrupamento de dados comum produzindo consistentemente efeitos positivos na qualidade do agrupamento. Em nossos experimentos, as melhores transformações foram as baseadas em Mahalanobis. Os algoritmos de agrupamento em ensemble que mais se beneĄciaram com as transformações foram o CBA e o bClust.
Palavras-chave:	Data clustering Agrupamento de dados Clustering Ensembles Ensembles de agrupamento de dados Random transformations Transformações Aleatórias Computação Aprendizado do computador
Área(s) do CNPq:	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::BANCO DE DADOS
Idioma:	eng
País:	Brasil
Editora:	Universidade Federal de Uberlândia
Programa:	Programa de Pós-graduação em Ciência da Computação
Referência:	RODRIGUES, Gabriel Damasceno. Uma avaliação empírica de transformações aleatórias aplicadas a ensembles de agrupamento de dados. 88 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2018. DOI http://dx.doi.org/10.14393/ufu.di.2019.311.
Identificador do documento:	http://dx.doi.org/10.14393/ufu.di.2019.311
URI:	https://repositorio.ufu.br/handle/123456789/24135
Data de defesa:	20-Dez-2018
Aparece nas coleções:	DISSERTAÇÃO - Ciência da Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
EmpiricalEvaluationRandom.pdf		6.61 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas