Please use this identifier to cite or link to this item: https://repositorio.ufu.br/handle/123456789/24135
Document type: Dissertação
Access type: Acesso Aberto
Title: Uma avaliação empírica de transformações aleatórias aplicadas a ensembles de agrupamento de dados
Alternate title (s): An empirical evaluation of random transformations applied to ensemble clustering
Author: Rodrigues, Gabriel Damasceno
First Advisor: Albertini, Marcelo Keese
Second member of the Committee: Carneiro, Murillo Guimarães
Third member of the Committee: Naldi, Murilo Coelho
Summary: The number of ensemble clustering techniques have grown in recent years offering better average performance among domains and datasets. Other expected benefits are to find novelty clustering which are unattainable by any single clustering algorithm and to provide clustering stability, such that the quality is little affected by noise, outliers or sampling variations. The main clustering ensemble strategies are: to combine results of different clustering algorithms; to produce different results by resampling the data, such as in bagging and boosting techniques; and to execute a given algorithm multiple times with different parameters or initialization. Often ensemble techniques are developed for supervised settings and later adapted to the unsupervised setting. Recently, Blaser and Fryzlewicz proposed an ensemble technique to classification based on resampling and transforming input data. Specifically, they employed random rotations to improve significantly Random Forests performance. In this work, we have empirically studied the effects of random transformations based in rotation matrices, Mahalanobis distance and density proximity to improve ensemble clustering. Our experiments considered 12 data sets and 25 variations of random transformations, given a total of 5100 data sets applied to 8 algorithms and evaluated by 4 clustering measures. Statistical tests identified 17 random transformations that are viable to be applied to ensembles and standard clustering algorithms, which had positive effects on cluster quality. In our results, the best performing transforms were Mahalanobis-based transformations. The ensemble algorithms which best profited from these were CBA and bClust.
Abstract: O número de técnicas de ensemble de agrupamento de dados cresceu nos últimos anos, oferecendo um melhor desempenho médio entre diversos domínios e conjuntos de dados. Benefícios colaterais são encontrar novos agrupamentos inatingíveis por um único algoritmo de agrupamento e também fornecer estabilidade de agrupamento. As principais estratégias de ensemble de agrupamento de dados são: combinar resultados de diferentes algoritmos de agrupamento; produzir resultados diferentes por meio de reamostragem dos dados, como nas técnicas de bagging e boosting; e executar um determinado algoritmo várias vezes com diferentes parâmetros ou inicialização. Muitas vezes, as técnicas de ensemble são desenvolvidas para ambientes supervisionados e, posteriormente, adaptadas para ambientes não supervisionados. Recentemente, Blaser e Fryzlewicz propuseram uma técnica de agrupamento para classificação baseada em reamostragem e transformação dos dados de entrada. Especificamente, eles empregaram rotações aleatórias para melhorar significativamente o desempenho de Random Forests. Neste trabalho, estudamos empiricamente os efeitos de transformações aleatórias baseadas em matrizes de rotação, distância de Mahalanobis e proximidade usando densidade para melhorar o ensemble de agrupamento de dados. Nossos experimentos consideraram 12 conjuntos de dados e 25 variações de transformações aleatórias, considerando então um total de 5100 conjuntos de dados aplicados a 8 algoritmos de agrupamento que foram avaliados por 4 medidas de avaliação. Testes estatísticos identificaram 17 transformações viáveis para serem aplicadas previamente em ensembles e em agrupamento de dados comum produzindo consistentemente efeitos positivos na qualidade do agrupamento. Em nossos experimentos, as melhores transformações foram as baseadas em Mahalanobis. Os algoritmos de agrupamento em ensemble que mais se beneĄciaram com as transformações foram o CBA e o bClust.
Keywords: Data clustering
Agrupamento de dados
Clustering Ensembles
Ensembles de agrupamento de dados
Random transformations
Transformações Aleatórias
Computação
Aprendizado do computador
Area (s) of CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::BANCO DE DADOS
Language: eng
Country: Brasil
Publisher: Universidade Federal de Uberlândia
Program: Programa de Pós-graduação em Ciência da Computação
Quote: RODRIGUES, Gabriel Damasceno. Uma avaliação empírica de transformações aleatórias aplicadas a ensembles de agrupamento de dados. 88 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2018. Disponível em: http://dx.doi.org/10.14393/ufu.di.2019.311.
Document identifier: http://dx.doi.org/10.14393/ufu.di.2019.311
URI: https://repositorio.ufu.br/handle/123456789/24135
Date of defense: 20-Dec-2018
Appears in Collections:DISSERTAÇÃO - Ciência da Computação

Files in This Item:
File Description SizeFormat 
EmpiricalEvaluationRandom.pdf6.61 MBAdobe PDFThumbnail
View/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.