Please use this identifier to cite or link to this item: https://repositorio.ufu.br/handle/123456789/24135
Full metadata record
DC FieldValueLanguage
dc.creatorRodrigues, Gabriel Damasceno-
dc.date.accessioned2019-01-31T11:38:24Z-
dc.date.available2019-01-31T11:38:24Z-
dc.date.issued2018-12-20-
dc.identifier.citationRODRIGUES, Gabriel Damasceno. Uma avaliação empírica de transformações aleatórias aplicadas a ensembles de agrupamento de dados. 88 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2018. DOI http://dx.doi.org/10.14393/ufu.di.2019.311.pt_BR
dc.identifier.urihttps://repositorio.ufu.br/handle/123456789/24135-
dc.description.abstractO número de técnicas de ensemble de agrupamento de dados cresceu nos últimos anos, oferecendo um melhor desempenho médio entre diversos domínios e conjuntos de dados. Benefícios colaterais são encontrar novos agrupamentos inatingíveis por um único algoritmo de agrupamento e também fornecer estabilidade de agrupamento. As principais estratégias de ensemble de agrupamento de dados são: combinar resultados de diferentes algoritmos de agrupamento; produzir resultados diferentes por meio de reamostragem dos dados, como nas técnicas de bagging e boosting; e executar um determinado algoritmo várias vezes com diferentes parâmetros ou inicialização. Muitas vezes, as técnicas de ensemble são desenvolvidas para ambientes supervisionados e, posteriormente, adaptadas para ambientes não supervisionados. Recentemente, Blaser e Fryzlewicz propuseram uma técnica de agrupamento para classificação baseada em reamostragem e transformação dos dados de entrada. Especificamente, eles empregaram rotações aleatórias para melhorar significativamente o desempenho de Random Forests. Neste trabalho, estudamos empiricamente os efeitos de transformações aleatórias baseadas em matrizes de rotação, distância de Mahalanobis e proximidade usando densidade para melhorar o ensemble de agrupamento de dados. Nossos experimentos consideraram 12 conjuntos de dados e 25 variações de transformações aleatórias, considerando então um total de 5100 conjuntos de dados aplicados a 8 algoritmos de agrupamento que foram avaliados por 4 medidas de avaliação. Testes estatísticos identificaram 17 transformações viáveis para serem aplicadas previamente em ensembles e em agrupamento de dados comum produzindo consistentemente efeitos positivos na qualidade do agrupamento. Em nossos experimentos, as melhores transformações foram as baseadas em Mahalanobis. Os algoritmos de agrupamento em ensemble que mais se beneĄciaram com as transformações foram o CBA e o bClust.pt_BR
dc.description.sponsorshipUFU - Universidade Federal de Uberlândiapt_BR
dc.languageengpt_BR
dc.publisherUniversidade Federal de Uberlândiapt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectData clusteringpt_BR
dc.subjectAgrupamento de dadospt_BR
dc.subjectClustering Ensemblespt_BR
dc.subjectEnsembles de agrupamento de dadospt_BR
dc.subjectRandom transformationspt_BR
dc.subjectTransformações Aleatóriaspt_BR
dc.subjectComputaçãopt_BR
dc.subjectAprendizado do computadorpt_BR
dc.titleUma avaliação empírica de transformações aleatórias aplicadas a ensembles de agrupamento de dadospt_BR
dc.title.alternativeAn empirical evaluation of random transformations applied to ensemble clusteringpt_BR
dc.typeDissertaçãopt_BR
dc.contributor.advisor1Albertini, Marcelo Keese-
dc.contributor.advisor1Latteshttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?metodo=apresentar&id=K4184508T7pt_BR
dc.contributor.referee2Carneiro, Murillo Guimarães-
dc.contributor.referee2Latteshttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4206648Z3pt_BR
dc.contributor.referee3Naldi, Murilo Coelho-
dc.contributor.referee3Latteshttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4771334Y6pt_BR
dc.creator.Latteshttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?metodo=apresentar&id=K8752491A2pt_BR
dc.description.degreenameDissertação (Mestrado)pt_BR
dc.description.resumoThe number of ensemble clustering techniques have grown in recent years offering better average performance among domains and datasets. Other expected benefits are to find novelty clustering which are unattainable by any single clustering algorithm and to provide clustering stability, such that the quality is little affected by noise, outliers or sampling variations. The main clustering ensemble strategies are: to combine results of different clustering algorithms; to produce different results by resampling the data, such as in bagging and boosting techniques; and to execute a given algorithm multiple times with different parameters or initialization. Often ensemble techniques are developed for supervised settings and later adapted to the unsupervised setting. Recently, Blaser and Fryzlewicz proposed an ensemble technique to classification based on resampling and transforming input data. Specifically, they employed random rotations to improve significantly Random Forests performance. In this work, we have empirically studied the effects of random transformations based in rotation matrices, Mahalanobis distance and density proximity to improve ensemble clustering. Our experiments considered 12 data sets and 25 variations of random transformations, given a total of 5100 data sets applied to 8 algorithms and evaluated by 4 clustering measures. Statistical tests identified 17 random transformations that are viable to be applied to ensembles and standard clustering algorithms, which had positive effects on cluster quality. In our results, the best performing transforms were Mahalanobis-based transformations. The ensemble algorithms which best profited from these were CBA and bClust.pt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.programPrograma de Pós-graduação em Ciência da Computaçãopt_BR
dc.sizeorduration88pt_BR
dc.subject.cnpqCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::BANCO DE DADOSpt_BR
dc.identifier.doihttp://dx.doi.org/10.14393/ufu.di.2019.311pt_BR
dc.crossref.doibatchidpublicado no crossref antes da rotina xml-
Appears in Collections:DISSERTAÇÃO - Ciência da Computação

Files in This Item:
File Description SizeFormat 
EmpiricalEvaluationRandom.pdf6.61 MBAdobe PDFThumbnail
View/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.