Por favor, use este identificador para citar o enlazar este ítem: https://repositorio.ufu.br/handle/123456789/18309
Tipo de documento: Dissertação
Tipo de acceso: Acesso Aberto
Título: Combinando semi-supervisão e hubness para aprimorar o agrupamento de dados em alta dimensão
Autor: Lima, Mateus Curcino de
Primer orientador: Barioni, Maria Camila Nardini
Primer miembro de la banca: Faria, Elaine Ribeiro de
Segundo miembro de la banca: Ribeiro, Marcela Xavier
Resumen: A chamada maldição da dimensionalidade faz com que a análise de dados em alta dimensão seja uma tarefa desafiadora para técnicas de agrupamento de dados. Para tratar desta questão, trabalhos recentes têm empregado de forma eficiente um aspecto inerente de dados de alta dimensão na realização de processos de agrupamentos de dados. Esse aspecto, denominado hubness, consiste na tendência de algumas instâncias de dados, chamadas hubs, ocorrerem com maior frequência nas listas dos K-vizinhos mais próximos de outras instâncias. Contudo, os hubs podem não refletir a semântica implícita dos dados, levando a uma partição de dados inadequada. Esta dissertação apresenta uma abordagem de agrupamento que explora a combinação de duas estratégias: semi-supervisão e estimativa de densidade baseada em pontuações hubness. Os resultados dos experimentos realizados com 23 conjuntos de dados reais mostram que a abordagem proposta tem um desempenho superior quando aplicada em conjuntos de dados com características diferentes.
Abstract: The curse of dimensionality turns the high-dimensional data analysis a challenging task for data clustering techniques. Recent works have efficiently employed an aspect inherent to high-dimensional data in the proposal of clustering approaches guided by hubs which provide information about the distribution of the data instances among the K-nearest neighbors. Though, hubs can not well reflect the implicit semantics of the data, leading to an unsuitable data partition. In order to cope with both issues (i.e., high-dimensional data and meaningful clusters), this dissertation presents a clustering approach that explores the combination of two strategies: semi-supervision and density estimation based on hubness scores. The experimental results conducted with 23 real datasets show that the proposed approach has a good performance when applied on datasets with different characteristics.
Palabras clave: Computação
Mineração de dados (Computação)
Banco de dados
Agrupamento semi-supervisionado
Análise de dados em alta dimensão
Hubness
Data mining
High-dimensional data analysis
Hubness
Semi-supervised clustering
Área (s) del CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Idioma: por
País: Brasil
Editora: Universidade Federal de Uberlândia
Programa: Programa de Pós-graduação em Ciência da Computação
Cita: LIMA, Mateus Curcino de. Combinando semi-supervisão e hubness para aprimorar o agrupamento de dados em alta dimensão. 2017. 90 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2017.
Identificador del documento: ufu.http://dx.doi.org/10.14393/ufu.di.2017.113
URI: https://repositorio.ufu.br/handle/123456789/18309
Fecha de defensa: 23-ene-2017
Aparece en las colecciones:DISSERTAÇÃO - Ciência da Computação

Ficheros en este ítem:
Fichero Descripción TamañoFormato 
CombinandoSemiSupervisao.pdfDissertação5.32 MBAdobe PDFVista previa
Visualizar/Abrir


Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.