Aprendizado ativo para classificadores de fluxo de dados baseados em agrupamento

Cavalcanti, Douglas Monteiro

Please use this identifier to cite or link to this item: https://repositorio.ufu.br/handle/123456789/34035

Full metadata record

DC Field	Value	Language
dc.creator	Cavalcanti, Douglas Monteiro	-
dc.date.accessioned	2022-02-03T13:05:03Z	-
dc.date.available	2022-02-03T13:05:03Z	-
dc.date.issued	2021-11-25	-
dc.identifier.citation	CAVALCANTI, Douglas Monteiro. Aprendizado ativo para classificadores de fluxo de dados Baseados em agrupamento. 2021. 78 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2021. DOI http://doi.org/10.14393/ufu.di.2021.673	pt_BR
dc.identifier.uri	https://repositorio.ufu.br/handle/123456789/34035	-
dc.description.abstract	The update process of clustering-based data stream classifiers generates clusters from partially or fully unlabeled data instances. Each cluster is then categorized as the extension of a known class or as the emergence of a new one, summarized, and finally added to the classification model. Considering the cost of label acquisition, when compared to exclusively supervised approaches, clustering-based strategies present the advantage of allowing the use of unlabeled data to update the classification model. However, the gain of information about the data classes’ distribution through unlabeled data is subject to assumptions of how the distribution of the features interacts with the distribution of the data classes. Because of that, the updated process of clustering-based data stream classifiers is prone to fail as this interaction changes unexpectedly due to the stream’s non-stationary characteristic, leading to class inference errors and consequently the miscategorization of clusters, compromising the consistency of the classification model. Considering this problem, in this work, we propose an active learning strategy that selects for the clusters for which the categorization is more uncertain and then, for each chosen cluster, queries for the label of the instances more informative in the context of the inner cluster distribution. By dividing the active learning query responsibility among two query strategies, one for the cluster-level and the other for the instance-level, the strategy guarantees an efficient and effective use of label resources by acquiring labels only for the clusters more likely to need it. To test the proposed active learning strategy, we applied it to two clustering-based data stream classifiers from the literature: MINAS and ECHO. In the results, the active learning strategy recovered a significant number of cluster miscategorizations at the cost of a few additional label acquisitions.	pt_BR
dc.description.sponsorship	Pesquisa sem auxílio de agências de fomento	pt_BR
dc.language	eng	pt_BR
dc.publisher	Universidade Federal de Uberlândia	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject	Fluxo de Dados	pt_BR
dc.subject	Data Stream	pt_BR
dc.subject	Aprendizado Ativo	pt_BR
dc.subject	Active Learning	pt_BR
dc.subject	Agrupamento	pt_BR
dc.subject	Clustering	pt_BR
dc.subject	Semi-supervisão	pt_BR
dc.subject	Semi-supervision	pt_BR
dc.title	Aprendizado ativo para classificadores de fluxo de dados baseados em agrupamento	pt_BR
dc.title.alternative	Active learning for clustering-based data stream classifiers	pt_BR
dc.type	Dissertação	pt_BR
dc.contributor.advisor-co1	Cerri, Ricardo	-
dc.contributor.advisor-co1Lattes	http://lattes.cnpq.br/6266519868438512	pt_BR
dc.contributor.advisor1	Paiva, Elaine Ribeiro de Faria	-
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/8238524390290386	pt_BR
dc.contributor.referee1	Prati, Ronaldo Cristiano	-
dc.contributor.referee1Lattes	http://lattes.cnpq.br/7851650523179414	pt_BR
dc.contributor.referee2	Pereira, Fabíola Souza Fernandes	-
dc.contributor.referee2Lattes	http://lattes.cnpq.br/2320001731969968	pt_BR
dc.creator.Lattes	http://lattes.cnpq.br/1064859911193463	pt_BR
dc.description.degreename	Dissertação (Mestrado)	pt_BR
dc.description.resumo	O processo de atualização de classificadores de fluxo de dados baseados em agrupamento gera grupos a partir de instâncias de dados parcial ou totalmente não rotuladas. Cada grupo é então categorizado como a extensão de uma classe conhecida ou como o surgimento de uma nova, resumido e finalmente adicionado ao modelo de classificação. Considerando o custo de aquisição do rótulo, quando comparadas a abordagens exclusivamente supervisionadas, as estratégias baseadas em agrupamento apresentam a vantagem de permitir o uso de dados não rotulados para atualização do modelo de classificação. No entanto, o ganho de informações sobre a distribuição das classes de dados por meio de dados não rotulados está sujeito a suposições de como a distribuição dos atributos interage com a distribuição das classes de dados. Por causa disso, o processo de atualização de classificadores de fluxo de dados baseados em agrupamento está sujeito a falhar à medida que essa interação muda inesperadamente devido a característica não-estacionária do fluxo, levando a erros de inferência de classe e, consequentemente, à categorização incorreta de grupos, comprometendo a consistência do modelo de classificação. Considerando este problema, neste trabalho, propomos uma estratégia de aprendizagem ativa que seleciona os grupos para os quais a categorização é mais incerta e então, para cada grupo escolhido, consulta pelo rótulo das instâncias mais informativas no contexto da distribuição interna do grupo. Ao dividir a responsabilidade da consulta de aprendizagem ativa entre duas estratégias de consulta, uma para o nível dos grupos e outra para o nível das instâncias, a estratégia garante um uso eficiente e eficaz dos recursos de rótulo, adquirindo rótulos apenas para grupos com maior probabilidade de precisar deles. Para testar a estratégia de aprendizagem ativa proposta, ela foi aplicada a dois classificadores de fluxo de dados baseados em clustering da literatura: MINAS e ECHO. Nos resultados, a estratégia de aprendizagem ativa recuperou um número significativo de categorizações incorretas de cluster ao custo de poucas aquisições adicionais de rótulo.	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.program	Programa de Pós-graduação em Ciência da Computação	pt_BR
dc.sizeorduration	78	pt_BR
dc.subject.cnpq	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO	pt_BR
dc.identifier.doi	http://doi.org/10.14393/ufu.di.2021.673	pt_BR
dc.crossref.doibatchid	5a87739a-a074-4c3e-910d-0dce346aac61	-
dc.subject.autorizado	Ciência da Computação	pt_BR
dc.subject.autorizado	Inteligência Artificial	pt_BR
dc.subject.autorizado	Fluxo de dados (Computadores)	pt_BR
Appears in Collections:	DISSERTAÇÃO - Ciência da Computação

Files in This Item:

File	Description	Size	Format
AprendizadoAtivoClassificadores.pdf		1.95 MB	Adobe PDF	View/Open

Show simple item record