Algoritmo de aprendizado supervisionado - baseado em
máquinas de vetores de suporte - uma contribuição para o
reconhecimento de dados desbalanceados

Rufino, Hugo Leonardo Pereira

Please use this identifier to cite or link to this item: https://repositorio.ufu.br/handle/123456789/14284

Full metadata record

DC Field	Value	Language
dc.creator	Rufino, Hugo Leonardo Pereira
dc.date.accessioned	2016-06-22T18:37:51Z	-
dc.date.available	2011-11-07
dc.date.available	2016-06-22T18:37:51Z	-
dc.date.issued	2011-09-26
dc.identifier.citation	RUFINO, Hugo Leonardo Pereira. Supervised learning Algorithm - Based on Support Vector Machines - A Contribution to the Recognition of Unbalanced Data. 2011. 107 f. Tese (Doutorado em Engenharias) - Universidade Federal de Uberlândia, Uberlândia, 2011.	por
dc.identifier.uri	https://repositorio.ufu.br/handle/123456789/14284	-
dc.description.abstract	The machine learning in datasets that have unbalanced classes, has received considerable attention in the scientific community, because the traditional classification algorithms don t provide a satisfactory performance. This low performance can be explained by the fact that the traditional techniques of machine learning consider that each class present in the database has an approximately equal number of instances. However, most real datasets, have classes with an unbalanced distribution, where one class is over represented in comparison with the others. This gives rise to classifiers with high accuracy to predict the majority class and low accuracy for predicting the minority class. Therefore, the minority class is ignored by the classifier. This predisposition of the classifier for the majority class occurs, because the classifiers are designed to maximize accuracy in relation to the database being used for training. In training the classifier, it is assumed that when making the prediction of data not yet seen, they have the same distribution of the data that were used in training. This limits its ability to recognize examples of the minority class. Several improvements in the traditional classification algorithms have been proposed in the literature, where considerations were made at the level of data and algorithms. The former uses various ways of resampling, such as oversampling of examples from the minority class, undersampling the majority class or a combination of both. The latter attempt to adapt (by inserting dierent costs in the minority class examples and majority, changing kernels and other techniques) the existing classification algorithms to improve the performance of minority class. Several algorithms in the form of a ensemble machine, are also reported as meta-techniques for working with unbalanced classes. This thesis studies the main algorithms that deal with unbalanced class, highlighting its main features as: the generation of new synthetic examples instead of replicating data at random, in the process of oversampling; the use of dierent penalties to misclassification of the minority and majority class; and the use of ensembles for that the generated classifiers have a greater ability to generalize. After assessing the contributions that each algorithm provides, a study was done if one could get something more of the characteristics of each one. It was made a modification in the algorithm that generates new synthetic examples of way that reduces the possibility of generating new elements in the incorrect region. As with highly unbalanced datasets, the generation of synthetic elements is not enough to balance the whole, there was a need to develop a new algorithm to perform an undersampling the majority class examples. And to enhance the generalization ability of the generated classifier, was also made a change to an ensemble algorithm. Using these three steps, we obtained an compound algorithm that has a hit rate of data classification better than the algorithms on which it was relied.	eng
dc.format	application/pdf	por
dc.language	por	por
dc.publisher	Universidade Federal de Uberlândia	por
dc.rights	Acesso Aberto	por
dc.subject	Aprendizado do computador	por
dc.subject	Inteligência artificial	por
dc.subject	Algoritmos de computador	por
dc.subject	Aprendizado supervisionado	por
dc.subject	Máquinas de vetores de suporte	por
dc.subject	Conjuntos de dados desbalanceados	por
dc.subject	Supervised learning	eng
dc.subject	Support vector machines	eng
dc.subject	Unbalanced datasets	eng
dc.title	Algoritmo de aprendizado supervisionado - baseado em máquinas de vetores de suporte - uma contribuição para o reconhecimento de dados desbalanceados	por
dc.title.alternative	Supervised learning Algorithm - Based on Support Vector Machines - A Contribution to the Recognition of Unbalanced Data	eng
dc.type	Tese	por
dc.contributor.advisor1	Veiga, Antônio Cláudio Paschoarelli
dc.contributor.advisor1Lattes	http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4782222Y6	por
dc.contributor.referee1	Camilo Júnior, Celso Gonçalves
dc.contributor.referee1Lattes	http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4736184D1	por
dc.contributor.referee2	Carrijo, Gilberto Arantes
dc.contributor.referee2Lattes	http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4781864Y0	por
dc.contributor.referee3	Yamanaka, Keiji
dc.contributor.referee3Lattes	http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4798494D8	por
dc.contributor.referee4	Vellasco, Marley Maria Bernardes Rebuzzi
dc.contributor.referee4Lattes	http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4781818T3	por
dc.creator.Lattes	http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4755529P6	por
dc.description.degreename	Doutor em Ciências	por
dc.description.resumo	O aprendizado de máquina em conjuntos de dados que possuam classes desbalanceadas tem recebido considerável atenção na comunidade científica, pois os algoritmos de classificação tradicionais não fornecem um desempenho satisfatório. Este baixo desempenho pode ser justificado pelo fato das técnicas tradicionais de aprendizado de máquina considerarem que cada classe presente em um conjunto de dados possui um número aproximadamente igual de instâncias. Entretanto, a maioria dos conjuntos de dados reais possuem classes com uma distribuição desbalanceada, onde uma classe de dados está super representada em comparação com outras classes. Isto faz com que surjam classificadores com uma alta precisão para a predição da classe majoritária e com baixa precisão para prever a classe minoritária. Logo, a classe minoritária é ignorada pelo classificador. Esta predisposição do classificador em relação à classe majoritária ocorre em função dos classificadores serem projetados para maximizar a precisão em relação ao conjunto de dados que está sendo utilizado para o treinamento. No treinamento do classificador é assumido que quando for fazer a predição de dados ainda não vistos, estes terão a mesma distribuição dos dados que foram utilizados no treinamento. Isto limita sua habilidade em reconhecer exemplos da classe minoritária. Várias melhorias nos algoritmos tradicionais de classificação têm sido propostas na literatura, onde foram feitas considerações a nível de dados e a nível de algoritmos. O primeiro utiliza diversas formas de reamostragem, tal como super-amostragem de exemplos da classe minoritária, sub-amostragem de exemplos da classe majoritária ou a combinação de ambos. Os últimos tentam adaptar (inserindo custos diferenciados em exemplos da classe minoritária e majoritária, alterando kernels, e outras técnicas) os algoritmos de classificação já existentes para melhorar o desempenho da classe minoritária. Vários algoritmos na forma de um comitê de máquinas também são reportados como meta-técnicas para trabalhar com classes desbalanceadas. Esta tese estuda os principais algoritmos que lidam com classes desbalanceadas, destacando suas principais características como: a geração de novos exemplos sintéticos ao invés da replicação de dados de forma aleatória, no processo de super-amostragem; o uso de penalidades diferentes para erros de classificação da classe minoritária e majoritária; e a utilização de comitês de máquinas para que os classificadores gerados possuam uma capacidade de generalização maior. Após o levantamento das contribuições que cada algoritmo fornece, foi feito um estudo se poderia obter algo mais das características de cada um. Foi feita uma modificação no algoritmo que gera novos exemplos sintéticos de forma que reduzisse a possibilidade de geração de novos elementos na região incorreta. Como em conjuntos de dados altamente desbalanceados, a geração de elementos sintéticos não é suficiente para equilibrar o conjunto, houve a necessidade da criação de um novo algoritmo para efetuar uma sub-amostragem de exemplos da classe majoritária. E, para melhorar a capacidade de generalização do classificador gerado, também foi feita uma modificação em um algoritmo de comitês de máquinas. Utilizando estas três etapas, obteve-se um algoritmo composto que possui uma taxa de acerto na classificação de dados melhor que os algoritmos nos quais se baseou.	por
dc.publisher.country	BR	por
dc.publisher.program	Programa de Pós-graduação em Engenharia Elétrica	por
dc.subject.cnpq	CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA	por
dc.publisher.department	Engenharias	por
dc.publisher.initials	UFU	por
dc.orcid.putcode	81755201	-
Appears in Collections:	TESE - Engenharia Elétrica

Files in This Item:

File	Description	Size	Format
t.pdf		2.93 MB	Adobe PDF	View/Open

Show simple item record