Please use this identifier to cite or link to this item: https://repositorio.ufu.br/handle/123456789/44653
Full metadata record
DC FieldValueLanguage
dc.creatorSilva, Matheus Vieira da-
dc.date.accessioned2025-01-28T18:04:56Z-
dc.date.available2025-01-28T18:04:56Z-
dc.date.issued2024-09-28-
dc.identifier.citationSILVA, Matheus Vieira da. Optimizing cleanunet architecture for speech denoising. 2024. 77 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2024. DOI http://doi.org/10.14393/ufu.di.2024.5523.pt_BR
dc.identifier.urihttps://repositorio.ufu.br/handle/123456789/44653-
dc.description.abstractSpeech enhancement techniques are crucial for recovering clean speech from signals degraded by noise and suboptimal acoustic conditions, such as background noise and echo. These challenges demand effective denoising methods to improve speech clarity. This work presents an optimized version of CleanUNet, a Convolutional Neural Network based on the U-Net architecture designed explicitly for causal speech-denoising tasks. Our approach introduces the Mamba architecture as a novel alternative to the traditional transformer bottleneck, enabling more efficient handling of encoder outputs with linear complexity. Additionally, we integrated batch normalization across the convolutional layers, stabilizing and accelerating the training process. We also experimented with various activation functions to identify the most effective configuration for our model. By reducing the number of hidden channels in the convolutional layers, we significantly reduced the model's parameter count, thereby enhancing training and inference speed on a single GPU with slight degradation in performance. These improvements make the model particularly suitable for real-time applications. Our best model, 52.53\% smaller than the baseline, achieves 2.745, 3.288, and 0.911 of PESQ (WB), PESQ (NB), and STOI, respectively. We also optimized the smallest model using only 1.36\% of the original parameters, and it achieved competitive results. To the best of our knowledge, this work is the first to integrate the Mamba architecture as a replacement for the vanilla transformer in CleanUNet and, in combination with architectural optimizations, offers a streamlined, computationally efficient solution for speech enhancement.pt_BR
dc.description.sponsorshipCAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superiorpt_BR
dc.languageengpt_BR
dc.publisherUniversidade Federal de Uberlândiapt_BR
dc.rightsAcesso Abertopt_BR
dc.rights.urihttp://creativecommons.org/licenses/by/3.0/us/*
dc.subjectMelhoramento de falapt_BR
dc.subjectSpeech denoisingpt_BR
dc.subjectAprendizado profundopt_BR
dc.subjectDeep learningpt_BR
dc.subjectTransformerpt_BR
dc.subjectTransformerpt_BR
dc.subjectRedes neurais convolucionaispt_BR
dc.subjectConvolutional neural networkspt_BR
dc.titleOptimizing cleanuNet architecture for speech denoisingpt_BR
dc.title.alternativeOtimizando a arquitetura cleanunet para redução de ruídopt_BR
dc.typeDissertaçãopt_BR
dc.contributor.advisor-co1Mari, João Fernando-
dc.contributor.advisor-co1Latteshttp://lattes.cnpq.br/3582704696209050pt_BR
dc.contributor.advisor1Backes, André Ricardo-
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/8590140337571249pt_BR
dc.contributor.referee1Travençolo, Bruno Augusto Nassif-
dc.contributor.referee1Latteshttp://lattes.cnpq.br/2590427557264952pt_BR
dc.contributor.referee2Levada, Alexandre Luís Magalhães-
dc.contributor.referee2Latteshttp://lattes.cnpq.br/3341441596395463pt_BR
dc.creator.Latteshttp://lattes.cnpq.br/3520051356091266pt_BR
dc.description.degreenameDissertação (Mestrado)pt_BR
dc.description.resumoAs técnicas de melhoramento de fala são cruciais para recuperar uma fala limpa a partir de sinais degradados por ruído e condições acústicas subótimas, como ruído de fundo e eco. Esses desafios exigem métodos eficazes de redução de ruído para melhorar a clareza da fala. Este trabalho apresenta uma versão otimizada da arquitetura CleanUNet, uma rede neural convolucional baseada na arquitetura U-Net, projetada explicitamente para tarefas de redução de ruído em fala causal. Nossa abordagem introduz a arquitetura Mamba como uma nova alternativa ao gargalo do modelo que utiliza \textit{Transformer}, permitindo um processamento mais eficiente das saídas do codificador com complexidade linear. Além disso, integramos a normalização por lote (\textit{batch normalization}) nas camadas convolucionais, estabilizando e acelerando o processo de treinamento. Também experimentamos várias funções de ativação para identificar a configuração mais eficaz para o nosso modelo. Ao reduzir o número de canais ocultos nas camadas convolucionais, reduzimos significativamente a quantidade de parâmetros do modelo, aumentando assim a velocidade de treinamento e inferência em uma única GPU, com uma ligeira degradação no desempenho. Essas melhorias tornam o modelo particularmente adequado para aplicações em tempo real. Nosso melhor modelo, 52.53\% menor que o modelo base, alcançou 2,745, 3,288 e 0,911 pelas métricas PESQ (WB), PESQ (NB) e STOI, respectivamente. Também otimizamos um menor modelo usando apenas 1,36\% dos parâmetros originais, atingindo resultados competitivos. Até onde sabemos, este trabalho é o primeiro a integrar a arquitetura Mamba como substituta do transformer padrão na CleanUNet e, em combinação com otimizações arquiteturais, oferece uma solução simplificada e mais eficiente computacionalmente para o melhoramento de fala.pt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.programPrograma de Pós-graduação em Ciência da Computaçãopt_BR
dc.sizeorduration77pt_BR
dc.subject.cnpqCNPQ::CIENCIAS EXATAS E DA TERRApt_BR
dc.identifier.doihttp://doi.org/10.14393/ufu.di.2024.5523pt_BR
dc.orcid.putcode176877169-
dc.crossref.doibatchid74eb30c7-8edc-42f8-9ab3-323c3e66548e-
dc.subject.autorizadoComputaçãopt_BR
dc.subject.autorizadoRedes neurais (Computação)pt_BR
dc.subject.autorizadoControle de ruídopt_BR
dc.subject.autorizadoCodificador de vozpt_BR
dc.subject.odsODS::ODS 12. Consumo e produção responsáveis - Assegurar padrões de produção e de consumo sustentáveis.pt_BR
dc.subject.odsODS::ODS 7. Energia limpa e acessível - Garantir acesso à energia barata, confiável, sustentável e renovável para todos.pt_BR
Appears in Collections:DISSERTAÇÃO - Ciência da Computação

Files in This Item:
File Description SizeFormat 
OptimizingCleanUNetArchitecture.pdfDissertação26.63 MBAdobe PDFThumbnail
View/Open


This item is licensed under a Creative Commons License Creative Commons