Use este identificador para citar ou linkar para este item: https://repositorio.ufu.br/handle/123456789/44653
ORCID:  http://orcid.org/0009-0005-2913-7224
Tipo do documento: Dissertação
Tipo de acesso: Acesso Aberto
Título: Optimizing cleanuNet architecture for speech denoising
Título(s) alternativo(s): Otimizando a arquitetura cleanunet para redução de ruído
Autor(es): Silva, Matheus Vieira da
Primeiro orientador: Backes, André Ricardo
Primeiro coorientador: Mari, João Fernando
Primeiro membro da banca: Travençolo, Bruno Augusto Nassif
Segundo membro da banca: Levada, Alexandre Luís Magalhães
Resumo: As técnicas de melhoramento de fala são cruciais para recuperar uma fala limpa a partir de sinais degradados por ruído e condições acústicas subótimas, como ruído de fundo e eco. Esses desafios exigem métodos eficazes de redução de ruído para melhorar a clareza da fala. Este trabalho apresenta uma versão otimizada da arquitetura CleanUNet, uma rede neural convolucional baseada na arquitetura U-Net, projetada explicitamente para tarefas de redução de ruído em fala causal. Nossa abordagem introduz a arquitetura Mamba como uma nova alternativa ao gargalo do modelo que utiliza \textit{Transformer}, permitindo um processamento mais eficiente das saídas do codificador com complexidade linear. Além disso, integramos a normalização por lote (\textit{batch normalization}) nas camadas convolucionais, estabilizando e acelerando o processo de treinamento. Também experimentamos várias funções de ativação para identificar a configuração mais eficaz para o nosso modelo. Ao reduzir o número de canais ocultos nas camadas convolucionais, reduzimos significativamente a quantidade de parâmetros do modelo, aumentando assim a velocidade de treinamento e inferência em uma única GPU, com uma ligeira degradação no desempenho. Essas melhorias tornam o modelo particularmente adequado para aplicações em tempo real. Nosso melhor modelo, 52.53\% menor que o modelo base, alcançou 2,745, 3,288 e 0,911 pelas métricas PESQ (WB), PESQ (NB) e STOI, respectivamente. Também otimizamos um menor modelo usando apenas 1,36\% dos parâmetros originais, atingindo resultados competitivos. Até onde sabemos, este trabalho é o primeiro a integrar a arquitetura Mamba como substituta do transformer padrão na CleanUNet e, em combinação com otimizações arquiteturais, oferece uma solução simplificada e mais eficiente computacionalmente para o melhoramento de fala.
Abstract: Speech enhancement techniques are crucial for recovering clean speech from signals degraded by noise and suboptimal acoustic conditions, such as background noise and echo. These challenges demand effective denoising methods to improve speech clarity. This work presents an optimized version of CleanUNet, a Convolutional Neural Network based on the U-Net architecture designed explicitly for causal speech-denoising tasks. Our approach introduces the Mamba architecture as a novel alternative to the traditional transformer bottleneck, enabling more efficient handling of encoder outputs with linear complexity. Additionally, we integrated batch normalization across the convolutional layers, stabilizing and accelerating the training process. We also experimented with various activation functions to identify the most effective configuration for our model. By reducing the number of hidden channels in the convolutional layers, we significantly reduced the model's parameter count, thereby enhancing training and inference speed on a single GPU with slight degradation in performance. These improvements make the model particularly suitable for real-time applications. Our best model, 52.53\% smaller than the baseline, achieves 2.745, 3.288, and 0.911 of PESQ (WB), PESQ (NB), and STOI, respectively. We also optimized the smallest model using only 1.36\% of the original parameters, and it achieved competitive results. To the best of our knowledge, this work is the first to integrate the Mamba architecture as a replacement for the vanilla transformer in CleanUNet and, in combination with architectural optimizations, offers a streamlined, computationally efficient solution for speech enhancement.
Palavras-chave: Melhoramento de fala
Speech denoising
Aprendizado profundo
Deep learning
Transformer
Transformer
Redes neurais convolucionais
Convolutional neural networks
Área(s) do CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA
Assunto: Computação
Redes neurais (Computação)
Controle de ruído
Codificador de voz
Idioma: eng
País: Brasil
Editora: Universidade Federal de Uberlândia
Programa: Programa de Pós-graduação em Ciência da Computação
Referência: SILVA, Matheus Vieira da. Optimizing cleanunet architecture for speech denoising. 2024. 77 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2024. DOI http://doi.org/10.14393/ufu.di.2024.5523.
Identificador do documento: http://doi.org/10.14393/ufu.di.2024.5523
URI: https://repositorio.ufu.br/handle/123456789/44653
Data de defesa: 28-Set-2024
Objetivos de Desenvolvimento Sustentável (ODS): ODS::ODS 12. Consumo e produção responsáveis - Assegurar padrões de produção e de consumo sustentáveis.
ODS::ODS 7. Energia limpa e acessível - Garantir acesso à energia barata, confiável, sustentável e renovável para todos.
Aparece nas coleções:DISSERTAÇÃO - Ciência da Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
OptimizingCleanUNetArchitecture.pdfDissertação26.63 MBAdobe PDFThumbnail
Visualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons