Please use this identifier to cite or link to this item: https://repositorio.ufu.br/handle/123456789/44653
ORCID:  http://orcid.org/0009-0005-2913-7224
Document type: Dissertação
Access type: Acesso Aberto
Title: Optimizing cleanuNet architecture for speech denoising
Alternate title (s): Otimizando a arquitetura cleanunet para redução de ruído
Author: Silva, Matheus Vieira da
First Advisor: Backes, André Ricardo
First coorientator: Mari, João Fernando
First member of the Committee: Travençolo, Bruno Augusto Nassif
Second member of the Committee: Levada, Alexandre Luís Magalhães
Summary: As técnicas de melhoramento de fala são cruciais para recuperar uma fala limpa a partir de sinais degradados por ruído e condições acústicas subótimas, como ruído de fundo e eco. Esses desafios exigem métodos eficazes de redução de ruído para melhorar a clareza da fala. Este trabalho apresenta uma versão otimizada da arquitetura CleanUNet, uma rede neural convolucional baseada na arquitetura U-Net, projetada explicitamente para tarefas de redução de ruído em fala causal. Nossa abordagem introduz a arquitetura Mamba como uma nova alternativa ao gargalo do modelo que utiliza \textit{Transformer}, permitindo um processamento mais eficiente das saídas do codificador com complexidade linear. Além disso, integramos a normalização por lote (\textit{batch normalization}) nas camadas convolucionais, estabilizando e acelerando o processo de treinamento. Também experimentamos várias funções de ativação para identificar a configuração mais eficaz para o nosso modelo. Ao reduzir o número de canais ocultos nas camadas convolucionais, reduzimos significativamente a quantidade de parâmetros do modelo, aumentando assim a velocidade de treinamento e inferência em uma única GPU, com uma ligeira degradação no desempenho. Essas melhorias tornam o modelo particularmente adequado para aplicações em tempo real. Nosso melhor modelo, 52.53\% menor que o modelo base, alcançou 2,745, 3,288 e 0,911 pelas métricas PESQ (WB), PESQ (NB) e STOI, respectivamente. Também otimizamos um menor modelo usando apenas 1,36\% dos parâmetros originais, atingindo resultados competitivos. Até onde sabemos, este trabalho é o primeiro a integrar a arquitetura Mamba como substituta do transformer padrão na CleanUNet e, em combinação com otimizações arquiteturais, oferece uma solução simplificada e mais eficiente computacionalmente para o melhoramento de fala.
Abstract: Speech enhancement techniques are crucial for recovering clean speech from signals degraded by noise and suboptimal acoustic conditions, such as background noise and echo. These challenges demand effective denoising methods to improve speech clarity. This work presents an optimized version of CleanUNet, a Convolutional Neural Network based on the U-Net architecture designed explicitly for causal speech-denoising tasks. Our approach introduces the Mamba architecture as a novel alternative to the traditional transformer bottleneck, enabling more efficient handling of encoder outputs with linear complexity. Additionally, we integrated batch normalization across the convolutional layers, stabilizing and accelerating the training process. We also experimented with various activation functions to identify the most effective configuration for our model. By reducing the number of hidden channels in the convolutional layers, we significantly reduced the model's parameter count, thereby enhancing training and inference speed on a single GPU with slight degradation in performance. These improvements make the model particularly suitable for real-time applications. Our best model, 52.53\% smaller than the baseline, achieves 2.745, 3.288, and 0.911 of PESQ (WB), PESQ (NB), and STOI, respectively. We also optimized the smallest model using only 1.36\% of the original parameters, and it achieved competitive results. To the best of our knowledge, this work is the first to integrate the Mamba architecture as a replacement for the vanilla transformer in CleanUNet and, in combination with architectural optimizations, offers a streamlined, computationally efficient solution for speech enhancement.
Keywords: Melhoramento de fala
Speech denoising
Aprendizado profundo
Deep learning
Transformer
Transformer
Redes neurais convolucionais
Convolutional neural networks
Area (s) of CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA
Subject: Computação
Redes neurais (Computação)
Controle de ruído
Codificador de voz
Language: eng
Country: Brasil
Publisher: Universidade Federal de Uberlândia
Program: Programa de Pós-graduação em Ciência da Computação
Quote: SILVA, Matheus Vieira da. Optimizing cleanunet architecture for speech denoising. 2024. 77 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2024. DOI http://doi.org/10.14393/ufu.di.2024.5523.
Document identifier: http://doi.org/10.14393/ufu.di.2024.5523
URI: https://repositorio.ufu.br/handle/123456789/44653
Date of defense: 28-Sep-2024
Sustainable Development Goals SDGs: ODS::ODS 12. Consumo e produção responsáveis - Assegurar padrões de produção e de consumo sustentáveis.
ODS::ODS 7. Energia limpa e acessível - Garantir acesso à energia barata, confiável, sustentável e renovável para todos.
Appears in Collections:DISSERTAÇÃO - Ciência da Computação

Files in This Item:
File Description SizeFormat 
OptimizingCleanUNetArchitecture.pdfDissertação26.63 MBAdobe PDFThumbnail
View/Open


This item is licensed under a Creative Commons License Creative Commons