Please use this identifier to cite or link to this item:
https://repositorio.ufu.br/handle/123456789/44653
ORCID: | ![]() |
Document type: | Dissertação |
Access type: | Acesso Aberto |
Title: | Optimizing cleanuNet architecture for speech denoising |
Alternate title (s): | Otimizando a arquitetura cleanunet para redução de ruído |
Author: | Silva, Matheus Vieira da |
First Advisor: | Backes, André Ricardo |
First coorientator: | Mari, João Fernando |
First member of the Committee: | Travençolo, Bruno Augusto Nassif |
Second member of the Committee: | Levada, Alexandre Luís Magalhães |
Summary: | As técnicas de melhoramento de fala são cruciais para recuperar uma fala limpa a partir de sinais degradados por ruído e condições acústicas subótimas, como ruído de fundo e eco. Esses desafios exigem métodos eficazes de redução de ruído para melhorar a clareza da fala. Este trabalho apresenta uma versão otimizada da arquitetura CleanUNet, uma rede neural convolucional baseada na arquitetura U-Net, projetada explicitamente para tarefas de redução de ruído em fala causal. Nossa abordagem introduz a arquitetura Mamba como uma nova alternativa ao gargalo do modelo que utiliza \textit{Transformer}, permitindo um processamento mais eficiente das saídas do codificador com complexidade linear. Além disso, integramos a normalização por lote (\textit{batch normalization}) nas camadas convolucionais, estabilizando e acelerando o processo de treinamento. Também experimentamos várias funções de ativação para identificar a configuração mais eficaz para o nosso modelo. Ao reduzir o número de canais ocultos nas camadas convolucionais, reduzimos significativamente a quantidade de parâmetros do modelo, aumentando assim a velocidade de treinamento e inferência em uma única GPU, com uma ligeira degradação no desempenho. Essas melhorias tornam o modelo particularmente adequado para aplicações em tempo real. Nosso melhor modelo, 52.53\% menor que o modelo base, alcançou 2,745, 3,288 e 0,911 pelas métricas PESQ (WB), PESQ (NB) e STOI, respectivamente. Também otimizamos um menor modelo usando apenas 1,36\% dos parâmetros originais, atingindo resultados competitivos. Até onde sabemos, este trabalho é o primeiro a integrar a arquitetura Mamba como substituta do transformer padrão na CleanUNet e, em combinação com otimizações arquiteturais, oferece uma solução simplificada e mais eficiente computacionalmente para o melhoramento de fala. |
Abstract: | Speech enhancement techniques are crucial for recovering clean speech from signals degraded by noise and suboptimal acoustic conditions, such as background noise and echo. These challenges demand effective denoising methods to improve speech clarity. This work presents an optimized version of CleanUNet, a Convolutional Neural Network based on the U-Net architecture designed explicitly for causal speech-denoising tasks. Our approach introduces the Mamba architecture as a novel alternative to the traditional transformer bottleneck, enabling more efficient handling of encoder outputs with linear complexity. Additionally, we integrated batch normalization across the convolutional layers, stabilizing and accelerating the training process. We also experimented with various activation functions to identify the most effective configuration for our model. By reducing the number of hidden channels in the convolutional layers, we significantly reduced the model's parameter count, thereby enhancing training and inference speed on a single GPU with slight degradation in performance. These improvements make the model particularly suitable for real-time applications. Our best model, 52.53\% smaller than the baseline, achieves 2.745, 3.288, and 0.911 of PESQ (WB), PESQ (NB), and STOI, respectively. We also optimized the smallest model using only 1.36\% of the original parameters, and it achieved competitive results. To the best of our knowledge, this work is the first to integrate the Mamba architecture as a replacement for the vanilla transformer in CleanUNet and, in combination with architectural optimizations, offers a streamlined, computationally efficient solution for speech enhancement. |
Keywords: | Melhoramento de fala Speech denoising Aprendizado profundo Deep learning Transformer Transformer Redes neurais convolucionais Convolutional neural networks |
Area (s) of CNPq: | CNPQ::CIENCIAS EXATAS E DA TERRA |
Subject: | Computação Redes neurais (Computação) Controle de ruído Codificador de voz |
Language: | eng |
Country: | Brasil |
Publisher: | Universidade Federal de Uberlândia |
Program: | Programa de Pós-graduação em Ciência da Computação |
Quote: | SILVA, Matheus Vieira da. Optimizing cleanunet architecture for speech denoising. 2024. 77 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2024. DOI http://doi.org/10.14393/ufu.di.2024.5523. |
Document identifier: | http://doi.org/10.14393/ufu.di.2024.5523 |
URI: | https://repositorio.ufu.br/handle/123456789/44653 |
Date of defense: | 28-Sep-2024 |
Sustainable Development Goals SDGs: | ODS::ODS 12. Consumo e produção responsáveis - Assegurar padrões de produção e de consumo sustentáveis. ODS::ODS 7. Energia limpa e acessível - Garantir acesso à energia barata, confiável, sustentável e renovável para todos. |
Appears in Collections: | DISSERTAÇÃO - Ciência da Computação |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
OptimizingCleanUNetArchitecture.pdf | Dissertação | 26.63 MB | Adobe PDF | ![]() View/Open |
This item is licensed under a Creative Commons License