基于双分支注意力U-Net的语音增强方法.
- Resource Type
- Article
- Authors
- 曹洁; 王宸章; 梁浩鹏; 王乔; 李晓旭
- Source
- Application Research of Computers / Jisuanji Yingyong Yanjiu. Apr2024, Vol. 41 Issue 4, p1112-1116. 5p.
- Subject
- Language
- Chinese
- ISSN
- 1001-3695
针对语音增强网络对全局语音相关特征提取困难、对语音局部上下文信息的捕捉效果不佳的问题,提出了一种基于双分支注意力U-Net的时域语音增强方法,该方法使用U-Net编码器-解码器结构,将单通道带噪语音经过一维卷积后得到的高维时域特征作为输入。首先利用残差连接设计了基于Conformer的残差卷积来增强网络降噪的能力。其次设计了双分支注意力机制结构,利用全局和局部注意力获取带噪语音中更丰富的上下文信息,同时有效表示长序列特征,提取更多样的特征信息。最后结合时域频域损失函数构建了加权损失函数对网络进行训练,提高网络的语音增强性能。使用了多个指标对增强语音的质量和可懂度等进行评价,在公开数据集Voice Bank+DEMAND上的增强后的语音感知质量(PESQ)为3.11,短时可懂度(STOI)为95%,信号失真度(CSIG)为4.44,噪声失真测(CBAK)为3.60,综合质量测度(COVL)为3.81,其中PESQ相较于SE-Conformer提高了7.6%,相较于TSTNN提高了5.1%。实验结果表明,所提方法在语音降噪的各个指标都表现出更优的实验结果,能够完成语音增强任务的相关要求。 [ABSTRACT FROM AUTHOR]