韩伟 张雄伟 闵刚 张启业

韩伟, 张雄伟, 闵刚, 张启业. 基于感知掩蔽深度神经网络的单通道语音增强方法. 自动化学报, 2017, 43(2): 248-258. doi: 10.16383/j.aas.2017.c150719
HAN Wei, ZHANG Xiong-Wei, MIN Gang, ZHANG Qi-Ye. A Single-channel Speech Enhancement Approach Based on Perceptual Masking Deep Neural Network. ACTA AUTOMATICA SINICA, 2017, 43(2): 248-258. doi: 10.16383/j.aas.2017.c150719
doi: 10.16383/j.aas.2017.c150719

    韩伟解放军理工大学指挥信息系统学院博士研究生.2013年获得解放军理工大学硕士学位.主要研究方向为语音信号处理技术, 深度学习和语音分离.E-mail:lan3533065@163.com

    闵刚解放军理工大学指挥信息系统学院博士研究生.西安通信学院讲师.2008年获得解放军理工大学硕士学位.主要研究方向为语音信号处理理论与技术, 语音编码, 语音增强.E-mail:mgxaty@gmail.com



    张雄伟解放军理工大学指挥信息系统学院教授.1992年获得南京通信工程学院博士学位.主要研究方向为智能信息处理, 语音与图像信号处理, 数字通信.本文通信作者.E-mail:xwzhang9898@163.com

A Single-channel Speech Enhancement Approach Based on Perceptual Masking Deep Neural Network


  • 摘要: 本文将心理声学掩蔽特性应用于基于深度神经网络(Deep neural network,DNN)的单通道语音增强任务中,提出了一种具有感知掩蔽特性的DNN结构.首先,提出的DNN对带噪语音幅度谱特征进行训练并分别得到纯净语音和噪声的幅度谱估计.其次,利用估计的纯净语音幅度谱计算噪声掩蔽阈值.然后,将噪声掩蔽阈值和估计的噪声幅度谱联合计算得到一个感知增益函数.最后,利用感知增益函数从带噪语音幅度谱中估计出增强语音幅度谱.在TIMIT数据库上,对不同信噪比下的20种噪声进行的仿真实验表明,无论噪声类型是否在语音的训练集中出现,所提出的感知掩蔽DNN都能够在有效去除噪声的同时保持较小的语音失真,增强效果明显优于常见的DNN增强方法以及NMF(Nonnegative matrix factorization)增强方法.
  • 图  1  基于DNN的语音增强

    Fig.  1  Speech enhancement based on DNN

    图  2  基于PM-DNN的语音增强

    Fig.  2  Speech enhancement based on PM-DNN

    图  3  基于PM-DNN的语音增强框图

    Fig.  3  The framework of speech enhancement based on PM-DNN

    图  4  PM-DNN目标函数中的权重$\alpha$和$\beta$对20种噪声的PESQ均值影响

    Fig.  4  The PESQ scores of PM-DNN objective function with different $\alpha$ and $\beta$ (For each condition, the numbers are the mean values over all the 20 noise types.)

    图  5  4种增强方法在20种不同噪声情况下的PESQ值(每种噪声的PESQ值是在-5 dB, 0 dB, 5 dB和10 dB 4种信噪比下的平均值.)

    Fig.  5  The PESQ scores of the 4 enhancement methods for the 20 noise types (For each noise type, the numbers are the mean values over four input SNR conditions, i.e. from -5 dB to 10 dB spaced by 5 dB.)

    图  6  4种增强方法在20种不同噪声情况下的LSD值(每种噪声的LSD值是在-5 dB, 0 dB, 5 dB和10 dB 4种信噪比下的平均值.)

    Fig.  6  The LSD values of the 4 enhancement methods for the 20 noise types (For each noise type, the numbers are the mean values over four input SNR conditions, i.e. from -5 dB to 10 dB spaced by 5 dB.)

    图  7  4种增强方法在20种不同噪声情况下的fwSNRseg值(每种噪声的fwSNRseg值是在-5 dB, 0 dB, 5 dB和10 dB 4种信噪比下的平均值.)

    Fig.  7  The fwSNRseg values of the 4 enhancement methods for the 20 noise types (For each noise type, the numbers are the mean values over four input SNR conditions, i.e. from -5 dB to 10 dB spaced by 5 dB.)

    图  8  语谱图

    Fig.  8  Spectrograms

    表  1  4种信噪比下, 不同方法对20种噪声的PESQ均值

    Table  1  The PESQ scores of different methods at four different input SNR levels (For each condition, the numbers are the mean values over all the 20 noise types.)

    SNR (dB) NMF DNN IRM-DNN PM-DNN (First output) PM-DNN NMF (Mask) DNN (Mask) IRM-DNN (Mask) PM-DNN (Mask)
    -5 1.705 1.74 1.787 1.732 1.875 1.701 1.775 1.74 1.834
    0 2.002 1.995 2.061 1.996 2.165 1.995 2.034 2.015 2.122
    5 2.261 2.194 2.35 2.256 2.445 2.262 2.284 2.308 2.411
    10 2.524 2.35 2.631 2.518 2.714 2.52 2.535 2.596 2.691
