利用深度卷积神经网络提高未知噪声下的语音增强性能

袁文浩; 孙文珠; 夏斌; 欧世峰

doi:10.16383/j.aas.2018.c170001

利用深度卷积神经网络提高未知噪声下的语音增强性能

doi: 10.16383/j.aas.2018.c170001

袁文浩^1, ,,
孙文珠^1,,
夏斌^1,,
欧世峰^2,

1.
山东理工大学计算机科学与技术学院淄博 255000
2.
烟台大学光电信息科学技术学院烟台 264005

基金项目:

山东省自然科学基金 ZR2014FM007

国家自然科学基金 61473179

国家自然科学基金 61701286

山东省自然科学基金 ZR2015FL003

山东省自然科学基金 ZR2017MF047

详细信息

作者简介:
孙文珠  博士, 山东理工大学计算机科学与技术学院讲师.主要研究方向为多媒体信号传输, 视频编码.E-mail:swz_lw@sina.com

夏斌  博士, 山东理工大学计算机科学与技术学院副教授.主要研究方向为信号处理.E-mail:xiabin@sdut.edu.cn

欧世峰  博士, 烟台大学光电信息科学技术学院副教授.主要研究方向为语音信号处理, 盲信号处理.E-mail:ousfeng@126.com

通讯作者:
袁文浩博士, 山东理工大学计算机科学与技术学院讲师.主要研究方向为语音信号处理, 语音增强.本文通信作者.E-mail:why_sdut@126.com

计量
- 文章访问数: 2432
- HTML全文浏览量: 401
- PDF下载量: 1353
- 被引次数: 78
出版历程
- 收稿日期: 2017-01-03
- 录用日期: 2017-07-18
- 刊出日期: 2018-04-20

Improving Speech Enhancement in Unseen Noise Using Deep Convolutional Neural Network

YUAN Wen-Hao^{1
, ,},
SUN Wen-Zhu^1
,,
XIA Bin^1
,,
OU Shi-Feng^2
,

1.
College of Computer Science and Technology, Shandong University of Technology, Zibo 255000
2.
Institute of Science and Technology for Opto-electronic Information, Yantai University, Yantai 264005

Funds:

Shandong Provincial Natural Science Foundation of China ZR2014FM007

National Natural Science Foundation of China 61473179

National Natural Science Foundation of China 61701286

Shandong Provincial Natural Science Foundation of China ZR2015FL003

Shandong Provincial Natural Science Foundation of China ZR2017MF047

More Information

Author Bio:
Ph. D., lecturer at the College of Computer Science and Technology, Shandong University of Technology. His research interest covers multimedia signal processing and video coding

Ph. D., associate professor at the College of Computer Science and Technology, Shandong University of Technology. His main research interest is signal processing

Ph. D., associate professor at the Institute of Science and Technology for Opto-electronic Information, Yantai University. His research interest covers speech signal processing and blind source separation

Corresponding author: YUAN Wen-Hao Ph. D., lecturer at the College of Computer Science and Technology, Shandong University of Technology. His research interest covers speech signal processing and speech enhancement. Corresponding author of this paper

摘要

摘要: 为了进一步提高基于深度学习的语音增强方法在未知噪声下的性能，本文从神经网络的结构出发展开研究.基于在时间与频率两个维度上，语音和噪声信号的局部特征都具有强相关性的特点，采用深度卷积神经网络（Deep convolutional neural network，DCNN）建模来表示含噪语音和纯净语音之间的复杂非线性关系.通过设计有效的训练特征和训练目标，并建立合理的网络结构，提出了基于深度卷积神经网络的语音增强方法.实验结果表明，在未知噪声条件下，本文方法相比基于深度神经网络（Deep neural network，DNN）的方法在语音质量和可懂度两种指标上都有明显提高.
- 语音增强 /
- 深度卷积神经网络 /
- 深度神经网络 /
- 噪声
Abstract: In order to further improve the performance of speech enhancement method based on deep learning in unseen noise, this paper focuses on the architecture of neural network. Based on the strong correlation between local characteristics of speech and noise signals in time and frequency domains, a deep convolutional neural network (DCNN) model is used to represent the complex nonlinear relationship between noisy speech and clean speech. By designing effective training features and training target, and establishing reasonable network architecture, a speech enhancement method based on DCNN is proposed. Experimental results show that under the condition of unseen noise, the proposed method significantly outperforms the methods based on deep neural network (DNN) in terms of both speech quality and intelligibility.
- Speech enhancement /
- deep convolutional neural network (DCNN) /
- deep neural network (DNN) /
- noise
注释:

1) 本文责任编委党建武

HTML全文

语音增强是噪声环境下语音信号处理的必要环节^[1].传统的基于统计的语音增强方法一般通过假设语音和噪声服从某种分布或者具有某些特性来从含噪语音中估计纯净语音, 这些方法对于平稳噪声具有较好的处理效果, 但在高度非平稳噪声和低信噪比情况下其处理性能将会急剧恶化^[2-5].

近年来, 深度学习成为了机器学习领域的研究热点, 深度神经网络(Deep neural network, DNN)在图像分类和语音识别领域的成功应用为解决复杂多变噪声环境下的语音增强问题提供了思路.与其他机器学习方法相比, 深度神经网络具有更加强大的学习能力, 通过使用大量纯净语音和含噪语音样本数据进行模型的训练, 能够有效提高语音增强方法对不同噪声的适应能力, 相比传统有监督方法具有更强的泛化能力, 对没有经过训练的未知噪声也有比较好的处理效果.基于深度神经网络的语音增强方法的有效性已在很多文献中得到证明, 文献[6]训练DNN作为一个二值分类器来估计含噪语音的IBM (Ideal binary mask), 克服了基于核函数的机器学习方法对大规模数据存在的计算复杂度难题, 提高了对未知噪声的适应能力, 取得了优于传统方法的语音增强性能.文献[7]采用更加有效的IRM (Ideal ratio mask)代替IBM作为训练目标, 并通过实验证明了相比其他方法, 基于深度神经网络的语音增强方法明显提高了增强语音的质量和可懂度.不同于上述方法中使用的基于掩蔽的训练目标, Xu等将纯净语音的对数功率谱(Logarithmic power spectra, LPS)作为训练目标, 以含噪语音的对数功率谱作为训练特征, 通过训练DNN得到一个高度非线性的回归函数, 来建立含噪语音对数功率谱与纯净语音对数功率谱之间的映射关系^[8]; 并在文献[9]中采用Global variance equalization、Dropout training和Noise-aware training三种策略进一步改善该方法, 使其在低信噪比、非平稳噪声环境下的语音增强性能相比传统方法有了显著提升.为了在语音增强时充分考虑相位信息, 文献[10]提出了复数域的掩蔽目标cIRM (Complex IRM), 通过同时估计掩蔽目标的实部和虚部, 相比使用其他训练目标进一步提高了语音增强性能.

除了设计不同的训练特征和训练目标, 提高未知噪声下语音增强性能的另外一种重要思路是提高训练集中噪声的多样性.文献[9, 11]分别采用包含104类和115类噪声的训练集, 提高了DNN对未知噪声的处理能力; 文献[12-13]更是通过训练包含10 000种不同噪声的DNN来提高对未知噪声的泛化能力, 主客观实验结果表明采用大数据量的训练集能显著提高未知噪声下的语音可懂度.另外, 与直接增加训练集噪声类型数量的方法不同, 文献[14]采用对有限种类的噪声施加不同的扰动项的方式来提高噪声特性的多样性, 实验结果表明该方法同样能有效提高DNN的泛化能力.

上述基于深度神经网络的语音增强方法尽管在训练目标的设计、训练特征的选择以及训练集的规模上各有不同, 但是它们所采用的网络结构均是全连接的DNN.为了进一步提高未知噪声下的语音增强性能, 本文考虑使用深度学习的另外一种重要的网络结构---深度卷积神经网络(Deep convolutional neural network, DCNN)来进行语音增强.深度卷积神经网络在图像识别等分类任务上已经取得了巨大成功^[15], 其在二维图像信号处理上相比DNN表现出了更好的性能.语音和噪声信号在时域的相邻帧和频域的相邻频带之间都具有很强的相关性, 因此在基于深度神经网络的语音增强方法中, 为了充分考虑时域和频域的上下文关系, 一般采用相邻多帧的特征作为网络的输入, 这种矩阵形式的输入在时间和频率两个维度上的局部相关性与图像中相邻像素之间的相关性非常类似.如图 1和图 2所示, 假设使用连续5帧的对数功率谱作为网络的输入, 当网络结构为全连接的DNN时, 由于其输入层只有一个维度, 因此要将包含时频结构信息的矩阵转换为向量作为输入; 而当网络结构为DCNN时, 则可以直接使用矩阵作为输入, 不破坏时频结构.可见, 得益于DCNN在二维平面上的局部连接特性, 使其相比DNN能够更好地表达网络输入在时间和频率两个维度的内在联系, 因而在语音增强时能够更充分地利用语音和噪声信号的时频相关性.另外, DCNN通过权值共享极大减少了神经网络需要训练的参数的个数, 具有更好的泛化能力, 对未训练噪声理论上应该有更好的处理性能.

图 1 DNN结构示意图

Fig. 1 Schematic diagram of DNN

下载: 全尺寸图片幻灯片

图 2 DCNN结构示意图

Fig. 2 Schematic diagram of DCNN

下载: 全尺寸图片幻灯片

实际上, 对于语音信号处理, CNN (Convolutional neural network)以及DCNN已经在语音识别任务中得到成功应用, 取得了超越DNN/HMM系统的语音识别性能, 证明了其对于语音信号同样具有较好的特征提取能力^[16-18], 文献[19-23]更是采用极深层的卷积神经网络显著提高了语音识别性能.但是在语音识别任务中, DCNN的最后一层一般采用Softmax来预测状态概率, 因此本质上也是一个分类问题; 而基于深度神经网络的语音增强方法一般将语音增强归结为回归问题进行解决, 因此传统的网络结构并不适合.文献[24]以幅度谱向量作为训练特征和训练目标, 采用不包含全连接层的FCNN (Fully convolutional neural network)来进行语音增强, 虽然大幅度降低了训练参数的规模, 但是相比DNN并没有明显提高增强后语音的质量和可懂度; 文献[25]采用CNN对LPS特征进行建模, 通过同时学习纯净语音和信噪比, 研究了SNR-aware算法对语音增强性能的影响, 但是并没有对不同网络结构的语音增强性能进行深入分析.为了提高语音增强性能, 特别是未知噪声下的语音增强性能, 本文通过对不同网络结构的语音增强性能进行对比与分析, 设计针对语音增强问题的合理DCNN网络结构, 提出基于深度卷积神经网络的语音增强方法; 最后通过实验度量增强语音的质量和可懂度, 对方法在未知噪声下的语音增强性能进行客观评价.

1. 训练特征与训练目标

假设含噪语音$y$由纯净语音$s$和加性噪声$d$组成,

$ \begin{equation} y = s + d \end{equation} $

(1)

语音增强的目的就是在已知$y$的条件下得到$s$的估计值$\hat s$, 假设$y$, $s$和$\hat s$在第$n$帧的短时傅里叶变换(Short-time Fourier transform, STFT)形式分别为${Y_{n, k}}\exp ({\rm j}{\alpha _{n, k}})$, ${S_{n, k}}\exp ({\rm j}{\varphi _{n, k}})$和, 其中$k = 1, 2, \cdots, K$是频带序号, 忽略相位信息, 对第$n$帧的信号而言, STFT域上的语音增强任务就是最小化如下的误差函数

$ \begin{equation} Er = \sum\limits_{k = 1}^K {{{\left( {{{\hat S}_{n, k}} - {S_{n, k}}} \right)}^2}} \end{equation} $

(2)

令${S_n}$和分别表示纯净语音第$n$帧的幅度谱向量及其估计值, 该误差函数可以改写为

$ \begin{equation} Er = \left\| {{{\hat S}_n} - {S_n}} \right\|_2^2 \end{equation} $

(3)

基于深度学习的语音增强的基本思想可以描述为:通过训练网络参数集合$\theta$构造一个高度复杂的非线性函数$f_{\theta}$, 使得误差函数

$ \begin{equation} Er = \left\| {{f_\theta }\left( {{X_n}} \right) - {S_n}} \right\|_2^2 \end{equation} $

(4)

最小, 从而得到目标输出

$ \begin{equation} {\hat S_n} = {f_\theta }\left( {{X_n}} \right) \end{equation} $

(5)

其中

$ \begin{equation} {X_n} = [{Y_{n-N}}, {Y_{n-N + 1}}, \cdots, {Y_n}, \cdots, {Y_{n + N-1}}, {Y_{n + N}}] \end{equation} $

(6)

表示第$n$帧的训练特征, 由以第$n$帧为中心的共$(2N+1)$帧的含噪语音的幅度谱向量构成, $(2N+1)$即为输入窗长.

为了构造类似于图像处理DCNN的网络输入, 同时在保证时域语音信号重构简单的前提下提高网络性能, 我们采用对数运算对$X_n$和$S_n$的范围进行缩放, 设计如下的训练特征和训练目标

$ \begin{equation} {Z_n} = \ln \left( {{X_n} + 1} \right) \end{equation} $

(7)

$ \begin{equation} {T_n} = \ln \left( {{S_n} + 1} \right) \end{equation} $

(8)

其中, $Z_n$和$T_n$是幅度谱的变换形式, 且其值不小于0, 因此称其为非负对数幅度谱(Nonnegative logarithmic amplitude spectra, NLAS).

DCNN采用小批量梯度下降法进行训练, 本文使用的损失函数定义为

$ \begin{equation} L(\theta ) = \frac{1}{M}\sum\limits_{n = 1}^M {\left\| {{f_\theta }\left( {{Z_n}} \right) - {T_n}} \right\|_2^2} \end{equation} $

(9)

其中, $M$代表网络训练所采用的Mini-batch的大小.

网络训练完成后, 在进行语音增强时, 对第$n$帧的纯净语音$s_n$, 使用训练目标的估计值与含噪语音第$n$帧的相位谱向量${\alpha _n}$进行时域信号的重构

$ \begin{equation}\label{eq7} \begin{aligned} {\hat s_n} =\,&{\rm{ISTFT}}({\hat S_n}\exp ({\rm j}{\hat \varphi _n}))= \\& {\rm{ISTFT((exp(}}{\hat T_n}{\rm{) - 1)}}\exp ({\rm j}{\alpha _n}){\rm{)}} \end{aligned} \end{equation} $

(10)

${\hat s_n}$即为增强后的语音信号.

2. 网络结构

借鉴在图像识别中使用的典型DCNN的结构, 依据本文所采用的训练特征和训练目标, 构造如图 3所示的DCNN.可见, 本文设计的网络结构与典型DCNN的最大不同在于最后几层全连接层的设计, 典型DCNN在全连接层后要经过一个Softmax层来计算分类结果, 而本文网络则是直接通过全连接层计算目标向量.更深的网络结构、更多的节点数量或滤波器数量能够提高网络的性能, 但同时也增加了网络的复杂程度和训练难度, 对于本文实验, 依据训练集的数据规模, 通过权衡网络性能及训练难度之间的关系, 我们采用了包含3个卷积层和2个全连接层的网络结构, 其中全连接层的节点数量设为1 024, 卷积层滤波器的个数除第一层为64外, 其余设为128.

图 3 本文DCNN的结构框图

Fig. 3 Structure diagram of the proposed DCNN

下载: 全尺寸图片幻灯片

具体的网络结构设计如下:

1) 输入层

网络的输入是多帧非负对数幅度谱向量构成的特征矩阵.

2) 卷积层

本文网络包含3个卷积层, 第一层采用的卷积滤波器大小为$7 \times 7$, 其余两层的滤波器大小为$3 \times 3$, 步长均设为$1 \times 1$.

3) Batch normalization层

在每个卷积层和激活函数层之间都有一个Batch normalization层.

4) 池化层

3个激活函数层后是3个池化层, 均采用Max-pooling, 滤波器大小$3 \times 3$, 步长为$2 \times 2$.

5) 全连接层

3个卷积层之后是2个全连接层(Fully connected)和2个激活函数层.

6) 输出层

网络的最后一层是129个节点的全连接层, 对应129维的目标输出.

3. 实验与结果分析

3.1 实验配置

实验所用的纯净语音全部来自TIMIT语音数据库^[26], 所用的噪声包含俄亥俄州立大学Perception and Neurodynamics实验室的100类噪声^[27], 以及文献[11]中的15类噪声.语音和噪声信号的采样频率均转换为8 kHz, 短时傅里叶变换的帧长为32 ms (256点), 帧移为16 ms (128点), 相应的非负对数幅度谱特征向量和训练目标的维度为129.训练集由100 000段含噪语音(约80小时)构成, 使用TIMIT语音库的Training集的4 620段纯净语音和115类噪声按照$-5$ dB、0 dB、5 dB、10 dB和15 dB五种不同的信噪比合成得到.每段含噪语音的具体合成方法如下:每次从4 620段纯净语音中随机选取1段, 并从115类噪声中随机选取1类, 然后将该类噪声的随机截取片段按照从5种信噪比中随机选取的1种混入语音中.测试集采用TIMIT语音库的Core test集的192段语音合成, 噪声数据采用来自Noisex92噪声库的与训练集噪声完全不同的4类未知噪声^[28], 分别是Factory2、Buccaneer1、Destroyer engine、HF channel噪声.对于每一类噪声, 将192段语音分别按照$-5$ dB、0 dB和5 dB的全局信噪比与该类噪声的随机截取片段进行混合, 4类噪声合成的测试集总共包含2 304 (192 $\times$ 3 $\times$ 4)段含噪语音.

本文通过对增强语音进行客观评价来比较不同方法的语音增强性能, 主要采用PESQ (Perceptual evaluation of speech quality)作为指标来评价增强语音的质量^[29], 并采用STOI (Short time objective intelligibility)作为指标来评价增强语音的可懂度^[30]. PESQ即语音质量感知评估是ITU-T (国际电信联盟电信标准化部)推荐的语音质量评估指标, 其得分范围为-0.5~4.5, 越高的得分表示越高的语音质量. STOI即短时客观可懂度, 则主要衡量语音的可懂度, 其得分范围为0~1, 越高的得分表示语音具有越好的可懂度.

下面通过一系列实验对本文提出的DCNN的语音增强性能以及可能影响网络性能的关键因素进行分析.

3.2 DNN与DCNN的比较

为了验证本文所提出的DCNN在语音增强中的有效性, 我们将其与DNN进行比较.作为对比的DNN具有5个隐层, 每个隐层有1 024个节点, 激活函数为ReLU; 为了防止过拟合, 提高泛化能力, 每个隐层后面均伴有一个Dropout层, Dropout的比例为0.2. DNN和DCNN均采用式(7)定义的非负对数幅度谱作为训练目标, 并采用式(8)定义的训练特征作为网络的输入; 其中, 对于DCNN, 为了适应其网络结构, 输入窗长设为15帧; 对于DNN, 为了更好地进行对比, 其输入窗长分别设为与文献[9]相同的11帧(DNN_11F), 以及与DCNN相同的15帧(DNN_15F). mini-batch的大小均为128, 冲量因子均设为0.9, 迭代次数均为20.本文的所有网络均使用微软的Cognitive Toolkit进行训练^[31].

首先通过比较DNN和DCNN的训练误差和测试误差来分析两种网络的性能, 图 4给出了不同训练阶段所对应的训练集和测试集的均方误差, 可见, 两种DNN在训练集和测试集上的均方误差(MSE)都十分接近, 这表明两种DNN具有相似的语音增强性能; 而DCNN在训练集和测试集上的均方误差都要明显小于两种DNN, 表明DCNN具有更好的语音增强性能.

图 4 两种网络的训练误差和测试误差

Fig. 4 Training error and testing error of two networks

下载: 全尺寸图片幻灯片

为了进一步比较DNN和DCNN的语音增强性能, 我们对测试集含噪语音通过三种方法进行增强后得到的增强语音的平均语音质量和可懂度进行比较, 表 1和表 2分别给出了在4类不同噪声和3种不同信噪比下增强语音的平均PESQ和STOI得分, 并给出了未处理的含噪语音的平均PESQ和STOI得分作为对比.可见, 通过采用多类噪声进行训练, 对于4种未经训练的噪声类型, 两种方法均能有效提升语音质量和可懂度, 并且在两种不同的指标中, DCNN在不同噪声类型和不同信噪比条件下均取得了优于两种DNN的结果.

表 1 三种方法的平均PESQ得分

Table 1 The average PESQ score for three methods

噪声类型	信噪比 (dB)	含噪语音	DNN_11F	DNN_15F	DCNN
Factory2	-5	1.73	2.25	2.27	${\bf 2.33}$
	0	2.07	2.57	2.58	${\bf 2.65}$
	5	2.40	2.83	2.82	${\bf 2.89}$
Buccaneer1	-5	1.36	1.88	1.92	${\bf 1.93}$
	0	1.63	2.24	2.26	${\bf 2.27}$
	5	1.95	2.54	2.54	${\bf 2.56} $
Destroyer engine	-5	1.59	2.01	1.99	${\bf 2.15} $
	0	1.81	2.27	2.26	${\bf 2.46}$
	5	2.10	2.53	2.55	$ {\bf 2.76}$
HF channel	-5	1.36	1.7	1.71	${\bf 2.03} $
	0	1.58	2.04	2.06	${\bf 2.37}$
	5	1.85	2.38	2.39	${\bf 2.65}$

下载: 导出CSV

| 显示表格

表 2 三种方法的平均STOI得分

Table 2 The average STOI score for three methods

噪声类型	信噪比 (dB)	含噪语音	DNN_11F	DNN_15F	DCNN
Factory2	-5	0.65	0.76	0.76	${\bf 0.78 }$
	0	0.76	0.85	0.84	${\bf 0.86 } $
	5	0.85	0.89	0.89	${\bf 0.91 }$
Buccaneer1	-5	0.51	0.66	0.66	${\bf 0.68 }$
	0	0.63	0.77	0.77	${\bf 0.78 }$
	5	0.75	0.85	0.85	${\bf 0.86 }$
Destroyer engine	-5	0.57	0.62	0.63	${\bf 0.70 }$
	0	0.69	0.75	0.75	${\bf 0.82 }$
	5	0.81	0.85	0.85	${\bf 0.90 }$
HF channel	-5	0.57	0.69	0.69	${\bf 0.73 }$
	0	0.69	0.78	0.79	${\bf 0.82 }$
	5	0.80	0.86	0.86	${\bf 0.88 }$

下载: 导出CSV

| 显示表格

另外, 我们还在表 3给出了含噪语音和增强语音的分段信噪比(Segmental SNR, SegSNR), 分段信噪比同样是衡量语音质量的重要指标, 它比全局信噪比更接近实际的语音质量; 分段信噪比越大, 代表主观的语音质量越好.与PESQ和STOI指标下的结果一致, 采用DCNN增强后的语音取得了最佳的分段信噪比.值得注意的是, 两种DNN在三种指标下都取得了非常相近的结果, 这与文献[9]的描述是一致的.

表 3 三种方法的平均SegSNR

Table 3 The average SegSNR for three methods

噪声类型	信噪比 (dB)	含噪语音 (dB)	DNN_11F (dB)	DNN_15F (dB)	DCNN (dB)
Factory2	-5	-6.90	-0.69	-0.59	-0.05
	0	-4.50	0.34	0.42	0.95
	5	-1.57	1.24	1.29	1.80
Buccaneer1	-5	-7.21	-1.52	-1.40	-0.96
	0	-4.90	-0.50	-0.39	0.11
	5	-2.03	0.46	0.53	1.03
Destroyer engine	-5	-7.15	-2.86	-2.81	-2.16
	0	-4.90	-1.37	-1.24	-0.54
	5	-1.91	0.04	0.21	0.89
HF channel	-5	-7.24	-1.13	-1.21	0.35
	0	-4.91	0.05	-0.02	1.34
	5	-2.09	1.04	1.02	2.03

下载: 导出CSV

| 显示表格

为了更加直观地比较两种方法的语音增强性能, 我们分别采用三种方法对一段含有Factory2噪声信噪比为$-5$ dB的含噪语音进行语音增强, 然后比较其增强语音的语谱图. 图 5(a)和(b)分别给出了含噪语音与其相应的纯净语音的语谱图, 图 5(c)~(e)则分别给出了采用DNN_11F、DNN_15F以及DCNN增强后语音的语谱图.可以看到, DCNN增强后语音的残留噪声成分更少, 语音的纯净度更高, 其语谱图与纯净语音的语谱图更加接近.

图 5 $-5$ dB的Factory2噪声下的增强语音语谱图示例

Fig. 5 An example of spectrogram of enhanced speech under Factory2 noise at $-5$ dB SNR

下载: 全尺寸图片幻灯片

3.3 卷积层数量的影响

对于图像和语音这种具有局部强相关性的信号, 卷积层具有很好的特征提取能力, 但是由于语音增强是一个回归问题, 网络的最后输出对应的是纯净语音的功率谱, 所以还需要通过全连接层来进行数据的拟合.在本文使用的网络结构中, 不同的卷积层和全连接层的数量会带来网络性能的差别, 图 6给出了不同网络配置下增强后语音的平均PESQ得分提升和平均STOI得分提升.可见, 当网络包含3个卷积层和2个全连接层时, 在3种不同的信噪比下两种指标都得到了最高的提升值, 表明该网络结构具有最好的语音增强性能.

图 6 卷积层数量对网络性能的影响

Fig. 6 The influence of the number of convolutional layers on the network performance

下载: 全尺寸图片幻灯片

3.4 池化层的影响

Max-pooling的直接作用是通过选取特征的局部最大值达到降低特征维度的目的.在含噪语音功率谱的相邻时频单元中, 局部最大值一般含有语音成分, 而局部最小值一般为噪声成分, 传统的基于最小统计的噪声估计方法正是基于此原则.因此, 池化层的存在将对时频单元起到一定的筛选作用, 能够通过筛掉局部较小值达到抑制噪声成分的目的.

为了检验池化层对于网络性能的影响, 我们将卷积层的步长设为2, 并去掉池化层, 训练得到不含池化层的网络模型. 图 7给出了不同信噪比下包含池化层(Max-pooling)和不含池化层(No pooling)的网络增强后语音的平均PESQ得分提升和平均STOI得分提升, 综合分析两种指标可知, 在较低信噪比的$-5$ dB和0 dB两种情况下, 包含池化层的网络的语音增强性能略好于不含池化层的网络.

图 7 池化层对网络性能的影响

Fig. 7 The influence of the pooling layers on the network performance

下载: 全尺寸图片幻灯片

通过对比两种网络增强后语音的语谱图来进一步观察池化层的影响, 图 8(a)和图 8(b)分别给出了一段含有$-5$ dB的HF channel噪声的含噪语音与其相应的纯净语音的语谱图, 图 8(c)和图 8(d)则分别给出了采用包含池化层和不含池化层的网络增强后语音的语谱图.由图 8可见, 与上述分析一致, 包含池化层的网络增强后语音的残留噪声明显少于不含池化层网络增强后语音, 表明Max-pooling的存在确实能带来更好的噪声抑制效果.

图 8 $-5$ dB的HF channel噪声下的增强语音语谱图示例

Fig. 8 An example of spectrogram of enhanced speech under HF channel noise at $-5$ dB SNR

下载: 全尺寸图片幻灯片

3.5 Batch normalization层的影响

Batch normalization是深度卷积神经网络中的常用技术, Batch normalization层的引入往往可以加快收敛过程, 提升训练速度, 并能防止过拟合.为了检验Batch normalization层对本文网络结构的影响, 我们去掉网络中的Batch normalization层, 训练得到不含Batch normalization层的网络模型. 图 9给出了不同信噪比下包含Batch normalization层(BN)和不含Batch normalization层(No BN)的网络增强后语音的平均PESQ得分提升和平均STOI得分提升, 在两种指标下, 不包含Batch normalization层的网络模型都略好于包含Batch normalization层的网络模型, 表明Batch normalization层的引入并没有提升本文网络结构的语音增强性能.可见, 对于本文相对简单的网络结构, Batch normalization并没有明显的作用, 可以去掉.

图 9 Batch normalization层对网络性能的影响

Fig. 9 The influence of the batch normalization layers on the network performance

下载: 全尺寸图片幻灯片

3.6 LPS与NLAS的比较

下面通过实验对文献[9]采用的LPS与本文采用的NLAS两种特征进行比较, 分别采用DNN和DCNN对两种特征进行训练.其中, 训练LPS的DNN (LPS-DNN)与训练NLAS的DNN (NLAS-DNN)均为与前文相似的包含5个隐层的DNN, 需要注意的是两种DNN采用的激活函数是Sigmoid函数, 因为在我们的实验中, 当训练特征为LPS时, 如果采用ReLU作为激活函数, 会造成训练过程不收敛; 训练LPS的DCNN (LPS-DCNN)与前文的NLAS-DCNN结构一致. 图 10分别给出了4种测试集噪声在不同信噪比下采用4种方法增强后语音的平均PESQ和STOI得分.可见, 在相同特征下, DCNN的语音增强性能明显好于DNN; 在相同的网络结构下, 采用NLAS特征训练得到的网络模型在3种不同信噪比下都取得了较好的语音可懂度, 并且在低信噪比(-5 dB)下取得了较好的语音质量, 表明NLAS特征能够更好地保留含噪语音中的语音成分, 更加适用于低信噪比下的语音增强.

图 10 两种特征训练得到的DNN和DCNN的性能比较

Fig. 10 The performance comparisons for DNN and DCNN trained using two kinds of feature

下载: 全尺寸图片幻灯片

3.7 与其他方法的比较

为了进一步验证本文DCNN的语音增强性能, 将其与LSTM (Long-short term memory)以及文献[24]中的FCNN进行比较.其中LSTM包含5个隐层, Cell维度为256; FCNN包含16个卷积层, 每层滤波器的个数分别为: 10, 12, 14, 15, 19, 21, 23, 25, 23, 21, 19, 15, 14, 12, 10, 1. 图 11分别给出了各种方法增强后语音的平均PESQ、平均STOI和平均SegSNR, 同时给出DNN对应的结果作为对比.通过综合分析3种指标可知, DCNN取得了最佳的语音增强性能, LSTM次之, FCNN略好于DNN.

图 11 两种特征训练得到的DNN和DCNN的性能比较

Fig. 11 The performance comparisons for DNN and DCNN trained using two kinds of feature

下载: 全尺寸图片幻灯片

4. 结论

为了进一步提高未知噪声下的语音增强性能, 考虑DCNN相比DNN具有更好的局部特征表达能力, 能够更好地利用语音和噪声信号的时频相关性, 本文采用深度卷积神经网络建立回归模型来表达含噪语音和纯净语音之间的复杂非线性关系.通过使用非负对数幅度谱作为训练特征和训练目标, 设计与训练了不同结构的DCNN并对其语音增强性能进行了比较, 得到了适合于语音增强问题的合理网络结构, 提出了基于深度卷积神经网络的语音增强方法.实验结果表明, 在与DNN及其他方法的对比中, 本文提出的DCNN在测试集上取得了更小的误差, 表现出了更好的噪声抑制能力, 在各类噪声和各种信噪比条件下都显著提升了增强后语音的语音质量和可懂度, 进一步提高了未知噪声下的语音增强性能.

本文责任编委党建武

图 1 DNN结构示意图

Fig. 1 Schematic diagram of DNN

下载: 全尺寸图片幻灯片

图 2 DCNN结构示意图

Fig. 2 Schematic diagram of DCNN

下载: 全尺寸图片幻灯片

图 3 本文DCNN的结构框图

Fig. 3 Structure diagram of the proposed DCNN

下载: 全尺寸图片幻灯片

图 4 两种网络的训练误差和测试误差

Fig. 4 Training error and testing error of two networks

下载: 全尺寸图片幻灯片

图 5 $-5$ dB的Factory2噪声下的增强语音语谱图示例

Fig. 5 An example of spectrogram of enhanced speech under Factory2 noise at $-5$ dB SNR

下载: 全尺寸图片幻灯片

图 6 卷积层数量对网络性能的影响

Fig. 6 The influence of the number of convolutional layers on the network performance

下载: 全尺寸图片幻灯片

图 7 池化层对网络性能的影响

Fig. 7 The influence of the pooling layers on the network performance

下载: 全尺寸图片幻灯片

图 8 $-5$ dB的HF channel噪声下的增强语音语谱图示例

Fig. 8 An example of spectrogram of enhanced speech under HF channel noise at $-5$ dB SNR

下载: 全尺寸图片幻灯片

图 9 Batch normalization层对网络性能的影响

Fig. 9 The influence of the batch normalization layers on the network performance

下载: 全尺寸图片幻灯片

图 10 两种特征训练得到的DNN和DCNN的性能比较

Fig. 10 The performance comparisons for DNN and DCNN trained using two kinds of feature

下载: 全尺寸图片幻灯片

图 11 两种特征训练得到的DNN和DCNN的性能比较

Fig. 11 The performance comparisons for DNN and DCNN trained using two kinds of feature

下载: 全尺寸图片幻灯片

表 1 三种方法的平均PESQ得分

Table 1 The average PESQ score for three methods

噪声类型	信噪比 (dB)	含噪语音	DNN_11F	DNN_15F	DCNN
Factory2	-5	1.73	2.25	2.27	${\bf 2.33}$
	0	2.07	2.57	2.58	${\bf 2.65}$
	5	2.40	2.83	2.82	${\bf 2.89}$
Buccaneer1	-5	1.36	1.88	1.92	${\bf 1.93}$
	0	1.63	2.24	2.26	${\bf 2.27}$
	5	1.95	2.54	2.54	${\bf 2.56} $
Destroyer engine	-5	1.59	2.01	1.99	${\bf 2.15} $
	0	1.81	2.27	2.26	${\bf 2.46}$
	5	2.10	2.53	2.55	$ {\bf 2.76}$
HF channel	-5	1.36	1.7	1.71	${\bf 2.03} $
	0	1.58	2.04	2.06	${\bf 2.37}$
	5	1.85	2.38	2.39	${\bf 2.65}$

下载: 导出CSV

表 2 三种方法的平均STOI得分

Table 2 The average STOI score for three methods

噪声类型	信噪比 (dB)	含噪语音	DNN_11F	DNN_15F	DCNN
Factory2	-5	0.65	0.76	0.76	${\bf 0.78 }$
	0	0.76	0.85	0.84	${\bf 0.86 } $
	5	0.85	0.89	0.89	${\bf 0.91 }$
Buccaneer1	-5	0.51	0.66	0.66	${\bf 0.68 }$
	0	0.63	0.77	0.77	${\bf 0.78 }$
	5	0.75	0.85	0.85	${\bf 0.86 }$
Destroyer engine	-5	0.57	0.62	0.63	${\bf 0.70 }$
	0	0.69	0.75	0.75	${\bf 0.82 }$
	5	0.81	0.85	0.85	${\bf 0.90 }$
HF channel	-5	0.57	0.69	0.69	${\bf 0.73 }$
	0	0.69	0.78	0.79	${\bf 0.82 }$
	5	0.80	0.86	0.86	${\bf 0.88 }$

下载: 导出CSV

表 3 三种方法的平均SegSNR

Table 3 The average SegSNR for three methods

噪声类型	信噪比 (dB)	含噪语音 (dB)	DNN_11F (dB)	DNN_15F (dB)	DCNN (dB)
Factory2	-5	-6.90	-0.69	-0.59	-0.05
	0	-4.50	0.34	0.42	0.95
	5	-1.57	1.24	1.29	1.80
Buccaneer1	-5	-7.21	-1.52	-1.40	-0.96
	0	-4.90	-0.50	-0.39	0.11
	5	-2.03	0.46	0.53	1.03
Destroyer engine	-5	-7.15	-2.86	-2.81	-2.16
	0	-4.90	-1.37	-1.24	-0.54
	5	-1.91	0.04	0.21	0.89
HF channel	-5	-7.24	-1.13	-1.21	0.35
	0	-4.91	0.05	-0.02	1.34
	5	-2.09	1.04	1.02	2.03

下载: 导出CSV

参考文献(31)

[1]	Loizou P C. Speech Enhancement:Theory and Practice. Florida:CRC Press, 2013.
[2]	Ephraim Y, Malah D. Speech enhancement using a minimum mean-square error log-spectral amplitude estimator. IEEE Transactions on Acoustics, Speech, and Signal Processing, 1985, 33(2):443-445 http://ieeexplore.ieee.org/document/1164550/
[3]	Cohen I. Noise spectrum estimation in adverse environments:Improved minima controlled recursive averaging. IEEE Transactions on speech and audio processing, 2003, 11(5):466-475 http://www.researchgate.net/publication/3333946_Noise_spectrum_estimation_in_adverse_environments_improved_minima_controlled_recursive_averaging
[4]	Mohammadiha N, Smaragdis P, Leijon A. Supervised and unsupervised speech enhancement using nonnegative matrix factorization. IEEE Transactions on Audio, Speech, and Language Processing, 2013, 21(10):2140-2151 doi: 10.1109/TASL.2013.2270369
[5]	刘文举, 聂帅, 梁山, 张学良.基于深度学习语音分离技术的研究现状与进展.自动化学报, 2016, 42(6):819-833 http://www.aas.net.cn/CN/abstract/abstract18873.shtml Liu Wen-Ju, Nie Shuai, Liang Shan, Zhang Xue-Liang. Deep learning based speech separation technology and its developments. Acta Automatica Sinica, 2016, 42(6):819-833 http://www.aas.net.cn/CN/abstract/abstract18873.shtml
[6]	Wang Y X, Wang D L. Towards scaling up classification-based speech separation. IEEE Transactions on Audio, Speech, and Language Processing, 2013, 21(7):1381-1390 doi: 10.1109/TASL.2013.2250961
[7]	Wang Y X, Narayanan A, Wang D L. On training targets for supervised speech separation. IEEE Transactions on Audio, Speech, and Language Processing, 2014, 22(12):1849-1858 doi: 10.1109/TASLP.2014.2352935
[8]	Xu Y, Du J, Dai L R, Lee C H. An experimental study on speech enhancement based on deep neural networks. IEEE Signal Processing Letters, 2014, 21(1):65-68 doi: 10.1109/LSP.2013.2291240
[9]	Xu Y, Du J, Dai L R, Lee C H. A regression approach to speech enhancement based on deep neural networks. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2015, 23(1):7-19 http://www.researchgate.net/publication/272436458_A_Regression_Approach_to_Speech_Enhancement_Based_on_Deep_Neural_Networks
[10]	Williamson D S, Wang Y X, Wang D L. Complex ratio masking for monaural speech separation. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2016, 24(3):483-492 doi: 10.1109/TASLP.2015.2512042
[11]	Xu Y, Du J, Huang Z, Dai L R, Lee C H. Multi-objective learning and mask-based post-processing for deep neural network based speech enhancement. In: Proceedings of the 16th Annual Conference of the International Speech Communication Association. Dresden, Germany: ISCA, 2015. 1508-1512
[12]	Wang Y X, Chen J T, Wang D L. Deep Neural Network Based Supervised Speech Segregation Generalizes to Novel Noises Through Large-scale Training, Technical Report OSU-CISRC-3/15-TR02, Department of Computer Science and Engineering, The Ohio State University, Columbus, Ohio, USA, 2015
[13]	Chen J T, Wang Y X, Yoho S E, Wang D L, Healy E W. Large-scale training to increase speech intelligibility for hearing-impaired listeners in novel noises. The Journal of the Acoustical Society of America, 2016, 139(5):2604-2612 doi: 10.1121/1.4948445
[14]	Chen J T, Wang Y X, Wang D L. Noise perturbation for supervised speech separation. Speech Communication, 2016, 78:1-10 https://www.sciencedirect.com/science/article/pii/S0167639315001405
[15]	Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks. In: Proceedings of the International Conference on Neural Information Processing Systems. Nevada, USA: Curran Associates Inc. 2012. 1097-1105 http://www.researchgate.net/publication/267960550_ImageNe
[16]	Abdel-Hamid O, Mohamed A, Jiang H, Penn G. Applying convolutional neural networks concepts to hybrid NN-HMM model for speech recognition. In: Proceedings of the 2012 IEEE International Conference on Acoustics, Speech and Signal Processing. Kyoto, Japan: IEEE, 2012. 4277-4280
[17]	Abdel-Hamid O, Deng L, Yu D. Exploring convolutional neural network structures and optimization techniques for speech recognition. In: Proceedings of the 14th Annual Conference of the International Speech Communication Association. Lyon, France: ISCA, 2013. 3366-3370 http://www.researchgate.net/publication/264859599_Exploring_Convolutional_Neural_Network_Structures_and_Optimization_Techniques_for_Speech_Recognition
[18]	Sainath T N, Kingsbury B, Saon G, Soltau H, Mohamed A R, Dahl G, Ramabhadran B. Deep convolutional neural networks for large-scale speech tasks. Neural Networks, 2015, 64:39-48 https://www.sciencedirect.com/science/article/pii/S0893608014002007
[19]	Qian Y M, Bi M X, Tan T, Yu K. Very deep convolutional neural networks for noise robust speech recognition. IEEE/ACM Transactions on Audio, Speech and Language Processing, 2016, 24(12):2263-2276 http://www.researchgate.net/publication/308823854_Very_Deep_Convolutional_Neural_Networks_for_Robust_Speech_Recognition
[20]	Bi M X, Qian Y M, Yu K. Very deep convolutional neural networks for LVCSR. In: Proceedings of the 16th Annual Conference of the International Speech Communication Association. Dresden, Germany: ISCA, 2015. 3259-3263
[21]	Qian Y, Woodland P C. Very deep convolutional neural networks for robust speech recognition. In: Proceedings of the 2016 IEEE Spoken Language Technology Workshop. San Juan, Puerto Rico: IEEE, 2016. 481-488 http://www.researchgate.net/publication/313587893_Very_deep_convolutional_neural_networks_for_robust_speech_recognition
[22]	Sercu T, Puhrsch C, Kingsbury B, LeCun Y. Very deep multilingual convolutional neural networks for LVCSR. In: Proceedings of the 2016 IEEE International Conference on Acoustics, Speech and Signal Processing. Shanghai, China: IEEE, 2016. 4955-4959
[23]	Sercu T, Goel V. Advances in very deep convolutional neural networks for LVCSR. In: Proceedings of the 16th Annual Conference of the International Speech Communication Association. California, USA: ISCA, 2016. 3429-3433 http://www.researchgate.net/publication/307889292_Advances_in_Very_Deep_Convolutional_Neural_Networks_for_LVCSR
[24]	Park S R, Lee J. A fully convolutional neural network for speech enhancement. arXiv: 1609. 07132, 2016.
[25]	Fu S W, Tsao Y, Lu X. SNR-Aware convolutional neural network modeling for speech enhancement. In: Proceedings of the 17th Annual Conference of the International Speech Communication Association. San Francisco, USA: ISCA, 2016. 8-12 http://www.researchgate.net/publication/307889660_SNR-Aware_Convolutional_Neural_Network_Modeling_for_Speech_Enhancement
[26]	Garofolo J S, Lamel L F, Fisher W M, Fiscus J G, Pallett D S, Dahlgren N L, Zue V. TIMIT acoustic-phonetic continuous speech corpus. Linguistic Data Consortium, Philadelphia, 1993. https://www.researchgate.net/publication/243787812_TIMIT_acoustic-phonetic_continuous_speech_corpus
[27]	Hu G N. 100 nonspeech sounds[online], available: http://web.cse.ohio-state.edu/pnl/corpus/HuNonspeech/HuCorpus.html, April 20, 2004
[28]	Varga A, Steeneken Herman J M. Assessment for automatic speech recognition:Ⅱ. NOISEX-92:a database and an experiment to study the effect of additive noise on speech recognition systems. Speech Communication, 1993, 12(3):247-251 doi: 10.1016/0167-6393(93)90095-3
[29]	Beerends J G, Rix A W, Hollier M P, Hekstra A P. Perceptual evaluation of speech quality (PESQ)——a new method for speech quality assessment of telephone networks and codecs. In: Proceedings of the 2001 IEEE International Conference on Acoustics, Speech and Signal Processing. Utah, USA: IEEE, 2001. 749-752 http://dl.acm.org/citation.cfm?id=1259107
[30]	Taal C H, Hendriks R C, Heusdens R, Jensen J. An algorithm for intelligibility prediction of time-frequency weighted noisy speech. IEEE Transactions on Audio, Speech, and Language Processing, 2011, 19(7):2125-2136 doi: 10.1109/TASL.2011.2114881
[31]	Yu D, Eversole A, Seltzer M L, Yao K S, Huang Z H, Guenter B, Kuchaiev O, Zhang Y, Seide F, Wang H M, Droppo J, Zweig G, Rossbach C, Currey J, Gao J, May A, Peng B L, Stolcke A, Slaney M. An Introduction to Computational Networks and the Computational Network Toolkit, Technical Report, Tech. Rep. MSR, Microsoft Research, 2014.

施引文献

期刊类型引用(39)

1.	杨涛. 基于机器学习的语音增强技术. 电声技术. 2024(03): 39-41 . 百度学术
2.	杨波. 基于卷积神经网络的实时语音分割优化研究. 电声技术. 2024(05): 46-48 . 百度学术
3.	张文安，林安迪，杨旭升，俞立，杨小牛. 融合深度学习的贝叶斯滤波综述. 自动化学报. 2024(08): 1502-1516 . 本站查看
4.	郑盼盼，闫东. 基于深度卷积神经网络的城市噪声识别研究. 电声技术. 2024(09): 41-43 . 百度学术
5.	胡翔，杨洋，蒋长江，潘自强，匡仲琴. 一种基于深度神经网络的电力系统调度控制语音识别模型. 电子器件. 2023(01): 90-95 . 百度学术
6.	高建清，屠彦辉，马峰，付中华. 基于渐进比率掩蔽目标的自适应噪声估计方法. 计算机应用. 2023(04): 1303-1308 . 百度学术
7.	李鑫元，黄鹤鸣. 基于并行卷积循环网络的单通道语音增强系统. 计算机工程与设计. 2023(04): 1181-1188 . 百度学术
8.	沈学利，田桂源，姜彦吉，马琳琳. 基于双阶段Conv-Transformer的时频域语音增强算法. 计算机工程. 2023(06): 123-130 . 百度学术
9.	陈晋音，吴长安，郑海斌，王巍，温浩. 基于通用逆扰动的对抗攻击防御方法. 自动化学报. 2023(10): 2172-2187 . 本站查看
10.	李辉，景浩，严康华，徐良浩. 基于卷积循环网络与非局部模块的语音增强方法. 电子科技. 2022(03): 8-15 . 百度学术
11.	徐秋平，任玲，樊玺炫，王义华. 语音识别技术在轨道交通AFC系统中的应用研究. 现代城市轨道交通. 2022(04): 31-35 . 百度学术
12.	许春冬，徐琅，周滨. 结合优化U-Net和残差神经网络的单通道语音增强算法. 现代电子技术. 2022(09): 35-40 . 百度学术
13.	李文志，屈晓旭. 基于注意力机制和残差卷积网络的语音增强. 舰船电子工程. 2022(05): 96-100 . 百度学术
14.	李辉，景浩，严康华，邹波蓉，侯庆华，武会斌. 基于双通道卷积注意力网络的语音增强方法. 河南理工大学学报(自然科学版). 2022(05): 127-136 . 百度学术
15.	李江和，王玫. 一种用于因果式语音增强的门控循环神经网络. 计算机工程. 2022(11): 77-82 . 百度学术
16.	陈晋音，沈诗婧，苏蒙蒙，郑海斌，熊晖. 车牌识别系统的黑盒对抗攻击. 自动化学报. 2021(01): 121-135 . 本站查看
17.	SHI Wenhua，ZHANG Xiongwei，ZOU Xia，SUN Meng，LI Li，REN Zhengbing. Time-frequency mask estimation-based speech enhancement using deep encoder-decoder neural network. Chinese Journal of Acoustics. 2021(01): 141-154 . 必应学术
18.	董宏越，马建芬，张朝霞. 基于时域波形映射-频域谐波损失的语音增强. 计算机工程与设计. 2021(06): 1677-1683 . 百度学术
19.	唐艳凤，林俊强，马振丰. 基于Cauchy模型的行人轮廓提取及目标检测. 计算机测量与控制. 2021(07): 41-45 . 百度学术
20.	王钇翔，吕忆蓝，台文鑫，孙建强，蓝天. 基于区域自适应多尺度卷积的单声道语音增强算法. 计算机应用研究. 2021(11): 3264-3267 . 百度学术
21.	储有亮，李梁. 基于DBLSTM-DCNN的骨导和气导语音转换. 声学技术. 2021(06): 815-821 . 百度学术
22.	连海伦，周健，胡雨婷，郑文明. 利用深度卷积神经网络将耳语转换为正常语音. 声学学报. 2020(01): 137-144 . 百度学术
23.	娄迎曦，袁文浩，彭荣群. 基于准循环神经网络的语音增强方法. 计算机工程. 2020(04): 316-320 . 百度学术
24.	时文华，张雄伟，邹霞，孙蒙，李莉. 联合深度编解码网络和时频掩蔽估计的单通道语音增强. 声学学报. 2020(03): 299-307 . 百度学术
25.	刘晓宇，武鲁，许少华. 一种深层过程神经网络及其在信号分类中的应用. 软件导刊. 2020(03): 60-64 . 百度学术
26.	董兴磊，胡英，黄浩，吾守尔·斯拉木. 基于卷积非负矩阵部分联合分解的强噪声单声道语音分离. 自动化学报. 2020(06): 1200-1209 . 本站查看
27.	刘虹，袁三男. 基于多尺度残差深度卷积神经网络的语音识别. 计算机应用与软件. 2020(11): 275-279 . 百度学术
28.	许春冬，徐琅，周滨，凌贤鹏. 单通道语音增强技术的研究现状与发展趋势. 江西理工大学学报. 2020(05): 55-64 . 百度学术
29.	袁文浩，娄迎曦，夏斌，孙文珠. 基于卷积门控循环神经网络的语音增强方法. 华中科技大学学报(自然科学版). 2019(04): 13-18 . 百度学术
30.	袁文浩，娄迎曦，梁春燕，王志强. 感知联合优化的深度神经网络语音增强方法. 西安电子科技大学学报. 2019(02): 89-94 . 百度学术
31.	姚红革，沈新霞，李宇，喻钧，雷松泽. 多模态融合的深度学习脑肿瘤检测方法. 光子学报. 2019(07): 165-176 . 百度学术
32.	袁文浩，梁春燕，夏斌. 基于深度神经网络的因果形式语音增强模型. 计算机工程. 2019(08): 255-259 . 百度学术
33.	韦博轩，张冀聪. EEG及MEG痫样棘波检测算法研究现状. 中国医疗设备. 2019(11): 30-33 . 百度学术
34.	黄志东. 鲁棒性语音识别技术研究综述. 信息通信. 2019(11): 20-22 . 百度学术
35.	陈郑平，米为民，林静怀，王恒，王昊，董根源. 电网调控操作智能助手方案探讨. 电力系统自动化. 2019(22): 173-179+186 . 百度学术
36.	任晓霞. 基于Dropout深度卷积神经网络的ST段波形分类算法. 传感技术学报. 2018(08): 1217-1222 . 百度学术
37.	刘亚，王静，田新诚. 基于C#和Matlab混合编程的轴承故障诊断系统. 计算机应用. 2018(S2): 236-238+242 . 百度学术
38.	罗秀芝，马本学，李小霞，胡洋洋，王文霞，雷声渊. 基于卷积神经网络干制哈密大枣纹理分级. 新疆农业科学. 2018(12): 2220-2227 . 百度学术
39.	吴耀春，赵荣珍，靳伍银，何天经，武杰. 利用DCNN融合多传感器特征的故障诊断方法. 振动.测试与诊断. 2021(02): 362-369+416 . 百度学术

其他类型引用(39)

资源附件(0)

访问统计

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

利用深度卷积神经网络提高未知噪声下的语音增强性能

doi: 10.16383/j.aas.2018.c170001

通讯作者:
袁文浩博士, 山东理工大学计算机科学与技术学院讲师.主要研究方向为语音信号处理, 语音增强.本文通信作者.E-mail:why_sdut@126.com

计量

Improving Speech Enhancement in Unseen Noise Using Deep Convolutional Neural Network

Corresponding author: YUAN Wen-Hao Ph. D., lecturer at the College of Computer Science and Technology, Shandong University of Technology. His research interest covers speech signal processing and speech enhancement. Corresponding author of this paper

1. 训练特征与训练目标

2. 网络结构

3. 实验与结果分析

3.1 实验配置

3.2 DNN与DCNN的比较

3.3 卷积层数量的影响

3.4 池化层的影响

3.5 Batch normalization层的影响

3.6 LPS与NLAS的比较

3.7 与其他方法的比较

4. 结论

期刊类型引用(39)

其他类型引用(39)

计量

目录

1. 训练特征与训练目标

2. 网络结构

3. 实验与结果分析

3.1 实验配置

3.2 DNN与DCNN的比较

3.3 卷积层数量的影响

3.4 池化层的影响

3.5 Batch normalization层的影响

3.6 LPS与NLAS的比较

3.7 与其他方法的比较

4. 结论

留言板

利用深度卷积神经网络提高未知噪声下的语音增强性能

doi: 10.16383/j.aas.2018.c170001

通讯作者: 袁文浩 博士, 山东理工大学计算机科学与技术学院讲师.主要研究方向为语音信号处理, 语音增强.本文通信作者.E-mail:why_sdut@126.com

计量

出版历程

Improving Speech Enhancement in Unseen Noise Using Deep Convolutional Neural Network

Corresponding author: YUAN Wen-Hao Ph. D., lecturer at the College of Computer Science and Technology, Shandong University of Technology. His research interest covers speech signal processing and speech enhancement. Corresponding author of this paper

1. 训练特征与训练目标

2. 网络结构

3. 实验与结果分析

3.1 实验配置

3.2 DNN与DCNN的比较

3.3 卷积层数量的影响

3.4 池化层的影响

3.5 Batch normalization层的影响

3.6 LPS与NLAS的比较

3.7 与其他方法的比较

4. 结论

期刊类型引用(39)

其他类型引用(39)

计量

出版历程

目录

1. 训练特征与训练目标

2. 网络结构

3. 实验与结果分析

3.1 实验配置

3.2 DNN与DCNN的比较

3.3 卷积层数量的影响

3.4 池化层的影响

3.5 Batch normalization层的影响

3.6 LPS与NLAS的比较

3.7 与其他方法的比较

4. 结论

通讯作者:
袁文浩博士, 山东理工大学计算机科学与技术学院讲师.主要研究方向为语音信号处理, 语音增强.本文通信作者.E-mail:why_sdut@126.com