Improving Speech Enhancement in Unseen Noise Using Deep Convolutional Neural Network
-
摘要: 为了进一步提高基于深度学习的语音增强方法在未知噪声下的性能,本文从神经网络的结构出发展开研究.基于在时间与频率两个维度上,语音和噪声信号的局部特征都具有强相关性的特点,采用深度卷积神经网络(Deep convolutional neural network,DCNN)建模来表示含噪语音和纯净语音之间的复杂非线性关系.通过设计有效的训练特征和训练目标,并建立合理的网络结构,提出了基于深度卷积神经网络的语音增强方法.实验结果表明,在未知噪声条件下,本文方法相比基于深度神经网络(Deep neural network,DNN)的方法在语音质量和可懂度两种指标上都有明显提高.Abstract: In order to further improve the performance of speech enhancement method based on deep learning in unseen noise, this paper focuses on the architecture of neural network. Based on the strong correlation between local characteristics of speech and noise signals in time and frequency domains, a deep convolutional neural network (DCNN) model is used to represent the complex nonlinear relationship between noisy speech and clean speech. By designing effective training features and training target, and establishing reasonable network architecture, a speech enhancement method based on DCNN is proposed. Experimental results show that under the condition of unseen noise, the proposed method significantly outperforms the methods based on deep neural network (DNN) in terms of both speech quality and intelligibility.
-
随着信息技术的发展, 身份识别技术已经被广泛应用于各种领域.个人虚拟身份已经与人们的工作、学习和生活密切相关, 其安全问题也变得愈加重要, 如何准确地鉴别一个人的身份信息, 成为信息系统安全面临的主要问题之一[1].而生物特征识别技术由于具有稳定性、唯一性、不易改变和防伪造等身份识别技术不具备的优势[2], 逐渐成为信息安全领域的研究热点之一.
传统的基于模板匹配的生物特征识别系统, 模板数据中存储有大量的用户原始生物特征信息, 一旦模板数据泄露或者丢失, 攻击者就可以利用得到的模板数据轻松骗过验证系统, 甚至能从得到的特征模板中恢复出原始的生物特征[3].由于生物特征是不可更改的, 所以一旦模板数据丢失, 其生物特征的泄露将是永久性的.为了有效解决这一问题, 研究者相继提出了多种不同的解决方案.
1999年, Davida等在虹膜密钥绑定的方案中引入纠错码[4], 该方案当查询样本与注册模板差异较小时, 可直接恢复出密钥.但缺点是需保留纠错码, 所以存在原始特征数据泄露的可能.随后Juels等在此基础上提出Fuzzy Commitment方案[5], 利用纠错码技术将生物特征数据和密钥绑定在一起.但Fuzzy Commitment方案要求生物特征必须编码为定长的比特值.为了克服这一缺点, Juels等提出一种Fuzzy Vault方案[6], 其思路是将生物特征点集映射到密钥构造的多项式上得到真实点, 再将真实点隐藏在大量杂凑点之中组成模糊金库, 验证时只要能提取出足够的真实点, 就可恢复出密钥.但是Fuzzy Vault方案也存在严重的安全隐患[7], 通过交叉比对多个Vault模板, 很容易获得真实细节点数据[8], 而且当密钥丢失或被盗取后, 攻击者可以通过把其中部分杂凑点对换成自己的点对, 冒充合法用户通过系统验证.
2001年, Ratha等首次提出可撤销生物认证(Cancelable Biometrics)的概念[9], 其思想是通过某种可调参数的不可逆变换函数, 对生物特征数据进行变换, 并将变换后的特征作为模板.如果模板泄露, 只须修改变换函数即可生成一个新的模板, 随后他们给出基于指纹细节点的具体实现方案[10].然而, 如果攻击者知道变换的规则, 就可以从转换后的特征中恢复出原始的指纹细节. Lee等提出一种免预对齐的可撤销指纹模板构造方法[11], 该方法利用指纹细节点邻域的方向图和用户的PIN码, 产生旋转和平移参数, 然后根据参数对细节点进行平移和旋转操作, 即可得到可撤销指纹模板. Ang等提出一种将指纹细节点模板进行平面对折的几何变换的方法[12].其思路是定位指纹图像的中心点, 并指定通过中心点的线.通过改变密钥值或角度来获得不同地变换的指纹模板.这种方法的缺点是需要对准输入的指纹图像, 并且由于线上方的细节未被移动, 所以转换的模板中仍然保留了一些原始的指纹信息. Jin等提出一种基于Biohashing的可撤销生物认证的方案[13], 该方案是将用户令牌生成的正交随机矩阵与指纹特征向量迭代内积, 阈值量化后生成一组BioCode码, 通过比较查询指纹和注册指纹的BioCode码之间的汉明距离获得识别结果.当模板存在安全威胁时, 通过用户令牌的更换可随时发布新的模板, 具有良好的安全和识别性能.但Kong等指出[14], 如果攻击者在获取到用户令牌后, 结合自己的指纹特征冒充合法用户进行身份认证, 骗过认证系统的成功概率相当大, 此时的Biohashing方法将不如普通生物认证有效.
本文针对用户令牌泄露导致Biohashing识别性能严重退化的问题, 给出了两种改进的Biohashing指纹模板保护算法, 算法在量化过程中通过将特征向量序列变为特征矩阵, 降低了特征值之间的关联性, 并结合可变步长参数和滑动窗口, 获得了更大的密钥空间, 增加了指纹的类间距, 有效提高了算法的安全性和识别性.
1. Biohashing算法
2004年, Jin等提出Biohashing的可撤销生物认证方法[13], 该方法将随机数与指纹特征相结合并求取指纹方向场确定指纹中心点, 再经过小波变换、Fourier变换、梅林变换提取出指纹图像的小波Fourier-Mellin特征(Wavelet-FMT feature, WFMT)[15], 随后将指纹特征向量投影到正交随机矩阵中, 经阈值量化生成一组BioCode码作为指纹特征模板.认证时, 通过比较查询指纹和注册指纹的BioCode码之间的汉明距离获得识别结果.
Biohashing方法的具体步骤如下:
步骤 1. 定位指纹中心点.运用与指纹中心点相匹配的复滤波器的强响应进行指纹中心点的定位, 并根据指纹中心点的位置将指纹图像裁剪为尺寸合适的系统输入图像.
步骤 2. 小波变换.对裁剪后尺寸合适的图像进行小波变换, 并提取分解后指纹图像的低频部分作为特征指纹图像.
步骤 3. Fourier-Mellin变换.对经过旋转、平移和缩放变换后的指纹图像进行傅立叶变换, 并通过高通滤波器抑制低频分量, 保持高频分量, 获得具有平移、旋转和缩放不变性的WFMT特征, 然后将得到的WFMT特征按行连接生成指纹特征向量.
步骤 4. 特征向量二值化.将生成的指纹特征向量与用户令牌中的正交随机矩阵进行内积运算, 生成指纹特征序列记为: $\{X_{1}, X_{2}, \cdots, X_{m}| X_{i}\in (-1$, $1), $ $i=1, 2, \cdots, m\}$, 对其量化处理后, 得到二值序列: $\{b_{1}, b_{2}, \cdots, b_{m}| b_{i}\in \{0, 1\}$, .
$ \begin{align} b_{i} = \begin{cases} 0,&X_{i} \le \tau \\ 1,&X_{i} > \tau \\ \end{cases}, \quad i=1, 2, \cdots, m \end{align} $
(1) 其中, $\tau$为预设阈值.
步骤 5. 计算汉明距离.在身份认证环节, 通过查询指纹与注册指纹的BioCode码, 利用下式计算两者的汉明距离获得识别结果.
$ \begin{align} HD=\frac{\|{\rm code}(R)\oplus {\rm code}(T)\|}{m} \end{align} $
(2) 其中, ${\rm code}(R)$代表查询指纹的BioCode码, 代表注册指纹的BioCode码, $\parallel$X$\parallel$表示二值序列X中1的个数.
Biohashing方法的基本流程如图 1所示.
在指纹数据和令牌都安全时, Biohashing方法会使系统具有良好的识别性能, 如等错误率为零等.但是当用户令牌丢失或泄露后, 如果攻击者利用获得的用户令牌进行攻击或冒充合法用户进行身份认证, 此时的Biohashing识别性能将严重退化.分析原因主要是使用式(1)量化生成BioCode码的过程中, 为了保证二值化处理的结果序列具有较好的随机统计特性, 一般取单一阈值进行二值化处理, 这使得二值序列保留了原始特征向量取值的大小分布规律特征, 安全性能较差.基于以上分析, 本文将给出两种改进的Biohashing指纹模板保护算法.
2. 改进算法基本原理
改进算法首先利用指纹脊线的对称性质, 使用复滤波方法检测指纹的奇异点[16], 随后将指纹奇异点裁剪待处理的指纹特征区域划分扇区, 并对特征区域内的扇区分别进行归一化处理, 再应用Gabor组合滤波器提取指纹特征向量, 得到的指纹特征向量维数为, 与用户令牌中矩阵维数为$512$ $\times$ $511$随机正交矩阵进行迭代内积, 得到位的指纹特征值, 随后用改进的二值量化方法生成511位的BioCode码.
改进算法的具体步骤如下:
步骤 1. 指纹奇异点定位.利用指纹脊线的对称性质, 将指纹图像的块方向与脊线特征有机结合, 使用复滤波方法检测指纹的奇异点, 并根据指纹奇异点的位置将指纹图像裁剪为尺寸合适的系统输入图像.
步骤 2. 划分扇区.将裁剪待处理的指纹特征区域划分为个扇区, 其中$S_{R}$是等间隔同心圆的划分数量, $S_{A}$是等角扇的划分数量.
步骤 3. 归一化处理.对特征区域内的扇区分别进行归一化处理, 使各扇形区域内指纹灰度值达到统一的均值和方差.
步骤 4. Gabor滤波.对归一化后的特征区域进行八方向的Gabor滤波.
步骤 5. 计算平均绝对误差(Average absolute deviation, AAD).计算每个扇区$S_{i}$滤波后的灰度AAD, 每方向滤波可提取$S_{i}$个特征, 因此八方向滤波可提取长度为指纹纹理特征.
步骤 6. 计算汉明距离.在身份认证环节, 通过比较查询指纹与模板指纹的FingerCode码, 利用改进算法计算两者的汉明距离获得匹配结果.
改进算法的基本流程如图 2所示.
在改进算法中, 指纹特征向量的二值化处理过程能够有效保护指纹数据的特性, 是指纹模板保护算法的关键步骤之一.文献[17-18]给出一种线性的特征向量二值量化方法, 即全局阈值取定值$\tau$.得到的二值序列, $i=1, 2, \cdots$, $m\}$为
$ \begin{align} b_{i} = \begin{cases} 0,&X_{i} \le \tau \\ 1,&X_{i} > \tau \end{cases}, \quad i=1, 2, \cdots, m \end{align} $
(3) 实验结果表明, 利用该方法得到的BioCode码区分性虽然良好, 但由于该方法是线性量化的方法, 攻击者易得到原始特征的大小分布规律, 安全性较差.文献[19-20]对上面的量化过程进行了改进, 给出的二值序列, $i=1, 2$, $\cdots$, $m\}$为
$ \begin{align} b_{i} = \begin{cases} 0,&X_{i} \le \mu \\ 1,&X_{i} > \mu \end{cases}, \quad i=1, 2, \cdots, m \end{align} $
(4) 其中, $\mu=\frac{1}{L}\sum_{i = 1}^m X_{i} $.
与文献[17-18]相比, 文献[19-20]虽然对阈值做出了改变, 但二值量化仍然是线性处理的过程, 而且随着$m$值的增大, $\mu$的值逐渐减小趋近于0值时, 会退化为和文献[17-18]类似的结果, 安全性能改进有限.
本文在已有方法的基础上, 进一步提出两种基于特征矩阵的二值化方法.
方法 1. 首先将指纹特征序列$\{X_{1}, X_{2}, \cdots, $ $X_{m}|X_{i}\in(-1, 1)$, $i=1, 2, \cdots, m\}$, 变为指纹特征矩阵, 选取步长参数$p$, $p\in\{1, 2, \cdots, n\}$, 通过对比特征矩阵中第$i$行和第$i+p$行的元素大小, 得到相应的特征BioCode码.其基本原理如图 3所示.生成的特征BioCode码, $i$ $=1, 2, \cdots, n$, $j=1, 2, \cdots, m\}$为
$ \begin{align} b_{ij} = \begin{cases} 0,&X_{ij} \le X_{i\, +\, pj} \\ 1,&X_{ij} > X_{i\, +\, pj} \end{cases} \end{align} $
(5) 方法 2. 首先将指纹特征序列$\{X_{1}, X_{2}, \cdots, $ $X_{m}|X_{i}\in(-1, 1)$, $i=1, 2, \cdots, m\}$, 变为指纹特征矩阵, 选取步长参数$p$, $p\in\{1, 2, \cdots, n\}$, 在指纹特征矩阵中置入一个宽度可调的滑动矩阵窗口, 取落于滑动矩阵窗口内指纹特征的平均值, 基本原理如图 4所示.将取得的平均值序列记为, $\overline{X}_{2}$, $\cdots, \overline{X}_{i}\}$, 定义由该平均值序列进一步生成的特征BioCode码, $i=1$, $2$, $\cdots, n$, 为
$ \begin{align} b_{ij} = \begin{cases} 0,&X_{ij} \le \overline{X}_{i} \\ 1,&X_{ij} > \overline{X}_{i} \end{cases} \end{align} $
(6) 与已有的量化方法相比, 本文将指纹特征序列变为指纹特征矩阵, 减少了特征值之间的相关性, 并在特征向量二值化方法的比较过程引入步长参数$p$, , 在指纹特征矩阵中置入一个宽度可调的滑动矩阵窗口, 进一步扩展了生成BioCode码的密钥空间, 拉大指纹的类间距.通过比较矩阵行向量和滑动矩阵窗口中的各数值与其均值得到BioCode码, 这两种比较的方法与现有文献所用量化方法相比, 量化后的二值序列能够较好地掩盖原始特征的大小分布规律, 有效增加算法的安全性.
3. 实验结果及分析
3.1 测试对象
为评价改进方法的性能, 本文以标准的指纹图像作为测试对象, 在CPU为Intel$\circledR$Pentium $\circledR$ G3240, 频率为3.10 GHz, 内存为4.00 GB, 硬盘为500 G的PC和MATLAB R2010b的开发环境下进行仿真实验, 对算法的相关性能进行验证和分析.文中测试的指纹数据采用FVC2002 DB1 Set A和FVC2002 DB2 Set A[21], 每个数据库中包含有100个手指的采样数据, 其中每个手指采样8次, 共有800幅指纹图像.由于提取指纹特征依赖于指纹中心点, 而数据库中部分指纹没有中心点, 所以实验在FVC2002 DB1 Set A中选用包含有指纹中心点的80个手指的采样数据, 每个手指取2幅图像, 共160幅图像, 在FVC2002 DB2 Set A中选用包含有指纹中心点的70个手指的采样数据, 每个手指取2幅图像, 共140幅图像. 图 5给出了实验所用的指纹图像示例.
3.2 识别性能
本文对150组不同的指纹图像进行了实验仿真, 计算得出相应的BioCode码, 方法1和方法2部分BioCode码计算结果如表 1和表 2所示.
表 1 应用方法1的BioCode码计算结果Table 1 The results of BioCode calculations with the first method指纹 BioCode码 指纹1 E1D2 BFED 5D33 C43B C57D 4C51 DC0E F29D 5B14 33B1 3872 68E7 03B5 0455 E91F F47C 5998 F273 4CE6 3C4C 4CD8 1E73 CF53 1127 631D 8E1E 162F 9C3F 1ECC 3BDA 88B9 2822 指纹2 E1C7 AFEB DC23 C439 C6A8 FF91 FE0C 70AD 19D4 23D1 B872 70EF 03B5 5C31 E915 E018 E1F8 62E3 5EE3 146E 4CB8 1E73 2D5D D054 66DF 8A32 1C6E 1C2F 3ECC BB9B 9CF0 62AE 指纹3 E1C7 AF0E 79DE F0AF 8B3A BE01 FC47 5FC0 3F2C 33BC 051C 827F 80A7 3502 F046 68CA B78C 79C2 E6E2 A5DD 6C46 7187 18C1 FD61 E352 A2A1 DB9D 5EA9 113A AD53 1C31 B1C6 指纹4 E1F6 3FCE 3F23 DC87 CC7F 8479 CE41 7F1D CB9E 23B8 0DF2 76E7 01F7 04C5 8F81 7D5E F999 E370 ACF3 9C46 1C9C 9A72 2F53 B563 F19D 8B3E 2E58 9C2B 6A8C BB99 A8F0 E3A6 指纹5 E1D2 8AA9 DC3B E039 C660 FE83 FC0C F0A9 53D5 3AF1 1523 E077 03BC 4611 F81C E118 C3D0 CEC7 5CE6 306C 4E38 1E30 AF11 D071 639F 8E37 1E3F 3C27 1EC4 BB83 8AF1 FA84 表 2 应用方法2的BioCode码计算结果Table 2 The results of BioCode calculations with the second method指纹 BioCode码 指纹1 FD67 AAF1 5F72 8CD7 C86F 84DC 9B82 580B B077 78A5 1F42 EEE9 5232 55DD BBBA 661D 8857 E4F9 09CA 2C45 D802 8912 EFB0 6736 6C0E CBEC 11D9 3657 08DB 9639 BD21 476E 指纹2 FFA6 66CE E1F4 0CEC 9933 08C5 1992 3754 FA82 6644 DCD5 2FE8 8993 3365 539A 22E4 DB9A D766 CC99 9AF2 1F13 1626 66EA 910C64E8 9927 54C5 92F2 351B 8650 6383 445E 指纹3 FBEF EAFC 1774 8CE3 993F 84DD 9910 7C08 FB06 748C 9FF0 6EE8 99B3 957D 03BA 46F4 FA17 622E 69CB 5E45 9933 BA26 6EE6 6342 4D1C 9BA4 45FC 734F 118B B031 BD23 4458 指纹4 FDE6 2BFC 5FDC 8337 E92F D026 AC45 DE02 2799 A790 7739 AB22 02F7 B57D 60CC 98DB F81F C515 638A E811 7D46 5BCA 48E4 9999 0B76 B1EE 013F 445D D2B8 263F B266 17B8 指纹5 FB6F 6EE8 1772 8C55 D933 8594 9913 780E FB26 24CC 9DE2 6EC8 99BB 157D 1BB2 66AC F817 C26C 48CB 1E05 9813 AB35 6EF2 6326 5DCB 8BA2 49EC 34C7 39CB 9670 AC23 6452 图 6和图 7分别给出了本文方法在使用不同数据库产生的真假匹配汉明距离分布情况下的实验结果.
图 6和图 7的实验结果表明, 在用户令牌安全时, 真匹配的汉明距离分布在0~0.2左右, 假匹配的汉明距离则分布在0.4~0.6左右, 此时能完全的区分不同用户.而当用户令牌泄露后, 真匹配的汉明距离分布在0~0.2左右, 而假匹配的汉明距离大多分布在0.1~0.62左右, 与真匹配距离分布形成部分重叠, 可能会引起错误的识别.
指纹识别性能的评价参数主要有误识率(False accept rate, FAR)、误拒率(False refuse rate, FRR)和等错误率(Equal error rate, EER)等.其中, 等错误率EER越小, 代表指纹的识别性能越好, 因此本文以等错误率EER作为评价指标在两个不同指纹数据库中得到结果. 图 8和图 9给出了当$p$ $=$ $3$用户令牌泄漏时本文方法在FVC2002 DB1和DB2数据库匹配的EER曲线图. 表 3中, 给出了不同方法在两个数据库中得到的EER值.其中bfm, bfh, bfc分别代表文献[20]、本文方法1和方法2得到的BioCode码, $p$为步长参数.
表 3 指纹识别算法认证结果对比(%)Table 3 The comparison of authentication results of the fingerprint identification algorithm (%)方法 FVC2002-DB1 FVC2002-DB2 EER EER 令牌安全 令牌泄露 令牌安全 令牌泄露 文献[20]方法bfm 0 16.9 0 19.1 方法 1 bfh ($p=3$) 0 2.84 0 3.38 方法 2 bfc ($p=2$) 0 3.44 0 3.93 方法 2 bfc ($p=3$) 0 2.85 0 3.18 从表 3中可以看出, 针对相同的指纹数据库进行测试, 用户令牌安全时, bfm, bfh, bfc的EER都为0, 此时的Biohashing方法具有较好的识别性能.用户令牌泄露时, bfh在指纹数据库FVC2002 DB1和DB2的EER分别为3.38%和2.84%, bfc在指纹数据库FVC2002 DB1和DB2的EER分别为3.44%、2.85%和3.93%、3.18%, bfm的EER却达到了16.9%和19.1%.而且, bfc的等错误率随着$p$值的增大依次减小, 分别为2.85%和3.18%, 说明本文提出方法的识别性能优于文献[20]的方法.
图 10为文献[20]与本文的两种特征BioCode生成方法在用户令牌泄露的情形下, 步长参数$p=3$时在FVC2002 DB1和DB2指纹数据库中生成的受试者工作特征(Receiver operating characteristic, ROC)曲线分布. ROC曲线横坐标为错误接受率(FAR), 纵坐标为真实接受率(Genuine acceptance rate, GAR), ROC曲线下面积越大说明算法的正确识别率越高.
从表 3和ROC曲线可以看出, bfc和bfh比bfm具有更好的识别性能.而且在数据库DB1的EER要低于数据库DB2的EER, 即在DB1的识别性能比DB2的识别性能要好, 这是因为DB1的指纹图像质量比DB2的指纹图像质量略好, 说明本文方法在较好质量的指纹图像中能得到较好的匹配性能.
3.3 安全性分析
改进方法中存储在用户令牌的信息包含生成正交随机矩阵的种子和步长参数$p, $而数据库中存储的信息为用户的BioCode码, 整个系统保护的是用户的指纹信息, 需要对系统中可能存在的安全问题进行分析.
本文给出的生物模板保护算法中, 用户令牌是需要保密的敏感参数.当用户的令牌丢失或指纹模板被盗时, 由于Biohashing方法是一种"用户令牌+指纹模板"的双因子身份认证方案, 具有良好的可撤销性, 通过更换用户令牌发布的指纹模板, 随时达到撤销丢失的信息的目的.
而且文中提出的两种量化过程都是非线性过程, 量化阈值不固定, 使指纹特征序列都参与到量化过程中, 并将量化序列变为矩阵, 减少了特征值之间的关联性, 有效地掩盖了原指纹特征的相关信息, 同时又引入了步长参数和滑动窗口, 进一步扩展了密钥空间, 因此指纹模板具有较好的识别性和安全性.
考虑到攻击者暴力破解系统的情形, 当攻击者在未获得真实的BioCode码或用户令牌时, 要想获得长度为511位的真实指纹模板特征值需要进行$2^{511}$次尝试, 这在计算上是不可行的.即便攻击者掌握了用户的令牌, 结合所拥有的指纹信息来冒充真实用户进行认证, 由实验可知, 在指纹数据库FVC2002 DB1和DB2上成功的概率也不高于3.38%和3.93%, 与已有方法比较, 本方案的安全性更好.
4. 结论
针对用户令牌泄露会导致Biohashing识别性能严重退化的问题, 本文提出了两种基于Biohashing的指纹模板保护算法.改进算法采用步长参数和滑动窗口的形式对特征矩阵进行量化, 减少了特征值之间的关联性, 有效地掩盖了指纹特征的相关信息, 量化阈值不固定, 减少了指纹特征在量化过程中信息熵的损失, 提高了指纹特征自身的区分能力.实验结果表明, 基于本文给出的两种特征二值化方法的生物特征匹配算法均取得了较好的识别性能, 也具有更好的安全性.
-
表 1 三种方法的平均PESQ得分
Table 1 The average PESQ score for three methods
噪声类型 信噪比
(dB)含噪语音 DNN_11F DNN_15F DCNN Factory2 -5 1.73 2.25 2.27 ${\bf 2.33}$ 0 2.07 2.57 2.58 ${\bf 2.65}$ 5 2.40 2.83 2.82 ${\bf 2.89}$ Buccaneer1 -5 1.36 1.88 1.92 ${\bf 1.93}$ 0 1.63 2.24 2.26 ${\bf 2.27}$ 5 1.95 2.54 2.54 ${\bf 2.56} $ Destroyer engine -5 1.59 2.01 1.99 ${\bf 2.15} $ 0 1.81 2.27 2.26 ${\bf 2.46}$ 5 2.10 2.53 2.55 $ {\bf 2.76}$ HF channel -5 1.36 1.7 1.71 ${\bf 2.03} $ 0 1.58 2.04 2.06 ${\bf 2.37}$ 5 1.85 2.38 2.39 ${\bf 2.65}$ 表 2 三种方法的平均STOI得分
Table 2 The average STOI score for three methods
噪声类型 信噪比
(dB)含噪语音 DNN_11F DNN_15F DCNN Factory2 -5 0.65 0.76 0.76 ${\bf 0.78 }$ 0 0.76 0.85 0.84 ${\bf 0.86 } $ 5 0.85 0.89 0.89 ${\bf 0.91 }$ Buccaneer1 -5 0.51 0.66 0.66 ${\bf 0.68 }$ 0 0.63 0.77 0.77 ${\bf 0.78 }$ 5 0.75 0.85 0.85 ${\bf 0.86 }$ Destroyer engine -5 0.57 0.62 0.63 ${\bf 0.70 }$ 0 0.69 0.75 0.75 ${\bf 0.82 }$ 5 0.81 0.85 0.85 ${\bf 0.90 }$ HF channel -5 0.57 0.69 0.69 ${\bf 0.73 }$ 0 0.69 0.78 0.79 ${\bf 0.82 }$ 5 0.80 0.86 0.86 ${\bf 0.88 }$ 表 3 三种方法的平均SegSNR
Table 3 The average SegSNR for three methods
噪声类型 信噪比
(dB)含噪语音
(dB)DNN_11F
(dB)DNN_15F
(dB)DCNN
(dB)Factory2 -5 -6.90 -0.69 -0.59 -0.05 0 -4.50 0.34 0.42 0.95 5 -1.57 1.24 1.29 1.80 Buccaneer1 -5 -7.21 -1.52 -1.40 -0.96 0 -4.90 -0.50 -0.39 0.11 5 -2.03 0.46 0.53 1.03 Destroyer engine -5 -7.15 -2.86 -2.81 -2.16 0 -4.90 -1.37 -1.24 -0.54 5 -1.91 0.04 0.21 0.89 HF channel -5 -7.24 -1.13 -1.21 0.35 0 -4.91 0.05 -0.02 1.34 5 -2.09 1.04 1.02 2.03 -
[1] Loizou P C. Speech Enhancement:Theory and Practice. Florida:CRC Press, 2013. [2] Ephraim Y, Malah D. Speech enhancement using a minimum mean-square error log-spectral amplitude estimator. IEEE Transactions on Acoustics, Speech, and Signal Processing, 1985, 33(2):443-445 http://ieeexplore.ieee.org/document/1164550/ [3] Cohen I. Noise spectrum estimation in adverse environments:Improved minima controlled recursive averaging. IEEE Transactions on speech and audio processing, 2003, 11(5):466-475 http://www.researchgate.net/publication/3333946_Noise_spectrum_estimation_in_adverse_environments_improved_minima_controlled_recursive_averaging [4] Mohammadiha N, Smaragdis P, Leijon A. Supervised and unsupervised speech enhancement using nonnegative matrix factorization. IEEE Transactions on Audio, Speech, and Language Processing, 2013, 21(10):2140-2151 doi: 10.1109/TASL.2013.2270369 [5] 刘文举, 聂帅, 梁山, 张学良.基于深度学习语音分离技术的研究现状与进展.自动化学报, 2016, 42(6):819-833 http://www.aas.net.cn/CN/abstract/abstract18873.shtmlLiu Wen-Ju, Nie Shuai, Liang Shan, Zhang Xue-Liang. Deep learning based speech separation technology and its developments. Acta Automatica Sinica, 2016, 42(6):819-833 http://www.aas.net.cn/CN/abstract/abstract18873.shtml [6] Wang Y X, Wang D L. Towards scaling up classification-based speech separation. IEEE Transactions on Audio, Speech, and Language Processing, 2013, 21(7):1381-1390 doi: 10.1109/TASL.2013.2250961 [7] Wang Y X, Narayanan A, Wang D L. On training targets for supervised speech separation. IEEE Transactions on Audio, Speech, and Language Processing, 2014, 22(12):1849-1858 doi: 10.1109/TASLP.2014.2352935 [8] Xu Y, Du J, Dai L R, Lee C H. An experimental study on speech enhancement based on deep neural networks. IEEE Signal Processing Letters, 2014, 21(1):65-68 doi: 10.1109/LSP.2013.2291240 [9] Xu Y, Du J, Dai L R, Lee C H. A regression approach to speech enhancement based on deep neural networks. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2015, 23(1):7-19 http://www.researchgate.net/publication/272436458_A_Regression_Approach_to_Speech_Enhancement_Based_on_Deep_Neural_Networks [10] Williamson D S, Wang Y X, Wang D L. Complex ratio masking for monaural speech separation. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2016, 24(3):483-492 doi: 10.1109/TASLP.2015.2512042 [11] Xu Y, Du J, Huang Z, Dai L R, Lee C H. Multi-objective learning and mask-based post-processing for deep neural network based speech enhancement. In: Proceedings of the 16th Annual Conference of the International Speech Communication Association. Dresden, Germany: ISCA, 2015. 1508-1512 [12] Wang Y X, Chen J T, Wang D L. Deep Neural Network Based Supervised Speech Segregation Generalizes to Novel Noises Through Large-scale Training, Technical Report OSU-CISRC-3/15-TR02, Department of Computer Science and Engineering, The Ohio State University, Columbus, Ohio, USA, 2015 [13] Chen J T, Wang Y X, Yoho S E, Wang D L, Healy E W. Large-scale training to increase speech intelligibility for hearing-impaired listeners in novel noises. The Journal of the Acoustical Society of America, 2016, 139(5):2604-2612 doi: 10.1121/1.4948445 [14] Chen J T, Wang Y X, Wang D L. Noise perturbation for supervised speech separation. Speech Communication, 2016, 78:1-10 https://www.sciencedirect.com/science/article/pii/S0167639315001405 [15] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks. In: Proceedings of the International Conference on Neural Information Processing Systems. Nevada, USA: Curran Associates Inc. 2012. 1097-1105 http://www.researchgate.net/publication/267960550_ImageNe [16] Abdel-Hamid O, Mohamed A, Jiang H, Penn G. Applying convolutional neural networks concepts to hybrid NN-HMM model for speech recognition. In: Proceedings of the 2012 IEEE International Conference on Acoustics, Speech and Signal Processing. Kyoto, Japan: IEEE, 2012. 4277-4280 [17] Abdel-Hamid O, Deng L, Yu D. Exploring convolutional neural network structures and optimization techniques for speech recognition. In: Proceedings of the 14th Annual Conference of the International Speech Communication Association. Lyon, France: ISCA, 2013. 3366-3370 http://www.researchgate.net/publication/264859599_Exploring_Convolutional_Neural_Network_Structures_and_Optimization_Techniques_for_Speech_Recognition [18] Sainath T N, Kingsbury B, Saon G, Soltau H, Mohamed A R, Dahl G, Ramabhadran B. Deep convolutional neural networks for large-scale speech tasks. Neural Networks, 2015, 64:39-48 https://www.sciencedirect.com/science/article/pii/S0893608014002007 [19] Qian Y M, Bi M X, Tan T, Yu K. Very deep convolutional neural networks for noise robust speech recognition. IEEE/ACM Transactions on Audio, Speech and Language Processing, 2016, 24(12):2263-2276 http://www.researchgate.net/publication/308823854_Very_Deep_Convolutional_Neural_Networks_for_Robust_Speech_Recognition [20] Bi M X, Qian Y M, Yu K. Very deep convolutional neural networks for LVCSR. In: Proceedings of the 16th Annual Conference of the International Speech Communication Association. Dresden, Germany: ISCA, 2015. 3259-3263 [21] Qian Y, Woodland P C. Very deep convolutional neural networks for robust speech recognition. In: Proceedings of the 2016 IEEE Spoken Language Technology Workshop. San Juan, Puerto Rico: IEEE, 2016. 481-488 http://www.researchgate.net/publication/313587893_Very_deep_convolutional_neural_networks_for_robust_speech_recognition [22] Sercu T, Puhrsch C, Kingsbury B, LeCun Y. Very deep multilingual convolutional neural networks for LVCSR. In: Proceedings of the 2016 IEEE International Conference on Acoustics, Speech and Signal Processing. Shanghai, China: IEEE, 2016. 4955-4959 [23] Sercu T, Goel V. Advances in very deep convolutional neural networks for LVCSR. In: Proceedings of the 16th Annual Conference of the International Speech Communication Association. California, USA: ISCA, 2016. 3429-3433 http://www.researchgate.net/publication/307889292_Advances_in_Very_Deep_Convolutional_Neural_Networks_for_LVCSR [24] Park S R, Lee J. A fully convolutional neural network for speech enhancement. arXiv: 1609. 07132, 2016. [25] Fu S W, Tsao Y, Lu X. SNR-Aware convolutional neural network modeling for speech enhancement. In: Proceedings of the 17th Annual Conference of the International Speech Communication Association. San Francisco, USA: ISCA, 2016. 8-12 http://www.researchgate.net/publication/307889660_SNR-Aware_Convolutional_Neural_Network_Modeling_for_Speech_Enhancement [26] Garofolo J S, Lamel L F, Fisher W M, Fiscus J G, Pallett D S, Dahlgren N L, Zue V. TIMIT acoustic-phonetic continuous speech corpus. Linguistic Data Consortium, Philadelphia, 1993. https://www.researchgate.net/publication/243787812_TIMIT_acoustic-phonetic_continuous_speech_corpus [27] Hu G N. 100 nonspeech sounds[online], available: http://web.cse.ohio-state.edu/pnl/corpus/HuNonspeech/HuCorpus.html, April 20, 2004 [28] Varga A, Steeneken Herman J M. Assessment for automatic speech recognition:Ⅱ. NOISEX-92:a database and an experiment to study the effect of additive noise on speech recognition systems. Speech Communication, 1993, 12(3):247-251 doi: 10.1016/0167-6393(93)90095-3 [29] Beerends J G, Rix A W, Hollier M P, Hekstra A P. Perceptual evaluation of speech quality (PESQ)——a new method for speech quality assessment of telephone networks and codecs. In: Proceedings of the 2001 IEEE International Conference on Acoustics, Speech and Signal Processing. Utah, USA: IEEE, 2001. 749-752 http://dl.acm.org/citation.cfm?id=1259107 [30] Taal C H, Hendriks R C, Heusdens R, Jensen J. An algorithm for intelligibility prediction of time-frequency weighted noisy speech. IEEE Transactions on Audio, Speech, and Language Processing, 2011, 19(7):2125-2136 doi: 10.1109/TASL.2011.2114881 [31] Yu D, Eversole A, Seltzer M L, Yao K S, Huang Z H, Guenter B, Kuchaiev O, Zhang Y, Seide F, Wang H M, Droppo J, Zweig G, Rossbach C, Currey J, Gao J, May A, Peng B L, Stolcke A, Slaney M. An Introduction to Computational Networks and the Computational Network Toolkit, Technical Report, Tech. Rep. MSR, Microsoft Research, 2014. 期刊类型引用(7)
1. 张雪锋,常振会,张俊杰,王超飞. 指纹和虹膜特征融合的可撤销模板保护方法. 西安邮电大学学报. 2023(04): 51-60 . 百度学术
2. 董芸嘉,张雪锋,姜文. 基于指纹和手指静脉特征融合的模板保护方法. 传感器与微系统. 2022(11): 9-13 . 百度学术
3. 张波,佟玉强. 基于双随机相位编码的多特征人脸模板保护方法. 激光与光电子学进展. 2022(18): 215-222 . 百度学术
4. 孔小景,李学俊,金哲,周芃,陈江勇. 一种单因子的可撤销生物特征认证方法. 自动化学报. 2021(05): 1159-1170 . 本站查看
5. 霍延军. 采样优化支持的指纹图像二值化算法研究. 单片机与嵌入式系统应用. 2020(09): 43-46 . 百度学术
6. 党力,张雪锋,赵强. 基于自适应投影的指纹模板生成算法. 计算机应用研究. 2020(10): 3091-3095 . 百度学术
7. Min Xiangshen,Fan Jiulun,Zhang Xuefeng. Cancelable palmprint template generating algorithm based on adaptive threshold. The Journal of China Universities of Posts and Telecommunications. 2019(01): 1-11 . 必应学术
其他类型引用(3)
-