2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于深度学习语音分离技术的研究现状与进展

刘文举 聂帅 梁山 张学良

韩敏, 闫阔, 秦国帅. 基于改进KAZE的无人机航拍图像拼接算法. 自动化学报, 2019, 45(2): 305-314. doi: 10.16383/j.aas.2018.c170521
引用本文: 刘文举, 聂帅, 梁山, 张学良. 基于深度学习语音分离技术的研究现状与进展. 自动化学报, 2016, 42(6): 819-833. doi: 10.16383/j.aas.2016.c150734
HAN Min, YAN Kuo, QIN Guo-Shuai. A Mosaic Algorithm for UAV Aerial Image With Improved KAZE. ACTA AUTOMATICA SINICA, 2019, 45(2): 305-314. doi: 10.16383/j.aas.2018.c170521
Citation: LIU Wen-Ju, NIE Shuai, LIANG Shan, ZHANG Xue-Liang. Deep Learning Based Speech Separation Technology and Its Developments. ACTA AUTOMATICA SINICA, 2016, 42(6): 819-833. doi: 10.16383/j.aas.2016.c150734

基于深度学习语音分离技术的研究现状与进展

doi: 10.16383/j.aas.2016.c150734
基金项目: 

国家自然科学基金资助 61573357, 61503382, 61403370, 61273267, 91120303, 61365006

详细信息
    作者简介:

    聂帅 中国科学院自动化研究所博士研究生. 2013年获得内蒙古大学学士学位. 主要研究方向为语音信号处理技术, 深度学习, 语音分离, 计算听觉场景分析. E-mail: shuai.nie@nlpr.ia.ac.cn

    梁山 中国科学院自动化研究所助理研究员. 2008年获得西安电子科技大学学士学位, 2014年获得中国科学院自动化研究所博士学位. 主要研究方向为语音信号处理技术, 语音分离, 计算听觉场景分析, 语音识别. E-mail: sliang@nlpr.ia.ac.cn

    张学良 内蒙古大学副教授. 2003年获得内蒙古大学学士学位, 2005年获得哈尔滨工业大学硕士学位, 2010年获得中国科学院自动化研究所博士学位. 主要研究方向为语音分离, 计算听觉场景分析, 语音信号处理. E-mail: cszxl@imu.edu.cn

    通讯作者:

    刘文举 中国科学院自动化研究所研究员. 主要研究方向为计算听觉场景分析, 语音增强, 语音识别, 声纹识别, 声源定位和声音事件检测. 本文通信作者. E-mail: lwj@nlpr.ia.ac.cn

Deep Learning Based Speech Separation Technology and Its Developments

Funds: 

National Natural Science Foundation of China 61573357, 61503382, 61403370, 61273267, 91120303, 61365006

More Information
    Author Bio:

    NIE Shuai Ph. D. candidate at the Institute of Automation, Chinese Academy of Sciences. He received his bachelor degree from Inner Mongolia University in 2013. His research interest covers acoustic and speech signal processing, deep learning, speech separation, and computational auditory scene analysis

    LIANG Shan Assistant professor at the Institute of Automation, Chinese Academy of Sciences. He received his bachelor degree from Xidian University in 2008, and Ph. D. degree from the Institute of Automation, Chinese Academy of Sciences in 2014. His research interest covers acoustic and speech signal processing, speech separation, computational auditory scene analysis, and speech recognition

    ZHANG Xue-Liang Associate professor at Inner Mongolia University. He received his bachelor degree from Inner Mongolia University in 2003, master degree from Harbin Institute of Technology in 2005, and Ph. D. degree from the Institute of Automation, Chinese Academy of Sciences in 2010, respectively. His research interest covers speech separation, computational auditory scene analysis, and speech signal processing

    Corresponding author: LIUWen-Ju Professor at the Institute of Automation, Chinese Academy of Sciences. His research interest covers computational auditory scene analysis, speech enhancement, speech recognition, speaker recognition, source location, and voice event detection. Corresponding author of this paper
  • 摘要: 现阶段, 语音交互技术日益在现实生活中得到广泛的应用, 然而, 由于干扰的存在, 现实环境中的语音交互技术远没有达到令人满意的程度. 针对加性噪音的语音分离技术是提高语音交互性能的有效途径, 几十年来, 全世界范围内的许多研究者为此投入了巨大的努力, 提出了很多实用的方法. 特别是近年来, 由于深度学习研究的兴起, 基于深度学习的语音分离技术日益得到了广泛关注和重视, 显露出了相当光明的应用前景, 逐渐成为语音分离中一个新的研究趋势. 目前已有很多基于深度学习的语音分离方法被提出, 但是, 对于深度学习语音分离技术一直以来都缺乏一个系统的分析和总结, 不同方法之间的联系和区分也很少被研究. 针对这个问题, 本文试图对语音分离的主要流程和整体框架进行细致的分析和总结, 从特征、模型以及目标三个方面对现有的前沿研究进展进行全面而深入的综述, 最后对语音分离技术进行展望.
  • 随着无人机航拍技术的发展, 近年来, 其在地图测绘, 危险区域安全巡检, 地质环境与灾害评估等相关领域得到了广泛应用.无人机航拍图像具有高清晰度, 大比例尺的特点.然而, 在航拍过程中, 无人机由于受到自身飞行高度, 相机视角等参数的影响, 拍摄的单张图像覆盖面积过小, 不能展示更全面的信息.因此, 为扩大视野范围, 得到覆盖区域更宽广的图像, 需要对拍摄的多张航拍图像进行拼接, 获得宽视角的全景图[1-3].图像拼接[4]是将相互间有重叠部分的两幅或多幅图像合成一幅大型的无缝高分辨率图像的一种技术.航拍图像的拼接一般包括3个步骤[5]:图像预处理, 图像配准, 图像融合.其中, 图像配准是图像拼接中较为关键的一步, 它是图像合成技术的基础[6], 其结果会对最后的拼接图像产生重要的影响.

    图像配准方法主要分为基于灰度相关的配准, 基于变换域的配准和基于特征的图像配准3类[7].其中, 基于特征的图像配准方法通过提取图像的局部不变特征对图像的重合部分进行配准, 因其算法稳健、快速, 已成为研究的热点.常用的特征提取算法包括Harris[8], SUSAN (Smallest univalue segment assimilation nucleus)[9], SIFT (Scale invarian feature transform)[10-11], SURF (Speed-up robust features)[12-13], ORB (Oriented FAST and rotated BRIEF)[14-15], BRISK (Binary robust invariant scalable keypoints)[16-17], KAZE[18-19]和AKAZE (Accelerated-KAZE)[20]等.其中, Harris和SUSAN算法直接提取角点或边缘特征, 不具备较好的环境适应能力. SIFT和SURF通过构造高斯尺度空间得到高斯差分尺度空间, 并在其上进行斑点检测, 鲁棒性较强, 但其不能较好地保留细节与边缘信息. ORB算法结合了一种方向性FAST (Feature from accelerated segment test)与旋转二进制鲁棒独立元素特征BRIEF (Binary robust independent elementary feature), 计算速度快, 但不具备尺度不变性. BRISK利用AGAST (Adaptive and generic corner detection based on the accelerated segment test)提取角点特征, 利用简单的像素灰度值比较构建二进制特征子, 具备尺度与旋转不变性, 计算速度快, 但鲁棒性差. KAZE和AKAZE是基于非线性的特征提取与匹配算法, 鲁棒性强, 匹配率高.

    由于KAZE算法在光照不变性、旋转不变性、尺度不变性、稳定性等方面具有较好的性能, 本文针对其算法实时性较差, 航拍图像易受光照、旋转变化、尺度变化等影响以及基于K近邻(K-nearest neighbor, KNN)的特征匹配算法耗时较长等问题, 提出了一种基于改进KAZE的无人机航拍图像拼接算法.该方法首先利用加速的KAZE算法提取图像的特征点, 使用二进制特征描述子FREAK[21]对特征点进行描述, 然后采用Grid-KNN算法对特征点进行粗匹配, 使用随机一致性算法(Random sample consensus algorithm, RANSAC)算法剔除错误的匹配点对并计算几何变换模型[22], 最后采用加权平均算法对图像进行融合.为验证本文算法的有效性, 将本文算法与SIFT算法, ORB算法和KAZE算法在Mikolajczyk和Schmid提供的数据集[23]与无人机航拍图像上进行了仿真实验, 并在特征点提取速度、特征匹配速度、匹配正确率和配准精度四个方面进行了评价.实验结果表明, 本文所提算法是一种稳定、精确度高、拼接效果良好的无人机航拍图像拼接方法.权衡特征点提取速度, 特征匹配速度, 匹配正确率和配准精度四个方面, 本文算法更适合无人机航拍影像的拼接.

    KAZE算法是基于非线性尺度空间的特征检测算法.该算法利用非线性扩散滤波器构建具有任意步长的尺度空间, 在该尺度空间内, 图像的灰度在平缓的区域能够快速扩散, 在边缘处以较慢的速度扩散.因此, 利用这种非线性方法处理图像时, 能够较好的保留细节与边缘信息, 同时模糊噪声.

    KAZE算法主要包括5个步骤[18]:

    步骤1. 非线性尺度空间构造.利用可变传导扩散方法和加性算子分裂算法(Additive operator splitting, AOS)构建一个呈金字塔型的非线性尺度空间, 如式(1)所示.

    $ \begin{align} L^{i + 1} = \left[ I- (t_{i+1}-t_{i})\sum\limits_{l=1}^MA_l \left(L^i\right)\right] ^{-1}L^i, \nonumber\\ {i = 0, \cdots , n - 1} \end{align} $

    (1)

    式中, $L$ 为高斯滤波后的图像, $I$ 为单位矩阵, $t$ 为时间, $A_l\left( {L^i} \right)$ 为图像 $L$ 在维度 $l$ 上的传导矩阵.

    步骤2. 特征点检测与精确定位.在不同尺度空间中将每个点与其邻域内的所有点进行比较, 寻找归一化后的Hessian矩阵局部极大值点, 获得特征点对应的位置和尺度, Hessian矩阵的计算公式如式(2)所示.

    $ \begin{equation} \begin{array}{l} {L_{\rm Hessian}} = {\sigma ^2}\left( {{L_{xx}}{L_{yy}} - L_{xy}^2} \right) \end{array} \end{equation} $

    (2)

    式中, $\sigma$ 为尺度参数 ${\sigma _i}$ 的整数值; $L_{xx}$ , $L_{yy}$ , $L_{xy}$ 均为 $L$ 的二阶微分.理论上, 选择当前及其上下尺度上的大小为 ${\sigma _i} \times {\sigma _i}$ 的3个矩形窗口作为比较范围.但为了提高搜索速度, 通常情况下将矩形窗口的尺寸固定为 $3 \times 3$ , 即将每一个像素点与其同尺度上的8个相邻点, 以及上下相邻尺度上的各9个点进行比较.在检测到特征点的位置后, 通过子像元插值精确定位特征点.根据泰勒展开式求解亚像素的精确位置.

    $ \begin{equation} L\left( x \right) = L + {\left( {\frac{{\partial L}}{{\partial x}}} \right)^{\rm T}} x + \frac{1}{2}{x^{\rm T}}\frac{{{\partial ^2} L}}{{\partial {x^2}}}x \end{equation} $

    (3)

    式中 $x$ 为特征点的位置坐标, 特征点的亚像素坐标解为:

    $ \begin{equation} \tilde {x} = - {\left( {\frac{{{\partial ^2}{L}}}{{\partial {{x}^2}}}} \right)^{ - 1}}\frac{{\partial {L}}}{{\partial {x}}} \end{equation} $

    (4)

    步骤3. 特征点主方向确定.特征点的主方向由局部图像结构确定.在搜索半径为 $6{\sigma _i}$ 的圆内对所有邻点的一阶微分值 ${L_x}$ 和 ${L_y}$ 高斯加权, 然后将所有的微分值作为向量空间中的点集, 并在角度为60 $^\circ$ 的滑动扇形窗口中叠加点集中的向量, 对整个圆形区域进行遍历, 以获得最长向量.该向量对应的角度即为主方向.

    步骤4. 特征向量描述.在特征点的主方向确定后, 使用M-SURF算法为每一个特征点构建特征向量.若特征点的尺度参数为 ${\sigma _i}$ , 则以特征点为中心, 在其梯度图像上取一个大小为 $24{\sigma _i} \times 24{\sigma _i}$ 的矩形窗口, 并将窗口划分为大小为 $9{\sigma _i} \times 9{\sigma _i}$ 的 $4 \times 4$ 个子区域.相邻子区域有交叠, 交叠区域的宽度为 $2{\sigma _i}$ .使用 ${\sigma _1}= 2.5{\sigma _i}$ 的高斯核对每一个子区域进行加权, 得到长度为4的子区域描述量 ${\boldsymbol d_v}$ .

    $ \begin{equation} \begin{array}{l} {\boldsymbol d_v} = \left( {\sum {{L_x}, \sum {{L_y}} , \sum {\left| {{L_x}} \right|} , \sum {\left| {{L_y}} \right|} } } \right) \end{array} \end{equation} $

    (5)

    式中, ${L_x}$ , ${L_y}$ 分别为高斯滤波后的图像 ${L}$ 在 $x$ , $y$ 处的微分.然后, 使用尺寸为 $4 \times 4$ 的 ${\sigma _2}= 1.5{\sigma _i}$ 的高斯核对每一个子区域的 ${\boldsymbol d_v}$ 进行加权, 并进行归一化处理.最终, 特征点由一个64维的特征矢量表示.

    步骤5. 特征向量匹配.使用两特征向量之间的欧氏距离对其进行匹配, 欧氏距离越小, 两个特征向量越相似, 计算公式如下:

    $ \begin{equation} \begin{array}{l} d = \sqrt {{{\left( {{x_1} - {x_2}} \right)}^2} + {{\left( {{y_1} - {y_2}} \right)}^2}} \end{array} \end{equation} $

    (6)

    式中, $\left( {{x_1}, {y_1}} \right)$ 和 $\left( {{x_2}, {y_2}} \right)$ 为两特征向量的坐标.

    KAZE算法虽然在光照不变性, 旋转不变性, 尺度不变性及稳定性上具有较好的性能, 但实时性较差, 难以满足高分辨, 大比例尺的航拍图像拼接的速度要求.因此, 本文对KAZE算法进行了改进.首先, 在非线性尺度空间构建阶段, 采用快速显式扩散算法(Fast explicit diffusion, FED)算法代替AOS算法, 加速非线性尺度空间图像的生成[20].其次, 在特征向量描述阶段使用二进制特征描述子FREAK代替浮点型描述子M-SURF, 从而加速特征向量的生成与减少描述子所占内存空间.最后, 在特征向量匹配阶段, 使用Hamming距离替代原来的欧氏距离, 从而减少计算时间提高特征向量的匹配速度.

    非线性偏微分方程不存在解析解, 因此KAZE算法采用了AOS算法求解方程的近似解. AOS算法在近似求解方程时需要在每个时间步长上大量求解线性方程组才能获得解集, 计算消耗时间过多.文献[20]采用了FED算法替代AOS算法近似求解非线性偏微分方程, 从而提升算法速度.使用FED算法构造非线性尺度空间不仅能够避免AOS算法计算耗时问题而且能使构造的尺度空间更加准确.因此, 本文在非线性尺度空间构造阶段将FED算法内嵌到金字塔架构框架结构中, 以加速尺度空间的构造.

    KAZE算法采用M-SURF算法对特征点进行描述, 最终生成一个64维的浮点型特征向量, 该向量所占内存较大, 且生成时计算复杂, 速度较慢.二进制特征描述子根据关键点邻域像素灰度值的比较生成, 计算速度快, 所占内存空间小.因此, 本文采用二进制特征描述子代替浮点型描述子M-SURF, 从而加速特征描述子的建立, 同时减少对内存空间的需求.常用的二进制描述子主要包括BRIEF算子, ORB算子, BRISK算子和FREAK算子.其中, FREAK算子在光照, 旋转及尺度变化的情况下均能保持较好的性能[23].因此, 本文选用FREAK算子对KAZE算法提取的特征点进行描述.

    FREAK算法是一种模拟人类视网膜结构的快速二进制描述子构建方法. FREAK算法的采样模式如图 1所示.其仿照视网膜中神经节细胞的分布模式, 位于最中心的为特征点, 其他圆心为采样点, 离特征点中心越近, 采样点越密集, 反之越稀疏.在采样时, 需要对所有采样点使用大小与当前采样点同心圆半径成正比的高斯核进行高斯平滑.

    图 1  FREAK算法采样模式
    Fig. 1  FREAK algorithm sampling mode

    采样后, 使用滤波后的图像信息构造FREAK描述子. FREAK描述子最终为一个二进制序列, 由采样点对的强度比较结果级联而成, 用 $F$ 表示, 则:

    $ \begin{equation} \begin{array}{l} F = \sum\limits_{0 \le \alpha \le N} {{2^\alpha }} T\left( {{P_\alpha }} \right) \end{array} \end{equation} $

    (7)

    式中, ${P_\alpha }$ 表示感受域对, $N$ 为特征向量的维数, $T\left( {{P_\alpha }} \right)$ 的定义如下:

    $ \begin{equation} \begin{array}{l} T\left( {{P_\alpha }} \right) = \left\{ {\begin{array}{*{20}{l}} 1, \; {I\left( {P_\alpha ^{r1}} \right) - I\left( {P_\alpha ^{r2}} \right) > 0} \\ {0, \;\mbox{其他}} \end{array}} \right. \end{array} \end{equation} $

    (8)

    式中, $I\left( {P_\alpha ^{ri}} \right)$ 是采样点经过高斯平滑后的强度值.

    FREAK采样点虽然只有几十个, 但其组合而成的采样点对可能达到几千个, 信息存在冗余.因此, 需要使用类似ORB算子学习算法提取出相关性较小的点对, 最终选取前512位作为描述子.为确保描述子具有旋转不变性, 在构造描述子时需要确定特征方向.如图 2所示, FREAK描述子的特征点周围有43个采样点, 可产生903个采样点对, 主方向 $O$ 将由45对中心对称的采样点确定, 主方向 $O$ 的计算公式如下:

    图 2  FREAK算法主方向确定
    Fig. 2  Decision orientation of FREAK

    $ \begin{equation} O = \frac{1}{M}\sum\limits_{{P_o} \in G} {\left( {I\left( {P_O^{{r_1}}} \right) - I\left( {P_O^{{r_2}}} \right)} \right)\frac{{P_O^{{r_1}} - P_O^{{r_2}}}}{{\left\| {P_O^{{r_1}} - P_O^{{r_2}}} \right\|}}} \end{equation} $

    (9)

    式中, $G$ 为确定主方向的特征点对的集合, $M$ 是集合 $G$ 中采样点的对数, $P_O^{{r_i}}$ 是采样点中心的坐标.

    由于使用FREAK算子对特征向量进行描述, 因此在特征向量匹配阶段使用两个特征向量间的汉明距离对向量进行匹配.使用汉明距离进行特征向量的匹配只需要进行异或操作就可以计算出结果, 计算速度快, 能够大大提升算法的效率.

    在提取特征点, 建立特征向量描述后, 需要对特征向量进行匹配.基于KNN的匹配算法是一种常用的特征匹配方法.其首先在待配准图像的所有特征点中, 依次为每一个参考图像的特征点搜索出与之距离最近的2个点; 然后, 将最近邻距离与次近邻距离的比值和设定的阈值进行比较.若比值小于设定的阈值, 则认为该特征点与其距离最近的待配准图像中的特征点是一组匹配点对.然而, 这种方法需要每次都遍历待配准图像中的所有特征点, 若参考图像中的特征点数量为 $N$ , 待配准图像中的特征点数量为 $M$ , 则总的遍历次数为 $M \times N$ , 耗时较长.因此, 在特征匹配时增加运动平滑性约束, 以缩小特征匹配区域.正确的匹配在运动空间中是平滑的, 运动平稳相邻的特征在运动空间中具有一致性[24].因此, 相邻特征点对应的匹配特征点的区域也是相邻的.从而, 参考图像中的特征点搜索出待配准图像中与之匹配的特征点后, 该特征点邻域内的所有特征点只需在待配准图像中匹配点的邻域内进行搜索即可.匹配区域示意图如图 3所示, 若参考图像区域 $a$ 的首个匹配点出现在待配准图像区域 $b$ 中, 则区域 $a$ 中的余下特征点均在区域 $b$ 的 $3 \times 3$ 邻域内寻找匹配点.因此, 总的遍历次数将远小于 $M \times N$ , 从而减少匹配时间, 加快匹配速度.

    图 3  Grid-KNN匹配区域示意图
    Fig. 3  The diagram of Grid-KNN matching area

    为方便邻域的选取, 在特征点匹配时引入网格框架, 将图像均匀划分为 $n\times n$ 的网格, 然后以网格为单位, 进行特征匹配.基于Grid-KNN特征匹配算法主要包含以下步骤:

    步骤1. 划分网格.将参考图像与待配准图像均匀划分为 $n\times n$ 个网格;

    步骤2. 寻找首个正确匹配点对.选取参考图像中的一个网格 ${a_{ij}}$ , 并在 ${a_{ij}}$ 中选取特征点 ${A_k}$ .采用基于KNN的搜索方法, 找到 ${A_k}$ 在待匹配图的所有特征点中的最近邻点 ${B_k}$ 和次近邻点 ${C_k}$ , 若 ${d_{{A_k}{B_k}}}$ 与 ${d_{{A_k}{C_k}}}$ (其中, $d$ 表示两点间距离)比值小于设定阈值 $\tau $ , 则认为 ${A_k}$ 与 ${B_k}$ 是正确的匹配点对, 此时结束搜索; 否则, 选取 ${a_{ij}}$ 中的下一个特征点, 重复上述搜索过程, 直到找到首个正确的匹配点对;

    步骤3. 建立邻域.求取步骤2找到的正确匹配点对中 ${B_k}$ 所处网格 ${b_{ij}}$ 的 $3\times 3$ 邻域 ${R}$ ;

    步骤4. 寻找所有正确匹配点对.依次选取网格 ${a_{ij}}$ 内剩余的特征点, 按照步骤2的搜索过程, 找到网格 ${a_{ij}}$ 和区域 $R$ 中所有剩余的正确匹配点对;

    步骤5. 对步骤1中参考图像的剩余网格, 重复步骤2 $\sim$ 4, 直至所有网格遍历完毕.

    无人机航拍图像在特征匹配后, 需要计算几何变换参数进行变换, 并对配准后的图像做融合处理.本文在使用加速KAZE算法提取航拍图像特征点, 并采用FREAK对提取的特征点进行描述后, 使用Grid-KNN算法对特征点搜索, 进行粗匹配, 特征点匹配程度采用汉明距离进行衡量.影像区域特征具有相似性, 经常会导致相邻特征点的误匹配, 通过Grid-KNN算法对特征点进行匹配后, 往往会存在错误的匹配点对.因此, 使用RANSAC算法剔除误匹配点对, 对匹配结果进一步提纯.在获得精匹配的特征点对后, 使用RANSAC算法求解几何变换矩阵, 将待配准图像经变换矩阵变换后与参考图像进行叠加.由于图像之间存在亮度与色彩差异, 需要对叠加后的图像进行融合, 以消除拼接缝.使用加权平均融合算法对叠加的图像进行融合, 计算公式如下:

    $ \begin{equation} f\left( {x, y} \right) = \left\{ {\begin{array}{*{20}{c}} \begin{array}{l} {f_1}\left( {x, y} \right), \\ \;\;\;\;\;\;\left( {x, y} \right) \in {R_1}, \left( {x, y} \right) \notin {R_2} \end{array}\\ \begin{array}{l} {d_1}{f_1}\left( {x, y} \right) + {d_2}{f_2}\left( {x, y} \right), \\ \;\;\;\;\;\;\left( {x, y} \right) \in {R_1}, \left( {x, y} \right) \in {R_2} \end{array}\\ \begin{array}{l} {f_2}\left( {x, y} \right), \\ \;\;\;\;\;\;\left( {x, y} \right) \in {R_2}, \left( {x, y} \right) \notin {R_1} \end{array} \end{array}} \right. \end{equation} $

    (10)

    式中, ${R_1}$ 为图像1的区域, ${R_2}$ 为图像2的区域, ${d_1}$ , ${d_2}$ 为加权值, 且 ${d_1} + {d_2} = 1$ , $0 < {d_1} < 1$ , $0 < {d_2} < 1$ , ${d_1}$ 与当前处理点距重叠区域左边界的距离成正比.经融合后, 获得的拼接图像更加平滑, 自然.基于改进KAZE的无人机航拍图像拼接流程如图 4所示, 主要包含以下步骤:

    图 4  基于改进KAZE算法无人机航拍图像拼接流程
    Fig. 4  The process of UAV aerial image mosaic based on improved KAZE algorithm

    步骤1. 特征点检测.使用加速的KAZE算法检测出航拍图像的特征点;

    步骤2. 特征点描述.采用二进制特征描述子FREAK对检测出的特征点进行描述;

    步骤3. 特征点粗匹配.采用Grid-KNN算法搜索出参考图像与待配准图像特征点中的正确匹配点对;

    步骤4. 特征点精匹配.使用RANSAC算法对匹配的特征点对进一步提纯, 将可信度较低的匹配对进行过滤, 得到精匹配结果;

    步骤5. 建立几何变换模型.选取单应性矩阵作为相邻两幅图像间的变换模型, 使用RANSAC算法求解其变换参数;

    步骤6. 图像融合.使用加权平均融合算法对配准后的图像进行融合, 使重叠区域的像素按照相应的权重进行叠加, 以消除拼接图像的拼接缝, 使图像色彩, 亮度过度更加自然, 真实.

    在图像拼接中, 衡量一种算法是否适合无人机航拍图像的重要指标包括特征点提取与匹配速度, 匹配正确率和配准精度.因此, 针对本文提出的基于改进KAZE的无人机航拍图像拼接算法, 采用了标准数据集和大量无人机航拍图像进行实验, 并将本文算法与SIFT算法, ORB算法和KAZE算法进行比较, 从特征点提取速度, 特征匹配速度, 匹配正确率和配准精度四个方面对各算法进行定量的评价与分析.实验运行环境采用CPU为Intel core i3, 3.50 GHz, 内存为4 GB, 64位Win10操作系统的PC机.本文实验的所有算法基于OpenCV2.4.10实现, 编程语言为C++语言, 编程环境为Visual Studio 2010.实验数据采用Mikolajczyk和Schmid提供的数据集中的Leuven数据, Boat数据和图 5中所示的无人机航拍图像. Mikolajczyk和Schmid提供的数据集包含了具有不同几何和光照强度变换的几个图像集, 每个图像集包含了6个图像序列, 每个序列的后5张图像是对第1张图像的变换. Leuven数据和Boat数据分别用于验证图像在光照变化, 旋转变化和尺度变化下的算法性能; 图 5所示的各组航拍图像的分辨率均为 $4 000\times 3 000$ , 分别对应光照变化, 旋转变化和尺度变化的情形.

    图 5  实验数据
    Fig. 5  Experimental data

    特征点提取速度评价采用提取每个特征点的平均用时进行比较, 平均用时越短, 速度越快. 表 1给出了分别使用SIFT算法, ORB算法, KAZE算法和本文所提算法对Leuven数据, Boat数据和图 5所示的实验数据进行特征点提取的平均用时比较.从表中可以看出ORB算法特征点提取时间最少, 本文算法次之, SIFT算法和KAZE算法特征点提取时间最长.这是因为ORB算法采用FAST方法检测特征点, 且在特征描述时只需对特征点的邻域进行二值测试, 因此特征提取速度性能较好. SIFT算法构造高斯尺度空间进行特征点检测, KAZE算法构造非线性尺度空间进行特征点检测, 且二者均采用浮点型描述子进行特征描述, 因此二者较为耗时.本文算法, 虽然需要构造非线性尺度空间进行特征点检测, 但是采用二进制描述子描述特征, 因此速度与SIFT算法和KAZE算法相比得到了大幅提升.

    表 1  特征点提取平均用时比较(ms)
    Table 1  The comparison of feature point extraction average time (ms)
    图像编号 SIFT ORB KAZE 本文算法
    Leuven 2.184 0.032 2.331 0.941
    Boat 2.965 0.036 2.564 0.783
    图 5 (a) 5.586 0.216 5.541 2.908
    图 5 (b) 8.238 0.222 6.000 3.748
    图 5 (c) 4.161 0.151 5.247 2.726
    下载: 导出CSV 
    | 显示表格

    特征匹配速度评价采用每个特征点的平均匹配用时进行比较, 平均用时越短, 速度越快.表 2给出了分别使用SIFT算法, ORB算法, KAZE算法和本文所提算法对Leuven数据, Boat数据的前2个图像序列和图 5所示的实验数据进行特征匹配时平均用时比较.其中, SIFT算法, ORB算法, KAZE算法均采用基于KNN的特征匹配算法, 本文算法的网格大小选为 $10 \times 10$ .从表中可以看出SIFT算法和KAZE算法耗时最长, ORB算法次之, 本文算法耗时最短. SITF算法和KAZE算法使用欧氏距离进行特征相似性度量, 且使用基于KNN的特征匹配算法, 因此, 耗时较长. ORB算法虽然与本文算法一样采用汉明距离进行特征相似性度量, 但其采用的基于KNN的特征匹配算法相较于本文的Grid-KNN算法遍历次数较多, 耗时较长.

    表 2  特征匹配平均用时比较(ms)
    Table 2  The comparison of feature matching average time (ms)
    图像编号 SIFT ORB KAZE 本文算法
    Leuven 0.431 0.268 0.305 0.174
    Boat 1.097 0.530 0.291 0.253
    图 5 (a) 0.992 0.460 1.205 0.324
    图 5 (b) 1.159 0.359 1.560 0.239
    图 5 (c) 1.200 0.331 1.242 0.219
    下载: 导出CSV 
    | 显示表格

    匹配正确率CMR (Correct matching rate)为匹配正确点对数与所有匹配点对数之比, 其定义如下:

    $ \begin{equation} {\rm CMR} = \frac{{{N_c}}}{N} \end{equation} $

    (11)

    式中, ${N}$ 为所有匹配点对数, ${N_c}$ 为匹配正确点对数. CMR是一种客观的评价指标, 其值越大, 匹配性能越好. 图 6给出了使用4种算法对Leuven数据和Boat数据进行匹配的匹配正确率结果.从图中可以看出KAZE算法和本文算法在光照, 旋转和尺度变化下具有较好的性能, SIFT算法次之, ORB算法最差.因此, 本文算法抗光照变化, 抗旋转和抗尺度变化性能更好, 稳定性更强. 表 3给出了使用4种算法对图 5所示航拍图像进行匹配的匹配正确率的结果比较.从表中的结果可以看出ORB算法的匹配正确率最低, SIFT算法次之, KAZE算法和本文算法最好, 进一步验证了本文算法在光照, 旋转和尺度变化下具有较好的性能与稳定性.

    图 6  Leuven数据和Boat数据匹配正确率比较
    Fig. 6  The comparison of correct matching rate for Leuven data and Boat data
    表 3  匹配正确率比较
    Table 3  The comparison of correct matching rate
    图像编号 算法 匹配点对数 正确点对数 CMR (%)
    SIFT 1 492 1 359 91.15
    图 5 (a) ORB 2 253 2 092 81.94
    KAZE 1 427 1 436 99.93
    本文算法 1 358 1356 99.85
    SIFT 1 212 1 063 87.71
    图 5 (b) ORB 1 340 995 74.25
    KAZE 1 415 1 294 91.45
    本文算法 1 280 1 159 90.55
    SIFT 1 527 1 464 95.87
    图 5 (c) ORB 1 573 1 130 71.84
    KAZE 1 438 1 392 96.80
    本文算法 1 285 1 222 95.12
    下载: 导出CSV 
    | 显示表格

    配准精度直接影响着最终的拼接结果, 其采用参考图像与待配准图像之间的距离均方根误差RMSE (Root mean square error)进行评价, RMSE的计算公式如下:

    $\begin{equation} \begin{array}{l} {\rm RMSE} = \sqrt {\frac{1}{M}\sum\limits_{i = 1}^M {{{\left\| {\left( {{x_i}, {y_i}} \right) - \left( {{{\tilde x}_i}, {{\tilde y}_i}} \right)} \right\|}^2}} } \end{array} \end{equation} $

    (12)

    式中, $M$ 为监测点总数, $\left( {{x_i}, {y_i}} \right)$ 为参考图像中监测点的坐标, $\left( {{{\tilde x}_i}, {{\tilde y}_i}} \right)$ 为待配准图像中经单应性矩阵变换后的监测点的坐标. RMSE的值越小, 两者间的距离越小, 则配准精度越高, 拼接效果越好, 反之, 拼接效果越差.

    图 7给出了使用4种算法对Leuven数据和Boat数据进行配准后的均方根误差结果.从图中可以看出KAZE算法和本文算法在光照, 旋转和尺度变化下均方根误差最小, 具有较好的配准精度, SIFT算法略次之, ORB算法最差.

    图 7  Leuven数据和Boat数据匹配精度比较
    Fig. 7  The comparison of matching accuracy for Leuven data and Boat data

    表 4给出了使用4种算法对图 5所示航拍图像配准后的均方根误差的结果比较.从表中的结果可以看出ORB算法的误差最大, 配准精度最差, SIFT算法较好, KAZE算法和本文算法拥有最好的配准精度.本文算法的配准精度虽略低于KAZE算法, 但略高于SIFT算法, 同时远高于ORB算法, 说明本文算法在光照, 旋转和尺度变化的情况下具有较好的配准精度, 能够适用于无人机航拍图像拼接. 图 8给出了使用本文算法对图 5中的3组实验数据进行配准后的结果.从图中可以看出配准后的图像无明显的错位, 配准效果较好.

    表 4  配准精度比较
    Table 4  The comparison of matching accuracy
    图像编号 SIFT ORB KAZE 本文算法
    图 5 (a) 0.443 1.530 0.356 0.367
    图 5 (b) 0.509 1.729 0.446 0.489
    图 5 (c) 0.158 1.200 0.124 0.152
    下载: 导出CSV 
    | 显示表格
    图 8  图像配准结果
    Fig. 8  The results of matching

    由上述实验结果可知, ORB算法虽具有较快的特征点提取速度, 但其在追求特征点提取速度时大大牺牲了匹配正确率与配准精度; SIFT算法和KAZE算法的匹配正确率与配准精度较高, 但其特征点提取速度与特征匹配速度过慢; 本文算法在保持较高的匹配正确率与配准精度的同时保持了一定的特征点提取速度, 并且特征匹配速度较快.综上所述, 均衡特征点提取速度、特征匹配速度、匹配正确率与配准精度四个方面, 本文算法更具优越性.

    使用本文算法对图 5中的三组图像进行配准, 在使用加权平均算法对配准后的图像进行融合, 最终的拼接结果如图 9所示.从图中可以看出, 拼接后的图像无鬼影、无拼接缝, 且图像亮度变化均匀, 保真度高, 拼接效果较好.

    图 9  图像拼接结果
    Fig. 9  The results of stitching

    针对航拍图像易受光照、旋转变化、尺度变化等影响, KAZE算法实时性较差以及基于K近邻的特征匹配算法耗时较长等问题, 本文提出了一种基于改进KAZE的无人机航拍图像拼接算法, 并与SIFT算法, ORB算法和KAZE算法进行了对比.该方法首先利用加速的KAZE算法提取图像的特征点, 采用二进制特征描述子FREAK进行特征点描述, 然后使用Grid-KNN算法对特征点进行初步匹配, 采用RANSAC算法对匹配的特征点对精匹配并计算几何变换模型, 最后使用加权平均算法对图像进行融合.实验结果表明, 本文算法在特征匹配速度, 匹配正确率和匹配精度上拥有较好的性能的同时保持了一定的特征点提取速度.与KAZE算法和SIFT算法相比, 本文算法在保持匹配正确率和配准精度的同时提升了特征点提取速度与匹配速度; 与ORB算法相比, 本文算法虽然在特征点提取速度上有所减慢, 但是较大提高了特征匹配速度、匹配正确率和配准精度.综合特征点提取速度、特征匹配速度、匹配正确率与配准精度四个方面, 本文算法较上述算法更适合无人机航拍影像的拼接.

  • 图  1  监督性语音分离系统的结构框图

    Fig.  1  A block diagram of the supervised speech separation system

    图  2  Huang 等提出的声源分离系统的网络结构[28]

    Fig.  2  The network structure of the proposed source separation system by Huang et al.[28]

    图  3  Wang 等提出的语音分离系统的网络结构[21]

    Fig.  3  The network structure of the proposed speech separation system by Wang et al. for speech separation[21]

    图  4  Narayanan 等提出的神经网络的结构[60]

    Fig.  4  The structure of the proposed network by Narayanan et al.[60]

    图  5  Xu 等提出的基于DNN 的语音分离系统的网络结构[18]

    Fig.  5  The structure of the proposed DNN-based speech separation system by Xu et al.[18]

    图  6  Nie 等提出的基于DSN-TS 的语音分离系统的网络结构[33]

    Fig.  6  The structure of the proposed DSN-TS-based speech separation system by Nie et al.[33]

    图  7  Zhang 等提出的基于DSN 的语音分离系统的网络结构[34]

    Fig.  7  The structure of the proposed DSN-based speech separation system by Zhang et al.[34]

    图  8  Huang 等提出的基于DRNN 的语音分离系统的网络结构[29]

    Fig.  8  The structure of the proposed DRNN-based speech separation system by Huang et al.[29]

  • [1] Kim G, Lu Y, Hu Y, Loizou P C. An algorithm that improves speech intelligibility in noise for normal-hearing listeners. The Journal of the Acoustical Society of America, 2009, 126(3) : 1486-1494
    [2] Dillon H. Hearing Aids. New York: Thieme, 2001.
    [3] Allen J B. Articulation and intelligibility. Synthesis Lectures on Speech and Audio Processing, 2005, 1(1) : 1-124
    [4] Seltzer M L, Raj B, Stern R M. A Bayesian classifier for spectrographic mask estimation for missing feature speech recognition. Speech Communication, 2004, 43(4) : 379-393
    [5] Weninger F, Erdogan H, Watanabe S, Vincent E, Le Roux J, Hershey J R, Schuller B. Speech enhancement with LSTM recurrent neural networks and its application to noise-robust ASR. In: Proceedings of the 12th International Conference on Latent Variable Analysis and Signal Separation. Liberec, Czech Republic: Springer International Publishing, 2015. 91-99
    [6] Weng C, Yu D, Seltzer M L, Droppo J. Deep neural networks for single-channel multi-talker speech recognition. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2015, 23(10) : 1670-1679
    [7] Boll S F. Suppression of acoustic noise in speech using spectral subtraction. IEEE Transactions on Acoustics, Speech, and Signal Processing, 1979, 27(2) : 113-120
    [8] Chen J D, Benesty J, Huang Y T, Doclo S. New insights into the noise reduction wiener filter. IEEE Transactions on Audio, Speech, and Language Processing, 2006, 14(4) : 1218-1234
    [9] Loizou P C. Speech Enhancement: Theory and Practice. New York: CRC Press, 2007.
    [10] Liang S, Liu W J, Jiang W. A new Bayesian method incorporating with local correlation for IBM estimation. IEEE Transactions on Audio, Speech, and Language Processing, 2013, 21(3) : 476-487
    [11] Roweis S T. One microphone source separation. In: Proceedings of the 2000 Advances in Neural Information Processing Systems. Cambridge, MA: The MIT Press, 2000. 793-799
    [12] Ozerov A, Vincent E, Bimbot F. A general flexible framework for the handling of prior information in audio source separation. IEEE Transactions on Audio, Speech, and Language Processing, 2012, 20(4) : 1118-1133
    [13] Reddy A M, Raj B. Soft mask methods for single-channel speaker separation. IEEE Transactions on Audio, Speech, and Language Processing, 2007, 15(6) : 1766-1776
    [14] Mohammadiha N, Smaragdis P, Leijon A. Supervised and unsupervised speech enhancement using nonnegative matrix factorization. IEEE Transactions on Audio, Speech, and Language Processing, 2013, 21(10) : 2140-2151
    [15] Virtanen T. Monaural sound source separation by nonnegative matrix factorization with temporal continuity and sparseness criteria. IEEE Transactions on Audio, Speech, and Language Processing, 2007, 15(3) : 1066-1074
    [16] Wang D L, Brown G J. Computational Auditory Scene Analysis: Principles, Algorithms, and Applications. Piscataway: IEEE Press, 2006.
    [17] Wang Y X, Narayanan A, Wang D L. On training targets for supervised speech separation. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2014, 22(12) : 1849-1858
    [18] Xu Y, Du J, Dai L R, Lee C H. An experimental study on speech enhancement based on deep neural networks. IEEE Signal Processing Letters, 2014, 21(1) : 65-68
    [19] Huang P S, Kim M, Hasegawa-Johnson M, Smaragdis P. Deep learning for monaural speech separation. In: Proceedings of the 2014 IEEE International Conference on Acoustics, Speech, and Signal Processing. Florence: IEEE, 2014. 1562-1566
    [20] Weninger F, Hershey J R, Le Roux J, Schuller B. Discriminatively trained recurrent neural networks for single-channel speech separation. In: Proceedings of the 2014 IEEE Global Conference on Signal and Information Processing. Atlanta, GA: IEEE, 2014. 577-581
    [21] Wang Y X, Wang D L. A deep neural network for time-domain signal reconstruction. In: Proceedings of the 2015 IEEE International Conference on Acoustics, Speech, and Signal Processing. South Brisbane: IEEE, 2015. 4390-4394
    [22] Simpson A J, Roma G, Plumbley M D. Deep karaoke: extracting vocals from musical mixtures using a convolutional deep neural network. In: Proceedings of the 12th International Conference on Latent Variable Analysis and Signal Separation. Liberec, Czech Republic: Springer International Publishing, 2015. 429-436
    [23] Le Roux J, Hershey J R, Weninger F. Deep NMF for speech separation. In: Proceedings of the 2015 IEEE International Conference on Acoustics, Speech, and Signal Processing. South Brisbane: IEEE, 2015. 66-70
    [24] Gabor D. Theory of communication. Part 1: the analysis of information. Journal of the Institution of Electrical Engineers����Part III: Radio and Communication Engineering, 1946, 93(26) : 429-441
    [25] Patterson R, Nimmo-Smith I, Holdsworth J, Rice P. An efficient auditory filterbank based on the gammatone function. In: Proceedings of the 1987 Speech-Group Meeting of the Institute of Acoustics on Auditory Modelling. RSRE, Malvern, 1987. 2-18
    [26] Wang Y X, Han K, Wang D L. Exploring monaural features for classification-based speech segregation. IEEE Transactions on Audio, Speech, and Language Processing, 2013, 21(2) : 270-279
    [27] Chen J T, Wang Y X, Wang D L. A feature study for classification-based speech separation at low signal-to-noise ratios. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2014, 22(12) : 1993-2002
    [28] Huang P S, Kim M, Hasegawa-Johnson M, Smaragdis P. Singing-voice separation from monaural recordings using deep recurrent neural networks. In: Proceedings of the 15th International Society for Music Information Retrieval. Taipei, China, 2014.
    [29] Huang P S, Kim M, Hasegawa-Johnson M, Smaragdis P. Joint optimization of masks and deep recurrent neural networks for monaural source separation. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2015, 23(12) : 2136-2147
    [30] Wang Y X, Wang D L. Towards scaling up classification-based speech separation. IEEE Transactions on Audio, Speech, and Language Processing, 2013, 21(7) : 1381-1390
    [31] Han K, Wang D L. A classification based approach to speech segregation. The Journal of the Acoustical Society of America, 2012, 132(5) : 3475-3483
    [32] Han K, Wang D L. Towards generalizing classification based speech separation. IEEE Transactions on Audio, Speech, and Language Processing, 2013, 21(1) : 168-177
    [33] Nie S, Zhang H, Zhang X L, Liu W J. Deep stacking networks with time series for speech separation. In: Proceedings of the 2014 IEEE International Conference on Acoustics, Speech, and Signal Processing. Florence: IEEE, 2014. 6667-6671
    [34] Zhang H, Zhang X L, Nie S, Gao G L, Liu W J. A pairwise algorithm for pitch estimation and speech separation using deep stacking network. In: Proceedings of the 2015 IEEE International Conference on Acoustics, Speech, and Signal Processing. South Brisbane: IEEE, 2015. 246-250
    [35] Han K, Wang Y X, Wang D L, Woods W S, Merks I, Zhang T. Learning spectral mapping for speech dereverberation and denoising. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2015, 23(6) : 982-992
    [36] Nie S, Xue W, Liang S, Zhang X L, Liu W J, Qiao L W, Li J P. Joint optimization of recurrent networks exploiting source auto-regression for source separation. In: Proceedings of the 16th Annual Conference of the International Speech Communication Association. Dresden, Germany, 2015.
    [37] Dahl G E, Yu D, Deng L, Acero A. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition. IEEE Transactions on Audio, Speech, and Language Processing, 2012, 20(1) : 30-42
    [38] Wang Y X. Supervised Speech Separation Using Deep Neural Networks[Ph.D. dissertation], The Ohio State University, USA, 2015.
    [39] Weninger F, Eyben F, Schuller B. Single-channel speech separation with memory-enhanced recurrent neural networks. In: Proceedings of the 2014 IEEE International Conference on Acoustics, Speech, and Signal Processing. Florence: IEEE, 2014. 3709-3713
    [40] Hershey J R, Le Roux J, Weninger F. Deep unfolding: model-based inspiration of novel deep architectures. arXiv: 1409.2574, 2014.
    [41] Hsu C C, Chien J T, Chi T S. Layered nonnegative matrix factorization for speech separation. In: Proceedings of the 16th Annual Conference of the International Speech Communication Association. Dresden, Germany: ICSA, 2015. 628-632
    [42] Liang S, Liu W J, Jiang W, Xue W. The optimal ratio time-frequency mask for speech separation in terms of the signal-to-noise ratio. The Journal of the Acoustical Society of America, 2013, 134(5) : EL452-EL458
    [43] Liang S, Liu W J, Jiang W, Xue W. The analysis of the simplification from the ideal ratio to binary mask in signal-to-noise ratio sense. Speech Communication, 2014, 59: 22-30
    [44] Anzalone M C, Calandruccio L, Doherty K A, Carney L H. Determination of the potential benefit of time-frequency gain manipulation. Ear and Hearing, 2006, 27(5) : 480-492
    [45] Brungart D S, Chang P S, Simpson B D, Wang D L. Isolating the energetic component of speech-on-speech masking with ideal time-frequency segregation. The Journal of the Acoustical Society of America, 2006, 120(6) : 4007-4018
    [46] Li N, Loizou P C. Factors influencing intelligibility of ideal binary-masked speech: implications for noise reduction. The Journal of the Acoustical Society of America, 2008, 123(3) : 1673-1682
    [47] Wang D L, Kjems U, Pedersen M S, Boldt J B, Lunner T. Speech intelligibility in background noise with ideal binary time-frequency masking. The Journal of the Acoustical Society of America, 2009, 125(4) : 2336-2347
    [48] Hartmann W, Fosler-Lussier E. Investigations into the incorporation of the ideal binary mask in ASR. In: Proceedings of the 2011 IEEE International Conference on Acoustics, Speech, and Signal Processing. Prague: IEEE, 2011. 4804-4807
    [49] Narayanan A, Wang D L. The role of binary mask patterns in automatic speech recognition in background noise. The Journal of the Acoustical Society of America, 2013, 133(5) : 3083-3093
    [50] Paliwal K, Wójcicki K, Shannon B. The importance of phase in speech enhancement. Speech Communication, 2011, 53(4) : 465-494
    [51] Mowlaee P, Saiedi R, Martin R. Phase estimation for signal reconstruction in single-channel speech separation. In: Proceedings of the 2012 International Conference on Spoken Language Processing. Portland, USA: ISCA, 2012. 1-4
    [52] Krawczyk M, Gerkmann T. STFT phase reconstruction in voiced speech for an improved single-channel speech enhancement. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2014, 22(12) : 1931-1940
    [53] Williamson D S, Wang Y X, Wang D L. Complex ratio masking for monaural speech separation. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2016, 24(3) : 483-492
    [54] Mallat S. A Wavelet Tour of Signal Processing. Burlington: Academic Press, 1999.
    [55] Hermansky H, Morgan N. Rasta processing of speech. IEEE Transactions on Speech and Audio Processing, 1994, 2(4) : 578-589
    [56] Shao Y, Jin Z Z, Wang D L, Srinivasan S. An auditory-based feature for robust speech recognition. In: Proceedings of the 2009 IEEE International Conference on Acoustics, Speech, and Signal Processing. Taipei, China: IEEE, 2009. 4625-4628
    [57] Hu G N, Wang D L. A tandem algorithm for pitch estimation and voiced speech segregation. IEEE Transactions on Audio, Speech, and Language Processing, 2010, 18(8) : 2067-2079
    [58] Han K, Wang D L. An SVM based classification approach to speech separation. In: Proceedings of the 2011 IEEE International Conference on Acoustics, Speech, and Signal Processing. Prague: IEEE, 2011. 4632-4635
    [59] Narayanan A, Wang D L. Investigation of speech separation as a front-end for noise robust speech recognition. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2014, 22(4) : 826-835
    [60] Narayanan A, Wang D L. Improving robustness of deep neural network acoustic models via speech separation and joint adaptive training. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2015, 23(1) : 92-101
    [61] Wang D L. On ideal binary mask as the computational goal of auditory scene analysis. Speech Separation by Humans and Machines. US: Springer, 2005. 181-197
    [62] Healy E W, Yoho S E, Wang Y X, Wang D L. An algorithm to improve speech recognition in noise for hearing-impaired listeners. The Journal of the Acoustical Society of America, 2013, 134(4) : 3029-3038
    [63] Kjems U, Boldt J B, Pedersen M S, Lunner T, Wang D L. Role of mask pattern in intelligibility of ideal binary-masked noisy speech. The Journal of the Acoustical Society of America, 2009, 126(3) : 1415-1426
    [64] Srinivasan S, Roman N, Wang D L. Binary and ratio time-frequency masks for robust speech recognition. Speech Communication, 2006, 48(11) : 1486-1501
    [65] Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks. Science, 2006, 313(5786) : 504-507
    [66] Sprechmann P, Bruna J, LeCun Y. Audio source separation with discriminative scattering networks. In: Proceedings of the 12th International Conference on Latent Variable Analysis and Signal Separation. Liberec, Czech Republic: Springer International Publishing, 2015. 259-267
  • 期刊类型引用(59)

    1. 苑朝,黄诺飞,蒋阳,赵亚冬,赵振兵. 基于改进旋转不变性二进制描述算法的电力场景图像拼接. 电力科学与工程. 2024(01): 31-38 . 百度学术
    2. 江智,江德港,黄子杰,郭彩玲,李柏林. 基于IB-SURF算法的无人机图像拼接技术研究. 计算机工程与应用. 2024(03): 263-269 . 百度学术
    3. 张海波,寇姣姣,杨兴,海琳琦,周明全,耿国华. 面向青花瓷碎片图像的U-Net++拼接网络. 计算机辅助设计与图形学学报. 2024(03): 379-387 . 百度学术
    4. 曹峰墅,方芳. 基于无人机的智慧城市给水工程施工管理方法研究与应用. 工程与建设. 2024(02): 453-455+475 . 百度学术
    5. 陈殷齐,郑慧诚,严志伟,林峻宇. 基于单应性扩散约束的二步网格优化视差图像对齐. 自动化学报. 2024(06): 1129-1142 . 本站查看
    6. 钱庆林,孙炜昊,王真,路永玲,李玉杰,江秀臣. 基于非线性尺度空间与极坐标分布熵的GIS局放特征提取方法. 电网技术. 2024(08): 3525-3533 . 百度学术
    7. 辛明坤,张瑞,朱振伟,赵华东,郑艳萍. 融合非线性扩散特征的砂轮片图像拼接方法. 制造业自动化. 2024(11): 133-139 . 百度学术
    8. 田双喜,陈洪辉,徐彬杰,伍国华. 车辆支持的多无人机多区域覆盖路径规划算法. 国防科技大学学报. 2024(06): 227-234 . 百度学术
    9. 赵卫东,刘俊德,王慢慢,李丹. 基于改进AKAZE算法的快速图像配准方法. 激光与光电子学进展. 2023(06): 90-96 . 百度学术
    10. 陈艳丽,刘静,张祺,耿世宇,闫克丁. 应用于PCB焊接检测的图像拼接算法研究. 自动化仪表. 2023(08): 96-98+105 . 百度学术
    11. 王一,齐皓,王瀚铮,程佳. 基于改进SIFT的无人机影像匹配方法. 无线电工程. 2023(10): 2337-2344 . 百度学术
    12. 马学条. 改进AOD-Net的端到端图像去雾实验研究. 实验室研究与探索. 2023(07): 38-43 . 百度学术
    13. 王陈哲,陈宇佳,陶诗量,李明,胡博,贾军辉,陈浩男. 融合深度学习和特征点识别的室内定位研究. 地理与地理信息科学. 2023(06): 23-27 . 百度学术
    14. 王小龙,李晓娟,李明臻,钟预全,夏晓华. 基于透视失真矫正的道路航拍图像拼接方法. 施工技术(中英文). 2023(24): 83-88+142 . 百度学术
    15. 周知政,柳翠寅. 组合模型的图像配准. 小型微型计算机系统. 2022(01): 69-75 . 百度学术
    16. 刘强,韩敏. 基于直线特征约束网格变形的航拍图像拼接. 控制与决策. 2022(03): 669-675 . 百度学术
    17. 倪佳忠,马志龙. 局部特征信息的航拍图像匹配算法. 北京测绘. 2022(03): 228-232 . 百度学术
    18. 陈永,王镇,卢晨涛. 改进AKAZE算法的高铁接触网图像特征匹配方法. 激光与光电子学进展. 2022(10): 130-138 . 百度学术
    19. 回立川,李万禹,陈艺琳. 基于Order-Aware网络内点筛选网络的电力巡线航拍图像拼接. 计算机应用. 2022(05): 1583-1590 . 百度学术
    20. 刘杰,游品鸿,田明,刘金凤. 基于局部投影的视差图像拼接平滑优化. 电子学报. 2022(06): 1451-1456 . 百度学术
    21. 李永福,崔恒奇,朱浩,张开碧. 一种基于改进AOD-Net的航拍图像去雾算法. 自动化学报. 2022(06): 1543-1559 . 本站查看
    22. 王宏志,张金栋,胡黄水,谢沛松. 基于感知Hash和极线约束的改进AKAZE算法. 吉林大学学报(理学版). 2022(03): 647-654 . 百度学术
    23. 周方圆,杨鹏举. 无人机航拍图像拼接技术研究与实现. 电子测试. 2022(11): 50-52 . 百度学术
    24. 李云鹏,刘小燕. 基于虚拟现实的大视差图像背景拼接改进. 计算机仿真. 2022(08): 200-203+234 . 百度学术
    25. 张从鹏,谢佳成,熊国顺. 基于Forstner算子的血细胞显微图像拼接. 计算机应用与软件. 2022(09): 108-112+127 . 百度学术
    26. 程健,闫鹏鹏,郁华森,史梦阳,肖洪飞. 基于有向线段误匹配剔除的煤矿巷道复杂场景图像拼接方法. 煤炭科学技术. 2022(09): 179-191 . 百度学术
    27. 冯向东,魏春英. 基于覆盖区域自适应优化的无人机航拍拼接方法. 无线电工程. 2022(11): 1977-1983 . 百度学术
    28. 黄石明,何小军,廖凯涛,陈德根. 具有视差的无人机航拍图像拼接算法研究. 测绘地理信息. 2022(06): 36-40 . 百度学术
    29. 李明臻,姜梦炜,陈仕旗. 基于ORB特征点的道路图像拼接方法. 现代制造技术与装备. 2022(11): 56-58 . 百度学术
    30. 卫保国,张玉兰,周佳明. 图像匹配中的特征点筛选方法. 计算机工程与应用. 2021(03): 208-214 . 百度学术
    31. 李瑞祥,赵海涛,葛小三,袁占良. 多匹配策略融合的无人机影像匹配方法. 测绘科学. 2021(03): 87-95 . 百度学术
    32. 张宇,胡立坤,黄彬. 融合颜色与光照信息的改进AKAZE图像匹配算法. 计算机工程. 2021(06): 225-233 . 百度学术
    33. 马晓敏,冯子金,杨烨,尚慧慧,董免. 基于IA-FAIF的纹样提取与匹配方法研究. 科学技术创新. 2021(15): 32-34 . 百度学术
    34. 刘天赐,宋延嵩,李金旺,赵馨. 基于ORB特征的高分辨率图像拼接改进算法. 激光与光电子学进展. 2021(08): 85-92 . 百度学术
    35. 黄旭龙,杨晓梅. 含噪无人机图像拼接方法. 计算机工程与设计. 2021(07): 1973-1980 . 百度学术
    36. 曹明兰,李亚东,李长青,赵小平. VDVI与AKAZE结合的无人机森林影像匹配方法. 中南林业科技大学学报. 2021(08): 1-8 . 百度学术
    37. 王慎谦,张荣国,李晓波,王晓,王芳. 基于ORB的无人机图像快速拼接算法. 太原科技大学学报. 2021(05): 374-379 . 百度学术
    38. 田政,苏里阳,陈实璇. 舰基旋翼无人机的试验实况航拍应用研究. 海洋技术学报. 2021(04): 23-29 . 百度学术
    39. 马耀名,陈艺琳,李万禹. 电力巡线无人机航拍图像匹配算法研究. 计算机工程与应用. 2021(21): 278-286 . 百度学术
    40. 代友林,王晓红,李万华. 一种改进的喀斯特山区无人机影像匹配算法. 计算机技术与发展. 2021(11): 148-152+158 . 百度学术
    41. 胡徐胜,郑睿,陶彬彬. 四旋翼无人机飞控系统设计与实现. 廊坊师范学院学报(自然科学版). 2021(04): 46-50 . 百度学术
    42. 匡文元. 基于无人机低空遥感的航拍图像拼接方法. 经纬天地. 2021(05): 25-28+33 . 百度学术
    43. 程政,官磊,周冲浩. 基于超宽选票的图像拼接方法. 计算机应用. 2021(S2): 254-257 . 百度学术
    44. 周方圆,杨鹏举. 无人机航拍路面图像处理的拼接算法研究. 河南科技. 2021(28): 6-8 . 百度学术
    45. 徐永胜,杨玉泽,林文树. 基于不同拼接算法的无人机林区影像拼接效果研究. 森林工程. 2020(01): 50-59 . 百度学术
    46. 邢长征,李思慧. 基于AKAZE的BOLD掩码描述符的匹配算法的研究. 计算机应用与软件. 2020(06): 283-287 . 百度学术
    47. 周思羽,包国琦,刘凯. 低通滤波下约束对数强度熵的图像渐晕校正. 计算机应用. 2020(06): 1812-1817 . 百度学术
    48. 李加亮,蒋品群,夏海英. 基于网格变形和余弦函数权重的图像拼接方法. 广西师范大学学报(自然科学版). 2020(04): 42-53 . 百度学术
    49. 李丹,徐倩南. 基于网格运动约束的遥感图像配准算法. 计算机工程与设计. 2020(07): 1947-1951 . 百度学术
    50. 许潇文,黄玉清,李磊民. 基于AKAZE-ORB的接触网图像拼接算法. 制造业自动化. 2020(07): 97-101 . 百度学术
    51. 保文星,桑斯尔,沈象飞. 基于信息熵约束和KAZE特征提取的遥感图像配准算法研究. 光学精密工程. 2020(08): 1810-1819 . 百度学术
    52. 汪洋,刘杰,游品鸿. 基于SIFT的视差图像投影优化. 哈尔滨理工大学学报. 2020(04): 116-121 . 百度学术
    53. 马宝琰,汤磊,赵晶,何勇军. 风电叶片图像直线特征检测与拼接方法. 哈尔滨理工大学学报. 2020(05): 83-92 . 百度学术
    54. 杨璇璇,刘景勇,王艳芬,云霄,董锴文,魏力. 井下巷道大视差图像拼接算法. 工矿自动化. 2020(11): 77-82 . 百度学术
    55. 葛继空,杨静,张东,任军. 基于改进ORB算法的航拍图像匹配. 北京测绘. 2020(11): 1539-1543 . 百度学术
    56. 罗宇,黄玉清,石繁荣. 改进KAZE算法的移动目标检测. 传感器与微系统. 2019(08): 126-128 . 百度学术
    57. 靳渤文,杨耀权,张明浩. 一种无人机电力巡检的影像匹配方法. 山东电力技术. 2019(09): 8-13 . 百度学术
    58. 李方旭,金久才,张杰,李立刚,戴永寿. 一种用于无人船海面障碍物测距的双目视觉系统. 舰船科学技术. 2019(23): 118-122 . 百度学术
    59. 李振宇,田源,陈方杰,韩军. 基于改进ORB和PROSAC的无人机航拍图像拼接算法. 激光与光电子学进展. 2019(23): 91-99 . 百度学术

    其他类型引用(44)

  • 加载中
图(8)
计量
  • 文章访问数:  4701
  • HTML全文浏览量:  1934
  • PDF下载量:  3731
  • 被引次数: 103
出版历程
  • 收稿日期:  2015-11-04
  • 录用日期:  2016-04-01
  • 刊出日期:  2016-06-20

目录

/

返回文章
返回