2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

面向自然语言处理的深度学习研究

奚雪峰 周国栋

汤昊林, 杨扬, 杨昆, 罗毅, 张雅莹, 张芳瑜. 基于混合特征的非刚性点阵配准算法. 自动化学报, 2016, 42(11): 1732-1743. doi: 10.16383/j.aas.2016.c150618
引用本文: 奚雪峰, 周国栋. 面向自然语言处理的深度学习研究. 自动化学报, 2016, 42(10): 1445-1465. doi: 10.16383/j.aas.2016.c150682
TANG Hao-Lin, YANG Yang, YANG Kun, LUO Yi, ZHANG Ya-Ying, ZHANG Fang-Yu. Non-rigid Point Set Registration with Mixed Features. ACTA AUTOMATICA SINICA, 2016, 42(11): 1732-1743. doi: 10.16383/j.aas.2016.c150618
Citation: XI Xue-Feng, ZHOU Guo-Dong. A Survey on Deep Learning for Natural Language Processing. ACTA AUTOMATICA SINICA, 2016, 42(10): 1445-1465. doi: 10.16383/j.aas.2016.c150682

面向自然语言处理的深度学习研究

doi: 10.16383/j.aas.2016.c150682
基金项目: 

国家自然科学基金 61331011

国家自然科学基金 61472264

详细信息
    作者简介:

    奚雪峰, 苏州大学计算机科学与技术学院博士研究生.主要研究方向为自然语言理解, 篇章分析, 自动问答.E-mail:xfxi@mail.usts.edu.cn

    通讯作者:

    周国栋, 苏州大学特聘教授.主要研究方向为自然语言理解, 中文信息处理, 信息抽取.本文通信作者.E-mail:gdzhou@suda.edu.cn

A Survey on Deep Learning for Natural Language Processing

Funds: 

National Natural Science Foundation of China 61331011

National Natural Science Foundation of China 61472264

More Information
    Author Bio:

    Ph. D. candidate at the School of Computer Science and Technology, Soochow University. His research interest covers natural language understanding, discourse analysis and questionanswering.E-mail:

    Corresponding author: ZHOU Guo-Dong Distinguished professor at the School of Computer Science and Technology, Soochow University. His research interest covers natural language understanding, Chinese computing, and information extraction. Corresponding author of this paper.E-mail:gdzhou@suda.edu.cn
  • 摘要: 近年来,深度学习在图像和语音处理领域已经取得显著进展,但是在同属人类认知范畴的自然语言处理任务中,研究还未取得重大突破.本文首先从深度学习的应用动机、首要任务及基本框架等角度介绍了深度学习的基本概念;其次,围绕数据表示和学习模型两方面,重点分析讨论了当前面向自然语言处理的深度学习研究进展及其应用策略;并进一步介绍了已有的深度学习平台和工具;最后,对深度学习在自然语言处理领域的发展趋势和有待深入研究的难点进行了展望.
  • 非刚性点阵配准(Non-rigid point set registration)是将某一点阵(称为源点阵)与其发生形变后的点阵(称为目标点阵)进行匹配的过程.该技术在计算机视觉、机器学习、医学图像处理、模式识别以及地理信息系统中扮演着极其重要的角色.基于当前算法的特点,非刚性点阵配准算法大体可以分为两大类:基于迭代或非迭代的算法 和基于学习或非学习的算法.由于本文算法主要涉及基于迭代的问题,所以我们主要从基于迭代或非迭代的角度来介绍当前的非刚性点阵配准算法.

    在基于非迭代的非刚性点阵配准算法中,两组点阵之间的对应关系是通过使用某种高级结构特征(High level structural features)仅进行一次相似性评估后直接找回两组点阵之间的对应关系. 在基于非迭代的配准模型中,直线[1]、曲线[2]、表面结构[3]、Shape context[4-5]和图论(Graphs)[6-7]等特征被用于两个点阵之间相似度的评估.在非迭代算法中,Shape context和Graphs是最受欢迎的两种特征描述法,其核心是通过最小化两个点阵之间的分布差异(使用Shape context时)或者拓扑结构差异(使用Graphs时)来找回点阵之间的对应关系[4-9].最近,一部分研究人员[10-14] 在传统的基于Graphs特征算法的基础上加入了学习要素,通过在配准前使用适当的学习样本进行学习来优化算法中的参数设置,从而提高了算法的配准精度.但是这类算法由于使用了Shape context 或Graphs特征,当相邻点较为接近时该类特征则变得非常相似以至于这类算法并不能达到较好的配准效果[8, 15-16].

    基于迭代的算法通常包括两个相互交替的过程:对应关系评估(Correspondence estimation)和空间变换更新(Transformation updating).相对于基于非迭代的算法,基于迭代的算法的优势在于它们在迭代过程中逐步地调整源点阵的初始几何形状和空间位置使得源点阵在几何形状和空间位置上变得越来越接近目标点阵,从而使得通过几何结构特征寻找它们之间的对应关系变得更加容易.TPS-RPM[17]是第一个利用迭代技术来进行非刚性点阵配准的算法.它通过使用点阵到点阵的距离、Softassign[18-19]和退火算法[20-21]来评估点阵之间的对应概率和控制薄板样条函数(Thin plate spline,TPS)[22]的更新. Myronenko等[23] 在TPS-RPM算法框架基础上提出了在空间变换更新中增加运动一致性约束条件(Motion coherence constraint)[24]来提高配准过程中空间变换的稳定性,并利用最大似然法(Maximum likelihood)来评估点阵之间的对应关系. 之后,Myronenko等[25]在文献[23]的基础上发表了著名的CPD算法(Coherent points drift algorithm),他们改良了空间变换模型使之既可以适用于刚性和非刚性的点阵配准问题,并可以在配准精度要求相对不高的情况下通过使用快速高斯变换(Fast Gauss transform)[26]和矩阵低秩逼近(Low-rank matrix approximation)[27]技术减少计算量来提升算法的配准速度.近期,Jian等[16]提出了一种基于高斯混合模型(Gaussian mixture model)的非刚性点阵配准算法(称为GMMREG).该算法不直接在几何空间中配准两个点阵,而是把两个点阵先转变成为两个高斯混合模型,然后在这基础上进行对应关系评估,空间变换更新基于最小化两个高斯混合模型的L2距离[28].最近,国内的Ma等[29]提出了一种基于Shape context特征和L2E评估[30]的算法,Wang等[31]通过使用不对称的高斯模型捕捉空间点阵的不对称分布,并用其作为特征描述进行点阵的非刚性配准.

    本文中,我们提出了一种基于混合特征的非刚性点阵配准算法.本算法的主要贡献体现在以下3个方面:

    1) 全局结构特征描述算法:我们提出了一种利用和向量来描述点阵中各点的全局结构特征的描述算法.

    2) 局部结构特征描述算法:我们提出了一种利用点阵之间的局部区域相邻点的距离和描述点阵中各点的局部结构特征的描述算法.

    3) 基于混合特征的点阵对应评估算法:我们通过混合全局和局部结构特征描述算法提出了一种基于混合特征的能量方程,该方程允许使用混合特征进行点阵对应评估,使得在配准过程中所使用的特征不再单一化,使配准精度得到了提高并在大部分实验中超越了当前相关算法.

    我们首先定义了全局和局部特征描述法以及混合特征能量优化方程,然后对本文算法的两个核心步骤进行介绍.在本章的后面部分,我们将对本文算法的参数设定以及本文算法与当前相关方法的差异进行说明.假设 $\{{\pmb a}_{i},i=1,2,\cdots,n\}$ 和 $\{{\pmb b}_{j},j=1,2,\cdots,m\}$ 是两组需要进行配准的点阵, ${\pmb a}$ 和 ${\pmb b}$ 分别为源点阵和目标点阵.

    我们首先定义了两种特征描述法,分别被用来评估源点阵 ${\pmb a}$ 与目标点阵 ${\pmb b}$ 之间的全局与局部几何结构特征差异.

    1.1.1   全局结构特征差异

    全局几何结构特征差异被定义为

    \begin {equation} G_{{\pmb a}_{i}{\pmb b}_{j}}= |{\pmb v}_{{\pmb a}_{i}}-{\pmb v}_{{\pmb b}_{j}} |\end {equation}

    (1)

    其中 $G_{\pmb{ab}}$ 为全局结构差异矩阵,矩阵中的每个元素值为两个向量 ${\pmb v}_{{\pmb a}_{i}}$ 与 ${\pmb v}_{{\pmb b}_{j}}$ 相减后的模. $G_{\pmb{ab}}$ 被用于评估点阵 ${\pmb a}$ 与点阵 ${\pmb b}$ 之间的全局结构特征差异. ${\pmb v}_{{\pmb a}_{i}}$ 与 ${\pmb v}_{{\pmb b}_{j}}$ 则是我们提出的全局结构特征描述法,定义为

    \begin {equation} {\pmb v}_{{\pmb a}_{i}}=\sum_{k=1,,kneqi}^{n}\overrightarrow{{\pmb a}_{i}{\pmb a}_{k}}\end {equation}

    (2)

    \begin {equation} {\pmb v}_{{\pmb b}_{j}}=\sum_{k=1,,kneqj}^{m}\overrightarrow{{\pmb b}_{j}{\pmb b}_{k}}\end {equation}

    (3)

    其中 $\overrightarrow{{\pmb a}_{i}{\pmb a}_{k}}$ 与 $\overrightarrow{{\pmb b}_{j}{\pmb b}_{k}}$ 分别是点 ${\pmb a}_{i}$ 到点 ${\pmb a}_{k}$ 与点 ${\pmb b}_{j}$ 到 ${\pmb b}_{k}$ 的几何向量. ${\pmb v}_{{\pmb a}_{i}}$ 与 ${\pmb v}_{{\pmb b}_{j}}$ 则是分别用来描述点 ${{\pmb a}_{i}}$ 与点 ${{\pmb b}_{j}}$ 的全局结构特征的和向量.

    1.1.2   局部结构特征差异

    局部结构特征差异被定义为

    \begin {equation}L_{{\pmb a}_{i}{\pmb b}_{j}}=\sum_{k=1}^{K}\parallel T({ N}({\pmb a}_{i})_{k},{\pmb b}_{j})-{N}({\pmb b}_{j})_{k}\parallel^{2}\end {equation}

    (4)

    其中 $L_{{\pmb a}{\pmb b}}$ 是点阵 ${\pmb a}$ 与点阵 ${\pmb b}$ 之间的局部结构差异矩阵,K 为相邻点的个数. ${N}({\pmb a}_{i})_{k}$ 和 ${N}({\pmb b}_{j})_{k}$ 分别为点 ${\pmb a}_{i}$ 和点 ${\pmb b}_{j}$ 的第 k 个最近点. T 则是平移方程,被定义为

    \begin {equation}T({N}({\pmb a}_{i})_{k},{\pmb b}_{j})={N}({\pmb a}_{i})_{k}+({\pmb b}_{j}-{\pmb a}_{i})\end {equation}

    (5)

    其主要思想为考虑在点阵 ${\pmb a}$ 与 ${\pmb b}$ 中的每一个点与其相邻点( ${N}({\pmb a}_{i})_{k=1,\cdots,K}$ 或 $N{{({{a}_{i}})}_{k=1,\cdots ,K}}$ )构成了一个局部小段,评估点阵 ${\pmb a}$ 与 ${\pmb b}$ 之间的对应关系就可以转化为评估局部小段的相似度. 例如,首先将 ${\pmb a}_{i}$ 以及它的 K个相邻点 ${N}({\pmb a}_{i})_{k=1,\cdots,K}$ 根据平移向量 $\overrightarrow{{\pmb a}_{i}{\pmb b}_{j}}$ 移动到 点 ${\pmb b}_{j}$ . 然后把点 ${\pmb a}_{i}$ 的相邻点 ${N}({\pmb a}_{i})_{k=1,\cdots,K}$ 与点 ${\pmb b}_{j}$ 的相邻点 ${N}({\pmb b}_{j=1,2,\cdots,m})$ 之间的几何距离进行累加.最后,点 ${\pmb a}_{i}$ 在点阵 ${\pmb b}$ 中的对应点被确定为拥有最小距离和的点 ${N}({\pmb b}_{j})$ .其中,局部结构特征差异主要决定于相邻点个数 K,同时 K也决定了两个点阵之间局部结构相似度的评估.

    在这里,我们使用Linear assignment技术来最小化全局结构特征差异矩阵 $G_{\pmb{ab}}$ 与局部结构特征差异矩阵 $L_{{\pmb{ab}}}$ ,我们将会获得两种对应关系,它们分别是基于最小化的全局结构特征差异和局部结构特征差异计算而来的.

    本文中提出的基于混合特征的能量优化方程被定义为

    \begin {equation}E(M)=\sum_{i=1}^n\sum_{j=1}^m G_{{\pmb a}_{i}{\pmb b}_{j}}M_{ij}+\alpha \sum_{i=1}^n\sum_{j=1}^m L_{{\pmb a}_{i}{\pmb b}_{j}}M_{ij}\end {equation}

    (6)

    其中 $\sum_{i=1}^n \sum_{j=1}^m G_{{\pmb a}_{i}{\pmb b}_{j}}M_{ij}$ 和 $\sum_{i=1}^n\sum_{j=1}^m L_{{\pmb a}_{i}{\pmb b}_{j}}M_{ij}$ 分别描述了基于最小化全局和局部结构特征差异计算的能量,可以被考虑为Linear assignment问题. $G_{{\pmb a}{\pmb b}}$ 和 $L_{{\pmb a}{\pmb b}}$ 分别正规化至[0,1]区间. nm分别代表了点阵 ${\pmb a}$ 与 ${\pmb b}$ 中的序列长度. Mij是对应矩阵,表示了点阵 ${\pmb a}$ 与 点阵 ${\pmb b}$ 之间的对应关系,当点 ${\pmb a}_{i}$ 与点 ${\pmb b}_{j}$ 相对应时赋值为1,反之则赋值为0. Mij 始终满足 ${\sum_{j=1}^m}M_{ij}=1$ 和 ${\sum_{i=1}^n}M_{ij}=1$ . $\alpha$ 为权重参数用于调节能量优化时 $\sum_{i=1}^n\sum_{j=1}^m G_{{\pmb a}_{i}{\pmb b}_{j}}M_{ij}$ 与 $\sum_{i=1}^n\sum_{j=1}^m L_{{\pmb a}_{i}{\pmb b}_{j}}M_{ij}$ 的比重. 在配准过程中,能量调节参数 $\alpha$ 通过退火算法在每次迭代中逐渐减小,最后趋近为0.

    首先我们创建一个可变形的代理点阵 ${{\pmb a}^{w}}$ ,并使其在配准开始时满足 ${\pmb a}^{w}={\pmb a}$ .本文算法的主要过程是:1) 首先利用前述基于混合特征的能量优化方程在每次迭代中评估 ${{\pmb a}^{w}}$ 和 ${\pmb b}$ 的对应关系(前述式(1) $\thicksim$ (6) 中的 ${{\pmb a}_{i}}$ 应使用 ${{\pmb a}^{w}}$ ); 2) 随后使用TPS空间变换更新 ${{\pmb a}^{w}}$ 的空间位置及几何形状,该TPS空间变换由步骤1) 中获取的对应关系建立而来.这两个步骤1) 和2) 相互交替迭代以至于代理点阵 ${{\pmb a}^{w}}$ 能逐渐在空间位置和几何形状上越来越接近其目标点阵 ${\pmb b}$ ,最终准确地匹配上它在点阵 ${\pmb b}$ 中的真实对应点.使用代理点阵 ${\pmb a}^{w}$ 评估获得的对应点即为点阵 ${\pmb a}$ 的对应关系.

    1.3.1   步骤1:对应关系评估

    在每一次迭代中,点阵 ${{\pmb a}^{w}}$ 与 ${\pmb b}$ 的对应关系通过最小化基于混合特征的能量优化方程(6) 获得.基于混合特征的能量优化在本文中被看作一个线性分配问题,所以式(6) 可以使用Jonker-Volgenant算法[32]求解.Jonker-Volgenant算法已被广泛用于解决线性分配问题,它可以提供最短广增路(Shortest augmenting path)并拥有O $(N^3) $ 的计算复杂度.

    对于线性分配中的Integer cost问题,在配准前我们首先将需要配准的点阵坐标缩放至[0,1]之间,然后在每一次迭代中把计算出的全局与局部结构特征差异矩阵通过使用 $\lfloor{G_{{\pmb a}^{w}{\pmb b}}}× R \rceil$ 和 $\lfloor {L_{{\pmb a}^{w}{\pmb b}}}× R \rceil$ 进行数值处理,其中R被设为 $10^{6}$ .对于非方形矩阵问题(点阵 ${\pmb b}$ 包含冗余点),非方形矩阵 ${{ G}_{{\pmb a}^{w}{\pmb b}}}$ 和 ${L_{{\pmb a}^{w}{\pmb b}}}$ 可以通过分配虚拟项(Dummy entries)[33]来转换为方形矩阵,而且不会影响整体能量优化.转换后 $E(M)$ 则可以使用通常手段求解,并且仍然给出最优解.虽然我们提供了一种针对目标点阵包含冗余点的配准解决方案,但是本文算法并不能很好地处理包含冗余点的配准问题.原因是用于描述各点全局结构特征的和向量 ${\pmb v}_{{\pmb a}_{i}}$ 和 ${\pmb v}_{{\pmb b}_{j}}$ 容易受冗余点的影响.

    通过使用Jonker-Volgenant算法求解的对应关系矩阵M确保了从点阵 ${{\pmb a}^{w}}$ 到点阵 ${\pmb b}$ 的一一对应关系. 当前迭代的对应点集 ${\pmb b}^{c}$ 由式(7) 进行更新

    \begin{equation}{\pmb b}^{c}= M \cdot {\pmb b}\end{equation}

    (7)

    本文提出的基于混合特征的能量优化方程为使用混合特征来评估对应关系提供了一个灵活方法.例如,当 $\alpha$ 非常大时,最小化E等于最小化局部结构特征差异 ${L_{{\pmb a}^{w}{\pmb b}}}$ ,求出的点对点的对应关系是基于最小化两个点阵之间的局部结构特征差异.当 $\alpha$ 逐渐变小时,对应关系评估开始转向使用最小化全局结构特征差异,求出的点对点的对应关系是基于最小化两个点阵之间的全局结构特征差异.

    1.3.2   步骤 2:空间变换更新

    当更新完当前对应点集 ${\pmb b}^{c}$ 后,空间变换通过使用 ${\pmb b}^{c}$ 和源点阵 ${\pmb a}$ 的对应关系进行更新(由于 ${\pmb a}$ 和 ${{\pmb a}^{w}}$ 拥有相同的点阵序列,所以 ${\pmb b}^{c}$ 也是源点阵 ${\pmb a}$ 的对应点集).本文中,我们使用TPS空间变换来建立从 ${\pmb a}$ 到 ${\pmb b}^{c}$ 的映射关系

    \begin{equation}f({\pmb a},{\pmb d},{ w})={\pmb a}\cdot {d} + \phi({\pmb a})\cdot{ w}\end{equation}

    (8)

    其中 ${d}$ 为一个仿射系数矩阵, ${ w}$ 为一个非刚性形变系数矩阵. $\phi({\pmb a})$ 称为TPS内核方程(TPS kernel function),分别在二维和三维映射中被定义为 $\phi({\pmb a})=\|{\pmb a}-{{\pmb a}_{c}}\|^{2}\log \|{\pmb a}-{{\pmb a}_{c}}\|$ 和 $\phi({\pmb a})=\|{\pmb a}-{{\pmb a}_{c}}\|$ . ${{\pmb a}_{c}}$ 是从点阵 ${\pmb a}$ 中选取的一组控制点.

    为了使用适当的仿射系数 ${ d}$ 和非刚性形变系数 ${ w}$ 来建立从 ${\pmb a}$ 到它的对应点集 ${\pmb b}^{c}$ 的映射关系,TPS能量方程被定义为

    \begin{equation}E_{\textrm{TPS}}({ d},{w})=\|{\pmb b}^{c}-{\pmb a} {d}- \Phi {w}\|^{2}+λ \textrm{tr}({w}^{\rm T} \Phi { w})\end{equation}

    (9)

    其中正规化参数λ用于调节非刚性形变系数 ${w}$ ,同时它也被前述使用在式(6) 中用来控制权重参数 $\alpha$ 的能量权重调节所控制. ${\Phi}$ 是TPS内核矩阵,由前述TPS内核方程 $\phi({\pmb a})$ 计算而来.

    为了计算 ${d}$ 和 ${w}$ 的最小二乘解,矩阵的QR分解技术[34]被用于分离点阵的仿射和非刚性形变空间

    \begin{equation}{\pmb a}=QR=[Q_{1}|Q_{2}] \left(\begin{array}{c}{R}_{1} \\0 \\\end{array} \right)\end{equation}

    (10)

    其中,Q1 $\in {\bf R}^{N× D}$ , ${ Q}_{2}$ $\in {\bf R}^{N×(N-D)}$ , ${R}_{1}$ $\in {\bf R}^{D× D}$ . 此外,Q1Q2拥有相同的正交列. 所以式(9) 可以转换为

    \begin{equation}\begin{aligned}E_{\textrm{TPS}}(\boldsymbol{\gamma},{d})=\|Q^{\rm T}_{2}{\pmb b}^{c}-Q^{\rm T}_{2} \Phi Q_{2} \boldsymbol{\gamma}\|^{2}+ \|Q^{\rm T}_{1}{\pmb b}^{c}-\\{ R}_{1}{ d}-Q^{\rm T}_{1}\Phi Q_{2}\boldsymbol{\gamma}\|^{2} +λ\boldsymbol{\gamma}^{\rm T}Q^{\rm T}_{2} \Phi Q_{2}\boldsymbol{\gamma}\end{aligned}\end{equation}

    (11)

    其中 ${ w}=Q_{2}\boldsymbol{\gamma}$ , $\boldsymbol{\gamma}$ $\in{\bf R}^{(N-D-1) × (D+1) }$ .式(11) 的最小二乘解可以通过先最小化 $\boldsymbol{\gamma}$ ,然后最小化 ${d}$ 来求解. ${ w}$ 和 ${ d}$ 的解为

    \begin{equation}\hat{{ w}}=Q_{2}\boldsymbol{\gamma}=Q_{2}(Q^{\rm T}_{2} \Phi Q_{2}+λ I_{N-D-1})^{-1}Q^{\rm T}_{2}{\pmb b}^{c}\end{equation}

    (12)

    \begin{equation}\hat{{ d}}={R}^{-1}(Q^{\rm T}_{1}{\pmb b}^{c}-\Phi {w})\end{equation}

    (13)

    代理点阵 ${\pmb a}^{w}$ 的空间位置与几何形状被更新为

    \begin{equation}{\pmb a}^{w}={\pmb a}\cdot {d} + \Phi \cdot { w}\end{equation}

    (14)

    代理点阵 ${\pmb a}^{w}$ 的空间位置与几何形状更新后,本文算法重新回到步骤1(第1.3.1节)进行对应关系评估,两个步骤交替进行直到能量权重调节中的T达到终止设置(Tfinal).

    算法 1给出了本文算法的伪代码.

    算法 1. 基于混合特征的非刚性配准算法

    输入. 点阵 ${\pmb a}$ , ${{\pmb a}^{w}}$ 和 ${\pmb b}$ .

    预处理. 初始化参数Tinit,Tfinal,r, $λ_{init}$ 和 $\alpha_{init}$ . 设定 K并且确定点阵 ${{\pmb a}^{w}}$ 和 ${\pmb b}$ 的相邻点集 ${N}({\pmb a}_{i})$ 和 ${ N}({\pmb b}_{j})$ .

    开始 . 能量权重调节计划.

    步骤 1. 使用式(6) 和(7) 评估当前对应关系 ${\pmb b}^{c}$ .

    步骤 2. 使用式(12) 和(13) 更新TPS空间变 换.

    使用式(14) 更新 ${{\pmb a}^{w}}$ .

    通过调节减小T,然后更新参数 $\alpha$ 和λ.

    结束. 直至满足 $T\leq T_{final}$ .

    输出. 代理点阵 ${{\pmb a}^{w}}$ }.\vskip2

    本文提出的基于混合特征的非刚性点阵配准算法包含四组重要参数:调节参数Tinit,Tfinalr,权重参数 $\alpha$ ,正规化参数λ 以及相邻点个数参数K.每组参数的详细设定如下

    1) 调节参数:能量权重调节中所使用的T[20-21]在配准开始前被设定为一个较高的值Tinit,随后在每次迭代中利用一个线性调节计划 $T=T × r$ 使得T值在配准过程中被逐步降低,其中 r为调节率.当到达一个较低的设定值 Tinit 时,调节计划停止.本文中设计该线性调节计划的目的主要有2方面: 首先利用T来逐步减小式(6) 中的权重参数 $\alpha$ ,使得式(6) 的能量优化问题可以从首先最小化局部结构特征差异逐步过度到最小化全局结构特征差异;其次利用T来逐步减小式(9) 和(12) 中的正规化参数λ,使得TPS空间变换可以从更加刚性的形变更新逐渐转化为更加非刚性的形变更新.由于调节参数从根本上决定了算法迭代的次数,所以Tinit,Tfinalr 的参数设定原则为满足配准所需的足够迭代次数.基于前期使用Fish 1点阵[17]进行的试错实验(Trial-and-error experiment),起始Tinit值被设为点阵 ${\pmb a}$ 到 ${\pmb b}$ 最大距离平方的 $1/10$ ,终止Tfinal 值被设为点阵 ${\pmb a}$ 中各点到其最近点平均距离平方的 $1/8$ ,调节率r 通常被设为0.7.

    2) 权重参数:权重参数 $\alpha$ 在每次迭代中,通过使用 $\alpha=\alpha_{init} × T$ 被逐渐减小, $\alpha$ 的初始值设定原则为能够保证在配准前期整个算法可以集中在利用最小化局部结构特征差异来评估点阵的对应关系.初始值 $\alpha_{init}$ 被设为相邻点个数的平方 $K^{2}$ .

    3) 正规化参数:正规化参数λ在每次迭代中,通过使用 $λ=λ_{init}× T$ 被逐渐减小,由于λ主要用来控制TPS变换中的刚性和非刚性形变(λ较大时,TPS呈现出刚性变换; λ较小时,TPS转为呈现非刚性形变),所以λ的初始值设定原则为能够确保在配准前期TPS处于刚性变换.初始值 $λ_{init}$ 被设为点阵 ${\pmb a}$ 中点的数量.

    4) 相邻点数量参数:参数K的默认值设定是基于用于区别局部结构差异所需的最少相邻点数.例如,当我们需要区别角(Corner,其中包含2个相邻点)和十字(Cross,其中包含4个相邻点)时,我们至少需要借助4个相邻点来判断.基于上述考虑,我们将参数K在二维和三维配准情况下的默认值设为5.

    当前主要有TPS-RPM[17],CPD[25],GMMREG (L2 +TPS)[16],Ma等[29]和Wang等[31]5种算法与本文算法相似,表 1详细列举了本文算法与上述5种算法之间存在的差异.

    表 1  本文算法与相关算法的不同
    Table 1  Methodological differences between our method and the current methods
    算法对应关系评估空间变换更新
    使用的特征对应关系约束条件空间变换方程
    本文算法混合特征BTPS 能量方程 1TPS
    TPS-RPM高斯概率密度FTPS 能量方程 2TPS
    CPD高斯概率密度FMCC-NLLGRBF
    GMMREG高斯概率密度F最小化 L2 距离TPS
    Ma 等[29]Shape contextBL2E 评估子[30]RKHS
    Wang 等[31]MoAGF最小化 L2 距离RKHS
    注: B: 二值对应; F: 模糊对应; GRBF (Gaussian radial basis function): 高斯径向基函数; TPS: 薄板样条函数; MCC-NLL(Motion coherence constraint based negative log-likelihod):基于运动一致性的负对数似然; RKHS (Reproducing kernel Hilbert space): 再生核Hilbert空间; MoAG (Mixture of asymmetric Gaussian model): 混合非对称高斯模型; 在TPS能量方程 2中, $λ_{2}\textrm{tr}(d-I)^{\rm T}(d-I)$ 被加到了式(7) (TPS能量方程 1) 来控制仿射变换.
    下载: 导出CSV 
    | 显示表格

    1) 对应关系评估:与上述基于单一特征配准的5种算法不同,本文算法是一种基于混合特征的能量优化问题,且允许使用混合特征进行点阵之间的对应关系评估.因为本文算法与Ma等使用了线性分配技术求解对应关系,所以我们都提供了一个二值对应关系,即在对应关系矩阵Mij中仅使用01来描述对应关系.在TPS-RPM,CPD,GMMREG和Wang等[31]算法中,空间变换方程是建立在模糊对应(Fuzzy correspondences,即对应概率)关系基础上的,所以在指导代理点阵 ${{\pmb a}^{w}}$ 改变其空间位置和几何形状时会发生模糊更新,同时也会需要更多的迭代次数才能完成配准.在本文算法中,建立在最小化全局或局部结构特征差异的二值对应关系可以为代理点阵 ${{\pmb a}^{w}}$ 提供一个正确且清晰的空间位置与几何形状的更新指导.

    2) 空间变换更新: 本文算法使用的是标准TPS能量方程.TPS-RPM在式(6) 中增加了 $λ_{2} \textrm{tr} [d-I]^{\rm T}[d-I]$ 项用于控制仿射参数.由于本文算法在每次迭代中提供了一个较为精确的二值对应关系给TPS空间变换,所以我们仅需要使用λ来控制 ${w}$ 系数在刚性和非刚性变换上的作用.同时一个自由的仿射变换(也就是不受控制的仿射系数 ${d}$ )可以帮助代理点阵 ${{\pmb a}^{w}}$ 快速(使用更少的迭代次数)地找到更加接近目标点阵 ${\pmb b}$ 的空间位置和几何形状来完成接下来的非刚性配准.此外,与CPD中强制相邻点集保持运动一致性不同,本文算法通过在整个配准过程中固定相邻点集 ${N}({\pmb a}_{i}^{w})$ 和 ${N}({\pmb b}_{j})$ ,来保护代理点阵 ${{\pmb a}^{w}}$ 的拓扑结构特征.

    我们使用Matlab实现了本文算法的主要过程,其中Jonker-Volgenant算法使用C++编写并利用Matlab mex function调用Jonker-Volgenant算法的C++函数.我们首先基于以下四种配准模式测试了本文算法的各项性能,

    1) 轮廓配准 (2D synthetic point set);

    2) 3D 轮廓配准 (3D face point set);

    3) 序列图像 (CMU house and CMU hotel sequence);

    4) 真实图像特征点配准 (Pascal 2007 challenge datasets).

    而且,本文算法还与下列当前典型的8种算法进行了性能比较实验,

    1) 基于迭代的算法: TPS-RPM[17],CPD[25],GMMREG(L2 + TPS)[16],Wang等[31];

    2) 基于Graph的学习算法: Caetano等[10],Leordeanu等[13],Torresani等[14];

    3) 基于Graph的非学习算法: Zhou等[9].

    最后,我们评估了本文算法的计算复杂度并且讨论了如何降低本文算法的计算复杂度.

    Line[17]、Fish 1[17]、Fish 2[25]、Chinese character[17]和3D face[25]是非刚性点阵算法在轮廓点阵配准测试中普遍使用的几个流行点阵,它们分别来自TPS-RPM[17]和CPD[25].本文首先使用这5个点阵作为源点阵,并使用下面人工合成的方法创建了一系列丰富的目标点阵与TPS-RPM,CPD和GMMREG进行了性能对比实验.为了达到公平的实验对比,在目标点阵的生成、误差测量和性能评估上我们遵循了TPS-RPM[17]和CPD[25]中所用的方法.由于本文中提出的全局特征描述法(见第1.1.1节)是由和向量设计而来,当配准目标点阵中包含冗余点时,本文算法并不能很好地处理包含冗余点的配准问题,所以在本实验中我们不进行包含冗余点的配准模式性能测试.

    目标点阵:

    1) 形变级别: 我们设置8个控制点(三维配准情况是为6个控制点)在每组轮廓点阵边缘.为了创建一系列不同形变级别且适合的目标点阵,每个控制点拥有上、下、左、右4个方向的自由移动以及0.2的移动步长.8个(或6个)控制点的移动循序以及方向被随机设定. 在本实验中,TPS空间变换被用于使用这8个(或6个)控制点使前述源点阵发生形变创建新目标点阵.因为被移动的控制点数量反映了点阵的形变大小,所以本实验中形变级别被定义为移动控制点的数量(二维和三维情况下的最大形变级别分别为8和6) .

    2) 噪音比:我们通过利用均值为0且标准偏差从0.01至0.05的高斯白噪声(Gaussian white noise)创建了5个噪音级别的目标点阵.

    3) 旋转角度:我们认为在适当旋转下的配准性能测试是必要的,因为通常形变发生时都会伴随着旋转.但是过大旋转会导致相关算法产生不稳定或无价值的配准结果,所以我们主要专注于在以 $15^{\circ}$ 为间隔,旋转 $-30^{\circ}$ 到 $30^{\circ}$ 的情况下的配准性能测试.在三维配准实验中,源点阵被沿Z轴旋转来创建新目标点阵.

    误差测量: 在误差测量中,通常可以选择的测量方法很多.例如,正确匹配百分比、配准后点阵之间的平均距离等.为了保证直接和公平的比较,我们遵循了TPS-RPM与CPD中的误差测量法,即代理点阵 ${{\pmb a}^{w}}$ 与目标点阵 ${\pmb b}$ 之间平均距离的平方.

    性能评估:平均误差(即100次测试中的平均距离平方与标准偏差)在本实验中被用来比较不同算法之间的配准性能.对于每组点阵,在每种形变级别、噪音比、旋转角度下执行了100次的随机实验.

    在第一系列的实验中,我们在不同的二维人造轮廓点阵上评估了本文算法的性能.与后面的序列图像(CMU sequences and Pascal 2007challenge)以及真实图像特征点(Pascal 2007challenge)配准相比,这些二维轮廓点阵拥有更多的点数以及较密的点阵分布.在这类点阵配准中,由于相邻点彼此靠近且拥有相似的局部结构特征,所以在评价各点的局部特征结构相似度时变得更加困难.本文算法与相关算法的比较结果如下.

    3.2.1   Line

    在点阵Line的配准测试中,本文算法仅与TPS-RPM进行对比测试.因为其他算法并没有在该点阵上进行测试并公布相关的参数设定.性能测试统计数据(平均误差与标准偏差)展示在图 1的第1 行.本文算法在所有的实验中展现了准确的配准结果,并且在所有形变级别、噪音比、旋转角度的测试中,给出了最优的配准结果.图 2给出了本文算法的一个配准实例.

    图 1  二维轮廓点阵配准下的性能对比(误差线表示了100次随机测试中平均误差的标准偏差值.从第1行至第4行分别为点阵Line,Fish 1,Chinese character以及Fish2的实验结果.
    Fig. 1  Comparison of our results against CPD,TPS-RPM and GMMREG on 2D contour point set registration (The error bars indicate the standard deviations of the mean errors in100 random experiments. From the top row to bottom row are: Line,Fish 1,Chinese character and Fish 2,respectively.
    图 2  本文算法的配准实例: Line
    Fig. 2  Registration examples on Line point set
    3.2.2   Fish 1

    在点阵Fish 1的配准测试中,我们测试了本文算法与CPD,TPS-RPM 和GMMREG的性能,图 1的第2行展示了测试结果.这4种算法均给出了准确的配准结果,本文算法在所有的形变级别和所有旋转角度的测试中展现了最优的性能结果.在目标点阵含有噪音的配准测试中,这四种算法均展现了准确的配准结果,GMMREG 表现得更好. 图 3给出了本文算法的一个配准实例.

    图 3  本文算法的配准实例: Fish 1
    Fig. 3  Registration examples on Fish 1 point set
    3.2.3   Chinese character

    在点阵Chinese character的配准测试中,本文算法仅与TPS-RPM进行对比实验.因为CPD与GMMREG并未在非刚性配准中测试过该点阵(GMMREG仅在刚性配准中测试过该点阵).本文算法在所有形变级别、噪音比从0.01至0.03、所有旋转角度的测试中给出了最优的配准结果.图 4给出了一个本文算法的配准实例.

    图 4  本文算法的配准实例: Chinese character
    Fig. 4  Registration examples on Chinese character point set
    3.2.4   Fish 2

    本文算法与CPD的性能测试结果展示在图 1的第4行.本文算法在所有的实验中展现了准确的配准结果,并且在所有形变级别、噪音比以及旋转角度的测试中给出了最优的配准性能.图 5给出了本文算法的一个配准实例.

    图 5  本文算法的配准实例: Fish 2
    Fig. 5  Registration examples on Fish 2 point set

    在二维轮廓点阵配准测试中,所有的算法均给出了准确的配准结果,但是本文算法在形变与旋转测试中明显地超越了相关算法.

    在第二系列的实验中,我们评估了本文算法在三维配准中的性能.本实验中使用的3D face点阵已被CPD和GMMREG等算法用于测试其在三维配准中的性能. 图 6 给出了本文算法与CPD、GMMREG算法的性能测试结果.本文算法在所有实验中给出了准确的配准结果,同时在所有形变级别、噪音比从0.01至0.04以及所有旋转角度的实验中给出了最优的性能结果.图 7给出了一个本文算法的配准实例.

    图 6  三维Face轮廓点阵配准下的性能对比 (误差线表示了100次随机测试中平均误差的标准偏差值.)
    Fig. 6  Comparison of our results against CPD and GMMREG on3D face contour point set registration (The error bars indicate the standard deviations of the mean errors in 100 random experiments.)
    图 7  3D face点阵配准实例
    Fig. 7  Registration examples on 3D face point set

    在第三系列的实验中,我们测试了本文算法在序列图像特征点配准问题上的性能.与二维和三维人造点阵相比,序列图像拥有更少的特征点,这些点稀疏地分布在图像中.CMU house和CMU hotel序列图像是目前用于测试基于Graph的学习算法最流行的实验数据.两个序列图像分别由111和101幅图组成,每幅图拥有30个标记的特征点.在本实验中,我们使用正确配准点数的百分比(称为配准率)为误差测量法.

    本文算法与三种基于Graph的学习算法{[10, 13-14],一种基于Graph的非学习算法[9],和三种基于迭代的算法[16, 25, 31]分别在这两组序列图像的所有配准可能中进行了性能对比实验.

    表 2展示了实验结果.在House序列图像的配准中,对于Caetano等[10]与Zhou等[9],我们报告了他们公布的配准率的上限值,对于Leordeanu等[13]、Torresani等[14]和Wang等[31],我们给出了他们公布的配准率. 本文算法,Wang等[31]和Torresani等[14]给出了完美的配准结果,也超越了其他算法.但是从算法运行时间角度来看,本文算法的运行时间(平均0.049秒)比Torresani等公布的平均运行时间4.8秒[14]快了很多(该对比也考虑了使用电脑的性能问题).在CMU hotel序列图像的配准中,Wang等[14, 31]与Zhou等[9]没有提供他们的实验结果. 与CPD,GMMREG,Leordeanu等[13]和Caetano等[10]相比较,本文算法展现了更好的配准精度. 图 8给出了本文算法的两个配准实例.

    表 2  CMU house和CMU hotel序列图像中所有可能的图像配准结果 (%)
    Table 2  Matching rates on the CMU house and CMU hotel for all possible image pairs (%)
    算法CMU houseCMU hotel
    本文算法100.099.3
    CPD99.698.9
    GMMREG99.597.1
    Wang 等[31]100.0
    Torresani 等[14]100.0
    Zhou 等[9]≈ 100.0
    Leordeanu 等[13]99.894.8
    Caetano 等[10]< 96.0 < 90.0
    下载: 导出CSV 
    | 显示表格
    图 8  CMU house与CMU hotel配准实例
    Fig. 8  Registration examples on CMU house and CMU hotel

    在第四系列的实验中,我们使用Leordeanu等[13]的测试数据测试了本文算法的性能.这套测试数据集从Pascal 2007 challenge数据库中挑选出来的,包含30对汽车图像与20对摩托车图像. 每对图像中包含 $30\sim60$ 个特征点.本文算法与CPD,GMMREG,Zhou等[9]和Leordeanu等[13]进行了性能对比,其结果在表 3中列出,对于Zhou等[9] (A)和 Leordeanu等[13] (B),我们报告了他们公布的实验结果. 本文算法给出了最优的配准率.图 9给出了本文算法的两个配准实例.

    图 9  Pascal 2007 challenge 配准实例
    Fig. 9  Registration examples on Pascal 2007 challenge
    表 3  汽车与摩托车图像库的配准结果 (%)
    Table 3  Matching rates on cars and motorbikes (%)
    本文算法CPDGMMREGAB
    9380828080
    下载: 导出CSV 
    | 显示表格

    本文算法的计算复杂度主要与两个方面相关:1) 决定收敛性的能量权重调节参数 Tinit,Tfinalr;2) 用于求解基于混合特征的能量优化方程的线性分配算法.

    3.6.1   收敛范围

    收敛范围主要与形变级别和能量权重调节参数设定相关.在其他相关算法中,TPS-RPM的收敛范围由退火算法决定,CPD和GMMREG则分别由容差停止准则(Tolerance stopping criterion)以及最大迭代次数所决定.我们调查了上述这四种算法在点阵Chinese character形变实验中的收敛范围.本文算法、TPS-RPM、CPD与GMMREG的参数设定值遵循前述Fish1实验中的设定值.CPD和TPS-RPM分别平均需要43次与85次迭代来完成整个配准过程,而GMMREG则需要最大迭代次数(100次)才能完成配准. 原因是由于容差停止准则被设定为 $10^{-10}$ ,GMMREG在配准中最小化后的L2距离很难达到该标准.本文算法仅需要17次迭代就可以完成配准.

    此外,我们也调查了本文算法在不同能量权重调节参数设定下的收敛范围.图 10给出了在Chinese character点阵形变实验中的例子.对于每一个能量权重调节参数设定值,我们在每一个形变级别下运行了100次随机实验.基于图 10展示的实验结果,随着调节初始值Tinit降低为默认值的 $1/10$ 时,本文算法的性能发生了轻微的退化,配准所需迭代次数减少了 $41%$ (平均迭代次数从17次减少至10次);随着最终值Tfinal增加为默认值的10倍时,本文算法的性能发生了退化,配准所需迭代次数减少了 $41%$ (平均迭代次数从17次减少到10 次);随着调节速率r减少为默认值的 $1/2$ ,本文算法的性能轻微退化,配准所需迭代次数减少了 $65%$ (从17次减少至仅需6 次).即便能量权重调节参数被显著地改变了,所有的实验依旧展现了非常高的配准精度(也就是误差低于0.0013且标准偏差在 $\pm 0.0015$ 之内).基于这些结果,本文算法的计算复杂度可以通过调整能量权重调节参数设定大幅降低,同时算法依旧维持了很高的配准精度.

    图 10  不同能量权重调节参数设定下的配准性能
    Fig. 10  Relationships between performances and different energy tradeoff adjustment parameter settings
    3.6.2   Jonker-Volgenant算法性能

    为了使用线性分配技术求解二值对应矩阵M,本文算法使用了Jonker-Volgenant算法[32],该算法提供了O $(N^{3})$ 的计算复杂度. 我们在一台4GB内存和2.67GHz Intel(R)Xeon(R) CPU的电脑上使用Matlab mex function功能测试了C++代码的Jonker-Volgenant算法性能. 表 4给出了使用Jonker-Volgenant 算法求解不同大小的二值对应矩阵所需时间.Jonker-Volgenant算法展现了快速的求解能力,同时也为本文算法实现快速非刚性点阵配准提供了支撑.

    表 4  Jonker-Volgenant 算法性能 (测试矩阵由 Matlab 的 rand 函数自动生成.)
    Table 4  Performance of Jonker-Volgenant algorithm (The cost matrices were generated by Matlab rand function.)
    矩阵大小2005001 0002 0003 000
    所需时间 (秒)0.0020.0160.1000.3160.588
    下载: 导出CSV 
    | 显示表格

    我们已经介绍了一种基于混合特征的非刚性点阵配准算法:1) 设计出了一种基于和向量特征的全局结构特征描述算法;2) 提出了一种利用点阵之间的局部区域相邻点的距离和描述点阵中各点的局部结构特征的描述算法;3) 提出一种基于混合特征的能量方程并设计了该方程的能量权重调节,该方程允许使用混合特征进行点阵对应评估.最后将本文算法与8种当前典型算法进行了性能对比测试,本文算法在绝大多数的形变和旋转配准情况中展现了最好的配准结果.

    致谢: 感谢Chui Hai-Li,Rangarajan Anand,Myronenko Andriy,Song Xu-Bo,Jian Bing,Vemuri Baba,Zhou Feng,De la Torre Fernando,Leordeanu Marius,Torresani Lorenzo 和 Caetano Tiberio 提供了他们的算法源代码和测试数据. 这极大地促进了对比实验.我们无偿提供本文算法的Matlab源代码供学术研究.
  • 图  1  深度的概念示例图

    Fig.  1  Concept example of depth

    图  2  深度学习基本模型

    Fig.  2  Basic model of deep learning

    图  3  深度学习基本框架

    Fig.  3  Basic framework of deep learning

    图  4  逐层预训练模型

    Fig.  4  Layer-wise pre-training model

    图  5  三层神经网络构建的n-gram模型[36]

    Fig.  5  n-gram model constructed by three layer of neural networks[36]

    图  6  循环神经网络结构图

    Fig.  6  Structure diagram of recurrent neural network

    图  7  词向量word2vec的模型结构图

    Fig.  7  Model structure diagram of word2vec

    图  8  面向自然语言处理的深度学习应用架构图

    Fig.  8  Deep learning application architecture for NLP

    图  9  几种常用的非线性化函数可视化表示

    Fig.  9  Visual representation of several commonly used nonlinear functions

    表  1  语音、图像、文本领域的特征层次结构[32]

    Table  1  Feature hierarchy of speech, image and text[32]

    任务领域 原始输入 浅层特征 中间特征 高层特征 训练目标
    语音 样本 频段 声音 音调 音素 单词 语音识别
    图像 像素 线条 纹理 图案 局部 物体 图像识别
    文本 字母 单词 词组 短语 句子 段落 文章 语义理解
    下载: 导出CSV

    表  2  浅层和深层模型比对分析[32]

    Table  2  Comparison and analysis of shallow model and deep model[32]

    模型 浅层模型 深层模型
    理论 有成熟的理论基础 理论分析困难
    模型层数 1~2层 5~10层
    训练难度 容易 复杂, 需要较多技巧
    数据需求 仅需要简单特征的任务, 如发电机故障诊断、时间序列处理等 需要高度抽象特征的任务, 如语音识别、图像处理等
    模型表达能力 有限 强大
    特征提取方式 特征工程 特征自动抽取
    代价函数凸性 凸代价函数; 没有局部最优点; 可以收敛到全局最优 高度非凸的代价函数; 存在大量的局部最优点; 容易收敛到局部最优
    先验知识依赖度 依赖更多先验知识 依赖较少先验知识
    下载: 导出CSV
  • [1] Erhan D, Bengio Y, Couville A, Manzagol P A, Vincent P, Samy B. Why does unsupervised pre-training help deep learning? Journal of Machine Learning Research, 2010, 11:625-660 http://research.google.com/pubs/archive/35536.pdf
    [2] 孙志军, 薛磊, 许阳明, 王正.深度学习研究综述.计算机应用研究, 2012, 29(8):2806-2810 http://www.cnki.com.cn/Article/CJFDTOTAL-BJGD201501011.htm

    Sun Zhi-Jun, Xue Lei, Xu Yang-Ming, Wang Zheng. Overview of deep learning. Application Research of Computers, 2012, 29(8):2806-2810 http://www.cnki.com.cn/Article/CJFDTOTAL-BJGD201501011.htm
    [3] Bengio Y. Learning deep architectures for AI. Foundations and Trends® in Machine Learning, 2009, 2(1):1-127 doi: 10.1561/2200000006
    [4] Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets. Neural Computation, 2006, 18(7):1527-1554 doi: 10.1162/neco.2006.18.7.1527
    [5] Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks. Science, 2006, 313(5786):504-507 doi: 10.1126/science.1127647
    [6] Bengio Y, Lamblin P, Popovici D, Larochelle H. Greedy layer-wise training of deep networks. In:Proceedings of the 2007 Advances in Neural Information Processing Systems 19(NIPS'06). Vancouver, Canada:MIT Press, 2007. 153-160
    [7] Ranzato M A, Poultney C, Chopra S, LeCun Y. Efficient learning of sparse representations with an energy-based model. In:Proceedings of the 2007 Advances in Neural Information Processing Systems 19(NIPS'06). Vancouver, Canada:MIT Press, 2007. 1137-1144
    [8] Weston J, Ratle F, Collobert R. Deep learning via semi-supervised embedding. In:Proceedings of the 25th International Conference on Machine Learning (ICML'08). New York, USA:ACM Press, 2008. 1168-1175
    [9] Srivastava N, Mansimov E, Salakhutdinov R. Unsupervised learning of video representations using LSTMs. In:Proceedings of the 32nd International Conference on Machine Learning (ICML'15). Lille, France:Omni Press, 2015. 843-852
    [10] Jia K, Sun L, Gao S H, Song Z, Shi B E. Laplacian auto-encoders:an explicit learning of nonlinear data manifold. Neurocomputing, 2015, 160:250-260 doi: 10.1016/j.neucom.2015.02.023
    [11] Chan T H, Jia K, Gao S H, Lu J W, Zeng Z N, Ma Y. PCANet:a simple deep learning baseline for image classification? IEEE Transactions on Image Processing, 2015, 24(12):5017-5032 doi: 10.1109/TIP.2015.2475625
    [12] Alain G, Bengio Y. What regularized auto-encoders learn from the data-generating distribution? The Journal of Machine Learning Research, 2014, 15(1):3563-3593 http://www.taodocs.com/p-61696734.html
    [13] Srivastava N, Hinton G, Krizhevsky A, Sutskever I, Salakhutdinov R. Dropout:a simple way to prevent neural networks from overfitting. The Journal of Machine Learning Research, 2014, 15(1):1929-1958 http://www.cs.toronto.edu/~rsalakhu/papers/srivastava14a.pdf
    [14] Dosovitskiy A, Springenberg J T, Riedmiller M, Brox T. Discriminative unsupervised feature learning with convolutional neural networks. In:Proceedings of the 2014 Advances in Neural Information Processing Systems 27(NIPS'14). Montréal, Quebec, Canada:MIT Press, 2014. 766-774
    [15] Sun Y, Wang X G, Tang X O. Deep learning face representation from predicting 10000 classes. In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, Ohio, USA:IEEE, 2014. 1891-1898
    [16] 乔俊飞, 潘广源, 韩红桂.一种连续型深度信念网的设计与应用.自动化学报, 2015, 41(12):2138-2146 http://www.aas.net.cn/CN/abstract/abstract18786.shtml

    Qiao Jun-Fei, Pan Guang-Yuan, Han Hong-Gui. Design and application of continuous deep belief network. Acta Automatica Sinica, 2015, 41(12):2138-2146 http://www.aas.net.cn/CN/abstract/abstract18786.shtml
    [17] Längkvist M, Karlsson L, Loutfi A. A review of unsupervised feature learning and deep learning for time-series modeling. Pattern Recognition Letters, 2014, 42:11-24 doi: 10.1016/j.patrec.2014.01.008
    [18] Han X F, Leung T, Jia Y Q, Sukthankar R, Berg A C. MatchNet:unifying feature and metric learning for patch-based matching. In:Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR'15). Boston, Massachusetts, USA:IEEE Press, 2015. 3279-3286
    [19] Szegedy C, Liu W, Jia Y Q, Sermanet P, Reed S, Anguelov D, Erhan D, Vanhoucke V, Rabinovich A. Going deeper with convolutions. In:Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR'15). Boston, Massachusetts, USA:IEEE, 2015. 1-9
    [20] Denton E L, Chintala S, Szlam A, Fergus R. Deep generative image models using a Laplacian pyramid of adversarial networks. In:Proceedings of the 2015 Advances in Neural Information Processing Systems 28(NIPS'15). Montreal, Canada:MIT Press, 2015. 1486-1494
    [21] Dong C, Loy C C, He K M, Tang X O. Learning a deep convolutional network for image super-resolution. In:Proceedings of the 13th European Conference on Computer Vision (ECCV'14). Zurich, Switzerland:Springer International Publishing, 2014. 184-199
    [22] Nie S Q, Wang Z H, Ji Q. A generative restricted Boltzmann machine based method for high-dimensional motion data modeling. Computer Vision and Image Understanding, 2015, 136:14-22 doi: 10.1016/j.cviu.2014.12.005
    [23] Jain A, Tompson J, LeCun Y, Bregler C. Modeep:a deep learning framework using motion features for human pose estimation. In:Proceedings of the 12th Asian Conference on Computer Vision (ACCV'2014). Singapore:Springer International Publishing, 2015. 302-315
    [24] 耿杰, 范剑超, 初佳兰, 王洪玉.基于深度协同稀疏编码网络的海洋浮筏SAR图像目标识别.自动化学报, 2016, 42(4):593-604 http://www.aas.net.cn/CN/abstract/abstract18846.shtml

    Geng Jie, Fan Jian-Chao, Chu Jia-Lan, Wang Hong-Yu. Research on marine floating raft aquaculture SAR image target recognition based on deep collaborative sparse coding network. Acta Automatica Sinica, 2016, 42(4):593-604 http://www.aas.net.cn/CN/abstract/abstract18846.shtml
    [25] Erhan D, Szegedy C, Toshev A, Anguelov D. Scalable object detection using deep neural networks. In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR'14). Columbus, Ohio, USA:IEEE, 2014. 2155-2162
    [26] Qi Y J, Das S G, Collobert R, Weston J. Deep learning for character-based information extraction. In:Proceedings of the 36th European Conference on IR Research on Advances in Information Retrieval. Amsterdam, The Netherland:Springer International Publishing, 2014. 668-674
    [27] Nie L Q, Wang M, Zhang L M, Yan S C, Zhang B, Chua T S. Disease inference from health-related questions via sparse deep learning. IEEE Transactions on Knowledge and Data Engineering, 2015, 27(8):2107-2119 doi: 10.1109/TKDE.2015.2399298
    [28] Collobert R, Weston J, Bottou L, Karlen M, Kavukcuoglu K, Kuksa P. Natural language processing (almost) from scratch. The Journal of Machine Learning Research, 2011, 12:2493-2537 http://jmlr.org/papers/volume12/collobert11a/collobert11a.pdf
    [29] Mnih A, Hinton G E. A scalable hierarchical distributed language model. In:Proceedings of the 2009 Advances in Neural Information Processing Systems 21(NIPS'08). Vancouver, Canada:MIT Press, 2009. 1081-1088
    [30] Collobert R, Weston J. A unified architecture for natural language processing:deep neural networks with multitask learning. In:Proceedings of the 25th International Conference on Machine Learning (ICML'08). Helsinki, Finland:ACM Press, 2008. 160-167
    [31] Olshausen B A, Field D J. Emergence of simple-cell receptive field properties by learning a sparse code for natural images. Nature, 1996, 381(6583):607-609 doi: 10.1038/381607a0
    [32] Overview of deep learning and parallel implementation, available:http://djt.qq.com/article/view/1245, June20, 2016
    [33] Hastad J. Computational Limitations for Small Depth Circuits. Cambridge, MA, USA:Massachusetts Institute of Technology, 1987
    [34] Serre C, Mellot-Draznieks C, Surblé S, Audebrand N, Filinchuk Y, Férey G. Role of solvent-host interactions that lead to very large swelling of hybrid frameworks. Science, 2007, 315(5820):1828-1831 doi: 10.1126/science.1137975
    [35] Salakhutdinov R R, Hinton G. Deep Boltzmann machines. In:Proceedings of the 12th International Conference on Artificial Intelligence and Statistics (AISTATS'09). Florida, USA:Omni Press, 2009. 448-455
    [36] Bengio Y, Ducharme R, Vincent P, Jauvin C. A neural probabilistic language model. The Journal of Machine Learning Research, 2003, 3:1137-1155 http://www.academia.edu/7327284/A_Neural_Probabilistic_Language_Model
    [37] Mikolov T, Deoras A, Kombrink S, Burget L, Černocký J H. Empirical evaluation and combination of advanced language modeling techniques. In:Proceedings of the 2011 Conference of the International Speech Communication Association (INTERSPEECH'2011). Florence, Italy:ISCA Press, 2011. 605-608
    [38] Schwenk H, Rousseau A, Attik M. Large, pruned or continuous space language models on a GPU for statistical machine translation. In:Proceedings of the NAACL-HLT 2012 Workshop:Will We ever Really Replace the N-gram Model? on the Future of Language Modeling for HLT. Montréal, Canada:ACL Press, 2012. 11-19
    [39] Socher R, Huang E H, Pennington J, Ng A Y, Manning C D. Dynamic pooling and unfolding recursive autoencoders for paraphrase detection. In:Proceedings of the 2011 Advances in Neural Information Processing Systems 24(NIPS'11). Granada, Spain:MIT Press, 2011. 801-809
    [40] Socher R, Huval B, Manning C D, Ng A Y. Semantic compositionality through recursive matrix-vector spaces. In:Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Jeju Island, Korea:ACL Press, 2012. 1201-1211
    [41] Le Q, Mikolov T. Distributed representations of sentences and documents. In:Proceedings of the 31st International Conference on Machine Learning (ICML'14). Beijing, China:ACM Press, 2014. 1188-1196
    [42] Kim Y. Convolutional neural networks for sentence classification. In:Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP'2014). Doha, Qatar:ACL Press, 2014. 1746-1751
    [43] Dahl G E, Yu D, Deng L, Acero A. Context-dependent pre-trained deep neural networks for large vocabulary speech recognition. IEEE Transactions on Audio, Speech, and Language Processing, 2012, 20(1):30-42 doi: 10.1109/TASL.2011.2134090
    [44] Mohamed A R, Dahl G E, Hinton G. Acoustic modeling using deep belief networks. IEEE Transactions on Audio, Speech, and Language Processing, 2012, 20(1):14-22 doi: 10.1109/TASL.2011.2109382
    [45] Mikolov T, Yih W T, Zweig G. Linguistic regularities in continuous space word representations. In:Proceedings of the 2013 Conference of the North American Chapter of the Association for Computational Linguistics (NAACL-HLT'2013). Atlanta, Georgia:ACL Press, 2013. 746-751
    [46] Mikolov T, Sutskever I, Chen K, Corrado G S, Dean J. Distributed representations of words and phrases and their compositionality. In:Proceedings of the 2013 Advances in Neural Information Processing Systems 26(NIPS'13). Nevada, USA:MIT Press, 2013. 3111-3119
    [47] Mikolov T, Karafiát M, Burget L, Černocký, Khudanpur S. Recurrent neural network based language model. In:Proceedings of the 2010 International Conference on Spoken Language Processing (ICSLP'2010). Chiba, Japan:Speech Communication Press, 2010. 1045-1048
    [48] Mikolov T, Kombrink S, Burget L, Černocký J H, Khudanpur S. Extensions of recurrent neural network language model. In:Proceedings of the 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Prague, Czech Republic:IEEE, 2011. 5528-5531
    [49] Mikolov T, Deoras A, Povey D, Burget L, Černocký J H. Strategies for training large scale neural network language models. In:Proceedings of the 2011 IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU). Waikoloa, Hawaii, USA:IEEE Press, 2011. 196-201
    [50] Mikolov T, Zweig G. Context dependent recurrent neural network language model. In:Proceedings of the 2012 IEEE Conference on Spoken Language Technology (SLT). Miami, Florida, USA:IEEE, 2012. 234-239
    [51] Socher R, Perelygin A, Wu J Y, Chuang J, Manning C D, Ng A Y, Potts C. Recursive deep models for semantic compositionality over a sentiment treebank. In:Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing (EMNLP'2013). Seattle, USA:ACL Press, 2013. 1631-1642
    [52] Turian J, Ratinov L, Bengio Y. Word representations:a simple and general method for semi-supervised learning. In:Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics (ACL'2010). Uppsala, Sweden:ACL Press, 2010. 384-394
    [53] Firth J R. A synopsis of linguistic theory 1930-55. Studies in Linguistic Analysis. Oxford:Philological Society, 1957. 1-32
    [54] Hinton G E. Learning distributed representations of concepts. In:Proceedings of the 8th Annual Conference of the Cognitive Science Society. Amherst, Massachusetts:Cognitive Science Society Press, 1986. 1-12
    [55] Salton G. Automatic processing of foreign language documents. Journal of the American Society for Information Science, 1970, 21(3):187-194 doi: 10.1002/(ISSN)1097-4571
    [56] Rapp R. Word sense discovery based on sense descriptor dissimilarity. In:Proceedings of the 9th Conference on Machine Translation Summit. New Orleans, USA:IAMT Press, 2003. 315-322
    [57] Turney P D. Expressing implicit semantic relations without supervision. In:Proceedings of the 21st International Conference on Computational Linguistics and the 44th Annual Meeting of the Association for Computational Linguistics (COLING and ACL 2006). Sydney, Australia:ACL Press, 2006. 313-320
    [58] Manning C D, Raghavan P, Schütze H. Introduction to Information Retrieval. Cambridge:Cambridge University Press, 2008.
    [59] Zheng X Q, Chen H Y, Xu T Y. Deep learning for Chinese word segmentation and POS tagging. In:Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing (EMNLP'2013). Seattle, Washington, USA:ACL Press, 2013. 647-657
    [60] Xu W, Rudnicky A I. Can artificial neural networks learn language models? In:Proceedings of 2000 International Conference on Spoken Language Processing (ICSLP'2000). Beijing, China:Speech Communication Press, 2000. 202-205
    [61] Mnih A, Hinton G. Three new graphical models for statistical language modelling. In:Proceedings of the 24th International Conference on Machine Learning (ICML'07). Corvallis, Oregon:ACM Press, 2007. 641-648
    [62] Morin F, Bengio Y. Hierarchical probabilistic neural network language model. In:Proceedings of the 10th International Workshop on Artificial Intelligence and Statistics (AISTATS'2005). Barbados:Omni Press, 2005. 246-252
    [63] Bordes A, Usunier N, Garcia-Durán A, Weston J, Yakhnenko O. Translating embeddings for modeling multi-relational data. In:Proceedings of the 2013 Advances in Neural Information Processing Systems 26(NIPS'13). Nevada, USA:MIT Press, 2013. 2787-2795
    [64] Bengio Y. Deep learning of representations for unsupervised and transfer learning. In:Proceedings of the ICML2011 Unsupervised and Transfer Learning Workshop. Bellevue, Washington, USA:ACM Press, 2012. 17-37
    [65] Le Q V, Ngiam J, Coates A, Lahiri A, Prochnow B, Ng A Y. On optimization methods for deep learning. In:Proceedings of the 28th International Conference on Machine Learning (ICML'11). Bellevue, Washington, USA:ACM Press, 2011. 67-105
    [66] Henderson J. Neural network probability estimation for broad coverage parsing. In:Proceedings of the 10th Conference on European Chapter of the Association for Computational Linguistics (EACL'03). Budapest, Hungary:ACL Press, 2003. 131-138
    [67] Henderson J. Discriminative training of a neural network statistical parser. In:Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics (ACL'2004). Barcelona, Spain:ACL Press, 2004. 95-102
    [68] Titov I, Henderson J. Porting statistical parsers with data-defined kernels. In:Proceedings of the 10th Conference on Computational Natural Language Learning (CoNLL-2006). New York, USA:ACL Press, 2006. 6-13
    [69] Titov I, Henderson J. Constituent parsing with incremental sigmoid belief networks. In:Proceedings of the 45th Annual Meeting on Association for Computational Linguistics (ACL'2007). Prague, Czech Republic:ACL Press, 2007. 632-639
    [70] Collobert R. Deep learning for efficient discriminative parsing. In:Proceedings of the 14th International Conference on Artificial Intelligence and Statistics (AISTATS'2011). Fort Lauderdale, Florida, USA:Omni Press, 2011. 224-232
    [71] Costa F, Frasconi P, Lombardo V, Soda G. Towards incremental parsing of natural language using recursive neural networks. Applied Intelligence, 2003, 19(1-2):9-25 https://pdfs.semanticscholar.org/f570/6d576037dcf6d412c65373e9c787060cd64f.pdf
    [72] Menchetti S, Costa F, Frasconi P, Pontil M. Wide coverage natural language processing using kernel methods and neural networks for structured data. Pattern Recognition Letters, 2005, 26(12):1896-1906 doi: 10.1016/j.patrec.2005.03.011
    [73] Collins M. Head-driven statistical models for natural language parsing. Computational linguistics, 2003, 29(4):589-637 doi: 10.1162/089120103322753356
    [74] Socher R, Bauer J, Manning C D, Ng A Y. Parsing with compositional vector grammars. In:Proceedings of the 51st Annual Meeting on Association for Computational Linguistics (ACL'2013). Sofia, Bulgaria:ACL Press, 2013. 455-465
    [75] Legrand J, Collobert R. Recurrent greedy parsing with neural networks. In:Proceedings of the 2014 European Conference on Machine Learning and Knowledge Discovery in Databases. Nancy, France:Springer Press, 2014. 130-144
    [76] Huang E H, Socher R, Manning C D, Ng A Y. Improving word representations via global context and multiple word prototypes. In:Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics (ACL'2012). Jeju Island, Korea:ACL Press, 2012. 873-882
    [77] Zhou S S, Chen Q C, Wang X L. Active deep networks for semi-supervised sentiment classification. In:Proceedings of the 23rd International Conference on Computational Linguistics (COLING'2010). Beijing, China:ACL Press, 2010. 1515-1523
    [78] Glorot X, Bordes A, Bengio Y. Domain adaptation for large-scale sentiment classification:a deep learning approach. In:Proceedings of the 28th International Conference on Machine Learning (ICML'11). Bellevue, Washington, USA:Omni Press, 2011. 513-520
    [79] Socher R, Pennington J, Huang E H, Ng A Y, Manning C D. Semi-supervised recursive autoencoders for predicting sentiment distributions. In:Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing (EMNLP'2011). Edinburgh, UK:ACL Press, 2011. 151-161
    [80] Liu L M, Watanabe T, Sumita E, Zhao T J. Additive neural networks for statistical machine translation. In:Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (ACL'2013). Sofa, Bulgaria:ACL Press, 2013. 791-801
    [81] Yang N, Liu S J, Li M, Zhou M, Yu N H. Word alignment modeling with context dependent deep neural network. In:Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (ACL'2013). Sofa, Bulgaria:ACL Press, 2013. 166-175
    [82] Kalchbrenner N, Blunsom P. Recurrent continuous translation models. In:Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing (EMNLP'2013). Seattle, Washington, USA:ACL Press, 2013. 1700-1709
    [83] Sutskever I, Vinyals O, Le Q V. Sequence to sequence learning with neural networks. In:Proceedings of the 2014 Advances in Neural Information Processing Systems 27(NIPS'14). Montréal, Quebec, Canada:MIT Press, 2014. 3104-3112
    [84] Cho K, van Merriënboer B, Gulcehre C, Bahdanau D, Bougares F, Schwenk H, Bengio Y. Learning phrase representations using RNN encoder-decoder for statistical machine translation. In:Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP'2014). Doha, Qatar:ACL Press, 2014. 1724-1734
    [85] Cho K, van Merriënboer B, Bahdanau D, Bengio Y. On the properties of neural machine translation:encoder-decoder approaches. In:Proceedings of the 8th Workshop on Syntax, Semantics and Structure in Statistical Translation (SSST-8). Doha, Qatar:ACL Press, 2014. 103-111
    [86] Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate. In:Proceedings of the 3rd International Conference on Learning Representations (ICLR'2015). San Diego, California, USA:arXiv Press, 2015. 1409.0473V7
    [87] Dong D X, Wu H, He W, Yu D H, Wang H F. Multi-task learning for multiple language translation. In:Proceedings of the 53rd Annual Meeting on Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Beijing, China:ACL Press, 2015. 1723-1732
    [88] Pinheiro P O, Collobert R. Recurrent convolutional neural networks for scene labeling. In:Proceedings of the 31st International Conference on Machine Learning (ICML'14). Beijing, China, 2014. 82-90 http://wenku.baidu.com/view/b6cc3becccbff121dc368336.html
    [89] Le Q V. Building high-level features using large scale unsupervised learning. In:Proceedings of the 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. Vancouver, BC:IEEE, 2013. 8595-8598
    [90] 田渊栋.阿法狗围棋系统的简要分析.自动化学报, 2016, 42(5):671-675 http://www.aas.net.cn/CN/abstract/abstract18856.shtml

    Tian Yuan-Dong. A simple analysis of AlphaGo. Acta Automatica Sinica, 2016, 42(5):671-675 http://www.aas.net.cn/CN/abstract/abstract18856.shtml
  • 加载中
图(9) / 表(2)
计量
  • 文章访问数:  6307
  • HTML全文浏览量:  3727
  • PDF下载量:  4556
  • 被引次数: 0
出版历程
  • 收稿日期:  2015-11-02
  • 录用日期:  2016-06-12
  • 刊出日期:  2016-10-20

目录

/

返回文章
返回