2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

高阶马尔科夫随机场及其在场景理解中的应用

余淼 胡占义

陈加, 张玉麒, 宋鹏, 魏艳涛, 王煜. 深度学习在基于单幅图像的物体三维重建中的应用. 自动化学报, 2019, 45(4): 657-668. doi: 10.16383/j.aas.2018.c180236
引用本文: 余淼, 胡占义. 高阶马尔科夫随机场及其在场景理解中的应用. 自动化学报, 2015, 41(7): 1213-1234. doi: 10.16383/j.aas.2015.c140684
CHEN Jia, ZHANG Yu-Qi, SONG Peng, WEI Yan-Tao, WANG Yu. Application of Deep Learning to 3D Object Reconstruction From a Single Image. ACTA AUTOMATICA SINICA, 2019, 45(4): 657-668. doi: 10.16383/j.aas.2018.c180236
Citation: YU Miao, HU Zhan-Yi. Higher-order Markov Random Fields and Their Applications in Scene Understanding. ACTA AUTOMATICA SINICA, 2015, 41(7): 1213-1234. doi: 10.16383/j.aas.2015.c140684

高阶马尔科夫随机场及其在场景理解中的应用

doi: 10.16383/j.aas.2015.c140684
基金项目: 

国家高技术研究发展计划(863计划) (2013AA122301), 国家自然科学基金(61273280, 61333015)资助

详细信息
    作者简介:

    余淼中原工学院讲师, 中国科学院自动化研究所博士研究生. 分别于2004 年和2007 获得西南交通大学管理学学士和工学硕士学位. 主要研究方向为场景理解和三维重建.E-mail: myu@nlpr.ia.ac.cn

Higher-order Markov Random Fields and Their Applications in Scene Understanding

Funds: 

Supported by National High Technology Research and Development Program of China (863 Program) (2013AA122301) and National Natural Science Foundation of China (61273280, 61333015)

  • 摘要: 与传统的一阶马尔科夫随机场(Markov random field, MRF)相比, 高阶马尔科夫随机场能够表达更加复杂的定性和统计性先验信息, 在模型的表达能力上具有更大的优势. 但高阶马尔科夫随机场对应的能量函数优化问题更为复杂. 同时其模型参数数目的爆炸式增长使得选择合适的模型参数也成为了一个非常困难的问题. 近年来, 学术界在高阶马尔科夫随机场的能量模型的建模、优化和参数学习三个方面进行了深入的探索, 取得了很多有意义的成果. 本文首先从这三个方面总结和介绍了目前在高阶马尔科夫随机场研究上取得的主要成果, 然后介绍了高阶马尔科夫随机场在图像理解和三维场景理解中的应用现状.
  • 计算机视觉研究的主要目标之一是从二维图像复原三维结构[1].二维图像是当今时代极易获取的数据形式, 互联网上每时每刻都在产生海量的图像数据, 而三维模型相对难以获取.目前已经有许多基于多幅图像的物体三维重建方法[2-4]被提出, 而基于单幅图像的物体三维重建问题因输入形式的特殊性使其更具挑战性.仅以单幅图像作为输入使得重建丢失了很多几何信息, 这就需要一些假设或先验知识, 亦或从已有的模型基于学习来进行重建.此外针对重建对象的不同, 当前基于单幅图像的重建问题可分为对物体(Object)的重建和对场景(Scene)的重建[5].本文属于对物体的重建这一子类.评价基于单幅图像的物体三维重建的重建精度目前没有一个固定的标准[6], 一些传统方法采用Hausdorff距离[7]作为评价重建效果的标准.随着深度学习的不断发展, IoU (Intersection over union)值被引入[8], 且被很多论文采用为评价标准, 此外亦有论文采用更注重物体几何外形的CD (Chamfer distance)值等[9].

    基于图像的三维重建具有重要的实用价值和应用前景.随着互联网及电子商务的发展, 很多商家或企业开始利用三维模型来帮助自己进行产品的展示与推广.三维模型与二维图像相比, 因为多了一维信息, 所以更能将物体的真实感和细节的质感与纹理表现出来.同时, 在诸如虚拟现实、城市数字化建模、文物数字化保护、医学CT器官重建、三维影视动漫制作等领域, 基于图像的三维重建也具有广泛的应用[5, 10-13].多目图像三维重建往往需要相机标定等额外操作, 相比之下基于单幅图像的三维重建因输入简单, 更适合需要便捷式三维重建的应用场合, 近年来逐渐成为一个新的学术研究热点问题.

    然而基于单幅图像的三维重建常常面临以下几个方面的挑战:

    1) 类内差异和类间差异.不同的重建物体即使是同一个类型, 也会因为材料、外形等存在较大的差异性.而不同类型的物体, 亦可能存在较大的相似性.如果只是针对某个特定类别的物体进行三维重建往往会使重建系统缺乏一般性[14-15], 而针对多类别的重建系统则会因较大的类内差异和较小的类间差异使得重建精度不高[16-17], 如何构建既具有一般性又重建精度高的三维重建算法是目前研究的重点.

    2) 图像自身属性.真实世界视图中的物体往往存在遮挡、非刚性变形等现象, 且很多时候不满足理想的朗伯特反射模型[18], 这就使得待重建的物体存在较大的多样性, 因此对重建算法提出了更高的要求.

    3) 不适定问题.基于单幅图像的三维重建本身就是一个不适定问题(Ill-posed problem) [5], 即由于输入形式为单幅图像, 深度信息不可避免地丢失, 如果不给定一些先验知识或假设, 重建结果是不唯一的.如何根据一些假设和先验知识来重建最适合的模型, 以及如何提供最少的假设和先验, 这对三维重建工作提出了不小的挑战.

    针对上述基于单幅图像物体三维重建问题, 许多文献提出了相应的解决方案.文献[19-20]探讨了对特定种类物体进行重建的问题; 文献[16-17]针对图像自身属性诸如非理想朗伯特模型的重建提出了解决办法; 此外有许多假设被提出[21-24]以解决不适定问题.但上述方法仍未能很好地解决这些问题, 重建精度仍然有待提高.随着深度学习技术的不断发展, 很多基于深度学习的三维重建方法[8-9, 25]近几年开始被提出, 且重建效果更好, 逐渐成为该领域近年来研究的重点.

    本文结构安排如下:第1节简要介绍传统的基于单幅图像物体三维重建的研究成果; 第2节介绍深度学习算法模型及其近年来在基于单幅图像的三维重建领域的研究进展; 第3节介绍物体三维重建的常用公共数据集; 第4节对该方向目前仍存在的问题提出思考和展望, 并对文章进行总结, 分析基于深度学习算法的优缺点.

    基于单幅图像的物体三维重建在计算机视觉领域是一个长期存在且具有挑战性的问题, 往往利用先验知识或引入合适的约束来进行重建.按照重建方法的不同, 传统方法可以分为基于模型的重建方法和基于几何外形恢复的重建方法两类.

    一般而言, 基于模型的重建方法由要表示对象的参数模型组成, 通过找到模型的投影和输入图像之间最佳拟合时模型的参数来完成重建[26].基于模型表示的物体重建反映了对模型表示的不同偏好.在早期的工作中, 广义柱体[27]对柱类外形进行了紧凑地描述, 而基于多面体模型的方法[28-29]则只能针对一些方形物体进行重建, 此外还有超二次曲面模型[30], 一些只针对车辆的手工刚性三维模型[31-32]等.这些模型都能对某种外形进行一定的描述, 但是可描述的对象太具有局限性.基于CAD模型的方法[33-35]可以粗略地表示物体的近似外形, 通过给予一组对应点, 可以非常有效地确定近似实例的视点, 但生成的模型和训练的模型有较大的偏差.此外近期还出现了基于CAD模型的类似实例进行非参数化重建的方法[36], 但是该方法仅限于对预先分割好的在线商品图像进行重建.

    近期, 一些可以变形的模型因更具有表现力引起了更多学者的注意.形变模型(Morphable model)常用于对人脸进行重建[14, 37-38], 它是一种线性组合模型, 通过图像光流算法来建立三维人脸点到点的稠密对应.通过调节模型参数使输入图像与形变模型匹配.因为形变模型的建立往往是通过三维扫描的形式来获取三维信息, 为了克服对三维数据的要求, Cashman等[15]提出了一种混合的方法, 使用单个三维模型和大量二维信息学习得到动物的形变模型来重建诸如海豚这种较为复杂的动物模型. Vicente等[19]针对PASCAL VOC数据集中的图像进行重建, 提出了一种新方法, 先在图像数据集中找到与输入的单幅图像同类型的相似视角的不同物体的图像, 然后使用可视外壳进行重建, 但是需要在测试的时候添加关键点注释, 且处于理想的分割状态, 无法应用于较为真实的图像. Kar等[20]更进一步, 利用物体检测数据集中的2D注释来训练学习可变形的模型, 仅在训练的时候使用了部分注释, 且可以重建真实图像中的物体, 利用自底向上的模块来补充高频外形细节, 重建效果较之前的方法有一定的提升.

    基于模型的方法在针对特定类别物体的重建上能取得较好的效果, 因为这种方法中的先验知识在模型的设计阶段就已经被设定好, 能够较好地对针对的物体提供更多的先验信息, 但是这类方法很难扩展到其他物体上.可变形的模型也往往只能沿着特定类别的变化模式变化. 表 1列出了近年来两种常用的基准算法和一种不针对具体重建类别的方法(均采用Hausdorff距离[7]作为评价参数) [39]在PASCAL VOC数据集上的三维重建结果, 其中Hausdorff距离越小代表精度越高.

    表 1  不同方法对PASCAL VOC数据集图像中的物体重建的结果对比[20]
    Table 1  Comparison of different methods on the PASCAL VOC [20]
    方法 飞机 单车 轮船 公交 汽车 椅子 摩托 沙发 火车 电视 均值
    Twarog等[39] 9.73 10.39 11.68 15.40 11.77 8.58 8.99 8.62 23.68 9.45 11.83
    Vicente等[19] 5.07 6.03 8.80 8.76 4.38 5.74 4.86 6.49 17.52 8.37 7.60
    Kar等[20] 5.00 6.27 9.94 6.22 5.18 5.20 4.98 6.58 12.60 9.64 7.16
    下载: 导出CSV 
    | 显示表格

    根据二维图像中的三维信息来恢复物体三维几何外形的技术统称为Shape from X, X可以是:阴影(Shading)、纹理(Texture)、运动(Motion)、光度立体(Stereo)、轮廓(Silhouette)等.基于光度立体、运动和轮廓恢复三维外形的方法常用于多目重建.基于纹理和阴影恢复三维外形的方法常用于针对单幅图像的三维重建.

    从纹理中恢复外形(Shape from texture) [40]往往要求假定纹理满足某种先验性质, 例如假设纹理分布具有均一性[41], 或要求纹理由明确的纹理基元组成[42].从纹理中恢复外形的方法重建精度相对较低, 并且适用性窄, 实际应用相对较少.

    从阴影中恢复外形(Shape from shading, SFS) [43]主要利用物体表面的明暗变化解析物体表面的矢量信息, 最后转化为深度信息.通常是在假定理想光照下, 即满足朗伯特(Lambertian)反射模型的状态下进行重建, 但是在满足假定朗伯特反射模型状态下的SFS问题本身也是不适定的(Ill-posed), 因此需要引入相应的附加条件对其正则化. Ikeuchi等[22]在SFS中加入平滑度约束, 即假定物体表面是光滑的, 以此使问题变为适定, 但这对于具有分形特征的自然景物三维外形恢复效果仍不太理想.

    大多数传统的SFS方法是基于正交投影[44-45], 且假设光源都在无穷远处.而透视投影因比正交投影更为精准, 慢慢被引入到SFS方法中[46-47].同时, 使用朗伯特模型的三维重建误差较大, 为了提高重建精度, 许多非朗伯特模型被提出来. Ahmed等[17]用Ward反射模型对三维外形恢复进行了研究, Bakshi等[16]将SFS方法应用到包含有漫反射和镜面反射两种情况的混合表面重建.

    此外, 还有一些方法通过监督学习的方式来学习几何信息[48-50], 以此来预测深度图, 但是对深度图的估计往往针对的是场景三维重建[51], 而本文主要针对的是对物体三维重建的综述, 因此对此类方法以及一些其他基于场景的三维重建方法[52-54], 本文不再做详细论述.

    基于几何外形恢复的方法往往具有更好的泛化性, 其重建不是针对特定类别的物体, 能够以较自然简单的方式提取物体的表面信息.但同时该类方法往往对光照和灰度提出了较高的要求, 通过理想光源之类的一些约束来使重建的解唯一.因此该方法往往难以对真实图像进行较好质量的重建.

    深度学习的概念源于对人工神经网络(Artificial neural network, ANN)的研究.它是一种特征学习的方法, 把低层次的原始数据通过一些简单而非线性的模型转化成为更高层次的表达[55].通过大量的转换组合, 得到更好的特征表示.早在1986年, Rumelhart等[56]就提出人工神经网络的反向传播(Back propagation, BP)算法, 但这一时期人们普遍认为梯度下降会陷入局部极值, 且存在梯度消失、硬件条件不足等问题, 直到2006年, Hinton等[57]介绍了一种新的深度神经网络模型DBN及训练方法, 降低了深度神经网络的优化难度, 利用预训练方法缓解了局部极值问题, 从此深度学习受到学术界的关注.之后LeCun、Bengio、Ng等对深度神经网络展开研究[58].随着一些新的模型训练方法的涌现, 深度学习在诸如语音识别[59-60]、自然语言处理[61-63]、图像识别和分割等[64-65]多个领域都取得了较大的进展.近年来, 深度学习在三维数据的分类、识别和重建上也取得了很大的进展[66-68].目前广泛应用的深度学习模型主要包括深度置信网络(Deep belief network, DBN) [57, 69]、堆叠自动编码器(Stacked auto-encoders, SAE) [70]、卷积神经网络(Convolutional neural networks, CNN) [71]、循环神经网络(Recurrent neural networks, RNN) [72]等.

    相较于二维图像领域, 深度学习在三维外形重建上的研究起步较晚, 但在近三年内也取得了较大的进展.本节依据三维外形的不同表示, 从基于体素表示和基于点云、网格表示两个方面介绍深度学习在三维重建中的研究现状.

    2.2.1   基于体素表示的三维重建

    随着深度学习在三维领域的不断扩展, 围绕深度学习研究基于体素的三维重建方法开始被提出, 利用体素化的方法将所有的CAD模型表示为二值或实值的三维张量, 保证了模型大小的相同. Wu等[67]建立的网络结构3D shapenets是较早提出的基于体素表示的三维重建网络, 其利用深度卷积置信网络(CDBN)将三维几何外形表示为三维体素上二值变量的概率分布, 输入深度图, 通过吉布斯采样(Gibbs sampling)不断预测外形类型和填补未知的体素来完成重建.为了得到更好的训练效果, 其同时建立了大型的CAD模型数据集ModelNet. Choy等[8]提出了一种基于标准LSTM的扩展网络结构3D-R2N2 (3D recurrent reconstruction neural network), 使用该网络学习二维图像与三维外形间的映射, 网络以端到端的形式获取一个或多个对象实例的图像, 首先利用一个标准的CNN结构对原始输入图像进行编码, 用其提出的3D-LSTM进行过渡连接, 3D-LSTM单元排列成三维网格结构, 每个单元接收一个从编码器中得到的特征向量, 并将他们输送到解码器中.这样每个3D-LSTM单元重构输出体素的一部分.再利用一个标准反卷积网络对其解码, 通过这样的网络结构建立了二维图像和三维模型的映射.该方法还在单个框架中统一了单视图和多视图重建, 且不需要图像注释或分类标签进行训练, 克服了过去无法解决的缺乏纹理和宽基线特征匹配等问题的挑战.通过以IoU (Intersection-over-union)作为评价重建效果指标的实验, 验证了在单幅图像的三维重建效果优于Kar等[20]的传统方法, 但该方法在重建椅子细腿等方面存在断裂失真的问题. Girdhar等[73]提出了一种名为TL-embedding network的网络结构, 该网络的自编码器以20× 20× 20的像素网格表示作为输入, 通过自编码学习三维模型的嵌入(Embedding), 形成一个64维的嵌入空间(Embedding space), 然后通过ConvNets输入二维图像, 找到对应的嵌入, 最后通过解码器得到体素表示的三维模型.在重建结果上, 更能抓住重建的细节, 例如椅子的腿部和靠背, 重建效果优于Kar等[20]的方法. Kar等[74]尝试在同一系统中统一单视图和多视图的三维重建, 提出了一种叫做立体学习机(Learnt stereo machine, LSM)的新系统, 其可以利用单视角和语义线索进行单视图三维重建, 同时也可以利用立体视觉整合来自不同视角的信息进行多视图重建.该方法在编码部分提取特征后, 加入一个反投影模块, 将由前馈卷积神经网络获取的二维图像中的特征投影到三维网格中, 并使得结果根据极线约束在三维网格中对齐, 简化了特征匹配.通过实验与3D-R2N2 [8]的IoU值对比, 无论在单视图还是多视图均取得了更好的效果, 并且在实验中即便只给出飞机和椅子的数据, 还是可以完成汽车模型的重建, 因而具有较好的泛化能力. Wu等[75]等提出了一种叫MarrNet的网络模型, 在端到端生成重建结果的网络结构中加入了生成2.5 D草图的步骤, 增强了重建效果并使得网络可以更轻松地针对不同类别的物体进行重建.

    早期的工作主要基于监督学习, 但获得大规模监督数据的成本往往是巨大的, 随着研究的深入, 一些基于生成模型的弱监督学习和无监督学习的方法逐渐被提出. Kanazawa等[76]提出了一种新的网络结构WarpNet, 利用薄板样条插值(Thin-Platespline)进行转换, 从一幅鸟的图像变形得到另一幅鸟的图像, 得到一个人工的对应, 通过将这样的两幅图像作为原始图和目标图来学习其中的变化, 最后将通过网络学习得到的结果作为空间先验来匹配图像中的外表变化、视点和关节, 不需要部分注释来进行单视图重建. Tulsiani等[77-78]采用另一种监督形式, 通过学习单视角的三维结构来构建多视角观察(Multi-view observations), 再通过多视角观察得到几何一致性, 其利用经典射线一致性公式引入了一个一般的检验器, 可以测量3D外形与不同种类观测结果间的一致性. Rezende等[1]首次提出了一个无监督的生成模型, 在二维图像上可以进行端到端的无监督训练, 不需要真实的三维标签, 证明了无监督生成模型学习三维表征的可能性.在此基础上, Yan等[79]提出一个名为Perspective transformer nets的网络结构, 在传统的编解码卷积神经网络中加入了透视变换作为正则化, 在不知道对应的真实模型的情况下, 提出了一种轮廓损失函数, 通过透视变换, 将在不同特定视角下的二维物体轮廓和对应体素轮廓的距离作为新的损失函数, 该方法在无监督学习下的重建具有良好的泛化能力.此外, 一些学者利用生成对抗网络进行重建[80-83]. Wu等[84]提出了3D-VAE-GAN的网络结构, 输入单幅图像, 通过变分自编码网络的编码器得到图像的潜在向量(Latent vector), 再通过生成对抗网络的生成器得到重建的物体.使用生成对抗网络的优点是可以从高斯或均匀分布等概率表征空间中采样新的三维对象, 并且判别器(Discrimitator)带有三维物体识别的信息特征.该方法与TL-embedding network的重建精度对比, 取得了更好的效果. Zhu等[82]对图像中物体的二维轮廓使用了更简单的标注, 对TL-embedding network和3D-VAE-GAN网络进行了微调, 重建取得了更好的效果. Gadelha等[85]提出了一种Projective GANs (PrGANs)的生成对抗网络, 在生成器上加入了投影模块, 投影模块通过给定视角呈现体素形状来捕获三维表示, 而后转化为二维图像再传递给判别器, 通过判别器判定输入图像是生成的还是真实的.通过反复训练, 调整生成器, 改进了生成的三维体素外形.增加投影模块使该方法与之前3D-VAE-GAN网络需要联合三维数据相比, 在学习阶段不使用任何标注、三维信息或视角信息来推断潜在的三维外形分布. Rosca等[81]对AE-GANs的网络结构进行了改进, 提出了一种新的变分自编码器和GANs结合的方法α-GAN, 融合两种方法的优势, 构建新的优化目标函数, 重建也取得了较好的效果.

    体素表示的三维物体相较于二维图像, 计算量更大, 需求内存更多, 往往因计算和内存的限制, 分辨率主要为32× 32× 32以下.针对这一问题, 一些基于八叉树的卷积神经网络被提出[86-88]. Riegler等[89]提出了一种卷积网络OctNet, 取代体素部分, 将三维空间分割成一组不平衡八叉树, 每个八叉树根据数据的密度来分割三维空间.其充分利用了三维输入数据的稀疏性, 从而能够更加合理地使用内存及计算.受此启发, Häne等[90]提出了一个叫做层次表面预测(Hierarchical surface prediction, HSP)的通用框架, 将体素分为占用、未占用和边界三类.使用这种方法, 在一个八叉树中分层次地预测从粗到细多分辨率的体素块, 只要保证在那些标记为边界的区域有相对较高的分辨率即可.通过迭代, 可以层进地预测出分辨率为256× 256×256的体素表示.同样是使用八叉树结构, 与Riegler等[89]提出的方法中需要假设在测试期间八叉树结构为已知的不同, Tatarchenko等[88]提出了一种称作OGN (Octree generating networks)的网络结构, 通过网络学习预测八叉树的结构, 同时在网络的解码初期预测大量的输出空间, 而直到网络的某一层, 密集的网格才被八叉树替代, 从而节省了后续高分辨率计算需要的内存, 并且可以将分辨率提升为512×512×512. Sun等[87]提出了一种称作CVN (Colorful voxel network)的网络结构, 这是第一个基于深度学习的能够端到端同时从单一图像恢复三维外形和表面颜色的网络结构, 设计了一种新的损失函数MSFCEL (Mean squared false cross-entropy loss)用于解决体素表示的稀疏问题, 从而能够生成更高分辨率的结果.

    ShapeNet团队组织了一次基于单幅图像物体三维重建的挑战赛[6], 共3支队伍参加, 包括上文提到的HSP [90]α-GAN [81].每个队伍从测试图像重建出分辨率为256×256×256的三维模型, 挑战赛采用IoU和CD两种评价标准.在与3D-R2N2 [8]结果的对比中, HSP在基于IoU的评价标准中赢得第一, 而α-GAN在基于CD的评价标准中赢得第一, ShapeNet团队猜测原因是gan损失比交叉熵损失更有助于描绘几何的正确性[6].

    2.2.2   基于点云和网格表示的三维重建

    基于点云和网格的单幅图像三维重建工作目前还比较少, 原因在于相较于可以直接用于卷积神经网络中的体素表示, 点云和网格表示则需要一定的改变.例如, 系统若需处理点云时一般需要维持点顺序不变.随着一些基于深度学习和点云形式的物体识别的相关工作的出现[91-93]和相关研究的不断推进, Fan等[9]提出了一个点集生成网络, 这是第一个用深度学习研究点云表示点集产生的网络结构.它有多个平行的预测分支, 网络结构中包含卷积模块、反卷积模块、全连接模块.这样复杂的模型具有高度的灵活性, 在描述复杂结构方面表现出色, 而由于卷积层和反卷积层引起的空间连续性, 其对大光滑表面更友好.而该网络引入了Hourglass卷积网络结构[94]反复进行的编解码操作, 使该方法具有更强的表示能力, 可以更好地联合全局和局部信息.其系统地探讨了点云生成网络的损失函数设计, 选取了两种距离Chamfer distance (CD)和Earth Mover's distance (EMD)作为候选.在重建结果上, 该方法能产生多个可能的输出来解决单幅图像三维重建的不适定问题, 在与3D-R2N2方法的结果对比中, 该方法在所有类别中均能获得更高的IoU值, 拥有更好的重建效果, 但是在输入图像中有多个对象的情况下, 由于网络还没有采取任何检测或注意力机制, 网络会产生扭曲的输出.并且其所需的可学习参数与三维点预测的数量成线性比例且不能很好地缩放, 使用三维距离度量作为优化标准对于大量点来说仍是困难的. Lin等[95]针对上述问题, 在网络结构中使用了二维卷积运算来捕获生成的点云之间的相关性并以更易于计算的方式进行优化, 生成的点云具有更好的精度.

    图像和网格之间的转换产生的离散操作会阻碍反向传播的过程, 导致基于深度学习重建网格表示的三维模型面临不小的挑战. Kato等[25]针对这个问题提出了一种渲染网格的近似梯度, 将该部分作为一个渲染器集成到神经网络中.经过渲染器处理, 其使用轮廓图像监督来执行单图像3D网格重建.通过对比Yan等[79]基于体素的重建方法, 验证了其在视觉和IoU值方面均超过了基于体素的方法, 但该方法存在一个明显的不足, 即不能生成一个具有各种拓扑的对象. Pontes等[96]提出了一个新的学习框架, 通过学习框架推断网格表示的参数来解决基于网格重建所面临的问题, 其在面对输入为真实世界的单幅图像时表现更好. Wang等[97]将网络分为特征提取和网格变形两个部分, 先由2D CNN部分提取特征, 再利用提取的特征通过GCN (Graph convolutional network)来解决网格结构无法直接作用于CNN的问题, 最后生成重建模型.该文章对比了基于体素的3D-R2N2 [8]、Fan等[9]基于点云及Kato [25]基于网格的方法, 实验中重建效果均高于上述三种方法, 但仍存在只能生成相同拓扑网格的局限性.

    为了更好地研究基于单幅图像的物体三维重建, 构建大规模的三维模型数据集成为必然要求.目前有多个三维模型的公共数据集供科研人员使用.

    1) PASCAL 3D+数据集[98]

    PASCAL VOC数据集是在图像识别、图像分割和目标检测等领域经常使用的大型数据集, 它的广泛使用也推动了计算机视觉领域的不断发展.而PASCAL 3D+正是基于PASCAL VOC 2012 [99]的12种刚体类别的图像, 为它们添加了三维模型标注的数据集, 其每一类通过ImageNet [100]扩展得到更多的图像, 最终每一类平均有3 000左右的物体.该数据集图像物体变化较大, 且包含遮挡和截断等情况, 能够更好地反映真实世界中的变化.

    2) ShapeNet数据集[101]

    该数据集由物体的三维CAD模型组成, 是目前为止包含丰富注释的最大的三维模型数据集.其在WordNet [102]分类下进行组织, 为每一个三维模型提供丰富的语义注释, 包括物理尺寸、关键字等, 注释可通过基于Web的界面提供, 以实现对象属性的数据可视化. ShapeNet共包含超过300万个模型, 其中22万个模型被归类为3 135个类别.

    3) Online Products数据集[103]

    该数据集包含在线销售的23 000个物体的图像.由于存在宽基线的问题, 传统的MVS和SFM方法无法通过这些图像进行重建.

    4) ModelNet数据集[67]

    该数据集是当前规模较大、模型类别较多的一个大型CAD数据集, 收集了各类3D CAD网站, 3D Warehouse以及Princeton Shape Benchmark [104] 660种共计151 125个CAD模型.

    5) IKEA Dataset数据集[33]

    该数据集收集了来自Google 3D Warehouse的225个IKEA的三维模型和从Flickr得到的800幅图像, 分为IKEA家具和IKEA房间两个部分, 主要集中了室内家具的模型, 模型类别及数量相对较少, 同时部分图像存在遮挡.该数据集的每一幅图像都标注其关联的三维模型, 可以借此评估三维重建的效果.

    随着深度学习的不断发展和三维数据集的不断完善, 基于单幅图像的三维重建取得了较大的进展, 表 2展示了目前代表性传统方法[20]和3D-R2N2在PASCAL 3D+数据集上以IoU值作为重建评价标准的重建效果对比.可以看出与传统手工设计的方法相比, 基于深度学习的端到端的训练方法能够直接以单幅图像作为输入, 并以重建的三维模型作为输出, 提取特征效率更高, 重建效果更好.同时深度学习使用诸如dropout等稀疏化网络参数的方法来防止过拟合, 以此来利用大规模的数据, 具有更好的泛化性.正如人看到二维图像即可联想到它的三维表示, 基于深度学习的单幅图像重建也越来越趋向于与人类认知三维物体方法相同的无监督学习[1, 79, 84], 也有越来越多的网络融合了单幅图像和多幅图像两种方式, 使得重建能够更加灵活.同时基于深度学习的方法也不断地在各种三维表示形式上进行着尝试, 表 3对比了目前基于体素、点云、网格的主流方法在ShapeNetCore [77]数据集上以平均IoU值作为重建评价准则的重建精度.

    表 2  现有的传统方法与3D-R2N2重建结果的对比[20]
    Table 2  Comparison of traditional methods and 3D-R2N2 [8]
    方法 飞机 单车 轮船 公交 汽车 椅子 摩托 沙发 火车 电视 均值
    Kar等[20] 0.298 0.114 0.188 0.501 0.472 0.234 0.361 0.149 0.249 0.492 0.318
    Choy等[8] 0.544 0.499 0.560 0.816 0.699 0.280 0.649 0.332 0.672 0.574 0.571
    下载: 导出CSV 
    | 显示表格
    表 3  不同方法以平均IoU值作为评价标准的重建精度对比
    Table 3  3D reconstruction comparison with different methods using IoU
    Choy等[8] Yan等[79] Kar等[74] Fan等[74] Kato等[74]
    IoU均值 0.556 0.574 0.605 0.640 0.602
    下载: 导出CSV 
    | 显示表格

    综上所述, 基于深度学习的方法相较于传统的方法拥有较多的优势, 并且在这一领域逐渐取得了显著进展, 但是同时在这一领域也存在如下问题:

    1) 公共数据集较小.对于一个三维重建任务来说, 增加训练数据的种类和规模可以增加学习的泛化能力.但是与目前千万级的二维图像数据集相比, 三维公共数据集规模小、种类少.即使是近年来发布的较大的数据集ModelNet也仅包含了来自662个类的127 915个三维外形.相信随着深度学习在三维领域的不断深入, 在未来会涌现出更大规模的三维公共数据集.

    2) 重建分辨率及精度问题.三维物体相较于二维多了一个维度, 基于体素的重建随着重建分辨率的增加, 物体体积成立方体增长, 使其受限于计算和内存, 重建物体常见的分辨率是32× 32× 32.这样分辨率的重建结果是非常粗糙的, 离真实物体还有较大差距.即使有针对这一问题提出的改进方法[90], 改进后仍然无法达到较为精密的重建效果.而在以主要依赖于大规模多样性标记数据集的监督学习的方法中, 在实验中与真实模型对比, 重建精度也未达到0.85以上.要提高基于体素重建的分辨率, 还要考虑三维体素的稀疏性, 未来针对如何在基于体素的重建中提升计算效率, 避免在未占用的部分浪费过多内存, 提高重建的分辨率以及如何改善网络结构以提高重建效果, 能够恢复更多细节, 这些仍然是未来值得关注的问题.

    3) 基于点云和网格重建的问题.图像是结构化的, 可以表示为二维平面上的一个矩阵, 基于体素的重建使模型通过体素化变为二值模式, 也保证了大小的相同.但三维点云和网格都是不规则的数据形式, 这使得学习方法的应用存在问题, 由于欧几里德卷积运算不能直接应用, 这些数据表示不能很好地适应传统的CNN.目前针对该问题仅有少数前期探索工作[9], 主要思路有: a)先将三维点云或网格数据转化成二维图像, 再在神经网络中提取特征; b)设计适应原始三维数据特点的网络模型, 例如结合GCN的网络模型; c)在三维外形上手工提取低级特征, 再采用深度学习模型提取高级特征.但总体而言, 该问题仍未得到有效解决.如何设计能适应原始三维数据特点的深度学习模型, 以及如何设计点云生成网络的损失函数仍是未来一个值得研究的课题.而基于网格的重建, 如何生成具有不同拓扑的对象, 是一个具有重要意义的研究方向.

    4) 单幅图像重建的不适定问题.正如在传统方法中提到的, 对一幅图像的三维重建, 特别是对一幅来自真实世界的图像(区别于从CAD模型中生成的二维图像), 其不可见部分的几何外形需要猜测, 一幅图像往往可能对应多个不同的重建模型, 且均可以看作是该幅图像的重建结果.从统计的角度来看, 输入图像的合理预测形成一个分布.反映在训练集中, 两个看起来相似的图像可能具有相当不同的重建结果.如果将这个问题看作是一个回归问题, 就与传统的只有一个对应真实模型的三维重建大有不同, 定义正确的损失函数就显得尤为重要.针对这一问题, Fan等[9]通过VAE网络结构和其定义的MoN损失使得网络能对单幅图像生成多种可能的重建结果, 该方法进行了一次有益的尝试, 但在实现细节和准确度上仍有提高的空间.

    5) 三维模型的表示形式和评价指标.与深度学习在二维图像中的应用不同, 目前人们仍然还在探索什么样的三维表示是最准确有效的, 因此基于体素、网格、点云表示的方法也仍然在不断涌现.而在对基于单幅图像的三维重建的评价标准上, 至今也仍没有一个完全统一的定论[6], 哪种评价指标最能够反映重建的效果, 仍然有待进一步的研究.

    本文综述了近年来深度学习在单幅图像三维重建中的应用和展望.首先说明了传统的基于单幅图像的三维重建的方法和常用的公共数据集, 然后重点介绍了深度学习方法在基于单幅图像的三维重建的最新应用进展, 最后对深度学习在基于单幅图像的三维重建进行了分析, 对未来的发展趋势进行了思考与展望.总体而言, 深度学习为解决基于单幅图像的三维重建提供了新的技术, 取得了较为显著的科研成果, 但其研究大部分仍存在大量的问题, 未来基于深度学习的单幅图像的三维重建仍然是一个亟待研究的重点方向.

    致谢: 感谢英国萨里大学视觉、语音和信号处理中心Evren Imre博士(现工作于动作捕捉公司Vicon)对本文提出的建设性意见.
  • [1] Li S Z. Markov Random Field Modeling in Image Analysis. London: Springer, 2009.
    [2] Blake A, Kohli P, Rother C. Markov Random Fields for Vision and Image Processing. Cambridge: MIT Press, 2011.
    [3] Blake A, Kohli P, Rother C [Author], Xie Zhao [Translator]. Markov Random Fields for Vision and Image Processing. Beijing: Science Press, 2014.(Blake A, Kohli P, Rother C [著], 谢昭 [译]. Markov随机场在视觉和图像处理中的应用. 北京: 科学出版社, 2014.)
    [4] Boykov Y, Veksler O, Zabih R. Fast approximate energy minimization via graph cuts. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2001, 23(11): 1222-1239
    [5] Kolmogorov V, Zabin R. What energy functions can be minimized via graph cuts? IEEE Transactions on Pattern Analysis and Machine Intelligence, 2004, 26(2): 147-159
    [6] Felzenszwalb P F, Huttenlocher D P. Efficient belief propagation for early vision. International Journal of Computer Vision, 2006, 70(1): 41-54
    [7] Weiss Y, Freeman W T. On the optimality of solutions of the max-product belief-propagation algorithm in arbitrary graphs. IEEE Transactions on Information Theory, 2001, 47(2): 736-744
    [8] Murphy K P, Weiss Y, Jordan M I. Loopy belief propagation for approximate inference: an empirical study. In: Proceedings of the 15th Conference on Uncertainty in Artificial Intelligence. Morgan Kaufmann Publishers Inc., 1999. 467-475
    [9] Wainwright M J, Jaakkola T S, Willsky A S. Map estimation via agreement on trees: message-passing and linear programming. IEEE Transactions on Information Theory, 2005, 51(11): 3697-3717
    [10] Kolmogorov V. Convergent tree-reweighted message passing for energy minimization. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006, 28(10): 1568-1583
    [11] Kolmogorov V, Wainwright M J. On the optimality of tree-reweighted max-product message-passing. In: Proceedings of the 21st Conference on Uncertainty in Artificial Intelligence. 2012.
    [12] Wainwright M J, Jordan M I. Graphical models, exponential families, and variational inference. Foundations and Trends in Machine Learning, 2008, 1(1-2): 1-305
    [13] Szeliski R, Zabih R, Scharstein D, Veksler O, Kolmogorov V, Agarwala A, Tappen M, Rother C. A comparative study of energy minimization methods for Markov random fields with smoothness-based priors. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2008, 30(6): 1068-1080
    [14] Koller D, Friedman N. Probabilistic Graphical Models: Principles and Techniques. Cambridge: MIT Press, 2009.
    [15] Bishop C. Pattern Recognition and Machine Learning. New York: Springer, 2006.
    [16] Jordan M I, Ghahramani Z, Jaakkola T S, Saul L K. An introduction to variational methods for graphical models. Machine Learning, 1999, 37(2): 183-233
    [17] Lauritzen S L. Graphical Models. Oxford: Oxford University Press, 1996.
    [18] Besag J. Spatial interaction and the statistical analysis of lattice systems. Journal of the Royal Statistical Society. Series B (Methodological), 1974, 36(2): 192-236
    [19] Loeliger H A. An introduction to factor graphs. IEEE Signal Processing Magazine, 2004, 21(1): 28-41
    [20] Kschischang F R, Frey B J, Loeliger H A. Factor graphs and the sum-product algorithm. IEEE Transactions on Information Theory, 2001, 47(2): 498-519
    [21] Szeliski R, Zabih R, Scharstein D, Veksler O, Kolmogorov V, Agarwala A, Tappen M, Rother C. A comparative study of energy minimization methods for Markov random fields. In: Proceedings of the 9th European Conference on Computer Vision, Computer Vision-ECCV 2006. Graz, Austria: Springer, 2006. 16-29
    [22] Greig D M, Porteous B T, Seheult A H. Exact maximum a posteriori estimation for binary images. Journal of the Royal Statistical Society. Series B (Methodological), 1989, 51(2): 271-279
    [23] Tappen M F, Freeman W T. Comparison of graph cuts with belief propagation for stereo, using identical MRF parameters. In: Proceedings of the 9th IEEE International Conference on Computer Vision, 2003. Nice, France: IEEE, 2003. 900-906
    [24] Woodford O J, Torr P H S, Reid I D, Fitzgibbon A W. Global stereo reconstruction under second order smoothness priors. In: Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2008). Anchorage, AK: IEEE, 2008. 1-8
    [25] Vicente S, Kolmogorov V, Rother C. Graph cut based image segmentation with connectivity priors. In: Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2008). Anchorage, AK: IEEE, 2008. 1-8
    [26] Nowozin S, Lampert C H. Global connectivity potentials for random field models. In: Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition(CVPR 2009). Miami, FL: IEEE, 2009. 818-825
    [27] Bleyer M, Rother C, Kohli P, Scharstein D, Sinha S. Object stereo ---joint stereo matching and object segmentation. In: Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, RI: IEEE, 2011. 3081-3088
    [28] Lempitsky V, Kohli P, Rother C, Sharp T. Image segmentation with a bounding box prior. In: Proceedings of the 12th IEEE International Conference on Computer Vision. Kyoto: IEEE, 2009. 277-284
    [29] Kohli P, Kumar M P, Torr P H S. P3 & beyond: move making algorithms for solving higher order functions. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(9): 1645-1656
    [30] Kohli P, Kumar M P, Torr P H S. P3 & beyond: solving energies with higher order cliques. In: Proceedings of the 2007 IEEE Conference on Computer Vision and Pattern Recognition (CVPR'07). Minneapolis, MN: IEEE, 2007. 1-8
    [31] Kohli P, Ladický L, Torr P H S. Robust higher order potentials for enforcing label consistency. In: Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2008). Anchorage, AK: IEEE, 2008. 1-8
    [32] Kohli P, Ladický L, Torr P H S. Robust higher order potentials for enforcing label consistency. International Journal of Computer Vision, 2009, 82(3): 302-324
    [33] Ladický L, Russell C, Kohli P, Torr P H S. Associative hierarchical random fields. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(6): 1056-1077
    [34] Ladický L, Russell C, Kohli P, Torr P H S. Associative hierarchical CRFs for object class image segmentation. In: Proceedings of the 12th IEEE International Conference on Computer Vision. Kyoto: IEEE, 2009. 739-746
    [35] Rother C, Kohli P, Feng W, Jia J Y. Minimizing sparse higher order energy functions of discrete variables. In: Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition(CVPR 2009). Miami, FL: IEEE, 2009. 1382-1389
    [36] Komodakis N, Paragios N. Beyond pairwise energies: efficient optimization for higher-order MRFs. In: Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2009). Miami, FL: IEEE, 2009. 2985-2992
    [37] Boix X, Gonfaus J M, van de Weijer J, Bagdanov A D, Serrat J, González J. Harmony potentials. International Journal of Computer Vision, 2012, 96(1): 83-102
    [38] Gonfaus J M, Boix X, Van de Weijer J, Bagdanov A D, Serrat J, Gonzalez J. Harmony potentials for joint classification and segmentation. In: Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). San Francisco, CA: IEEE, 2010. 3280-3287
    [39] Ladický L, Russell C, Kohli P, Torr P H S. Graph cut based inference with co-occurrence statistics. In: Proceedings of the 11th European Conference on Computer Vision, Computer Vision-ECCV 2010. Heraklion, Crete, Greece: Springer, 2010. 239-253
    [40] Ladický L, Russell C, Kohli P, Torr P H S. Inference methods for CRFs with co-occurrence statistics. International Journal of Computer Vision, 2013, 103(2): 213-225
    [41] Werner T. High-arity interactions, polyhedral relaxations, and cutting plane algorithm for soft constraint optimisation (MAP-MRF). In: Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2008). Anchorage, AK: IEEE, 2008. 1-8
    [42] Lim Y, Jung K, Kohli P. Energy minimization under constraints on label counts. In: Proceedings of the 11th European Conference on Computer Vision, Computer Vision-ECCV 2010. Heraklion, Crete, Greece: Springer, 2010. 535-551
    [43] Delong A, Osokin A, Isack H N, Boykov Y. Fast approximate energy minimization with label costs. In: Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). San Francisco, CA: IEEE, 2010. 2173-2180
    [44] Delong A, Osokin A, Isack H N, Boykov Y. Fast approximate energy minimization with label costs. International Journal of Computer Vision, 2012, 96(1): 1-27
    [45] Shekhovtsov, Kohli P, Rother C. Curvature prior for mrf-based segmentation and shape inpainting. In: Proceedings of the Joint 34th DAGM and 36th OAGM, Pattern Recognition, Lecture Notes in Computer Science Volume 7476. Berlin Heidelberg: Springer, 2012. 41-51
    [46] Woodford O, Torr P, Reid I, Fitzgibbon A. Global stereo reconstruction under second-order smoothness priors. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(12): 2115-2128
    [47] Silberman N, Hoiem D, Kohli P, Fergus R. Indoor segmentation and support inference from RGBD images. In: Proceedings of the 12th European Conference on Computer Vision, Computer Vision-ECCV 2012. Florence, Italy: Springer, 2012. 746-760
    [48] Ladický L, Sturgess P, Russell C, Sengupta S, Bastanlar Y, Clocksin W, Torr P H S. Joint optimization for object class segmentation and dense stereo reconstruction. International Journal of Computer Vision, 2012, 100(2): 122-133
    [49] Kim B S, Sun M, Kohli P, Savarese S. Relating things and stuff by high-order potential modeling. In: Proceedings of the 2012 Computer Vision-ECCV. Workshops and Demonstrations. Berlin, Heidelberg: Springer, 2012. 293-304
    [50] Sun M, Kim B S, Kohli P, Savarese S. Relating things and stuff via object property interactions. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(7): 1370-1383
    [51] Ladický L, Sturgess P, Alahari K, Russell C, Torr P H S. What, where and how many? Combining object detectors and CRFs. In: Proceedings of the 11th European Conference on Computer Vision, Computer Vision-ECCV 2010. Heraklion, Crete, Greece: Springer, 2010. 424-437
    [52] Brostow G J, Shotton J, Fauqueur J, Cipolla R. Segmentation and recognition using structure from motion point clouds. In: Proceedings of the 10th European Conference on Computer Vision, Computer Vision-ECCV 2008. Marseille, France: Springer, 2008. 44-57
    [53] Floros G, Leibe B. Joint 2d-3d temporally consistent semantic segmentation of street scenes. In: Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, RI: IEEE, 2012. 2823-2830
    [54] Shotton J, Winn J, Rother C, Criminisi A. Textonboost for image understanding: multi-class object recognition and segmentation by jointly modeling texture, layout, and context. International Journal of Computer Vision, 2009, 81(1): 2-23
    [55] Shotton J, Winn J, Rother C, Criminisi A. Textonboost: joint appearance, shape and context modeling for multi-class object recognition and segmentation. In: Proceedings of the 9th European Conference on Computer Vision, Computer Vision-ECCV 2006. Graz, Austria: Springer, 2006. 1-15
    [56] Chris R, L'ubor L, Pushmeet K, Philip HS T. Exact and approximate inference in associative hierarchical networks using graph cuts. arXiv preprint arXiv: 1203.3512, 2012.
    [57] Russell C, Ladický L, Kohli P, Torr P H S. Exact and approximate inference in associative hierarchical networks using graph cuts. In: UAI. AUAI Press, 2010. 501-508
    [58] Kohli P, Kumar M P. Energy minimization for linear envelope MRFs. In: Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). San Francisco, CA: IEEE, 2010. 1863-1870
    [59] Gould S. Max-margin learning for lower linear envelope potentials in binary Markov random fields. In: Proceedings of the 28th International Conference on Machine Learning (ICML-11). Omnipress, 2011. 193-200
    [60] Lempitsky V, Rother C, Blake A. LogCut-efficient graph cut optimization for Markov random fields. In: Proceedings of the 11th IEEE International Conference on Computer Vision (ICCV 2007). Rio de Janeiro: IEEE, 2007. 1-8
    [61] Lempitsky V, Rother C, Roth S, Blake A. Fusion moves for Markov random field optimization. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(8): 1392-1405
    [62] Werner T. Revisiting the linear programming relaxation approach to gibbs energy minimization and weighted constraint satisfaction. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(8): 1474-1488
    [63] Kolmogorov V, Rother C. Minimizing nonsubmodular functions with graph cuts ---a review. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 29(7): 1274-1279
    [64] Boros E, Hammer P L. Pseudo-boolean optimization. Discrete Applied Mathematics, 2002, 123(1-3): 155-225
    [65] Boros E, Hammer P L, Tavares G. Preprocessing of Unconstrained Quadratic Binary Optimization. Technical Report RRR 10-2006, RUTCOR, 2006.
    [66] Rother C, Kolmogorov V, Lempitsky V, Szummer M. Optimizing binary MRFs via extended roof duality. In: Proceedings of the 2007 IEEE Conference on Computer Vision and Pattern Recognition (CVPR'07). Minneapolis, MN: IEEE, 2007. 1-8
    [67] Rosenberg I G. Reduction of bivalent maximization to the quadratic case. Cahiers du Centre d'Etudes de Recherche Opérationnelle, 1975, 17: 71-74
    [68] Ishikawa H. Higher-order clique reduction in binary graph cut. In: Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2009). Miami, FL: IEEE, 2009. 2993-3000
    [69] Ishikawa H. Transformation of general binary MRF minimization to the first-order case. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(6): 1234-1249
    [70] Freedman D, Drineas P. Energy minimization via graph cuts: settling what is possible. In: Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 2005). San Diego, CA, USA: IEEE, 2005. 939-946
    [71] Gallagher A C, Batra D, Parikh D. Inference for order reduction in Markov random fields. In: Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, RI: IEEE, 2011. 1857-1864
    [72] Fix A, Gruber A, Boros E, Zabih R. A graph cut algorithm for higher-order Markov random fields. In: Proceedings of the 2011 IEEE International Conference on Computer Vision (ICCV). Barcelona: IEEE, 2011. 1020-1027
    [73] Pearl J. Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference. San Mateo: Morgan Kaufmann, 1988.
    [74] Lan X Y, Roth S, Huttenlocher D, Black M J. Efficient belief propagation with learned higher-order Markov random fields. In: Proceedings of the 9th European Conference on Computer Vision, Computer Vision-ECCV 2006. Graz, Austria: Springer, 2006. 269-282
    [75] Potetz B. Efficient belief propagation for vision using linear constraint nodes. In: Proceedings of the 2007 IEEE Conference on Computer Vision and Pattern Recognition (CVPR'07). Minneapolis, MN: IEEE, 2007. 1-8
    [76] Potetz B, Lee T S. Efficient belief propagation for higher-order cliques using linear constraint nodes. Computer Vision and Image Understanding, 2008, 112(1): 39-54
    [77] Tarlow D, Givoni I E, Zemel R S. Hop-map: efficient message passing with high order potentials. In: Proceedings of the 13th Conference on Artificial Intelligence and Statistics. 2010. 812-819
    [78] McAuley J J, Caetano T S. Faster algorithms for max-product message-passing. The Journal of Machine Learning Research, 2011, 12: 1349-1388
    [79] Felzenszwalb P F, McAuley J J. Fast inference with min-sum matrix product. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(12): 2549-2554
    [80] Komodakis N, Tziritas G, Paragios N. Fast, approximately optimal solutions for single and dynamic MRFs. In: Proceedings of the 2007 IEEE Conference on Computer Vision and Pattern Recognition (CVPR'07). Minneapolis, MN: IEEE, 2007. 1-8
    [81] Bertsekas D P. Nonlinear Programming (2nd Edition). Belmont, Mass: Athena Scientific, 1999.
    [82] Vazirani V V. Approximation Algorithms. Berlin, Heidelberg: Springer, 2001.
    [83] Kovalevsky V A, Koval V K. A diffusion algorithm for decreasing energy of max-sum labeling problem. Glushkov Institute of Cybernetics, Kiev, USSR, 1975.
    [84] Werner T. A linear programming approach to max-sum problem: a review. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 29(7): 1165-1179
    [85] Komodakis N, Paragios N, Tziritas G. MRF optimization via dual decomposition: message-passing revisited. In: Proceedings of the 11th IEEE International Conference on Computer Vision (ICCV 2007). Rio de Janeiro: IEEE, 2007. 1-8
    [86] Komodakis N, Paragios N, Tziritas G. MRF energy minimization and beyond via dual decomposition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(3): 531-552
    [87] Swoboda P, Savchynskyy B, Kappes J H, Schnörr C. Partial optimality by pruning for map-inference with general graphical models. In: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition, CVPR'14. Washington D.C., USA: IEEE Computer Society, 2014. 1170-1177
    [88] Komodakis N, Paragios N. Beyond loose Lp-relaxations: optimizing MRFs by repairing cycles. In: Proceedings of the 10th European Conference on Computer Vision, Computer Vision-ECCV 2008. Marseille, France: Springer, 2008. 806-820
    [89] Kumar M P, Torr P H S. Efficiently solving convex relaxations for map estimation. In: Proceedings of the 25th International Conference on Machine Learning. New York: ACM, 2008. 680-687
    [90] Sontag D, Jaakkola Y S. New outer bounds on the marginal polytope. In: Proceedings of the 2007 Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2007. 1393-1400
    [91] Sontag D, Meltzer T, Globerson A, Jaakkola T S, Weiss Y. Tightening LP relaxations for MAP using message passing. In: Proceedings of the 24th Conference on Uncertainty in Artificial Intelligence. 2012.
    [92] Andres B, Kappes J H, Köthe U, Schnörr C, Hamprecht F A. An empirical comparison of inference algorithms for graphical models with higher order factors using openGM. In: Proceedings of the 32nd DAGM Symposium, Pattern Recognition. Darmstadt, Germany: Springer, 2010. 353-362
    [93] Kappes J H, Andres B, Hamprecht F A, Schnorr C, Nowozin S, Batra D, Kim S, Kausler B X, Lellmann J, Komodakis N, Rother C. A comparative study of modern inference techniques for discrete energy minimization problems. In: Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Portland, OR: IEEE, 2013. 1328-1335
    [94] Andres B, Beier T, Kappes J H. Opengm: A C++ library for discrete graphical models. arXiv Preprint arXiv: 1206. 0111, 2012.
    [95] Scharstein D, Chris P. Learning conditional random fields for stereo. In: Proceedings of the 2007 IEEE Conference on Computer Vision and Pattern Recognition (CVPR'07). Minneapolis, MN: IEEE, 2007. 1-8
    [96] Taskar B, Guestrin C, Roller D. Max-margin Markov networks. Advances in Neural Information Processing Systems, 2004, 16: 25
    [97] Finley T, Joachims T. Training structural SVMs when exact inference is intractable. In: Proceedings of the 25th International Conference on Machine Learning. New York: ACM, 2008. 304-311
    [98] Li Y P, Huttenlocher D P. Learning for stereo vision using the structured support vector machine. In: Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2008). Anchorage, AK: IEEE, 2008. 1-8
    [99] Tsochantaridis I, Hofmann T, Joachims T, Altun Y. Support vector machine learning for interdependent and structured output spaces. In: Proceedings of the 21st International Conference on Machine Learning. New York: ACM, 2004. 104
    [100] Yang L, Meer P, Foran D J. Multiple class segmentation using a unified framework over mean-shift patches. In: Proceedings of the 2007 IEEE Conference on Computer Vision and Pattern Recognition (CVPR'07). Minneapolis, MN: IEEE, 2007. 1-8
    [101] Pantofaru C, Schmid C, Hebert M. Object recognition by integrating multiple image segmentations. In: Proceedings of the 10th European Conference on Computer Vision, Computer Vision-ECCV 2008. Marseille, France: Springer, 2008. 481-494
    [102] Russell B C, Freeman W T, Efros A A, Sivic J, Zisserman A. Using multiple segmentations to discover objects and their extent in image collections. In: Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York, USA: IEEE, 2006. 1605-1614
    [103] Comaniciu D, Meer P. Mean shift: a robust approach toward feature space analysis. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(5): 603-619
    [104] Torralba A, Murphy K P, Freeman W T. Sharing features: efficient boosting procedures for multiclass object detection. In: Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 2004). Washington D.C., USA: IEEE, 2004. II-762-II-769
    [105] Boykov Y Y, Jolly M P. Interactive graph cuts for optimal boundary & region segmentation of objects in N-D images. In: Proceedings of the 8th IEEE International Conference on Computer Vision (ICCV 2001). Vancouver, BC: IEEE, 2001. 105-112
    [106] Felzenszwalb P F, Girshick R B, McAllester D, Ramanan D. Object detection with discriminatively trained part-based models. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(9): 1627-1645
    [107] Maji S, Malik J. Object detection using a max-margin Hough transform. In: Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2009). Miami, FL: IEEE, 2009. 1038-1045
    [108] Larlus D, Jurie F. Combining appearance models and Markov random fields for category level object segmentation. In: Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2008). Anchorage, AK: IEEE, 2008. 1-7
    [109] Hoiem D, Efros A A, Hebert M. Closing the loop in scene interpretation. In: Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2008). Anchorage, AK: IEEE, 2008. 1-8
    [110] Li C C, Kowdle A, Saxena A, Chen T. Towards holistic scene understanding: feedback enabled cascaded classification models. In: Proceedings of the 2010 Advances in Neural Information Processing Systems. 2010. 1351-1359
    [111] Gould S, Gao T S, Koller D. Region-based segmentation and object detection. In: Proceeding of the 2009 Advances in Neural Information Processing Systems. 2009. 655-663
    [112] Wojek C, Schiele B. A dynamic conditional random field model for joint labeling of object and scene classes. In: Proceedings of the 10th European Conference on Computer Vision, Computer Vision-ECCV 2008. Marseille, France: Springer, 2008. 733-747
    [113] Everingham M, Van Gool L, Williams C K I, Winn J, Zisserman A. The pascal visual object classes (VOC) challenge. International Journal of Computer Vision, 2010, 88(2): 303-338
    [114] Yao J, Fidler S, Urtasun R. Describing the scene as a whole: joint object detection, scene classification and semantic segmentation. In: Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, RI: IEEE, 2012. 702-709
    [115] Sturgess P, Alahari K, Ladický L, Torr P H S. Combining appearance and structure from motion features for road scene understanding. In: Proceedings of the 2009 British Machine Vision Association (BMVC 2009).
    [116] Roig G, Boix X, Ben Shitrit H, Fua P. Conditional random fields for multi-camera object detection. In: Proceedings of the 2011 IEEE International Conference on Computer Vision (ICCV). Barcelona: IEEE, 2011. 563-570
  • 期刊类型引用(47)

    1. 赵明华,董爽爽,胡静,都双丽,石程,李鹏,石争浩. 注意力引导的三流卷积神经网络用于微表情识别. 中国图象图形学报. 2024(01): 111-122 . 百度学术
    2. 陈妍,吴乐晨,王聪. 基于多层级信息融合网络的微表情识别方法. 自动化学报. 2024(07): 1445-1457 . 本站查看
    3. 马崟桓,黄树成,李明星. 基于滑动窗口和时空特征的微表情检测算法. 计算机与数字工程. 2024(06): 1617-1621+1801 . 百度学术
    4. 曾益,汪国强,蒋东辰. 基于多尺度ShuffleNet的微表情识别方法. 黑龙江大学自然科学学报. 2024(06): 718-730 . 百度学术
    5. 罗思诗,李茂军,陈满. 多尺度融合注意力机制的人脸表情识别网络. 计算机工程与应用. 2023(01): 199-206 . 百度学术
    6. 高红霞,郜伟. 融合关键点属性与注意力表征的人脸表情识别. 计算机工程与应用. 2023(03): 118-126 . 百度学术
    7. 何雨鸿,徐忠亮,马琳,李海峰. 基于自组织映射网络的微表情运动规律分析方法. 信号处理. 2023(01): 20-29 . 百度学术
    8. 魏金生,卢官明,彭伟,陈浩侠,黄晓华,闫静杰. 基于双支路核化群稀疏学习的微表情识别. 南京邮电大学学报(自然科学版). 2023(01): 70-79 . 百度学术
    9. 陈斌,朱晋宁. 双流增强融合网络微表情识别. 智能系统学报. 2023(02): 360-371 . 百度学术
    10. 薛志超,伊力哈木·亚尔买买提,闫天星. 基于MobileNetV3多尺度特征融合的人脸表情识别. 电子测量技术. 2023(08): 38-44 . 百度学术
    11. 刘洋,吴佩,万芷涵,石佳玉,朱立芳. 用户微表情信息表征研究综述. 知识管理论坛. 2023(03): 215-227 . 百度学术
    12. 李雯,李豪喆,陈琛,蔡伟雄. 面部微表情分析技术在法医精神病学领域的研究现状及应用展望. 法医学杂志. 2023(05): 493-500 . 百度学术
    13. 李昆仑,彭小华,熊婷. 基于支持向量机的动态人脸图像微表情识别. 计算机仿真. 2023(12): 331-336 . 百度学术
    14. 王欢欢,吕紫藤,李现昆. 基于表情识别技术的用户研究方法. 包装工程. 2022(02): 116-121 . 百度学术
    15. 王凯,何宏,殷静. 基于改进LeNet-5神经网络的微表情识别研究. 中国设备工程. 2022(04): 258-259 . 百度学术
    16. 唐家明,宛艳萍,孟竹,张芳,谷佳真. 基于ADCP-TOP的微表情识别方法. 计算机与数字工程. 2022(02): 339-343+361 . 百度学术
    17. 苏冠榕. 论比赛中的实际应用对播音专业学生的导向意义——以《中央广播电视总台2019主持人大赛》为例. 西部广播电视. 2022(01): 60-62 . 百度学术
    18. 付小龙,李志丹,程吉祥,刘家伟. 残差网络和损失函数集成的人脸表情识别. 控制工程. 2022(03): 522-529 . 百度学术
    19. 程学军,邢萧飞. 利用改进型VGG标签学习的表情识别方法. 计算机工程与设计. 2022(04): 1134-1144 . 百度学术
    20. 周伟航,肖正清,钱育蓉,马玉民,公维军,帕力旦·吐尔逊. 微表情自动分析方法研究综述. 计算机应用研究. 2022(07): 1921-1932 . 百度学术
    21. 邵志文,周勇,谭鑫,马利庄,刘兵,姚睿. 基于深度学习的表情动作单元识别综述. 电子学报. 2022(08): 2003-2017 . 百度学术
    22. 林怡,曾宪宪,陈神飞,肖晓溪,杨秀,杜怡婷. 基于多源生理反馈的城市景观照明对情绪影响的实验探索——以上海南京东路步行街东段为例. 照明工程学报. 2022(05): 129-143 . 百度学术
    23. 韦丽娟,梁建娟,刘洪,刘本永. 结合FDM与STLBP-IP特征的微表情识别. 软件导刊. 2021(04): 32-35 . 百度学术
    24. 廖云峰,段文双,罗佳佳,赵文洁,吴旭. 基于深度学习的人脸微表情识别. 智能计算机与应用. 2021(04): 62-64 . 百度学术
    25. 周锦荣,徐张伟,段梦芳,邹力伟. 基于卷积神经网络人脸情绪识别的RGB LED混合调光方法研究. 照明工程学报. 2021(04): 83-91 . 百度学术
    26. 潘仙张,陈坚,马仁利. 基于面部表情识别的课堂教学反馈系统. 计算机系统应用. 2021(10): 102-108 . 百度学术
    27. 郭迎春,王静洁,刘依,夏伟毅,张吉俊,李学博,王天瑞. 人脸表情合成算法综述. 数据采集与处理. 2021(05): 898-920 . 百度学术
    28. 陈昌川,王海宁,黄炼,黄涛,李连杰,黄向康,代少升. 一种基于局部表征的面部表情识别算法. 西安电子科技大学学报. 2021(05): 100-109 . 百度学术
    29. 段群,郭新明,黄素萍,谢飞. 基于深度视频分析的面瘫分级方法. 微型电脑应用. 2021(12): 23-25+32 . 百度学术
    30. 诗雨桐,袁德成. 基于深度学习的面部微表情识别. 沈阳化工大学学报. 2021(04): 380-384 . 百度学术
    31. 陆嘉慧,张树美,赵俊莉. 基于深度学习的面部表情识别研究. 计算机应用研究. 2020(04): 966-972 . 百度学术
    32. 张延良,卢冰,蒋涵笑,洪晓鹏,赵国英,张伟涛. 微表情类别与区域间关联度的分析方法研究. 计算机工程与应用. 2020(19): 146-151 . 百度学术
    33. 赖振意,陈人和,钱育蓉. 结合空洞卷积的CNN实时微表情识别算法. 计算机应用研究. 2020(12): 3777-3780+3835 . 百度学术
    34. 苏育挺,王蒙蒙,刘婧,费云鹏,何旭. 基于多运动特征融合的微表情识别算法. 激光与光电子学进展. 2020(14): 353-358 . 百度学术
    35. 涂亮,刘本永. 微表情识别中面部动力谱特征提取的PCA改进. 通信技术. 2019(02): 337-342 . 百度学术
    36. 罗元,余朝靖,张毅,刘浪. 基于改进的局部方向模式人脸表情识别算法. 重庆大学学报. 2019(03): 85-91 . 百度学术
    37. 夏嘉欣,陈曦,林金星,李伟鹏,吴奇. 基于带有噪声输入的稀疏高斯过程的人体姿态估计. 自动化学报. 2019(04): 693-705 . 本站查看
    38. 刘缘,庾永波. 在安检中加强“微表情”识别的思考——基于入藏公路安检的考察. 四川警察学院学报. 2019(01): 61-68 . 百度学术
    39. 张延良,卢冰. 基于信息增量特征选择的微表情识别方法. 计算机工程. 2019(05): 261-266 . 百度学术
    40. 姬秋敏,张灵,陈云华,麦应潮,向文,罗源. 基于视觉机制与协同显著性的自发式表情识别. 计算机工程与设计. 2019(06): 1741-1746 . 百度学术
    41. 刘汝涵,徐丹. 视频放大和深度学习在微表情识别任务上的应用. 计算机辅助设计与图形学学报. 2019(09): 1535-1541 . 百度学术
    42. 沈利迪. 融合深度学习和稀疏表示的人脸表情识别方法研究. 自动化技术与应用. 2019(10): 93-97 . 百度学术
    43. 卢俊锋. 微表情识别综述. 科技视界. 2019(32): 136+158 . 百度学术
    44. 王建霞,陈慧萍,李佳泽,张晓明. 基于多特征融合卷积神经网络的人脸表情识别. 河北科技大学学报. 2019(06): 540-547 . 百度学术
    45. 李霞,卢官明,闫静杰,张正言. 多模态维度情感预测综述. 自动化学报. 2018(12): 2142-2159 . 本站查看
    46. 薛耀锋,杨金朋,郭威,李卓玮. 面向在线学习的多模态情感计算研究. 中国电化教育. 2018(02): 46-50+83 . 百度学术
    47. 卢官明,杨成,杨文娟,闫静杰,李海波. 基于LBP-TOP特征的微表情识别. 南京邮电大学学报(自然科学版). 2017(06): 1-7 . 百度学术

    其他类型引用(94)

  • 加载中
计量
  • 文章访问数:  3322
  • HTML全文浏览量:  229
  • PDF下载量:  1692
  • 被引次数: 141
出版历程
  • 收稿日期:  2014-09-24
  • 修回日期:  2015-03-20
  • 刊出日期:  2015-07-20

目录

/

返回文章
返回