An Algorithm for Affordance Parts Detection of Household Tools Based on Joint Learning
-
摘要: 对工具及其功用性部件的认知是共融机器人智能提升的重要研究方向.本文针对家庭日常工具的功用性部件建模与检测问题展开研究,提出了一种基于条件随机场(Conditional random field,CRF)和稀疏编码联合学习的家庭日常工具功用性部件检测算法.首先,从工具深度图像提取表征工具功用性部件的几何特征;然后,分析CRF和稀疏编码之间的耦合关系并进行公式化表示,将特征稀疏化后作为潜变量构建初始条件随机场模型,并进行稀疏字典和CRF的协同优化:一方面,将特征的稀疏表示作为CRF的随机变量条件及权重参数选择器;另一方面,在CRF调控下对稀疏字典进行更新.随后使用自适应时刻估计(Adaptive moment estimation,Adam)方法实现模型解耦与求解.最后,给出了基于联合学习的工具功用性部件模型离线构建算法,以及基于该模型的在线检测方法.实验结果表明,相较于使用传统特征提取和模型构建方法,本文方法对功用性部件的检测精度和效率均得到提升,且能够满足普通配置机器人对工具功用性认知的需要.Abstract: The research for coherent robots to cognize tools and their affordance parts is an important direction to improve their machine intelligence. Aimed at modeling and detecting affordance parts of household tools, a joint learning algorithm for affordance parts detection via both conditional random field (CRF) and sparse coding is proposed. Firstly, geometric features of affordance parts are obtained from depth images of the tools. Secondly, the coupled relationship between CRF and sparse coding is analyzed and described with formulations. Initial CRF model is built by using sparse coded features as latent variables, and both the sparse dictionary and CRF are optimized simultaneously. On one hand, the sparse coded features are considered as the random variable condition and the weight parameter selector of CRF, and on the other hand, sparse dictionary is updated with the modulation of CRF. Then the model is decoupled and solved with the adaptive moment estimation (Adam). Finally, the offline joint learning algorithm for affordance parts modeling and online detection method are given. The experimental results show that, comparing with traditional features extracting and modeling methods, both the accuracy and efficiency of our method are improved, which can satisfy the affordance cognition requirements for robots with common configurations.
-
纵观人类文明史, 社会每一次进步几乎都与使用工具息息相关; 在人的成长过程中, 学习使用工具也是其必备的能力之一.在机器智能研究领域, 机器人的发展始终都在学习人类智能和技能, 目前机器人可在一定程度上模拟人类的感知能力[1], 而借鉴人类认知方式, 使机器人具备工具及其组成部件的功能用途(功用性, Affordance)认知能力, 对机器人从感知到认知的主动智能提升具有重要意义[2].
目前, 机器人主要通过读取语义标签方式被动获取物品功用性等语义, 基于学习的功用性主动认知方法研究刚刚出现.特别是近年来随着RGB-D传感器(如Kinect)的出现, 3D数据的获取更加方便快捷, 极大地推动了功用性检测领域的研究. Lenz等学习工具中可供机器人抓取的部位[3], Kjellstrom等通过学习人手操作来分类所用工具[4], Grabner等通过3D数据检测出可供坐的曲面[5], 文献[6]将工具功用性看做相互关联的整体, 通过马尔科夫随机场建模工具与人的操作, 文献[7]运用结构随机森林(Structured random forest, SRF)和超像素分层匹配追踪(S-HMP)方法检测家庭常见工具的7种功用性部件(grasp、cut、scoop、contain、pound、support和wrap-grasp), 上述方法均提取彩色图像或深度图像中的特征加以建模, 但没有考虑图像块间的空间上下文信息.文献[8]考虑部件间的空间结构, 针对目标轮廓进行几何特征稀疏表示与分级检测. Redmon等提出采用卷积神经网络(Convolutional neural network, CNN)识别工具[9], 文献[10]研究多模特征深度学习与融合方法, 以实现最优抓取判别, Myers通过双流卷积神经网络(Two-stream CNN), 将几何特征与材质信息相结合用于功用性检测[11], Nguyen等以端到端的方式利用深度特征训练CNN, 并通过CNN中的编解码装置保证标签平滑性[12].但上述深度学习方法均需较高的硬件配置(GPU环境).文献[13]仅利用结构随机森林(SRF)训练功用性部件检测模型, 基本实现了无GPU配置下的实时检测. Thogersen等通过联合随机森林与条件随机场(Conditional random field, CRF)实现室内各功能区的分割[14], 其中CRF的引入有效地整合了空间上下文以描述区域关联性, 但文献[14]缺少对特征有效性的判别而文献[13]仅依靠经验选取关键特征, 两者均可通过采用更加通用的特征编码方法来提升信息的有效性.
稀疏编码已成功应用于图像表示和模式识别等诸多领域, 通过将普通稠密特征转化为稀疏表达形式从而使学习任务得到简化, 使模型复杂度得到降低[15].显著性计算领域的研究结果表明, 对CRF和稀疏编码的联合学习比两种方法顺序处理性能更好[16].借鉴该理论, 本文针对功用性检测问题, 整合CRF刻画空间上下文能力和稀疏编码特征约简的优点, 综合考虑两者间的耦合关系, 设计其联合条件概率表示与解耦策略, 继而给出了基于联合学习的算法实现.
1. 问题描述与分析
本文研究深度图像中工具部件功用性检测问题, 即给定一幅深度图像, 试图得知其中是否存在某类待检测功用性部件.针对此问题, 提出了功用性部件字典的概念, 并将稀疏编码用于工具部件功用性特征表示.此外, 显著性计算和目标跟踪等研究均表明, 如果一个局部块表现了很强的目标特性, 那么其附近的块也可能含有相似的性能[16-17], 遵循这一法则, 针对该功用性字典在描述空间上下文方面的不足, 引入条件随机场(CRF)来表征这种空间临域关系, 从而构建出一个自上而下的基于图像块稀疏编码的CRF模型.但分析可知, 在该模型中CRF构建和稀疏编码是互相耦合的两个子问题:一方面, CRF中节点存储图像块的特征稀疏向量, CRF权重向量的优化将导致特征字典的更新; 另一方面, 各图像块的特征稀疏向量则被用于计算和优化CRF的权重向量.
综合上述分析, 针对不同功用性部件分别训练模型, 将该部件功用性区域视为目标区域, 其他区域视为背景区域, 深度结合CRF与稀疏编码, 将稀疏向量作为潜变量构建CRF, 与此同时, 通过CRF的调制更新字典.
2. 公式化表示
本文针对深度图像展开功用性部件特征提取, 并针对不同功用性部件分别设置与深度图同尺度的二值标签文件.深度图中, 假设某局部图像块特征向量$ {\pmb x }\in {{\bf R}^p} $, $ p $为特征维度, 若在该图像块中存在某功用性部件, 则令该部件二值标签文件中对应位置处的标签$ y = 1 $; 否则, 令$ y = -1 $[18].则可从图像不同位置采样$ m $个图像块构建特征集$ X = \left\{ {{\pmb x_1}, {\pmb x_2}, \cdots, {\pmb x_m}} \right\} $作为观测值, 对应标签集合$ Y = \left\{ {{y_1}, {y_2}, \cdots, {y_m}} \right\} $记录目标存在与否.构建字典$ D \in {{\bf R}^{p \times k}} $用于存储从训练样本学习得到的最具判别性的$ k $个深度特征单词$ \left\{ {{\pmb d_1}, {\pmb d_2}, \cdots, {\pmb d_k}} \right\} $, 并引入潜变量$ {\pmb s_i} \in {{\bf R}^k} $作为图像块特征$ {\pmb x_i} $的稀疏表示, 即有$ {\pmb x_i} = D{\pmb s_i} $.此稀疏表示可进一步公式化为如下最优化问题:
$ \begin{equation} s\left( {\pmb x, D} \right) = \arg \mathop {\min }\limits_{\pmb s} \frac{1}{2}{\left\| {\pmb x - D\pmb s} \right\|^2} + \lambda {\left\| \pmb s \right\|_1} \end{equation} $
(1) 其中, $ \lambda $为控制稀疏性的参数.令$ S\left( {X, D} \right) = \left[ {s\left( {{\pmb x_1}, D} \right), \cdots, s\left( {{\pmb x_m}, D} \right)} \right] $表示所有块的潜变量, 可知$ S\left( {X, D} \right) $为关于字典$ D $的函数, 且同时包含了字典和图像块特征集信息.
考虑到采样块空间连接特性, 本文创建四连接图$ G = \left\langle {v, \varepsilon } \right\rangle $, 其中$ v $表示节点集合, $ \varepsilon $表示边集合, 鉴于$ v $中节点只与其周围四邻接节点存在条件概率关系, 而与其他节点无关.本文以$ S\left( {X, D} \right) $作为节点信息, 则可知在$ S\left( {X, D} \right) $条件下, 图$ G $具有Markov性[16], 即可用如下的条件概率作为CRF公式:
$ \begin{equation} P\left( {Y|S\left( {X, D} \right), \pmb w} \right) = \frac{1}{Z}{{\rm e}^{ - E\left( {S\left( {X, D} \right), Y, \pmb w} \right)}} \end{equation} $
(2) 其中, $ Z $为配分函数, $ E\left( {S\left( {X, D} \right), Y, \pmb w} \right) $为能量函数, 其可分解为节点能量项与边能量项[19-20].对于每一个节点$ i \in v $, 该节点能量由稀疏编码的总贡献计算得到, 即$ \psi \left( {s\left( {{\pmb x_i}, D} \right), {y_i}, {\pmb w_1}} \right) = - {y_i}\pmb w_1^{\rm T}s\left( {{\pmb x_i}, D} \right) $, 其中$ {\pmb w_1} \in {{\bf R}^k} $是权重向量.对于每一条边$ \left( {i, j} \right) \in \varepsilon $, 若只考虑数据间的平滑性, 则有$ \psi \left( {{y_i}, {y_j}, {w_2}} \right) = {w_2} \oplus \left( {{y_i}, {y_j}} \right) $, 其中$ {w_2} $表示标签平滑性的权重, $ \oplus $表示异或运算.
因此, 随机能量场可详写为:
$ \begin{align} E\left( {S\left( {X, D} \right), Y, \pmb w} \right) = \;& \sum\limits_{i \in v} {\psi \left( {s\left( {{\pmb x_i}, D} \right), {y_i}, {\pmb w_1}} \right)} + \\ &\sum\limits_{\left( {i, j} \right) \in \varepsilon } {\psi \left( {{y_i}, {y_j}, {w_2}} \right)} \end{align} $
(3) 其中, $ \pmb w = \left[ {{\pmb w_1};{w_2}} \right] $.
由前面式(2)可知, 学习CRF权重$ \pmb w $与字典$ D $为两个相互耦合的子问题.给出CRF权重$ \pmb w $, 式(2)的模型可以看作是CRF监督下的字典学习; 给出字典$ D $, 则可看作是基于稀疏编码的CRF调制.在此模型中, 通过求解下面的边缘概率来计算节点$ i \in v $的目标概率[21]:
$ \begin{equation} p\left( {{y_i}|s\left( {{\pmb x_i}, D} \right), \pmb w} \right) = \sum\limits_{{y_{N\left( i \right)}}} {p\left( {{y_i}, {y_{N\left( i \right)}}|s\left( {{\pmb x_i}, D} \right), \pmb w} \right)} \end{equation} $
(4) 其中, $ N\left( i \right) $表示图像上结点$ i $的邻居节点.若定义图像块$ i $中目标存在的概率为:
$ \begin{equation} u\left( {s\left( {{\pmb x_i}, D} \right), \pmb w} \right) = p\left( {{y_i} = 1|s\left( {{\pmb x_i}, D} \right), \pmb w} \right) \end{equation} $
(5) 则最终图像中存在某种功用性部件的概率图为:
$ \begin{equation} U\left( {S\left( {X, D} \right), \pmb w} \right) = \left\{ {{u_1}, {u_2}, \cdots, {u_m}} \right\} \end{equation} $
(6) 3. 模型优化与解耦求解
假设由$ N $幅深度图构成的训练样本集为$ \chi = \left\{ {{X^{\left( 1 \right)}}, {X^{\left( 2 \right)}}, \cdots , {X^{\left( N \right)}}} \right\} $, 其对应标签为$ \psi = \left\{ {{Y^{\left( 1 \right)}}, {Y^{\left( 2 \right)}}, \cdots , {Y^{\left( N \right)}}} \right\} $, 本文旨在学习CRF参数$ \hat {\pmb w} $和字典$ \hat D $来获得训练样本的最大联合似然估计:
$ \begin{equation} \mathop {\max }\limits_{\pmb w \in {{\bf R}^{\left( {k + 1} \right)}}, D \in \Omega , S\left( {{X^{\left( n \right)}}, D} \right)} \mathop \Pi \limits_{n = 1}^N P\left( {{Y^{\left( n \right)}}|S\left( {{X^{\left( n \right)}}, D} \right), \pmb w} \right) \end{equation} $
(7) 其中, $ \Omega $为满足如下约束的字典集合:
$ \begin{equation} \Omega = \left\{ {D \in {{\bf R}^{p \times k}}, {{\left\| {{\pmb d_j}} \right\|}_2} \le 1, \forall j = 1, 2, \cdots , k} \right\} \end{equation} $
(8) 3.1 模型优化
对于上节式(7), 考虑到从有限的训练样本学习大量参数较为困难, 参考Max-margin CRF学习方法[22], 我们将似然最大化转化为不等式约束优化问题以追求最优的$ \pmb w $和$ D $, 则对于所有$ Y \ne {Y^{\left( n \right)}}, n = 1, 2, \cdots , N $, 有:
$ \begin{equation} P\left( {{Y^{\left( n \right)}}|S\left( {{X^{\left( n \right)}}, D} \right), \pmb w} \right) \ge P\left( {Y|S\left( {{X^{\left( n \right)}}, D} \right), \pmb w} \right) \end{equation} $
(9) 在此约束优化的条件下可将两边的配分函数$ Z $去掉, 表示为能量项的形式:
$ \begin{equation} E\left( {S\left( {{X^{\left( n \right)}}, D} \right), {Y^{\left( n \right)}}, \pmb w} \right) \le E\left( {S\left( {{X^{\left( n \right)}}, D} \right), Y, \pmb w} \right) \end{equation} $
(10) 若试图使实际的能量$ E\left( {S\left( {{X^{\left( n \right)}}, D} \right), {Y^{\left( n \right)}}, \pmb w} \right) $比任意$ E\left( {S\left( {{X^{\left( n \right)}}, D} \right), Y, \pmb w} \right) $都小[23], 则可令:
$ \begin{align} \;&E\left( {S\left( {{X^{\left( n \right)}}, D} \right), {Y^{\left( n \right)}}, \pmb w} \right) \le \\ &\qquad E\left( {S\left( {{X^{\left( n \right)}}, D} \right), Y, \pmb w} \right) - \Delta \left( {Y, {Y^{\left( n \right)}}} \right) \end{align} $
(11) 本文中定义Margin函数为$ \Delta \left( {Y, {Y^{\left( n \right)}}} \right) = \sum\nolimits_{i = 1}^m {I\left( {{y_i}, {y_i}^{\left( m \right)}} \right)} $.通过寻求最违反约束来求解:
$ \begin{equation} {\hat Y^{\left( n \right)}} = \arg \mathop {\min }\limits_Y E\left( {S\left( {{X^{\left( n \right)}}, D} \right), Y, \pmb w} \right) - \Delta \left( {Y, {Y^{\left( n \right)}}} \right) \end{equation} $
(12) 因此, 对式(7)中权值$ \pmb w $和字典$ D $的学习可通过最小化如下目标损失函数来实现:
$ \begin{equation} \mathop {\min }\limits_{{\pmb w}, D \in \Omega } \left\{\frac{\gamma }{2}{\left\| \pmb w \right\|^2} + \sum\limits_{n = 1}^N {{l^{\left( n \right)}}} \left( {\pmb w, D} \right)\right\} \end{equation} $
(13) 其中, $ {l^{\left( n \right)}}\left( {\pmb w, D} \right) = E\left( {S\left( {{X^{\left( n \right)}}, D} \right), {{\hat Y}^{\left( n \right)}}, \pmb w} \right) - E\left( {S\left( {{X^{\left( n \right)}}, D} \right), {Y^{\left( n \right)}}, \pmb w} \right) $, 参数$ \gamma $控制$ \pmb w $的标准化.
3.2 CRF权重求解
本文采用Adam算法[24]来优化式(13)中的目标损失函数, 从中解耦出CRF并计算其权重.当潜变量$ S\left( {X, D} \right) $己知时, 式(3)中能量函数$ E\left( {Y, S\left( {X, D} \right), \pmb w} \right) $对权值$ \pmb w $是线性的, 则可进一步表示为:
$ \begin{equation} E\left( {Y, S\left( {X, D} \right), \pmb w} \right) = \left\langle {\pmb w, f\left( {S\left( {X, D} \right), Y} \right)} \right\rangle \end{equation} $
(14) 其中, $ f\left( {S\left( {X, D} \right), Y} \right) $ = $ \left[{- \sum\nolimits_{i \in v} {s\left( {{\pmb x_i}, D} \right){y_i};}}\right. $ $ \left.{\sum\nolimits_{\left( {i, j} \right) \in \varepsilon } {I\left( {{y_i}, {y_j}} \right)} } \right] $, 则可得目标损失函数(13)中CRF权重向量$ \pmb w $的梯度函数, 记为:
$ \begin{align} g(\pmb w) = \;&\frac{{\partial {l^n}}}{{\partial {\pmb w}}} = f\left( {S\left( {{X^{\left( n \right)}}, D} \right), {{\hat Y}^{\left( n \right)}}} \right) - \\ &f\left( {S\left( {{X^{\left( n \right)}}, D} \right), {Y^{\left( n \right)}}} \right) + \gamma \pmb w \end{align} $
(15) 对式(15)采用Adam算法加以求解.若第$ t $次迭代的梯度值记为$ {g^{\left( n \right)}}({\pmb w^{\left( {t - 1} \right)}}) $, 有偏的第一时刻向量记为$ {\pmb m^{\left( t \right)}} $, 有偏的第二时刻向量记为$ {\pmb v^{\left( t \right)}} $, 则有:
$ \begin{align} \;&{\pmb m^{\left( t \right)}} = {\beta _1}{\pmb m^{\left( {t - 1} \right)}} + \left( {1 - {\beta _1}} \right) \cdot {g^{\left( t \right)}}\left( {{\pmb w^{\left( {t - 1} \right)}}} \right), \\ &{\pmb v^{\left( t \right)}} = {\beta _2}{\pmb v^{\left( {t - 1} \right)}} + \left( {1 - {\beta _2}} \right) \cdot {\left( {{g^{\left( t \right)}}\left( {{\pmb w^{\left( {t - 1} \right)}}} \right)} \right)^2} \end{align} $
(16) 式中, $ {\beta _1} $, $ {\beta _2} $分别为某接近1的固定参数.对上式进行偏差校正, 令
$ \begin{equation} {\hat {\pmb m}^{\left( t \right)}} = \frac{\pmb m^{\left( t \right)}}{\left( {1 - {\beta _1}^t} \right)}, \quad {\hat {\pmb v}^{\left( t \right)}} = \frac{\pmb v^{\left( t \right)}}{\left( {1 - {\beta _2}^t} \right)} \end{equation} $
(17) 则在第$ t $次迭代后的CRF权重更新公式如下:
$ \begin{equation} {\pmb w^{\left( t \right)}} = {\pmb w^{\left( {t - 1} \right)}} - \alpha \cdot \frac{\hat {\pmb m}^{\left( t \right)}}{\sqrt {{{\hat {\pmb v}}^{\left( t \right)}}}} \end{equation} $
(18) 式中, $ \alpha $为固定参数, 其与$ {\hat {\pmb m}^{\left( t \right)}} $, $ {\hat {\pmb v}^{\left( t \right)}} $联合构成可自适应动态调整的学习率函数.
3.3 字典求解
对于字典$ D $, 本文使用链式法则[25]来计算$ {l^n} $对$ D $的微分:
$ \begin{equation} \frac{{\partial {l^n}}}{{\partial D}} = {\sum\limits_{i \in v} {\left( {\frac{{\partial {l^n}}}{{\partial s\left( {{\pmb x_i}, D} \right)}}} \right)} ^{\rm T}}\frac{{\partial s\left( {{\pmb x_i}, D} \right)}}{{\partial D}} \end{equation} $
(19) 建立式(1)的不动点方程:
$ \begin{equation} {D^{\rm T}}\left( {D\pmb s - \pmb x} \right) = - \lambda {\rm sgn}\left( \pmb s \right) \end{equation} $
(20) 其中$ {\rm sgn}\left( \pmb s \right) $以逐点的方式表示$ \pmb s $的符号, 且$ {\rm sgn}\left( 0 \right) = 0 $.式(20)两端分别对$ D $求导得:
$ \begin{equation} \frac{{\partial {\pmb s_\Lambda }}}{{\partial D}} = {\left( {D_\Lambda ^{\rm T}{D_\Lambda }} \right)^{ - 1}}\left( {\frac{{\partial D_\Lambda ^{\rm T}\pmb x}}{{\partial D}} - \frac{{\partial D_\Lambda ^{\rm T}{D_\Lambda }}}{{\partial D}}} \right) \end{equation} $
(21) 其中, $ \Lambda $表示$ \pmb s $的非零编码索引集, $ \bar \Lambda $表示零编码索引集.为每个$ \pmb s $引入一个辅助变量$ z $来简化式(19):
$ \begin{equation} {z_{\bar \Lambda }} = 0, {z_\Lambda } = {\left( {D_\Lambda ^{\rm T}{D_\Lambda }} \right)^{ - 1}}\frac{{\partial {l^n}}}{{\partial {\pmb s_\Lambda }}} \end{equation} $
(22) 其中, $ {{\partial {l^n}} / {\partial {\pmb s_\Lambda }}} = \left( {{y_i} - {{\hat y}_i}} \right){\pmb w_\Lambda } $, 令$ Z = \left[ {{z_1}, {z_2}, \cdots , {z_m}} \right] $, 至此得到目标损失函数(13)中字典$ D $的梯度为:
$ \begin{align} g\left( D \right) = \frac{{\partial {l^n}}}{{\partial D}} = \;& - DZ{\left( {S\left( {X, D} \right)} \right)^{\rm{T}}} + \\ & \left( {X - DS\left( {X, D} \right)} \right){Z^{\rm{T}}} \end{align} $
(23) 此处, 同样采用Adam算法进行字典的求解, 求解过程与上节相同.
4. 算法实现
4.1 几何特征表示与提取
本文所用特征有高斯曲率(Gaussian curvatures)、方向梯度直方图(Oriented gradient histograms)、梯度幅值(Gradient magnitude)、平均曲率(Mean curvatures)、形状指数(Shape index)、曲度(Curvedness)和表面法向量(Surface normals)[7].其中方向梯度直方图为4维特征向量, 表面法向量为3维特征向量, 其他特征均为1维向量.将这些特征进行归一化后组合, 得到表征某图像块的工具功用性部件的12维特征向量.上述特征均在家庭日常工具1/4下采样的深度图上计算得到, 并经由稀疏编码后作为表征某工具功用性部件的特征向量.
此外, 考虑到方向梯度直方图、梯度幅值、平均曲率、形状指数和曲度在功用性部件边缘快速检测时的重要作用, 借鉴文献[13]中的功用性部件边缘表示方法, 并将这些特征用结构随机森林(SRF)进行组织和功用性部件边缘建模, 受篇幅所限, 具体算法不再赘述.
4.2 基于联合学习的模型构建算法
在对CRF和稀疏编码耦合分析与求解基础上, 采用联合学习的方法分别对每类功用性部件构建模型, 该模型包括了最宜于表征该功用性部件的字典原子及CRF权重向量.下面给出模型构建的完整算法.
算法1.基于联合学习的模型构建算法
输入.$ \chi $ (训练图像集), $ \psi $ (真实标签集), $ {D^{\left( 0 \right)}} $ (初始字典);
$ {\pmb w^{\left(0\right)}} $ (初始CRF权重), $ \lambda $ (在式(1)中), $ T $ (循环次数);
$ \gamma $ (在式(13)中)
输出. $ \hat D $和$ \hat {\pmb w} $
1 for $ t = 1, \cdots , T $ do
2 /*依次训练样本集合$ \left( {\chi , \psi } \right) $*/
3 for $ n = 1, \cdots , N $ do /* $ N $为$ \chi $中深度图像的数量*/
4 通过式(1)评估潜变量$ s\left({{\pmb x_i}, D}\right) $, $ \forall i \in V $;
5 通过式(12)解出最违反标签$ {\hat Y^{\left( n \right)}} $;
6 采用Adam算法通过式(18)更新CRF权重$ {\pmb w^{\left( t\right)}} $;
7 为$ s\left( {{\pmb x_i}, D} \right) $找到有效集$ {\Lambda_i} $, $ \forall i \in V $;
8 通过式(22)计算辅助变量$ {z_i} $;
9 采用Adam算法更新字典$ {D^{\left(t \right)}} $;
10 通过式(8)在$ \Omega $上对$ {D^{\left( t \right)}} $进行正则化;
11 end for
12 end for
13 $ \hat D \leftarrow {D^{\left( t \right)}} $, $ \hat {\pmb w}\leftarrow {\pmb w^{\left( t \right)}} $
4.3 功用性部件在线检测
通过前面的离线建模阶段, 得到了最具判别性的特征字典和CRF权重向量.在线检测过程中, 利用工具部件功用性边缘检测器计算功用性的外接矩形区域, 在此区域内以特征稀疏表示作为图像节点信息, 在联合CRF图模型与稀疏编码的基础上利用置信度传播算法完成图像的语义分割, 至此得到每个图像块属于目标的概率, 进而产生目标功用性概率图$ U = \left\{ {{u_1}, {u_2}, \cdots , {u_m}} \right\} $, 其中, 概率大于某一阈值的区域即为目标区域, 反之则为背景区域.
5. 实验及结果分析
5.1 实验数据集
为验证本文理论推导和算法实现的正确性, 使用文献[7]中的数据集检测并分类其中的家庭工具功用性部件, 该数据集中包括厨房、园艺和工作间共17类105种家庭日常工具的RGB-D信息, 涵盖了grasp、wrap-grasp、cut、scoop、contain、pound、support共7种功用性. 图 1给出了数据集内的部分工具示例, 图 2给出了示例工具所具有的功用性部件, 可以直观看出, 每类工具都可视为若干功用性部件的集合, 而同一功用性部件则可能出现在不同工具中.
针对某种功用性部件, 在数据集中选取包含该功用性部件的各类工具的不同角度Depth图像以及已标记该功用性部件的二值标签文件作为训练样本.从功用性角度出发, 图 3直观地给出了包含功用性部件“盛(Contain)”的工具及其对应的二值标签.
5.2 实验条件与配置
将深度图像1/4下采样后作为训练样本, 其中每个像素视为一个图像块.训练过程中, 收集所有块的几何特征, 并使用K-means算法初始化字典$ {D^{\left( 0 \right)}} $.基于字典计算特征稀疏表示, 并将其作为潜变量与对应标签进行训练得到一个线性SVM (Support vector machine), 利用此SVM初始化CRF结点能量权重$ {\pmb w}_1^{(0)} $, 并将边能量权重$ {\pmb w}_2^{(0)} $设置为1.所有模型训练3个周期, 训练得到表征该功用性部件的字典与CRF权重向量.基于该模型进行功用性部件检测和定位, 产生目标功用性存在的概率图, 将概率值大于等于0.5的图像块认定为目标块, 将概率值小于0.5的块认定为背景块.本文算法运行于Windows 7操作系统, 双核3.20 GHz CPU, 内存为8 GB.
5.3 实验结果及分析
本文依次构建上文提到的4种功用性contain、scoop、support与wrap-grasp的部件检测模型.仅使用文献[15]的稀疏编码并分别采用SIFT (Scale invariant feature transform)特征和深度特征得到的检测结果如图 4 (c)和图 4 (d)所示, 使用文献[16]的联合学习方法并分别采用SIFT特征和深度特征得到的检测结果如图 4 (e)和图 4 (f)所示, 采用深度特征并使用文献[7]方法和文献[13]方法得到的检测结果如图 4 (g)和图 4 (h)所示, 使用本文方法的检测结果如图 4 (i)所示.通过对比可以直观看出, 相较于SIFT特征, 深度特征能够更加有效地表征工具的功用性部件, 且相较于仅采用稀疏编码方法、SRF方法以及传统的CRF与稀疏编码结合的方法, 本文通过对多类深度特征进行稀疏编码, 同时采用CRF表征特征空间关系, 使得检测效果获得了不同程度的提升.
图 4 本文方法与其他方法的检测结果对比图((a)为单一场景下的待检测工具图, 由上到下分别为碗(bowl)、杯子(cup)、勺子(ladle)、铲子(turner); (b)为待检测目标功用性部件的真实值图, 由上到下分别为盛(contain)、握抓(wrap-grasp)、舀(scoop)、支撑(support); (c) SIFT +文献[15]方法检测结果; (d)深度特征+文献[15]方法检测结果; (e) SIFT +文献[16]方法检测结果; (f)深度特征+文献[16]方法检测结果; (g)深度特征+文献[7]方法检测结果; (h)深度特征+文献[13]方法检测结果; (i)本文方法检测结果)Fig. 4 Comparison of detection results between our method and others ((a) Tools in a single scene, from the top to the bottom: bowl, cup, ladle and turner; (b) Ground truth of object affordances, from the top to the bottom: contain、wrap-grasp、scoop、support; (c) Detection result with SIFT + Paper [15]; (d) Detection result with Depth + Paper [15]; (e) Detection result with SIFT + Paper [16]; (f) Detection result with Depth + Paper [16]; (g) Detection result with Depth + Paper [7]; (h) Detection result with Depth + Paper [13]; (i) Detection result with our method)为了进一步定量评定本文方法的性能, 图 5给出了采用不同特征及不同方法所得到的精度召回率曲线.可以看出, 采用SIFT特征表征功用性部件时, 其精度和召回率普遍低于采用深度特征表征功用性部件.本文算法采用深度特征及性能更优的Adam优化算法, 对4种功用性部件的检测效果普遍都较好, 总体性能优于现有方法.
为了评判不同算法的效率, 表 1给出了本文方法与其他已有方法的用时对比.实验过程中, 文献[7]方法需先将深度数据做较为费时的平滑预处理, 再提取深度特征并交由训练好的SRF模型进行功用性判别; 文献[13]中采用功用性部件边缘检测器快速定位目标区域, 有效提升了检测效率; 文献[15$ - $16]方法本用于处理SIFT特征和显著性检测, 但针对功用性部件建模深度特征较SIFT特征更具优势, 在Depth图像中多类深度特征的提取速度稍慢于在RGB图像中SIFT特征.本文从Depth图像中提取多类深度特征, 采用功用性部件边缘检测器快速定位目标区域, 加之采用能够快速收敛的Adam算法, 因此取得了较为理想的检测效率.
表 1 本文方法与其他方法的效率对比(秒)Table 1 Comparison of efficiency between our method and others (s)此外, 需要说明的是, 深度学习方法已被用于功用性部件的学习和检测, 并取得了与本文相当的识别准确率, 但该类方法的运行均需GPU支持, 如文献[9]的CNN方法运行于NVIDIA Tesla K20 GPU环境下, 文献[12]的CNN方法运行于NVIDIA Titan X GPU环境下, 两者的识别速度均达到毫秒级, 但在普通配置的CPU上无法运行.文献[3]的SAE (Sparse auto-encoder)方法虽可运行于CPU环境, 但算法运行耗时较长(如功用性部件grasp的检测用时约几十分钟), 无法满足服务机器人任务的实时性要求.
6. 结论
机器人与人的共融, 将成为下一代机器人的本质特征.事实上, 功用性语义频繁出现在人们的日常思维和交互中, 功用性认知也已成为了人机和谐共融的必然要求.本文利用工具的多类深度特征, 结合稀疏编码与CRF优势训练家庭日常工具功用性部件的检测模型, 通过与利用SIFT特征表示图像信息和传统联合CRF与稀疏编码训练模型的算法进行比较, 由精度召回率曲线可知本文模型对工具部件的目标功用性检测效果良好, 为机器人工具功能认知及后续人机共融和自然交互奠定基础.
-
图 4 本文方法与其他方法的检测结果对比图((a)为单一场景下的待检测工具图, 由上到下分别为碗(bowl)、杯子(cup)、勺子(ladle)、铲子(turner); (b)为待检测目标功用性部件的真实值图, 由上到下分别为盛(contain)、握抓(wrap-grasp)、舀(scoop)、支撑(support); (c) SIFT +文献[15]方法检测结果; (d)深度特征+文献[15]方法检测结果; (e) SIFT +文献[16]方法检测结果; (f)深度特征+文献[16]方法检测结果; (g)深度特征+文献[7]方法检测结果; (h)深度特征+文献[13]方法检测结果; (i)本文方法检测结果)
Fig. 4 Comparison of detection results between our method and others ((a) Tools in a single scene, from the top to the bottom: bowl, cup, ladle and turner; (b) Ground truth of object affordances, from the top to the bottom: contain、wrap-grasp、scoop、support; (c) Detection result with SIFT + Paper [15]; (d) Detection result with Depth + Paper [15]; (e) Detection result with SIFT + Paper [16]; (f) Detection result with Depth + Paper [16]; (g) Detection result with Depth + Paper [7]; (h) Detection result with Depth + Paper [13]; (i) Detection result with our method)
表 1 本文方法与其他方法的效率对比(秒)
Table 1 Comparison of efficiency between our method and others (s)
-
[1] Aly A, Griffiths S, Stramandinoli F. Towards intelligent social robots:current advances in cognitive robotics. Cognitive Systems Research, 2017, 43:153-156 doi: 10.1016/j.cogsys.2016.11.005 [2] Min H Q, Yi C A, Luo R H, Zhu J H, Bi S. Affordance research in developmental robotics:a survey. IEEE Transactions on Cognitive and Developmental Systems, 2016, 8(4):237-255 https://ieeexplore.ieee.org/document/7582380 [3] Lenz I, Lee H, Saxena A. Deep learning for detecting robotic grasps. The International Journal of Robotics Research, 2015, 34(4-5):705-724 doi: 10.1177/0278364914549607 [4] Kjellström H, Romero J, Kragić D. Visual object-action recognition:inferring object affordances from human demonstration. Computer Vision and Image Understanding, 2011, 115(1):81-90 http://d.old.wanfangdata.com.cn/NSTLQK/NSTL_QKJJ0220084270/ [5] Grabner H, Gall J, Van Gool L. What makes a chair a chair? In: Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI: IEEE, 2011. 1529-1536 [6] Koppula H S, Gupta R, Saxena A. Learning human activities and object affordances from RGB-D videos. The International Journal of Robotics Research, 2013, 32(8):951-970 doi: 10.1177/0278364913478446 [7] Myers A, Teo C L, Fermüller C, Aloimonos Y. Affordance detection of tool parts from geometric features. In: Proceedings of the 2015 IEEE International Conference on Robotics and Automation. Seattle, WA: IEEE, 2015. 1374-1381 [8] 林煜东, 和红杰, 陈帆, 尹忠科.基于轮廓几何稀疏表示的刚性目标模型及其分级检测算法.自动化学报, 2015, 41(4):843-853 http://www.aas.net.cn/CN/abstract/abstract18658.shtmlLi Yu-Dong, He Hong-Jie, Chen Fan, Yin Zhong-Ke. A rigid object detection model based on geometric sparse representation of profile and its hierarchical detection algorithm. Acta Automatica Sinica, 2015, 41(4):843-853 http://www.aas.net.cn/CN/abstract/abstract18658.shtml [9] Redmon J, Angelova A. Real-time grasp detection using convolutional neural networks. In: Proceedings of the 2015 IEEE International Conference on Robotics and Automation. Seattle, WA: IEEE, 2015. 1316-1322 [10] 仲训杲, 徐敏, 仲训昱, 彭侠夫.基于多模特征深度学习的机器人抓取判别方法.自动化学报, 2016, 42(7):1022-1029 http://www.aas.net.cn/CN/abstract/abstract18893.shtmlZhong Xun-Gao, Xu Min, Zhong Xun-Yu, Peng Xia-Fu. Multimodal features deep learning for robotic potential grasp recognition. Acta Automatica Sinica, 2016, 42(7):1022-1029 http://www.aas.net.cn/CN/abstract/abstract18893.shtml [11] Myers A O. From form to function: detecting the affordance of tool parts using geometric features and material cues[Ph.D. dissertation], University of Maryland, 2016 [12] Nguyen A, Kanoulas D, Caldwell D G, Tsagarakis N G. Detecting object affordances with Convolutional Neural Networks. In: Proceedings of the 2016 IEEE/RSJ International Conference on Intelligent Robots and Systems. Daejeon: IEEE, 2016. 2765-2770 [13] 吴培良, 付卫兴, 孔令富.一种基于结构随机森林的家庭日常工具部件功用性快速检测算法.光学学报, 2017, 37(2):0215001 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=gxxb201702020Wu Pei-Liang, Fu Wei-Xing, Kong Ling-Fu. A fast algorithm for affordance detection of household tool parts based on structured random forest. Acta Optica Sinica, 2017, 37(2):0215001 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=gxxb201702020 [14] Thogersen M, Escalera S, González J, Moeslund T B. Segmentation of RGB-D indoor scenes by stacking random forests and conditional random fields. Pattern Recognition Letters, 2016, 80:208-215 doi: 10.1016/j.patrec.2016.06.024 [15] Bao C L, Ji H, Quan Y H, Shen Z W. Dictionary learning for sparse coding:algorithms and convergence analysis. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(7):1356-1369 doi: 10.1109/TPAMI.2015.2487966 [16] Yang J M, Yang M H. Top-down visual saliency via joint CRF and dictionary learning. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(3):576-588 doi: 10.1109/TPAMI.2016.2547384 [17] Yang E, Gwak J, Jeon M. Conditional random field (CRF)-boosting:constructing a robust online hybrid boosting multiple object tracker facilitated by CRF learning. Sensors, 2017, 17(3):617 doi: 10.3390/s17030617 [18] Liu T, Huang X T, Ma J S. Conditional random fields for image labeling. Mathematical Problems in Engineering, 2016, 2016: Article ID 3846125 [19] Lv P Y, Zhong Y F, Zhao J, Jiao H Z, Zhang L P. Change detection based on a multifeature probabilistic ensemble conditional random field model for high spatial resolution remote sensing imagery. IEEE Geoscience & Remote Sensing Letters, 2016, 13(12):1965-1969 https://ieeexplore.ieee.org/document/7731208 [20] 钱生, 陈宗海, 林名强, 张陈斌.基于条件随机场和图像分割的显著性检测.自动化学报, 2015, 41(4):711-724 http://www.aas.net.cn/CN/abstract/abstract18647.shtmlQian Sheng, Chen Zong-Hai, Lin Ming-Qiang, Zhang Chen-Bin. Saliency detection based on conditional random field and image segmentation. Acta Automatica Sinica, 2015, 41(4):711-724 http://www.aas.net.cn/CN/abstract/abstract18647.shtml [21] Wang Z, Zhu S Q, Li Y H, Cui Z Z. Convolutional neural network based deep conditional random fields for stereo matching. Journal of Visual Communication & Image Representation, 2016, 40:739-750 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=c784f7eb1578e1bfa06238c4fb50b4ea [22] Szummer M, Kohli P, Hoiem D. Learning CRFs using graph cuts. In: Proceedings of European Conference on Computer Vision, Lecture Notes in Computer Science, vol.5303. Berlin, Heidelberg: Springer, 2008. 582-595 [23] Kolmogorov V, Zabin R. What energy functions can be minimized via graph cuts? IEEE Transactions on Pattern Analysis & Machine Intelligence, 2004, 26(2):147-159 http://d.old.wanfangdata.com.cn/NSTLQK/NSTL_QKJJ0214863408/ [24] Kingma D P, Ba J. Adam: a method for stochastic optimization. In: Proceedings of the 3rd International Conference for Learning Representations. San Diego, 2015. [25] Mairal J, Bach F, Ponce J. Task-driven dictionary learning. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2012, 34(4):791-804 http://d.old.wanfangdata.com.cn/NSTLQK/NSTL_QKJJ0225672733/ 期刊类型引用(3)
1. 王呈,黄义超,杨桂锋. 基于空间特征融合的车间作业工具检测算法. 电子测量与仪器学报. 2023(03): 39-49 . 百度学术
2. 周晓敏,李雄,李丽琦,巩宪锋,张清东,张勃洋. 基于自适应矩估计算法的冷连轧机板形反馈优化控制策略. 冶金自动化. 2022(06): 102-110 . 百度学术
3. 张琪安,张波涛,吕强,王亚东. 采用卷积神经网络的低风险可行地貌分类方法. 控制理论与应用. 2020(09): 1944-1950 . 百度学术
其他类型引用(2)
-