2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

机器人操作技能模型综述

秦方博 徐德

李庆忠, 白文秀, 牛炯. 基于改进CycleGAN的水下图像颜色校正与增强. 自动化学报, 2023, 49(4): 820−829 doi: 10.16383/j.aas.c200510
引用本文: 秦方博, 徐德. 机器人操作技能模型综述. 自动化学报, 2019, 45(8): 1401-1418. doi: 10.16383/j.aas.c180836
Li Qing-Zhong, Bai Wen-Xiu, Niu Jiong. Underwater image color correction and enhancement based on improved cycle-consistent generative adversarial networks. Acta Automatica Sinica, 2023, 49(4): 820−829 doi: 10.16383/j.aas.c200510
Citation: QIN Fang-Bo, XU De. Review of Robot Manipulation Skill Models. ACTA AUTOMATICA SINICA, 2019, 45(8): 1401-1418. doi: 10.16383/j.aas.c180836

机器人操作技能模型综述

doi: 10.16383/j.aas.c180836
基金项目: 

国家自然科学基金 61873266

国家自然科学基金 61733004

国家重点研究发展计划 2018YFD0400902

详细信息
    作者简介:

    秦方博   中国科学院自动化研究所博士研究生.2013年获得北京交通大学电子信息工程学院学士学位.主要研究方向为机器人视觉感知与控制, 精密装配.E-mail:qinfangbo2013@ia.ac.cn

    通讯作者:

    徐德   中国科学院自动化研究所研究员.于1985年和1990年获得山东工业大学学士和硕士学位, 2001年获得浙江大学博士学位.主要研究方向为机器人视觉测量, 视觉控制, 智能控制, 视觉定位, 显微视觉, 微装配.本文通信作者.E-mail:de.xu@ia.ac.cn

Review of Robot Manipulation Skill Models

Funds: 

National Natural Science Foundation of China 61873266

National Natural Science Foundation of China 61733004

National Key Research and Development Program of China 2018YFD0400902

More Information
    Author Bio:

      Ph. D. candidate at the Institute of Automation, Chinese Academy of Sciences. He received his bachelor degree from the School of Electronic and Information Engineering, Beijing Jiaotong University in 2013. His research interest covers robot vision based perception and control, and precision assembly

    Corresponding author: XU De   Professor at the Institute of Automation, Chinese Academy of Sciences. He received his bachelor and master degrees from Shandong University of Technology in 1985 and 1990, respectively, and received his Ph. D. degree from Zhejiang University in 2001. His research interest covers robotics and automation such as visual measurement, visual control, intelligent control, visual positioning, microscopic vision, and microassembly. Corresponding author of this paper
  • 摘要: 机器人技能学习是人工智能与机器人学的交叉领域,目的是使机器人通过与环境和用户的交互得到经验数据,基于示教学习或强化学习,从经验数据中自主获取和优化技能,并应用于以后的相关任务中.技能学习使机器人的任务部署更加灵活快捷和用户友好,而且可以让机器人具有自我优化的能力.技能模型是技能学习的基础和前提,决定了技能效果的上限.日益复杂和多样的机器人操作任务,对技能操作模型的设计实现带来了很多挑战.本文给出了技能操作模型的概念与性质,阐述了流程、运动、策略和效果预测四种技能表达模式,并对其典型应用和未来趋势做出了概括.
  • 云资源的按使用付费模式以及弹性扩展能力, 为大规模科学应用的分布式管理与高效执行提供了快速、灵活、可扩展的部署环境[1-3]. 科学应用的分布式管理与高效执行的关键在于工作流调度, 而调度算法的设计、调度性能的优劣以及调度方案的可实施性, 直接取决于任务执行时间的估计精度[4-5].

    在实际云数据中心环境下, 大量、频繁的用户服务请求与响应, 使数据中心的运行数据规模呈指数级增长. 其中, 工作流执行日志数据包含了大量的任务执行时间历史及其相关影响因素数据, 并在数据驱动的任务执行时间预测中发挥着重要作用. 任务执行时间的影响因素数据, 可根据其特征划分为类别型数据和数值型数据. 类别型数据与任务和资源的多样性、异构性相关, 其数值离散且取值范围广, 如任务名称和机器ID等; 数值型数据则与云环境的动态特性相关, 其数值连续, 且在一定范围内波动, 如资源利用率和网络带宽等. 在大数据环境下, 类别型数据的高维稀疏特性会扩大模型的搜索空间, 数值型数据的低维稠密特性会降低部分特征之间的差异性, 从而加大了模型寻优和学习的难度, 给任务执行时间预测带来了巨大挑战[6].

    本文提出了一种基于多维度特征融合(Multi-dimensional feature fusion, MDFF)的云工作流任务执行时间预测算法. 针对类别型数据和数值型数据的特点, 设计不同的特征提取方法, 分别提取类别型和数值型特征. 同时, 通过将提取的特征和原始数据特征进行有选择地融合, 并采用轻量梯度提升机算法对融合特征进行挖掘与利用, 实现云工作流任务执行时间的精准预测.

    本文的主要贡献如下:

    1)构建具有注意力机制的堆叠残差循环网络, 将类别型数据从高维稀疏空间映射到低维稠密空间, 通过减小搜索空间, 提升模型对类别型数据的解析能力, 同时增强模型对类别型特征的关注度, 以有效提取类别型特征, 提高预测精度.

    2)引入极限梯度提升算法, 对数值型数据进行离散化编码, 通过将过于稠密的数值型数据稀疏化, 突出特征之间的差异性, 避免模型训练陷入局部最优的可能, 提升模型的非线性信息表达能力, 有效提取数值型特征, 改善预测精度.

    3)设计多维异质特征融合策略, 将具有注意力机制的堆叠残差循环网络提取的类别型特征、极限梯度提升(Extreme gradient boosting, XGB)模型提取的数值型特征与原始样本数据进行选择性融合, 以充分挖掘与利用任务执行时间的多维度特征, 学习更全面的任务执行时间知识, 降低预测误差.

    传统的云计算任务执行时间估计方法, 大多基于微分测量[7]、相似性分析[8-9]以及数学表达式[10-11]等统计学习算法, 忽略了云资源的动态变化以及云环境的复杂特性, 难以实现任务执行时间的准确估计. 随着机器学习的不断发展, 数据驱动的执行时间预测方法被广泛应用于各种云应用场景. 近年来, 研究人员一直在探索如何将各种机器学习算法(如传统机器学习、深度学习与集成学习算法)应用于云计算任务执行时间预测, 以从海量、异构、复杂和多维的工作流任务执行数据中挖掘出更有效的信息.

    基于传统机器学习的云工作流任务执行时间预测, 大多采用多元线性回归、支持向量回归等早期机器学习算法. Nouri等[12]和Tahvili等[13]建立了任务执行时间及其影响因素的多元回归模型, 实现任务执行时间的估计. 可是, 多元线性回归模型更适合捕捉线性关系, 难以学习工作流任务执行时间及其影响因素之间的非线性关系. Park等[14]与郑婷婷等[15]利用支持向量回归, 进行任务执行时间预测. 但是, 支持向量回归采用二次规划计算支持向量, 导致很大的内存和时间开销, 特别是在大数据样本时, 其模型训练时间过长.

    深度学习具有超强的特征映射能力, 能够从海量数据中学习并挖掘数据之间的非线性关系, 为数据驱动的任务执行时间预测提供了新思路[16-17]. 伍章俊等[18]和Nadeem等[19]采用径向基函数(Radial basis function, RBF)神经网络, 构建了云工作流活动执行时间预测模型. 但是, RBF网络是一种单隐含层的前馈网络, 难以有效学习序列数据驱动的任务执行时间变化趋势相关的知识, 不适用于云环境下的任务执行时间预测. 因此, Rehse等[20]引入循环神经网络(Recurrent neural network, RNN), 通过捕捉任务执行时间的变化趋势来进行任务运行时间预测. Zhu等[21]提出了基于长短时记忆网络(Long short-term memory, LSTM)的预测方法, 解决RNN因梯度爆炸/消失而引起的预测精度降低问题. Bi等[22]选择Savitzky-Golay滤波器, 滤除原始数据序列的极值点和噪声干扰, 并利用LSTM进行任务执行时间预测.

    神经网络(Neural network, NN)强大的非线性拟合能力和大数据学习能力, 使基于深度学习的任务执行时间预测效果得到了明显改善, 但是, NN固有的层级连接结构和大量神经元计算, 不仅使优化超平面变得十分复杂, 也大大增加了模型寻优的难度, 从而影响预测精度. 此外, 这些研究工作大多基于单一机器学习算法, 即使特征空间包含非常有效的信息, 但是单一模型有限的学习能力, 很难找到最优解, 直接影响预测精度[23].

    集成学习可以综合相同/不同模型的学习能力, 为云计算任务执行时间预测开辟了新的途径. 一些学者将多个单一模型有机结合, 通过不同模型的优势互补来增强集成模型的学习能力, 并减少预测误差. 郑顾平等[24]综合线性、非线性和多项式回归等拟合技术, 搭建了基于参数变化的云应用程序执行时间预估模型. 类似地, 李帅标等[25]将朴素贝叶斯、支持向量回归和LSTM有机结合, 通过Stacking策略进行模型融合, 提出了一种业务过程剩余时间预测算法. Nadeem等[26]通过集成局部学习和进化计算, 实现了对e-Science工作流执行时间的预测. Hilman等[27]基于LSTM和K最近邻技术, 设计了在线增量学习方法, 用于工作流任务运行时间预测. Gao等[28]采用基于受限玻尔兹曼机(Restricted Boltzmann machine, RBM)堆叠的深度置信网络(Deep belief network, DBN), 建立了并发请求云服务响应时间与虚拟机资源之间的映射模型. Pham等[29]提出了基于随机森林(Random forest, RF)的两阶段预测算法, 实现对云工作流任务执行时间的估计. 实践证明, 在大多数情况下, 集成方法的预测精度优于单一机器学习算法. 因此, 本文利用集成学习方法解决大数据驱动的云工作流任务执行时间预测问题.

    集成学习在大数据驱动的云计算任务执行时间预测方面取得了一定效果, 但它们大多基于仿真数据, 且仿真环境难以模拟云环境下资源的动态接入、撤离以及网络的不稳定性. 因此, 仿真数据给出的离散型或者连续型任务执行时间的影响因素数据, 其取值都在一定范围内, 使得类别型数据和数值型数据难以区分. 也就是说, 仿真数据与实际云数据中心环境下的工作流执行日志数据存在很大差异. 然而, 现有采用仿真数据的集成学习方法往往忽略了这种差异性, 在对类别型和数值型数据进行相似处理的基础上, 进行云计算任务执行时间预测. 现有的集成学习方法存在以下问题: 1)对类别型数据的解析能力不足, 即类别型数据的高维稀疏特性使搜索空间过大, 模型很难找到最优解, 从而影响预测精度; 2)缺乏足够的非线性表达能力, 且模型学习困难、易于陷入局部最优, 难以应对数值型数据的低维稠密特性所带来的特征差异性降低问题, 影响预测效果; 3)直接对提取到的特征进行学习, 导致学习效率低甚至学到无效或错误信息, 影响预测结果的准确性.

    本节介绍本文算法涉及的主要理论基础, 即XGB算法[30]和轻量梯度提升机(Light gradient boosting machine, LGBM)算法[31].

    作为梯度提升机(Gradient boosting machine, GBM)的一种高效实现, XGB利用梯度提升技术, 通过迭代生成残差下降的决策树(即基学习器), 将低精度的基学习器组合成一个较高精度的强学习器, 并利用正则化和二阶泰勒展开防止过拟合, 提高了模型的泛化能力. 因此, XGB模型能获得较好且不同的特征表达, 适合处理取值范围固定、数值连续的数值型数据.

    数据集$D = \{ ({X_i},{Y_i})\} $含有n个样本和m个特征, 其中${X_i}$为第i个样本的输入向量, ${Y_i}$${X_i}$对应的输出, ${Y_i} \in {{\bf{R}}}$, $i = 1,2, \cdots ,n$. 假设XGB模型由K棵树集成, 其预测函数如下:

    $${\hat Y_i} = \varphi ({X_i}) = \sum\limits_{k = 1}^K {{f_k}({X_i})} ,\;\;\;{f_k} \in F$$ (1)

    式中, $F =\{ {f(X) = {\omega _{q(X)}}} \}\;( q:\,{{\bf{R}}^m} \to \{1,2,\cdots,T\},$ $\omega \in {{\bf{R}}^T})$为一组回归树, ${\hat Y_i}$为样本$X_i $的预测值, q表示每棵树的结构, $\omega $表示叶子权重, T为叶子节点的数量, ${f_k}$对应第k棵树的结构和叶子权重, $f _k(X_i) $为第k棵树对样本$X_i $的预测分数. 目标函数可定义为:

    $$L(\varphi ) = \sum\limits_{i = 1}^n {l({{\hat Y}_i},{Y_i})} + \sum\limits_{k = 1}^K {\Omega ({f_k})} $$ (2)

    式中, l为可导凸函数, 表示预测值${\hat Y_i}$和真实值${Y_i}$的差异. $ \Omega ( \cdot )$是正则化惩罚项, 用以避免树的结构过于复杂、平滑学习权重并缓解过拟合.

    在XGB模型迭代添加树的过程中, 第t次的目标函数可表示为:

    $${L^t} = \sum\limits_{i = 1}^n {l\left( {{Y_i},\;{{\hat Y}_i}^{t - 1} + {f_t}({X_i})} \right)} + \Omega ({f_t})$$ (3)

    式中, $\hat Y_i^{t - 1}$为第t−1次迭代时第i个样本的预测值. 对式(3)进行二阶泰勒级数展开并去掉常数项, 可得:

    $${L^t} \simeq \sum\limits_{i = 1}^n {\left[ {{g_i}{f_t}(X{}_i) + \frac{1}{2}{h_i}{f_t}^2(X{}_i)} \right]} + \Omega ({f_t})$$ (4)

    式中, $\Omega ({f_t}) \;=\; \gamma T \;+\; ({1}/{2})\lambda \sum\nolimits_{j = 1}^T {\omega _j^2},$ ${f_t}(X{}_i) = {\omega _{{q_t}({X_i})}},$$\gamma $$\lambda$为自然系数, ${g_i} = {\partial _{{{\hat Y}_i^{t - 1}}}}l( {{Y_i},{{\hat Y}_i^{t - 1}}} )$${h_i} = \partial _{{{\hat Y}_i^{t - 1}}}^2l( {{Y_i},{{\hat Y}_i^{t - 1}}} )$分别为损失函数的一阶和二阶泰勒展开. 定义${I_j} = \left\{ {i|q({X_i}) = j} \right\}$为叶子节点j上样本的集合, 对于一个固定的结构$q\left( X \right)$, 可按式(5)和(6)计算最优权重$\omega _j^ * $和最优目标函数值${L^ * }$:

    $$\omega _j^ * = - \frac{{\sum\limits_{i \in {I_j}} {{g_i}} }}{{\sum\limits_{i \in {I_j}} {{h_i}} + \lambda }}$$ (5)
    $${L^*} = - \frac{1}{2}\sum\limits_{j = 1}^T {\frac{{{{\bigg( {\sum\limits_{i \in {I_j}} {{g_i}} } \bigg)}^2}}}{{\sum\limits_{i \in {I_j}} {{h_i}} + \lambda }}} + \gamma T$$ (6)

    LGBM基于单边梯度采样(Gradient-based one-side sampling, GOSS)和互斥特征捆绑技术(Exclusive feature bundling, EFB), 能够在不损失预测精度的情况下加速梯度提升过程, 提高模型训练效率. 因此, 相比于XGB模型, LGBM模型易于扩展、训练效率高, 更适合处理特征维度高、数据量大的数据, 满足云工作流任务执行时间预测问题的需求.

    作为一种在保证精度的前提下能减少数据量的算法, GOSS在决策树迭代生成过程中根据梯度绝对值对数据进行排序, 选取前$a \%$个样本, 并在剩余的样本数据中随机采样b个样本. 在计算信息增益时, 通过对采样的小梯度数据乘以系数(1−a)/b, 来缓解甚至消除数据分布的影响, 使算法更加关注训练不足的实例. 在分割点d分割特征j的信息增益的计算如式(7)所示:

    $$\begin{split} {{\hat V}_j}(d) = \;& \frac{1}{I}\left[ \frac{{{{\left( {\sum\limits_{{X_i} \in {A_l}} {{\vartheta _i}} + \frac{{1 - a}}{b}\sum\limits_{{X_i} \in {B_l}} {{\vartheta _i}} } \right)}^2}}}{{I_l^j(d)}} +\right.\\ &\left. \frac{{{{\left( {\sum\limits_{{X_i} \in {A_r}} {{\vartheta _i}} + \frac{{1 - a}}{b}\sum\limits_{{X_i} \in {B_r}} {{\vartheta _i}} } \right)}^2}}}{{I_r^j(d)}} \right] \end{split} $$ (7)

    式中, I$ I_l^j\left( d \right) $$I_r^j\left( d \right) $分别为叶子节点d及其左右两个子节点上的样本个数; ${A_l}$${A_r}$分别为d的左、右两个子节点上的大梯度样本集合; ${B_l}$${B_r}$分别为d的左、右两个子节点上的小梯度样本集合; ${\vartheta _i}$为第i个样本${X_i}$的梯度.

    通过将互斥的特征绑定为单一特征, EFB从捆绑的特征中构建直方图, 达到了在不损失精度的情况进行特征降维的目的. 首先, EFB计算并判断特征之间的互斥程度, 若两个特征之间的互斥程度之和小于设定的阈值, 则绑定它们的特征, 减少参与训练的特征数, 提高模型训练效率. 其中, 两个特征是否互斥及其互斥程度, 可按式(8)和式(9)进行判断:

    $$ {E}_{i}^{u,v}=\left\{\begin{aligned} &0,\;\;\;{X}_{i}^{u}\ne 0\;{\text{且}\;}{X}_{i}^{v}\ne 0\\ &1,\;\;\;{\text{其他}} \end{aligned}\right.$$ (8)
    $$\sum\limits_{i = 1}^n {E_i^{u,v}} \leq E$$ (9)

    式中, $X_i^u$$X_i^v$分别为样本i的第u和第v个特征的数值, E为判断两个特征互斥程度的阈值.

    现有的任务执行时间预测算法缺乏有效的非线性表达能力和高维稀疏数据解析能力, 导致任务执行时间预测精度低, 难以满足大数据环境下的云工作流任务执行时间预测要求. 为此, 本文提出了一种基于多维度特征融合的云工作流任务执行时间预测算法. 首先, 针对类别型数据${x_{Ca}}$和数值型数据${x_{Nu}}$, 设计异质特征提取器, 实现对类别型特征${\tilde x_{Ca}}$和数值型特征${\tilde x_{Nu}}$的有效提取. 其次, 有选择地融合原始数据特征和提取到的特征, 为预测模型提供更全面、更深层的融合知识. 最后, 基于融合特征数据${\tilde x_{Fu}}$构建预测模型, 实现对云工作流任务执行时间的精准预测. 本文基于多维度特征融合的云工作流任务执行时间预测模型如图1所示, 主要包括特征提取、特征融合和预测3个部分.

    图 1  基于多维度特征融合的云工作流任务执行时间预测模型
    Fig. 1  The multi-dimensional feature fusion-based runtime prediction model for cloud workflow tasks

    基于神经网络的预测任务, 通常包括特征提取和预测两个步骤. 为充分挖掘类别型数据相关的知识, 本文MDFF算法采用具有注意力机制的堆叠残差循环网络(Stacked attention residual recurrent neural network, SARR)提取类别型特征. 在RNN网络的基础上, 通过引入注意力机制和添加残差连接, 构建堆叠残差循环网络, 设计基于SARR的类别型特征提取器.

    SARR包括Embedding模块、门控循环单元(Gate recurrent unit, GRU)模块和LSTM模块三个部分, 如图2所示. 图2中, Embedding模块包含基于RNN的Embedding单元; GRU模块包括GRU单元、Attention单元以及残差连接; LSTM模块包含LSTM单元、Attention单元以及残差连接.

    图 2  基于SARR的类别型特征提取器
    Fig. 2  The SARR-based Categorical feature extractor

    图2所示, 样本影响因素数据中的类别型向量${x_{Ca}}$, ${x_{Ca}} \in {{\bf{R}}^{1 \times {N_{Ca}}}}$, 依次经过SARR的Embedding模块、GRU模块和LSTM模块处理, 最终提取到相应的类别型特征向量$\tilde x_{Ca}$, ${\tilde x_{Ca}} \in {{\bf{R}}^{1 \times {N_{SARR}}}}$. 图2中, LSTM模块输出的特征向量即为SARR提取到的类别型特征. 在SARR模型中, Embedding 模 块、GRU模块和LSTM模块的计算过程分别如式(10) ~ (12)所示:

    $$ y_{E}=W_{e} x_{C a}+b_{e} $$ (10)
    $$ y_{G R U}=W_{g r u} y_{E}+b_{g r u} $$ (11)
    $$ \tilde{x}_{C a}=y_{L S T M}=W_{l s t m} y_{G R U}+b_{l s t m} $$ (12)

    式中, $y_{E} $$ y_{G R U}$$y_{L S T M} $分别为Embedding模块、GRU模块和LSTM模块的输出向量, $W_e $$b_e $$W_{g r u} $$b_{g r u} $$W_{l s t m} $$b_{l s t m} $分别为Embedding模块、GRU模块和LSTM模块的线性权值矩阵和偏差.

    SARR在不增加网络层数的情况下, 解决了梯度消失可能引起的网络退化问题, 能够提取与任务执行时间显著相关的特征, 并通过为最终的预测器提供更有效的特征, 改善预测精度.

    基于梯度提升机的预测方法, 通常包括特征提取和预测两个步骤. 为充分挖掘数值型数据相关的知识, 本文设计了基于XGB的数值型特征提取器, 如图3所示. 其中, 从每一个XGB基学习器的根节点到叶子节点所进行的运算为特征提取过程, 从所有基学习器的叶子节点到输出节点的计算属于预测过程.

    图 3  基于XGB的数值型特征提取器
    Fig. 3  The XGB-based Numerical feature extractor

    图3所示, 本文利用XGB提取样本影响因素数据中数值型向量$ x_{Nu} $对应的特征向量$\tilde x_{Nu} $, 其中${x_{Nu}} \in {{\bf{R}}^{1 \times {N_{Nu}}}}$, ${\tilde x_{Nu}} \in {{\bf{R}}^{1 \times {N_{XGB}}}}$. 首先, 计算$ x_{Nu}$在每棵树的每个叶子节点上分裂后的损失减少值$L_{split} $, 根据该损失减少值判断是否需继续分裂, 并最终确定XGB模型中每棵树的结构. 其中, 分裂损失的计算公式如下:

    $$ {L_{{{split }}}} = \frac{1}{2}\left| {\frac{{G_L^2}}{{{H_L} + \lambda }} + \frac{{G_R^2}}{{{H_R} + \lambda }} - \frac{{G_j^2}}{{{H_j} + \lambda }}} \right| - \gamma $$ (13)

    式中, $G_j $$H_j$分别为在叶子$j $上所有数值型数据集合$I_j $的损失函数的一阶、二阶梯度统计量之和; ${G_L} = \sum\nolimits_{i \in {I_L}} {{g_i}} $$ {H_L} = \sum\nolimits_{i \in {I_L}} {{h_i}} $${G_R} = \sum\nolimits_{i \in {I_R}} {{g_i}} $${H_R} = \sum\nolimits_{i \in {I_R}} {{h_i}} $分别为叶子节点j分裂后的左、右叶子节点的一阶、二阶梯度统计量之和; $I_R $$I_L $分别为当前叶子节点分裂后的左、右叶子节点上的数值型数据集合, $\gamma $为常数.

    然后, 通过树的结构函数$q\left( \cdot \right) $寻找每个数值型向量在每棵树的每个分支最深一层中所属叶子的下标, 并标记为1, 对每个数值型向量进行离散化编码. 结构函数$q\left( \cdot \right) $如式(14)所示:

    $${q_k}\left( {{x_{Nu}}} \right):\;{\bf R}^{{N_{Nu}}} \to {T_k}$$ (14)

    式中, $T_k $为第k棵树的叶子节点数量. 利用XGB对数值型向量进行离散化编码后获得的新向量, 即为数值型特征向量${\tilde x_{Nu}} $.

    在提取的类别型特征和数值型特征基础上, 本文进一步提出了多维异质特征融合策略, 旨在同时收集低维和高维特征信息之间的交互信息, 使预测模型学习到更全面且有效的任务执行时间知识, 降低预测误差.

    本文提出的多维异质特征融合策略, 包含特征拼接、特征重要性计算、特征排序和筛选几个步骤. 首先, 将SARR与XGB模型提取到的特征向量与原始输入向量进行拼接, 得到一个式(15)所示的新输入向量${x_{fu1}}$, 且${x_{fu1}} \in {{\bf{R}}^{1 \times ({N_{Ca}} + {N_{Nu}} + {N_{SARR}} + {N_{XGB}})}}$:

    $${x_{fu1}} = \left( {{x_{Ca}},\;{x_{Nu}},\;{{\tilde x}_{Ca}},\;{{\tilde x}_{Nu}}} \right)$$ (15)

    然后, 利用${x_{fu1}}$训练LGBM模型, 用于计算不同特征的重要性, 并按重要性对特征进行排序:

    $$ {f_{imp}}\left( {{x_i}} \right) = {\rm{rank}}\left( {{N_{split}}\left( {{x_i}} \right)} \right),{x_i} \in {x_{fu1}} $$ (16)

    式中, $x_i $为拼接向量$x_{fu1} $中的第i维特征, ${f_{imp}}\left( \cdot \right) $为特征重要性计算与排序函数, ${N_{split}}\left( {{x_i}} \right)$为整个特征重要性排序模型生成过程中${x_i}$被选取为分裂节点的次数. 最后, 从排序表中筛选出更具判别力的特征, 构成用于任务执行时间预测的多维度融合输入特征向量${\tilde x_{Fu}} $:

    $$ {\tilde x_{Fu}} = \left(x_i | {{f_{imp}}\left( {{x_i}} \right) \ge {\rm{ }}threshold{\rm{ }}} ,\;{x_i} \in {x_{fu1}}\right) $$ (17)

    式中, $threshold $为特征筛选阈值, 且${x_i}$被选为分裂点的次数越多, 说明${x_i}$对预测结果的贡献越大.

    多维度融合特征$ {\tilde x_{Fu}}$舍弃了部分信息含量少或者与输出关联性弱的特征, 在保证预测精度的同时降低了特征空间的维度, 进一步减少了预测所需的计算开销.

    在获得多维异质融合特征的基础上, 本文采用LGBM模型对多维异质特征进行充分挖掘与利用, 以精准地预测任务执行时间, 为大数据环境下的云工作流调度提供决策支持.

    本文基于多维度特征融合的云工作流任务执行时间预测方法, 包括3个部分: 1)针对类别型数据和数值型数据, 设计不同的特征提取方法, 分别提取类别型和数值型特征; 2)将提取到的特征数据与原始数据进行选择性融合, 为预测模型提供更全面的特征输入; 3)构建基于融合特征的预测模型, 获得云工作流任务执行时间预测结果. 整体流程如下:

    步骤1. 输入云工作流任务执行时间数据集$D = \{ ({X_i},{Y_i})\} $, 其中, ${X_i}$为第i个样本的任务执行时间影响因素向量; ${Y_i}$为第i个样本的任务执行时间.

    步骤2. 将一个输入数据向量${X_i}$划分为类别型数据向量$x_{Ca} $和数值型数据向量$x_{Nu} $, 即${X_i} = \{ {x_{Ca}}, {x_{Nu}}\}$.

    步骤3. 利用类别型数据向量$ x_{Ca}$, 训练SARR模型, 不断调整参数, 直至获得误差最小的SARR模型.

    步骤4. 对训练好的SARR模型, 去掉其输出层以及输出层的所有连接参数, 得到类别型特征提取器, 并对$x_{Ca} $进行特征提取, 获得类别型特征向量${\tilde x_{Ca}}$.

    步骤5. 利用数值型数据向量$x_{Nu} $, 训练XGB模型, 并对$x_{Nu} $进行特征提取, 获得初始数值型特征向量${\tilde x_{Nu\_1}}$.

    步骤6. 利用类别型特征向量${\tilde x_{Ca}}$和初始数值型特征向量${\tilde x_{Nu\_1}} $, 训练LGBM评判模型.

    步骤7. 调整XGB模型参数, 重复步骤5 ~ 6, 直至LGBM评判模型的误差稳定在一定范围内, 且波动不超过5%; 挑选出使LGBM评判模型误差最小的XGB模型参数, 并基于该组参数训练XGB模型.

    步骤8. 对训练好的XGB模型, 去掉其输出层以及输出层的所有连接参数, 获得数值型特征提取器, 并对$x_{Nu} $进行特征提取, 获得最终数值型特征向量$\tilde x_{Nu} $.

    步骤9. 构建多维异质特征融合器, 将类别型数据向量$ x_{Ca}$、数值型数据向量$x_{Nu} $、类别型特征向量${\tilde x_{Ca}}$和数值型特征向量$\tilde x_{Nu} $进行融合, 获得融合后的特征向量$\tilde x_{Fu}$.

    步骤10. 基于融合特征向量$ \tilde x_{Fu}$, 利用网格寻优算法训练LGBM预测模型, 直至获得误差最小的LGBM模型, 并将其作为预测器.

    步骤11. 取出类别型特征提取器、数值型特征提取器、多维异质特征融合器和预测器, 构建基于多维度特征融合的云工作流任务执行时间预测模型.

    步骤12. 输出云工作流任务执行时间预测模型.

    为了验证所提出的基于多维度特征融合的云工作流任务执行时间预测模型的有效性, 本文选择2018年阿里巴巴集群数据集行进行仿真实验, 通过在不同指标下与6种基线预测方法进行对比说明本文方法的优越性.

    4.1.1   数据集

    本文实验数据来源于阿里巴巴2018年集群运行日志数据集Cluster-trace-v2018[32]. Cluster-trace-v2018记录了阿里巴巴某个生产集群中约4000台服务器8天的运行详细日志, 具体可查阅https://github.com/alibaba/clusterdata/blob/master/Cluster-trace-v2018.

    在进行云工作流任务执行时间预测前, 本文对Cluster-trace-v2018数据集进行了预处理. 首先, 分析Cluster-trace-v2018数据集, 寻找任务执行时间相关的关键属性, 并根据这些关键属性匹配不同数据表中的数据, 获得包含任务执行时间和相关影响因素的数据集. 其次, 对该数据集存在的异常值和缺失值进行处理, 获得包含22155组云工作流任务的执行时间及其对应的所有影响因素数据, 即最终可用于检验算法的云工作流任务执行时间数据集. 最后, 在获取的数据集上随机抽取17724组数据构成训练集, 将剩余的4431组数据作为测试集.

    4.1.2   对比算法

    为了验证MDFF的有效性和优越性, 本文选取了六种对比算法, 包括深度兴趣网络(Deep interest network, DIN)[33]、深度交叉网络(Deep & cross network, DCN)[34]、深度因子分解机(Deep factorization machine, DeepFM)[35]、宽度与深度模型(Wide & Deep, W&D)[36]、两阶段预测方法(Two stage approach, TSA)[37]和梯度提升树与线性回归的结合方法(Gradient boosting decision tr-ee + linear regression, GBDT$+ $LR)[38]. 其中, DI-N和DCN侧重于类别型数据的处理, 其数值型特征提取能力弱; TSA以及GBDT$+ $LR偏向于数值型数据的处理, 类别型特征的提取能力弱; DeepFM和W&D能同时提取类别型特征和数值型特征. 所有方法采用的参数组合均为使预测效果最好的参数组合, 其具体模型结构或参数设置如下:

    在DIN中, 嵌入单元1和2的维度分别为82和80, Dense单元的神经元个数为16, 隐含神经元个数为32, 激活函数为Relu, 输出层神经元个数为1, 激活函数为Relu; 最大迭代次数为500, 批量大小为100, 优化器为Adam.

    DCN的嵌入维度为8, 网络的随机失活(Dropout)比例均为0.5, 隐含层的神经元个数为64-64, 领域维度设为原始特征维度, 交叉宽度设为领域维度与嵌入维度的乘积; 最大迭代次数为450, 批量大小为100, 批量标准化因子为1, 批量标准化衰减因子为0.95, 学习率为0.01, L2正则化系数为0.01, 优化器为Adam.

    DeepFM的嵌入维度为80, 其因子分解机和网络的随机失活(Dropout)比例分别为1和0.5, 网络部分的神经元个数为32-32, 激活函数为Relu; 最大迭代次数为500, 批量大小为100, 批量标准化因子为1, 批量标准化衰减因子为0.995, 学习率为0.01, L2正则化系数为0.01, 优化器为Adam.

    在W&D中, Wide部分采用线性回归方法, 并选用默认参数. Deep部分采用含两个隐含层的神经网络, 其结构为325-100-50-1, 网络部分神经元个数为32-32, 激活函数为Relu. 最大迭代次数为500, 批量大小为100, 优化器为Adam.

    在TSA中, 第1阶段预测采用随机森林, 基学习器数量为200, 最大树深度为7; 第2阶段采用线性回归, 且选用默认参数.

    在GBDT$+ $LR中, GBDT部分的基学习器数量为150, LR部分采用线性回归, 且选取默认参数.

    在MDFF中, 类别型特征提取模型SARR的嵌入单元1和2的维度分别为82和80, Dense单元神经元个数为16, GRU单元和LSTM单元的神经元个数均为32, 最大迭代次数为400, 批量大小为100, 随机失活(Dropout)比例为0.15, 激活函数为Relu, 优化器为Adam. 数值型特征提取模型XGB的基学习器数量为30, 学习率为0.15, 最大树深度为8, 列采样比例为0.4. 任务执行时间预测模型LGBM的学习率为0.15, 基学习器数量为1000, 最大树深度为9, 最多叶子结点个数为31, 列采样比例为0.4.

    4.1.3   评价指标

    为了检验本文MDFF算法的预测精度, 本文选取了平均绝对误差(Mean absolute error, MAE)、均方根误差(Root mean square error, RMSE)、均方根对数误差(Root mean square log error, RMS-LE)和决定系数(R square, R2)四种评价指标[39-40], 并在这些评价指标的基础上, 设计了预测精度差值$\delta $和预测精度改善比例$\eta $两个指标, 分别用于反映MDFF算法的预测精度提升的数值大小以及提升程度.

    1) MAE表示目标真实值和预测值之差的平均绝对值, 用于度量两个变量之间的差异. MAE具有较强的可解释性和鲁棒性, 且MAE的值越小, 说明预测模型的性能越好. MAE的具体计算如式(18)所示:

    $$MAE = \frac{1}{n}\sum\limits_{i = 1}^n {|{Y_i} - {{\hat Y}_i}} |$$ (18)

    式中, n为样本数量, ${Y_i}$${\hat Y_i}$分别为第i个样本的真实值和预测值.

    2) RMSE表示目标真实值和预测值的样本标准差, 用于度量模型的预测误差大小. RMSE与数值范围紧密相关, 相对于MAE来说, RMSE对数值预测的错误更加敏感, 但鲁棒性较弱. RMSE的值越小, 说明预测模型的性能越好. 计算公式如下:

    $$RMSE = \sqrt {\frac{1}{n}\sum\limits_{i = 1}^n {({Y_i} - {{\hat Y}_i}} {)^2}} $$ (19)

    3) RMSLE. 鉴于RMSE容易被数值较大的样本所主导, RMSLE在RMSE的基础上增加了取对数操作, 以便在保持RMSE敏感性的基础上, 对模型进行公平地评价. RMSLE的值越小, 说明预测模型的性能越好. 计算公式如下:

    $$RMSLE = \sqrt {\frac{1}{n}\sum\limits_{i = 1}^n {{{\left[ {\lg ({Y_i} + 1) - \lg ({{\hat Y}_i} + 1)} \right]}^2}} } $$ (20)

    4) R2通过数据的变化来表征一个预测算法的拟合程度. R2的值越大, 说明预测模型的性能越好. 计算公式如下:

    $$R2 = 1 - \frac{{\sum\limits_{i = 1}^n {({Y_i} - {{\hat Y}_i}} {)^2}}}{{\sum\limits_{i = 1}^n {({Y_i} - \bar Y} {)^2}}}$$ (21)

    式中, $\bar Y$为所有样本真实值的平均值. $\sum\nolimits_{i = 1}^n {{{( {{Y_i} - \bar Y} )}^2}}$表示原始数据的离散程度, $\sum\nolimits_{i = 1}^n {{{( {{Y_i} - {{\hat Y}_i}} )}^2}}$反映预测数据与真实数据的误差. R2越接近1, 说明模型对输出的解释能力越强, 即对数据的拟合性能越好; 反之亦然.

    5)预测精度差值$\delta $用于表示本文MDFF算法预测精度提升的数值大小. 计算公式如下:

    $$ {\delta }_{i}^{j}=\left\{\begin{aligned} &{e}_{MDFF}^{j}-{e}_{i}^{j},\;\;j=R2 \\ &{e}_{i}^{j}-{e}_{MDFF}^{j},\;\;{\text{其他}} \end{aligned}\right.$$ (22)

    式中, ${\delta }_{i}^{j} $为MDFF算法与第$i $个对比算法在评价指标$j $下的预测精度差值, 且j$ \in ${MAE, RMSE, RMSLE, R2}; i为不同的对比算法, 即i$ \in ${DIN, DCN, DeepFM, W&D, TSA, GBDT+LR}. ${e}_{i}^{j} $为第i个对比算法在评价指标j下的数值, ${e}_{MDFF}^{j} $为MDFF在评价指标$j $下的数值. $\delta _i^j$越大, 说明在第j个评价指标下, 本文MDFF算法与第i个对比算法预测精度的差值越大, 即MDFF算法对预测性能的改善越多.

    6)预测精度提升比例$\eta $表示MDFF算法的预测精度改善程度. 计算公式如下:

    $$ {\eta }_{i}^{j}=\left\{\begin{aligned} &\frac{{e}_{MDFF}^{j}-{e}_{i}^{j}}{{e}_{i}^{j}},\;\;\;j=R2\\ &\frac{{e}_{i}^{j}-{e}_{MDFF}^{j}}{{e}_{i}^{j}},\;\;\;{\text{其他}}\end{aligned}\right.$$ (23)

    式中, ${\eta }_{i}^{j} $为MDFF比第$i $个对比算法在评价指标$j $下的预测精度改善程度. ${\eta }_{i}^{j} $越大, 说明在第j个评价指标下, 本文MDFF算法比第i个对比算法预测精度的提升比例越高.

    为了避免随机性, 本文采用10次实验结果的平均值进行性能比较. 针对不同的评价指标, 分别计算所有方法的MAE、RMSE、RMSLE和R2值, 如图4 ~ 7所示. 由图4 ~ 图6可知, 本文MDFF算法的MAE、RMSE、RMSLE值达到了最小, 说明其预测结果的平均绝对误差和均方根误差更小, 且对大数值样本的偏向性最小. 由图7可知, M-DFF的R2值最大, 说明该算法的拟合程度最好.

    图 4  不同方法的MAE
    Fig. 4  MAE comparisons among different methods
    图 6  不同方法的RMSLE
    Fig. 6  RMSLE comparisons among different methods
    图 7  不同方法的R2
    Fig. 7  R2 comparisons among different methods

    图4 ~ 7结果, 可以得出以下结论:

    1)由于DIN、DCN、TSA和GBDT$+ $LR要么侧重提取类别型特征, 要么侧重提取数值型特征, 而忽略另外一类特征, 使模型很难获得全面的特征知识. 因此, 其模型对特征的非线性表达能力和解析能力不足. 在本文提出的MDFF算法中, 针对类别型数据和数值型数据的特点, 分别设计不同的特征提取器, 有效地从原始数据中提取类别型特征和数值型特征, 挖掘更全面的任务执行时间知识, 提高了工作流任务执行时间的预测精度. 在上述四类评价指标下, MDFF算法的预测性能均优于四类对比算法, 即DIN、DCN、TSA和GBDT$+ $LR.

    值得注意的是, 注意力机制的引入, 使得DIN的RMSE和R2仅次于MDFF, 预测误差波动相对较小且获得了较好的拟合效果. 这也说明了本文采用具有注意力机制的SARR模型, 在提取类别型特征方面的有效性. 由于梯度提升算法对数值型数据进行了离散化编码, 所以GBDT$+ $LR的RMSE和R2值仅次于DIN, 且预测误差较小, 达到了较好的拟合效果, 这说明本文设计的基于XGB的特征提取算法, 能够有效地提取数值型特征.

    图 5  不同方法的RMSE
    Fig. 5  RMSE comparisons among different methods

    2)虽然DeepFM和W&D算法能同时提取类别型特征和数值型特征, 但是与本文MDFF算法相比, 其预测结果相对较差. 主要原因如下: a)本文提出的MDFF算法, 通过具有堆叠循环网络结构、注意力机制和残差连接的SARR模型, 将类别型数据从高维稀疏的特征空间映射到低维稠密的特征空间, 提高了模型对类别型特征的关注度. 因此, 与DeepFM和W&D采用DNN进行类别型特征提取相比, MDFF算法能够更有效地提取类别型特征; b) DeepFM和W&D分别采用因子分解机和线性回归模型提取数值型特征, 而本文MDFF算法利用XGB对数值型数据进行离散化编码, 通过对过于稠密的输入向量空间进行稀疏化处理, 提高了特征之间的差异性, 从而能更有效地提取数值型特征. 此外, 通过异质多维度特征融合策略, 本文MDFF算法能够有效避免因直接使用类别型特征和数值型特征而引入冗余信息或者噪声的可能性. 总的来说, SARR和XGB的使用, 使得MDFF具有更强的提取类别型和数值型特征的能力, 结合多维异质特征融合策略, MDFF不仅能够提取有效的深层特征, 还能学习更全面的任务执行时间知识, 使预测性能得到了明显改善.

    为了进一步说明本文提出的MDFF算法与对比算法在不同指标上的精度提升程度, 表1表2给出了MDFF与其他对比算法在四种性能指标下的差值和性能提升比例.

    表 1  预测精度的差值
    Table 1  The difference of prediction performance
    i$ \delta _i^{MAE}$$\delta _i^{RMSE} $$ \delta _i^{RMSLE}$$\delta _i^{R2} $
    DIN1.4391.8250.6790.006
    DCN0.2864.0430.0480.014
    DeepFM0.3731.8110.0430.009
    W&D0.8103.5760.1410.012
    TSA0.9426.4080.0300.025
    GBDT + LR1.2572.1430.1170.007
    下载: 导出CSV 
    | 显示表格
    表 2  预测精度提升的比例(%)
    Table 2  The proportion of performance improvement (%)
    i$ \eta _i^{MAE}$$\eta _i^{RMSE} $$ \eta _i^{RMSLE}$$\eta _i^{R2} $
    DIN36.9422.0682.600.61
    DCN10.4336.9516.491.43
    DeepFM13.1818.8515.030.92
    W&D24.8034.1436.721.22
    TSA27.7248.1610.992.59
    GBDT + LR33.8523.7032.500.71
    下载: 导出CSV 
    | 显示表格

    表1表2可以看出, 不同算法在不同性能指标下具有不同的性能表现, 且MDFF与对比算法的性能差值以及MDFF算法的性能提升比例也不相同, 但相对来说, 本文提出的MDFF算法在不同性能指标下的表现更优. 这也说明了MDFF具有更强的类别型和数值型特征提取能力, 同时对特征进行重要性排序并有选择性地融合, 大大提高了预测性能.

    在上述性能指标的对比中, 本文提出的MDFF算法都能取得良好的性能表现, 即MDFF算法具有较强的异质特征提取与融合能力, 获得了更高的预测精度. 与各类对比算法相比, MDFF算法主要有以下3个方面的优势: 1) MDFF算法采用SARR提取类别型特征, 将类别型数据从高维稀疏的特征空间映射到低维稠密的特征空间, 避免了搜索空间过大的问题, 提高了模型对类别型特征的关注度. 因此, 相对于普通DNN网络, MDFF算法能更有效地、更具针对性地提取类别型特征; 2) MDFF采用XGB提取数值型特征, 即借助于XGB对数值型数据进行离散化编码, 并对过于稠密的输入向量空间进行稀疏化处理, 提高了特征之间的差异性, 实现了数值型特征的有效提取; 3) MDFF采取多维异质特征融合策略, 对SARR和XGB提取到的特征进行有选择性地融合, 以充分挖掘与利用多维度特征, 为任务执行时间的预测提供更全面有效的知识, 改善了预测性能. 由此可见, 通过类别型特征和数值型特征的有效提取与融合, MDFF算法的预测精度得到了明显提升.

    综上所述, 本文提出的基于多维度特征融合的预测算法预测平均误差、预测误差波动和预测偏向性更小, 不仅对类别型特征和数值型特征有较强的解析和表达能力, 而且能够对异质特征进行充分地挖掘与利用, 实现了对云工作流任务执行时间的精准预测, 可以满足大数据环境下的云工作流任务执行时间估计需求.

    云计算中的工作流调度和资源配置依赖于任务执行时间的准确估计. 本文针对工作流任务执行时间预测问题, 提出了一种基于多维度特征融合的预测方法. 首先, 构建具有注意力机制的堆叠残差循环网络, 对类别型数据进行特征提取, 增强了模型对类别型数据的解析能力. 其次, 引入XGB对数值型数据进行离散化编码, 提取数值型特征, 提高了模型的非线性表达能力. 然后, 融合提取到的特征和原始样本特征, 获得多维异质特征, 给预测模型提供了更全面的任务执行时间知识. 最后, 利用LGBM对多维异质特征进行充分挖掘, 构建预测模型, 实现对云工作流任务执行时间的精准预测, 并采用阿里巴巴的集群数据集进行了实验验证. 实验结果表明, 该方法优于现有的基线预测算法, 在MAE、RMSE、RMSLE以及R2四种评价指标下, 均达到了更好的性能. 因此, 本文所提出的基于多维度特征融合的预测方法, 能够满足大数据环境下云工作流任务执行时间预测的需求. 然而, 本文仅在集群数据集上进行了预测模型的搭建, 如何将预测模型部署到实际云数据中心, 实现工作流任务执行时间的在线预测, 仍需进一步探索研究.


  • 本文责任编委 贺威
  • 图  1  机器人操作技能模型框图

    Fig.  1  Diagram of robot manipulation skill model

    图  2  基于行为树的技能流程表示[14]

    Fig.  2  Behavior tree based skill procedure representation[14]

    图  3  基于概率运动基元的轨迹编码[31]

    Fig.  3  ProMP based trajectory encoding[31]

    图  4  基于多元变量动态系统的运动技能执行框架, 其中, $q$, $u$和分别表示机器人的关节角度、运动指令和动态系统的状态变量(此处为笛卡尔空间中的末端位置)[61]

    Fig.  4  Multivariate dynamical system based motion skill, $q$, $u$ and label the robot$'$s joint angle, motor command and dynamical system$'$s state variable (end-effector position in Cartesian space)[61]

    图  5  基于LSTM的装配策略模型[72]

    Fig.  5  LSTM based assembly policy model[72]

    图  6  基于深度神经网络的端到端策略模型[80]

    Fig.  6  DNN based end-to-end policy model[80]

    图  7  机器人操作模型的典型应用((a)轴孔装配技能[72]; (b)开门技能[8]; (c)手术切除技能[95])

    Fig.  7  Typical application of robot manipulation skill model ((a) peg-in-hole assembly[72]; (b) door opening[8]; (c) resection surgery[95])

  • [1] Hirzinger G, Landzettel K. Sensory feedback structures for robots with supervised learning. In: Proceedings of the 1985 IEEE International Conference on Robotics and Automation. St. Louis, MO, USA: IEEE, 1985. 627-635
    [2] Asada H, Asari Y. The direct teaching of tool manipulation skills via the impedance identification of human motions. In: Proceedings of the 1988 IEEE International Conference on Robotics and Automation. Philadelphia, PA, USA: IEEE, 1988. 1269-1274 http://www.panduoduo.net/r/17087799
    [3] 曾毅, 刘成林, 谭铁牛.类脑智能研究的回顾与展望.计算机学报, 2016, 39(1): 212-223 http://d.old.wanfangdata.com.cn/Periodical/jsjxb201601015

    Zeng Yi, Liu Cheng-Lin, Tan Tie-Niu. Retrospect and outlook of brain-inspired intelligence research. Chinese Journal of Computers, 2016, 39(1): 212-223 http://d.old.wanfangdata.com.cn/Periodical/jsjxb201601015
    [4] 陶建华, 陈云霁.类脑计算芯片与类脑智能机器人发展现状与思考.中国科学院院刊, 2016, 31(7): 803-811 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=zgkxyyk201607009

    Tao Jian-Hua, Chen Yun-Ji. Current status and consideration on brain-like computing chip and brain-like intelligent robot. Bulletin of Chinese Academy of Sciences, 2016, 31(7): 803-811 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=zgkxyyk201607009
    [5] Ersen M, Oztop E, Sariel S. Cognition-enabled robot manipulation in human environments: requirements, recent work, and open problems. IEEE Robotics and Automation Magazine, 2017, 24(3): 108-122 doi: 10.1109/MRA.2016.2616538
    [6] Argall B D, Chernova S, Veloso M, Browning B. A survey of robot learning from demonstration. Robotics and Autonomous Systems, 2009, 57(5): 469-483 doi: 10.1016/j.robot.2008.10.024
    [7] Kober J, Bagnell J A, Peters J. Reinforcement learning in robotics: a survey. The International Journal of Robotics Research, 2013, 32(11): 1238-1274 doi: 10.1177/0278364913495721
    [8] Yahya A, Li A, Kalakrishnan M, Chebotar Y, Levine S. Collective robot reinforcement learning with distributed asynchronous guided policy search. In: Proceedings of the 2017 IEEE/RSJ International Conference on Intelligent Robots and Systems. Vancouver, BC, Canada: IEEE, 2017. 79-86 https://arxiv.org/pdf/1610.00673.pdf
    [9] Foukarakis M, Leonidis A, Antona M, Stephanidis C. Combining finite state machine and decision-making tools for adaptable robot behavior. In: Proceedings of the 8th International Conference on Universal Access in Human-Computer Interaction. Heraklion, Crete, Greece: Springer, 2014. 625-635 http://hobbit.acin.tuwien.ac.at/publications/HCII2014.pdf
    [10] Zhou H T, Min H S, Lin Y H, Zhang S N. A robot architecture of hierarchical finite state machine for autonomous mobile manipulator. In: Proceedings of the 10th International Conference on Intelligent Robotics and Applications. Wuhan, China: Springer, 2017. 425-436 https://www.researchgate.net/publication/318924520_A_Robot_Architecture_of_Hierarchical_Finite_State_Machine_for_Autonomous_Mobile_Manipulator
    [11] Colledanchise M, Parasuraman R, Ögren P. Learning of behavior trees for autonomous agents. IEEE Transactions on Games, 2019, 11(2): 183-189 doi: 10.1109/TG.2018.2816806
    [12] Guerin K R, Lea C, Paxton C, Hager G D. A framework for end-user instruction of a robot assistant for manufacturing. In: Proceedings of the 2015 IEEE International Conference on Robotics and Automation. Seattle, WA, USA: IEEE, 2015. 6167-6174 https://jhu.pure.elsevier.com/en/publications/a-framework-for-end-user-instruction-of-a-robot-assistant-for-man-4
    [13] Paxton C, Hundt A, Jonathan F, Guerin K, Hager G D. CoSTAR: instructing collaborative robots with behavior trees and vision. In: Proceedings of the 2017 IEEE International Conference on Robotics and Automation. Singapore, Singapore: IEEE, 2017. 564-571 https://arxiv.org/pdf/1611.06145.pdf
    [14] Paxton C, Jonathan F, Hundt A, Mutlu B, Hager G D. Evaluating methods for end-user creation of robot task plans. In: Proceedings of the 2018 IEEE/RSJ International Conference on Intelligent Robots and Systems. Madrid, Spain: IEEE, 2018. 6086-6092 https://cpaxton.github.io/public/paxton2018evaluating.pdf
    [15] Bagnell J A, Cavalcanti F, Cui L, Galluzzo T, Hebert M, Kazemi M, et al. An integrated system for autonomous robotics manipulation. In: Proceedings of the 2012 IEEE/RSJ International Conference on Intelligent Robots and Systems. Vilamoura, Portugal: IEEE, 2012. 2955-2962 https://ieeexplore.ieee.org/abstract/document/6385888
    [16] Colledanchise M, Marzinotto A, Ögren P. Performance analysis of stochastic behavior trees. In: Proceedings of the 2014 IEEE International Conference on Robotics and Automation. Hong Kong, China: IEEE, 2014: 3265-3272 http://www.csc.kth.se/~miccol/Michele_Colledanchise/Publications_files/ICRA14_cmo_final.pdf
    [17] Akgun B, Thomaz A. Simultaneously learning actions and goals from demonstration. Autonomous Robots, 2016, 40(2): 211-227 doi: 10.1007/s10514-015-9448-x
    [18] Akgun B, Thomaz A L. Self-improvement of learned action models with learned goal models. In: Proceedings of the 2015 IEEE/RSJ International Conference on Intelligent Robots and Systems. Hamburg, Germany: IEEE, 2015. 5259-5264 https://ieeexplore.ieee.org/abstract/document/7354119
    [19] Kroemer O, Daniel C, Neumann G, van Hoof H, Peters J. Towards learning hierarchical skills for multi-phase manipulation tasks. In: Proceedings of the 2015 IEEE International Conference on Robotics and Automation. Seattle, WA, USA: IEEE, 2015. 1503-1510 https://ieeexplore.ieee.org/document/7139389
    [20] Medina J R, Billard A. Learning stable task sequences from demonstration with linear parameter varying systems and hidden Markov models. In: Proceedings of the 2017 Conference on Robot Learning. Mountain View, California, USA, 2017: 175-184 http://proceedings.mlr.press/v78/medina17a/medina17a.pdf
    [21] Pardowitz M, Knoop S, Dillmann R, Zollner R D. Incremental learning of tasks from user demonstrations, past experiences, and vocal comments. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 2007, 37(2): 322-332 doi: 10.1109/TSMCB.2006.886951
    [22] Nicolescu M N, Mataric M J. Natural methods for robot task learning: instructive demonstrations, generalization and practice. In: Proceedings of the 2nd International Joint Conference on Autonomous Agents and Multiagent Systems. Melbourne, Australia: ACM, 2003. 241-248 https://www.cse.unr.edu/~monica/Research/Publications/agents03.pdf
    [23] Hayes B, Scassellati B. Autonomously constructing hierarchical task networks for planning and human-robot collaboration. In: Proceedings of the 2016 IEEE International Conference on Robotics and Automation. Stockholm, Sweden: IEEE, 2016. 5469-5476 https://scazlab.yale.edu/sites/default/files/files/hayes_icra16.pdf
    [24] Ahmadzadeh S R, Kormushev P, Caldwell D G. Interactive robot learning of visuospatial skills. In: Proceedings of the 2013 International Conference on Advanced Robotics. Montevideo, Uruguay: IEEE, 2013: 1-8 https://www.researchgate.net/publication/258832541_Interactive_Robot_Learning_of_Visuospatial_Skills
    [25] Ahmadzadeh S R, Paikan A, Mastrogiovanni F, Natale L, Kormushev P, Caldwell D G, et al. Learning symbolic representations of actions from human demonstrations. In: Proceedings of the 2015 IEEE International Conference on Robotics and Automation. Seattle, WA, USA: IEEE, 2015. 3801-3808 https://www.researchgate.net/publication/273755287_Learning_Symbolic_Representations_of_Actions_from_Human_Demonstrations
    [26] Dornhege C, Hertle A. Integrated symbolic planning in the tidyup-robot project. In: Proceedings of the 2013 Designing Intelligent Robots: Reintegrating AI: Papers Form the AAAI Spring Symposium. Palo Alto, California, USA: AAAI, 2013. https://www.researchgate.net/publication/289304978_Integrated_symbolic_planning_in_the_tidyup-robot_project
    [27] Beetz M, Mösenlechner L, Tenorth M. CRAM — a cognitive robot abstract machine for everyday manipulation in human environments. In: Proceedings of the 2010 IEEE/ RSJ International Conference on Intelligent Robots and Systems. Taipei, China: IEEE, 2010. 1012-1017
    [28] Tenorth M, Beetz M. KnowRob: a knowledge processing infrastructure for cognition-enabled robots. The International Journal of Robotics Research, 2013, 32(5): 566- 590 doi: 10.1177/0278364913481635
    [29] Bozcuoǧlu A K, Kazhoyan G, Furuta Y, Stelter S, Michael B, Kei O, et al. The exchange of knowledge using cloud robotics. IEEE Robotics and Automation Letters, 2018, 3(2): 1072-1079 doi: 10.1109/LRA.2018.2794626
    [30] Calinon S, Guenter F, Billard A. On learning, representing, and generalizing a task in a humanoid robot. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 2007, 37(2): 286-298 doi: 10.1109/TSMCB.2006.886952
    [31] Maeda G J, Neumann G, Ewerton M, Lioutikov R, Kroemer O, Peters J. Probabilistic movement primitives for coordination of multiple human-robot collaborative tasks. Autonomous Robots, 2017, 41(3): 593-612 doi: 10.1007/s10514-016-9556-2
    [32] Calinon S, Li Z B, Alizadeh T, Tsagarakis N G, Caldwell D G. Statistical dynamical systems for skills acquisition in humanoids. In: Proceedings of the 12th IEEE-RAS International Conference on Humanoid Robots. Osaka, Japan: IEEE, 2012. 323-329 https://www.researchgate.net/publication/234154957_Statistical_dynamical_systems_for_skills_acquisition_in_humanoids
    [33] Huang Y L, Silvério J, Rozo L, Caldwell D G. Generalized task-parameterized skill learning. In: Proceedings of the 2018 IEEE International Conference on Robotics and Automation. Brisbane, QLD, Australia: IEEE, 2018. 5667- 5674 https://www.researchgate.net/publication/318255627_Generalized_Task-Parameterized_Skill_Learning
    [34] Tanwani A K, Calinon S. Learning robot manipulation tasks with task-parameterized semitied hidden semi-Markov model. IEEE Robotics and Automation Letters, 2016, 1(1): 235-242 doi: 10.1109/LRA.2016.2517825
    [35] Silvério J, Rozo L, Calinon S, Caldwell D G. Learning bimanual end-effector poses from demonstrations using task-parameterized dynamical systems. In: Proceedings of the 2015 IEEE/RSJ International Conference on Intelligent Robots and Systems. Hamburg, Germany: IEEE, 2015. 464-470 https://ieeexplore.ieee.org/document/7353413
    [36] Calinon S, Bruno D, Caldwell D G. A task-parameterized probabilistic model with minimal intervention control. In: Proceedings of the 2014 IEEE International Conference on Robotics and Automation. Hong Kong, China: IEEE, 2014. 3339-3344 https://www.researchgate.net/publication/261722329_A_task-parameterized_probabilistic_model_with_minimal_intervention_control
    [37] Rozo L, Bruno D, Calinon S, Caldwell D G. Learning optimal controllers in human-robot cooperative transportation tasks with position and force constraints. In: Proceedings of the 2015 IEEE/RSJ International Conference on Intelligent Robots and Systems. Hamburg, Germany: IEEE, 2015. 1024-1030 http://publications.idiap.ch/downloads/papers/2015/Rozo_IROS_2015.pdf
    [38] Paraschos A, Daniel C, Peters J, Neumann G. Probabilistic movement primitives. In: Proceedings of the 26th International Conference on Neural Information Processing Systems. Lake Tahoe, Nevada: ACM, 2013. 2616-2624 https://www.researchgate.net/publication/258620153_Probabilistic_Movement_Primitives
    [39] Paraschos A, Daniel C, Peters J, Neumann G. Using probabilistic movement primitives in robotics. Autonomous Robots, 2018, 42(3): 529-551 doi: 10.1007/s10514-017-9648-7
    [40] Paraschos A, Rueckert E, Peters J, Neumann G. Probabilistic movement primitives under unknown system dynamics. Advanced Robotics, 2018, 32(6): 297-310 doi: 10.1080/01691864.2018.1437674
    [41] Colomé A, Neumann G, Peters J, Torras C. Dimensionality reduction for probabilistic movement primitives. In: Proceedings of the 2014 IEEE-RAS International Conference on Humanoid Robots. Madrid, Spain: IEEE, 2014. 794-800 https://ieeexplore.ieee.org/document/7041454
    [42] Lioutikov R, Neumann G, Maeda G, Peters J. Learning movement primitive libraries through probabilistic segmentation. The International Journal of Robotics Research, 2017, 36(8): 879-894 doi: 10.1177/0278364917713116
    [43] Schneider M, Ertel W. Robot learning by demonstration with local Gaussian process regression. In: Proceedings of the 2010 IEEE/RSJ International Conference on Intelligent Robots and Systems. Taipei, China: IEEE, 2010: 255 -260 https://ieeexplore.ieee.org/document/5650949
    [44] Garrido J, Yu W, Soria A. Human behavior learning for robot in joint space. Neurocomputing, 2015, 155: 22-31 doi: 10.1016/j.neucom.2014.12.068
    [45] Schulman J, Ho J, Lee C, Abbeel P. Learning from demonstrations through the use of non-rigid registration. Robotics Research. Cham: Springer International Publishing, 2016. 339-354 https://people.eecs.berkeley.edu/~pabbeel/papers/SchulmanHoLeeAbbeel_ISRR2013.pdf
    [46] Lee A X, Lu H, Gupta A, Levine S, Abbeel P. Learning force-based manipulation of deformable objects from multiple demonstrations. In: Proceedings of the 2015 IEEE International Conference on Robotics and Automation. Seattle, WA, USA: IEEE, 2015. 177-184 https://people.eecs.berkeley.edu/~pabbeel/papers/2015-ICRA-TPS-LfD-forces.pdf
    [47] Ijspeert A J, Nakanishi J, Schaal S. Learning attractor landscapes for learning motor primitives. In: Proceedings of the 15th International Conference on Neural Information Processing Systems. Cambridge, MA, USA: MIT Press, 2002. 1547-1554 https://www.researchgate.net/publication/221617765_Learning_Attractor_Landscapes_for_Learning_Motor_Primitives
    [48] Ijspeert A J, Nakanishi J, Schaal S. Movement imitation with nonlinear dynamical systems in humanoid robots. In: Proceedings of the 2002 IEEE International Conference on Robotics and Automation. Washington, DC, USA: IEEE, 2002. 1398-1403 http://www4.cs.umanitoba.ca/~jacky/Robotics/Papers/movement-imitation-with-nonlinear.pdf
    [49] Ijspeert A J, Nakanishi J, Hoffmann H, Pastor P, Schaal S. Dynamical movement primitives: learning attractor models for motor behaviors. Neural Computation, 2013, 25(2): 328-373 doi: 10.1162/NECO_a_00393
    [50] Kober J, Peters J. Policy search for motor primitives in robotics. Machine Learning, 2011, 84(1-2): 171-203 doi: 10.1007/s10994-010-5223-6
    [51] Kober J, Peters J. Learning motor primitives for robotics. In: Proceedings of the 2009 IEEE International Conference on Robotics and Automation. Kobe, Japan: IEEE, 2009. 2112-2118 https://ieeexplore.ieee.org/document/5152577
    [52] Yang C G, Chen C Z, He W, Cui R X, Li Z J. Robot learning system based on adaptive neural control and dynamic movement primitives. IEEE Transactions on Neural Networks and Learning Systems, 2019, 30(3): 777-787 doi: 10.1109/TNNLS.2018.2852711
    [53] Kormushev P, Calinon S, Caldwell D G. Imitation learning of positional and force skills demonstrated via kinesthetic teaching and haptic input. Advanced Robotics, 2011, 25(5): 581-603 doi: 10.1163/016918611X558261
    [54] Kupcsik A, Deisenroth M P, Peters J, Loh A P, Vadakkepat P. Model-based contextual policy search for data-efficient generalization of robot skills. Artificial Intelligence, 2017, 247: 415-439 doi: 10.1016/j.artint.2014.11.005
    [55] Pastor P, Kalakrishnan M, Chitta S, Theodorou E, Schaal S. Skill learning and task outcome prediction for manipulation. In: Proceedings of the 2011 IEEE International Conference on Robotics and Automation. Shanghai, China: IEEE, 2011. 3828-3834 http://www.cs.cmu.edu/~cga/print.2/Pastor_ICRA_2011.pdf
    [56] Stulp F, Theodorou E A, Schaal S. Reinforcement learning with sequences of motion primitives for robust manipulation. IEEE Transactions on Robotics, 2012, 28(6): 1360- 1370 doi: 10.1109/TRO.2012.2210294
    [57] Mülling K, Kober J, Kroemer O, Peters J. Learning to select and generalize striking movements in robot table tennis. The International Journal of Robotics Research, 2013, 32(3): 263-279 doi: 10.1177/0278364912472380
    [58] Colomé A, Torras C. Dimensionality reduction for dynamic movement primitives and application to bimanual manipulation of clothes. IEEE Transactions on Robotics, 2018, 34(3): 602-615 doi: 10.1109/TRO.2018.2808924
    [59] Deniša M, Gams A, Ude A, Petrič T. Learning compliant movement primitives through demonstration and statistical generalization. IEEE/ASME Transactions on Mechatronics, 2016, 21(5): 2581-2594 doi: 10.1109/TMECH.2015.2510165
    [60] Gribovskaya E, Khansari-Zadeh S M, Billard A. Learning non-linear multivariate dynamics of motion in robotic manipulators. The International Journal of Robotics Research, 2011, 30(1): 80-117 doi: 10.1177/0278364910376251
    [61] Khansari-Zadeh S M, Billard A. Learning stable nonlinear dynamical systems with Gaussian mixture models. IEEE Transactions on Robotics, 2011, 27(5): 943-957 doi: 10.1109/TRO.2011.2159412
    [62] Shukla A, Billard A. Augmented-SVM for gradient observations with application to learning multiple-attractor dynamics. Support Vector Machines Applications. Cham: Springer International Publishing, 2014. 1-21 https://www.researchgate.net/publication/287723495_Augmented-SVM_for_Gradient_Observations_with_Application_to_Learning_Multiple-Attractor_Dynamics
    [63] Neumann K, Steil J J. Learning robot motions with stable dynamical systems under diffeomorphic transformations. Robotics and Autonomous Systems, 2015, 70: 1-15 doi: 10.1016/j.robot.2015.04.006
    [64] Duan J H, Ou Y S, Hu J B, Wang Z Y, Jin S K, Xu C. Fast and stable learning of dynamical systems based on extreme learning machine. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2019, 49(6): 1175-1185 doi: 10.1109/TSMC.2017.2705279
    [65] Shukla A, Billard A. Coupled dynamical system based arm-hand grasping model for learning fast adaptation strategies. Robotics and Autonomous Systems, 2012, 60(3): 424-440 doi: 10.1016/j.robot.2011.07.023
    [66] Ureche A L P, Umezawa K, Nakamura Y, Billard A. Task parameterization using continuous constraints extracted from human demonstrations. IEEE Transactions on Robotics, 2015, 31(6): 1458-1471 doi: 10.1109/TRO.2015.2495003
    [67] Gams A, Nemec B, Ijspeert A J, Ude A. Coupling movement primitives: interaction with the environment and bimanual tasks. IEEE Transactions on Robotics, 2014, 30(4): 816-830 doi: 10.1109/TRO.2014.2304775
    [68] Bruno D, Calinon S, Caldwell D G. Learning autonomous behaviours for the body of a flexible surgical robot. Autonomous Robots, 2017, 41(2): 333-347 doi: 10.1007/s10514-016-9544-6
    [69] Sung J, Selman B, Saxena A. Learning sequences of controllers for complex manipulation tasks. In: Proceedings of the 30th International Conference on Machine Learning. Atlanta, Georgia, USA: JMLR, 2013. https://www.researchgate.net/publication/241279096_Learning_Sequences_of_Controllers_for_Complex_Manipulation_Tasks
    [70] Chernova S, Veloso M. Confidence-based policy learning from demonstration using Gaussian mixture models. In: Proceedings of the 6th International Joint Conference on Autonomous Agents and Multiagent Systems. Honolulu, Hawaii: ACM, 2007. Article No. 233 https://wenku.baidu.com/view/818f5d134431b90d6c85c79d.html
    [71] Edmonds M, Gao F, Xie X, Liu H X, Qi S Y, Zhu Y X, et al. Feeling the force: integrating force and pose for fluent discovery through imitation learning to open medicine bottles. In: Proceedings of the 2017 IEEE/RSJ International Conference on Intelligent Robots and Systems. Vancouver, BC, Canada: IEEE, 2017. 3530-3537
    [72] Inoue T, De Magistris G, Munawar A, Yokoya T, Tachibana R. Deep reinforcement learning for high precision assembly tasks. In: Proceedings of the 2017 IEEE/ RSJ International Conference on Intelligent Robots and Systems. Vancouver, BC, Canada: IEEE, 2017. 819-825 https://arxiv.org/pdf/1708.04033.pdf
    [73] Deisenroth M P, Rasmussen C E, Fox D. Learning to control a low-cost manipulator using data-efficient reinforcement learning. In: Proceedings of the 2011 Robotics: Science and Systems Ⅶ. Los Angeles, CA, USA: University of Southern California, 2011. 57-64 https://rse-lab.cs.washington.edu/postscripts/robot-rl-rss-11.pdf
    [74] Deisenroth M P, Fox D, Rasmussen C E. Gaussian processes for data-efficient learning in robotics and control. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(2): 408-423 doi: 10.1109/TPAMI.2013.218
    [75] Levine S, Wagener N, Abbeel P. Learning contact-rich manipulation skills with guided policy search. In: Proceedings of the 2015 IEEE International Conference on Robotics and Automation. Seattle, WA, USA: IEEE, 2015. 156-163 https://ieeexplore.ieee.org/document/7138994
    [76] Han W Q, Levine S, Abbeel P. Learning compound multi-step controllers under unknown dynamics. In: Proceedings of the 2015 IEEE/RSJ International Conference on Intelligent Robots and Systems. Hamburg, Germany: IEEE, 2015. 6435-6442 http://rll.berkeley.edu/reset_controller/reset_controller.pdf
    [77] Finn C, Tan X Y, Duan Y, Darrell T, Levine S, Abbeel P. Learning visual feature spaces for robotic manipulation with deep spatial autoencoders. arXiv: 1509.06113v1, 2015. https://arxiv.org/abs/1509.06113v1
    [78] Lee J, Ryoo M S. Learning robot activities from first-person human videos using convolutional future regression. In: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Honolulu, HI, USA: IEEE, 2017. 472-473 https://arxiv.org/pdf/1703.01040.pdf
    [79] Gu S X, Holly E, Lillicrap T, Levine S. Deep reinforcement learning for robotic manipulation with asynchronous off-policy updates. In: Proceedings of the 2017 IEEE International Conference on Robotics and Automation. Singapore, Singapore: IEEE, 2017. 3389-3396 https://arxiv.org/pdf/1610.00633.pdf
    [80] Levine S, Finn C, Darrell T, Abbeel P. End-to-end training of deep visuomotor policies. The Journal of Machine Learning Research, 2016, 17(1): 1334-1373 https://arxiv.org/pdf/1504.00702v1.pdf
    [81] Sasaki K, Ogata T. End-to-end visuomotor learning of drawing sequences using recurrent neural networks. In: Proceedings of the 2018 International Joint Conference on Neural Networks. Rio de Janeiro, Brazil: IEEE, 2018. 1-2 https://waseda.pure.elsevier.com/en/publications/end-to-end-visuomotor-learning-of-drawing-sequences-using-recurre
    [82] Kase K, Suzuki K, Yang P C, Mori H, Ogata T. Put-in-box task generated from multiple discrete tasks by a humanoid robot using deep learning. In: Proceedings of the 2018 IEEE International Conference on Robotics and Automation. Brisbane, QLD, Australia: IEEE, 2018. 6447-6452 https://www.researchgate.net/publication/321283962_Put-In-Box_task_generated_from_multiple_discrete_tasks_by_humanoid_robot_using_deep_learning
    [83] Wolpert D M, Diedrichsen J, Flanagan J R. Principles of sensorimotor learning. Nature Reviews Neuroscience, 2011, 12(12): 739-751 doi: 10.1038/nrn3112
    [84] Ghadirzadeh A, Maki A, Kragic D, Björkman M. Deep predictive policy training using reinforcement learning. In: Proceedings of the 2017 IEEE/RSJ International Conference on Intelligent Robots and Systems. Vancouver, BC, Canada: IEEE, 2017. 2351-2358 https://arxiv.org/pdf/1703.00727.pdf
    [85] Schou C, Andersen R S, Chrysostomou D, Bogh S, Madsen O. Skill-based instruction of collaborative robots in industrial settings. Robotics and Computer-Integrated Manufacturing, 2018, 53: 72-80 doi: 10.1016/j.rcim.2018.03.008
    [86] Bekiroglu Y, Laaksonen J, Jorgensen J A, Kyrki V. Assessing grasp stability based on learning and haptic data. IEEE Transactions on Robotics, 2011, 27(3): 616-629 doi: 10.1109/TRO.2011.2132870
    [87] Dang H, Allen P K. Learning grasp stability. In: Proceedings of the 2012 IEEE International Conference on Robotics and Automation. Saint Paul, MN, USA: IEEE, 2012. 2392-2397 https://www.researchgate.net/publication/260289014_Learning_grasp_stability
    [88] Levine S, Pastor P, Krizhevsky A, Ibarz J, Quillen D. Learning hand-eye coordination for robotic grasping with deep learning and large-scale data collection. The International Journal of Robotics Research, 2018, 37(4-5): 421- 436 doi: 10.1177/0278364917710318
    [89] Finn C, Goodfellow I, Levine S. Unsupervised learning for physical interaction through video prediction. In: Proceedings of the 30th Neural Information Processing Systems. Barcelona, Spain: MIT Press, 2016: 64-72 https://arxiv.org/pdf/1605.07157.pdf
    [90] Finn C, Levine S. Deep visual foresight for planning robot motion. In: Proceedings of the 2017 IEEE International Conference on Robotics and Automation. Singapore, Singapore: IEEE, 2017. 2786-2793 https://arxiv.org/abs/1610.00696
    [91] Petrič T, Gams A, Colasanto L, Ijspeert A J, Ude A. Accelerated sensorimotor learning of compliant movement primitives. IEEE Transactions on Robotics, 2018, 34(6): 1636- 1642 doi: 10.1109/TRO.2018.2861921
    [92] Huang P C, Hsieh Y H, Mok A K. A skill-based programming system for robotic furniture assembly. In: Proceedings of the 16th IEEE International Conference on Industrial Informatics. Porto, Portugal: IEEE, 2018. 355-361
    [93] Qin F, Xu D, Zhang D, Li Y. Robotic skill learning for precision assembly with microscopic vision and force feedback. IEEE/ASME Transactions on Mechatronics, 24(3): 1117-1128 https://ieeexplore.ieee.org/document/8681089
    [94] 倪自强, 王田苗, 刘达.基于视觉引导的工业机器人示教编程系统.北京航空航天大学学报, 2016, 42(3): 562-568 http://d.old.wanfangdata.com.cn/Periodical/bjhkhtdxxb201603018

    Ni Zi-Qiang, Wang Tian-Miao, Liu Da. Vision guide based teaching programming for industrial robot. Journal of Beijing University of Aeronautics and Astronautics, 2016, 42(3): 562-568 http://d.old.wanfangdata.com.cn/Periodical/bjhkhtdxxb201603018
    [95] Hu D Y, Gong Y Z, Hannaford B, Seibel E J. Semi-autonomous simulated brain tumor ablation with RavenⅡ surgical robot using behavior tree. In: Proceedings of the 2015 IEEE International Conference on Robotics and Automation. Seattle, WA, USA: IEEE, 2015. 3868-3875 https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4578323/
    [96] Ewerton M, Neumann G, Lioutikov R, Amor H B, Peters J, Maeda G, et al. Learning multiple collaborative tasks with a mixture of interaction primitives. In: Proceedings of the 2015 IEEE International Conference on Robotics and Automation. Seattle, WA, USA: IEEE, 2015. 1535-1542 Learning multiple collaborative tasks with a mixture of interaction primitives
    [97] Silvério J, Calinon S, Rozo L, Caldwell D G. Bimanual skill learning with pose and joint space constraints. In: Proceedings of the 2018 IEEE/RAS International Conference on Humanoid Robots. Beijing, China: IEEE, 2018. 153-159 http://publications.idiap.ch/downloads/papers/2018/Silverio_HUMANOIDS_2018.pdf
    [98] Figueroa N, Ureche A L P, Billard A. Learning complex sequential tasks from demonstration: a pizza dough rolling case study. In: Proceedings of the 11th ACM/IEEE International Conference on Human-Robot Interaction. Christchurch, New Zealand: IEEE, 2016. 611-612 http://lasa.epfl.ch/publications/uploadedFiles/p611-figueroa.pdf
    [99] Calinon S, Sardellitti I, Caldwell D G. Learning-based control strategy for safe human-robot interaction exploiting task and robot redundancies. In: Proceedings of the 2010 IEEE/RSJ International Conference on Intelligent Robots and Systems. Taipei, China: IEEE, 2010. 249-254 http://vigir.missouri.edu/~gdesouza/Research/Conference_CDs/IEEE_IROS_2010/data/papers/1177.pdf
    [100] Ureche A L P, Billard A. Analyzing human behavior and bootstrapping task constraints from kinesthetic demonstrations. In: Proceedings of the 10th Annual ACM/IEEE International Conference on Human-Robot Interaction Extended Abstracts. Portland, Oregon, USA: ACM, 2015: 199-200 http://lasa.epfl.ch/publications/uploadedFiles/p199-ureche.pdf
    [101] Muhlig M, Gienger M, Hellbach S, Steil J J, Goerick C. Task-level imitation learning using variance-based movement optimization. In: Proceedings of the 2009 IEEE International Conference on Robotics and Automation. Kobe, Japan: IEEE, 2009. 1177-1184 https://www.researchgate.net/publication/224557223_Task-level_imitation_learning_using_variance-based_movement_optimization
    [102] Gupta A, Eppner C, Levine S, Abbeel P. Learning dexterous manipulation for a soft robotic hand from human demonstrations. In: Proceedings of the 2016 IEEE/RSJ International Conference on Intelligent Robots and Systems. Daejeon, South Korea: IEEE, 2016. 3786-3793 https://arxiv.org/pdf/1603.06348.pdf
    [103] Peters J, Schaal S. Reinforcement learning of motor skills with policy gradients. Neural Networks, 2008, 21(4): 682- 697 doi: 10.1016/j.neunet.2008.02.003
    [104] Xu W J, Chen J, Lau H Y K, Ren H L. Automate surgical tasks for a flexible serpentine manipulator via learning actuation space trajectory from demonstration. In: Proceedings of the 2016 IEEE International Conference on Robotics and Automation. Stockholm, Sweden: IEEE, 2016. 4406-4413 https://ieeexplore.ieee.org/document/7487640
    [105] Murali A, Sen S, Kehoe B, Garg A, McFarland S, Patil S, et al. Learning by observation for surgical subtasks: multilateral cutting of 3D viscoelastic and 2D orthotropic tissue phantoms. In: Proceedings of the 2015 IEEE International Conference on Robotics and Automation. Seattle, WA, USA: IEEE, 2015. 1202-1209 https://people.eecs.berkeley.edu/~pabbeel/papers/2015-ICRA-LBO-DVRK.pdf
    [106] Ureche L P, Billard A. Constraints extraction from asymmetrical bimanual tasks and their use in coordinated behavior. Robotics and Autonomous Systems, 2018, 103: 222-235 doi: 10.1016/j.robot.2017.12.011
    [107] Salehian S S M, Khoramshahi M, Billard A. A dynamical system approach for softly catching a flying object: theory and experiment. IEEE Transactions on Robotics, 2016, 32(2): 462-471 doi: 10.1109/TRO.2016.2536749
    [108] Kalashnikov D, Irpan A, Pastor P, Ibarz J, Herzog A, Jang E, et al. Scalable deep reinforcement learning for vision-based robotic manipulation. In: Proceedings of the 2nd Conference on Robot Learning. Zurich, Switzerland: PMLR, 2018. 651-673
    [109] Deng J, Dong W, Socher R, Li L J, Li K, Li F F. Imagenet: a large-scale hierarchical image database. In: Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, FL, USA: IEEE, 2009. 248-255 http://image-net.org/papers/imagenet_cvpr09.pdf
    [110] Du Z H, He L, Chen Y N, Xiao Y, Gao P, Wang T Z. Robot cloud: bridging the power of robotics and cloud computing. Future Generation Computer Systems, 2015, 21(4): 301-312 https://www.sciencedirect.com/science/article/pii/S0167739X16000042
    [111] Kehoe B, Patil S, Abbeel P, Goldberg K. A survey of research on cloud robotics and automation. IEEE Transactions on Automation Science and Engineering, 2015, 12(2): 398-409 doi: 10.1109/TASE.2014.2376492
    [112] Hu G Q, Tay W P, Wen Y G. Cloud robotics: architecture, challenges and applications. IEEE Network, 2012, 26(3): 21-28 doi: 10.1109/MNET.2012.6201212
    [113] Hunziker D, Gajamohan M, Waibel M, D$'$Andrea R. Rapyuta: the RoboEarth cloud engine. In: Proceedings of the 2013 IEEE International Conference on Robotics and Automation. Karlsruhe, Germany: IEEE, 2013. 438-444
    [114] Saxena A, Jain A, Sener O, Jami A, Misra D K, Koppula H S. Robobrain: large-scale knowledge engine for robots. arXiv: 1412.0691, 2014. https://arxiv.org/pdf/1412.0691.pdf
    [115] 王飞跃.知识机器人与工业5.0. 2015年国家机器人发展论坛.北京: 中国自动化学会, 2015.

    Wang Fei-Yue. Knowledge Robot and Industry 5.0. In: Proceedings of the 2015 China National Robotics Development Forum. Beijing, China: Chinese Association of Automation, 2015.
    [116] 白天翔, 王帅, 沈震, 曹东璞, 郑南宁, 王飞跃.平行机器人与平行无人系统:框架、结构、过程、平台及其应用.自动化学报, 2017, 43(2): 161-175 http://www.aas.net.cn/CN/abstract/abstract18998.shtml

    Bai Tian-Xiang, Wang Shuai, Shen Zhen, Cao Dong-Pu, Zheng Nan-Ning, Wang Fei-Yue. Parallel robotics and parallel unmanned systems: framework, structure, process, platform and applications. Acta Automatica Sinica, 2017, 43(2): 161-175 http://www.aas.net.cn/CN/abstract/abstract18998.shtml
    [117] 王飞跃.软件定义的系统与知识自动化:从牛顿到默顿的平行升华.自动化学报, 2015, 41(1): 1-8 doi: 10.3969/j.issn.1003-8930.2015.01.001

    Wang Fei-Yue. Software-defined systems and knowledge automation: a parallel paradigm shift from Newton to Merton. Acta Automatica Sinica, 2015, 41(1): 1-8 doi: 10.3969/j.issn.1003-8930.2015.01.001
  • 期刊类型引用(8)

    1. 郑俊,申铁. 利用帕累托原理推断细胞为适应特定环境代谢流的权衡与代谢途径的调控. 自动化应用. 2025(02): 57-61+71 . 百度学术
    2. 李鑫,余墨多,姜庆超,范勤勤. 基于分区搜索和强化学习的多模态多目标头脑风暴优化算法. 计算机应用研究. 2024(08): 2374-2383 . 百度学术
    3. 闵芬,董文波,丁炜超. 基于决策变量时域变化特征分类的动态多目标进化算法. 自动化学报. 2024(11): 2154-2176 . 本站查看
    4. Wenhua Li,Xingyi Yao,Kaiwen Li,Rui Wang,Tao Zhang,Ling Wang. Coevolutionary Framework for Generalized Multimodal Multi-Objective Optimization. IEEE/CAA Journal of Automatica Sinica. 2023(07): 1544-1567 . 必应学术
    5. 章恩泽,赵哲萱,韦静月,葛蕤,蒋超. 基于环形拓扑结构和动态邻域的多模态多目标粒子群优化算法. 扬州大学学报(自然科学版). 2023(04): 19-24 . 百度学术
    6. 孙铁军,王明瑞,刘斌,崔文超,李鹏威,曲丽萍. 基于大数据挖掘技术的热轧板带钢轧后冷却多目标优化. 北华大学学报(自然科学版). 2023(06): 820-827 . 百度学术
    7. 张东旭,李永华,白肖宁,王裕沣. 基于RBF-CLNSGA-Ⅱ算法的转向架构架多目标优化. 铁道科学与工程学报. 2023(11): 4311-4320 . 百度学术
    8. 王卓,孔祥韶,吴卫国. 基于遗传算法的邮轮舷侧开口结构补强技术研究. 中国造船. 2023(06): 86-100 . 百度学术

    其他类型引用(22)

  • 加载中
  • 图(7)
    计量
    • 文章访问数:  3075
    • HTML全文浏览量:  1278
    • PDF下载量:  509
    • 被引次数: 30
    出版历程
    • 收稿日期:  2018-12-17
    • 录用日期:  2019-03-19
    • 刊出日期:  2019-08-20

    目录

    /

    返回文章
    返回