黄艳龙 徐德 谭民

宋秀兰, 李洋阳, 何德峰. 外部干扰和随机DoS攻击下的网联车安全H∞ 队列控制. 自动化学报, 2024, 50(2): 348−355 doi: 10.16383/j.aas.c230327
引用本文: 黄艳龙, 徐德, 谭民. 机器人运动轨迹的模仿学习综述. 自动化学报, 2022, 48(2): 315−334 doi: 10.16383/j.aas.c210033
Song Xiu-Lan, Li Yang-Yang, He De-Feng. Secure H∞ platooning control for connected vehicles subject to external disturbance and random DoS attacks. Acta Automatica Sinica, 2024, 50(2): 348−355 doi: 10.16383/j.aas.c230327
Citation: Huang Yan-Long, Xu De, Tan Min. On imitation learning of robot movement trajectories: A survey. Acta Automatica Sinica, 2022, 48(2): 315−334 doi: 10.16383/j.aas.c210033


doi: 10.16383/j.aas.c210033
基金项目: 国家自然科学基金(61873266)资助

    黄艳龙:英国利兹大学计算机系助理教授. 主要研究方向为模仿学习, 强化学习和运动规划. 本文通信作者. E-mail: y.l.huang@leeds.ac.uk

    徐德:中国科学院自动化研究所研究员. 1985年、1990年获得山东工业大学学士、硕士学位. 2001年获得浙江大学博士学位. 主要研究方向为机器人视觉测量, 视觉控制, 智能控制, 视觉定位, 显微视觉, 微装配. E-mail: de.xu@ia.ac.cn

    谭民:中国科学院自动化研究所复杂系统管理与控制国家重点实验室研究员. 主要研究方向为机器人系统和智能控制系统. E-mail: min.tan@ia.ac.cn

On Imitation Learning of Robot Movement Trajectories: A Survey

Funds: Supported by National Natural Science Foundation of China (61873266)
    Author Bio:

    HUANG Yan-Long University academic fellow at the School of Computing, University of Leeds, Leeds, UK. His interest covers imitation learning, reinforcement learning and motion planning. Corresponding author of this paper

    XU De Professor at the Institute of Automation, Chinese Academy of Sciences. He received his bachelor and master degrees from Shandong University of Technology in 1985 and 1990, respectively. He received his Ph. D. degree from Zhejiang University in 2001. His research interest covers robotics and automation, such as visual measurement, visual control, intelligent control, visual positioning, microscopic vision, and microassembly

    TAN Min Professor at the State Key Laboratory of Management and Control for Complex Systems, Institute of Automation, Chinese Academy of Sciences. His research interest covers robotics and intelligent control systems

  • 摘要: 作为机器人技能学习中的一个重要分支, 模仿学习近年来在机器人系统中得到了广泛的应用. 模仿学习能够将人类的技能以一种相对直接的方式迁移到机器人系统中, 其思路是先从少量示教样本中提取相应的运动特征, 然后将该特征泛化到新的情形. 本文针对机器人运动轨迹的模仿学习进行综述. 首先详细解释模仿学习中的技能泛化、收敛性和外插等基本问题; 其次从原理上对动态运动基元、概率运动基元和核化运动基元等主要的模仿学习算法进行介绍; 然后深入地讨论模仿学习中姿态和刚度矩阵的学习问题、协同和不确定性预测的问题以及人机交互中的模仿学习等若干关键问题; 最后本文探讨了结合因果推理的模仿学习等几个未来的发展方向.
  • 1 在一些文献中轨迹的模仿学习被归类为BC, 然而考虑到其研究内容的差异, 本文采用不同的划分方式.
  • 2 将式(2)中的$ \boldsymbol{{s}} $$ \boldsymbol{{\xi}} $分别用$ \boldsymbol{{\xi}} $$ \dot{\boldsymbol{{\xi}}} $进行替换即可.
  • 3 该协方差可以控制自适应轨迹经过期望点$ \boldsymbol{{\mu}}_t^{*} $的误差: $ \boldsymbol{{\Sigma}}_t^{*} $越小则误差越小, 反之则误差变大.4 根据文献([35], 第3.6节), 固定基函数的数量常随输入变量维度的增加呈指数级增加.5 关于从GMM中采样的方法可以参考文献[59].
  • 4 根据文献([35], 第3.6节), 固定基函数的数量常随输入变量维度的增加呈指数级增加.
  • 5 关于从GMM中采样的方法可以参考文献[59].
  • 6 对于期望点输入和参考轨迹存在重叠的情况, 可参考文献[6]中的轨迹更新策略.
  • 7 在预测之前需要获得足够多的训练样本对$ \{\boldsymbol{{s}}, \tilde{\boldsymbol{{w}}}\} $.
  • 8 分割后的轨迹片段一般不等同于MP, 常常不同的轨迹片段可能对应相同的MP, 因此需要对轨迹片段进行聚类.
  • 9 向量值GP通过恰当的可分离核函数可以表征多维轨迹之间的协同关系, 然而其未考虑轨迹本身的方差, 故这里未将其包括在内.
  • 10 这里使用“协方差”是为了表明i)和ii)使用相同的预测模型.11 这些工作中对应的控制器被称作最小干涉控制(Minimal intervention control).
  • 11 这些工作中对应的控制器被称作最小干涉控制(Minimal intervention control).
  • 12 利用泛函梯度得到的导数为函数, 该导数用来对函数本身进行优化.
  • 13 该更新同时也需要机器人的观测轨迹, 然而该轨迹恰是需要预测的, 因此文献[20]在更新$ \boldsymbol{{w}} $时将机器人的观测值设成零向量, 同时将拟合机器人轨迹的基函数设成零矩阵.
  • 图  1  KMP在粉刷任务中的应用[30]. 第一行表示技能的示教, 第二行和第三行分别对应新情形下的泛化

    Fig.  1  The application of KMP in painting tasks[30]. The first row illustrates kinesthetic teaching of a painting task while the second and third rows correspond to skill adaptations in unseen situations

    图  2  粉刷任务中的示教轨迹(a) ~ (b)以及泛化轨迹(c) ~ (f), 其中(c) ~ (d)和(e) ~ (f)对应不同情形下的泛化[30]. $[p_x \ p_y \ p_z]^{\rm{T}} $$[q_s \ q_x \ q_y \ q_z]^{\rm{T}}$分别表示机器人末端的位置和四元数姿态. 圆圈为泛化时对应的期望路径点

    Fig.  2  Demonstrations (a) ~ (b) and adapted trajectories (c) ~ (f) in painting tasks, where (c) ~ (d) and (e) ~ (f) correspond to different adaptations. $[p_x \ p_y \ p_z]^{\rm{T}} $ and $[q_s \ q_x \ q_y \ q_z]^{\rm{T}}$ denote Cartesian position and quaternion, respectively. Circles depict various desired points

    图  3  DMP在书写字母中的应用. (a)表示技能的复现, (b) ~ (c)均表示技能的泛化, 其中实线对应DMP生成的轨迹, 虚线为示教轨迹并用 ‘*’ 和 ‘+’ 分别表示其起点和终点, 圆圈表示泛化轨迹需要经过的期望位置点

    Fig.  3  The application of DMP in writing tasks. (a) corresponds to skill reproduction, (b) ~ (c) represent skill adaptations with different desired points. Solid curves are generated via DMP, while the dashed curves denote the demonstration with ‘*’ and ‘+’ respectively marking its starting and ending points. Circles depict desired points which the adapted trajectories should go through

    图  4  KMP在书写字母中的应用. (a)对应二维轨迹, (b) ~ (e)分别表示轨迹的$x,$ $y,$ $\dot{x}$$\dot{y}$分量. 实线对应KMP生成的轨迹, 虚线为通过GMR对示教轨迹进行建模得到的均值, 圆圈表示不同的期望点

    Fig.  4  The application of KMP in a writing task. (a) plots the corresponding 2D trajectories, while (b) ~ (e) show the $x,$ $y,$ $\dot{x}$ and $\dot{y}$ components of trajectories, respectively. Solid curves are planned via KMP while the dashed curves are retrieved by GMR after modelling demonstrations. Circles denote various desired points

    图  5  应用GMM和GMR对多条示教轨迹进行概率建模. (a) ~ (b)分别对应示教轨迹的$x$$y$分量, (c) ~ (d)表示GMM和GMR的建模结果, 其中(c)中椭圆表示GMM中的高斯成分, (d)中的实线和阴影部分分别表示多条轨迹的均值和方差

    Fig.  5  The modeling of multiple demonstrations using GMM and GMR. (a) ~ (b) plot the $x$ and $y$ components of demonstrations. (c) ~ (d) depict the probabilistic features obtained via GMM and GMR, where the ellipses in (c) denote the Gaussian components in GMM, the solid curve and shaded area in (d) represent the mean and covariance of demonstrations, respectively

    图  6  DMP 的外插应用

    Fig.  6  The extrapolation application of DMP

    图  7  KMP在人机交互中的应用[34]. 第一行表示技能示教, 第二行为技能复现, 第三行对应新情形下的技能泛化

    Fig.  7  The application of KMP in handover tasks[34]. The first row shows kinesthetic teaching of a handover task, while the second and third rows illustrate skill reproduction and adaptation, respectively

    表  1  几种主要模仿学习方法的对比

    Table  1  Comparison among the state-of-the-art approaches in imitation learning

    技能复现 多轨迹概率 中间点 目标点 外插 收敛性 时间输入 多维输入
    位置 速度 位置 速度
    表  2  几种主要姿态学习方法的对比

    Table  2  Comparison among the state-of-the-art approaches in orientation learning

    单位范数 多轨迹概率 中间姿态 目标姿态 收敛性 时间输入 多维输入
    单个基元 姿态 角速度 姿态 角速度
    Pastor 等[62]
    Silverio 等[63]
    Ude 等[64]
    Abu-Dakka 等[65]
    Ravichandar 等[66]
    Zeestraten 等[67]
    Huang 等[34]
    Saveriano 等[68]
    1. 肖洒,陈旭阳,叶锦华,吴海彬. 一种基于DTW-DP-GMM的工业机器人轨迹学习策略. 天津大学学报(自然科学与工程技术版). 2025(01): 68-80 . 百度学术
    2. 冯振,牟海明,薛杰,李清都. 融合模仿学习的双足机器人全向行走步态生成方法. 电子科技. 2025(01): 29-36 . 百度学术
    3. 李臻恺,付明磊,姜国栋,刘锦元,Uladzislau Sychou. 基于冗余机械臂可操作性的改进动态运动基元方法. 计算机集成制造系统. 2025(01): 35-46 . 百度学术
    4. 薛俊楠,李志海,于洪鹏. 基于改进Soft-DTW的人类示教轨迹模板生成方法. 小型微型计算机系统. 2025(03): 528-534 . 百度学术
    5. 刘暾东,张馨月,林晨滢,吴晓敏,苏永彬. 基于分段动态运动基元的机械臂轨迹学习与避障方法. 机器人. 2024(03): 275-283 . 百度学术
    6. 仲训杲,罗家国,田军,仲训昱,彭侠夫,刘强. 二阶锥约束规划的机器人视觉闭环位姿自协调方法. 中国机械工程. 2024(06): 1064-1073 . 百度学术
    7. 伍家俊,黎奕辉,陈燊豪. 基于改进ProMPs的机器人姿态轨迹模仿学习. 组合机床与自动化加工技术. 2024(10): 46-49 . 百度学术
    8. 李平,李利娜,侯志利. 协作机器人运动轨迹模仿学习方法研究. 组合机床与自动化加工技术. 2024(10): 120-125 . 百度学术
    9. 毛飞鸿,冀晓春,黄开启,苏建华. 考虑障碍物尺寸信息的机械臂避障路径学习方法. 机电工程技术. 2024(10): 136-142 . 百度学术
    10. 翟雪倩,江励,郑昊辰,罗艺,周雪峰,吴鸿敏. 机器人强泛化性运动技能学习与自适应变阻抗控制方法. 机床与液压. 2024(23): 37-44+50 . 百度学术
    11. 李思敏,姜喜胜,吉祥,梁国祥,李清都. 基于分层二次规划的双臂机器人动作模仿研究. 智能计算机与应用. 2024(12): 1-9 . 百度学术
    12. 肖洒,吕勇明,吴海彬. 一种基于DP-KMP的机器人避障交互式学习方法. 仪器仪表学报. 2024(11): 65-78 . 百度学术
    13. 张铁民,邓鸿锋,李看,蒋佳城,廖峻添. 笼养鸡舍巡检机器人惯性导航系统设计与试验研究. 农业工程学报. 2024(23): 135-146 . 百度学术
    14. 张秋菊,吕青. 机器人多模态智能操作技术研究综述. 计算机科学与探索. 2023(04): 792-809 . 百度学术
    15. 柏纪伸,钱堃,徐欣. 基于多级核化运动基元的人机交递轨迹模仿学习. 机器人. 2023(04): 409-421 . 百度学术
    16. 王雪松,王荣荣,程玉虎. 安全强化学习综述. 自动化学报. 2023(09): 1813-1835 . 本站查看
    17. 周娴玮,包明豪,叶鑫,余松森. 带Q网络过滤的两阶段TD3深度强化学习方法. 计算机技术与发展. 2023(10): 101-108 . 百度学术
    18. 苏永彬,洪瑞康,刘暾东. 基于前馈隐马尔可夫模型的机器人演示轨迹精准重构方法研究. 仪器仪表学报. 2023(12): 199-207 . 百度学术
    19. 段宝阁,杨尚尚,谢啸,肖晓晖. 基于模仿学习的双曲率曲面零件复合材料织物机器人铺放. 机器人. 2022(04): 504-512 . 百度学术
    20. 曾海,许德章. 基于模仿学习的气管插管机器人非结构环境作业策略. 淮阴工学院学报. 2022(03): 31-40 . 百度学术
    21. 颜鹏,郭继峰,白成超. 考虑移动目标不确定行为方式的轨迹预测方法. 宇航学报. 2022(08): 1040-1051 . 百度学术


