刘乃军 鲁涛 蔡莹皓 王硕

刘乃军, 鲁涛, 蔡莹皓, 王硕. 机器人操作技能学习方法综述. 自动化学报, 2019, 45(3): 458-470. doi: 10.16383/j.aas.c180076
LIU Nai-Jun, LU Tao, CAI Ying-Hao, WANG Shuo. A Review of Robot Manipulation Skills Learning Methods. ACTA AUTOMATICA SINICA, 2019, 45(3): 458-470. doi: 10.16383/j.aas.c180076
    刘乃军    中国科学院自动化研究所博士研究生.2016年获得山东大学硕士学位.主要研究方向为智能机器人, 深度强化学习.E-mail:liunaijun2016@ia.ac.cn

    鲁涛    中国科学院自动化研究所复杂系统管理与控制国家重点实验室副研究员.2007年获得中国科学院自动化研究所博士学位.主要研究方向为人机交互、机器人以及人工智能.E-mail:tao.lu@ia.ac.cn

    蔡莹皓    中国科学院自动化研究所副研究员.2009年获得中科院自动化所博士学位, 曾任美国南加州大学博士后研究员和芬兰奥卢大学研究科学家.主要研究方向为机器人视觉.E-mail:yinghao.cai@ia.ac.cn


    王硕    中国科学院自动化研究所复杂系统管理与控制国家重点实验室和中国科学院脑科学与智能技术卓越创新中心研究员.主要研究方向为智能机器人, 仿生机器人和多机器人系统.本文通信作者.E-mail:shuo.wang@ia.ac.cn

A Review of Robot Manipulation Skills Learning Methods


      Ph. D. candidate at the Institute of Automation, Chinese Academy of Sciences. He received his master degree from Shandong University in 2016. His research interest covers intelligent robot and deep reinforcement learning

      Associate professor at the State Key Laboratory of Management and Control for Complex Systems, Institute of Automation, Chinese Academy of Sciences. He received his Ph. D. degree from the Institute of Automation, Chinese Academy of Sciences in 2007. His research interest covers human-robot interaction, robotics, and artificial intelligence

      Associate professor at the Institute of Automation, Chinese Academy of Sciences. She received her Ph. D. degree from Institute of Automation, Chinese Academy of Sciences in 2009. She was a postdoctoral research fellow at University of Southern California, USA and senior research scientist in University of Oulu, Finland. Her research interest covers computer vision in robotics

    Corresponding author: WANG Shuo    Professor at the State Key Laboratory of Management and Control for Complex Systems, Institute of Automation of the Chinese Academy of Sciences and Center for Excellence in Brain Science and Intelligence Technology of the Chinese Academy of Sciences. His research interest covers intelligent robot, biomimetic robot and multi-robot system. Corresponding author of this paper
  • 摘要: 结合人工智能技术和机器人技术,研究具备一定自主决策和学习能力的机器人操作技能学习系统,已逐渐成为机器人研究领域的重要分支.本文介绍了机器人操作技能学习的主要方法及最新的研究成果.依据对训练数据的使用方式将机器人操作技能学习方法分为基于强化学习的方法、基于示教学习的方法和基于小数据学习的方法,并基于此对近些年的研究成果进行了综述和分析,最后列举了机器人操作技能学习的未来发展方向.
  • 图  1  操作技能学习方法分类

    Fig.  1  The categories of robot manipulation skills learning methods

    图  2  基于强化学习的操作技能学习示意图

    Fig.  2  Illustration of manipulation skills learning method based on reinforcement learning

    图  3  基于值函数强化学习的操作技能

    Fig.  3  Manipulation skills based on value function of reinforcement learning

    图  4  基于策略搜索强化学习的操作技能

    Fig.  4  Manipulation skills based on policy search of reinforcement learning

    图  5  DQN网络结构示意图

    Fig.  5  Illustration of DQN neural network

    图  6  基于引导策略搜索的机器人操作技能[12]

    Fig.  6  Manipulation skills based on guided policy search[12]

    图  7  示教学习分类示意图

    Fig.  7  Illustration of classification of imitation learning methods

    图  8  多台机器人收集训练数据[15]

    Fig.  8  Collecting training data by many robots[15]

    图  9  基于VR虚拟现实设备的示教学习[63]

    Fig.  9  Imitation learning based on VR device[63]

    图  10  人形机器人高难度操作技能[73]

    Fig.  10  Difficulty manipulation skills learned by human robots[73]

    图  11  虚拟环境中训练策略应用于真实环境[74]

    Fig.  11  Policies trained in simulated environment applied in real-world environment[74]

    图  12  一次性模仿学习算法示意图[92]

    Fig.  12  Illustration of one-shot imitation learning algorithm[92]

    图  13  MAML元学习方法策略参数梯度更新示意图[93]

    Fig.  13  Illustration of gradient update for policy parameters with MAML meta learning algorithm[93]

    表  1  机器人和其他应用中强化学习比较

    Table  1  Comparison of reinforcement learning methods applied in robotics and other fields

    项目 机器人应用 其他应用
    状态、动作空间 均为高维、连续空间 大多为低维、离散空间
    训练数据获取 真实环境:数据获取会损耗硬件, 有潜在危险, 成本高; 虚拟环境:数据获取方便 不损耗硬件不存在危险性
    训练成本 仿真环境低, 真实环境高
    主流方法 大多基于策略搜索 大多基于价值函数
    其他方面 不确定性因素多, 训练过程受诸多条件约束, 学习过程需要人的参与 -
    表  2  三类操作技能学习方法特点对比

    Table  2  Comparison of three kinds of manipulation skills learning methods

    对比项目 基于强化学习 基于示教学习 小数据学习
    数据量 不需提供示教数据但需大量机器人与环境的交互数据 需提供较多示教数据 需大量数据面对新任务需少量数据
    学习效率 低, 需不断试错 较高
图(13) / 表(2)
