2.793

2018影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于GPR和深度强化学习的分层人机协作控制

金哲豪 刘安东 俞立

金哲豪, 刘安东, 俞立. 基于GPR和深度强化学习的分层人机协作控制. 自动化学报, 2020, 46(x): 1−11. doi: 10.16383/j.aas.c190451
引用本文: 金哲豪, 刘安东, 俞立. 基于GPR和深度强化学习的分层人机协作控制. 自动化学报, 2020, 46(x): 1−11. doi: 10.16383/j.aas.c190451
Jin Zhe-Hao, Liu An-Dong, Yu Li. Hierarchical human-robot cooperative control based on GPR and DRL. Acta Automatica Sinica, 2020, 46(x): 1−11. doi: 10.16383/j.aas.c190451
Citation: Jin Zhe-Hao, Liu An-Dong, Yu Li. Hierarchical human-robot cooperative control based on GPR and DRL. Acta Automatica Sinica, 2020, 46(x): 1−11. doi: 10.16383/j.aas.c190451

基于GPR和深度强化学习的分层人机协作控制


DOI: 10.16383/j.aas.c190451
详细信息
    作者简介:

    浙江工业大学信息工程学院硕士研究生. 主要研究方向为人机协作.E-mail: jzh839881963@163.com

    浙江工业大学信息工程学院讲师. 主要研究方向为模型预测控制和网络化控制系统.E-mail: lad@zjut.edu.cn

    浙江工业大学信息工程学院教授. 主要研究方向为无线传感网络, 网络化控制系统和运动控制. 本文通信作者.E-mail: lyu@zjut.edu.cn

  • 基金项目:  NSFC-浙江两化融合联合基金(U1709213), 国家自然科学基金(61973275)资助

Hierarchical Human-Robot Cooperative Control Based on GPR and DRL

More Information
  • Fund Project:  Supported by NFSC-Zhejiang Joint Foundation for the Integration of Industrialization and Informatization (U1709213), Natural Science Foundation of China (61973275)
  • 摘要: 本文提出了一种基于高斯过程回归(Gaussian Process Regression, GPR)与深度强化学习(Deep Reinforcement Learning, DRL)的分层人机协作(Human-Robot Collaborative, HRC)控制方法, 并以人机协作控制球杆系统为例检验该方法的高效性. 本文的主要贡献是: 1)在模型未知的情况下, 采用DRL算法设计了一种有效的非线性次优控制策略, 并将其作为顶层期望控制策略以引导HRC控制过程, 解决了传统控制方法无法直接应用于模型未知人机协作场景的问题; 2) 针对HRC过程中人未知和随机控制策略带来的不利影响, 采用GPR拟合人体控制策略以建立机器人对人控制行为的认知模型, 在减弱该不利影响的同时提升机器人在协作过程中的主动性, 从而进一步提升协作效率; 3)利用所得认知模型和期望控制策略设计机器人末端速度的控制律, 并通过实验对比验证了所提方法的有效性.
  • 图  1  人机协作控制球杆系统示意图

    Fig.  1  Schematic diagram of the HRC task

    图  2  分层人机协作球杆结构示意图

    Fig.  2  Schematic diagram of hierarchical HRC

    图  3  DDPG训练过程曲线图.

    Fig.  3  Training process curves of DDPG.

    图  4  DDPG控制效果图.

    Fig.  4  The control result of DDPG.

    图  5  DDPG与DQN的控制效果对比图.

    Fig.  5  The comparison of control effects between DDPG and DQN.

    图  6  人机协作实验环境图.

    Fig.  6  The environment of the HRC task.

    图  7  志愿者控制球杆数据的滤波效果图.

    Fig.  7  Filtering results of the data generated by volunteers' control process.

    图  8  志愿者控制球杆系统的部分轨迹图.

    Fig.  8  Some trajectories of the volunteers' control processes.

    图  9  人体控制策略预测模型拟合结果图.

    Fig.  9  The fitting result of human-control policy prediction model.

    图  10  顶层期望控制策略控制效果的实验验证.

    Fig.  10  The experimental validation of the expected control policy.

    图  11  人机协作控制效果的实验验证.

    Fig.  11  The experimental validation of the HRC control.

    图  12  人体控制策略预测模型预测结果.

    Fig.  12  The prediction result of the human-control policy prediction model.

  • [1] Amirshirzad N, Kumru A, Oztop E. Human adaptation to human–robot shared control. IEEE Transactions on Human-Machine Systems, 2019, 49(2): 126−136 doi:  10.1109/THMS.2018.2884719
    [2] Wojtara Y, Murayama H, Howard M, Shimoda S, Sakai S, Fujimoto H, et al. Human-robot collaboration in precise positioning of a three-dimensional object. Automatica, 2009, 45(2): 333−342 doi:  10.1016/j.automatica.2008.08.021
    [3] Dumora J, Geffard F, Bidard C, Brouillet T, Fraisse P. Experimental study on haptic communication of a human in a shared human-robot collaborative task. In: Proceedings of IEEE/RSJ International Conference on Intelligent Robots and Systems. Vilamoura, Portugal: IEEE, 2012. 5137−5144
    [4] Karayiannidis Y, Smith C, Kragic D. Mapping human intentions to robot motions via physical interaction through a jointly-held object. In: Proceedings of the 23rd IEEE International Symposium on Robot and Human Interactive Communication. Edinburgh, UK: IEEE, 2014. 391−397
    [5] Karayiannidis Y, Smith C, Vina F E, Kragic D. Online kinematics estimation for active human-robot manipulation of jointly held objects. In: Proceedings of IEEE/RSJ International Conference on Intelligent Robots and Systems. Tokyo, Japan: IEEE, 2013. 4872−4878
    [6] Burdet E, Milner T E. Quantization of human motions and learning of accurate movements. Biological cybernetics, 1998, 78(4): 307−318 doi:  10.1007/s004220050435
    [7] Maeda Y, Hara T, Arai T. Human-robot cooperative manipulation with motion estimation. In: Proceedings of IEEE/RSJ International Conference on Intelligent Robots and Systems. Maui, USA: IEEE, 2001. 2240−2245
    [8] Corteville B, Aertbelien E, Bruyninckx H, Schutter J D, Brussel H V. Human-inspired robot assistant for fast point-to-point movements. In: Proceedings of 2007 IEEE International Conference on Robotics and Automation. Roma, Italy: IEEE, 2007. 3639−3644
    [9] Miossec S, Kheddar A. Human motion in cooperative tasks: Moving object case study. In: Proceedings of 2008 IEEE International Conference on Robotics and Biomimetics. Bangkok, Thailand: IEEE, 2009. 1509−1514
    [10] Sheng W H, Thobbi A, Gu Y. An integrated framework for human–robot collaborative manipulation. IEEE Transactions on Cybernetics, 2015, 45(10): 2030−2041 doi:  10.1109/TCYB.2014.2363664
    [11] Thobbi A, Gu Y, Sheng W H. Using human motion estimation for human-robot cooperative manipulation. In: Proceedings of 2011 IEEE/RSJ International Conference on Intelligent Robots and Systems. San Francisco, USA: IEEE, 2011. 2873−2878
    [12] Deng Z, Mi J P, Han D, Huang R, Xiong X F, Zhang J W. Hierarchical robot learning for physical collaboration between humans and robots. In: Proceedings of IEEE International Conference on Robotics and Biomimetics. Macau, China: IEEE, 2017. 750−755
    [13] Agravante D J, Cherubini A, Bussy A, Kheddar A. Humanhumanoid joint haptic table carrying task with height stabilization using vision. In: Proceedings of 2013 IEEE/RSJ International Conference on Intelligent Robots and Systems. Tokyo, Japan: IEEE, 2013. 4609−4614
    [14] Agravante D J, Cherubini A, Bussy A, Gergondet P, Kheddar A. Collaborative human-humanoid carrying using vision and haptic sensing. In: Proceedings of 2014 IEEE International Conference on Robotics and Automation. Hong Kong, China: IEEE, 2014. 607−612
    [15] Mainprice J, Berenson D. Human-robot collaborative manipulation planning using early prediction of human motion. In: Proceedings of IEEE/RSJ International Conference on Intelligent Robots and Systems. Tokyo, Japan: IEEE, 2013. 299−306
    [16] Maria K, Muhammad A H, Danijela R D, Axel G. Robot learning of industrial assembly task via human demonstrations. Autonomous Robots, 2019, 43(1): 239−257 doi:  10.1007/s10514-018-9725-6
    [17] Ghadirzadeh A, Butepage J, Maki A, Kragic D, Bjorkman M. A sensorimotor reinforcement learning framework for physical human-robot interaction. In: Proceedings of IEEE/RSJ International Conference on Intelligent Robots and Systems. Daejeon, South Korea: IEEE, 2016. 2682−2688
    [18] Wang P, Liu H Y, Wang L H, Gao R X. Deep learning-based human motion recognition for predictive context-aware human-robot collaboration. CIRP Annals - Manufacturing Technology, 2018, 67(1): 17−20 doi:  10.1016/j.cirp.2018.04.066
    [19] Wang Z, Peer A, Buss M. An HMM approach to realistic haptic human-robot interaction. In: Proceedings of World Haptics 2009 - 3rd Joint EuroHaptics conference and Symposium on Haptic Interfaces for Virtual Environment and Teleoperator Systems. Teleoperator Syst. Salt Lake City, USA: IEEE, 2016. 374−379
    [20] Mainprice J, Berenson D. Learning human-robot collaboration with POMDP. In: Proceedings of International Conference on Control, Automation and Systems. Gyeongju, South Korea: IEEE, 2013. 1238−1243
    [21] Hawkins K P, Vo N, Bansal S, Bobick A F. Probabilistic human action prediction and wait-sensitive planning for responsive human-robot collaboration. In: Proceedings of the 13th IEEE-RAS International Conference on Humanoid Robots. Atlanta, USA: IEEE, 2013. 499−506
    [22] Lillicrap T P, Hunt J J, Pritzel A, Heess N, Erez T, Silver D, et al. Continuous control with deep reinforcement learning. In: Proceedings of International Conference on Learning Representations. San Juan, Puerto Rico: IEEE, 2016. 2153−0866
    [23] Mnih V, Kavukcuoglu K, Silver D, Rusu A A, Veness J, Bellemare M G, et al. Human-level control through deep reinforcement learning. Nature, 2015, 518(7540): 529−533 doi:  10.1038/nature14236
    [24] Hado V H, Guez A, Silver D. Deep reinforcement learning with double q-learning. In: Proceedings of AAAI Conference on Artificial Intelligence. Arizona, USA: AAAI, 2016. 2094−2100
    [25] Silver D, Lever G, Hess N, Degris T, Wierstra D, Riedmiller M. Deterministic policy gradient algorithms. In: Proceedings of International Conference on Machine Learning. Beijing, China: MIT, 2014. 605−619
    [26] Espersson M. Vision Algorithms for ball on beam and plate[Master. dissertation], Lund University, 2010
  • [1] 孙长银, 穆朝絮. 多智能体深度强化学习的若干关键科学问题[J]. 自动化学报, doi: 10.16383/j.aas.c200159
    [2] 陈晋音, 章燕, 王雪柯, 蔡鸿斌, 王珏, 纪守领. 深度强化学习的攻防与安全性分析综述[J]. 自动化学报, doi: 10.16383/j.aas.c200166
    [3] 吴晓光, 刘绍维, 杨磊, 邓文强, 贾哲恒. 基于深度强化学习的双足机器人斜坡步态控制方法[J]. 自动化学报, doi: 10.16383/j.aas.c190547
    [4] 姚红革, 张玮, 杨浩琪, 喻钧. 深度强化学习联合回归目标定位[J]. 自动化学报, doi: 10.16383/j.aas.c200045
    [5] 代伟, 陆文捷, 付俊, 马小平. 工业过程多速率分层运行优化控制[J]. 自动化学报, doi: 10.16383/j.aas.2018.c180300
    [6] 夏嘉欣, 陈曦, 林金星, 李伟鹏, 吴奇. 基于带有噪声输入的稀疏高斯过程的人体姿态估计[J]. 自动化学报, doi: 10.16383/j.aas.2018.c170397
    [7] 袁兆麟, 何润姿, 姚超, 李佳, 班晓娟, 李潇睿. 基于强化学习的浓密机底流浓度在线控制算法[J]. 自动化学报, doi: 10.16383/j.aas.c190348
    [8] 王云鹏, 郭戈. 基于深度强化学习的有轨电车信号优先控制[J]. 自动化学报, doi: 10.16383/j.aas.c190164
    [9] 秦蕊, 曾帅, 李娟娟, 袁勇. 基于深度强化学习的平行企业资源计划[J]. 自动化学报, doi: 10.16383/j.aas.2017.c160664
    [10] 朱煜, 赵江坤, 王逸宁, 郑兵兵. 基于深度学习的人体行为识别算法综述[J]. 自动化学报, doi: 10.16383/j.aas.2016.c150710
    [11] 郭潇逍, 李程, 梅俏竹. 深度学习在游戏中的应用[J]. 自动化学报, doi: 10.16383/j.aas.2016.y000002
    [12] 陈兴国, 俞扬. 强化学习及其在电脑围棋中的应用[J]. 自动化学报, doi: 10.16383/j.aas.2016.y000003
    [13] 陈鑫, 魏海军, 吴敏, 曹卫华. 基于高斯回归的连续空间多智能体跟踪学习[J]. 自动化学报, doi: 10.3724/SP.J.1004.2013.02021
    [14] 朱美强, 程玉虎, 李明, 王雪松, 冯涣婷. 一类基于谱方法的强化学习混合迁移算法[J]. 自动化学报, doi: 10.3724/SP.J.1004.2012.01765
    [15] 程玉虎, 冯涣婷, 王雪松. 基于状态-动作图测地高斯基的策略迭代强化学习[J]. 自动化学报, doi: 10.3724/SP.J.1004.2011.00044
    [16] 唐昊, 万海峰, 韩江洪, 周雷. 基于多Agent强化学习的多站点CSPS系统的协作Look-ahead控制[J]. 自动化学报, doi: 10.3724/SP.J.1004.2010.00289
    [17] 蒋建国, 苏兆品, 齐美彬, 张国富. 基于强化学习的多任务联盟并行形成策略[J]. 自动化学报, doi: 10.3724/SP.J.1004.2008.00349
    [18] 魏英姿, 赵明扬. 一种基于强化学习的作业车间动态调度方法[J]. 自动化学报
    [19] 高阳, 陈世福, 陆鑫. 强化学习研究综述[J]. 自动化学报
    [20] 汪涛, 邢小良. 感知器的动态稀疏化学习[J]. 自动化学报
  • 加载中
计量
  • 文章访问数:  2
  • HTML全文浏览量:  1
  • 被引次数: 0
出版历程
  • 收稿日期:  2019-06-11
  • 录用日期:  2019-12-06

基于GPR和深度强化学习的分层人机协作控制

doi: 10.16383/j.aas.c190451
    基金项目:  NSFC-浙江两化融合联合基金(U1709213), 国家自然科学基金(61973275)资助
    作者简介:

    浙江工业大学信息工程学院硕士研究生. 主要研究方向为人机协作.E-mail: jzh839881963@163.com

    浙江工业大学信息工程学院讲师. 主要研究方向为模型预测控制和网络化控制系统.E-mail: lad@zjut.edu.cn

    浙江工业大学信息工程学院教授. 主要研究方向为无线传感网络, 网络化控制系统和运动控制. 本文通信作者.E-mail: lyu@zjut.edu.cn

摘要: 本文提出了一种基于高斯过程回归(Gaussian Process Regression, GPR)与深度强化学习(Deep Reinforcement Learning, DRL)的分层人机协作(Human-Robot Collaborative, HRC)控制方法, 并以人机协作控制球杆系统为例检验该方法的高效性. 本文的主要贡献是: 1)在模型未知的情况下, 采用DRL算法设计了一种有效的非线性次优控制策略, 并将其作为顶层期望控制策略以引导HRC控制过程, 解决了传统控制方法无法直接应用于模型未知人机协作场景的问题; 2) 针对HRC过程中人未知和随机控制策略带来的不利影响, 采用GPR拟合人体控制策略以建立机器人对人控制行为的认知模型, 在减弱该不利影响的同时提升机器人在协作过程中的主动性, 从而进一步提升协作效率; 3)利用所得认知模型和期望控制策略设计机器人末端速度的控制律, 并通过实验对比验证了所提方法的有效性.

English Abstract

金哲豪, 刘安东, 俞立. 基于GPR和深度强化学习的分层人机协作控制. 自动化学报, 2020, 46(x): 1−11. doi: 10.16383/j.aas.c190451
引用本文: 金哲豪, 刘安东, 俞立. 基于GPR和深度强化学习的分层人机协作控制. 自动化学报, 2020, 46(x): 1−11. doi: 10.16383/j.aas.c190451
Jin Zhe-Hao, Liu An-Dong, Yu Li. Hierarchical human-robot cooperative control based on GPR and DRL. Acta Automatica Sinica, 2020, 46(x): 1−11. doi: 10.16383/j.aas.c190451
Citation: Jin Zhe-Hao, Liu An-Dong, Yu Li. Hierarchical human-robot cooperative control based on GPR and DRL. Acta Automatica Sinica, 2020, 46(x): 1−11. doi: 10.16383/j.aas.c190451
  • 近年来, 随着机器人技术的高速发展, 机器人在工业生产中替代了大量的人力资源. 然而, 对于一些复杂的任务, 机器人往往无法和人类一样灵活的操作与控制. 人机协作研究如何利用人的灵活性与机器人的高效性, 使机器人与人协同高效、精准地完成复杂任务, 因此受到了国内外学者的广泛关注[1].

    人机协作按机器人在协作过程中的角色可分为3类: (i)人主-机器人从, (ii)机器人主-人从, (iii)人机平等. 第一类人机协作中机器人接收人发出的命令并执行, 主要完成一些负重类的任务. 如文献[2]中人与机器人共同搬运一个物体, 其中人决定了运动轨迹, 而机器人作为跟随者负责轨迹跟随并承担重物. 在这一类人机协作任务中的一大难点是如何将人的想法正确的传递给机器人. 文献[3-4]研究了在人与机器人共同操作一个对象时, 如何消除传递给机器人旋转与平移命令之间歧义的方法. 第二类人机协作的研究相对较少, 文献[5]将人建模为一个被动的旋转关节模型, 并且用实验证明了在机器人主导的情况下如何使用该模型将物体维持水平. 以上两类人机协作方法虽然能一定程度上结合人与机器人自身的优点, 但过于注重单方面的性能, 如人类的灵活性或机器人的高效性, 从而导致协作的整体效率不高.

    人机平等形式的人机协作考虑人与机器人以平等的关系完成复杂任务, 这要求协作双方对对方的操作规律有一定的了解. 由于人的智能性, 对于人而言这种能力可以很方便的获得, 但机器人无法自然获取这种能力, 因此如何为机器人建立有关人的运动规律模型是非常重要的. 其中较为常用的方法假设人的运动规律满足最小抖动模型(Minimum Jerk Model, MJM)[6], 并根据该模型预测人的运动轨迹. 文献[7]在人与机器人协作抬一根长杆的场景中, 使用加权最小二乘实时估计MJM中的参数, 并利用变种阻抗控制器使机器人跟踪MJM的预测值, 从而达到使机器人主动跟随人运动的效果. 文献[8]利用扩展卡尔曼滤波(Extended Kalman Filter, EKF)估计MJM中的参数, 并在一维的点到点运动中证明该方法的有效性. 文献[7-8]均证明了在人机协作中使用以上基于MJM的方法能在一定程度提升人的舒适度. 然而, 基于MJM生成人的运动轨迹需要事先了解人运动轨迹起止时间与起止位置, 这在一些任务中过于苛刻. 文献[9]表明MJM在一些特别的协作任务中会失效, 如一些协作任务中人的轨迹存在大量的干扰与抖动, 或者人在协作过程中多次决定改变其运动轨迹. 文献[10-11]假设人在运动过程中其加速度变化较小, 利用卡尔曼滤波器(Kalman Filter, KF)预测人下一时刻的位置, 并根据预测精度加权融合机器人主被动控制器, 从而提高机器人协作时的主动性以及协作的鲁棒性. 该方法在人机协作抬桌子的场景中得到了验证. 文献[12]使用基于与文献[10-11]相同的运动模型的EKF预测人下一时刻的位置, 但是其使用基于强化学习(Reinforcement Learning, RL)的方法设计机器人的速度控制率, 并且利用EKF的预测值减小RL算法搜索的动作空间范围, 提升了机器人的协调能力, 同时加强了机器人在协作任务中的主动性. 也有一些工作[13-14]将人的控制量作扰动处理.

    以上方法均属于较为经典的人运动轨迹建模方法, 有较强的可解释性. 然而一些复杂的人机协作任务中, 人的运动轨迹往往很不规律, 如人手在3维空间中到达某些不同目标位置时形成的轨迹[15]、人在完成装配任务时的运动轨迹[16]等. 此时用概率分布去建模这些轨迹显然更加合适, 因此一些基于学习和统计的轨迹建模方法往往更加有效. 文献[15]利用高斯混合模型(Gaussian Mixture Model, GMM)与高斯混合回归(Gaussian Mixture Regression, GMR)建立人手到达不同目标位置所形成的轨迹概率分布模型, 该模型被用来提升人机协作过程中的安全性以及机器人的自主性. 文献[16]通过人拖动机器人完成装配任务的方式将人的运动轨迹转化为机器人末端的轨迹, 并利用GMM/GMR建立机器人末端的轨迹概率分布模型以达到示教学习的目的. 文献[17]利用高斯过程回归(Gaussian Process Regression, GPR)拟合包含人在内的球杆系统的前向传播模型, 并利用基于模型的强化学习(Reinforcement Learning, RL)算法设计次优控制律, 极大的提升了对数据的利用率. 文献[18]使用卷积神经网络学习人在完成零件装配任务时的动作与意图. 文献[19]使用触觉数据作为输入, 利用基于隐马尔可夫模型的高层控制器估计人的意图并生成相应的机器人参考轨迹, 并在机器人与人握手的场景中验证了该方法的有效性. 另外, 部分可观马尔可夫模型[20]以及贝叶斯神经网络[21]也被用来预测人下一时刻的行为.

    然而, 上述方法几乎都是对人在一段时间内的运动轨迹进行建模, 很少有文献直接对人的控制策略建模. 与人运动轨迹建模不同, 针对人体控制策略建模主要为了预测人在遇到某个状态时可能执行的动作, 从而为机器人对人的控制行为建立更加直观的认知模型. 本文提出了一种基于GPR与DRL的两层人机协作控制方法, 不仅设计了一种次优的非线性控制律, 还对人体控制策略建模, 从而降低了人为不确定因素的不利影响, 增强了协作系统的稳定性, 并解决了传统主从式人机协作中效率较低的问题. 本文以人机协作控制球杆系统为例验证该方法的可行性. 首先, 针对顶层期望控制律的设计问题, 利用深度确定性策略梯度算法(Deep Deterministic Policy Gradients, DDPG)[22]得到了一种次优的非线性控制器. 其次, 本文使用GPR建立球杆系统的人体控制策略模型, 解决了协作过程中由人为不确定因素所导致的系统不稳定问题. 然后, 根据期望控制律和人体控制策略模型设计机器人的控制律以提升人机协作的效率. 最后, 通过实验验证了该方法的可行性与有效性.

    • 本文以球杆系统为例设计分层人机协作控制方法, 考虑如图1所示的人机协作球杆系统.

      图  1  人机协作控制球杆系统示意图

      Figure 1.  Schematic diagram of the HRC task

      其中, 人与机械臂各执长杆一端以控制长杆倾角, 使小球快速, 平稳的到达并停留在目标位置(虚线小球位置). 在人机协作环境下, 由于长杆的倾角变化幅度较大, 使得在平衡点附近线性化模型后设计相应控制器的方法效果不佳. 因此, 如何针对该球杆系统设计一种有效的非线性控制器是本文的一大难点. 然而, 常规的非线性控制方法对模型精度依赖较高, 而一些复杂协作任务往往很难精确建模, 甚至无法建模. 因此, 本文基于DRL算法设计球杆系统的控制器. DRL算法不依赖环境模型, 其通过不断与环境交互, 以寻找一种使累积奖励最大化的控制策略. 由于DRL利用神经网络设计控制器, 并通过迭代的方式更新参数, 易陷入局部最优. 因此, 基于DRL的非线性控制器是一种次优控制器.

      使用DRL设计控制器需要先将球杆系统建立成马尔可夫决策模型(Markov decision Process, MDP). MDP由5元组 $ (S, A, P, r, {\gamma}) $ 表示. 其中 $ S $ 表示状态空间, 是对环境状况的一种数学描述; $ A $ 表示动作空间, 是智能体影响环境的手段; $ P $ 表示状态转移概率, 表示在当前状态受到某个动作后下一个状态的概率分布, 也可以理解为环境模型; $ r $ 表示奖励函数, 是环境对当前状态施加某个动作后的一个奖惩反馈; $ {\gamma} $ 表示折扣因子, 是调节智能体关注长远利益程度的参数.

      控制器的设计问题可以转化为解MDP问题, 即设计一个最优策略 $ {\pi}^*:{{{s}}}\mapsto a $ 使智能体获得的累积奖励最大化. 对于任意的 $ {{{s}}}\in S, {\pi}^*({{{s}}}) $ 满足:

      $$ {\pi}^*({{{s}}}) = \mathop{\arg\max}\limits_{\pi}{\mathbb{E}}_{\pi}\left[\sum\limits_{t = 0}^{\infty}{\gamma}^tr\left({{{s}}}_t,{\pi}({{{s}}}_t)\right)|{{{s}}}_0 = {{{s}}}\right] $$ (1)

      $ {\pi}^* $ 可以通过强化学习(Reinforcement Learning, RL)算法设计. 由于球杆系统状态空间连续的特性, 使得处理离散状态空间MDP的传统RL算法无法为其设计最优策略. 因此, 对于这类状态空间连续的MDP常常使用基于估计的RL算法(如DRL). 为了取得更好的控制效果, 本文考虑连续的动作空间, 这使处理离散动作空间的基于值函数的DRL方法[23-24]失效. 本文使用的DDPG算法利用Actor-Critic结构, 能在连续的动作空间中寻找一种次优控制策略.

      另外, 在主从式协作中, 从方往往不做决策, 只承担跟随或执行主导方发出的命令的任务. 因此, 该模式的协作效率往往较低, 即系统进入稳态所需的控制时间较长. 本文考虑人机平等的协作方式, 即人与机器人均为完成任务作出控制决策, 而人的高随机性行为将为机器人控制器设计带来极大的不确定性. 因此, 如何为机器人建立人体控制策略预测模型, 增强机器人在协作过程中的主动性, 从而提高协作效率与协作鲁棒性是本文的第二个难点. 考虑到人体控制策略的随机性(即使同一个人面对相同状态, 其采取的控制行为也可能不同, 本文假设该行为服从高斯分布), 本文利用GPR拟合人体控制策略. 与传统回归算法不同的是, 对于一个特定的输入, GPR模型的输出并不是一个固定的值, 而是一个高斯分布, 即 $ {\hat\pi}_H\left({{s}}\right)\sim N(a, {\delta}) .$ 并且, GPR是一种非参数估计方法, 因此不会有过拟合的风险.

      由于协作过程中只有机械臂的行为是可控的, 本文的目标是为机械臂设计合适的末端速度控制律以使小球在人机协同控制下快速, 平稳的到达并停留在指定位置. 本文以基于DRL的次优非线性控制策略为期望控制策略, 以拟合的人体控制策略预测模型作为机器人对人控制行为的认知模型, 设计机器人的控制律, 从而使人机协作的整体控制效果趋向于期望控制策略的控制效果.

    • 本节将设计基于GPR与DRL的分层人机协作控制方法, 具体分为顶层与底层的设计. 其结构如图2所示:

      图  2  分层人机协作球杆结构示意图

      Figure 2.  Schematic diagram of hierarchical HRC

      顶层利用DDPG算法为非线性球杆系统设计一种次优的高效控制律, 并作为人机协作过程中的期望控制策略. 底层主要分为两部分, 首先基于GPR拟合人体控制策略, 为机械臂建立人控制行为的认知模型. 然后, 根据期望控制策略以及认知模型设计机械臂的末端速度控制律, 从而使人机协作下的控制行为趋向于期望控制策略的控制行为.

    • 本小节主要介绍如何利用DDPG设计球杆系统的期望控制策略. 在此之前, 必须先将球杆系统建立成MDP, 主要包括状态空间, 动作空间以及奖励函数的设计, 如下所示:

      a)状态空间: 球杆系统的控制目的是使小球快速, 稳定的到达指定位置, 因此位置误差信号 $ e $ 被用来构建状态. 另外, 据经验可知, 人在控制球杆的时候还会关注小球的速度 $ \dot x $ 以及长杆的倾角 $ {\theta}. $ 同时, 为了不使小球离开长杆, 小球的位置 $ x $ 也被用来构建状态. 因此, MDP状态被定义为 ${{{s}}} = [ e\quad x\quad $ $ {\dot x}\quad \theta ]^{\rm{T}} $ .

      b)动作空间: 本文以长杆的旋转角速度作为控制量, 因此, 动作被定义为 $ a = \dot {\theta} .$

      c)奖励函数: 为了使小球快速, 稳定的到达指定位置, 本文设计的损失函数为 $c = \left[ e\quad {\dot x}\quad {\dot \theta } \right] {W_c}$ ${\left[ e\quad {\dot x}\quad {\dot \theta } \right]^{\rm{T}}},$ 其中 $ W_c $ 为权重矩阵, 令奖励函数 $ r = $ $ -c. $ 另外, 小球离开长杆被认为是控制失败, 因此, 一但检测到小球离开长杆, 环境将给予一个幅值较大的损失函数并重新开始实验.

      DDPG算法可以用来为状态以及动作空间连续的MDP寻找次优策略, 其主要包含4个神经网络: Actor与Actor目标网络, Critic与Critic目标网络. 记这4个神经网络的参数分别为 $ {{{\theta}}^{\mu}}, {{{\theta}}^{\mu'}}, {{{\theta}}^{Q}},$ $ {{{\theta}}^{Q'}}. $ Critic神经网络用来估计动作值函数 $ Q({{{s}}}, a) $ , 即对于MDP在状态 $ {{{s}}} $ 执行动作 $ a $ 的价值, 并利用Bellman方程来构建其损失函数:

      $$ \begin{split}& L({{{\theta}}^Q}) = {\mathbb{E}}_{{{{s}}}\sim{\beta}}\left[\left(Q\left({{{s}}}_t, a_t|{{{\theta}}^Q}\right)-y_t\right)^2\right],\\& y_t = r\left({{{s}}}_t, a_t\right)+{\gamma}Q'\left({{{s}}}_{t+1}, {\mu'}\left({{{s}}}_{t+1}|{{{\theta}}^{\mu'}}\right)|{{{\theta}}^{Q'}}\right). \end{split} $$ (2)

      其中, $ {\beta} $ 是一种随机策略, 用来探索未知环境. Actor神经网络以 $ {{{s}}} $ 作为输入, 以 $ a $ 作为输出, 负责学习控制策略, 其参数更新规则较为复杂. 根据文献[25]给出的确定性策略梯度理论, Actor网络在策略 $ {\mu} $ 下, 目标函数对 $ {{{\theta}}^{\mu}} $ 的梯度为:

      $$ \begin{split} &\bigtriangledown_{{{\theta}}^{\mu}}J\left({\mu}\right) = {\mathbb{E}}_{{{{s}}}\sim{\beta}} \\ &\left[\bigtriangledown_{{{\theta}}^{\mu}}{\mu}\left({{{s}}}|{{{\theta}}^{\mu}}\right)|_{{{{s}}} = {{{s}}}_t}\bigtriangledown _aQ^{\mu}\left({{{s}}}, a|{{{\theta}}^Q}\right)|_{{{{s}}} = {{{s}}_t}, a = {\mu({{s}}_t|{{\theta}}^{\mu})}}\right] \end{split}$$ (3)

      设立目标网络是为了促进神经网络收敛, 目标网络与原网络之间采用软更新原则:

      $$ \begin{split} &{{{\theta}}^{{\mu}'}} = {\tau}{{{\theta}}}^{\mu}+\left(1-{\tau}\right){{{\theta}}}^{{\mu}'},\\ &{{{\theta}}^{Q'}} = {\tau}{{{\theta}}}^{Q}+\left(1-{\tau}\right){{{\theta}}}^{Q'}. \end{split} $$ (4)

      另外, 受到深度Q网络(Deep Q Network, DQN)的启发, DDPG还设立的回放缓冲区 $ M $ 储存过去的数据, 并从中随机抽样训练Actor与Critic神经网络. 使用DDPG设计球杆系统期望控制策略的算法如下所示:

      算法1 基于DDPG的球杆系统期望控制策略设计

      随机初始化Actor, Critic网络参数 $ {{{\theta}}^{\mu}}, {{{\theta}}^{Q}} $

      将Actor, Critic网络参数复制到目标网络

      初始化回放缓冲区 $ M $

      for $ episode = 1,\cdots,n $ do

        初始化一个随机噪声生成器 $ {\aleph} $

        观测初始球杆系统初始状态 $ {{{s}}}_1 $

         for $ t = 1,\cdots,T $ do

          选择并执行动作 $ a_t = {\mu}\left({{{s}}}_t|{{{\theta}}^{\mu}}\right)+{\epsilon_t} $

          观测奖惩反馈 $ r_t $ 与下一时刻状态 $ {{{s}}}_{t+1} $

          将数据 $ \left({{{s}}}_t, a_t, r_t, {{{s}}}_{t+1}\right) $ 存入 $ M $

          从 $ M $ 中随机抽取 $ N $ $ \left({{{s}}}_i, a_i, r_i, {{{s}}}_{i+1}\right) $ , 并      根据式 $ \left(2\right),\left(3\right) $ 训练Actor与Critic网络

          根据式 $ \left(4\right) $ 更新目标网络参数

         end for

      end for

    • 本小节介绍如何利用GPR拟合人体控制策略以及如何根据期望控制策略和人体控制策略模型设计机械臂的控制律.

    • 本小节使用GPR拟合人体控制策略, 其训练集记为 $X = {\left[{{{{s}}_i}}\quad{{{{v}}_{H,i}}} \right]_{i = 1, \cdots ,N}},$ 其中, $ N $ 为数据集的大小, $ {{{s}}}_i $ 表示球杆系统的状态, 作为GPR的特征, $ {{{v}}}_{H,i} = \left[ v_{H,x,i}\quad v_{H,z,i}\right] $ 表示长杆人控制端的速度, 作为GPR标签, 如图1所示.

      高斯过程(Gaussian Process, GP)的先验均值函数理论上可以随意选择, 本文选取GP的先验均值函数为0, 即 $ m\left(x\right) = 0. $ 真正对GPR的预测效果起较大影响的是GP的先验协方差函数. GPR利用核函数来构建先验协方差函数, 考虑到平滑性, 本文使用高斯核函数:

      $$ k\left({{x}}, {{x}}'\right) = {\sigma_f^2}exp\left[-\frac{1}{2}\left({{x}}-{{x}}'\right)^{\rm{T}}W^{-1}\left({{x}}-{{x}}'\right)\right] $$ (5)

      因此, GPR的超参为 $ {\sigma} $ 以及核协方差矩阵 $ W .$ 这些超参可以在训练集上通过最小化边缘似然来优化.

      对一个测试样本 $ {{x}} = {{{s}}}^* $ 以及训练集 $ X, $ 记测试-测试协方差, 测试-训练协方差以及训练-训练协方差分别为 $ K\left({{x}}, {{x}}\right)_{1\times 1}, K\left({{x}}, X\right)_{1\times N}, $ $K\left(X, X\right)_{N\times N}, $ 其中 $ K\left({{x}}, X\right)_{1j} = k\left({{{s}}}^*, {{{s}}}_j\right) .$ GPR的输出为一个高斯分布, 其均值和协方差表示为:

      $$ {{{v}}}_{H}^* = K\left({{x}}, X\right)\left(K\left(X, X\right)+{\sigma^2}I\right)^{-1}V $$ (6)
      $$ \begin{split} {\Sigma}^* =& K\left({{x}}, {{x}}\right)+{\sigma^2}I- \\ &K\left({{x}}, X\right)\left(K\left(X, X\right)+{\sigma^2}I\right)^{-1}K\left({{x}}, X\right)^{\rm{T}} \end{split} $$ (7)

      其中, $ V = \left[{{{v}}}_{H,1},\cdots,{{{v}}}_{H,N}\right]^{\rm{T}} , {\sigma^2} $ 表示数据集的测量方差, 同样可以作为超参被优化.

    • 本小节在期望控制策略与人体控制策略预测模型的基础上, 设计机械臂末端速度的控制律.

      机械臂的控制目标是使长杆在机器人末端速度 $ {{v}}_R $ 与人控制端速度 $ {{v}}_H $ 的作用下, 其旋转角速度趋向于期望值 $ \dot {\theta} ,$ 其中 $ \dot {\theta} $ 可由顶层Actor网络前向传播得到, $ {{v}}_H $ 的估计值 $ {\hat{ v}}_H $ 可由人体控制策略预测模型预测得到, 本文使用高斯分布的均值作为估计值. 如图1所示, $ {{v}}_H $ $ {{v}}_R $ 可以分别分解成 $ v_{H,x} , v_{H,z} $ $ v_{R,x}, v_{R,z} ,$ 其中 $ v_{H,x} $ $ v_{R,x} $ 不会影响长杆的旋转速度, 考虑到协作过程中人的舒适性, 令 $ v_{R,x} = \hat v_{H,x} , $ $ v_{H,z}, v_{R,z} $ $ \dot {\theta} $ 之间满足 $\dot{\theta} = (v_{H,z}-v_{R,z})/L,$ 因此, $ v_{R,z} = \hat v_{H,z}-\dot{\theta}L ,$ 其中 $ L $ 为长杆长度.

    • 本节通过仿真与实验验证了所设计的人机协作控制方法的有效性, 共分为3个部分. 第一部分介绍DDPG中各神经网络的架构及超参数的设计, 并在仿真环境中训练各神经网络以得到顶层期望控制策略. 同时, 通过与基于值函数的DRL算法对比, 证明了在实际控制任务中使用基于策略的DRL算法(如本文使用的DDPG算法)来设计顶层期望控制策略的必要性. 第二部分通过相机采集人控制球杆系统的实验数据以构建训练集, 介绍并分析了利用GPR拟合人体控制策略预测模型的结果. 基于得到的期望控制策略与人体控制策略预测模型, 第三部分在实际场景中通过人机协作控制球杆系统与人单独控制球杆系统的控制效果作对比, 证明了所提控制方法确实能提升效率与控制精度.

    • 本小节分析DDPG学习期望控制策略的过程与结果. 首先介绍DDPG中神经网络的架构与超参设置. DDPG共包含4个神经网络, 由于球杆系统的复杂程度相对较低, 本文将Actor与Actor目标网络设置成3层全连接网络, 隐藏层单元个数为30; 将Critic与Critic目标网络设置为4层全连接网络, 隐藏层单元个数分别为30, 40. Actor与Critic网络的学习率均为0.001. 回放缓冲区大小为10000对 $ \left[{{{s}}}_k\quad a_k\quad r_k\quad {{{s}}}_{k+1}\right] ,$ 每次训练采样64对数据. 目标网络软更新参数为 $ {\tau} = 0.01. $ 损失函数中的权重矩阵 $ W_c $ 取对角阵, 对角元分别为 $ \{5, 0.1, $ $ 0.001\}. $ 神经网络优化器使用Adam优化器.

      仿真环境中忽略球杆系统摩擦力, 具体模型参考文献[26], 控制周期设置为0.033 s(与下一小节中通过相机采样志愿者控制数据的采样周期保持一致), 每次试验(episode)最长为200步. DDPG的训练过程如图3所示.

      图  3  DDPG训练过程曲线图.

      Figure 3.  Training process curves of DDPG.

      由于环境在每一步给智能体的奖励均为负值, 而球杆系统需要长久的运行, 因此每一个episode累积的奖励值所代表的意义不鲜明. 故本文统计了每个episode在每一步的平均奖励值随训练时间的变化情况. 另外, 本文还统计了每个episode运行的时间(步数)以监测球杆系统在训练过程中的稳定性变化情况. 由子图(a)可见, 平均每一步所累积的奖励值随着训练时间的增长逐渐增加, 这说明以本文设置的奖励函数为评价标准, 控制器的表现越来越好. 最终, 平均每一步所获得的奖励值收敛于一个接近0的负值, 这是由奖励信号的设计方式所导致的. 子图(b)说明了随训练时间的增加, 球杆系统从开始的控制失败(步数较少, 因为小球离开长杆)逐渐变得更加稳定(后期每次球杆系统控制时长都达到了最大值). 由图3可以猜测, DDPG似乎习得了一个合适的控制器.

      为了检验习得的期望控制策略的有效性, 在仿真环境中用该控制策略控制球杆系统(随机选择了4个初始状态), 结果如图4所示. 其中, $ e^{(i)}_E, {\dot x}^{(i)}_E, {\theta}^{(i)}_E $ 分别表示在期望控制策略的控制下, 第 $ i $ 次仿真小球位置误差, 小球速度以及长干角度的变化轨迹. 可以发现, 从任意的初始状态出发, 基于DDPG的期望控制策略都能高效, 稳定的完成控制任务. 另外, 该期望控制策略并没有将小球准确无误的停在目标位置, 而是存在着2 cm左右的误差, 这可能是DRL算法在学习过程中没有完美的把握“利用与探索之间的平衡”导致的. 当然, 这也是DRL中公认的一大难点. 但是, 总体来说, 该期望控制策略作为一种基于神经网络的非线性控制器, 在本文设计的奖励指标上具有次优性.

      图  4  DDPG控制效果图.

      Figure 4.  The control result of DDPG.

      另外, 本文在仿真中对比了基于DDPG的控制策略与基于DQN的控制策略的控制效果, 结果如图5所示. DQN算法是一种经典的基于值函数的DRL算法, 其控制量是离散的. 本次仿真中DQN的控制量属于 $ \{5^{\circ}/s, 0^{\circ}/s, -5^{\circ}/s\} $ . 可以发现, 由于控制量是离散且其个数是有限的, 如DQN这种基于值函数的DRL方法往往很难解决实际的控制问题. 因此, 使用基于策略的DRL方法设计期望控制策略是必要的.

      图  5  DDPG与DQN的控制效果对比图.

      Figure 5.  The comparison of control effects between DDPG and DQN.

    • 本小节主要分析利用GPR学习人体控制策略预测模型的结果. 本文通过相机检测人机协作球杆系统的状态, 具体检测环境如图6所示. 相机通过检测长杆两端的特征点(分别记人端与机器人端的特征点为 $ p1 $ $ p2 $ )以及小球的位置(记为 $ p3 $ )以确定球杆系统的实时状态.

      图  6  人机协作实验环境图.

      Figure 6.  The environment of the HRC task.

      据经验可知, 人控制球杆系统时主要根据状态 $ {{{s}}} = \left[\bigtriangleup x\quad x\quad \dot x\quad {\theta}\right]^{\rm{T}} $ 来决定他们旋转长杆的速度 $ {{{v}}}_H $ . 为了获取训练数据, 本文邀请了10位志愿者控制球杆系统, 并利用相机记录了他们在控制过程中的控制策略数据 $ \left({{{s}}}, {{{v}}}_H\right) $ . 由于相机检测的是位置级信息, 通过差分算法得到速度级信息时不可避免的引入高频噪声, 因此本文使用低通滤波器对数据进行滤波, 效果如图7所示(此处只给出 $ p1 $ 点检测信息, 另外两点的滤波效果相似). 其中 $ p1_{\{x,O\}}, $ $p1_{\{y, O\}}, p1_{\{x,F\}}, p1_{\{y, F\}} $ 分别表示 $ p1 $ 在滤波前后的横纵像素坐标, $ v1_{\{x,O\}}, v1_{\{y, O\}}, v1_{\{x,F\}}, v1_{\{y, F\}} $ 分别表示p1在滤波前后的横纵像素速度. 虽然经过滤波后的数据在位置级信息中有轻微的相位落后, 但是速度级数据中的高频噪声被大幅抑制了. 因此, 利用滤波后三点的位置数据可以较好的得到数据集 $ \left({{{s}}}, {{{v}}}_H\right) $ . 图8可视化了一部分基于滤波后三点构建的志愿者控制球杆系统的状态轨迹.

      图  7  志愿者控制球杆数据的滤波效果图.

      Figure 7.  Filtering results of the data generated by volunteers' control process.

      图  8  志愿者控制球杆系统的部分轨迹图.

      Figure 8.  Some trajectories of the volunteers' control processes.

      图8中的下标 $ H $ 表示这些数据是由人的控制策略产生的. 可以发现, 志愿者在控制球杆系统时并不会使小球最终严格地停在目标位置处, 而是在目标位置附近徘徊. 并且, 人在控制球杆系统时往往伴随较大的超调与一定程度的振荡. 本文认为这种现象是很自然的, 人的控制策略较为灵活与智能, 这也是人相较于机器人最大的优点. 然而, 人往往很难像数字控制器一样做到高精度, 高效率的控制. 另外, 我们进一步发现人的速度分量 $ {v}_{H,x} $ 相对于分量 $ {v}_{H,z} $ 幅值较小, 无明显规律, 更像是志愿者自己引入的随机噪声. 本文利用GPR在训练数据上拟合人体控制策略预测模型, 即 $ {\hat\pi}_H:{{{s}}} \to N({{\hat{ v}}}_H, {\delta}) $ . 结果图9所示. 图9中阴影部分表示预测置信度为 $ 68.2\% $ 的区域(GPR的输出是一个高斯分布), 第一行的两幅子图分别表示在训练集中一条轨迹上的 $ {v}_{H,x} $ $ {v}_{H,z} $ 的预测情况(上标Tr表示). 后三行表示测试集中各速度分量的预测情况(上标Te表示). 可以发现, 无论是在训练集还是测试集中, $ {v}_{H,x} $ 的预测均较差, 说明GPR方法较难从训练数据中寻得一种普遍规律, 这也证实了 $ {v}_{H,x} $ 可能是志愿者自身引入的一种随机噪声的猜测. 而对于速度分量 $ {v}_{H,z} $ , 预测模型较为准确的预测了其变化趋势. 由于人控制策略的高随机性与灵活性, 精确的预测其具体的幅值是不现实的. 本文得到的人体控制策略预测模型的预测值无论是在训练集还是测试集中, 其预测幅值误差均较小, 故该预测模型可使机器人在一定程度上了解人的控制规律.

      图  9  人体控制策略预测模型拟合结果图.

      Figure 9.  The fitting result of human-control policy prediction model.

    • 本小节在图6所示的平台上对基于GPR与DRL的分层人机协作控制方法进行实验验证.

      首先验证顶层期望控制策略. 由于顶层期望控制策略是只针对非线性球杆系统设计的, 未考虑人引入的随机因素. 因此, 在该部分实验中保持 $ p1 $ 点固定不动, 以期望控制策略控制机器人, 即 $ v_{R,x} = 0 $ , $ v_{R,z} = -\dot{\theta}L $ . 其中 $ \dot{\theta} $ 由期望控制策略即Actor网络输出得到. 实验结果如图10所示.

      图  10  顶层期望控制策略控制效果的实验验证.

      Figure 10.  The experimental validation of the expected control policy.

      可以发现, 无论小球从何初始位置出发, 该期望控制策略均能高效的完成控制任务(每一步时间为0.033 s, 故期望控制策略约在6 s内完成控制任务). 另外, 可以发现该实验结果与图4中的仿真结果非常相似, 更进一步的验证了该期望控制策略的有效性.

      然而在实际人机协作任务中, 人也参与到球杆系统的控制过程中. 若仍以期望控制策略直接控制机器人, 协作任务很可能在人与机器人协同的总控制量下失败(如人的过激控制量加上机器人的期望控制量, 使长杆的旋转速度过快, 从而使小球滚落长杆). 故本文考虑使机器人与人的总控制量趋向于期望控制策略的控制量, 即按2.2.2小节所述设计机器人末端速度控制率. 为了进一步突出该方法的有效性, 本文将人机协同控制的控制效果与期望控制策略和人单独控制球杆系统的控制效果作对比. 其实验效果如图11所示.

      图  11  人机协作控制效果的实验验证.

      Figure 11.  The experimental validation of the HRC control.

      考虑到传统的主从式HRC多为人主-机器人从模式, 即在协作任务中控制策略完全由人产生, 机器人多承担负重任务. 因此本文考虑固定机器人端(即 $ p2 $ 点), 由人单独控制球杆系统来代表人主-机器人从的协作模式. 单独由人产生控制球杆系统的策略往往会带来较大幅度的振荡, 延长了整体控制时间, 降低了控制效率. 本实验的控制效率由使系统进入稳态区域的控制时间 $ t_s $ 体现, 稳态区域为稳定值正负3 cm所在的范围(图11中的阴影部分). 如图11所示, 人单独控制策略下的球杆系统在 $ t_{s,H} = 9.57 s $ 时进入稳态区域. 与顶层期望控制策略相比, 其效率明显更低, 并且最终较难精确的使小球停在目标位置处. 从振荡的角度看, 由于人在控制起始阶段往往采取过激的控制量以达到快速降低误差的目的, 其并没有考虑长远的系统变化. 而基于DDPG的顶层期望控制策略的目标如式(1)所示, 是使长远的累计奖励最大化, 其考虑到了系统的长远变化, 并在快速性与稳定性之间做出权衡, 使系统不会有过大的超调. 另外, 如3.2小节中的分析所述, 人的控制精度相对于数字控制器较低是很自然的. 因此, HRC来提高协作任务的控制效率与精度是有必要的. 可以发现, 虽然HRC的控制效果与期望控制策略的控制效果并不是理想情况下的完全一致, 但是两者的小球位置误差与速度轨迹相差不大. 单独由人作控制决策相比, HRC明显提升了控制效率( $ t_{s,HRC} = 1.914 s $ ), 验证了本文提出方法的高效性.

      进一步对比HRC与期望控制策略之间的控制曲线可以发现, HRC的控制曲线存在一定的抖动, 这在长杆的倾角变化轨迹中尤为明显. 显然, 这是人体控制策略预测模型的预测误差造成的. 如图12所示, 可以发现虽然预测模型能较为准确的预测 $ {v}_{H,z} $ 的变化趋势, 但是对于其幅值的预测存在一定的误差, 使得机器人并未完全补偿人的控制量, 从而使HRC的总控制量中仍然包含残留着的人的控制量, 因此造成了长杆倾角抖动. 然而, 就球杆系统的控制目的而言(使小球停在目标位置处), 长杆倾角的抖动并未造成较大的影响.

      图  12  人体控制策略预测模型预测结果.

      Figure 12.  The prediction result of the human-control policy prediction model.

    • 本文针对主从式人机协作效率较低的问题设计了一种基于GPR和DRL的分层人机协作控制方法. 顶层使用DRL算法在模型未知的情况下设计了一种有效的次优非线性控制策略, 并将其作为期望控制策略以引导HRC控制过程. 底层使用GPR方法拟合人体控制策略预测模型, 为机器人建立人体行为认知模型, 从而提升机器人在协作过程中过的主动性, 提高协作效率同时降低人未知随机行为带来的不利影响. 进而, 基于期望控制策略与认知模型设计机器人的末端速度控制率. 最后由实验对比发现, 本文所提的人机协作控制方法较人主-机器人从协作控制具有更高的协作效率, 体现了本文所提方法的高效性.

      本文用GPR拟合人体控制策略之后只使用了输出的均值来构建机械臂的控制律, 未利用协方差信息. 如何利用协方差信息来构建构更加鲁棒的机械臂控制律是未来的一个研究要点. 另外, 如何提升在人体控制策略预测模型的预测精度也将是未来的工作之一.

WeChat 关注分享

返回顶部

目录

    /

    返回文章
    返回