2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

混合选别浓密过程双速率智能切换控制

王琳岩 李健 贾瑶 柴天佑

黄艳龙, 徐德, 谭民. 机器人运动轨迹的模仿学习综述. 自动化学报, 2022, 48(2): 315−334 doi: 10.16383/j.aas.c210033
引用本文: 王琳岩, 李健, 贾瑶, 柴天佑. 混合选别浓密过程双速率智能切换控制. 自动化学报, 2018, 44(2): 330-343. doi: 10.16383/j.aas.2018.c160590
Huang Yan-Long, Xu De, Tan Min. On imitation learning of robot movement trajectories: A survey. Acta Automatica Sinica, 2022, 48(2): 315−334 doi: 10.16383/j.aas.c210033
Citation: WANG Lin-Yan, LI Jian, JIA Yao, CHAI Tian-You. Dual-rate Intelligent Switching Control for Mixed Separation Thickening Process. ACTA AUTOMATICA SINICA, 2018, 44(2): 330-343. doi: 10.16383/j.aas.2018.c160590

混合选别浓密过程双速率智能切换控制

doi: 10.16383/j.aas.2018.c160590
基金项目: 

中国博士后科学基金 2015M581355

国家高技术研究发展计划(863计划) SQ2015AA0400561

国家自然科学基金 61603393

详细信息
    作者简介:

    王琳岩  流程工业综合自动化国家重点实验室硕士研究生.主要研究方向为智能串级控制理论.E-mail:wanglinyan6001@outlook.com

    贾瑶  流程工业综合自动化国家重点实验室博士研究生.主要研究方向为复杂工业过程控制理论及技术.E-mail:jiayao_neu@163.com

    柴天佑  中国工程院院士, 东北大学教授.IEEE Fellow, IFAC Fellow, 欧亚科学院院士.主要研究方向为自适应控制, 智能解耦控制, 流程工业综合自动化理论, 方法与技术.E-mail:tychai@mail.neu.edu.cn

    通讯作者:

    李健  流程工业综合自动化国家重点实验室助理研究员.主要研究方向为流程工业综合自动化系统技术.本文通信作者.E-mail:lijian@mail.neu.edu.cn

Dual-rate Intelligent Switching Control for Mixed Separation Thickening Process

Funds: 

China Postdoctoral Science Foundation 2015M581355

National High Technology Research and Development Program of China (863 Program) SQ2015AA0400561

National Natural Science Foundation of China 61603393

More Information
    Author Bio:

     Master student at the State Key Laboratory of Synthetical Automation for Process Industries. Her main research interest is intelligent cascade control theory

     Ph. D. candidate at the State Key Laboratory of Synthetical Automation for Process Industries. His research interest covers process control theory and technology for complex industry process

     Academician of Chinese Academy of Engineering, professor at Northeastern University, IEEE Fellow, IFAC Fellow, and academician of the International Eurasian Academy of Sciences. His research interest covers adaptive control, intelligent decoupling control, as well as theories, methods and technology of integrated automation of process industry

    Corresponding author: LI Jian  Research assistant at the State Key Laboratory of Synthetical Automation for Process Industries. His research interest covers technology for intergrated automation system of industrial process. Corresponding author of this paper
  • 摘要: 赤铁矿混合选别浓密过程是以底流矿浆泵频率为输入,以底流矿浆流量为内环输出,以底流矿浆浓度为外环输出的强非线性串级工业过程.由于受到频繁的浮选过程产生的中矿矿浆和污水的随机干扰,底流矿浆浓度外环和流量内环始终处于动态变化之中,控制器积分作用失效,内外环相互影响,使被控系统的动态性能变坏,底流矿浆浓度与流量超出工艺规定的控制目标的范围,甚至产生谐振.本文针对上述问题利用提升技术建立基于内环流量闭环动态模型的浓度外环动态模型,将基于未建模动态补偿驱动的一步最优PI控制和基于模糊推理与规则推理的切换控制相结合,提出了由浓度外环控制和流量内环控制组成的混合选别浓密过程的双速率智能切换控制算法,建立了由机理主模型和神经网络补偿模型组成的混合选别浓密过程动态模型.所提算法通过混合选别浓密过程的半实物仿真实验结果表明本文所提控制方法的有效性.
  • 机器人运动技能的模仿学习(Imitation learning, IL), 又称示教学习(Learning from demonstration, LfD)或示教编程(Programming by demonstration, PbD), 是指机器人通过学习示教样本来获得运动技能的一类算法, 其学习过程一般为从单个或少量示教轨迹中提取运动特征, 随后将该特征泛化到新的情形, 从而使得机器人具有较好的自适应性.

    自1999年Schaal[1] 提出机器人模仿学习的概念之后, 模仿学习作为机器人技能学习(Robot learning)领域中的一个重要分支近年来取得了许多重要的进展. 例如, Ijspeert等[2]提出了动态运动基元(Dynamical movement primitives, DMP), 其仅需学习单条示教轨迹即可实现点到点和周期运动的泛化. 该方法利用弹簧阻尼模型和轨迹调整项, 可以在模仿示教技能时确保泛化轨迹收敛到目标点. Khansari-Zadeh 等[3]提出了动态系统稳定估计(Stable estimator of dynamical systems, SEDS), 该方法利用非线性求解器对多样本的高斯混合模型(Gaussian mixture model, GMM)的参数进行优化, 以使高斯混合回归(Gaussian mixture regression, GMR)对应的自治系统(即应用GMR预测状态变量对应的一阶微分, 如依据位置预测速度)满足稳定性要求. Paraschos等[4]提出了基于高斯分布的概率运动基元(Probabilistic movement primitives, ProMP), 其应用最大似然估计对轨迹参数的概率分布进行估计, 之后依据高斯条件概率的运算对轨迹进行泛化调整. Calinon等[5]提出了任务参数化高斯混合模型(Task-parameterized GMM, TP-GMM), 该方法将训练轨迹投影到与任务相关的局部坐标系中并对变换后的相对运动轨迹进行概率建模, 克服了GMM在机器人任务空间中泛化的局限性. Huang等[6]提出了核化运动基元(Kernelized movement primitives, KMP), 其通过对参数化轨迹和样本轨迹之间的KL散度(Kullback-Leibler divergence)进行最小化, 以及引入核技巧(Kernel trick), 获得了非参的(Non-parametric)技能学习模型. 由于仅需要极少的样本即可实现对人类运动技能的迁移, 且无需其他先验知识或数据, 模仿学习被广泛应用于诸多领域, 如娱乐[7-10]、医疗[11-12]、护理[13-15]和农业机器人[16]、仿人[17]和外骨骼机器人[18-19] 以及人机交互[20-21]等.

    在上述运动轨迹的模仿学习之外, 模仿学习还包括其他的一些研究方向, 如行为复现(Behaviour cloning, BC)[22]、直接策略学习(Direct policy learning, DPL)[23] 和逆强化学习(Inverse reinforcement learning, IRL)[24-25]. BC和DPL在实质上可以理解为监督学习, 即学习示教样本中输入和输出的函数关系. 两者的区别是DPL在BC的基础上引入人类的交互反馈, 从而改进BC在长期规划中的不足, 特别是当训练和测试状态的概率分布存在显著差异的情形. IRL假设训练样本中隐含的策略(Policy)在某种未知奖励函数(Reward function)下是最优的, 进而对奖励函数的参数进行优化, 最终在最佳奖励函数下应用强化学习(Reinforcement learning, RL) 可求得该隐含的最优策略.

    由于篇幅的限制, 本文仅针对机器人运动轨迹的模仿学习进行综述和讨论. 需要指出的是本文所讨论的模仿学习算法和BC、DPL、IRL存在着一定的差异. BC、DPL和IRL主要侧重解决马尔科夫决策过程(Markov decision process, MDP)中的决策问题, 其中一个主要的特点是智能体(Agent)与环境存在交互且任意时刻的交互都会影响MDP下一时刻的状态, 这一过程常被描述为状态转换(State transition). 轨迹的模仿学习侧重对运动轨迹的规划, 其输入通常为时间或其他无环境交互影响的状态1. 另外, 本文中涉及的一些算法如GMR和高斯过程(Gaussian process, GP)等可以划归到BC之中, 但考虑到这些方法的应用对象也包括机器人的轨迹学习, 因此我们仍将对其进行分析讨论.

    之前的一些工作如文献[26-27]对模仿学习的部分问题进行了综述. 其中, 文献[26]仅介绍模仿学习中的少量工作, 未从算法的角度进行讨论. 文献[27]讨论了模仿学习中的任务参数化和轨迹协同两类问题, 但未涉及各种方法的具体推导思路. 不同于文献[2627], 本文主要综述机器人运动轨迹的模仿学习算法, 包括详细介绍模仿学习中的基本问题(7个)和主要方法(7种), 以及着重讨论相关文献中的算法原理和该领域中存在的若干关键问题(7大类11小类).

    本文的结构如下: 第1节对模仿学习中的一些基本问题进行描述, 随后在第2节中对几种主要的模仿学习算法进行介绍, 包括GMM和GMR、GP、(半)隐马尔科夫模型(Hidden (Semi-)Markov Model, HMM/HSMM)、DMP、SEDS、ProMP和KMP. 第3节结合第2节的内容对模仿学习中的其他若干关键问题进行综述. 第4节对机器人轨迹模仿学习的未来发展方向进行探讨, 最后在第5节给出总结.

    本节讨论模仿学习中的一些基本问题, 包括学习对象(What to imitate)、技能复现(Reproduction)、技能泛化(Adaptation)、多轨迹的概率特征(Probabilistic features)、收敛性(Convergence)、外插(Extrapolation)、时间输入和高维输入等问题.

    模仿学习具有广泛的适用范围, 如学习控制策略[1]、人对物体的操作策略[28]以及人类的示教轨迹[3-4, 6]或降维后的轨迹[29]等. 考虑到本文的综述范围, 即适用于轨迹规划的模仿学习, 故仅以人类示教轨迹为学习对象进行分析.

    目前常见的模仿学习是通过人类对机器人进行示教(Kinesthetic teaching), 从而实现人类技能向机器人的迁移. 具体来说, 在重力补偿(Gravity compensation)模式下, 针对特定的任务人类可以直接地拖动机器人对其进行示教, 同时通过机器人自身的传感器、正向运动学以及视觉系统等记录机器人的关节角度、末端位置和姿态、力和力矩以及环境状态(如物体或障碍物的位置、其他协作机器人或用户的状态等), 进一步则利用模仿学习算法对经由示教所得的轨迹进行学习以达到对示教技能模仿的目的.

    图1为例, 在记录人类示教下机器人末端的位置和姿态后(如第一行所示), 利用模仿学习算法可将学习到的技能应用的新的情形, 即生成新的末端位置和姿态轨迹(如第二、三行所示). 图2给出了图1中粉刷任务对应的示教轨迹以及泛化轨迹, 其中圆圈表示泛化情形下的期望路径点. 需要说明的是, 除了对机器人进行拖动示教, 其他的方式还包括利用视觉捕捉系统[31-32]采集人类的示教轨迹等.

    图 1  KMP在粉刷任务中的应用[30]. 第一行表示技能的示教, 第二行和第三行分别对应新情形下的泛化
    Fig. 1  The application of KMP in painting tasks[30]. The first row illustrates kinesthetic teaching of a painting task while the second and third rows correspond to skill adaptations in unseen situations
    图 2  粉刷任务中的示教轨迹(a) ~ (b)以及泛化轨迹(c) ~ (f), 其中(c) ~ (d)和(e) ~ (f)对应不同情形下的泛化[30]. $[p_x \ p_y \ p_z]^{\rm{T}} $$[q_s \ q_x \ q_y \ q_z]^{\rm{T}}$分别表示机器人末端的位置和四元数姿态. 圆圈为泛化时对应的期望路径点
    Fig. 2  Demonstrations (a) ~ (b) and adapted trajectories (c) ~ (f) in painting tasks, where (c) ~ (d) and (e) ~ (f) correspond to different adaptations. $[p_x \ p_y \ p_z]^{\rm{T}} $ and $[q_s \ q_x \ q_y \ q_z]^{\rm{T}}$ denote Cartesian position and quaternion, respectively. Circles depict various desired points

    针对示教轨迹的学习, 首先需要考虑的是技能的复现和泛化问题. 前者是指模仿学习算法能够对示教轨迹进行准确地复现, 而后者则指学习算法将示教的技能应用到新的不同于示教的情形. 以图3为例, (a)表示DMP的技能复现, 其中DMP生成的轨迹(实线)能够很好地重复示教轨迹(虚线); (b) ~ (c)均对应DMP的技能泛化, 其中DMP生成一条从新的起点(圆圈)收敛到新的目标点的轨迹, 该轨迹不同于示教轨迹. 在实际系统中, 技能的泛化问题是十分重要的. 以抓取为例, 技能泛化使得机器人在学习少量的示教轨迹之后, 能够对不同位置上的物体进行抓取而不需要新的示教样本.

    图 3  DMP在书写字母中的应用. (a)表示技能的复现, (b) ~ (c)均表示技能的泛化, 其中实线对应DMP生成的轨迹, 虚线为示教轨迹并用 ‘*’ 和 ‘+’ 分别表示其起点和终点, 圆圈表示泛化轨迹需要经过的期望位置点
    Fig. 3  The application of DMP in writing tasks. (a) corresponds to skill reproduction, (b) ~ (c) represent skill adaptations with different desired points. Solid curves are generated via DMP, while the dashed curves denote the demonstration with ‘*’ and ‘+’ respectively marking its starting and ending points. Circles depict desired points which the adapted trajectories should go through

    除了对于目标位置的泛化, 其他的泛化问题还包括经过期望的(一个或多个)中间路径点以及对位置和速度的同时泛化. 这里以打乒乓球机器人为例[33], 示教轨迹通常只包含少量的几条击打轨迹. 然而, 在实际系统中机器人应根据乒乓球的方位以及速度来调整其对应的击打位置和速度, 因此需要考虑对位置和速度的同时学习和泛化. 图4为应用KMP对示教的书写技能进行泛化, 其中泛化后的轨迹能够经过新的起始、中间和目标点, 且每个期望点又包括期望的位置和速度.

    图 4  KMP在书写字母中的应用. (a)对应二维轨迹, (b) ~ (e)分别表示轨迹的$x,$ $y,$ $\dot{x}$$\dot{y}$分量. 实线对应KMP生成的轨迹, 虚线为通过GMR对示教轨迹进行建模得到的均值, 圆圈表示不同的期望点
    Fig. 4  The application of KMP in a writing task. (a) plots the corresponding 2D trajectories, while (b) ~ (e) show the $x,$ $y,$ $\dot{x}$ and $\dot{y}$ components of trajectories, respectively. Solid curves are planned via KMP while the dashed curves are retrieved by GMR after modelling demonstrations. Circles denote various desired points

    在对人类的示教轨迹进行学习时, 需要考虑不同示教轨迹之间的差异. 以抓取为例, 即使针对同一个物体, 多次示教的轨迹仍可能存在不同程度的变化. 针对多条示教轨迹的问题, 需要考虑对轨迹中的概率分布进行学习. 这里仍以书写任务为例, 图5给出了应用GMM和GMR对多条轨迹进行概率学习的示意图, 其中 (d)中的实线表示多条轨迹的均值而阴影部分的幅度则表征多条轨迹之间的变化程度.

    图 5  应用GMM和GMR对多条示教轨迹进行概率建模. (a) ~ (b)分别对应示教轨迹的$x$$y$分量, (c) ~ (d)表示GMM和GMR的建模结果, 其中(c)中椭圆表示GMM中的高斯成分, (d)中的实线和阴影部分分别表示多条轨迹的均值和方差
    Fig. 5  The modeling of multiple demonstrations using GMM and GMR. (a) ~ (b) plot the $x$ and $y$ components of demonstrations. (c) ~ (d) depict the probabilistic features obtained via GMM and GMR, where the ellipses in (c) denote the Gaussian components in GMM, the solid curve and shaded area in (d) represent the mean and covariance of demonstrations, respectively

    收敛性问题存在于基于动态系统(Dynamical systems)的模型中, 如学习轨迹中速度$ \dot{\boldsymbol{{\xi}}} $随位置$ {\boldsymbol{{\xi}}} $的变化趋势(即学习$ \dot{\boldsymbol{{\xi}}}(t) = \boldsymbol{{f}}(\boldsymbol{{\xi}}(t)) $对应的模型)或学习轨迹中加速度$ \ddot{\boldsymbol{{\xi}}} $随位置$ {\boldsymbol{{\xi}}} $和速度$ \dot{\boldsymbol{{\xi}}} $的变化趋势(即学习$ \ddot{\boldsymbol{{\xi}}}(t) = \boldsymbol{{f}}(\boldsymbol{{\xi}}(t),\dot{\boldsymbol{{\xi}}}(t)) $对应的模型)等. 以$ \dot{\boldsymbol{{\xi}}}(t) = \boldsymbol{{f}}(\boldsymbol{{\xi}}(t)) $为例, 在利用模仿学习获得函数关系$ \boldsymbol{{f}}(\cdot) $之后, 可以根据当前的位置计算期望的速度从而能够计算出下一时刻期望的位置, 依此迭代下去即可获得完整的轨迹. 收敛性是指当$ t \rightarrow +\infty $时, $ \boldsymbol{{\xi}}(t) $以零速度和零加速度收敛于期望的位置. 该特征可以有效地应用于当轨迹执行时存在较大干扰的情形. 收敛性也常常用于解决针对新目标点的泛化问题, 如图3中DMP即采用了稳定的二阶动态模型.

    外插问题是指将示教技能从整体上泛化到偏离示教区域的情形. 以物体搬运为例, 假设所有的示教轨迹都在用户的左侧, 具有外插特征的方法则允许将示教技能泛化到用户的右侧或其他远离示教区域的位置, 因此使得机器人具有更广泛的泛化能力. 图6为应用DMP进行外插的两个例子, 其中当期望的起始点和目标点整体远离示教区域时, DMP依然能够生成与示教轨迹形状相似且经过期望点的轨迹.

    图 6  DMP 的外插应用
    Fig. 6  The extrapolation application of DMP

    在对示教轨迹进行学习时需要考虑对应的输入信息. 示教轨迹学习中的输入问题是指能否学习带有时间输入或高维输入的轨迹. 基于时间的技能学习能够在不同的时刻生成相应的轨迹, 如在某一个时刻到达某个期望的位置. 在上述的例子中, 图2 ~ 6均为学习时间驱动的轨迹. 针对高维输入的学习方法能够直接根据高维状态生成对应的轨迹. 如在图7所示的人机交互中, 当人的手部状态发生变化时, 机器人的轨迹也会立即作出相应的调整. 如人手的速度变快或变慢, 机器人的运动轨迹也会相应地变快或变慢. 该过程中的模仿学习可以理解为直接学习机器人和人之间的协调关系.

    图 7  KMP在人机交互中的应用[34]. 第一行表示技能示教, 第二行为技能复现, 第三行对应新情形下的技能泛化
    Fig. 7  The application of KMP in handover tasks[34]. The first row shows kinesthetic teaching of a handover task, while the second and third rows illustrate skill reproduction and adaptation, respectively

    在本节最后, 需要指出的是当模仿学习应用于技能泛化或外插时, 仅需给定期望的任务目标即可生成相应的轨迹, 无需对轨迹形状进行几何分析或对轨迹进行分段处理等. 另外, 对于复杂的轨迹或存在高维输入时, 基于几何分析和变换的思路也是无法适用的. 在图6中, 给定期望的起始点和目标点, DMP即能够直接生成保持示教轨迹形状的轨迹. 类似地, 在图4中给定期望时刻下对应的位置和速度(图中对应3个期望点), KMP即能直接生成满足要求的位置和速度轨迹, 而不需要其他任何中间步骤. 在图7中, 当人的手部状态(高维变量)发生变化时, KMP即生成相应的机器人的轨迹.

    在获得示教轨迹之后, 需要对其进行相应的学习(How to imitate). 机器人运动技能的模仿学习方法主要包括GMM和GMR、HMM/HSMM、GP、DMP、SEDS、ProMP和KMP, 本节将结合第1节中的基本问题对这些方法进行介绍和讨论.

    给定$ M $条示教轨迹 $ \{\{\boldsymbol{{s}}_{n,m}, \boldsymbol{{\xi}}_{n,m}\}_{n = 1}^{N_m}\}_{m = 1}^{M} $, 其中$ N_m $为第$ m $条轨迹的长度, $\boldsymbol{{s}}\in \bf{R}^{\cal{I}}$表示$ {\cal{I}} $维输入信息(如时间、位置或其他外部状态), $\boldsymbol{{\xi}}\in\bf{R}^{\cal{O}}$表示$ {\cal{O}} $维的轨迹变量, 如机器人末端位置、速度和加速度, 关节位置、速度和加速度, 以及力和力矩等. 两种典型的轨迹是: i) $ \boldsymbol{{s}} $表示时间, $ \boldsymbol{{\xi}} $为机器人末端位置、关节位置或力等,则示教轨迹表示时间驱动(Time-driven)的技能; ii) 如果$ \boldsymbol{{s}} $表示位置, $ \boldsymbol{{\xi}} $为速度, 则示教轨迹对应自治的(Autonomous)动态系统.

    GMM可以对样本中输入和输出变量的联合概率分布$ {\cal{P}}(\boldsymbol{{s}},\boldsymbol{{\xi}}) $进行建模, 即

    $$ {\cal{P}}(\boldsymbol{{s}},\boldsymbol{{\xi}}) \sim \sum_{c = 1}^{C} \pi_c {\cal{N}}(\boldsymbol{{\mu}}_c,\boldsymbol{{\Sigma}}_c) $$ (1)

    其中 $ C $为GMM中高斯成分的数量, $ \pi_c $$\boldsymbol{{\mu}}_c = $$ \left[\begin{aligned} \boldsymbol{{\mu}}_{s,c} \\ \boldsymbol{{\mu}}_{\xi,c} \end{aligned}\right]$$\boldsymbol{{\Sigma}}_c = \left[\begin{aligned} \boldsymbol{{\Sigma}}_{ss,c} \;\; \boldsymbol{{\Sigma}}_{s\xi,c} \\ \boldsymbol{{\Sigma}}_{\xi s,c}\;\; \boldsymbol{{\Sigma}}_{\xi \xi,c} \end{aligned}\right]$ 分别表示第$ c $个高斯成分的先验概率、均值和协方差. GMM的参数可以通过期望最大化(Expectation-maximization, EM)算法(文献[35], 第9.2节)进行迭代优化, 但需要事先指定高斯成分的数量. 常见的用于改进GMM参数估计的方法包括: i)用k均值(k-means)对样本聚类, 然后用聚类结果初始化GMM的参数; ii)结合贝叶斯信息判据(Bayesian information criterion, BIC)寻找最优的高斯数量[29]; iii)贝叶斯GMM (Bayesian GMM)自动优化高斯成分的数量(文献[35], 第10.2节).

    在得到GMM参数之后, 对于任意新的输入$ \boldsymbol{{s}}^* $均可利用GMR 预测其对应轨迹$ \boldsymbol{{\xi}}^* $的条件概率分布, 即[34, 36-37]:

    $$ {\cal{P}}(\boldsymbol{{\xi}}^*|\boldsymbol{{s}}^*) = \sum_{c = 1}^{C}h_c(\boldsymbol{{s}}^*) {\cal{N}}\left(\bar{\boldsymbol{{\mu}}}_c(\boldsymbol{{s}}^*),\bar{\boldsymbol{{\Sigma}}}_c \right) $$ (2)

    其中

    $$ \quad h_c(\boldsymbol{{s}}^*) = \frac{\pi_c {\cal{N}}(\boldsymbol{{s}}^*|\boldsymbol{{\mu}}_{s,c},\boldsymbol{{\Sigma}}_{ss,c})}{\sum\limits_{i = 1}^{C}\pi_i {\cal{N}}(\boldsymbol{{s}}^*|\boldsymbol{{\mu}}_{s,i},\boldsymbol{{\Sigma}}_{ss,i})} $$ (3)
    $$ \bar{\boldsymbol{{\mu}}}_c(\boldsymbol{{s}}^*) = \boldsymbol{{\mu}}_{\xi,c}+ \boldsymbol{{\Sigma}}_{\xi s,c} \boldsymbol{{\Sigma}}_{ss,c}^{-1} (\boldsymbol{{s}}^*-\boldsymbol{{\mu}}_{s,c}) $$ (4)
    $$ \bar{\boldsymbol{{\Sigma}}}_c = \boldsymbol{{\Sigma}}_{\xi \xi,c}- \boldsymbol{{\Sigma}}_{\xi s,c} \boldsymbol{{\Sigma}}_{s s,c}^{-1} \boldsymbol{{\Sigma}}_{s \xi,c} $$ (5)

    进一步可以将式(2)近似为[34, 37]:

    $$ {\cal{P}}(\boldsymbol{{\xi}}^*|\boldsymbol{{s}}^*)\approx{\cal{N}}(\hat{\boldsymbol{{\mu}}},\hat{\boldsymbol{{\Sigma}}}) $$ (6)

    其中

    $$ \hat{\boldsymbol{{\mu}}} = {\sum_{c = 1}^{C}}h_c(\boldsymbol{{s}}^*) \bar{\boldsymbol{{\mu}}}_c(\boldsymbol{{s}}^*)$$ (7)
    $$ \hat{\boldsymbol{{\Sigma}}} = \sum\limits_{c = 1}^{C}h_c(\boldsymbol{{s}}^*)\left (\bar{\boldsymbol{{\mu}}}_c(\boldsymbol{{s}}^*) \bar{\boldsymbol{{\mu}}}_c^{ { {\rm{T}}}}(\boldsymbol{{s}}^*)+\bar{\boldsymbol{{\Sigma}}}_c \right)-\hat{\boldsymbol{{\mu}}} \hat{\boldsymbol{{\mu}}}^{\rm{T}} $$ (8)

    GMM能够有效地学习多训练样本的概率特征, 包括时间输入和多维输入的情形. 然而, GMM难以将其学习到的技能应用到与示教环境不同的情况. 为了改进GMM的自适应性(即泛化能力), 常见的方法是应用强化学习, 如文献[38]利用行为评判算法[39] (Natural actor critic, NAC)对GMM中高斯成分的均值进行优化. 由于需要大量的迭代优化, 这类方法不适用于在线技能的学习和调整.

    HMM[40]假设任意长度为$ N $的观测序列$\{ {\boldsymbol{o}}_1, $$ {\boldsymbol{o}}_2,\cdots, {\boldsymbol{o}}_N \}$是由$ H $ 个隐含的未知状态$\{s_1,s_2,\cdots, s_H\}$所产生, 同时假设当前时刻的观测值仅由当前时刻的隐含状态决定, 以及任意时刻的状态仅由其上一时刻的状态决定. 具体来说, HMM包括三个主要要素$ \boldsymbol{{\theta}} = \{\pi_i, \{a_{i,j}\}_{j = 1}^{H},b_i( {\boldsymbol{o}})\}_{i = 1}^{H} $, 其中$ \pi_i $为隐状态$ s_i $的初始概率, $ a_{i,j} $为隐状态从$ s_i $转换到$ s_j $的概率, $ b_i({\boldsymbol{o}}) $表示当状态为$ s_i $时观测到$ {\boldsymbol{o}} $的概率. 然而, 当对某个或某些隐含状态进行连续多次观察时, HMM中状态频次的概率表征是不恰当的, 该概率会随连续观测频次的增加呈指数级下降. 例如, 对第$ h $个隐状态连续观测$ n $次(即状态时长)的概率为$ a_{h,h}^{n-1}(1- $$ a_{h,h}) $. 为了解决这一问题, HSMM[40]对状态观测时长进行建模来取代HMM中的状态自循环, 其参数主要包括$ \{\{\pi_i, a_{i,j},b_i( {\boldsymbol{o}}), $$ c(s_i)\}_{i = 1}^{H}\}_{j = 1, j \neq i}^{H} $. 这里$ c(s_i) $表示隐状态$ s_i $出现时长的概率分布.

    给定$ M $条示教轨迹$ \boldsymbol{{D}} = \{\{ \boldsymbol{{\xi}}_{n,m}\}_{n = 1}^{N_m}\}_{m = 1}^{M} $, 可利用EM对HMM或HSMM的参数进行优化[41]. 以HMM为例, 即

    $$ \boldsymbol{{\theta}}^{*} =\mathop {\rm{argmax}}\limits_{\boldsymbol{{\theta}}} {\cal{P}}(\boldsymbol{{D}}|\boldsymbol{{\theta}}) $$ (9)

    在通过学习训练样本获得HMM或HSMM的参数之后, 可以依据隐状态的初始概率以及状态之间的转换概率生成隐状态的序列, 同时根据这些隐状态对应的观测输出概率生成新的轨迹.

    HMM或HSMM的优点在于可以同时学习多种类型的轨迹, 而不需要预先对技能轨迹进行分类[42]. 然而, 和GMM类似, 该类方法常用于技能复现, 不易于将训练轨迹泛化到新的情形. 需要注意的是, 当HMM或HSMM用于轨迹规划时, 通常难以产生平滑的轨迹[43]. 因此, 文献[37] 通过加权最小二乘将多阶轨迹(包括位置、速度和加速度)转换为低阶的位置轨迹. 文献[44]将HSMM和模型预测控制(Model predictive control, MPC)相结合来获得连续的轨迹.

    GP (文献[45], 第2.2节)是指一系列随机变量的集合, 其中任意有限个随机变量的联合概率服从高斯分布. 特别地, 给定训练数据集合$ \{\boldsymbol{{s}}_{n}, y_{n}\}_{n = 1}^{N} $, 以及假设输入$ \boldsymbol{{s}} $和其对应的观测输出$y\in \bf{R}$之间存在某种函数关系$ y = f(\boldsymbol{{s}})+\epsilon $, 其中$ \epsilon \sim {\cal{N}}(0,\sigma^2) $表示方差为$ \sigma^2 $的噪声, 那么给定新的测试输入$ \boldsymbol{{s}}^{*} $, 其对应的函数值$ f(\boldsymbol{{s}}^{*}) $和训练样本的输出 $\boldsymbol{{y}} = [y_1 \; y_2\; \cdots $$ \; y_N]^ {\rm{T}}$存在如下关系:

    $$ \begin{array}{l} \small \left[\begin{matrix} \boldsymbol{{y}} \\f(\boldsymbol{{s}}^{*}) \end{matrix}\right] \sim {\cal{N}} \left(\left[\begin{matrix} \boldsymbol{{0}} \\ {0} \end{matrix}\right], \left[\begin{matrix} \boldsymbol{{K}}+\sigma^2\boldsymbol{{I}} & \boldsymbol{{k}}^{* {\rm{T}}} \\ \boldsymbol{{k}}^{*} & k(\boldsymbol{{s}}^{*},\boldsymbol{{s}}^{*}) \end{matrix}\right] \right) \end{array} $$ (10)

    其中$ \boldsymbol{{I}} $$ N $维单位矩阵,

    $$ \begin{array}{l} \boldsymbol{{K}} = \left[\begin{matrix} k(\boldsymbol{{s}}_1, \boldsymbol{{s}}_1) & k(\boldsymbol{{s}}_1, \boldsymbol{{s}}_2) & \cdots & k(\boldsymbol{{s}}_1, \boldsymbol{{s}}_N) \\ k(\boldsymbol{{s}}_2, \boldsymbol{{s}}_1) & k(\boldsymbol{{s}}_2, \boldsymbol{{s}}_2) & \cdots & k(\boldsymbol{{s}}_2, \boldsymbol{{s}}_N) \\ \vdots & \vdots & \ddots & \vdots\\ k(\boldsymbol{{s}}_N, \boldsymbol{{s}}_1) & k(\boldsymbol{{s}}_N, \boldsymbol{{s}}_2) & \cdots & k(\boldsymbol{{s}}_N, \boldsymbol{{s}}_N)\\ \end{matrix}\right] \end{array} $$ (11)
    $$ \begin{array}{l} \boldsymbol{{k}}^{*} = [k(\boldsymbol{{s}}^{*},\boldsymbol{{s}}_1) \; k(\boldsymbol{{s}}^{*}, \boldsymbol{{s}}_2) \; \cdots \; k(\boldsymbol{{s}}^{*}, \boldsymbol{{s}}_N)] \end{array} $$ (12)

    这里$ k(\cdot,\cdot) $表示核函数, 一个常见的例子是平方指数(Squared exponential, SE)函数$k(\boldsymbol{{s}}^{*},\boldsymbol{{s}}_n) = $$ \exp(-\dfrac{1}{2\ell^2}||\boldsymbol{{s}}^{*}-\boldsymbol{{s}}_n||^2)$. 关于核函数的内容可以参考文献[46].

    根据式(10)中的联合概率分布和多变量高斯的条件概率分布, 可获得$ {\cal{P}}(f(\boldsymbol{{s}}^{*})|\boldsymbol{{y}}) $, 其均值和方差分别为(文献[45], 第2.2节):

    $$ {\rm{E}}(f(\boldsymbol{{s}}^{*})) = \boldsymbol{{k}}^{*}(\boldsymbol{{K}}+\sigma^2\boldsymbol{{I}})^{-1}\boldsymbol{{y}} $$ (13)
    $$ {\rm{D}}(f(\boldsymbol{{s}}^{*})) = k(\boldsymbol{{s}}^{*},\boldsymbol{{s}}^{*})-\boldsymbol{{k}}^{*}(\boldsymbol{{K}}+\sigma^2\boldsymbol{{I}})^{-1}\boldsymbol{{k}}^{*{\rm{T}}} $$ (14)

    式(13) ~ (14)仅针对训练样本中输出是一维的情形. 对于多维输出, 可以分别对每个输出变量利用GP进行预测, 也可以采用向量值(Vector valued) GP以及可分离核函数(Separable kernels)[47].

    作为典型的监督学习算法, GP可以通过学习示教轨迹实现运动技能的复现. 对于轨迹的自适应问题, 如机器人末端从A点出发, 在B点抓取一个物体并最终将物体放置到C点 (这里A, B, C点的位置均不同于示教轨迹), 利用多变量高斯的后验概率(Posterior)即能够规划新的满足任务要求的轨迹. 然而, 如果利用GP对位置和速度分别进行预测, 则无法保证速度变量和位置变量之间的一阶微分关系. 目前基于GP的模仿学习文献常仅学习位置轨迹或忽略该微分约束, 事实上该问题可以利用微分(Derivative) GP解决[48]. 以时间输入为例, 在定义GP的协方差时可利用${\rm{cov}} \left\langle \dfrac{{\rm{d}} f(t_i)}{{\rm{d}} t_i}, f(t_j) \right\rangle = $$ \dfrac{{\rm{d}} k(t_i,t_j)}{{\rm{d}} t_i}$以及 ${\rm{cov }} \left\langle \dfrac{{\rm{d}} f(t_i)}{{\rm{d}} t_i},\dfrac{{\rm{d}} f(t_j)}{{\rm{d}} t_j} \right\rangle = \dfrac{{\rm{d}}^2 k(t_i,t_j)}{{\rm{d}}t_i{\rm{d}}t_j}$.

    DMP[2]本质上是从示教轨迹中学习位置$ \boldsymbol{{\xi}} $和速度$ \dot{\boldsymbol{{\xi}}} $到加速度$ \ddot{\boldsymbol{{\xi}}} $的映射函数. 对于机器人系统, 假设当前时刻$ t $的位置和速度$ \{\boldsymbol{{\xi}}_t,\dot{\boldsymbol{{\xi}}}_t\} $是可观测的, DMP能够在线的计算期望的加速度$ \hat{\ddot{\boldsymbol{{\xi}}}}_t $, 由此可获得下一时刻的期望位置(即$ \boldsymbol{{\xi}}_{t}+\delta_t\dot{\boldsymbol{{\xi}}}_t $)和期望速度(即$\dot{\boldsymbol{{\xi}}}_t+ $$ \delta_t\hat{\ddot{\boldsymbol{{\xi}}}}_t$), 其中$ \delta_t $表示机器人的伺服周期. 随着时间的增加即可完成轨迹的规划任务. 同样地, DMP可以对关节轨迹、力和力矩轨迹等进行规划.

    给定一条长度为$ N $的轨迹$ \{t_{n},\boldsymbol{{\xi}}_{n},\dot{\boldsymbol{{\xi}}}_{n},\ddot{\boldsymbol{{\xi}}}_{n}\}_{n = 1}^{N} $, DMP使用如下模型对运动轨迹进行编码(Encoding)[2]:

    $$ \tau \dot{z} = -\alpha z $$ (15)
    $$ \tau^2 \ddot{\boldsymbol{{\xi}}} = \boldsymbol{{K}}^p (\boldsymbol{{g}}-\boldsymbol{{\xi}}) -\tau\boldsymbol{{K}}^v \dot{\boldsymbol{{\xi}}} +z\boldsymbol{{f}}(z) $$ (16)
    $$ {f}_{i}(z) = \dfrac{\sum\limits_{h = 1}^{H} \varphi_{h}(z) {w}_{i,h}}{\sum\limits_{h = 1}^{H} \varphi_{h}(z)} (g_i-\xi_{0i}) $$ (17)

    在式(15)中, $ \alpha>0 $为常数, $ \tau $为轨迹时长, $ z $表示相位变量. 该模型用来将时间信号$ t $转换成$ z $. 在式(16)中, $\boldsymbol{{g}}\in \bf{R}^{{\cal{O}}}$表示轨迹的目标位置, $ \boldsymbol{{K}}^p $$ \boldsymbol{{K}}^v $分别表示预先设定的对角的刚度和阻尼矩阵, $\boldsymbol{{f}}(z)\in \bf{R}^{{\cal{O}}}$为轨迹调整项. 式(17)的$ f_i(z) $$ \boldsymbol{{f}}(z) $的第$ i $个分量的定义, 其中$ w_{i,h} $为加权系数, $ H $为拟合$ \boldsymbol{{f}} $所需要的基函数(Basis function)的数量, $\varphi_{i}(z) = {\rm{e}}^{-a_i(z - c_i)^2}$ 表示基函数, 这里$ a_i>0 $, $ c_i \in [0,1] $. $ g_i $$ \xi_{0i} $分别对应目标位置$ \boldsymbol{{g}} $和初始位置$ \boldsymbol{{\xi}}_{0} $的第$ i $个分量.

    在训练DMP时可以对式(15) ~ (16)进行离散化, 即利用$ \dot{z}_t = (z_{t+1}-z_t)/\delta_t $$ \dot{\boldsymbol{{\xi}}}_t = (\boldsymbol{{\xi}}_{t+1}-\boldsymbol{{\xi}}_{t})/\delta_t $, 然后通过回归算法(如最小二乘或局部加权回归[49] (Locally weighted regression, LWR))估计形状参数$ \boldsymbol{{W}} = \{\{w_{i,h}\}_{h = 1}^{H}\}_{i = 1}^{{\cal{O}}} $. 在应用DMP进行泛化时, 通过调整$ \tau $$ \boldsymbol{{g}} $就能够改变期望轨迹的时长(即运动的快慢)以及期望的目标位置.

    DMP的主要优点是可以从任意的起始点(Start-point)对轨迹进行规划并收敛到任意的目标点(End-point), 而不需要其他的预处理, 如文献[5]需要将轨迹投影到局部坐标系中. 文献[2]表明, 当运动时间趋于无穷时式(15)中的$ z $趋于零, 这时式(16)对应的稳定收敛点为: $ \boldsymbol{{\xi}} = \boldsymbol{{g}} $ 以及 $\dot{\boldsymbol{{\xi}}} = \ddot{\boldsymbol{{\xi}}} = $$ \boldsymbol{{0}}$. 然而, 在实际应用中轨迹的期望时长$ \tau $通常是有限的, 即当$ t = \tau $$ z $仍大于$ 0 $, 这时$ \boldsymbol{{\xi}} $$ \boldsymbol{{g}} $仍会存在一定的误差.

    另外, 由于DMP收敛时的速度为零, 导致其不适用于存在速度要求的任务(如打乒乓球机器人需要以某期望的速度击球), 而且DMP无法生成经过任意中间点(Via-point)的轨迹. Kober等[50]对DMP进行了改进, 使其能够以非零的速度到达收敛位置, 然而仍未能处理期望中间点的问题. 除此之外, DMP需要预设置的参数较多, 特别是基函数的选择. 为了避免基函数的问题, Fanger等[51]利用GP预测$ z $对应的$ \boldsymbol{{f}}(z) $. 文献[9, 52]通过GMM和GMR预测$ \boldsymbol{{f}}(z) $在不同时刻的概率分布, 从而实现DMP框架下对多个示教轨迹的学习.

    最后, DMP中的参数(即$ \tau, $ $ \boldsymbol{{g}} $$ \boldsymbol{{W}} $)可以利用强化学习对其进行优化[53-56], 但需要事先根据特定的任务设计合理的成本函数. 由于强化学习采用学习和探索(Exploitation and exploration)的方式, 常常需要大量的迭代, 特别是当学习复杂轨迹时需要大量的基函数从而导致$ \boldsymbol{{W}} $的维度较大, 故该思路不适用于实时的技能泛化.

    SEDS[3]利用GMM和GMR学习示教轨迹中位置$ \boldsymbol{{\xi}} $和速度$ \dot{\boldsymbol{{\xi}}} $的函数关系并通过(非线性)优化GMM的参数来获得稳定的动态系统. 给定$ M $条示教轨迹$ \boldsymbol{{D}} = \{\{ \boldsymbol{{\xi}}_{n,m},\dot{\boldsymbol{{\xi}}}_{n,m}\}_{n = 1}^{N_m}\}_{m = 1}^{M} $, 可以依据式(1)估计$ {\cal{P}}(\boldsymbol{{\xi}},\dot{\boldsymbol{{\xi}}}) $, 再用式(2)计算$ {\cal{P}}(\dot{\boldsymbol{{\xi}}}|\boldsymbol{{\xi}}) $, 以及式(7)估计$ \dot{\boldsymbol{{\xi}}} $对应的条件期望2:

    $$ \dot{\boldsymbol{{\xi}}} = \sum_{c = 1}^{C}h_c(\boldsymbol{{\xi}}) \left(\boldsymbol{{\mu}}_{\dot{\xi},c}+ \boldsymbol{{\Sigma}}_{\dot{\xi} \xi,c} \boldsymbol{{\Sigma}}_{\xi\xi,c}^{-1} (\boldsymbol{{\xi}}-\boldsymbol{{\mu}}_{\xi,c})\right) $$ (18)

    可进一步将式(18)变形为:

    $$\dot{\boldsymbol{{\xi}}} = \sum_{c = 1}^{C} h_c(\boldsymbol{{\xi}}) \left(\boldsymbol{{A}}_c \boldsymbol{{\xi}}+ \boldsymbol{{b}}_c \right) $$ (19)

    其中, $ \boldsymbol{{A}}_c = \boldsymbol{{\Sigma}}_{\dot{\xi} \xi,c} \boldsymbol{{\Sigma}}_{\xi\xi,c}^{-1} $, $ \boldsymbol{{b}}_c = \boldsymbol{{\mu}}_{\dot{\xi},c}-\boldsymbol{{\Sigma}}_{\dot{\xi} \xi,c} \boldsymbol{{\Sigma}}_{\xi\xi,c}^{-1}\boldsymbol{{\mu}}_{\xi,c} $. 式(19)可以看作是$ C $个由$ h_c(\boldsymbol{{\xi}}) $加权的线性子系统的叠加, 而且式(19)中的预测模型只依赖GMM的参数.

    为了获得稳定的系统, 文献[3]给出了系统稳定的充分条件, 即对于任意第$c\in\{1,2,\cdots,C\}$个子系统均需要满足:

    $$ \boldsymbol{{A}}_c+\boldsymbol{{A}}_c^ {{\rm{T}}} \prec 0 $$ (20)
    $$ \boldsymbol{{A}}_c \boldsymbol{{\xi}}^{*}+\boldsymbol{{b}}_c = \boldsymbol{{0}} $$ (21)

    其中, ‘$ \prec 0 $’ 表示矩阵的负定, $ \boldsymbol{{\xi}}^{*} $为所有的子系统的收敛目标. 通过非线性优化器最大化示教轨迹的观测概率并满足上述稳定性的充分条件, 即可获得最优的GMM参数.

    由于SEDS将轨迹规划问题转化成稳定的动态系统问题, 其和DMP一样适用于将轨迹从任意的起点泛化到任意的目标点. 然而其和DMP也有类似的局限性, 即无法直接处理带有速度或中间路径点要求的泛化问题. 另外, SEDS可以学习多维度的轨迹$ \boldsymbol{{\xi}} $, 但是如式(19)所示其仅适合学习$ \boldsymbol{{\xi}} $$ \dot{\boldsymbol{{\xi}}} $之间的映射关系, 而不适用于学习输入为时间的轨迹或输入和输出对应不同类型轨迹的情形(如在人机交互时输入对应人的双手位置, 输出为机器人关节角度).

    ProMP[4]应用如下模型对示教轨迹进行拟合:

    $$ \begin{array}{l} \left[ \begin{matrix} \boldsymbol{{\xi}}(t) \\ \dot{\boldsymbol{{\xi}}}(t) \end{matrix} \right] = \boldsymbol{{\Phi}}^ {\rm{T}}(t) \boldsymbol{{w}} \end{array} $$ (22)

    其中 $\boldsymbol{{\Phi}}(t) = [\boldsymbol{{I}}_{\cal{O}} \otimes \boldsymbol{{\phi}}(t) \,\, \boldsymbol{{I}}_{\cal{O}} \otimes \dot{\boldsymbol{{\phi}}}(t)] \in {\bf{R}}^{B{\cal{O}} \times 2{\cal{O}}}$, $\boldsymbol{{\phi}}(t) = $$ [{\varphi}_1(t)\;{\varphi}_2(t)\; \ldots \; {\varphi}_B(t)]^ {\rm{T}}$表示$ B $维的基函数向量, $ \otimes $为矩阵Kronecker乘积, $\boldsymbol{{w}}\in {\bf{R}}^{B{\cal{O}}}$为未知的轨迹参数. 注意, 如果采用 $\boldsymbol{{\Phi}}(t) = \boldsymbol{{I}}_{2{\cal{O}}} \otimes \boldsymbol{{\phi}}(t)$, 则无法保证预测输出中的微分关系.

    给定$ M $条示教轨迹, 通过动态时间规整(Dynamic time warping, DTW)对其进行预处理可获得长度均为$ N $的轨迹, 即$ \{\{{t}_{n,m}, \boldsymbol{{\xi}}_{n,m}, \dot{\boldsymbol{{\xi}}}_{n,m}\}_{n = 1}^{N}\}_{m = 1}^{M} $, 然后利用最大似然估计(Maximum likelihood estimation, MLE)可以求取轨迹参数$ \boldsymbol{{w}} $的概率分布. 具体来说, 先用式(22)分别拟合不同的轨迹, 并利用最小二乘获得各个轨迹的参数$ \{\boldsymbol{{w}}_m\}_{m = 1}^{M} $. 然后可计算$ \boldsymbol{{w}}\sim {\cal{N}}(\boldsymbol{{\mu}}_w,\boldsymbol{{\Sigma}}_w) $的概率分布[57]:

    $$ \boldsymbol{{\mu}}_w = \frac{1}{M}\sum_{m = 1}^{M} \boldsymbol{{w}}_m $$ (23)
    $$ \boldsymbol{{\Sigma}}_w = \frac{1}{M}\sum_{m = 1}^{M} (\boldsymbol{{w}}_m-\boldsymbol{{\mu}}_w)(\boldsymbol{{w}}_m-\boldsymbol{{\mu}}_w)^{\rm{T}} $$ (24)

    需要指出的是当$ \boldsymbol{{w}} $的维度$ B{\cal{O}} $大于样本数量$ M $时, $ \boldsymbol{{\Sigma}}_w $为奇异阵, 因此常需要引入附加的正则项, 即$ \boldsymbol{{\Sigma}}_w+ \lambda \boldsymbol{{I}} $. 然而如果$ \lambda $过小, 在应用高斯条件概率进行轨迹调整时, 常会出现数值问题. 如果$ \lambda $过大, 正则化后的方差则会高估多条轨迹之间的方差特征.

    在获得轨迹参数$ \boldsymbol{{w}} $的概率分布之后, 针对技能的复现问题, 可以直接利用$ \boldsymbol{{\mu}}_w $或从$ {\cal{N}}(\boldsymbol{{\mu}}_w,\boldsymbol{{\Sigma}}_w) $采样出$ \boldsymbol{{w}} $, 相应的复现轨迹可由式(22)得到. 针对轨迹的自适应问题, 可以利用条件高斯 (文献[35], 第2.3.1和2.3.3节)进行计算. 假设泛化的轨迹需要在特定的时刻$ t^{*} $以期望的速度$ \dot{\boldsymbol{{\xi}}}^{*}_t $经过期望的位置$ \boldsymbol{{\xi}}^{*}_t $, 并且假设期望点$\boldsymbol{{\mu}}_t^{*} = [\boldsymbol{{\xi}}^{*{\rm{T}}}_t {\dot{\boldsymbol{{\xi}}}^{*{\rm{T}}}_t} ]^ {\rm{T}}$的协方差3$ \boldsymbol{{\Sigma}}_t^{*} $, 则调整后的轨迹参数的概率分布$ {\cal{N}}(\boldsymbol{{\mu}}_w^{*},\boldsymbol{{\Sigma}}_w^{*}) $[4]:

    $$ \boldsymbol{{\mu}}_w^{*} = \boldsymbol{{\mu}}_w+\boldsymbol{{\Sigma}}_w\boldsymbol{{\Phi}}(t^*)\boldsymbol{{L}}^{-1}(\boldsymbol{{\mu}}_t^{*}-\boldsymbol{{\Phi}}^{\rm{T}}(t^*)\boldsymbol{{\mu}}_w) $$ (25)
    $$ \boldsymbol{{\Sigma}}_w^{*} = \boldsymbol{{\Sigma}}_w-\boldsymbol{{\Sigma}}_w\boldsymbol{{\Phi}}(t^*)\boldsymbol{{L}}^{-1}\boldsymbol{{\Phi}}^ {\rm{T}}(t^*)\boldsymbol{{\Sigma}}_w $$ (26)

    其中$\boldsymbol{{L}} = \boldsymbol{{\Phi}}^{\rm{T}}(t^*)\boldsymbol{{\Sigma}}_w\boldsymbol{{\Phi}}(t^*)+\boldsymbol{{\Sigma}}_t^{*}$. 最后, 可应用$ \boldsymbol{{\mu}}_w^{*} $或从$ {\cal{N}}(\boldsymbol{{\mu}}_w^{*},\boldsymbol{{\Sigma}}_w^{*}) $采样得到的$ \boldsymbol{{w}} $, 根据式(22)生成自适应的轨迹. 该轨迹能够在期望的时刻, 在预定的方差范围内经过期望点. 对于存在多个期望点的情况, 可以依次用式(25)和(26)对$ \boldsymbol{{w}} $的概率分布进行更新.

    ProMP可以同时对位置和速度轨迹进行学习和泛化, 计算效率高, 适用于在线规划. ProMP和DMP类似, 两者均用来学习时间驱动的轨迹(即轨迹的输入为时间), 且都需要事先指定用来拟合轨迹的基函数$ \boldsymbol{{\phi}}(t) $. 然而, 对于高维输入的情况, 常常需要大量的基函数4, 因此难以将ProMP应用于学习带有多维输入轨迹的情形. 另外, ProMP未考虑轨迹规划中的外插问题(即待规划轨迹从整体上偏离示教区域)[58].

    KMP[6]从信息论的角度研究示教轨迹的模仿学习问题. 给定M条示教轨迹$\{\{\boldsymbol{{s}}_{n,m}, \boldsymbol{{\xi}}_{n,m}\} $$ _{n = 1}^{N_m}\}_{m = 1}^{M}$, 首先利用GMM获得$ {\cal{P}}(\boldsymbol{{s}},\boldsymbol{{\xi}}) $, 然后从GMM中采样5$ N $个可以表征输入空间分布特征的参考输入$\{{\boldsymbol{{s}}}_{1},{\boldsymbol{{s}}}_{2}, \cdots, {\boldsymbol{{s}}}_{N}\}_{n = 1}^{N}$. 应用式(6)计算不同参考输入$ \boldsymbol{{s}}_n $对应输出$ {\hat{\boldsymbol{{\xi}}}}_{n} $的概率分布, 即${\hat{\boldsymbol{{\xi}}}}_{n}|\boldsymbol{{s}}_n\sim $$ {\cal{N}}(\hat{\boldsymbol{{\mu}}}_{n},\hat{\boldsymbol{{\Sigma}}}_{n})$, 可得到参考轨迹 $ \{\boldsymbol{{s}}_n,\hat{\boldsymbol{{\mu}}}_n,\hat{\boldsymbol{{\Sigma}}}_n\}_{n = 1}^{N} $. 在获得参考轨迹之后, KMP采用如下参数化模型:

    $$ \begin{array}{l} \boldsymbol{{\xi}}(\boldsymbol{{s}}) = \boldsymbol{{\Phi}}^{\rm{T}} (\boldsymbol{{s}})\boldsymbol{{w}} \end{array} $$ (27)

    其中$\boldsymbol{{\Phi}}(\boldsymbol{{s}}) = \boldsymbol{{I}}_{{\cal{O}}} \otimes \boldsymbol{{\phi}}(\boldsymbol{{s}}) \in {\bf{R}}^{B{\cal{O}} \times {\cal{O}}}$, $ \boldsymbol{{\phi}}(\boldsymbol{{s}}) $表示$ B $维的基函数向量, $ \boldsymbol{{w}}\sim{\cal{N}}(\boldsymbol{{\mu}}_w,\boldsymbol{{\Sigma}}_w) $. 这里$ \boldsymbol{{\mu}}_w $$ \boldsymbol{{\Sigma}}_w $未知. 为了估计$ \boldsymbol{{\mu}}_w $$ \boldsymbol{{\Sigma}}_w $, KMP对式(27)生成轨迹的概率分布和参考轨迹的概率分布之间的KL散度进行最小化, 即

    $$ \sum_{n = 1}^{N}\mathrm{KL}({\cal{P}}_n^{para}||{\cal{P}}_n^{ref}) $$ (28)

    其中, ${\cal{P}}_n^{para} = {\cal{N}} \bigl(\boldsymbol{{\Phi}}^{\rm{T}}(\boldsymbol{{s}}_n) \boldsymbol{{\mu}}_w,\; \boldsymbol{{\Phi}}^{\rm{T}}(\boldsymbol{{s}}_n) \boldsymbol{{\Sigma}}_w \boldsymbol{{\Phi}}(\boldsymbol{{s}}_n)\bigr),$ ${\cal{P}}_n^{ref} = {\cal{N}} \bigl(\hat{\boldsymbol{{\mu}}}_n,\hat{\boldsymbol{{\Sigma}}}_n\bigr)$. 对该目标函数进行分解, 利用向量和矩阵求导以及核技巧可获得任意输入$ \boldsymbol{{s}}^{*} $对应轨迹$ \boldsymbol{{\xi}}(\boldsymbol{{s}}^{*}) $的均值和协方差[6]:

    $$ \rm{E}(\boldsymbol{{\xi}}(\boldsymbol{{s}}^{*})) = \ \boldsymbol{{{k}}}^{*} (\boldsymbol{{{K}}}+\lambda_1 \boldsymbol{{\Sigma}})^{-1} {\boldsymbol{{\mu}}} $$ (29)
    $$ {\rm{D}}(\boldsymbol{{\xi}}(\boldsymbol{{s}}^{*})) = \frac{N}{\lambda_2}\left(\boldsymbol{{k}}(\boldsymbol{{s}}^{*}, \boldsymbol{{s}}^{*}) -\boldsymbol{{k}}^{*}(\boldsymbol{{K}} + \lambda_2 \boldsymbol{{\Sigma}})^{-1} \boldsymbol{{k}}^* {^{\rm{T}}}\right) $$ (30)

    其中 $ \lambda_1>0 $$ \lambda_2>0 $为正则化系数. ${\boldsymbol{{k}}}^{*} \in {\bf{R}}^{{\cal{O}} \times N{\cal{O}}}$$ 1 \times N $的分块矩阵, 其第$ i $列为$ k(\boldsymbol{{s}}^{*}, \boldsymbol{{s}}_{i})\boldsymbol{{I}}_{{\cal{O}}} $. ${\boldsymbol{{K}}} \in $$ {\bf{R}}^{N{\cal{O}} \times N{\cal{O}}}$$ N \times N $的分块矩阵, 其第$ i $行第$ j $列为$ k(\boldsymbol{{s}}_i, \boldsymbol{{s}}_{j})\boldsymbol{{I}}_{{\cal{O}}} $. ${\boldsymbol{{\mu}}} = [ \hat{\boldsymbol{{\mu}}}_1^{\rm{T}} \ \hat{\boldsymbol{{\mu}}}_2^{\rm{T}}\ \cdots \ \hat{\boldsymbol{{\mu}}}_N^{\rm{T}} ]^{ {\rm{T}}}$, $\boldsymbol{{\Sigma}} = \mathrm{blockdiag}\{\hat{\boldsymbol{{\Sigma}}}_1, $$ \ \hat{\boldsymbol{{\Sigma}}}_2, \ \cdots, \ \hat{\boldsymbol{{\Sigma}}}_N\}$.

    对于技能的复现问题, 可以直接应用式(29)进行轨迹规划. 对于经过期望路径点的自适应问题, 如记$ M $个期望点的集合为$ \{ \bar{\boldsymbol{{s}}}_{m}, \bar{\boldsymbol{{\mu}}}_{m},\bar{\boldsymbol{{\Sigma}}}_{m} \}_{m = 1}^{M} $, 其中$ \bar{\boldsymbol{{s}}}_{m} $, $ \bar{\boldsymbol{{\mu}}}_{m} $$ \bar{\boldsymbol{{\Sigma}}}_{m} $分别为第$ m $个期望点的输入、输出的期望和协方差, 可直接将该期望点集合和参考轨迹$ \{\boldsymbol{{s}}_{n},\hat{\boldsymbol{{\mu}}}_n,\hat{\boldsymbol{{\Sigma}}}_n\}_{n = 1}^{N} $串联成长度为$ N+M $的轨迹6, 这时应用式(29)学习新的扩展轨迹即可获得经过所有期望路径点的自适应的轨迹.

    除了学习带有多维输入的示教轨迹, 作为KMP的一个特殊情况, KMP也能够学习时间驱动的轨迹, 并同时对位置和速度进行泛化. 和多维输入情况相比, 只需要用式(22)替换式(27), 利用$\boldsymbol{{\dot{\varphi}}}(t) \approx $$ \dfrac{\boldsymbol{{\varphi}}(t+\delta_t)-\boldsymbol{{\varphi}}(t)}{\delta_t}$以及核函数$\boldsymbol{{\phi}}^{\rm{T}}(t_i) \boldsymbol{{\phi}}(t_j) = k(t_i,t_j)$ 即可. 另外, 文献[6]引入了任务参数化的处理方式, 使得KMP能够在远离示教的区域处理外插问题. 然而, KMP未考虑轨迹中的动态问题, 无法确保轨迹的收敛性. 从计算效率上看, KMP和GP的计算复杂度为${\rm{O}}(N^3)$, 当参考轨迹长度特别大时, 两者均不适用于在线的自适应问题. 对于这种情形, 可以利用近似方法提高学习效率, 如投影过程近似(Projected process approximation)等(文献[45], 第8.3节).

    值得一提的是, 如果将式(29)中的所有参考轨迹的方差$ \hat{\boldsymbol{{\Sigma}}}_n $替换成$ \boldsymbol{{I}}_{{\cal{O}}} $, 则KMP的均值退化成GP的均值. 如果将$ \hat{\boldsymbol{{\Sigma}}}_n $替换成$ c_n \boldsymbol{{I}}_{{\cal{O}}} $, 这里$ c_n>0 $为常量, 则式(29)等价于异方差高斯过程(Heteroscedastic Gaussian processes, HGP)[60-61]的均值预测. 和GP、HGP最大的区别是KMP在预测中显性的引入样本轨迹的方差, 并且可以预测多输出变量对应的协方差.

    表1对本节所讨论的方法进行了总结(部分内容来自文献[6]), 包括i) 技能复现; ii) 学习多条示教轨迹的概率分布, 包括期望和方差; iii)将示教轨迹调整到经过任意的中间路径点(位置和速度); iv)将示教轨迹泛化到任意的目标点(位置和速度); v)整体偏离示教区域的泛化, 即外插; vi) 轨迹随时间的收敛性; vii) 学习带有时间输入的示教轨迹; viii)学习带有多维动态输入的示教轨迹.

    表 1  几种主要模仿学习方法的对比
    Table 1  Comparison among the state-of-the-art approaches in imitation learning
    技能复现 多轨迹概率 中间点 目标点 外插 收敛性 时间输入 多维输入
    位置 速度 位置 速度
    GMM[35]
    HMM/HSMM[40]
    GP[45]
    DMP[2]
    SEDS[3]
    ProMP[4]
    KMP[6]
    TP-GMM[5]
    下载: 导出CSV 
    | 显示表格

    在模仿学习的基本问题之外, 本节将结合第2节中的方法对其他若干关键问题及相关文献进行综述. 需要说明的是, 本节中所讨论的问题尽管在研究内容上存在差异, 但这些方法在实质上均与轨迹规划相关.

    3.1.1   姿态的学习

    表1中的方法可以学习无约束的轨迹, 如机器人末端位置和速度、关节位置和速度、力和力矩轨迹等. 然而在学习机器人末端姿态时, 需要考虑相应的姿态约束, 如四元数(Quaternion) $\boldsymbol{{q}}\in {\bf{S}}^3$需要满足$\boldsymbol{{q}}^ {\rm{T}}\boldsymbol{{q}} = 1$, 旋转矩阵(Rotation matrix)$ \boldsymbol{{R}} $则需要为正交矩阵, 即$\boldsymbol{{R}}^ {\rm{T}}\boldsymbol{{R}} = \boldsymbol{{I}}$. 这里主要依据文献[34]并以四元数姿态为例进行讨论.

    对于学习四元数姿态的问题, 如果在${\bf{R}}^3$空间上对姿态的四个元素分别进行学习(如Pastor等[62]利用DMP, Silverio等[63]采用基于GMM[5]的方法)则生成的姿态轨迹无法满足单位范数的要求. 为了满足姿态约束, Ude等[64]和Abu-Dakka等[65]均利用四元数的几何特性对DMP进行扩展, 其主要思路是将当前姿态和目标姿态的距离转化到${\bf{R}}^3$空间, 然后用变换后的距离替换式(16)中的位置距离$ \boldsymbol{{g}}-\boldsymbol{{\xi}} $. Ravichandar等[66]采用类似的处理方法将SEDS[3]应用到姿态学习中, 其中自治系统对应的输入为角速度和转换到${\bf{R}}^3$的姿态距离, 输出为角加速度. 这类基于动态模型的方法保留了原有方法的优点和局限性, 如可以朝着任意的目标姿态进行泛化以及具有收敛性, 然而其无法处理带有角速度或中间路径点要求的问题.

    Zeestraten等[67]从黎曼几何(Riemannian manifold)的角度研究多条姿态轨迹的概率分布, 其主要依赖两个映射: 对数映射(Logarithmic map)和指数映射(Exponential map). 前者可以将姿态投影到相应的切空间(Tangent space), 后者被用于从切空间中恢复姿态. 由于在概率建模时存在不同的切空间, 文献[67]利用平行迁移(Parallel transport)实现不同切空间中投影的迁移. 另外, 文献[67]引入了任务参数化[5]的技巧, 因此可应用于目标姿态的自适应问题. 然而, 文献[67]未考虑与角速度或中间路径点相关的泛化问题.

    Huang等[30, 34]采用文献[64]中的空间变换方法, 将KMP扩展到姿态学习中. 该方法除了可以处理姿态的中间路径点和目标点问题(包括姿态和角速度), 也考虑了角加速度或角加加速度最小化的问题. 另外, 文献[34]也适用于学习以及泛化带有多维输入的姿态轨迹. 然而, 文献[34]的一个主要局限性在于其假设多条示教轨迹中的姿态在同一时刻应处在${\bf{S}}^3$中的同一个半球面, 因此不适用于多条姿态轨迹分布在不同半球面的情形.

    上述所有方法的学习对象均为完整的姿态轨迹, 而不涉及姿态轨迹的分割问题. 与之不同的是, Saveriano等[68]提出通过学习多个DMP来处理中间路径点的问题. 以一个中间点为例, 其思路为先应用第一个DMP生成一条从起始姿态到中间姿态的轨迹, 而后用第二个DMP生成从中间姿态到目标姿态的轨迹. 该方法的主要缺点是需要根据中间路径点的数量对示教轨迹进行分割并分别用来训练不同的DMP, 因此难以扩展到带有任意多个(如大于1)中间路径点的问题. 另外对轨迹采取分段泛化的方式无法确保组合后的轨迹其在整体形状上与示教轨迹的相似性.

    表2对本节中姿态学习的方法进行了总结(主要内容来自文献[34]), 其中“单位范数”是指生成的轨迹满足$\boldsymbol{{q}}^ {\rm{T}}\boldsymbol{{q}} = 1$, “中间姿态”中的“单个基元”是指单独的运动基元能够实现中间姿态的泛化问题.

    表 2  几种主要姿态学习方法的对比
    Table 2  Comparison among the state-of-the-art approaches in orientation learning
    单位范数 多轨迹概率 中间姿态 目标姿态 收敛性 时间输入 多维输入
    单个基元 姿态 角速度 姿态 角速度
    Pastor 等[62]
    Silverio 等[63]
    Ude 等[64]
    Abu-Dakka 等[65]
    Ravichandar 等[66]
    Zeestraten 等[67]
    Huang 等[34]
    Saveriano 等[68]
    下载: 导出CSV 
    | 显示表格
    3.1.2   刚度矩阵的学习

    对于刚度矩阵的学习, 可以采用和文献[67]类似的基于黎曼几何的方法, 其主要步骤包括刚度矩阵和其切空间之间的映射以及利用迁移函数实现不同切空间中投影的迁移. Abu-Dakka等[69]将该思路推广到DMP框架中, 实现了DMP对刚度矩阵的学习, 后又将其与KMP进行结合[70], 实现了刚度矩阵朝着任意期望刚度状态的泛化. 需要说明的是黎曼几何方法可以学习任意的对称正定矩阵(Symmetric positive definite, SPD), 如刚度(Stiffness)和阻尼(Damping)矩阵. Calinon[71]对基于黎曼几何的模仿学习方法进行了总结.

    学习刚度矩阵$ \boldsymbol{{K}} $的另一种方法是采用矩阵的Cholesky分解[72], 即$\boldsymbol{{K}} = \boldsymbol{{L}}^{\rm{T}} \boldsymbol{{L}}$, 将$ \boldsymbol{{L}} $中的元素串成向量$ \boldsymbol{{l}} $后, 可直接对该向量进行概率建模和学习, 最后利用新生成的$ \boldsymbol{{l}} $可恢复$ \boldsymbol{{L}} $并计算出$ \boldsymbol{{K}} $. Wu等[73]在学习人体手臂末端的刚度时采用该矩阵分解的方法.

    在模仿学习中常考虑外在的附加变量以提高机器人的学习能力, 包括任务变量(如被抓物体的位置)、环境变量(如障碍物的尺寸和位置)和轨迹类型变量等. 以打乒乓球机器人为例, 可以将来球状态当作任务变量, 据此选择恰当的击打动作.

    Forte等[74]研究了从任务变量预测DMP参数的问题, 其首先收集不同任务变量$ \boldsymbol{{s}} $下的运动轨迹, 然后分别提取每个运动轨迹对应的DMP参数, 包括目标位置$ \boldsymbol{{g}} $、运动时长$ \tau $和基函数加权系数$ \boldsymbol{{W}} $. 在收集足够的训练样本之后, 给定新的$ \boldsymbol{{s}}^{*} $应用GP预测其对应的DMP的参数$ \{\boldsymbol{{g}}^{*},\tau^{*},\boldsymbol{{W}}^{*}\} $. 最后由式(15) ~ (17)生成任务变量$ \boldsymbol{{s}}^{*} $条件下的轨迹. 类似地, Kramberger等[75]利用LWR对DMP的模型参数进行预测, 并将其应用于末端位置和姿态的学习之中. 和文献[74-75]不同, 文献[76] 和[31]在DMP的轨迹调整项$ f_i(z) $ (即式(17))中分别显性地引入任务变量和表示轨迹类型(Style)的变量$ \boldsymbol{{s}} $. 这时$ f_i(z) $变成$ f_i(z,\boldsymbol{{s}}) $. Colome 等[13]将ProMP中的参数$ \boldsymbol{{w}} $降维成$ \tilde{\boldsymbol{{w}}} $, 然后用GMM和GMR预测7新的$ \boldsymbol{{s}}^{*} $对应的$ \tilde{\boldsymbol{{w}}}^{*} $, 继而用其恢复$ \boldsymbol{{w}} $来生成新的轨迹(利用式(22)). 上述方法的主要不足在于需要充分多的训练样本, 在小样本情况下难以进行较大范围的泛化.

    Calinon等[5, 37]对GMM进行扩展, 提出了TP-GMM, 其核心是针对不同的任务参数设计恰当的局部坐标系, 然后将示教轨迹投影到各个局部坐标系中用来学习其相对的运动特征. 如抓取任务, 这里以一个局部坐标系为例, 可以将局部坐标系设置在目标物体上, 从而能够学习机器人末端和物体之间相对距离随时间变化的特征. 当抓取其他位置的新物体时, 可将上述得到的相对距离看作是机器人和新物体之间的距离, 最后将该相对距离转换到机器人的坐标系中获得绝对位置. Silverio等[63]将TP-GMM推广到四元数姿态的学习中, 然而该方法未考虑姿态的单位范数约束. TP-GMM中任务参数化的处理方法也被应用于文献[6, 67]之中.

    TP-GMM存在的一个主要的问题是: 难以事先根据机器人的任务指定最优的局部坐标系, 如根据抓取物体的位置可知局部坐标系的原点, 然而该坐标系的最优姿态是未知的. 因此, 文献[77]应用强化学习对局部坐标系进行优化(包括旋转和平移), 且证明了对低维度坐标系参数的优化可以转换为对于高维度GMM参数的优化.

    TP-GMM可以通过学习少量的样本实现较大范围的泛化, 然而其一般仅用于学习机器人任务空间的轨迹, 难以扩展到机器人关节空间中. 另外, 对不同局部坐标系中的轨迹进行高斯相乘(Gaussian product)的处理方式无法保证生成轨迹的平滑性(特别是位置轨迹对应的速度)以及泛化精度(即和期望的目标位置常常存在一定的误差). 表1对TP-GMM的特征进行了总结.

    3.3.1   运动基元的提取和串联

    轨迹分割(Segmentation)问题是指从一个完整的轨迹中提取出一系列的基本运动单元, 也称运动基元(Movement primitive, MP), 所获得的MP通过恰当的串联(Sequence)可以用于技能的复现和泛化. 以机器人打开冰箱取牛奶为例, 一个完整的动作包括机器人打开冰箱、抓取牛奶以及关门等对应不同子任务的动作, 其中每一个动作或子任务实质上对应一个MP. 从该完整动作中提取出的MP经过合理的串联和泛化即可应用到类似的序列任务的场景中.

    针对序列任务轨迹的分割, 近年来被广泛采用的一种方法是HMM. Kulic 等[78]应用HMM对示教轨迹进行分割、聚类以及MP的建模, 然后通过构建MP之间的概率转移图实现不同MP之间的转换, 最终形成由多个MP串联而成的轨迹. Manschitz等[79]假设所有的MP均由具有收敛特性的二阶动态系统表征, 其首先通过轨迹中的运动特征[80] (如速度的停顿、接触力的出现和消失等作为轨迹分割点)对轨迹进行初步分割8, 后在应用HMM提取MP时(分割后的轨迹片段对应观测值, 隐状态对应MP), 利用有向正态分布(Directional normal distribution, DND)对隐状态的输出观测概率分布进行建模并依据BIC选择最优的隐状态(即MP)的数量, 其中DND同时考虑了轨迹的位置和速度向量, 因此可以将MP的收敛假设和轨迹片段的聚类相结合.

    和文献[79]类似, Medina等[81]在考虑多MP序列问题时, 也假设了MP的收敛特性. 两者的主要区别是文献[81]中HMM隐状态的输出观测为变参数的动态系统. 另外, 文献[81]显性地引入判断MP终止的二进制变量, 而文献[79]则采用分类器对MP的转换进行预测.

    目前针对序列任务学习的方法主要侧重于对MP的提取和串联, 未充分研究序列任务中单独MP的泛化(如MP的形状和运动时长等). 文献[79]通过在目标物体上定义局部坐标系来学习机器人和物体之间的相对位置, 可以实现一定程度的泛化, 却难以应用于涉及运动速度、时长和轨迹形状等要求的场景. 除了HMM, 其他的轨迹分割方法还包括如基于MP库匹配的方法[82]和GMM[83]等.

    与从序列任务的轨迹中提取MP不同, Pastor等[62]研究在给定多个MP的情况下对MP进行串联的衔接点平滑问题, 其中MP为DMP. Stulp等[84]应用强化学习对多个串联DMP的参数进行优化, 并提出了分层定义误差函数的方法, 其中对于任意一个DMP, 其形状参数$ \boldsymbol{{W}} $的误差函数仅由该DMP生成的轨迹决定, 而其目标点$ \boldsymbol{{g}} $的误差函数则由该DMP以及后续DMP共同决定. Daniel等[85]采用分层强化学习的方法对序列任务中MP的顺序以及各个MP的参数进行优化. 与文献[84]相比, 文献[85]不需要事先指定MP的顺序, 然而两者均需要指定MP的数量以及定义合理的奖励函数. 需要强调的是, 当机器人任务需要多个MP串联时基于强化学习的方法通常需要大量的训练, 特别是在未指定MP顺序以及MP作用下任务状态转移概率未知的情况.

    3.3.2   运动基元的叠加

    在对MP进行串联之外, 还可以对多个MP进行叠加(Superposition), 如ProMP[4]和KMP[6]通过高斯概率的特性直接对MP进行叠加. Duan等[86]针对不同的任务轨迹设计相应的激活函数, 该函数实质上是通过调整不同轨迹的方差来实现多条轨迹间的切换. Silverio等[87]针对关节空间轨迹、任务空间轨迹和末端交互力分别设计力矩控制器, 其中不同的控制器可以看作是表示不同任务的MP, 最后通过高斯乘积可以将不同的控制器合并成一个最终的力矩控制器. 实际上, 对于第3.2节中讨论的TP-GMM, 如果将不同局部坐标系内的轨迹分布看作是MP, 也可以将其理解为多个MP的叠加.

    3.4.1   多维轨迹的协同问题

    模仿学习中的一个重要特点是学习多维轨迹的协同(Synergy), 又称作协调(Coordination). 以机器人和人类握手为例[9], 一个自然的握手动作主要依赖胳膊的肘关节和腕关节, 并适当地调动其他的关节. 如果对机器人手臂的关节分别进行轨迹规划是可以实现末端的握手动作, 然而整个机器人手臂在握手过程中的姿势可能是不恰当的, 特别是当握手的位置和频率发生改变时, 不同的关节需要在协同的情况下进行调整. 另一个例子是两个机械手臂的协同作业[63], 当一只手臂受到干扰时另一只手臂也应该产生相应的调整, 而非独立的对两只机械手臂进行轨迹规划.

    对于多维轨迹的协同问题, 可以采用对其概率分布进行建模的方法获得轨迹中的协方差, 如第2节中基于概率的方法9 GMM, HMM/HSMM, ProMP和KMP. 该协方差即可表征轨迹中的协同关系. 同时, 协方差也包含轨迹中不同维度的方差信息(可以理解为多条轨迹之间的变化幅度). 以两维变量的高斯分布为例, 其均值为$ 2\times1 $的向量而协方差为$ 2\times2 $的矩阵, 如果协方差矩阵的非对角元素均为0, 则表明两个变量是独立的, 否则变量间存在协同关系, 注意这里协方差矩阵对角线上的元素分别表示两个变量的方差. 另外, 在学习多个示教轨迹时, 常直接将轨迹点对应的协方差矩阵当做判断其重要性的一个依据, 即轨迹点的协方差和其重要性相反, 如文献[7]利用协方差计算轨迹之间的相似度.

    3.4.2   不确定性预测的问题

    不确定性(Uncertainty)是用来度量模仿学习生成轨迹的可信度. 以文献[21]中人机协同的任务为例, 其中操作者的手部位置是机器人运动的控制输入. 当人类在示教区域内时, 依据人的手部位置而预测得到的期望的机器人轨迹是可信的, 因此该轨迹的不确定性较低. 当人类远离示教的工作区域时, 其对应的预测轨迹是不可信的, 因此该轨迹的不确定性较高. 对于不确定性的预测, 可以应用GP和KMP.

    另外, 模仿学习中还存在一些能够同时预测轨迹协方差和不确定性的方法. 这类方法同时考虑如下两种情况: i) 当输入在示教区域内时, 预测的协方差能够对应示教轨迹之间的关联和变化程度; ii)当输入远离示教区域时, 预测的协方差10则对应预测轨迹的不确定性. Schneider等[88]在HGP[61]的框架下通过优化不同输入对应的噪声方差实现对轨迹方差的学习, 同时该方法也可以提供不确定性的预测. 然而文献[88]未考虑多维轨迹之间的协同问题. Umlauft等[89]利用多个GP预测的均值构建Wishart过程[90]从而实现对协方差和不确定性的预测, 其中涉及的所有GP的参数以及其他参数可通过数值优化求解MLE获得. Silverio等[21]证明了KMP也可以同时对协方差和不确定性进行预测.

    值得一提的是, 文献[89]中控制机器人轨迹跟踪的刚度矩阵是根据协方差来定义的. 在上述的两类情况i)和ii)中, 只有当输入在训练区域内并且当示教轨迹的协方差小时, 预测输出的协方差才会很小; 否则, 预测的协方差则很大. 因此, 文献[89]将刚度矩阵的特征值和预测协方差的特征值在大小上设置成反比关系. 文献[21]将KMP预测的协方差和线性二次型调节器(Linear quadratic regulator, LQR)相结合, 其中预测协方差的逆矩阵被当作LQR中跟踪误差的加权矩阵, 实现了变刚度和变阻尼的控制. 和文献[21]类似的将协方差与控制器相结合的工作11还有文献[5, 44, 91-92], 然而文献[5, 44, 91-92]中的协方差只针对情况i)而不包括不确定性的预测.

    混合空间下的模仿学习是指机器人同时在任务空间和关节空间进行模仿学习, 其可以应用于需要同时考虑末端任务和关节姿态的场景. 以机器人在黑板上进行书写为例, 机器人末端的轨迹对完成书写任务是至关重要的, 但同时机器人的关节轨迹可以确保机器人在书写过程中的姿势是自然的、合理的.

    与单空间(任务或关节空间)的模仿学习相比, 混合模仿学习需要考虑机器人关节轨迹和末端轨迹之间的正向运动学(Forward kinematics)约束. 文献[93]分别对示教的末端位置轨迹$ \boldsymbol{{\xi}}^{p} $和关节角度轨迹$ \boldsymbol{{\xi}}^{q} $用GMM进行建模, 后用GMR获得两种轨迹随时间变化的概率分布, 即$ {\cal{P}}(\boldsymbol{{\xi}}^{p}_t) $$ {\cal{P}}(\boldsymbol{{\xi}}^{q}_t) $. 通过基于雅克比(Jacobian)矩阵的逆运动学(Inverse kinematics), 将末端轨迹的概率分布$ {\cal{P}}(\boldsymbol{{\xi}}^{p}_t) $转换到关节空间, 得到$ {\cal{P}}(\tilde{\boldsymbol{{\xi}}}^{q}) $, 最后将$ {\cal{P}}(\tilde{\boldsymbol{{\xi}}}^{q}) $$ {\cal{P}}(\boldsymbol{{\xi}}^{q}_t) $进行高斯相乘即可获得最终用于机器人控制的关节轨迹. 注意在对任务空间轨迹进行概率建模时, 文献[93]将任务空间的轨迹转化成相对于物体的相对距离轨迹, 该处理方式和TP-GMM中的任务参数法方法在实质上是相同的. Schneider等[88]采用同样的方法处理混合空间的学习问题, 区别是将文献[93]中的GMM和GMR替换成HGP方法[61].

    除了对两个空间中的末端位置和关节角度轨迹进行学习, Calinon等[94]研究了双空间中速度轨迹(即$ \dot{\boldsymbol{{\xi}}}^{p} $$ \dot{\boldsymbol{{\xi}}}^{q} $)的模仿学习, 其在统一双空间速度轨迹时和文献[93]类似, 亦采用雅克比矩阵的逆矩阵将任务空间的速度转换到关节空间. Paraschos等[95]采用ProMP对双空间中的加速度轨迹(即$ \ddot{\boldsymbol{{\xi}}}^{p} $$ \ddot{\boldsymbol{{\xi}}}^{q} $)进行规划, 然后将关节加速度的概率$ {\cal{P}}(\ddot{\boldsymbol{{\xi}}}^{q}) $当作先验概率(Prior), 并利用雅克比矩阵得到似然概率$ {\cal{P}}(\ddot{\boldsymbol{{\xi}}}^{p}|\ddot{\boldsymbol{{\xi}}}^{q}) $, 最后将ProMP生成的$ \ddot{\boldsymbol{{\xi}}}^{p} $当作观测值并应用条件高斯获得关节加速度的后验概率$ {\cal{P}}(\ddot{\boldsymbol{{\xi}}}^{q}|\ddot{\boldsymbol{{\xi}}}^{p}) $.

    上述方法仅考虑任务空间的泛化问题, 忽视了关节轨迹的调整. 如文献[9]指出, 当泛化后机器人的末端轨迹远离示教区域时, 直接应用示教的关节轨迹可能是不合理的. 因此, 文献[9]在DMP的框架下研究了任务空间和关节空间同时泛化的问题, 其主要通过优化机器人雅克比矩阵对应的零空间(Null space)运动获得关节的最优目标位置, 并最小化泛化后关节轨迹和末端轨迹的不一致性. 该方法继承了DMP的局限性, 无法处理带有速度或中间路径点要求的问题.

    3.6.1   带有约束的运动基元

    在实际机器人系统中经常存在各种各样的约束, 如机器人关节角度、力矩和末端运动范围的限制以及避障等. 在应用模仿学习进行轨迹规划时需要将限制运动的约束因素考虑进去.

    针对避障问题, Ijspeert等[2]提出在DMP的动态模型中(即式(16))增加修正量的方法, 该修正量[96]可根据机器人和障碍物之间的距离以及机器人的速度对机器人的期望加速度进行实时调整. 增加修正量的方法也被文献[97-98]所采用. 文献[9]利用强化学习对TP-GMM中的局部坐标系进行优化从而实现避障. 然而文献[2, 9, 97-98]仅适用于机器人末端的避障问题, 未考虑机器人关节和障碍物的碰撞问题. 文献[99]利用DMP在任务空间进行规划获得期望的末端速度, 后采用文献[100]中调整雅克比矩阵零空间轨迹的方法实现关节空间的避障.

    Shyam等[101]采用和文献[102] (即Covariant hamiltonian optimization for motion planning, CHOMP)相同的避障函数, 利用梯度下降(Gradient descent)的方法对ProMP的参数进行迭代优化, 其中在计算避障函数时将机器人关节之间的连杆用一系列的球体(Body point)表示, 然后评估这些球体到障碍物的距离[102]. 因此文献[101]可以处理关节空间避障的问题. 注意文献[102]对轨迹优化时直接将轨迹当做一个未知的函数, 采用泛函梯度(Functional gradient)的方法计算避障函数对轨迹函数的导数12, 而文献[101]中的梯度为避障函数对轨迹参数的导数, 故其利用求导的链式法则加入轨迹函数对轨迹参数的导数. 该方法的局限性是在针对避障的优化后, 新的轨迹参数可能无法严格满足优化前的泛化要求.

    Huang等[103]在KMP的框架下研究带有线性约束的模仿学习问题, 该方法可以处理任意关于位置和速度的线性等式和不等式约束(如平面约束、关节角度限制以及机器人末端运动范围的约束等), 并且能够在满足约束的情况下对轨迹进行泛化, 如在期望的时刻以期望的速度经过期望的位置. 然而该方法未考虑非线性约束. Saveriano等[104]将轨迹的不等式约束当作零障碍函数(Zeroing barrier function), 通过设计恰当的控制输入使得一阶动态系统生成的轨迹满足约束条件. 文献[103-104]均未考虑避障问题. 值得一提的是文献[105]近来对KMP进行了扩展, 该方法能够处理带有线性和非线性、等式和不等式约束的模仿学习问题, 且可以同时考虑机器人关节的避障问题.

    3.6.2   带有约束的轨迹序列的优化

    如果将轨迹看作$ N $个离散点$\{\boldsymbol{{q}}_1,\,\boldsymbol{{q}}_2,\,\cdots, \, \boldsymbol{{q}}_N\}$(如等时间间隔的关节轨迹点), 可以直接对由离散点串联而成的向量$\boldsymbol{{\zeta}} = [\boldsymbol{{q}}_1^ {\rm{T}}\,\boldsymbol{{q}}_2^ {\rm{T}}\,\cdots \,\boldsymbol{{q}}_N^ {\rm{T}}]^ {\rm{T}}$进行优化. Osa等[106] 利用泛函梯度[102] 对机器人的关节轨迹进行优化, 同时考虑关节避障问题以及关节轨迹对应的末端轨迹与示教末端轨迹的匹配问题, 并且给出通过条件概率对示教的末端轨迹进行泛化的方法. 该文中末端轨迹的泛化精度依赖示教轨迹和环境变量组成的样本对的数量. 另外, 如文献[107]指出, 在对离散轨迹进行基于梯度下降的迭代时, 通常需要选择很小的步长来确保迭代过程中轨迹的平滑性(Smoothness), 因此会增加迭代的次数.

    Rana等[108]假设轨迹是由时变的随机微分方程生成, 然后可获得由高斯分布表示的微分方程的解, 即$ \boldsymbol{{\zeta}}\sim{\cal{N}}(\boldsymbol{{\mu}}_{\zeta},\boldsymbol{{\Sigma}}_{\zeta}), $ 通过将避障以及期望起始点对应的具有最小二乘形式的目标函数$ f(\boldsymbol{{\zeta}}) $与其进行合并, 得到非线性优化目标函数$(\boldsymbol{{\zeta}}-\boldsymbol{{\mu}}_{\zeta})^{\rm{T}} \boldsymbol{{\Sigma}}_{\zeta}^{-1}(\boldsymbol{{\zeta}}- $$ \boldsymbol{{\mu}}_{\zeta})+f(\boldsymbol{{\zeta}})$. 文献[108]未考虑轨迹的平滑性问题,而且难以确保轨迹在优化过程中位置和速度的微分关系.

    Koert等[109]对于机器人末端避障的问题先通过强化学习获得无碰撞(Collision-free)轨迹的概率分布, 然后将该概率分布用来训练ProMP, 继而实现避障和轨迹泛化. 该方法的主要局限性是当障碍物位置发生变化时需要重新应用强化学习获得新的无碰撞轨迹的概率分布, 不适用于需要快速规划的场合. Ye等[110]结合模仿学习和基于采样的方法, 其将模仿学习生成轨迹当作参考轨迹, 在障碍物附近利用采样生成的无碰撞的位置点构建路径图(Graph), 最后用Dijkstra算法寻找最优的可行路径. 该方法可以有效地实现关节空间的避障, 其局限性在于未能考虑轨迹在避障时的平滑性且难以扩展到带有速度要求的问题.

    文献[111-112]采用逆最优控制(Inverse optimal control, IOC)的思路, 先优化示教轨迹对应的成本函数(Cost function)的参数, 后根据该函数采用受限优化技术对整个轨迹序列$ \boldsymbol{{\zeta}} $进行优化, 其中文献[111]利用逆KKT (Karush-Kuhn-Tucker)方法而文献[112]则利用协方差矩阵自适应进化策略[113] (即Covariance matrix adaptation evolution strategy, CMA-ES)对成本函数的参数进行优化. 这类方法可以考虑复杂的轨迹约束, 然而难以对轨迹进行实时的调整且不易于确保轨迹的平滑性, 特别是轨迹对应的高阶微分轨迹.

    当模仿学习用于人机交互(Human-robot interaction)时需要考虑人类和机器人之间的时间同步(Synchronization)问题. 以人类和机器人协同搬运物品为例, 机器人需要根据人的状态(如位置)的变化作出合理的反应, 比如当人的移动速度变快(或慢)时机器人也应当适当地加快(或减慢)速度, 从而实现友好的交互环境.

    为了避免时间同步问题, Ewerton等[114]假设在人机交互中人类的运动时长和训练样本中的时长是一样的. 然而正如文献[20]指出, 该假设在实际中是难以成立的. 因此Maeda等[20]提出在ProMP中加入时间同步的方法, 其将人的运动轨迹和机器人的轨迹合并成更高维度的轨迹, 然后用式 (23) ~(24) 获得合成轨迹对应的参数$ \boldsymbol{{w}} $的高斯分布. 该分布可以看作是人类运动轨迹参数$ \boldsymbol{{w}}_h $和机器人运动轨迹参数$ \boldsymbol{{w}}_r $的联合概率分布. 在人机交互时, 将人的轨迹实时的当作观测值并利用式(25) ~ (26)可对$ \boldsymbol{{w}} $进行更新13, 这时$ \boldsymbol{{w}} $中的$ \boldsymbol{{w}}_r $即可用来生成机器人的轨迹. 最后, 文献[20]给出依据人的运动轨迹实时调整机器人运动时长的方法. 和文献[20]类似, Amor等[115]利用DMP分别对人类和机器人的轨迹进行学习, 并且给出人和机器人在时间上同步的方法. 其他需要时间同步的工作还包括应用HMM的方法[116].

    如文献[34]中的分析, 上述方法在对人和机器人的轨迹进行建模时均采用时间作为轨迹的输入, 未能直接考虑人和机器人之间的协调关系, 故在预测机器人轨迹的同时需要附加的人机同步(即在时间上)的处理. 由于KMP可以学习带有多维输入的运动轨迹, Huang等[6]应用KMP 直接根据人类的运动状态(即输入)对机器人的轨迹(即输出)进行预测, 后又将其推广到人机交互中机器人的姿态预测[34], 由于预测过程中不涉及时间, 避免了文献[20, 114-116]中的时间同步问题. 类似地, Silverio等[117]研究利用GP实现人机交互的问题, 然而该方法未考虑多维轨迹的协方差以及轨迹泛化问题. 另外, 基于动态系统的方法由于其直接对轨迹及其高阶微分进行学习[3, 118], 也能够避免人机交互中的时间同步问题.

    本节对模仿学习的一些未来发展趋势进行讨论和展望, 包括从轨迹规划的角度对模仿学习进行改进、结合任务分解和交互式反馈的模仿学习以及学习人类与环境交互过程中的因果关系.

    在模仿学习之外, 轨迹规划(Motion planning)领域存在着大量的关于轨迹或路径规划的算法, 如第3.6.1节中提及的CHOMP, 还有其他基于优化的方法包括随机轨迹优化[119] (Stochastic trajectory optimization for motion planning, STOMP), 基于序列凸优化的TrajOpt算法[120]和随机多模态轨迹优化[121] (Stochastic multimodal trajectory optimization, SMTO)等, 以及基于采样的方法包括快速扩展随机树[122] (Rapidly-exploring random trees, RRT)和概率路线图[123-124] (Probabilistic roadmap, PRM)等. 模仿学习和这些方法的最大区别在于前者主要通过学习人类的示教轨迹达到模仿的效果, 而后者主要侧重快速的寻找满足任务或环境约束的可行轨迹. 目前相关的研究如第3.6.2节提及的文献[106, 110]可以看作是模仿学习和运动规划的结合, 然而两者在轨迹泛化以及复杂约束的情况下仍存在着很大的局限性. 因此如何将不同的轨迹规划算法和模仿学习进行有机的结合是未来研究的一个重要方向.

    当面对复杂任务时, 人类可以直接地将其分解成一系列可行的子任务, 并且能够合理地分配各个子任务的难度以及子任务之间的协调. 对于机器人而言, 如何从MP库中选择恰当的MP以及对多个MP进行合理的串联是十分重要的. 如果采用强化学习的方法解决该问题, 则机器人将过于依赖与环境的交互且随着MP数量的增加其需要的训练次数也会显著地增加. 如果采用从示教轨迹中学习MP序列的方法(如文献[79]), 则只适用于和示教场景类似的情况, 无法泛化到更一般的未知问题. 因此研究人类对于不同任务或动作的分解和组合策略是模仿学习发展的另一个重要方向.

    另外, 当MP库中的所有MP均无法或难以实现某个子任务时, 如MP库中的运动均为简单的点到点的运动而对于握手任务则需要周期运动, 如何引入人类的交互式反馈也是未来的一个重要研究方向. 目前已存在一些关于交互式学习的工作. 如文献[6]在KMP的框架下提出基于人机交互力的轨迹自适应的方法. 文献[125]研究通过人类的反馈对轨迹进行调整. 文献[126]利用GP预测的不确定性来判断是否需要人类提供新的示教样本. 然而文献[6, 125-126]均限于单独MP且应用对象仅为简单的任务(如避障[6]、写字母[125]和触碰动作[126]), 未涉及复杂任务的分解以及多MP的问题.

    对于人类技能的模仿学习除了学习轨迹本身还应考虑示教过程中蕴含的因果关系. 该关系可以认为是在抽象的层次对人类技能进行理解. 针对该问题, 可以采用因果推理(Causal inference)[127]提取观测变量间的因果关系和因果强度. 相关的研究如文献[128], 其首先分析人类在对物体进行操作时意图之间的因果关系, 后将提取出的因果关系应用于新任务的泛化. 另外, 如文献[129]中的讨论, 在模仿学习中常常存在一些与人类行为决策无关的状态, 如果将这些状态应用于模仿学习将不利于技能的泛化, 而通过引入干涉(Intervention)的方法提取状态和行为之间正确的因果关系能够提高模仿学习的性能. 因此, 结合因果推理将是模仿学习研究的又一个重要趋势.

    本文介绍了模仿学习中的基本问题和主要方法, 并对其中各种方法的优点和局限性进行了讨论和比较. 在这些方法的基础上, 本文讨论了模仿学习中存在的若干关键问题. 另外, 本文探讨了未来可能的发展方向. 需要强调的是, 在实际机器人系统中模仿学习常和其他的算法紧密相连, 如文中提及的应用强化学习对运动基元进行优化、泛函梯度或随机采样和模仿学习相结合实现避障以及基于轨迹概率分布设计控制器等, 因此文中并未做严格区分.


  • 本文责任编委 谢永芳
  • 图  1  混合选别浓密过程

    Fig.  1  The mixed separation thickening process

    图  2  混合选别浓密过程双速率智能切换控制结构图

    Fig.  2  The dual-rate intelligent switching control structure for MSTP

    图  3  流量设定智能切换控制结构图

    Fig.  3  The structure of intelligent switching control algorithm for flow-rate

    图  4  未建模动态补偿的控制结构图

    Fig.  4  Structure of unmodeled dynamic compensation control

    图  5  底流流量设定补偿算法结构图

    Fig.  5  The structure of underflow flow-rate setting compensation algorithm

    图  6  $\bar{E}_1(T)$和$\bar{E}_2(T)$的隶属度函数

    Fig.  6  The membership function of $\bar{E}_1(T)$ and $\bar{E}_2(T)$

    图  7  $\bar{U}_i$的隶属度函数

    Fig.  7  The membership function of $\bar{U}_i$

    图  8  半实物仿真混合选别浓密系统硬件平台

    Fig.  8  Hardware platform for hardware-in-loop simulation of MSTP

    图  9  混合选别浓密过程模型对象估计效果

    Fig.  9  The estimation performance of MSTP model

    图  10  中矿矿浆干扰$r_1$和污水干扰$r_2$曲线

    Fig.  10  Flotation middling and sewage interference $r_1$ and $r_2$

    图  11  采用本文提出的控制方法和采用文献[8]控制方法时的对比运行曲线

    Fig.  11  The contrast curves with the control method proposed in this paper and in [8]

    表  1  底流矿浆流量设定补偿量$\bar{U}_i$模糊规则表

    Table  1  Pulp flow-rate set compensation $\bar{U}_i$ fuzzy rule table

    $\bar{U}_i$ $E_{1j}$
    $NB$ $NM$ $NS$ $ZE$ $PS$ $PM$ $PB$
    $E_{2j}$ $NB$ $ZE$ $PS$ $PS$ $PM$ $PM$ $PB$ $PB$
    $NM$ $NS$ $ZE$ $PS$ $PS$ $PM$ $PM$ $PB$
    $NS$ $NS$ $NS$ $ZE$ $ZE$ $PS$ $PM$ $PM$
    $ZE$ $NM$ $NS$ $NS$ $ZE$ $PS$ $PS$ $PM$
    $PS$ $NM$ $NM$ $NS$ $ZE$ $ZE$ $PS$ $PS$
    $PM$ $NB$ $NM$ $NM$ $NS$ $NS$ $ZE$ $PS$
    $PB$ $NB$ $NB$ $NM$ $NM$ $NS$ $NS$ $ZE$
    下载: 导出CSV

    表  2  采用本文控制方法与文献[8]控制方法控制时底流矿浆浓度$y_2$的控制器性能评价表(%)

    Table  2  Control performance assessment of USD $y_2$ with the proposed method and the method in [8] (%)

    $y_2$ 超过区间最大值 超过区间绝对累积和
    本文 0.0 0.0
    文献[8] 0.880 2.703
    下载: 导出CSV

    表  3  采用本文控制方法与文献[8]控制方法控制时底流矿浆流量$y_1$的控制器性能评价表(m$^3$/h)

    Table  3  Control performance assessment of USF $y_1$ (with the proposed method and the method in [8] (m$^3$/h)

    $y_1$ 超过区间最大值 超过区间绝对累积和
    本文 0.0 0.0
    文献[8] 18.771 421.589
    下载: 导出CSV

    表  4  采用本文控制方法与文献[8]控制方法控制时底流矿浆流量变化率$\Delta y_1$的控制器性能评价表(m$^3$/h)

    Table  4  Control performance assessment of $\Delta y_1$ with the proposed method and the method in [8] (m$^3$/h)

    $y_1$ 超过区间最大值 超过区间绝对累积和
    本文 0.0 0.0
    文献[8] 4.578 114.120
    下载: 导出CSV
  • [1] Betancourt F, Bürger R, Diehl S, Farås S. Modeling and controlling clarifier-thickeners fed by suspensions with time-dependent properties. Minerals Engineering, 2014, 62:91-101 doi: 10.1016/j.mineng.2013.12.011
    [2] Diehl S. A regulator for continuous sedimentation in ideal clarifier-thickener units. Journal of Engineering Mathematics, 2008, 60 (3-4):265-291 doi: 10.1007/s10665-007-9149-3
    [3] Segovia J P, Concha F, Sbarbaro D. On the control of sludge level and underflow concentration in industrial thickeners. In: Proceedings of the 18th IFAC World Congress. Milano, Italy: IFAC, 2011. 8571-8576
    [4] Sidrak Y L. Control of the thickener operation in alumina production. Control Engineering Practice, 1997, 5 (10):1417-1426 doi: 10.1016/S0967-0661(97)00138-X
    [5] Shean B J, Cilliers J J. A Review of froth flotation control. International Journal of Mineral Processing, 2011, 100 (3-4):57-71 doi: 10.1016/j.minpro.2011.05.002
    [6] Park H, Wang L G. Experimental studies and modeling of surface bubble behaviour in froth flotation. Chemical Engineering Research and Design, 2015, 101:98-106 doi: 10.1016/j.cherd.2015.04.021
    [7] 李海波, 柴天佑, 赵大勇.混合选别浓密机底流矿浆浓度和流量区间智能切换控方法.自动化学报, 2013, 40 (9):1967-1975 http://www.aas.net.cn/CN/abstract/abstract18467.shtml

    Li Hai-Bo, Chai Tian-You, Zhao Da-Yong. Intelligent switching control of underflow slurry concentration and flowrate intervals in mixed separation thickener. Acta Automatica Sinica, 2014, 40 (9):1967-1975 http://www.aas.net.cn/CN/abstract/abstract18467.shtml
    [8] Chai T Y, Jia Y, Li H B, Wang H. An intelligent switching control for a mixed separation thickener process. Control Engineering Practice, 2016, 57:61-71 doi: 10.1016/j.conengprac.2016.07.007
    [9] 金以慧.过程控制.北京:清华大学出版社, 1993.

    Jin Yi-Hui. The Process Control. Beijing:Tsinghua University Press, 1993.
    [10] Chai T Y, Zhao L, Qiu J B, Liu F Z, Fan J L. Integrated network-based model predictive control for setpoints compensation in industrial processes. IEEE Transactions on Industrial Informatics, 2013, 9 (1):417-426 doi: 10.1109/TII.2012.2217750
    [11] 陈敏恒, 丛德滋, 方图南, 齐鸣斋.化工原理.北京:化学工业出版社, 2014.

    Chen Min-Heng, Cong De-Zi, Fang Tu-Nan, Qi Ming-Zhai. Chemical Engineering. Beijing:Chemical Industry Press, 2014.
    [12] Kim B H, Klima M S. Development and application of a dynamic model for hindered-settling column separations. Minerals Engineering, 2004, 17 (3):403-410 doi: 10.1016/j.mineng.2003.11.013
    [13] Zheng Y Y. Mathematical Mode of Anaerobic Processes Applied to the Anaerobic Sequencing Batch Reactor[Ph. D. dissertation], University of Toronto, Canada, 2003
    [14] Chai T Y, Zhang Y J, Wang H, Su C Y, Sun J. Data-based virtual unmodeled dynamics driven multivariable nonlinear adaptive switching control. IEEE Transactions on Neural Networks, 2011, 22 (12):2154-2172 doi: 10.1109/TNN.2011.2167685
    [15] Fileti A M F, Antunes A J B, Silva F V, Silveira J, Pereira J A F R. Experimental investigations on fuzzy logic for process control. Control Engineering Practice, 2007, 15 (9):1149-1160 doi: 10.1016/j.conengprac.2007.01.009
    [16] Zheng J M, Zhao S D, Wei S G. Application of self-tuning fuzzy PID controller for a SRM direct drive volume control hydraulic press. Control Engineering Practice, 2009, 17 (12):1398-1404 doi: 10.1016/j.conengprac.2009.07.001
    [17] Precup R E, Hellendoorn H. A survey on industrial applications of fuzzy control. Computers in Industry, 2011, 62 (3):213-226 doi: 10.1016/j.compind.2010.10.001
    [18] Hägglund T. A control-loop performance monitor. Control Engineering Practice, 1995, 3 (11):1543-1551 doi: 10.1016/0967-0661(95)00164-P
    [19] Lin S C, Tseng S S, Teng C W. Dynamic EMCUD for knowledge acquisition. Expert Systems with Applications, 2008, 34 (2):833-844 doi: 10.1016/j.eswa.2006.10.041
    [20] Khargonekar P P, Poolla K, Tannenbaum A. Robust control of linear time-invariant plants using periodic compensation. IEEE Transactions on Automatic Control, 1985, 30 (11):1088-1096 doi: 10.1109/TAC.1985.1103841
    [21] Armstrong J S, Collopy F. Error measures for generalizing about forecasting methods:empirical comparisons. International Journal of Forecasting, 1992, 8 (1):69-80 doi: 10.1016/0169-2070(92)90008-W
    [22] 唐耀庚, 胡蓉.基于神经网络的矿浆浓度控制系统.控制工程, 2002, 9(5):45-46, 91 http://kns.cnki.net/KCMS/detail/detail.aspx?filename=jzdf200205014&dbname=CJFD&dbcode=CJFQ

    Tang Yao-Geng, Hu Rong. Neural network PID control system of the pulp consistency. Control Engineering of China, 2002, 9 (5):45-46, 91 http://kns.cnki.net/KCMS/detail/detail.aspx?filename=jzdf200205014&dbname=CJFD&dbcode=CJFQ
    [23] Ogata K. Discrete-Time Control Systems. Englewood Cliffs, NJ: Prentice Hall, 1994.
    [24] Lequin O, Gevers M, Mossberg M, Bosmans M, Bosmans E, Triest L. Iterative feedback tuning of PID parameters:comparison with classical tuning rules. Control Engineering Practice, 2003, 11 (9):1023-1033 doi: 10.1016/S0967-0661(02)00303-9
  • 期刊类型引用(7)

    1. 张卿,饶明生,张林龙,李钢强,陆博,邹国斌,罗峰. 复杂高品位硫氧混合铜浮选智能控制技术. 矿冶. 2021(04): 129-134 . 百度学术
    2. 袁兆麟,何润姿,姚超,李佳,班晓娟. 基于强化学习的浓密机底流浓度在线控制算法. 自动化学报. 2021(07): 1558-1571 . 本站查看
    3. 吴倩,范家璐,姜艺,柴天佑. 无线网络环境下数据驱动混合选别浓密过程双率控制方法. 自动化学报. 2019(06): 1122-1135 . 本站查看
    4. 苏超,王旭. 浮选流程智能控制系统开发与应用. 铜业工程. 2019(04): 4-9 . 百度学术
    5. 刘梦晓,段伟杰. 城门山铜矿浓密机智能控制系统设计开发. 铜业工程. 2019(04): 23-26 . 百度学术
    6. 王旭,赵博实. 铜浮选流程智能控制系统设计与应用. 有色冶金设计与研究. 2019(05): 5-9 . 百度学术
    7. 王维洲,吴志伟,柴天佑. 电熔镁砂熔炼过程带输出补偿的PID控制. 自动化学报. 2018(07): 1282-1292 . 本站查看

    其他类型引用(16)

  • 加载中
  • 图(11) / 表(4)
    计量
    • 文章访问数:  2477
    • HTML全文浏览量:  371
    • PDF下载量:  706
    • 被引次数: 23
    出版历程
    • 收稿日期:  2016-08-16
    • 录用日期:  2017-02-15
    • 刊出日期:  2018-02-20

    目录

    /

    返回文章
    返回