-
摘要: 针对挠性航天器系统中同时存在单框架控制力矩陀螺群(Single gimbaled control moment gyroscopes, SGCMGs) 摩擦非线性、电磁干扰力矩、惯量摄动以及外部干扰等问题, 提出了一种有限时间自适应鲁棒控制(Finite-time adaptive robust control, FTARC) 方法. 针对系统中存在未知参数的情况, 分别设计自适应更新律, 使得控制器的设计不依赖参数信息, 同时减小外部干扰对系统的不利影响. 应用Lyapunov稳定性理论证明了闭环系统姿态角误差和姿态角速度误差可在有限时间内收敛到原点附近的邻域内. 仿真结果表明, 所提控制律可实现挠性航天器姿态快速机动, 并获得甚高指向精度.
-
关键词:
- 单框架控制力矩陀螺群 /
- 挠性航天器 /
- 有限时间自适应鲁棒控制 /
- 不确定性
Abstract: A flnite-time adaptive robust attitude controller is proposed for the flexible spacecraft, in which the friction nonlinearity and electromagnetic disturbance in the single gimbaled control moment gyroscopes (SGCMGs), inertia perturbation and external disturbance exist. Adaptive laws are designed to cope with the unknown parameters and the controller can be designed, regardless of the information of the parameters. The adverse efiect of external disturbance on the system is reduced. By means of Lyapunov stability theory, it has been proved that the error of the attitude angle and attitude angular velocity can converge to a small neighborhood containing origin. The simulation results show that, with the presented controller, the fast attitude maneuver with high precision can be achieved.-
Key words:
- Single gimbaled control moment gyroscopes (SGCMGs) /
- flexible spacecraft /
- flnite-time adaptive robust control (FTARC) /
- uncertainties
-
近年来, 随着机器人技术的高速发展, 机器人在工业生产中替代了大量的人力资源. 然而, 对于一些复杂的任务, 机器人往往无法和人类一样灵活的操作与控制. 人机协作(Human-robot collaboration, HRC)研究如何利用人的灵活性与机器人的高效性, 使机器人与人协同高效、精准地完成复杂任务, 因此受到了国内外学者的广泛关注[1].
人机协作按机器人在协作过程中的角色可分为人主−机器人从、机器人主−人从、人机平等3类. 第1类人机协作中机器人接收人发出的命令并执行, 主要完成一些负重类的任务. 如文献[2]中人与机器人共同搬运一个物体, 其中人决定了运动轨迹, 而机器人作为跟随者负责轨迹跟随并承担重物. 在这一类人机协作任务中的一大难点是如何将人的想法正确的传递给机器人. 文献[3-4]研究了在人与机器人共同操作一个对象时, 如何消除传递给机器人旋转与平移命令之间歧义的方法. 第2类人机协作的研究相对较少, 文献[5]将人建模为一个被动的旋转关节模型, 并且用实验证明了在机器人主导的情况下如何使用该模型将物体维持水平. 以上两类人机协作方法虽然能一定程度上结合人与机器人自身的优点, 但过于注重单方面的性能, 如人类的灵活性或机器人的高效性, 从而导致协作的整体效率不高.
人机平等形式的人机协作考虑人与机器人以平等的关系完成复杂任务, 这要求协作双方对对方的操作规律有一定的了解. 由于人的智能性, 对于人而言这种能力可以很方便地获得, 但机器人无法自然获取这种能力, 因此如何为机器人建立有关人的运动规律模型是非常重要的. 其中较为常用的方法假设是人的运动规律满足最小抖动模型[6], 并根据该模型预测人的运动轨迹. 文献[7]在人与机器人协作抬一根长杆的场景中, 使用加权最小二乘实时估计最小抖动模型中的参数, 并利用变种阻抗控制器使机器人跟踪最小抖动模型的预测值, 从而达到使机器人主动跟随人运动的效果. 文献[8]利用扩展卡尔曼滤波估计最小抖动模型中的参数, 并在一维的点到点运动中证明该方法的有效性. 文献[7-8]均证明了在人机协作中使用以上基于最小抖动模型的方法能在一定程度提升人的舒适度. 然而, 基于最小抖动模型生成人的运动轨迹需要事先了解人运动轨迹起止时间与起止位置, 这在一些任务中过于苛刻. 文献[9]表明最小抖动模型在一些特别的协作任务中会失效, 如一些协作任务中人的轨迹存在大量的干扰与抖动, 或者人在协作过程中多次决定改变其运动轨迹. 文献[10-11]假设人在运动过程中其加速度变化较小, 利用卡尔曼滤波器预测人下一时刻的位置, 并根据预测精度加权融合机器人主被动控制器, 从而提高机器人协作时的主动性以及协作的鲁棒性. 该方法在人机协作抬桌子的场景中得到了验证. 文献[12]使用基于与文献[10-11]相同的运动模型的扩展卡尔曼滤波预测人下一时刻的位置, 但是其使用基于强化学习的方法设计机器人的速度控制律, 并且利用扩展卡尔曼滤波的预测值减小强化学习算法搜索的动作空间范围, 提升了机器人的协调能力, 同时加强了机器人在协作任务中的主动性. 也有一些工作[13-14]将人的控制量作扰动处理.
以上方法均属于较为经典的人运动轨迹建模方法, 有较强的可解释性. 然而一些复杂的人机协作任务中, 人的运动轨迹往往很不规律, 如人手在3维空间中到达某些不同目标位置时形成的轨迹[15]、人在完成装配任务时的运动轨迹[16]等. 此时用概率分布去建模这些轨迹显然更加合适, 因此一些基于学习和统计的轨迹建模方法往往更加有效. 文献[15]利用高斯混合模型(Gaussian mixture model, GMM)与高斯混合回归(Gaussian mixture regression, GMR)建立人手到达不同目标位置所形成的轨迹概率分布模型, 该模型被用来提升人机协作过程中的安全性以及机器人的自主性. 文献[16]通过人拖动机器人完成装配任务的方式将人的运动轨迹转化为机器人末端的轨迹, 并利用GMM/GMR建立机器人末端的轨迹概率分布模型以达到示教学习的目的. 文献[17]利用高斯过程回归(Gaussian process regression, GPR)拟合包含人在内的球杆系统的前向传播模型, 并利用基于模型的RL算法设计次优控制律, 极大地提升了对数据的利用率. 文献[18]使用卷积神经网络学习人在完成零件装配任务时的动作与意图. 文献[19]使用触觉数据作为输入, 利用基于隐马尔科夫模型的高层控制器估计人的意图并生成相应的机器人参考轨迹, 并在机器人与人握手的场景中验证了该方法的有效性. 另外, 部分可观马尔科夫模型[20]以及贝叶斯神经网络[21]也被用来预测人下一时刻的行为.
然而, 上述方法几乎都是对人在一段时间内的运动轨迹进行建模, 很少有文献直接对人的控制策略建模. 与人运动轨迹建模不同, 针对人体控制策略建模主要为了预测人在遇到某个状态时可能执行的动作, 从而为机器人对人的控制行为建立更加直观的认知模型. 本文提出了一种基于GPR与深度强化学习(Deep reinforcement learning, DRL)的两层人机协作控制方法, 不仅设计了一种次优的非线性控制律, 还对人体控制策略建模, 从而降低了人为不确定因素的不利影响, 增强了协作系统的稳定性, 并解决了传统主从式人机协作中效率较低的问题. 本文以人机协作控制球杆系统为例验证该方法的可行性. 首先, 针对顶层期望控制律的设计问题, 利用深度确定性策略梯度算法(Deep deterministic policy gradients, DDPG)[22]得到了一种次优的非线性控制器. 其次, 本文使用GPR建立球杆系统的人体控制策略模型, 解决了协作过程中由人为不确定因素所导致的系统不稳定问题. 然后, 根据期望控制律和人体控制策略模型设计机器人的控制律以提升人机协作的效率. 最后, 通过实验验证了该方法的可行性与有效性.
1. 问题描述
本文以球杆系统为例设计分层人机协作控制方法, 考虑如图1所示的人机协作球杆系统.
图1中, 人与机械臂各执长杆一端以控制长杆倾角, 使小球快速, 平稳地到达并停留在目标位置(虚线小球位置). 在人机协作环境下, 由于长杆的倾角变化幅度较大, 使得在平衡点附近线性化模型后设计相应控制器的方法效果不佳. 因此, 如何针对该球杆系统设计一种有效的非线性控制器是本文的一大难点. 然而, 常规的非线性控制方法对模型精度依赖较高, 而一些复杂协作任务往往很难精确建模, 甚至无法建模. 因此, 本文基于DRL算法设计球杆系统的控制器. DRL算法不依赖环境模型, 其通过不断与环境交互, 以寻找一种使累积奖励最大化的控制策略. 由于DRL利用神经网络设计控制器, 并通过迭代的方式更新参数, 易陷入局部最优. 因此, 基于DRL的非线性控制器是一种次优控制器.
使用DRL设计控制器需要先将球杆系统建立成马尔科夫决策模型. 马尔科夫决策模型由5元组
$ (S, A, P, r, {\gamma}) $ 表示. 其中$ S $ 表示状态空间, 是对环境状况的一种数学描述;$ A $ 表示动作空间, 是智能体影响环境的手段;$ P $ 表示状态转移概率, 表示在当前状态受到某个动作后下一个状态的概率分布, 也可以理解为环境模型;$ r $ 表示奖励函数, 是环境对当前状态施加某个动作后的一个奖惩反馈;$ {\gamma} $ 表示折扣因子, 是调节智能体关注长远利益程度的参数.控制器的设计问题可以转化为解马尔科夫决策模型问题, 即设计一个最优策略
$ {\pi}^*:{{\boldsymbol{s}}}\mapsto a $ 使智能体获得的累积奖励最大化. 对于任意的$ {{\boldsymbol{s}}}\in S, {\pi}^*({{\boldsymbol{s}}}) $ 满足:$$ {\pi}^*({{\boldsymbol{s}}}) = \mathop{\arg\max}\limits_{\pi}{{{\rm{E}}}}_{\pi}\left[\sum\limits_{t = 0}^{\infty}{\gamma}^tr\left({{\boldsymbol{s}}}_t,{\pi}({{\boldsymbol{s}}}_t)\right)|{{\boldsymbol{s}}}_0 = {{\boldsymbol{s}}}\right] $$ (1) 式中,
$ {\pi}^* $ 可以通过强化学习算法设计. 由于球杆系统状态空间连续的特性, 使得处理离散状态空间马尔科夫决策模型的传统强化学习算法无法为其设计最优策略. 因此, 对于这类状态空间连续的马尔科夫决策模型常常使用基于估计的强化学习算法(如DRL). 为了取得更好的控制效果, 本文考虑连续的动作空间, 这使处理离散动作空间的基于值函数的DRL方法[23-24]失效. 本文使用的DDPG算法利用Actor-Critic结构, 能在连续的动作空间中寻找一种次优控制策略.另外, 在主从式协作中, 从方往往不做决策, 只承担跟随或执行主导方发出的命令的任务. 因此, 该模式的协作效率往往较低, 即系统进入稳态所需的控制时间较长. 本文考虑人机平等的协作方式, 即人与机器人均为完成任务作出控制决策, 而人的高随机性行为将为机器人控制器设计带来极大的不确定性. 因此, 如何为机器人建立人体控制策略预测模型, 增强机器人在协作过程中的主动性, 从而提高协作效率与协作鲁棒性是本文的第2个难点. 考虑到人体控制策略的随机性(即使同一个人面对相同状态, 其采取的控制行为也可能不同, 本文假设该行为服从高斯分布), 本文利用GPR拟合人体控制策略. 与传统回归算法不同的是, 对于一个特定的输入, GPR模型的输出并不是一个固定的值, 而是一个高斯分布, 即
${\hat\pi}_H\left({\boldsymbol{s}}\right)\;\sim\; {\rm{N}}(a, {\delta}) .$ 并且, GPR是一种非参数估计方法, 因此不会有过拟合的风险.由于协作过程中只有机械臂的行为是可控的, 本文的目标是为机械臂设计合适的末端速度控制律以使小球在人机协同控制下快速, 平稳地到达并停留在指定位置. 本文以基于DRL的次优非线性控制策略为期望控制策略, 以拟合的人体控制策略预测模型作为机器人对人控制行为的认知模型, 设计机器人的控制律, 从而使人机协作的整体控制效果趋向于期望控制策略的控制效果.
2. 人机协作控制
本节将设计基于GPR与DRL的分层人机协作控制方法, 具体分为顶层与底层的设计. 其结构如图2所示:
顶层利用DDPG算法为非线性球杆系统设计一种次优的高效控制律, 并作为人机协作过程中的期望控制策略. 底层主要分为两部分: 1)基于GPR拟合人体控制策略, 为机械臂建立人控制行为的认知模型; 2)根据期望控制策略以及认知模型设计机械臂的末端速度控制律, 从而使人机协作下的控制行为趋向于期望控制策略的控制行为.
2.1 顶层设计
本节主要介绍如何利用DDPG设计球杆系统的期望控制策略. 在此之前, 必须先将球杆系统建立成马尔科夫决策模型, 主要包括状态空间、动作空间和奖励函数的设计.
1)状态空间: 球杆系统的控制目的是使小球快速, 稳定地到达指定位置, 因此位置误差信号
$ e $ 被用来构建状态. 另外, 据经验可知, 人在控制球杆的时候还会关注小球的速度$ \dot x $ 以及长杆的倾角$ {\theta}. $ 同时, 为了不使小球离开长杆, 小球的位置$ x $ 也被用来构建状态. 因此, 马尔科夫决策模型状态被定义为${{\boldsymbol{s}}} = [ e\quad x\quad $ $ {\dot x}\quad \theta ]^{\rm{T}} $ .2)动作空间: 本文以长杆的旋转角速度作为控制量, 因此, 动作被定义为
$ a = \dot {\theta} .$ 3)奖励函数: 为了使小球快速, 稳定地到达指定位置, 本文设计的损失函数为
$c = [ e\quad {\dot x}\quad {\dot \theta } ] {W_c}$ ${[ e\quad {\dot x}\quad {\dot \theta } ]^{\rm{T}}},$ 其中${\boldsymbol{W}}_c$ 为权重矩阵, 令奖励函数$ r = $ $ -c. $ 另外, 小球离开长杆被认为是控制失败, 因此, 一但检测到小球离开长杆, 环境将给予一个幅值较大的损失函数并重新开始实验.DDPG算法可以用来为状态以及动作空间连续的马尔科夫决策模型寻找次优策略, 主要包含Actor、Actor目标网络、Critic、Critic目标网络4个神经网络. 记这4个神经网络的参数分别为
${{\boldsymbol{\theta}}^{\mu}}、 {{\boldsymbol{\theta}}^{\mu'}}、 {{\boldsymbol{\theta}}^{Q}}、$ $ {{\boldsymbol{\theta}}^{Q'}}. $ Critic神经网络用来估计动作值函数$ Q({{\boldsymbol{s}}}, a) $ , 即对于马尔科夫决策模型在状态$ {{\boldsymbol{s}}} $ 执行动作$ a $ 的价值, 并利用Bellman方程来构建其损失函数:$$ \left\{\begin{aligned} & L({{\boldsymbol{\theta}}^Q}) = {{{\rm{E}}}}_{{{\boldsymbol{s}}}\sim{\beta}}\left[\left(Q\left({{\boldsymbol{s}}}_t, a_t|{{\boldsymbol{\theta}}^Q}\right)-y_t\right)^2\right]\\ & y_t = r\left({{\boldsymbol{s}}}_t, a_t\right)+{\gamma}Q'\left({{\boldsymbol{s}}}_{t+1}, \mu'({{\boldsymbol{s}}}_{t+1}|{{\boldsymbol{\theta}}^{\mu'}})|{{\boldsymbol{\theta}}^{Q'}}\right) \end{aligned} \right.$$ (2) 式中,
$ {\beta} $ 是一种随机策略, 用来探索未知环境. Actor神经网络以$ {{\boldsymbol{s}}} $ 作为输入, 以$ a $ 作为输出, 负责学习控制策略, 其参数更新规则较为复杂. 根据文献[25]给出的确定性策略梯度理论, Actor网络在策略$ {\mu} $ 下, 目标函数对$ {{\boldsymbol{\theta}}^{\mu}} $ 的梯度为:$$ \begin{split} &\bigtriangledown_{{\boldsymbol{\theta}}^{\mu}}J\left({\mu}\right) = {{{\rm{E}}}}_{{{\boldsymbol{s}}}\sim{\beta}} \Big[\bigtriangledown_{{\boldsymbol{\theta}}^{\mu}}{\mu}({{\boldsymbol{s}}}|{{\boldsymbol{\theta}}^{\mu}})|_{{{\boldsymbol{s}}} = {{\boldsymbol{s}}}_t}\\ &\qquad\qquad\bigtriangledown _aQ^{\mu}\left({{\boldsymbol{s}}}, a|{{\boldsymbol{\theta}}^Q}\right)|_{{{\boldsymbol{s}}} = {{\boldsymbol{s}}_t}, a = {\mu({\boldsymbol{s}}_t|{\boldsymbol{\theta}}^{\mu})}}\Big]\qquad \end{split}$$ (3) 设立目标网络是为了促进神经网络收敛, 目标网络与原网络之间采用软更新原则:
$$ \left\{\begin{aligned} &{{\boldsymbol{\theta}}^{{\mu}'}} = {\tau}{{\boldsymbol{\theta}}}^{\mu}+\left(1-{\tau}\right){{\boldsymbol{\theta}}}^{{\mu}'}\\ &{{\boldsymbol{\theta}}^{Q'}} = {\tau}{{\boldsymbol{\theta}}}^{Q}+\left(1-{\tau}\right){{\boldsymbol{\theta}}}^{Q'}\end{aligned}\right. $$ (4) 另外, 受到深度Q网络(Deep Q network, DQN)的启发, DDPG还设立的回放缓冲区
$ M $ 储存过去的数据, 并从中随机抽样训练Actor与Critic神经网络. 使用DDPG设计球杆系统期望控制策略的算法如下所示:算法1. 基于DDPG的球杆系统期望控制策略设计.
1)随机初始化Actor和Critic网络参数
${{\boldsymbol{\theta}}^{\mu}}和 {{\boldsymbol{\theta}}^{Q}} ;$ 2)将Actor和Critic网络参数复制到目标网络;
3)初始化回放缓冲区M;
4) for episode = 1,
$\cdots,$ n do;5)初始化一个随机噪声生成器
$ {\aleph};$ 6)观测初始球杆系统初始状态
${{\boldsymbol{s}}}_1;$ 7) for
$t = 1,\cdots,T$ do;8)选择并执行动作
$a_t = {\mu}\left({{\boldsymbol{s}}}_t|{{\boldsymbol{\theta}}^{\mu}}\right)+{\epsilon_t};$ 9)观测奖惩反馈
$ r_t $ 与下一时刻状态$ {{\boldsymbol{s}}}_{t+1}; $ 10)将数据
$ \left({{\boldsymbol{s}}}_t, a_t, r_t, {{\boldsymbol{s}}}_{t+1}\right) $ 存入M;11)从M中随机抽取N对
$ \left({{\boldsymbol{s}}}_i, a_i, r_i, {{\boldsymbol{s}}}_{i+1}\right) $ , 并根据式(2)和式(3)训练Actor和Critic网络;12)根据式(4)更新目标网络参数;
13) end for;
14) end for.
2.2 底层设计
本节介绍如何利用GPR拟合人体控制策略以及如何根据期望控制策略和人体控制策略模型设计机械臂的控制律.
2.2.1 人体控制策略感知
本节使用GPR拟合人体控制策略, 训练集记为
$X = {\left[{{{\boldsymbol{s}}_i}}\quad{{{{v}}_{H,i}}} \right]_{i = 1, \cdots ,N}},$ 其中$ N $ 为数据集的大小,$ {{\boldsymbol{s}}}_i $ 表示球杆系统的状态, 作为GPR的特征,$ {{\boldsymbol{v}}}_{H,i} = \left[ v_{H,x,i}\quad v_{H,z,i}\right] $ 表示长杆人控制端的速度, 作为GPR标签, 如图1所示.高斯过程的先验均值函数理论上可以随意选择, 本文选取高斯过程的先验均值函数为0, 即
$m\left(x\right) = 0$ . 真正对GPR的预测效果起较大影响的是高斯过程的先验协方差函数. GPR利用核函数来构建先验协方差函数, 考虑到平滑性, 本文使用高斯核函数:$$ k\left({\boldsymbol{x}}, {\boldsymbol{x}}'\right) = {\sigma_f^2}{\rm{exp}}\left[-\frac{1}{2}\left({\boldsymbol{x}}-{\boldsymbol{x}}'\right)^{\rm{T}}W^{-1}\left({\boldsymbol{x}}-{\boldsymbol{x}}'\right)\right] $$ (5) 因此, GPR的超参为
$ {\sigma_f} $ 以及核协方差矩阵${\boldsymbol{W}}$ . 这些超参可以在训练集上通过最小化边缘似然来优化.对一个测试样本
$ {\boldsymbol{x}} = {{\boldsymbol{s}}}^* $ 以及训练集$ X, $ 记“测试−测试协方差”、“测试−训练协方差”以及“训练−训练协方差”分别为$K\left({\boldsymbol{x}}, {\boldsymbol{x}}\right)_{1\times 1}、 K\left({\boldsymbol{x}}, X\right)_{1\times N}和$ $K\left(X, X\right)_{N\times N}$ , 其中$ K\left({\boldsymbol{x}}, X\right)_{1j} = k\left({{\boldsymbol{s}}}^*, {{\boldsymbol{s}}}_j\right) .$ GPR的输出为一个高斯分布, 其均值和协方差表示为:$$ {{\boldsymbol{v}}}_{H}^* = K\left({\boldsymbol{x}}, X\right)\left(K\left(X, X\right)+{\sigma^2}I\right)^{-1}V $$ (6) $$ \begin{split} {\Sigma}^* =& K\left({\boldsymbol{x}}, {\boldsymbol{x}}\right)+{\sigma^2}I- \\ &K\left({\boldsymbol{x}}, X\right)\left(K\left(X, X\right)+{\sigma^2}I\right)^{-1}K^{\rm{T}}\left({\boldsymbol{x}}, X\right) \end{split} $$ (7) 式中,
$V = \left[{{{v}}}_{H,1},\cdots,{{{v}}}_{H,N}\right]^{\rm{T}} ,\; {\sigma^2}$ 表示数据集的测量方差, 同样可以作为超参被优化.2.2.2 机械臂控制
本节在期望控制策略与人体控制策略预测模型的基础上, 设计机械臂末端速度的控制律.
机械臂的控制目标是使长杆在机器人末端速度
$ {\boldsymbol{v}}_R $ 与人控制端速度$ {\boldsymbol{v}}_H $ 的作用下, 其旋转角速度趋向于期望值$ \dot {\theta} ,$ 其中$ \dot {\theta} $ 可由顶层Actor网络前向传播得到,$ {\boldsymbol{v}}_H $ 的估计值$ {\hat{\boldsymbol v}}_H $ 可由人体控制策略预测模型预测得到, 本文使用高斯分布的均值作为估计值. 如图1所示,$ {\boldsymbol{v}}_H $ 和$ {\boldsymbol{v}}_R $ 可以分别分解成$v_{H,x} 、 v_{H,z}$ 、$v_{R,x}、 v_{R,z} ,$ 其中$ v_{H,x} $ 和$ v_{R,x} $ 不会影响长杆的旋转速度, 考虑到协作过程中人的舒适性, 令$ v_{R,x} = \hat v_{H,x} , $ $ v_{H,z}, v_{R,z} $ 与$ \dot {\theta} $ 之间满足$\dot{\theta} = (v_{H,z} - v_{R,z})/L,$ 因此,$ v_{R,z} = \hat v_{H,z}-\dot{\theta}L ,$ 其中$ L $ 为长杆长度.3. 仿真与实验
本节通过仿真与实验验证了所设计的人机协作控制方法的有效性, 共分为3个部分: 1)介绍DDPG中各神经网络的架构及超参数的设计, 并在仿真环境中训练各神经网络以得到顶层期望控制策略. 同时, 通过与基于值函数的DRL算法对比, 证明了在实际控制任务中使用基于策略的DRL算法(如本文使用的DDPG算法)来设计顶层期望控制策略的必要性. 2)通过相机采集人控制球杆系统的实验数据以构建训练集, 介绍并分析了利用GPR拟合人体控制策略预测模型的结果. 基于得到的期望控制策略与人体控制策略预测模型. 3)在实际场景中通过人机协作控制球杆系统与人单独控制球杆系统的控制效果作对比, 证明了所提控制方法确实能提升效率与控制精度.
3.1 基于DDPG的期望控制策略设计
本节分析DDPG学习期望控制策略的过程与结果. 首先介绍DDPG中神经网络的架构与超参设置. DDPG共包含4个神经网络, 由于球杆系统的复杂程度相对较低, 本文将Actor与Actor目标网络设置成3层全连接网络, 隐藏层单元个数为30; 将Critic与Critic目标网络设置为4层全连接网络, 隐藏层单元个数分别为30和40. Actor与Critic网络的学习率均为0.001. 回放缓冲区大小为10000对
$\left[{{\boldsymbol{s}}}_k\quad a_k\quad r_k\quad {{\boldsymbol{s}}}_{k+1}\right]$ , 每次训练采样64对数据. 目标网络软更新参数为${\tau} = 0.01 $ . 损失函数中的权重矩阵${\boldsymbol{W}}_c$ 取对角阵, 对角元分别为$ \{5, 0.1, $ $0.001\}$ . 神经网络优化器使用Adam优化器.仿真环境中忽略球杆系统摩擦力, 具体模型参考文献[26], 控制周期设置为0.033 s (与第3.2节中通过相机采样志愿者控制数据的采样周期保持一致), 每次试验最长为200步. DDPG的训练过程如图3所示.
由于环境在每一步给智能体的奖励均为负值, 而球杆系统需要长久的运行, 因此每一次试验累积的奖励值所代表的意义不鲜明. 故本文统计了每次试验在每一步的平均奖励值随训练时间的变化情况. 另外, 本文还统计了每次试验运行的时间(步数)以监测球杆系统在训练过程中的稳定性变化情况. 由图3(a)可见, 平均每一步所累积的奖励值随着训练时间的增长逐渐增加, 这说明以本文设置的奖励函数为评价标准, 控制器的表现越来越好. 最终, 平均每一步所获得的奖励值收敛于一个接近0的负值, 这是由奖励信号的设计方式所导致的. 图3(b)说明了随训练时间的增加, 球杆系统从开始的控制失败(步数较少, 因为小球离开长杆)逐渐变得更加稳定(后期每次球杆系统控制时长都达到了最大值). 由图3可以猜测, DDPG似乎习得了一个合适的控制器.
为了检验习得的期望控制策略的有效性, 在仿真环境中用该控制策略控制球杆系统(随机选择了4个初始状态), 结果如图4所示. 其中
$e^{(i)}_E、 {\dot x}^{(i)}_E、 {\theta}^{(i)}_E$ 分别表示在期望控制策略的控制下第$ i $ 次仿真小球位置误差, 小球速度以及长干角度的变化轨迹. 可以发现, 从任意的初始状态出发, 基于DDPG的期望控制策略都能高效, 稳定的完成控制任务. 另外, 该期望控制策略并没有将小球准确无误的停在目标位置, 而是存在着2 cm左右的误差, 这可能是DRL算法在学习过程中没有完美的把握“利用与探索之间的平衡”导致的. 当然, 这也是DRL中公认的一大难点. 但是, 总体来说, 该期望控制策略作为一种基于神经网络的非线性控制器, 在本文设计的奖励指标上具有次优性.另外, 本文在仿真中对比了基于DDPG的控制策略与基于DQN的控制策略的控制效果, 结果如图5所示. DQN算法是一种经典的基于值函数的DRL算法, 其控制量是离散的. 本次仿真中DQN的控制量属于
$\{5((^{\circ})/{\rm{s}}), \ 0((^{\circ})/{\rm{s}}),\; -5((^{\circ})/{\rm{s}})\}$ . 可以发现, 由于控制量是离散且其个数是有限的, 如DQN这种基于值函数的DRL方法往往很难解决实际的控制问题. 因此, 使用基于策略的DRL方法设计期望控制策略是必要的.3.2 基于GPR的人体控制策略感知
本节分析利用GPR学习人体控制策略预测模型的结果. 本文通过相机检测人机协作球杆系统的状态, 具体检测环境如图6所示. 相机通过检测长杆两端的特征点(分别记人端和机器人端的特征点为
$ p1 $ 与$ p2 $ )与小球的位置(记为$ p3 $ ), 以确定球杆系统的实时状态.据经验可知, 人控制球杆系统时主要根据状态
$ {{\boldsymbol{s}}} = \left[e\quad x\quad \dot x\quad {\theta}\right]^{\rm{T}} $ 来决定旋转长杆的速度$ {{\boldsymbol{v}}}_H $ . 为了获取训练数据, 本文邀请了10位志愿者控制球杆系统, 并利用相机记录了他们在控制过程中的控制策略数据$ \left({{\boldsymbol{s}}}, {{\boldsymbol{v}}}_H\right) $ . 由于相机检测的是位置级信息, 通过差分算法得到速度级信息时不可避免的引入高频噪声, 因此本文使用低通滤波器对数据进行滤波, 效果如图7所示(本文只给出$ p1 $ 点检测信息, 另外2点的滤波效果相似). 其中$p1_{x,O}、$ $p1_{y, O}、 p1_{x,F}$ 和$p1_{y, F}$ 分别表示$ p1 $ 在滤波前后的横纵像素坐标,$v1_{x,O}、v1_{y, O}、 v1_{x,F}$ 分别表示p1在滤波前后的横纵像素速度. 虽然经过滤波后的数据在位置级信息中有轻微的相位落后, 但是速度级数据中的高频噪声被大幅抑制了. 因此, 利用滤波后3点的位置数据可以较好得到数据集$ \left({{\boldsymbol{s}}}, {{\boldsymbol{v}}}_H\right) $ . 图8可视化了一部分基于滤波后3点构建的志愿者控制球杆系统的状态轨迹.图8中的下标
$ H $ 表示这些数据是由人的控制策略产生的. 可以发现, 志愿者在控制球杆系统时并不会使小球最终严格地停在目标位置处, 而是在目标位置附近徘徊. 并且, 人在控制球杆系统时往往伴随较大的超调与一定程度的振荡. 本文认为这种现象是很自然的, 人的控制策略较为灵活与智能, 这也是人相较于机器人最大的优点. 然而, 人往往很难像数字控制器一样做到高精度, 高效率的控制. 另外, 进一步发现人的速度分量$ {v}_{H,x} $ 相对于分量$ {v}_{H,z} $ 幅值较小, 无明显规律, 更像是志愿者自己引入的随机噪声. 本文利用GPR在训练数据上拟合人体控制策略预测模型, 即$ {\hat\pi}_H:{{\boldsymbol{s}}} \to N({{\hat{\boldsymbol v}}}_H, {\delta}) $ . 结果图9所示. 图9中阴影部分表示预测置信度为68.2%的区域(GPR的输出是1个高斯分布), 第1行的2幅子图分别表示在训练集中1条轨迹上的$ {v}_{H,x} $ 与$ {v}_{H,z} $ 的预测情况(上标Tr表示). 第2 ~ 4行表示测试集中各速度分量的预测情况(上标Te表示). 由图9可以看出, 无论是在训练集还是测试集中,$ {v}_{H,x} $ 的预测均较差, 说明GPR方法较难从训练数据中寻得一种普遍规律, 这也证实了$ {v}_{H,x} $ 可能是志愿者自身引入的一种随机噪声的猜测. 而对于速度分量$ {v}_{H,z} $ , 预测模型较为准确地预测了变化趋势. 由于人控制策略的高随机性与灵活性, 精确的预测其具体的幅值是不现实的. 本文得到的人体控制策略预测模型的预测值无论是在训练集还是测试集中, 其预测幅值误差均较小, 故该预测模型可使机器人在一定程度上了解人的控制规律.3.3 人机协作控制实验
本节在图6所示的平台上对基于GPR与DRL的分层人机协作控制方法进行实验验证.
首先验证顶层期望控制策略. 由于顶层期望控制策略是只针对非线性球杆系统设计的, 未考虑人引入的随机因素. 因此, 在该部分实验中保持
$ p1 $ 点固定不动, 以期望控制策略控制机器人, 即$ v_{R,x} = 0 $ ,$ v_{R,z} = -\dot{\theta}L $ . 其中$ \dot{\theta} $ 由期望控制策略即Actor网络输出得到. 实验结果如图10所示.由图10可以发现, 无论小球从何初始位置出发, 该期望控制策略均能高效的完成控制任务(每一步时间为0.033 s, 故期望控制策略约在6 s内完成控制任务). 另外, 可以发现该实验结果与图4中的仿真结果非常相似, 更进一步的验证了该期望控制策略的有效性.
然而在实际人机协作任务中, 人也参与到球杆系统的控制过程中. 若仍以期望控制策略直接控制机器人, 协作任务很可能在人与机器人协同的总控制量下失败(如人的过激控制量加上机器人的期望控制量, 使长杆的旋转速度过快, 从而使小球滚落长杆). 故本文考虑使机器人与人的总控制量趋向于期望控制策略的控制量, 即按第2.2.2节所述设计机器人末端速度控制律. 为了进一步突出该方法的有效性, 本文将人机协同控制的控制效果与期望控制策略和人单独控制球杆系统的控制效果作对比. 其实验效果如图11所示.
考虑到传统的主从式人机协作多为人主−机器人从模式, 即在协作任务中控制策略完全由人产生, 机器人多承担负重任务. 因此本文考虑固定机器人端(即
$ p2 $ 点), 由人单独控制球杆系统来代表人主−机器人从的协作模式. 单独由人产生控制球杆系统的策略往往会带来较大幅度的振荡, 延长了整体控制时间, 降低了控制效率. 本实验的控制效率由使系统进入稳态区域的控制时间$ t_s $ 体现, 稳态区域为稳定值正负3 cm所在的范围(图11中的阴影部分). 如图11所示, 人单独控制策略下的球杆系统在$ t_{s,H} = 9.57$ s时进入稳态区域. 与顶层期望控制策略相比, 其效率明显更低, 并且最终较难精确地使小球停在目标位置处. 从振荡的角度看, 由于人在控制起始阶段往往采取过激的控制量以达到快速降低误差的目的, 其并没有考虑长远的系统变化. 而基于DDPG的顶层期望控制策略的目标如式(1)所示, 是使长远的累计奖励最大化, 其考虑到了系统的长远变化, 并在快速性与稳定性之间做出权衡, 使系统不会有过大超调. 另外, 如第3.2节所述, 人的控制精度相对于数字控制器较低是很自然的. 因此, 用人机协作来提高协作任务的控制效率与精度是有必要的. 可以发现, 虽然人机协作的控制效果与期望控制策略的控制效果并不是理想情况下的完全一致, 但是两者的小球位置误差与速度轨迹相差不大. 单独由人作控制决策相比, 人机协作明显提升了控制效率($t_{s,HRC} = 1.914$ s), 验证了本文方法的高效性.进一步对比人机协作与期望控制策略之间的控制曲线可以发现, 人机协作的控制曲线存在一定的抖动, 这在长杆的倾角变化轨迹中尤为明显. 显然, 这是人体控制策略预测模型的预测误差造成的. 如图12所示, 可以发现虽然预测模型能较为准确地预测
$ {v}_{H,z} $ 的变化趋势, 但是对于其幅值的预测存在一定的误差, 使得机器人并未完全补偿人的控制量, 从而使人机协作的总控制量中仍然包含残留着的人的控制量, 因此造成了长杆倾角抖动. 然而, 长杆倾角的抖动对球杆系统的控制目的(使小球停在目标位置处)并未造成较大的影响.4. 结束语
本文针对主从式人机协作效率较低的问题设计了一种基于GPR和DRL的分层人机协作控制方法. 顶层使用DRL算法在模型未知的情况下设计了一种有效的次优非线性控制策略, 并将其作为期望控制策略以引导人机协作控制过程. 底层使用GPR方法拟合人体控制策略预测模型, 为机器人建立人体行为认知模型, 从而提升机器人在协作过程中过的主动性, 提高协作效率同时降低人未知随机行为带来的不利影响. 进而, 基于期望控制策略与认知模型设计机器人的末端速度控制律. 最后由实验对比发现, 本文所提的人机协作控制方法较人主−机器人从协作控制具有更高的协作效率, 体现了本文方法的高效性.
本文用GPR拟合人体控制策略之后只使用了输出的均值来构建机械臂的控制律, 未利用协方差信息. 如何利用协方差信息来构建构更加具有鲁棒性的机械臂控制律是未来的一个研究要点. 另外, 如何提升在人体控制策略预测模型的预测精度也将是未来的工作之一.
-
表 1 LuGre摩擦模型参数、控制律及操纵律参数
Table 1 Parameters of LuGre friction model, control law and steering law
参数类型 参数值 LuGre摩擦模型参数及前馈环路增益 $\sigma_1 = 0.3\, \rm{Nm}$, $\sigma_2 = 0.5\, \rm{Nm}$, $\sigma_3 = 0.06\, \rm{Nm}\cdot \rm{s/rad}$, $F_ \rm{c} = 0.1\, \rm{Nm}$, $F_ \rm{s} = 0.12\, \rm{Nm}$, $V_ \rm{s} = 0.001\, \rm{rad/s}$, $K_G = 0.2$ 控制律参数 $k_1 = 2.5$, $k_2 = 0.1$, $k_3 = 500$, $k_4 = 0.1$, $g = 11, h = 13, g_1 = 7, h_1 = 9$, $\mu_a = \mu_b = 0.001$, $\gamma_J = 0.001, \gamma_{K_G} = \gamma_\sigma = \gamma_1 = \gamma_2 = 2$, $[\varGamma_J\; \varGamma_\sigma\; \varGamma_{K_G}\; \varGamma_1\; \varGamma_2]^{{\rm T}} = [1\; 0.1\; 0.01\; 1\; 0.001]^{{\rm T}}$ 操纵律参数 $W_i = i$ $(i = 1, 2, 3, 4)$, $\omega_0 = 1$, $\epsilon_0 = 10^{-4}$, $k_0 = 10$, $\alpha_0 = 10^{-5}$, $h_a = 100$ -
[1] Du H B, Li S H. Attitude synchronization for flexible spacecraft with communication delays. IEEE Transactions on Automatic Control, 2016, 61(11): 3625-3630 doi: 10.1109/TAC.2016.2525933 [2] Zhong C X, Chen Z Y, Guo Y. Attitude control for flexible spacecraft with disturbance rejection. IEEE Transactions on Aerospace and Electronic Systems, 2017, 53(1): 101-110 doi: 10.1109/TAES.2017.2649259 [3] Zhong C X, Guo Y, Yu Z, Wang L, Chen Q W. Finite-time attitude control for flexible spacecraft with unknown bounded disturbance. Transactions of the Institute of Measurement and Control, 2016, 38(2): 240-249 doi: 10.1177/0142331214566223 [4] Zhong C X, Wu L P, Guo J, Guo Y, Chen Z Y. Robust adaptive attitude manoeuvre control with finite-time convergence for a flexible spacecraft. Transactions of the Institute of Measurement and Control, 2016, 40(2): 425-435 http://smartsearch.nstl.gov.cn/paper_detail.html?id=69175779e799cf0d6c7cf1ac0934dc26 [5] 刘宝玉, 金磊, 贾英宏. 谐波齿轮对大型SGCMG框架转速控制的影响分析. 航天控制, 2014, 32(2): 23-28, 34 doi: 10.3969/j.issn.1006-3242.2014.02.005Liu Bao-Yu, Jin Lei, Jia Ying-Hong. Influence analysis of harmonic gear to SGCMG gimbal rate control. Aerospace Control, 2014, 32(2): 23-28, 34 doi: 10.3969/j.issn.1006-3242.2014.02.005 [6] 吴忠, 吴宏鑫. SGCMG框架伺服系统扰动力矩的分析与抑制. 航天控制, 1998, 16(4): 8-16 https://www.cnki.com.cn/Article/CJFDTOTAL-HTKZ199804001.htmWu Zhong, Wu Hong-Xin. Analysis and attenuation of disturbance torque in SGCMG gimbal servo systems. Aerospace Control, 1998, 16(4): 8-16 https://www.cnki.com.cn/Article/CJFDTOTAL-HTKZ199804001.htm [7] 鲁明, 张欣, 李耀华. SGCMG框架伺服系统扰动力矩分析与控制. 中国空间科学技术, 2013, 33(1): 15-20 https://www.cnki.com.cn/Article/CJFDTOTAL-ZGKJ201301002.htmLu Ming, Zhang Xin, Li Yao-Hua. Analysis and control for SGCMG gimbal servo system disturbance torque. Chinese Space Science and Technology, 2013, 33(1): 15-20 https://www.cnki.com.cn/Article/CJFDTOTAL-ZGKJ201301002.htm [8] 金磊, 徐世杰. SGCMG框架伺服系统动力学建模与低速控制. 中国空间科学技术, 2010, (6): 1-10 https://www.cnki.com.cn/Article/CJFDTOTAL-ZGKJ201006003.htmJin Lei, Xu Shi-Jie. Dynamic modelling and low-speed control for SGCMG gimbal servo system. Chinese Space Science and Technology, 2010, (6): 1-10 https://www.cnki.com.cn/Article/CJFDTOTAL-ZGKJ201006003.htm [9] Hill D. Dynamics and control of spacecraft using control moment gyros with friction compensation. Journal of Guidance, Control, and Dynamics, 2016, 39(10): 2406-2418 doi: 10.2514/1.G001585 [10] MacKunis W, Dupree K, Fitz-Coy N, Dixon W E. Adaptive satellite attitude control in the presence of inertia and CMG gimbal friction uncertainties. The Journal of the Astronautical Sciences, 2008, 56(1): 121-134 doi: 10.1007/BF03256544 [11] 田林, 徐世杰. 带变速控制力矩陀螺的航天器自适应姿态控制. 中国空间科学技术, 2012, 32(5): 9-16 https://www.cnki.com.cn/Article/CJFDTOTAL-ZGKJ201205004.htmTian Lin, Xu Shi-Jie. Adaptive attitude control of spacecraft with variable speed control moment gyroscopes. Chinese Space Science and Technology, 2012, 32(5): 9-16 https://www.cnki.com.cn/Article/CJFDTOTAL-ZGKJ201205004.htm [12] Wang L, Zhong C X, Guo Y, Wu Y F, Guo J. Robust adaptive attitude control for flexible spacecraft in the presence of SGCMG friction nonlinearity. International Journal of Robust and Nonlinear Control, 2018, 28(9): 3324-3341 doi: 10.1002/rnc.4079 [13] Cao X B, Wu B L. Indirect adaptive control for attitude tracking of spacecraft with unknown reaction wheel friction. Aerospace Science and Technology, 2015, 47: 493-500 doi: 10.1016/j.ast.2015.10.017 [14] 李冬柏, 吴宝林, 张迎春. 考虑未知飞轮摩擦力矩的航天器姿态跟踪鲁棒自适应控制. 宇航学报, 2016, 37(2): 175-181 https://www.cnki.com.cn/Article/CJFDTOTAL-YHXB201602007.htmLi Dong-Bai, Wu Bao-Lin, Zhang Ying-Chun. Robust adaptive control for spacecraft attitude tracking with unknown friction torque of reaction wheel. Journal of Astronautics, 2016, 37(2): 175-181 https://www.cnki.com.cn/Article/CJFDTOTAL-YHXB201602007.htm [15] Niu G, Hu Q. Robust finite-time observer design for rigid spacecraft with reaction wheel friction. In: Proceedings of the 35th Chinese Control Conference. Chengdu, China: IEEE, 2016. 10679-10683 [16] Heiberg C J, Bailey D, Wie B. Precision spacecraft pointing using single-gimbal control moment gyroscopes with disturbance. Journal of Guidance Control and Dynamics, 2000, 23(1): 77-85 doi: 10.2514/2.4489 [17] MacKunis W, Leve F, Patre P M, Fitz-Coy N, Dixon W E. Adaptive neural network-based satellite attitude control in the presence of CMG uncertainty. Aerospace Science and Technology, 2016, 54: 218-228 doi: 10.1016/j.ast.2016.04.022 [18] Hughes P C. Spacecraft Attitude Dynamics. New York: Courier Dover Publications, 2012. 93-129 [19] Wie B. New singularity escape/avoidance steering logic for control moment gyro systems. Journal of Guidance, Control, and Dynamics, 2005, 28(5): 948-956 doi: 10.2514/1.10136 [20] De Wit C C, Olsson H, Astrom K J, Lischinsky P. A new model for control of systems with friction. IEEE Transactions on Automatic Control, 1995, 40(3): 419-425 doi: 10.1109/9.376053 [21] De Wit C C, Lischinsky P. Adaptive friction compensation with partially known dynamic friction model. International Journal of Adaptive Control and Signal Processing, 1997, 11(1): 65-80 doi: 10.1002/(SICI)1099-1115(199702)11:1%3C65::AID-ACS395%3E3.0.CO;2-3/abstract [22] Sidi M J. Spacecraft Dynamics and Control: A Practical Engineering Approach. Cambridge: Cambridge University Press, 1997. [23] Ma Y, Jiang B, Tao G, Cheng Y H. Uncertainty decomposition-based fault-tolerant adaptive control of flexible spacecraft. IEEE Transactions on Aerospace and Electronic Systems, 2015, 51(2): 1053-1068 http://smartsearch.nstl.gov.cn/paper_detail.html?id=711cece5fac30dddb4cb6cdbe14ba907 [24] Hardy G H, Littlewood J E, Pólya G. Inequalities. Cambridge: Cambridge University Press, 1952. [25] Zhu Z, Xia Y Q, Fu M Y. Attitude stabilization of rigid spacecraft with finite-time convergence. International Journal of Robust and Nonlinear Control, 2011, 21(6): 686-702 doi: 10.1002/rnc.1624 [26] Zou A M, Kumar K D, Ruiter A H J. Robust attitude tracking control of spacecraft under control input magnitude and rate saturations. International Journal of Robust and Nonlinear Control, 2015, 26(4): 799-815 doi: 10.1002/rnc.3338 [27] Gennaro S D. Output stabilization of flexible spacecraft with active vibration suppression. IEEE Transactions on Aerospace and Electronic Systems, 2003, 39(3): 747-759 http://ieeexplore.ieee.org/document/1238733/references [28] Guo Y, Zhou C F, Yu Z, Chen Q W. Study on attitude control for move-to-rest manoeuvre of flexible spacecraft. International Journal of Modelling, Identification and Control, 2013, 19(1): 23-31 http://www.ingentaconnect.com/content/rsoc/17466172/2013/00000019/00000001/art00003 期刊类型引用(64)
1. 胡洋腾,买买提热依木·阿布力孜,张超,史文杰. 基于参数优化的DBO-VMD-SVM滚动轴承故障诊断. 计算机仿真. 2025(01): 466-472 . 百度学术
2. 王思远,陈荣辉,顾凯,任密蜂,阎高伟. 基于SA-TCN的轴承短期故障预测方法. 太原理工大学学报. 2024(01): 214-222 . 百度学术
3. 陈启明,文青松,郎恂,谢磊,苏宏业. 一元及多元信号分解发展历程与展望. 自动化学报. 2024(01): 1-20 . 本站查看
4. 单玉庭,刘韬,褚惟,缪护. 遗传算法优化变分模态分解在轴承故障特征提取中的应用. 噪声与振动控制. 2024(01): 148-153+204 . 百度学术
5. 王进花,马雪花,岳亮辉,安永胜,曹洁. 少量样本下基于PCA-BNs的多故障诊断. 振动与冲击. 2024(04): 288-296 . 百度学术
6. 李林涛,曹恒超,朱桂香,李国兴,刘东,刘培毓,史威威. 基于变分模态分解的多缸柴油机缸套振动差异分析. 振动与冲击. 2024(03): 233-240 . 百度学术
7. 师雪玮,徐大林,刘志成. 基于ICEEMDAN和小波阈值的Φ-OTDR信号去噪算法. 指挥控制与仿真. 2024(01): 78-84 . 百度学术
8. 郭方洪,林凯,窦云飞,吴祥,俞立. 基于多维特征评价的风机齿轮箱早期故障诊断. 控制与决策. 2024(05): 1566-1576 . 百度学术
9. 刘昕明,吉建光,李玮,石光磁. 基于双模态分解的发电站母线短期负荷预测. 电气工程学报. 2024(01): 124-132 . 百度学术
10. 刘财,商耀达,鹿琪,徐杨杨. GPR信号去噪的变分模态分解. 吉林大学学报(地球科学版). 2024(03): 1042-1053 . 百度学术
11. 李牧,骆宇,柯熙政. 基于调频连续波雷达的人体生命体征检测算法. 计算机应用. 2024(06): 1978-1986 . 百度学术
12. 纪佳呈. 鹈鹕算法优化VMD参数与RF的滚动轴承故障诊断. 机械工程师. 2024(07): 59-62+66 . 百度学术
13. 赵春旭,张学亮,刘思良,戚雯雯,王村松,张泉灵. 基于声振信号融合的设备智能诊断. 组合机床与自动化加工技术. 2024(07): 98-102+108 . 百度学术
14. 刘合兵,华梦迪,孔玉杰,席磊,尚俊平. 基于分解集成方法的小宗农产品价格预测研究. 运筹与管理. 2024(06): 125-131 . 百度学术
15. 郑玉巧,李浩,魏泰. 基于OVMD-RF方法的风力发电机滚动轴承故障诊断. 兰州理工大学学报. 2024(04): 36-42 . 百度学术
16. 李伟,王付广,王东生. 基于改进复合多尺度样本熵的行星齿轮箱故障诊断. 航空动力学报. 2024(09): 336-345 . 百度学术
17. 汤鑫,易钢,张宝林. 基于鲸鱼优化变分模态分解联合小波阈值的光电容积脉搏波降噪方法研究. 生物医学工程研究. 2024(04): 331-337 . 百度学术
18. 张吉祥,张孟健,王德光,杨明. 基于组稀疏学习与AVOA-XGBoost的轴承故障分级诊断. 振动与冲击. 2024(18): 96-105 . 百度学术
19. 鲁铁定,何锦亮,贺小星,陶蕊. 参数优化变分模态分解的GNSS坐标时间序列降噪方法. 武汉大学学报(信息科学版). 2024(10): 1856-1866 . 百度学术
20. 谢刚,韩秦,聂晓音,石慧,张晓红,田娟. 基于两阶段域泛化学习框架的轴承故障诊断方法. 自动化学报. 2024(11): 2271-2285 . 本站查看
21. 朱燕芳,梁医,刘佳运,沈永斌,冯虎田. 基于变分模态优化法的丝杠副振动信号分析. 组合机床与自动化加工技术. 2024(12): 139-144 . 百度学术
22. 蔡铮印,鹿雷,丛屾. 基于自适应VMD与IAO-SVM的滚动轴承故障诊断. 黑龙江大学工程学报(中英俄文). 2024(04): 47-54+88 . 百度学术
23. 黄欣悦,别锋锋,李倩倩,缪新婷,黄文庆,邢雨. 基于BWO-VMD-FE与ELM的往复压缩机气阀故障诊断研究. 机械设计与研究. 2024(06): 194-201+222 . 百度学术
24. 杨智杰,王刚,赵瑞杰,王春洁,赵军鹏. 火星进入舱配平翼机构展开冲击动力学分析. 北京航空航天大学学报. 2023(02): 422-429 . 百度学术
25. 周哲韬,刘路,宋晓,陈凯. 基于Transformer模型的滚动轴承剩余使用寿命预测方法. 北京航空航天大学学报. 2023(02): 430-443 . 百度学术
26. 崔乐晗,于洋. 基于GWO-VMD算法的齿轮故障自适应特征提取. 装备环境工程. 2023(02): 117-124 . 百度学术
27. 付波. 基于振动图像特征提取的机械故障诊断与识别. 组合机床与自动化加工技术. 2023(03): 131-135 . 百度学术
28. 刘宇鹏,赵文卓,邹英永. 基于优化VMD与BP神经网络结合的滚动轴承故障诊断方法研究. 吉林工程技术师范学院学报. 2023(01): 91-96 . 百度学术
29. 李杰,闫柯朴,孟凡熙,朱玮. 基于改进VMD和注意力机制的混沌时间序列预测. 兰州交通大学学报. 2023(02): 55-63 . 百度学术
30. 王闯,韩非,申雨轩,李学贵,董宏丽. 基于事件触发的全信息粒子群优化器及其应用. 自动化学报. 2023(04): 891-903 . 本站查看
31. 张露,理华,崔杰,王晓东,肖灵. 基于稀疏指标的优化变分模态分解方法. 振动与冲击. 2023(08): 234-250 . 百度学术
32. 陈锋元,韩昆仑,张腾跃,李泓政,刘书豪. 基于VMD-SSA和多频段Hilbert能量的高压直流输电线路单端量保护方法. 科学技术与工程. 2023(10): 4247-4258 . 百度学术
33. 张思源,纪洪泉,刘洋. 基于ISCNN-LightGBM的轴承故障诊断. 控制理论与应用. 2023(04): 753-760 . 百度学术
34. 王晓蓥,李帅永. 基于参数联合优化VMD-SVM的工业机器人旋转部件故障诊断方法. 计算机测量与控制. 2023(05): 62-72 . 百度学术
35. 封成东,李玥,封成智. 基于VMD样本熵和改进极限学习机的滚动轴承故障诊断. 甘肃农业大学学报. 2023(02): 215-225 . 百度学术
36. 吴瀛枫,熊书驰. 数控机床滚动轴承与齿轮的振动机理及故障诊断技术. 科学技术创新. 2023(15): 79-82 . 百度学术
37. 谭欣. 基于TS-VMD和互相关分析的井斜角校正研究. 佳木斯大学学报(自然科学版). 2023(03): 12-15+70 . 百度学术
38. 王玉梅,郑义. 基于参数优化的VMD与TEO融合的微电网电能质量检测方法. 电气工程学报. 2023(02): 164-173 . 百度学术
39. 覃尚昊,胡迎春,周明,曾思勇. 基于改进VMD与特征选择的路灯故障检测方法. 电子测量技术. 2023(09): 92-99 . 百度学术
40. 赵志宏,张然,孙诗胜. 基于关系网络的轴承剩余使用寿命预测方法. 自动化学报. 2023(07): 1549-1557 . 本站查看
41. 李牧,杨恒,张一朗. 基于FMCW雷达的多人心率呼吸检测. 计算机系统应用. 2023(08): 198-206 . 百度学术
42. 任冠宇,栾皓轮,万剑雄,李雷孝,王晓磊. 基于信号分解算法的碳价格混合预测模型. 内蒙古工业大学学报(自然科学版). 2023(04): 355-362 . 百度学术
43. 胡景松,樊军,马冉. 关于扭力冲击钻轴承故障诊断预测方法的研究. 机械设计与制造. 2023(09): 17-21 . 百度学术
44. 潘冬伟,范志川,姬永波,项乔. 基于累计特征提取和RCNN的滚动轴承剩余使用寿命预测. 船舶与海洋工程. 2023(05): 78-85 . 百度学术
45. 尹怀彦,张涛. 基于GA-VMD的滚动轴承故障特征信号提取方法. 机械研究与应用. 2023(05): 1-5 . 百度学术
46. 吕宗宝,牛豪康,谢子殿. 基于VMD-MFE-PNN的电机轴承故障诊断方法. 黑龙江电力. 2023(05): 387-392 . 百度学术
47. 吕荣水,张克典,鲁殿君,李智皓. 滚动轴承制造精度振动测试模型构建方法研究. 工程机械. 2023(12): 80-87+10 . 百度学术
48. 蔡俊,蔡士超. 基于SCA-VMD和排列熵的轴承故障诊断研究. 黑龙江工业学院学报(综合版). 2023(11): 140-148 . 百度学术
49. 刘硕,帕孜来·马合木提,艾纯玉. 优化VMD算法在汽车逆变器早期故障诊断中的应用. 三峡大学学报(自然科学版). 2022(01): 101-106 . 百度学术
50. 汪春华,冯焱侠. 基于VMD-维纳滤波的时间序列去噪. 自动化技术与应用. 2022(01): 9-13 . 百度学术
51. 方学宠,娄益凡,吴安定,覃嘉祺. 基于SVMD与SLLE的机械设备齿轮箱故障诊断方法. 机械与电子. 2022(01): 36-41+47 . 百度学术
52. 郝家琦,徐金海,鲍超超,郑雷骏,唐波. 基于VMD与SVM的电梯鼓式制动器故障诊断研究. 机电工程. 2022(01): 112-119 . 百度学术
53. 王双海,米大斌,芦浩,姜文,龚思远,梁涛. 基于MIGA-VMD和t-SNE的轴承故障诊断方法. 机床与液压. 2022(02): 183-191 . 百度学术
54. 王红君,李万丰,赵辉,岳有军. 基于改进VMD-SSA的直流微电网故障检测技术研究. 电工电能新技术. 2022(02): 53-62 . 百度学术
55. 郭佳辉,高一轩,刘昌伟,祖旭东. 基于VMD变分模态分解的冲击波信号时频分析. 弹箭与制导学报. 2022(01): 118-122 . 百度学术
56. 杨云,张昊宇,薛元贺,丁磊. 参数优化VMD与OMPE结合的滚动轴承故障诊断研究. 机械科学与技术. 2022(05): 666-672 . 百度学术
57. 曾宪旺,孙文磊,王宏伟,徐甜甜,张凡. 基于VMD-MPE结合概率神经网络和极限学习机的滚动轴承故障诊断分析. 热加工工艺. 2022(10): 157-163 . 百度学术
58. 杜政奇,王敬华,张新慧. 基于参数优化VMD和能量相似度的配电网故障区段定位方法. 电子测量技术. 2022(08): 95-101 . 百度学术
59. 雷春丽,曹鹏瑶,崔攀,张晨曦. 样本熵和Vmd结合的轴承早期故障预测方法. 机械设计与制造. 2022(06): 300-304 . 百度学术
60. 刘前进,高丙朋,宋振军,王维庆. 基于参数优化变分模态分解的变速工况下轴承故障诊断. 轴承. 2022(08): 71-78 . 百度学术
61. 张杏莉,曹连跃,陈言,贾瑞生,卢新明. 基于变分模态分解与排列熵的矿山微地震信号降噪方法研究(英文). Applied Geophysics. 2022(01): 65-80+144-145 . 百度学术
62. 康守强,周月,王玉静,谢金宝,MIKULOVICH Vladimir Ivanovich. 基于改进SAE和双向LSTM的滚动轴承RUL预测方法. 自动化学报. 2022(09): 2327-2336 . 本站查看
63. 李子国,石晴,刘继超,冯思强,李敬兆. 基于参数优化VMD和1D-CNN的滚动轴承故障诊断. 现代信息科技. 2022(16): 66-70 . 百度学术
64. 王望望,邓林峰,赵荣珍,吴耀春. 集成KPCA与t-SNE的滚动轴承故障特征提取方法. 振动工程学报. 2021(02): 431-440 . 百度学术
其他类型引用(89)
-