2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于自适应动态规划的移动机器人视觉伺服跟踪控制

罗彪 欧阳志华 易昕宁 刘德荣

罗彪, 欧阳志华, 易昕宁, 刘德荣. 基于自适应动态规划的移动机器人视觉伺服跟踪控制. 自动化学报, 2023, 49(11): 2286−2296 doi: 10.16383/j.aas.c211230
引用本文: 罗彪, 欧阳志华, 易昕宁, 刘德荣. 基于自适应动态规划的移动机器人视觉伺服跟踪控制. 自动化学报, 2023, 49(11): 2286−2296 doi: 10.16383/j.aas.c211230
Luo Biao, Ouyang Zhi-Hua, Yi Xin-Ning, Liu De-Rong. Adaptive dynamic programming based visual servoing tracking control for mobile robots. Acta Automatica Sinica, 2023, 49(11): 2286−2296 doi: 10.16383/j.aas.c211230
Citation: Luo Biao, Ouyang Zhi-Hua, Yi Xin-Ning, Liu De-Rong. Adaptive dynamic programming based visual servoing tracking control for mobile robots. Acta Automatica Sinica, 2023, 49(11): 2286−2296 doi: 10.16383/j.aas.c211230

基于自适应动态规划的移动机器人视觉伺服跟踪控制

doi: 10.16383/j.aas.c211230
基金项目: 国家自然科学基金(62022094, 62373375), 湖南省自然科学基金(2020JJ2049), 之江实验室开放课题(2021NB0AB01), 中南大学创新驱动项目(2020CX032)资助
详细信息
    作者简介:

    罗彪:中南大学自动化学院教授. 主要研究方向为智能控制, 强化学习, 深度学习和自主决策. 本文通信作者. E-mail: biao.luo@hotmail.com

    欧阳志华:中南大学自动化学院硕士研究生. 主要研究方向为移动机器人, 视觉伺服控制和自适应动态规划. E-mail: ouyangzh@csu.edu.cn

    易昕宁:中南大学自动化学院硕士研究生. 主要研究方向为四旋翼视觉伺服控制, 自适应动态规划和强化学习. E-mail: xnyi17@foxmail.com

    刘德荣:南方科技大学工学院教授. 主要研究方向为智能控制理论及应用, 自适应动态规划, 人工神经网络和计算神经科学. E-mail: derongliu@foxmail.com

Adaptive Dynamic Programming Based Visual Servoing Tracking Control for Mobile Robots

Funds: Supported by National Natural Science Foundation of China (62022094, 62373375), Hunan Provincial Natural Science Foundation of China (2020JJ2049), Zhejiang Lab (2021NB0AB01), and Innovation-Driven Project of Central South University (2020CX032)
More Information
    Author Bio:

    LUO Biao Professor at the School of Automation, Central South University. His research interest covers intelligent control, reinforcement learning, deep learning, and decision-making. Corresponding author of this paper

    OUYANG Zhi-Hua Master student at the School of Automation, Central South University. His research interest covers mobile robot, visual servoing control, and adaptive dynamic programming

    YI Xin-Ning Master student at the School of Automation, Central South University. Her research interest covers visual servoing control of quadrotor, adaptive dynamic programming, and reinforcement learning

    LIU De-Rong Professor at the School of Engineering, Southern University of Science and Technology. His research interest covers intelligent control theory and application, adaptive dynamic programming, artificial neural networks, and computational neuroscience

  • 摘要: 针对移动机器人视觉伺服跟踪控制问题, 提出一种基于自适应动态规划(Adaptive dynamic programming, ADP) 的控制方法. 通过移动机器人上的相机拍摄共面特征点的当前图像、期望图像以及参考图像, 利用单应性技术得到移动机器人当前的位姿信息与期望的位姿信息(即平移量与旋转角度), 从而通过当前与期望的平移旋转之间差值得到系统的开环误差模型. 进而, 针对此系统设计最优控制器, 同时做合适的控制输入变换. 在此基础上设计一个基于ADP的视觉伺服控制方法以保证移动机器人完成轨迹跟踪任务. 为求出最优控制输入, 采用一个评价神经网络近似值函数, 通过不断学习逼近哈密顿−雅可比−贝尔曼(Hamilton-Jacobi-Bellman, HJB)方程的解. 与以往不同的是, 由于系统存在时变项, 导致HJB方程也含有时变项, 因此需要设计具有时变权值结构的神经网络近似值函数. 最终证明在所设计的控制方法作用下, 闭环系统是一致最终有界的.
  • 随着移动机器人控制技术的发展, 移动机器人如今已广泛应用于工业生产、国防军事以及生活服务等众多方面[1]. 视觉传感器近年来逐渐变得价格经济、易于获取, 加上其本身具有获取环境信息丰富、外部感知能力强和适用范围广等特点, 因而广泛装备于移动机器人和其他智能体系统[2]. 由于视觉传感器的作用, 移动机器人的灵活性和智能性得到极大提高, 可以适应更加复杂的环境, 基于视觉的机器人的定位、环境感知与控制技术也得到了很大的发展[3]. 移动机器人视觉伺服控制主要有两大控制目标, 一种是位姿校正[4], 另一种是轨迹跟踪[5]. 在实际应用中, 轨迹跟踪相比位姿校正往往更加复杂且常见, 因此基于视觉的移动机器人轨迹跟踪吸引了大量学者的关注与研究.

    经典的视觉伺服控制主要分为基于图像的、基于位置的和混合视觉伺服控制. 基于图像的视觉伺服控制是通过在二维图像平面定义误差信号进行控制, 不需要利用移动机器人三维位姿信息, 且其对系统扰动具有鲁棒性, 但是很难控制移动机器人的偏转位姿[6]. 基于位置的视觉伺服控制需要在三维欧氏空间定义误差信号, 虽然需要进行三维重构, 但这样直接对三维空间的误差进行控制可以保证其收敛性. 由于移动机器人具有非完整约束特点以及单目相机深度信息的缺失造成系统带有不确定性参数, 设计移动机器人的控制器存在很多困难[7]. 根据Brockett定理, 连续定常的控制器无法实现对具有非完整约束的移动机器人位姿校正控制[8]. 为了克服非完整约束, 文献[9]提出了一种基于反步法的时变状态反馈跟踪控制方法. 然而其并未将视觉传感器引入到控制中, 并且一般假设系统状态是精确可测量的. 但在移动机器人的视觉伺服跟踪控制中, 由于视觉传感器的引入给系统带来了不确定性, 以往的设计方法并不能直接应用于视觉伺服控制中. 为了克服这些限制, 目前已提出了许多非线性控制方法. 文献[5]基于单应性技术设计了一种自适应控制器实现移动机器人的轨迹跟踪任务, 其视觉反馈由搭载于机器人上的相机提供. 为保持目标特征点在摄像机的视野范围内, 文献[10]设计了一种时变连续的混合视觉伺服控制器实现对移动机器人一致性跟踪与位姿校正任务. 为了在无需知道移动机器人位姿与速度信息下完成轨迹跟踪任务, 文献[11]提出了一种自适应控制方法实时估计移动机器人的位姿与速度. 近期, 也有一系列关于移动机器人的视觉伺服跟踪控制的相关成果[12-15]. 在上述针对移动机器人的视觉伺服跟踪控制中, 大多是为完成视觉跟踪任务, 但考虑最优性能指标的移动机器人视觉伺服最优跟踪控制问题仍待研究.

    考虑到移动机器人的视觉伺服轨迹跟踪控制问题的系统模型是一个时变仿射非线性系统. 自适应动态规划(Adaptive dynamic programming, ADP)是解决非线性最优控制问题的一种有效的方法[16-21]. ADP作为一类智能控制方法, 可以有效地解决传统动态规划中“维数灾”的问题, 同时具备处理复杂约束和不确定性的能力. 这类方法在处理具有强非线性、强耦合性的复杂非线性系统时, 具有自适应性、最优性和稳定性[22]. 求解基于ADP的移动机器人视觉伺服轨迹跟踪的最优控制, 需要求解哈密顿−雅可比−贝尔曼(Hamilton-Jacobi-Bellman, HJB)方程. 对于非线性定常系统来说, 其HJB方程是一个时不变的偏微分方程, 无法求得其解析解, 目前大部分求解方法都是设计合适的神经网络结构来近似未知项[23-24]. 文献[25]针对非线性不确定系统设计了三个神经网络分别近似系统状态、值函数和最优控制. 在系统模型已知的情况下, 文献[26]针对移动机器人控制问题提出了一种单网络自适应评价方法. 与上述一般非线性系统不同的是, 由于移动机器人系统模型固有的时变特性, 最优控制问题中的HJB方程含有两项偏微分项, 且值函数是状态与时间的函数, 这使得问题更加复杂. 在现有的研究中针对时变系统的最优控制还较少. 目前有两种神经网络的结构用于近似与时间相关的值函数: 1)带时变权值的神经网络[27-28]; 2)常数权值与时变激活函数的神经网络[29-30].

    当前基于ADP的移动机器人视觉伺服控制方法及理论仍然是一个开放性问题, 有待深入研究. 本文的贡献主要体现在以下几个方面.

    1)针对移动机器人视觉伺服控制, 提出了基于ADP的跟踪控制方法. 与现有视觉伺服控制方法相比, 本文设计的ADP控制方法是基于最优控制理论, 算法收敛后, 可得到近似最优控制器.

    2)现有的大多数工作针对定常系统设计, 而移动机器人视觉伺服控制系统为时变系统, 得到的HJB方程是时变的. 因而, 本文的工作与现有ADP方法在理论分析与实现存在显著区别, 这是本文主要解决的理论难题. 同时, 本文所提的基于ADP的跟踪控制方法对于一般性的时变仿射非线性系统的跟踪控制问题具有普适性和通用性.

    3)针对时变HJB方程, 本文设计了带时变权值的神经网络结构, 给出了一种新的权值更新律, 证明了神经网络权值的收敛性和闭环系统的稳定性. 同时, 在实验仿真中验证了该类结构具有较小的误差和快速收敛性.

    针对时变非线性系统的最优控制仍然与时不变系统存在不同之处, 同时带来许多挑战. 本文针对移动机器人视觉跟踪控制问题, 提出了一种新颖的基于ADP的跟踪控制方法. 考虑移动机器人系统模型的时变特性与非完整约束, 采用带时变权值的神经网络近似值函数, 并给出了一种新的权值更新律. 运用Lyapunov稳定性理论证明了权值的收敛性以及闭环系统状态是一致最终有界的.

    图1所示, 本文考虑带有单目相机的轮式移动机器人, 假设移动机器人的坐标系与相机坐标系相同. 当前相机坐标系记为$ F^{c} $, 坐标系$ F^{c} $的原点为移动机器人中心, $ x $轴方向为与移动机器人轮轴平行, $ z $轴方向为相机光轴方向. 由右手坐标系规则, $ y $轴垂直于移动机器人运动平面$ x z $向下. 坐标系$ F^{d} $与$ F^{*} $分别表示移动机器人在期望位姿和在固定参考位姿处的坐标系, 其$ x,y,z $轴的定义规则与坐标系$ F^{c} $相同. 在移动机器人的轨迹跟踪任务中, 期望轨迹在$ F^{d} $中由一系列关于特征点的图像描述. $ F^{*} $为固定参考坐标系, 由一张关于特征点的图像表示. $ \theta_{d} $和$ \theta $分别表示$ F^{d} $与$ F^{c} $相对参考坐标系$ F^{*} $绕$ y $轴的旋转角. 基于以上的坐标系定义, 本文的目标是设计一种视觉伺服跟踪控制器以确保移动机器人完成轨迹跟踪任务, 即当$ t \to \infty $时, $ F^{c} \to F^{d} $.

    图 1  视觉伺服轨迹跟踪任务描述
    Fig. 1  Visual servoing trajectory tracking task

    图1所示, 假设移动机器人仅做平面运动, 坐标系$ F^{*} $在坐标系$ F^{c} $中的位姿信息可以由$ [x,z,\theta]^{\mathrm{T}} $表示. 其中, $ x $和$ z $分别表示沿着$ x $轴和$ z $轴方向的平移, $ \theta $表示绕$ y $轴的旋转. 同样, 坐标系$ F^{*} $在坐标系$ F^{d} $中的位姿信息可以由$ [x_{d},z_{d},\theta_{d}]^{\mathrm{T}} $表示. 考虑$ N $个共面的静止特征点$ O_{i}\;(i = 1,2,\cdots,N) $, 其在坐标系$ F^{c},F^{d},F^{*} $的三维坐标分别为$ O_{i}^{c},O_{i}^{d},O_{i}^{*} $, 定义为

    $$ \begin{array}{l} O_{i}^{c} = \begin{bmatrix} X_{i}^{c} \\ Y_{i}^{c} \\ Z_{i}^{c} \end{bmatrix}, \quad O_{i}^{d} = \begin{bmatrix} X_{i}^{d} \\ Y_{i}^{d} \\ Z_{i}^{d} \end{bmatrix}, \quad O_{i}^{*} = \begin{bmatrix} X_{i}^{*} \\ Y_{i}^{*} \\ Z_{i}^{*} \end{bmatrix} \end{array} $$ (1)

    将三维坐标$ O_{i}^{c},O_{i}^{d},O_{i}^{*} $进行归一化[5]可得:

    $$ \begin{array}{l} m_{i}^{c} = \dfrac{O_{i}^{c}}{Z_{i}^{c}}, \quad m_{i}^{d} = \dfrac{O_{i}^{d}}{Z_{i}^{d}}, \quad m_{i}^{*} = \dfrac{O_{i}^{*}}{Z_{i}^{*}} \end{array} $$ (2)

    特征点$ O_{i} $在坐标系$ F^{c},F^{d},F^{*} $下对应的可测量齐次像素坐标$ p_{i}^{c},p_{i}^{d},p_{i}^{*} \in {\bf{R}}^{3} $分别为

    $$ \begin{array}{l} p_{i}^{c} = \begin{bmatrix} u_{i}^{c} \\ v_{i}^{c} \\ 1 \end{bmatrix}, \quad p_{i}^{d} = \begin{bmatrix} u_{i}^{d} \\ v_{i}^{d} \\ 1 \end{bmatrix}, \quad p_{i}^{*} = \begin{bmatrix} u_{i}^{*} \\ v_{i}^{*} \\ 1 \end{bmatrix} \end{array} $$ (3)

    由针孔相机模型可以得到特征点归一化三维欧氏坐标与可测量齐次像素坐标的关系为

    $$ \begin{array}{l} m_{i}^{c} = K^{-1} p_{i}^{c}, \: m_{i}^{d} = K^{-1} p_{i}^{d}, \: m_{i}^{*} = K^{-1} p_{i}^{*} \end{array} $$ (4)

    其中, $ K \in {\bf{R}}^{3 \times 3} $为相机标定矩阵, 为已知可逆常数矩阵. 由式 (4)得到的$ m_{i}^{c},m_{i}^{d},m_{i}^{*} $, 它们之间的关系可以通过坐标系间的平移与旋转描述, 即

    $$ \begin{array}{l} m_{i}^{c} = H_{c} m_{i}^{*} \end{array} $$ (5)
    $$ \begin{array}{l} m_{i}^{d} = H_{d} m_{i}^{*} \end{array} $$ (6)

    其中, $ H_{c},H_{d} \in {\bf{R}}^{3 \times 3} $分别为当前位置、期望位置与参考位置之间的单应性矩阵. 通过直接线性变换算法, 可以将单应性矩阵$ H_{c} $分解得到当前相机的尺度化平移$ [\bar{x},\bar{z}]^{\mathrm{T}} $和旋转角$ \theta $; 同样地, 将单应性矩阵$ H_{d} $分解得到期望的尺度化平移$ [\bar{x}_{d},\bar{z}_{d}]^{\mathrm{T}} $和旋转角$ \theta_{d} $[31]. 具体定义为

    $$ \begin{array}{l} \begin{bmatrix} \bar{x} \\ \bar{z} \end{bmatrix} = \dfrac{1}{d^{*}} \begin{bmatrix} x \\ z \end{bmatrix}, \quad \begin{bmatrix} \bar{x}_{d} \\ \bar{z}_{d} \end{bmatrix} = \dfrac{1}{d^{*}} \begin{bmatrix} x_{d} \\ z_{d} \end{bmatrix} \end{array} $$ (7)

    其中, $ d^{*} $为深度信息常量, 表示固定参考坐标系$ F^{*} $的原点到特征点平面的距离, 即$ d^{*} = Z_{i}^{*} $. 由前文的描述可知, 当$ t \to \infty $时, 若$ [\bar{x},\bar{z},\theta]^{\mathrm{T}} \to [\bar{x}_{d},\bar{z}_{d},\theta_{d}]^{\mathrm{T}} $, 则表示移动机器人完成了轨迹跟踪任务.

    移动机器人$ F^{c} $的位姿信息在坐标系$ F^{*} $中记为$ [x^{*},z^{*},\theta^{*}] .$ 经典的移动机器人连续时间运动学模型可以表达为

    $$ \left\{\begin{aligned} &{{{\dot x}^*}}{ = v\sin ({\theta ^*})}\\ &{{{\dot z}^*}}{ = v\cos ({\theta ^*})}\\ &{{{\dot \theta }^*}}{ = \omega } \end{aligned}\right. $$ (8)

    其中, $ v $和$ \omega $分别为移动机器人的线速度与角速度. 通过坐标变换可以得到$ [x,z,\theta]^{\mathrm{T}} $与$ [x^{*},z^{*},\theta^{*}]^{\mathrm{T}} $之间的关系, 即

    $$ \begin{array}{l} \begin{bmatrix} x \\ z \\ \theta \end{bmatrix} = \begin{bmatrix} -\cos(\theta^{*}) & \sin(\theta^{*}) & 0 \\ -\sin(\theta^{*}) & -\cos(\theta^{*}) & 0 \\ 0 & 0 & -1 \end{bmatrix} \begin{bmatrix} x^{*} \\ z^{*} \\ \theta^{*} \end{bmatrix} \end{array} $$ (9)

    对式 (9)求关于时间$ t $的导数, 并将式 (8)代入求导结果, 可得

    $$ \begin{array}{l} \dot{x} = -z \omega, \quad \dot{z} = -v + x \omega, \quad \dot{\theta} = -\omega \end{array} $$ (10)

    同理, 期望的位姿信息在坐标系$ F^{*} $中记为$ [x_{d}^{*},z_{d}^{*},\theta_{d}^{*}] $. $ v_{d},\omega_{d} $分别为移动机器人期望的线速度与角速度. 则期望的位姿信息对时间$ t $的导数为

    $$ \begin{array}{l} {\dot x_{d}} = -z_{d} \omega_{d}, \quad {\dot z_{d}} = -v_{d} + x_{d} \omega_{d}, \quad \dot{\theta}_{d} = -\omega_{d} \end{array} $$ (11)

    将式 (7)代入式 (10)和式 (11), 可得

    $$ {\dot {\bar x}} = - {\bar z}\omega ,\quad \dot {\bar z} = - \frac{v}{{{d^*}}} + {\bar x}\omega ,\quad \dot \theta = - \omega $$ (12)
    $$ \dot{\bar{x}}_{d} = -\bar{z}_{d} \omega_{d}, \quad \dot{\bar{z}}_{d} = -\dfrac{v_{d}}{d^{*}} + \bar{x}_{d} \omega_{d}, \quad \dot{\theta}_{d} = -\omega_{d} $$ (13)

    移动机器人轨迹跟踪误差定义为

    $$ \begin{array}{l} e = \begin{bmatrix} e_{x} \\ e_{z} \\ e_{\theta} \end{bmatrix} = \begin{bmatrix} \bar{x} \\ \bar{z} \\ \theta \end{bmatrix} - \begin{bmatrix} \cos(e_{\theta}) & \sin(e_{\theta}) & 0 \\ -\sin(e_{\theta}) & \cos(e_{\theta}) & 0 \\ 0 & 0 & 1 \end{bmatrix} \begin{bmatrix} \bar{x}_{d} \\ \bar{z}_{d} \\ {\theta}_{d} \end{bmatrix} \end{array} $$ (14)

    其中, $ e_{x},e_{z} $表示平移误差, $ e_{\theta} $为旋转误差. 由式 (14)可知, 当$ e \to 0 $时, 则$ [\bar{x},\bar{z},\theta] \to [\bar{x}_{d},\bar{z}_{d},\theta_{d}] $. 因此上述问题转换为设计一反馈控制律使得$ e \to 0 $, 则表示移动机器人完成了轨迹跟踪任务. 对式 (14) 求关于时间的导数, 并将式 (12)和式 (13)代入, 可得

    $$ \begin{equation} \left\{ \begin{aligned} &{\dot e_{x}} = -e_{z} \omega + \dfrac{v_{d}}{d^{*}}\sin(e_{\theta}) \\ &{\dot e_{z}} = \dfrac{-v}{d^{*}}+e_{x} \omega + \dfrac{v_{d}}{d^{*}}\cos(e_{\theta}) \\ &{\dot e_{\theta}} = -\omega+{\omega}_{d} \end{aligned} \right. \end{equation} $$ (15)

    为了便于后续对跟踪控制问题控制器的设计, 受文献[32]启发, 使用如下输入变换:

    $$ \begin{equation} \left\{ \begin{aligned} &v = v_{d} \cos(e_{\theta}) - u_{v} \\ &\omega = \omega_{d} - u_{\omega} \end{aligned} \right. \end{equation} $$ (16)

    其中, $ u_{v},u_{\omega} $为新的输入控制量, 可见上述变换也是可逆的. 由此可以推导出新的误差模型, 即

    $$ \begin{equation} \left\{ \begin{aligned} &\dot e_{x} = -e_{z} \omega_{d} + \dfrac{v_{d}}{d^{*}}\sin(e_{\theta}) + e_{z} u_{\omega} \\ &\dot e_{z} = e_{x} \omega_{d} + \dfrac{u_{v}}{d^{*}} - e_{x} u_{\omega} \\ &\dot e_{\theta} = u_{\omega} \end{aligned} \right. \end{equation} $$ (17)

    为估计深度参数信息, 深度参数$ d^{*} $的估计更新律设计采用与文献[33]类似方法, 且其收敛性已在文献中得到证明.

    在移动机器人跟踪控制任务中, 期望轨迹的速度$ v_{d}(t),\omega_{d}(t) $是随时间变化的, 导致在误差模型 (17)中含有时变项. 本节基于ADP方法设计最优控制器以保证移动机器人完成轨迹跟踪任务, 采用评价神经网络结构近似最优值函数, 求解最优控制输入.

    由误差动力学方程 (17)可知, 该系统是一个连续时间仿射非线性系统, 可以表示为

    $$ \begin{array}{l} \dot{e} = f(e,t) + g(e) u \end{array} $$ (18)

    其中,

    $$ \begin{aligned} &{f(e,t) = }{\left[ {\begin{array}{*{20}{c}} { - {e_z}{\omega _d} + \dfrac{{{v_d}}}{{{d^*}}}\sin ({e_\theta })}\\ {{e_x}{\omega _d}}\\ 0 \end{array}} \right]}\\ &{g(e) = }{\left[ {\begin{array}{*{20}{c}} 0&{{e_z}}\\ {\dfrac{1}{{{d^*}}}}&{ - {e_x}}\\ 0&1 \end{array}} \right],u = {{[{u_v},{u_\omega }]}^{\rm{T}}}} \end{aligned} $$

    注意到系统状态方程 (18)中控制输入为二维, 而系统状态为三维, 可见该系统是一个欠驱动系统.

    假设 1. 期望的移动机器人的位姿和速度$x_{d}^{*}, z_{d}^{*}, \theta_{d}^{*},v_{d},\omega_{d}$是有界的, 且$\Vert f(e,t) \Vert \le f_{M}\Vert e \Vert, \Vert g(e) \Vert \le g_{M}$.

    针对此系统的最优控制问题, 本文的目标是设计一个反馈控制策略使得下列定义的值函数最小, 即

    $$ V(e(t),t) = \int_{t}^{\infty} L(e(\tau),u(e),\tau){{\rm{d}}} \tau $$ (19)

    其中, 效用函数取为$L(e,u,t) = Q(e)+ u^{\mathrm{T}}Ru$, $ Q(e) $是正定的, 即对于$ \forall e \ne 0,Q(e)>0 $且 $e = 0\Rightarrow$$ Q(e) =0 $, $ R \in {\bf{R}}^{2 \times 2} $为对称正定矩阵. 沿着系统轨迹 (18), 对值函数求时间微分, 可得如下时变Lyapunov方程[34]

    $$ \begin{split} -\dfrac{\partial V(e,t)}{\partial t} = \;& \dfrac{\partial V^{\mathrm{T}}(e,t)}{\partial e}[f(e,t)+g(e)u]\;+ \\ &Q(e)+u^{\mathrm{T}}Ru \end{split} $$ (20)

    为了便于描述, 定义$\nabla_{e} = \frac{\partial}{\partial e},\nabla_{t} = \frac{\partial}{\partial t}$. 接下来, 定义哈密顿函数为

    $$ \begin{split} &H(e,u,\nabla_{e}V(e,t),t) = Q(e) + u^{\mathrm{T}}Ru+\nabla_{t}V(e,t)\;+ \\ &\qquad\nabla_{e}V^{\mathrm{T}}(e,t)[f(e,t)+g(e)u]\\[-10pt] \end{split} $$ (21)

    注意到与其他仿射非线性系统无穷时域最优控制情况不同, 式 (21)是与时间$ t $直接相关的. 根据最优性原理, 当$ \frac{\partial H}{\partial u} = 0 $时, 可得最优控制为

    $$ \begin{array}{l} u^{*}(e,t) = -\dfrac{1}{2}R^{-1}{g^{\mathrm{T}}(e)} \nabla_{e}V^{*}(e,t) \end{array} $$ (22)

    将式 (22)代入式 (20), 可得时变HJB方程

    $$ \begin{split} 0 =\;& \nabla_{t}V^{*}(e,t) + \nabla_{e}V^{*{\rm{T}}}(e,t)[f(e,t)+g(e)u^{*}]\;+ \\ & Q(e) + {u^{*}}^{\mathrm{T}} R u^{*} = \\ & \nabla_{t}V^{*}(e,t) + \nabla_{e}V^{*{\rm{T}}}(e,t)f(e,t) + Q(e)\;- \\ & \dfrac{1}{4} \nabla_{e}V^{*{\rm{T}}}(e,t) g(e) R^{-1} g^{\mathrm{T}}(e) \nabla_{e}V^{*}(e,t)\\[-15pt] \end{split} $$ (23)

    注意到HJB方程 (23)是一个偏微分方程, 很难直接求得此方程的解析解, 因此这里使用神经网络近似估计最优值函数$ V^{*}(e,t) $, 以期望求得近似最优的反馈控制.

    与时不变仿射非线性系统最优控制问题不同的是, 这里的最优值函数$ V^{*}(e,t) $与时间变量$ t $相关. 受文献[35]启发, 带时变权值的神经网络结构可以用来近似一致连续时变函数. 假设$ V^{*}(e,t) $是光滑的, 则最优值函数$ V^{*}(e,t) $可由下列神经网络形式表示

    $$ \begin{array}{l} V^{*}(e,t) = W^{\mathrm{T}}(t) \phi(e) + \varepsilon(e,t) \end{array} $$ (24)

    其中, $ W(t) \in {\bf{R}}^{L} $为真实的神经网络权值向量, $ L \in {\bf{R}},L >0 $为隐含层节点数, 随着神经网络隐含层节点数增加, 逼近误差会不断减小[35], 即当$ L \to \infty $, $ \varepsilon(e,t) \to 0 $. $ \phi(e) = [\phi_{1}(e), \cdots, \phi_{L}(e)]^{\mathrm{T}} \in {\bf{R}}^{L} $为与状态相关的连续可微的激活函数, $ \varepsilon(e,t) $为神经网络逼近误差. 对最优值函数$ V^{*}(e,t) $求分别关于$ e $和$ t $的偏导

    $$ \begin{array}{l} \nabla_{e}V^{*}(e,t) = \nabla_{e}^{\mathrm{T}} \phi(e) W(t) + \nabla_{e} \varepsilon(e,t) \end{array} $$ (25)
    $$ \begin{array}{l} \nabla_{t}V^{*}(e,t) = \dot{W}^{\mathrm{T}}(t) \phi(e) + \nabla_{t} \varepsilon(e,t) \end{array} $$ (26)

    假设 2. 神经网络逼近误差$ \varepsilon(e,t) $以及其分别关于状态$ e $与时间$ t $的偏导数$ \nabla_{e} \varepsilon(e,t),\nabla_{t} \varepsilon(e,t) $是有界的. 真实的神经网络权值$ W(t) $以及其对时间的导数$ \dot{W}(t) $是有界的, 激活函数$ \phi(e) $以及其对$ e $的偏导数$ \nabla_{e} \phi(e) $是有界的: $\Vert \varepsilon(e,t)\Vert \le \varepsilon_{M}, \Vert \nabla_{e} \varepsilon(e,t) \Vert \le \varepsilon_{eM},$ $\Vert \nabla_{t} \varepsilon(e,t) \Vert \le \varepsilon_{tM}, $ $\Vert W(t) \Vert\; \le\; W_{M}, \Vert \dot{W}(t) \Vert \le W_{tM},$ $ \Vert \phi(e) \Vert \le \phi_{M}, \Vert \nabla_{e} \phi(e) \Vert \le \phi_{eM} $.

    将式 (25)代入式 (22)中, 最优控制输入可以表示为

    $$ \begin{split} u^{*}(e,t) = \;& -\dfrac{1}{2}R^{-1}g^{\mathrm{T}}(e) \nabla_{e} \phi^{\mathrm{T}}(e) W(t)\;- \\ & \dfrac{1}{2} R^{-1} g^{\mathrm{T}}(e) \nabla_{e}\varepsilon(e,t) \end{split} $$ (27)

    将式 (25) ~ (27)代入HJB方程 (23)中, 得到

    $$ \begin{split} 0 = \;& \dot{W}^{\mathrm{T}}(t) \phi(e) + W^{\mathrm{T}}(t) \nabla_{e} \phi(e)[f(e,t)+ g(e)u^{*}]\;+ \\ &Q(e) + {u^{*}}^{\mathrm{T}}Ru^{*} + \varepsilon_{v}(e,t) = \\ & \dot{W}^{\mathrm{T}}(t) \phi(e) + W^{\mathrm{T}}(t) \nabla_{e} \phi(e)f(e,t) + Q(e)\;- \\ & \dfrac{1}{4}W^{\mathrm{T}}(t) \nabla_{e} \phi(e) g(e) R^{-1} g^{\mathrm{T}}(e) \nabla_{e}^{\mathrm{T}} \phi(e) W(t)\;+ \\ & \varepsilon_{hjb}(e,t)\\[-10pt] \end{split} $$ (28)

    其中, $\varepsilon_{v}(e,t) = \nabla_{e}^{\mathrm{T}} \varepsilon(e,t) [f(e,t) + g(e)u^{*}] + \nabla_{t} \varepsilon(e,t)$. $ \varepsilon_{hjb}(e,t) $为HJB方程的残差, 即

    $$ \begin{split} \varepsilon_{hjb}(e,t) = \;& \nabla_{t} \varepsilon(e,t) + \nabla_{e}^{\mathrm{T}} \varepsilon(e,t) f(e,t)\;- \\ & \dfrac{1}{2}W^{\mathrm{T}}(t) \nabla_{e} \phi(e) D_{1}(e) \nabla_{e}\varepsilon(e,t)\;- \\ & \dfrac{1}{4} \nabla_{e}^{\mathrm{T}}\varepsilon(e,t) D_{1}(e) \nabla_{e}\varepsilon(e,t) \end{split} $$ (29)

    其中, $ D_{1}(e) = g(e) R^{-1} g^{\mathrm{T}}(e) $. 根据文献[36], 随着神经网络隐含层节点数$ L \to \infty $, HJB方程残差$ \varepsilon_{hjb}(e,t) \to 0 $, 即对于$\forall \varepsilon_{h} > 0, \exists L : \Vert \varepsilon_{hjb}(e,t) \Vert < \varepsilon_{h}$.

    由于真实的神经网络权值$ W $是未知的, 设计一个评价神经网络近似最优值函数 (24), 即

    $$ \begin{array}{l} \hat{V}(e(t),t) = \hat{W}^{\mathrm{T}}(t) \phi(e(t)) \end{array} $$ (30)

    其中, $ \hat{V}(e(t),t) $为近似最优值函数, $ \hat{W} \in {\bf{R}}^{L} $为真实权值的估计值. $ \phi(e(t)) $满足: 若$ \Vert e \Vert = 0 $, 则$ \Vert \phi(0) \Vert = 0 $. 根据式 (27)和式 (30), 可得近似最优控制为

    $$ \begin{array}{l} \hat{u}(e,t) = -\dfrac{1}{2}R^{-1}g^{\mathrm{T}}(e) \nabla_{e} \phi^{\mathrm{T}}(e) \hat{W}(t) \end{array} $$ (31)

    定义真实最优控制输入与近似最优控制输入之差为

    $$ \begin{array}{l} \tilde{u} = u^{*} - \hat{u} \end{array} $$ (32)

    将式 (27)和式 (31)代入式 (32)中, 可得

    $$ \begin{split} \tilde{u} = \;& -\dfrac{1}{2}R^{-1}g^{\mathrm{T}}(e) \nabla_{e}^{\mathrm{T}} \phi(e) \tilde{W}(t)\;- \\ & \dfrac{1}{2} R^{-1} g^{\mathrm{T}}(e) \nabla_{e}\varepsilon(e,t) \end{split} $$ (33)

    将式 (30)和式 (31)分别作为近似最优值函数和近似最优控制代入哈密顿函数 (21)中, 可得

    $$ \begin{split} \delta = \;& \;H(e,\hat{u},\nabla_{e}\hat{V}(e,t),t) = \\ & \dot{\hat{W}}^{\mathrm{T}}(t) \phi(e) + Q(e) + \hat{u}^{\mathrm{T}}R\hat{u}\;+ \\ & \hat{W}^{\mathrm{T}}(t)\nabla_{e} \phi(e)[f(e,t)+g(e)\hat{u}] \end{split} $$ (34)

    根据式 (34), 定义目标误差函数为

    $$ \begin{array}{l} E = \dfrac{1}{2} \delta^{2} \end{array} $$ (35)

    为使目标误差函数$ E $不断减小, 结合梯度下降法的思想设计权值更新律为

    $$ \begin{array}{l} \dot{\hat{W}}(t) = -\alpha \dfrac{\sigma [\sigma^{\mathrm{T}} \hat{W}(t) + Q(e) + \hat{u}^{\mathrm{T}}R\hat{u}]}{(\sigma^{\mathrm{T}} \sigma + 1)^{2} + \alpha \sigma \phi^{\mathrm{T}}(e)} \end{array} $$ (36)

    其中, $ \sigma = \nabla_{e} \phi(e) \left[ f(e,t) + g(e)\hat{u} \right] \in {\bf{R}}^{L} $, $ \alpha $为评价网络权值的学习率. 值得一提的是, 权值更新律 (36)的设计主要有两方面的考虑: 1) 为使式 (35) 给出的目标误差函数$ E $不断减小, 因而采用梯度下降的思想; 2) 为了保证系统的稳定性, 详细的稳定性分析见第3节. 神经网络权值估计误差定义为

    $$ \begin{array}{l} \tilde{W}(t) = W(t) - \hat{W}(t) \end{array} $$ (37)

    根据式 (36), 可得

    $$ \begin{split}& (\sigma^{\mathrm{T}} \sigma + 1)^{2}\dot{\hat{W}}(t) + \alpha \sigma \phi^{\mathrm{T}}(e)\dot{\hat{W}}(t) = \\&\qquad-\alpha \sigma \big[ \hat{u}^{\mathrm{T}}R\hat{u}+\sigma^{\mathrm{T}} \hat{W}(t)+ Q(e)\big] \end{split} $$ (38)

    将等式 (38)左边第2项移到右边, 可得

    $$ \begin{split} (\sigma^{\mathrm{T}} \sigma + 1)^{2} \dot{\hat{W}}(t) =\;& -\alpha \sigma [ \phi^{\mathrm{T}}(e) \dot{\hat{W}}(t) + \sigma^{\mathrm{T}} \hat{W}(t) \;+ \\ & Q(e)+ \hat{u}^{\mathrm{T}}R\hat{u}]\\[-10pt] \end{split} $$ (39)

    由式 (39), 可得:

    $$ \begin{array}{l} \dot{\hat{W}}(t) = -\alpha \dfrac{\sigma [\phi^{\mathrm{T}}(e) \dot{\hat{W}}(t) + \sigma^{\mathrm{T}} \hat{W}(t) + Q(e) + \hat{u}^{\mathrm{T}}R\hat{u}]}{(\sigma^{\mathrm{T}} \sigma + 1)^{2} } \end{array} $$ (40)

    根据式 (31), 可得

    $$ \begin{split} \hat{u}^{\mathrm{T}}R\hat{u} = \;& \dfrac{1}{4}\hat{W}^{\mathrm{T}}(t) \nabla_{e} \phi(e) g(e) R^{-1} g^{\mathrm{T}}(e) \nabla_{e}^{\mathrm{T}} \phi(e) \hat{W}(t) = \\ & \dfrac{1}{4}\hat{W}^{\mathrm{T}}(t) D_{2}(e) \hat{W}(t)\\[-15pt] \end{split} $$ (41)

    其中, $D_{2} (e)= \nabla_{e} \phi(e) g(e) R^{-1} g^{\mathrm{T}}(e) \nabla_{e}^{\mathrm{T}} \phi(e)$. 对式 (37)求时间导数, 将式 (40)和式 (41)代入其中, 可得神经网络权值估计误差的动力学方程为

    $$ \begin{split} &\dot{\tilde{W}}(t) = \dot{W} (t)- \dot{\hat{W}}(t) = \dot{W} (t)\;+\\ & \;\;\;\; \alpha \dfrac{\sigma [\phi^{\mathrm{T}}(e) \dot{\hat{W}} (t)+ \sigma^{\mathrm{T}} \hat{W} (t)+ Q(e) + \hat{u}^{\mathrm{T}}R\hat{u}]}{(\sigma^{\mathrm{T}} \sigma + 1)^{2} } = \\ &\;\;\;\;\dot{W} (t)+ \alpha \dfrac{\sigma }{(\sigma^{\mathrm{T}} \sigma + 1)^{2} } \Big( \phi^{\mathrm{T}}(e) \dot{\hat{W}} (t)\;+\\ &\;\;\;\; \sigma^{\mathrm{T}} \hat{W}(t) + Q(e)+ \dfrac{1}{4}\hat{W}^{\mathrm{T}}(t) D_{2}(e) \hat{W}(t) \Big)\\[-15pt] \end{split} $$ (42)

    定理 1. 针对式 (18)描述的非线性时变仿射系统, 以式 (31)为控制输入, 式 (36) 为评价神经网络的权值更新律, 则闭环系统的状态$ e $与评价网络的权值估计误差$ \tilde{W}(t) $是一致最终有界的.

    证明. 选择Lyapunov函数形式为

    $$ \begin{array}{l} L(t) = L_{w}(t) + L_{v}(t) \end{array} $$ (43)

    其中, $ L_{w}(t) = \frac{1}{2} \tilde{W}^{\mathrm{T}}(t) \tilde{W}(t),L_{v}(t) = V^{*}(e,t) $ (简洁起见, 后文将$W (t) $简写为$W) $. 对式 (43)求关于时间的导数, 得到

    $$ \begin{array}{l} \dot{L}(t) = \dot{L}_{w}(t) + \dot{L}_{v}(t) \end{array} $$ (44)

    根据式 (42), $ \dot{L}_{w}(t) $可以表示为

    $$ \begin{split} \dot{L}_{w} = \;& \tilde{W}^{\mathrm{T}} \dot{\tilde{W}} = \\ & \tilde{W}^{\mathrm{T}} \dot{W} + \tilde{W}^{\mathrm{T}} \dfrac{\alpha \sigma}{(\sigma^{\mathrm{T}} \sigma + 1)^{2}}\Bigl( \phi^{\mathrm{T}}(e) \dot{\hat{W}} + \sigma^{\mathrm{T}} \hat{W}\;+ \\ & Q(e) + \hat{u}^{\mathrm{T}}R\hat{u} \Bigr) = \\ & \tilde{W}^{\mathrm{T}} \dot{W} + \tilde{W}^{\mathrm{T}} \dfrac{\alpha \sigma}{(\sigma^{\mathrm{T}} \sigma + 1)^{2}}\Bigl( \phi^{\mathrm{T}}(e) \dot{\hat{W}} + \sigma^{\mathrm{T}} \hat{W}\;+ \\ & Q(e) + \dfrac{1}{4} \hat{W}^{\mathrm{T}} D_{2} \hat{W} - \phi^{\mathrm{T}}(e)\dot{W} - \sigma^{\mathrm{T}}W\;- \\ & Q(e) - \dfrac{1}{4}W^{\mathrm{T}} D_{2} W - \varepsilon_{hjb} \Bigr) = \\ & \tilde{W}^{\mathrm{T}} \dot{W} + \tilde{W}^{\mathrm{T}} \dfrac{\alpha \sigma}{(\sigma^{\mathrm{T}} \sigma + 1)^{2}}\Bigl( \phi^{\mathrm{T}}(e) \dot{\hat{W}}\;- \\ & \phi^{\mathrm{T}}(e)\dot{W} + \sigma^{\mathrm{T}} \hat{W} - \sigma^{\mathrm{T}}W + Q(e)\;+ \\ & \dfrac{1}{4} \hat{W}^{\mathrm{T}} D_{2} \hat{W} - Q(e) - \dfrac{1}{4}W^{\mathrm{T}} D_{2} W - \varepsilon_{hjb} \Bigr) = \\ & \tilde{W}^{\mathrm{T}} \dot{W} + \tilde{W}^{\mathrm{T}} \dfrac{\alpha \sigma}{(\sigma^{\mathrm{T}} \sigma + 1)^{2}}\Bigl( -\phi^{\mathrm{T}}(e) \dot{\tilde{W}}\;- \\ & (\nabla_{e} \phi(e) f(e,t))^{\mathrm{T}} \tilde{W} - \dfrac{1}{2}\hat{W}^{\mathrm{T}} D_{2} \hat{W}\;+ \\ & \dfrac{1}{2}W^{\mathrm{T}} D_{2} W + \dfrac{1}{4} \hat{W} D_{2} \hat{W} - \dfrac{1}{4}W^{\mathrm{T}} D_{2} W - \varepsilon_{hjb} \Bigr) = \\ & \tilde{W}^{\mathrm{T}} \dot{W} + \tilde{W}^{\mathrm{T}} \dfrac{\alpha \sigma}{(\sigma^{\mathrm{T}} \sigma + 1)^{2}}\Bigl( -\phi^{\mathrm{T}}(e) \dot{\tilde{W}}\;- \\ & (\nabla_{e} \phi(e) f(e,t))^{\mathrm{T}} \tilde{W} + \dfrac{1}{4}\tilde{W}^{\mathrm{T}} D_{2} \tilde{W}\;+ \\ & \dfrac{1}{2}\tilde{W}^{\mathrm{T}} D_{2} \hat{W} - \varepsilon_{hjb} \Bigr) = \\ & \tilde{W}^{\mathrm{T}} \dot{W} + \tilde{W}^{\mathrm{T}} \dfrac{\alpha \sigma}{(\sigma^{\mathrm{T}} \sigma + 1)^{2}}\Bigl( -\phi^{\mathrm{T}}(e) \dot{\tilde{W}} - \sigma^{\mathrm{T}} \tilde{W}\;+ \\ & \dfrac{1}{4}\tilde{W}^{\mathrm{T}} D_{2} \tilde{W} - \varepsilon_{hjb} \Bigr) \\[-15pt]\end{split} $$ (45)

    由式 (45), 可得:

    $$ \begin{split} &\left(1 + \dfrac{\alpha \sigma \phi^{\mathrm{T}}(e)}{(\sigma^{\mathrm{T}} \sigma + 1)^{2}}\right)\tilde{W}^{\mathrm{T}} \dot{\tilde{W}} = \tilde{W}^{\mathrm{T}} \dot{W} \;+ \\ &\;\;\;\;\;\;\dfrac{\tilde{W}^{\mathrm{T}} \alpha \sigma}{(\sigma^{\mathrm{T}} \sigma + 1)^{2}}\Bigl( -\sigma^{\mathrm{T}} \tilde{W}+ \dfrac{1}{4}\tilde{W}^{\mathrm{T}} D_{2} \tilde{W}- \varepsilon_{hjb} \Bigr) \end{split} $$ (46)

    根据式 (46), 可得$ \dot{L}_{w} $为

    $$ \begin{split} \dot{L}_{w} = \;& \tilde{W}^{\mathrm{T}} \dot{\tilde{W}} = \\ & \dfrac{(\sigma^{\mathrm{T}} \sigma + 1)^{2}}{(\sigma^{\mathrm{T}} \sigma + 1)^{2} + \alpha \sigma \phi^{\mathrm{T}}} \Bigg( \tilde{W}^{\mathrm{T}} \dot{W}\;+ \\ &\tilde{W}^{\mathrm{T}} \dfrac{\alpha \sigma (-\sigma^{\mathrm{T}} \tilde{W} + \dfrac{1}{4}\tilde{W}^{\mathrm{T}} D_{2} \tilde{W} - \varepsilon_{hjb})}{(\sigma^{\mathrm{T}} \sigma + 1)^{2}} \Bigg) = \\ &\lambda_{\sigma} \tilde{W}^{\mathrm{T}} \dot{W} + \lambda_{\sigma} \tilde{W}^{\mathrm{T}} \alpha \bar{\sigma}\left(-\bar{\sigma}^{\mathrm{T}} \tilde{W} - \dfrac{\varepsilon_{hjb}}{m_{s}}\right)\;+ \\ & \dfrac{1}{4} \lambda_{\sigma} \alpha \tilde{W}^{\mathrm{T}} \dfrac{\bar{\sigma}}{m_{s}}\tilde{W}^{\mathrm{T}} D_{2} \tilde{W}\\[-15pt] \end{split} $$ (47)

    其中, $ \bar{\sigma} = {\sigma}/{(\sigma^{\mathrm{T}} \sigma + 1)} $, $ m_{s} = \sigma^{\mathrm{T}} \sigma + 1 $, $\lambda_{\sigma} = (\sigma^{\mathrm{T}} \sigma \;+ 1)^{2}/{((\sigma^{\mathrm{T}} \sigma + 1)^{2} + \alpha \sigma \phi^{\mathrm{T}}(e))}$. Lyapunov函数第2项$ L_{v} $关于时间$ t $的导数为

    $$ \begin{array}{l} \dot{L}_{v} = \dot{V}^{*} = \nabla_{t} V^{*} + \nabla_{e}V^{*} \dot{e} \end{array} $$ (48)

    将式 (18)、式 (25)和式 (26)代入式 (48), 可得

    $$ \begin{split} \dot{L}_{v} =\;& \nabla_{t} V^{*} + \nabla_{e}V^{*} \Big( f(e,t) + g(e) \hat{u} \Big) = \\ & \dot{W}^{\mathrm{T}}(t) \phi(e) + \nabla_{t} \varepsilon(e,t)\;+ \\ & \nabla_{e}V^{*} \Big( f(e,t) + g(e) \hat{u} \Big) = \\ & \dot{W}^{\mathrm{T}}(t) \phi(e) + \nabla_{t} \varepsilon(e,t) + \Big( \nabla_{e} \phi^{\mathrm{T}}(e) W(t) \;+\\ & \nabla_{e} \varepsilon(e,t) \Big) \Big( f(e,t) + g(e) \hat{u} \Big)\\[-10pt] \end{split} $$ (49)

    将式 (31)代入式 (49), 可得

    $$ \begin{split} \dot{L}_{v} = \;& \dot{W}^{\mathrm{T}}(t) \phi(e) + \nabla_{e} \phi^{\mathrm{T}}(e) W(t) f(e,t) \;- \\ &\dfrac{1}{2}W^{\mathrm{T}} D_{2} \hat{W}+ \varepsilon_{1} \end{split} $$ (50)

    其中, $\varepsilon_{1} \;= \;\nabla_{e} \varepsilon(e,t) ( f(e,t) \;- \;\frac{1}{2}D_{1}\nabla_{e}^{\mathrm{T}} \phi(e) \hat{W} )\; + \nabla_{t} \varepsilon(e,t)$. 由式 (50)可得

    $$ \begin{split} \dot{L}_{v} = \;& \dot{W}^{\mathrm{T}}(t) \phi(e) + \nabla_{e}^{\mathrm{T}} \phi(e) W(t) f(e,t)\; + \\ & \dfrac{1}{2}W^{\mathrm{T}} D_{2} (W - \hat{W}) - \dfrac{1}{2}W^{\mathrm{T}} D_{2} W + \varepsilon_{1} = \\ & \dot{W}^{\mathrm{T}}(t) \phi(e) + \nabla_{e}^{\mathrm{T}} \phi(e) W(t) f(e,t) \;+ \\ & \dfrac{1}{2}W^{\mathrm{T}} D_{2} \tilde{W}-\dfrac{1}{2}W^{\mathrm{T}} D_{2} W + \varepsilon_{1} \end{split} $$ (51)

    根据HJB方程 (28), 可得

    $$ \begin{split} & \nabla_{e}^{\mathrm{T}} \phi(e) W(t) f(e,t) - \dfrac{1}{2}W^{\mathrm{T}} D_{2} W = \\& \qquad -Q(e)- \dfrac{1}{4}W^{\mathrm{T}} D_{2} W - \dot{W}^{\mathrm{T}}(t) \phi(e) - \varepsilon_{hjb} \end{split} $$ (52)

    将式 (52)代入式 (51)中, 可得

    $$ \begin{split} \dot{L}_{v} = \;& \dot{W}^{\mathrm{T}}(t) \phi(e) + \dfrac{1}{2}W^{\mathrm{T}} D_{2} \tilde{W} -Q(e) \;- \\ & \dfrac{1}{4}W^{\mathrm{T}} D_{2} W - \dot{W}^{\mathrm{T}}(t) \phi(e) - \varepsilon_{hjb} + \varepsilon_{1} = \\ & \dfrac{1}{2}W^{\mathrm{T}} D_{2} \tilde{W} -Q(e) - \dfrac{1}{4}W^{\mathrm{T}} D_{2} W - \varepsilon_{hjb} + \varepsilon_{1} \end{split} $$ (53)

    将式 (47)和式 (53)相加, 可得Lyapunov函数的导数为

    $$ \begin{split} \dot{L} = \;& \dot{L}_{w} + \dot{L}_{v} = \\ & \lambda_{\sigma} \tilde{W}^{\mathrm{T}} \dot{W} + \lambda_{\sigma} \tilde{W}^{\mathrm{T}} \alpha \bar{\sigma}\left(-\bar{\sigma}^{\mathrm{T}} \tilde{W} - \dfrac{\varepsilon_{hjb}}{m_{s}}\right)\;+ \\ & \dfrac{1}{4} \lambda_{\sigma} \alpha \tilde{W}^{\mathrm{T}} \dfrac{\bar{\sigma}}{m_{s}}\tilde{W}^{\mathrm{T}} D_{2} \tilde{W} + \dfrac{1}{2}W^{\mathrm{T}} D_{2} \tilde{W}\;- \\ & Q(e) - \dfrac{1}{4}W^{\mathrm{T}} D_{2} W - \varepsilon_{hjb} + \varepsilon_{1} \end{split} $$ (54)

    根据假设1和假设2, 可得

    $$ \begin{split} \varepsilon_{1} = \;& \nabla_{e} \varepsilon(e,t) \Big( f(e,t) - \dfrac{1}{2}D_{1}\nabla_{e}^{\mathrm{T}} \phi(e) \hat{W} \Big)\;+\\ & \nabla_{t} \varepsilon(e,t) = \\ & \nabla_{e} \varepsilon(e,t) f(e,t) - \dfrac{1}{2} \nabla_{e} \varepsilon(e,t) D_{1}\nabla_{e}^{\mathrm{T}} \phi(e) (W\; - \\ & \tilde{W}) + \nabla_{t} \varepsilon(e,t)\le \varepsilon_{eM} f_{M}\Vert e \Vert\; +\\ & \dfrac{1}{2}\varepsilon_{eM}\phi_{eM} \Vert D_{1} \Vert (\Vert W \Vert + \Vert \tilde{W} \Vert)+ \varepsilon_{tM} \\[-15pt]\end{split} $$ (55)

    因为$ Q(e) $是正定的, 存在一个$ \lambda_{q} $使得$ e^{\mathrm{T}} \lambda_{q} e \le Q(e) $. 根据文献[36], 随着神经网络隐含层节点数$ L $的增大, HJB方程残差$ \varepsilon_{hjb}(e,t) $会逐渐收敛到零. 假设存在一正数$ \varepsilon_{hM} $, 选择合适的神经网络隐含层节点数$ L $, HJB方程残差满足: $ \varepsilon_{hjb} \le \varepsilon_{hM} $. 因而, 根据式 (54)和式 (55), 可得

    $$ \begin{array}{l} \dot{L} \le - \tilde{Z}^{\mathrm{T}} H_{1} \tilde{Z} + \tilde{Z}^{\mathrm{T}} H_{2} + c \end{array} $$ (56)

    其中,

    $$ \begin{split} &\tilde{Z} = \begin{bmatrix} e, \bar{\sigma}^{\mathrm{T}} \tilde{W}, \tilde{W}^{\mathrm{T}} \tilde{W}, \tilde{W} \end{bmatrix}^{\mathrm{T}} \\ &H_{1} = \begin{bmatrix} \lambda_{q}I & 0 & 0 & 0 \\ 0 & \alpha \lambda_{\sigma} & -\dfrac{\alpha \lambda_{\sigma} D_{2}^{\mathrm{T}} }{8m_{s}} & 0 \\ 0 & -\dfrac{\alpha \lambda_{\sigma} D_{2} }{8m_{s}} & 0 & 0 \\ 0 & 0 & 0 & 0 \end{bmatrix} \\ &H_{2} = \begin{bmatrix} \varepsilon_{eM} f_{M} \\ \dfrac{\varepsilon_{hM}}{m_{s}} \\ 0 \\ \lambda_{\sigma} \Vert \dot{W} \Vert + \dfrac{1}{2} \Vert W \Vert \Vert D_{1} \Vert + \dfrac{1}{2}\varepsilon_{eM} \phi_{eM} \Vert D \Vert \end{bmatrix} \end{split} $$
    $$ \begin{split} &c = \dfrac{1}{2}\Vert D_{2} \Vert \Vert W \Vert^{2} + \dfrac{1}{2}\varepsilon_{eM}\phi_{eM} \Vert D_{1} \Vert \Vert W \Vert \;+ \\ & \qquad\varepsilon_{tM} + \varepsilon_{hM} \end{split} $$

    式中, I为合适维度的单位矩阵. 选择参数使$ H_{1} > 0 $, 根据式 (56), 如果

    $$ \begin{array}{l} \Vert \tilde{Z} \Vert > \dfrac{\Vert H_{2} \Vert + \sqrt{\Vert H_{2} \Vert^2 + 4c\lambda_{\min}(H_{1})}}{2\lambda_{\min}(H_{1})} \equiv B_{Z} \end{array} $$ (57)

    则Lyapunov函数的导数$ \dot{L} < 0 $. 故闭环系统的状态$ e $与评价网络的权值估计误差$ \tilde{W} $是一致最终有界的.

    在这里, 有必要讨论一下本文与相关工作[16, 37-39]的区别. 在文献[37-38] 中, 采用基于策略迭代方法设计控制器, 与此不同, 本文则是基于ADP设计自适应控制器, 因而在实现方法与理论分析上存在着显著的差异. 在文献[16, 39]中, 考虑的是非线性离散时间系统的跟踪控制问题, 与本文方法的区别主要体现在: 文献[16, 39]考虑的是定常系统, 也就是说, 虽然期望轨迹为时变的, 但是针对的系统是定常系统, 也即时不变系统; 与文献[16, 39]不同, 本文考虑移动机器人视觉伺服跟踪控制问题, 不仅期望轨迹是时变的, 而且系统也是时变的. 因此, 文献[16, 39]与本文所针对的问题是完全不同的.

    为了验证本文提出的控制方法的有效性, 本节利用计算机进行仿真实验. 选择4个共面特征点作为视觉目标点, 以便能通过单应性矩阵分解成对应的平移与旋转量. 相机标定矩阵为

    $$ \begin{array}{l} K = \begin{bmatrix} 800\;{\rm{mm}} & 0 & 512 \\ 0 & 800\;{\rm{mm}} & 512 \\ 0 & 0 & 1 \end{bmatrix} \end{array} $$

    移动机器人初始的位姿设置为$[x(0),z(0),\theta(0)]^{\mathrm{T}} = [-4.5,-7.1,0.23]^{\mathrm{T}}$, 期望轨迹的初始位姿设置为$ [x_{d}(0),z_{d}(0),\theta_{d}(0)]^{\mathrm{T}} = [-3.5,-6.5,0.15]^{\mathrm{T}} $. 让移动机器人预先沿曲线运动获取一系列特征点的图像以定义期望轨迹. 初始的跟踪误差为$e(0) = [e_{x}(0),e_{z}(0), e_{\theta}(0)]^{\mathrm{T}} = [-1,-0.6,-0.08]^{\mathrm{T}}$. 为求解最优控制问题中的值函数, 选择神经网络的隐含层节点数$ L = 21 $, 选取激活函数为 $\phi(e) = [ e_{x}^{2},\; e_{z}^{2},\; e_{\theta}^{2},\; e_{x} e_{z},\; e_{x} e_{\theta},$ $e_{z} e_{\theta}, \; e_{x}^{4},\, e_{z}^{4},\, e_{\theta}^{4},$ $e_{x}^{2} e_{z}^{2},\, e_{x}^{2} e_{\theta}^{2},\, e_{z}^{2} e_{\theta}^{2},\, e_{x}^{2} e_{z} e_{\theta},$ $e_{x} e_{z}^{2} e_{\theta},\; e_{x} e_{z} e_{\theta}^{2}, \; e_{x}^{3} e_{z},\;e_{x}^{3} e_{\theta},$ $ e_{x} e_{z}^{3},\; e_{z}^{3} e_{\theta},\; e_{x} e_{\theta}^{3},\; e_{z}e_{\theta}^{3}]^{\mathrm{T}} $. 权值更新中的学习率设置为$ \alpha = 0.1 $, $ Q(e) = 0.5e^{\mathrm{T}}e $, 正定矩阵$ R = 0.1I $. 在仿真实验中, 移动机器人的初始姿态位置、期望轨迹初始姿态位置满足其能保证特征点始终在视野范围内. 初始位姿与期望的初始位姿相差较大则相应的收敛时间将变长, 而对最终的跟踪精度没有显著影响. 对于神经网络初始值的选取, 目前没有通用的方法, 通常只是基于经验和尝试. 在本文中, 仿真结果是通过多次实验尝试后, 选取了一组结果作为展示.

    图2 ~ 9展示了实验仿真结果. 由图2图3可以看出, 在本文设计的控制方法下系统状态最终收敛到零并且控制输入也随着时间最终趋于零. 神经网络的权值最终如期望的一样收敛于常数值如图4所示, 最终收敛权值为$\hat{W} = [0.0445,\;0.0458, \;0.0214,\;\;0.0048,\;\;0.0180,\;\;-0.0005,$ $0.0652,\;0.0174, \;0.0004,\;\;0.0430,\;0.0292,\;\;0.0021,\; -0.0021,$ $-0.0011, \;-0.0009,\;\;0.0077,\;\;0.0105,\; \;0.0048, 0.0003,\;\;0.0012$, $-0.0001]^{\mathrm{T}} $. 移动机器人的线速度和角速度如图5所示, 可以看出, 当前线速度和角速度与期望轨迹的线速度和角速度逐渐一致.

    图 2  系统响应
    Fig. 2  System response
    图 3  控制输入
    Fig. 3  Control input
    图 4  评价神经网络权值的收敛
    Fig. 4  Convergence of critic neural network weights
    图 5  移动机器人期望轨迹速度与实际运动速度
    Fig. 5  Desired and real velocities of the mobile robot
    图 6  HJB方程残差
    Fig. 6  The residual error of HJB equation
    图 7  利用本文时变权值神经网络结构方法的移动机器人期望轨迹与实际运动轨迹
    Fig. 7  Desired and real trajectories of the mobile robot using time-varying weights neural network structure method in this paper
    图 8  利用时变激活函数神经网络结构方法的移动机器人期望轨迹与实际运动轨迹
    Fig. 8  Desired and real trajectories of the mobile robot using time-varying activation neural network structure method
    图 9  特征点二维图像轨迹
    Fig. 9  2D image trajectories of the feature points

    在仿真过程中, 为了验证本文所提出算法的效果, 在保证选取同样网络层数和隐含层节点个数的前提下, 将本文提出的时变权值神经网络结构与文献$ [38] $中提出的时变激活函数NN结构进行对比. 在最优控制问题中, HJB方程的近似误差可以用于表征控制器对性能指标优化程度的好坏. 如图6所示, 在两种方法下HJB方程的残差最终均能收敛至零, 但本文所提方法的收敛速度相对要快很多.

    在两种方法下的移动机器人期望轨迹与实际运动轨迹如图7图8所示. 可见, 在本文所提的时变权值的神经网络结构方法下, 机器人的跟踪效果更好、跟踪误差更小. 此外, 特征点的二维图像轨迹如图9所示. 其中, 红色虚线表示期望图像轨迹, 实心圆点表示初始的期望图像, 五角星表示最终的期望图像; 蓝色实线表示当前的真实图像轨迹, 空心圆点表示初始的真实图像, 方形表示最终的真实图像. 由图9可知, 当前实际图像轨迹与期望的图像轨迹逐渐一致.

    本文设计了一种新的基于ADP的跟踪控制方法来解决移动机器人视觉伺服轨迹跟踪最优控制问题. 与以往控制对象不同的是移动机器人视觉伺服轨迹跟踪的误差系统模型是一个时变仿射非线性系统, 针对此系统的最优控制问题需要设计具有时变权值的神经网络近似值函数以求解时变的HJB方程. 运用Lyapunov稳定性理论证明了在本文提出的控制方法作用下神经网络权值的收敛性以及闭环系统的稳定性. 仿真实验结果验证了所提出方法的有效性与可行性.

  • 图  1  视觉伺服轨迹跟踪任务描述

    Fig.  1  Visual servoing trajectory tracking task

    图  2  系统响应

    Fig.  2  System response

    图  3  控制输入

    Fig.  3  Control input

    图  4  评价神经网络权值的收敛

    Fig.  4  Convergence of critic neural network weights

    图  5  移动机器人期望轨迹速度与实际运动速度

    Fig.  5  Desired and real velocities of the mobile robot

    图  6  HJB方程残差

    Fig.  6  The residual error of HJB equation

    图  7  利用本文时变权值神经网络结构方法的移动机器人期望轨迹与实际运动轨迹

    Fig.  7  Desired and real trajectories of the mobile robot using time-varying weights neural network structure method in this paper

    图  8  利用时变激活函数神经网络结构方法的移动机器人期望轨迹与实际运动轨迹

    Fig.  8  Desired and real trajectories of the mobile robot using time-varying activation neural network structure method

    图  9  特征点二维图像轨迹

    Fig.  9  2D image trajectories of the feature points

  • [1] 贾丙西, 刘山, 张凯祥, 陈剑. 机器人视觉伺服研究进展: 视觉系统与控制策略. 自动化学报, 2015, 41(5): 861-873

    Jia Bing-Xi, Liu Shan, Zhang Kai-Xiang, Chen Jian. Survey on robot visual servo control: Vision system and control strategies. Acta Automatica Sinica, 2015, 41(5): 861-873
    [2] Fomena R T, Tahri O, Chaumette F. Distance-based and orientation-based visual servoing from three points. IEEE Transactions on Robotics, 2011, 27(2): 256-267 doi: 10.1109/TRO.2011.2104431
    [3] 杨芳, 王朝立. 基于视觉伺服反馈的不确定非完整动态移动机器人的自适应镇定. 自动化学报, 2011, 37(7): 857-864 doi: 10.1016/S1874-1029(11)60211-5

    Yang Fang, Wang Chao-Li. Adaptive stabilization for uncertain nonholonomic dynamic mobile robots based on visual servoing feedback. Acta Automatica Sinica, 2011, 37(7): 857-864 doi: 10.1016/S1874-1029(11)60211-5
    [4] Jiang Z P. Robust exponential regulation of nonholonomic systems with uncertainties. Automatica, 2000, 36(2): 189-209 doi: 10.1016/S0005-1098(99)00115-6
    [5] Chen, J, Dixon, W E, Dawson, D M, McIntire, M. Homography-based visual servo tracking control of a wheeled mobile robot. IEEE Transactions on Robotics, 2006, 22(2): 406-415 doi: 10.1109/TRO.2006.862476
    [6] Liang X, Wang H, Chen W, Guo D, Liu T. Adaptive image-based trajectory tracking control of wheeled mobile robots with an uncalibrated fixed camera. IEEE Transactions on Control Systems Technology, 2015, 23(6): 2266-2282 doi: 10.1109/TCST.2015.2411627
    [7] 徐德. 单目视觉伺服研究综述. 自动化学报, 2018, 44(10): 1729-1746

    Xu De. A tutorial for monocular visual servoing. Acta Automatica Sinica, 2018, 44(10): 1729-1746
    [8] Brockett R W, Millman R S, Sussmann H J. Differential Geometric Control Theory. Michigan: Birkhauser Boston, 1983.
    [9] Jiang Z P, Nijmeijer H. Tracking control of mobile robots: A case study in backstepping. Automatica, 1997, 33(7): 1393-1399 doi: 10.1016/S0005-1098(97)00055-1
    [10] Li B, Fang Y, Hu G, Zhang X. Model-free unified tracking and regulation visual servoing of wheeled mobile robots. IEEE Transactions on Control Systems Technology, 2015, 24(4): 1328-1339
    [11] Li L, Liu Y H, Jiang T, Wang K, Fang M. Adaptive trajectory tracking of nonholonomic mobile robots using vision-based position and velocity estimation. IEEE Transactions on Cybernetics, 2017, 48(2): 571-582
    [12] Miao Z, Zhong H, Lin J, Wang Y, Chen Y, Fierro R. Vision-based bormation control of mobile robots with FOV constraints and unknown feature depth. IEEE Transactions on Control Systems Technology, 2021, 29(5): 2231-2238 doi: 10.1109/TCST.2020.3023415
    [13] Zhang K, Chen J, Li Y, Zhang X. Visual tracking and depth estimation of mobile robots without desired velocity information. IEEE Transactions on Cybernetics, 2020, 50(1): 361-373 doi: 10.1109/TCYB.2018.2869623
    [14] Lee S, Chwa D. Dynamic image-based visual servoing of monocular camera mounted omnidirectional mobile robots considering actuators and target motion via fuzzy integral sliding mode control. IEEE Transactions on Fuzzy Systems, 2021, 29(7): 2068-2076 doi: 10.1109/TFUZZ.2020.2985931
    [15] Wang R, Zhang X, Fang Y, Li B. Virtual-goal-guided RRT for visual servoing of mobile robots with FOV constraint. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2022, 52(4): 2073-2083 doi: 10.1109/TSMC.2020.3044347
    [16] Kiumarsi B, Lewis F L. Actor-critic-based optimal tracking for partially unknown nonlinear discrete-time systems. IEEE Transactions on Neural Networks and Learning Systems, 2014, 26(1): 140-151
    [17] Luo B, Wu H N, Li H X. Adaptive optimal control of highly dissipative nonlinear spatially distributed processes with neuro-dynamic programming. IEEE Transactions on Neural Networks and Learning Systems, 2015, 26(4): 684-696 doi: 10.1109/TNNLS.2014.2320744
    [18] Liu D, Xue S, Zhao B, Luo B, Wei Q. Adaptive dynamic programming for control: A survey and recent advances. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2021, 51(1): 142-160 doi: 10.1109/TSMC.2020.3042876
    [19] Ming Z, Zhang H, Yan Y, Zhang J. Tracking control of discrete-time system with dynamic event-based adaptive dynamic programming. IEEE Transactions on Circuits and Systems II: Express Briefs, 2022, 69(8): 3570-3574 doi: 10.1109/TCSII.2022.3168428
    [20] Li S, Ding L, Gao H, Liu Y J, Huang L, Deng Z. ADP-based online tracking control of partially uncertain time-delayed nonlinear system and application to wheeled mobile robots. IEEE Transactions on Cybernetics, 2020, 50(7): 3182-3194 doi: 10.1109/TCYB.2019.2900326
    [21] Kong L, He W, Yang C, Sun C. Robust neurooptimal control for a robot via adaptive dynamic programming. IEEE Transactions on Neural Networks and Learning Systems, 2021, 32(6): 2584-2594 doi: 10.1109/TNNLS.2020.3006850
    [22] 张化光, 张欣, 罗艳红, 杨珺. 自适应动态规划综述. 自动化学报, 2013, 39(4): 303-311 doi: 10.1016/S1874-1029(13)60031-2

    Zhang Hua-Guang, Zhang Xin, Luo Yan-Hong, Yang Jun. An overview of research on adaptive dynamic programming. Acta Automatica Sinica, 2013, 39(4): 303-311 doi: 10.1016/S1874-1029(13)60031-2
    [23] Liu D, Wang D, Wang F Y, Li H, Yang, X. Neural-network-based online HJB solution for optimal robust guaranteed cost control of continuous-time uncertain nonlinear systems. IEEE Transactions on Cybernetics, 2014, 44(12): 2834-2847 doi: 10.1109/TCYB.2014.2357896
    [24] 王鼎, 穆朝絮, 刘德荣. 基于迭代神经动态规划的数据驱动非线性近似最优调节. 自动化学报, 2017, 43(3): 366-375 doi: 10.16383/j.aas.2017.c160272

    Wang Ding, Mu Chao-Xu, Liu De-Rong. Data-driven nonlinear near-optimal regulation based on iterative neural dynamic programming. Acta Automatica Sinica, 2017, 43(3): 366-375 doi: 10.16383/j.aas.2017.c160272
    [25] Bhasin S, Kamalapurkar R, Johnson M, Vamvoudakis K G, Lewis F L, Dixon W E. A novel actor-critic-identifier architecture for approximate optimal control of uncertain nonlinear systems. Automatica, 2013, 49(1): 82-92 doi: 10.1016/j.automatica.2012.09.019
    [26] Lin W S, Yang P C. Adaptive critic motion control design of autonomous wheeled mobile robot by dual heuristic programming. Automatica, 2008, 44(11): 2716-2723 doi: 10.1016/j.automatica.2008.03.029
    [27] Cheng T, Lewis F L, Abu-Khalaf M. A neural network solution for fixed-final time optimal control of nonlinear systems. Automatica, 2007, 43(3): 482-490 doi: 10.1016/j.automatica.2006.09.021
    [28] Heydari A, Balakrishnan S N. Fixed-final-time optimal tracking control of input-affine nonlinear systems. Neurocomputing, 2014, 129(10): 528-539
    [29] Wang F Y, Jin N, Liu D, Wei Q. Adaptive dynamic programming for finite-horizon optimal control of discrete-time nonlinear systems with ε-error bound. IEEE Transactions on Neural Networks, 2010, 22(1): 24-36
    [30] Zhao Q, Xu H, Jagannathan S. Neural network-based finite-horizon optimal control of uncertain affine nonlinear discrete-time systems. IEEE Transactions on Neural Networks and Learning Systems, 2014, 26(3): 486-499
    [31] Hartley R, Zisserman A. Multiple View Geometry in Computer Vision. Cambridge: Cambridge University Press, 2003.
    [32] Siciliano B, Sciavicco L, Villani L, Oriolo G. Robotics: Modelling, Planning and Control. London: Springer-Verlag, 2009.
    [33] Zhang K, Chen J, Li Y, Zhang X. Visual tracking and depth estimation of mobile robots without desired velocity information. IEEE Transactions on Cybernetics, 2018, 50(1): 361-373
    [34] Lewis F L, Vrabie D L, Syrmos V L. Optimal Control, Third Edition. Hoboken: John Wiley & Sons, 2012.
    [35] Finlayson B A. The Method of Weighted Residuals and Variational Principles. Philadelphia: Society for Industrial and Applied Mathematics, 2013.
    [36] Abu-Khalaf M, Lewis F L. Nearly optimal control laws for nonlinear systems with saturating actuators using a neural network HJB approach. Automatica, 2005, 41(5): 779-791 doi: 10.1016/j.automatica.2004.11.034
    [37] Pakkhesal S, Shamaghdari S. Sum-of-squares-based policy iteration for suboptimal control of polynomial time-varying systems. Asian Journal of Control, 2022, 24(6): 3022-3031 doi: 10.1002/asjc.2689
    [38] Wei Q, Liao Z, Yang Z, Li B, Liu D. Continuous-time time-varying policy iteration. IEEE Transactions on Cybernetics, 2020, 50(12): 4958-4971 doi: 10.1109/TCYB.2019.2926631
    [39] Zhang H, Cui L, Zhang X, Luo Y. Data-driven robust approximate optimal tracking control for unknown general nonlinear systems using adaptive dynamic programming method. IEEE Transactions on Neural Networks, 2011, 22(12): 2226-2236 doi: 10.1109/TNN.2011.2168538
  • 期刊类型引用(4)

    1. 夏晓斌. 复杂环境下全方位移动机器人滑模轨迹跟踪自动化控制方法. 自动化与仪表. 2025(01): 59-63 . 百度学术
    2. 牟雪琪,于海生,张鹏鑫,杨庆,孟祥祥. 基于灰狼优化的机器人视觉伺服协同控制. 组合机床与自动化加工技术. 2025(02): 120-125+130 . 百度学术
    3. 夏云,汪爱明,叶洋,刘振宇,李祥龙,赵启奔,郭仲尧. 锤上模锻智能化发展现状及其关键技术. 锻压技术. 2024(04): 1-14 . 百度学术
    4. 王忠阳,梁丽,王友清. 永磁同步电动机速度伺服系统最优输出反馈控制器设计. 自动化学报. 2024(09): 1794-1803 . 本站查看

    其他类型引用(7)

  • 加载中
图(9)
计量
  • 文章访问数:  1633
  • HTML全文浏览量:  508
  • PDF下载量:  489
  • 被引次数: 11
出版历程
  • 收稿日期:  2021-12-24
  • 录用日期:  2022-10-17
  • 网络出版日期:  2022-12-14
  • 刊出日期:  2023-11-22

目录

/

返回文章
返回