Design of a Fractional-order Finite-time Controller for High-speed Train With Uncertain Model and Actuator Failures
-
摘要:
针对具有输入非线性, 不确定的气动阻力, 未知的车间力, 外部扰动以及未知的执行器故障等特征的高速列车非线性系统, 结合分数阶稳定性原理以及有限时间控制理论, 本文设计了一种分数阶有限时间控制器以实现高速列车更快速且更高精度的跟踪控制. 该控制器能够直接补偿高速列车的不确定性和非线性以及执行器故障而不需任何“试错”过程, 且稳定时间可由控制参数的不同选择来调整. 仿真研究验证了所设计控制器的有效性和优越性.
-
关键词:
- 分数阶有限时间控制器 /
- 高速列车 /
- 不确定性 /
- 执行器故障 /
- 非线性
Abstract:This paper focuses on the position/velocity tracking control problem of high speed train (HST) with considering some uncertain and nonlinear characteristics such as input nonlinearity, aerodynamic resistance, in-train force, external disturbance and unknown actuator failures. Aiming at the system characteristics of HST, a fractional-order finite-time controller is designed on the basis of the principle of fractional stability and finite-time control theory to achieve higher tracking accuracy in finite time. It should be pointed out that the designed controller is able to deal with uncertainties and nonlinearities as well as actuator failures without any “trail and error” process, and the settling time can be adjustable by different selection of control parameters. The feasibility and effectiveness of the designed controller is verified by Lyapunov theoretical analysis and numerical simulation studies. Furthermore, compared with traditional PID controller, the designed fractional-order finite-time controller is superior.
-
随着移动机器人控制技术的发展, 移动机器人如今已广泛应用于工业生产、国防军事以及生活服务等众多方面[1]. 视觉传感器近年来逐渐变得价格经济、易于获取, 加上其本身具有获取环境信息丰富、外部感知能力强和适用范围广等特点, 因而广泛装备于移动机器人和其他智能体系统[2]. 由于视觉传感器的作用, 移动机器人的灵活性和智能性得到极大提高, 可以适应更加复杂的环境, 基于视觉的机器人的定位、环境感知与控制技术也得到了很大的发展[3]. 移动机器人视觉伺服控制主要有两大控制目标, 一种是位姿校正[4], 另一种是轨迹跟踪[5]. 在实际应用中, 轨迹跟踪相比位姿校正往往更加复杂且常见, 因此基于视觉的移动机器人轨迹跟踪吸引了大量学者的关注与研究.
经典的视觉伺服控制主要分为基于图像的、基于位置的和混合视觉伺服控制. 基于图像的视觉伺服控制是通过在二维图像平面定义误差信号进行控制, 不需要利用移动机器人三维位姿信息, 且其对系统扰动具有鲁棒性, 但是很难控制移动机器人的偏转位姿[6]. 基于位置的视觉伺服控制需要在三维欧氏空间定义误差信号, 虽然需要进行三维重构, 但这样直接对三维空间的误差进行控制可以保证其收敛性. 由于移动机器人具有非完整约束特点以及单目相机深度信息的缺失造成系统带有不确定性参数, 设计移动机器人的控制器存在很多困难[7]. 根据Brockett定理, 连续定常的控制器无法实现对具有非完整约束的移动机器人位姿校正控制[8]. 为了克服非完整约束, 文献[9]提出了一种基于反步法的时变状态反馈跟踪控制方法. 然而其并未将视觉传感器引入到控制中, 并且一般假设系统状态是精确可测量的. 但在移动机器人的视觉伺服跟踪控制中, 由于视觉传感器的引入给系统带来了不确定性, 以往的设计方法并不能直接应用于视觉伺服控制中. 为了克服这些限制, 目前已提出了许多非线性控制方法. 文献[5]基于单应性技术设计了一种自适应控制器实现移动机器人的轨迹跟踪任务, 其视觉反馈由搭载于机器人上的相机提供. 为保持目标特征点在摄像机的视野范围内, 文献[10]设计了一种时变连续的混合视觉伺服控制器实现对移动机器人一致性跟踪与位姿校正任务. 为了在无需知道移动机器人位姿与速度信息下完成轨迹跟踪任务, 文献[11]提出了一种自适应控制方法实时估计移动机器人的位姿与速度. 近期, 也有一系列关于移动机器人的视觉伺服跟踪控制的相关成果[12-15]. 在上述针对移动机器人的视觉伺服跟踪控制中, 大多是为完成视觉跟踪任务, 但考虑最优性能指标的移动机器人视觉伺服最优跟踪控制问题仍待研究.
考虑到移动机器人的视觉伺服轨迹跟踪控制问题的系统模型是一个时变仿射非线性系统. 自适应动态规划(Adaptive dynamic programming, ADP)是解决非线性最优控制问题的一种有效的方法[16-21]. ADP作为一类智能控制方法, 可以有效地解决传统动态规划中“维数灾”的问题, 同时具备处理复杂约束和不确定性的能力. 这类方法在处理具有强非线性、强耦合性的复杂非线性系统时, 具有自适应性、最优性和稳定性[22]. 求解基于ADP的移动机器人视觉伺服轨迹跟踪的最优控制, 需要求解哈密顿−雅可比−贝尔曼(Hamilton-Jacobi-Bellman, HJB)方程. 对于非线性定常系统来说, 其HJB方程是一个时不变的偏微分方程, 无法求得其解析解, 目前大部分求解方法都是设计合适的神经网络结构来近似未知项[23-24]. 文献[25]针对非线性不确定系统设计了三个神经网络分别近似系统状态、值函数和最优控制. 在系统模型已知的情况下, 文献[26]针对移动机器人控制问题提出了一种单网络自适应评价方法. 与上述一般非线性系统不同的是, 由于移动机器人系统模型固有的时变特性, 最优控制问题中的HJB方程含有两项偏微分项, 且值函数是状态与时间的函数, 这使得问题更加复杂. 在现有的研究中针对时变系统的最优控制还较少. 目前有两种神经网络的结构用于近似与时间相关的值函数: 1)带时变权值的神经网络[27-28]; 2)常数权值与时变激活函数的神经网络[29-30].
当前基于ADP的移动机器人视觉伺服控制方法及理论仍然是一个开放性问题, 有待深入研究. 本文的贡献主要体现在以下几个方面.
1)针对移动机器人视觉伺服控制, 提出了基于ADP的跟踪控制方法. 与现有视觉伺服控制方法相比, 本文设计的ADP控制方法是基于最优控制理论, 算法收敛后, 可得到近似最优控制器.
2)现有的大多数工作针对定常系统设计, 而移动机器人视觉伺服控制系统为时变系统, 得到的HJB方程是时变的. 因而, 本文的工作与现有ADP方法在理论分析与实现存在显著区别, 这是本文主要解决的理论难题. 同时, 本文所提的基于ADP的跟踪控制方法对于一般性的时变仿射非线性系统的跟踪控制问题具有普适性和通用性.
3)针对时变HJB方程, 本文设计了带时变权值的神经网络结构, 给出了一种新的权值更新律, 证明了神经网络权值的收敛性和闭环系统的稳定性. 同时, 在实验仿真中验证了该类结构具有较小的误差和快速收敛性.
针对时变非线性系统的最优控制仍然与时不变系统存在不同之处, 同时带来许多挑战. 本文针对移动机器人视觉跟踪控制问题, 提出了一种新颖的基于ADP的跟踪控制方法. 考虑移动机器人系统模型的时变特性与非完整约束, 采用带时变权值的神经网络近似值函数, 并给出了一种新的权值更新律. 运用Lyapunov稳定性理论证明了权值的收敛性以及闭环系统状态是一致最终有界的.
1. 问题描述
如图1所示, 本文考虑带有单目相机的轮式移动机器人, 假设移动机器人的坐标系与相机坐标系相同. 当前相机坐标系记为$ F^{c} $, 坐标系$ F^{c} $的原点为移动机器人中心, $ x $轴方向为与移动机器人轮轴平行, $ z $轴方向为相机光轴方向. 由右手坐标系规则, $ y $轴垂直于移动机器人运动平面$ x z $向下. 坐标系$ F^{d} $与$ F^{*} $分别表示移动机器人在期望位姿和在固定参考位姿处的坐标系, 其$ x,y,z $轴的定义规则与坐标系$ F^{c} $相同. 在移动机器人的轨迹跟踪任务中, 期望轨迹在$ F^{d} $中由一系列关于特征点的图像描述. $ F^{*} $为固定参考坐标系, 由一张关于特征点的图像表示. $ \theta_{d} $和$ \theta $分别表示$ F^{d} $与$ F^{c} $相对参考坐标系$ F^{*} $绕$ y $轴的旋转角. 基于以上的坐标系定义, 本文的目标是设计一种视觉伺服跟踪控制器以确保移动机器人完成轨迹跟踪任务, 即当$ t \to \infty $时, $ F^{c} \to F^{d} $.
1.1 欧氏重构
如图1所示, 假设移动机器人仅做平面运动, 坐标系$ F^{*} $在坐标系$ F^{c} $中的位姿信息可以由$ [x,z,\theta]^{\mathrm{T}} $表示. 其中, $ x $和$ z $分别表示沿着$ x $轴和$ z $轴方向的平移, $ \theta $表示绕$ y $轴的旋转. 同样, 坐标系$ F^{*} $在坐标系$ F^{d} $中的位姿信息可以由$ [x_{d},z_{d},\theta_{d}]^{\mathrm{T}} $表示. 考虑$ N $个共面的静止特征点$ O_{i}\;(i = 1,2,\cdots,N) $, 其在坐标系$ F^{c},F^{d},F^{*} $的三维坐标分别为$ O_{i}^{c},O_{i}^{d},O_{i}^{*} $, 定义为
$$ \begin{array}{l} O_{i}^{c} = \begin{bmatrix} X_{i}^{c} \\ Y_{i}^{c} \\ Z_{i}^{c} \end{bmatrix}, \quad O_{i}^{d} = \begin{bmatrix} X_{i}^{d} \\ Y_{i}^{d} \\ Z_{i}^{d} \end{bmatrix}, \quad O_{i}^{*} = \begin{bmatrix} X_{i}^{*} \\ Y_{i}^{*} \\ Z_{i}^{*} \end{bmatrix} \end{array} $$ (1) 将三维坐标$ O_{i}^{c},O_{i}^{d},O_{i}^{*} $进行归一化[5]可得:
$$ \begin{array}{l} m_{i}^{c} = \dfrac{O_{i}^{c}}{Z_{i}^{c}}, \quad m_{i}^{d} = \dfrac{O_{i}^{d}}{Z_{i}^{d}}, \quad m_{i}^{*} = \dfrac{O_{i}^{*}}{Z_{i}^{*}} \end{array} $$ (2) 特征点$ O_{i} $在坐标系$ F^{c},F^{d},F^{*} $下对应的可测量齐次像素坐标$ p_{i}^{c},p_{i}^{d},p_{i}^{*} \in {\bf{R}}^{3} $分别为
$$ \begin{array}{l} p_{i}^{c} = \begin{bmatrix} u_{i}^{c} \\ v_{i}^{c} \\ 1 \end{bmatrix}, \quad p_{i}^{d} = \begin{bmatrix} u_{i}^{d} \\ v_{i}^{d} \\ 1 \end{bmatrix}, \quad p_{i}^{*} = \begin{bmatrix} u_{i}^{*} \\ v_{i}^{*} \\ 1 \end{bmatrix} \end{array} $$ (3) 由针孔相机模型可以得到特征点归一化三维欧氏坐标与可测量齐次像素坐标的关系为
$$ \begin{array}{l} m_{i}^{c} = K^{-1} p_{i}^{c}, \: m_{i}^{d} = K^{-1} p_{i}^{d}, \: m_{i}^{*} = K^{-1} p_{i}^{*} \end{array} $$ (4) 其中, $ K \in {\bf{R}}^{3 \times 3} $为相机标定矩阵, 为已知可逆常数矩阵. 由式 (4)得到的$ m_{i}^{c},m_{i}^{d},m_{i}^{*} $, 它们之间的关系可以通过坐标系间的平移与旋转描述, 即
$$ \begin{array}{l} m_{i}^{c} = H_{c} m_{i}^{*} \end{array} $$ (5) $$ \begin{array}{l} m_{i}^{d} = H_{d} m_{i}^{*} \end{array} $$ (6) 其中, $ H_{c},H_{d} \in {\bf{R}}^{3 \times 3} $分别为当前位置、期望位置与参考位置之间的单应性矩阵. 通过直接线性变换算法, 可以将单应性矩阵$ H_{c} $分解得到当前相机的尺度化平移$ [\bar{x},\bar{z}]^{\mathrm{T}} $和旋转角$ \theta $; 同样地, 将单应性矩阵$ H_{d} $分解得到期望的尺度化平移$ [\bar{x}_{d},\bar{z}_{d}]^{\mathrm{T}} $和旋转角$ \theta_{d} $[31]. 具体定义为
$$ \begin{array}{l} \begin{bmatrix} \bar{x} \\ \bar{z} \end{bmatrix} = \dfrac{1}{d^{*}} \begin{bmatrix} x \\ z \end{bmatrix}, \quad \begin{bmatrix} \bar{x}_{d} \\ \bar{z}_{d} \end{bmatrix} = \dfrac{1}{d^{*}} \begin{bmatrix} x_{d} \\ z_{d} \end{bmatrix} \end{array} $$ (7) 其中, $ d^{*} $为深度信息常量, 表示固定参考坐标系$ F^{*} $的原点到特征点平面的距离, 即$ d^{*} = Z_{i}^{*} $. 由前文的描述可知, 当$ t \to \infty $时, 若$ [\bar{x},\bar{z},\theta]^{\mathrm{T}} \to [\bar{x}_{d},\bar{z}_{d},\theta_{d}]^{\mathrm{T}} $, 则表示移动机器人完成了轨迹跟踪任务.
1.2 移动机器人运动学模型
移动机器人$ F^{c} $的位姿信息在坐标系$ F^{*} $中记为$ [x^{*},z^{*},\theta^{*}] .$ 经典的移动机器人连续时间运动学模型可以表达为
$$ \left\{\begin{aligned} &{{{\dot x}^*}}{ = v\sin ({\theta ^*})}\\ &{{{\dot z}^*}}{ = v\cos ({\theta ^*})}\\ &{{{\dot \theta }^*}}{ = \omega } \end{aligned}\right. $$ (8) 其中, $ v $和$ \omega $分别为移动机器人的线速度与角速度. 通过坐标变换可以得到$ [x,z,\theta]^{\mathrm{T}} $与$ [x^{*},z^{*},\theta^{*}]^{\mathrm{T}} $之间的关系, 即
$$ \begin{array}{l} \begin{bmatrix} x \\ z \\ \theta \end{bmatrix} = \begin{bmatrix} -\cos(\theta^{*}) & \sin(\theta^{*}) & 0 \\ -\sin(\theta^{*}) & -\cos(\theta^{*}) & 0 \\ 0 & 0 & -1 \end{bmatrix} \begin{bmatrix} x^{*} \\ z^{*} \\ \theta^{*} \end{bmatrix} \end{array} $$ (9) 对式 (9)求关于时间$ t $的导数, 并将式 (8)代入求导结果, 可得
$$ \begin{array}{l} \dot{x} = -z \omega, \quad \dot{z} = -v + x \omega, \quad \dot{\theta} = -\omega \end{array} $$ (10) 同理, 期望的位姿信息在坐标系$ F^{*} $中记为$ [x_{d}^{*},z_{d}^{*},\theta_{d}^{*}] $. $ v_{d},\omega_{d} $分别为移动机器人期望的线速度与角速度. 则期望的位姿信息对时间$ t $的导数为
$$ \begin{array}{l} {\dot x_{d}} = -z_{d} \omega_{d}, \quad {\dot z_{d}} = -v_{d} + x_{d} \omega_{d}, \quad \dot{\theta}_{d} = -\omega_{d} \end{array} $$ (11) 将式 (7)代入式 (10)和式 (11), 可得
$$ {\dot {\bar x}} = - {\bar z}\omega ,\quad \dot {\bar z} = - \frac{v}{{{d^*}}} + {\bar x}\omega ,\quad \dot \theta = - \omega $$ (12) $$ \dot{\bar{x}}_{d} = -\bar{z}_{d} \omega_{d}, \quad \dot{\bar{z}}_{d} = -\dfrac{v_{d}}{d^{*}} + \bar{x}_{d} \omega_{d}, \quad \dot{\theta}_{d} = -\omega_{d} $$ (13) 1.3 跟踪误差系统模型
移动机器人轨迹跟踪误差定义为
$$ \begin{array}{l} e = \begin{bmatrix} e_{x} \\ e_{z} \\ e_{\theta} \end{bmatrix} = \begin{bmatrix} \bar{x} \\ \bar{z} \\ \theta \end{bmatrix} - \begin{bmatrix} \cos(e_{\theta}) & \sin(e_{\theta}) & 0 \\ -\sin(e_{\theta}) & \cos(e_{\theta}) & 0 \\ 0 & 0 & 1 \end{bmatrix} \begin{bmatrix} \bar{x}_{d} \\ \bar{z}_{d} \\ {\theta}_{d} \end{bmatrix} \end{array} $$ (14) 其中, $ e_{x},e_{z} $表示平移误差, $ e_{\theta} $为旋转误差. 由式 (14)可知, 当$ e \to 0 $时, 则$ [\bar{x},\bar{z},\theta] \to [\bar{x}_{d},\bar{z}_{d},\theta_{d}] $. 因此上述问题转换为设计一反馈控制律使得$ e \to 0 $, 则表示移动机器人完成了轨迹跟踪任务. 对式 (14) 求关于时间的导数, 并将式 (12)和式 (13)代入, 可得
$$ \begin{equation} \left\{ \begin{aligned} &{\dot e_{x}} = -e_{z} \omega + \dfrac{v_{d}}{d^{*}}\sin(e_{\theta}) \\ &{\dot e_{z}} = \dfrac{-v}{d^{*}}+e_{x} \omega + \dfrac{v_{d}}{d^{*}}\cos(e_{\theta}) \\ &{\dot e_{\theta}} = -\omega+{\omega}_{d} \end{aligned} \right. \end{equation} $$ (15) 为了便于后续对跟踪控制问题控制器的设计, 受文献[32]启发, 使用如下输入变换:
$$ \begin{equation} \left\{ \begin{aligned} &v = v_{d} \cos(e_{\theta}) - u_{v} \\ &\omega = \omega_{d} - u_{\omega} \end{aligned} \right. \end{equation} $$ (16) 其中, $ u_{v},u_{\omega} $为新的输入控制量, 可见上述变换也是可逆的. 由此可以推导出新的误差模型, 即
$$ \begin{equation} \left\{ \begin{aligned} &\dot e_{x} = -e_{z} \omega_{d} + \dfrac{v_{d}}{d^{*}}\sin(e_{\theta}) + e_{z} u_{\omega} \\ &\dot e_{z} = e_{x} \omega_{d} + \dfrac{u_{v}}{d^{*}} - e_{x} u_{\omega} \\ &\dot e_{\theta} = u_{\omega} \end{aligned} \right. \end{equation} $$ (17) 为估计深度参数信息, 深度参数$ d^{*} $的估计更新律设计采用与文献[33]类似方法, 且其收敛性已在文献中得到证明.
2. 控制器设计
在移动机器人跟踪控制任务中, 期望轨迹的速度$ v_{d}(t),\omega_{d}(t) $是随时间变化的, 导致在误差模型 (17)中含有时变项. 本节基于ADP方法设计最优控制器以保证移动机器人完成轨迹跟踪任务, 采用评价神经网络结构近似最优值函数, 求解最优控制输入.
2.1 最优控制设计
由误差动力学方程 (17)可知, 该系统是一个连续时间仿射非线性系统, 可以表示为
$$ \begin{array}{l} \dot{e} = f(e,t) + g(e) u \end{array} $$ (18) 其中,
$$ \begin{aligned} &{f(e,t) = }{\left[ {\begin{array}{*{20}{c}} { - {e_z}{\omega _d} + \dfrac{{{v_d}}}{{{d^*}}}\sin ({e_\theta })}\\ {{e_x}{\omega _d}}\\ 0 \end{array}} \right]}\\ &{g(e) = }{\left[ {\begin{array}{*{20}{c}} 0&{{e_z}}\\ {\dfrac{1}{{{d^*}}}}&{ - {e_x}}\\ 0&1 \end{array}} \right],u = {{[{u_v},{u_\omega }]}^{\rm{T}}}} \end{aligned} $$ 注意到系统状态方程 (18)中控制输入为二维, 而系统状态为三维, 可见该系统是一个欠驱动系统.
假设 1. 期望的移动机器人的位姿和速度$x_{d}^{*}, z_{d}^{*}, \theta_{d}^{*},v_{d},\omega_{d}$是有界的, 且$\Vert f(e,t) \Vert \le f_{M}\Vert e \Vert, \Vert g(e) \Vert \le g_{M}$.
针对此系统的最优控制问题, 本文的目标是设计一个反馈控制策略使得下列定义的值函数最小, 即
$$ V(e(t),t) = \int_{t}^{\infty} L(e(\tau),u(e),\tau){{\rm{d}}} \tau $$ (19) 其中, 效用函数取为$L(e,u,t) = Q(e)+ u^{\mathrm{T}}Ru$, $ Q(e) $是正定的, 即对于$ \forall e \ne 0,Q(e)>0 $且 $e = 0\Rightarrow$$ Q(e) =0 $, $ R \in {\bf{R}}^{2 \times 2} $为对称正定矩阵. 沿着系统轨迹 (18), 对值函数求时间微分, 可得如下时变Lyapunov方程[34]
$$ \begin{split} -\dfrac{\partial V(e,t)}{\partial t} = \;& \dfrac{\partial V^{\mathrm{T}}(e,t)}{\partial e}[f(e,t)+g(e)u]\;+ \\ &Q(e)+u^{\mathrm{T}}Ru \end{split} $$ (20) 为了便于描述, 定义$\nabla_{e} = \frac{\partial}{\partial e},\nabla_{t} = \frac{\partial}{\partial t}$. 接下来, 定义哈密顿函数为
$$ \begin{split} &H(e,u,\nabla_{e}V(e,t),t) = Q(e) + u^{\mathrm{T}}Ru+\nabla_{t}V(e,t)\;+ \\ &\qquad\nabla_{e}V^{\mathrm{T}}(e,t)[f(e,t)+g(e)u]\\[-10pt] \end{split} $$ (21) 注意到与其他仿射非线性系统无穷时域最优控制情况不同, 式 (21)是与时间$ t $直接相关的. 根据最优性原理, 当$ \frac{\partial H}{\partial u} = 0 $时, 可得最优控制为
$$ \begin{array}{l} u^{*}(e,t) = -\dfrac{1}{2}R^{-1}{g^{\mathrm{T}}(e)} \nabla_{e}V^{*}(e,t) \end{array} $$ (22) 将式 (22)代入式 (20), 可得时变HJB方程
$$ \begin{split} 0 =\;& \nabla_{t}V^{*}(e,t) + \nabla_{e}V^{*{\rm{T}}}(e,t)[f(e,t)+g(e)u^{*}]\;+ \\ & Q(e) + {u^{*}}^{\mathrm{T}} R u^{*} = \\ & \nabla_{t}V^{*}(e,t) + \nabla_{e}V^{*{\rm{T}}}(e,t)f(e,t) + Q(e)\;- \\ & \dfrac{1}{4} \nabla_{e}V^{*{\rm{T}}}(e,t) g(e) R^{-1} g^{\mathrm{T}}(e) \nabla_{e}V^{*}(e,t)\\[-15pt] \end{split} $$ (23) 注意到HJB方程 (23)是一个偏微分方程, 很难直接求得此方程的解析解, 因此这里使用神经网络近似估计最优值函数$ V^{*}(e,t) $, 以期望求得近似最优的反馈控制.
2.2 神经网络近似
与时不变仿射非线性系统最优控制问题不同的是, 这里的最优值函数$ V^{*}(e,t) $与时间变量$ t $相关. 受文献[35]启发, 带时变权值的神经网络结构可以用来近似一致连续时变函数. 假设$ V^{*}(e,t) $是光滑的, 则最优值函数$ V^{*}(e,t) $可由下列神经网络形式表示
$$ \begin{array}{l} V^{*}(e,t) = W^{\mathrm{T}}(t) \phi(e) + \varepsilon(e,t) \end{array} $$ (24) 其中, $ W(t) \in {\bf{R}}^{L} $为真实的神经网络权值向量, $ L \in {\bf{R}},L >0 $为隐含层节点数, 随着神经网络隐含层节点数增加, 逼近误差会不断减小[35], 即当$ L \to \infty $, $ \varepsilon(e,t) \to 0 $. $ \phi(e) = [\phi_{1}(e), \cdots, \phi_{L}(e)]^{\mathrm{T}} \in {\bf{R}}^{L} $为与状态相关的连续可微的激活函数, $ \varepsilon(e,t) $为神经网络逼近误差. 对最优值函数$ V^{*}(e,t) $求分别关于$ e $和$ t $的偏导
$$ \begin{array}{l} \nabla_{e}V^{*}(e,t) = \nabla_{e}^{\mathrm{T}} \phi(e) W(t) + \nabla_{e} \varepsilon(e,t) \end{array} $$ (25) $$ \begin{array}{l} \nabla_{t}V^{*}(e,t) = \dot{W}^{\mathrm{T}}(t) \phi(e) + \nabla_{t} \varepsilon(e,t) \end{array} $$ (26) 假设 2. 神经网络逼近误差$ \varepsilon(e,t) $以及其分别关于状态$ e $与时间$ t $的偏导数$ \nabla_{e} \varepsilon(e,t),\nabla_{t} \varepsilon(e,t) $是有界的. 真实的神经网络权值$ W(t) $以及其对时间的导数$ \dot{W}(t) $是有界的, 激活函数$ \phi(e) $以及其对$ e $的偏导数$ \nabla_{e} \phi(e) $是有界的: $\Vert \varepsilon(e,t)\Vert \le \varepsilon_{M}, \Vert \nabla_{e} \varepsilon(e,t) \Vert \le \varepsilon_{eM},$ $\Vert \nabla_{t} \varepsilon(e,t) \Vert \le \varepsilon_{tM}, $ $\Vert W(t) \Vert\; \le\; W_{M}, \Vert \dot{W}(t) \Vert \le W_{tM},$ $ \Vert \phi(e) \Vert \le \phi_{M}, \Vert \nabla_{e} \phi(e) \Vert \le \phi_{eM} $.
将式 (25)代入式 (22)中, 最优控制输入可以表示为
$$ \begin{split} u^{*}(e,t) = \;& -\dfrac{1}{2}R^{-1}g^{\mathrm{T}}(e) \nabla_{e} \phi^{\mathrm{T}}(e) W(t)\;- \\ & \dfrac{1}{2} R^{-1} g^{\mathrm{T}}(e) \nabla_{e}\varepsilon(e,t) \end{split} $$ (27) 将式 (25) ~ (27)代入HJB方程 (23)中, 得到
$$ \begin{split} 0 = \;& \dot{W}^{\mathrm{T}}(t) \phi(e) + W^{\mathrm{T}}(t) \nabla_{e} \phi(e)[f(e,t)+ g(e)u^{*}]\;+ \\ &Q(e) + {u^{*}}^{\mathrm{T}}Ru^{*} + \varepsilon_{v}(e,t) = \\ & \dot{W}^{\mathrm{T}}(t) \phi(e) + W^{\mathrm{T}}(t) \nabla_{e} \phi(e)f(e,t) + Q(e)\;- \\ & \dfrac{1}{4}W^{\mathrm{T}}(t) \nabla_{e} \phi(e) g(e) R^{-1} g^{\mathrm{T}}(e) \nabla_{e}^{\mathrm{T}} \phi(e) W(t)\;+ \\ & \varepsilon_{hjb}(e,t)\\[-10pt] \end{split} $$ (28) 其中, $\varepsilon_{v}(e,t) = \nabla_{e}^{\mathrm{T}} \varepsilon(e,t) [f(e,t) + g(e)u^{*}] + \nabla_{t} \varepsilon(e,t)$. $ \varepsilon_{hjb}(e,t) $为HJB方程的残差, 即
$$ \begin{split} \varepsilon_{hjb}(e,t) = \;& \nabla_{t} \varepsilon(e,t) + \nabla_{e}^{\mathrm{T}} \varepsilon(e,t) f(e,t)\;- \\ & \dfrac{1}{2}W^{\mathrm{T}}(t) \nabla_{e} \phi(e) D_{1}(e) \nabla_{e}\varepsilon(e,t)\;- \\ & \dfrac{1}{4} \nabla_{e}^{\mathrm{T}}\varepsilon(e,t) D_{1}(e) \nabla_{e}\varepsilon(e,t) \end{split} $$ (29) 其中, $ D_{1}(e) = g(e) R^{-1} g^{\mathrm{T}}(e) $. 根据文献[36], 随着神经网络隐含层节点数$ L \to \infty $, HJB方程残差$ \varepsilon_{hjb}(e,t) \to 0 $, 即对于$\forall \varepsilon_{h} > 0, \exists L : \Vert \varepsilon_{hjb}(e,t) \Vert < \varepsilon_{h}$.
2.3 神经网络权值更新
由于真实的神经网络权值$ W $是未知的, 设计一个评价神经网络近似最优值函数 (24), 即
$$ \begin{array}{l} \hat{V}(e(t),t) = \hat{W}^{\mathrm{T}}(t) \phi(e(t)) \end{array} $$ (30) 其中, $ \hat{V}(e(t),t) $为近似最优值函数, $ \hat{W} \in {\bf{R}}^{L} $为真实权值的估计值. $ \phi(e(t)) $满足: 若$ \Vert e \Vert = 0 $, 则$ \Vert \phi(0) \Vert = 0 $. 根据式 (27)和式 (30), 可得近似最优控制为
$$ \begin{array}{l} \hat{u}(e,t) = -\dfrac{1}{2}R^{-1}g^{\mathrm{T}}(e) \nabla_{e} \phi^{\mathrm{T}}(e) \hat{W}(t) \end{array} $$ (31) 定义真实最优控制输入与近似最优控制输入之差为
$$ \begin{array}{l} \tilde{u} = u^{*} - \hat{u} \end{array} $$ (32) 将式 (27)和式 (31)代入式 (32)中, 可得
$$ \begin{split} \tilde{u} = \;& -\dfrac{1}{2}R^{-1}g^{\mathrm{T}}(e) \nabla_{e}^{\mathrm{T}} \phi(e) \tilde{W}(t)\;- \\ & \dfrac{1}{2} R^{-1} g^{\mathrm{T}}(e) \nabla_{e}\varepsilon(e,t) \end{split} $$ (33) 将式 (30)和式 (31)分别作为近似最优值函数和近似最优控制代入哈密顿函数 (21)中, 可得
$$ \begin{split} \delta = \;& \;H(e,\hat{u},\nabla_{e}\hat{V}(e,t),t) = \\ & \dot{\hat{W}}^{\mathrm{T}}(t) \phi(e) + Q(e) + \hat{u}^{\mathrm{T}}R\hat{u}\;+ \\ & \hat{W}^{\mathrm{T}}(t)\nabla_{e} \phi(e)[f(e,t)+g(e)\hat{u}] \end{split} $$ (34) 根据式 (34), 定义目标误差函数为
$$ \begin{array}{l} E = \dfrac{1}{2} \delta^{2} \end{array} $$ (35) 为使目标误差函数$ E $不断减小, 结合梯度下降法的思想设计权值更新律为
$$ \begin{array}{l} \dot{\hat{W}}(t) = -\alpha \dfrac{\sigma [\sigma^{\mathrm{T}} \hat{W}(t) + Q(e) + \hat{u}^{\mathrm{T}}R\hat{u}]}{(\sigma^{\mathrm{T}} \sigma + 1)^{2} + \alpha \sigma \phi^{\mathrm{T}}(e)} \end{array} $$ (36) 其中, $ \sigma = \nabla_{e} \phi(e) \left[ f(e,t) + g(e)\hat{u} \right] \in {\bf{R}}^{L} $, $ \alpha $为评价网络权值的学习率. 值得一提的是, 权值更新律 (36)的设计主要有两方面的考虑: 1) 为使式 (35) 给出的目标误差函数$ E $不断减小, 因而采用梯度下降的思想; 2) 为了保证系统的稳定性, 详细的稳定性分析见第3节. 神经网络权值估计误差定义为
$$ \begin{array}{l} \tilde{W}(t) = W(t) - \hat{W}(t) \end{array} $$ (37) 根据式 (36), 可得
$$ \begin{split}& (\sigma^{\mathrm{T}} \sigma + 1)^{2}\dot{\hat{W}}(t) + \alpha \sigma \phi^{\mathrm{T}}(e)\dot{\hat{W}}(t) = \\&\qquad-\alpha \sigma \big[ \hat{u}^{\mathrm{T}}R\hat{u}+\sigma^{\mathrm{T}} \hat{W}(t)+ Q(e)\big] \end{split} $$ (38) 将等式 (38)左边第2项移到右边, 可得
$$ \begin{split} (\sigma^{\mathrm{T}} \sigma + 1)^{2} \dot{\hat{W}}(t) =\;& -\alpha \sigma [ \phi^{\mathrm{T}}(e) \dot{\hat{W}}(t) + \sigma^{\mathrm{T}} \hat{W}(t) \;+ \\ & Q(e)+ \hat{u}^{\mathrm{T}}R\hat{u}]\\[-10pt] \end{split} $$ (39) 由式 (39), 可得:
$$ \begin{array}{l} \dot{\hat{W}}(t) = -\alpha \dfrac{\sigma [\phi^{\mathrm{T}}(e) \dot{\hat{W}}(t) + \sigma^{\mathrm{T}} \hat{W}(t) + Q(e) + \hat{u}^{\mathrm{T}}R\hat{u}]}{(\sigma^{\mathrm{T}} \sigma + 1)^{2} } \end{array} $$ (40) 根据式 (31), 可得
$$ \begin{split} \hat{u}^{\mathrm{T}}R\hat{u} = \;& \dfrac{1}{4}\hat{W}^{\mathrm{T}}(t) \nabla_{e} \phi(e) g(e) R^{-1} g^{\mathrm{T}}(e) \nabla_{e}^{\mathrm{T}} \phi(e) \hat{W}(t) = \\ & \dfrac{1}{4}\hat{W}^{\mathrm{T}}(t) D_{2}(e) \hat{W}(t)\\[-15pt] \end{split} $$ (41) 其中, $D_{2} (e)= \nabla_{e} \phi(e) g(e) R^{-1} g^{\mathrm{T}}(e) \nabla_{e}^{\mathrm{T}} \phi(e)$. 对式 (37)求时间导数, 将式 (40)和式 (41)代入其中, 可得神经网络权值估计误差的动力学方程为
$$ \begin{split} &\dot{\tilde{W}}(t) = \dot{W} (t)- \dot{\hat{W}}(t) = \dot{W} (t)\;+\\ & \;\;\;\; \alpha \dfrac{\sigma [\phi^{\mathrm{T}}(e) \dot{\hat{W}} (t)+ \sigma^{\mathrm{T}} \hat{W} (t)+ Q(e) + \hat{u}^{\mathrm{T}}R\hat{u}]}{(\sigma^{\mathrm{T}} \sigma + 1)^{2} } = \\ &\;\;\;\;\dot{W} (t)+ \alpha \dfrac{\sigma }{(\sigma^{\mathrm{T}} \sigma + 1)^{2} } \Big( \phi^{\mathrm{T}}(e) \dot{\hat{W}} (t)\;+\\ &\;\;\;\; \sigma^{\mathrm{T}} \hat{W}(t) + Q(e)+ \dfrac{1}{4}\hat{W}^{\mathrm{T}}(t) D_{2}(e) \hat{W}(t) \Big)\\[-15pt] \end{split} $$ (42) 3. 稳定性分析
定理 1. 针对式 (18)描述的非线性时变仿射系统, 以式 (31)为控制输入, 式 (36) 为评价神经网络的权值更新律, 则闭环系统的状态$ e $与评价网络的权值估计误差$ \tilde{W}(t) $是一致最终有界的.
证明. 选择Lyapunov函数形式为
$$ \begin{array}{l} L(t) = L_{w}(t) + L_{v}(t) \end{array} $$ (43) 其中, $ L_{w}(t) = \frac{1}{2} \tilde{W}^{\mathrm{T}}(t) \tilde{W}(t),L_{v}(t) = V^{*}(e,t) $ (简洁起见, 后文将$W (t) $简写为$W) $. 对式 (43)求关于时间的导数, 得到
$$ \begin{array}{l} \dot{L}(t) = \dot{L}_{w}(t) + \dot{L}_{v}(t) \end{array} $$ (44) 根据式 (42), $ \dot{L}_{w}(t) $可以表示为
$$ \begin{split} \dot{L}_{w} = \;& \tilde{W}^{\mathrm{T}} \dot{\tilde{W}} = \\ & \tilde{W}^{\mathrm{T}} \dot{W} + \tilde{W}^{\mathrm{T}} \dfrac{\alpha \sigma}{(\sigma^{\mathrm{T}} \sigma + 1)^{2}}\Bigl( \phi^{\mathrm{T}}(e) \dot{\hat{W}} + \sigma^{\mathrm{T}} \hat{W}\;+ \\ & Q(e) + \hat{u}^{\mathrm{T}}R\hat{u} \Bigr) = \\ & \tilde{W}^{\mathrm{T}} \dot{W} + \tilde{W}^{\mathrm{T}} \dfrac{\alpha \sigma}{(\sigma^{\mathrm{T}} \sigma + 1)^{2}}\Bigl( \phi^{\mathrm{T}}(e) \dot{\hat{W}} + \sigma^{\mathrm{T}} \hat{W}\;+ \\ & Q(e) + \dfrac{1}{4} \hat{W}^{\mathrm{T}} D_{2} \hat{W} - \phi^{\mathrm{T}}(e)\dot{W} - \sigma^{\mathrm{T}}W\;- \\ & Q(e) - \dfrac{1}{4}W^{\mathrm{T}} D_{2} W - \varepsilon_{hjb} \Bigr) = \\ & \tilde{W}^{\mathrm{T}} \dot{W} + \tilde{W}^{\mathrm{T}} \dfrac{\alpha \sigma}{(\sigma^{\mathrm{T}} \sigma + 1)^{2}}\Bigl( \phi^{\mathrm{T}}(e) \dot{\hat{W}}\;- \\ & \phi^{\mathrm{T}}(e)\dot{W} + \sigma^{\mathrm{T}} \hat{W} - \sigma^{\mathrm{T}}W + Q(e)\;+ \\ & \dfrac{1}{4} \hat{W}^{\mathrm{T}} D_{2} \hat{W} - Q(e) - \dfrac{1}{4}W^{\mathrm{T}} D_{2} W - \varepsilon_{hjb} \Bigr) = \\ & \tilde{W}^{\mathrm{T}} \dot{W} + \tilde{W}^{\mathrm{T}} \dfrac{\alpha \sigma}{(\sigma^{\mathrm{T}} \sigma + 1)^{2}}\Bigl( -\phi^{\mathrm{T}}(e) \dot{\tilde{W}}\;- \\ & (\nabla_{e} \phi(e) f(e,t))^{\mathrm{T}} \tilde{W} - \dfrac{1}{2}\hat{W}^{\mathrm{T}} D_{2} \hat{W}\;+ \\ & \dfrac{1}{2}W^{\mathrm{T}} D_{2} W + \dfrac{1}{4} \hat{W} D_{2} \hat{W} - \dfrac{1}{4}W^{\mathrm{T}} D_{2} W - \varepsilon_{hjb} \Bigr) = \\ & \tilde{W}^{\mathrm{T}} \dot{W} + \tilde{W}^{\mathrm{T}} \dfrac{\alpha \sigma}{(\sigma^{\mathrm{T}} \sigma + 1)^{2}}\Bigl( -\phi^{\mathrm{T}}(e) \dot{\tilde{W}}\;- \\ & (\nabla_{e} \phi(e) f(e,t))^{\mathrm{T}} \tilde{W} + \dfrac{1}{4}\tilde{W}^{\mathrm{T}} D_{2} \tilde{W}\;+ \\ & \dfrac{1}{2}\tilde{W}^{\mathrm{T}} D_{2} \hat{W} - \varepsilon_{hjb} \Bigr) = \\ & \tilde{W}^{\mathrm{T}} \dot{W} + \tilde{W}^{\mathrm{T}} \dfrac{\alpha \sigma}{(\sigma^{\mathrm{T}} \sigma + 1)^{2}}\Bigl( -\phi^{\mathrm{T}}(e) \dot{\tilde{W}} - \sigma^{\mathrm{T}} \tilde{W}\;+ \\ & \dfrac{1}{4}\tilde{W}^{\mathrm{T}} D_{2} \tilde{W} - \varepsilon_{hjb} \Bigr) \\[-15pt]\end{split} $$ (45) 由式 (45), 可得:
$$ \begin{split} &\left(1 + \dfrac{\alpha \sigma \phi^{\mathrm{T}}(e)}{(\sigma^{\mathrm{T}} \sigma + 1)^{2}}\right)\tilde{W}^{\mathrm{T}} \dot{\tilde{W}} = \tilde{W}^{\mathrm{T}} \dot{W} \;+ \\ &\;\;\;\;\;\;\dfrac{\tilde{W}^{\mathrm{T}} \alpha \sigma}{(\sigma^{\mathrm{T}} \sigma + 1)^{2}}\Bigl( -\sigma^{\mathrm{T}} \tilde{W}+ \dfrac{1}{4}\tilde{W}^{\mathrm{T}} D_{2} \tilde{W}- \varepsilon_{hjb} \Bigr) \end{split} $$ (46) 根据式 (46), 可得$ \dot{L}_{w} $为
$$ \begin{split} \dot{L}_{w} = \;& \tilde{W}^{\mathrm{T}} \dot{\tilde{W}} = \\ & \dfrac{(\sigma^{\mathrm{T}} \sigma + 1)^{2}}{(\sigma^{\mathrm{T}} \sigma + 1)^{2} + \alpha \sigma \phi^{\mathrm{T}}} \Bigg( \tilde{W}^{\mathrm{T}} \dot{W}\;+ \\ &\tilde{W}^{\mathrm{T}} \dfrac{\alpha \sigma (-\sigma^{\mathrm{T}} \tilde{W} + \dfrac{1}{4}\tilde{W}^{\mathrm{T}} D_{2} \tilde{W} - \varepsilon_{hjb})}{(\sigma^{\mathrm{T}} \sigma + 1)^{2}} \Bigg) = \\ &\lambda_{\sigma} \tilde{W}^{\mathrm{T}} \dot{W} + \lambda_{\sigma} \tilde{W}^{\mathrm{T}} \alpha \bar{\sigma}\left(-\bar{\sigma}^{\mathrm{T}} \tilde{W} - \dfrac{\varepsilon_{hjb}}{m_{s}}\right)\;+ \\ & \dfrac{1}{4} \lambda_{\sigma} \alpha \tilde{W}^{\mathrm{T}} \dfrac{\bar{\sigma}}{m_{s}}\tilde{W}^{\mathrm{T}} D_{2} \tilde{W}\\[-15pt] \end{split} $$ (47) 其中, $ \bar{\sigma} = {\sigma}/{(\sigma^{\mathrm{T}} \sigma + 1)} $, $ m_{s} = \sigma^{\mathrm{T}} \sigma + 1 $, $\lambda_{\sigma} = (\sigma^{\mathrm{T}} \sigma \;+ 1)^{2}/{((\sigma^{\mathrm{T}} \sigma + 1)^{2} + \alpha \sigma \phi^{\mathrm{T}}(e))}$. Lyapunov函数第2项$ L_{v} $关于时间$ t $的导数为
$$ \begin{array}{l} \dot{L}_{v} = \dot{V}^{*} = \nabla_{t} V^{*} + \nabla_{e}V^{*} \dot{e} \end{array} $$ (48) 将式 (18)、式 (25)和式 (26)代入式 (48), 可得
$$ \begin{split} \dot{L}_{v} =\;& \nabla_{t} V^{*} + \nabla_{e}V^{*} \Big( f(e,t) + g(e) \hat{u} \Big) = \\ & \dot{W}^{\mathrm{T}}(t) \phi(e) + \nabla_{t} \varepsilon(e,t)\;+ \\ & \nabla_{e}V^{*} \Big( f(e,t) + g(e) \hat{u} \Big) = \\ & \dot{W}^{\mathrm{T}}(t) \phi(e) + \nabla_{t} \varepsilon(e,t) + \Big( \nabla_{e} \phi^{\mathrm{T}}(e) W(t) \;+\\ & \nabla_{e} \varepsilon(e,t) \Big) \Big( f(e,t) + g(e) \hat{u} \Big)\\[-10pt] \end{split} $$ (49) 将式 (31)代入式 (49), 可得
$$ \begin{split} \dot{L}_{v} = \;& \dot{W}^{\mathrm{T}}(t) \phi(e) + \nabla_{e} \phi^{\mathrm{T}}(e) W(t) f(e,t) \;- \\ &\dfrac{1}{2}W^{\mathrm{T}} D_{2} \hat{W}+ \varepsilon_{1} \end{split} $$ (50) 其中, $\varepsilon_{1} \;= \;\nabla_{e} \varepsilon(e,t) ( f(e,t) \;- \;\frac{1}{2}D_{1}\nabla_{e}^{\mathrm{T}} \phi(e) \hat{W} )\; + \nabla_{t} \varepsilon(e,t)$. 由式 (50)可得
$$ \begin{split} \dot{L}_{v} = \;& \dot{W}^{\mathrm{T}}(t) \phi(e) + \nabla_{e}^{\mathrm{T}} \phi(e) W(t) f(e,t)\; + \\ & \dfrac{1}{2}W^{\mathrm{T}} D_{2} (W - \hat{W}) - \dfrac{1}{2}W^{\mathrm{T}} D_{2} W + \varepsilon_{1} = \\ & \dot{W}^{\mathrm{T}}(t) \phi(e) + \nabla_{e}^{\mathrm{T}} \phi(e) W(t) f(e,t) \;+ \\ & \dfrac{1}{2}W^{\mathrm{T}} D_{2} \tilde{W}-\dfrac{1}{2}W^{\mathrm{T}} D_{2} W + \varepsilon_{1} \end{split} $$ (51) 根据HJB方程 (28), 可得
$$ \begin{split} & \nabla_{e}^{\mathrm{T}} \phi(e) W(t) f(e,t) - \dfrac{1}{2}W^{\mathrm{T}} D_{2} W = \\& \qquad -Q(e)- \dfrac{1}{4}W^{\mathrm{T}} D_{2} W - \dot{W}^{\mathrm{T}}(t) \phi(e) - \varepsilon_{hjb} \end{split} $$ (52) 将式 (52)代入式 (51)中, 可得
$$ \begin{split} \dot{L}_{v} = \;& \dot{W}^{\mathrm{T}}(t) \phi(e) + \dfrac{1}{2}W^{\mathrm{T}} D_{2} \tilde{W} -Q(e) \;- \\ & \dfrac{1}{4}W^{\mathrm{T}} D_{2} W - \dot{W}^{\mathrm{T}}(t) \phi(e) - \varepsilon_{hjb} + \varepsilon_{1} = \\ & \dfrac{1}{2}W^{\mathrm{T}} D_{2} \tilde{W} -Q(e) - \dfrac{1}{4}W^{\mathrm{T}} D_{2} W - \varepsilon_{hjb} + \varepsilon_{1} \end{split} $$ (53) 将式 (47)和式 (53)相加, 可得Lyapunov函数的导数为
$$ \begin{split} \dot{L} = \;& \dot{L}_{w} + \dot{L}_{v} = \\ & \lambda_{\sigma} \tilde{W}^{\mathrm{T}} \dot{W} + \lambda_{\sigma} \tilde{W}^{\mathrm{T}} \alpha \bar{\sigma}\left(-\bar{\sigma}^{\mathrm{T}} \tilde{W} - \dfrac{\varepsilon_{hjb}}{m_{s}}\right)\;+ \\ & \dfrac{1}{4} \lambda_{\sigma} \alpha \tilde{W}^{\mathrm{T}} \dfrac{\bar{\sigma}}{m_{s}}\tilde{W}^{\mathrm{T}} D_{2} \tilde{W} + \dfrac{1}{2}W^{\mathrm{T}} D_{2} \tilde{W}\;- \\ & Q(e) - \dfrac{1}{4}W^{\mathrm{T}} D_{2} W - \varepsilon_{hjb} + \varepsilon_{1} \end{split} $$ (54) 根据假设1和假设2, 可得
$$ \begin{split} \varepsilon_{1} = \;& \nabla_{e} \varepsilon(e,t) \Big( f(e,t) - \dfrac{1}{2}D_{1}\nabla_{e}^{\mathrm{T}} \phi(e) \hat{W} \Big)\;+\\ & \nabla_{t} \varepsilon(e,t) = \\ & \nabla_{e} \varepsilon(e,t) f(e,t) - \dfrac{1}{2} \nabla_{e} \varepsilon(e,t) D_{1}\nabla_{e}^{\mathrm{T}} \phi(e) (W\; - \\ & \tilde{W}) + \nabla_{t} \varepsilon(e,t)\le \varepsilon_{eM} f_{M}\Vert e \Vert\; +\\ & \dfrac{1}{2}\varepsilon_{eM}\phi_{eM} \Vert D_{1} \Vert (\Vert W \Vert + \Vert \tilde{W} \Vert)+ \varepsilon_{tM} \\[-15pt]\end{split} $$ (55) 因为$ Q(e) $是正定的, 存在一个$ \lambda_{q} $使得$ e^{\mathrm{T}} \lambda_{q} e \le Q(e) $. 根据文献[36], 随着神经网络隐含层节点数$ L $的增大, HJB方程残差$ \varepsilon_{hjb}(e,t) $会逐渐收敛到零. 假设存在一正数$ \varepsilon_{hM} $, 选择合适的神经网络隐含层节点数$ L $, HJB方程残差满足: $ \varepsilon_{hjb} \le \varepsilon_{hM} $. 因而, 根据式 (54)和式 (55), 可得
$$ \begin{array}{l} \dot{L} \le - \tilde{Z}^{\mathrm{T}} H_{1} \tilde{Z} + \tilde{Z}^{\mathrm{T}} H_{2} + c \end{array} $$ (56) 其中,
$$ \begin{split} &\tilde{Z} = \begin{bmatrix} e, \bar{\sigma}^{\mathrm{T}} \tilde{W}, \tilde{W}^{\mathrm{T}} \tilde{W}, \tilde{W} \end{bmatrix}^{\mathrm{T}} \\ &H_{1} = \begin{bmatrix} \lambda_{q}I & 0 & 0 & 0 \\ 0 & \alpha \lambda_{\sigma} & -\dfrac{\alpha \lambda_{\sigma} D_{2}^{\mathrm{T}} }{8m_{s}} & 0 \\ 0 & -\dfrac{\alpha \lambda_{\sigma} D_{2} }{8m_{s}} & 0 & 0 \\ 0 & 0 & 0 & 0 \end{bmatrix} \\ &H_{2} = \begin{bmatrix} \varepsilon_{eM} f_{M} \\ \dfrac{\varepsilon_{hM}}{m_{s}} \\ 0 \\ \lambda_{\sigma} \Vert \dot{W} \Vert + \dfrac{1}{2} \Vert W \Vert \Vert D_{1} \Vert + \dfrac{1}{2}\varepsilon_{eM} \phi_{eM} \Vert D \Vert \end{bmatrix} \end{split} $$ $$ \begin{split} &c = \dfrac{1}{2}\Vert D_{2} \Vert \Vert W \Vert^{2} + \dfrac{1}{2}\varepsilon_{eM}\phi_{eM} \Vert D_{1} \Vert \Vert W \Vert \;+ \\ & \qquad\varepsilon_{tM} + \varepsilon_{hM} \end{split} $$ 式中, I为合适维度的单位矩阵. 选择参数使$ H_{1} > 0 $, 根据式 (56), 如果
$$ \begin{array}{l} \Vert \tilde{Z} \Vert > \dfrac{\Vert H_{2} \Vert + \sqrt{\Vert H_{2} \Vert^2 + 4c\lambda_{\min}(H_{1})}}{2\lambda_{\min}(H_{1})} \equiv B_{Z} \end{array} $$ (57) 则Lyapunov函数的导数$ \dot{L} < 0 $. 故闭环系统的状态$ e $与评价网络的权值估计误差$ \tilde{W} $是一致最终有界的.
□ 在这里, 有必要讨论一下本文与相关工作[16, 37-39]的区别. 在文献[37-38] 中, 采用基于策略迭代方法设计控制器, 与此不同, 本文则是基于ADP设计自适应控制器, 因而在实现方法与理论分析上存在着显著的差异. 在文献[16, 39]中, 考虑的是非线性离散时间系统的跟踪控制问题, 与本文方法的区别主要体现在: 文献[16, 39]考虑的是定常系统, 也就是说, 虽然期望轨迹为时变的, 但是针对的系统是定常系统, 也即时不变系统; 与文献[16, 39]不同, 本文考虑移动机器人视觉伺服跟踪控制问题, 不仅期望轨迹是时变的, 而且系统也是时变的. 因此, 文献[16, 39]与本文所针对的问题是完全不同的.
4. 仿真研究
为了验证本文提出的控制方法的有效性, 本节利用计算机进行仿真实验. 选择4个共面特征点作为视觉目标点, 以便能通过单应性矩阵分解成对应的平移与旋转量. 相机标定矩阵为
$$ \begin{array}{l} K = \begin{bmatrix} 800\;{\rm{mm}} & 0 & 512 \\ 0 & 800\;{\rm{mm}} & 512 \\ 0 & 0 & 1 \end{bmatrix} \end{array} $$ 移动机器人初始的位姿设置为$[x(0),z(0),\theta(0)]^{\mathrm{T}} = [-4.5,-7.1,0.23]^{\mathrm{T}}$, 期望轨迹的初始位姿设置为$ [x_{d}(0),z_{d}(0),\theta_{d}(0)]^{\mathrm{T}} = [-3.5,-6.5,0.15]^{\mathrm{T}} $. 让移动机器人预先沿曲线运动获取一系列特征点的图像以定义期望轨迹. 初始的跟踪误差为$e(0) = [e_{x}(0),e_{z}(0), e_{\theta}(0)]^{\mathrm{T}} = [-1,-0.6,-0.08]^{\mathrm{T}}$. 为求解最优控制问题中的值函数, 选择神经网络的隐含层节点数$ L = 21 $, 选取激活函数为 $\phi(e) = [ e_{x}^{2},\; e_{z}^{2},\; e_{\theta}^{2},\; e_{x} e_{z},\; e_{x} e_{\theta},$ $e_{z} e_{\theta}, \; e_{x}^{4},\, e_{z}^{4},\, e_{\theta}^{4},$ $e_{x}^{2} e_{z}^{2},\, e_{x}^{2} e_{\theta}^{2},\, e_{z}^{2} e_{\theta}^{2},\, e_{x}^{2} e_{z} e_{\theta},$ $e_{x} e_{z}^{2} e_{\theta},\; e_{x} e_{z} e_{\theta}^{2}, \; e_{x}^{3} e_{z},\;e_{x}^{3} e_{\theta},$ $ e_{x} e_{z}^{3},\; e_{z}^{3} e_{\theta},\; e_{x} e_{\theta}^{3},\; e_{z}e_{\theta}^{3}]^{\mathrm{T}} $. 权值更新中的学习率设置为$ \alpha = 0.1 $, $ Q(e) = 0.5e^{\mathrm{T}}e $, 正定矩阵$ R = 0.1I $. 在仿真实验中, 移动机器人的初始姿态位置、期望轨迹初始姿态位置满足其能保证特征点始终在视野范围内. 初始位姿与期望的初始位姿相差较大则相应的收敛时间将变长, 而对最终的跟踪精度没有显著影响. 对于神经网络初始值的选取, 目前没有通用的方法, 通常只是基于经验和尝试. 在本文中, 仿真结果是通过多次实验尝试后, 选取了一组结果作为展示.
图2 ~ 9展示了实验仿真结果. 由图2和图3可以看出, 在本文设计的控制方法下系统状态最终收敛到零并且控制输入也随着时间最终趋于零. 神经网络的权值最终如期望的一样收敛于常数值如图4所示, 最终收敛权值为$\hat{W} = [0.0445,\;0.0458, \;0.0214,\;\;0.0048,\;\;0.0180,\;\;-0.0005,$ $0.0652,\;0.0174, \;0.0004,\;\;0.0430,\;0.0292,\;\;0.0021,\; -0.0021,$ $-0.0011, \;-0.0009,\;\;0.0077,\;\;0.0105,\; \;0.0048, 0.0003,\;\;0.0012$, $-0.0001]^{\mathrm{T}} $. 移动机器人的线速度和角速度如图5所示, 可以看出, 当前线速度和角速度与期望轨迹的线速度和角速度逐渐一致.
在仿真过程中, 为了验证本文所提出算法的效果, 在保证选取同样网络层数和隐含层节点个数的前提下, 将本文提出的时变权值神经网络结构与文献$ [38] $中提出的时变激活函数NN结构进行对比. 在最优控制问题中, HJB方程的近似误差可以用于表征控制器对性能指标优化程度的好坏. 如图6所示, 在两种方法下HJB方程的残差最终均能收敛至零, 但本文所提方法的收敛速度相对要快很多.
在两种方法下的移动机器人期望轨迹与实际运动轨迹如图7和图8所示. 可见, 在本文所提的时变权值的神经网络结构方法下, 机器人的跟踪效果更好、跟踪误差更小. 此外, 特征点的二维图像轨迹如图9所示. 其中, 红色虚线表示期望图像轨迹, 实心圆点表示初始的期望图像, 五角星表示最终的期望图像; 蓝色实线表示当前的真实图像轨迹, 空心圆点表示初始的真实图像, 方形表示最终的真实图像. 由图9可知, 当前实际图像轨迹与期望的图像轨迹逐渐一致.
5. 结束语
本文设计了一种新的基于ADP的跟踪控制方法来解决移动机器人视觉伺服轨迹跟踪最优控制问题. 与以往控制对象不同的是移动机器人视觉伺服轨迹跟踪的误差系统模型是一个时变仿射非线性系统, 针对此系统的最优控制问题需要设计具有时变权值的神经网络近似值函数以求解时变的HJB方程. 运用Lyapunov稳定性理论证明了在本文提出的控制方法作用下神经网络权值的收敛性以及闭环系统的稳定性. 仿真实验结果验证了所提出方法的有效性与可行性.
-
表 1 列车相关参数
Table 1 Parameters of the vehicles
变量 参数含义 仿真值 $\varrho_i$ 第$i$节车厢的旋转质量系数 $\varrho_i\in[0.08,0.11]$ $m_i$ 第$i$节车厢的总体质量 $m_i = (50+\Delta m_i)\quad\Delta m_i\in[-6,13]$ $a_{0i},a_{1i},a_{2i}$ 第$i$节车厢的阻力系数 $a_{0i}\in[50,85],\quad a_{1i}\in[30,100],\quad a_{2i} = [0.1,6.5]$ $\Lambda$ 牵引/制动分配矩阵 $\Lambda ={\rm{ diag} }\{0.5, 0.3, 0.5, 0.3, 0.6, 0.4, 0.6, 0.4\}$ $r$ 分数阶阶次 $0<r = r_1/r_2<1$且$r_2$为奇数 $h$ 执行器健康参数 $h2$, $h5$, $h6$ -
[1] Lin X, Dong H R, Yao X M, Chai B G. Adaptive active faulttolerant controller design for high-speed trains subject to unknown actuator faults. Vehile System Dynamic, 2018, 56(11): 1717−1733 doi: 10.1080/00423114.2018.1430836 [2] Song Q, Song Y D. Data-based fault-tolerant control of high-speed trains with traction/braking notch nonlinearities and actuator failures. IEEE Transactions on Neural Networks, 2011, 22(12): 2250−2261 doi: 10.1109/TNN.2011.2175451 [3] Tang H Y, Wang Q Y, Feng X Y. Robust stochastic control for high-speed trains with nonlinearity, parametric uncertainty, and multiple time-varying delays. IEEE Transactions on Intelligent Transportation Systems, 2018, 19(4): 1027−1037 doi: 10.1109/TITS.2018.2812000 [4] Mao Z H, Tao G, Jiang B, Yan X G. Adaptive actuator compensation of position tracking for high-speed trains with disturbances. IEEE Transactions Vehicular Technology, 2018, 67(7): 5706−5717 [5] Hu Q L, Shao X D. Smooth finite-time faulttolerant attitude tracking control for rigid spacecraft. Aerospace Science and Technology, 2016, 55(2016): 144−157 [6] Amato F, Ambrosino R, Ariola M, Cosentino C, De Tommasi G. Finite-Time Stability and Control. London: Springer Verlag, 2014. 1−9 [7] Cheng P, Gao Z F, Qian M S, Lin J X, Active fault tolerant control design for uav using nonsingular fast terminal sliding mode approach. In: Proceedings of the 30th Chinese Control and Decision Conference. Shenyang, China: IEEE, 2018. 292−297 [8] Boukattaya M, Mezghani N, Damak T. Adaptive nonsingular fast terminal slidingmode control for the tracking problem of uncertain dynamical systems. ISA Transactions, 2018, 77(2018): 1−19 [9] Chen Y Q, Ionescu C. Special issue: Applied fractional calculus in modelling, analysis and design of control systems. International Journal of Control, 2017, 90(6): 1155−1156 doi: 10.1080/00207179.2017.1315242 [10] Chen Y Q, Petras I, Xue D Y. Fractional order control—A tutorial. In: Proceedings of the 2009 American Control Conference. St. Louis, USA: IEEE, 2009. 1397−1411 [11] Podlubny I. Geometric and physical interpretation of fractional integration and fractional differentiation. Fractional Calculus and Applied Analysis, 2001, 5(4): 230−237 [12] Al-Saggaf U M, Mehedi I M, Mansouri R. Rotary flexible joint control by fractional order controllers. International Journal of Control Automation and Systems, 2017, 15(59): 1−9 [13] Angel L, Viola J. Fractional order PID for tracking control of a parallel robotic manipulator type delta. ISA Transactions, 2018, 79(2018): 172−188 [14] Wang B, Ding J L, Wu F J, Zhu D L. Robust finite-time control of fractional-order nonlinear systems via frequency distributed model. Nonlinear Dynamics, 2016, 85(4): 2133−2142 doi: 10.1007/s11071-016-2819-9 [15] Liang J X, Wu B W, Wang Y E, Niu B, Xie X J. Input-output finite-time stability of fractional-order positive switched systems. Circuits, Systems, and Signal Processing, 2019, 38(4): 1619−1638 doi: 10.1007/s00034-018-0942-1 [16] Li D Y, Li P, Cai W C, Ma X P, Liu B, Dong H H. Neural adaptive fault tolerant control for high speed trains considering actuation notches and antiskid constraints. IEEE Transactions on Intelligent Transportation Systems, 2018, 20(5): 1706−1718 [17] Yu S H, Yu X H, Shirinzadeh B, Man Z H. Continuous finite-time control for robotic manipulators with terminal sliding mode. Automatica, 2005, 41(11): 1957−1964 doi: 10.1016/j.automatica.2005.07.001 [18] Zhao Y G, Wang Y Z, Liu Z B. Finite time stability analysis for nonlinear fractional order differential systems. In: Proceedings of the 32nd Chinese Control Conference. Xi′an, China: IEEE, 2013. 487−492 [19] Yang H J, Liu J K. An adaptive RBF neural network control method for a class of nonlinear systems. IEEE/CAA Journal of Automatica Sinica, 2018, 5(2): 457−462 doi: 10.1109/JAS.2017.7510820 期刊类型引用(6)
1. 张坤鹏,严斐,杨辉,刘鸿恩,安春兰. 高速列车大功率操纵过程分数阶建模及速度时滞预测. 电工技术学报. 2024(14): 4557-4566 . 百度学术
2. 王中森,李茂青,岳丽丽,王耀东,高云波. 计及动力部分损失的动车组精准停车自适应模糊控制. 铁道科学与工程学报. 2024(08): 3050-3060 . 百度学术
3. 宋跞为. 高速列车跟踪的有限时间复合控制器设计. 科技与创新. 2023(17): 25-29 . 百度学术
4. 刘朝涛,刘浩鸣,杜子学,邬浩鑫,侯忠伟. 基于RBFNN的跨座式单轨车辆自动驾驶滑模控制研究. 重庆交通大学学报(自然科学版). 2023(12): 137-142 . 百度学术
5. 徐传芳,谷晓琳,王龙达. 考虑执行器性能约束的高速列车容错跟踪控制. 中国惯性技术学报. 2022(04): 545-552 . 百度学术
6. 耿睿,李中奇,杨辉. 动车组的多变量非线性预测控制研究. 华东交通大学学报. 2021(02): 61-66+142 . 百度学术
其他类型引用(7)
-