Hierarchical-based Prescribed-time Optimal Fault-tolerant Control for Air-ground Cooperative System
-
摘要: 研究了发生执行器故障的无人机−无人车异构编队系统的层级预设时间最优编队控制问题. 以保容错性能和收敛速度的优化控制为研究主线, 以层级控制、图博弈理论和预设时间控制为技术基础, 构建了一种预设时间最优容错控制算法. 虚拟层设计了基于一致性跟踪误差和能量消耗的二次型性能指标函数, 借助耦合哈密顿−雅克比−贝尔曼(Hanmilton-Jacobi-Bellman, HJB)方程和强化学习求解近似最优控制策略, 实现多智能体的同步最优控制和交互纳什均衡. 实际控制层基于最优信号并利用滑模控制和自适应技术, 设计了预设时间容错跟踪控制器, 实现对最优编队轨迹的有限时间跟踪. 在保证全局收敛时间完全不依赖于系统的初始状态和控制器参数的同时, 也有效实现对执行器故障参数的逼近. 最后, 通过仿真实验验证了所提控制策略的有效性.Abstract: This article investigates the hierarchical structure-based optimal formation control problem of a heterogeneous formation system of unmanned aerial vehicles and unmanned ground vehicles. This article focuses on the optimization control with fault-tolerant performance and fast convergence speed, and constructs a prescribed-time optimal fault-tolerant control algorithm based on hierarchical control, graphical game theory, and prescribed-time control method. In virtual layer, an quadratic performance index function based on consistency tracking error and energy consumption is designed, and approximate optimal control strategy is obtained by using coupled Hanmilton-Jacobi-Bellman (HJB) equation and reinforcement learning, which achieves synchronous optimal control and interactive Nash equilibrium of multiagent systems. In actual control layer, a prescribed-time fault-tolerant tracking controller is designed based on the optimal signal, sliding-mode and adaptive technologies, which realizes the finite-time tracking of the optimal formation trajectory. The proposed method ensures that the global convergence time is completely independent of the initial states of the system and controller parameters, while also effectively approximating the actuator fault parameters. Finally, the effectiveness of the constructed control strategy is verified through simulation experiment.
-
Key words:
- Air-ground cooperation /
- actuator faults /
- prescribed-time formation /
- graphical game /
- optimal control
-
异构多智能体系统(Heterogeneous multiagent systems, HMASs)是具有明显状态空间维度、动力学特性及信息感知、决策和交互能力等结构和功能差异的智能体集群系统, 可以在复杂环境下通过交互网络实现相互协作, 进而共同完成特定任务[1]. 由无人机(Unmanned aerial vehicles, UAVs)和无人车(Unmanned ground vehicles, UGVs)构成的空−地异构编队系统综合了无人机对广阔区域的快速侦查和无人车对地面目标的精确定位等优势, 凸显功能互补. 跨域协同系统具备多种有效载荷携带、数据采集和任务分配能力, 在跟踪追逃、协同救援、资源勘查及辐射搜索等军用和民用领域正得到日益广泛的应用[2].
编队控制是多智能体领域的重要研究方向, 如果多智能体系统通过调整各对象的相对相位关系, 使其形成并保持特定的几何构型, 那么就认为完成了预期的编队任务[3]. 目前, 多智能体编队策略主要包含分布式、分散式和集中式控制[4]. 集中式要求至少一个智能体能够获得其他所有智能体的状态信息, 然后做统一规划, 因此过分依赖交互网络, 灵活性和容错性差. 基于局部信息的分布式和分散式控制则具有更强的鲁棒性, 其中利用邻居节点信息的分布式编队策略考虑到不同智能体应对外界干扰和故障能力的差异, 并充分利用了群体资源优势实现协同编队, 因此, 在异构多智能体编队控制的研究领域备受欢迎[5-6]. 分布式空−地协同编队问题到目前为止也有了些许研究成果. 文献[7]研究了无人机−无人车编队系统的分布式跟踪控制问题, 设计了基于虚拟领导者观测器的时变编队控制器并给出了可行性条件. 文献[8]针对空−地异构编队系统设计了一种切换拓扑下基于一致性理论的分布式控制方法. 文献[9]针对轮式无人车和四旋翼构成的领导−跟随编队系统设计了基于反步法的跟踪控制器, 实现编队误差的渐近收敛. 然而, 上述成果均依赖于精确的模型参数, 并未考虑外界干扰和模型不确定性等因素带来的影响. 而无人机和无人车均是易受外界干扰的非线性系统, 尤其是无人机作为一种具有动不稳定性和强耦合特性的复杂系统, 极易受到外界气流影响, 高空作业受到的空气阻力和陀螺效应还会导致模型不确定性[10]. 因此, 研究空−地多智能体系统的鲁棒控制具有重要的实际意义.
多智能体系统在长期运行过程中不可避免地会出现状态渐变或突变, 导致个体及其相互作用的特性和机制受到约束, 比如执行器的物理限制和通信能力受限等, 进而引发执行器及系统元部件出现故障, 破坏多智能体系统的稳定性以至于难以完成既定的任务[11-12]. 为了提高系统的稳定性和安全性, 容错控制技术是不可或缺的一环, 容错机制可为个体稳定性、多智能体系统全局稳定性、任务实现和性能保持等提供技术保证[13-14]. 然而, 目前空−地异构编队系统的容错控制问题还未展开系统性研究. 文献[15]研究了通讯网络故障下的空−地协同编队系统位置环和姿态环的容错控制问题. 文献[16]基于强化学习研究了空−地通信故障下的鲁棒最优编队控制问题, 利用数据信息设计了分布式跟踪控制律. 文献[17]研究了通信链接故障和执行器故障下的空−地多种类无人器的迭代容错学习律, 有效减少了对模型参数的依赖. 文献[18]针对执行器故障下的无人机和无人车异构编队系统, 设计了一种实时任务重规划的容错方案, 保证了全局的任务执行能力.
在实践工程中, 系统良好的暂态性能是非常重要的. 上述方案均存在调节时间过长的弊端, 为了提高系统的机动响应性能, 文献[19]针对空−地协同系统, 基于非奇异快速终端滑模和反步法技术设计了一种有限时间容错编队方案. 文献[20]进一步提出了空−地协同系统的固定时间容错编队控制方案, 保证了收敛时间的可设计性. 实际上, 不管有限时间稳定还是固定时间稳定, 系统的收敛时间总是与控制器参数甚至系统初始状态相关, 而且符号函数的使用必然导致控制输入的非连续性, 这极大影响着工程上的应用前景. 最近, 文献[21]和[22]分别提出了预设时间和实际预设时间控制方法. 不同于有限时间和固定时间控制, 预设时间控制的收敛时间完全不依赖于系统的初始状态和控制器参数, 预估时间更切合实际收敛时间. 由于预设时间控制是基于常规的状态反馈控制而实现, 所以控制输入是连续且光滑的. 然而, 针对空−地异构多智能体系统的预设时间容错编队控制问题鲜有报道.
在众多实际系统中, 智能体不仅被动地接受指令, 还需要在与其他个体交互的过程中优化自身某些性能指标, 以形成一种反映个体及多智能体系统的理性行为, 因此优化控制备受关注[23]. 文献[24]针对离散非线性动态切换系统提出了一种基于事件触发和神经网络的迭代最优控制方法. 文献[25]进一步将事件触发机制引入多智能体系统的最优一致性问题. 文献[26]针对受执行器故障的离散多智能体系统, 设计了一种基于强化学习的自适应容错跟踪控制器. 文献[27]将强化学习与滑模控制技术相融合, 实现了对高阶多智能体系统的最优一致性跟踪控制. 文献[28]针对二阶多智能体系统提出了一种有限时间鲁棒控制算法, 提高了传统优化算法的收敛速度. 文献[29]提出一种基于强化学习的固定时间优化控制算法, 保证被控系统的稳定时间不受系统初始状态的影响. 在基于博弈论相关的优化控制方面, 文献[30]针对高阶多智能体系统分布式自适应Nash均衡解的搜索法则, 实现全局对最优点的一致性跟踪. 文献[31]设计了基于博弈论和积分强化学习的最优迭代学习算法, 在线实现多智能体系统的近似最优鲁棒包容控制. 然而, 在空−地协同异构多智能体系统领域的相关成果却极为少见. 文献[32]针对空−地协同无人器, 利用博弈学习理论设计了一种3-D最优路径规划策略, 但未涉及轨迹的最优跟踪控制问题.
基于上述研究现状, 本文针对受到外界干扰及执行器故障的空−地协同编队系统, 研究带有层级结构的预设时间容错最优控制问题, 创新点如下所述:
1)本文研究有向拓扑网络下的异构多智能体系统, 放宽了网络拓扑约束条件. 设计的预设时间容错控制器实现有限时间的误差收敛, 且收敛时间完全不受其他任何因素的影响, 显著提高系统机动性的同时进一步提高了收敛时间的人为可干预性.
2)从功能实现的角度构造了层级结构, 上层虚拟层和下层实际控制层的设计避免了故障对健康智能体的影响, 提高了单体和多智能体系统的可靠性和安全性. 设计自适应律估计执行器故障参数和不确定性干扰并通过控制器实现补偿, 可有效处理智能体结构差异、拓扑不确定性和未知故障带来的影响.
3)在虚拟层设计了基于图博弈理论的最优轨迹生成规则, 同步实现子系统和全局系统的优化, 从智能决策和智能学习等角度提升系统的整体性能. 区别于传统的执行−评价网络和迭代优化过程, 本文设计的自适应学习律和近似最优控制器降低了算法复杂度, 提升了工程应用潜力.
1. 预备知识
1.1 基本图论知识
异构多智能体系统的通讯拓扑用有向图$ G = ( {V,\;E,\;A} ) $来描述. 其中, $ V = \{ {{v_1},\;{v_2},\;\cdots ,\;{v_N}} \} $表示无人器智能体的集合, $ E = [ {{e_{ij}}} ] $表示跟随者之间的通讯连接集合, $ A = [ {{a_{ij}}} ] \in {{\mathop{\bf{R}}\nolimits} ^{N \times N}} $表示跟随者$ v_i $和$ v_j $之间的连接权重. 如果$ ( {{v_i},{v_j}} ) \in E $, 那么, $ {a_{ij}} > 0 $, 否则, $ {a_{ij}} = 0 $. 定义图$ G $ 的拉普拉斯矩阵为$ L = D- $ $A $, 其中, 矩阵$ D \;=\; {\rm{diag}}\{ {{\deg }_{{\rm{in}}}}( {{v_1}} ),\;\;{{\deg }_{{\rm{in}}}}( {{v_2}} ), \; \cdots , {{\deg }_{{\rm{in}}}}( {{v_N}} ) \} $表示有向图$ G $的入度矩阵, 其中, $ {\deg _{{\rm{in}}}}( {{v_i}} ) = \sum\nolimits_{j = 1}^N {{a_{ij}}} $ 表示第$ i $个跟随者的入度信息.
1.2 系统模型
异构多智能体系统中包含$ N $个智能体, 其中$ N_1 $个具有二自由度的无人小车和$ N_2 $个六自由度四旋翼, 其简化后的结构图如图1所示.
首先, 考虑微分驱动的无人车模型. 第$ i $个无人车的运动学模型为:
$$ \begin{equation} \left\{ {\begin{aligned} & {{{\dot x}_i} = {v_i}\cos {\theta _i}}\\ &{{{\dot y}_i} = {v_i}\sin {\theta _i}}\\ &{{{\dot \theta }_i} = {\omega _i}} \end{aligned}} \right. \end{equation} $$ (1) 其中, $ ({x_i},\;{y_i}) $为第$ i $个无人车的惯性位置坐标, $ v_i $表示线速度, $ \omega_i $为角速度, $ \theta_i $表示第$ i $个无人车方位角. 由于$ ({x_i},{y_i}) $点为非完整点, 另选取点$ (x_{pi},y_{pi}) $为参考点, 该点为运动学完整点. 因此, 对无人车的控制转化为对新参考点的坐标控制问题, 经过进一步处理可以得到如下所示的无人小车二阶微分表达式[19]:
$$ \begin{equation} \left\{ {\begin{aligned} & {{{\ddot x}_{pi}} = {u_{xi}} + {f_{xi}}}\\ &{{{\ddot y}_{pi}} = {u_{yi}} + {f_{yi}}} \end{aligned}} \right. \end{equation} $$ (2) 其中, $u_{xi} $和$u_{yi }$关于新参考点的控制输入, $f_{xi} $和$f_{yi} $为系统非线性, 表达式为:
$$ \begin{equation} \left[ \begin{array}{l} {f_{xi}}\\ {f_{yi}} \end{array} \right] = \left[ \begin{array}{l} - {v_i}{\omega _i}\sin {\theta _i} - {L_i}\omega _i^2\cos {\theta _i}\\ {v_i}{\omega _i}\cos {\theta _i} - {L_i}\omega _i^2\sin \theta_i \end{array} \right] \end{equation} $$ (3) 本文考虑带有欠驱动特性的四旋翼为无人机研究对象, 通过调整四个旋翼的转速实现垂直起降等运动. 将无人机视为一个旋转的刚性结构体, 那么其复杂的动态特性描述等式就可以通过牛顿−欧拉方程得到. 一般可以将其动态特性用位置子系统和姿态子系统来表示, 由于本文重点关注各智能体相对位置关系, 因此采用内外环解耦的控制架构, 并针对如下所示的无人机位置控制环展开研究.
$$ \begin{equation} \left\{ {\begin{aligned} &{{{\ddot x}_{qi}} = \frac{{(\cos {\varphi _i}\sin {\theta _i}\cos {\psi _i} + \sin {\varphi _i}\sin {\psi _i}){u_{i1}}}}{{{m_i}}} - \frac{{{\xi _{xi}}{{\dot x}_{qi}}}}{{{m_i}}}}\\ &{{{\ddot y}_{qi}} = \frac{{(\cos {\varphi _i}\sin {\theta _i}\sin {\psi _i} - \sin {\varphi _i}\cos {\psi _i}){u_{i1}}}}{{{m_i}}} - \frac{{{\xi _{yi}}{{\dot y}_{qi}}}}{{{m_i}}}}\\ &{{{\ddot z}_{qi}} = \frac{{(\cos {\theta _i}\cos {\varphi _i}){u_{i1}}}}{{{m_i}}} - \frac{{{\xi _{zi}}{{\dot z}_{qi}}}}{{{m_i}}} - g} \end{aligned}} \right. \end{equation} $$ (4) 其中, $ \left( {{x_{qi}},\;{y_{qi}},\;{z_{qi}}} \right) $为惯性坐标系$ E $中四旋翼欧几里得位置坐标, $ \left( {{\varphi _i},\;{\theta _i},\;{\psi _i}} \right) $为欧拉角, $ m_i $表示第$ i $个四旋翼质量, $ \xi _{xi},\;\xi _{yi},\;\xi _{zi} $分别表示关于$ x,y,z $轴的空气动力学阻尼系数, $ g $表示重力加速度, $ {{u_{i1}}} $是与四个旋翼相关的输入扭矩, 表达式为:
$$ \begin{equation} {u_{i1}} = \kappa_i (w_{i1}^2 + w_{i2}^2 + w_{i3}^2 + w_{i4}^2) \end{equation} $$ (5) 其中, $ \kappa_i $表示升力系数, $ {w_{ij}}\left( {j = 1,\;2,\;3,\;4} \right) $为四个旋翼的角速度. 为了编队控制器的设计, 对位置子系统引入新的控制量$ u_{xi},\;u_{yi},\;u_{zi} $, 分别表示为纵向、横向及垂直方向的输入控制量, 然后位置子系统可重新表示为:
$$ \begin{equation} \left[ \begin{array}{l} {{\ddot x}_{qi}}\\ {{\ddot y}_{qi}}\\ {{\ddot z}_{qi}} \end{array} \right] = \left[ \begin{array}{l} {u_{xi}}\\ {u_{yi}}\\ {u_{zi}} \end{array} \right] + \left[ \begin{array}{l} {f_{xi}}\\ {f_{yi}}\\ {f_{zi}} \end{array} \right] \end{equation} $$ (6) 其中, $ f_{xi},\;f_{yi},\;f_{zi} $为包含参数不确定性的非线性项.
为了构建全局统一描述模型, 将第$ i $个智能体理想情况下的模型统一为以下表达式:
$$ \begin{equation} {{\ddot \chi }_{vi}}(t) = {u_{vi}}(t) + {f_{vi}}(t) \end{equation} $$ (7) 其中, $ {\chi _{vi}}(t) \in {{\bf{R}}^{{p_i}}} $、$ {u_{vi}}(t) \in {{\bf{R}}^{{p_i}}} $和$ {f _{vi}}(t) \in {{\bf{R}}^{{p_i}}} $分别表示智能体$ i $的位置坐标、控制输入和系统非线性项, $ {p_i} $表示第$ i $ 个智能体的状态维数.
当第$ i $个跟随者的第$ k $个执行器发生故障后, 执行机构的输入$ {u_{ik}} $和输出$ u_{ik}^F $呈现不一致现象, 且具有以下关系:
$$ \begin{equation} u_{ik}^F = {(1-\rho _{ik}}(t)){u_{ik}} + {\tau _{ik}}(t) \end{equation} $$ (8) 其中, $ {\rho _{ik}}(t) $为执行器效率损失因子, 而且是一个未知的时变参数, $ {\tau _{ik}}(t) $是执行器加性故障参数. 当$ {\rho _{ik}}(t) = 0 $同时$ {\tau _{ik}}(t) = 0 $时, 发生加性故障; 当$ 0 < {\rho _{ik}}(t) < 1 $同时$ {\tau _{ik}}(t) = 0 $时, 则发生执行器乘性故障; 当$ 0 < {\rho _{ik}}(t) < 1 $同时$ {\tau _{ik}}(t) \ne 0 $时, 发生的是乘性和加性故障; 当$ {\rho _{ik}}(t) = 1 $同时$ {\tau _{ik}}(t) = 0 $时, 系统处于正常工作模式.
将第$ i $个智能体所有故障模式统一整理为:
$$ \begin{equation} u_i^F = (I _i- {\Lambda _i}){u_i} + {\tau _i}(t) \end{equation} $$ (9) 其中, $ {\Lambda _i} = {\rm{diag}}\left\{ {{\rho _{i1}},\;{\rho _{i2}},\;\cdots ,\;{\rho _{i{p_i}}}} \right\} $, $ {\tau _i} = {\rm{diag}}\{ {\tau _{i1}}, {\tau _{i2}},\;\cdots ,\;{\tau _{i{p_i}}} \} $.
进而, 将第$ i $个智能体的实际控制模型统一为:
$$ \begin{equation} {{\ddot \chi }_{ai}}(t) = \left( {{I_i} - {\Lambda _i}} \right){u_{ai}}(t) + {\tau _i}(t) + {f_{ai}}(t) + {d_{i}}(t) \end{equation} $$ (10) 其中, $ {\chi _{ai}}(t) $, $ {u_{ai}}(t) $和$ {f _{ai}}(t) $分别表示复杂环境下的位置坐标、控制输入和系统非线性项, $d_i(t) $为外界干扰.
注 1. 无人机和无人车在动态空间和系统模型等方面存在的异质特性影响着协同编队水平, 也致使同构多智能体系统的分布式编队策略无法在空−地协同领域有效地发挥作用. 相较于完全依赖系统精确模型而设计的控制策略[7-9], 本文在充分考虑外界干扰、模型不确定性和未知故障的前提下, 统一了异构多智能体模型, 为复杂环境下多种类移动无人器的统一管理提供了一种相对统一的研究模型, 也为后续控制器的设计提供了便利.
1.3 问题描述
本文考虑一种特殊的异构编队场景, 即由无人机和无人车构成异构多智能体系统(10)执行在3-D空间中的分布式编队任务. 假设智能体$ i $的期望编队队形为$ {h_i}(t) $, 全局一致性最优位置信号为$ {\chi _{vi}}(t) = {\left[ {{\chi _{v1}}(t),\;{\chi _{v2}}(t),\;\cdots ,\;{\chi _{vN}}(t)} \right]^{\rm{T}}} $. 那么, 当存在一个不依赖于系统初始状态和任何参数的预设时间$ {T_{\max }} $, 使得
$$ \begin{equation} \mathop {\lim }\limits_{t \to {T_{\max }}} \left( {{\chi _i}(t) - {\chi _{vi}}(t) - {h_i}(t)} \right) = {\rm{0}} \end{equation} $$ (11) 成立, 那么称异构多智能体系统完成了预设时间容错最优编队控制.
假设 1. 无人机模型气动参数$ \xi _{xi},\;\xi _{yi},\;\xi _{zi} $是未知且有界的.
假设 2. 执行器故障参数$ \rho _{ik} $和$ \tau _{ik} $是未知的, 可能快速时变且不可测量但是有界的, 即存在未知常数$ \rho _{m} $和$ \tau _{m} $使得$ 0 \le {\rho _{ik}} \le {\rho _m} < 1 $和$ {\tau _{ik}} \le {\tau _m} $.
假设 3. 智能体受到的外界干扰$ {d_i}(t) $是有界的, 即存在未知常数$ d _{m} $使得$ 0 \le \left\| {{d_i}} \right\| \le {d_m} < 1 $.
1.4 相关引理和定义
定义 1. 对于以下系统:
$$ \begin{equation} \dot x(t) = f(t,x(t)),\begin{array}{*{20}{c}} {}&{} \end{array}x(0) = {x_0} \end{equation} $$ (12) 其中, $ x \in {{\bf{R}}^n} $, $ f\left( \cdot \right):{{\bf{R}}^n} \to {{\bf{R}}^n} $ 是一个未知的非线性函数, 原点是系统的一个平衡点. 如果该系统关于原点是全局有限时间渐近稳定的, 并且有限收敛时间$ T_x $是人为可预先设定的正定常数, 即$ {\rm{0}} < {T_x} < \infty $, 那么系统(12)关于原点是全局预设时间稳定的.
定义 2. 对于系统(12), 如果对于任意的初始状态$ x_0 $, 存在$ \varepsilon > 0 $和收敛时间$ {T_x}:{{\bf{R}}^n} \to {{\bf{R}}_ + } \cup 0 $, 使得对于$ \forall t \ge {T_x} $, 都有$ \left\| {x(t)} \right\| \le \varepsilon $成立, 其中时间常数$ T_x $是有界的且可预先设定的, 那么系统(12)被称为是实际预设时间稳定.
引理 1[22]. 对于系统(12), 如果存在一个连续正定函数$ V(x) $和一个正定标量$ \gamma $ 满足
$$ \begin{equation} \dot V(x) \le - \gamma V(x) - 2\frac{{\left| {\dot \varsigma \left( {{t_0},T_\varsigma} \right)} \right|}}{{\varsigma \left( {{t_0},T_\varsigma} \right)}}V(x) + \frac{\eta }{{\varsigma \left( {{t_0},T_\varsigma} \right)}} + c \end{equation} $$ (13) 以及
$$ \begin{equation} \varsigma \left( {{t_0},T_\varsigma} \right) = \left\{ {\begin{aligned} &\exp \left( {\alpha \left( {{t_0} + T_\varsigma - t} \right)} \right) - 1,\\ &\qquad t \in \left[ {{t_0},{t_0} + T_\varsigma} \right) \\ &\varepsilon - \varepsilon {\rm{tanh}}\left( {\alpha \left( {t - {t_0} - T_\varsigma} \right)} \right),\\ &\qquad t \in \left[ {{t_0} + T_\varsigma,\infty } \right) \end{aligned}} \right. \end{equation} $$ (14) 其中, $ \gamma > 0 $, $ \eta \ge 0 $, $ c \ge 0 $, $ \alpha >0 $是可调参数, $ \varepsilon $是一个正定常数, $ T_\varsigma $是人为设定常数, $ t_0 $是开始时间, 那么系统(12)关于平衡点是全局预设时间稳定的, 收敛时间为$ T_\varsigma $.
2. 主要结果
2.1 虚拟层: 分布式最优一致性跟踪控制
多智能体系统的一致性最优控制问题可以看作一个多目标优化问题, 为此在虚拟层基于图博弈设计理想模型(7)的纳什均衡搜索法则, 实现全局交互纳什均衡, 为底层最优容错跟踪提供参考路径.
首先, 设计基于局部交互信息的一致性误差:
$$ \begin{equation} {e_{vi}}(t) = \sum\limits_{j = 1}^N {{a_{ij}}\left( {{\chi _{vi}} - {\chi _{vj}}} \right)} \end{equation} $$ (15) 为了实现控制器设计, 设计以下误差变量:
$$ \begin{equation} {s_{vi}} = {\dot e_{vi}} + \lambda {e_{vi}} \end{equation} $$ (16) 对其求导, 可以得到:
$$ \begin{equation} \begin{split} {{\dot s}_{vi}} = \;&\sum\limits_{j = 1}^N {{a_{ij}}{A_i}{u_{vi}}} - \sum\limits_{j = 1}^N {{a_{ij}}} {A_j}{u_{vj}}\;+\\ &\sum\limits_{j = 1}^N {{a_{ij}}\left( {{f_{vi}} - {f_{vj}}} \right)} + \lambda {{\dot e}_{vi}} \end{split} \end{equation} $$ (17) 虚拟层的目标是设计一组最优控制策略$ \{ u_{v1}^ * , u_{v1}^ * ,\;\cdots ,\;u_{v1}^ * \} $ 使得误差动态系统(17)达到一致有界收敛, 同时最小化如下局部性能指标:
$$ \begin{equation} {V_{vi}} = \int_0^\infty {\left( {s_{vi}^{\rm{T}}{Q_i}{s_{vi}} + u_{vi}^{\rm{T}}{R_i}{u_{vi}}} \right){\rm{d}}t} \end{equation} $$ (18) 其中, $ Q_i $和$ R_i $是正定矩阵, 且均是对称矩阵.
定义 3[24]. 对于智能体$ i $, 令$ {u_{ - vi}} $表示第$ i $个智能体所有邻居的控制策略集合. 如果
$$ \begin{equation} V_{vi}^*: = {V_{vi}}\left( {u_{vi}^*,\;u_{ - vi}^*} \right) \le {V_{vi}}\left( {{u_{vi}},\;u_{ - vi}^*} \right) \end{equation} $$ (19) 成立, 则称最优性能指标$ \{ {V_{v1}^ * ,\;V_{v2}^ * ,\;\cdots ,\;V_{vN}^ * } \} $达到图博弈的纳什均衡.
假设$ V_{vi} $连续可导, 那么式$ (18) $的哈密顿函数为
$$ \begin{equation} \begin{split} &{H_i}\left( {{s_{vi}},{u_{vi}},{u_{vj}},\nabla {V_{vi}}} \right) = \nabla V_{vi}^{\rm{T}}\left( {\sum\limits_{j = 1}^N {{a_{ij}}{A_i}{u_{vi}}} }\;- \right.\\ &\qquad\left. { \sum\limits_{j = 1}^N {{a_{ij}}} {A_j}{u_{vj}} + \sum\limits_{j = 1}^N {{a_{ij}}\left( {{f_i} - {f_j}} \right)} + \lambda {{\dot e}_{vi}}} \right)+\\ &\qquad s_{vi}^{\rm{T}}{Q_i}{s_{vi}} + u_{vi}^{\rm{T}}{R_i}{u_{vi}} \\[-1pt]\end{split} \end{equation} $$ (20) 根据平衡性条件$ \frac{{\partial {{{H}}_i}}}{{\partial {{{u}}_{vi}}}} = 0 $, 令$ {g_i} = \sum\nolimits_{j = 1}^N {{a_{ij}}{A_i}} $, 可以得到最优控制策略为
$$ \begin{equation} u_{vi}^ * = - \frac{1}{2}R_i^{ - 1}g_i^{\rm{T}}\nabla V_{vi}^ * \end{equation} $$ (21) 将最优控制策略代入哈密顿函数(20), 可以得到耦合的HJB方程
$$ \begin{equation} \begin{split} 0 =\;& {\left( {\nabla V_{vi}^*} \right)^{\rm{T}}}\left( {\sum\limits_{j = 1}^N {{a_{ij}}\left( {{f_i} - {f_j}} \right) + \lambda {{\dot e}_{vi}}} }\right)- \\ &\sum\limits_{j = 1}^N {\frac{1}{2}{a_{ij}}{A_j}{{\left( {\nabla V_{vj}^*} \right)}^{\rm{T}}}R_j^{ - 1}g_j^{\rm{T}}\nabla V_{vj}^*}\;- \\ &\frac{1}{4}{\left( {\nabla V_{vi}^*} \right)^{\rm{T}}}{g_i}R_i^{ - 1}g_i^{\rm{T}}\nabla V_{vi}^* + s_{vi}^{\rm{T}}{Q_i}{s_{vi}} \end{split} \end{equation} $$ (22) 由于耦合HJB方程是非线性偏微分方程, 难以获得局部最优性能指标$ V_{vi}^ * $和控制输入$ u_{vi}^ * $, 因此设计一种基于神经网络的自适应评价机制来近似最优性能指标, 从而获得近似最优控制策略. 首先, 将智能体$ i $的最优性能指标$ V_{vi}^ * $表示为
$$ \begin{equation} V_{vi}^ * = W_{vi}^{\rm{T}}{\sigma _{vi}(Z_{vi})} + {\varepsilon _{vi}} \end{equation} $$ (23) 其中, $ {W_{vi}} $是理想权值向量, $ {\sigma _{vi}} $是激活函数, $ Z_{vi} $为输入向量, $ {\varepsilon _{vi}} $是逼近误差. 进而可以得到如下最优性能指标的梯度表达式
$$ \begin{equation} \nabla V_{vi}^ * = \nabla \sigma _{vi}^{\rm{T}}{W_{vi}} + \nabla {\varepsilon _{vi}} \end{equation} $$ (24) 将性能指标的梯度表达式(24)代入最优控制输入(21), 进而式(20)可以重新整理为
$$ \begin{split} W_{vi}^{\rm{T}}\nabla &{\sigma _{vi}}\left( {\sum\limits_{j = 1}^N {{a_{ij}}\left( {{f_i} - {f_j}} \right) + \lambda {{\dot e}_{vi}}} } \right) + s_{vi}^{\rm{T}}{Q_i}{s_{vi}}\;-\\ &\frac{1}{4}W_{vi}^{\rm{T}}\nabla {\sigma _{vi}}{g_i}R_i^{ - 1}g_i^{\rm{T}}\nabla \sigma _{vi}^{\rm{T}}{W_{vi}}\;-\\ &\sum\limits_{j = 1}^N {\frac{1}{2}{a_{ij}}{A_j}W_{vj}^{\rm{T}}\nabla {\sigma _{vj}}R_j^{ - 1}g_j^{\rm{T}}\nabla \sigma _{vj}^{\rm{T}}{W_{vj}}} \;+\\ &\nabla {\varepsilon _{vi}}\left( {\sum\limits_{j = 1}^N {{a_{ij}}\left( {{f_i} - {f_j}} \right) + \lambda {{\dot e}_{vi}}} } \right)-\\ &\sum\limits_{j = 1}^N {\frac{1}{2}{a_{ij}}{A_j}\nabla \varepsilon _{vi}^{\rm{T}}R_j^{ - 1}g_j^{\rm{T}}\nabla \varepsilon _{vj}^{\rm{T}}}\;- \\ &\frac{1}{4}\nabla \varepsilon _{vi}^{\rm{T}}{g_i}R_i^{ - 1}g_i^{\rm{T}}\nabla {\varepsilon _{vi}} = 0 \\[-1pt]\end{split} $$ (25) 值得注意的是, 式$ (25) $中的$ {W_{vi}} $是未知的, 所以$ u_{vi}^ * $无法得到. 因此, 我们设计权值自适应律
$$ \begin{equation} {{\hat V}_{vi}} = \hat W_{vi}^{\rm{T}}{\sigma _{vi}} \end{equation} $$ (26) 那么, 近似的最优控制律为
$$ \begin{equation} {\hat u_{vi}} = - \frac{1}{2}R_i^{ - 1}g_i^{\rm{T}}\nabla \sigma _{vi}^{\rm{T}}{\hat W_{vi}} \end{equation} $$ (27) 接下来, 我们设计权值训练法则, 基于性能指标$ (18) $设计如下误差项
$$ \begin{equation} {\eta _i} = {c_{vi}} - \frac{1}{\psi }{\hat V_{vi}} + {\dot {\hat V}_{vi}} \end{equation} $$ (28) 其中, $ {c_{vi}} = s_{vi}^{\rm{T}}{Q_i}{s_{vi}} + u_{vi}^{\rm{T}}{R_i}{u_{vi}} $, $ \psi $是大于零的增益参数, 通过调整该参数可调节误差项$ \eta _i $对权值自适应调整及控制器的影响程度. 然后, 利用梯度下降法构建如下权值自适应更新律
$$ \begin{equation} {{{\dot {\hat W}}_{vi}} = - {\lambda _{vi}}\frac{{\partial {E_{vi}}}}{{\partial {{\hat W}_{vi}}}}} \end{equation} $$ (29) 其中, $ \lambda _{vi} $是可人为设计的正定学习率, $ {E_{vi}} = ({1}/{2})\times \eta _{vi}^{\rm{T}}{\eta _{vi}} $. 然后, 将式$ (28) $代入式$ (29) $可以得到
$$ \begin{equation} \begin{split} {{{\dot {\hat W}}_{vi}}} =\;& { - {\lambda _{vi}}{\eta _i}\frac{{\partial \left[ {{c_{vi}} - \frac{1}{\psi }{{\hat V}_{vi}} + {{\dot {\hat V}}_{vi}}} \right]}}{{\partial {{\hat W}_{vi}}}}} = \\ & - {\lambda _{vi}}{\eta _i}\cdot{\left[ { - \frac{1}{\psi }\frac{{\partial {{\hat V}_{vi}}}}{{\partial {{\hat W}_{vi}}}} + \frac{\partial }{{\partial {{\hat W}_{vi}}}}\left( {\frac{{\partial {{\hat V}_{vi}}}}{{\partial {Z_{vi}}}}} \right){{\dot Z}_{vi}}} \right]} = \\ & - {\lambda _{vi}}{\eta _i}\cdot\left[ { - \frac{{{\sigma _{vi}}}}{\psi } + \nabla {\sigma _{vi}}{{\dot Z}_{vi}}} \right] =\\ & - {\lambda _{vi}}\cdot\left[ {{c_{vi}} - \frac{{\hat W_{vi}^{\rm{T}}{\sigma _{vi}}}}{\psi } + {{\dot {\hat V}}_{vi}}} \right] \cdot\\ &\left[ { - \frac{{{\sigma _{vi}}}}{\psi } + \nabla {\sigma _{vi}}{{\dot Z}_{vi}}} \right] = \\ & - {\lambda _{vi}}\cdot\left( {{c_{vi}} + \hat W_{vi}^{\rm{T}}{\Lambda _{vi}}} \right){\Lambda _{vi}}\\[-1pt] \end{split} \end{equation} $$ (30) 其中, $ {{\Lambda _{vi}} = - {{{\sigma _{vi}}}}/{\psi } + \nabla {\sigma _{vi}}{{\dot Z}_{vi}}} $. 为了保证权值有界性, 令$ \| {{{\bar W}_{vi}}} \| $为权值上界, 然后重新设计以下自适应律.
情况 1. 当$ {\| {{{\hat W}_{vi}}} \|< \| {{{\bar W}_{vi}}} \|} $或$ {\| {{{\hat W}_{vi}}} \| = \| {{{\bar W}_{vi}}} \|} $, 同时$ {\hat W_{vi}^{\rm{T}}( {{c_{vi}} + \hat W_{vi}^{\rm{T}}{\Lambda _{vi}}} ){\Lambda _{vi}} > 0} $成立时, 自适应律为:
$$ \begin{equation} {{{\dot {\hat W}}_{vi}} = - {\lambda _{vi}}\left( {{c_{vi}} + \hat W_{vi}^{\rm{T}}{\Lambda _{vi}}} \right){\Lambda _{vi}}} \end{equation} $$ (31) 情况 2. 当$ {\| {{{\hat W}_{vi}}} \| = \| {{{\bar W}_{vi}}} \|} $, 同时 $ \hat W_{vi}^{\rm{T}}( {c_{vi}} \;+ $ $ \hat W_{vi}^{\rm{T}}{\Lambda _{vi}} ){\Lambda _{vi}} \le 0 $成立时, 自适应律为:
$$ \begin{equation} {{{\dot {\hat W}}_{vi}} = { - {\lambda _{vi}}\left( {{c_{vi}} + \hat W_{vi}^{\rm{T}}{\Lambda _{vi}}} \right){\Lambda _{vi}} + {\lambda _{vi}}{\phi _{vi}}}} \end{equation} $$ (32) 其中, $ {\phi _{vi}} = \hat W_{vi}^{\rm{T}}( {{c_{vi}} + \hat W_{vi}^{\rm{T}}{\Lambda _{vi}}} ){\Lambda _{vi}}/ {{{{\| {{{\hat W}_{vi}}} \|}^2}}}{\hat W_{vi}} $.
定理 1. 考虑异构多智能体(7)虚拟层的最优一致性跟踪问题, 如果神经网络权值自适应律为式(31)和(32), 那么自适应权值$ {{{\hat W}_{vi}}} $的收敛过程是有界的.
证明. 设计李雅普诺夫函数$ {V_{i}}(t) = ({1}/{{2){\lambda _{vi}}}}\;\times \hat W_{vi}^{\rm{T}}{{\hat W}_{vi}} $, 然后对$ {V_{i}}(t) $求导得到以下两种情况.
情况 1. 考虑当$ \| {{{\hat W}_{vi}}} \| < \| {{{\bar W}_{vi}}} \| $或者 $ \| {{{\hat W}_{vi}}} \| \;= \| {{{\bar W}_{vi}}} \| $, 并且$ {{\hat W}_{vi}^{\rm{T}}}( {{c_{vi}} + \hat W_{vi}^{\rm{T}}{\Lambda _{vi}}} ){\Lambda _{vi}} > 0 $的情况, 有
$$ \begin{equation} {{\dot V}_{vi}} = \frac{1}{{{\lambda _{vi}}}}\hat W_{vi}^{\rm{T}}{{\dot {\hat W}}_{vi}} = - \hat W_{vi}^{\rm{T}}\left( {{c_{vi}} + \hat W_{vi}^{\rm{T}}{\Lambda _{vi}}} \right){\Lambda _{vi}} < 0\end{equation} $$ (33) 情况 2. 考虑当$ \| {{{\hat W}_{vi}}} \|\; =\; \| {{{\bar W}_{vi}}} \|,\; \hat W_{vi}^{\rm{T}}( {c_{vi}} \;+ \hat W_{vi}^{\rm{T}}{\Lambda _{vi}} ){\Lambda _{vi}} \le 0 $的情况, 有
$$ \begin{equation} \begin{split} {{\dot V}_{vi}} =\;&\frac{1}{{{\lambda _{vi}}}}\hat W_{vi}^{\rm{T}}{{\dot {\hat W}}_{vi}} = - \hat W_{vi}^{\rm{T}}\left( {{c_{vi}} + \hat W_{vi}^{\rm{T}}{\Lambda _{vi}}} \right){\Lambda _{vi}}\;+\\& \frac{{\hat W_{vi}^{\rm{T}}\left( {{c_{vi}} + \hat W_{vi}^{\rm{T}}{\Lambda _{vi}}} \right){\Lambda _{vi}}}}{{{{\left\| {{{\hat W}_{vi}}} \right\|}^2}}}\hat W_{vi}^{\rm{T}}{{\hat W}_{vi}} = 0 \\[-1pt]\end{split} \end{equation} $$ (34) 通过设计$ \| {{{\hat W}_{vi}}( 0 )} \| \le \| {{{\bar W}_{vi}}} \| $, 然后自适应律(32)可以保证$ \| {{{\hat W}_{vi}}} \| \le \| {{{\bar W}_{vi}}} \| $.
□ 注 2. 式(16)具有滑模面的形式, 以此来构造智能体的跟踪误差一方面有助于实现分布式位置跟踪误差$ {e_{vi}} $和分布式速度跟踪误差$ {\dot e_{vi}} $的同步收敛, 另一方面通过设计$ {\dot e_{vi}} $可引出显含控制输入$ {u_{vi}} $的等式, 即式(17), 以便于对控制输入的直接设计. 其次, 式(28) 的设计是融合了瞬时性能指标$ {c_{vi}} $和长期性能指标$ {V_{vi}} $, 因此兼顾到了当下和长期的系统优化问题, 可最大程度优化系统性能. 权值自适应律(29)沿着耦合性能指标(28)的梯度下降方向寻找权值最优值, 更能保证搜索的效率和搜索路径的最优化.
注 3. 在多智能体的一些应用中, 为了满足资源节约的设计要求, 需要考虑旨在最小化性能指标的最优控制问题. 本文性能指标(18)平衡了所需控制目标和控制资源之间的关系, 而且沿着性能指标函数的梯度下降方向, 可为每个智能体独立地生成近似最优控制信号, 最终实现全局纳什均衡的效果.
2.2 实际控制层: 分散式预设时间容错跟踪控制
本节以引理1为理论依据设计了一种预设时间滑模面, 在此基础上设计了自适应容错控制器, 实现预定时间跟踪控制的同时, 还有效估计了执行器故障参数, 为直观了解故障程度提供了方便.
首先, 设计如下的预设时间滑模面
$$ \begin{equation} {s_{ai}} = {\dot e_{ai}} + {\lambda _{ai}}{e_{ai}} + 2\frac{{\dot \mu \left( {{t_0},{T_i}} \right)}}{{\mu \left( {{t_0},{T_i}} \right)}}{e_{ai}} \end{equation} $$ (35) 其中, $ \mu \left( {{t_0},{T_i}} \right) $的结构如引理1中的式(14)所示, $ \lambda _{ai} $是正定可调参数, $ {e_{ai}} = {\chi _i} - {\chi _{vi}} - {h_i} $为跟踪误差. 令$\Omega_i =2{{\dot \mu \left( {{t_0},T_i} \right)}}/{{\mu \left( {{t_0},T_i} \right)}}{e_{ai}}$ 以及 $ {u_{aie}}=\lambda_{ai} {\dot e_{ai}} \;+ {\dot \Omega _i} $, 然后基于式(11)对滑模面求导可以得到
$$ \begin{split} {{\dot s}_{ai}} = \;&{{\ddot e}_{ai}} - {u_{aie}} = \left( {{I_i} - {\Lambda _i}} \right){u_{ai}}\; +\\ & {\tau _i} + {f_{ai}} + {d_i} - {{\ddot \chi }_{vi}} - {{\ddot h}_i} - {u_{aie}} \end{split} $$ (36) 为实现对执行器加性故障、外界干扰和含不确定性系统非线性项的估计和补偿, 设计如下不等式:
$$ \begin{equation} \left\| {{\tau _i} + {f_{ai}} + {d_i}} \right\| \le \left\| {{\tau _{mi}}} \right\| + \left\| {{f_{mi}}} \right\| + \left\| {{d_{mi}}} \right\| \le {\zeta _i} \end{equation} $$ (37) 因此可以得到$ {\zeta _i} $是一个待估计的正定常数.
定理 2. 考虑满足假设1 ~ 3的实际异构多智能体(10)在执行器故障下的容错跟踪控制问题, 如果基于预设时间滑模面(35)采用如下控制律
$$ \begin{equation} \begin{split} {u_i} = \;&{{\left( {{I_i} - {{\hat \Lambda }_i}} \right)}^{ - 1}}\Bigg( {{\ddot h}_i} + {{\ddot \chi }_{vi}} +u_{aie}- {\mu _i}{s_{ai}}\;+\\ &\frac{b}{{{\varsigma _i}{s_{ai}}}} - \frac{{\left| {{{\dot \varsigma }_i}} \right|}}{{{\varsigma _i}}}{s_{ai}} - {{\hat \zeta }_i}\frac{{{s_{ai}}}}{{\left\| {{s_{ai}}} \right\|}} \Bigg) \end{split} \end{equation}$$ (38) 以及如下参数自适应估计律
$$ \begin{equation} {\dot {\hat \theta} _i} = - {\Gamma _i}{\hat \theta _i} - {\Upsilon _i}{\rm{diag}}{\left\{ {{u_i}} \right\}^{\rm{T}}}{s_{ai}} \end{equation} $$ (39) $$ \begin{equation} {\dot {\hat \zeta} _i} = - {{{M}}_i}{\hat \zeta _i} + {{{N}}_i}\left\| {{s_{ai}}} \right\| \end{equation} $$ (40) 其中的参数满足以下条件
$$ \begin{equation} {\Gamma _i} = {\nu _i} + 2{\Upsilon _i}\frac{{\left| {{{\dot \varsigma }_i}} \right|}}{{{\varsigma _i}}} \end{equation} $$ (41) $$ \begin{equation} {{{M}}_i} = {\upsilon _i} + {\rm{2}}{{{N}}_i}\frac{{\left| {{{\dot \varsigma }_i}} \right|}}{{{\varsigma _i}}} \end{equation} $$ (42) 其中, $ {\hat \theta _i} $和$ {\hat \zeta _i} $是效率损失因子$ {\theta _i} $和复杂不确定项$ {\zeta _i} $ 的自适应估计值, $ {\hat \theta _i} $满足$ {\hat \theta _i}{u_i} = {\rm{diag}}\left\{ {{u_i}} \right\}{\hat \Lambda _i} $. 此外, $ {\Upsilon _i},{{ M}_i},{\nu _i} $和$ \upsilon _i $ 均为人为设定的正定常数. 那么, 空−地异构多智能体在3-D空间内的编队误差可以实现实际预设时间收敛.
证明. 基于滑模面和参数自适应估计误差, 设计以下李雅普诺夫函数
$$ \begin{equation} {V_{ai}} = \frac{1}{2}s_{ai}^{\rm{T}}{s_{ai}} + \frac{1}{{2{\Upsilon _i}}}{\tilde \theta _i}^{\rm{T}}{\tilde \theta _i} + \frac{1}{{2{{{N}}_i}}}{\tilde \zeta _i}^{\rm{T}}{\tilde \zeta _i} \end{equation} $$ (43) 沿着式(36)对式(43)求导, 并结合控制律(38)可得
$$ \begin{equation} \begin{split} {{{\dot V}_{ai}}} =\;& {s_{ai}^{\rm{T}}{{\dot s}_{ai}} + \frac{1}{{{\Upsilon _i}}}{{\tilde \theta }_i}^{\rm{T}}{{\dot {\tilde \theta} }_i} + \frac{1}{{{{{N}}_i}}}{{\tilde \zeta }_i}^{\rm{T}}{{\dot {\tilde \zeta} }_i}}\le\\ & { s_{ai}^{\rm{T}}\left[ {\left( {{I_i} - {\Lambda _i}} \right){u_i} + {\zeta _i} - {{\ddot \chi }_{vi}} - {{\ddot h}_i} - {u_{aie}}} \right]}-\\ & \frac{1}{{{\Upsilon _i}}}{{\tilde \theta }_i}^{\rm{T}}{{\dot {\hat \theta} }_i} - \frac{1}{{{{{N}}_i}}}{{\tilde \zeta }_i}^{\rm{T}}{{\dot {\hat \zeta} }_i}\le\\ &{ s_{ai}^{\rm{T}}\left[ {\left( {{I_i} - {{\hat \Lambda }_i}} \right){u_i} - {{\tilde \Lambda }_i}{u_i} + {\zeta _i} - {{\ddot \chi }_{vi}} - {{\ddot h}_i}} \right]}-\\ & \frac{1}{{{\Upsilon _i}}}{{\tilde \theta }_i}^{\rm{T}}{{\dot {\hat \theta} }_i} - \frac{1}{{{{{N}}_i}}}{{\tilde \zeta }_i}^{\rm{T}}{{\dot {\hat \zeta} }_i}\le\\ &{ s_{ai}^{\rm{T}}\left( { - {{\tilde \Lambda }_i}{u_i} - {\mu _i}{s_{ai}} + {\zeta _i}{\rm{ + }}\frac{b}{{{\varsigma _i}{s_{ai}}}} - \frac{{\left| {{{\dot \varsigma }_i}} \right|}}{{{\varsigma _i}}}{s_{ai}}} \right.}-\\ &\left. { {{\hat \zeta }_i}\frac{{{s_{ai}}}}{{\left\| {{s_{ai}}} \right\|}}} \right) - \frac{1}{{{\Upsilon _i}}}{{\tilde \theta }_i}^{\rm{T}}{{\dot {\hat \theta} }_i} - \frac{1}{{{{{N}}_i}}}{{\tilde \zeta }_i}^{\rm{T}}{{\dot {\hat \zeta} }_i}\\[-1pt] \end{split} \end{equation} $$ (44) 然后, 将自适应律(39)和(40)代入得到
$$ \begin{equation} \begin{split} {{{\dot V}_{ai}}}\le \;& { - {\mu _i}s_{ai}^{\rm{T}}{s_{ai}}+\frac{b}{{{\varsigma _i}}} + {{\tilde \zeta }_i}\left\| {{s_{ai}}} \right\| - \frac{{\left| {{{\dot \varsigma }_i}} \right|}}{{{\varsigma _i}}}s_{ai}^{\rm{T}}{s_{ai}}}\;-\\ & s_{ai}^{\rm{T}}{{\tilde \Lambda }_i}{u_i} - \frac{1}{{{\Gamma _i}}}{{\tilde \theta }_i}^{\rm{T}}{{\dot {\hat \theta} }_i} - \frac{1}{{{{{N}}_i}}}{{\tilde \zeta }_i}^{\rm{T}}{{\dot {\hat \zeta} }_i}\le\\ & - \left( {{\mu _i} + \frac{{\left| {{{\dot \varsigma }_i}} \right|}}{{{\varsigma _i}}}} \right)s_{ai}^{\rm{T}}{s_{ai}}+\frac{b}{{{\varsigma _i}}}\;+\\ & \frac{{{\Gamma _i}}}{{{\Upsilon _i}}}{{\tilde \theta }_i}^{\rm{T}}{{\hat \theta }_i} + \frac{{{{{M}}_i}}}{{{{{N}}_i}}}{{\tilde \zeta }_i}^{\rm{T}}{{\hat \zeta }_i}\le\\ &{ - \left( {{\mu _i} + \frac{{\left| {{{\dot \varsigma }_i}} \right|}}{{{\varsigma _i}}}} \right)s_{ai}^{\rm{T}}{s_{ai}}+\frac{b}{{{\varsigma _i}}}}\;+ \\ &{ \frac{{{\Gamma _i}}}{{{\Upsilon _i}}}\left( {{{\tilde \theta }_i}^{\rm{T}}{\theta _i} - {{\left\| {{{\tilde \theta }_i}} \right\|}^2}} \right) + \frac{{{{{M}}_i}}}{{{{{N}}_i}}}\left( {{{\tilde \zeta }_i}^{\rm{T}}{\zeta _i} - {{\left\| {{{\tilde \zeta }_i}} \right\|}^2}} \right)}\le\\ &{ - \left( {{\mu _i} + \frac{{\left| {{{\dot \varsigma }_i}} \right|}}{{{\varsigma _i}}}} \right)s_{ai}^{\rm{T}}{s_{ai}}+\frac{b}{{{\varsigma _i}}}}\;+\\ &{ \frac{{{\Gamma _i}}}{{2{\Upsilon _i}}}\left( {{{\left\| {{\theta _i}} \right\|}^2} - {{\left\| {{{\tilde \theta }_i}} \right\|}^2}} \right) + \frac{{{{{M}}_i}}}{{{\rm{2}}{{{N}}_i}}}\left( {{{\left\| {{\zeta _i}} \right\|}^2} - {{\left\| {{{\tilde \zeta }_i}} \right\|}^2}} \right)} \end{split} \end{equation}$$ (45) 利用设计的式(41)和(42), 有
$$ \begin{equation} \begin{split} {{{\dot V}_{ai}}} \le\;& { - \left( {{\mu _i} + \frac{{\left| {{{\dot \varsigma }_i}} \right|}}{{{\varsigma _i}}}} \right)s_{ai}^{\rm{T}}{s_{ai}} + \frac{b}{{{\varsigma _i}}} - \frac{{{\Gamma _i}}}{{2{\Upsilon _i}}}{{\left( {\left\| {{{\tilde \theta }_i}} \right\|} \right)}^2}}-\\ & \frac{{{{{M}}_i}}}{{{\rm{2}}{{{N}}_i}}}{{\left( {\left\| {{{\tilde \zeta }_i}} \right\|} \right)}^2} + \frac{{{\Gamma _i}}}{{2{\Upsilon _i}}}{{\left\| {{\theta _i}} \right\|}^2} + \frac{{{{{M}}_i}}}{{{\rm{2}}{{{N}}_i}}}{{\left\| {{\zeta _i}} \right\|}^2}\le\\ &{ - \left( {{\mu _i} + \frac{{\left| {{{\dot \varsigma }_i}} \right|}}{{{\varsigma _i}}}} \right)\left( {{{\left\| {{s_{ai}}} \right\|}^2}} \right) - \frac{{{\Gamma _i}}}{{2{\Upsilon _i}}}\left( {{{\left\| {{{\tilde \theta }_i}} \right\|}^2}} \right)}-\\ & \frac{{{{{M}}_i}}}{{{\rm{2}}{{{N}}_i}}}\left( {{{\left\| {{{\tilde \zeta }_i}} \right\|}^2}} \right) + \frac{b}{{{\varsigma _i}}} + {c_i}\le\\ & - \left( {{\mu _i} + \frac{{\left| {{{\dot \varsigma }_i}} \right|}}{{{\varsigma _i}}}} \right)\left( {{{\left\| {{s_{ai}}} \right\|}^2}} \right)-\\ & \left( {\frac{{{\nu _i}}}{{2{\Upsilon _i}}} + \frac{{\left| {{{\dot \varsigma }_i}} \right|}}{{{\varsigma _i}}}} \right)\left( {{{\left\| {{{\tilde \theta }_i}} \right\|}^2}} \right)-\\ & \left( {\frac{{{\upsilon _i}}}{{{\rm{2}}{{{N}}_i}}} + \frac{{\left| {{{\dot \varsigma }_i}} \right|}}{{{\varsigma _i}}}} \right)\left( {{{\left\| {{{\tilde \zeta }_i}} \right\|}^2}} \right) + \frac{b}{{{\varsigma _i}}} + {c_i}\le\\ &{ - \left( {{\delta _i} + 2\frac{{\left| {{{\dot \varsigma }_i}} \right|}}{{{\varsigma _i}}}} \right){V_{ai}} + \frac{b}{{{\varsigma _i}}} + {c_i}}\\[-1pt] \end{split} \end{equation}$$ (46) 其中, ${\delta _i} = \min \{ {2{\mu _i},{{{\nu _i}}}/{{{\Upsilon _i}}},{{{\upsilon _i}}}/{{{{{N}}_i}}}} \}$, $ {c_i} = ( {{{\Gamma _i}}}/ {{2{\Upsilon _i}}}){\| {{\theta _i}} \|^2} $ $+({{{{{M}}_i}}}/{{{\rm{2}}{{{N}}_i}}}){\| {{\zeta _i}} \|^2}$. 由引理1可以得到, 系统可以实现全局实际预设时间容错控制, 而且误差$ {{{\tilde \theta }_i}} $, $ {{{\tilde \zeta }_i}} $以及$ e_{ai} $在$ [ {0,{T_i}} ] $内一致有界.
□ 注 4. 经典的基于强化学习的控制问题中[33-34], 神经网络权值的自适应律往往与跟踪误差相关, 以实现估计误差的一致渐近有界收敛为目的. 本文以预设时间稳定性为算法的设计目标, 如果运用传统自适应律的设计方法需要引入更多的调节参数以及形如式(14)的切换函数, 从而急剧增加整体算法的复杂度以及证明过程的繁琐程度. 本文借鉴文献[29]的设计方法, 在假设权值上界是存在且是可知的前提下, 以证明权值有界为目的. 通过在性能指标的梯度下降方向进行神经网络权值的自适应调节, 一方面保证了权值的调整是以性能优化为目的, 另一方面避免和实际控制层的容错算法产生耦合效应.
注 5. 本文以解决执行器故障、干扰和模型不确定性情况下的预设时间编队跟踪为目的, 为了保证系统的容错性和抗干扰能力, 设计了待估计的复杂不确定项$ {\zeta _i}(t) $, 然后通过设计自适应律(39)和(40)分别实现对效率损失故障$ {\Lambda _i}(t) $及复杂不确定项$ {\zeta _i}(t) $的有效估计. 其次, 基于估计值设计了预设时间容错控制方案, 实现全局编队误差和自适应参数估计误差的有限时间收敛. 该方案同时提高了整个编队系统的容错性能、系统响应速度及抗干扰能力. 参数自适应技术的引入改善了系统对干扰和故障的检测能力、容错控制器设计的主动性和整个编队系统的鲁棒性, 而且通过适当调整自适应参数以缩小收敛区域还可进一步改善系统稳态误差对干扰、故障及模型不确定性的敏感程度.
表 1 无人机和无人车的模型参数Table 1 Model parameters of UAVs and UGVs序号 参数 数值 1 ${\xi _{xi}},\;{\xi _{yi}},\;{\xi _{zi}}$ $1.2 \times {10^{ - 2}}\ {\rm{N}}\cdot{\rm{s}}/{\rm{rad}}$ 2 $L_i$ $0.5\ {\rm{m}}$ 3 $m_i$ $2\ {\rm{kg}}$ 4 ${\kappa _i}$ $2.98 \times {10^{ - 6}}\ {\rm{N}}\cdot{{\rm{s}}^{\rm{2}}}{\rm{/ra}}{{\rm{d}}^{\rm{2}}}$ 注 6. 虚拟层的控制算法(27)中的可调参数$ {R_i} $保证二次型性能指标函数的正定性, 为了方便可以设定为单位矩阵. 实际控制层中, 与预设时间定理中的式(14)相关的参数对系统响应性能起关键性作用, 其他参数的设定在满足基本规则的基础上, 是否为最优值并不会对系统的性能产生较大的影响, 因此在完成初次调配之后, 后期的使用不必繁琐地重复调整. 为了降低算法的空间复杂度, 可通过调节预设时间参数来确保运行周期为工业计算机所接受, 避免算法长期占用处理器空间. 通过后续仿真验证发现所提算法可以实现小于
0.0001 s的运行周期. 根据香农采样定理, 要从采样信号中恢复给定的信号, 给定谐波信号的频率可以大于5 kHz. 考虑无人机和无人车的智能水平, 一般飞控可接受采样时间为0.01 s, 因此可接受的谐波信号频率远小于5 kHz, 这也就说明所提出的算法可以在无人机−无人车编队系统中得到有效的工程实现.3. 仿真结果
为了验证理论推导结果的有效性, 本部分设计了由两个无人车$ (i = 1,\;2) $、两个无人机$ (i = 3,\;4) $构成的空−地异构多智能体编队系统仿真实验, 仿真用到的智能体模型参数如表1所示, 此外, 其网络拓扑结构如图2所示, 连接权值为0或1.
控制器中的参数$ {\lambda _{ai}} $和$ {\mu _i} $影响控制器的鲁棒性和误差抵达滑模面的收敛速度, 在干扰和误差初始值较大时, 可增大该参数的取值. 自适应律中的参数设计应结合实际应用背景, 通过试错的方式并结合控制效果选取相对更为合理的数值. 本实验中的控制器参数设定为${\lambda _{ai}} = 5, $ ${\mu _i} = 30, $ $ b = 8, $ ${\nu _i} = 0.55, $ ${\Upsilon _i} = 1, $ ${\upsilon _i} = 0.05, $ ${{ N}_i} = 2 $, 智能体受到的外界时变干扰设计为$ {d_1} = [ - 0.1\cos (0.1t), \;0.2\sin ( {0.5t} ) ]^{\rm{T}}$, ${d_2} = {[ { - 0.1\cos (0.2t),\; - 0.2\cos( {0.5t} )} ]^{\rm{T}}}$, ${d_3} \;= \;[ - 0.2\;\times \cos (0.4t),\;0.1\;\cos ( {0.3t} ),\;0.15\;\cos (t) ]^{\rm{T}}$, ${d_4} \;=\; [ 0.05\;\times \cos (1.5t),\;0.15\sin ( {0.5t} ),\;0.1\sin (0.2t) ]^{\rm{T}} $, 为充分模拟无人机实际运行环境, 在系统阻尼系数上添加$ 20\% $幅值的随机浮动.
为验证算法的容错性, 为每个智能体设计程度不一的执行器故障, 具体故障参数设计为
$$ \begin{split} & {\rho _{1x}} = \left\{ \begin{aligned} &0,&&t < 5\;{\rm{s}}\\ &0.2,&&t \ge 5\;{\rm{s}} \end{aligned} \right.,\;\;{\rho _{2x}} = \left\{ \begin{aligned} &0,&&t < 7\;{\rm{s}}\\ &0.15,&&t \ge 7\;{\rm{s}} \end{aligned} \right.\\ &{\rho _{3x}} = \left\{ \begin{aligned} &0,&&t < 10\;{\rm{s}}\\ &0.18,&&t \ge 10\;{\rm{s}} \end{aligned} \right.,\;\;{\rho _{4x}} = \left\{ \begin{aligned} &0,&&t < 13\;{\rm{s}}\\ &0.1,&&t \ge 13\;{\rm{s}} \end{aligned} \right. \end{split} $$ 同时, 考虑发生以下的执行器加性故障
$$ \begin{split} &{\tau _1} = {\left[ {0.1\sin (0.1t),\;0.15\cos \left( {0.2t} \right)} \right]^{\rm{T}}}\\ &{\tau _2} = {\left[ {0.2\cos (0.3t),\;0.3\sin \left( {0.1t} \right)} \right]^{\rm{T}}}\\ &{\tau _3} = {\left[ { - 0.2\sin (t),\;0.25\sin \left( {0.2t} \right),\;0.17\sin (t)} \right]^{\rm{T}}}\\ &{\tau _4} = {\left[ {0.1\cos (t),\;0.2\sin \left( t \right),\;0.12\sin (0.5t)} \right]^{\rm{T}}} \end{split} $$ 为验证算法的优越性, 设计以下对比实验.
仿真实验1. 利用本文设计的方法完成编队跟踪任务. 每个智能体的系统初始状态为$ {x_1}(0) = [ 1, 1]^{\rm{T}},$ ${x_2}(0) = {[ {0.2, \;0.1} ]^{\rm{T}}}, $ ${x_3}(0) = {[ {2,\;1,\;5} ]^{\rm{T}}}, $ ${x_4}(0) = [ 1, \; 1,\;5 ]^{\rm{T}} $, 需要完成的期望编队为$ {h_1}\; = \;{[ { - 2,\;2} ]^{\rm{T}}},$ ${h_2} = {[ { - 4,\;4} ]^{\rm{T}}}, $ ${h_3} = {[ { - 6,\;6,\;10} ]^{\rm{T}}}, $ ${h_4} = {[ { - 8,\;8, \;- 10} ]^{\rm{T}}} $. 编队完成的预设时间为$ T_i = 7\;{\rm{s}}.$
仿真实验2. 利用文献[35]所提的鲁棒反步滑模跟踪控制方法完成编队跟踪任务. 每个智能体的系统初始状态为$ {x_1}(0) = {[ {4,\;0} ]^{\rm{T}}}, $ ${x_2}(0) = [ 0.8,\; 0.2 ]^{\rm{T}},$ ${x_3}(0) \;=\; {[ {0.6,\;2,\;0} ]^{\rm{T}}},$ ${x_4}(0) \;=\; {[ {1.5,\;3,\;0} ]^{\rm{T}}} $, 每个智能体需要跟踪的编队轨迹为$ {h_i} \;= \;[ i\sin ( {i \times 0.5t} ), \;i\cos ( {i \times 0.5t} ) ]^{\rm{T}} $.
由图3 ~ 5可以得到, 所设计的旨在优化全局性能指标的分布式博弈机制可以实现智能体三维空间内的一致性最优控制, 误差实现一致有界收敛. 图3中的跟踪误差并没有收敛到0, 这主要是受到干扰、模型不确定和执行器故障的影响. 一般情况下, 编队误差在控制协议的驱使下收敛到足够小的区域时, 就可以认为系统实现了预期的编队任务, 这在实际情况中是可以接受的[36]. 其次, 本文控制器是基于实际预设时间理论设计的, 虽然可以保证收敛时间完全不受制于其他任何参数, 但也会存在误差收敛于原点附近一个有界可调邻域的现象, 这是实际预设时间理论的固有特性, 是必然的也是合理的.
由图6 ~ 8可以得到各智能体在受到执行器故障、干扰和模型不确定性的情况下, 依旧可以快速地完成预期的编队跟踪任务, 并且编队完成时间是可控的. 虽然不同智能体的动态特性差异以及需要执行的编队任务的不同会导致每个被控智能体表现出不同的实际收敛性能, 但是收敛完成时间满足所规定的7 s最大时间上限. 如图9 ~ 11所示, 文献[35]中所提的鲁棒反步滑模控制方法虽然可以实现误差的迅速收敛, 但是稳态误差不尽人意, 因此不能确保在受执行器故障等复杂不确定性影响下的编队系统始终保持良好的编队跟踪性能. 其主要原因是反步滑模控制方法的控制性能过分依赖于精确的模型参数, 并且控制器对没有先验知识的执行器故障和不确定性等极具敏感性, 同时该方法中控制增益的选取往往会造成控制器的保守性, 进而造成在轨无人器的能量损失. 相比之下, 本文提出的自适应方法不依赖先验知识, 而且具有令人满意的稳定性和抗干扰能力. 图12显示了所设计的自适应律对执行器乘性故障的估计效果图, 验证了自适应律的有效性. 因此, 本文所提的方案具有良好的机动响应性能、鲁棒性和容错性, 可为异构多智能体系统安全、稳定、快速地执行预期任务提供一种有效的解决方案.
然而, 从仿真结果来看, 预设时间控制器收敛时间的理论值仍然具有一定的保守性, 主要原因是理论值只是一个收敛时间的上界, 随着工程环境的不同和初始状态的不同, 实际收敛时间将呈现不同的数值效果, 这是该控制方法的固有特性. 而且, 异构无人器之间的载荷能力、任务配置能力、控制性能等均不同, 这使得各自执行局部控制指令时的响应速度也存在差异, 最终呈现为收敛时间上的差异.
为了展示故障对系统的影响以及故障后控制器的响应变化, 我们以智能体2为例, 呈现其受到故障后的控制输入变化图. 如图13所示, 由于智能体2是在7 s后受到故障的影响, 所以在7 s时控制器需要通过增加控制命令的幅值以实现对执行器故障造成损失的有效补偿. 虽然控制器在故障发生时会出现短暂的非光滑现象, 但是在调整过后, 控制器会迅速地恢复光滑状态, 这是由于预设时间控制器是基于状态反馈方法所设计, 所以整个编队控制系统会呈现平稳的跟踪趋势及光滑的控制输入, 系统的闭环行为也因此呈现出良好的响应性能.
4. 结束语
由于空−地异构多智能体的机载系统功能单元多, 各个智能体易产生诸如偏置、失效等突发执行器故障, 而且难以对其进行精确的状态描述, 传统的容错方法难以实现快速有效的处理. 本文针对这一问题, 设计了一种多层级容错控制方案, 虚拟层构建了一种分布式最优一致性跟踪控制器, 实际控制层设计了一种分散式自适应预设时间容错控制器, 在保证全局编队误差预设时间收敛的同时, 有效估计了执行器故障参数, 实现安全迅速调整设备功能, 维持系统整体健康度, 确保预期编队任务的顺利执行. 最后的仿真实验验证了所提算法的有效性.
未来的研究方向将聚焦异构多智能体系统的交联特性和故障机理, 开发模型与多源数据混合驱动的健康维护机制与方法, 拓展和深化系统从单源到多源、从单一到复杂、从分散到综合的人机共融故障诊断和容错控制机制, 进一步为现代机载系统的安全运行提供技术支撑.
-
表 1 无人机和无人车的模型参数
Table 1 Model parameters of UAVs and UGVs
序号 参数 数值 1 ${\xi _{xi}},\;{\xi _{yi}},\;{\xi _{zi}}$ $1.2 \times {10^{ - 2}}\ {\rm{N}}\cdot{\rm{s}}/{\rm{rad}}$ 2 $L_i$ $0.5\ {\rm{m}}$ 3 $m_i$ $2\ {\rm{kg}}$ 4 ${\kappa _i}$ $2.98 \times {10^{ - 6}}\ {\rm{N}}\cdot{{\rm{s}}^{\rm{2}}}{\rm{/ra}}{{\rm{d}}^{\rm{2}}}$ -
[1] Yan B, Shi P, Lim C C. Robust formation control for nonlinear heterogeneous multiagent systems based on adaptive event-triggered strategy. IEEE Transactions on Automation Science and Engineering, 2022, 19(4): 2788−2800 doi: 10.1109/TASE.2021.3103877 [2] Zhang L L, Gao F, Deng F, Xi L L, Chen J. Distributed estimation of a layered architecture for collaborative air-ground target geolocation in outdoor environments. IEEE Transactions on Industrial Electronics, 2023, 70(3): 2822−2832 doi: 10.1109/TIE.2022.3165245 [3] Loria A, Nuno E, Panteley E. Observerless output-feedback consensus-based formation control of second-order nonholonomic systems. IEEE Transactions on Automatic Control, 2022, 67(12): 6934−6939 doi: 10.1109/TAC.2021.3136140 [4] Oh K K, Park M C, Ahn H S. A survey of muitiagent formation control. Automatica, 2015, 53: 424−440 doi: 10.1016/j.automatica.2014.10.022 [5] Hua Y Z, Dong X W, Hu G Q, Li Q D, Ren Z. Distributed time-varying output formation tracking for heterogeneous linear multiagent systems with a nonautonomous leader of unknown input. IEEE Transactions on Automatic Control, 2019, 64(10): 4292−4299 doi: 10.1109/TAC.2019.2893978 [6] Jiang P W, Zhang W, Yan C H, Hu Z. Fully distributed event-triggered bipartite output formation control for heterogeneous MASs with directed graphs. IEEE Transactions on Circuits and Systems II: Express Briefs, 2023, 70(6): 2072−2076 [7] 周思全, 化永朝, 董希旺, 李清东, 任章. 面向空地协同作战的无人机无人车异构时变编队跟踪控制. 航空兵器, 2019, 26(4): 54−59Zhou Si-Quan, Hua Yong-Zhao, Dong Xi-Wang, Li Qing-Dong, Ren Zhang. Air-ground time varying formation tracking control for heterogeneous UAV-UGV swarm system. Aero Weaponry, 2019, 26(4): 54−59 [8] Shi J L, Hu B, Chen L, Zhang D X, He D X, Huang J, et al. Formation tracking of heterogeneous UGV-UAV systems with switching directed topologies. In: Proceedings of the 4th IEEE International Conference on Advanced Robotics and Mechatronics. Osaka, Japan: IEEE, 2019. 970−975 [9] Vallejo-Alarcon M A, Castro-Linares R, Velasco-Villa M. Unicycle-type robot and quadrotor leader-follower formation backstepping control. IFAC-Papers Online, 2015, 48(19): 51−56 doi: 10.1016/j.ifacol.2015.12.009 [10] Hua H A, Fang Y C, Zhang X T, Lu B A. A novel robust observer-based nonlinear trajectory tracking control strategy for quadrotors. IEEE Transactions on Control Systems Technology, 2021, 29(5): 1952−1963 doi: 10.1109/TCST.2020.3024805 [11] Fan Q Y, Deng C, Ge X H, Wang C C. Distributed adaptive fault-tolerant control for heterogeneous multiagent systems with time-varying communication delays. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2022, 52(7): 4362−4372 doi: 10.1109/TSMC.2021.3095263 [12] Zhang K, Jiang B, Shi P. Adjustable parameter-based distributed fault estimation observer design for multiagent systems with directed graphs. IEEE Transactions on Cybernetics, 2017, 47(2): 306−314 [13] Jiang B, Zhang K, Shi P. Integrated fault estimation and accommodation design for discrete-time Takagi-Sugeno fuzzy systems with actuator faults. IEEE Transactions on Fuzzy Systems, 2011, 19(2): 291−304 doi: 10.1109/TFUZZ.2010.2095861 [14] Zhang K, Jiang B, Staroswiecki M. Dynamic output feedback-fault tolerant controller design for Takagi-Sugeno fuzzy systems with actuator faults. IEEE Transactions on Fuzzy Systems, 2010, 18(1): 194−201 doi: 10.1109/TFUZZ.2009.2036005 [15] Wang Y, Qi R, He C. Trajectory and attitude cooperative formation control for air-ground collaborative systems under communication faults. In: Proceedings of the 6th International Symposium on Autonomous Systems. Nanjing, China: 2023. 1−6 [16] Zhao W, Liu H, Gao Q, Lu J. Robust optimal formation control of heterogeneous air-ground vehicles under communication faults via reinforcement learning. In: Proceedings of the International Conference on Guidance. Harbin, China: 2022. 4145−4155 [17] Zhao W B, Liu H, Valavanis K P, Lewis F L. Fault-tolerant formation control for heterogeneous vehicles via reinforcement learning. IEEE Transactions on Aerospace and Electronic Systems, 2022, 58(4): 2796−2806 doi: 10.1109/TAES.2021.3139260 [18] Kamel M, Ghamry K, Zhang Y M. Real-time fault-tolerant cooperative control of multiple UAVs-UGVs in the presence of actuator faults. Journal of Intelligent and Robotic Systems, 2017, 88(2−4): 469−480 doi: 10.1007/s10846-016-0463-8 [19] Cheng W L, Jiang B, Zhang K, Ding S X. Robust finite-time cooperative formation control of UGV-UAV with model uncertainties and actuator faults. Journal of the Franklin Institute-Engineering and Applied Mathematics, 2021, 358(17): 8811−8837 doi: 10.1016/j.jfranklin.2021.08.038 [20] Cheng W L, Jiang B, Zhang K, Ding S X. Fixed-time fault-tolerant formation control for heterogeneous multi-agent systems with parameter uncertainties and disturbances. IEEE Transactions On Circuits and Systems I. Regular Papers, 2021, 68(5): 2121−2133 doi: 10.1109/TCSI.2021.3061386 [21] Song Y D, Wang Y J, Holloway J, Krstic M A. Time-varying feedback for regulation of normal-form nonlinear systems in prescribed finite time. Automatica, 2017, 83: 243−251 doi: 10.1016/j.automatica.2017.06.008 [22] Wang Z W, Liang B, Sun Y C, Zhang T. Adaptive fault-tolerant prescribed-time control for teleoperation systems with position error constraints. IEEE Transactions on Industrial Informatics, 2021, 16(7): 4889−4899 [23] 王龙, 黄锋. 多智能体博弈、学习与控制. 自动化学报, 2023, 49(3): 580−613Wang Long, Huang Feng. An interdisciplinary survey of multi-agent games, learning, and control. Acta Automatica Sinica, 2023, 49(3): 580−613 [24] Han X, Zhao X, Sun T, Wu Y, Xu N, Zong G. Event-triggered optimal control for discrete-time switched nonlinear systems with constrained control input. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2021, 51(12): 7850−7859 doi: 10.1109/TSMC.2020.2987136 [25] Wang Y, Zhang J, Liu J, Sun J. Optimal synchronization for multiagent systems under directed graphs by scalable distributed event-triggered control. IEEE Transactions on Circuits and Systems II: Express Briefs, 2023, 70(12): 4539−4543 [26] Li H, Wu Y, Chen M. Adaptive fault-tolerant tracking control for discrete-time multiagent systems via reinforcement learning algorithm. IEEE Transactions on Cybernetics, 2021, 51(3): 1163−1174 doi: 10.1109/TCYB.2020.2982168 [27] Li Z, Song Y, Wen G. Reinforcement learning based optimized sliding-mode consensus control of high-order nonlinear canonical dynamic multiagent system. IEEE Systems Journal, 2023, 17(4): 6302−6311 [28] Wang X, Wang G, Li S. Distributed finite-time optimization for disturbed second-order multiagent systems. IEEE Transactions on Cybernetics, 2021, 51(9): 4634−4547 doi: 10.1109/TCYB.2020.2988490 [29] Cao S, Sun L, Jiang J, Zuo Z. Reinforcement learning-based fixed-time trajectory tracking control for uncertain robotic manipulators with input saturation. IEEE Transactions on Neural Networks and Learning Systems, 2023, 34(8): 4584−4595 doi: 10.1109/TNNLS.2021.3116713 [30] Tang Y T, Yi P. Nash equilibrium seeking for high-order multiagent systems with unknown dynamics. IEEE Transactions on Control of Network Systems, 2023, 10(1): 321−332 doi: 10.1109/TCNS.2022.3203362 [31] 于镝. 基于零和博弈的多智能体网络鲁棒包容控制. 控制与决策, 2021, 36(8): 1841−1848Yu Di. Robust containment control of multi-agent networks based on zero-sum game. Control and Decision, 2021, 36(8): 1841−1848 [32] Zhao J, Yang C, Wang W D, Xu B, Li Y, Yang L Q, et al. A game-learning-based smooth path planning strategy for intelligent air-ground vehicle considering mode switching. IEEE Transac tions on Transportation Electrification, 2022, 8(3): 3349−3366 doi: 10.1109/TTE.2022.3142150 [33] Wen G, Li B. Optimized leader-follower consensus control using reinforcement learning for a class of second-order nonlinear multiagent systems. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2022, 52(9): 5546−5555 doi: 10.1109/TSMC.2021.3130070 [34] Dong H, Zhao X, Yang H. Reinforcement learning-based approximate optimal control for attitude reorientation under state constraints. IEEE Transactions on Control Systems Technology, 2021, 29(4): 1664−1673 doi: 10.1109/TCST.2020.3007401 [35] Cao Z, Guo G. Fixed-time sliding mode formation control of AUVs based on a disturbance observer. IEEE/CAA Journal of Automatica Sinica, 2020, 7(2): 539−545 doi: 10.1109/JAS.2020.1003057 [36] Chen F Y, Jiang R, Zhang K, Jiang B, Tao G. Robust backstepping sliding-mode control and observer-based fault estimation for a quadrotor UAV. IEEE Transactions on Industrial Electronics, 2016, 63(8): 5044−5056 -