2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

异构非线性多智能体系统无模型输出一致性控制

孙一仆 陈鑫 贺文朋 佘锦华 吴敏

孙一仆, 陈鑫, 贺文朋, 佘锦华, 吴敏. 异构非线性多智能体系统无模型输出一致性控制. 自动化学报, 2025, 51(3): 1−13 doi: 10.16383/j.aas.c240459
引用本文: 孙一仆, 陈鑫, 贺文朋, 佘锦华, 吴敏. 异构非线性多智能体系统无模型输出一致性控制. 自动化学报, 2025, 51(3): 1−13 doi: 10.16383/j.aas.c240459
Sun Yi-Pu, Chen Xin, He Wen-Peng, She Jin-Hua, Wu Min. Model-free output consensus control for heterogeneous nonlinear multi-agent systems. Acta Automatica Sinica, 2025, 51(3): 1−13 doi: 10.16383/j.aas.c240459
Citation: Sun Yi-Pu, Chen Xin, He Wen-Peng, She Jin-Hua, Wu Min. Model-free output consensus control for heterogeneous nonlinear multi-agent systems. Acta Automatica Sinica, 2025, 51(3): 1−13 doi: 10.16383/j.aas.c240459

异构非线性多智能体系统无模型输出一致性控制

doi: 10.16383/j.aas.c240459 cstr: 32138.14.j.aas.c240459
基金项目: 高等学校学科创新引智计划(B17040), 湖北省科技创新重大专项(2020AEA010), 国家自然科学基金(61873248), 湖北省自然科学基金(2020CFA031), 国家电网公司科技专项(52153216000R)资助
详细信息
    作者简介:

    孙一仆:中国地质大学(武汉)自动化学院博士研究生. 主要研究方向为多智能体系统, 强化学习. E-mail: 20141000976@cug.edu.cn

    陈鑫:中国地质大学(武汉) 自动化学院教授. 主要研究方向为智能控制, 过程控制, 机器人运动控制. 本文通信作者. E-mail: chenxin@cug.edu.cn

    贺文朋:中国地质大学(武汉)自动化学院博士研究生. 主要研究方向为多智能体系统分布式控制. E-mail: wenpenghe@cug.edu.cn

    佘锦华:日本东京工科大学教授. 主要研究方向为重复控制, 机电系统的高精度控制, 康复机器人, 计算智能的工业应用. E-mail: she@stf.teu.ac.jp

    吴敏:中国地质大学(武汉) 自动化学院教授. 主要研究方向为过程控制, 鲁棒控制和智能系统. E-mail: wumin@cug.edu.cn

Model-free Output Consensus Control for Heterogeneous Nonlinear Multi-agent Systems

Funds: Supported by the 111 Project (B17040), Technical Innovation Major Project of Hubei Province (2020AEA010), National Natural Science Foundation of China (61873248), Natural Science Foundation of Hubei Province (2020CFA031), and Science and Technology Project of State Grid Corporation of China (52153216000R)
More Information
    Author Bio:

    SUN Yi-Pu Ph.D. candidate at the School of Automation, China University of Geosciences. His research interest covers multi-agent system and reinforcement learning

    CHEN Xin Professor at the School of Automation, China University of Geosciences. His research interest covers intelligent control, process control, and robot motion control. Corresponding author of this paper

    HE Wen-Peng Ph.D. candidate at the School of Automation, China University of Geosciences. His main research interest is multi-agent system distributed control

    SHE Jin-Hua Professor at the Tokyo University of Technology, Japan. His research interest covers repetitive control, high precision control of mechatronic systems, rehabilitation robots, and industrial applications of computational intelligence

    WU Min Professor at the School of Automation, China University of Geosciences. His research interest covers process control, robust control, and intelligent systems

  • 摘要: 针对异构非线性多智能体系统(Multi-agent system, MAS)的输出一致性控制难题, 设计了一种基于同胚分布式控制协议的无模型方法. 通过将输出反馈线性化理论与自适应动态规划相结合, 可以在不需要精确系统模型的情况下实现非线性智能体的线性化, 简化分布式控制器的设计复杂性. 具体而言, 设计一种双层分布式控制结构, 在物理空间层通过无模型反馈线性化方法实现未知系统线性化, 在微分同构空间层利用线性控制技术进行分布式共识控制. 通过两个实验验证了所提方法在处理未知异构非线性多智能体系统中的有效性, 将传统的线性分布式控制方法扩展到未知非线性多智能体系统的控制器设计.
  • 在刚性航天器一致性[1]和欧拉−拉格朗日系统的编队控制[2]等应用场景中, 直接测量和反馈系统的输出变量更为方便和可靠. 例如, 在多无人车编队中, 通过全球定位系统(Global positioning system, GPS)等技术直接测量每辆车的位置和速度, 比估计和控制内部状态更简单易行[3]. 因此, 输出一致性跟踪控制在多智能体系统(Multi-agent system, MAS)的工程应用中更具实用性.

    线性控制方法在传统多智能体控制理论中占据重要地位[4-5], 其通过将复杂的非线性系统线性化为多个局部线性系统来简化控制问题[6-8]. 然而, 异构非线性多智能体系统的高度非线性和动态特性使得这些方法难以有效应用. 具体来说, 线性控制方法在处理大范围动态变化和强耦合非线性特性时表现出较大局限性, 例如在多机器人协同任务中, 简化模型无法准确地反映各机器人不同的动力学特性, 导致控制精度和鲁棒性下降.

    非线性控制方法直接处理系统的非线性特性, 通过Lyapunov方法[9-10]、反馈线性化[11-12]等理论设计控制策略. 尽管理论上能够解决线性方法的不足, 但其应用面临诸多困难: 需要精确的系统模型、设计和实现复杂, 特别是在异构多智能体系统中, 要求各智能体之间的协调和实时响应, 增加了计算量和实现难度[13]. 此外, 非线性控制方法在处理高维度系统和外界扰动时, 稳定性和鲁棒性也受到挑战.

    无模型自适应动态规划方法作为一种数据驱动的控制策略[14]逐渐受到关注, 通过与环境交互, 基于奖励机制自主学习最优策略, 无需系统模型即可实现复杂任务的控制. Jiang等[15]提出一种数据驱动的自适应动态规划方法, 使用输入和输出序列作为基础状态的等效表示, 解决了部分可观测系统状态的离散线性多智能体系统的最优输出一致性控制问题. 对于部分未知动力学的严格反馈非线性多智能体系统, 文献[16]在输出调节理论下, 提出基于实测数据结合神经网络和自适应动态规划求解最优输出反馈控制的方法. 然而, 对于异构非线性系统的无模型输出一致性控制研究仍处于起步阶段.

    无模型学习控制方法也存在明显不足: 自适应动态规划方法的训练过程对参数选择和奖励设计高度敏感, 可能导致策略的鲁棒性和稳定性不佳; 可解释性差, 使得控制策略的进一步调整变得困难; 在系统跟踪时变信号时, 自适应动态规划方法本身不具备预测未来状态的能力, 这使其更适合镇定控制而非跟踪控制.

    混合控制策略利用不同方法的互补特性解决异构非线性多智能体系统的一致性控制问题[17]. 结合自适应动态规划与经典控制理论, 可以在数据驱动的基础上引入稳定性分析, 提升控制策略的可靠性[18]. 然而, 混合控制策略设计和实现难度大, 需在不同方法之间找到平衡点, 确保整体系统的稳定性和性能.

    上述背景下, 本工作结合输入输出反馈线性化理论和自适应动态规划, 从简化分布式控制器设计、增加控制器可解释性、降低学习对奖励设计的敏感度的角度出发, 开发了异构非线性多智能体系统的无模型输出一致性控制方法. 具体来说, 通过构建一个同胚分布式两层控制结构, 将异构非线性多智能体系统的无模型输出一致性控制问题转化为两个问题进行求解: 在物理空间层中利用观测数据, 提出能够动态调整奖励信号的两阶段双启发式自适应动态规划方法实现非线性系统的无模型输入输出反馈线性化; 在同胚线性化空间层中, 基于线性化系统设计一致性分布式控制器, 实现被控多智能体系统的输出一致性控制. 本文的主要创新点和贡献如下:

    1)现有分布式控制方法在处理异构多智能体输出一致性控制时[15-16], 因模型未知和非线性动态的影响, 会造成黎卡提方程或贝尔曼方程求解困难的问题. 为此, 本文提出一种基于无模型反馈线性化的同胚分布式控制协议, 不依赖精确模型的情况下实现输出一致性控制. 不同于传统无模型分布式控制方法, 分层分布式控制协议包含两层控制策略, 在物理空间层通过构建自适应动态规划算法求解无模型反馈线性化控制器, 将未知非线性多智能体系统转化为已知的线性系统. 结合同胚空间层的一致性控制协议, 该线性化系统可以根据协同任务的性能需求进行预设计或二次设计, 当控制任务发生改变时无需重新学习, 从而降低一致性策略设计难度.

    2)解决物理空间层中反馈线性化控制器对精确模型的依赖问题是分层分布式方法实施的关键, 本文设计一种基于两阶段迭代学习的无模型自适应动态规划算法. 算法在值函数学习过程中引入目标依赖, 可以动态调整奖励信号以适应异构的智能体, 无需设计不同奖励信号, 同时通过一个双启发式评价网络实现线性化控制策略快速更新.

    本节首先详细描述图论的相关概念, 然后针对异构非线性多智能体输出一致性问题, 分析其求解难度和存在问题.

    存在一个有向图$ {\cal{G}}({\cal{K}},\;\Gamma ,\;{\cal{A}}) $包含领导者和$ N $个跟随者节点, 其中$ {\cal{K}} = \left\{ {{\kappa _1},\;{\kappa _2},\; \cdots ,\;{\kappa _N}} \right\} $是一个非空有限节点集, 表示有向边集; $ {\cal{A}} = \left[ {{a_{ij}}} \right] \in {{\bf{R}} ^{N \times N}} $是一个相关的邻接矩阵, $ {a_{ij}} = 1 $表示节点$ j $到$ i $之间存在一个有向边, 满足$ ({\kappa _j},\;{\kappa _i}) \in \Gamma $, $ \Gamma \subseteq {\cal{K}} \times {\cal{K}} $, 否则, $a_{{ij}} =0$. 设增益${{b}_{i}}\ge 0$, 只有与领导节点直接相连的节点才不为零, ${\cal{B}} = {\mathrm{diag}}\left\{ \sum{{{b}_{i}}} \right\}$. 令与节点${{\kappa }_{i}}$存在有向图相连的邻居集合为${{\aleph }_{i}} = \{ {{\kappa }_{j}}:({{\kappa }_{j}},\;{{\kappa }_{i}})\in \Gamma \}$, 进一步定义一个入度矩阵为${\cal{D}} = {\mathrm{diag}}\{ \sum\nolimits_{j\in {{\aleph }_{i}}} {{{a}_{ij}}} \}$, $i = 1,\;2,\;\cdots ,\;N$, 则有向图$ {\cal{G}} $的Laplacian矩阵表示为$ {\cal{L}} = {\cal{D}}-{\cal{A}} $.

    考虑$ N $个异构仿射非线性多智能体系统, 智能体分布在有向图$ {\cal{G}} $上, 系统动力学模型可描述为

    $$ \begin{cases} {x}_{i,\;k+1} = f_i(x_{i,\;k}) + g_i(x_{i,\;k})u_{i,\;k} \\ y_{i,\;k} = h_i(x_{i,\;k}) \end{cases} \quad $$ (1)

    其中, $ i \in {\cal{N}} $, $ {\cal{N}} = 1,\;2,\;\cdots,\;N $, $ {{x}_{i,\;k}}\in {{{\bf{R}} }^{n}} $为状态向量, $ {{u}_{i}}\in {{\bf{R} }^{{{m}}}} $表示控制策略. 光滑向量场$ {{f}_{i}}({{x}_{i,\;k}})\in {{\bf{R}}^{n}} $和$ {{g}_{i}}({{x}_{i,\;k}})\in {{\bf{R} }^{n\times m}} $表示未知的系统动力学漂移阵和输入阵, ${{h}_{i}}({{x}_{i,\;k}})\in {{\bf{R}}} $为输出矩阵, 均满足在$ {{\bf{R}}^{n}} $上Lipschitz连续且有界, $ f_i(0) = 0 $.

    假设1. 智能体的相对阶$ \rho_i = n $.

    假设2. 对于$ \forall i \in {\cal{N}} $, 总存在一个$ j \in {\cal{N}} $且$ j \ne i $, 使得$ {f_i}({x_{i,\;k}}) \ne {f_j}({x_{i,\;k}}) $; 总存在一个$ k \in {\cal{N}} $且$ k \ne i $, 使得$ {g_i}({x_{i,\;k}}) \ne {g_k}({x_{i,\;k}}) $.

    在跟踪同步问题中, 需要设计分布式控制输入$ {{u}_{i,\;k}} $, 使所有节点的输出与领导节点$ {{y}_{r}} $的输出同步. 领导节点可以是一个期望轨迹生成器, 也可以是智能决策的结果, 或者人工示教的轨迹, 它代表所需的期望轨迹. 领导者的动力学模型为

    $$ \begin{cases} {x}_{r,\;k+1} = f_r(x_{r,\;k}) \\ y_{r,\;k} = h_r(x_{r,\;k}) \end{cases} \quad $$ (2)

    其中, $ {{x}_{r,\;k}}\in {{\bf{R} }^{n}} $. 函数$ {{f}_{r}}(\cdot ) $和$ {{h}_{r}}(\cdot ) $假设为$C_\infty $类. 输出$ {{y}_{r,\;k}} $是跟踪领导者输出所需的期望性能输出. 假设所有的智能体状态都是可测量的, 或者在系统对于输出满足能观性时, 也可以添加观察器.

    为了解决智能体(1)和期望轨迹(2)的输出一致性跟踪问题, 智能体与期望轨迹的跟踪误差为$ {{e}_{p,\;i,\;k}} = {{y}_{i,\;k}}-{{y}_{r,\;k}} $, 多智能体协同局部邻域跟踪误差可表示为

    $$ {\cal{E}}_{i,\;k} = \sum\limits_{j \in {\cal{N}}_i} a_{ij} (y_{i,\;k} - y_{j,\;k}) + b_i e_{p,\;i,\;k} \quad $$ (3)

    假设3. 有向图$ {\cal{G}} $存在一个生成树结构, 且至少有一个根节点的增益$ {{b}_{i}} $是非零的, 意味着至少有一个智能体直接与领导者通讯.

    由式(3)可知, 有向图$ {\cal{G}} $的全局邻域误差向量为

    $$ E = \left[ ({\cal{L}} + {\cal{B}}) \otimes I_\rho \right] (Y - Y_r) \equiv \left[ ({\cal{L}} + {\cal{B}}) \otimes I_\rho \right] \delta \quad $$ (4)

    其中, $ Y = {{\left[ {{y}_{1,\;k}},\;{{y}_{2,\;k}},\;\cdots ,\;{{y}_{N,\;k}} \right]}^{{\mathrm{T}}}}\in {{\bf{R} }^{N}} $表示系统全局输出向量, $ {{Y}_{r}} = {{1}_{N}}\otimes {{y}_{r}} $, $ {{1}_{N}} $表示元素全为1的$ N $维向量, $ \otimes $表示Kronecker积, $ E = [ {{{\cal{E}}}_{1}},\;{{{\cal{E}}}_{2}},\;\cdots ,\; {{{\cal{E}}}_{N}} ]^{{\mathrm{T}}}\in {{\bf{R} }^{N}} $. $ \delta $为全局跟踪误差向量, 由于其是一个全局向量, 无法在每个节点局部计算.

    为了实现完全分布式的控制结构, 本文利用式(3)中的局部邻域跟踪误差来解决输出同步问题. 由式(1)和式(3)联例可得智能体$ i $的局部跟踪误差动力学:

    $$ \begin{split} {{\cal{E}}_{i,\;k + 1}}=\; & \mathop \sum \limits_{j \in {{\cal{N}}_i}} {\mkern 1mu} {\kern 1pt} {a_{ij}}{h_i}\left[ {{f_i}({x_{i,\;k}}) + {g_i}({x_{i,\;k}}){u_{i,\;k}}} \right]-\\ & \mathop \sum \limits_{j \in {{\cal{N}}_i}} {\mkern 1mu} {\kern 1pt} {a_{ij}}{h_j}\left[ {{f_j}({x_{j,\;k}}) + {g_j}({x_{j,\;k}}){u_{j,\;k}}} \right]+\\ & {b_i}\{ {h_i}\left[ {{f_i}({x_{i,\;k}}) + {g_i}({x_{i,\;k}}){u_{i,\;k}}} \right] -\\ &{h_r}\left[ {{f_r}({x_{r,\;k}})} \right] \} \end{split} $$ (5)

    对于包含复杂非线性部分的误差动力学(5), 传统控制理论在解决输出一致性控制问题时, 常受到黎卡提方程难以求解的困扰, 尤其是在系统的非线性动态未知且异构的情况下, 输出一致性控制器求解极其复杂.

    输入输出反馈线性化技术能够通过微分同胚映射将非线性系统的输出$ {{y}_{i,\;k}} $与输入$ {{u}_{i,\;k}} $之间的动态关系转化为线性关系, 从而实现非线性系统的严格线性化. 基于模型的反馈线性化控制器求解形式如下所示:

    $$ \begin{split} {u_{i,\;k}} =\;& \frac{{ - L_{{f_i}}^\rho {h_i}({x_{i,\;k}})}}{{{L_{{g_i}}}L_{{f_i}}^{\rho - 1}{h_i}({x_{i,\;k}})}} + \frac{{{v_{i,\;k}}}}{{{L_{{g_i}}}L_{{f_i}}^{\rho - 1}{h_i}({x_{i,\;k}})}}=\\ & {\beta _i}({x_{i,\;k}}) + {\alpha _i}({x_{i,\;k}}){v_{i,\;k}} \end{split} $$ (6)

    其中, $ L $为李导数运算符, $ {u_{i,\;k}} $为实际控制输入, $ {v_{i,\;k}} $是一个虚拟输入, 在本文中作为分布式控制的输入端. 经过严格反馈线性化, 可消除系统非线性项并得到:

    $$ \begin{aligned} y_{i,\;k}^{(\rho )} = {v_{i,\;k}} \end{aligned} $$ (7)

    此时, 非线性多智能体通过微分同胚映射$ \Phi ({{x}_{i,\;k}}) $投影到同胚线性空间中的动力学方程为

    $$ \left\{\begin{split} &{\xi _{i,\;k + 1}} = A{\xi _{i,\;k}} + B{v_{i,\;k}}\\& {y_{i,\;k}} = C{\xi _{i,\;k}} \end{split}\right. $$ (8)

    其中, $ A = \left[ {\begin{array}{*{20}{c}} {{0_{(n{\rm{ - }}1) \times 1}}}&{{I_{n{\rm{ - }}1}}}\\ 0&{{0_{1 \times (n{\rm{ - }}1)}}} \end{array}} \right] $, $ B = \left[ {\begin{array}{*{20}{c}} {{0_{(n{\rm{ - }}1) \times 1}}}\\ I \end{array}} \right] $, $ C = \left[ {\begin{array}{*{20}{c}} I&{{0_{1 \times (n{\rm{ - }}1)}}} \end{array}} \right] $. 由此, 每个智能体均被映射为系统结构已知的线性化系统.

    然而, 在原系统模型未知的情况下, $ {\alpha _i}({x_{i,\;k}}) $和$ {\beta _i}({x_{i,\;k}}) $的精确求解变得极为困难, 不严格的反馈线性化将影响分布式控制器的执行效果. 本文提出的控制策略核心在于无模型自适应动态规划方法, 在不依赖精确模型的前提下, 实现非线性多智能体系统的精确线性化, 使每个智能体的动力学行为近似为同一期望的线性系统动力学, 进而能够利用传统的线性控制理论设计分布式控制器, 实现全局系统的输出一致性.

    为解决模型未知的输出一致性控制问题, 本文提出一种同胚分布式控制协议(如图1). 通过无模型自适应动态规划实现输入输出反馈线性化, 将异构非线性多智能体系统转化为同构线性系统, 从而简化分布式控制器的设计. 在物理空间中, 利用自适应动态规划方法设计输入输出反馈线性化控制器, 将智能体的闭环动态通过微分同胚映射为期望的线性系统, 实现与之一致的输出响应; 在同胚空间中, 以期望线性系统为基础设计分布式一致性控制器. 通过物理空间的线性化处理和同胚空间的协同作用, 将控制性能优化与分布式决策设计相结合, 以实现异构非线性智能体的输出一致性控制.

    图 1  同胚分布式控制协议结构图
    Fig. 1  Structure diagram of homeomorphic distributed control protocol

    为近似求解未知的反馈线性化控制器(6), 首先需设计评价指标引导反馈线性化控制器学习. 考虑到系统输入输出未完成线性化前, 结合式(7), 存在如下微分状态误差:

    $$ {\bar e_{i,\;k}} = {v_{i,\;k}} - y_{i,\;k}^{(\rho )} $$ (9)

    自适应动态规划的目标是调整控制器使得$ {\bar e_{i,\;k}} $最小, 此时系统将被反馈线性化. 为得到$ y_{i,\;k}^{(\rho )} $, 采用式(8)作为期望转化的目标线性系统, 构造龙伯格状态观测器用以重构被控对象线性化状态:

    $$ \left\{\begin{split} &{{{{\hat \xi}}}_{i,\;k+1}} = A{{{\hat \xi}}_{i,\;k}}+B{{v}_{i,\;k}} +H({{{{y}}}_{i,\;k}} - {{{\hat{y}}}_{i,\;k}})\\& {{{\hat{y}}}_{i,\;k}} = C{{{\hat \xi}}_{i,\;k}}\; \end{split}\right. $$ (10)

    其中, $ {{v}_{i,\;k}} $为分布式控制输入, $ H $为滤波增益. 观测误差动力学可以表示为

    $$ \begin{split} {{{e}}_{m,\;i,\;k+1}} = \; &\frac{\partial \Phi ({{x}_{i,\;k}})}{\partial {{x}_{i,\;k}}}\{ {{f}_{i}}({{x}_{i,\;k}})+{{g}_{i}}({{x}_{i,\;k}})[ {{\beta }_{i}}({{x}_{i,\;k}})\;+\\ &{{\alpha }_{i}}({{x}_{i,\;k}}){{v}_{i,\;k}} ] \} -A{\hat\xi_{i,\;k} } -B{{v}_{i,\;k}}\;-\\ &H\left( {{y}_{i,\;k}}-{{{\hat{y}}}_{i,\;k}} \right) \\[-1pt]\end{split} $$ (11)

    注1. 在智能体完成线性化之前, 由于被控智能体与目标线性系统异构, 状态误差$ \bar e_{i,\;k} $无法渐近收敛. 仅当满足$ {\alpha _i}({x_{i,\;k}}) = { {1 \over {{L_{{g_i}}}L_{{f_i}}^{\rho - 1}{h_i}({x_{i,\;k}})}}} $和$ {\beta _i}({x_{i,\;k}}) = { {- L_{{f_i}}^\rho {h_i}({x_{i,\;k}}) \over {{L_{{g_i}}}L_{{f_i}}^{\rho - 1}{h_i}({x_{i,\;k}})}}} $时, $ \lim_{t \to \infty} \bar e_{i,\;k} = 0 $, 被控系统线性化为目标线性系统(8).

    考虑$ {{\alpha }_{i}}(\cdot) $和$ {{\beta }_{i}}(\cdot) $的两组李导数是关于$ {{x}_{i,\;k}} $的多项式, 因此利用$ {{x}_{i,\;k}} $各个元素及相关表达式作为基向量, 设计两组多项式近似未知的反馈线性化控制器$ {{u}_{i}} = {{\beta }_{i}}({{x}_{i,\;k}})+{{\alpha }_{i}}({{x}_{i,\;k}}){{v}_{i}} $, 有

    $$ {{\hat{\alpha }}_{i}}({{x}_{i,\;k}}) = W_{{{\alpha }_{i}}}^{{\mathrm{T}}}\omega ({{x}_{i,\;k}})\; $$ (12)
    $$ {{\hat{\beta }}_{i}}({{x}_{i,\;k}}) = W_{{{\beta }_{i}}}^{{\mathrm{T}}}\omega ({{x}_{i,\;k}})$$ (13)

    其中, $ W_{{{\alpha }_{i,\;k}}}^{{\mathrm{T}}} $, $ W_{{{\beta }_{i,\;k}}}^{{\mathrm{T}}} $为多项式权值, $ \omega (\cdot ) $是由$ {{x}_{i,\;k}} $及其多项式组合构成的基向量. 接下来, 通过数据驱动的自适应动态规划算法, 学习得到$ {{\alpha }_{i}}(\cdot) $和$ {{\beta }_{i}}(\cdot) $的最优近似.

    由于$ {{\alpha }_{i}}({{x}_{i,\;k}}) $和$ {{\beta }_{i}}({{x}_{i,\;k}}) $作用于同一控制通道, 一个网络的变化会影响另一个网络的学习空间. 这使得$ {{\alpha }_{i}}({{x}_{i,\;k}}) $和$ {{\beta }_{i}}({{x}_{i,\;k}}) $的学习均处于非平稳空间, 贝尔曼方程求解将是一个非凸优化问题, 容易使学习陷入局部最优.

    为避免非线性项耦合, 利用历史采样输入输出数据, 结合极限差分方法重构$ {{\alpha }_{i}}(\cdot ) $观测值的倒数:

    $$ {{L}_{{{g}_{i}}}}L_{{{f}_{i}}}^{\rho -1}{{h}_{i}}({{x}_{i,\;k}})\text{ = }\frac{1}{{{\alpha }_{i}}({{x}_{i,\;k}})}\text{ = }\frac{\partial {{y}_{i,\;k}}(\rho )}{\partial {{u}_{i,\;k}}} $$ (14)

    采用监督学习训练网络(12)得到$ {{\hat{\alpha }}_{i}}({{x}_{i,\;k}}) = {{\alpha }_{i}}({{x}_{i,\;k}})+{{d}_{i,\; \alpha}} $, 可将式(11)表示为

    $$ \left\{ \begin{aligned} {{{{e}}}_{m,\;i,\;k+1}}(1) & = {{e}_{m,\;i,\;k}}(2)-{{H}_{1}}\left( {{y}_{i,\;k}}-{{{\hat{y}}}_{i,\;k}} \right) \\ {{{{e}}}_{m,\;i,\;k+1}}(2) & = {{e}_{m,\;i,\;k}}(3)-{{H}_{2}}\left( {{y}_{i,\;k}}-{{{\hat{y}}}_{i,\;k}} \right) \\ & \qquad\qquad \vdots \\ {{{{e}}}_{m,\;i,\;k+1}}(\rho ) & = {\beta _i}({x_{i,\;k}}) + {\hat \beta _i}({x_{i,\;k}})\;-\\ &\;\;\;\;{{H}_{\rho }}\left( {{y}_{i,\;k}}-{{{\hat{y}}}_{i,\;k}} \right)+ {{\sigma }_{i,\;k}} \end{aligned} \right. $$ (15)

    其中, $ {{\sigma }_{i,\;k}} = {{d}_{i,\; \beta}} + {{d}_{i,\;\alpha}}{{v}_{i,\;k}} $, $ {d_{i,\,\beta }} = {\hat \beta _i}({x_{i,\,k}}) - {\beta _i}({x_{i,\,k}}) $. 理论上多项式可以无限逼近一条光滑曲线, 因此$ {{\sigma }_{i,\;k}} $ 满足$ \| {{\sigma }_{i,\;k}} \|\le d^m<{{\varepsilon }_{d}} $ 和$ \| {{\sigma}_{i,\;k}}-{{\sigma}_{i,\;k-1}} \|\le \Delta \sigma^m $, $ \sigma^m,\;\Delta \sigma^m\in {{{\bf{R}}}^{+}} $是未知的, $ {{\varepsilon }_{d}} $ 为极小值. 基于此, 分布式反馈线性化控制器学习问题转为一个模型参考跟踪控制问题, 通过状态误差$ {{\bar e}_{i,\;k}} $作为强化信号优化网络$ {{\hat{\beta }}_{i}}(\cdot ) $的输出以消除非线性动态, 使得观测误差动力学(15)能够快速收敛, 同时完成系统线性化.

    值得注意的是, 传统的启发式动态规划在求解最优跟踪策略时通常需要考虑误差−动作对信息. 反馈线性化控制器通过消除系统的非线性特征, 使得线性控制器能够得到更好的控制效果, 间接影响跟踪误差, 而非直接通过误差反馈减小跟踪误差. 因此, 在反馈线性化控制器的无模型学习中, 执行网络和值函数不应与误差相关. 为了有效引导优化方向, 避免陷入局部最优, 需将反馈线性化的程度指标作为系统长期目标融入值函数的优化过程. 但是由于模型信息缺失, 难以预先设计一个奖励信号来正确引导反馈线性化的学习.

    为此, 本文定义反馈线性化奖励作为各智能体线性化程度的指标:

    $$ \begin{aligned} {C_{i,\;k}} = \left\{ {\begin{aligned} &{0,\;}&&{{{\left\| {{{\bar e}_{i,\;k}}} \right\|}_1} + {{\left\| {{{\bar e}_{i,\;k}} - {{\bar e}_{i,\;k - 1}}} \right\|}_1} < {\varepsilon _i}}\\ &{1,\;}&&{{{\left\| {{{\bar e}_{i,\;k}}} \right\|}_1} + {{\left\| {{{\bar e}_{i,\;k}} - {{\bar e}_{i,\;k - 1}}} \right\|}_1} \ge {\varepsilon _i}} \end{aligned}} \right.\; \end{aligned}$$ (16)

    同时为正确引导学习方向, 设计奖励网络$ {{R}_{i,\;k}} $

    $$ \hat{R}_{i,\;k}^{l} = W_{{{r}_{i}}}^{l\;{\mathrm{T}}}\omega ({{X}_{i,\;k}}) $$ (17)

    该网络用于在学习过程中动态调整奖励值, 无需针对不同异构智能体分别设计奖励信号.

    为了同时调整奖励信号和求解反馈线性化控制器, 设计了双启发式评价网络同时逼近最优值函数和一个启发函数. 其中, 启发式函数用于快速估计值函数梯度方向和大小, 优化控制策略. 本文在奖励网络、评价网络与执行网络之间构建两阶段双启发式自适应动态规划问题, 通过两阶段循环迭代, 实现对高维奖励信息、值函数、启发函数和最优策略的同步逼近. 如图2所示, 两阶段双启发式自适应动态规划方法的每轮迭代包括两个阶段: 在奖励评估阶段, 根据反馈线性化奖励, 迭代优化奖励网络和双评价网络; 在动作评估阶段, 通过上一阶段得到的启发网络直接估计值函数梯度. 进而快速更新动作网络, 实现控制器的性能提升. 具体实现如下所述.

    图 2  无模型反馈线性化学习模块
    Fig. 2  Model-free feedback linearized learning modules

    首先, 给出累计折扣奖励值函数的表达式:

    $$ {{J}_{i,\;k}} = \sum\limits_{\delta = 0}^{\infty }{\gamma _{{{J}_{i}}}^{\delta }{{C}_{i,\;k+\delta }}} $$ (18)

    其中, $ {{\gamma }_{{{J}_{i}}}}\in \left( 0,\;1 \right) $是一个折扣因子. 定义一个双启发式评价网络结构同时近似最优值函数$ J_{i}^{*}(\cdot ) $和一个最优启发函数$ \lambda _{i}^{*}(\cdot ) $:

    $$ \left[ \begin{matrix} \hat{J}_{i,\;k}^{l} \\ \hat{\lambda }_{i,\;k}^{l} \\ \end{matrix} \right] = \left[ \begin{matrix} W_{{{J}_{i}}}^{l\;{\mathrm{T}}} \\ W_{{{\lambda }_{i}}}^{l\;{\mathrm{T}}} \\ \end{matrix} \right]\omega \left( {{X}_{i,\;k}},\;R_{i,\;k}^{l} \right) $$ (19)

    其中, $ \hat{J}_{i,\;k}^{l} $和$ \hat{\lambda }_{i,\;k}^{l} $分别表示在 $ l $次迭代后对$ {{J}_{i,\;k}} $和$ {{\lambda }_{i,\;k}} $的估计值. $ {{\lambda }_{i,\;k}} $是值函数$ {{J}_{i,\;k}} $关于$ {{X}_{i,\;k}} $的各元素偏导组成的向量.

    学习过程中, 采用异策略学习方式, 利用$ k $和$ k-1 $的数据更新网络权值. 根据贝尔曼原理, 定义$ {{e}_{c,\;i,\;k}} $为双评价网络的估计误差:

    $$ {{e}_{c,\;i,\;k}} = {{\mu }_{j}}\frac{e_{J,\;i,\;k}^{2}}{2}+{{\mu }_{\lambda }}\frac{e_{\lambda ,\;i,\;k}^{2}}{2} $$ (20)

    其中, $ {{e}_{J,\;i,\;k}} = {{\hat{R}}_{i,\;k-1}}+{{\gamma }_{{{J}_{i}}}}{{\hat{J}}_{i,\;k}}-{{\hat{J}}_{i,\;k-1}} $; $ {{e}_{\lambda ,\;i,\;k}} = \frac{{{{\hat{R}}}_{i,\;k-1}}}{{{X}_{i,\;k-1}}}+{{\gamma }_{{{J}_{i}}}}{{\hat{\lambda }}_{i,\;k}}{{\Xi }_{i,\;k}}-{{\hat{\lambda }}_{i,\;k-1}} $, 其中$ {{\mu }_{j}}\in \left( \left. 0,\;1 \right] \right. $和$ {{\mu }_{\lambda }}\in \left( \left. 0,\;1 \right] \right. $为学习步长; $ {{\Xi }_{i,\;k}} = \frac{\partial {{X}_{i,\;k}}}{\partial {{X}_{i,\;k-1}}}\; $为增广状态的雅克比矩阵. 根据梯度下降原则, 双评价网络通过如下更新规则进行更新:

    $$ \begin{split} &{\begin{bmatrix} W_{{{J}_{i}}}^{l+1} \\ W_{{{\lambda }_{i}}}^{l+1} \end{bmatrix}}^{{\mathrm{T}}} = {\begin{bmatrix} W_{J_i}^{l} \\ W_{\lambda_i }^{l} \end{bmatrix}}^{{\mathrm{T}}} - \\&\qquad{{\eta }_{c}} {\begin{bmatrix} {{\mu }_{j}}\dfrac{\partial {{e}_{J,\;i,\;k}}}{\partial \hat{J}_{i,\;k}^{l}}\dfrac{\partial \hat{J}_{i,\;k}^{l}}{\partial W_{J}^{l}}{{e}_{J,\;i,\;k}} \\ {{\mu }_{\lambda }}\dfrac{\partial {{e}_{\lambda ,\;i,\;k}}}{\partial \hat{\lambda }_{i,\;k}^{l}}\dfrac{\partial \hat{\lambda }_{i,\;k}^{l}}{\partial W_{\lambda }^{l}}{{e}_{\lambda ,\;i,\;k}} \end{bmatrix}}^{{\mathrm{T}}} = {\begin{bmatrix} W_{J_i}^{l} \\ W_{\lambda_i }^{l} \end{bmatrix}}^{{\mathrm{T}}} - \\ &\qquad{{\eta }_{c}} {\begin{bmatrix} {{\mu }_{j}}{{\gamma }_{{{J}_{i}}}}\omega \left( {{X}_{i,\;k}},\;R_{i,\;k}^{l} \right){{e}_{J,\;i,\;k}} \\ {{\mu }_{\lambda }}{{\gamma }_{{{J}_{i}}}}\omega \left( {{X}_{i,\;k}},\;R_{i,\;k}^{l} \right){{\left( {{\Xi }_{i,\;k}}{{e}_{\lambda ,\;i,\;k}} \right)}^{{\mathrm{T}}} } \end{bmatrix}}^{{\mathrm{T}}} \end{split} $$ (21)

    其中, $ {{\eta }_{c}} $是评价网络的权值更新步长.

    定义$ {{e}_{R,\;i,\;k}} $为奖励网络估计误差:

    $$ {{e}_{R,\;i,\;k}} = {{C}_{i,\;k-1}}-\hat{R}_{i,\;k}^{l} = {{C}_{i,\;k-1}}-\left( \hat{J}_{i,\;k-1}^{l}-{{\gamma }_{{{J}_{i}}}}\hat{J}_{i,\;k}^{l} \right) $$ (22)

    奖励网络通过如下更新规则进行更新,

    $$ \begin{split} &W_{{{r}_{i}}}^{l+1}= W_{{{r}_{i}}}^{l}-{{\eta }_{r}}\frac{\partial {{e}_{R,\;i,\;k}}}{\partial \hat{J}_{i,\;k}^{l}}\frac{\partial \hat{J}_{i,\;k}^{l}}{\partial \hat{R}_{i,\;k}^{l}}\frac{\partial \hat{R}_{i,\;k}^{l}}{\partial W_{{{r}_{i}}}^{l}}{{e}_{R,\;i,\;k}} =\\ &\;\;\;\; W_{{{r}_{i}}}^{l}-{{\eta }_{r}}{{e}_{R,\;i,\;k}}{{\gamma }_{{{J}_{i}}}}W_{{{J}_{i}}}^{l\;{\mathrm{T}}}{\omega }'\left( {{X}_{i,\;k}},\;R_{i,\;k}^{l} \right)\omega \left( {{X}_{i,\;k}} \right) \end{split} $$ (23)

    其中, $ {{\eta }_{r}} $是奖励网络的权值更新步长.

    基于启发网络, 动作网络的误差函数可定义为

    $$ {{e}_{\beta ,\;i,\;k}} = \hat{\lambda }_{i,\;k}^{l} $$ (24)

    动作网络通过最小化误差函数$ {{e}_{\beta ,\;i,\;k}} $求解最优动作, 更新规则如下:

    $$ \begin{split} &W_{{{\beta }_{i}}}^{(l+1)\;{\mathrm{T}}} = W_{{{\beta }_{i}}}^{l\;{\mathrm{T}}}-{{\eta }_{a}}\frac{\partial {{e}_{\beta ,\;i,\;k}}}{\partial {{X}_{i,\;k}}}\frac{\partial {{X}_{i,\;k}}}{\partial \hat{\beta }_{i,\;k}^{l}}\frac{\partial \hat{\beta }_{i,\;k}^{l}}{\partial W_{{{\beta }_{i}}}^{l\;{\mathrm{T}}}}\hat{\lambda }_{i,\;k}^{l}= \\ &\;\;\;\;\;\;\;\;\;\; W_{{{\beta }_{i}}}^{l\;{\mathrm{T}}}-{{\eta }_{a}}{{{\hat{\lambda }}}^{l\;{\mathrm{T}}}}({{\xi }_{k}})W_{{{\lambda }_{i}}}^{l\;{\mathrm{T}}}{\omega }'\left( {{X}_{i,\;k}},\;R_{i,\;k}^{l} \right)\omega \left( {{x}_{i,\;k}} \right) \end{split} $$ (25)

    其中, $ {{\eta }_{a}} $是执行网络的权值更新步长.

    在同胚空间中, 通过无模型反馈线性化, 非线性多智能体输入输出关系在控制器(6)的作用下由非线性动力学(1)映射为同胚空间中的能控标准型系统, 由此可将虚拟领导者设计为更简单的线性形式:

    $$ \left\{ \begin{aligned} & {{{{\xi }}}_{r,\;k}} = A{{\xi }_{r,\;k}}+BK{{\xi }_{r,\;k}} \\ & {{y}_{r,\;k}} = C{{\xi }_{r,\;k}} \end{aligned} \right. $$ (26)

    其中, $K $为反馈控制增益, 局部邻域输出跟踪误差可由一个虚拟局部邻域状态跟踪误差等效:

    $$ {{{\cal{E}}}_{i,\;k}} = \mathop \sum \limits_{j \in {N_i}} {{a}_{ij}}({{\xi }_{i,\;k}}-{{\xi }_{j,\;k}})+{{b}_{i}}{{e}_{p,\;i,\;k}} $$ (27)

    其中, $ {{e}_{p,\;i,\;k}} = {{\xi }_{i,\;k}}-{{\xi }_{r,\;k}} $.

    令$ \xi = \left[ {{\xi }_{1}},\;{{\xi }_{2}},\;\cdots ,\;{{\xi }_{N}} \right] $, 则全局动力学方程为

    $$ \left\{ \begin{aligned} & {\xi_k } = \left( {{I}_{N}}\otimes A \right)\xi +\left( {{I}_{N}}\otimes B \right)v \\ & y = \left( {{I}_{N}}\otimes C \right){{\xi }_{r}} \end{aligned} \right. $$ (28)

    定义$ Q = {Q^{\mathrm{T}}} $和$ R = {R^{\mathrm{T}}} $为正定矩阵. 令反馈控制增益为

    $$ \begin{aligned} K = {R^{ - 1}}{B^{\mathrm{T}}}{\cal{P}} \end{aligned} $$ (29)

    其中, $ {\cal{P}} $是代数黎卡提方程的唯一正定解:

    $$ \begin{aligned} {A^{\mathrm{T}}}{\cal{P}} + {\cal{P}}A + Q - {\cal{P}}B{R^{ - 1}}{B^{\mathrm{T}}}{\cal{P}} = 0 \end{aligned} $$ (30)

    令$ {\zeta _i}\,\;\left( {i \in {\cal{N}}} \right) $为$ {\cal{L}} + {\cal{B}} $的特征根, 当满足 $ {\cal{C}} \ge \frac{1}{{2 {\min }_{i \in {\cal{N}}} {\mathop{\rm{Re}}\nolimits} ({\zeta _i})}} $时, $ \forall i \in {\cal{N}} $, 所有$ A - {\cal{C}}{\zeta _i}BK $满足Hurwitz条件, $ {\cal{C}} \in \bf{R} $为耦合增益.

    引理1[11]. 选择

    $$ {{v}_{i,\;k}} = -{\cal{C}}K{{{\cal{E}}}_{i,\;k}} $$ (31)

    为分布式线性控制输入, 其中$ {\cal{C}} \ge \frac{1}{{2{\min }_{i \in {\cal{N}}} {\mathop{\rm{Re}}\nolimits} ({\zeta _i})}} $, $ K = {{R}^{-1}}{{B}^{{\mathrm{T}}} }{\cal{P}} $, 则$ \forall i\in {\cal{N}} $, 有$ {{\xi }_{i}} $关于$ {{\xi }_{r}} $协同一致渐近有界, 且所有节点与$ {{\xi }_{r}} $同步.

    注2. 由于输入输出反馈线性化特性, 可将期望线性系统动力学设计为统一形式. 根据假设, 当所有智能体相对阶一致时, 采用同样的反馈控制增益$ K $即可实现所有智能体动态品质趋同, 显著减小分布式控制器设计复杂度.

    本节讨论分布式无模型反馈线性化算法的收敛性. 考虑跟踪误差的收敛性以及双评价网络、奖励网络、动作网络的学习收敛问题. 定义分布式无模型反馈线性化算法中三种网络的最优权值表达式为

    $$ \begin{aligned} \left\{ {\begin{aligned} &{W_{J_i}^*=\arg \mathop {\min }\limits_{{W_{J_i}}} \left\| {{{\hat J_i}^l}({X_{i,\;k}},\; {{\hat R_{i,\;k}}^l}) - J_{i,\;k}} \right\|}\\ &{W_{\lambda_i}^*=\arg \mathop {\min }\limits_{{W_{\lambda_i}}} \left\| {{{\hat \lambda_i}^l}({X_{i,\;k}},\; {{\hat R_{i,\;k}}^l}) - \frac{\partial {J_{i,\;k}}}{\partial {{X_{i,\;k}}}}} \right\|}\\ &{W_{r_i}^*=\arg \mathop {\min }\limits_{{W_{r_i}}} \left\| {{{\hat R_i}^l}({X_{i,\;k}}) - {C_{i,\;k}}} \right\|}\\ &{W_{a_i}^{\rm{*}}=\arg \mathop {\min }\limits_{{W_{a_i}}} \left\| {{{\hat \beta_i}^l}({x_{i,\;k}}) -L_{{{f}_{i}}}^{\rho }{{h}_{i}}({{x}_{i,\;k}})} \right\|} \end{aligned}} \right. \end{aligned} $$ (32)

    其中, $ J_i({X_{i,\;k}}) $为理想值函数. 可得权值的估计误差为

    $$ \begin{aligned} \left\{ {\begin{aligned} &{\tilde W_{J_i}^l=W_{J_i}^l - W_{J_i}^*}\\ &{\tilde W_{\lambda_i}^l=W_{\lambda_i}^l - W_{\lambda_i}^*}\\ &{\tilde W_{r_i}^l=W_{r_i}^l - W_{r_i}^*}\\ &{\tilde W_{a_i}^l=W_{a_i}^l - W_{a_i}^{\rm{*}}} \end{aligned}} \right. \end{aligned} $$ (33)

    为了简化表示, 令${\omega _{a,\,i,\,k}} = \omega ({x_{i,\,k}})$, ${\omega _{c,\,i,\,k}} = \omega ({X_{i,\,k}}, \tilde R_{i,\,k}^l) $, $ {\omega _{r,\,i,\,k}} = \omega ({X_{i,\,k}})$, $ \tilde u_{i,\,k}^l = \tilde W_{{a_i}}^{l,\,{\mathrm{T}}}{\omega _{a,\,i,\,k}} $, $ \tilde J_{i,\,k}^l = \tilde W_{{J_i}}^{l,\,{\mathrm{T}}}{\omega _{c,\,i,\,k}} $, $ \tilde \lambda _{i,\,k}^l = \tilde W_{{\lambda _i}}^{l,\,{\mathrm{T}}}{\omega _{c,\,i,\,k}} $, $\tilde R_{i,\,k}^l = \tilde W_{{r_i}}^{l,\,{\mathrm{T}}}{\omega _{r,\,i,\,k}}$.

    假设4. 网络的权值$ W_{J_i} $, $ W_{\lambda_i} $, $ W_{a_i} $, $ W_{r_i} $和基向量输出$ \omega ( \cdot ) $均有界, 且上界分别表示为$ W_{J_i}^m $, $ W_{\lambda_i}^m $, $ W_{a_i}^m $, $ W_{r_i}^m $, $ \omega^m $.

    首先讨论系统跟踪误差的收敛性, 若期望模型的状态$ z_{i,\;k} $和输入$ r_{i,\;k} $有界, 且假设4成立, 令$ e_{m,\;i,\;k} $的Lyapunov函数候选为$ {L_{e_i}} = \frac{1}{{3}}e_{m,\;i,\;k}^{\mathrm{T}}{e_{m,\;i,\;k}} $, 则$ L_{e_i} $的一阶差分满足:

    $$ \begin{split} \Delta {L_{e_i}} = \;&{e_{m,\;i,\;k + 1}^{\mathrm{T}}{e_{m,\;i,\;k + 1}} - e_{m,\;i,\;k}^{\mathrm{T}}{e_{m,\;i,\;k}}} \le\\ & \left( {{\lambda _{\max }} - \frac{1}{3}} \right){\left\| {{e_{m,\;i,\;k}}} \right\|^2} + {{{\left\| {\hat \beta_{i,\;k}^l} \right\|}^2} + {{\left\| {{d_{i,\;k}}} \right\|}^2}} \end{split} $$ (34)

    其中, $ {\lambda _{\max }} $表示$ H^{\mathrm{T}}H $最大特征根.

    接下来讨论学习过程的收敛性. 为了分析双重评价函数权值更新的稳定性, 考虑四个部分的收敛性: 值函数权值的估计误差、值函数的估计误差、启发式函数权值的估计误差和启发式函数的估计误差. 根据式(21), 双评价网络权值估计误差如下:

    $$ \begin{split} &{\left[ {\begin{array}{*{20}{c}} {\tilde W_{J_i}^{l + 1}}\\ {\tilde W_{\lambda_i}^{l + 1}} \end{array}} \right]^{\mathrm{T}}} = {\left[ {\begin{array}{*{20}{c}} {\tilde W_{J_i}^l}\\ {\tilde W_{\lambda_i}^l} \end{array}} \right]^{\mathrm{T}}} -\\&\qquad {\eta _c}{\left[ {\begin{array}{*{20}{c}}{{\mu _J}{\gamma _J}\omega_{c,\;i,\;k} e_{{J,\;i,\;k}}^{\mathrm{T}}}\\ {{\mu _\lambda }{\gamma _J}\omega_{c,\;i,\;k} {{\left( {\Xi_{i,\;k}{e_{{\lambda,\; i,\;k}}}} \right)}^{\mathrm{T}}}} \end{array}} \right]^{\mathrm{T}}} \end{split}$$ (35)

    引理2. 令双评价网络的Lyapunov函数候选为

    $$ \begin{split} {L_{c_i}} =\;& {L_{{W_{J_i}}}} + {L_{J_i}} + {L_{{W_{\lambda_i}}}} + {L_{\lambda_i}}=\\ & \frac{1}{{{\eta _c}}}{\rm{tr}}\left( {\tilde W_{J_i}^{l\;{\mathrm{T}}}\tilde W_{J_i}^l} \right) + \frac{1}{2}{\mu _j}{\left\| {{{\tilde J}_i^l}(X_{i,\;k})} \right\|^2}\;+\\ & \frac{1}{{{\eta _c}}}{\rm{tr}}\left( {\tilde W_{\lambda_i}^{l\;{\mathrm{T}}}\tilde W_{\lambda_i}^l} \right) + \frac{1}{2}{\mu _\lambda }{\left\| {{{\tilde \lambda }_i^l}(X_{i,\;k})} \right\|^2} \end{split}\nonumber $$

    则有${L_{{c_i}}}$的一阶差分满足以下不等式:

    $$ \begin{split} \Delta {L_{{c_i}}} \le\;& - {\mu _J}\gamma _{{J_i}}^2{\left\| {\tilde J_{i,\;k}^l} \right\|^2} + \frac{{{\mu _j}}}{2}{\left\| {\tilde J_{i,\;k - 1}^l} \right\|^2}\; +\\ & \frac{{{\mu _\lambda }}}{2}{\left\| {\tilde \lambda _{i,\;k - 1}^l} \right\|^2} - {\mu _j}\gamma _{{J_i}}^2\left( {I - {\chi _{{J_k}}}} \right)\times\\ & {\left\| {\tilde J_{i,\;k}^l + \gamma _{{J_i}}^{ - 1}\varepsilon _{{j_k}}^{\rm{*}}} \right\|^2}-\end{split}\qquad\qquad $$
    $$ \begin{split} & \quad\qquad{\mu _\lambda }\gamma _{{J_i}}^2{\left\| {{\Xi _{i,\;k}}} \right\|^2}{\left\| {\tilde \lambda _{i,\;k}^l} \right\|^2} \;- \\ & \quad\qquad{\mu _\lambda }\gamma _{{J_i}}^2\left( {I - {\eta _c}{\mu _\lambda }\gamma _{{J_i}}^2{{\left\| {{\Xi _{i,\;k}}} \right\|}^2}{{\left\| {{\omega _{c,\;i,\;k}}} \right\|}^2}} \right)\times\\ &\quad\qquad {\left\| {\Xi _{i,\;k}^{\mathrm{T}}\tilde \lambda _{i,\;k}^l + \gamma _{{J_i}}^{ - 1}\varepsilon _{{\lambda _k}}^{\rm{*}}} \right\|^2}+ 2{\mu _j}\Bigg\| \hat R_{i,\;k - 1}^l\; +\\ &\quad\qquad {\gamma _{{J_i}}}W_{{J_i}}^*{\omega _{c,\;i,\;k}} - \frac{1}{2}\left( {W_{{J_i}}^l + W_{{J_i}}^*} \right){\omega _{c,\;i,\;k - 1}} \Bigg\|^2 \;+\\ &\quad\qquad \frac{1}{2}{\mu _j}\left( {{{\left\| {\tilde J_{i,\;k}^l} \right\|}^2} - {{\left\| {\tilde J_{i,\;k - 1}^l} \right\|}^2}} \right)+\\ &\quad\qquad 2{\mu _\lambda }\Bigg\| \frac{{\partial \hat R_{i,\;k - 1}^l}}{{\partial {X_{i,\;k - 1}}}} + {\gamma _{{J_i}}}{\Xi _{i,\;k}}W_{{\lambda _i}}^*{\omega _{c,\;i,\;k}}\; -\\ &\quad\qquad \frac{1}{2}\left( {W_{{\lambda _i}}^l - W_{{\lambda _i}}^*} \right){\omega _{c,\;i,\;k - 1}} \Bigg\|^2 \;+ \\ &\quad\qquad \frac{1}{2}{\mu _\lambda }\left( {{{\left\| {\tilde \lambda _{i,\;k}^l} \right\|}^2} - {{\left\| {\tilde \lambda _{i,\;k - 1}^l} \right\|}^2}} \right)\\[-1pt] \end{split} $$ (36)

    其中, $ \frac{{\partial {{\hat R}_{i,\;k-1}^l} }}{{\partial {X_{i,\;k - 1}}}} $, $ \Xi_{i,\;k} $的上界分别为$ R^m $和$ \Xi^m $.

    证明. $ {L_{{W_J}}} $一阶差分为

    $$ \begin{split} \Delta {L_{{W_{{J_i}}}}} = \;&\frac{1}{{{\eta _c}}}{\rm{tr}}\left[ {\tilde W_{{J_i}}^{l + 1,\;{\mathrm{T}}}\tilde W_{{J_i}}^{l + 1} - \tilde W_{{J_i}}^{l,\;{\mathrm{T}}}\tilde W_{{J_i}}^l} \right]=\\ &\frac{1}{{{\eta _c}}}{\rm{tr}}\Big[ {\tilde W_{{J_i}}^{l,\;{\mathrm{T}}}{{\left( {I - {\chi _c}} \right)}^{\mathrm{T}}}\left( {I - {\chi _c}} \right)} \tilde W_{{J_i}}^l \;- \\ &\varepsilon _{{j_k}}^{\rm{*}}\omega _{c,\;i,\;k}^{\mathrm{T}}{\eta _c}{\mu _j}{\gamma _j}\left( {I - {\chi _c}} \right)\tilde W_{{J_i}}^l\;+\\ & \varepsilon _{{j_k}}^{\rm{*}}\omega _{c,\;i,\;k}^{\mathrm{T}}\eta _c^2\mu _j^2\gamma _j^2{\omega _{c,\;i,\;k}}\varepsilon _{{j_k}}^{*,\;{\mathrm{T}}}\;-\\ & \tilde W_{{J_i}}^{l,\;{\mathrm{T}}}{{\left( {I - {\chi _c}} \right)}^{\mathrm{T}}}{\eta _c}{\mu _j}{\gamma _j}{\omega _{c,\;i,\;k}}\varepsilon _{{j_k}}^{*,\;{\mathrm{T}}} \;-\\ & \tilde W_{{J_i}}^{l,\;{\mathrm{T}}}\tilde W_{{J_i}}^l \Big] \end{split} $$ (37)

    其中, $ \varepsilon_{{j_k}}^* = {{\hat R}_{i,\;k}^l} - W_{J_i}^{l\;{\mathrm{T}}}{\omega_{c,\;i,\;k-1}} + {\gamma _J}W_J^{*\;{\mathrm{T}}}{\omega _{{c,\;k}}} $, $ {\chi _{{c}}}= {\eta _c}{\mu _j}\gamma _j^2{\omega_{c,\;i,\;k}}\omega _{c,\;i,\;k}^{\mathrm{T}} $.

    对上式进行如下变换:

    $$ \begin{split} \tilde W_{J_i}^{l\;{\mathrm{T}}}&{\left( {I - {\chi _{{c}}}} \right)^{\mathrm{T}}}\left( {I - {\chi _{{c}}}} \right)\tilde W_{J_i}^l - \tilde W_{J_i}^{l\;{\mathrm{T}}}\tilde W_{J_i}^l = \\ &\tilde W_{J_i}^{l\;{\mathrm{T}}}\left( {I - {\chi _{{c}}}} \right)\tilde W_{J_i}^l - \tilde W_{J_i}^{l\;{\mathrm{T}}}\tilde W_{J_i}^l\;- \\ & \tilde W_{J_i}^{l\;{\mathrm{T}}}{\chi _{{c}}}\left( {I - {\chi _{{c}}}} \right)\tilde W_{J_i}^l= - {\eta _c}{\mu _j}\gamma _j^2{\left\| {\tilde J_{i,\;k}^l} \right\|^2} \;- \\ &{\eta _c}{\mu _j}\gamma _j^2\left( {I - {\chi _{{c}}}} \right){\left\| {\tilde J_{i,\;k}^l} \right\|^2}\;\\[-1pt] \end{split} $$ (38)

    则$ \Delta {L_{{W_{J_i}}}} $可重写为

    $$ \begin{split}\;& \Delta {L_{{W_{{J_i}}}}} = \frac{1}{{{\eta _c}}}{\rm{tr}}\Big[ { - {\eta _c}{\mu _j}\gamma _j^2\left( {I - {\chi _c}} \right){{\left\| {\tilde J_{i,\;k}^l} \right\|}^2}} - \\ &\qquad{\eta _c}{\mu _j}\gamma _j^2{\left\| {\tilde J_{i,\;k}^l} \right\|^2}+\varepsilon _{{j_k}}^{\rm{*}}\omega _{c,\;i,\;k}^{\mathrm{T}}\eta _c^2\mu _j^2\gamma _j^2{\omega _{c,\;i,\;k}}\varepsilon _{{j_k}}^{*,\;{\mathrm{T}}}\;-\\ &\qquad \varepsilon _{{j_k}}^{\rm{*}}\omega _{c,\;i,\;k}^{\mathrm{T}}{\eta _c}{\mu _j}{\gamma _j}\left( {I - {\chi _c}} \right)\tilde W_{{J_i}}^l \;-\\ &\qquad{ \tilde W_{{J_i}}^{l,\;{\mathrm{T}}}{{\left( {I - {\chi _c}} \right)}^{\mathrm{T}}}{\eta _c}{\mu _j}{\gamma _j}{\omega _{c,\;i,\;k}}\varepsilon _{{j_k}}^{*,\;{\mathrm{T}}}} \Big]= \end{split} $$
    $$ \begin{split} & {\mu _j}{\left\| {\varepsilon _{{j_k}}^{\rm{*}}} \right\|^2} - {\mu _j}\gamma _j^2{\left\| {\tilde J_{i,\;k}^l} \right\|^2} - \\ &{\mu _j}\gamma _j^2\left( {I - {\chi _c}} \right){\left\| {\tilde J_{i,\;k}^l + \gamma _j^{ - 1}\varepsilon _{{j_k}}^{\rm{*}}} \right\|^2} \end{split} \qquad\qquad$$ (39)

    根据Cauchy-Schwarz不等式[19], $ \Delta {L_{{W_{J_i}}}} $满足:

    $$ \begin{split} &\Delta {L_{{W_{{J_i}}}}} \le - {\mu _j}\gamma _j^2{\left\| {\tilde J_{i,\;k}^l} \right\|^2} + \frac{{{\mu _j}}}{2}{\left\| {\tilde J_{i,\;k - 1}^l} \right\|^2}\;-\\ & \;\; {\mu _j}\gamma _j^2\left( {I - {\chi _c}} \right){\left\| {\tilde J_{i,\;k}^l + \gamma _j^{ - 1}\varepsilon _{c,\;k}^{\rm{*}}} \right\|^2}\;+\\ & \;\; 2{\mu _j}{\left\| {{{\hat R}_{i,\,k}^l} + {\gamma _J}W_{{J_i}}^*{\omega _{c,\,i,\,k}} - \frac{1}{2}\left( {W_{{J_i}}^l + W_{{J_i}}^*} \right){\omega _{c,\,i,\,k - 1}}} \right\|^2} \end{split} $$ (40)

    同理, 可得$ \Delta {L_{{W_{\lambda_i} }}} $满足

    $$ \begin{split} \Delta {L_{{W_{{\lambda _i}}}}} \le \;&\frac{{{\mu _\lambda }}}{2}{\left\| {\tilde \lambda _{i,\;k - 1}^l} \right\|^2} - {\mu _\lambda }\gamma _j^2{\left\| {{\Xi _{i,\;k}}} \right\|^2}{\left\| {\tilde \lambda _{i,\;k}^l} \right\|^2}\;-\\ & {\mu _\lambda }\gamma _j^2\left( {I - {\eta _c}{\mu _\lambda }\gamma _j^2{{\left\| {{\Xi _{i,\;k}}} \right\|}^2}{{\left\| {{\omega _{c,\;i,\;k}}} \right\|}^2}} \right)\;\times\\ &{\left\| {\Xi _{i,\;k}^{\mathrm{T}}\tilde \lambda _{i,\;k}^l + \gamma _j^{ - 1}\varepsilon _\lambda ^{\rm{*}}} \right\|^2}\;+\\ & 2{\mu _\lambda }\Bigg\| \frac{{\partial \hat R_{i,\;k - 1}^l}}{{\partial {X_{i,\;k - 1}}}} + {\gamma _J}{\Xi _{i,\;k}}W_{{\lambda _i}}^*{\omega _{c,\;i,\;k}} \;-\\ &\frac{1}{2}\left( {W_{{\lambda _i}}^l + W_{{\lambda _i}}^*} \right){\omega _{c,\;i,\;k - 1}} \Bigg\|^2\\[-1pt] \end{split} $$ (41)

    其中, $ \varepsilon _\lambda ^{\rm{*}} = \frac{{\partial \hat R_{i,\,k - 1}^l}}{{\partial {X_{i,\,k - 1}}}} + {\gamma _J}{\Xi _{i,\,k}}W_{{\lambda _i}}^{*\,{\mathrm{T}}}{\omega _{c,\,i,\,k}} - W_{\lambda_i} ^{l\,{\mathrm{T}}}{\omega _{c,\,i,\,k - 1}} $, $ {\chi _\lambda }={\eta _c}{\mu _\lambda }\gamma _j^2{\left\| {{\Xi _{i,\,k}}} \right\|^2}{\omega _{c,\,i,\,k}}\omega _{c,\,k}^{\mathrm{T}} $.

    对于$ {L_{J_i}} $和$ {L_{\lambda_i}} $, 可直接表示为

    $$ \Delta {L_{J_i}} = \frac{1}{2}{\mu _j}\left( {{{\left\| {\tilde J_{i,\;k}^l} \right\|}^2} - {{\left\| {\tilde J_{i,\;k - 1}^l} \right\|}^2}} \right) \;\; $$ (42)
    $$ \Delta {L_{\lambda_i}} = \frac{1}{2}{\mu _\lambda }\left( {{{\left\| {\tilde \lambda _{i,\;k}^l} \right\|}^2} - {{\left\| {\tilde \lambda _{i,\;k - 1}^l} \right\|}^2}} \right) $$ (43)

    结合上述计算式, 可得$ \Delta {L_{c,\;i}} $满足式(36).

    根据式(23), 奖励网络权值误差方程如下:

    $$ \begin{aligned} \tilde W_{r_i}^{l + 1} = \tilde W_{r_i}^l -{{\eta }_{r}}{{e}_{R,\;i,\;k}}{{\gamma }_{{{J}_{i}}}}W_{{{J}_{i}}}^{l\;{\mathrm{T}}}{\omega' _{c,\;i,\;k}}\omega_{r,\;k} \end{aligned} $$ (44)

    引理3. 奖励网络的Lyapunov函数候选为

    $$ \begin{aligned} {L_{r_i}} & = \frac{1}{{{2}{\eta _r}}}{\mathrm{tr}}\left( {\tilde W_{r_i}^{l\;{\mathrm{T}}}\tilde W_{r_i}^l} \right) \end{aligned}\nonumber $$

    Lyapunov函数$ L_{r_i} $的一阶差分满足以下不等式:

    $$ \begin{split} \Delta {L_{r_i}} \le\,& {\left\| {\tilde W_{{r_i}}^{l\,{\mathrm{T}}}{\omega _{r,\,i,\,k}}} \right\|^2} + {\left\| {W_{{J_i}}^{l\,{\mathrm{T}}}{\omega^\prime _{c,\,i,\,k}} } \right\|^2} + {\left\| {{J_{i,\,k}}{\gamma _{{J_i}}}} \right\|^2}\,-\\ & \left( {1 - {\eta _r}{{\left\| {{\omega _{r,\,i,\,k}}} \right\|}^2}} \right){\left\| {W_{{J_i}}^{l\,{\mathrm{T}}}{\omega^\prime _{c,\,i,\,k}} } \right\|^2}{\left\| {{J_{i,\,k}}{\gamma _{{J_i}}}} \right\|^2} \end{split} $$ (45)

    证明. 根据式(44), $ {L_{r_i}} $的一阶差分为

    $$ \begin{split} \Delta {L_{{r_i}}} =\;& \frac{1}{{{\eta _r}}}{\rm{tr}}\left( {\tilde W_{{r_i}}^{l + 1\;{\mathrm{T}}}\tilde W_{{r_i}}^{l + 1} - \tilde W_{{r_i}}^{l\;{\mathrm{T}}}\tilde W_{{r_i}}^l} \right)=\\ & {\rm{tr}}\Big( { - 2{J_{i,\;k}}{\gamma _{{J_i}}}W_{{J_i}}^{l\;{\mathrm{T}}}{\omega^\prime _{c,\;i,\;k}} {\omega _{r,\;i,\;k}}\tilde W_{{r_i}}^{l\;{\mathrm{T}}}}\; +\\ & {{\eta _r}{{\left\| {{\omega _{r,\;i,\;k}}} \right\|}^2}{{\left\| {W_{{J_i}}^{l\;{\mathrm{T}}}{\omega^\prime _{c,\;i,\;k}} } \right\|}^2}{{\left\| {{\gamma _J}{J_{i,\;k}}} \right\|}^2}} \Big) \end{split} $$ (46)

    对式(46)第1项进行变换可得:

    $$ \begin{split} \Delta L_{r_i} =\; &{\eta _r}{\left\| {{\omega _{r,\;i,\;k}}} \right\|^2}{\left\| {W_{{J_i}}^{l\;{\mathrm{T}}}{\omega^\prime_{c,\;i,\;k}} } \right\|^2}{\left\| {{\gamma _J}{J_{i,\;k}}} \right\|^2}\;-\\ & {\left\| {{J_{i,\;k}}{\gamma _{{J_i}}}W_{{J_i}}^{l\;{\mathrm{T}}}{\omega^\prime_{c,\;i,\;k}} } \right\|^2} - {\left\| {\tilde W_{{r_i}}^{l\;{\mathrm{T}}}{\omega _{r,\;i,\;k}}} \right\|^2}\;+\\ & {\left\| {\tilde W_{{r_i}}^{l\;{\mathrm{T}}}{\omega _{r,\;i,\;k}} - {J_{i,\;k}}{\gamma _{{J_i}}}W_{{J_i}}^{l\;{\mathrm{T}}}{\omega^\prime_{c,\;i,\;k}} } \right\|^2}=\\ & {\left\| {\tilde W_{{r_i}}^{l\;{\mathrm{T}}}{\omega _{r,\;i,\;k}} - {J_{i,\;k}}{\gamma _{{J_i}}}W_{{J_i}}^{l\;{\mathrm{T}}}{\omega^\prime_{c,\;i,\;k}} } \right\|^2} - \\ & {\left\| {\tilde W_{{r_i}}^{l\;{\mathrm{T}}}{\omega _{r,\;i,\;k}}} \right\|^2}\;-\\ & \left( {1 - {\eta _r}{{\left\| {{\omega _{r,\;i,\;k}}} \right\|}^2}} \right){\left\| {{J_{i,\;k}}{\gamma _{{J_i}}}W_{{J_i}}^{l\;{\mathrm{T}}}{\omega^\prime_{c,\;i,\;k}} } \right\|^2} \end{split} $$ (47)

    同样, 根据Cauchy-Schwarz 不等式[19]进行缩放, 可得$ \Delta L_{r_i} $满足式(45).

    根据式(25), 执行网络权值估计误差方程如下:

    $$ \begin{aligned} \tilde W_{{a_i}}^{l + 1} = \tilde W_{{a_i}}^l - {\eta _a}\hat \lambda _{i,\;k}^{l\;{\mathrm{T}}}W_{{\lambda _i}}^{l\;{\mathrm{T}}}{\omega^\prime _{c,\;i,\;}} {\omega _{a,\;i,\;k}} \end{aligned} $$ (48)

    引理4. 执行网络的Lyapunov函数候选为

    $$ \begin{aligned} {L_{a_i}} & = \frac{1}{{{\eta _{a,\;i}}}}{\mathrm{tr}}\left( {\tilde W_a^{l\;{\mathrm{T}}}\tilde W_a^l} \right) \end{aligned}\nonumber $$

    Lyapunov函数$ L_{a_i} $的一阶差分满足以下不等式:

    $$ \begin{split} \Delta {L_{a_i}} \le\;& {\left\| {\tilde \beta _{i,\;k}^l} \right\|^2} + {\left\| {W_{{\lambda _i}}^{l\;{\mathrm{T}}}{\omega ^\prime_{c,\;i,\;k}} } \right\|^2} + {\left\| {\hat \lambda _{i,\;k}^l} \right\|^2}\;-\\ & \left( {1 - {\eta _a}{{\left\| {{\omega _{a,\;i,\;k}}} \right\|}^2}} \right){\left\| {W_{{\lambda _i}}^{l\;{\mathrm{T}}}{\omega^\prime _{c,\;i,\;k}} } \right\|^2}{\left\| {\hat \lambda _{i,\;k}^l} \right\|^2} \end{split} $$ (49)

    证明. $ {L_{a_i}} $的一阶差分为

    $$ \begin{split} \Delta {L_{a_i}} =\;& \frac{1}{{{\eta _a}}}{\rm{tr}}\left( {\tilde W_{{a_i}}^{l + 1\;{\mathrm{T}}}\tilde W_{{a_i}}^{l + 1} - \tilde W_{{a_i}}^{l\;{\mathrm{T}}}\tilde W_{{a_i}}^l} \right)=\\ & {\rm{tr}}\left\{ { - 2\tilde \beta _{i,\;k}^l{{\left( {W_{{\lambda _i}}^{l\;{\mathrm{T}}}{\omega^\prime _{c,\;i,\;k}} } \right)}^{\mathrm{T}}}\hat \lambda _{i,\;k}^l} \right.+\\ & {\eta _a}{\left\| {{\omega _{a,\;i,\;k}}} \right\|^2}{\left\| {\hat \lambda _{i,\;k}^l} \right\|^2}\left. {{{\left\| {W_{{\lambda _i}}^{l\;{\mathrm{T}}}{\omega^\prime _{c,\;i,\;k}} } \right\|}^2}} \right\} \end{split} $$ (50)

    与引理3证明类似, 易得$ \Delta {L_{{a_i}}} $满足式(49).

    通过上述分析, 可以给出算法收敛性定理.

    定理1. 考虑非线性智能体$ i $的输入输出反馈线性化控制器学习过程, 动作网络、奖励网络和双评价网络分别如式(13)、(17)和(19)所定义. 各网络权值根据式(25)、(23)和(21)给出的更新规律进行更新. 如果学习参数满足以下不等式:

    $$ \begin{aligned} \left\{ \begin{aligned} &3{\lambda _{\max }} < 1,\;\frac{{\sqrt 2 }}{2} < {\gamma _{J_i}} < 1\\ &{\eta _c} < \frac{1}{{{\mu _{J_i}}\gamma _{J_i}^2{{\left\| {{\omega^m}} \right\|}^2}}},\;{\eta _r} < \frac{1}{{{{\left\| {{\omega^m}} \right\|}^2}}},\;{\eta _a} < \frac{1}{{{{\left\| {{\omega^m}} \right\|}^2}}} \end{aligned} \right. \end{aligned} $$ (51)

    则有基于输入输出数据的两阶段自适应双评价设计算法的跟踪性能误差$ {{e_{m,\;i,\;k}}} \in {{\cal{P}}_{{e_{m,\;i}}}} $和学习误差$ \tilde J_{i,\;k}^l \in {{\cal{P}}_{J_i}} $最终一致有界. 其中

    $$ \begin{split}& {{\cal{P}}_{{e_{m,\;i}}}} = \left\{ {{e_{m,\;i,\;k}} \in {{\bf{R}}^n}:\left\| {{e_{m,\;i,\;k}}} \right\| \le \sqrt {\frac{{{{\Gamma}_{{\mathrm{max}}}}}}{{1 - 3{\lambda _{\max }}}}} } \right\}\;\\& {{\cal{P}}_{J_i}} = \left\{ {J_{i,\;k}^l \in {\bf{R}}:\left\| {\tilde J_{i,\;k}^l} \right\| \le \sqrt {\frac{{{{\Gamma}_{{\mathrm{max}}}}}}{{{\mu _{j}}\left( {2\gamma _{{J_i}}^2 - 1} \right)}}} } \right\}\\[-1pt] \end{split} $$ (52)

    证明. 基于引理2 ~ 4以及不等式(34), 无模型反馈线性化算法的Lyapuno候选函数满足如下不等式:

    $$ \begin{split} \Delta {L_i} &= \Delta {L_{{e_i}}} + \Delta {L_{{c_i}}} + \Delta {L_{{r_i}}} + \Delta {L_{{a_i}}}\le\\ & - \left( {\frac{1}{3} - {\lambda _{\max }}} \right){\left\| {{e_{m,\;i,\;k}}} \right\|^2} -\\ & {\mu _j}\gamma _{{J_i}}^2\left( {I - {\chi _{{J_k}}}} \right){\left\| {\tilde J_{i,\;k}^l + \gamma _{{J_i}}^{ - 1}\varepsilon _{{j_k}}^{\rm{*}}} \right\|^2} - \\ &{\mu _J}\gamma _{{J_i}}^2{\left\| {\tilde J_{i,\;k}^l} \right\|^2}-\\ & {\mu _\lambda }\gamma _{{J_i}}^2\left( {I - {\eta _c}{\mu _\lambda }\gamma _{{J_i}}^2{{\left\| {{\Xi _{i,\;k}}} \right\|}^2}{{\left\| {{\omega _{c,\;i,\;k}}} \right\|}^2}} \right)\times\\ &{\left\| {\Xi _{i,\;k}^{\mathrm{T}}\tilde \lambda _{i,\;k}^l + \gamma _{{J_i}}^{ - 1}\varepsilon _{{\lambda _k}}^{\rm{*}}} \right\|^2} -\\ & {\mu _\lambda }\gamma _{{J_i}}^2{\left\| {{\Xi _{i,\;k}}} \right\|^2}{\left\| {\tilde \lambda _{i,\;k}^l} \right\|^2}-\\ &\left( {1 - {\eta _r}{{\left\| {{\omega _{r,\;i,\;k}}} \right\|}^2}} \right){\left\| {W_{{J_i}}^{l,\;{\mathrm{T}}}{\omega _{c,\;i,\;k}}^\prime } \right\|^2}{\left\| {{J_{i,\;k}}{\gamma _{{J_i}}}} \right\|^2} -\\ & \left( {1 - {\eta _a}{{\left\| {{\omega _{a,\;i,\;k}}} \right\|}^2}} \right){\left\| {W_{{\lambda _i}}^{l,\;{\mathrm{T}}}{\omega _{c,\;i,\;k}}^\prime } \right\|^2}{\left\| {\hat \lambda _{i,\;k}^l} \right\|^2} + {\Gamma _i} \end{split} $$ (53)

    其中, 对$ \Gamma _i $进行缩放可得:

    $$ \begin{split} {\Gamma _i} =\;& 2{\left\| {\tilde \beta _{i,\;k}^l} \right\|^2} + {\left\| {{d_{i,\;k}}} \right\|^2} + {\left\| {W_{{\lambda _i}}^{l,\;{\mathrm{T}}}{\omega _{c,\;i,\;k}}^\prime } \right\|^2} +\\ & {\left\| {\hat \lambda _{i,\;k}^l} \right\|^2} + {\left\| {\tilde W_{{r_i}}^{l,\;{\mathrm{T}}}{\omega _{r,\;i,\;k}}} \right\|^2} + {\left\| {W_{{J_i}}^{l,\;{\mathrm{T}}}{\omega _{c,\;i,\;k}}^\prime } \right\|^2}+\\ & {\left\| {{J_{i,\;k}}{\gamma _{{J_i}}}} \right\|^2} + \frac{1}{2}{\mu _j}{\left\| {\tilde J_{i,\;k}^l} \right\|^2} + 2{\mu _j}\Big\| \hat R_{i,\;k - 1}^l \;+\\ & {\gamma _{{J_i}}}W_{{J_i}}^*{\omega _{c,\;i,\;k}} - \frac{1}{2}\left( {W_{{J_i}}^l + W_{{J_i}}^*} \right){\omega _{c,\;i,\;k - 1}} \Big\|^2+\\ & \frac{1}{2}{\mu _\lambda }{\left\| {\tilde \lambda _{i,\;k}^l} \right\|^2} + 2{\mu _\lambda }\Big\| \frac{{\partial \hat R_{i,\;k - 1}^l}}{{\partial {X_{i,\;k - 1}}}} +\\ &{\gamma _{{J_i}}}{\Xi _{i,\;k}}W_{{\lambda _i}}^*{\omega _{c,\;i,\;k}} - \frac{1}{2}\left( {W_{{\lambda _i}}^l - W_{{\lambda _i}}^*} \right){\omega _{c,\;i,\;k - 1}} \Big\|^2 \end{split} $$
    $$ \begin{split} & {\left\| {\tilde W_{{r_i}}^{l\;{\mathrm{T}}}{\omega _{r,\;k}}} \right\|^2} + {\left\| {W_{{J_i}}^{l\;{\mathrm{T}}}{\omega^\prime _{c,\;k}} } \right\|^2} \;+ \\ &{\left\| {{d_{i,\;k}}} \right\|^2} + {\left\| {{J_{i,\;k}}{\gamma _{{J_i}}}} \right\|^2} \end{split} $$ (54)

    则$ {\Gamma _i} $的上界为

    $$ \begin{split} {\Gamma _{\max }} =\;& 2{\left\| {W_a^m{\omega ^m}} \right\|^2} + 2{\left\| {W_\lambda ^m{\omega ^m}} \right\|^2} + {\left\| {W_r^m{\omega ^m}} \right\|^2}\;+\\ & {\left\| {W_J^m{\omega ^m}} \right\|^2} + {\left\| {{d^m}} \right\|^2} + {\left\| {{\gamma _{J_i}}W_J^m{\omega ^m}} \right\|^2}\;+\\ & 8{\mu _\lambda }{\left\| {W_r^m{\omega ^m}} \right\|^2} \;+\\ & \frac{1}{2}{\mu _\lambda }\left( {5 + 8{{\left\| {{\gamma _J}{\Xi ^m}} \right\|}^2}} \right){\left\| {W_\lambda ^m{\omega ^m}} \right\|^2} \;+\\ & 8{\mu _j}{\left\| {W_r^m{\omega ^m}} \right\|^2} + \frac{1}{2}{\mu _j} \left( {5 + 8{{\left\| {{\gamma _{{J_i}}}} \right\|}^2}} \right) {\left\| {W_J^m{\omega ^m}} \right\|^2} \end{split} $$ (55)

    当学习参数满足式(51), 且对于任意的跟踪误差和值函数估计误差

    $$ \left\{\begin{aligned} &\left\| {{e_{m,\;i,\;k}}} \right\| > \sqrt {\frac{{{{\Gamma_{\max}}}}}{{1 - 3{\lambda _{\max }}}}}\;\\ &\left\| {\tilde J_k^l} \right\| > \sqrt {\frac{{\Gamma_{\max}}}{{{\mu _j}\left( {2\gamma _{{J_i}}^2 - 1} \right)}}} \end{aligned}\right. $$ (56)

    有$ \Delta L_i \le 0 $. 因此, 根据Lyapunov扩展定理, 可得跟踪误差和学习误差最终一致有界收敛.

    定理1及相关证明通过数学推导给出学习收敛的条件, 这些条件的满足确保了系统的收敛性. 接下来将展示两个案例实验验证所提方法在模型未知的异构非线性多智能体系统中的应用效果.

    在本节中, 通过对异构未知非线性多智能体系统的仿真算例说明同胚分布式控制协议的可开发性和有效性. 系统的网络拓扑如图3所示. 考虑由6个两轮小车横向动力学构成的多智能体系统, 智能体的动力学如下所示:

    图 3  通讯拓扑
    Fig. 3  Communication topology
    $$ \begin{split} &{f_i}({\xi _i}) = \left[ {\begin{array}{*{20}{c}} {\bar v\cos ({\psi _i})}\\ {\dfrac{{{h_i}}}{{2{m_i}}}\dot \psi \sin ({\psi _i})}\\ {\bar v\sin ({\psi _i})}\\ { - \dfrac{{{h_i}}}{{2{m_i}}}{{\dot \psi }_i}\cos ({\psi _i})}\\ {{{\dot \psi }_i}} \end{array}} \right]\; \\ &{g_i}({\xi _i}) = \left[ {\begin{array}{*{20}{c}} 0\\ 0\\ 0\\ 0\\ {\dfrac{{{m_i}}}{{{h_i}}}} \end{array}} \right],\; {h_i}({\xi _i}) = \left[ {\begin{array}{*{20}{l}} {{x_{i,\;k}}}\\ {{y_{i,\;k}}} \end{array}} \right] \end{split} $$

    其中, ${{\xi }_{i}}={{\left[ \begin{matrix} x & {\dot{x}} & y & {\dot{y}} & {\dot{\psi }} \end{matrix} \right]}^{{\mathrm{T}}} }$, $ x $, $ y $, $ \dot{x} $, $ \dot{y} $分别为小车中心沿$ x $轴和$ y $轴方向的位移和速度, $ \psi $和$ \dot{\psi } $为航向角和角速度, $ {{m}_{i}} $为车轮到小车中心距离, $ {{h}_{i}} $为万向轮到小车中心的距离, 模型参数(表1)和模型结构$ {{f}_{i}}({{\xi }_{i}}) $, $ {{g}_{i}}({{\xi }_{i}}) $在学习过程中被设定为未知. $ \bar{v} $为小车前进速度.

    表 1  异构多智能体系统参数
    Table 1  Heterogeneous multi-agent system parameters
    变量 值 (m) 变量 值 (m) 变量 值 (m)
    $ {m_1} $ 0.04 $ {m_2} $ 0.04 $ {m_3} $ 0.06
    $ {h_1} $ 0.06 $ {h_2} $ 0.04 $ {h_3} $ 0.06
    $ {m_4} $ 0.06 $ {m_5} $ 0.08 $ {m_6} $ 0.08
    $ {h_4} $ 0.04 $ {h_5} $ 0.06 $ {h_6} $ 0.04
    下载: 导出CSV 
    | 显示表格

    为了降低分布式控制难度, 将各智能体目标线性系统设定为如下同构系统:

    $$ \left\{ \begin{aligned} &{{\dot \xi }_i} = A{\xi _i} + B{v_{i,\;k}}\\ &{y_{i,\;k}} = C{\xi _i} \end{aligned} \right.,\;{\rm{ }}i = 1,\; \cdots ,\;6 $$ (57)

    其中, $ A = \left[ \begin{matrix} 0 & 1 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 1 \\ 0 & 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 0 & 1 \\ 0 & 0 & 0 & 0 & 0 \\ \end{matrix} \right]$, $ B = {{\left[ \begin{matrix} 0 \\ 0 \\ 0 \\ 0 \\ 1 \\ \end{matrix} \right]}}$, $ C = \left[ \begin{matrix} 1 & 0 \\ 0 & 0 \\ 0 & 1 \\ 0 & 0 \\ 0 & 0 \\ \end{matrix} \right]^{\mathrm{T}}$.

    在本案例中, 采用预设计的式(57)和以其作为对象设计的线性分布式控制器, 基于两阶段双启发式自适应动态规划算法优化反馈线性化控制器, 进行学习前后控制效果对比实验. 学习参数如表2所示.

    表 2  学习参数
    Table 2  Learning parameters
    参数 参数 参数
    $ {\eta _r} $ 0.05 $ {\eta _c} $ 0.02 $ {\eta _a} $ 0.01
    $ \gamma $ 0.9 $ {\mu _j} $ 0.01 $ {\mu _\lambda } $ 0.01
    $ \varepsilon_i $ 0.08 $ H $ $ [1,\; 0.2] $
    下载: 导出CSV 
    | 显示表格

    奖励网络以扩展状态−动作对$ {{X}_{i,\;k}} $作为输入, 输出奖励值$ {{R}_{i,\;k}} $. 双评价网络以$ {{X}_{i,\;k}} $和$ {{R}_{i,\;k}} $为输入, 输出值函数$ \hat{J}_{i,\;k}^{l} $和启发式函数值$ \hat{\lambda }_{i,\;k}^{l} $. 动作网络的输入为状态$ {{x}_{i,\;k}} $, 输出未知非线性项$ {{\hat{\beta }}_{i}}({{x}_{i,\;k}}) $的估计值. 网络的初始权值服从均值为0、方差为0.1的分布.

    在实验的初始阶段, 采用未训练的同胚分布式控制器对系统进行控制. 图4(a)和图4(c)显示了学习前的系统状态演化曲线. 结果表明未训练的控制器在应对异构非线性智能体系统时, 表现出较大的误差和不稳定性, 系统输出无法与期望轨迹一致. 原因在于系统的非线性动态和显著的异构性, 使得线性化控制策略无法适应所有智能体, 导致一致性控制效果不理想. 通过引入无模型反馈线性化算法, 并结合经验池和梯度下降对每个智能体的反馈线性化控制器进行训练, 系统控制性能显著提升. 学习收敛后, 系统收敛性和稳定性明显提高(图4(b)和图4(d)), 智能体输出与期望轨迹趋于一致, 跟踪误差显著减少, 验证了同胚分布式控制协议在模型未知的异构智能体系统中的有效性.

    图 4  学习前后输出和一致性误差轨迹对比
    Fig. 4  The output and consensus error trajectory comparison before and after learning

    与现有动态规划方法不同, 本文无需预设计奖励信号的超参数. 但所提双启发式自适应动态规划算法仍然能够快速使各智能体的值函数网络和奖励函数网络的权值收敛(图5图6), 体现出算法在应对非线性系统时具备较高的效率. 具体来说, 值函数网络通过奖励函数学习智能体线性化特征的长期动态行为, 逐步优化系统性能. 而奖励函数网络则动态调整奖励信号, 引导系统线性化效果.

    图 5  智能体双评价网络权值更新轨迹
    Fig. 5  Agent dual-critic network weight update trajectory
    图 6  智能体奖励网络权值更新轨迹
    Fig. 6  Agent reward network weight update trajectory

    值得注意的是, 图7中奖励函数的损失高于值函数损失, 说明直接使用原始奖励信号来驱动值函数学习可能会导致较大的波动性, 增加学习收敛的难度. 因此实验中引入的奖励值动态调整机制能够通过平滑奖励信号减少值函数网络的学习波动, 增强学习的稳定性.

    图 7  网络更新损失演化轨迹
    Fig. 7  Evolution trajectory of network update loss

    在本案例中, 为验证所提方法的可扩展性和优越性, 在反馈线性化控制器学习收敛后, 将其与预设的分布式控制器共同作用于系统. 系统在稳定运行30 s后, 仅通过调整分布式控制器$ v_{i,\;k} $, 实现编队构型的快速调整(图8). 实验结果表明, 同胚分布式控制协议能通过调整虚拟输入端的线性控制器输入适应不同的动态性能要求, 无需重新学习.

    图 8  学习收敛后输出一致性轨迹切换实验
    Fig. 8  Output consensus trajectory switching experiment after learning convergence

    所提无模型分布式控制方法与现有方法的显著区别在于, 本方法在学习收敛后, 得到的反馈线性化控制器与被控系统共同组成已知的线性化系统, 可利用线性系统理论进行控制与综合. 如果系统性能需求或环境发生改变, 也可以方便地调整线性控制输入, 而完全依赖学习的无模型分布式控制器设计方法由于状态空间发生改变, 则需要重新学习.

    本文提出一种同胚分布式控制协议, 解决了异构非线性多智能体系统的无模型输出一致性控制问题. 结合输入输出反馈线性化理论和自适应动态规划技术, 实现了无需系统模型的非线性系统线性化. 通过将异构非线性多智能体系统转为预设的同构线性系统, 简化了分布式控制器的设计, 使得线性控制理论得以应用. 动态调整的奖励值和双阶段学习机制在训练过程中不断优化控制器, 增强了学习的稳定性和收敛速度. 实验结果表明, 各智能体的轨迹在所提方法下能够快速收敛到期望输出, 验证了控制策略的适应性和二次设计能力. 未来的研究将进一步讨论方法的泛化性, 考虑存在输入时滞、饱和、受限等情况, 扩展同胚分布式控制协议的适用范围, 以应对更复杂的实际应用场景.

  • 图  1  同胚分布式控制协议结构图

    Fig.  1  Structure diagram of homeomorphic distributed control protocol

    图  2  无模型反馈线性化学习模块

    Fig.  2  Model-free feedback linearized learning modules

    图  3  通讯拓扑

    Fig.  3  Communication topology

    图  4  学习前后输出和一致性误差轨迹对比

    Fig.  4  The output and consensus error trajectory comparison before and after learning

    图  5  智能体双评价网络权值更新轨迹

    Fig.  5  Agent dual-critic network weight update trajectory

    图  6  智能体奖励网络权值更新轨迹

    Fig.  6  Agent reward network weight update trajectory

    图  7  网络更新损失演化轨迹

    Fig.  7  Evolution trajectory of network update loss

    图  8  学习收敛后输出一致性轨迹切换实验

    Fig.  8  Output consensus trajectory switching experiment after learning convergence

    表  1  异构多智能体系统参数

    Table  1  Heterogeneous multi-agent system parameters

    变量 值 (m) 变量 值 (m) 变量 值 (m)
    $ {m_1} $ 0.04 $ {m_2} $ 0.04 $ {m_3} $ 0.06
    $ {h_1} $ 0.06 $ {h_2} $ 0.04 $ {h_3} $ 0.06
    $ {m_4} $ 0.06 $ {m_5} $ 0.08 $ {m_6} $ 0.08
    $ {h_4} $ 0.04 $ {h_5} $ 0.06 $ {h_6} $ 0.04
    下载: 导出CSV

    表  2  学习参数

    Table  2  Learning parameters

    参数 参数 参数
    $ {\eta _r} $ 0.05 $ {\eta _c} $ 0.02 $ {\eta _a} $ 0.01
    $ \gamma $ 0.9 $ {\mu _j} $ 0.01 $ {\mu _\lambda } $ 0.01
    $ \varepsilon_i $ 0.08 $ H $ $ [1,\; 0.2] $
    下载: 导出CSV
  • [1] Nair R R, Behera L. Robust adaptive gain higher order sliding mode observer based control-constrained nonlinear model predictive control for spacecraft formation flying. IEEE/CAA Journal of Automatica Sinica, 2016, 5(1): 367−381
    [2] Guo X C, Wei G L, Yao M, Zhang P J. Consensus control for multiple Euler-Lagrange systems based on high-order disturbance observer: An event-triggered approach. IEEE/CAA Journal of Automatica Sinica, 2022, 9(5): 945−948 doi: 10.1109/JAS.2022.105584
    [3] Peng Z H, Wang D, Li T S, Han M. Output-feedback cooperative formation maneuvering of autonomous surface vehicles with connectivity preservation and collision avoidance. IEEE Transactions on Cybernetics, 2019, 50(6): 2527−2535
    [4] Simões D, Lau N, Reis L P. Multi-agent actor centralized-critic with communication. Neurocomputing, 2020, 390: 40−56 doi: 10.1016/j.neucom.2020.01.079
    [5] Wu J, Lou Y C. Efficient centralized traffic grid signal control based on meta-reinforcement learning. IEEE/CAA Journal of Automatica Sinica, DOI: 10.1109/JAS.2023.123270
    [6] Yan B, Shi P, Lim C C. Robust formation control for nonlinear heterogeneous multiagent systems based on adaptive event-triggered strategy. IEEE Transactions on Automation Science and Engineering, 2021, 19(4): 2788−2800
    [7] Bai C C, Yan P, Pan W, Guo J F. Learning-based multi-robot formation control with obstacle avoidance. IEEE Transactions on Intelligent Transportation Systems, 2021, 23(8): 11811−11822
    [8] Huang J Y, Zhou S Y, Tu H, Yao Y H, Liu Q S. Distributed optimization algorithm for multi-robot formation with virtual reference center. IEEE/CAA Journal of Automatica Sinica, 2022, 9(4): 732−734 doi: 10.1109/JAS.2022.105473
    [9] Ju Y M, Ding D R, He X, Han Q-L, Wei G L. Consensus control of multi-agent systems using fault-estimation-in-the-loop: Dynamic event-triggered case. IEEE/CAA Journal of Automatica Sinica, 2021, 9(8): 1440−1451
    [10] Yu X Y, Yang F, Zou C, Ou L L. Stabilization parametric region of distributed PID controllers for general first-order multi-agent systems with time delay. IEEE/CAA Journal of Automatica Sinica, 2019, 7(6): 1555−1564
    [11] Bidram A, Lewis F L, Davoudi A. Synchronization of nonlinear heterogeneous cooperative systems using input-output feedback linearization. Automatica, 2014, 50(10): 2578−2585 doi: 10.1016/j.automatica.2014.08.016
    [12] Sun Y P, Chen X, He W P, Zhang Z Y, Fukushima E F, She J. Q-learning based model-free input-output feedback linearization control method. IFAC-PapersOnLine, 2023, 56(2): 9534−9539 doi: 10.1016/j.ifacol.2023.10.253
    [13] Li K, Hua C C, You X, Guan X P. Output feedback-based consensus control for nonlinear time delay multiagent systems. Automatica, 2020, 111: Article No. 108669 doi: 10.1016/j.automatica.2019.108669
    [14] Wang D, Gao N, Liu D R, Li J N, Lewis F L. Recent progress in reinforcement learning and adaptive dynamic programming for advanced control applications. IEEE/CAA Journal of Automatica Sinica, 2024, 11 (1): 18−36
    [15] Jiang H, He H B. Data-driven distributed output consensus control for partially observable multiagent systems. IEEE Transactions on Cybernetics, 2018, 49(3): 848−858
    [16] Jiang Y, Fan J L, Gao W N, Chai T Y, Lewis F L. Cooperative adaptive optimal output regulation of nonlinear discrete-time multi-agent systems. Automatica, 2020, 121: Article No. 109149 doi: 10.1016/j.automatica.2020.109149
    [17] Lu X D, Li H T. Consensus of singular linear multiagent systems via hybrid control. IEEE Transactions on Control of Network Systems, 2022, 9(2): 647−656 doi: 10.1109/TCNS.2022.3161193
    [18] Wen G X, Chen C L P, Feng J, Zhou N. Optimized multi-agent formation control based on an identifier-actor-critic reinforcement learning algorithm. IEEE Transactions on Fuzzy Systems, 2018, 26(5): 2719−2731 doi: 10.1109/TFUZZ.2017.2787561
    [19] Bayili G, Nicaise S, Silga R. Rational energy decay rate for the wave equation with delay term on the dynamical control. Journal of Mathematical Analysis and Applications, 2021, 495 (1): Article No. 124693
  • 加载中
图(8) / 表(2)
计量
  • 文章访问数:  187
  • HTML全文浏览量:  75
  • PDF下载量:  21
  • 被引次数: 0
出版历程
  • 收稿日期:  2024-07-01
  • 录用日期:  2024-11-11
  • 网络出版日期:  2024-12-18

目录

/

返回文章
返回