-
摘要: 本文研究了卫星信号干扰下 RTK (Real-time kinematic)整周模糊度固定问题, 提出一种基于整数约束型渐进高斯滤波的 RTK 定位方法. 首先, 结合贝叶斯推理与同伦方法优势, 导出一种兼容整数、浮点状态的渐进高斯滤波框架. 其次, 构造从先验分布到后验分布的同伦路径, 以目标浮点状态与模糊度固定的迭代求解来提高信号干扰情形下的整周模糊度固定率. 特别地, 通过渐进地融合卫星双差信息来降低线性化误差, 进而提升对目标状态后验分布的逼近精度. 最后, 通过车载 RTK 实验及后处理分析, 验证了所提方法的有效性和优越性.Abstract: This paper investigates the issue of real-time kinematic (RTK) integer ambiguity resolution under satellite signal interference and proposes an RTK positioning method based on integer-constrained progressive Gaussian filtering. Firstly, by combining the advantages of Bayesian inference and homotopy methods, a progressive Gaussian filtering framework that is compatible with both integer and floating-point states is derived. Secondly, a homotopic path is constructed from the prior distribution to the posterior distribution, and the target floating-point state and ambiguity resolution is solved iteratively for improving the integer ambiguity fixed rate under signal interference conditions. Specifically, the linearization error is reduced by progressively fusing satellite double-difference information, thus enhancing the approximation accuracy of the posterior distribution of the target state. Finally, the effectiveness and superiority of the proposed method are validated through vehicle-mounted RTK experiments and post-processing analysis.
-
在刚性航天器一致性[1]和欧拉−拉格朗日系统的编队控制[2]等应用场景中, 直接测量和反馈系统的输出变量更为方便和可靠. 例如, 在多无人车编队中, 通过全球定位系统(Global positioning system, GPS)等技术直接测量每辆车的位置和速度, 比估计和控制内部状态更简单易行[3]. 因此, 输出一致性跟踪控制在多智能体系统(Multi-agent system, MAS)的工程应用中更具实用性.
线性控制方法在传统多智能体控制理论中占据重要地位[4-5], 其通过将复杂的非线性系统线性化为多个局部线性系统来简化控制问题[6-8]. 然而, 异构非线性多智能体系统的高度非线性和动态特性使得这些方法难以有效应用. 具体来说, 线性控制方法在处理大范围动态变化和强耦合非线性特性时表现出较大局限性, 例如在多机器人协同任务中, 简化模型无法准确地反映各机器人不同的动力学特性, 导致控制精度和鲁棒性下降.
非线性控制方法直接处理系统的非线性特性, 通过Lyapunov方法[9-10]、反馈线性化[11-12]等理论设计控制策略. 尽管理论上能够解决线性方法的不足, 但其应用面临诸多困难: 需要精确的系统模型、设计和实现复杂, 特别是在异构多智能体系统中, 要求各智能体之间的协调和实时响应, 增加了计算量和实现难度[13]. 此外, 非线性控制方法在处理高维度系统和外界扰动时, 稳定性和鲁棒性也受到挑战.
无模型自适应动态规划方法作为一种数据驱动的控制策略[14]逐渐受到关注, 通过与环境交互, 基于奖励机制自主学习最优策略, 无需系统模型即可实现复杂任务的控制. Jiang等[15]提出一种数据驱动的自适应动态规划方法, 使用输入和输出序列作为基础状态的等效表示, 解决了部分可观测系统状态的离散线性多智能体系统的最优输出一致性控制问题. 对于部分未知动力学的严格反馈非线性多智能体系统, 文献[16]在输出调节理论下, 提出基于实测数据结合神经网络和自适应动态规划求解最优输出反馈控制的方法. 然而, 对于异构非线性系统的无模型输出一致性控制研究仍处于起步阶段.
无模型学习控制方法也存在明显不足: 自适应动态规划方法的训练过程对参数选择和奖励设计高度敏感, 可能导致策略的鲁棒性和稳定性不佳; 可解释性差, 使得控制策略的进一步调整变得困难; 在系统跟踪时变信号时, 自适应动态规划方法本身不具备预测未来状态的能力, 这使其更适合镇定控制而非跟踪控制.
混合控制策略利用不同方法的互补特性解决异构非线性多智能体系统的一致性控制问题[17]. 结合自适应动态规划与经典控制理论, 可以在数据驱动的基础上引入稳定性分析, 提升控制策略的可靠性[18]. 然而, 混合控制策略设计和实现难度大, 需在不同方法之间找到平衡点, 确保整体系统的稳定性和性能.
上述背景下, 本工作结合输入输出反馈线性化理论和自适应动态规划, 从简化分布式控制器设计、增加控制器可解释性、降低学习对奖励设计的敏感度的角度出发, 开发了异构非线性多智能体系统的无模型输出一致性控制方法. 具体来说, 通过构建一个同胚分布式两层控制结构, 将异构非线性多智能体系统的无模型输出一致性控制问题转化为两个问题进行求解: 在物理空间层中利用观测数据, 提出能够动态调整奖励信号的两阶段双启发式自适应动态规划方法实现非线性系统的无模型输入输出反馈线性化; 在同胚线性化空间层中, 基于线性化系统设计一致性分布式控制器, 实现被控多智能体系统的输出一致性控制. 本文的主要创新点和贡献如下:
1)现有分布式控制方法在处理异构多智能体输出一致性控制时[15-16], 因模型未知和非线性动态的影响, 会造成黎卡提方程或贝尔曼方程求解困难的问题. 为此, 本文提出一种基于无模型反馈线性化的同胚分布式控制协议, 不依赖精确模型的情况下实现输出一致性控制. 不同于传统无模型分布式控制方法, 分层分布式控制协议包含两层控制策略, 在物理空间层通过构建自适应动态规划算法求解无模型反馈线性化控制器, 将未知非线性多智能体系统转化为已知的线性系统. 结合同胚空间层的一致性控制协议, 该线性化系统可以根据协同任务的性能需求进行预设计或二次设计, 当控制任务发生改变时无需重新学习, 从而降低一致性策略设计难度.
2)解决物理空间层中反馈线性化控制器对精确模型的依赖问题是分层分布式方法实施的关键, 本文设计一种基于两阶段迭代学习的无模型自适应动态规划算法. 算法在值函数学习过程中引入目标依赖, 可以动态调整奖励信号以适应异构的智能体, 无需设计不同奖励信号, 同时通过一个双启发式评价网络实现线性化控制策略快速更新.
1. 图论和问题描述
本节首先详细描述图论的相关概念, 然后针对异构非线性多智能体输出一致性问题, 分析其求解难度和存在问题.
1.1 图论
存在一个有向图$ {\cal{G}}({\cal{K}},\;\Gamma ,\;{\cal{A}}) $包含领导者和$ N $个跟随者节点, 其中$ {\cal{K}} = \left\{ {{\kappa _1},\;{\kappa _2},\; \cdots ,\;{\kappa _N}} \right\} $是一个非空有限节点集, 表示有向边集; $ {\cal{A}} = \left[ {{a_{ij}}} \right] \in {{\bf{R}} ^{N \times N}} $是一个相关的邻接矩阵, $ {a_{ij}} = 1 $表示节点$ j $到$ i $之间存在一个有向边, 满足$ ({\kappa _j},\;{\kappa _i}) \in \Gamma $, $ \Gamma \subseteq {\cal{K}} \times {\cal{K}} $, 否则, $a_{{ij}} =0$. 设增益${{b}_{i}}\ge 0$, 只有与领导节点直接相连的节点才不为零, ${\cal{B}} = {\mathrm{diag}}\left\{ \sum{{{b}_{i}}} \right\}$. 令与节点${{\kappa }_{i}}$存在有向图相连的邻居集合为${{\aleph }_{i}} = \{ {{\kappa }_{j}}:({{\kappa }_{j}},\;{{\kappa }_{i}})\in \Gamma \}$, 进一步定义一个入度矩阵为${\cal{D}} = {\mathrm{diag}}\{ \sum\nolimits_{j\in {{\aleph }_{i}}} {{{a}_{ij}}} \}$, $i = 1,\;2,\;\cdots ,\;N$, 则有向图$ {\cal{G}} $的Laplacian矩阵表示为$ {\cal{L}} = {\cal{D}}-{\cal{A}} $.
1.2 问题描述
考虑$ N $个异构仿射非线性多智能体系统, 智能体分布在有向图$ {\cal{G}} $上, 系统动力学模型可描述为
$$ \begin{cases} {x}_{i,\;k+1} = f_i(x_{i,\;k}) + g_i(x_{i,\;k})u_{i,\;k} \\ y_{i,\;k} = h_i(x_{i,\;k}) \end{cases} \quad $$ (1) 其中, $ i \in {\cal{N}} $, $ {\cal{N}} = 1,\;2,\;\cdots,\;N $, $ {{x}_{i,\;k}}\in {{{\bf{R}} }^{n}} $为状态向量, $ {{u}_{i}}\in {{\bf{R} }^{{{m}}}} $表示控制策略. 光滑向量场$ {{f}_{i}}({{x}_{i,\;k}})\in {{\bf{R}}^{n}} $和$ {{g}_{i}}({{x}_{i,\;k}})\in {{\bf{R} }^{n\times m}} $表示未知的系统动力学漂移阵和输入阵, ${{h}_{i}}({{x}_{i,\;k}})\in {{\bf{R}}} $为输出矩阵, 均满足在$ {{\bf{R}}^{n}} $上Lipschitz连续且有界, $ f_i(0) = 0 $.
假设1. 智能体的相对阶$ \rho_i = n $.
假设2. 对于$ \forall i \in {\cal{N}} $, 总存在一个$ j \in {\cal{N}} $且$ j \ne i $, 使得$ {f_i}({x_{i,\;k}}) \ne {f_j}({x_{i,\;k}}) $; 总存在一个$ k \in {\cal{N}} $且$ k \ne i $, 使得$ {g_i}({x_{i,\;k}}) \ne {g_k}({x_{i,\;k}}) $.
在跟踪同步问题中, 需要设计分布式控制输入$ {{u}_{i,\;k}} $, 使所有节点的输出与领导节点$ {{y}_{r}} $的输出同步. 领导节点可以是一个期望轨迹生成器, 也可以是智能决策的结果, 或者人工示教的轨迹, 它代表所需的期望轨迹. 领导者的动力学模型为
$$ \begin{cases} {x}_{r,\;k+1} = f_r(x_{r,\;k}) \\ y_{r,\;k} = h_r(x_{r,\;k}) \end{cases} \quad $$ (2) 其中, $ {{x}_{r,\;k}}\in {{\bf{R} }^{n}} $. 函数$ {{f}_{r}}(\cdot ) $和$ {{h}_{r}}(\cdot ) $假设为$C_\infty $类. 输出$ {{y}_{r,\;k}} $是跟踪领导者输出所需的期望性能输出. 假设所有的智能体状态都是可测量的, 或者在系统对于输出满足能观性时, 也可以添加观察器.
为了解决智能体(1)和期望轨迹(2)的输出一致性跟踪问题, 智能体与期望轨迹的跟踪误差为$ {{e}_{p,\;i,\;k}} = {{y}_{i,\;k}}-{{y}_{r,\;k}} $, 多智能体协同局部邻域跟踪误差可表示为
$$ {\cal{E}}_{i,\;k} = \sum\limits_{j \in {\cal{N}}_i} a_{ij} (y_{i,\;k} - y_{j,\;k}) + b_i e_{p,\;i,\;k} \quad $$ (3) 假设3. 有向图$ {\cal{G}} $存在一个生成树结构, 且至少有一个根节点的增益$ {{b}_{i}} $是非零的, 意味着至少有一个智能体直接与领导者通讯.
由式(3)可知, 有向图$ {\cal{G}} $的全局邻域误差向量为
$$ E = \left[ ({\cal{L}} + {\cal{B}}) \otimes I_\rho \right] (Y - Y_r) \equiv \left[ ({\cal{L}} + {\cal{B}}) \otimes I_\rho \right] \delta \quad $$ (4) 其中, $ Y = {{\left[ {{y}_{1,\;k}},\;{{y}_{2,\;k}},\;\cdots ,\;{{y}_{N,\;k}} \right]}^{{\mathrm{T}}}}\in {{\bf{R} }^{N}} $表示系统全局输出向量, $ {{Y}_{r}} = {{1}_{N}}\otimes {{y}_{r}} $, $ {{1}_{N}} $表示元素全为1的$ N $维向量, $ \otimes $表示Kronecker积, $ E = [ {{{\cal{E}}}_{1}},\;{{{\cal{E}}}_{2}},\;\cdots ,\; {{{\cal{E}}}_{N}} ]^{{\mathrm{T}}}\in {{\bf{R} }^{N}} $. $ \delta $为全局跟踪误差向量, 由于其是一个全局向量, 无法在每个节点局部计算.
为了实现完全分布式的控制结构, 本文利用式(3)中的局部邻域跟踪误差来解决输出同步问题. 由式(1)和式(3)联例可得智能体$ i $的局部跟踪误差动力学:
$$ \begin{split} {{\cal{E}}_{i,\;k + 1}}=\; & \mathop \sum \limits_{j \in {{\cal{N}}_i}} {\mkern 1mu} {\kern 1pt} {a_{ij}}{h_i}\left[ {{f_i}({x_{i,\;k}}) + {g_i}({x_{i,\;k}}){u_{i,\;k}}} \right]-\\ & \mathop \sum \limits_{j \in {{\cal{N}}_i}} {\mkern 1mu} {\kern 1pt} {a_{ij}}{h_j}\left[ {{f_j}({x_{j,\;k}}) + {g_j}({x_{j,\;k}}){u_{j,\;k}}} \right]+\\ & {b_i}\{ {h_i}\left[ {{f_i}({x_{i,\;k}}) + {g_i}({x_{i,\;k}}){u_{i,\;k}}} \right] -\\ &{h_r}\left[ {{f_r}({x_{r,\;k}})} \right] \} \end{split} $$ (5) 对于包含复杂非线性部分的误差动力学(5), 传统控制理论在解决输出一致性控制问题时, 常受到黎卡提方程难以求解的困扰, 尤其是在系统的非线性动态未知且异构的情况下, 输出一致性控制器求解极其复杂.
输入输出反馈线性化技术能够通过微分同胚映射将非线性系统的输出$ {{y}_{i,\;k}} $与输入$ {{u}_{i,\;k}} $之间的动态关系转化为线性关系, 从而实现非线性系统的严格线性化. 基于模型的反馈线性化控制器求解形式如下所示:
$$ \begin{split} {u_{i,\;k}} =\;& \frac{{ - L_{{f_i}}^\rho {h_i}({x_{i,\;k}})}}{{{L_{{g_i}}}L_{{f_i}}^{\rho - 1}{h_i}({x_{i,\;k}})}} + \frac{{{v_{i,\;k}}}}{{{L_{{g_i}}}L_{{f_i}}^{\rho - 1}{h_i}({x_{i,\;k}})}}=\\ & {\beta _i}({x_{i,\;k}}) + {\alpha _i}({x_{i,\;k}}){v_{i,\;k}} \end{split} $$ (6) 其中, $ L $为李导数运算符, $ {u_{i,\;k}} $为实际控制输入, $ {v_{i,\;k}} $是一个虚拟输入, 在本文中作为分布式控制的输入端. 经过严格反馈线性化, 可消除系统非线性项并得到:
$$ \begin{aligned} y_{i,\;k}^{(\rho )} = {v_{i,\;k}} \end{aligned} $$ (7) 此时, 非线性多智能体通过微分同胚映射$ \Phi ({{x}_{i,\;k}}) $投影到同胚线性空间中的动力学方程为
$$ \left\{\begin{split} &{\xi _{i,\;k + 1}} = A{\xi _{i,\;k}} + B{v_{i,\;k}}\\& {y_{i,\;k}} = C{\xi _{i,\;k}} \end{split}\right. $$ (8) 其中, $ A = \left[ {\begin{array}{*{20}{c}} {{0_{(n{\rm{ - }}1) \times 1}}}&{{I_{n{\rm{ - }}1}}}\\ 0&{{0_{1 \times (n{\rm{ - }}1)}}} \end{array}} \right] $, $ B = \left[ {\begin{array}{*{20}{c}} {{0_{(n{\rm{ - }}1) \times 1}}}\\ I \end{array}} \right] $, $ C = \left[ {\begin{array}{*{20}{c}} I&{{0_{1 \times (n{\rm{ - }}1)}}} \end{array}} \right] $. 由此, 每个智能体均被映射为系统结构已知的线性化系统.
然而, 在原系统模型未知的情况下, $ {\alpha _i}({x_{i,\;k}}) $和$ {\beta _i}({x_{i,\;k}}) $的精确求解变得极为困难, 不严格的反馈线性化将影响分布式控制器的执行效果. 本文提出的控制策略核心在于无模型自适应动态规划方法, 在不依赖精确模型的前提下, 实现非线性多智能体系统的精确线性化, 使每个智能体的动力学行为近似为同一期望的线性系统动力学, 进而能够利用传统的线性控制理论设计分布式控制器, 实现全局系统的输出一致性.
2. 同胚分布式控制协议
为解决模型未知的输出一致性控制问题, 本文提出一种同胚分布式控制协议(如图1). 通过无模型自适应动态规划实现输入输出反馈线性化, 将异构非线性多智能体系统转化为同构线性系统, 从而简化分布式控制器的设计. 在物理空间中, 利用自适应动态规划方法设计输入输出反馈线性化控制器, 将智能体的闭环动态通过微分同胚映射为期望的线性系统, 实现与之一致的输出响应; 在同胚空间中, 以期望线性系统为基础设计分布式一致性控制器. 通过物理空间的线性化处理和同胚空间的协同作用, 将控制性能优化与分布式决策设计相结合, 以实现异构非线性智能体的输出一致性控制.
2.1 无模型输入输出反馈线性化
为近似求解未知的反馈线性化控制器(6), 首先需设计评价指标引导反馈线性化控制器学习. 考虑到系统输入输出未完成线性化前, 结合式(7), 存在如下微分状态误差:
$$ {\bar e_{i,\;k}} = {v_{i,\;k}} - y_{i,\;k}^{(\rho )} $$ (9) 自适应动态规划的目标是调整控制器使得$ {\bar e_{i,\;k}} $最小, 此时系统将被反馈线性化. 为得到$ y_{i,\;k}^{(\rho )} $, 采用式(8)作为期望转化的目标线性系统, 构造龙伯格状态观测器用以重构被控对象线性化状态:
$$ \left\{\begin{split} &{{{{\hat \xi}}}_{i,\;k+1}} = A{{{\hat \xi}}_{i,\;k}}+B{{v}_{i,\;k}} +H({{{{y}}}_{i,\;k}} - {{{\hat{y}}}_{i,\;k}})\\& {{{\hat{y}}}_{i,\;k}} = C{{{\hat \xi}}_{i,\;k}}\; \end{split}\right. $$ (10) 其中, $ {{v}_{i,\;k}} $为分布式控制输入, $ H $为滤波增益. 观测误差动力学可以表示为
$$ \begin{split} {{{e}}_{m,\;i,\;k+1}} = \; &\frac{\partial \Phi ({{x}_{i,\;k}})}{\partial {{x}_{i,\;k}}}\{ {{f}_{i}}({{x}_{i,\;k}})+{{g}_{i}}({{x}_{i,\;k}})[ {{\beta }_{i}}({{x}_{i,\;k}})\;+\\ &{{\alpha }_{i}}({{x}_{i,\;k}}){{v}_{i,\;k}} ] \} -A{\hat\xi_{i,\;k} } -B{{v}_{i,\;k}}\;-\\ &H\left( {{y}_{i,\;k}}-{{{\hat{y}}}_{i,\;k}} \right) \\[-1pt]\end{split} $$ (11) 注1. 在智能体完成线性化之前, 由于被控智能体与目标线性系统异构, 状态误差$ \bar e_{i,\;k} $无法渐近收敛. 仅当满足$ {\alpha _i}({x_{i,\;k}}) = { {1 \over {{L_{{g_i}}}L_{{f_i}}^{\rho - 1}{h_i}({x_{i,\;k}})}}} $和$ {\beta _i}({x_{i,\;k}}) = { {- L_{{f_i}}^\rho {h_i}({x_{i,\;k}}) \over {{L_{{g_i}}}L_{{f_i}}^{\rho - 1}{h_i}({x_{i,\;k}})}}} $时, $ \lim_{t \to \infty} \bar e_{i,\;k} = 0 $, 被控系统线性化为目标线性系统(8).
考虑$ {{\alpha }_{i}}(\cdot) $和$ {{\beta }_{i}}(\cdot) $的两组李导数是关于$ {{x}_{i,\;k}} $的多项式, 因此利用$ {{x}_{i,\;k}} $各个元素及相关表达式作为基向量, 设计两组多项式近似未知的反馈线性化控制器$ {{u}_{i}} = {{\beta }_{i}}({{x}_{i,\;k}})+{{\alpha }_{i}}({{x}_{i,\;k}}){{v}_{i}} $, 有
$$ {{\hat{\alpha }}_{i}}({{x}_{i,\;k}}) = W_{{{\alpha }_{i}}}^{{\mathrm{T}}}\omega ({{x}_{i,\;k}})\; $$ (12) $$ {{\hat{\beta }}_{i}}({{x}_{i,\;k}}) = W_{{{\beta }_{i}}}^{{\mathrm{T}}}\omega ({{x}_{i,\;k}})$$ (13) 其中, $ W_{{{\alpha }_{i,\;k}}}^{{\mathrm{T}}} $, $ W_{{{\beta }_{i,\;k}}}^{{\mathrm{T}}} $为多项式权值, $ \omega (\cdot ) $是由$ {{x}_{i,\;k}} $及其多项式组合构成的基向量. 接下来, 通过数据驱动的自适应动态规划算法, 学习得到$ {{\alpha }_{i}}(\cdot) $和$ {{\beta }_{i}}(\cdot) $的最优近似.
由于$ {{\alpha }_{i}}({{x}_{i,\;k}}) $和$ {{\beta }_{i}}({{x}_{i,\;k}}) $作用于同一控制通道, 一个网络的变化会影响另一个网络的学习空间. 这使得$ {{\alpha }_{i}}({{x}_{i,\;k}}) $和$ {{\beta }_{i}}({{x}_{i,\;k}}) $的学习均处于非平稳空间, 贝尔曼方程求解将是一个非凸优化问题, 容易使学习陷入局部最优.
为避免非线性项耦合, 利用历史采样输入输出数据, 结合极限差分方法重构$ {{\alpha }_{i}}(\cdot ) $观测值的倒数:
$$ {{L}_{{{g}_{i}}}}L_{{{f}_{i}}}^{\rho -1}{{h}_{i}}({{x}_{i,\;k}})\text{ = }\frac{1}{{{\alpha }_{i}}({{x}_{i,\;k}})}\text{ = }\frac{\partial {{y}_{i,\;k}}(\rho )}{\partial {{u}_{i,\;k}}} $$ (14) 采用监督学习训练网络(12)得到$ {{\hat{\alpha }}_{i}}({{x}_{i,\;k}}) = {{\alpha }_{i}}({{x}_{i,\;k}})+{{d}_{i,\; \alpha}} $, 可将式(11)表示为
$$ \left\{ \begin{aligned} {{{{e}}}_{m,\;i,\;k+1}}(1) & = {{e}_{m,\;i,\;k}}(2)-{{H}_{1}}\left( {{y}_{i,\;k}}-{{{\hat{y}}}_{i,\;k}} \right) \\ {{{{e}}}_{m,\;i,\;k+1}}(2) & = {{e}_{m,\;i,\;k}}(3)-{{H}_{2}}\left( {{y}_{i,\;k}}-{{{\hat{y}}}_{i,\;k}} \right) \\ & \qquad\qquad \vdots \\ {{{{e}}}_{m,\;i,\;k+1}}(\rho ) & = {\beta _i}({x_{i,\;k}}) + {\hat \beta _i}({x_{i,\;k}})\;-\\ &\;\;\;\;{{H}_{\rho }}\left( {{y}_{i,\;k}}-{{{\hat{y}}}_{i,\;k}} \right)+ {{\sigma }_{i,\;k}} \end{aligned} \right. $$ (15) 其中, $ {{\sigma }_{i,\;k}} = {{d}_{i,\; \beta}} + {{d}_{i,\;\alpha}}{{v}_{i,\;k}} $, $ {d_{i,\,\beta }} = {\hat \beta _i}({x_{i,\,k}}) - {\beta _i}({x_{i,\,k}}) $. 理论上多项式可以无限逼近一条光滑曲线, 因此$ {{\sigma }_{i,\;k}} $ 满足$ \| {{\sigma }_{i,\;k}} \|\le d^m<{{\varepsilon }_{d}} $ 和$ \| {{\sigma}_{i,\;k}}-{{\sigma}_{i,\;k-1}} \|\le \Delta \sigma^m $, $ \sigma^m,\;\Delta \sigma^m\in {{{\bf{R}}}^{+}} $是未知的, $ {{\varepsilon }_{d}} $ 为极小值. 基于此, 分布式反馈线性化控制器学习问题转为一个模型参考跟踪控制问题, 通过状态误差$ {{\bar e}_{i,\;k}} $作为强化信号优化网络$ {{\hat{\beta }}_{i}}(\cdot ) $的输出以消除非线性动态, 使得观测误差动力学(15)能够快速收敛, 同时完成系统线性化.
值得注意的是, 传统的启发式动态规划在求解最优跟踪策略时通常需要考虑误差−动作对信息. 反馈线性化控制器通过消除系统的非线性特征, 使得线性控制器能够得到更好的控制效果, 间接影响跟踪误差, 而非直接通过误差反馈减小跟踪误差. 因此, 在反馈线性化控制器的无模型学习中, 执行网络和值函数不应与误差相关. 为了有效引导优化方向, 避免陷入局部最优, 需将反馈线性化的程度指标作为系统长期目标融入值函数的优化过程. 但是由于模型信息缺失, 难以预先设计一个奖励信号来正确引导反馈线性化的学习.
为此, 本文定义反馈线性化奖励作为各智能体线性化程度的指标:
$$ \begin{aligned} {C_{i,\;k}} = \left\{ {\begin{aligned} &{0,\;}&&{{{\left\| {{{\bar e}_{i,\;k}}} \right\|}_1} + {{\left\| {{{\bar e}_{i,\;k}} - {{\bar e}_{i,\;k - 1}}} \right\|}_1} < {\varepsilon _i}}\\ &{1,\;}&&{{{\left\| {{{\bar e}_{i,\;k}}} \right\|}_1} + {{\left\| {{{\bar e}_{i,\;k}} - {{\bar e}_{i,\;k - 1}}} \right\|}_1} \ge {\varepsilon _i}} \end{aligned}} \right.\; \end{aligned}$$ (16) 同时为正确引导学习方向, 设计奖励网络$ {{R}_{i,\;k}} $
$$ \hat{R}_{i,\;k}^{l} = W_{{{r}_{i}}}^{l\;{\mathrm{T}}}\omega ({{X}_{i,\;k}}) $$ (17) 该网络用于在学习过程中动态调整奖励值, 无需针对不同异构智能体分别设计奖励信号.
为了同时调整奖励信号和求解反馈线性化控制器, 设计了双启发式评价网络同时逼近最优值函数和一个启发函数. 其中, 启发式函数用于快速估计值函数梯度方向和大小, 优化控制策略. 本文在奖励网络、评价网络与执行网络之间构建两阶段双启发式自适应动态规划问题, 通过两阶段循环迭代, 实现对高维奖励信息、值函数、启发函数和最优策略的同步逼近. 如图2所示, 两阶段双启发式自适应动态规划方法的每轮迭代包括两个阶段: 在奖励评估阶段, 根据反馈线性化奖励, 迭代优化奖励网络和双评价网络; 在动作评估阶段, 通过上一阶段得到的启发网络直接估计值函数梯度. 进而快速更新动作网络, 实现控制器的性能提升. 具体实现如下所述.
首先, 给出累计折扣奖励值函数的表达式:
$$ {{J}_{i,\;k}} = \sum\limits_{\delta = 0}^{\infty }{\gamma _{{{J}_{i}}}^{\delta }{{C}_{i,\;k+\delta }}} $$ (18) 其中, $ {{\gamma }_{{{J}_{i}}}}\in \left( 0,\;1 \right) $是一个折扣因子. 定义一个双启发式评价网络结构同时近似最优值函数$ J_{i}^{*}(\cdot ) $和一个最优启发函数$ \lambda _{i}^{*}(\cdot ) $:
$$ \left[ \begin{matrix} \hat{J}_{i,\;k}^{l} \\ \hat{\lambda }_{i,\;k}^{l} \\ \end{matrix} \right] = \left[ \begin{matrix} W_{{{J}_{i}}}^{l\;{\mathrm{T}}} \\ W_{{{\lambda }_{i}}}^{l\;{\mathrm{T}}} \\ \end{matrix} \right]\omega \left( {{X}_{i,\;k}},\;R_{i,\;k}^{l} \right) $$ (19) 其中, $ \hat{J}_{i,\;k}^{l} $和$ \hat{\lambda }_{i,\;k}^{l} $分别表示在 $ l $次迭代后对$ {{J}_{i,\;k}} $和$ {{\lambda }_{i,\;k}} $的估计值. $ {{\lambda }_{i,\;k}} $是值函数$ {{J}_{i,\;k}} $关于$ {{X}_{i,\;k}} $的各元素偏导组成的向量.
学习过程中, 采用异策略学习方式, 利用$ k $和$ k-1 $的数据更新网络权值. 根据贝尔曼原理, 定义$ {{e}_{c,\;i,\;k}} $为双评价网络的估计误差:
$$ {{e}_{c,\;i,\;k}} = {{\mu }_{j}}\frac{e_{J,\;i,\;k}^{2}}{2}+{{\mu }_{\lambda }}\frac{e_{\lambda ,\;i,\;k}^{2}}{2} $$ (20) 其中, $ {{e}_{J,\;i,\;k}} = {{\hat{R}}_{i,\;k-1}}+{{\gamma }_{{{J}_{i}}}}{{\hat{J}}_{i,\;k}}-{{\hat{J}}_{i,\;k-1}} $; $ {{e}_{\lambda ,\;i,\;k}} = \frac{{{{\hat{R}}}_{i,\;k-1}}}{{{X}_{i,\;k-1}}}+{{\gamma }_{{{J}_{i}}}}{{\hat{\lambda }}_{i,\;k}}{{\Xi }_{i,\;k}}-{{\hat{\lambda }}_{i,\;k-1}} $, 其中$ {{\mu }_{j}}\in \left( \left. 0,\;1 \right] \right. $和$ {{\mu }_{\lambda }}\in \left( \left. 0,\;1 \right] \right. $为学习步长; $ {{\Xi }_{i,\;k}} = \frac{\partial {{X}_{i,\;k}}}{\partial {{X}_{i,\;k-1}}}\; $为增广状态的雅克比矩阵. 根据梯度下降原则, 双评价网络通过如下更新规则进行更新:
$$ \begin{split} &{\begin{bmatrix} W_{{{J}_{i}}}^{l+1} \\ W_{{{\lambda }_{i}}}^{l+1} \end{bmatrix}}^{{\mathrm{T}}} = {\begin{bmatrix} W_{J_i}^{l} \\ W_{\lambda_i }^{l} \end{bmatrix}}^{{\mathrm{T}}} - \\&\qquad{{\eta }_{c}} {\begin{bmatrix} {{\mu }_{j}}\dfrac{\partial {{e}_{J,\;i,\;k}}}{\partial \hat{J}_{i,\;k}^{l}}\dfrac{\partial \hat{J}_{i,\;k}^{l}}{\partial W_{J}^{l}}{{e}_{J,\;i,\;k}} \\ {{\mu }_{\lambda }}\dfrac{\partial {{e}_{\lambda ,\;i,\;k}}}{\partial \hat{\lambda }_{i,\;k}^{l}}\dfrac{\partial \hat{\lambda }_{i,\;k}^{l}}{\partial W_{\lambda }^{l}}{{e}_{\lambda ,\;i,\;k}} \end{bmatrix}}^{{\mathrm{T}}} = {\begin{bmatrix} W_{J_i}^{l} \\ W_{\lambda_i }^{l} \end{bmatrix}}^{{\mathrm{T}}} - \\ &\qquad{{\eta }_{c}} {\begin{bmatrix} {{\mu }_{j}}{{\gamma }_{{{J}_{i}}}}\omega \left( {{X}_{i,\;k}},\;R_{i,\;k}^{l} \right){{e}_{J,\;i,\;k}} \\ {{\mu }_{\lambda }}{{\gamma }_{{{J}_{i}}}}\omega \left( {{X}_{i,\;k}},\;R_{i,\;k}^{l} \right){{\left( {{\Xi }_{i,\;k}}{{e}_{\lambda ,\;i,\;k}} \right)}^{{\mathrm{T}}} } \end{bmatrix}}^{{\mathrm{T}}} \end{split} $$ (21) 其中, $ {{\eta }_{c}} $是评价网络的权值更新步长.
定义$ {{e}_{R,\;i,\;k}} $为奖励网络估计误差:
$$ {{e}_{R,\;i,\;k}} = {{C}_{i,\;k-1}}-\hat{R}_{i,\;k}^{l} = {{C}_{i,\;k-1}}-\left( \hat{J}_{i,\;k-1}^{l}-{{\gamma }_{{{J}_{i}}}}\hat{J}_{i,\;k}^{l} \right) $$ (22) 奖励网络通过如下更新规则进行更新,
$$ \begin{split} &W_{{{r}_{i}}}^{l+1}= W_{{{r}_{i}}}^{l}-{{\eta }_{r}}\frac{\partial {{e}_{R,\;i,\;k}}}{\partial \hat{J}_{i,\;k}^{l}}\frac{\partial \hat{J}_{i,\;k}^{l}}{\partial \hat{R}_{i,\;k}^{l}}\frac{\partial \hat{R}_{i,\;k}^{l}}{\partial W_{{{r}_{i}}}^{l}}{{e}_{R,\;i,\;k}} =\\ &\;\;\;\; W_{{{r}_{i}}}^{l}-{{\eta }_{r}}{{e}_{R,\;i,\;k}}{{\gamma }_{{{J}_{i}}}}W_{{{J}_{i}}}^{l\;{\mathrm{T}}}{\omega }'\left( {{X}_{i,\;k}},\;R_{i,\;k}^{l} \right)\omega \left( {{X}_{i,\;k}} \right) \end{split} $$ (23) 其中, $ {{\eta }_{r}} $是奖励网络的权值更新步长.
基于启发网络, 动作网络的误差函数可定义为
$$ {{e}_{\beta ,\;i,\;k}} = \hat{\lambda }_{i,\;k}^{l} $$ (24) 动作网络通过最小化误差函数$ {{e}_{\beta ,\;i,\;k}} $求解最优动作, 更新规则如下:
$$ \begin{split} &W_{{{\beta }_{i}}}^{(l+1)\;{\mathrm{T}}} = W_{{{\beta }_{i}}}^{l\;{\mathrm{T}}}-{{\eta }_{a}}\frac{\partial {{e}_{\beta ,\;i,\;k}}}{\partial {{X}_{i,\;k}}}\frac{\partial {{X}_{i,\;k}}}{\partial \hat{\beta }_{i,\;k}^{l}}\frac{\partial \hat{\beta }_{i,\;k}^{l}}{\partial W_{{{\beta }_{i}}}^{l\;{\mathrm{T}}}}\hat{\lambda }_{i,\;k}^{l}= \\ &\;\;\;\;\;\;\;\;\;\; W_{{{\beta }_{i}}}^{l\;{\mathrm{T}}}-{{\eta }_{a}}{{{\hat{\lambda }}}^{l\;{\mathrm{T}}}}({{\xi }_{k}})W_{{{\lambda }_{i}}}^{l\;{\mathrm{T}}}{\omega }'\left( {{X}_{i,\;k}},\;R_{i,\;k}^{l} \right)\omega \left( {{x}_{i,\;k}} \right) \end{split} $$ (25) 其中, $ {{\eta }_{a}} $是执行网络的权值更新步长.
2.2 线性化系统分布式控制
在同胚空间中, 通过无模型反馈线性化, 非线性多智能体输入输出关系在控制器(6)的作用下由非线性动力学(1)映射为同胚空间中的能控标准型系统, 由此可将虚拟领导者设计为更简单的线性形式:
$$ \left\{ \begin{aligned} & {{{{\xi }}}_{r,\;k}} = A{{\xi }_{r,\;k}}+BK{{\xi }_{r,\;k}} \\ & {{y}_{r,\;k}} = C{{\xi }_{r,\;k}} \end{aligned} \right. $$ (26) 其中, $K $为反馈控制增益, 局部邻域输出跟踪误差可由一个虚拟局部邻域状态跟踪误差等效:
$$ {{{\cal{E}}}_{i,\;k}} = \mathop \sum \limits_{j \in {N_i}} {{a}_{ij}}({{\xi }_{i,\;k}}-{{\xi }_{j,\;k}})+{{b}_{i}}{{e}_{p,\;i,\;k}} $$ (27) 其中, $ {{e}_{p,\;i,\;k}} = {{\xi }_{i,\;k}}-{{\xi }_{r,\;k}} $.
令$ \xi = \left[ {{\xi }_{1}},\;{{\xi }_{2}},\;\cdots ,\;{{\xi }_{N}} \right] $, 则全局动力学方程为
$$ \left\{ \begin{aligned} & {\xi_k } = \left( {{I}_{N}}\otimes A \right)\xi +\left( {{I}_{N}}\otimes B \right)v \\ & y = \left( {{I}_{N}}\otimes C \right){{\xi }_{r}} \end{aligned} \right. $$ (28) 定义$ Q = {Q^{\mathrm{T}}} $和$ R = {R^{\mathrm{T}}} $为正定矩阵. 令反馈控制增益为
$$ \begin{aligned} K = {R^{ - 1}}{B^{\mathrm{T}}}{\cal{P}} \end{aligned} $$ (29) 其中, $ {\cal{P}} $是代数黎卡提方程的唯一正定解:
$$ \begin{aligned} {A^{\mathrm{T}}}{\cal{P}} + {\cal{P}}A + Q - {\cal{P}}B{R^{ - 1}}{B^{\mathrm{T}}}{\cal{P}} = 0 \end{aligned} $$ (30) 令$ {\zeta _i}\,\;\left( {i \in {\cal{N}}} \right) $为$ {\cal{L}} + {\cal{B}} $的特征根, 当满足 $ {\cal{C}} \ge \frac{1}{{2 {\min }_{i \in {\cal{N}}} {\mathop{\rm{Re}}\nolimits} ({\zeta _i})}} $时, $ \forall i \in {\cal{N}} $, 所有$ A - {\cal{C}}{\zeta _i}BK $满足Hurwitz条件, $ {\cal{C}} \in \bf{R} $为耦合增益.
引理1[11]. 选择
$$ {{v}_{i,\;k}} = -{\cal{C}}K{{{\cal{E}}}_{i,\;k}} $$ (31) 为分布式线性控制输入, 其中$ {\cal{C}} \ge \frac{1}{{2{\min }_{i \in {\cal{N}}} {\mathop{\rm{Re}}\nolimits} ({\zeta _i})}} $, $ K = {{R}^{-1}}{{B}^{{\mathrm{T}}} }{\cal{P}} $, 则$ \forall i\in {\cal{N}} $, 有$ {{\xi }_{i}} $关于$ {{\xi }_{r}} $协同一致渐近有界, 且所有节点与$ {{\xi }_{r}} $同步.
注2. 由于输入输出反馈线性化特性, 可将期望线性系统动力学设计为统一形式. 根据假设, 当所有智能体相对阶一致时, 采用同样的反馈控制增益$ K $即可实现所有智能体动态品质趋同, 显著减小分布式控制器设计复杂度.
3. 学习收敛性证明
本节讨论分布式无模型反馈线性化算法的收敛性. 考虑跟踪误差的收敛性以及双评价网络、奖励网络、动作网络的学习收敛问题. 定义分布式无模型反馈线性化算法中三种网络的最优权值表达式为
$$ \begin{aligned} \left\{ {\begin{aligned} &{W_{J_i}^*=\arg \mathop {\min }\limits_{{W_{J_i}}} \left\| {{{\hat J_i}^l}({X_{i,\;k}},\; {{\hat R_{i,\;k}}^l}) - J_{i,\;k}} \right\|}\\ &{W_{\lambda_i}^*=\arg \mathop {\min }\limits_{{W_{\lambda_i}}} \left\| {{{\hat \lambda_i}^l}({X_{i,\;k}},\; {{\hat R_{i,\;k}}^l}) - \frac{\partial {J_{i,\;k}}}{\partial {{X_{i,\;k}}}}} \right\|}\\ &{W_{r_i}^*=\arg \mathop {\min }\limits_{{W_{r_i}}} \left\| {{{\hat R_i}^l}({X_{i,\;k}}) - {C_{i,\;k}}} \right\|}\\ &{W_{a_i}^{\rm{*}}=\arg \mathop {\min }\limits_{{W_{a_i}}} \left\| {{{\hat \beta_i}^l}({x_{i,\;k}}) -L_{{{f}_{i}}}^{\rho }{{h}_{i}}({{x}_{i,\;k}})} \right\|} \end{aligned}} \right. \end{aligned} $$ (32) 其中, $ J_i({X_{i,\;k}}) $为理想值函数. 可得权值的估计误差为
$$ \begin{aligned} \left\{ {\begin{aligned} &{\tilde W_{J_i}^l=W_{J_i}^l - W_{J_i}^*}\\ &{\tilde W_{\lambda_i}^l=W_{\lambda_i}^l - W_{\lambda_i}^*}\\ &{\tilde W_{r_i}^l=W_{r_i}^l - W_{r_i}^*}\\ &{\tilde W_{a_i}^l=W_{a_i}^l - W_{a_i}^{\rm{*}}} \end{aligned}} \right. \end{aligned} $$ (33) 为了简化表示, 令${\omega _{a,\,i,\,k}} = \omega ({x_{i,\,k}})$, ${\omega _{c,\,i,\,k}} = \omega ({X_{i,\,k}}, \tilde R_{i,\,k}^l) $, $ {\omega _{r,\,i,\,k}} = \omega ({X_{i,\,k}})$, $ \tilde u_{i,\,k}^l = \tilde W_{{a_i}}^{l,\,{\mathrm{T}}}{\omega _{a,\,i,\,k}} $, $ \tilde J_{i,\,k}^l = \tilde W_{{J_i}}^{l,\,{\mathrm{T}}}{\omega _{c,\,i,\,k}} $, $ \tilde \lambda _{i,\,k}^l = \tilde W_{{\lambda _i}}^{l,\,{\mathrm{T}}}{\omega _{c,\,i,\,k}} $, $\tilde R_{i,\,k}^l = \tilde W_{{r_i}}^{l,\,{\mathrm{T}}}{\omega _{r,\,i,\,k}}$.
假设4. 网络的权值$ W_{J_i} $, $ W_{\lambda_i} $, $ W_{a_i} $, $ W_{r_i} $和基向量输出$ \omega ( \cdot ) $均有界, 且上界分别表示为$ W_{J_i}^m $, $ W_{\lambda_i}^m $, $ W_{a_i}^m $, $ W_{r_i}^m $, $ \omega^m $.
首先讨论系统跟踪误差的收敛性, 若期望模型的状态$ z_{i,\;k} $和输入$ r_{i,\;k} $有界, 且假设4成立, 令$ e_{m,\;i,\;k} $的Lyapunov函数候选为$ {L_{e_i}} = \frac{1}{{3}}e_{m,\;i,\;k}^{\mathrm{T}}{e_{m,\;i,\;k}} $, 则$ L_{e_i} $的一阶差分满足:
$$ \begin{split} \Delta {L_{e_i}} = \;&{e_{m,\;i,\;k + 1}^{\mathrm{T}}{e_{m,\;i,\;k + 1}} - e_{m,\;i,\;k}^{\mathrm{T}}{e_{m,\;i,\;k}}} \le\\ & \left( {{\lambda _{\max }} - \frac{1}{3}} \right){\left\| {{e_{m,\;i,\;k}}} \right\|^2} + {{{\left\| {\hat \beta_{i,\;k}^l} \right\|}^2} + {{\left\| {{d_{i,\;k}}} \right\|}^2}} \end{split} $$ (34) 其中, $ {\lambda _{\max }} $表示$ H^{\mathrm{T}}H $最大特征根.
接下来讨论学习过程的收敛性. 为了分析双重评价函数权值更新的稳定性, 考虑四个部分的收敛性: 值函数权值的估计误差、值函数的估计误差、启发式函数权值的估计误差和启发式函数的估计误差. 根据式(21), 双评价网络权值估计误差如下:
$$ \begin{split} &{\left[ {\begin{array}{*{20}{c}} {\tilde W_{J_i}^{l + 1}}\\ {\tilde W_{\lambda_i}^{l + 1}} \end{array}} \right]^{\mathrm{T}}} = {\left[ {\begin{array}{*{20}{c}} {\tilde W_{J_i}^l}\\ {\tilde W_{\lambda_i}^l} \end{array}} \right]^{\mathrm{T}}} -\\&\qquad {\eta _c}{\left[ {\begin{array}{*{20}{c}}{{\mu _J}{\gamma _J}\omega_{c,\;i,\;k} e_{{J,\;i,\;k}}^{\mathrm{T}}}\\ {{\mu _\lambda }{\gamma _J}\omega_{c,\;i,\;k} {{\left( {\Xi_{i,\;k}{e_{{\lambda,\; i,\;k}}}} \right)}^{\mathrm{T}}}} \end{array}} \right]^{\mathrm{T}}} \end{split}$$ (35) 引理2. 令双评价网络的Lyapunov函数候选为
$$ \begin{split} {L_{c_i}} =\;& {L_{{W_{J_i}}}} + {L_{J_i}} + {L_{{W_{\lambda_i}}}} + {L_{\lambda_i}}=\\ & \frac{1}{{{\eta _c}}}{\rm{tr}}\left( {\tilde W_{J_i}^{l\;{\mathrm{T}}}\tilde W_{J_i}^l} \right) + \frac{1}{2}{\mu _j}{\left\| {{{\tilde J}_i^l}(X_{i,\;k})} \right\|^2}\;+\\ & \frac{1}{{{\eta _c}}}{\rm{tr}}\left( {\tilde W_{\lambda_i}^{l\;{\mathrm{T}}}\tilde W_{\lambda_i}^l} \right) + \frac{1}{2}{\mu _\lambda }{\left\| {{{\tilde \lambda }_i^l}(X_{i,\;k})} \right\|^2} \end{split}\nonumber $$ 则有${L_{{c_i}}}$的一阶差分满足以下不等式:
$$ \begin{split} \Delta {L_{{c_i}}} \le\;& - {\mu _J}\gamma _{{J_i}}^2{\left\| {\tilde J_{i,\;k}^l} \right\|^2} + \frac{{{\mu _j}}}{2}{\left\| {\tilde J_{i,\;k - 1}^l} \right\|^2}\; +\\ & \frac{{{\mu _\lambda }}}{2}{\left\| {\tilde \lambda _{i,\;k - 1}^l} \right\|^2} - {\mu _j}\gamma _{{J_i}}^2\left( {I - {\chi _{{J_k}}}} \right)\times\\ & {\left\| {\tilde J_{i,\;k}^l + \gamma _{{J_i}}^{ - 1}\varepsilon _{{j_k}}^{\rm{*}}} \right\|^2}-\end{split}\qquad\qquad $$ $$ \begin{split} & \quad\qquad{\mu _\lambda }\gamma _{{J_i}}^2{\left\| {{\Xi _{i,\;k}}} \right\|^2}{\left\| {\tilde \lambda _{i,\;k}^l} \right\|^2} \;- \\ & \quad\qquad{\mu _\lambda }\gamma _{{J_i}}^2\left( {I - {\eta _c}{\mu _\lambda }\gamma _{{J_i}}^2{{\left\| {{\Xi _{i,\;k}}} \right\|}^2}{{\left\| {{\omega _{c,\;i,\;k}}} \right\|}^2}} \right)\times\\ &\quad\qquad {\left\| {\Xi _{i,\;k}^{\mathrm{T}}\tilde \lambda _{i,\;k}^l + \gamma _{{J_i}}^{ - 1}\varepsilon _{{\lambda _k}}^{\rm{*}}} \right\|^2}+ 2{\mu _j}\Bigg\| \hat R_{i,\;k - 1}^l\; +\\ &\quad\qquad {\gamma _{{J_i}}}W_{{J_i}}^*{\omega _{c,\;i,\;k}} - \frac{1}{2}\left( {W_{{J_i}}^l + W_{{J_i}}^*} \right){\omega _{c,\;i,\;k - 1}} \Bigg\|^2 \;+\\ &\quad\qquad \frac{1}{2}{\mu _j}\left( {{{\left\| {\tilde J_{i,\;k}^l} \right\|}^2} - {{\left\| {\tilde J_{i,\;k - 1}^l} \right\|}^2}} \right)+\\ &\quad\qquad 2{\mu _\lambda }\Bigg\| \frac{{\partial \hat R_{i,\;k - 1}^l}}{{\partial {X_{i,\;k - 1}}}} + {\gamma _{{J_i}}}{\Xi _{i,\;k}}W_{{\lambda _i}}^*{\omega _{c,\;i,\;k}}\; -\\ &\quad\qquad \frac{1}{2}\left( {W_{{\lambda _i}}^l - W_{{\lambda _i}}^*} \right){\omega _{c,\;i,\;k - 1}} \Bigg\|^2 \;+ \\ &\quad\qquad \frac{1}{2}{\mu _\lambda }\left( {{{\left\| {\tilde \lambda _{i,\;k}^l} \right\|}^2} - {{\left\| {\tilde \lambda _{i,\;k - 1}^l} \right\|}^2}} \right)\\[-1pt] \end{split} $$ (36) 其中, $ \frac{{\partial {{\hat R}_{i,\;k-1}^l} }}{{\partial {X_{i,\;k - 1}}}} $, $ \Xi_{i,\;k} $的上界分别为$ R^m $和$ \Xi^m $.
证明. $ {L_{{W_J}}} $一阶差分为
$$ \begin{split} \Delta {L_{{W_{{J_i}}}}} = \;&\frac{1}{{{\eta _c}}}{\rm{tr}}\left[ {\tilde W_{{J_i}}^{l + 1,\;{\mathrm{T}}}\tilde W_{{J_i}}^{l + 1} - \tilde W_{{J_i}}^{l,\;{\mathrm{T}}}\tilde W_{{J_i}}^l} \right]=\\ &\frac{1}{{{\eta _c}}}{\rm{tr}}\Big[ {\tilde W_{{J_i}}^{l,\;{\mathrm{T}}}{{\left( {I - {\chi _c}} \right)}^{\mathrm{T}}}\left( {I - {\chi _c}} \right)} \tilde W_{{J_i}}^l \;- \\ &\varepsilon _{{j_k}}^{\rm{*}}\omega _{c,\;i,\;k}^{\mathrm{T}}{\eta _c}{\mu _j}{\gamma _j}\left( {I - {\chi _c}} \right)\tilde W_{{J_i}}^l\;+\\ & \varepsilon _{{j_k}}^{\rm{*}}\omega _{c,\;i,\;k}^{\mathrm{T}}\eta _c^2\mu _j^2\gamma _j^2{\omega _{c,\;i,\;k}}\varepsilon _{{j_k}}^{*,\;{\mathrm{T}}}\;-\\ & \tilde W_{{J_i}}^{l,\;{\mathrm{T}}}{{\left( {I - {\chi _c}} \right)}^{\mathrm{T}}}{\eta _c}{\mu _j}{\gamma _j}{\omega _{c,\;i,\;k}}\varepsilon _{{j_k}}^{*,\;{\mathrm{T}}} \;-\\ & \tilde W_{{J_i}}^{l,\;{\mathrm{T}}}\tilde W_{{J_i}}^l \Big] \end{split} $$ (37) 其中, $ \varepsilon_{{j_k}}^* = {{\hat R}_{i,\;k}^l} - W_{J_i}^{l\;{\mathrm{T}}}{\omega_{c,\;i,\;k-1}} + {\gamma _J}W_J^{*\;{\mathrm{T}}}{\omega _{{c,\;k}}} $, $ {\chi _{{c}}}= {\eta _c}{\mu _j}\gamma _j^2{\omega_{c,\;i,\;k}}\omega _{c,\;i,\;k}^{\mathrm{T}} $.
对上式进行如下变换:
$$ \begin{split} \tilde W_{J_i}^{l\;{\mathrm{T}}}&{\left( {I - {\chi _{{c}}}} \right)^{\mathrm{T}}}\left( {I - {\chi _{{c}}}} \right)\tilde W_{J_i}^l - \tilde W_{J_i}^{l\;{\mathrm{T}}}\tilde W_{J_i}^l = \\ &\tilde W_{J_i}^{l\;{\mathrm{T}}}\left( {I - {\chi _{{c}}}} \right)\tilde W_{J_i}^l - \tilde W_{J_i}^{l\;{\mathrm{T}}}\tilde W_{J_i}^l\;- \\ & \tilde W_{J_i}^{l\;{\mathrm{T}}}{\chi _{{c}}}\left( {I - {\chi _{{c}}}} \right)\tilde W_{J_i}^l= - {\eta _c}{\mu _j}\gamma _j^2{\left\| {\tilde J_{i,\;k}^l} \right\|^2} \;- \\ &{\eta _c}{\mu _j}\gamma _j^2\left( {I - {\chi _{{c}}}} \right){\left\| {\tilde J_{i,\;k}^l} \right\|^2}\;\\[-1pt] \end{split} $$ (38) 则$ \Delta {L_{{W_{J_i}}}} $可重写为
$$ \begin{split}\;& \Delta {L_{{W_{{J_i}}}}} = \frac{1}{{{\eta _c}}}{\rm{tr}}\Big[ { - {\eta _c}{\mu _j}\gamma _j^2\left( {I - {\chi _c}} \right){{\left\| {\tilde J_{i,\;k}^l} \right\|}^2}} - \\ &\qquad{\eta _c}{\mu _j}\gamma _j^2{\left\| {\tilde J_{i,\;k}^l} \right\|^2}+\varepsilon _{{j_k}}^{\rm{*}}\omega _{c,\;i,\;k}^{\mathrm{T}}\eta _c^2\mu _j^2\gamma _j^2{\omega _{c,\;i,\;k}}\varepsilon _{{j_k}}^{*,\;{\mathrm{T}}}\;-\\ &\qquad \varepsilon _{{j_k}}^{\rm{*}}\omega _{c,\;i,\;k}^{\mathrm{T}}{\eta _c}{\mu _j}{\gamma _j}\left( {I - {\chi _c}} \right)\tilde W_{{J_i}}^l \;-\\ &\qquad{ \tilde W_{{J_i}}^{l,\;{\mathrm{T}}}{{\left( {I - {\chi _c}} \right)}^{\mathrm{T}}}{\eta _c}{\mu _j}{\gamma _j}{\omega _{c,\;i,\;k}}\varepsilon _{{j_k}}^{*,\;{\mathrm{T}}}} \Big]= \end{split} $$ $$ \begin{split} & {\mu _j}{\left\| {\varepsilon _{{j_k}}^{\rm{*}}} \right\|^2} - {\mu _j}\gamma _j^2{\left\| {\tilde J_{i,\;k}^l} \right\|^2} - \\ &{\mu _j}\gamma _j^2\left( {I - {\chi _c}} \right){\left\| {\tilde J_{i,\;k}^l + \gamma _j^{ - 1}\varepsilon _{{j_k}}^{\rm{*}}} \right\|^2} \end{split} \qquad\qquad$$ (39) 根据Cauchy-Schwarz不等式[19], $ \Delta {L_{{W_{J_i}}}} $满足:
$$ \begin{split} &\Delta {L_{{W_{{J_i}}}}} \le - {\mu _j}\gamma _j^2{\left\| {\tilde J_{i,\;k}^l} \right\|^2} + \frac{{{\mu _j}}}{2}{\left\| {\tilde J_{i,\;k - 1}^l} \right\|^2}\;-\\ & \;\; {\mu _j}\gamma _j^2\left( {I - {\chi _c}} \right){\left\| {\tilde J_{i,\;k}^l + \gamma _j^{ - 1}\varepsilon _{c,\;k}^{\rm{*}}} \right\|^2}\;+\\ & \;\; 2{\mu _j}{\left\| {{{\hat R}_{i,\,k}^l} + {\gamma _J}W_{{J_i}}^*{\omega _{c,\,i,\,k}} - \frac{1}{2}\left( {W_{{J_i}}^l + W_{{J_i}}^*} \right){\omega _{c,\,i,\,k - 1}}} \right\|^2} \end{split} $$ (40) 同理, 可得$ \Delta {L_{{W_{\lambda_i} }}} $满足
$$ \begin{split} \Delta {L_{{W_{{\lambda _i}}}}} \le \;&\frac{{{\mu _\lambda }}}{2}{\left\| {\tilde \lambda _{i,\;k - 1}^l} \right\|^2} - {\mu _\lambda }\gamma _j^2{\left\| {{\Xi _{i,\;k}}} \right\|^2}{\left\| {\tilde \lambda _{i,\;k}^l} \right\|^2}\;-\\ & {\mu _\lambda }\gamma _j^2\left( {I - {\eta _c}{\mu _\lambda }\gamma _j^2{{\left\| {{\Xi _{i,\;k}}} \right\|}^2}{{\left\| {{\omega _{c,\;i,\;k}}} \right\|}^2}} \right)\;\times\\ &{\left\| {\Xi _{i,\;k}^{\mathrm{T}}\tilde \lambda _{i,\;k}^l + \gamma _j^{ - 1}\varepsilon _\lambda ^{\rm{*}}} \right\|^2}\;+\\ & 2{\mu _\lambda }\Bigg\| \frac{{\partial \hat R_{i,\;k - 1}^l}}{{\partial {X_{i,\;k - 1}}}} + {\gamma _J}{\Xi _{i,\;k}}W_{{\lambda _i}}^*{\omega _{c,\;i,\;k}} \;-\\ &\frac{1}{2}\left( {W_{{\lambda _i}}^l + W_{{\lambda _i}}^*} \right){\omega _{c,\;i,\;k - 1}} \Bigg\|^2\\[-1pt] \end{split} $$ (41) 其中, $ \varepsilon _\lambda ^{\rm{*}} = \frac{{\partial \hat R_{i,\,k - 1}^l}}{{\partial {X_{i,\,k - 1}}}} + {\gamma _J}{\Xi _{i,\,k}}W_{{\lambda _i}}^{*\,{\mathrm{T}}}{\omega _{c,\,i,\,k}} - W_{\lambda_i} ^{l\,{\mathrm{T}}}{\omega _{c,\,i,\,k - 1}} $, $ {\chi _\lambda }={\eta _c}{\mu _\lambda }\gamma _j^2{\left\| {{\Xi _{i,\,k}}} \right\|^2}{\omega _{c,\,i,\,k}}\omega _{c,\,k}^{\mathrm{T}} $.
对于$ {L_{J_i}} $和$ {L_{\lambda_i}} $, 可直接表示为
$$ \Delta {L_{J_i}} = \frac{1}{2}{\mu _j}\left( {{{\left\| {\tilde J_{i,\;k}^l} \right\|}^2} - {{\left\| {\tilde J_{i,\;k - 1}^l} \right\|}^2}} \right) \;\; $$ (42) $$ \Delta {L_{\lambda_i}} = \frac{1}{2}{\mu _\lambda }\left( {{{\left\| {\tilde \lambda _{i,\;k}^l} \right\|}^2} - {{\left\| {\tilde \lambda _{i,\;k - 1}^l} \right\|}^2}} \right) $$ (43) 结合上述计算式, 可得$ \Delta {L_{c,\;i}} $满足式(36).
□ 根据式(23), 奖励网络权值误差方程如下:
$$ \begin{aligned} \tilde W_{r_i}^{l + 1} = \tilde W_{r_i}^l -{{\eta }_{r}}{{e}_{R,\;i,\;k}}{{\gamma }_{{{J}_{i}}}}W_{{{J}_{i}}}^{l\;{\mathrm{T}}}{\omega' _{c,\;i,\;k}}\omega_{r,\;k} \end{aligned} $$ (44) 引理3. 奖励网络的Lyapunov函数候选为
$$ \begin{aligned} {L_{r_i}} & = \frac{1}{{{2}{\eta _r}}}{\mathrm{tr}}\left( {\tilde W_{r_i}^{l\;{\mathrm{T}}}\tilde W_{r_i}^l} \right) \end{aligned}\nonumber $$ Lyapunov函数$ L_{r_i} $的一阶差分满足以下不等式:
$$ \begin{split} \Delta {L_{r_i}} \le\,& {\left\| {\tilde W_{{r_i}}^{l\,{\mathrm{T}}}{\omega _{r,\,i,\,k}}} \right\|^2} + {\left\| {W_{{J_i}}^{l\,{\mathrm{T}}}{\omega^\prime _{c,\,i,\,k}} } \right\|^2} + {\left\| {{J_{i,\,k}}{\gamma _{{J_i}}}} \right\|^2}\,-\\ & \left( {1 - {\eta _r}{{\left\| {{\omega _{r,\,i,\,k}}} \right\|}^2}} \right){\left\| {W_{{J_i}}^{l\,{\mathrm{T}}}{\omega^\prime _{c,\,i,\,k}} } \right\|^2}{\left\| {{J_{i,\,k}}{\gamma _{{J_i}}}} \right\|^2} \end{split} $$ (45) 证明. 根据式(44), $ {L_{r_i}} $的一阶差分为
$$ \begin{split} \Delta {L_{{r_i}}} =\;& \frac{1}{{{\eta _r}}}{\rm{tr}}\left( {\tilde W_{{r_i}}^{l + 1\;{\mathrm{T}}}\tilde W_{{r_i}}^{l + 1} - \tilde W_{{r_i}}^{l\;{\mathrm{T}}}\tilde W_{{r_i}}^l} \right)=\\ & {\rm{tr}}\Big( { - 2{J_{i,\;k}}{\gamma _{{J_i}}}W_{{J_i}}^{l\;{\mathrm{T}}}{\omega^\prime _{c,\;i,\;k}} {\omega _{r,\;i,\;k}}\tilde W_{{r_i}}^{l\;{\mathrm{T}}}}\; +\\ & {{\eta _r}{{\left\| {{\omega _{r,\;i,\;k}}} \right\|}^2}{{\left\| {W_{{J_i}}^{l\;{\mathrm{T}}}{\omega^\prime _{c,\;i,\;k}} } \right\|}^2}{{\left\| {{\gamma _J}{J_{i,\;k}}} \right\|}^2}} \Big) \end{split} $$ (46) 对式(46)第1项进行变换可得:
$$ \begin{split} \Delta L_{r_i} =\; &{\eta _r}{\left\| {{\omega _{r,\;i,\;k}}} \right\|^2}{\left\| {W_{{J_i}}^{l\;{\mathrm{T}}}{\omega^\prime_{c,\;i,\;k}} } \right\|^2}{\left\| {{\gamma _J}{J_{i,\;k}}} \right\|^2}\;-\\ & {\left\| {{J_{i,\;k}}{\gamma _{{J_i}}}W_{{J_i}}^{l\;{\mathrm{T}}}{\omega^\prime_{c,\;i,\;k}} } \right\|^2} - {\left\| {\tilde W_{{r_i}}^{l\;{\mathrm{T}}}{\omega _{r,\;i,\;k}}} \right\|^2}\;+\\ & {\left\| {\tilde W_{{r_i}}^{l\;{\mathrm{T}}}{\omega _{r,\;i,\;k}} - {J_{i,\;k}}{\gamma _{{J_i}}}W_{{J_i}}^{l\;{\mathrm{T}}}{\omega^\prime_{c,\;i,\;k}} } \right\|^2}=\\ & {\left\| {\tilde W_{{r_i}}^{l\;{\mathrm{T}}}{\omega _{r,\;i,\;k}} - {J_{i,\;k}}{\gamma _{{J_i}}}W_{{J_i}}^{l\;{\mathrm{T}}}{\omega^\prime_{c,\;i,\;k}} } \right\|^2} - \\ & {\left\| {\tilde W_{{r_i}}^{l\;{\mathrm{T}}}{\omega _{r,\;i,\;k}}} \right\|^2}\;-\\ & \left( {1 - {\eta _r}{{\left\| {{\omega _{r,\;i,\;k}}} \right\|}^2}} \right){\left\| {{J_{i,\;k}}{\gamma _{{J_i}}}W_{{J_i}}^{l\;{\mathrm{T}}}{\omega^\prime_{c,\;i,\;k}} } \right\|^2} \end{split} $$ (47) 同样, 根据Cauchy-Schwarz 不等式[19]进行缩放, 可得$ \Delta L_{r_i} $满足式(45).
□ 根据式(25), 执行网络权值估计误差方程如下:
$$ \begin{aligned} \tilde W_{{a_i}}^{l + 1} = \tilde W_{{a_i}}^l - {\eta _a}\hat \lambda _{i,\;k}^{l\;{\mathrm{T}}}W_{{\lambda _i}}^{l\;{\mathrm{T}}}{\omega^\prime _{c,\;i,\;}} {\omega _{a,\;i,\;k}} \end{aligned} $$ (48) 引理4. 执行网络的Lyapunov函数候选为
$$ \begin{aligned} {L_{a_i}} & = \frac{1}{{{\eta _{a,\;i}}}}{\mathrm{tr}}\left( {\tilde W_a^{l\;{\mathrm{T}}}\tilde W_a^l} \right) \end{aligned}\nonumber $$ Lyapunov函数$ L_{a_i} $的一阶差分满足以下不等式:
$$ \begin{split} \Delta {L_{a_i}} \le\;& {\left\| {\tilde \beta _{i,\;k}^l} \right\|^2} + {\left\| {W_{{\lambda _i}}^{l\;{\mathrm{T}}}{\omega ^\prime_{c,\;i,\;k}} } \right\|^2} + {\left\| {\hat \lambda _{i,\;k}^l} \right\|^2}\;-\\ & \left( {1 - {\eta _a}{{\left\| {{\omega _{a,\;i,\;k}}} \right\|}^2}} \right){\left\| {W_{{\lambda _i}}^{l\;{\mathrm{T}}}{\omega^\prime _{c,\;i,\;k}} } \right\|^2}{\left\| {\hat \lambda _{i,\;k}^l} \right\|^2} \end{split} $$ (49) 证明. $ {L_{a_i}} $的一阶差分为
$$ \begin{split} \Delta {L_{a_i}} =\;& \frac{1}{{{\eta _a}}}{\rm{tr}}\left( {\tilde W_{{a_i}}^{l + 1\;{\mathrm{T}}}\tilde W_{{a_i}}^{l + 1} - \tilde W_{{a_i}}^{l\;{\mathrm{T}}}\tilde W_{{a_i}}^l} \right)=\\ & {\rm{tr}}\left\{ { - 2\tilde \beta _{i,\;k}^l{{\left( {W_{{\lambda _i}}^{l\;{\mathrm{T}}}{\omega^\prime _{c,\;i,\;k}} } \right)}^{\mathrm{T}}}\hat \lambda _{i,\;k}^l} \right.+\\ & {\eta _a}{\left\| {{\omega _{a,\;i,\;k}}} \right\|^2}{\left\| {\hat \lambda _{i,\;k}^l} \right\|^2}\left. {{{\left\| {W_{{\lambda _i}}^{l\;{\mathrm{T}}}{\omega^\prime _{c,\;i,\;k}} } \right\|}^2}} \right\} \end{split} $$ (50) 与引理3证明类似, 易得$ \Delta {L_{{a_i}}} $满足式(49).
□ 通过上述分析, 可以给出算法收敛性定理.
定理1. 考虑非线性智能体$ i $的输入输出反馈线性化控制器学习过程, 动作网络、奖励网络和双评价网络分别如式(13)、(17)和(19)所定义. 各网络权值根据式(25)、(23)和(21)给出的更新规律进行更新. 如果学习参数满足以下不等式:
$$ \begin{aligned} \left\{ \begin{aligned} &3{\lambda _{\max }} < 1,\;\frac{{\sqrt 2 }}{2} < {\gamma _{J_i}} < 1\\ &{\eta _c} < \frac{1}{{{\mu _{J_i}}\gamma _{J_i}^2{{\left\| {{\omega^m}} \right\|}^2}}},\;{\eta _r} < \frac{1}{{{{\left\| {{\omega^m}} \right\|}^2}}},\;{\eta _a} < \frac{1}{{{{\left\| {{\omega^m}} \right\|}^2}}} \end{aligned} \right. \end{aligned} $$ (51) 则有基于输入输出数据的两阶段自适应双评价设计算法的跟踪性能误差$ {{e_{m,\;i,\;k}}} \in {{\cal{P}}_{{e_{m,\;i}}}} $和学习误差$ \tilde J_{i,\;k}^l \in {{\cal{P}}_{J_i}} $最终一致有界. 其中
$$ \begin{split}& {{\cal{P}}_{{e_{m,\;i}}}} = \left\{ {{e_{m,\;i,\;k}} \in {{\bf{R}}^n}:\left\| {{e_{m,\;i,\;k}}} \right\| \le \sqrt {\frac{{{{\Gamma}_{{\mathrm{max}}}}}}{{1 - 3{\lambda _{\max }}}}} } \right\}\;\\& {{\cal{P}}_{J_i}} = \left\{ {J_{i,\;k}^l \in {\bf{R}}:\left\| {\tilde J_{i,\;k}^l} \right\| \le \sqrt {\frac{{{{\Gamma}_{{\mathrm{max}}}}}}{{{\mu _{j}}\left( {2\gamma _{{J_i}}^2 - 1} \right)}}} } \right\}\\[-1pt] \end{split} $$ (52) 证明. 基于引理2 ~ 4以及不等式(34), 无模型反馈线性化算法的Lyapuno候选函数满足如下不等式:
$$ \begin{split} \Delta {L_i} &= \Delta {L_{{e_i}}} + \Delta {L_{{c_i}}} + \Delta {L_{{r_i}}} + \Delta {L_{{a_i}}}\le\\ & - \left( {\frac{1}{3} - {\lambda _{\max }}} \right){\left\| {{e_{m,\;i,\;k}}} \right\|^2} -\\ & {\mu _j}\gamma _{{J_i}}^2\left( {I - {\chi _{{J_k}}}} \right){\left\| {\tilde J_{i,\;k}^l + \gamma _{{J_i}}^{ - 1}\varepsilon _{{j_k}}^{\rm{*}}} \right\|^2} - \\ &{\mu _J}\gamma _{{J_i}}^2{\left\| {\tilde J_{i,\;k}^l} \right\|^2}-\\ & {\mu _\lambda }\gamma _{{J_i}}^2\left( {I - {\eta _c}{\mu _\lambda }\gamma _{{J_i}}^2{{\left\| {{\Xi _{i,\;k}}} \right\|}^2}{{\left\| {{\omega _{c,\;i,\;k}}} \right\|}^2}} \right)\times\\ &{\left\| {\Xi _{i,\;k}^{\mathrm{T}}\tilde \lambda _{i,\;k}^l + \gamma _{{J_i}}^{ - 1}\varepsilon _{{\lambda _k}}^{\rm{*}}} \right\|^2} -\\ & {\mu _\lambda }\gamma _{{J_i}}^2{\left\| {{\Xi _{i,\;k}}} \right\|^2}{\left\| {\tilde \lambda _{i,\;k}^l} \right\|^2}-\\ &\left( {1 - {\eta _r}{{\left\| {{\omega _{r,\;i,\;k}}} \right\|}^2}} \right){\left\| {W_{{J_i}}^{l,\;{\mathrm{T}}}{\omega _{c,\;i,\;k}}^\prime } \right\|^2}{\left\| {{J_{i,\;k}}{\gamma _{{J_i}}}} \right\|^2} -\\ & \left( {1 - {\eta _a}{{\left\| {{\omega _{a,\;i,\;k}}} \right\|}^2}} \right){\left\| {W_{{\lambda _i}}^{l,\;{\mathrm{T}}}{\omega _{c,\;i,\;k}}^\prime } \right\|^2}{\left\| {\hat \lambda _{i,\;k}^l} \right\|^2} + {\Gamma _i} \end{split} $$ (53) 其中, 对$ \Gamma _i $进行缩放可得:
$$ \begin{split} {\Gamma _i} =\;& 2{\left\| {\tilde \beta _{i,\;k}^l} \right\|^2} + {\left\| {{d_{i,\;k}}} \right\|^2} + {\left\| {W_{{\lambda _i}}^{l,\;{\mathrm{T}}}{\omega _{c,\;i,\;k}}^\prime } \right\|^2} +\\ & {\left\| {\hat \lambda _{i,\;k}^l} \right\|^2} + {\left\| {\tilde W_{{r_i}}^{l,\;{\mathrm{T}}}{\omega _{r,\;i,\;k}}} \right\|^2} + {\left\| {W_{{J_i}}^{l,\;{\mathrm{T}}}{\omega _{c,\;i,\;k}}^\prime } \right\|^2}+\\ & {\left\| {{J_{i,\;k}}{\gamma _{{J_i}}}} \right\|^2} + \frac{1}{2}{\mu _j}{\left\| {\tilde J_{i,\;k}^l} \right\|^2} + 2{\mu _j}\Big\| \hat R_{i,\;k - 1}^l \;+\\ & {\gamma _{{J_i}}}W_{{J_i}}^*{\omega _{c,\;i,\;k}} - \frac{1}{2}\left( {W_{{J_i}}^l + W_{{J_i}}^*} \right){\omega _{c,\;i,\;k - 1}} \Big\|^2+\\ & \frac{1}{2}{\mu _\lambda }{\left\| {\tilde \lambda _{i,\;k}^l} \right\|^2} + 2{\mu _\lambda }\Big\| \frac{{\partial \hat R_{i,\;k - 1}^l}}{{\partial {X_{i,\;k - 1}}}} +\\ &{\gamma _{{J_i}}}{\Xi _{i,\;k}}W_{{\lambda _i}}^*{\omega _{c,\;i,\;k}} - \frac{1}{2}\left( {W_{{\lambda _i}}^l - W_{{\lambda _i}}^*} \right){\omega _{c,\;i,\;k - 1}} \Big\|^2 \end{split} $$ $$ \begin{split} & {\left\| {\tilde W_{{r_i}}^{l\;{\mathrm{T}}}{\omega _{r,\;k}}} \right\|^2} + {\left\| {W_{{J_i}}^{l\;{\mathrm{T}}}{\omega^\prime _{c,\;k}} } \right\|^2} \;+ \\ &{\left\| {{d_{i,\;k}}} \right\|^2} + {\left\| {{J_{i,\;k}}{\gamma _{{J_i}}}} \right\|^2} \end{split} $$ (54) 则$ {\Gamma _i} $的上界为
$$ \begin{split} {\Gamma _{\max }} =\;& 2{\left\| {W_a^m{\omega ^m}} \right\|^2} + 2{\left\| {W_\lambda ^m{\omega ^m}} \right\|^2} + {\left\| {W_r^m{\omega ^m}} \right\|^2}\;+\\ & {\left\| {W_J^m{\omega ^m}} \right\|^2} + {\left\| {{d^m}} \right\|^2} + {\left\| {{\gamma _{J_i}}W_J^m{\omega ^m}} \right\|^2}\;+\\ & 8{\mu _\lambda }{\left\| {W_r^m{\omega ^m}} \right\|^2} \;+\\ & \frac{1}{2}{\mu _\lambda }\left( {5 + 8{{\left\| {{\gamma _J}{\Xi ^m}} \right\|}^2}} \right){\left\| {W_\lambda ^m{\omega ^m}} \right\|^2} \;+\\ & 8{\mu _j}{\left\| {W_r^m{\omega ^m}} \right\|^2} + \frac{1}{2}{\mu _j} \left( {5 + 8{{\left\| {{\gamma _{{J_i}}}} \right\|}^2}} \right) {\left\| {W_J^m{\omega ^m}} \right\|^2} \end{split} $$ (55) 当学习参数满足式(51), 且对于任意的跟踪误差和值函数估计误差
$$ \left\{\begin{aligned} &\left\| {{e_{m,\;i,\;k}}} \right\| > \sqrt {\frac{{{{\Gamma_{\max}}}}}{{1 - 3{\lambda _{\max }}}}}\;\\ &\left\| {\tilde J_k^l} \right\| > \sqrt {\frac{{\Gamma_{\max}}}{{{\mu _j}\left( {2\gamma _{{J_i}}^2 - 1} \right)}}} \end{aligned}\right. $$ (56) 有$ \Delta L_i \le 0 $. 因此, 根据Lyapunov扩展定理, 可得跟踪误差和学习误差最终一致有界收敛.
□ 定理1及相关证明通过数学推导给出学习收敛的条件, 这些条件的满足确保了系统的收敛性. 接下来将展示两个案例实验验证所提方法在模型未知的异构非线性多智能体系统中的应用效果.
4. 实验验证
在本节中, 通过对异构未知非线性多智能体系统的仿真算例说明同胚分布式控制协议的可开发性和有效性. 系统的网络拓扑如图3所示. 考虑由6个两轮小车横向动力学构成的多智能体系统, 智能体的动力学如下所示:
$$ \begin{split} &{f_i}({\xi _i}) = \left[ {\begin{array}{*{20}{c}} {\bar v\cos ({\psi _i})}\\ {\dfrac{{{h_i}}}{{2{m_i}}}\dot \psi \sin ({\psi _i})}\\ {\bar v\sin ({\psi _i})}\\ { - \dfrac{{{h_i}}}{{2{m_i}}}{{\dot \psi }_i}\cos ({\psi _i})}\\ {{{\dot \psi }_i}} \end{array}} \right]\; \\ &{g_i}({\xi _i}) = \left[ {\begin{array}{*{20}{c}} 0\\ 0\\ 0\\ 0\\ {\dfrac{{{m_i}}}{{{h_i}}}} \end{array}} \right],\; {h_i}({\xi _i}) = \left[ {\begin{array}{*{20}{l}} {{x_{i,\;k}}}\\ {{y_{i,\;k}}} \end{array}} \right] \end{split} $$ 其中, ${{\xi }_{i}}={{\left[ \begin{matrix} x & {\dot{x}} & y & {\dot{y}} & {\dot{\psi }} \end{matrix} \right]}^{{\mathrm{T}}} }$, $ x $, $ y $, $ \dot{x} $, $ \dot{y} $分别为小车中心沿$ x $轴和$ y $轴方向的位移和速度, $ \psi $和$ \dot{\psi } $为航向角和角速度, $ {{m}_{i}} $为车轮到小车中心距离, $ {{h}_{i}} $为万向轮到小车中心的距离, 模型参数(表1)和模型结构$ {{f}_{i}}({{\xi }_{i}}) $, $ {{g}_{i}}({{\xi }_{i}}) $在学习过程中被设定为未知. $ \bar{v} $为小车前进速度.
表 1 异构多智能体系统参数Table 1 Heterogeneous multi-agent system parameters变量 值 (m) 变量 值 (m) 变量 值 (m) $ {m_1} $ 0.04 $ {m_2} $ 0.04 $ {m_3} $ 0.06 $ {h_1} $ 0.06 $ {h_2} $ 0.04 $ {h_3} $ 0.06 $ {m_4} $ 0.06 $ {m_5} $ 0.08 $ {m_6} $ 0.08 $ {h_4} $ 0.04 $ {h_5} $ 0.06 $ {h_6} $ 0.04 为了降低分布式控制难度, 将各智能体目标线性系统设定为如下同构系统:
$$ \left\{ \begin{aligned} &{{\dot \xi }_i} = A{\xi _i} + B{v_{i,\;k}}\\ &{y_{i,\;k}} = C{\xi _i} \end{aligned} \right.,\;{\rm{ }}i = 1,\; \cdots ,\;6 $$ (57) 其中, $ A = \left[ \begin{matrix} 0 & 1 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 1 \\ 0 & 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 0 & 1 \\ 0 & 0 & 0 & 0 & 0 \\ \end{matrix} \right]$, $ B = {{\left[ \begin{matrix} 0 \\ 0 \\ 0 \\ 0 \\ 1 \\ \end{matrix} \right]}}$, $ C = \left[ \begin{matrix} 1 & 0 \\ 0 & 0 \\ 0 & 1 \\ 0 & 0 \\ 0 & 0 \\ \end{matrix} \right]^{\mathrm{T}}$.
4.1 案例1: 学习有效性验证
在本案例中, 采用预设计的式(57)和以其作为对象设计的线性分布式控制器, 基于两阶段双启发式自适应动态规划算法优化反馈线性化控制器, 进行学习前后控制效果对比实验. 学习参数如表2所示.
表 2 学习参数Table 2 Learning parameters参数 值 参数 值 参数 值 $ {\eta _r} $ 0.05 $ {\eta _c} $ 0.02 $ {\eta _a} $ 0.01 $ \gamma $ 0.9 $ {\mu _j} $ 0.01 $ {\mu _\lambda } $ 0.01 $ \varepsilon_i $ 0.08 $ H $ $ [1,\; 0.2] $ 奖励网络以扩展状态−动作对$ {{X}_{i,\;k}} $作为输入, 输出奖励值$ {{R}_{i,\;k}} $. 双评价网络以$ {{X}_{i,\;k}} $和$ {{R}_{i,\;k}} $为输入, 输出值函数$ \hat{J}_{i,\;k}^{l} $和启发式函数值$ \hat{\lambda }_{i,\;k}^{l} $. 动作网络的输入为状态$ {{x}_{i,\;k}} $, 输出未知非线性项$ {{\hat{\beta }}_{i}}({{x}_{i,\;k}}) $的估计值. 网络的初始权值服从均值为0、方差为0.1的分布.
在实验的初始阶段, 采用未训练的同胚分布式控制器对系统进行控制. 图4(a)和图4(c)显示了学习前的系统状态演化曲线. 结果表明未训练的控制器在应对异构非线性智能体系统时, 表现出较大的误差和不稳定性, 系统输出无法与期望轨迹一致. 原因在于系统的非线性动态和显著的异构性, 使得线性化控制策略无法适应所有智能体, 导致一致性控制效果不理想. 通过引入无模型反馈线性化算法, 并结合经验池和梯度下降对每个智能体的反馈线性化控制器进行训练, 系统控制性能显著提升. 学习收敛后, 系统收敛性和稳定性明显提高(图4(b)和图4(d)), 智能体输出与期望轨迹趋于一致, 跟踪误差显著减少, 验证了同胚分布式控制协议在模型未知的异构智能体系统中的有效性.
与现有动态规划方法不同, 本文无需预设计奖励信号的超参数. 但所提双启发式自适应动态规划算法仍然能够快速使各智能体的值函数网络和奖励函数网络的权值收敛(图5和图6), 体现出算法在应对非线性系统时具备较高的效率. 具体来说, 值函数网络通过奖励函数学习智能体线性化特征的长期动态行为, 逐步优化系统性能. 而奖励函数网络则动态调整奖励信号, 引导系统线性化效果.
值得注意的是, 图7中奖励函数的损失高于值函数损失, 说明直接使用原始奖励信号来驱动值函数学习可能会导致较大的波动性, 增加学习收敛的难度. 因此实验中引入的奖励值动态调整机制能够通过平滑奖励信号减少值函数网络的学习波动, 增强学习的稳定性.
4.2 案例2: 方法优越性验证
在本案例中, 为验证所提方法的可扩展性和优越性, 在反馈线性化控制器学习收敛后, 将其与预设的分布式控制器共同作用于系统. 系统在稳定运行30 s后, 仅通过调整分布式控制器$ v_{i,\;k} $, 实现编队构型的快速调整(图8). 实验结果表明, 同胚分布式控制协议能通过调整虚拟输入端的线性控制器输入适应不同的动态性能要求, 无需重新学习.
所提无模型分布式控制方法与现有方法的显著区别在于, 本方法在学习收敛后, 得到的反馈线性化控制器与被控系统共同组成已知的线性化系统, 可利用线性系统理论进行控制与综合. 如果系统性能需求或环境发生改变, 也可以方便地调整线性控制输入, 而完全依赖学习的无模型分布式控制器设计方法由于状态空间发生改变, 则需要重新学习.
5. 结束语
本文提出一种同胚分布式控制协议, 解决了异构非线性多智能体系统的无模型输出一致性控制问题. 结合输入输出反馈线性化理论和自适应动态规划技术, 实现了无需系统模型的非线性系统线性化. 通过将异构非线性多智能体系统转为预设的同构线性系统, 简化了分布式控制器的设计, 使得线性控制理论得以应用. 动态调整的奖励值和双阶段学习机制在训练过程中不断优化控制器, 增强了学习的稳定性和收敛速度. 实验结果表明, 各智能体的轨迹在所提方法下能够快速收敛到期望输出, 验证了控制策略的适应性和二次设计能力. 未来的研究将进一步讨论方法的泛化性, 考虑存在输入时滞、饱和、受限等情况, 扩展同胚分布式控制协议的适用范围, 以应对更复杂的实际应用场景.
-
表 1 RMSE和固定率对比
Table 1 Comparison of RMSE and fixed rate
方法 EKF IREKF IEKF REKF 所提方法 提升 RMSE-水平 (m) 0.8718 1.0223 0.9600 0.9075 0.6696 23.19% RMSE-垂直 (m) 0.2959 0.6174 0.5150 0.2871 0.2062 28.18% 固定率 (%) 50.3300 61.5800 58.4800 71.1300 90.3800 19.25% 表 2 单个历元平均解算时间
Table 2 The average calculation time of each epoch
方法 EKF IREKF IEKF REKF 所提方法 时间 (s) 0.0821 0.1506 0.1490 0.0863 0.0899 -
[1] Ji R, Jiang X, Chen X, Zhu H, Ge M, Neitzel F. Quality monitoring of real-time GNSS precise positioning service system. Geo-Spatial Information Science, 2023, 26(1): 1−15 doi: 10.1080/10095020.2022.2070554 [2] Chen Q, Lin H, Kuang J, Luo Y, Niu X. Rapid initial heading alignment for MEMS land vehicular GNSS/INS navigation system. IEEE Sensors Journal, 2023, 23(7): 7656−7666 doi: 10.1109/JSEN.2023.3247587 [3] 王婷娴, 贾克斌, 姚萌. 面向轻轨的高精度实时视觉定位方法. 自动化学报, 2021, 47(9): 2194−2204Wang Ting-Xian, Jia Ke-Bin, Yao Meng. Real-time visual localization method for light-rail with high accuracy. Acta Automatica Sinica, 2021, 47(9): 2194−2204 [4] Medina D, Calatrava H, Castro-Arvizu J M, Closas P, Vila-Valls J. A collaborative RTK approach to precise positioning for vehicle swarms in urban scenarios. In: Proceedings of IEEE/ION Position, Location and Navigation Symposium (PLANS). Monterey, USA: IEEE, 2023. 254−259 [5] Tao X, Liu W, Wang Y, Li L, Zhu F, Zhang X. Smartphone RTK positioning with multi-frequency and multi-constellation raw observations: GPS L1/L5, Galileo E1/E5a, BDS B1I/B1C/B2a. Journal of Geodesy, 2023, 97(5): Article No. 43 doi: 10.1007/s00190-023-01731-3 [6] Gao Y, Jiang Y, Gao Y, Huang G, Yue Z. Solution separation-based integrity monitoring for RTK positioning with faulty ambiguity detection and protection level. GPS Solutions, 2023, 27(3): Article No. 140 doi: 10.1007/s10291-023-01472-y [7] 陈杰, 程兰, 甘明刚. 基于高斯和近似的扩展切片高斯混合滤波器及其在多径估计中的应用. 自动化学报, 2013, 39(1): 1−10 doi: 10.1016/S1874-1029(13)60001-4Chen Jie, Cheng Lan, Gan Ming-Gang. Extension of SGMF using Gaussian sum approximation for nonlinear/non-Gaussian model and its application in multipath estimation. Acta Automatica Sinica, 2013, 39(1): 1−10 doi: 10.1016/S1874-1029(13)60001-4 [8] Teunissen P. The least-squares ambiguity decorrelation adjustment: A method for fast GPS integer ambiguity estimation. Journal of Geodesy, 1995, 70(1): 65−82 [9] Chang X W, Yang X, Zhou T. MLAMBDA: A modified LAMBDA method for integer ambiguity determination. In: Proceedings of the 61st Annual Meeting of the Institute of Navigation. Cambridge, USA: 2005. 1086−1097 [10] Takasu T, Yasuda A. Kalman-filter-based integer ambiguity resolution strategy for long-baseline RTK with ionosphere and troposphere estimation. In: Proceedings of the 23rd International Technical Meeting of the Satellite Division of the Institute of Navigation. Portland, USA: 2010. 161−171 [11] Gao Y, Jiang Y, Liu B, Gao Y. Integrity monitoring of multi-constellation GNSS-based precise velocity determination in urban environments. Measurement, 2023, 222: Article No. 113676 doi: 10.1016/j.measurement.2023.113676 [12] Giorgi G, Teunissen P. Carrier phase GNSS attitude determination with the multivariate constrained LAMBDA method. In: Proceedings of 2010 IEEE Aerospace Conference. Big Sky, USA: IEEE, 2010. 1−12 [13] 张文安, 林安迪, 杨旭升, 俞立, 杨小牛. 融合深度学习的贝叶斯滤波综述. 自动化学报, 2024, 50(8): 1502−1516Zhang Wen-An, Lin An-Di, Yang Xu-Sheng, Yu Li, Yang Xiao-Niu. A survey on bayesian filtering with deep learning. Acta Automatica Sinica, 2024, 50(8): 1502−1516 [14] Fang H, Tian N, Wang Y, Zhou M C, Haile M. Nonlinear Bayesian estimation: From Kalman filtering to a broader horizon. IEEE/CAA Journal of Automatica Sinica, 2018, 5(2): 401−417 doi: 10.1109/JAS.2017.7510808 [15] 杨旭升, 王雪儿, 汪鹏君, 张文安. 基于渐进无迹卡尔曼滤波网络的人体肢体运动估计. 自动化学报, 2023, 49(8): 1723−1731Yang Xu-Sheng, Wang Xue-Er, Wang Peng-Jun, Zhang Wen-An. Estimation of human limb motion based on progressive unscented Kalman filter network. Acta Automatica Sinica, 2023, 49(8): 1723−1731 [16] Katriniok A, Abel D. Adaptive EKF-based vehicle state estimation with online assessment of local observability. IEEE Transactions on Control Systems Technology, 2016, 24(4): 1368−1381 doi: 10.1109/TCST.2015.2488597 [17] Chen X, Wang X, Xu Y. Performance enhancement for a GPS vector-tracking loop utilizing an adaptive iterated extended Kalman filter. Sensors, 2014, 14(12): 23630−23649 doi: 10.3390/s141223630 [18] Li H, Medina D, Vilà-Valls J, Closas P. Robust Kalman filter for RTK positioning under signal-degraded scenarios. In: Proceedings of the 32nd International Technical Meeting of the Satellite Division of the Institute of Navigation. Miami, USA: 2019. 3717−3729 [19] Medina D, Li H, Vilà-Valls J, Closas P. Robust filtering techniques for RTK positioning in harsh propagation environments. Sensors, 2021, 21(4): Article No. 1250 doi: 10.3390/s21041250 [20] Yuan H, Zhang Z, He X, Wen Y, Zeng J. An extended robust estimation method considering the multipath effects in GNSS real-time kinematic positioning. IEEE Transactions on Instrumentation and Measurement, 2022, 71: 1−9 [21] Huang Y, Zhang Y, Li N, Zhao L. Gaussian approximate filter with progressive measurement update. In: Proceedings of 54th IEEE Conference on Decision and Control (CDC). Osaka, Japan: IEEE, 2015. 4344−4349 [22] 郑婷婷, 杨旭升, 张文安, 俞立. 一种高斯渐进滤波框架下的目标跟踪方法. 自动化学报, 2018, 44(12): 2250−2258Zheng Ting-Ting, Yang Xu-Sheng, Zhang Wen-An, Yu Li. A target tracking method in Gaussian progressive filtering framework. Acta Automatica Sinica, 2018, 44(12): 2250−2258 [23] Yang X, Zhao C, Chen B. Progressive Gaussian approximation filter with adaptive measurement update. Measurement, 2019, 148: Article No. 106898 doi: 10.1016/j.measurement.2019.106898 [24] 杨旭升, 吴江宇, 胡佛, 张文安. 基于渐进高斯滤波融合的多视角人体姿态估计. 自动化学报, 2024, 50(3): 607−616Yang Xu-Sheng, Wu Jiang-Yu, Hu Fo, Zhang Wen-An. Multi-view human pose estimation based on progressive Gaussian filtering fusion. Acta Automatica Sinica, 2024, 50(3): 607−616 [25] Verhagen S, Teunissen P. The ratio test for future GNSS ambiguity resolution. GPS Solutions, 2013, 17: 535−548 doi: 10.1007/s10291-012-0299-z -