2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于分布式自适应内模的多智能体系统协同最优输出调节

董昱辰 高伟男 姜钟平

董昱辰, 高伟男, 姜钟平. 基于分布式自适应内模的多智能体系统协同最优输出调节. 自动化学报, 2025, 51(3): 678−691 doi: 10.16383/j.aas.c240371
引用本文: 董昱辰, 高伟男, 姜钟平. 基于分布式自适应内模的多智能体系统协同最优输出调节. 自动化学报, 2025, 51(3): 678−691 doi: 10.16383/j.aas.c240371
Dong Yu-Chen, Gao Wei-Nan, Jiang Zhong-Ping. Cooperative optimal output regulation for multi-agent systems based on distributed adaptive internal model. Acta Automatica Sinica, 2025, 51(3): 678−691 doi: 10.16383/j.aas.c240371
Citation: Dong Yu-Chen, Gao Wei-Nan, Jiang Zhong-Ping. Cooperative optimal output regulation for multi-agent systems based on distributed adaptive internal model. Acta Automatica Sinica, 2025, 51(3): 678−691 doi: 10.16383/j.aas.c240371

基于分布式自适应内模的多智能体系统协同最优输出调节

doi: 10.16383/j.aas.c240371 cstr: 32138.14.j.aas.c240371
基金项目: 国家自然科学基金(62373090), 国家重点研发计划(2024YFA1012702)资助
详细信息
    作者简介:

    董昱辰:东北大学流程工业综合自动化全国重点实验室博士研究生. 2023年获得河北工业大学人工智能与数据科学学院硕士学位. 主要研究方向为网络攻击, 强化学习, 数据驱动和弹性控制. E-mail: 2310268@stu.neu.edu.cn

    高伟男:东北大学流程工业综合自动化全国重点实验室教授. 2017年获得美国纽约大学博士学位. 主要研究方向为人工智能, 自适应动态规划, 优化控制和输出调节. 本文通信作者. E-mail: gaown@mail.neu.edu.cn

    姜钟平:欧洲科学院外籍院士, 美国纽约大学教授, IEEE Fellow, IFAC Fellow. 1993年获得法国巴黎高等矿业大学自动控制与数学博士学位. 主要研究方向为稳定性理论, 鲁棒/自适应/分布式非线性控制, 鲁棒自适应动态规划, 强化学习及其在信息, 机械和生物系统中的应用. E-mail: zjiang@nyu.edu

Cooperative Optimal Output Regulation for Multi-agent Systems Based on Distributed Adaptive Internal Model

Funds: Supported by National Natural Science Foundation of China (62373090) and National Key Research and Development Program of China (2024YFA1012702)
More Information
    Author Bio:

    DONG Yu-Chen Ph.D. candidate at the State Key Laboratory of Synthetical Automation for Process Industries, Northeastern University. She received her master degree from the School of Artificial Intelligence, Hebei University of Technology in 2023. Her research interest covers network attacks, reinforcement learning, data-driven, and resilient control

    GAO Wei-Nan Professor at the State Key Laboratory of Synthetical Automation for Process Industries, Northeastern University. He received his Ph.D. degree from New York University, USA in 2017. His research interest covers artificial intelligence, adaptive dynamic programming, optimal control, and output regulation. Corresponding author of this paper

    JIANG Zhong-Ping Foreign Member of the Academia Europaea (Academy of Europe), professor at the New York University, USA, IEEE Fellow, IFAC Fellow. He received his Ph.D. degree in automatic control and mathematics from the Ecole des Mines de Paris, France in 1993. His research interest covers stability theory, robust/adaptive/distributed nonlinear control, robust adaptive dynamic programming, reinforcement learning and their applications in information, mechanical, and biological systems

  • 摘要: 针对离散时间多智能体系统的协同最优输出调节问题, 在不依赖多智能体系统矩阵精确信息的条件下提出分布式数据驱动自适应控制策略. 基于自适应动态规划和分布式自适应内模, 通过引入值迭代和策略迭代两种强化学习算法, 利用在线数据学习最优控制器, 实现多智能体系统的协同输出调节. 考虑到跟随者只能访问领导者的估计值进行在线学习, 对闭环系统的稳定性和学习算法的收敛性进行严格的理论分析, 证明所学习的控制增益可以收敛到最优控制增益. 仿真结果验证了所提控制方法的有效性.
  • 自20世纪70年代以来, 输出调节问题一直是控制系统的核心研究问题之一. 输出调节理论在机械臂操纵、卫星姿态控制和电机速度调节等方面已取得广泛应用[12]. 近二十年, 研究学者已将单一系统的输出调节问题推广至多智能体系统, 形成了协同输出调节问题[35]. 协同输出调节的控制目标是设计一种分布式控制器, 使得所有跟随者的输出都能渐近地跟踪参考信号, 同时抑制外部干扰. 在协同输出调节问题的研究中, 智能体通常可分成两组, 一组智能体能够直接获得领导者(外部系统)的信息, 而另一组智能体则无法直接获得领导者的信息. 协同输出调节理论在许多实际工程控制系统得以应用, 如自适应巡航控制系统、移动机器人系统、基于逆变器的孤岛微电网系统、分布式能源控制系统以及有源直流配电网络系统等[69].

    内模原理是用来解决协同输出调节问题的主要方法之一[1011]. 基于内模原理设计调节器时, 调节器需包含与外部系统相同的动力学模型, 即内模. 内模通过复制外部系统的信息生成前馈项, 以补偿系统中的稳态误差. 在利用内模原理解决系统的协同输出调节问题时, 需要将其转换为由受控系统和内模构成的增广系统的协同镇定问题. 针对离散时间多智能体系统协同的输出调节问题, 文献[12]基于有限激励条件的估计更新律来逼近外部系统模型参数, 进而建立在线分布式内模. 此外, 协同输出调节问题还可与事件触发控制[13]、容错控制[14]和弹性控制[15]等方法相结合, 以有效应对复杂系统中的控制需求.

    在现代控制系统中, 控制器的设计不仅需要保证闭环系统实现输出调节, 还需对其瞬态性能进行优化, 以实现最优输出调节. 针对线性系统, 传统的最优控制问题通常需要求解代数黎卡提方程, 但求解过程相对复杂. 为简化这一过程, 值迭代[1617]和策略迭代[1819]通过更新值函数和控制器增益, 提供了一种逐步逼近代数黎卡提方程解的方法. 相比策略迭代, 值迭代放宽了对初始稳定策略的严格要求, 但这种灵活性也降低了算法的收敛速度. 此外, 在实际应用中, 系统的矩阵信息可能不确定或者完全未知, 这给控制器设计带来更大的挑战[20]. 为解决该问题, 自适应动态规划算法应运而生. 与依赖系统矩阵信息的方法不同, 自适应动态规划算法无需进行系统识别, 直接利用在线数据来设计控制器[2123]. 文献[24]将自适应分布式观测器、强化学习和输出调节理论相结合, 针对一类具有部分未知动态的非线性离散时间多智能体系统, 设计分布式自适应近似最优跟踪控制器以实现协同自适应最优输出调节. 文献[25]针对跟随者系统矩阵信息未知的多智能体系统, 结合自适应动态规划和内模原理, 基于在线数据学习最优控制器. 值得注意的是, 在上述协同最优输出调节的研究中, 通常假设领导者的状态和系统矩阵信息可以被所有跟随者访问, 这在实际情况下难以满足[2628]. 另外, 现有基于自适应动态规划的协同输出调节方法多考虑连续时间多智能体系统. 在所有跟随者无法直接访问领导者的真实状态和系统矩阵信息时, 针对离散时间多智能体系统的自适应最优协同输出调节研究尚显不足.

    为解决离散时间多智能体系统矩阵信息完全未知情况下的协同最优输出调节问题, 本文分别基于策略迭代和值迭代提出数据驱动的自适应最优控制方法. 与现有方法相比, 本文方法的独特性和主要优势如下:

    1) 目前关于离散时间协同输出调节控制器的设计方法大多依赖于精确或部分已知的系统模型. 与现有设计方法不同, 针对系统矩阵完全未知的离散时间多智能体系统, 本文基于内模原理、分布式控制和估计等技术, 创新性地设计了基于数据的分布式自适应最优控制器, 以实现离散多智能体系统的协同最优输出调节.

    2) 在现有关于协同输出调节问题分布式控制器的学习过程中, 通常假设所有跟随者需实时测量领导者的真实状态. 然而在实际中, 这一假设往往不成立. 鉴于此, 本文考虑一种更为现实的情况, 即跟随者需要基于对领导者系统矩阵和状态的估计值进行在线学习. 针对这一问题, 本文分别基于策略迭代与值迭代, 提出自适应最优学习策略, 该策略能够在领导者真实状态未知且部分跟随者无法获得领导者系统矩阵的情况下, 实现协同最优的输出调节. 此外, 通过严格的收敛性分析, 证明了所学习的控制增益可以收敛至最优控制增益.

    在本文中, $ {{\bf{Z}}_{+}} $表示非负整数集, $ |\cdot | $定义为向量的欧几里得范数或者矩阵的诱导范数, $ \otimes $表示Kronecker积. $ \mathrm{vec}(B)={{[b_{1}^{\mathrm{T}},\;b_{2}^{\mathrm{T}},\;\cdots ,\;b_{m}^{\mathrm{T}}]}^{\mathrm{T}}} $将矩阵$ B\in {{\bf{R}}^{r\times m}} $向量化, 其中, $ {{b}_{i}}\in {{\bf{R}}^{r}} $是矩阵$ B $的第$ i $列. 针对任意对称方阵$ C\in {{\bf{R}}^{m\times m}} $, $ \mathrm{vecs}(C)=[{{c}_{11}}, 2{{c}_{12}},\,\cdots ,\,2{{c}_{1m}},\,{{c}_{22}},\,2{{c}_{23}},\,\cdots ,\,{{c}_{mm}}]^\mathrm{T} \in{{\bf{R}}^{\frac{m(m+1)}{2}}} $. 针对任意列向量$ v\in {{\bf{R}}^{n}} $, $ \mathrm{vecv}(v)=[v_{1}^{2},\;{{v}_{1}}{{v}_{2}},\;\cdots ,\;{{v}_{1}}{{v}_{n}}, v_{2}^{2},\; {{v}_{2}}{{v}_{3}},\;\cdots ,\;{{v}_{n-1}}{{v}_{n}},\;v_{n}^{2}]^\mathrm{T}\in {{\bf{R}}^{\frac{1}{2}n(n+1)}} $. $ {{\lambda }_{M}}(E) $表示实对称矩阵$ E $的最大特征值. $ F=\mathrm{blockdiag} \{{{F}_{1}}, \;{{F}_{2}}, \cdots ,\;{{F}_{n}}\} $是以矩阵(向量) $ F_i $为对角线元素的块对角矩阵. 对于方阵$ G $, $ \sigma (G) $表示方阵$ G $所有特征值的集合; $ \rho (G) $表示方阵$ G $所有特征值的最大绝对值. $ |x{{|}_{P}} $定义为$ {{x}^{\mathrm{T}}}Px $, 其中, $ x $为实列向量, $ P $为实对称正定矩阵. $ I_{n} $定义为$ n\times n $的单位矩阵.

    本文将研究如下一类离散时间多智能体系统:

    $$ \left\{\begin{split} &{{x}_{i}}(k+1)={{A}_{i}}{{x}_{i}}(k)+{{B}_{i}}{{u}_{i}}(k)+{{D}_{i}}v(k) \\ &{{e}_{i}}(k)={{C}_{i}}{{x}_{i}}(k)+Fv(k),\;\quad i=1,\;2,\;\cdots ,\;N \end{split}\right. $$ (1)

    其中, $ {{x}_{i}}(k)\in {{\bf{R}}^{{{n}_{i}}}} $, $ {{u}_{i}}(k)\in {\bf{R}} $, $ {{e}_{i}}(k)\in {\bf{R}} $分别是第$ i $个跟随者的状态、输入和跟踪误差. $ v(k)\in {{\bf{R}}^{q}} $是外部状态, 由如下形式的自治系统产生:

    $$ v(k+1)=Ev(k) $$ (2)

    自治系统(2)称为外部系统, 可同时生成扰动信号$ {{D}_{i}}v(k) $和参考信号$ -Fv(k) $ (即每个子系统输出$ {{y}_{i}}(k)={{C}_{i}}{{x}_{i}}(k) $的跟踪目标). 多智能体系统(1)和(2)中的矩阵维数为$ {{A}_{i}}\in {{{\bf{R}}}^{{{n}_{i}}\times {{n}_{i}}}} $, $ {{B}_{i}}\in {{{\bf{R}}}^{{{n}_{i}}\times 1}} $, $ {{C}_{i}}\in {{{\bf{R}}}^{1\times {{n}_{i}}}} $, $ {{D}_{i}}\in {{{\bf{R}}}^{{{n}_{i}}\times q}} $, $ F\in {{{\bf{R}}}^{1\times q}} $, $ E\in {{{\bf{R}}}^{q\times q}} $.

    针对系统(1)和外部系统(2), 定义一个有向图$ {\cal{G}}({\cal{V}},\;{\cal{E}}) $, 其中, $ {\cal{V}}=\{0,\;1,\;2,\;\cdots ,\;N\} $是节点集, 节点$ 0 $是通过外部系统(2)建模的领导者, 其余$ N $个节点定义为系统(1)所描述的跟随者. $ {\cal{E}}\in {\cal{V}}\times{\cal{V}} $表示边集. 邻接矩阵$ {\cal{A}}=[{{a}_{ij}}]\in {{\bf{R}}^{(N+1)\times (N+1)}} $, 若$ (i,\;j)\in {\cal{E}} $, $ {{a}_{ij}}>0 $; 若$ (i,\;j)\notin {\cal{E}} $, $ {{a}_{ij}}=0 $. 拉普拉斯矩阵$ {\cal{L}} $定义如下:

    $$ {\cal{L}}=\left[ \begin{matrix} \displaystyle\sum\limits_{j=1}^{N}{{{a}_{0j}}} & -[{{a}_{01}},\;{{a}_{02}},\;\cdots ,\;{{a}_{0N}}] \\ -\Delta {{{\boldsymbol{1}}}_{N}} & {\cal{H}} \end{matrix} \right] $$

    其中, $ \Delta = \mathrm{diag}\{{{a}_{10}},\;{{a}_{20}},\;\cdots ,\;{{a}_{N0}}\} $, $ {\cal{H}} = [{{h}_{ij}}] \in {{\bf{R}}^{N\times N}} $, 其中$ {{h}_{ii}}=(\sum\nolimits_{j=0}^{N}{{{a}_{ij}}})-{{a}_{ii}} $, 且对所有的$ i\ne j $有$ {{h}_{ij}}= -{{a}_{ij}} $. $ {{{\cal{N}}}_{i}} $是第$ i $个跟随者的邻域, $ {\cal{N}}_{i}^{+} $定义为$ {\cal{N}}_{i}^{+}= {{{\cal{N}}}_{i}}/\{0\} $.

    注1. 本文考虑的多智能体系统(1)中所有跟随者的参考信号都相同, 即$ -Fv(k) $. 如果跟随者的参考信号互不相同, 可参考文献[25]进行分布式控制器设计.

    针对多智能体系统(1)和(2), 为解决协同输出调节问题, 给出如下标准假设:

    假设1. 对任意的$ i=1,\;2,\;\cdots ,\;N $, $ ({{A}_{i}},\;{{B}_{i}}) $是可镇定的.

    假设2. 对任意的$ i=1,\;2,\;\cdots ,\;N $, 有

    $$ \mathrm{rank}\left[ \begin{matrix} {{A}_{i}}-\lambda I_{n_{i}} & {{B}_{i}} \\ {{C}_{i}} & {\bf{0}} \\ \end{matrix} \right]={{n}_{i}}+1,\;\quad \forall \lambda \in \sigma (E) $$

    假设3. 有向图$ {\cal{G}} $包含一个以节点$ 0 $为根节点的有向生成树.

    假设4. 外部系统(2)的状态矩阵$ E $表示为可控标准型中状态矩阵的形式, 即

    $$ E=\left( \begin{matrix} 0 & 1 & 0 & \cdots & 0 \\ 0 & 0 & 1 & \cdots & 0 \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & 0 & \cdots & 1 \\ -{{e}_{q}} & -{{e}_{q-1}} & -{{e}_{q-2}} & \cdots & -{{e}_{1}} \\ \end{matrix} \right)\in {\bf{R}}^{q \times q} $$

    且矩阵$ E $的所有特征值的模均小于或等于$ 1 $.

    假设5. 外部系统(2)中的系统矩阵$ E $的矩阵信息仅对领导者和与其直接通信的跟随者可用.

    多智能体系统(1)和(2)的协同输出调节问题定义如下.

    问题1. 针对系统(1)和外部系统(2), 设计分布式控制器使以下条件成立:

    1) 闭环系统的系统矩阵是舒尔矩阵, 即该系统矩阵所有特征值的模都小于1;

    2) 对于任意的初始条件$ {{x}_{1}}(0),\;{{x}_{2}}(0),\;\cdots ,\; {{x}_{N}}(0) $和$ v(0) $, 跟踪误差满足$ {\lim }_{t \to \infty } \,{{e}_{i}}(k)=0 $, $ i=1,\; 2, \cdots ,\; N $.

    本文的目标是通过设计分布式数据驱动控制器以解决最优控制和输出调节相结合的协同最优输出调节问题.

    如果所有跟随者都可以访问领导者的系统矩阵$ E $, 那么可以根据协同输出调节理论设计如下所示的分散式内模:

    $$ {{z}_{i}}(k+1)={{G}_{1}}{{z}_{i}}(k)+{{G}_{2}}{{e}_{i}}(k),\;\quad i=1,\;\cdots ,\;N $$ (3)

    其中, $ {{G}_{2}=[0,\;0,\;\cdots,\;0,\;1]^\mathrm{T}} \in {{\bf{R}}^{q}} $, $ z(k)\in {{\bf{R}}^{q}} $, $ {{G}_{1}}= E \in {{\bf{R}}^{q \times q}} $.

    分散式内模(3)的构造取决于一个条件, 即所有跟随者均能直接与领导者通信, 实时获取跟踪误差$ {{e}_{i}}(k) $. 然而, 由于智能体之间的通信限制, 这一条件在现实中很难满足. 因此, 在所有跟随者都可获取领导者系统矩阵$ E $的前提下, 基于假设3设计了如下所示的分布式内模:

    $$ {{z}_{i}}(k+1)=E{{z}_{i}}(k)\,+\,{{G}_{2}}{{\hat{e}}_{i}}(k),\;\quad i=1,\;2,\;\cdots ,\;N $$ (4)

    式中, 重新设计的跟踪误差$ {{\hat{e}}_{i}}(k) $定义为

    $$ {{\hat{e}}_{i}}(k)=\sum\limits_{j\in {{{\cal{N}}}_{i}}}{\frac{{{a}_{ij}}({{y}_{i}}(k)-{{y}_{j}}(k))}{a_i}} $$

    其中, $a_i=\sum\nolimits_{j=0}^{N}{{{a}_{ij}}} $, 对于每个跟随者, 分布式内模的构造仍然需要所有跟随者在初始时刻即获取领导者的系统动态. 但如假设5所述, 并非所有跟随者都可以通过与领导者直接通信来获取这一信息. 因此, 直接应用传统的内模原理并不能克服这一挑战[29].

    本文引入一种自适应分布式观测器[30]估计外部系统动态:

    $$ {{E}_{i}}(k+1)={{E}_{i}}(k)+{{\mu }_{1}}\sum\limits_{j=0}^{N}{{{a}_{ij}}({{E}_{j}}(k)-{{E}_{i}}(k))} $$ (5a)
    $$ \begin{split} {{\eta }_{i}}(k+1)=\ &{E}_{i}(k){{\eta }_{i}}(k)\;+\\ &{{\mu }_{2}}{{E}_{i}}(k)\sum\limits_{j=0}^{N}{{{a}_{ij}}({{\eta }_{j}}(k)-{{\eta }_{i}}(k))} \end{split} $$ (5b)

    因此, 分布式自适应内模设计如下:

    $$ {{z}_{i}}(k+1)={{E}_{i}}{{z}_{i}}(k)+{{G}_{2}}{{\hat{e}}_{i}}(k),\;\quad i=1,\;2,\;\cdots ,\;N $$ (6)

    注2[30]. 当假设3成立时, 若式(5a)中的参数$ {{\mu }_{1}} $满足$ 0<{{\mu }_{1}}<2/\rho ({\cal{H}}) $, 那么可以保证$ {\lim }_{k \to \infty } {{\tilde{E}}_{i}}(k) = {\lim }_{k \to \infty } \;({{E}_{i}}(k)-E)=0 $, $ i=1,\;2,\;\cdots ,\;N $. 当假设4成立时, 若式(5b)中的参数$ {{\mu }_{2}} $能够使得$ ({{I}_{N}}\otimes E)- {{\mu }_{2}}({\cal{H}}\otimes E) $成为舒尔矩阵, 那么可以保证$ {\lim }_{k \to \infty }\; {{\tilde{\eta }}_{i}}(k)= {\lim }_{k \to \infty } \;({{\eta }_{i}}(k)-v(k))=0 $, $ i\;=\;1, 2,\;\cdots ,\;N $.

    以下定理指出, 基于分布式自适应内模(5)和(6)设计的状态反馈控制器, 可解决离散时间多智能体系统(1)和(2)的协同输出调节问题.

    定理1. 在假设1 ~ 5下, 针对增广系统:

    $$ \left\{\begin{split}& v(k+1)=Ev(k) \\ &{{x}_{i}}(k+1)={{A}_{i}}{{x}_{i}}(k)+{{B}_{i}}{{u}_{i}}(k)+{{D}_{i}}v(k)\\ &{{E}_{i}}(k+1)={{E}_{i}}(k)+{{\mu }_{1}}\sum\limits_{j=0}^{N}{{{a}_{ij}}({{E}_{j}}(k)-{{E}_{i}}(k))} \\ &{{z}_{i}}(k+1)={{E}_{i}}{{z}_{i}}(k)+{{G}_{2}}{{{\hat{e}}}_{i}}(k)\\ &{{e}_{i}}(k)={{C}_{i}}{{x}_{i}}(k)+Fv(k),\;\quad i=1,\;2,\;\cdots,\;N \end{split}\right. $$ (7)

    设计状态反馈控制器为

    $$ {{u}_{i}}(k)=-{{K}_{{{x}_{i}}}}{{x}_{i}}(k)-{{K}_{{{z}_{i}}}}{{z}_{i}}(k)$$ (8)

    如果

    $$ {{A}_{{{c}_{i}}}}=\left[ \begin{matrix} {{A}_{i}}-{{B}_{i}}{{K}_{{{x}_{i}}}} & -{{B}_{i}}{{K}_{{{z}_{i}}}} \\ {{G}_{2}}{{C}_{i}} & E \\ \end{matrix} \right] $$

    是舒尔矩阵, 那么离散时间多智能体系统(1)和(2)可以实现协同输出调节.

    证明. 在假设1 ~ 5下, 对所有的$ i=1,\;2,\;\cdots ,\; N $, 以下调节器方程存在唯一的解$ ({{X}_{i}},\;{{U}_{i}}) $:

    $$ {{X}_{i}}E={{A}_{i}}{{X}_{i}}+{{B}_{i}}{{U}_{i}}+{{D}_{i}} $$ (9)
    $$ 0={{C}_{i}}{{X}_{i}}+F $$ (10)

    根据文献[29]中的引理1.38以及矩阵$ {{A}_{{{c}_{i}}}} $是舒尔矩阵, 以下矩阵方程(11)和(12)有唯一解$ ({{\hat{X}}_{i}},\;{{Z}_{i}}) $:

    $$ {{X}_{i}}E=({{A}_{i}}-{{B}_{i}}{{K}_{{{x}_{i}}}}){{X}_{i}}-{{B}_{i}}{{K}_{{{z}_{i}}}}{{Z}_{i}}+{{D}_{i}} $$ (11)
    $$ {{Z}_{i}}E=E{{Z}_{i}}+{{G}_{2}}({{C}_{i}}{{X}_{i}}+F) $$ (12)

    由此可得$ {{X}_{i}}={{\hat{X}}_{i}} $, $ {{U}_{i}}=-{{K}_{{{x}_{i}}}}{{X}_{i}}-{{K}_{{{z}_{i}}}}{{Z}_{i}} $. 由于调节器方程(9)和(10)的解是唯一的, 可知$ ({{X}_{i}}, {{U}_{i}},\;{{Z}_{i}}) $也是唯一的.

    对于$ i=1,\;2,\;\cdots ,\;N $, 定义向量与矩阵如下: $ {{\tilde{x}}_{i}}(k)={{x}_{i}}(k)-{{X}_{i}}v(k) \in {{\bf{R}}^{{n}_{i}}} $, $ {{\tilde{E}}_{i}}={{E}_{i}}-E \in {{\bf{R}}^{q \times q}} $, $ {{\bar{C}}_{i}}=[{{C}_{i}},\;{\boldsymbol{0}}_{1 \times {q}}]\in {{\bf{R}}^{1\times {{m}_{i}}}} $, $ {{K}_{i}}=[{{K}_{{{x}_{i}}}},\;{{K}_{{{z}_{i}}}}] \in {{\bf{R}}^{1 \times m_{i}}} $, $ {{\tilde{\xi }}_{i}}\ =\ [{{{\tilde{x}}}_{i}},\;{{{\tilde{z}}}_{i}} ]^\mathrm{T}\in {{\bf{R}}^{{{m}_{i}}}} $, $ {{\tilde{z}}_{i}}(k)\ ={{z}_{i}}(k)-{{Z}_{i}}v(k) \in {{\bf{R}}^{q}} $, $ {{\bar{B}}_{i}}=[{{B}_{i}};{\boldsymbol{0}}_{q\times 1}] $, $ {{\bar{A}}_{i}}=[{{A}_{i}} ,\;{\boldsymbol{0}}_{n_{i} \times {q}};{{G}_{2}}{{C}_{i}},\;E] $, 其中$ {{m}_{i}} = {{n}_{i}}+q $.

    根据矩阵方程(11)和(12), 有

    $$ \begin{split} {{{\tilde{x}}}_{i}}(k+1)=\ &{{A}_{i}}{{x}_{i}}(k)+{{B}_{i}}{{u}_{i}}(k)+{{D}_{i}}v(k)\;-\\ &{{X}_{i}}Ev(k) = {{A}_{i}}{{x}_{i}}(k)+{{B}_{i}}(-{{K}_{{{x}_{i}}}}{{x}_{i}}(k)\;-\\ &{{K}_{{{z}_{i}}}}{{z}_{i}}(k))+{{D}_{i}}v(k)-{{X}_{i}}Ev(k) =\\ & ({{A}_{i}}-{{B}_{i}}{{K}_{{{x}_{i}}}}){{x}_{i}}(k)-{{B}_{i}}{{K}_{{{z}_{i}}}}{{z}_{i}}(k)\;+\\ &{{D}_{i}}v(k)-{{X}_{i}}Ev(k) =\\ & ({{A}_{i}}-{{B}_{i}}{{K}_{{{x}_{i}}}}){{{\tilde{x}}}_{i}}(k)-{{B}_{i}}{{K}_{{{z}_{i}}}}{{{\tilde{z}}}_{i}}(k)\\[-1pt] \end{split} $$ (13)

    $$ \begin{split} {{{\tilde{z}}}_{i}}(k+1) =\ &{E}_{i}{{z}_{i}}(k)+{{G}_{2}}{{{\hat{e}}}_{i}}(k)-{{Z}_{i}}Ev(k)= \\ & E{{z}_{i}}(k)+{{G}_{2}}\sum\limits_{j\in {{{\cal{N}}}_{i}}}{\frac{{{a}_{ij}}({{y}_{i}}(k)-{{y}_{j}}(k))}{a_i}}\;-\\ &{{Z}_{i}}Ev(k)+{{{\tilde{E}}}_{i}}{{z}_{i}}(k) = E{{z}_{i}}(k)\;+\\ &{{G}_{2}}{{c}_{i}}{{x}_{i}}(k)-{{G}_{2}}\sum\limits_{j\in {{{\cal{N}}}_{i}}}{\frac{{{a}_{ij}}{{c}_{j}}{{x}_{i}}(k)}{a_i}}\;-\\ & {{Z}_{i}}Ev(k)+{{{\tilde{E}}}_{i}}{{z}_{i}}(k) =\\ & E{{{\tilde{z}}}_{i}}(k)+{{G}_{2}}{{c}_{i}}{{{\tilde{x}}}_{i}}(k)\;-\\ &{{G}_{2}}\sum\limits_{j\in {{{\cal{N}}}_{i}}}{\frac{{{a}_{ij}}{{c}_{j}}{{{\tilde{x}}}_{i}}(k)}{a_i}}+ {{{\tilde{E}}}_{i}}{{z}_{i}}(k)\\[-1pt] \end{split} $$ (14)

    其中, $a_i=\sum\nolimits_{j=0}^{N}{{{a}_{ij}}} $, 将式(13)和式(14)合并为

    $$ \begin{split} {{{\tilde{\xi }}}_{i}}(k+1)=\ &{{A}_{{{c}_{i}}}}{{{\tilde{\xi }}}_{i}}(k)-\sum\limits_{j\in {{\cal{N}}_{i}}}{\frac{{{a}_{ij}}}{{{{a}_{i}}}}}\left[ \begin{matrix} 0 \\ {{G}_{2}}{{{\bar{C}}}_{j}} \end{matrix} \right]{{{\tilde{\xi }}}_{j}}(k)\;+\\ &\left[ \begin{matrix} 0 & 0 \\ 0 & {{{\tilde{E}}}_{i}} \\ \end{matrix} \right]{{{\tilde{\xi }}}_{i}}(k)+\left[ \begin{matrix} 0 \\ {{{\tilde{E}}}_{i}}{{Z}_{i}}v(k) \\ \end{matrix} \right] =\\ & {{A}_{{{c}_{i}}}}{{{\tilde{\xi }}}_{i}}(k)+{{L}_{i0}}{{{\tilde{\xi }}}_{-i}}(k)+{{L}_{i1}}(k){{{\tilde{\xi }}}_{i}}(k)\;+\\ &{{L}_{i2}}(k) \\ {{{\tilde{e}}}_{i}}(k)=\ & {{{\bar{C}}}_{i}}{{{\tilde{\xi }}}_{i}}(k)\\[-1pt] \end{split} $$ (15)

    其中, $ {{\tilde{\xi }}_{-i}}(k) $是将所有误差$ {{\tilde{\xi }}_{1}}(k),\;{{\tilde{\xi }}_{2}}(k),\;\cdots ,\;{{\tilde{\xi }}_{N}}(k) $聚集在一起但并不包括$ {{\tilde{\xi }}_{i}}(k) $的向量.

    根据假设3可以标记所有跟随者, 使得满足$ (i,\;j)\in {\cal{E}} $这一条件的$ i $一定小于$ j $. 因此, 误差状态$ \tilde{\xi }(k) $的动力学系统可以表示为

    $$ \tilde{\xi }(k+1)={{A}_{c}}\tilde{\xi }(k)+{{L}_{1}}(k)\tilde{\xi }(k)+{{L}_{2}}(k) $$ (16)

    其中, $ \tilde{\xi }(k)\ =\ {{[\tilde{\xi }_{1}^\mathrm{T}(k),\;\tilde{\xi }_{2}^\mathrm{T}(k),\;\cdots ,\;\tilde{\xi }_{N}^\mathrm{T}(k)]}^{\mathrm{T}}} $, $ {{L}_{1}}\ =\ \mathrm{blockdiag} \{{{L}_{11}},\,{{L}_{21}},\,\cdots ,\,{{L}_{N1}}\} $, $ {{L}_{2}} =[L_{12}^\mathrm{T},\;L_{22}^\mathrm{T},\; \cdots ,\; L_{N2}^\mathrm{T}]^\mathrm{T} $, $ {{A}_{c}} $是以矩阵$ {{A}_{{{c}_{i}}}} $为对角线元素的块下三角矩阵.

    由假设4可知, 对于任意的$ k\in {{\bf{Z}}_{+}} $, 外部状态$ v(k) $都保持在有界集合中, 且估计误差$ {\lim }_{k \to \infty } \;{{\tilde{E}}_{i}}(k)= 0 $, 由此可得$ {\lim }_{k \to \infty } \;{{L}_{1}}(k)=0 $, $ {\lim }_{k \to \infty } \;{{L}_{2}}(k)=0 $, 根据文献[30]中的引理1, 系统$ \tilde{\xi }(k+1)=[{{A}_{c}}\;+ {{L}_{1}}(k)]\tilde{\xi }(k) $是全局指数稳定的. 即, 对于任意的初始条件, 系统(16)的解对于所有的$ k\in {{\bf{Z}}_{+}} $是有界的. 由于$ {{A}_{c}} $是舒尔矩阵, 系统(16)以$ {{L}_{1}}(k)\tilde{\xi }(k)+ {{L}_{2}}(k) $为输入时是输入状态稳定的. 因此, 根据文献[31]中的引理3.8可知, 存在$ {\cal{K}} $类函数$ \gamma $使$ \tilde{\xi }(k) $满足:

    $$\begin{split}& \mathop{\lim}_{k \to \infty } \sup |\tilde{\xi }(k)|\le\\ &\qquad\gamma (\mathop{\lim}_{k \to \infty } \sup |{{L}_{1}}(k)\tilde{\xi }(k)+{{L}_{2}}(k)|)\end{split} $$ (17)

    由于$ \tilde{\xi }(k) $是有界的, 如果$ {{L}_{1}}(k) $和$ {{L}_{2}}(k) $均以指数形式收敛到$ 0 $, 那么$ \tilde{\xi }(k) $也是如此. 即${\lim }_{k \to \infty } {{\tilde{\xi }}_{i}}(k) = 0 $且${\lim }_{k \to \infty } \;{{e}_{i}}(k)=0 $, 其中, $ i=1,\;2,\; \cdots ,\; N $.

    注3. 对于$ i=1,\;2,\;\cdots ,\;N $, 在假设1 ~ 5下, $ ({{\bar{A}}_{i}},{{\bar{B}}_{i}}) $是可镇定的, 这意味着总可以找到增益矩阵$ {{K}_{i}} $, 使$ {{A}_{{{c}_{i}}}} $是舒尔矩阵[29].

    定义如下向量与矩阵:

    $$ \begin{split} &\tilde{u}= {{[\tilde{u}_{1}^\mathrm{T},\;\tilde{u}_{2}^\mathrm{T},\;\cdots ,\;\tilde{u}_{N}^\mathrm{T}]}^\mathrm{T}} \\ &\bar{A}= \mathrm{blockdiag}\{{{{\bar{A}}}_{1}},\;{{{\bar{A}}}_{2}},\;\cdots ,\;{{{\bar{A}}}_{N}}\} \\ &\bar{B}= \mathrm{blockdiag}\{{{{\bar{B}}}_{1}},\;{{{\bar{B}}}_{2}},\;\cdots ,\;{{{\bar{B}}}_{N}}\} \\ & Q=\mathrm{blockdiag}\{{{Q}_{1}},\;{{Q}_{2}},\;\cdots ,\;{{Q}_{N}}\} \\ & R= \mathrm{blockdiag}\{{{R}_{1}},\;{{R}_{2}},\;\cdots ,\;{{R}_{N}}\} \end{split} $$ (18)

    其中, $ i=1,\;2,\;\cdots ,\;N $, $ {{\tilde{u}}_{i}}(k)={{u}_{i}}(k)-{{U}_{i}}v(k) $, $ {{Q}_{i}}= Q_{i}^\mathrm{T}>0 $, $ {{R}_{i}}=R_{i}^\mathrm{T}>0 $.

    接下来, 本文将协同最优输出调节问题定义如下.

    问题2. 本问题为协同最优输出调节问题, 即

    $$ \underset{{\tilde{u}}}{\mathop{\min }}\,\;\sum\limits_{k=0}^{\infty }{({{{\tilde{\xi }}}^\mathrm{T}}(k)Q\tilde{\xi }(k)+{{{\tilde{u}}}^\mathrm{T}}(k)R\tilde{u}(k))} $$
    $$ \mathrm{s.t.} \;\;\;\tilde{\xi }(k+1)=\bar{A}\tilde{\xi }(k)+\bar{B}\tilde{u}(k)\quad\quad $$ (19)

    根据线性最优控制理论, 问题2的最优控制策略为

    $$ {{\tilde{u}}^{*}}(k)=-{{(R+{{\bar{B}}^{\mathrm{T}}}{P}^{*}\bar{B})}^{-1}}{{\bar{B}}^{\mathrm{T}}}{P}^{*}\bar{A}\tilde{\xi }(k) =-{{K}^{*}}\tilde{\xi }(k) $$ (20)

    其中, 矩阵$ {P}^{*}={P}^{*\mathrm{T}}\succ 0 $满足离散时间代数黎卡提方程:

    $$ {{P}^{*}}=Q+{{\bar{A}}^{\mathrm{T}}}{{P}^{*}}\bar{A}-{{\bar{A}}^{\mathrm{T}}}{{P}^{*}}\bar{B}{{(R+{{\bar{B}}^{\mathrm{T}}}{{P}^{*}}\bar{B})}^{-1}}{{\bar{B}}^{\mathrm{T}}}{{P}^{*}}\bar{A} $$ (21)

    由于矩阵$ \bar{A} $, $ \bar{B} $, $ Q $, $ R $均是块对角矩阵, 因此可以推导出$ {{K}^{*}} $也是块对角矩阵:

    $$ {{K}^{*}}=\mathrm{blockdiag}\{K_{1}^{*},\;K_{2}^{*},\;\cdots ,\;K_{N}^{*}\} $$ (22)

    这意味着每个跟随者$ i $的最优控制增益可以根据式(21)和式(22)独立计算, 即

    $$ K_{i}^{*}=[ K_{{{x}_{i}}}^{*} \;\;\; K_{{{z}_{i}}}^{*} ]={{({{R}_{i}}+\bar{B}_{i}^\mathrm{T}P_{i}^{*}{{\bar{B}}_{i}})}^{-1}}\bar{B}_{i}^\mathrm{T}P_{i}^{*}{{\bar{A}}_{i}} $$ (23)

    其中, 矩阵$ P_{i}^{*}=P_{i}^{*\mathrm{T}}\succ 0 $是以下离散时间代数黎卡提方程的唯一解:

    $$ \begin{split} P_{i}^{*}=\ &\bar{A}_{i}^\mathrm{T}P_{i}^{*}{{\bar{A}}_{i}}+{{Q}_{i}}-\bar{A}_{i}^\mathrm{T}P_{i}^{*}{\bar{B}}_{i}({{R}_{i}}\;+\\ &\bar{B}_{i}^\mathrm{T}P_{i}^{*}{{\bar{B}}_{i}})^{-1}\bar{B}_{i}^\mathrm{T}P_{i}^{*}{{\bar{A}}_{i}} \end{split} $$ (24)

    因此, 最优控制器$ u_{i}^{*}(k) $为

    $$ \begin{aligned} u_{i}^{*}(k)=\ &\tilde{u}_{i}^{*}(k)+{{U}_{i}}v(k) =-K_{i}^{*}{{{\tilde{\xi }}}_{i}}(k)+{{U}_{i}}v(k) =\\ &-K_{{{x}_{i}}}^{*}{{{\tilde{x}}}_{i}}(k)-K_{{{z}_{i}}}^{*}{{{\tilde{z}}}_{i}}(k)+{{U}_{i}}v(k) =\\ &-K_{{{x}_{i}}}^{*}{{{x}}_{i}}(k)-K_{{{z}_{i}}}^{*}{{{z}}_{i}}(k),\; \quad i=1,\;2,\;\cdots,\;N \end{aligned} $$ (25)

    这与控制器(8)形式相似. 此外, 由于$ ({{\bar{A}}_{i}},\;{{\bar{B}}_{i}}) $是可镇定的, 可确定如下闭环系统矩阵是舒尔矩阵:

    $$ \left[ \begin{matrix} {{A}_{i}}-{{B}_{i}}K_{{{x}_{i}}}^{*} & -{{B}_{i}}K_{{{z}_{i}}}^{*} \\ {{G}_{2}}{{C}_{i}} & E \\ \end{matrix} \right] $$ (26)

    根据定理1, 所设计的控制器(25)能够解决协同输出调节问题.

    解决问题2的关键是求解离散时间代数黎卡提方程(24), 现有求解方法多依赖系统矩阵的精确信息. 在本节中, 将设计两种基于数据驱动的自适应最优控制策略, 即值迭代和策略迭代, 目的是解决协同最优输出调节问题. 所设计的算法在不依赖多智能体系统矩阵$ {{A}_{i}},\;{{B}_{i}},\;{{C}_{i}},\;{{D}_{i}} $和$ F $的前提下, 能够学习每个跟随者的最优控制增益$ K_{i}^{*} $.

    首先根据增广系统(7), 可以得到:

    $$ \begin{split} {{z}_{i}}(k+1)=\ & {{E}_{i}}{{z}_{i}}(k)+{{G}_{2}}{{C}_{i}}{{x}_{i}}-\sum\limits_{j\in {{{\cal{N}}}_{i}}}{\frac{{{a}_{ij}}}{a_{i}}}{{G}_{2}}{{c}_{j}}{{x}_{j}} =\\ &E{{z}_{i}}(k)+{{G}_{2}}{{C}_{i}}{{x}_{i}}+\frac{{{a}_{i0}}}{a_{i}}{{G}_{2}}Fv\;-\\ &\sum\limits_{j\in {{{\cal{N}}}_{i}^+}}{\frac{{{a}_{ij}}}{a_{i}}}{{G}_{2}}{{c}_{j}}{{x}_{j}}+{{{\tilde{E}}}_{i}}{{z}_{i}}(k) =\\ &Ez_{i}(k)+G_{2}C_{i}x_{i}+\frac{a_{i0}}{a_{i}}{{G}_{2}}Fv\;-\\ &\sum\limits_{j\in {\cal{N}}_{i}^+}{\frac{{{a}_{ij}}}{a_{i}}}{{G}_{2}}{{c}_{j}}{{x}_{j}}+{{{\tilde{E}}}_{i}}{{z}_{i}}(k)= \\ &E{{z}_{i}}(k)+{{G}_{2}}{{C}_{i}}{{x}_{i}}+{{\alpha }_{i0}}{{G}_{2}}Fv\;-\\ &\sum\limits_{j\in {\cal{N}}_{i}^+}{{{\alpha }_{ij}}}{{G}_{2}}{{c}_{j}}{{x}_{j}}+{{{\tilde{E}}}_{i}}{{z}_{i}}(k) \\[-1pt]\end{split} $$ (27)

    其中, 对于$ i=1,\;2,\;\cdots ,\;N $, $ j=1,\;2,\;\cdots ,\;N $, 参数$ {{\alpha }_{i0}}={{a}_{i0}}/a_{i} $, $ {{\alpha }_{ij}}={{a}_{ij}}/a_{i} $. 因此, 根据式(27)和增广系统(7), $ {{\xi }_{i}}=[x_{i}^{\mathrm{T}},\;z_{i}^{\mathrm{T}}]^{\mathrm{T}} $的动力学方程可以写成

    $$ \begin{split} {{\xi }_{i}}(k+1)=\ & {{{\bar{A}}}_{i}}{{\xi }_{i}}(k)+{{{\bar{B}}}_{i}}{{u}_{i}}(k)+\left[ \begin{matrix} {{D}_{i}} \\ {{\alpha }_{i0}}{{G}_{2}}F \\ \end{matrix} \right]v(k)\;-\\ &\sum\limits_{j\in {\cal{N}}_{i}^+}{{{\alpha }_{ij}}}\left[ \begin{matrix} 0 \\ {{G}_{2}}{{{\bar{C}}}_{j}} \end{matrix} \right]{{{\tilde{\xi }}}_{j}}(k)+\left[ \begin{matrix} 0 \\ {{{\tilde{E}}}_{i}}{{z}_{i}}(k) \end{matrix} \right] =\\ & {{{\bar{A}}}_{i}}{{\xi }_{i}}(k)+{{{\bar{B}}}_{i}}{{u}_{i}}(k)+\left[\begin{matrix} {{D}_{i}} \\ {{\alpha }_{i0}}{{G}_{2}}F \end{matrix} \right]{{\eta }_{i}}(k)\;-\\ &\sum\limits_{j\in {\cal{N}}_{i}^+}{{{\alpha }_{ij}}}\left[ \begin{matrix} 0 \\ {{G}_{2}}{{{\bar{C}}}_{j}} \\ \end{matrix} \right]{{{\xi }}_{j}}(k)\;+\\ &\left[ \begin{matrix} -{{D}_{i}}{{{\tilde{\eta }}}_{i}}(k) \\ {{{\tilde{E}}}_{i}}{{z}_{i}}(k)-{{\alpha }_{i0}}{{G}_{2}}F{{{\tilde{\eta }}}_{i}}(k) \end{matrix} \right] \\[-1pt]\end{split} $$ (28)

    根据文献[30]中的引理2可知, 选择合适的参数$ {{\mu }_{1}} $, $ {{\mu }_{2}} $能够驱使估计误差$ {{\tilde{\eta }}_{i}} $和$ {{\tilde{E}}_{i}} $收敛到$ 0 $. 因此, 通过调整$ {{\mu }_{1}} $, $ {{\mu }_{2}} $的值可使以下矩阵:

    $$ {{\rho }_{i}}(k)=\left[ \begin{matrix} -{{D}_{i}}{{{\tilde{\eta }}}_{i}}(k) \\ {{{\tilde{E}}}_{i}}{{z}_{i}}(k)-{{\alpha }_{i0}}{{G}_{2}}F{{{\tilde{\eta }}}_{i}}(k) \\ \end{matrix} \right] $$

    收敛到0.

    值迭代算法的本质是更新对称正定矩阵$ P_{i} $和控制器增益$ K_{i} $ [17]:

    $$ \begin{split} P_{i}^{(m+1)}=\ & \bar{A}_{i}^\mathrm{T}P_{i}^{(m)}{{{\bar{A}}}_{i}}+{{Q}_{i}}-\bar{A}_{i}^\mathrm{T}P_{i}^{(m)}{{{\bar{B}}}_{i}}({{R}_{i}}\;+\\ &\bar{B}_{i}^\mathrm{T}P_{i}^{(m)}{{{\bar{B}}}_{i}}{{)}^{-1}}\bar{B}_{i}^\mathrm{T}P_{i}^{(m)}{{{\bar{A}}}_{i}} \end{split} $$ (29)
    $$ K_{i}^{(m+1)}={{({{R}_{i}}+\bar{B}_{i}^\mathrm{T}P_{i}^{(m+1)}{{\bar{B}}_{i}})}^{-1}}\bar{B}_{i}^\mathrm{T}P_{i}^{(m+1)}{{\bar{A}}_{i}} $$ (30)

    令$ {{\rho }_{i}}(k)=0 $, 那么式(28)可以写成

    $$ \begin{split} {{\xi }_{i}}(k+1)=\ & {{{\bar{A}}}_{i}}{{\xi }_{i}}(k)+{{{\bar{B}}}_{i}}{{u}_{i}}(k)+\left[ \begin{matrix} {{D}_{i}} \\ {{\alpha }_{i0}}{{G}_{2}}F \\ \end{matrix} \right]{{\eta }_{i}}(k)\;-\\ &\sum\limits_{j\in {\cal{N}}_{i}^+}{{{\alpha }_{ij}}}\left[ \begin{matrix} 0 \\ {{G}_{2}}{{{\bar{C}}}_{j}} \\ \end{matrix} \right]{{{\tilde{\xi }}}_{j}}(k)=\\ & {{{\bar{A}}}_{i}}{{\xi }_{i}}(k)+{{{\bar{B}}}_{i}}{{u}_{i}}(k)+{{S}_{i}}{{\psi }_{i}}(k)\\[-1pt] \end{split} $$ (31)

    其中, $ {{\psi }_{i}}(k)={{[\eta _{i}^\mathrm{T}(k),\;\tilde{\xi }_{j1}^\mathrm{T}(k),\;\cdots ,\;\tilde{\xi }_{{{j}_{|{\cal{N}}_{i}^{+}|}}}^\mathrm{T}(k)]}^\mathrm{T}}\in {{\bf{R}}^{{{p}_{i}}}} $, $ {\cal{N}}_{i}^{+}=\{{{j}_{1}},\;{{j}_{2}},\;\cdots ,\;{{j}_{|{\cal{N}}_{i}^{+}|}}\} $, 矩阵$ {{S}_{i}}\in {{\bf{R}}^{{{m}_{i}}\times {{p}_{i}}}} $可由数学知识推导出.

    为了便于分析, 定义以下矩阵:

    $$ \begin{split} {\cal{W}}_{i}^{(m)} = &\left[ \begin{array}{ccc} {\cal{W}}_{i}^{(m)}[1,\;1] & {\cal{W}}_{i}^{(m)}[1,\;2] & {\cal{W}}_{i}^{(m)}[1,\;3] \\ {{({\cal{W}}_{i}^{(m)}[1,\;2])}^\mathrm{T}} & {\cal{W}}_{i}^{(m)}[2,\;2] & {\cal{W}}_{i}^{(m)}[2,\;3] \\ {{({\cal{W}}_{i}^{(m)}[1,\;3])}^\mathrm{T}} & {{({\cal{W}}_{i}^{(m)}[2,\;3])}^\mathrm{T}} & {\cal{W}}_{i}^{(m)}[3,\;3] \end{array} \right]=\\ & \left[ \begin{array}{ccc} \bar{A}_{i}^\mathrm{T}P_{i}^{(m)}{{{\bar{A}}}_{i}} & \bar{A}_{i}^\mathrm{T}P_{i}^{(m)}{{{\bar{B}}}_{i}} & \bar{A}_{i}^\mathrm{T}P_{i}^{(m)}{{S}_{i}} \\ \bar{B}_{i}^\mathrm{T}P_{i}^{(m)}{{{\bar{A}}}_{i}} & \bar{B}_{i}^\mathrm{T}P_{i}^{(m)}{{{\bar{B}}}_{i}} & \bar{B}_{i}^\mathrm{T}P_{i}^{(m)}{{S}_{i}} \\ S_{i}^\mathrm{T}P_{i}^{(m)}{{{\bar{A}}}_{i}} & S_{i}^\mathrm{T}P_{i}^{(m)}{{{\bar{B}}}_{i}} & S_{i}^\mathrm{T}P_{i}^{(m)}{{S}_{i}} \end{array} \right]\\[-1pt] \end{split} $$ (32)

    因此, 基于式(29), (30)和(32), 可得:

    $$ \begin{split} |{{\xi }_{i}}&(k+1){{|}_{P_{i}^{(m+1)}}} =\\ &\; |{{\xi }_{i}}(k+1){{|}_{\begin{smallmatrix}[\bar{A}_{i}^\mathrm{T}P_{i}^{(m)}{{{\bar{A}}}_{i}}+{{Q}_{i}}-\bar{A}_{i}^\mathrm{T}P_{i}^{(m)}{{{\bar{B}}}_{i}}({{R}_{i}} +\\ \bar{B}_{i}^\mathrm{T}P_{i}^{(m)}{{{\bar{B}}}_{i}}{{)}^{-1}}\bar{B}_{i}^\mathrm{T}P_{i}^{(m)}{{{\bar{B}}}_{i}}{{{\bar{A}}}_{i}}] \end{smallmatrix}}} =\\ & \;|{{\xi }_{i}}(k+1){{|}_{\begin{smallmatrix} [\bar{A}_{i}^\mathrm{T}P_{i}^{(m)}{{{\bar{A}}}_{i}}+{{Q}_{i}}-2\bar{A}_{i}^\mathrm{T}P_{i}^{(m)}{{{\bar{B}}}_{i}}K_{i}^{(m)} +\\ {{(K_{i}^{(m)})}^\mathrm{T}}({{R}_{i}}+\bar{B}_{i}^\mathrm{T}P_{i}^{(m)}{{{\bar{B}}}_{i}})K_{i}^{(m)}] \end{smallmatrix}}} = \\ &\left[ \begin{matrix} {{\xi }_{i}}(k+1) \\ -K_{i}^{(m)}{{\xi }_{i}}(k+1) \end{matrix} \right]^{\mathrm{T}}\times\\ & \left[\begin{matrix} {\cal{W}}_{i}^{(m)}[1,\;1]+{{Q}_{i}} & {\cal{W}}_{i}^{(m)}[1,\;2] \\ {({\cal{W}}_{i}^{(m)}[1,\;2])}^\mathrm{T} & {\cal{W}}_{i}^{(m)}[2,\;2]+{{R}_{i}} \\ \end{matrix} \right] \times \\ & \left[\begin{matrix} {{\xi }_{i}}(k+1) \\ -K_{i}^{(m)}{{\xi }_{i}}(k+1) \\ \end{matrix} \right]\\[-1pt] \end{split} $$ (33)

    另外, 由式(31)可知:

    $$ \begin{split} |{{\xi }_{i}}&(k+1){{|}_{P_{i}^{(m+1)}}} =\\ &\; |{{{\bar{A}}}_{i}}{{\xi }_{i}}(k)+{{{\bar{B}}}_{i}}{{u}_{i}}(k)+{{S}_{i}}{{\psi }_{i}}(k){{|}_{P_{i}^{(m+1)}}} =\\ & {{\left[ \begin{matrix} {{\xi }_{i}}(k) \\ {{u}_{i}}(k) \\ {{\psi }_{i}}(k) \\ \end{matrix} \right]}^{\mathrm{T}}}{\cal{W}}_{i}^{(m+1)}\left[\begin{matrix} {{\xi }_{i}}(k) \\ {{u}_{i}}(k) \\ {{\psi }_{i}}(k) \\ \end{matrix} \right] \end{split} $$ (34)

    根据$ \mathrm{vecv} $和$ \mathrm{vecs} $的运算规则, 进一步得到:

    $$ \begin{split} \theta _{VI,\;i}^{\mathrm{T}}&(k){\cal{W}}_{i}^{(m+1)}{{\theta }_{VI,\;i}}(k)=\\ &{{[\mathrm{vecv}({{\theta }_{VI,\;i}}(k))]}^{\mathrm{T}}}\mathrm{vecs}({\cal{W}}_{i}^{(m+1)}) \end{split} $$

    其中, $ {{\theta }_{VI,\;i}}(k)={{[\xi _{i}^{\mathrm{T}}(k),\;u_{i}^{\mathrm{T}}(k),\;\psi _{i}^{\mathrm{T}}(k)]}^{\mathrm{T}}}\in {{\bf{R}}^{{{l}_{i}}}} $.

    通过选择足够大的正整数$ c\ge {{l}_{i}}({{l}_{i}}+1)/2 $, 令

    $$ \begin{split}& {\Theta }_{VI,\;i}=[\mathrm{vecv}({{\theta }_{VI,\;i}}(0)), \mathrm{vecv}({{\theta }_{VI,\;i}}(1)),\;\cdots ,\\&\qquad\qquad \mathrm{vecv} ({{\theta }_{VI,\;i}}(c))\ ]^\mathrm{T}\\& \Phi _{VI,\;i}^{(m)} =[\ \phi _{VI,\;i}^{(m)}(1),\ \;\phi _{VI,\;i}^{(m)}(2),\; \cdots ,\; \phi _{VI,\;i}^{(m)} (c+1)]^\mathrm{T}\end{split} $$

    其中, $ \phi _{VI,\;i}^{(m)}(k+1) $, $ k=0,\;1,\; \cdots,\;c $表示式(33)的右边, 这意味着下列等式关系成立:

    $$ {{\Theta }_{VI,\;i}}\mathrm{vecs}({\cal{W}}_{i}^{(m+1)})=\Phi _{VI,\;i}^{(m)} $$ (35)

    接下来, 本文提出一种基于数据驱动的值迭代算法, 即算法1来近似最优控制器增益$ K_{i}^{*} $和对称正定矩阵$ P_{i}^{*} $.

      算法1. 协同最优输出调节问题的在线值迭代算法

    1) 选择任意的初始控制策略$ {{u}_{i}}(k) $, $ k\in [0,\;s] $, $ \forall 1\le i\le $   $N $, $ i\leftarrow 1 $;

    2) 选择初始条件$ {\cal{W}}_{i}^{0}\leftarrow 0 $, $ K_{i}^{0}\leftarrow 0 $, $ m\leftarrow -1 $, 停止条    件选择为$ {{\varepsilon }_{VI,\;i}}>0 $, 计算$ \Theta _{VI,\;i}^{(m)} $;

    3) 令$ m\leftarrow m+1 $, 计算$ \Phi _{VI,\;i}^{(m)} $;

    4) 根据式(32)求解$ \mathrm{vecs}({\cal{W}}_{i}^{(m+1)}) $;

    5) 更新控制器增益: $ K_{i}^{(m+1)} \leftarrow ({R}_{i}+{\cal{W}}_{i}^{(m+1)}[2,\;2])^{-1} \times $   $ ({\cal{W}}_{i}^{(m+1)}[1,\;2])^\mathrm{T} $;

    6) 判断$ |{\cal{W}}_{i}^{(m+1)}-{\cal{W}}_{i}^{(m)}|<{{\varepsilon }_{VI,\;i}} $是否成立, 如果成立    则停止迭代, 反之则继续重复执行步骤3) ~ 5);

    7) 学习到的控制器增益为$ {{u}_{i}}(k)=-K_{i}^{(m+1)}\times {{\xi }_{i}}(k) $;

    8) 令$ i\leftarrow i+1 $, 继续重复执行步骤2) ~ 7), 直到$ i= $    $N+1 $.

    在线策略迭代的思想是同时实施策略评估:

    $$ \begin{split} P_{i}^{(m)}=\ &{{({{\bar{A}}_{i}}-{{\bar{B}}_{i}}K_{i}^{(m)})}^\mathrm{T}}P_{i}^{(m)}({{\bar{A}}_{i}}-{{\bar{B}}_{i}}K_{i}^{(m)})\;+\\&{{Q}_{i}}+{{(K_{i}^{(m)})}^\mathrm{T}}{{R}_{i}}K_{i}^{(m)} \end{split} $$ (36)

    和策略改进:

    $$ K_{i}^{(m+1)}={{({{R}_{i}}+\bar{B}_{i}^\mathrm{T}P_{i}^{(m)}{{\bar{B}}_{i}})}^{-1}}\bar{B}_{i}^\mathrm{T}P_{i}^{(m)}{{\bar{A}}_{i}} $$ (37)

    通过式(36)和式(37), 可以得到:

    $$ \begin{split} |{{\xi }_{i}}&(k+1){{|}_{P_{i}^{(m)}}} =\\ &\; |{{\xi }_{i}}(k+1){{|}_{\begin{smallmatrix} [{{({{{\bar{A}}}_{i}}-{{{\bar{B}}}_{i}}K_{i}^{(m)})}^\mathrm{T}}P_{i}^{(m)}({{{\bar{A}}}_{i}}-{{{\bar{B}}}_{i}}K_{i}^{(m)})+\\ {{Q}_{i}} +{{(K_{i}^{(m)})}^\mathrm{T}}{{R}_{i}}K_{i}^{(m)}] \end{smallmatrix}}} =\\ & \left[ \begin{matrix} {{\xi }_{i}}(k+1) \\ -K_{i}^{(m)}{{\xi }_{i}}(k+1) \\ \end{matrix} \right]^\mathrm{T} \times\\ & \left[ \begin{matrix} \bar{A}_{i}^\mathrm{T}P_{i}^{(m)}{{{\bar{A}}}_{i}}+{{Q}_{i}} & \bar{A}_{i}^\mathrm{T}P_{i}^{(m)}{{{\bar{B}}}_{i}} \\ \bar{B}_{i}^\mathrm{T}P_{i}^{(m)}{{{\bar{A}}}_{i}} & \bar{B}_{i}^\mathrm{T}P_{i}^{(m)}{{{\bar{B}}}_{i}}+{{R}_{i}} \\ \end{matrix} \right] \times\\ & \left[ \begin{matrix} {{\xi }_{i}}(k+1) \\ -K_{i}^{(m)}{{\xi }_{i}}(k+1) \\ \end{matrix} \right] \end{split} $$ (38)

    另一方面, 根据式(31)可以得到以下等式:

    $$ \begin{split} |{{\xi }_{i}} &(k+1){{|}_{P_{i}^{(m)}}}= \\ &\;|{{{\bar{A}}}_{i}}{{\xi }_{i}}(k)+{{{\bar{B}}}_{i}}{{u}_{i}}(k)+{{S}_{i}}{{\psi }_{i}}(k){{|}_{P_{i}^{(m)}}} =\\ &\left[ \begin{matrix} {{\xi }_{i}}(k) \\ {{u}_{i}}(k) \\ {{\psi }_{i}}(k) \\ \end{matrix} \right]^\mathrm{T}\times \\ & \left[ \begin{matrix} \bar{A}_{i}^\mathrm{T}P_{i}^{(m)}{{{\bar{A}}}_{i}} & \bar{A}_{i}^\mathrm{T}P_{i}^{(m)}{{{\bar{B}}}_{i}} & \bar{A}_{i}^\mathrm{T}P_{i}^{(m)}{{S}_{i}} \\ \bar{B}_{i}^\mathrm{T}P_{i}^{(m)}{{{\bar{A}}}_{i}} & \bar{B}_{i}^\mathrm{T}P_{i}^{(m)}{{{\bar{B}}}_{i}} & \bar{B}_{i}^\mathrm{T}P_{i}^{(m)}{{S}_{i}} \\ S_{i}^\mathrm{T}P_{i}^{(m)}{{{\bar{A}}}_{i}} & S_{i}^\mathrm{T}P_{i}^{(m)}{{{\bar{B}}}_{i}} & S_{i}^\mathrm{T}P_{i}^{(m)}{{S}_{i}} \\ \end{matrix} \right] \times \\ & \left[ \begin{matrix} {{\xi }_{i}}(k) \\ {{u}_{i}}(k) \\ {{\psi }_{i}}(k) \\ \end{matrix} \right] \end{split} $$ (39)

    那么, 基于式(38)和式(39)可以得到:

    $$ \begin{split} & {{\left[\begin{matrix} {{\xi }_{i}}(k) \\ {{u}_{i}}(k) \\ {{\psi }_{i}}(k) \\ \end{matrix} \right]}^{\mathrm{T}}}{\cal{W}}_{i}^{(m)}\left[\begin{matrix} {{\xi }_{i}}(k) \\ {{u}_{i}}(k) \\ {{\psi }_{i}}(k) \\ \end{matrix} \right] =\\ &\qquad \left[ \begin{matrix} {{\xi }_{i}}(k+1) \\ -K_{i}^{(m)}{{\xi }_{i}}(k+1) \\ \end{matrix} \right]^{\mathrm{T}} \times\\ &\qquad \left[\begin{matrix} {\cal{W}}_{i}^{(m)}[1,\;1]+{{Q}_{i}} & {\cal{W}}_{i}^{(m)}[1,\;2] \\ {{({\cal{W}}_{i}^{(m)}[1,\;2])}^\mathrm{T}} & {\cal{W}}_{i}^{(m)}[2,\;2]+{{R}_{i}} \\ \end{matrix} \right] \times\\ &\qquad \left[\begin{matrix} {{\xi }_{i}}(k+1) \\ -K_{i}^{(m)}{{\xi }_{i}}(k+1) \\ \end{matrix} \right] \end{split} $$ (40)

    通过进一步计算, 以下等式关系成立:

    $$ \theta _{PI,\;i}^{(m)}(k)\left[ \begin{matrix} \mathrm{vecs}({\cal{W}}_{i}^{(m)}[1,\;1]) \\ \mathrm{vec}({\cal{W}}_{i}^{(m)}[1,\;2]) \\ \mathrm{vecs}({\cal{W}}_{i}^{(m)}[2,\;2]) \\ \mathrm{vec}({\cal{W}}_{i}^{(m)}[1,\;3]) \\ \mathrm{vec}({\cal{W}}_{i}^{(m)}[2,\;3]) \\ \mathrm{vecs}({\cal{W}}_{i}^{(m)}[3,\;3]) \\ \end{matrix} \right]=\phi _{PI,\;i}^{(m)}(k+1) $$ (41)

    其中, $ \theta _{PI,\;i}^{(m)}(k) $和$ \phi _{PI,\;i}^{(m)}(k+1) $定义如下:

    $$ \begin{split} &\theta _{PI,\;i}^{(m)}(k)= [{{(\mathrm{vecv}({{\xi }_{i}}(k+1)))}^\mathrm{T}}-{{(\mathrm{vecv}({{\xi }_{i}}(k)))}^\mathrm{T}},\; \\ &\qquad\qquad\;\;\; -2(\xi _{i}^\mathrm{T}(k+1){{(K_{i}^{(m)})}^\mathrm{T}}\otimes \xi _{i}^\mathrm{T}(k+1)\;+\\ &\qquad\qquad\;\;\;u_{i}^\mathrm{T}(k)\otimes \xi _{i}^\mathrm{T}(k)),\; {{(\mathrm{vecv}({{u}_{i}}(k)))}^\mathrm{T}}\;-\\ & \qquad\qquad\;\;\;{{(\mathrm{vecv}(K_{i}^{(m)}{{\xi }_{i}}(k+1)))}^\mathrm{T}},\; \\ & \qquad\qquad\;\;\;-2(\psi _{i}^\mathrm{T}(k)\otimes \xi _{i}^\mathrm{T}(k)),\;-2(\psi _{i}^\mathrm{T}(k)\otimes u_{i}^\mathrm{T}(k)),\; \\ & \qquad\qquad\;\;\;-{{(\mathrm{vecv}({{\psi }_{i}}(k)))}^\mathrm{T}}]\in {{\bf{R}}^{{{t}_{i}}}}\; \\ & \phi _{PI,\;i}^{(m)}(k+1)=-[\xi _{i}^\mathrm{T}(k+1)\otimes \xi _{i}^\mathrm{T}(k+1),\; \\ & \qquad\qquad \xi _{i}^\mathrm{T}(k+1){{(K_{i}^{(m)})}^\mathrm{T}}\otimes \xi _{i}^\mathrm{T}(k+1){{(K_{i}^{(m)})}^\mathrm{T}}] \;\times\\ & \qquad\qquad \left[\begin{matrix} \mathrm{vec}({{Q}_{i}}) \\ {{R}_{i}} \\ \end{matrix} \right] \end{split} $$

    给定一个足够大的正整数$ s\ge {{t}_{i}}({{t}_{i}}+1)/2 $, 令$ \Theta _{PI,\;i}^{(m)} = {{[\theta _{PI,\;i}^{(m)}(0),\;\theta _{PI,\;i}^{(m)}(1),\;\cdots ,\;\theta _{PI,\;i}^{(m)}(s)]}^\mathrm{T}} $, $ \Phi _{PI,\;i}^{(m)} = {{[\phi _{PI,\;i}^{(m)}(1),\;\phi _{PI,\;i}^{(m)}(2),\;\cdots ,\;\phi _{PI,\;i}^{(m)}(s+1)]}^\mathrm{T}} $. 因此, 可以得到以下线性方程:

    $$ \Theta _{PI,\;i}^{(m)}\left[\begin{matrix} \mathrm{vecs}({\cal{W}}_{i}^{(m)}[1,\;1]) \\ \mathrm{vec}({\cal{W}}_{i}^{(m)}[1,\;2]) \\ \mathrm{vecs}({\cal{W}}_{i}^{(m)}[2,\;2]) \\ \mathrm{vec}({\cal{W}}_{i}^{(m)}[1,\;3]) \\ \mathrm{vec}({\cal{W}}_{i}^{(m)}[2,\;3]) \\ \mathrm{vecs}({\cal{W}}_{i}^{(m)}[3,\;3]) \\ \end{matrix} \right]=\Phi _{PI,\;i}^{(m)} $$ (42)

    接下来, 本文给出在线策略迭代算法, 即算法2.

      算法2. 协同最优输出调节问题的在线策略迭代算法

    1) 选择任意稳定的初始控制策略$ {{u}_{i}}(k)= -K_{i}^{(0)} {{\xi }_{i}}(k)\;+ $   ${{\varsigma }_{i}}(k) $, $ k\in [0,\;s] $, 其中$ {{\varsigma }_{i}}(k) $是探测噪声, $ \forall 1\le i\le N $;

    2) 令$ m\leftarrow 0 $, 停止条件选择为$ {{\varepsilon }_{PI,\;i}}>0 $, 计算$ \Theta _{PI,\;i}^{(m)} $;

    3) 令$ m\leftarrow m+1 $, 计算$ \Phi _{PI,\;i}^{(m)} $;

    4) 根据式(39)求解$ \mathrm{vec}({\cal{W}}_{i}^{(m)}[1,\;2]) $, $ \mathrm{vec} ({\cal{W}}_{i}^{(m)}[2,\;2]) $;

    5) 更新控制器增益: $ K_{i}^{(m+1)}\leftarrow ({{R}_{i}}+{\cal{W}}_{i}^{(m)}[2,\;2])^{-1}\;\times $   $({\cal{W}}_{i}^{(m)}[2,\;2])^\mathrm{T} $;

    6) 判断$ |K_{i}^{(m+1)}-K_{i}^{(m)}|<{{\varepsilon }_{PI,\;i}} $是否成立, 如果成立    则停止迭代, 反之则继续重复执行步骤3) ~ 5);

    7) 学习到的控制策略为$ {{u}_{i}}(k)=-K_{i}^{(m+1)} {{\xi }_{i}}(k) $;

    8) 令$ i\leftarrow i+1 $, 继续重复执行步骤2) ~ 7), 直到$ i= $   $N+1 $.

    注4. 与传统的自适应控制和现有的自适应动态规划研究相同, 通常在学习阶段向输入添加探测噪声, 以保证矩阵$ \Theta _{VI,\;i}^{(m)} $和$ \Theta _{PI,\;i}^{(m)} $是列满秩矩阵[3233]. 即, 在每次迭代中通过求解式(35), 式(42)都能够得到唯一解.

    本文通过以下引理来讨论通过在线算法与传统基于模型方法求解的控制增益$ K_i $和对称正定矩阵$ P_i $之间的关系.

    引理1. 对于任意小的$ \tilde{c}>0 $, 存在$ {{\mu }_{1}} $, $ {{\mu }_{2}}>0 $, 使得对于所有的$ i=1,\;2,\;\cdots ,\;N $, 由算法1得到的$ \{P_{i}^{(m)}\} $和 $ \{K_{i}^{(m)}\} $满足不等式$ |P_{i}^{(m)}-\hat{P}_{i}^{(m)}|<\tilde{c} $, $ |K_{i}^{(m)}-\hat{K}_{i}^{(m)}| <\tilde{c} $, 序列$ \{\hat{P}_{i}^{(m)}\}_{m=1}^{\infty } $和 $ \{\hat{K}_{i}^{(m)}\}_{m=1}^{\infty } $是基于模型的值迭代算法(29)和(30)得到的解. 证明见附录A.

    引理2. 对于任意小的$ \tilde{c}>0 $, 存在$ {{\mu }_{1}} $, $ {{\mu }_{2}}>0 $, 使得对于所有的$ i=1,\;2,\;\cdots ,\;N $, 由算法2得到的$ \{P_{i}^{(m)}\} $和 $ \{K_{i}^{(m)}\} $满足不等式 $ |P_{i}^{(m)}-\bar{P}_{i}^{(m)}|<\tilde{c} $, $ |K_{i}^{(m)}-\bar{K}_{i}^{(m)}| <\tilde{c} $, 序列$ \{\bar{P}_{i}^{(m)}\}_{m=1}^{\infty } $和 $ \{\bar{K}_{i}^{(m)}\}_{m=1}^{\infty } $是基于模型的策略迭代算法(36)和(37)得到的解. 证明见附录B.

    定理2. 对于任意小的$ {c^{*}}>0 $, 存在$ {{\mu }_{1}} $, $ {{\mu }_{2}}>0 $和$ {{m}^{*}}\in {{\bf{Z}}_{+}} $, 使得对所有的$ i=1,\;2,\;\cdots ,\;N $, 由算法1和算法2计算得到的序列$ \{P_{i}^{(m)}\} $和 $ \{K_{i}^{(m)}\} $满足不等式$ |P_{i}^{({{m}^{*}})}-P_{i}^{*}|<{c^{*}} $, $ |K_{i}^{({{m}^{*}})}-K_{i}^{*}|<{c^{*}} $.

    证明. 基于模型的值迭代算法和策略迭代算法的收敛性已经在文献[17]和文献[34]中得到证明. 对于每个跟随者$ i $, 存在$ {{m}^{*}} $使得:

    $$ \begin{split} &|\bar{P}_{i}^{({{m}^{*}})}-P_{i}^{*}|< \frac{c^{*}}{2}\\ &|\bar{K}_{i}^{({{m}^{*}})}-K_{i}^{*}|< \frac{c^{*}}{2} \\ &|\hat{P}_{i}^{({{m}^{*}})}-P_{i}^{*}|< \frac{c^{*}}{2}\\ &|\hat{K}_{i}^{({{m}^{*}})}-K_{i}^{*}|< \frac{c^{*}}{2}\end{split} $$

    由引理1和引理2, 进一步可得:

    $$ \begin{split} &|P_{i}^{({{m}^{*}})}-\bar{P}_{i}^{({{m}^{*}})}|< \frac{c^{*}}{2} \\ &|K_{i}^{({{m}^{*}})}-\bar{K}_{i}^{({{m}^{*}})}|< \frac{c^{*}}{2}\\ &|P_{i}^{({{m}^{*}})}-\hat{P}_{i}^{({{m}^{*}})}|< \frac{c^{*}}{2}\\ &|K_{i}^{({{m}^{*}})}-\hat{K}_{i}^{({{m}^{*}})}|< \frac{c^{*}}{2}\end{split} $$

    因此, 基于三角形不等式性质得证.

    为了验证所提出的数据驱动算法1和算法2的有效性, 考虑由20个跟随者组成的多智能体系统(1)和(2). 对$ i=1,\;2,\;\cdots,\;20 $, 多智能体系统矩阵设计如下:

    $$ \begin{aligned} \begin{array}{ll} A_i = \begin{bmatrix} 0.5 & 0.015 + 0.035 \\ 0 & 0.5 \end{bmatrix}, & B_i = \begin{bmatrix} 0 \\ 1 + 0.1 \times i \end{bmatrix} \end{array} \end{aligned} $$
    $$ \begin{aligned} \begin{array}{ll} D_i = \begin{bmatrix} 0 & 0 \\ 0 & 0.1 \times i \end{bmatrix} ,& E = \begin{bmatrix} 0 & 1 \\ -1 & 1.986\;2 \end{bmatrix} \\ C_i = [1 \quad 0] ,& F = [-1 \quad 0] \end{array} \end{aligned} $$

    多智能体系统的通信拓扑图如图1所示. 对于$ i=1,\;2,\;\cdots,\;20 $, 假设多智能体系统矩阵$ {{A}_{i}},\;{{B}_{i}},\; {{C}_{i}},\;{{D}_{i}} $, $ F $和$ E $都是未知的. 外部系统$ v $的内模设计为$ {{G}_{1}}=E $, $ {{G}_{2}}=[0,\;1]^{\mathrm{T}} $. 为了进行模拟, 选择权值矩阵$ {{Q}_{i}}={{I}_{2}} $, $ {{R}_{i}}=1 $, 阈值设置为$ {{\varepsilon }_{PI,\;i}}= 0.000\;1 $, $ {{\varepsilon }_{VI,\;i}}=0.001 $.

    图 1  网络拓扑
    Fig. 1  Network topology

    对于值迭代算法1, 跟随者#1 ~ #6对领导者状态矩阵$ E $的估计如图2所示. 将探测噪声设计为具有不同频率正弦信号的和, 收集从$ k=0 $到$ k=200 $的在线数据, 然后重复求解式(30), 直至满足收敛准则. 第$ m $次迭代时第$ i $个跟随者的$ {\cal{W}}_{i}^{(m)} $与其最优值的比较如图3所示. 第$ m $次迭代时第$ i $个跟随者的$ K_{i}^{(m)} $与其最优值的比较如图4所示.

    图 2  算法1下跟随者#1 ~ #6对外部系统矩阵E的估计
    Fig. 2  Estimation of exosystem matrix E for followers #1 ~ #6 under Algorithm 1
    图 3  算法1下${\cal{W}}_{i}^{(m)}$, $i=1,\;2,\;\cdots,\;20$及其最优值的比较
    Fig. 3  The comparison of ${\cal{W}}_{i}^{(m)}$, $i=1,\;2,\;\cdots,\;20$ and their optimal values under Algorithm 1
    图 4  算法1下$K_{i}^{(m)}$, $i=1,\;2,\;\cdots,\;20$及其最优值的比较
    Fig. 4  The comparison of $K_{i}^{(m)}$, $i=1,\;2,\;\cdots,\;20$ and their optimal values under Algorithm 1

    可以观察到, 学习得到的控制增益接近其最优控制增益. 在时间步长$ k=200 $之后, 采用更新后的控制策略, 其跟踪性能如图5所示. 结果表明, 即使初始控制策略不被允许, 值迭代算法仍能有效实现协同输出调节. 图6展示了分布式控制输入的动态响应.

    图 5  算法1下智能体$i$, $i=1,\;2,\;\cdots,\;20$的跟踪误差
    Fig. 5  Tracking errors of agent $i$, $i=1,\;2,\;\cdots,\;20$ under Algorithm 1
    图 6  算法1下智能体$i$, $i=1,\;2,\;\cdots,\;20$的分布式控制输入
    Fig. 6  Distributed control inputs of agent $i$, $i=1,\;2,\;\cdots,\;$ $20$ under Algorithm 1

    策略迭代算法2下的$ K_{i}^{(m)} $和最优控制增益$ K_{i}^{*} $的比较如图7所示. 从结果可以看出, 所有跟随者均能在不到$ 9 $次迭代内完成学习, 这显著少于值迭代算法所需的迭代次数. 在时间步长$ k=200 $之后, 采用更新的控制策略, 其跟踪性能如图8所示. 此外, 跟随者$ \#7 \sim \#12 $对领导者系统状态矩阵$ E $的估计如图9所示. 控制输入的动态响应如图10所示.

    图 7  算法2下$K_{i}^{(m)}$, $i=1,\;2,\;\cdots,\;20$及其最优值的比较
    Fig. 7  The comparison of $K_{i}^{(m)}$, $i=1,\;2,\;\cdots,\;20$ and their optimal values under Algorithm 2
    图 8  算法2下智能体$i$, $i=1,\;2,\;\cdots,\;20$的跟踪误差
    Fig. 8  Tracking errors of agent $i$, $i=1,\;2,\;\cdots,\;20$ under Algorithm 2
    图 9  算法2下跟随者#7 ~ #12对外部系统矩阵$E$的估计
    Fig. 9  Estimation of exosystem matrix $E$ for followers #7 ~ #12 under Algorithm 2
    图 10  算法2下智能体$i$, $i=1,\;2,\;\cdots,\;20$的分布式控制输入
    Fig. 10  Distributed control inputs of agent $i$, $i=1,\;2,\;$ $\cdots,\;20$ under Algorithm 2

    我们将引入两种控制器与本文所设计的控制器进行性能比较. 由于本文所设计方法假设多智能体系统矩阵信息未知, 为保证控制性能比较的公平性, 我们假设所引入的两种控制器在设计时均面临状态和输入矩阵的不确定性. 即, 针对每个智能体$ i $, 其不确定性参数满足: $ |\Delta A_i|\leq 0.035 $, $ |\Delta B_i|\leq 0.1i $.

    1) 基于模型的分布式自适应前馈–反馈控制器[30]:

    $$ \begin{split} &{{u}_{i}}(k)={\bar{K}_{x_i}}{{x}_{i}}(k)+{{{K}_{\eta}}_{i}}{{\eta }_{i}}(k) \\ &{{E}_{i}}(k+1)={{E}_{i}}(k)+{{\mu }_{1}}\sum\limits_{j=0}^{N}{{{a}_{ij}}({{E}_{j}}(k)-{{E}_{i}}(k))} \\ &{{\eta }_{i}}(k+1)={E}_{i}(k){{\eta }_{i}}(k)\;+\\ &\qquad\qquad\quad\; {{\mu }_{2}}{{E}_{i}}(k)\sum\limits_{j=0}^{N}{{{a}_{ij}}({{\eta }_{j}}(k)-{{\eta }_{i}}(k))} \end{split} $$

    2)基于模型的分布式内模控制器[35]:

    $$ \begin{split} &{{u}_{i}}(k)=-{{K}_{{{\delta }_{i}}}}{{\delta }_{i}}(k)-{{K}_{{{z}_{i}}}}{{z}_{i}}(k) \\ &{{z}_{i}}(k+1)={{E}}{{z}_{i}}(k)+{{G}_{2}}{{e}_{v_i}}(k-r_{{\mathrm{com}}})\end{split} $$

    其中, $ {{r}_{{\mathrm{com}}}}=0 $, $ {{\delta }_{i}}(k)=\sum\nolimits_{j\in {{{\cal{N}}}_{i}}}{{{a}_{ij}}({{x}_{i}}(k)-{{x}_{j}}(k))} $, $ {{e}_{{{v}_{i}}}}(k)=\sum\nolimits_{j\in {{{\cal{N}}}_{i}}}{{{a}_{ij}}({{y}_{i}}(k)-{{y}_{j}}(k))} $.

    我们在$ k=200 $后分别应用了本文所提出的控制器、分布式自适应前馈–反馈控制器及基于模型的分布式内模控制器. 仿真结果如图11图12所示, 可以看出, 本文提出的基于值迭代和策略迭代的控制方法在瞬态响应和稳态性能方面均优于另外两种方法. 这是因为基于模型的分布式内模控制策略在很大程度上依赖于模型的精确性, 当模型存在不确定性时, 其鲁棒性相较于本文提出的控制策略显得不足. 本文采用数据驱动的控制方法, 降低了对精确模型的依赖性, 从而显著提升了控制策略的灵活性和自适应性. 基于模型的分布式自适应前馈–反馈控制器在应对含有不确定性系统的输出调节问题时, 因其缺乏足够的鲁棒性, 难以实现对目标的渐近跟踪和外部干扰的有效抑制.

    图 11  本文提出的值迭代控制策略与其他控制策略下跟踪误差动态响应对比
    Fig. 11  Comparison of the tracking error dynamic response under the value iteration control strategy proposed in this paper and other control strategies
    图 12  本文提出的策略迭代控制策略与其他控制策略下跟踪误差动态响应对比
    Fig. 12  Comparison of the tracking error dynamic response under the policy iteration control strategy proposed in this paper and other control strategies

    本文提出基于分布式自适应内模的数据驱动控制策略, 有效解决了系统矩阵未知情况下离散时间多智能体系统的协同输出调节问题. 通过引入值迭代和策略迭代两种强化学习算法, 在不依赖多智能体系统矩阵的前提下, 利用在线数据和领导者状态的估计值学习最优控制器, 实现了多智能体系统的协同输出调节. 通过理论分析, 保证了闭环系统的稳定性和学习算法的收敛性. 本文所提出的方法要求被控对象为线性系统, 在未来, 我们将研究如何基于分布式自适应内模实现非线性离散时间多智能体系统的协同最优输出调节.

    首先定义矩阵:

    $$ \begin{split} &\Delta {\hat{\cal{W}}}_{i}^{(m)}=\\ & \left[ \begin{matrix} \Delta {\hat{\cal{W}}}_{i}^{(m)}[1,\;1] & \Delta {\hat{\cal{W}}}_{i}^{(m)}[1,\;2] & \Delta {\hat{\cal{W}}}_{i}^{(m)}[1,\;3] \\ {{(\Delta {\hat{\cal{W}}}_{i}^{(m)}[1,\;2])}^{\mathrm{T}}} & \Delta \hat{\cal{W}}_{i}^{(m)}[2,\;2] & \Delta {\hat{\cal{W}}}_{i}^{(m)}[2,\;3] \\ {{(\Delta \bar{{\cal{W}}}_{i}^{(m)}[1,\;3])}^{\mathrm{T}}} & {{(\Delta {\hat{\cal{W}}}_{i}^{(m)}[2,\;3])}^{\mathrm{T}}} & \Delta {\hat{\cal{W}}}_{i}^{(m)}[3,\;3] \end{matrix} \right] =\\ & \left[\begin{matrix} \bar{A}_{i}^{\mathrm{T}}\Delta \hat{P}_{i}^{(m)}{{{\bar{A}}}_{i}} & \bar{A}_{i}^{\mathrm{T}}\Delta \hat{P}_{i}^{(m)}{{{\bar{B}}}_{i}} & \bar{A}_{i}^{\mathrm{T}}\Delta \hat{P}_{i}^{(m)}{{S}_{i}} \\ \bar{B}_{i}^{\mathrm{T}}\Delta \hat{P}_{i}^{(m)}{{{\bar{A}}}_{i}} & \bar{B}_{i}^{\mathrm{T}}\Delta \hat{P}_{i}^{(m)}{{{\bar{B}}}_{i}} & \bar{B}_{i}^{\mathrm{T}}\Delta \hat{P}_{i}^{(m)}{{S}_{i}} \\ S_{i}^{\mathrm{T}}\Delta \hat{P}_{i}^{(m)}{{{\bar{A}}}_{i}} & S_{i}^{\mathrm{T}}\Delta \hat{P}_{i}^{(m)}{{{\bar{B}}}_{i}} & S_{i}^{\mathrm{T}}\Delta \hat{P}_{i}^{(m)}{{S}_{i}} \end{matrix} \right] \end{split} $$ (A1)

    接下来, 利用归纳法证明引理1.

    1)当$ m=-1 $时, 令$ \hat{K}_{i}^{(0)}=K_{i}^{(0)} $, $ \hat{P}_{i}^{(0)}=P_{i}^{(0)} $.

    2)当$ m=d $ 时, 假设有$ {\lim }_{|{\rho _i}(k)| \to 0} \,\;\hat{P}_{i}^{(d)}- P_{i}^{(d)}= 0 $且$ {\lim }_{|{\rho _i}(k)| \to 0} \,\hat{K}_{i}^{(d)}-K_{i}^{(d)}=0 $, 令$ \Delta \hat{P}_{i}^{(d)}=P_{i}^{(d)}- \hat{P}_{i}^{(d)} $, 那么下式成立:

    $$ {{\Theta }_{VI,\;i}}\mathrm{vecs}(\Delta {\hat{\cal{W}}}_{i}^{(d+1)})=\Delta \Phi _{VI,\;i}^{(d)} $$ (A2)

    其中, $ {\lim }_{|{\rho _i}(k)| \to 0} \,\;\Delta \Phi _{VI,\;i}^{(d)}\,=\,0 $, 进一步可得到: $ {\lim }_{|{\rho _i}(k)| \to 0} \hat{P}_{i}^{(d+1)}- P_{i}^{(d+1)}=0 $, $ {\lim }_{|{\rho _i}(k)| \to 0} \hat{K}_{i}^{(d+1)}\;- K_{i}^{(d+1)}=0 $.

    因此, 总是可以找到合适的参数$ {{\mu }_{1}} $, $ {{\mu }_{2}}>0 $使引理1成立.

    首先定义矩阵:

    $$\begin{split} &\Delta \bar{{\cal{W}}}_{i}^{(m)}=\\ & \left[\begin{matrix} \Delta \bar{{\cal{W}}}_{i}^{(m)}[1,\;1] & \Delta \bar{{\cal{W}}}_{i}^{(m)}[1,\;2] & \Delta \bar{{\cal{W}}}_{i}^{(m)}[1,\;3] \\ {{(\Delta \bar{{\cal{W}}}_{i}^{(m)}[1,\;2])}^{\mathrm{T}}} & \Delta \bar{{\cal{W}}}_{i}^{(m)}[2,\;2] & \Delta \bar{{\cal{W}}}_{i}^{(m)}[2,\;3] \\ {{(\Delta \bar{{\cal{W}}}_{i}^{(m)}[1,\;3])}^{\mathrm{T}}} & {{(\Delta \bar{{\cal{W}}}_{i}^{(m)}[2,\;3])}^{\mathrm{T}}} & \Delta \bar{{\cal{W}}}_{i}^{(m)}[3,\;3] \end{matrix} \right]=\\ & \left[\begin{matrix} \bar{A}_{i}^{\mathrm{T}}\Delta \bar{P}_{i}^{(m)}{{{\bar{A}}}_{i}} & \bar{A}_{i}^{\mathrm{T}}\Delta \bar{P}_{i}^{(m)}{{{\bar{B}}}_{i}} & \bar{A}_{i}^{\mathrm{T}}\Delta \bar{P}_{i}^{(m)}{{S}_{i}} \\ \bar{B}_{i}^{\mathrm{T}}\Delta \bar{P}_{i}^{(m)}{{{\bar{A}}}_{i}} & \bar{B}_{i}^{\mathrm{T}}\Delta \bar{P}_{i}^{(m)}{{{\bar{B}}}_{i}} & \bar{B}_{i}^{\mathrm{T}}\Delta \bar{P}_{i}^{(m)}{{S}_{i}} \\ S_{i}^{\mathrm{T}}\Delta \bar{P}_{i}^{(m)}{{{\bar{A}}}_{i}} & S_{i}^{\mathrm{T}}\Delta \bar{P}_{i}^{(m)}{{{\bar{B}}}_{i}} & S_{i}^{\mathrm{T}}\Delta \bar{P}_{i}^{(m)}{{S}_{i}} \end{matrix} \right] \end{split} $$ (B1)

    接下来, 通过归纳法证明引理2.

    1)当迭代次数$ m=0 $时, 对于所有跟随者$ i $, 令$ \bar{K}_{i}^{(0)}=K_{i}^{(0)} $, $ \Delta \bar{P}_{i}^{(0)}=P_{i}^{(0)}-\bar{P}_{i}^{(0)} $. 可以证明$ \Delta \bar{P}_{i}^{(0)} $是以下方程的最小二乘解:

    $$ \label{eq40} \Theta _{PI,\;i}^{(0)}\left[ \begin{matrix} \mathrm{vecs}(\Delta \bar{{\cal{W}}}_{i}^{(0)}[1,\;1]) \\ \mathrm{vec}(\Delta \bar{{\cal{W}}}_{i}^{(0)}[1,\;2]) \\ \mathrm{vecs}(\Delta \bar{{\cal{W}}}_{i}^{(0)}[2,\;2]) \\ \mathrm{vec}(\Delta \bar{{\cal{W}}}_{i}^{(0)}[1,\;3]) \\ \mathrm{vec}(\Delta \bar{{\cal{W}}}_{i}^{(0)}[2,\;3]) \\ \mathrm{vecs}(\Delta \bar{{\cal{W}}}_{i}^{(0)}[3,\;3]) \end{matrix} \right]=\Delta \Phi _{PI,\;i}^{(0)} $$ (B2)

    令$ |{{\rho }_{i}}(k)| \ = \ {\max }_{0 \ \le \ k \ \le \ \max (s,\;c)} \,\;{{\rho }_{i}}(k) $, 其中$ {\lim }_{|{\rho _i}(k)| \to 0} \,\;\Delta \Phi _{PI,\;i}^{(0)} = 0 $, 因此有$ {\lim }_{|{\rho _i}(k)| \to 0} \, \bar{P}_{i}^{(0)}\;- P_{i}^{(0)} = 0 $, $ {\lim }_{|{\rho _i}(k)| \to 0} \,\; \bar{K}_{i}^{(1)}-K_{i}^{(1)}=0 $.

    2)当$ m=d $ 时, 假设$ {\lim }_{|{\rho _i}(k)| \to 0} \,\;\bar{K}_{i}^{(d)}- K_{i}^{(d)}= 0 $, 令$ \Delta \bar{P}_{i}^{(d)}=P_{i}^{(d)}-\bar{P}_{i}^{(d)} $, 那么下式成立:

    $$ \Theta _{PI,\;i}^{(d)}\left[ \begin{matrix} \mathrm{vecs}(\Delta \bar{{\cal{W}}}_{i}^{(d)}[1,\;1]) \\ \mathrm{vec}(\Delta \bar{{\cal{W}}}_{i}^{(d)}[1,\;2]) \\ \mathrm{vecs}(\Delta \bar{{\cal{W}}}_{i}^{(d)}[2,\;2]) \\ \mathrm{vec}(\Delta \bar{{\cal{W}}}_{i}^{(d)}[1,\;3]) \\ \mathrm{vec}(\Delta \bar{{\cal{W}}}_{i}^{(d)}[2,\;3]) \\ \mathrm{vecs}(\Delta \bar{{\cal{W}}}_{i}^{(d)}[3,\;3]) \end{matrix} \right]=\Delta \Phi _{PI,\;i}^{(d)} $$ (B3)

    其中, $ {\lim }_{|{\rho _i}(k)| \ \to \ 0} \,\;\Delta \Phi _{PI,\;i}^{(d)} \ = \ 0 $, 进一步得到: $ {\lim }_{|{\rho _i}(k)| \to 0}\,\;\bar{P}_{i}^{(d)}-P_{i}^{(d)}=0 $, $ {\lim }_{|{\rho _i}(k)| \to 0} \,\; \bar{K}_{i}^{(d+1)}\;- K_{i}^{(d+1)}=0 $.

    因此, 总是可以找到合适的参数$ {{\mu }_{1}} $, $ {{\mu }_{2}}>0 $, 使引理2成立.

  • 图  1  网络拓扑

    Fig.  1  Network topology

    图  2  算法1下跟随者#1 ~ #6对外部系统矩阵E的估计

    Fig.  2  Estimation of exosystem matrix E for followers #1 ~ #6 under Algorithm 1

    图  3  算法1下${\cal{W}}_{i}^{(m)}$, $i=1,\;2,\;\cdots,\;20$及其最优值的比较

    Fig.  3  The comparison of ${\cal{W}}_{i}^{(m)}$, $i=1,\;2,\;\cdots,\;20$ and their optimal values under Algorithm 1

    图  4  算法1下$K_{i}^{(m)}$, $i=1,\;2,\;\cdots,\;20$及其最优值的比较

    Fig.  4  The comparison of $K_{i}^{(m)}$, $i=1,\;2,\;\cdots,\;20$ and their optimal values under Algorithm 1

    图  5  算法1下智能体$i$, $i=1,\;2,\;\cdots,\;20$的跟踪误差

    Fig.  5  Tracking errors of agent $i$, $i=1,\;2,\;\cdots,\;20$ under Algorithm 1

    图  6  算法1下智能体$i$, $i=1,\;2,\;\cdots,\;20$的分布式控制输入

    Fig.  6  Distributed control inputs of agent $i$, $i=1,\;2,\;\cdots,\;$ $20$ under Algorithm 1

    图  7  算法2下$K_{i}^{(m)}$, $i=1,\;2,\;\cdots,\;20$及其最优值的比较

    Fig.  7  The comparison of $K_{i}^{(m)}$, $i=1,\;2,\;\cdots,\;20$ and their optimal values under Algorithm 2

    图  8  算法2下智能体$i$, $i=1,\;2,\;\cdots,\;20$的跟踪误差

    Fig.  8  Tracking errors of agent $i$, $i=1,\;2,\;\cdots,\;20$ under Algorithm 2

    图  9  算法2下跟随者#7 ~ #12对外部系统矩阵$E$的估计

    Fig.  9  Estimation of exosystem matrix $E$ for followers #7 ~ #12 under Algorithm 2

    图  10  算法2下智能体$i$, $i=1,\;2,\;\cdots,\;20$的分布式控制输入

    Fig.  10  Distributed control inputs of agent $i$, $i=1,\;2,\;$ $\cdots,\;20$ under Algorithm 2

    图  11  本文提出的值迭代控制策略与其他控制策略下跟踪误差动态响应对比

    Fig.  11  Comparison of the tracking error dynamic response under the value iteration control strategy proposed in this paper and other control strategies

    图  12  本文提出的策略迭代控制策略与其他控制策略下跟踪误差动态响应对比

    Fig.  12  Comparison of the tracking error dynamic response under the policy iteration control strategy proposed in this paper and other control strategies

  • [1] Zhang L, Chen Z Y, Yu X H, Yang J, Li S H. Sliding-mode-based robust output regulation and its application in PMSM servo systems. IEEE Transactions on Industrial Electronics, 2022, 70(2): 1852−1860
    [2] Enderes T, Gabriel J, Deutscher J. Cooperative output regulation for networks of hyperbolic systems using adaptive cooperative observers. Automatica, 2024, 162: Article No. 111506 doi: 10.1016/j.automatica.2023.111506
    [3] Li Y S, Zhang Y, Li X D, Sun C Y. Regional multi-agent cooperative reinforcement learning for city-level traffic grid signal control. IEEE/CAA Journal of Automatica Sinica, 2024, 11(9): 1987−1998 doi: 10.1109/JAS.2024.124365
    [4] Zhang X F, Wang G, Sun J. Data-driven control of consensus tracking for discrete-time multi-agent systems. Journal of the Franklin Institute, 2023, 360(7): 4661−4674 doi: 10.1016/j.jfranklin.2023.02.036
    [5] Zheng S Q, Shi P, Zhang H Y. Semiglobal periodic event-triggered output regulation for nonlinear multiagent systems. IEEE Transactions on Automatic Control, 2023, 68(1): 393−399 doi: 10.1109/TAC.2022.3142123
    [6] Liu T, Huang J. Adaptive cooperative output regulation of discrete-time linear multi-agent systems by a distributed feedback control law. IEEE Transactions on Automatic Control, 2018, 63(12): 4383−4390 doi: 10.1109/TAC.2018.2823266
    [7] Qasem O, Davari M, Gao W, Kirk D R, Chai T Y. Hybrid iteration ADP algorithm to solve cooperative, optimal output regulation problem for continuous-time, linear, multiagent systems: Theory and application in islanded modern microgrids with IBRs. IEEE Transactions on Industrial Electronics, 2023, 71(1): 834−845
    [8] Zhang H G, Liang H J, Wang Z S, Feng T. Optimal output regulation for heterogeneous multiagent systems via adaptive dynamic programming. IEEE Transactions on Neural Networks and Learning Systems, 2015, 28(1): 18−29
    [9] Jing G X, Huang B N, Sun J Y, Xie X P, Sun Q Y. Distributed cooperative control for power sharing of DC distribution network with event-triggered communication mechanism. International Journal of Robust and Nonlinear Control, 2024, 34(5): 3351−3373 doi: 10.1002/rnc.7140
    [10] Hong Y X, Su Y F, Cai H. Internal model based cooperative robust resilient control under DoS attacks with application to vehicles formation. IEEE Transactions on Industrial Informatics, 2024, 20(11): 13124−13134 doi: 10.1109/TII.2024.3431094
    [11] Cai H, Su Y F, Huang J. Cooperative robust output regulation for a class of nonlinear multi-agent systems over jointly connected switching networks. International Journal of Control, 2024, 97(11): 2625−2638
    [12] Xie K D, Jiang Y, Yu X, Lan W Y. Data-driven cooperative optimal output regulation for linear discrete-time multi-agent systems by online distributed adaptive internal model approach. Science China Information Sciences, 2023, 66(7): Article No. 170202 doi: 10.1007/s11432-022-3687-1
    [13] Hao Y H, Zhang J, Liu L. Fully distributed event-triggered cooperative output regulation of multi-agent systems under jointly connected digraphs. IEEE Transactions on Automatic Control, 2023, 68(7): 4241−4248
    [14] Song G, Shi P, Lim C P. Distributed fault-tolerant cooperative output regulation for multiagent networks via fixed-time observer and adaptive control. IEEE Transactions on Control of Network Systems, 2021, 9(2): 845−855
    [15] Deng C, Zhang D, Feng G. Resilient practical cooperative output regulation for MASs with unknown switching exosystem dynamics under DoS attacks. Automatica, 2022, 139: Article No. 110172 doi: 10.1016/j.automatica.2022.110172
    [16] 姜艺, 范家璐, 柴天佑. 数据驱动的保证收敛速率最优输出调节. 自动化学报, 2022, 48(4): 980−991

    Jiang Yi, Fan Jia-Lu, Chai Tian-You. Data-driven optimal output regulation with assured convergence rate. Acta Automatica Sinica, 2022, 48(4): 980−991
    [17] Bian T, Jiang Z P. Value iteration and adaptive dynamic programming for data-driven adaptive optimal control design. Automatica, 2016, 71: 348−360 doi: 10.1016/j.automatica.2016.05.003
    [18] Gao W, Jiang Y, Davari M. Data-driven cooperative output regulation of multi-agent systems via robust adaptive dynamic programming. IEEE Transactions on Circuits and Systems II: Express Briefs, 2018, 66(3): 447−451
    [19] 赵建国, 杨春雨. 复杂工业过程非串级双速率组合分散运行优化控制. 自动化学报, 2023, 49(1): 172−184

    Zhao Jian-Guo, Yang Chun-Yu. Non-cascade dual-rate composite decentralized operational optimal control for complex industrial processes. Acta Automatica Sinica, 2023, 49(1): 172−184
    [20] Jiang Y, Jiang Z P. Computational adaptive optimal control for continuous-time linear systems with completely unknown dynamics. Automatica, 2012, 48(10): 2699−2704 doi: 10.1016/j.automatica.2012.06.096
    [21] Wang B J, Xu L, Yi X L, Jia Y, Yang T. Semiglobal suboptimal output regulation for heterogeneous multi-agent systems with input saturation via adaptive dynamic programming. IEEE Transactions on Neural Networks and Learning Systems, 2022, 35(3): 3242−3250
    [22] Liu W J, Sun J, Wang G, Bullo F, Chen J. Data-driven self-triggered control via trajectory prediction. IEEE Transactions on Automatic Control, 2023, 68(11): 6951−6958 doi: 10.1109/TAC.2023.3244116
    [23] Liu S L, Niu B, Zong G D, Zhao X D, Xu N. Data-driven-based event-triggered optimal control of unknown nonlinear systems with input constraints. Nonlinear Dynamics, 2022, 109(2): 891−909 doi: 10.1007/s11071-022-07459-7
    [24] Jiang Y, Fan J L, Gao W, Chai T Y, Lewis F L. Cooperative adaptive optimal output regulation of nonlinear discrete-time multi-agent systems. Automatica, 2020, 121: Article No. 109149 doi: 10.1016/j.automatica.2020.109149
    [25] Gao W, Jiang Z P, Lewis F L, Wang Y B. Leader-to-formation stability of multiagent systems: An adaptive optimal control approach. IEEE Transactions on Automatic Control, 2018, 63(10): 3581−3587 doi: 10.1109/TAC.2018.2799526
    [26] Cai H, Lewis F L, Hu G Q, Huang J. The adaptive distributed observer approach to the cooperative output regulation of linear multi-agent systems. Automatica, 2017, 75: 299−305 doi: 10.1016/j.automatica.2016.09.038
    [27] Gao W, Mynuddin M, Wunsch D C, Jiang Z P. Reinforcement learning-based cooperative optimal output regulation via distributed adaptive internal model. IEEE Transactions on Neural Networks and Learning Systems, 2021, 33(10): 5229−5240
    [28] Gao W, Liu Y Y, Odekunle A, Yu Y J, Liu P L. Adaptive dynamic programming and cooperative output regulation of discrete-time multi-agent systems. International Journal of Control, Automation and Systems, 2018, 16(5): 2273−2281 doi: 10.1007/s12555-017-0635-8
    [29] Huang J. Nonlinear output regulation: Theory and applications. Society for Industrial and Applied Mathematics, 2004.
    [30] Huang J. The cooperative output regulation problem of discrete time linear multi-agent systems by the adaptive distributed observer. IEEE Transactions on Automatic Control, 2016, 62(4): 1979−1984
    [31] Jiang Z P, Wang Y. Input-to-state stability for discrete-time nonlinear systems. Automatica, 2001, 37(6): 857−869 doi: 10.1016/S0005-1098(01)00028-0
    [32] Yuan J, Wonham W. Probing signals for model reference identification. IEEE Transactions on Automatic Control, 1977, 22(4): 530−538 doi: 10.1109/TAC.1977.1101556
    [33] Lewis F L, Vamvoudakis K G. Reinforcement learning for partially observable dynamic processes: Adaptive dynamic programming using measured output data. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 2010, 41(1): 14−25
    [34] Kleinman D. On an iterative technique for Riccati equation computations. IEEE Transactions on Automatic Control, 1968, 13(1): 114−115 doi: 10.1109/TAC.1968.1098829
    [35] Yan Y, Huang J. Cooperative robust output regulation problem for discrete-time linear time-delay multi-agent systems. International Journal of Robust and Nonlinear Control, 2018, 28(3): 1035−1048 doi: 10.1002/rnc.3917
  • 加载中
图(12)
计量
  • 文章访问数:  211
  • HTML全文浏览量:  2818
  • PDF下载量:  62
  • 被引次数: 0
出版历程
  • 收稿日期:  2024-06-20
  • 录用日期:  2025-01-17
  • 网络出版日期:  2025-02-13
  • 刊出日期:  2025-03-18

目录

/

返回文章
返回