Cooperative Control Strategy Research Based on Hybrid Dual-terminal Event-triggered Mechanism
-
摘要: 针对非线性多智能体系统, 提出基于混合双端事件触发机制的模糊跟踪控制策略. 首先, 相比于现存状态触发机制, 构建一种灵活可调的阈值设计方法以满足系统实时性需求; 其次, 改进的状态触发机制将状态估计信号作为触发信号, 可有效降低现存机制的保守性并提高阈值设计的灵活性; 随后, 针对控制器−执行器环节和传感器−控制器环节, 设计混合双端事件触发机制来同时缓解双信道的通讯负担. 此外, 为解决未知不可测状态的问题, 构造一种仅基于相对输出信息的状态观测器. 最后, 在闭环系统内, 所有信号都是半全局一致最终稳定的, 并用一个实际的仿真例子证明提出控制策略的有效性.
-
关键词:
- 混合双端事件触发机制 /
- 改进的状态触发机制 /
- 多智能体系统 /
- 规定性能方法
Abstract: For nonlinear multiagent systems, this paper proposes the fuzzy tracking control strategy based on hybrid dual-terminal event-triggered mechanism. First of all, compared with existing state triggering mechanisms, a flexible and adjustable threshold designing method is constructed, which meets the real-time performance requirements of the system. Moreover, the improved state triggering mechanism considers the estimated state signal as the trigger signal, which effectively reduces the conservatism of existing mechanisms and enhances the flexibility of threshold design. Subsequently, the hybrid dual-terminal event-triggered mechanism is designed for controller to actuator link and sensor to controller link, which releases dual channel communication pressure, simultaneously. Besides, to solve the problem of unknown unmeasurable state, the state observer is constructed, which bases solely on relative output information. Finally, all the signals are semiglobally uniformly ultimately bounded in the closed-loop system, and a practical simulation example demonstrates the feasibility of the proposed control strategy. -
近年来, 多智能体系统的输出调节问题因其在无人机编队控制、自动驾驶和车联网以及多航天器姿态同步等领域的应用而引起广泛的关注[1−3]. 多智能体输出调节问题的目标是通过设计一种分布式控制策略, 实现每个跟随者的输出信号跟踪参考信号, 并抑制由外部系统描述的干扰信号[4−6]. 目前, 分布式控制策略的设计方法主要有两种: 前馈−反馈方法[7−8]与内模原理方法[9−10].
此外, 在多智能体系统中, 智能体的通信通常受限于系统的通信拓扑结构, 智能体通常只能与邻居进行直接通信. 在领导−跟随多智能体系统中, 跟随者为获得领导者的状态信息, 可通过设计分布式观测器进行估计[7, 11]. 在自主水下航行器[12], 航天器编队控制[13]等实际网络通信中, 通信信道的有限带宽在智能体之间的信息传输中不容忽视[14−18]. 为降低通信负担, 减少通信信道中传输数据的比特数, 一些学者通过设计量化器与编码−解码方案来解决量化通信下多智能体系统的协同输出调节问题. 文献[19]利用对数量化器对控制输入进行量化, 并通过扇形约束方法来处理存在的量化误差. 文献[20]通过设计一种基于缩放函数策略的动态编码−解码方案, 保证量化误差的收敛, 实现多智能体系统跟踪误差渐近收敛到零. 文献[21]将上述结果推广到具有切换拓扑图的多智能体系统上, 解决带有切换图的线性多智能体系统的量化协同输出调节问题. 值得注意的是, 上述研究中所设计的控制策略都是基于模型的, 这就要求每个智能体需要知道系统的模型信息. 然而, 由于通信带宽的固有限制和网络系统固有的脆弱性将导致如时间延迟, 数据包丢失, 信号量化以及网络攻击等现象的发生, 智能体难以完整获得整个系统的动态信息[22−24].
随着自适应动态规划的发展[25−28], 一种针对不确定动态系统的自适应控制方法应运而生, 其优势在于可以利用在线数据通过学习来逼近动态系统的控制策略, 而不必完全了解系统的动态信息, 为模型未知的协同输出调节问题提供新的解决方案. 近年来, 一些学者将最优控制理论与自适应动态规划方法进行结合[29−31], 通过数据驱动的方式求解最优/次优控制策略, 在保证闭环系统实现输出调节的同时, 最小化系统性能指标. 文献[3]利用前馈−反馈方法设计分布式控制策略, 解决跟随者对领导者状态未知的多智能体系统的协同最优输出调节问题. 文献[32]构建分布式自适应内部模型来估计领导者的动态, 并提出基于策略迭代与值迭代的强化学习算法, 在线学习最优控制策略. 文献[33]针对包含外部系统在内的所有智能体动态未知的多智能体系统, 利用内模原理与自适应动态规划方法, 解决协同最优输出调节问题. 然而, 上述的这些研究并未考虑通信信道带宽有限的情况. 而在实际的工程应用中, 如智能交通系统中的自适应巡航控制等问题, 往往期望设计一种能在通信带宽有限且系统动力学未知情况下运行的数据驱动算法, 来实现多智能体系统间的协同最优输出调节, 这促使我们对这一问题进行研究.
本文的主要贡献如下: 1) 通过引入均匀量化器, 设计分布式量化观测器来减少通信信道中传输数据的比特数, 降低多智能体间的通信负担. 同时, 将均匀量化器引入到编码−解码方案设计中, 消除量化误差对多智能体系统的影响, 保证每个跟随者对外部系统状态的估计误差渐近收敛至零. 2) 将分布式量化观测器的估计值引入到次优控制策略的设计中, 在系统动态未知的情况下, 提出一种基于自适应动态规划的数据驱动算法, 在线学习次优控制策略, 解决量化通信下的协同最优输出调节问题. 3) 受文献[32]的启发, 在学习阶段, 本文考虑一个更一般的情况, 即跟随者系统只能通过观测器对领导者的状态进行估计, 而无法直接获得领导者的状态. 在这种情况下, 证明学习到的控制器增益将收敛到最优控制增益的任意小邻域内. 与现有文献相比, 文献[32]需要智能体间的精确通信, 而本文中智能体间传输的为量化后的信息, 降低了多智能体间的通信负担, 并通过引入编码−解码方案消除量化误差的影响, 实现量化通信下外部系统状态估计误差的渐近收敛. 文献[3, 34]不仅需要智能体间的精确通信, 并且需要假设每个跟随者系统都能够获得外部系统状态的实际值. 本文在学习阶段考虑一个更一般的情况, 跟随者系统可通过设计的分布式量化观测器对领导者的状态进行估计, 从而获得外部系统状态的估计值.
本文其余部分安排如下. 第1节介绍图论的基础知识以及相关符号说明; 第2节介绍本文的问题描述; 第3节设计量化通信下的分布式观测器; 第4节提出自适应次优控制策略与自适应动态规划算法; 第5节在智能车联网自适应巡航控制系统上验证理论结果; 第6节总结本文的主要结果, 并提出未来的研究方向.
1. 基础概念
本节介绍一些图论的基础知识以及相关符号的定义.
1.1 图论
多智能体系统通过通信网络与相邻的智能体之间共享信息, 该网络可以使用图论来描述. 在这一部分, 首先介绍图论的一些基本知识. 考虑一个具有$ N $个智能体的有向图$ \mathcal{G}=(\mathcal{V},\; \mathcal{E}) $, 其中$ \mathcal{V}= \{1,\;2,\;\cdots,\;N\} $表示智能体的集合, $ \mathcal{E} \subseteq \mathcal{V} \times \mathcal{V} $表示边的集合, 邻接矩阵被定义为$ \mathcal{A}=[a_{ij}] \in \bf{R}^{N\times N} $, 其中当$ a_{ij}> 0 $时, $ (j,\;i) \in \mathcal{E} $, 否则$ a_{ij}=0 $. 有向图$ \mathcal{G} $的拉普拉斯矩阵被定义为$ \mathcal{L}=[\ell_{ij}]\in \bf{R}^{N\times N} $, 其中$ \ell_{ii}=\sum\nolimits_{j=1}^{N}a_{ij} $, $ \ell_{ij}=-a_{ij} $, $ j\ne i $. 领导者由智能体$ 0 $表示, 由$ N $个智能体和领导者组成的图称为增广有向图$ \mathcal{\bar{G}}=(\mathcal{\bar{V}},\;\mathcal{\bar{E}}) $, 其中$ \mathcal{\bar{V}}= \{0,\;1,\;2,\;\cdots,\;N\} $表示智能体的集合, $ \mathcal{\bar{E}} \subseteq \mathcal{\bar{V}} \times \mathcal{\bar{V}} $表示边的集合. 如果从领导者智能体$ 0 $到智能体$ i\; \in\mathcal{V} $存在有向边, 则$ a_{i0}=1 $, 否则$ a_{i0}=0 $. 定义$ G={\rm diag}\{a_{10}, \;a_{20},\;\cdots,\; a_{N0}\} $表示对角矩阵, 令$ H=\mathcal{L}+G $, $ \mathcal{F}=H+\mathcal{A} $. $ \mathcal{N}_{i}=\left\{j|a_{ij}>0,\; j \in \mathcal{\bar{V}}\right\} $表示智能体 $ i\; \in\mathcal{V} $的邻居集合. 对于一个根节点而言, 如果存在从根节点到每个其他节点的有向路径, 则该有向图具有有向生成树.
1.2 符号说明
$ \bf{Z} $表示整数的集合. $ ||\cdot|| $为向量的欧氏范数和矩阵的$ 2 $范数. 对于列向量$ l=(l_{1},\; l_{2},\;\cdots,\; l_{n})^{{\mathrm{T}}} \in \bf{R}^{n} $, $ ||l||_{\infty}={\rm max}_{1\leq i\leq n}|l_{i}| $. $ \otimes $表示克罗内克积算子. 对于矩阵$ X \in \bf{R}^{m\times m} $, $ \rho(X) $表示它的谱半径, $ \lambda(X) $表示它的特征值, $ \sigma(X) $表示它的谱. $ {\rm tr}(X) $表示它的迹. $ X>0 $表示为正定矩阵, $ X\ge0 $表示为半正定矩阵. 对于矩阵$ X \in \bf{R}^{m\times n} $, $ {\rm rank}(X) $表示它的列秩. $ {\rm vec}(A)=[a^{{\mathrm{T}}}_{1},\; a^{{\mathrm{T}}}_{2},\; \cdots,\; a^{{\mathrm{T}}}_{q}]^{{\mathrm{T}}} \in \bf{R}^{pq} $ 表示将矩阵$ A\in \bf{R}^{p\times q} $向量化, 其中$ a_{i}\in\bf{R}^{p} $是矩阵$ A $的第$ i $列. 对于对称矩阵$ B \in \bf{R}^{m\times m} $, $ b_{mm} $为矩阵$ B $中第$ m $行第$ m $列的元素, $ {\rm vecs}(B)=[b_{11},\; 2b_{12},\;\cdots,\; 2b_{1m},\; b_{22}, 2b_{23},\;\cdots,\;2b_{m-1,\;m},\;b_{mm}]^{{\mathrm{T}}} \in \bf{R}^{\frac{1}{2}m(m+1)} $. 针对任意的列向量$ c\in \bf{R}^{n} $, $ c_{n} $为$ c $中第$ n $个元素, $ {\rm vecv}(c)= [c^{2}_{1},\;\, c_{1}c_{2},\;\,\cdots,\;\,c_{1}c_{n},\;\,c^{2}_{2},\;\,c_{2}c_{3},\;\cdots,\;c_{n-1}c_{n} $, $ c^{2}_{n}]^{{\mathrm{T}}} \in \bf{R}^{\frac{1}{2}n(n+1)}$. $ D={\rm blockdiag}\{D_{1},\;D_{2},\;\cdots,\;D_{N} \} $表示分块对角矩阵, 其中$ D_{i} $为对角块, $ i=1,\; 2,\;\cdots,\; N $. $ \mathbf{1}_n $与$ {I}_n $分别表示$ n $维全1列向量与$ n\times n $维单位矩阵. 针对复数$ {\textit z} $, $ {\rm Re}({\textit z}) $表示$ {\textit z} $的实部.
2. 问题描述
本文考虑如下一类连续时间线性多智能体系统:
$$ \dot{x}_i=A_{i}x_{i}+B_{i}u_{i}+D_{i}\omega\; $$ (1a) $$ \dot{\omega}=E\omega\; $$ (1b) $$ e_{i}=C_{i}x_{i}+F_{i}\omega,\; \quad i\in \mathcal{V}\; $$ (1c) 其中, $ x_i\in\bf{R}^{n_i} $, $ u_i\in\bf{R}^{m_i} $, $ e_i\in\bf{R}^{p_i} $分别表示第$ i $个智能体的状态向量, 输入向量以及跟踪误差. 系统(1)的矩阵维数分别为$ A_i\in\bf{R}^{n_i\times n_i} $, $ B_i\in\bf{R}^{n_i\times m_i} $, $ D_i\in\bf{R}^{n_i\times q} $, $ C_i\in\bf{R}^{p_i\times n_i} $, $ F_i\in\bf{R}^{p_i\times q} $. 自治系统(1b)称为外部系统, 其中, $ \omega\in\bf{R}^{q} $表示外部系统的状态, $ E\in\bf{R}^{q\times q} $表示外部系统矩阵.
针对以上系统, 本文给出一些基本假设条件如下所示:
假设1. $ (A_i,\;B_i) $可镇定, $ i\in \mathcal{V} $.
假设2. $ {\rm rank}\left[ \begin{matrix} A_{i}-\lambda I_{n_i} & B_{i} \\ C_{i} & 0 \end{matrix} \right]= n_{i}+p_{i},\; \forall \lambda \in \sigma(E),\; i\in \mathcal{V}. $
假设3. 有向图$ \mathcal{\bar{G}} $包含以智能体$ 0 $为根节点的有向生成树.
注1. 假设1和假设2均为多智能体系统输出调节问题中的基本假设[4, 30]. 如果假设3成立, 则$ H $的所有特征值均具有正实部[8].
引理1[3, 8] . 假设1 ~ 3成立, 对于$ j=1,\;2,\;\cdots,\;q $, $ i\in \mathcal{V} $, 选择充分大的 $ \alpha>0 $ 使 $ {\rm Re}(\lambda_{j}(E)- \alpha\lambda_{i} (H))< 0 $, 其中$ \lambda_{j}(E) $和$ \lambda_{i}(H) $分别为$ E $的第$ j $个和$ H $的第$ i $个特征值, 令$ K_{i} $使$ A_{i}-B_{i}K_{i} $赫尔维玆, $ L_{i}=K_{i}X_{i}+U_{i} $, 其中$ (X_{i},\;U_{i}) $为以下调节器方程的一组解:
$$ X_{i}E=A_{i}X_{i}+B_{i}U_{i}+D_{i}\; $$ (2a) $$ 0=C_{i}X_{i}+F_{i} $$ (2b) 通过设计控制策略$ u_{i}=-K_{i}x_{i}+L_{i}\eta_{i} $可实现多智能体系统(1)的协同输出调节, 其中$ \eta_{i} $为第$ i $个跟随者对领导者状态$ \omega $的估计值.
本文的控制目标是通过设计一种次优控制策略
$$ u_{i}=-K^{*}_{i}x_{i}+L^{*}_{i}\eta_{i},\;\quad i\in \mathcal{V}\; $$ (3) 实现多智能体系统的协同最优输出调节. 其中$ K^{*}_{i} $为最优反馈控制增益, $ L^{*}_{i} $为最优前馈控制增益.
此外, 所设计的次优控制策略, 不仅需要解决协同输出调节问题, 同时还需要解决以下两个优化问题.
问题1.
$$ \begin{aligned} &\min\limits_{(X_{i},\;U_{i})}\quad {\rm tr}(X^{{\mathrm{T}}}_{i}Q_{i}X_{i}+U^{{\mathrm{T}}}_{i}R_{i}U_{i})\;\\ &\; \rm{s.t.}\quad (2)\; \end{aligned} $$ 其中, $ Q_{i}=Q^{{\mathrm{T}}}_{i}>0 $, $ R_{i}=R^{{\mathrm{T}}}_{i}>0 $.
根据文献[35]可知, 求解静态优化问题1能够得到调节器方程(2)的唯一最优解$ (X^{*}_{i},\;U^{*}_{i}) $, 最优前馈控制增益$ L^{*}_{i}=K^{*}_{i}X^{*}_{i}+U^{*}_{i} $. 接下来, 为得到最优反馈控制增益$ K^{*}_{i} $, 需要求解以下动态规划问题.
定义状态误差变量$ \bar{x}_{i}=x_{i}-X^{*}_{i}\omega $与输入误差变量$ \bar{u}_{i}=u_{i}-U_{i}^{*}\omega $. 根据调节器方程(2)与次优控制策略(3)能够得到系统(1a)的误差系统为
$$ \dot{\bar{x}}_{i}=A_{i}\bar{x}_{i}+B_{i}\bar{u}_{i}\; $$ (4a) $$ e_{i}=C_{i}\bar{x}_{i}\; $$ (4b) 其中, 控制输入为$ \bar{u}_{i}=-K^{*}_{i}\bar{x}_{i}+L^{*}_{i}(\eta_{i}-\omega) $. 误差系统(4)的最优控制策略为$ \bar{u}_{i}=-K^{*}_{i}\bar{x}_{i} $, 可通过求解以下优化问题获得.
问题2.
$$ \begin{aligned} &\min \limits_{\bar{u}_{i}}\quad \int_{0}^{\infty} (\bar{x}^{{\mathrm{T}}}_{i}\bar{Q}_{i}\bar{x}_{i}+\bar{u}^{{\mathrm{T}}}_{i}\bar{R}_{i}\bar{u}_{i}){\mathrm{d}}t\;\\ &\; \rm{s.t.}\quad (4)\; \end{aligned} $$ 其中, $ \bar{Q}_{i} = \bar{Q}^{{\mathrm{T}}}_{i}\ge 0 $, $ \bar{R}_{i} = \bar{R}^{{\mathrm{T}}}_{i}>0 $, $ (A_{i},\;\sqrt{\bar{Q}_{i}}) $可观测.
问题2是一个标准的线性二次型调节器问题, 根据线性最优控制理论, 最优反馈增益$ K^{*}_{i} $为
$$ K^{*}_{i}=\bar{R}^{-1}_{i}B^{{\mathrm{T}}}_{i}P^{*}_{i}\; $$ (5) 其中, $ P^{*}_{i}=(P^{*}_{i})^{{\mathrm{T}}}>0 $是以下代数黎卡提方程的唯一解:
$$ A^{{\mathrm{T}}}_{i}P_{i}^{*}+P_{i}^{*}A_{i}+\bar{Q}_{i}-P_{i}^{*}B_{i}\bar{R}^{-1}_{i}B^{{\mathrm{T}}}_{i}P_{i}^{*}=0 $$ (6) 注2. 根据文献[3]中定理1的分析可知, 问题2的性能指标中应用控制策略$ \bar{u}_{i}=-K^{*}_{i}\bar{x}_{i}+L^{*}_{i}(\eta_{i}\,- \omega) $与最优控制策略$ \bar{u}_{i}=-K^{*}_{i}\bar{x}_{i} $之间的成本误差是有界的. 因此, 本文所设计的控制策略(3)是次优控制策略.
由于最优反馈控制增益$ K^{*}_{i} $和最优前馈控制增益$ L^{*}_{i} $是相互独立的, 因此问题1和问题2可以分别进行求解. 值得注意的是, 直接求解非线性方程(6)往往比较困难, 尤其是针对维数比较高的矩阵. 因此, 通常采用以下策略迭代的方法来解决此类问题[36].
简单而言, 选择一个使闭环系统稳定并保证所需成本有限的反馈控制增益$ K_{i,\;0} $, 即$ A_{i}-B_{i}K_{i,\;0} $是赫尔维玆矩阵. 通过策略迭代的方式求解如下Lyapunov方程来更新值$ P_{i,\;k} $:
$$ \begin{split} &(A_{i}-B_{i}K_{i,\;k})^{{\mathrm{T}}}P_{i,\;k}+P_{i,\;k}(A_{i}-B_{i}K_{i,\;k})\;+\\ & \qquad\bar{Q}_{i}+ K^{{\mathrm{T}}}_{i,\;k}\bar{R}_{i}K_{i,\;k}=0\; \end{split} $$ (7) 其中, $ k=1,\;2,\;\cdots $表示迭代次数. 通过以下方程来更新反馈控制增益
$$ K_{i,\;k+1}=\bar{R}^{-1}_{i}B^{{\mathrm{T}}}_{i}P_{i,\;k} $$ (8) 文献[36]已证明策略迭代方法中的每一次迭代反馈控制增益$ K_{i,\;k} $都可接受, 即保证了$ A_{i}\;- B_{i}K_{i,\;k} $是赫尔维玆矩阵. 同时也保证了$ \mathop{\lim}\nolimits_{k \to \infty}K_{i,\;k} = K_{i}^* $且$ \mathop{\lim}\nolimits_{k \to \infty}P_{i,\;k}=P_{i}^* $.
3. 量化通信下分布式观测器设计
为降低多智能体间的通信负担, 在本节中, 通过引入量化器与编码−解码方案设计分布式量化观测器, 用于估计量化通信下领导者的状态$ \omega $.
3.1 编码−解码方案设计
在正式介绍编码−解码方案之前, 首先考虑一种均匀量化器$ \mathcal{Q}[e] $[37]:
$$ \mathcal{Q}[e]=\varsigma,\;\quad \varsigma-\frac{1}{2}<e \leq \varsigma+\frac{1}{2}\; $$ (9) 其中, $ \varsigma\in\bf{Z} $, $ e $表示需要量化的变量.
给定向量$ h=[h_{1},\;h_{2}\cdots,\;h_{n}]\in \bf{R}^{n} $, 定义量化器$ \mathcal{Q}[h]=[\mathcal{Q}[h_{1}],\;\cdots,\; \mathcal{Q}[h_{n}]] $. 量化误差为
$$ ||h-\mathcal{Q}[h]||_{\infty} \leq \frac{1}{2} $$ (10) 由于量化误差的存在, 智能体无法获得邻居传输的准确信息, 为消除量化误差带来的影响, 将量化器引入到如下编码−解码方案的设计之中.
1)编码器
为传输$ \eta_j(k) $量化后的数据, 对于任意$ k\ge1 $, 智能体$ j \in \mathcal{\bar{V}} $生成的量化输出为$ {\textit z}_j(k) $, 即
$$ {\textit z}_{j}(k)=\mathcal{Q}\left[\frac{1}{s(k-1)}(\eta_j(k)-b_j(k-1))\right]\; $$ (11a) $$ b_j(k)=s(k-1){\textit z}_{j}(k)+b_j(k-1) $$ (11b) 其中, 内部状态$ b_j(k) $的初值$ b_j(0)=0 $, $ s(k)= s(0) \mu^k>0 $为自适应调整编码器的递减序列, $ \mu\in (0,\;1) $.
2)解码器
当智能体$ i $从邻居智能体$ j $接收到量化后的数据$ {\textit z}_{j}(k) $时, 通过以下规则递归生成$ \eta_j(k) $的估计值$ \hat{\eta}_j(k) $, 并通过零阶保持器输出为连续信号$ \hat{\eta}_j(t) $, 即
$$ \hat{\eta}_j(k)=s(k-1){\textit z}_{j}(k)+\hat{\eta}_j(k-1)\; $$ (12a) $$ \hat{\eta}_j(t)=\hat{\eta}_j(k),\; kT \leq t<(k+1)T\; $$ (12b) 其中, 初值$ \hat{\eta}_j(0)=0 $, $ T>0 $为采样时间, 其选取遵循香农采样定理.
如图 1所示, 对智能体$ i $和邻居智能体$ j $之间的通信而言, 在每个采样时刻, 智能体$ j $对外部系统状态的估计值$ \eta_j(t) $进行采样, 并将采样后的数据$ \eta_j(k) $编码为量化后的数据$ {\textit z}_j(k) $, 然后通过通信信道传输给邻居智能体$ i $. 邻居智能体$ i $接收到数据信息之后通过解码器解码为$ \hat{\eta}_j(k) $, 进而通过零阶保持器得到发送者状态的估计值$ \hat{\eta}_j(t) $. 其中$ b_j(k) $表示一个预测器, 目的是预测智能体$ j $的邻居智能体$ i $经过解码后的得到的数据$ \hat{\eta}_j(k) $.
注3. 在编码−解码方案设计中, $ s(k) $表示用于调整预测误差$ \eta_j(k)-b_j(k-1) $的调节函数. $ \mu\in (0,\;1) $保证了随着迭代次数的增加, 智能体$ i $对邻居智能体$ j $传输数据的估计误差$ \eta_j(k)-\hat{\eta}_j(k) $逐渐减小, 即消除了量化误差对传输数据准确性的影响.
3.2 分布式量化观测器
接下来, 将上述经编码−解码方案传输的估计值$ \hat{\eta}_j(t) $引入到分布式观测器的设计当中, 针对每个跟随者$ i \in \mathcal{V} $, 受文献[8]的启发, 本文构建分布式量化观测器如下:
$$ \dot{\eta}_i=E\eta_i+\alpha \sum\limits_{j \in \mathcal{N}_i} a_{i j}\left(\hat{\eta}_j-\eta_i\right) $$ (13) 其中, $ \eta_i \in \bf{R}^{q} $, 参数$ \alpha>0 $. $ \hat{\eta}_j \in \bf{R}^{q} $表示智能体$ i $对$ \eta_j $经过编码−解码后的估计值, $ \hat{\eta}_0 = \hat{\omega} $.
本文理论部分的全文流程图如图 2所示. 本文利用量化器与编码−解码方案设计分布式量化观测器, 在减少通讯负担的同时, 对外部系统的状态进行估计. 定理1证明了所提观测器对外部系统状态估计误差的收敛性. 通过求解问题1与问题2设计次优控制策略. 当系统模型未知时, 我们给出一个在线学习算法1, 通过数据驱动的方式在线求解次优控制策略. 定理2则证明了由算法1得到的次优控制策略能够实现量化通信下的自适应协同最优输出调节.
接下来, 通过以下定理说明所设计的分布式量化观测器保证了对外部系统状态估计误差的收敛性.
定理1. 考虑外部系统(1b)和分布式量化观测器(13), 如果假设1 ~ 3成立, 对于充分大的$ \alpha>0 $, 经过编码−解码后, 智能体$ i $对外部系统状态的估计误差
$$ \mathop{\lim}\limits_{t \to \infty}(\eta_{i}(t)-\omega(t))=0\; $$ (14) 其中, $ i \in \mathcal{V} $.
证明. 定义$ \bar{\eta}(t)=[\eta_{1}^{{\mathrm{T}}}(t),\; \eta_{2}^{{\mathrm{T}}}(t),\; \cdots,\; \eta_{N}^{{\mathrm{T}}}(t)]^{{\mathrm{T}}} $, $ \hat{\eta}(t)=[\hat{\eta}_{1}^{{\mathrm{T}}}(t),\; \hat{\eta}_{2}^{{\mathrm{T}}}(t),\; \cdots,\; \hat{\eta}_{N}^{{\mathrm{T}}}(t)]^{{\mathrm{T}}} $, $ \bar{\omega}(t)=\mathbf{1}_N\otimes \omega(t) $, $ \hat{\bar{\omega}}(t)=\mathbf{1}_N\otimes\hat{\omega}(t) $, $ \bar{E}={ I_{{N}}}\otimes E $. 将外部系统(1b)与分布式量化观测器(13)整理成如下紧凑形式:
$$ \dot{\bar{\omega}}(t)=\bar{E}\bar{\omega}(t)\; $$ (15a) $$ \begin{split} \dot{\bar{\eta}}(t)=\;&\bar{E}\bar{\eta}(t)-\alpha(\mathcal{F}\otimes I_{q})\bar{\eta}(t)\;+ \\ &\alpha(\mathcal{A}\otimes I_{q})\hat{\eta}(t)+\alpha(H\otimes I_{q})\hat{\bar{\omega}}(t) \end{split} $$ (15b) 定义$ e_{\omega}(t)=\bar{\omega}(t)-\hat{\bar{\omega}}(t) $, $ e_{\eta}(t)=\bar{\eta}(t)-\hat{\eta}(t) $, 可得
$$ \begin{split} \dot{\bar{\eta}}(t)=\;&(\bar{E}-\alpha(H\otimes I_{q}))\bar{\eta}(t)\;+\\ &\alpha(H\otimes I_{q})\bar{\omega}(t)-\alpha(\mathcal{A}\otimes I_{q})e_{\eta}(t)\;-\\ &\alpha(H\otimes I_{q})e_{\omega}(t) \end{split} $$ (16) 定义$ \tilde{\eta}(t)=\bar{\eta}(t)-\bar{\omega}(t) $, 根据式(15a)和式(16)有
$$ \begin{split} \dot{\tilde{\eta}}(t)=\;&(\bar{E}-\alpha(H\otimes I_{q}))\tilde{\eta}(t)\;-\\ &\alpha(\mathcal{A}\otimes I_{q})e_{\eta}(t)-\alpha(H\otimes I_{q})e_{\omega}(t) \end{split} $$ (17) 根据引理1可知, 对于$ j=1,\;2,\;\cdots,\;q $, $ i\in \mathcal{V} $, $ {\rm Re}(\lambda_{j}(E)-\alpha\lambda_{i}(H))<0 $, 其中$ \lambda_{j}(E) $和$ \lambda_{i}(H) $分别为$ E $的第$ j $个和$ H $的第$ i $个特征值, 即$ \bar{E}- \alpha(H\otimes I_{q}) $是赫尔维玆的.
令$ E_h=\bar{E}-\alpha(H\otimes I_{q}) $, $ E_H=\alpha(H\otimes I_{q}) $, $ E_A= \alpha(\mathcal{A}\otimes I_{q}) $, 则式(16)可改写为
$$ \begin{split} \dot{\bar{\eta}}(t)=\;&E_{h}\bar{\eta}(t)+E_{H}\bar{\omega}(t)\;-\\ &E_{A}e_{\eta}(t)-E_{H}e_{\omega}(t) \end{split} $$ (18) 由于$ \hat{\bar{\omega}}(t) $与$ \hat{\eta}(t) $使用编码−解码方案进行更新, 将系统(15a)与(18)进行离散化. 定义$ e_{\omega}(k)= \bar{\omega}(k)-\hat{\bar{\omega}}(k) $, $ e_{\eta}(k)=\bar{\eta}(k)-\hat{\eta}(k) $, 系统(15a)与(18)利用零阶保持器方法进行离散化[38], 即
$$ \bar{\omega}(k+1)={\mathrm{e}}^{\bar{E}{{T}}}\bar{\omega}(k)\; $$ (19a) $$ \begin{split} \bar{\eta}(k+1)=\;&{\mathrm{e}}^{E_{h}{{T}}}\bar{\eta}(k)+\int_{0}^{{{T}}}{\mathrm{e}}^{E_{h}\tau}E_{H}{\mathrm{d}}\tau\bar{\omega}(k)\; -\\ &\int_{0}^{{{T}}}{\mathrm{e}}^{E_{h}\tau}E_{A}{\mathrm{d}}\tau e_{\eta}(k) \;-\\ &\int_{0}^{{{T}}}{\mathrm{e}}^{E_{h}\tau}E_{H}{\mathrm{d}}\tau e_{\omega}(k)\; \end{split} $$ (19b) 其中, $ T $为采样时间, 其选取遵循香农采样定理.
接下来, 将预测器$ b_{j}(k) $表示为紧凑型, 其中$ j \in \mathcal{\bar{V}} $. 定义$ b_{\omega}(k)=\mathbf{1}_N\otimes b_0(k) $, $ b_{\eta}(k)=[b_1^{{\mathrm{T}}}(k),\;b_2^{{\mathrm{T}}} (k),\; \cdots,\; b_N^{{\mathrm{T}}}(k)]^{{\mathrm{T}}} $. 预测器$ b_{j}(k) $表示对智能体 $ i $经过解码后得到的数据$ \hat{\eta}_j(k) $的预测, 根据$ \hat{\eta}_0(k) = \hat{\omega}(k) $, 且初始值$ b_{\omega}(0)=\hat{\bar{\omega}}(0) $, $ b_{\eta}(0)=\hat{\eta}(0) $, 可得$ b_{\omega}(k)=\hat{\bar{\omega}}(k) $, $ b_{\eta}(k)=\hat{\eta}(k) $. 因此, $ e_{\omega}(k)= \bar{\omega}(k)\;- b_{\omega}(k) $, $ e_{\eta}(k)=\bar{\eta}(k)-b_{\eta}(k) $.
根据式(11), 有
$$ \begin{split} b_{\omega}(k)=\;&s(k - 1)\mathcal{Q}\left[\frac{1}{s(k - 1)}(\bar{\omega}(k) - b_{\omega}(k - 1))\right] +\\&b_{\omega}(k-1) \end{split} $$ (20a) $$ \begin{split} b_{\eta}(k)=\;&s(k - 1)\mathcal{Q}\left[\frac{1}{s(k - 1)}(\bar{\eta}(k) - b_{\eta}(k - 1))\right]+\\ &b_{\eta}(k-1) \end{split} $$ (20b) 将式(19a)的左右两边同时减去$ b_{\omega}(k) $, 可以得到
$$ \begin{split} &\bar{\omega}(k+1)-b_{\omega}(k)={\mathrm{e}}^{\bar{E}T}\bar{\omega}(k)-b_{\omega}(k)=\\ &\quad {{e}}_{\omega}(k)+({\mathrm{e}}^{\bar{E}T}-I_{qN})\bar{\omega}(k)=s(k)\theta_{\omega}(k)\; \end{split} $$ (21) 其中, $ \theta_{\omega}(k)=\frac{e_{\omega}(k)}{s(k)}+\frac{1}{s(k)}({\mathrm{e}}^{\bar{E}T}-I_{qN})\bar{\omega}(k) $.
基于式(20a)和式(21), 可得
$$ \begin{split} e_{\omega}(k+1)=\;&\bar{\omega}(k+1)-b_{\omega}(k+1)= \\ & \bar{\omega}(k+1)-b_{\omega}(k)\;-\\ & s(k)\mathcal{Q}\left[\frac{1}{s(k)}(\bar{\omega}(k+1)-b_{\omega}(k))\right]=\\ & s(k)(\theta_{\omega}(k)-\mathcal{Q}[\theta_{\omega}(k)])\\[-3pt]\end{split} $$ (22) 同理, 将式(19b)的左右两边同时减去$ b_{\eta}(k) $, 可得
$$ \begin{split} &\bar{\eta}(k+1)-b_{\eta}(k)=\\ &\quad ({\mathrm{e}}^{E_{h}T}-I_{qN})\bar{\eta}(k)+\int_{0}^{{{T}}}{\mathrm{e}}^{E_{h}\tau}E_{H}{\mathrm{d}}\tau\bar{\omega}(k)\;+\\ &\quad (I_{qN}-\int_{0}^{{{T}}}{\mathrm{e}}^{E_{h}\tau}E_{A}{\mathrm{d}}\tau)e_{\eta}(k)\;-\\ &\quad \int_{0}^{{{T}}}{\mathrm{e}}^{E_{h}\tau}E_{H}{\mathrm{d}}\tau e_{\omega}(k)= s(k)\theta_{\eta}(k)\; \end{split} $$ (23) 其中,
$$\begin{split} \theta_{\eta}(k)=&\frac{1}{s(k)}({\mathrm{e}}^{E_{h}T}-I_{qN})\bar{\eta}(k)\;+\\&\frac{1}{s(k)}\int_{0}^{{{T}}}{\mathrm{e}}^{E_{h}\tau} E_{H} {\mathrm{d}}\tau\bar{\omega}(k)\;+\\& \frac{e_{\eta}(k)}{s(k)}(I_{qN}-\int_{0}^{{{T}}}{\mathrm{e}}^{E_{h}\tau}E_{A}{\mathrm{d}}\tau)\;-\\& \frac{e_{\omega}(k)}{s(k)} \int_{0}^{{{T}}}{\mathrm{e}}^{E_{h}\tau} E_{H}{\mathrm{d}}\tau \end{split}$$ 基于式(20b)和式(23), 可得
$$ \begin{split} e_{\eta}(k+1)=\;&\bar{\eta}(k+1)-b_{\eta}(k+1)=\\ & \bar{\eta}(k+1)-b_{\eta}(k)\;-\\ & s(k)\mathcal{Q}\left[\frac{1}{s(k)}(\bar{\eta}(k+1)-b_{\eta}(k))\right]=\\ & s(k)(\theta_{\eta}(k)-\mathcal{Q}[\theta_{\eta}(k)]) \end{split} $$ (24) 根据式(22), 式(24)以及量化误差(10), 有
$$ ||\frac{e_{\omega}(k)}{s(k)}||_{\infty}\leq\frac{1}{2\mu}\; $$ (25a) $$ ||\frac{e_{\eta}(k)}{s(k)}||_{\infty}\leq\frac{1}{2\mu}\; $$ (25b) 由$ \mathop{\lim}\nolimits_{k \to \infty}s(k) = 0 $可知$ \mathop{\lim}\nolimits_{k \to \infty}e_{\omega}(k) = e_{\eta}(k) = 0 $, 进而可知$ \mathop{\lim}\nolimits_{t \to \infty}e_{\omega}(t) = e_{\eta}(t) = 0 $. 由$ \bar{E}-\alpha(H\otimes I_{q}) $是赫尔维玆的, $ \mathop{\lim}\nolimits_{t \to \infty}e_{\omega}(t)=e_{\eta}(t)=0 $, 根据文献[39]引理$ 9.1 $, 可知$ \mathop{\lim}\nolimits_{t \to \infty}\tilde{\eta}(t)=0 $. 因此, 对于每个跟随者$ i \in \mathcal{V} $, 有$ \mathop{\lim}\nolimits_{t \to \infty}\tilde{\eta}_{i}(t)=0 $.
□ 4. 量化通信下自适应动态规划算法设计
在第3节中, 通过设计的分布式量化观测器可使每个跟随者渐近观测到外部系统的状态信息. 在本节中, 将观测到的估计值$ \eta_{i}(t) $引入到自适应动态规划算法的学习阶段, 进而设计一种数据驱动的方法来解决量化通信下的协同最优输出调节问题. 值得注意的是, 该方法能够近似逼近控制增益$ K^* $与$ L^* $, 而不需要知道系统矩阵$ A_{i} $, $ B_{i} $与$ D_{i} $的先验知识.
考虑第$ i $个智能体, 定义$ \bar{x}_{ij}=x_{i}-X_{ij}\omega $, $ X_{ij}\in \bf{R}^{n_{i}\times q} $表示$ C_{i}X_{ij}+F=0 $的基础解系. 其中, $ i \in \mathcal{V} $, $ j=0,\;1,\;\cdots,\;h_{i}+1 $. $ h_{i}=(n_{i}-p_{i })q $ 表示 $ I_{q}\otimes C_{i} $零空间的维数. 接下来, 定义一个西尔维斯特方程$ S_{i}(X_{ij})=X_{ij}E-A_{i}X_{ij} $, $ X_{ij} \in \bf{R}^{n_{i} \times q} $, 根据输入误差变量$ \bar{u}_{i}=u_{i}-U_{i}^{*}\omega $与(2a), 式(4)可改写为
$$ \begin{split} \dot{\bar{x}}_{i}=&\;A_{i}\bar{x}_{i}+B_{i}\bar{u}_{i}=\\ &\bar{A}_{i}\bar{x}_{ij}+B_{i}(K_{i,\;k}\bar{x}_{ij}+u_{i})\;+\\ &(D_{i}-S_{i}(X_{ij}))\omega =\\ &\bar{A}_{i}\bar{x}_{ij}+B_{i}(K_{i,\;k}\bar{x}_{ij}+u_{i})\;+\\ & (D_{i}-S_{i}(X_{ij}))\eta_{i}-(D_{i}-S_{i}(X_{ij}))\tilde{\eta}_{i} \end{split} $$ (26) 其中, $ \bar{A}_{i}=A_{i}-B_{i}K^{*}_{i} $. 通过增大$ \alpha $, 可使$ \tilde{\eta}_{i}(t) $以所需的速度收敛到零[32].
根据式(26)以及代数黎卡提方程(7)和(8), 有
$$ \begin{split} &\bar{x}^{{\mathrm{T}}}_{ij}(t+\delta)P_{i,\;k}\bar{x}_{ij}(t+\delta)-\bar{x}^{{\mathrm{T}}}_{ij}(t)P_{i,\;k}\bar{x}_{ij}(t)=\\ &\quad\int_{t}^{t+\delta} (\bar{x}^{{\mathrm{T}}}_{ij}(\bar{A}_{i}^{{\mathrm{T}}}P_{i,\;k}+P_{i,\;k}\bar{A}_{i})\bar{x}_{ij}\;+\\ &\quad2(u_{i}+K_{i,\;k}\bar{x}_{ij})^{{\mathrm{T}}}B^{{\mathrm{T}}}_{i}P_{i,\;k}\bar{x}_{ij}\;+\\ &\quad2\eta_{i}^{{\mathrm{T}}}(D_{i}-S_{i}(X_{ij}))^{{\mathrm{T}}}P_{i,\;k}\bar{x}_{ij})\,\; {\mathrm{d}}\tau=\\ &\quad\int_{t}^{t+\delta} (-\bar{x}^{{\mathrm{T}}}_{ij}(\bar{Q}_{i}+ K^{{\mathrm{T}}}_{i,\;k}\bar{R}_{i}K_{i,\;k})\bar{x}_{ij}\;+\\ &\quad2(u_{i}+K_{i,\;k}\bar{x}_{ij})^{{\mathrm{T}}}\bar{R}_{i}K_{i,\;k+1}\bar{x}_{ij}\;+\\ &\quad2\eta_{i}^{{\mathrm{T}}}(D_{i}-S_{i}(X_{ij}))^{{\mathrm{T}}}P_{i,\;k}\bar{x}_{ij})\,\; {\mathrm{d}}\tau \end{split} $$ (27) 通过克罗内克积的性质, 有
$$ \begin{split} &\bar{x}^{{\mathrm{T}}}_{ij}(\bar{Q}_{i}+ K^{{\mathrm{T}}}_{i,\;k}\bar{R}_{i}K_{i,\;k})\bar{x}_{ij}= \\ &\quad(\bar{x}^{{\mathrm{T}}}_{ij}\otimes \bar{x}^{{\mathrm{T}}}_{ij}){\rm vec}(\bar{Q}_{i}+ K^{{\mathrm{T}}}_{i,\;k}\bar{R}_{i}K_{i,\;k})\; \end{split} $$ (28a) $$ \begin{split} &(u_{i}+K_{i,\;k}\bar{x}_{ij})^{{\mathrm{T}}}\bar{R}_{i}K_{i,\;k+1}\bar{x}_{ij} =\\ &\quad((\bar{x}^{{\mathrm{T}}}_{ij}\otimes \bar{x}^{{\mathrm{T}}}_{ij})(I_{ni}\otimes K^{{\mathrm{T}}}_{i,\;k}\bar{R}_{i})\;+ \\ &\quad(\bar{x}^{{\mathrm{T}}}_{ij}\otimes u^{{\mathrm{T}}}_{i})(I_{ni}\otimes \bar{R}_{i})){\rm vec}(K_{i,\;k+1})\; \end{split} $$ (28b) $$ \begin{split} &\eta_{i}^{{\mathrm{T}}}(D_{i}-S_{i}(X_{ij}))^{{\mathrm{T}}}P_{i,\;k}\bar{x}_{ij}= \\ &\quad(\bar{x}^{{\mathrm{T}}}_{ij}\otimes \eta_{i}^{{\mathrm{T}}}){\rm vec}((D_{i}-S_{i}(X_{ij}))^{{\mathrm{T}}}P_{i,\;k}) \end{split} $$ (28c) 对于任意两个向量$ p $, $ q $以及正整数$ c $, 定义以下矩阵
$$ \begin{split} {\Pi}_{pp}=\;&[\mathrm{vecv}(p(t_{1}))-\mathrm{vecv}(p(t_{0})),\;\cdots,\; \\ & \mathrm{vecv}(p(t_{c}))-\mathrm{vecv}(p(t_{c-1}))]^{{\mathrm{T}}}\; \end{split} $$ (29a) $$ {\Xi}_{pq}=\left[\int_{t_{0}}^{t_{1}}p\otimes q {\mathrm{d}}\tau,\;\cdots,\;\int_{t_{c-1}}^{t_{c}}p\otimes q {\mathrm{d}}\tau \right]^{{\mathrm{T}}}\; $$ (29b) 其中, $ t_0<t_1<\cdots<t_c $, 基于以上矩阵定义, 通过式(27)得到以下矩阵方程
$$ \Psi_{ij,\;k} \begin{bmatrix} {\rm vecs}(P_{i,\;k}) \\ {\rm vec}(K_{i,\;k+1})\\ {\rm vec}((D_{i}-S_{i}(X_{ij})^{{\mathrm{T}}}P_{i,\;k}) \end{bmatrix} =\Phi_{ij,\;k} $$ (30) 其中,
$$ \begin{split} \Psi_{ij,\;k}=\;&[ \Pi_{\bar{x}_{ij}\bar{x}_{ij}},\; -2\Xi_{\bar{x}_{ij}\bar{x}_{ij}}(I_{ni}\otimes K^{{\mathrm{T}}}_{i,\;k}\bar{R}_{i}) \;-\\ & 2\Xi_{\bar{x}_{ij}u_{i}}(I_{ni}\otimes \bar{R}_{i}),\;-2\Xi_{\bar{x}_{ij}\eta_{i}}]\; \end{split} $$ (31a) $$ \Phi_{ij,\;k}= -\Xi_{\bar{x}_{ij}\bar{x}_{ij}} {\rm vec}(\bar{Q}_{i}+K^{{\mathrm{T}}}_{i,\;k}\bar{R}_{i}K_{i,\;k}) $$ (31b) 如果矩阵$ \Psi_{ij,\;k} $列满秩, 则式(30)具有唯一解. 文献[30]引理$ 3 $中给出矩阵$ \Psi_{ij,\;k} $列满秩的充分条件. 如果存在正整数$ c^{*} $使得任意的$ c>c^{*} $和时间序列$ t_{0}<t_{1}<\cdots<t_{c} $, 满足以下条件时,
$$ \begin{split}& {\rm rank}([\Xi_{\bar{x}_{ij}\bar{x}_{ij}},\;\Xi_{\bar{x}_{ij}u_{i}},\;\Xi_{\bar{x}_{ij}\eta_{i}}])=\\&\quad \frac{n_{i}(n_{i}+1)}{2}+(m_{i}+q)n_{i}\; \end{split} $$ (32) 矩阵$ \Psi_{ij,\;k} $对任意正整数$ k $列满秩.
根据调节器方程(2), 西尔维斯特方程$ S_{i}(X_{ij})= X_{ij}E-A_{i}X_{ij} $以及式(30)的解, 能够求得调节器方程的解$ (X_{i},\;U_{i}) $. 该方法与文献[3]中式(27)的求解思路一致, 这里不做赘述.
为确保满秩条件(32)能够得到满足, 在学习阶段$ [t_{0},\;t_{c}] $, 本文在初始控制策略上增加探测噪声$ \xi_{i} $, 即$ u_{i0}=-K_{i0}x_{i}+\xi_{i} $, 其中, $ K_{i0} $使$ A_{i}-B_{i}K_{i0} $赫尔维玆.
据此, 针对量化通信下的自适应协同最优输出调节问题, 本文给出一个在线学习算法, 即算法1.
算法1. 基于自适应动态规划的量化通信下协同最优输出调节算法
1: 令$ i=1 $
2: 选择一个初始控制策略$ u_{i0}=-K_{i0}x_{i}+\xi_{i} $
3: 通过式(13)计算编码−解码后对外部系统状态的估 计值$ \eta_{i} $
4: 计算满足条件(32)的$ \Xi_{\bar{x}_{ij}\bar{x}_{ij}},\;\Xi_{\bar{x}_{ij}u_{i}},\;\Xi_{\bar{x}_{ij}\eta_{i}} $
5: 令$ k=0 $
6: 通过式(30)求解$ P_{i,\;k} $, $ K_{i,\;k+1} $以及$ S_{i}(X_{ij}) $
7: 令$ k\gets k+1 $, 重复步骤6, 直至满足$ ||P_{i,\;k}\;- \qquad\qquad P_{i,\;k-1}||<c_{i} $, 其中, 阈值$ c_{i} $为足够小的正数
8: $ k^{*}\gets k $
9: $ P_{i,\;k^*}\gets P_{i,\;k} $, $ K_{i,\;k^*}\gets K_{i,\;k} $
10: 通过$ S_{i}(X_{ij}) $以及问题1求解调节器方程的最优解 $ (X^{*}_{i},\;U^{*}_{i}) $, $ L_{i,\;k^*}=K_{i,\;k^*}X^{*}_{i}+U^{*}_{i} $
11: 学习到的次优控制策略为
$$ u_{i}^*=-K_{i,\;k^*}x_{i}+L_{i,\;k^*}\eta_{i}\; $$ (33) 12: 令$ i\gets i+1 $, 重复步骤2 ~ 11, 直至$ i=N $.
注4. 本文利用所设计的算法1通过系统状态$ x_{i} $, 输入$ u_{i} $以及对外部系统状态的估计值$ \eta_{i} $在线学习次优控制策略(3), 而不需要依赖系统矩阵$ A_{i} $, $ B_{i} $与$ D_{i} $的先验知识. 然而, 由于在分布式量化观测器的设计部分应用外部系统的矩阵信息, 因此要求跟随者对外部系统矩阵$ E $是已知的. 目前, 在精确通信下, 文献[7, 11]不要求跟随者对外部系统矩阵$ E $是已知的, 即已经研究了部分/全部跟随者无法访问领导者系统矩阵信息的情况, 并设计了自适应分布式观测器. 然而在量化通信下, 文献[7, 11]中所设计的自适应分布式观测器并不适用, 需要设计自适应分布式量化观测器对外部系统矩阵$ E $的估计值$ E_{i}(t) $进行观测, 其中观测器中包含经过编码−解码方案后传输的信息$ \hat{E}_{i}(t) $, 我们难以保证估计误差$ {\lim}_{t \to \infty}(E_{i}(t)-E) $收敛到零, 这对我们的研究带来全新的挑战, 在未来的工作中将进一步研究.
接下来, 给出关于控制增益$ K_{i,\;k^*} $和值$ P_{i,\;k^*} $的收敛性的定理.
定理2. 在满足条件(32)的情况下, 对于任意小的参数$ \delta>0 $, 存在充分大的$ \alpha>0 $使由算法1得到的解$ \left\{P_{i,\;k}\right\}_{k=0}^{\infty} $和$ \left\{K_{i,\;k}\right\}_{k=0}^{\infty} $满足不等式$ ||P_{i,\;k^*}- P_{i}^*||<\delta $, $ ||K_{i,\;k^*}-K_{i}^*||<\delta $, 其中$ i \in \mathcal{V} $. 且由算法1得到的次优控制策略能够实现量化通信下的协同最优输出调节.
证明. 令$ \left\{\bar{P}_{i,\;k}\right\}_{k=0}^{\infty} $, $ \left\{\bar{K}_{i,\;k}\right\}_{k=0}^{\infty} $为基于模型迭代方法得到的解.
基于模型方法的收敛性分析已经在文献[36]中得到证明. 对于每个跟随者$ i \in \mathcal{V} $, 存在$ k^* $使得以下不等式成立, 即
$$ \begin{split}& ||\bar{K}_{i,\;k^*}-K_{i}^*||<\frac{\delta}{2}\;\\& ||\bar{P}_{i,\;k^*}-P_{i}^*||<\frac{\delta}{2} \end{split} $$ (34) 接下来, 需要证明算法1在每次迭代中学到的控制增益$ K_{i,\;k} $和值$ P_{i,\;k} $足够接近基于模型算法(7)和(8)得到的控制增益$ \bar{K}_{i,\;k} $和值$ \bar{P}_{i,\;k} $. 下面将通过归纳法证明.
当$ k=0 $时, 对于所有的跟随者$ i \in \mathcal{V} $, 有$ K_{i0}= \bar{K}_{i0} $. 定义$ \Delta P_{i0}=P_{i0}-\bar{P}_{i0} $. $ \Delta P_{i0} $可通过以下方程进行求解, 即
$$ \begin{split}& \Psi_{ij,\;0} \begin{bmatrix} {\rm vecs}(\Delta P_{i0}) \\ {\rm vec}(\bar{R}^{-1}_{i}B^{{\mathrm{T}}}_{i}\Delta P_{i0})\\ {\rm vec}((D_{i}-S_{i}(X_{ij}))^{{\mathrm{T}}}\Delta P_{i0})\\ \end{bmatrix}=\\&\qquad 2\Xi_{\bar{x}_{ij}\tilde{\eta}_{i}}{\rm vec}((D_{i}-S_{i}(X_{ij}))^{{\mathrm{T}}}\bar{P}_{i0}) \end{split} $$ (35) 令$ ||\Delta\tilde{\eta}||=\max\nolimits_{t_{0}\leq t\leq t_{c}}\tilde{\eta}(t) $, 可知
$$\begin{split}& \lim\nolimits_{||\Delta\tilde{\eta}||\rightarrow0} (P_{i0}- \bar{P}_{i0})=0\\ &\lim\nolimits_{||\Delta\tilde{\eta}||\rightarrow0}(K_{i1}-\bar{K}_{i1})=\\&\qquad\lim\nolimits_{||\Delta\tilde{\eta}||\rightarrow0} (\bar{R}^{-1}_{i}B^{{\mathrm{T}}}_{i}(P_{i0}- \bar{P}_{i0}))=0 \end{split}$$ 当$ k=p $时, 假设$ \lim\nolimits_{||\Delta\tilde{\eta}||\rightarrow0}(K_{ip}-\bar{K}_{ip})=0 $. 令$ \Delta P_{ip}= P_{ip}-\bar{P}_{ip} $. $ \Delta P_{ip} $可通过以下方程进行求解
$$ \Psi_{ij,\;0} \begin{bmatrix} {\rm vecs}(\Delta P_{ip}) \\ {\rm vec}(\bar{R}^{-1}_{i}B^{{\mathrm{T}}}_{i}\Delta P_{ip})\\ {\rm vec}((D_{i}-S_{i}(X_{ij}))^{{\mathrm{T}}}\Delta P_{ip}) \end{bmatrix} =\Delta \Phi_{ij,\;p} $$ (36) 其中, $ \lim\nolimits_{||\Delta\tilde{\eta}||\rightarrow0}\Delta \Phi_{ij,\;p}=0 $. 因此, 可得
$$\begin{split}&\lim\nolimits_{||\Delta\tilde{\eta}||\rightarrow0} (P_{ip}-\bar{P}_{ip})=0\\ &\lim\nolimits_{||\Delta\tilde{\eta}||\rightarrow0}(K_{i,\;p+1}- \bar{K}_{i,\;p+1})=\\& \qquad\lim\nolimits_{||\Delta\tilde{\eta}||\rightarrow0} (\bar{R}^{-1}_{i}B^{{\mathrm{T}}}_{i}(P_{ip}- \bar{P}_{ip}))=0 \end{split}$$ 通过增大$ \alpha $的值能够加速$ \Delta\tilde{\eta} $的收敛, 对于充分大的$ \alpha>0 $, 总能找到足够小的$ \Delta\tilde{\eta} $使得在任何迭代$ k $处, 满足不等式$ ||P_{i,\;k}-\bar{P}_{i,\;k}||<\delta/2 $, $ ||K_{i,\;k}\;- \bar{K}_{i,\;k}||<\delta/2 $.
因此, 当$ k=k^* $时, 以下不等式成立, 即
$$ \begin{split}& ||K_{i,\;k^*}-\bar{K}_{i,\;k^*}||<\frac{\delta}{2}\;\\& ||P_{i,\;k^*}-\bar{P}_{i,\;k^*}||<\frac{\delta}{2} \end{split} $$ (37) 根据式(34)与式(37), 通过矩阵三角不等式可知, $ ||P_{i,\;k^*}-P_{i}^*||<\delta $, $ ||K_{i,\;k^*}-K_{i}^*||<\delta $.
接下来, 证明由算法1得到的次优控制策略能够实现量化通信下的协同最优输出调节. 令$ \tilde{\eta}_{i}(t)= \eta_{i}(t)-\omega(t) $, 由定理1可知, 在量化通信, 对外部系统状态的估计误差$ \mathop{\lim}\nolimits_{t \to \infty}\tilde{\eta}_{i}(t)=0 $. 对于$ \dot{\bar{x}}_{i}(t)= (A_{i}-B_{i}K^{*}_{i})\bar{x}_{i}(t)+B_{i}L^{*}_{i}\tilde{\eta}(t) $, 由于$ A_{i}- B_{i}K^{*}_{i} $是赫尔维玆的, $ \mathop{\lim}\nolimits_{t \to \infty}\tilde{\eta}_{i}(t)=0 $, 根据文献[39]引理$ 9.1 $, 可知$ \mathop{\lim}\nolimits_{t \to \infty}\bar{x}_{i}(t) = 0 $. 根据式(4b)可知$ e_{i}(t)= C\bar{x}_{i}(t) $, 因此$ \mathop{\lim}\nolimits_{t \to \infty}e_{i}(t)=0 $, 实现了多智能体系统的量化通信下协同最优输出调节.
□ 5. 仿真实验
在本节中, 我们将算法1应用于智能车联网的纵向协同自适应巡航控制[3, 40]. 协同自适应巡航控制是一种基于无线通信的智能自动驾驶策略, 车辆的通信拓扑如图 3所示, 外部系统仅可被车辆$ \#1 $直接访问.
利用以下模型对第$ i\;(i=1,\;2,\;3,\;4) $辆车进行建模:
$$ \begin{split} x_{i}&=\upsilon_{i}\;\\ \dot{\upsilon}_{i}&=a_{i}\;\\ \dot{a}_{i}&=\sigma^{-1}_{i}a_{i}+\sigma^{-1}_{i}u_{i}+d_{i}\; \end{split} $$ (38) 其中, $ x_{i} $, $ \upsilon_{i} $, $ a_{i} $, $ \sigma_{i} $分别为车辆$ \#i $发动机的位置、速度、加速度和时间常数. 常数$ d_{i} $是机械阻力与$ \sigma_{i} $和车辆$ \#i $质量的乘积之比. $ \sigma_{i} $与$ d_{i} $的值与文献[3]相同.
车辆$ \#i $的参考轨迹$ x^{*}_{i} $和干扰信号$ d_{i} $均由以下外部系统产生
$$ \begin{split}& \dot{\omega}_{1}=0.7\omega_{2}\;\\& \dot{\omega}_{2}=-0.7\omega_{1}\;\\& \dot{d_{i}}=d_{i}\omega_{2}\;\\& x^{*}_{i}=-5\omega_{1}-10(i+1)\omega_{2}\; \end{split} $$ (39) 外部系统状态的初值为$ \omega(t)=[\omega_{1}(t)\; \; \; \omega_{2}(t)]= [0\; \; \; 1]^{{\mathrm{T}}} $.
接下来, 对量化通信下的智能车联网系统进行仿真. 其中观测器参数$ \alpha=10 $, 调节函数$ s(k) $的初值为$ s(0)=0.05 $, 参数$ \mu=0.8 $. 外部系统状态估计误差$ \tilde{\eta}_{i}(t) $的收敛性如图 4所示.
由图 4可知, 选择的参数$ \alpha $能够保证$ \tilde{\eta}_{i}(t) $足够小, 当$ t>30 $s时, $ \tilde{\eta}_{i}(t)<10^{-6} $.
当$ t<10 $s时, 我们应用初始控制策略$ u_{i0}= -K_{i0}x_{i}+\xi_{i} $, 其中探测噪声$ \xi_{i} $为不同频率的正弦信号的总和. 根据算法1迭代学习到控制增益$ K_{i,\;k} $和值$ P_{i,\;k} $, 其中每辆车的值$ P_{i,\;k} $与基于模型情况下得到的最优值$ P_{i}^{*} $的比较结果如图 5所示.
由图 5可知, 当迭代次数$ k=9 $时, $ P_{i,\;k} $能够收敛到最优解$ P_{i}^{*} $. 也就是说, 经过9次迭代之后, 所有车辆均能学习到最优控制值.
当$ t=10 $s时, 通过学习到的最优控制增益$ (K_{i,\;k^*},\; P_{i,\;k^*}) $更新次优控制策略(3)并应用于智能车联网系统, 其实际轨迹$ x_{i} $与参考轨迹$ x^{*}_{i} $的跟踪情况如图 6所示. 仿真结果表明, 所有的车辆均能实现对参考轨迹的跟踪.
若当$ t=10 $s时, 不采用更新后的次优控制策略(3), 而是继续使用初始控制策略, 则初始控制策略控制下的智能车联网系统的实际轨迹$ x_{i} $与参考轨迹$ x^{*}_{i} $的跟踪情况如图 7所示. 从图 6与图 7的对比可知, 通过算法1得到的次优控制策略能够实现车联网自动驾驶车辆在有干扰情况下对参考轨迹的跟踪.
接下来, 通过表 1比较量化通信对车辆间通信传输比特数的影响.
表 1 达到$ ||P_{i,\;k}-P_{i}^{*}||<10^{-4} $有无量化通信传输的比特数Table 1 Transmitted bits with and without quantized communication to reach $ ||P_{i,\;k}-P_{i}^{*}||<10^{-4} $算法1下传输的比特数 无量化通信传输的比特数[3] 降低百分比 80000 192000 58.33% 由表 1可知, 量化通信下只需要传输较少的比特数就能够达到特定的收敛误差, 量化通信下降低了$ 58.33\% $比特.
6. 结束语
本文研究量化通信下系统动态未知的连续时间多智能体系统的协同最优输出调节问题. 通过引入均匀量化器与编码−解码方案, 设计一种基于采样和量化数据的分布式协议, 用于观测外部系统状态, 在保证外部系统状态估计误差收敛的同时, 降低多智能体间的通信负担. 针对一类具有不确定系统动态的多智能体系统, 设计一种自适应动态规划方法, 用于多智能体系统的协同最优输出调节. 理论分析和在智能车联网自适应巡航控制系统上的仿真验证表明, 模型未知的多智能体系统能够在量化通信下实现渐近跟踪与干扰抑制. 我们未来的研究将考虑在有限带宽通信约束下, 针对外部系统状态与系统矩阵全部未知的非线性多智能体系统设计自适应最优控制策略.
-
-
[1] Guo X G, Zhang D Y, Wang J L, Park J H, Guo L. Observer-based event-triggered composite anti-disturbance control for multi-agent systems under multiple disturbances and stochastic FDIAs. IEEE Transactions on Automation Science and Engineering, 2023, 20(1): 528−540 [2] Ren H R, Ma H, Li H Y, Wang Z Y. Adaptive fixed-time control of nonlinear MASs with actuator faults. IEEE/CAA Journal of Automatica Sinica, 2023, 10(5): 1252−1262 [3] Cao L, Pan Y N, Liang H J, Huang T W. Observer-based dynamic event-triggered control for multiagent systems with time-varying delay. IEEE Transactions on Cybernetics, 2023, 53(5): 3376−3387 doi: 10.1109/TCYB.2022.3226873 [4] Lin G H, Li H Y, Ma H, Zhou Q. Distributed containment control for human-in-the-loop MASs with unknown time-varying parameters. IEEE Transactions on Circuits and Systems I: Regular Papers, 2022, 69(12): 5300−5311 [5] Liang H J, Chang Z Y, Ahn C K. Hybrid event-triggered intermittent control for nonlinear multi-agent systems. IEEE Transactions on Network Science and Engineering, 2023, 10(4): 1975−1984 doi: 10.1109/TNSE.2023.3237256 [6] Zheng C B, Pang Z H, Wang J X, Sun J, Liu G P, Han Q L. Null-space-based time-varying formation control of uncertain nonlinear second-order multi-agent systems with collision avoidance. IEEE Transactions on Industrial Electronics, 2023, 70(10): 10476−10485 doi: 10.1109/TIE.2022.3217585 [7] Wei C S, Luo J J, Dai H H, Duan G R. Learning-based adaptive attitude control of spacecraft formation with guaranteed prescribed performance. IEEE Transactions on Cybernetics, 2019, 49(11): 4004−4016 doi: 10.1109/TCYB.2018.2857400 [8] Zuo Z Y, Liu C J, Han Q L, Song J W. Unmanned aerial vehicles: Control methods and future challenges. IEEE/CAA Journal of Automatica Sinica, 2022, 9(4): 601−614 doi: 10.1109/JAS.2022.105410 [9] Heshmati-Alamdari S, Nikou A, Dimarogonas D V. Robust trajectory tracking control for underactuated autonomous underwater vehicles in uncertain environments. IEEE Transactions on Automation Science and Engineering, 2021, 18(3): 1288−1301 doi: 10.1109/TASE.2020.3001183 [10] 杨涛, 柴天佑. 分布式协同优化的研究现状与展望. 中国科学: 技术科学, 2020, 50(11): 1414−1425 doi: 10.1360/SST-2020-0040Yang Tao, Chai Tian-You. Research status and prospects of distributed collaborative optimization. SCIENTIA SINICA Technologica, 2020, 50(11): 1414−1425 doi: 10.1360/SST-2020-0040 [11] Liang H J, Chen L, Pan Y N, Lam H K. Fuzzy-based robust precision consensus tracking for uncertain networked systems with cooperative-antagonistic interactions. IEEE Transactions on Fuzzy Systems, 2023, 31(4): 1362−1376 doi: 10.1109/TFUZZ.2022.3200730 [12] Liu G P. Tracking control of multi-agent systems using a networked predictive PID tracking scheme. IEEE/CAA Journal of Automatica Sinica, 2023, 10(1): 216−225 doi: 10.1109/JAS.2023.123030 [13] Liu Z J, Lu Z Q, Zhao Z J, Efe M Ö, Hong K S. Single parameter adaptive neural network control for multi-agent deployment with prescribed tracking performance. Automatica, 2023, 156: Article No. 111207 doi: 10.1016/j.automatica.2023.111207 [14] Ren H R, Cheng Z J, Qin J H, Lu R Q. Deception attacks on event-triggered distributed consensus estimation for nonlinear systems. Automatica, 2023, 154: Article No. 111100 doi: 10.1016/j.automatica.2023.111100 [15] 杨涛, 徐磊, 易新蕾, 张圣军, 陈蕊娟, 李渝哲. 基于事件触发的分布式优化算法. 自动化学报, 2022, 48(1): 133−143Yang Tao, Xu Lei, Yi Xin-Lei, Zhang Sheng-Jun, Chen Rui-Juan, Li Yu-Zhe. Event-triggered distributed optimization algorithms. Acta Automatica Sinica, 2022, 48(1): 133−143 [16] Pan Y N, Wu Y M, Lam H K. Security-based fuzzy control for nonlinear networked control systems with DoS attacks via a resilient event-triggered scheme. IEEE Transactions on Fuzzy Systems, 2022, 30(10): 4359−4368 doi: 10.1109/TFUZZ.2022.3148875 [17] Zong G D, Ren H L. Guaranteed cost finite-time control for semi-Markov jump systems with event-triggered scheme and quantization input. International Journal of Robust and Nonlinear Control, 2019, 29(15): 5251−5273 doi: 10.1002/rnc.4672 [18] Zhang M, Dong S L, Shi P, Chen G R, Guan X H. Distributed observer-based event-triggered load frequency control of multiarea power systems under cyber attacks. IEEE Transactions on Automation Science and Engineering, 2023, 20(4): 2435−2444 [19] Zhang Y H, Sun J, Liang H J, Li H Y. Event-triggered adaptive tracking control for multiagent systems with unknown disturbances. IEEE Transactions on Cybernetics, 2020, 50(3): 890−901 doi: 10.1109/TCYB.2018.2869084 [20] Chen Z Y, Niu B, Zhang L, Zhao J F, Ahmad A M, Alassafi M O. Command filtering-based adaptive neural network control for uncertain switched nonlinear systems using event-triggered communication. International Journal of Robust and Nonlinear Control, 2022, 32(11): 6507−6522 doi: 10.1002/rnc.6154 [21] Li Y X, Yang G H, Tong S C. Fuzzy adaptive distributed event-triggered consensus control of uncertain nonlinear multiagent systems. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2019, 49(9): 1777−1786 doi: 10.1109/TSMC.2018.2812216 [22] Li Y M, Min X, Tong S C. Observer-based fuzzy adaptive inverse optimal output feedback control for uncertain nonlinear systems. IEEE Transactions on Fuzzy Systems, 2021, 29(6): 1484−1495 [23] Tong S C, Sun K K, Sui S. Observer-based adaptive fuzzy decentralized optimal control design for strict-feedback nonlinear large-scale systems. IEEE Transactions on Fuzzy Systems, 2018, 26(2): 569−584 doi: 10.1109/TFUZZ.2017.2686373 [24] Li Y M, Min X, Tong S C. Adaptive fuzzy inverse optimal control for uncertain strict-feedback nonlinear systems. IEEE Transactions on Fuzzy Systems, 2020, 28(10): 2363−2374 doi: 10.1109/TFUZZ.2019.2935693 [25] Hou M Z, Shi W R, Fang L Y, Duan G R. Adaptive dynamic surface control of high-order strict feedback nonlinear systems with parameter estimations. Science China Information Sciences, 2023, 66(5): Article No. 159203 [26] Ren H R, Ma H, Li H Y, Lu R H. A disturbance observer based intelligent control for nonstrict-feedback nonlinear systems. Science China Technological Sciences, 2023, 66: 456−467 doi: 10.1007/s11431-022-2126-7 [27] Sun J Y, Zhang H G, Wang Y C, Sun S X. Fault-tolerant control for stochastic switched IT2 fuzzy uncertain time-delayed nonlinear systems. IEEE Transactions on Cybernetics, 2022, 52(2): 1335−1346 doi: 10.1109/TCYB.2020.2997348 [28] Liu Z C, Huang J S, Wen C Y, Su X J. Distributed control of nonlinear systems with unknown time-varying control coefficients: A novel Nussbaum function approach. IEEE Transactions on Automatic Control, 2023, 68(7): 4191−4203 [29] Liu G D, Sun N, Yang T, Fang Y C. Reinforcement learning-based prescribed performance motion control of pneumatic muscle actuated robotic arms with measurement noises. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2023, 53(3): 1801−1812 doi: 10.1109/TSMC.2022.3207575 [30] Liang H J, Zhang Y H, Huang T W, Ma H. Prescribed performance cooperative control for multiagent systems with input quantization. IEEE Transactions on Cybernetics, 2020, 50(5): 1810−1819 doi: 10.1109/TCYB.2019.2893645 [31] Yu T, Ma L, Zhang H W. Prescribed performance for bipartite tracking control of nonlinear multiagent systems with hysteresis input uncertainties. IEEE Transactions on Cybernetics, 2019, 49(4): 1327−1338 doi: 10.1109/TCYB.2018.2800297 [32] Zhang H W, Lewis F L, Qu Z H. Lyapunov, adaptive, and optimal design techniques for cooperative systems on directed communication graphs. IEEE Transactions on Industrial Electronics, 2012, 59(7): 3026−3041 [33] Zhang H W, Lewis F L. Adaptive cooperative tracking control of higher-order nonlinear systems with unknown dynamics. Automatica, 2012, 48(7): 1432−1439 doi: 10.1016/j.automatica.2012.05.008 [34] Zhang L L, Che W W, Deng C, Wu Z G. Prescribed performance control for multiagent systems via fuzzy adaptive event-triggered strategy. IEEE Transactions on Fuzzy Systems, 2022, 30(12): 5078−5090 doi: 10.1109/TFUZZ.2022.3165629 -