-
摘要: 针对无人机集群系统, 提出了一种性能函数引导的深度强化学习控制方法, 同时评估性能函数的示范经验与学习策略的探索动作, 保证了高效可靠的策略更新, 实现了无人机集群系统的高性能控制. 首先, 利用领航-跟随集群框架, 将无人机集群的控制问题转化为领航-跟随框架下的跟踪问题, 进而提出了基于模型的跟踪控制方法, 利用性能函数将集群编队误差约束在给定范围内, 实现了无人机集群的模型驱动控制. 接下来, 为了解决复杂工况下性能函数极易失效难题, 将深度强化学习方法和性能函数驱动方法结合, 提出了性能函数引导的深度强化学习控制方法, 利用性能函数的示范经验辅助训练强化学习网络, 通过同时评估探索与示范动作, 保证学习策略显著优于性能函数驱动控制方法, 有效提高了无人机编队控制精度与鲁棒性. 实验结果表明, 该方法能够显著提升无人机集群的控制精度, 实现了兼顾鲁棒性与飞行精度的高性能集群控制.Abstract: In this paper, a novel performance function-guided deep reinforcement learning control method is proposed for the UAV swarm system, where the demonstration of performance function and deep reinforcement learning exploration are both utilized to guarantee efficient and reliable policy updating, achieving high-performance control of the UAV swarm system. Firstly, based on the leader-follower framework, the UAV swarm control problme is formulated as the leader follower tracking problem, and then, the model-based tracking control is proposed, where the performance function is deigsned to constrain the tracking error within a given range, thereby achieving UAV formation. Then, to address the invalid problem of performance function under complex working conditions, the deep reinforcement learning and the performance function-driven methods are combined to propose the performance-function-guided deep reinforcement learning control method, where the demonstration of performance function is used to train the reinforcement learning network, and the learning strategy is significantly better than the performance function-driven control method by simultaneously evaluating exploration and demonstration actions, thereby improving the accuracy and robustness of UAV formation control effectively. Comparative experimental results show that the proposed method significantly improves the control performace of UAV swarms, realizing high-performance swarm control with both robustness and flight accuracy.
-
Key words:
- UAV swarm /
- deep reinforcement learning /
- guided learning /
- intelligent formation control
-
近年来, 多智能体系统的输出调节问题因其在无人机编队控制、自动驾驶和车联网以及多航天器姿态同步等领域的应用而引起广泛的关注[1−3]. 多智能体输出调节问题的目标是通过设计一种分布式控制策略, 实现每个跟随者的输出信号跟踪参考信号, 并抑制由外部系统描述的干扰信号[4−6]. 目前, 分布式控制策略的设计方法主要有两种: 前馈−反馈方法[7−8]与内模原理方法[9−10].
此外, 在多智能体系统中, 智能体的通信通常受限于系统的通信拓扑结构, 智能体通常只能与邻居进行直接通信. 在领导−跟随多智能体系统中, 跟随者为获得领导者的状态信息, 可通过设计分布式观测器进行估计[7, 11]. 在自主水下航行器[12], 航天器编队控制[13]等实际网络通信中, 通信信道的有限带宽在智能体之间的信息传输中不容忽视[14−18]. 为降低通信负担, 减少通信信道中传输数据的比特数, 一些学者通过设计量化器与编码−解码方案来解决量化通信下多智能体系统的协同输出调节问题. 文献[19]利用对数量化器对控制输入进行量化, 并通过扇形约束方法来处理存在的量化误差. 文献[20]通过设计一种基于缩放函数策略的动态编码−解码方案, 保证量化误差的收敛, 实现多智能体系统跟踪误差渐近收敛到零. 文献[21]将上述结果推广到具有切换拓扑图的多智能体系统上, 解决带有切换图的线性多智能体系统的量化协同输出调节问题. 值得注意的是, 上述研究中所设计的控制策略都是基于模型的, 这就要求每个智能体需要知道系统的模型信息. 然而, 由于通信带宽的固有限制和网络系统固有的脆弱性将导致如时间延迟, 数据包丢失, 信号量化以及网络攻击等现象的发生, 智能体难以完整获得整个系统的动态信息[22−24].
随着自适应动态规划的发展[25−28], 一种针对不确定动态系统的自适应控制方法应运而生, 其优势在于可以利用在线数据通过学习来逼近动态系统的控制策略, 而不必完全了解系统的动态信息, 为模型未知的协同输出调节问题提供新的解决方案. 近年来, 一些学者将最优控制理论与自适应动态规划方法进行结合[29−31], 通过数据驱动的方式求解最优/次优控制策略, 在保证闭环系统实现输出调节的同时, 最小化系统性能指标. 文献[3]利用前馈−反馈方法设计分布式控制策略, 解决跟随者对领导者状态未知的多智能体系统的协同最优输出调节问题. 文献[32]构建分布式自适应内部模型来估计领导者的动态, 并提出基于策略迭代与值迭代的强化学习算法, 在线学习最优控制策略. 文献[33]针对包含外部系统在内的所有智能体动态未知的多智能体系统, 利用内模原理与自适应动态规划方法, 解决协同最优输出调节问题. 然而, 上述的这些研究并未考虑通信信道带宽有限的情况. 而在实际的工程应用中, 如智能交通系统中的自适应巡航控制等问题, 往往期望设计一种能在通信带宽有限且系统动力学未知情况下运行的数据驱动算法, 来实现多智能体系统间的协同最优输出调节, 这促使我们对这一问题进行研究.
本文的主要贡献如下: 1) 通过引入均匀量化器, 设计分布式量化观测器来减少通信信道中传输数据的比特数, 降低多智能体间的通信负担. 同时, 将均匀量化器引入到编码−解码方案设计中, 消除量化误差对多智能体系统的影响, 保证每个跟随者对外部系统状态的估计误差渐近收敛至零. 2) 将分布式量化观测器的估计值引入到次优控制策略的设计中, 在系统动态未知的情况下, 提出一种基于自适应动态规划的数据驱动算法, 在线学习次优控制策略, 解决量化通信下的协同最优输出调节问题. 3) 受文献[32]的启发, 在学习阶段, 本文考虑一个更一般的情况, 即跟随者系统只能通过观测器对领导者的状态进行估计, 而无法直接获得领导者的状态. 在这种情况下, 证明学习到的控制器增益将收敛到最优控制增益的任意小邻域内. 与现有文献相比, 文献[32]需要智能体间的精确通信, 而本文中智能体间传输的为量化后的信息, 降低了多智能体间的通信负担, 并通过引入编码−解码方案消除量化误差的影响, 实现量化通信下外部系统状态估计误差的渐近收敛. 文献[3, 34]不仅需要智能体间的精确通信, 并且需要假设每个跟随者系统都能够获得外部系统状态的实际值. 本文在学习阶段考虑一个更一般的情况, 跟随者系统可通过设计的分布式量化观测器对领导者的状态进行估计, 从而获得外部系统状态的估计值.
本文其余部分安排如下. 第1节介绍图论的基础知识以及相关符号说明; 第2节介绍本文的问题描述; 第3节设计量化通信下的分布式观测器; 第4节提出自适应次优控制策略与自适应动态规划算法; 第5节在智能车联网自适应巡航控制系统上验证理论结果; 第6节总结本文的主要结果, 并提出未来的研究方向.
1. 基础概念
本节介绍一些图论的基础知识以及相关符号的定义.
1.1 图论
多智能体系统通过通信网络与相邻的智能体之间共享信息, 该网络可以使用图论来描述. 在这一部分, 首先介绍图论的一些基本知识. 考虑一个具有$ N $个智能体的有向图$ \mathcal{G}=(\mathcal{V},\; \mathcal{E}) $, 其中$ \mathcal{V}= \{1,\;2,\;\cdots,\;N\} $表示智能体的集合, $ \mathcal{E} \subseteq \mathcal{V} \times \mathcal{V} $表示边的集合, 邻接矩阵被定义为$ \mathcal{A}=[a_{ij}] \in \bf{R}^{N\times N} $, 其中当$ a_{ij}> 0 $时, $ (j,\;i) \in \mathcal{E} $, 否则$ a_{ij}=0 $. 有向图$ \mathcal{G} $的拉普拉斯矩阵被定义为$ \mathcal{L}=[\ell_{ij}]\in \bf{R}^{N\times N} $, 其中$ \ell_{ii}=\sum\nolimits_{j=1}^{N}a_{ij} $, $ \ell_{ij}=-a_{ij} $, $ j\ne i $. 领导者由智能体$ 0 $表示, 由$ N $个智能体和领导者组成的图称为增广有向图$ \mathcal{\bar{G}}=(\mathcal{\bar{V}},\;\mathcal{\bar{E}}) $, 其中$ \mathcal{\bar{V}}= \{0,\;1,\;2,\;\cdots,\;N\} $表示智能体的集合, $ \mathcal{\bar{E}} \subseteq \mathcal{\bar{V}} \times \mathcal{\bar{V}} $表示边的集合. 如果从领导者智能体$ 0 $到智能体$ i\; \in\mathcal{V} $存在有向边, 则$ a_{i0}=1 $, 否则$ a_{i0}=0 $. 定义$ G={\rm diag}\{a_{10}, \;a_{20},\;\cdots,\; a_{N0}\} $表示对角矩阵, 令$ H=\mathcal{L}+G $, $ \mathcal{F}=H+\mathcal{A} $. $ \mathcal{N}_{i}=\left\{j|a_{ij}>0,\; j \in \mathcal{\bar{V}}\right\} $表示智能体 $ i\; \in\mathcal{V} $的邻居集合. 对于一个根节点而言, 如果存在从根节点到每个其他节点的有向路径, 则该有向图具有有向生成树.
1.2 符号说明
$ \bf{Z} $表示整数的集合. $ ||\cdot|| $为向量的欧氏范数和矩阵的$ 2 $范数. 对于列向量$ l=(l_{1},\; l_{2},\;\cdots,\; l_{n})^{{\mathrm{T}}} \in \bf{R}^{n} $, $ ||l||_{\infty}={\rm max}_{1\leq i\leq n}|l_{i}| $. $ \otimes $表示克罗内克积算子. 对于矩阵$ X \in \bf{R}^{m\times m} $, $ \rho(X) $表示它的谱半径, $ \lambda(X) $表示它的特征值, $ \sigma(X) $表示它的谱. $ {\rm tr}(X) $表示它的迹. $ X>0 $表示为正定矩阵, $ X\ge0 $表示为半正定矩阵. 对于矩阵$ X \in \bf{R}^{m\times n} $, $ {\rm rank}(X) $表示它的列秩. $ {\rm vec}(A)=[a^{{\mathrm{T}}}_{1},\; a^{{\mathrm{T}}}_{2},\; \cdots,\; a^{{\mathrm{T}}}_{q}]^{{\mathrm{T}}} \in \bf{R}^{pq} $ 表示将矩阵$ A\in \bf{R}^{p\times q} $向量化, 其中$ a_{i}\in\bf{R}^{p} $是矩阵$ A $的第$ i $列. 对于对称矩阵$ B \in \bf{R}^{m\times m} $, $ b_{mm} $为矩阵$ B $中第$ m $行第$ m $列的元素, $ {\rm vecs}(B)=[b_{11},\; 2b_{12},\;\cdots,\; 2b_{1m},\; b_{22}, 2b_{23},\;\cdots,\;2b_{m-1,\;m},\;b_{mm}]^{{\mathrm{T}}} \in \bf{R}^{\frac{1}{2}m(m+1)} $. 针对任意的列向量$ c\in \bf{R}^{n} $, $ c_{n} $为$ c $中第$ n $个元素, $ {\rm vecv}(c)= [c^{2}_{1},\;\, c_{1}c_{2},\;\,\cdots,\;\,c_{1}c_{n},\;\,c^{2}_{2},\;\,c_{2}c_{3},\;\cdots,\;c_{n-1}c_{n} $, $ c^{2}_{n}]^{{\mathrm{T}}} \in \bf{R}^{\frac{1}{2}n(n+1)}$. $ D={\rm blockdiag}\{D_{1},\;D_{2},\;\cdots,\;D_{N} \} $表示分块对角矩阵, 其中$ D_{i} $为对角块, $ i=1,\; 2,\;\cdots,\; N $. $ \mathbf{1}_n $与$ {I}_n $分别表示$ n $维全1列向量与$ n\times n $维单位矩阵. 针对复数$ {\textit z} $, $ {\rm Re}({\textit z}) $表示$ {\textit z} $的实部.
2. 问题描述
本文考虑如下一类连续时间线性多智能体系统:
$$ \dot{x}_i=A_{i}x_{i}+B_{i}u_{i}+D_{i}\omega\; $$ (1a) $$ \dot{\omega}=E\omega\; $$ (1b) $$ e_{i}=C_{i}x_{i}+F_{i}\omega,\; \quad i\in \mathcal{V}\; $$ (1c) 其中, $ x_i\in\bf{R}^{n_i} $, $ u_i\in\bf{R}^{m_i} $, $ e_i\in\bf{R}^{p_i} $分别表示第$ i $个智能体的状态向量, 输入向量以及跟踪误差. 系统(1)的矩阵维数分别为$ A_i\in\bf{R}^{n_i\times n_i} $, $ B_i\in\bf{R}^{n_i\times m_i} $, $ D_i\in\bf{R}^{n_i\times q} $, $ C_i\in\bf{R}^{p_i\times n_i} $, $ F_i\in\bf{R}^{p_i\times q} $. 自治系统(1b)称为外部系统, 其中, $ \omega\in\bf{R}^{q} $表示外部系统的状态, $ E\in\bf{R}^{q\times q} $表示外部系统矩阵.
针对以上系统, 本文给出一些基本假设条件如下所示:
假设1. $ (A_i,\;B_i) $可镇定, $ i\in \mathcal{V} $.
假设2. $ {\rm rank}\left[ \begin{matrix} A_{i}-\lambda I_{n_i} & B_{i} \\ C_{i} & 0 \end{matrix} \right]= n_{i}+p_{i},\; \forall \lambda \in \sigma(E),\; i\in \mathcal{V}. $
假设3. 有向图$ \mathcal{\bar{G}} $包含以智能体$ 0 $为根节点的有向生成树.
注1. 假设1和假设2均为多智能体系统输出调节问题中的基本假设[4, 30]. 如果假设3成立, 则$ H $的所有特征值均具有正实部[8].
引理1[3, 8] . 假设1 ~ 3成立, 对于$ j=1,\;2,\;\cdots,\;q $, $ i\in \mathcal{V} $, 选择充分大的 $ \alpha>0 $ 使 $ {\rm Re}(\lambda_{j}(E)- \alpha\lambda_{i} (H))< 0 $, 其中$ \lambda_{j}(E) $和$ \lambda_{i}(H) $分别为$ E $的第$ j $个和$ H $的第$ i $个特征值, 令$ K_{i} $使$ A_{i}-B_{i}K_{i} $赫尔维玆, $ L_{i}=K_{i}X_{i}+U_{i} $, 其中$ (X_{i},\;U_{i}) $为以下调节器方程的一组解:
$$ X_{i}E=A_{i}X_{i}+B_{i}U_{i}+D_{i}\; $$ (2a) $$ 0=C_{i}X_{i}+F_{i} $$ (2b) 通过设计控制策略$ u_{i}=-K_{i}x_{i}+L_{i}\eta_{i} $可实现多智能体系统(1)的协同输出调节, 其中$ \eta_{i} $为第$ i $个跟随者对领导者状态$ \omega $的估计值.
本文的控制目标是通过设计一种次优控制策略
$$ u_{i}=-K^{*}_{i}x_{i}+L^{*}_{i}\eta_{i},\;\quad i\in \mathcal{V}\; $$ (3) 实现多智能体系统的协同最优输出调节. 其中$ K^{*}_{i} $为最优反馈控制增益, $ L^{*}_{i} $为最优前馈控制增益.
此外, 所设计的次优控制策略, 不仅需要解决协同输出调节问题, 同时还需要解决以下两个优化问题.
问题1.
$$ \begin{aligned} &\min\limits_{(X_{i},\;U_{i})}\quad {\rm tr}(X^{{\mathrm{T}}}_{i}Q_{i}X_{i}+U^{{\mathrm{T}}}_{i}R_{i}U_{i})\;\\ &\; \rm{s.t.}\quad (2)\; \end{aligned} $$ 其中, $ Q_{i}=Q^{{\mathrm{T}}}_{i}>0 $, $ R_{i}=R^{{\mathrm{T}}}_{i}>0 $.
根据文献[35]可知, 求解静态优化问题1能够得到调节器方程(2)的唯一最优解$ (X^{*}_{i},\;U^{*}_{i}) $, 最优前馈控制增益$ L^{*}_{i}=K^{*}_{i}X^{*}_{i}+U^{*}_{i} $. 接下来, 为得到最优反馈控制增益$ K^{*}_{i} $, 需要求解以下动态规划问题.
定义状态误差变量$ \bar{x}_{i}=x_{i}-X^{*}_{i}\omega $与输入误差变量$ \bar{u}_{i}=u_{i}-U_{i}^{*}\omega $. 根据调节器方程(2)与次优控制策略(3)能够得到系统(1a)的误差系统为
$$ \dot{\bar{x}}_{i}=A_{i}\bar{x}_{i}+B_{i}\bar{u}_{i}\; $$ (4a) $$ e_{i}=C_{i}\bar{x}_{i}\; $$ (4b) 其中, 控制输入为$ \bar{u}_{i}=-K^{*}_{i}\bar{x}_{i}+L^{*}_{i}(\eta_{i}-\omega) $. 误差系统(4)的最优控制策略为$ \bar{u}_{i}=-K^{*}_{i}\bar{x}_{i} $, 可通过求解以下优化问题获得.
问题2.
$$ \begin{aligned} &\min \limits_{\bar{u}_{i}}\quad \int_{0}^{\infty} (\bar{x}^{{\mathrm{T}}}_{i}\bar{Q}_{i}\bar{x}_{i}+\bar{u}^{{\mathrm{T}}}_{i}\bar{R}_{i}\bar{u}_{i}){\mathrm{d}}t\;\\ &\; \rm{s.t.}\quad (4)\; \end{aligned} $$ 其中, $ \bar{Q}_{i} = \bar{Q}^{{\mathrm{T}}}_{i}\ge 0 $, $ \bar{R}_{i} = \bar{R}^{{\mathrm{T}}}_{i}>0 $, $ (A_{i},\;\sqrt{\bar{Q}_{i}}) $可观测.
问题2是一个标准的线性二次型调节器问题, 根据线性最优控制理论, 最优反馈增益$ K^{*}_{i} $为
$$ K^{*}_{i}=\bar{R}^{-1}_{i}B^{{\mathrm{T}}}_{i}P^{*}_{i}\; $$ (5) 其中, $ P^{*}_{i}=(P^{*}_{i})^{{\mathrm{T}}}>0 $是以下代数黎卡提方程的唯一解:
$$ A^{{\mathrm{T}}}_{i}P_{i}^{*}+P_{i}^{*}A_{i}+\bar{Q}_{i}-P_{i}^{*}B_{i}\bar{R}^{-1}_{i}B^{{\mathrm{T}}}_{i}P_{i}^{*}=0 $$ (6) 注2. 根据文献[3]中定理1的分析可知, 问题2的性能指标中应用控制策略$ \bar{u}_{i}=-K^{*}_{i}\bar{x}_{i}+L^{*}_{i}(\eta_{i}\,- \omega) $与最优控制策略$ \bar{u}_{i}=-K^{*}_{i}\bar{x}_{i} $之间的成本误差是有界的. 因此, 本文所设计的控制策略(3)是次优控制策略.
由于最优反馈控制增益$ K^{*}_{i} $和最优前馈控制增益$ L^{*}_{i} $是相互独立的, 因此问题1和问题2可以分别进行求解. 值得注意的是, 直接求解非线性方程(6)往往比较困难, 尤其是针对维数比较高的矩阵. 因此, 通常采用以下策略迭代的方法来解决此类问题[36].
简单而言, 选择一个使闭环系统稳定并保证所需成本有限的反馈控制增益$ K_{i,\;0} $, 即$ A_{i}-B_{i}K_{i,\;0} $是赫尔维玆矩阵. 通过策略迭代的方式求解如下Lyapunov方程来更新值$ P_{i,\;k} $:
$$ \begin{split} &(A_{i}-B_{i}K_{i,\;k})^{{\mathrm{T}}}P_{i,\;k}+P_{i,\;k}(A_{i}-B_{i}K_{i,\;k})\;+\\ & \qquad\bar{Q}_{i}+ K^{{\mathrm{T}}}_{i,\;k}\bar{R}_{i}K_{i,\;k}=0\; \end{split} $$ (7) 其中, $ k=1,\;2,\;\cdots $表示迭代次数. 通过以下方程来更新反馈控制增益
$$ K_{i,\;k+1}=\bar{R}^{-1}_{i}B^{{\mathrm{T}}}_{i}P_{i,\;k} $$ (8) 文献[36]已证明策略迭代方法中的每一次迭代反馈控制增益$ K_{i,\;k} $都可接受, 即保证了$ A_{i}\;- B_{i}K_{i,\;k} $是赫尔维玆矩阵. 同时也保证了$ \mathop{\lim}\nolimits_{k \to \infty}K_{i,\;k} = K_{i}^* $且$ \mathop{\lim}\nolimits_{k \to \infty}P_{i,\;k}=P_{i}^* $.
3. 量化通信下分布式观测器设计
为降低多智能体间的通信负担, 在本节中, 通过引入量化器与编码−解码方案设计分布式量化观测器, 用于估计量化通信下领导者的状态$ \omega $.
3.1 编码−解码方案设计
在正式介绍编码−解码方案之前, 首先考虑一种均匀量化器$ \mathcal{Q}[e] $[37]:
$$ \mathcal{Q}[e]=\varsigma,\;\quad \varsigma-\frac{1}{2}<e \leq \varsigma+\frac{1}{2}\; $$ (9) 其中, $ \varsigma\in\bf{Z} $, $ e $表示需要量化的变量.
给定向量$ h=[h_{1},\;h_{2}\cdots,\;h_{n}]\in \bf{R}^{n} $, 定义量化器$ \mathcal{Q}[h]=[\mathcal{Q}[h_{1}],\;\cdots,\; \mathcal{Q}[h_{n}]] $. 量化误差为
$$ ||h-\mathcal{Q}[h]||_{\infty} \leq \frac{1}{2} $$ (10) 由于量化误差的存在, 智能体无法获得邻居传输的准确信息, 为消除量化误差带来的影响, 将量化器引入到如下编码−解码方案的设计之中.
1)编码器
为传输$ \eta_j(k) $量化后的数据, 对于任意$ k\ge1 $, 智能体$ j \in \mathcal{\bar{V}} $生成的量化输出为$ {\textit z}_j(k) $, 即
$$ {\textit z}_{j}(k)=\mathcal{Q}\left[\frac{1}{s(k-1)}(\eta_j(k)-b_j(k-1))\right]\; $$ (11a) $$ b_j(k)=s(k-1){\textit z}_{j}(k)+b_j(k-1) $$ (11b) 其中, 内部状态$ b_j(k) $的初值$ b_j(0)=0 $, $ s(k)= s(0) \mu^k>0 $为自适应调整编码器的递减序列, $ \mu\in (0,\;1) $.
2)解码器
当智能体$ i $从邻居智能体$ j $接收到量化后的数据$ {\textit z}_{j}(k) $时, 通过以下规则递归生成$ \eta_j(k) $的估计值$ \hat{\eta}_j(k) $, 并通过零阶保持器输出为连续信号$ \hat{\eta}_j(t) $, 即
$$ \hat{\eta}_j(k)=s(k-1){\textit z}_{j}(k)+\hat{\eta}_j(k-1)\; $$ (12a) $$ \hat{\eta}_j(t)=\hat{\eta}_j(k),\; kT \leq t<(k+1)T\; $$ (12b) 其中, 初值$ \hat{\eta}_j(0)=0 $, $ T>0 $为采样时间, 其选取遵循香农采样定理.
如图 1所示, 对智能体$ i $和邻居智能体$ j $之间的通信而言, 在每个采样时刻, 智能体$ j $对外部系统状态的估计值$ \eta_j(t) $进行采样, 并将采样后的数据$ \eta_j(k) $编码为量化后的数据$ {\textit z}_j(k) $, 然后通过通信信道传输给邻居智能体$ i $. 邻居智能体$ i $接收到数据信息之后通过解码器解码为$ \hat{\eta}_j(k) $, 进而通过零阶保持器得到发送者状态的估计值$ \hat{\eta}_j(t) $. 其中$ b_j(k) $表示一个预测器, 目的是预测智能体$ j $的邻居智能体$ i $经过解码后的得到的数据$ \hat{\eta}_j(k) $.
注3. 在编码−解码方案设计中, $ s(k) $表示用于调整预测误差$ \eta_j(k)-b_j(k-1) $的调节函数. $ \mu\in (0,\;1) $保证了随着迭代次数的增加, 智能体$ i $对邻居智能体$ j $传输数据的估计误差$ \eta_j(k)-\hat{\eta}_j(k) $逐渐减小, 即消除了量化误差对传输数据准确性的影响.
3.2 分布式量化观测器
接下来, 将上述经编码−解码方案传输的估计值$ \hat{\eta}_j(t) $引入到分布式观测器的设计当中, 针对每个跟随者$ i \in \mathcal{V} $, 受文献[8]的启发, 本文构建分布式量化观测器如下:
$$ \dot{\eta}_i=E\eta_i+\alpha \sum\limits_{j \in \mathcal{N}_i} a_{i j}\left(\hat{\eta}_j-\eta_i\right) $$ (13) 其中, $ \eta_i \in \bf{R}^{q} $, 参数$ \alpha>0 $. $ \hat{\eta}_j \in \bf{R}^{q} $表示智能体$ i $对$ \eta_j $经过编码−解码后的估计值, $ \hat{\eta}_0 = \hat{\omega} $.
本文理论部分的全文流程图如图 2所示. 本文利用量化器与编码−解码方案设计分布式量化观测器, 在减少通讯负担的同时, 对外部系统的状态进行估计. 定理1证明了所提观测器对外部系统状态估计误差的收敛性. 通过求解问题1与问题2设计次优控制策略. 当系统模型未知时, 我们给出一个在线学习算法1, 通过数据驱动的方式在线求解次优控制策略. 定理2则证明了由算法1得到的次优控制策略能够实现量化通信下的自适应协同最优输出调节.
接下来, 通过以下定理说明所设计的分布式量化观测器保证了对外部系统状态估计误差的收敛性.
定理1. 考虑外部系统(1b)和分布式量化观测器(13), 如果假设1 ~ 3成立, 对于充分大的$ \alpha>0 $, 经过编码−解码后, 智能体$ i $对外部系统状态的估计误差
$$ \mathop{\lim}\limits_{t \to \infty}(\eta_{i}(t)-\omega(t))=0\; $$ (14) 其中, $ i \in \mathcal{V} $.
证明. 定义$ \bar{\eta}(t)=[\eta_{1}^{{\mathrm{T}}}(t),\; \eta_{2}^{{\mathrm{T}}}(t),\; \cdots,\; \eta_{N}^{{\mathrm{T}}}(t)]^{{\mathrm{T}}} $, $ \hat{\eta}(t)=[\hat{\eta}_{1}^{{\mathrm{T}}}(t),\; \hat{\eta}_{2}^{{\mathrm{T}}}(t),\; \cdots,\; \hat{\eta}_{N}^{{\mathrm{T}}}(t)]^{{\mathrm{T}}} $, $ \bar{\omega}(t)=\mathbf{1}_N\otimes \omega(t) $, $ \hat{\bar{\omega}}(t)=\mathbf{1}_N\otimes\hat{\omega}(t) $, $ \bar{E}={ I_{{N}}}\otimes E $. 将外部系统(1b)与分布式量化观测器(13)整理成如下紧凑形式:
$$ \dot{\bar{\omega}}(t)=\bar{E}\bar{\omega}(t)\; $$ (15a) $$ \begin{split} \dot{\bar{\eta}}(t)=\;&\bar{E}\bar{\eta}(t)-\alpha(\mathcal{F}\otimes I_{q})\bar{\eta}(t)\;+ \\ &\alpha(\mathcal{A}\otimes I_{q})\hat{\eta}(t)+\alpha(H\otimes I_{q})\hat{\bar{\omega}}(t) \end{split} $$ (15b) 定义$ e_{\omega}(t)=\bar{\omega}(t)-\hat{\bar{\omega}}(t) $, $ e_{\eta}(t)=\bar{\eta}(t)-\hat{\eta}(t) $, 可得
$$ \begin{split} \dot{\bar{\eta}}(t)=\;&(\bar{E}-\alpha(H\otimes I_{q}))\bar{\eta}(t)\;+\\ &\alpha(H\otimes I_{q})\bar{\omega}(t)-\alpha(\mathcal{A}\otimes I_{q})e_{\eta}(t)\;-\\ &\alpha(H\otimes I_{q})e_{\omega}(t) \end{split} $$ (16) 定义$ \tilde{\eta}(t)=\bar{\eta}(t)-\bar{\omega}(t) $, 根据式(15a)和式(16)有
$$ \begin{split} \dot{\tilde{\eta}}(t)=\;&(\bar{E}-\alpha(H\otimes I_{q}))\tilde{\eta}(t)\;-\\ &\alpha(\mathcal{A}\otimes I_{q})e_{\eta}(t)-\alpha(H\otimes I_{q})e_{\omega}(t) \end{split} $$ (17) 根据引理1可知, 对于$ j=1,\;2,\;\cdots,\;q $, $ i\in \mathcal{V} $, $ {\rm Re}(\lambda_{j}(E)-\alpha\lambda_{i}(H))<0 $, 其中$ \lambda_{j}(E) $和$ \lambda_{i}(H) $分别为$ E $的第$ j $个和$ H $的第$ i $个特征值, 即$ \bar{E}- \alpha(H\otimes I_{q}) $是赫尔维玆的.
令$ E_h=\bar{E}-\alpha(H\otimes I_{q}) $, $ E_H=\alpha(H\otimes I_{q}) $, $ E_A= \alpha(\mathcal{A}\otimes I_{q}) $, 则式(16)可改写为
$$ \begin{split} \dot{\bar{\eta}}(t)=\;&E_{h}\bar{\eta}(t)+E_{H}\bar{\omega}(t)\;-\\ &E_{A}e_{\eta}(t)-E_{H}e_{\omega}(t) \end{split} $$ (18) 由于$ \hat{\bar{\omega}}(t) $与$ \hat{\eta}(t) $使用编码−解码方案进行更新, 将系统(15a)与(18)进行离散化. 定义$ e_{\omega}(k)= \bar{\omega}(k)-\hat{\bar{\omega}}(k) $, $ e_{\eta}(k)=\bar{\eta}(k)-\hat{\eta}(k) $, 系统(15a)与(18)利用零阶保持器方法进行离散化[38], 即
$$ \bar{\omega}(k+1)={\mathrm{e}}^{\bar{E}{{T}}}\bar{\omega}(k)\; $$ (19a) $$ \begin{split} \bar{\eta}(k+1)=\;&{\mathrm{e}}^{E_{h}{{T}}}\bar{\eta}(k)+\int_{0}^{{{T}}}{\mathrm{e}}^{E_{h}\tau}E_{H}{\mathrm{d}}\tau\bar{\omega}(k)\; -\\ &\int_{0}^{{{T}}}{\mathrm{e}}^{E_{h}\tau}E_{A}{\mathrm{d}}\tau e_{\eta}(k) \;-\\ &\int_{0}^{{{T}}}{\mathrm{e}}^{E_{h}\tau}E_{H}{\mathrm{d}}\tau e_{\omega}(k)\; \end{split} $$ (19b) 其中, $ T $为采样时间, 其选取遵循香农采样定理.
接下来, 将预测器$ b_{j}(k) $表示为紧凑型, 其中$ j \in \mathcal{\bar{V}} $. 定义$ b_{\omega}(k)=\mathbf{1}_N\otimes b_0(k) $, $ b_{\eta}(k)=[b_1^{{\mathrm{T}}}(k),\;b_2^{{\mathrm{T}}} (k),\; \cdots,\; b_N^{{\mathrm{T}}}(k)]^{{\mathrm{T}}} $. 预测器$ b_{j}(k) $表示对智能体 $ i $经过解码后得到的数据$ \hat{\eta}_j(k) $的预测, 根据$ \hat{\eta}_0(k) = \hat{\omega}(k) $, 且初始值$ b_{\omega}(0)=\hat{\bar{\omega}}(0) $, $ b_{\eta}(0)=\hat{\eta}(0) $, 可得$ b_{\omega}(k)=\hat{\bar{\omega}}(k) $, $ b_{\eta}(k)=\hat{\eta}(k) $. 因此, $ e_{\omega}(k)= \bar{\omega}(k)\;- b_{\omega}(k) $, $ e_{\eta}(k)=\bar{\eta}(k)-b_{\eta}(k) $.
根据式(11), 有
$$ \begin{split} b_{\omega}(k)=\;&s(k - 1)\mathcal{Q}\left[\frac{1}{s(k - 1)}(\bar{\omega}(k) - b_{\omega}(k - 1))\right] +\\&b_{\omega}(k-1) \end{split} $$ (20a) $$ \begin{split} b_{\eta}(k)=\;&s(k - 1)\mathcal{Q}\left[\frac{1}{s(k - 1)}(\bar{\eta}(k) - b_{\eta}(k - 1))\right]+\\ &b_{\eta}(k-1) \end{split} $$ (20b) 将式(19a)的左右两边同时减去$ b_{\omega}(k) $, 可以得到
$$ \begin{split} &\bar{\omega}(k+1)-b_{\omega}(k)={\mathrm{e}}^{\bar{E}T}\bar{\omega}(k)-b_{\omega}(k)=\\ &\quad {{e}}_{\omega}(k)+({\mathrm{e}}^{\bar{E}T}-I_{qN})\bar{\omega}(k)=s(k)\theta_{\omega}(k)\; \end{split} $$ (21) 其中, $ \theta_{\omega}(k)=\frac{e_{\omega}(k)}{s(k)}+\frac{1}{s(k)}({\mathrm{e}}^{\bar{E}T}-I_{qN})\bar{\omega}(k) $.
基于式(20a)和式(21), 可得
$$ \begin{split} e_{\omega}(k+1)=\;&\bar{\omega}(k+1)-b_{\omega}(k+1)= \\ & \bar{\omega}(k+1)-b_{\omega}(k)\;-\\ & s(k)\mathcal{Q}\left[\frac{1}{s(k)}(\bar{\omega}(k+1)-b_{\omega}(k))\right]=\\ & s(k)(\theta_{\omega}(k)-\mathcal{Q}[\theta_{\omega}(k)])\\[-3pt]\end{split} $$ (22) 同理, 将式(19b)的左右两边同时减去$ b_{\eta}(k) $, 可得
$$ \begin{split} &\bar{\eta}(k+1)-b_{\eta}(k)=\\ &\quad ({\mathrm{e}}^{E_{h}T}-I_{qN})\bar{\eta}(k)+\int_{0}^{{{T}}}{\mathrm{e}}^{E_{h}\tau}E_{H}{\mathrm{d}}\tau\bar{\omega}(k)\;+\\ &\quad (I_{qN}-\int_{0}^{{{T}}}{\mathrm{e}}^{E_{h}\tau}E_{A}{\mathrm{d}}\tau)e_{\eta}(k)\;-\\ &\quad \int_{0}^{{{T}}}{\mathrm{e}}^{E_{h}\tau}E_{H}{\mathrm{d}}\tau e_{\omega}(k)= s(k)\theta_{\eta}(k)\; \end{split} $$ (23) 其中,
$$\begin{split} \theta_{\eta}(k)=&\frac{1}{s(k)}({\mathrm{e}}^{E_{h}T}-I_{qN})\bar{\eta}(k)\;+\\&\frac{1}{s(k)}\int_{0}^{{{T}}}{\mathrm{e}}^{E_{h}\tau} E_{H} {\mathrm{d}}\tau\bar{\omega}(k)\;+\\& \frac{e_{\eta}(k)}{s(k)}(I_{qN}-\int_{0}^{{{T}}}{\mathrm{e}}^{E_{h}\tau}E_{A}{\mathrm{d}}\tau)\;-\\& \frac{e_{\omega}(k)}{s(k)} \int_{0}^{{{T}}}{\mathrm{e}}^{E_{h}\tau} E_{H}{\mathrm{d}}\tau \end{split}$$ 基于式(20b)和式(23), 可得
$$ \begin{split} e_{\eta}(k+1)=\;&\bar{\eta}(k+1)-b_{\eta}(k+1)=\\ & \bar{\eta}(k+1)-b_{\eta}(k)\;-\\ & s(k)\mathcal{Q}\left[\frac{1}{s(k)}(\bar{\eta}(k+1)-b_{\eta}(k))\right]=\\ & s(k)(\theta_{\eta}(k)-\mathcal{Q}[\theta_{\eta}(k)]) \end{split} $$ (24) 根据式(22), 式(24)以及量化误差(10), 有
$$ ||\frac{e_{\omega}(k)}{s(k)}||_{\infty}\leq\frac{1}{2\mu}\; $$ (25a) $$ ||\frac{e_{\eta}(k)}{s(k)}||_{\infty}\leq\frac{1}{2\mu}\; $$ (25b) 由$ \mathop{\lim}\nolimits_{k \to \infty}s(k) = 0 $可知$ \mathop{\lim}\nolimits_{k \to \infty}e_{\omega}(k) = e_{\eta}(k) = 0 $, 进而可知$ \mathop{\lim}\nolimits_{t \to \infty}e_{\omega}(t) = e_{\eta}(t) = 0 $. 由$ \bar{E}-\alpha(H\otimes I_{q}) $是赫尔维玆的, $ \mathop{\lim}\nolimits_{t \to \infty}e_{\omega}(t)=e_{\eta}(t)=0 $, 根据文献[39]引理$ 9.1 $, 可知$ \mathop{\lim}\nolimits_{t \to \infty}\tilde{\eta}(t)=0 $. 因此, 对于每个跟随者$ i \in \mathcal{V} $, 有$ \mathop{\lim}\nolimits_{t \to \infty}\tilde{\eta}_{i}(t)=0 $.
□ 4. 量化通信下自适应动态规划算法设计
在第3节中, 通过设计的分布式量化观测器可使每个跟随者渐近观测到外部系统的状态信息. 在本节中, 将观测到的估计值$ \eta_{i}(t) $引入到自适应动态规划算法的学习阶段, 进而设计一种数据驱动的方法来解决量化通信下的协同最优输出调节问题. 值得注意的是, 该方法能够近似逼近控制增益$ K^* $与$ L^* $, 而不需要知道系统矩阵$ A_{i} $, $ B_{i} $与$ D_{i} $的先验知识.
考虑第$ i $个智能体, 定义$ \bar{x}_{ij}=x_{i}-X_{ij}\omega $, $ X_{ij}\in \bf{R}^{n_{i}\times q} $表示$ C_{i}X_{ij}+F=0 $的基础解系. 其中, $ i \in \mathcal{V} $, $ j=0,\;1,\;\cdots,\;h_{i}+1 $. $ h_{i}=(n_{i}-p_{i })q $ 表示 $ I_{q}\otimes C_{i} $零空间的维数. 接下来, 定义一个西尔维斯特方程$ S_{i}(X_{ij})=X_{ij}E-A_{i}X_{ij} $, $ X_{ij} \in \bf{R}^{n_{i} \times q} $, 根据输入误差变量$ \bar{u}_{i}=u_{i}-U_{i}^{*}\omega $与(2a), 式(4)可改写为
$$ \begin{split} \dot{\bar{x}}_{i}=&\;A_{i}\bar{x}_{i}+B_{i}\bar{u}_{i}=\\ &\bar{A}_{i}\bar{x}_{ij}+B_{i}(K_{i,\;k}\bar{x}_{ij}+u_{i})\;+\\ &(D_{i}-S_{i}(X_{ij}))\omega =\\ &\bar{A}_{i}\bar{x}_{ij}+B_{i}(K_{i,\;k}\bar{x}_{ij}+u_{i})\;+\\ & (D_{i}-S_{i}(X_{ij}))\eta_{i}-(D_{i}-S_{i}(X_{ij}))\tilde{\eta}_{i} \end{split} $$ (26) 其中, $ \bar{A}_{i}=A_{i}-B_{i}K^{*}_{i} $. 通过增大$ \alpha $, 可使$ \tilde{\eta}_{i}(t) $以所需的速度收敛到零[32].
根据式(26)以及代数黎卡提方程(7)和(8), 有
$$ \begin{split} &\bar{x}^{{\mathrm{T}}}_{ij}(t+\delta)P_{i,\;k}\bar{x}_{ij}(t+\delta)-\bar{x}^{{\mathrm{T}}}_{ij}(t)P_{i,\;k}\bar{x}_{ij}(t)=\\ &\quad\int_{t}^{t+\delta} (\bar{x}^{{\mathrm{T}}}_{ij}(\bar{A}_{i}^{{\mathrm{T}}}P_{i,\;k}+P_{i,\;k}\bar{A}_{i})\bar{x}_{ij}\;+\\ &\quad2(u_{i}+K_{i,\;k}\bar{x}_{ij})^{{\mathrm{T}}}B^{{\mathrm{T}}}_{i}P_{i,\;k}\bar{x}_{ij}\;+\\ &\quad2\eta_{i}^{{\mathrm{T}}}(D_{i}-S_{i}(X_{ij}))^{{\mathrm{T}}}P_{i,\;k}\bar{x}_{ij})\,\; {\mathrm{d}}\tau=\\ &\quad\int_{t}^{t+\delta} (-\bar{x}^{{\mathrm{T}}}_{ij}(\bar{Q}_{i}+ K^{{\mathrm{T}}}_{i,\;k}\bar{R}_{i}K_{i,\;k})\bar{x}_{ij}\;+\\ &\quad2(u_{i}+K_{i,\;k}\bar{x}_{ij})^{{\mathrm{T}}}\bar{R}_{i}K_{i,\;k+1}\bar{x}_{ij}\;+\\ &\quad2\eta_{i}^{{\mathrm{T}}}(D_{i}-S_{i}(X_{ij}))^{{\mathrm{T}}}P_{i,\;k}\bar{x}_{ij})\,\; {\mathrm{d}}\tau \end{split} $$ (27) 通过克罗内克积的性质, 有
$$ \begin{split} &\bar{x}^{{\mathrm{T}}}_{ij}(\bar{Q}_{i}+ K^{{\mathrm{T}}}_{i,\;k}\bar{R}_{i}K_{i,\;k})\bar{x}_{ij}= \\ &\quad(\bar{x}^{{\mathrm{T}}}_{ij}\otimes \bar{x}^{{\mathrm{T}}}_{ij}){\rm vec}(\bar{Q}_{i}+ K^{{\mathrm{T}}}_{i,\;k}\bar{R}_{i}K_{i,\;k})\; \end{split} $$ (28a) $$ \begin{split} &(u_{i}+K_{i,\;k}\bar{x}_{ij})^{{\mathrm{T}}}\bar{R}_{i}K_{i,\;k+1}\bar{x}_{ij} =\\ &\quad((\bar{x}^{{\mathrm{T}}}_{ij}\otimes \bar{x}^{{\mathrm{T}}}_{ij})(I_{ni}\otimes K^{{\mathrm{T}}}_{i,\;k}\bar{R}_{i})\;+ \\ &\quad(\bar{x}^{{\mathrm{T}}}_{ij}\otimes u^{{\mathrm{T}}}_{i})(I_{ni}\otimes \bar{R}_{i})){\rm vec}(K_{i,\;k+1})\; \end{split} $$ (28b) $$ \begin{split} &\eta_{i}^{{\mathrm{T}}}(D_{i}-S_{i}(X_{ij}))^{{\mathrm{T}}}P_{i,\;k}\bar{x}_{ij}= \\ &\quad(\bar{x}^{{\mathrm{T}}}_{ij}\otimes \eta_{i}^{{\mathrm{T}}}){\rm vec}((D_{i}-S_{i}(X_{ij}))^{{\mathrm{T}}}P_{i,\;k}) \end{split} $$ (28c) 对于任意两个向量$ p $, $ q $以及正整数$ c $, 定义以下矩阵
$$ \begin{split} {\Pi}_{pp}=\;&[\mathrm{vecv}(p(t_{1}))-\mathrm{vecv}(p(t_{0})),\;\cdots,\; \\ & \mathrm{vecv}(p(t_{c}))-\mathrm{vecv}(p(t_{c-1}))]^{{\mathrm{T}}}\; \end{split} $$ (29a) $$ {\Xi}_{pq}=\left[\int_{t_{0}}^{t_{1}}p\otimes q {\mathrm{d}}\tau,\;\cdots,\;\int_{t_{c-1}}^{t_{c}}p\otimes q {\mathrm{d}}\tau \right]^{{\mathrm{T}}}\; $$ (29b) 其中, $ t_0<t_1<\cdots<t_c $, 基于以上矩阵定义, 通过式(27)得到以下矩阵方程
$$ \Psi_{ij,\;k} \begin{bmatrix} {\rm vecs}(P_{i,\;k}) \\ {\rm vec}(K_{i,\;k+1})\\ {\rm vec}((D_{i}-S_{i}(X_{ij})^{{\mathrm{T}}}P_{i,\;k}) \end{bmatrix} =\Phi_{ij,\;k} $$ (30) 其中,
$$ \begin{split} \Psi_{ij,\;k}=\;&[ \Pi_{\bar{x}_{ij}\bar{x}_{ij}},\; -2\Xi_{\bar{x}_{ij}\bar{x}_{ij}}(I_{ni}\otimes K^{{\mathrm{T}}}_{i,\;k}\bar{R}_{i}) \;-\\ & 2\Xi_{\bar{x}_{ij}u_{i}}(I_{ni}\otimes \bar{R}_{i}),\;-2\Xi_{\bar{x}_{ij}\eta_{i}}]\; \end{split} $$ (31a) $$ \Phi_{ij,\;k}= -\Xi_{\bar{x}_{ij}\bar{x}_{ij}} {\rm vec}(\bar{Q}_{i}+K^{{\mathrm{T}}}_{i,\;k}\bar{R}_{i}K_{i,\;k}) $$ (31b) 如果矩阵$ \Psi_{ij,\;k} $列满秩, 则式(30)具有唯一解. 文献[30]引理$ 3 $中给出矩阵$ \Psi_{ij,\;k} $列满秩的充分条件. 如果存在正整数$ c^{*} $使得任意的$ c>c^{*} $和时间序列$ t_{0}<t_{1}<\cdots<t_{c} $, 满足以下条件时,
$$ \begin{split}& {\rm rank}([\Xi_{\bar{x}_{ij}\bar{x}_{ij}},\;\Xi_{\bar{x}_{ij}u_{i}},\;\Xi_{\bar{x}_{ij}\eta_{i}}])=\\&\quad \frac{n_{i}(n_{i}+1)}{2}+(m_{i}+q)n_{i}\; \end{split} $$ (32) 矩阵$ \Psi_{ij,\;k} $对任意正整数$ k $列满秩.
根据调节器方程(2), 西尔维斯特方程$ S_{i}(X_{ij})= X_{ij}E-A_{i}X_{ij} $以及式(30)的解, 能够求得调节器方程的解$ (X_{i},\;U_{i}) $. 该方法与文献[3]中式(27)的求解思路一致, 这里不做赘述.
为确保满秩条件(32)能够得到满足, 在学习阶段$ [t_{0},\;t_{c}] $, 本文在初始控制策略上增加探测噪声$ \xi_{i} $, 即$ u_{i0}=-K_{i0}x_{i}+\xi_{i} $, 其中, $ K_{i0} $使$ A_{i}-B_{i}K_{i0} $赫尔维玆.
据此, 针对量化通信下的自适应协同最优输出调节问题, 本文给出一个在线学习算法, 即算法1.
算法1. 基于自适应动态规划的量化通信下协同最优输出调节算法
1: 令$ i=1 $
2: 选择一个初始控制策略$ u_{i0}=-K_{i0}x_{i}+\xi_{i} $
3: 通过式(13)计算编码−解码后对外部系统状态的估 计值$ \eta_{i} $
4: 计算满足条件(32)的$ \Xi_{\bar{x}_{ij}\bar{x}_{ij}},\;\Xi_{\bar{x}_{ij}u_{i}},\;\Xi_{\bar{x}_{ij}\eta_{i}} $
5: 令$ k=0 $
6: 通过式(30)求解$ P_{i,\;k} $, $ K_{i,\;k+1} $以及$ S_{i}(X_{ij}) $
7: 令$ k\gets k+1 $, 重复步骤6, 直至满足$ ||P_{i,\;k}\;- \qquad\qquad P_{i,\;k-1}||<c_{i} $, 其中, 阈值$ c_{i} $为足够小的正数
8: $ k^{*}\gets k $
9: $ P_{i,\;k^*}\gets P_{i,\;k} $, $ K_{i,\;k^*}\gets K_{i,\;k} $
10: 通过$ S_{i}(X_{ij}) $以及问题1求解调节器方程的最优解 $ (X^{*}_{i},\;U^{*}_{i}) $, $ L_{i,\;k^*}=K_{i,\;k^*}X^{*}_{i}+U^{*}_{i} $
11: 学习到的次优控制策略为
$$ u_{i}^*=-K_{i,\;k^*}x_{i}+L_{i,\;k^*}\eta_{i}\; $$ (33) 12: 令$ i\gets i+1 $, 重复步骤2 ~ 11, 直至$ i=N $.
注4. 本文利用所设计的算法1通过系统状态$ x_{i} $, 输入$ u_{i} $以及对外部系统状态的估计值$ \eta_{i} $在线学习次优控制策略(3), 而不需要依赖系统矩阵$ A_{i} $, $ B_{i} $与$ D_{i} $的先验知识. 然而, 由于在分布式量化观测器的设计部分应用外部系统的矩阵信息, 因此要求跟随者对外部系统矩阵$ E $是已知的. 目前, 在精确通信下, 文献[7, 11]不要求跟随者对外部系统矩阵$ E $是已知的, 即已经研究了部分/全部跟随者无法访问领导者系统矩阵信息的情况, 并设计了自适应分布式观测器. 然而在量化通信下, 文献[7, 11]中所设计的自适应分布式观测器并不适用, 需要设计自适应分布式量化观测器对外部系统矩阵$ E $的估计值$ E_{i}(t) $进行观测, 其中观测器中包含经过编码−解码方案后传输的信息$ \hat{E}_{i}(t) $, 我们难以保证估计误差$ {\lim}_{t \to \infty}(E_{i}(t)-E) $收敛到零, 这对我们的研究带来全新的挑战, 在未来的工作中将进一步研究.
接下来, 给出关于控制增益$ K_{i,\;k^*} $和值$ P_{i,\;k^*} $的收敛性的定理.
定理2. 在满足条件(32)的情况下, 对于任意小的参数$ \delta>0 $, 存在充分大的$ \alpha>0 $使由算法1得到的解$ \left\{P_{i,\;k}\right\}_{k=0}^{\infty} $和$ \left\{K_{i,\;k}\right\}_{k=0}^{\infty} $满足不等式$ ||P_{i,\;k^*}- P_{i}^*||<\delta $, $ ||K_{i,\;k^*}-K_{i}^*||<\delta $, 其中$ i \in \mathcal{V} $. 且由算法1得到的次优控制策略能够实现量化通信下的协同最优输出调节.
证明. 令$ \left\{\bar{P}_{i,\;k}\right\}_{k=0}^{\infty} $, $ \left\{\bar{K}_{i,\;k}\right\}_{k=0}^{\infty} $为基于模型迭代方法得到的解.
基于模型方法的收敛性分析已经在文献[36]中得到证明. 对于每个跟随者$ i \in \mathcal{V} $, 存在$ k^* $使得以下不等式成立, 即
$$ \begin{split}& ||\bar{K}_{i,\;k^*}-K_{i}^*||<\frac{\delta}{2}\;\\& ||\bar{P}_{i,\;k^*}-P_{i}^*||<\frac{\delta}{2} \end{split} $$ (34) 接下来, 需要证明算法1在每次迭代中学到的控制增益$ K_{i,\;k} $和值$ P_{i,\;k} $足够接近基于模型算法(7)和(8)得到的控制增益$ \bar{K}_{i,\;k} $和值$ \bar{P}_{i,\;k} $. 下面将通过归纳法证明.
当$ k=0 $时, 对于所有的跟随者$ i \in \mathcal{V} $, 有$ K_{i0}= \bar{K}_{i0} $. 定义$ \Delta P_{i0}=P_{i0}-\bar{P}_{i0} $. $ \Delta P_{i0} $可通过以下方程进行求解, 即
$$ \begin{split}& \Psi_{ij,\;0} \begin{bmatrix} {\rm vecs}(\Delta P_{i0}) \\ {\rm vec}(\bar{R}^{-1}_{i}B^{{\mathrm{T}}}_{i}\Delta P_{i0})\\ {\rm vec}((D_{i}-S_{i}(X_{ij}))^{{\mathrm{T}}}\Delta P_{i0})\\ \end{bmatrix}=\\&\qquad 2\Xi_{\bar{x}_{ij}\tilde{\eta}_{i}}{\rm vec}((D_{i}-S_{i}(X_{ij}))^{{\mathrm{T}}}\bar{P}_{i0}) \end{split} $$ (35) 令$ ||\Delta\tilde{\eta}||=\max\nolimits_{t_{0}\leq t\leq t_{c}}\tilde{\eta}(t) $, 可知
$$\begin{split}& \lim\nolimits_{||\Delta\tilde{\eta}||\rightarrow0} (P_{i0}- \bar{P}_{i0})=0\\ &\lim\nolimits_{||\Delta\tilde{\eta}||\rightarrow0}(K_{i1}-\bar{K}_{i1})=\\&\qquad\lim\nolimits_{||\Delta\tilde{\eta}||\rightarrow0} (\bar{R}^{-1}_{i}B^{{\mathrm{T}}}_{i}(P_{i0}- \bar{P}_{i0}))=0 \end{split}$$ 当$ k=p $时, 假设$ \lim\nolimits_{||\Delta\tilde{\eta}||\rightarrow0}(K_{ip}-\bar{K}_{ip})=0 $. 令$ \Delta P_{ip}= P_{ip}-\bar{P}_{ip} $. $ \Delta P_{ip} $可通过以下方程进行求解
$$ \Psi_{ij,\;0} \begin{bmatrix} {\rm vecs}(\Delta P_{ip}) \\ {\rm vec}(\bar{R}^{-1}_{i}B^{{\mathrm{T}}}_{i}\Delta P_{ip})\\ {\rm vec}((D_{i}-S_{i}(X_{ij}))^{{\mathrm{T}}}\Delta P_{ip}) \end{bmatrix} =\Delta \Phi_{ij,\;p} $$ (36) 其中, $ \lim\nolimits_{||\Delta\tilde{\eta}||\rightarrow0}\Delta \Phi_{ij,\;p}=0 $. 因此, 可得
$$\begin{split}&\lim\nolimits_{||\Delta\tilde{\eta}||\rightarrow0} (P_{ip}-\bar{P}_{ip})=0\\ &\lim\nolimits_{||\Delta\tilde{\eta}||\rightarrow0}(K_{i,\;p+1}- \bar{K}_{i,\;p+1})=\\& \qquad\lim\nolimits_{||\Delta\tilde{\eta}||\rightarrow0} (\bar{R}^{-1}_{i}B^{{\mathrm{T}}}_{i}(P_{ip}- \bar{P}_{ip}))=0 \end{split}$$ 通过增大$ \alpha $的值能够加速$ \Delta\tilde{\eta} $的收敛, 对于充分大的$ \alpha>0 $, 总能找到足够小的$ \Delta\tilde{\eta} $使得在任何迭代$ k $处, 满足不等式$ ||P_{i,\;k}-\bar{P}_{i,\;k}||<\delta/2 $, $ ||K_{i,\;k}\;- \bar{K}_{i,\;k}||<\delta/2 $.
因此, 当$ k=k^* $时, 以下不等式成立, 即
$$ \begin{split}& ||K_{i,\;k^*}-\bar{K}_{i,\;k^*}||<\frac{\delta}{2}\;\\& ||P_{i,\;k^*}-\bar{P}_{i,\;k^*}||<\frac{\delta}{2} \end{split} $$ (37) 根据式(34)与式(37), 通过矩阵三角不等式可知, $ ||P_{i,\;k^*}-P_{i}^*||<\delta $, $ ||K_{i,\;k^*}-K_{i}^*||<\delta $.
接下来, 证明由算法1得到的次优控制策略能够实现量化通信下的协同最优输出调节. 令$ \tilde{\eta}_{i}(t)= \eta_{i}(t)-\omega(t) $, 由定理1可知, 在量化通信, 对外部系统状态的估计误差$ \mathop{\lim}\nolimits_{t \to \infty}\tilde{\eta}_{i}(t)=0 $. 对于$ \dot{\bar{x}}_{i}(t)= (A_{i}-B_{i}K^{*}_{i})\bar{x}_{i}(t)+B_{i}L^{*}_{i}\tilde{\eta}(t) $, 由于$ A_{i}- B_{i}K^{*}_{i} $是赫尔维玆的, $ \mathop{\lim}\nolimits_{t \to \infty}\tilde{\eta}_{i}(t)=0 $, 根据文献[39]引理$ 9.1 $, 可知$ \mathop{\lim}\nolimits_{t \to \infty}\bar{x}_{i}(t) = 0 $. 根据式(4b)可知$ e_{i}(t)= C\bar{x}_{i}(t) $, 因此$ \mathop{\lim}\nolimits_{t \to \infty}e_{i}(t)=0 $, 实现了多智能体系统的量化通信下协同最优输出调节.
□ 5. 仿真实验
在本节中, 我们将算法1应用于智能车联网的纵向协同自适应巡航控制[3, 40]. 协同自适应巡航控制是一种基于无线通信的智能自动驾驶策略, 车辆的通信拓扑如图 3所示, 外部系统仅可被车辆$ \#1 $直接访问.
利用以下模型对第$ i\;(i=1,\;2,\;3,\;4) $辆车进行建模:
$$ \begin{split} x_{i}&=\upsilon_{i}\;\\ \dot{\upsilon}_{i}&=a_{i}\;\\ \dot{a}_{i}&=\sigma^{-1}_{i}a_{i}+\sigma^{-1}_{i}u_{i}+d_{i}\; \end{split} $$ (38) 其中, $ x_{i} $, $ \upsilon_{i} $, $ a_{i} $, $ \sigma_{i} $分别为车辆$ \#i $发动机的位置、速度、加速度和时间常数. 常数$ d_{i} $是机械阻力与$ \sigma_{i} $和车辆$ \#i $质量的乘积之比. $ \sigma_{i} $与$ d_{i} $的值与文献[3]相同.
车辆$ \#i $的参考轨迹$ x^{*}_{i} $和干扰信号$ d_{i} $均由以下外部系统产生
$$ \begin{split}& \dot{\omega}_{1}=0.7\omega_{2}\;\\& \dot{\omega}_{2}=-0.7\omega_{1}\;\\& \dot{d_{i}}=d_{i}\omega_{2}\;\\& x^{*}_{i}=-5\omega_{1}-10(i+1)\omega_{2}\; \end{split} $$ (39) 外部系统状态的初值为$ \omega(t)=[\omega_{1}(t)\; \; \; \omega_{2}(t)]= [0\; \; \; 1]^{{\mathrm{T}}} $.
接下来, 对量化通信下的智能车联网系统进行仿真. 其中观测器参数$ \alpha=10 $, 调节函数$ s(k) $的初值为$ s(0)=0.05 $, 参数$ \mu=0.8 $. 外部系统状态估计误差$ \tilde{\eta}_{i}(t) $的收敛性如图 4所示.
由图 4可知, 选择的参数$ \alpha $能够保证$ \tilde{\eta}_{i}(t) $足够小, 当$ t>30 $s时, $ \tilde{\eta}_{i}(t)<10^{-6} $.
当$ t<10 $s时, 我们应用初始控制策略$ u_{i0}= -K_{i0}x_{i}+\xi_{i} $, 其中探测噪声$ \xi_{i} $为不同频率的正弦信号的总和. 根据算法1迭代学习到控制增益$ K_{i,\;k} $和值$ P_{i,\;k} $, 其中每辆车的值$ P_{i,\;k} $与基于模型情况下得到的最优值$ P_{i}^{*} $的比较结果如图 5所示.
由图 5可知, 当迭代次数$ k=9 $时, $ P_{i,\;k} $能够收敛到最优解$ P_{i}^{*} $. 也就是说, 经过9次迭代之后, 所有车辆均能学习到最优控制值.
当$ t=10 $s时, 通过学习到的最优控制增益$ (K_{i,\;k^*},\; P_{i,\;k^*}) $更新次优控制策略(3)并应用于智能车联网系统, 其实际轨迹$ x_{i} $与参考轨迹$ x^{*}_{i} $的跟踪情况如图 6所示. 仿真结果表明, 所有的车辆均能实现对参考轨迹的跟踪.
若当$ t=10 $s时, 不采用更新后的次优控制策略(3), 而是继续使用初始控制策略, 则初始控制策略控制下的智能车联网系统的实际轨迹$ x_{i} $与参考轨迹$ x^{*}_{i} $的跟踪情况如图 7所示. 从图 6与图 7的对比可知, 通过算法1得到的次优控制策略能够实现车联网自动驾驶车辆在有干扰情况下对参考轨迹的跟踪.
接下来, 通过表 1比较量化通信对车辆间通信传输比特数的影响.
表 1 达到$ ||P_{i,\;k}-P_{i}^{*}||<10^{-4} $有无量化通信传输的比特数Table 1 Transmitted bits with and without quantized communication to reach $ ||P_{i,\;k}-P_{i}^{*}||<10^{-4} $算法1下传输的比特数 无量化通信传输的比特数[3] 降低百分比 80000 192000 58.33% 由表 1可知, 量化通信下只需要传输较少的比特数就能够达到特定的收敛误差, 量化通信下降低了$ 58.33\% $比特.
6. 结束语
本文研究量化通信下系统动态未知的连续时间多智能体系统的协同最优输出调节问题. 通过引入均匀量化器与编码−解码方案, 设计一种基于采样和量化数据的分布式协议, 用于观测外部系统状态, 在保证外部系统状态估计误差收敛的同时, 降低多智能体间的通信负担. 针对一类具有不确定系统动态的多智能体系统, 设计一种自适应动态规划方法, 用于多智能体系统的协同最优输出调节. 理论分析和在智能车联网自适应巡航控制系统上的仿真验证表明, 模型未知的多智能体系统能够在量化通信下实现渐近跟踪与干扰抑制. 我们未来的研究将考虑在有限带宽通信约束下, 针对外部系统状态与系统矩阵全部未知的非线性多智能体系统设计自适应最优控制策略.
-
参数 值 无人机质量$ \text{m}_i $ $ \text{m}_1 = 1.6\text{kg},\;\text{m}_{2-5} = 1.0 \text{kg} $ 无人机转动惯量$ \mathbb{I}_i $ $ \text{diag}[0.01\,\;\,\;0.01\,\;\,\;0.01]\text{kg}\cdot \text{m}^2 $ 重力加速度 $ 9.8\text{m}/\text{s}^2 $ 学习率$ \lambda_{\alpha_{1,\;2,\;3}} $ $ 1,\;2,\;2\times 10^{-4} $ 训练回合数$ M_\text{max} $ $ 100 $ 训练步数$ N_\text{max} $ $ 500 $ 经验池大小$ \mathcal{B}_{1,\;2} $ $ 10000 $ 采样数据量$ {N_m} $ $ 128 $ 训练折扣因子$ \gamma $ $ 0.95 $ 探索与平滑系数$ \sigma_{1,\;2} $ $ 0.1,\;0.05 $ 控制策略交互频率 $ 100 $ Hz 引导策略参数$ k_{\varphi ij},\;\beta_{ij} $ $ 0.2,\; 0.3 $ 辅助增益矩阵$ K_{pi} $ $ \text{diag}[4\ 4\ 4] $ 辅助增益矩阵$ K_{Ri} $ $ \text{diag}[1.5\ 1.5\ 1.5] $ 外环控制参数$ K_{\zeta i} $ $ \text{diag}[2\ 2\ 2] $ 内环控制参数 $ k_{\eta i} $ $ \text{diag}[1.5\ 1.5\ 1.5] $ 内环控制参数$ k_i $ $ \text{diag}[2\ 2\ 2] $ -
[1] 陈谋, 马浩翔, 雍可南, 吴颖. 无人机安全飞行控制综述. 机器人, 2023, 45: 345−366Chen M, Ma H X, Yong K N, Wu Y. Safety Flight Control of UAV:A Survey. Robotics, 2023, 45: 345−366 [2] Erskine J, Briot S, Fantoni I, Chriette A. Singularity Analysis of Rigid Directed Bearing Graphs for Quadrotor Formations. IEEE Transactions on Robotics, 2024, 40: 139−157 doi: 10.1109/TRO.2023.3324198 [3] 代波, 何玉庆, 谷丰, 王骞翰, 徐卫良. 基于加速度反馈增强的旋翼无人机抗风扰控制. 机器人, 2020, 42(1): 79−88Dai B, He Y Q, Gu F, Wang Q H, Xu W L. Acceleration Feedback Enhanced Controller for Wind Disturbance Rejection of Rotor Unmanned Aerial Vehicle. Robotics, 2020, 42(1): 79−88 [4] 蔡运颂, 许璟, 牛玉刚. 基于自适应多尺度超螺旋算法的无人机集群姿态同步控制. 自动化学报, 2023, 49: 1656−1666Cai Y S, Xu J, Niu Y G. Attitude Consensus Control of UAV Swarm Based on Adaptive Multi-scale Super-twisting Algorithm. Acta Automatica Sinica, 2023, 49: 1656−1666 [5] Ille M, Namerikawa T. Collision Avoidance between Multi-UAV-Systems Considering Formation Control using MPC. 2017 IEEE International Conference on Advanced Intelligent Mechatronics (AIM), 2017: 651−656 [6] 茹常剑, 魏瑞轩, 戴静, 沈东, 张立鹏. 基于纳什议价的无人机编队自主重构控制方法. 自动化学报, 2013, 39: 1349−1359Ru C J, Wei R X, Dai J, Shen D, Zhang L P. Autonomous Reconfiguration Control Method for UAV s Formation Based on Nash Bargain. Acta Automatica Sinica, 2013, 39: 1349−1359 [7] Qi J T, Guo J J, Wang M M, Wu C, Ma Z W. Formation Tracking and Obstacle Avoidance for Multiple Quadrotors With Static and Dynamic Obstacles. IEEE Robotics and Automation Letters, 2022, 7(2): 1713−1720 [8] Shi Y, Hua Y Z, Yu J L, Dong X W, Lü J H, Ren Z. Cooperative Fault-Tolerant Formation Tracking Control for Heterogeneous Air-Ground Systems Using a Learning-Based Method. IEEE Transactions on Aerospace and Electronic Systems, 2024, 60(2): 1505−1518 doi: 10.1109/TAES.2023.3336638 [9] Zhang Y, Ma L, Yang C Y, Zhou L N, Wang G Q, Dai W. Formation Control for Multiple Quadrotors Under DoS Attacks via Singular Perturbation. IEEE Transactions on Aerospace and Electronic Systems, 2023, 59(4): 4753−4762 doi: 10.1109/TAES.2023.3241139 [10] Park B S, Yoo S J. Time-Varying Formation Control With Moving Obstacle Avoidance for Input-Saturated Quadrotors With External Disturbances. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2024, 54(5): 3270−3282 doi: 10.1109/TSMC.2024.3358345 [11] Du H B, Zhu W W, Wen G H, Duan Z S, Lü J H. Distributed Formation Control of Multiple Quadrotor Aircraft Based on Nonsmooth Consensus Algorithms. IEEE Transactions on Cybernetics, 2019, 49(1): 342−353 doi: 10.1109/TCYB.2017.2777463 [12] Dong X W, Yu B C, Shi Z Y, Zhong Y S. Time-Varying Formation Control for Unmanned Aerial Vehicles: Theories and Applications. IEEE Transactions on Control Systems Technology, 2015, 23(1): 340−348 [13] Hu Z J, Jin X. Formation Control for an UAV Team With Environment-Aware Dynamic Constraints. IEEE Transactions on Intelligent Vehicles, 2024, 9(1): 1465−1480 doi: 10.1109/TIV.2023.3295354 [14] Wang Z X, Zou Y, Liu Y Z, Meng Z Y. Distributed Control Algorithm for Leader-Follower Formation Tracking of Multiple Quadrotors: Theory and Experiment. IEEE/ASME Transactions on Mechatronics, 2021, 26(2): 1095−1105 [15] Liu H, Ma T, Lewis F L, Wan Y. Robust Formation Trajectory Tracking Control for Multiple Quadrotors With Communication Delays. IEEE Transactions on Control Systems Technology, 2020, 28(6): 2633−2640 doi: 10.1109/TCST.2019.2942277 [16] Wu J, Luo C, Min G, McClean S. Formation Control Algorithms for Multi-UAV Systems with Unstable Topologies and Hybrid Delays. IEEE Transactions on Vehicular Technology, 20241−12 [17] Dai S L, He S D, Chen X, Jin X. Adaptive Leader-Follower Formation Control of Nonholonomic Mobile Robots With Prescribed Transient and Steady-State Performance. IEEE Transactions on Industrial Informatics, 2020, 16(6): 3662−3671 doi: 10.1109/TII.2019.2939263 [18] Shen Y Y, Zhou J, Xu Z D, Zhao F G, Xu J M, Chen J M, Li S. Aggressive Trajectory Generation for a Swarm of Autonomous Racing Drones. 2023 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 20237436−7441 [19] Song F L, Li Z, Yu X H. A Feedforward Quadrotor Disturbance Rejection Method for Visually Identified Gust Sources Based on Transfer Reinforcement Learning. IEEE Transactions on Aerospace and Electronic Systems, 2023, 59(5): 6612−6623 [20] Xiao C X, Lu P, He Q X. Flying Through a Narrow Gap Using End-to-End Deep Reinforcement Learning Augmented With Curriculum Learning and Sim2Real. IEEE Transactions on Neural Networks and Learning Systems, 2023, 34(5): 2701−2708 [21] Han H R, Cheng J, Xi Z L, Yao Bingcai. Cascade Flight Control of Quadrotors Based on Deep Reinforcement Learning. IEEE Robotics and Automation Letters, 2022, 7(4): 11134−11141 doi: 10.1109/LRA.2022.3196455 [22] Hua H A, Fang Y C. A Novel Reinforcement Learning-Based Robust Control Strategy for a Quadrotor. IEEE Transactions on Industrial Electronics, 2023, 70(3): 2812−2821 doi: 10.1109/TIE.2022.3165288 [23] Zhao W B, Liu H, Lewis F L. Robust Formation Control for Cooperative Underactuated Quadrotors via Reinforcement Learning. IEEE Trans. Neural Netw. Learn. Syst., 2021, 32(10): 4577−4587 doi: 10.1109/TNNLS.2020.3023711 [24] Hua H A, Fang Y C. A Novel Learning-Based Trajectory Generation Strategy for a Quadrotor. IEEE Transactions on Neural Networks and Learning Systems, 2024, 35(7): 9068−9079 [25] Hwangbo J, Sa I, Siegwart R, Hutter M. Control of a Quadrotor With Reinforcement Learning. IEEE Rob. Autom. Lett., 2017, 2(4): 2096−2103 doi: 10.1109/LRA.2017.2720851 [26] Pu Z Q, Wang H M, Liu Z, Yi J Q, Wu S G. Attention Enhanced Reinforcement Learning for Multi-agent Cooperation. IEEE Transactions on Neural Networks and Learning Systems, 2023, 34(11): 8235−8249 [27] Sun Q Y, Fang J B, Zheng W X, Tang Y. Aggressive Quadrotor Flight Using Curiosity-Driven Reinforcement Learning. IEEE Transactions on Industrial Electronics, 2022, 69(12): 13838−13848 doi: 10.1109/TIE.2022.3144586 [28] Wang Y D, Sun J, He H B, Sun C Y. Deterministic Policy Gradient With Integral Compensator for Robust Quadrotor Control. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2020, 50(10): 3713−3725 doi: 10.1109/TSMC.2018.2884725 [29] Raja G, Essaky S, Ganapathisubramaniyan A, Baskar Y. Nexus of Deep Reinforcement Learning and Leader-Follower Approach for AIoT Enabled Aerial Networks. IEEE Transactions on Industrial Informatics, 2023, 19(8): 9165−9172 doi: 10.1109/TII.2022.3226529 [30] Yoo J, Jang D, Kim H J, Johansson K H. Hybrid Reinforcement Learning Control for a Micro Quadrotor Flight. IEEE Control Systems Letters, 2021, 5(2): 505−510 [31] Koryakovskiy I, Kudruss M, Vallery H, Babuska R, Caarls W. Model-Plant Mismatch Compensation Using Reinforcement Learning. IEEE Robotics and Automation Letters, 2018, 3(3): 2471−2477 doi: 10.1109/LRA.2018.2800106 [32] Furrer F, Burri M, Achtelik M, and Siegwart R, RotorS-A Modular Gazebo MAV Simulator Framework. Springer International Publishing, 2016, pp. 595-625. [33] Hua H, Fang Y, Zhang X, and Qian C. A time-optimal trajectory planning strategy for an aircraft with a suspended payload via optimization and learning approaches. IEEE Transactions on Control Systems Technology, 2022, 30(6): 2333−2343 doi: 10.1109/TCST.2021.3139762 -
计量
- 文章访问数: 430
- HTML全文浏览量: 188
- 被引次数: 0