2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于自适应LASSO先验的稀疏贝叶斯学习算法

白宗龙 师黎明 孙金玮

李繁飙, 黄培铭, 阳春华, 廖力清, 桂卫华. 基于非线性干扰观测器的飞机全电刹车系统滑模控制设计. 自动化学报, 2021, 47(11): 2557−2569 doi: 10.16383/j.aas.c201041
引用本文: 白宗龙, 师黎明, 孙金玮. 基于自适应LASSO先验的稀疏贝叶斯学习算法. 自动化学报, 2022, 48(5): 1193−1208 doi: 10.16383/j.aas.c210022
Li Fan-Biao, Huang Pei-Ming, Yang Chun-Hua, Liao Li-Qing, Gui Wei-Hua. Sliding mode control design of aircraft electric brake system based on nonlinear disturbance observer. Acta Automatica Sinica, 2021, 47(11): 2557−2569 doi: 10.16383/j.aas.c201041
Citation: Bai Zong-Long, Shi Li-Ming, Sun Jin-Wei. Sparse Bayesian learning using adaptive LASSO priors. Acta Automatica Sinica, 2022, 48(5): 1193−1208 doi: 10.16383/j.aas.c210022

基于自适应LASSO先验的稀疏贝叶斯学习算法

doi: 10.16383/j.aas.c210022
基金项目: 中央高校基本科研业务费项目 (IR2021222) 资助
详细信息
    作者简介:

    白宗龙:哈尔滨工业大学仪器科学与工程学院博士研究生. 主要研究方向为稀疏信号恢复, 麦克风阵列信号处理. E-mail: baizongyao@163.com

    师黎明:奥尔堡大学建筑设计与媒体艺术系博士后. 主要研究方向为稀疏信号处理, 语音信号处理. E-mail: ls@create.aau.dk

    孙金玮:哈尔滨工业大学仪器科学与工程学院教授. 主要研究方向为生物信号处理, 主动噪声控制. 本文通信作者. E-mail: jwsun@hit.edu.cn

Sparse Bayesian Learning Using Adaptive LASSO Priors

Funds: Supported by the Fundamental Research Funds for the Central Universities (IR2021222)
More Information
    Author Bio:

    BAI Zong-Long Ph.D. candidate at the School of Instrument Science and Engineering, Harbin Institute of Technology. His research interest covers sparse signal recovery technology, microphone array signal processing

    SHI Li-Ming Postdoctoral at the Create, Aalborg University. His research interest covers sparse signal recovery technology, speech signal processing

    SUN Jin-Wei Professor at the School of Instrument Science and Engineering, Harbin Institute of Technology. His research interest covers biomedical signal processing, active noise control. Corresponding author of this paper

  • 摘要: 为了提高稀疏信号恢复的准确性, 开展了基于自适应套索算子(Least absolute shrinkage and selection operator, LASSO)先验的稀疏贝叶斯学习(Sparse Bayesian learning, SBL)算法研究. 1) 在稀疏贝叶斯模型构建阶段, 构造了一种新的多层贝叶斯框架, 赋予信号中元素独立的LASSO先验. 该先验比现有稀疏先验更有效地鼓励稀疏并且该模型中所有参数更新存在闭合解. 然后在该多层贝叶斯框架的基础上提出了一种基于自适应LASSO先验的SBL算法. 2) 为降低提出的算法的计算复杂度, 在贝叶斯推断阶段利用空间轮换变元方法对提出的算法进行改进, 避免了矩阵求逆运算, 使参数更新快速高效, 从而提出了一种基于自适应LASSO先验的快速SBL算法. 本文提出的算法的稀疏恢复性能通过实验进行了验证, 分别针对不同大小测量矩阵的稀疏信号恢复以及单快拍波达方向(Direction of arrival, DOA)估计开展了实验. 实验结果表明: 提出基于自适应LASSO先验的SBL算法比现有算法具有更高的稀疏恢复准确度; 提出的快速算法的准确度略低于提出的基于自适应LASSO先验的SBL算法, 但计算复杂度明显降低.
  • 近年来, 多智能体系统(Multi-agent systems, MASs)分布式协同控制问题的研究取得了显著进展, 引发各个领域的广泛关注. 该研究范畴涵盖生物系统中的群体行为[1]、分布式传感器网络技术[2]和智能电网管理[3]等多个方面. 一致性问题作为支撑MASs分布式协同控制的基础问题, 不仅在理论层面具有深远的意义, 而且在实际应用中展现出巨大的价值. 一致性控制的根本挑战在于设计高效的一致性算法或协议, 旨在确保MASs的所有智能体能够逐步调整其状态或输出, 最终达到相同, 即实现智能体的一致性.

    目前, MASs一致性控制的研究可以根据系统中领航者的数量划分为三种类别: 无领航者的一致性控制、领导−跟随一致性控制(一个领航者)以及包含多个领航者的一致性控制[46]. 到目前为止, MASs一致性控制的研究涵盖越来越复杂的智能体动态特性和通信网络拓扑, 包括但不限于线性[7]或非线性MASs[8]、整数阶[9]或分数阶模型[10]、固定[11]或时变拓扑[12]、输入延迟[13]、输入饱和[14]等. 在上述复杂情况下, 各种适当的控制算法被提出以实现一致性控制. 此外, 由于智能体的通信和计算资源有限, 基于事件触发的控制策略[1516]被用于实现一致性控制, 有效减少了不必要的能源消耗. 然而, 这些研究成果只能实现渐近一致性控制, 即在理论上调节时间趋于无穷. 在实际应用中, 由于渐近一致性的收敛时间较长, 难以满足任务的时效性需求.

    相比之下, 有限时域一致性被认为是一种更为理想的控制策略. 有限时域控制不仅能够缩短闭环系统的收敛时间, 还具备更好的鲁棒性和抗干扰能力[17]. 文献[18]提出一种分散模型预测控制方案, 实现了一阶MASs的有限时域状态一致性控制. 文献[19]采用分布式线性二次型博弈方法, 实现了离散时间二阶MASs的有限时域状态一致性控制. 此外, 文献[2023]研究离散时变MASs的$ H_\infty $有限时域状态一致性控制问题. 上述有限时域状态一致性协议的设计通常假设智能体动力学模型已知[2023], 或仅考虑简单的一阶[18]、二阶[19]系统. 然而, 一阶和二阶系统无法充分描述实际系统的动态特性, 而且在实际应用中, 系统模型信息通常是未知的或难以获取的. 传统的有限时域一致性协议在系统模型未知的情况下并不适用, 难以满足实际应用的需求.

    自适应动态规划(Adaptive dynamic programming, ADP)[24]或强化学习(Reinforcement learning, RL)[25]能够利用仿生学习机制解决系统模型未知情况下的优化控制问题[26]. 其中, 学习状态−动作值函数的Q学习算法[27]为实现无模型最优控制提供了一种有效的解决方案. 近年来, 学者们利用ADP或RL算法, 通过逼近求解耦合的哈密顿−雅可比−贝尔曼(Hamilton-Jacobi-Bellman, HJB)方程, 以实现MASs的最优渐近一致性控制[78, 2831]. 例如, 基于Q学习的算法已经应用于异构MASs[78, 2829]和同构MASs[3031]中, 用以实现模型无关的最优一致性控制. 然而, 这些文献主要关注无限时域一致性控制问题. 相比之下, 模型无关的有限时域一致性控制问题更具挑战性, 因为它需要在满足值函数终端约束条件的同时求解耦合的时变HJB方程.

    为解决上述问题, 学者们开始研究基于ADP或RL的算法, 以逼近耦合的时变HJB方程的近似解, 从而实现MASs的有限时域最优一致性控制. 文献[32]提出一种基于局部动力学的离策略(Off-policy) RL算法, 实现线性MASs的有限时域最优状态一致性控制. 此外, 文献[33]针对非线性MASs提出基于ADP的有限时域鲁棒事件触发最优状态一致性控制方法. 然而, 上述一致性控制器的设计[3233]仍然依赖于MASs的部分模型信息, 而在实际情况下, 这些系统模型信息通常难以获得.

    为克服系统模型必须已知的问题, 文献[34]采用神经网络逼近每个智能体的动态特性, 然后在神经网络模型的基础上基于ADP设计有限时域最优编队控制方法. 然而, 这种方式会产生额外的计算开销, 并引入逼近误差, 从而影响ADP方法的有效性. 文献[35]提出一种基于积分RL算法和零和博弈理论的模型无关有限时域鲁棒最优编队包含控制方法.

    由于在实际的MASs中普遍存在执行器饱和的问题, 如无人车电机的输出转矩受最大功率限制, 无人机的舵面受物理结构限制等, 饱和的非线性特性通常会导致系统性能下降, 甚至可能导致系统不稳定, 使得执行器饱和问题在理论和实践上都极具挑战性. 上述研究结果[3235]无法确保在模型未知的情况下实现具有执行器饱和约束的MASs一致性控制.

    为解决这一问题, 学者们提出基于RL或ADP的方法来处理执行器饱和的MASs模型无关一致性控制问题. 例如, 文献[36]提出一种新型的辨识−评价−执行结构, 结合粘性消失法, 解决了有输入约束MASs的领导−跟随最优一致性控制问题. 文献[37]提出一种离策略RL算法, 通过逼近求解具有非二次型代价函数的耦合HJB方程, 以实现一致性控制. 文献[31, 3840]使用低增益反馈(Low gain feedback, LGF)方法[41]处理执行器饱和问题, 并结合ADP方法实现执行器饱和的MASs最优一致性控制. 然而, 这些基于ADP或RL的模型无关一致性控制方法主要解决的是存在执行器饱和的MASs无限时域一致性控制问题, 只能实现渐近一致性控制, 即理论调控时间趋于无穷. 文献[42]基于ADP研究具有对称或不对称输入约束条件的MASs事件驱动有限时域最优状态一致性控制问题, 但其控制器的设计要求已知系统的模型信息.

    受上述分析的启发, 本文将LGF方法与Q学习相结合, 用以解决执行器饱和的离散时间线性MASs模型无关有限时域一致性控制问题. 首先, 根据LGF方法的思想, 推导得到修正的时变黎卡提方程(Modified time-varying Riccati equation, MTVRE). 求解MTVRE可以得到时变的低增益反馈律, 同时可以通过调整低增益参数来避免执行器饱和. 然后, 参考文献[4344], 设计依赖于系统状态、控制输入和低增益参数的时变参数化Q函数(Time-varying parameterized Q-function, TVPQF). 在TVPQF的基础上, 提出一种基于Q学习后向时间迭代模型无关一致性控制方法, 该方法在不需要已知系统动力学模型的前提下, 能够逼近求解MTVRE, 从而实现离散时间MASs的有限时域一致性控制.

    本文将LGF方法与Q学习相结合, 提出一种针对执行器饱和的模型无关有限时域一致性控制方法. 主要贡献如下: 设计一种依赖于智能体状态、控制输入和低增益参数的TVPQF. 基于TVPQF, LGF控制器的设计减少了对系统动力学模型的依赖; 提出一种可以迭代更新低增益参数的后向时间模型无关控制算法, 并证明所提算法得到的时变LGF控制增益矩阵收敛于MTVRE的解; 另外, 证明所提算法不仅可以实现半全局一致性, 而且可以保证执行器饱和条件下的全局一致性控制, 并通过仿真实验进行论证.

    本文的结构安排如下: 第1节首先介绍代数图论的相关知识, 并结合LGF方法介绍执行器饱和的离散时间MASs有限时域一致性控制问题的基于模型的求解方案. 第2节首先证明可以将执行器饱和的离散时间MASs有限时域一致性控制问题转化为执行器饱和的单智能体的最优控制问题, 接着提出基于TVPQF的后向时间迭代算法以逼近求解最优控制问题对应的MTVRE. 第3节提供仿真结果验证本文方法的有效性, 并进行对比实验, 比较性能指标突显本文方法的优越性. 第4节为结束语.

    符号说明: $ {\bf{R}} $表示实数集, $ {\bf{R}}^{n \times m} $表示$ n\times m $维矩阵. $ I $表示具有兼容维数的单位矩阵. $ {\bf{0}} $表示具有兼容维数的全零向量或矩阵. $ \lambda_i(A) $表示矩阵$ A $的第$ i $个特征值. $ \text{Re} $表示实部. $ \text{rank}(A) $表示矩阵$ A $的秩. $ \text{argmax} $表示最大值索引. $ \text{argmin} $表示最小值索引. $ \text{vec} $为矩阵的拉直运算, 把矩阵按照列的顺序一列接一列的组成一个长向量. $ x^\text{T} $表示向量$ x $的转置.

    有$ N $个节点的加权图可记为$ G = (V,\; E,\; D) $, 其中节点和边的集合记为$ V = \{v_1,\;v_2,\;\cdots,\; v_N \} $和$ E = \{(v_i,\; v_j): v_i,\; v_j\in V\} $. 节点之间的连接关系由行随机矩阵$ D = [d_{ij}]\in {\bf{R}}^{N \times N} $决定, 其中$ d_{ii} > 0 $, $ \sum_{j = 1}^{N}d_{ij} = 1 $. 如果$ (v_i,\; v_j)\in E $, $ d_{ij}> 0 $; 否则$ d_{ij} = 0 $. 对于无向图$ G $, 行随机矩阵$ D $是对称的, 如果在任何一对不同的节点之间存在一条路径, 则称无向图$ G $是连通的. $ I-D $可看作是一种特殊的拉普拉斯矩阵, 满足$ \text{Re}(\lambda_1(I-D))< \text{Re}(\lambda_2(I-D))\le \cdots \le \text{Re}(\lambda_N(I-D)) $. 此外, 当且仅当有向图$ G $包含一个有向生成树, 或无向图$ G $连通时, 1是$ D $的一个单特征值. 令$ r\in {\bf{R}}^N $表示与$ I-D $的零特征值相关的左特征向量, 其满足$ r^\text{T} {\bf 1} = 1 $.

    考虑由$ N $个执行器饱和的智能体组成的离散时间MASs:

    $$ \begin{equation} x_i(k+1) = Ax_i(k)+B\varrho (u_i(k)),\; i = 1,\;2,\;\cdots,\;N \end{equation} $$ (1)

    式中, $ x_i(k) \in {\bf{R}}^n $, $ u_i(k) \in {\bf{R}}^m $分别表示智能体$ i $的状态向量以及输入向量; $ \varrho (\cdot):{\bf{R}}^m\rightarrow {\bf{R}}^m $表示饱和函数, 对于$ j = 1,\;2,\;\cdots,\;m $满足:

    $$ \varrho (u_i^j(k)) = \left\{ \begin{aligned} & -c, & & \,u_i^j(k)<-c\\ & \, u_i^j(k), & &-c\leq u_i^j(k)\leq c\\ &\, c, & &\,u_i^j(k) > c \end{aligned} \right. $$ (2)

    式中, $ c $表示饱和极限.

    假设 1. 本文中, 智能体的系统模型是确定且未知的, 即$ A \in {\bf{R}}^{n \times n} $, $ B \in {\bf{R}}^{n \times m} $表示确定性的未知系统矩阵.

    假设 2. 系统矩阵$ \left(A,\; B\right) $为输入有界下渐近零可控(Asymptotically null controllable with bounded controls, ANCBC), 即系统$ \left(A,\; B\right) $是可控的, 且$ A $的所有特征值都在单位圆上或单位圆内[41].

    假设 3. 本文所考虑的用以描述离散时间MASs (1)拓扑结构的无向图$ G $是连通的.

    假设 4. 本文所考虑的离散时间MASs (1)的阶次已知, 即$ n $是已知的.

    本文研究的是具有执行器饱和的离散时间MASs的有限时域一致性控制问题. 所考虑的具体问题是: 在有限的时间区间内, 通过适当的控制策略设计, 使得所有智能体的状态在终端时刻达到一致, 即$ \lim _{k \rightarrow \tau}\left\|x_i(k)-x_j(k)\right\| = 0 $. 这种有限时域一致性控制要求在给定的时间范围$ \tau $内, 使所有智能体的状态在终端时刻达到某个共同的期望状态, 而不是在无限时域上渐近趋于一致.

    参考文献[31], 针对离散时间MASs (1)可以设计如下状态反馈控制律:

    $$ \begin{equation} u_i(k) = K(k) \sum\limits_{j = 1}^N d_{i j}\left(x_i\left(k\right)-x_j\left(k\right)\right) \end{equation} $$ (3)

    其中, $ K(k) $为待设计的反馈控制增益矩阵.

    引理 1. 对于具有$ N $个节点的离散时间MASs (1), 如果其对应的无向图$ G $是联通的, 则有$ \mu = 4 / (N(N - 1)) \leq \lambda_2 \left(I-D\right) $[45].

    引理 2. 如果假设2和假设3成立, 则对于给定的有界集$ {\cal{X}} \in {\bf{R}}^n $, $ \forall x_i(0)\in {\cal{X}},\; i = 1,\;2,\; \cdots,\; N $, 存在最优低增益参数$ \varepsilon ^*\in (0,\;1] $, 对于任意$ \varepsilon \in (0, \varepsilon ^*] $, 离散时间MASs (1)可以在控制协议(3)下实现半全局一致性, 其中最优反馈控制增益矩阵满足:

    $$ \begin{equation} K_{\varepsilon}^*(k) = -\left(B^{\mathrm{T}}P^*_{\varepsilon}(k+1)B+I\right)^{-1}B^{\mathrm{T}}P^*_{\varepsilon}(k+1)A \end{equation} $$ (4)

    式中, $ P^*_{\varepsilon}(k) $满足如下MTVRE:

    $$ \begin{split} P^*_{\varepsilon}(k) =\;& A^{\mathrm{T}} P^*_{\varepsilon}(k+1) A+\varepsilon I-\left(2 \mu-\mu^2\right) \;\times\\ & A^{\mathrm{T}}P^*_{\varepsilon}(k+1) B(B^{\mathrm{T}} P^*_{\varepsilon}(k+1) B+I)^{-1} \;\times \\ & B^{\mathrm{T}} P^*_{\varepsilon}(k+1) A\\[-1pt] \end{split} $$ (5)

    同时, $ \lim _{\varepsilon \rightarrow 0}P^*_{\varepsilon}(k) = 0 $是单调的[38].

    注1. 文献[38]考虑的是无限时域MASs一致性控制问题, 需求解修正的时变黎卡提方程. 而本文考虑的是有限时域一致性控制问题, 需求解MTVRE (5), 得到的正定矩阵$ P^*_{\varepsilon}(k) $以及LGF矩阵$ K_{\varepsilon}^*(k) $是时变的. 同时, 结合文献[38]中的引理2以及文献[46], 容易推导得到引理2.

    注2. 相比于式(3), 式(4)中$ K_{\varepsilon}^*(k) $加下标$ \varepsilon $的原因在于, 根据LGF方法的思想, 反馈控制增益矩阵$ K_{\varepsilon}^*(k) $可以通过$ \varepsilon $进行调整, 从而使控制输入满足执行器饱和约束.

    由引理2可知, 求解MTVRE (5)需要已知系统的模型参数$ \left(A,\; B\right) $. 然而, 在实际应用中, 系统的精确模型信息往往难以获取, 即便通过系统辨识可以获得模型信息, 但不可避免地会引入辨识误差. 同时, 引理2中给出的求解MTVRE (5)的方法只能实现半全局一致性. 为了解决这一问题, 本文首先将MASs的有限时域一致性控制问题转化为单智能体的有限时域最优控制问题, 并在无需系统模型信息且不依赖系统辨识的前提下, 提出一种结合低增益反馈与Q学习的模型无关数据驱动控制方法. 该方法能够在面对执行器饱和的情况下, 动态调整低增益参数, 从而在任意给定的智能体初始状态下, 实现离散时间MASs (1)的有限时域全局一致性控制.

    在本节中, 将首先介绍使用LGF方法求解执行器饱和的单个智能体的优化控制问题, 进而推导得到MTVRE (5). 然后, 将介绍如何利用数据驱动方法, 通过单个智能体的可测量数据, 在系统模型信息未知的情况下, 逼近LGF控制增益矩阵$ K_{\varepsilon}^*(k) $, 从而实现离散时间执行器饱和MASs (1)的有限时域一致性控制.

    考虑如下执行器饱和的离散时间系统:

    $$ \begin{equation} x_i(k+1) = Ax_i(k)+B\varrho (\zeta _i(k)) \end{equation} $$ (6)

    其中, $ \zeta _i(k) $表示新的控制输入. 在接下来的基于Q学习的算法中, 将使用它来学习LGF矩阵 $ K_{\varepsilon}(k) $.

    定义如下有限时域性能指标:

    $$ \begin{equation} \begin{aligned} J_i = \sum\limits_{k = 0}^{\tau -1}r_{i}\left(x_{i}(k),\;\zeta _{i}(k),\;\varepsilon\right)+\varepsilon x_{i}^{\mathrm{T}}(\tau)x_{i}(\tau) \end{aligned} \end{equation} $$ (7)

    式中, 最后一项$ \varepsilon x_{i}^{\mathrm{T}}(\tau)x_{i}(\tau) $代表终端约束条件; $ r_{i}\left(x_{i}(k),\;\zeta _{i}(k),\;\varepsilon\right) $表示智能体 $ i $的效用函数:

    $$ \begin{equation} r_{i}\left(x_{i}(k),\;\zeta _{i}(k),\;\varepsilon\right) = \varepsilon x^{\mathrm{T}}_{i}(k)x_{i}(k)+\zeta^{\mathrm{T}}_{i}(k)\zeta_{i}(k) \end{equation} $$ (8)

    根据有限时域性能指标 (7), 每个智能体$ i $的值函数可以表示为:

    $$ \begin{equation} V_i(x_{i}(k)) = \sum\limits_{j = k}^{\tau-1} r_{i}\left(x_{i}(j),\;\zeta _{i}(j),\;\varepsilon\right)+\varepsilon x_{i}^{\mathrm{T}}(\tau)x_{i}(\tau) \end{equation} $$ (9)

    下面引理证明, 当控制输入$ \zeta _i(k) = \mu K_{\varepsilon}(k)\;\times x_i(k) $时, 值函数(9)可以表示为二次型形式.

    引理3. 如果离散时间系统(6)的控制输入可以表示为$ \zeta _i(k) = \mu K_{\varepsilon}(k)x_i(k) $, 则智能体$ i $的值函数$ V_i(x_{i}(k)) $可以表示为如下二次型形式:

    $$ \begin{equation} V_i(x_{i}(k)) = x_{i}^{\mathrm{T}}(k) P_\varepsilon(k) x_{i}(k) \end{equation} $$ (10)

    式中, $ P_\varepsilon(k) = P^{\mathrm{T}}_\varepsilon(k)>0 $. $ P_\varepsilon(\tau) = \varepsilon I $.

    证明. 本部分将基于最优性原理, 利用终端约束条件采用后向时间的方式进行证明.

    当$ k = \tau $时, 可以很容易地从式(9)得到:

    $$ \begin{equation} V_i(x_{i}(\tau)) = \varepsilon x_{i}^{\mathrm{T}}(\tau)x_{i}(\tau) \end{equation} $$ (11)

    因此, 可以得到$ P_\varepsilon (\tau) = P^{\mathrm{T}}_\varepsilon (\tau) = \varepsilon I $.

    当$ k = \tau -1 $时, 结合式(8)和(9)可以得到:

    $$ \begin{split} V_i(x_{i}(\tau -1)) =\; &\varepsilon x^{\mathrm{T}}_{i}(\tau -1)x_{i}(\tau -1)\;+\\ &\zeta^{\mathrm{T}}_{i}(\tau -1)\zeta_{i}(\tau -1) +\varepsilon x_{i}^{\mathrm{T}}(\tau)x_{i}(\tau) \end{split} $$ (12)

    将式(6)代入式(12)中, 得到:

    $$ \begin{split} V_i(x_{i}(\tau -1)) =\; &\varepsilon x^{\mathrm{T}}_{i}(\tau -1)x_{i}(\tau -1)\;+\\ &\zeta^{\mathrm{T}}_{i}(\tau -1)\zeta_{i}(\tau -1)\;+\\ &\varepsilon(Ax_i(\tau -1)+B\zeta _i(\tau -1))^{\mathrm{T}}\;\times \\ &(Ax_i(\tau -1)+B\zeta _i(\tau -1))\\[-1pt] \end{split} $$ (13)

    然后, 将$ \zeta _i(\tau -1) = \mu K_{\varepsilon}(\tau -1)x_i(\tau -1) $代入式(13)中, 可以得到:

    $$ \begin{split} V_i(x_{i}(\tau -1)) = \; &x^{\mathrm{T}}_{i}(\tau -1)[\varepsilon I + \mu^2 K_{\varepsilon}^{\mathrm{T}}(\tau -1)K_{\varepsilon}(\tau \;-\\ &1) +\varepsilon\left(A + \mu BK_{\varepsilon}(\tau -1)\right)^{\mathrm{T}}\;\times\\ &(A + \mu BK_{\varepsilon}(\tau -1))]x_{i}(\tau -1) \\[-1pt]\end{split} $$ (14)

    当$ k = \tau -1 $时, 从式(14)可以得到:

    $$ \begin{split} P_\varepsilon (\tau -1) = \; &\varepsilon I + \mu^2 K_{\varepsilon}^{\mathrm{T}}(\tau -1)K_{\varepsilon}(\tau -1)\;+ \\ &\varepsilon\left(A + \mu BK_{\varepsilon}(\tau -1)\right)^{\mathrm{T}}\;\times\\ &(A + \mu BK_{\varepsilon}(\tau -1)) \end{split} $$ (15)

    从上式可以得到 $ P_\varepsilon (\tau -1) = P^{\mathrm{T}}_\varepsilon (\tau -1)>0 $.

    采用与$ P_\varepsilon (\tau -1) $相同的方式, 可以类似地确定, 对于$ k = 0,\;1,\; \cdots,\; \tau-2 $, 矩阵$ P_\varepsilon(k) $也符合$ P_\varepsilon(k) = P^{\mathrm{T}}_\varepsilon (k)>0 $.  

    下面定理将证明, 针对执行器饱和的离散时间系统(6)以及对应的有限时域性能指标(7), 存在最优的LGF控制增益矩阵$ K_{\varepsilon}(k) $, 使得智能体$ i $的值函数$ V_i(x_{i}(k)) $可以表示为式(10).

    定理1. 考虑执行器饱和离散时间系统(6)以及对应的有限时域性能指标(7), 其最优控制律满足:

    $$ \begin{equation} {\zeta}^*_i(k) = K^*_{\varepsilon}(k)x_i(k) \end{equation} $$ (16)

    其中, $ K^*_{\varepsilon}(k) $满足式(4). 如果令$ {\zeta}^*_i(k) = \mu K^*_{\varepsilon}(k)x_i(k) $, 则$ P^*_{\varepsilon}(k) $满足式(5).

    证明. 根据值函数的定义(9)可知, 值函数满足如下贝尔曼方程:

    $$ \begin{equation} \begin{aligned} V_i(x_{i}(k)) = \varepsilon x^{\mathrm{T}}_{i}(k)x_{i}(k)+{\zeta}^{\mathrm{T}}_{i}(k){\zeta}_{i}(k)+V_i(x_{i}(k+1)) \end{aligned} \end{equation} $$ (17)

    同时, 最优值函数满足:

    $$ \begin{split} V_i^*(x_i(k)) =\;&\min_{{\zeta}_i(k)} \sum\limits_{j = k}^{\tau-1}(\varepsilon x^{\mathrm{T}}_{i}(j)x_{i}(j)+{\zeta}^{\mathrm{T}}_{i}(j){\zeta}_{i}(j)\;+\\ &\varepsilon x_{i}^{\mathrm{T}}(\tau )x_{i}(\tau)) \\[-1pt]\end{split} $$ (18)

    结合式(17)和式(18), 可以得到如下的贝尔曼最优方程:

    $$ \begin{split} V^*_i(x_{i}(k)) =\; &\min_{{\zeta}_i(k)}\left(\varepsilon x_{i}^{\mathrm{T}}(k)x_{i}(k)+{\zeta}_i^{\mathrm{T}}(k){\zeta}_i(k)\right.+\\ &\left.V^*_i(x_{i}(k+1))\right) \end{split} $$ (19)

    当$ k = \tau-1 $时, 由式(18)可知:

    $$ \begin{split} V^*_i(x_{i}(\tau-1)) = \;&\min_{{\zeta}_i(\tau-1)} \left(\varepsilon x^{\mathrm{T}}_{i}(\tau-1)x_{i}(\tau-1)\right.+\\ &\left.{\zeta}^{\mathrm{T}}_{i}(\tau-1){\zeta}_{i}(\tau-1)+\varepsilon x_{i}^{\mathrm{T}}(\tau )x_{i}(\tau)\right) \end{split} $$ (20)

    将式(6)代入式(20)中, 得到:

    $$ \begin{split} V^*_i(x_{i}(\tau-1)) = \; &\min_{{\zeta}_i(\tau-1)}(\varepsilon x_{i}^{\mathrm{T}}(\tau-1)x_{i}(\tau-1)\;+\\ &{\zeta}_i^{\mathrm{T}}(\tau-1){\zeta}_i(\tau-1)\;+\\ &\varepsilon(Ax_{i}(\tau-1)+B{\zeta}_i(\tau-1))^{\mathrm{T}}\;\times\\ &(Ax_{i}(\tau-1)+B{\zeta}_i(\tau-1))) \\[-1pt] \end{split} $$ (21)

    从式(21)可以得到最优控制策略满足:

    $$ \begin{split} {\zeta}^*_i(\tau-1) = \;&\arg\min_{{\zeta}_i(\tau-1)}(\varepsilon x_{i}^{\mathrm{T}}(\tau-1)x_{i}(\tau-1)\;+\\ &{\zeta}_i^{\mathrm{T}}(\tau-1){\zeta}_i(\tau-1)\;+\\ &\varepsilon(Ax_{i}(\tau-1)+B{\zeta}_i(\tau-1))^{\mathrm{T}}\;\times\\ & (Ax_{i}(\tau-1)+B{\zeta}_i(\tau-1))) \end{split} $$ (22)

    为了得到最优控制策略, 可以通过上式右半部分对$ {\zeta}_i(\tau-1) $求导, 并令导数为零. 则有:

    $$ \begin{equation} 2{\zeta}^{\mathrm{T}}_i(\tau-1)+2\varepsilon\left(Ax_{i}(\tau-1)+B{\zeta}_i(\tau-1)\right)^{\mathrm{T}}B = 0 \end{equation} $$ (23)

    因此, 可以得到最优控制策略:

    $$ {\zeta}^*_i(\tau-1) = -\varepsilon\left(\varepsilon B^{\mathrm{T}}B+I\right)^{-1}B^{\mathrm{T}}Ax_i(\tau-1) $$ (24)

    结合值函数的终端约束条件可知$ P^*_{\varepsilon}(\tau) = \varepsilon I $, 则式(24)可以重写为:

    $$ \begin{split} {\zeta}^*_i(\tau-1) = \; &\left(B^{\mathrm{T}} P^*_{\varepsilon}(\tau) B+I\right)^{-1}\times\\ &B^{\mathrm{T}}P^*_{\varepsilon}(\tau) Ax_i(\tau-1) = \\ &K^*_{\varepsilon}(\tau-1)x_i(\tau-1) \end{split} $$ (25)

    比较式(4)和式(25), 可知$ K^*_{\varepsilon}(\tau-1) $满足式(4).

    结合文献[46]以及引理3, 可以得到最优值函数$ V^*_i(x_{i}(\tau-1)) $可以写成如下形式:

    $$ \begin{equation} V^*_i(x_{i}(\tau-1)) = x_{i}^{\mathrm{T}}(\tau-1) P^*_\varepsilon(\tau-1) x_{i}(\tau-1) \end{equation} $$ (26)

    同时, 将$ {\zeta}^*_i(\tau-1) = \mu K^*_{\varepsilon}(\tau-1)x_i(\tau-1) $代入式(20)中, 很容易得到$ P^*_{\varepsilon}(\tau-1) $满足式(15).

    采用与$ k = \tau -1 $相同的方式, 可以依次得到$ K^*_{\varepsilon}(k),\; k = \tau -2,\; \cdots,\; 1,\; 0 $满足式(4), 并且值函数满足:

    $$ \begin{equation} V^*_i(x_{i}(k)) = x_{i}^{\mathrm{T}}(k) P^*_\varepsilon(k) x_{i}(k) \end{equation} $$ (27)

    此外, 将$ {\zeta}^*_i(k) = \mu K^*_{\varepsilon}(k)x_i(k) $代入式(19)中, 并结合式(27), 很容易得到$ P^*_{\varepsilon}(k) $满足式(15).

    注3. 与有限/固定时间控制不同, 本文所考虑的有限时域一致性控制是指控制器在一个预算的时间段内进行设计. 在这个时间段结束时, 控制器的目标是使系统状态达到某个期望的状态或者满足特定的性能指标. 有限时域控制问题通常涉及优化一个性能指标函数, 该函数定义在从初始时刻到终止时刻的时间区间上, 如本文所考虑的有限时域性能指标函数(7), 并且需要考虑在此期间系统的动态行为和可能存在的约束条件, 如本文所考虑的执行器饱和约束. 而有限时间控制强调的是收敛时间$ t $趋于一个固定值$ T $达到稳定, 该$ T $是根据初值和控制参数计算出来的. 固定时间控制是一种特殊的有限时间控制, 也是$ t $趋于一个固定值$ T $达到稳定, 该$ T $的计算和初值无关, 但是计算的$ T $有保守性. 有限时域控制可以看作有限时间控制的一种特殊情况, 其侧重点在于需要在固定时间范围内优化一个性能指标函数.

    注4. 根据低增益反馈控制方法[41], 可以对低增益参数进行动态调整, 逐步将控制输入限制在饱和值范围内, 从而避免执行器饱和现象. 在引理3以及定理1的证明过程中, 由于低增益参数的存在, 在证明过程中假定通过调整低增益参数得到满足执行器饱和约束的控制输入. 因此, 在涉及控制输入的证明过程中, 饱和函数$ \rho ( \cdot ) $没有显示地出现.

    从以上分析可知, 可以将针对执行器饱和的离散时间MASs (1)的有限时域一致性控制问题转化为针对执行器饱和的离散时间系统(6)以及有限时域性能指标(7)的最优控制问题. 不同之处在于, 为了实现有限时域一致性控制, 需要改变由最优控制问题求得的控制策略. 同时, 依据LGF方法的特点, 可以通过调整低增益参数$ \varepsilon $实现避免执行器饱和的目标.

    在这一部分, 首先, 结合Q学习的思想定义TVPQF; 然后, 提出一种数据驱动的后向时间迭代方法, 在仅需要单个智能体可测量数据的前提下, 逼近求解MTVRE (5), 以实现有限时域一致性控制.

    依据文献[27], 定义如下TVPQF:

    $$ \begin{split} &Q_{\varepsilon}\left(x_{i}(k),\;\zeta _{i}(k),\;\tau-k\right) = \\ &\qquad r_{i}\left(x_{i}(k),\;\zeta _{i}(k),\;\varepsilon\right)+V_{i}^*\left(x_{i}(k+1)\right) \end{split} $$ (28)

    其中, $ Q_{\varepsilon}(x_{i}(\tau)) = \varepsilon x^{\mathrm{T}}_{i }(\tau)x_{i}(\tau) $.

    定义变量$ \xi_{i}(k) = \left[x_{i}^{\mathrm{T}}(k),\; \zeta_{i}^{\mathrm{T}}(k)\right]^{\mathrm{T}} $. 同时, 将式(6)和(19)代入式(28)中, 可以得到:

    $$ \begin{equation} \begin{aligned} Q_{\varepsilon}\left(x_{i}(k),\;\zeta _{i}(k),\;\tau-k\right) = \xi^{\mathrm{T}}_{i}(k){\cal{H}}_{\varepsilon}(k)\xi_{i}(k) \end{aligned} \end{equation} $$ (29)

    式中, $ {\cal{H}}_{\varepsilon}(k) $表示TVPQF的核函数, 定义如下:

    $$ \begin{split} &{{\cal{H}}_\varepsilon }(k): = \left[ {\begin{array}{*{20}{l}} {{{\cal{H}}_{xx}}(k)}&{{{\cal{H}}_{x\zeta }}(k)}\\ {{{\cal{H}}_{\zeta x}}(k)}&{{{\cal{H}}_{\zeta \zeta }}(k)} \end{array}} \right] = \\ &\;\;\;\;\left[ {\begin{array}{*{20}{c}} {\varepsilon I + {A^{\rm{T}}}{P_\varepsilon }(k + 1)A}&{{A^{\rm{T}}}{P_\varepsilon }(k + 1)B}\\ {{B^{\rm{T}}}{P_\varepsilon }(k + 1)A}&{{B^{\mathrm{T}}}{P_\varepsilon }(k + 1)B + I} \end{array}} \right] \end{split} $$ (30)

    同时, 通过TVPQF的定义 (28)可以得到最优值函数与最优TVPQF的关系如下:

    $$ \begin{split} V^*_i(x_i(k))=\; & \min_{{\zeta}_i(k)}Q_{\varepsilon}\left(x_{i}(k),\;\zeta _{i}(k),\;\tau-k\right) = \\ &Q^*_{\varepsilon}\left(x_{i}(k),\;\zeta^* _{i}(k),\;\tau-k\right) \end{split} $$ (31)

    根据TVPQF的定义可知, 最优LGF控制律满足:

    $$ \begin{equation} \zeta^*_i(k) = \arg\min\limits_{\zeta_i(k)}Q_{\varepsilon}\left(x_{i}(k),\;\zeta _{i}(k),\;\tau-k\right) \end{equation} $$ (32)

    求解$ \frac{{\partial Q_{\varepsilon}(x_{i}(k),\;\zeta _{i}(k),\;\tau-k)} }{ {\partial \zeta_i(k)}} = 0 $, 可以得到:

    $$ \begin{equation} K_{\varepsilon}^*(k) = -{\cal{H}}_{\zeta \zeta}^{*}{}^{-1}(k){\cal{H}}_{\zeta x}^*(k) \end{equation} $$ (33)

    另外, 将$ {\zeta}^*_i(k) = \mu {K}^*_{\varepsilon}(k)x_i(k) $、式(33)代入式(31), 同时结合式(29), 得到:

    $$ \begin{split} P^*_{\varepsilon}(k) =\; &{\cal{H}}^*_{x x}(k)-\mu{K}^*_{\varepsilon}(k){\cal{H}}^*_{\zeta x}(k)+\mu{\cal{H}}^*_{x \zeta}(k)\;\times\\ & {K}^{*,\;\mathrm{T}}_{\varepsilon}(k)+\mu^2{K}^*_{\varepsilon}(k){\cal{H}}^*_{\zeta \zeta}(k){K}^{*,\;\mathrm{T}}_{\varepsilon}(k)\\[-1pt] \end{split} $$ (34)

    根据式(33)和(34)可知, 通过设计的TVPQF, 可以将计算$ P^*_{\varepsilon}(k) $转变为计算$ {\cal{H}}_{\varepsilon}^*(k) $, 以获取最优LGF控制增益矩阵$ K_{\varepsilon}^*(k) $, 并且避免对系统模型信息的依赖. 下面将介绍如何采用后向时间的方式逼近求解$ {\cal{H}}_{\varepsilon}^*(k) $.

    假设通过$ \eta $次实验, 收集到$ \eta $组样本数据$ \{x^j_{i}(k), \zeta^j _{i}(k),\;x^j_{i}(k+1)\} $, 其中$ j = 1,\;2,\;\cdots,\;\eta $.

    当$ k = \tau -1 $时, 定义:

    $$ \begin{split} {\cal{Q}}^j_{\varepsilon}(\tau - 1) = \;& \varepsilon x^{j,\;\mathrm{T}}_{i}(\tau - 1)x^j_{i}(\tau - 1)+\zeta^{j,\;\mathrm{T}}_{i}(\tau - 1)\;\times\\ & \zeta^j_{i}(\tau - 1)+x^{j,\; \mathrm{T}}_{i }(\tau)P^*_{\varepsilon}(\tau) x^j_{i}(\tau) \\[-1pt] \end{split} $$ (35)

    式中, $ P^*_{\varepsilon}(\tau) = \varepsilon I $.

    同时, 根据式(29), 可以得到$ {\cal{Q}}^j_{\varepsilon}(\tau - 1) $的另一种表达形式如下:

    $$ \begin{equation} \hat{{\cal{Q}}}^j_{\varepsilon}(\tau - 1) = \xi^{j,\; \mathrm{T}}_{i}(\tau - 1){\cal{H}}_{\varepsilon}(\tau - 1)\xi^j_{i}(\tau - 1) \end{equation} $$ (36)

    应用线性参数化方法, 式(36)可以重写成:

    $$ \begin{equation} \hat{{\cal{Q}}}^j_{\varepsilon}(\tau - 1) = \bar{\xi}^{j,\; \mathrm{T}}_{i}(\tau - 1)\text{vec}({\cal{H}}_{\varepsilon}(\tau - 1)) \end{equation} $$ (37)

    其中,

    $$ \begin{split} \bar{\xi}^{j}_{i}(\tau - 1) =\;& [({\xi}^{1,\;j}_{i})^2,\; 2{\xi}^{1,\;j}_{i}{\xi}^{2,\;j}_{i},\; \cdots,\; 2{\xi}^{1,\;j}_{i}{\xi}^{l,\;j}_{i},\\ & ({\xi}^{2,\;j}_{i})^2,\;2{\xi}^{2,\;j}_{i}{\xi}^{3,\;j}_{i},\; \cdots,\;\\ &2{\xi}^{2,\;j}_{i}{\xi}^{l,\;j}_{i},\; \cdots,\; ({\xi}^{l,\;j}_{i})^2]^{\mathrm{T}} \nonumber \end{split} $$

    上面变量的表达式中$ l = n+m $表示变量$ \bar{\xi}^{j}_{i}(\tau \;- 1) $的维数. 另外, 为方便, 省去了$ \tau - 1 $.

    结合式(35)和(37)可知, 可以通过求解如下优化方程用以获取TVPQF对应的最优核矩阵$ {\cal{H}}_{\varepsilon}^*(\tau - 1) $:

    $$ \begin{split} \text{vec}({\cal{H}}_{\varepsilon}^*(\tau - 1)) = \; & \arg\min\sum\limits_{j = 1}^\eta(\bar{\xi}^{j,\; \mathrm{T}}_{i}(\tau - 1)\;\times\\ &\text{vec}({\cal{H}}_{\varepsilon}(\tau - 1))-{\cal{Q}}^j_{\varepsilon}(\tau - 1))^2 \end{split} $$ (38)

    得到$ {\cal{H}}_{\varepsilon}^*(\tau - 1) $, 就可以通过式(33)求解最优LGF控制增益矩阵$ K_{\varepsilon}^*(\tau - 1) $, 以及通过式(34)获取最优值函数对应的核矩阵$ P_{\varepsilon}^*(\tau - 1) $.

    依据求解$ {\cal{H}}_{\varepsilon}^*(\tau - 1) $的思路, 可以通过后向时间求解的方式逼近求解$ {\cal{H}}_{\varepsilon}^*(k) $, $ K_{\varepsilon}^*(k) $, 以及$ P_{\varepsilon}^*(k) $, $ k = \tau-2,\; \cdots,\; 1,\; 0 $.

    当$ k = \tau-2,\; \cdots,\; 1,\; 0 $时, 定义:

    $$ \begin{split} {\cal{Q}}^j_{\varepsilon}(k) =\; & \varepsilon x^{j,\;\mathrm{T}}_{i}(k)x^j_{i}(k)+\zeta^{j,\;\mathrm{T}}_{i}(k)\zeta^j_{i}(k)\;+\\ &x^{j,\; \mathrm{T}}_{i }(k+1)P^*_{\varepsilon}(k+1) x^j_{i}(k+1) \end{split} $$ (39)

    同样地, 可以得到$ {\cal{Q}}^j_{\varepsilon}(k) $的另一种表达形式:

    $$ \begin{equation} \hat{{\cal{Q}}}^j_{\varepsilon}(k) = \xi^{j,\; \mathrm{T}}_{i}(k){\cal{H}}_{\varepsilon}(k)\xi^j_{i}(k) \end{equation} $$ (40)

    参照式(38), 可以得到如下优化问题:

    $$ \begin{split} &\text{vec}({\cal{H}}_{\varepsilon}^*(k)) = \\ &\qquad \arg\min\sum\limits_{j = 1}^\eta\left(\bar{\xi}^{j,\; \mathrm{T}}_{i}(k)\text{vec}({\cal{H}}_{\varepsilon}(k))-{\cal{Q}}^j_{\varepsilon}(k)\right)^2 \end{split} $$ (41)

    通过式(41)求解得到$ {\cal{H}}_{\varepsilon}^*(k) $, 就可以通过式(33)求解最优LGF控制增益矩阵$ K_{\varepsilon}^*(k) $, 以及通过式(34)获取最优值函数对应的核矩阵$ P_{\varepsilon}^*(k) $. 下面将介绍如何求解优化问题(38)和问题(41). 由于两者具有相似性, 下面将问题(38)和问题(41)归结为一类问题进行介绍.

    优化问题(38)和问题(41)可以写成如下形式:

    $$ \begin{split} &\text{vec}\left({\cal{H}}_{\varepsilon}^*(k)\right) = \\ & \qquad\arg\min\sum\left(\bar{{\xi}}^{\,\mathrm{T}}_{i}(k)\text{vec}({\cal{H}}_{\varepsilon}(k))-{\cal{Q}}_{\varepsilon}(k)\right)^2 \end{split} $$ (42)

    式中, $ \bar{{\xi}}_{i}(k) = \left[\bar{{\xi}}^{1}_{i}(k),\;\bar{{\xi}}^{2}_{i}(k),\;\cdots,\;\bar{{\xi}}^{\eta}_{i}(k)\right]^{\mathrm{T}} $; $ {\cal{Q}}_{\varepsilon}(k) = \left[{\cal{Q}}_{\varepsilon}^{1}(k),\; {\cal{Q}}_{\varepsilon}^{2}(k),\; \cdots,\; {\cal{Q}}_{\varepsilon}^{\eta}(k)\right]^{\mathrm{T}} $, $ k = 0,\;1,\;\cdots,\;\tau-1 $.

    应用最小二乘法, 可以得到优化问题 (42)的解如下:

    $$ \begin{equation} \text{vec}({\cal{H}}_{\varepsilon}^*(k)) = \left(\bar{{\xi}}_{i}(k)\bar{{\xi}}^{\,\mathrm{T}}_{i}(k)\right)^{-1}\bar{{\xi}}_{i}(k){\cal{Q}}_{\varepsilon}(k) \end{equation} $$ (43)

    为确保优化问题(42)的解(43)的唯一性, 需要满足如下条件:

    $$ \begin{equation} \text{rank}(\bar{{\xi}}_{i}(k)) = \frac{l(l+1)}{2} \end{equation} $$ (44)

    即矩阵$ \bar{{\xi}}_{i}(k) $满秩.

    如果搜集到的样本$ \{x^j_{i}(k),\;\zeta^j _{i}(k),\;x^j_{i}(k+1)\} $的数量$ \eta\ge {{l(l + 1)} / 2} $, 且每次实验收集到的数据之间服从高斯分布, 那么条件(44)成立[46].

    由以上分析可知, 采用后向时间求解的方式可以得到最优TVPQF对应的核矩阵$ {\cal{H}}_{\varepsilon}^*(k) $. 同时, 由式(35)和(39)可知, TVPQF会受到低增益参数$ \varepsilon $的影响. 因此, 可以通过调整低增益参数$ \varepsilon $用以更新LGF控制增益矩阵$ K_{\varepsilon}^*(k) $, 从而使控制器$ u_i(k) $避免输入饱和. 算法1对上面的论述进行了总结.

      算法 1. 执行器饱和约束下模型无关有限时域一致性控制

    输入. 实验次数$ \eta $, 低增益参数$ \varepsilon $, 有限时域$ \tau $.

    输出. 最优LGF控制增益矩阵$ K_{\varepsilon}^*(k) $, 以及最优TVPQF对应的核矩阵$ {\cal{H}}_{\varepsilon}^*(k) $, $ k = 0,\;1,\; \cdots,\; \tau -1 $.

    1) 数据收集: 生成符合高斯分布的随机控制输入$ \{\zeta^j_{i}(0),\; \zeta^j_{i}(1),\; \cdots,\; \zeta^j_{i}(\tau-1)\} $, 以及随机初始状态变量$ x^j_{i}(0) $, $ j = 1,\;2,\;\cdots,\;\eta $, 应用于系统(6), 从而收集产生的样本数据$ \{x^j_{i}(k),\;\zeta^j _{i}(k),\;x^j_{i}(k+1)\} $, 其中$ j = 1,\;2,\;\cdots,\;\eta $; $ k = 0,\;1,\;\cdots,\;\tau-1 $.

    2) 计算$ K_{\varepsilon}^*(\tau -1) $: 通过式(43)求解优化问题(38), 得到$ {\cal{H}}_{\varepsilon}^*(\tau -1) $. 结合式(33)推导得到最优LGF控制增益矩阵$ K_{\varepsilon}^*(\tau -1) $, 并将其存储.

    3) 计算$ K_{\varepsilon}^*(k) $: 从$ k = \tau -2 $到$ k = 0 $, 依次通过式(43)求解优化问题(42), 迭代计算$ {\cal{H}}_{\varepsilon}^*(k) $. 结合式(33)推导得到最优LGF控制增益矩阵$ K_{\varepsilon}^*(k) $, $ k = \tau\;- 2,\; \cdots,\; 1,\; 0 $, 并将其存储.

    4) 饱和度检查: 对于每一个$ k = 0,\;1,\;\cdots,\;\tau-1 $, 验证

    $$ \qquad\left\lVert u_i(k) \right\rVert_\infty = \left\lVert K_{\varepsilon}^*(k) \sum\limits_{j = 1}^N d_{i j}\left(x_i(k)-x_j(k)\right)\right\rVert_\infty \le c $$

     其中, $ i = 1,\;2,\;\cdots,\;N $. 如果不满足, 则减小$ \varepsilon $并重复步骤2)和步骤3).

    5) 停止迭代: 当控制输入不再饱和时, 停止迭代过程.

    注5. 算法1中, 低增益参数$ \varepsilon $可以通过比例规则进行调整: $ \varepsilon_{j+1} = \alpha \varepsilon_j $, 其中$ 0<\alpha<1 $. 另外需要强调的是, 控制输入的饱和度评估发生在其应用到MASs (1)之前. 因此, MASs在实际执行的过程中不会超过其执行器饱和约束.

    注6. 算法1中的饱和度检查环节必然会受到智能体初始状态的影响, 不同的初始状态可能会最终得到不同的低增益参数$ \varepsilon $. 另外, 算法1的目的并不是寻找最优低增益参数$ \varepsilon^* $, 而是对于不同的初始状态寻找$ \varepsilon \in (0,\;\varepsilon^*] $, 从而得到对应的最优LGF控制增益矩阵$ K_{\varepsilon}^*(k) $, 达到避免执行器饱和的目标.

    下面定理将证明通过算法1得到的最优LGF控制增益矩阵是最优的.

    定理2. 如果进行收集样本数据的实验次数$ \eta \ge {{l(l + 1)} / 2} $, 且收集得到的样本数据$ \{x^j_{i}(k),\, \zeta^j _{i}(k), x^j_{i}(k+1)\} $服从高斯分布, 则算法1得到的LGF控制增益矩阵$ K_{\varepsilon}^*(k) $是最优的, 也就是MTVRE (5)对应的解.

    证明. 根据LGF方法的思想, 针对执行器饱和约束问题, 存在最优低增益参数$ \varepsilon^* $ [42]. 同时, 注意到算法1中关于低增益参数$ \varepsilon $的调整处于估计$ {\cal{H}}_{\varepsilon}(k) $的外循环. 因此, 低增益参数$ \varepsilon $不会影响TVPQF核矩阵$ {\cal{H}}_{\varepsilon}(k) $的收敛性. 假设低增益参数$ \varepsilon $在算法1中是固定的, 即考虑MTVRE (5)和TVPQF (23)中包含相同的低增益参数$ \varepsilon $的情况.

    当初始样本数据$ x^j_{i}(0),\; j = 1,\;2,\;\cdots,\;\eta $, 以及$ \zeta^j _{i}(k),\; k = 0,\;1,\;\cdots,\;\tau-1 $服从高斯分布时, 很容易得到每次收集样本数据的实验是线性独立的. 此外, 如果实验次数$ \eta\ge {{l(l + 1)} / 2} $, 则式(43)中构造得到的数据矩阵$ \bar{{\xi}}_{i}(k) $, $ k = 0,\;1,\;\cdots,\;\tau-1 $满秩. 需要注意的是, 结合$ \text{vec}({\cal{H}}_{\varepsilon}^*(k)) $的定义以及式(30)可知,$ \text{vec}({\cal{H}}_{\varepsilon}^*(k)) $, $ k = 0,\;1,\;\cdots,\;\tau-1 $拥有$ {{l(l + 1)} / 2} $个独立元素. 结合矩阵$ \bar{{\xi}}_{i}(k) $满秩的结论, 可知优化问题(42)有唯一解, 即为式(43). 值得注意的是, 所设计的算法1以离线后向时间迭代的方式运行, 即利用终端约束条件$ P_{\varepsilon}(\tau) $从$ k = \tau -1 $开始依次向后计算$ \text{vec}({\cal{H}}_{\varepsilon}^*(k)) $. 同时, 式(43)构成了优化问题(42)的唯一解. 可以得出结论: 通过执行算法1得到的$ \text{vec}({\cal{H}}_{\varepsilon}^*(k)) $是最优的.

    值得注意的是, 矩阵$ {\cal{H}}_{\varepsilon}^*(k) $是由$ {{l(l + 1)} / 2} $个元素组成的对称矩阵, $ \text{vec}({\cal{H}}_{\varepsilon}^*(k)) $表示矩阵$ {\cal{H}}_{\varepsilon}^*(k) $经过列排列之后组成的长向量. 由于算法1得到的$ \text{vec}({\cal{H}}_{\varepsilon}^*(k)) $是最优的. 因此, 算法1得到的结果$ {\cal{H}}_{\varepsilon}^*(k) $即为所定义的TVPQF的最优核矩阵. 结合式(33)以及引理2可知, 算法1得出的LGF控制增益矩阵$ K_{\varepsilon}^*(k) $也是最优的. 同时, 结合定理1以及式(31)可知, 通过算法1得到LGF控制增益矩阵$ K_{\varepsilon}^*(k) $等价于求解MTVRE (5).  

    下面定理将证明算法1可以实现离散时间MASs (1)的全局有限时域一致性控制而不仅仅是半全局有限时域一致性控制.

    定理3. 如果假设2和假设3成立, 通过算法1得到的LGF控制增益矩阵$ K_{\varepsilon}^*(k) $, 离散时间MASs (1)可以实现全局有限时域一致性控制.

    证明. 如果假设2和假设3成立, 由引理2以及定理2可知, 算法1得到的LGF控制增益矩阵$ K_{\varepsilon}^*(k) $可以实现半全局有限时域一致性控制. 在算法1中, 如果控制输入违反执行器饱和, 则在下次迭代时会减小低增益参数$ \varepsilon $, 因此必然可以找到一个足够小的$ \varepsilon \in (0,\;\varepsilon^*] $满足执行器饱和. 另外, 从定理2的证明过程可知, 如果$ \varepsilon $固定, 由算法1得到的TVPQF核矩阵以及LGF控制增益矩阵均是最优的, 且可以实现有限时域最优一致性控制. 如果智能体的初始状态不同, 必然会迭代得到一个固定的低增益参数$ \varepsilon $, 对应地, 即可通过算法1得到LGF控制增益矩阵. 因此, 算法1可以实现离散时间MASs (1)的全局有限时域一致性控制.  

    本节首先建立一个仿真实验, 来说明本文方法的有效性; 然后进行对比实验, 用本文方法与对比方法进行仿真实验, 用评价指标结果说明本文方法的优越性.

    考虑一个由6个智能体组成的离散时间MASs, 其动力学方程为(1), 相关的矩阵为:

    $$ \begin{equation} A = \begin{bmatrix} 0 & 1\\ -1 & 1 \\ \end{bmatrix},\;\quad B = \begin{bmatrix} -1 \\ 0 \end{bmatrix} \end{equation} $$ (45)

    矩阵$ A $的特征值$ 0.5\pm0.866\mathrm{i} $都在单位圆内, 且$ (A,\; B) $是可控的. 因此, 假设2成立. 在本节仿真中, 执行器饱和函数的饱和阈值设为$ c = 1 $. 离散时间MASs的通信拓扑可以用图1所示的无向图表示. 从图中可以得到, 所对应的无向图是连通的. 因此, 假设3成立.

    图 1  仿真1中MASs的通信拓扑
    Fig. 1  MASs communication topology in simulation 1

    下面将使用三个实例来说明本文所提方法的有效性. 在所有的三个实例中, 算法1中具体的参数设置如下: 收集样本数据的实验次数$ \eta = 100>(3\;\times 4) / 2 = 6 $, 初始低增益参数$ \varepsilon = 1 $. 同时, 使用注5中的方法对$ \varepsilon $进行更新, 选择$ \alpha = 0.5 $. 后续将通过改变不同的初始状态来说明算法1的有效性.

    例1. 在本例中, 将所有智能体的初始状态设置为$ [-1,\;1]\times [-1,\;1] $, 有限时域设置为$ \tau = 100 $, 然后将算法1应用于MASs (45)中, 最终得到低增益参数$ \varepsilon = 0.5 $. 同时, 将对应的最优LGF控制增益矩阵$ K_{\varepsilon}^*(k) $应用于系统中, 得到的6个智能体的系统状态如图2所示, 系统控制输入如图3所示. 从图2图3可知, 通过算法1得到的控制输入可以实现有限时域一致性控制, 并且避免输入饱和.

    图 2  例1中智能体的状态
    Fig. 2  The states of agents in example 1
    图 3  例1中智能体的控制输入
    Fig. 3  The control inputs of agents in example 1

    例2. 在本例中, 将所有智能体的初始状态设置为$ [-10,\;10]\times [-10,\;10] $, 有限时域设置为$ \tau = 300 $, 然后将算法1应用于MASs (45)中, 最终得到低增益参数$ \varepsilon = 0.002 $. 同时, 将对应的最优LGF控制增益矩阵$ K_{\varepsilon}^*(k) $应用于系统中, 得到的6个智能体的系统状态如图4所示, 系统控制输入如图5所示. 不同于例1, 例2中智能体的初始状态的范围变大, 必然会影响MASs的一致性控制效果. 相比而言, 例2中智能体实现一致性控制的时间更长, 得到的低增益参数更小. 然而, 从图4图5可知, 通过算法1得到的控制输入仍然可以实现有限时域一致性控制, 并避免输入饱和.

    图 4  例2中智能体的状态
    Fig. 4  The states of agents in example 2
    图 5  例2中智能体的控制输入
    Fig. 5  The control inputs of agents in example 2

    例3. 在本例中, 进一步加大了智能体初始状态的范围, 设置为$ [-100,\;100]\times [-100,\;100] $, 有限时域设置为$ \tau = 1\; 500 $, 然后将算法1应用于MASs (45)中, 最终得到低增益参数$ \varepsilon = 1.220\; 7\times 10^{-4} $. 同时, 将对应的最优LGF控制增益矩阵$ K_{\varepsilon}^*(k) $应用于系统中, 得到的6个智能体的系统状态如图6所示, 系统控制输入如图7所示. 从所得结果可知, 所提方法可以在有限时域内实现一致性控制, 并避免输入饱和.

    图 6  例3中智能体的状态
    Fig. 6  The states of agents in example 3
    图 7  例3中智能体的控制输入
    Fig. 7  The control inputs of agents in example 3

    以上三个例子证明了本文所提算法的有效性, 同时说明了如果智能体的初始状态越大, 控制输入需要配合越小的LGF控制增益矩阵$ K_{\varepsilon}(k) $以避免输入饱和, 因此低增益参数$ \varepsilon $将会迭代更多的次数, 从而得到更小的输入值. 此外, 在输入饱和度相等的情况下($ c = 1 $), 初始状态越大, 智能体实现一致性的速度越慢, 如图2图4图6所示. 通过以上三个例子, 也对定理3进行了验证.

    在本节将所提模型无关有限时域一致性控制算法与文献[38]针对执行器饱和的模型无关无限时域一致性控制方法进行对比.

    考虑一个由5个智能体组成的离散时间MASs, 其动力学方程为(1), 相关的矩阵为:

    $$ \begin{equation} A = \begin{bmatrix} 0.995 & -0.194\\ 0.194 & 0.995 \end{bmatrix},\;\quad B = \begin{bmatrix} 1 \\ 1 \end{bmatrix} \end{equation} $$ (46)

    矩阵$ A $的特征值$ 0.980\; 1\pm0.198\; 7\mathrm{i} $都在单位圆上, 且$ (A,\; B) $是可控的. 因此, 假设2成立. 在本节仿真中, 执行器饱和函数的饱和阈值设为$ c = 1 $. 离散时间MASs的通信拓扑用图8所示的无向图表示. 从图8中可以得到, 所对应的无向图是连通的. 因此, 假设3成立.

    图 11  例2中有限时域方法获得的一致性误差
    Fig. 11  Consensus errors obtained by finite-horizon method in example 2
    图 8  仿真2中MASs的通信拓扑
    Fig. 8  MASs communication topology in simulation 2

    针对本文所提算法1的相关参数设置如下: 有限时域$ \tau = 120 $, 收集样本数据的实验次数$ \eta = 100 $, 初始低增益参数$ \varepsilon = 1 $, 低增益参数$ \varepsilon $调节参数$ \alpha = 0.9 $. 参考文献[38]所提无限时域算法的相关参数设置, 初始低增益参数$ \varepsilon = 1 $, $ M^0 = I $, $ K^0 = [0,\;0] $, 收集样本数据数量$ H = 100 $, 算法收敛参数设置为$ 0.000\; 01 $. 低增益参数$ \varepsilon $的更新规则和本文所提算法1一致.

    例1. 在本例中, 首先设定5个智能体的初始状态为$ x_1(0) = [2.5,\, -2.5]^{\mathrm{T}} $, $ x_2(0) = [-1.5,\, 2]^{\mathrm{T}} $, $ x_3(0) = [-2,\; -3]^{\mathrm{T}} $, $ x_4(0) = [-2,\; -2]^{\mathrm{T}} $, $ x_5(0) = [1.5,\; 1.5]^{\mathrm{T}} $. 两种算法得到的最终低增益参数均为$ \varepsilon = 3.4\;\times 10^{-3} $. 采用文献[38]中所提算法得到的最优LGF控制增益矩阵$ K^*_{\varepsilon} = [-0.093\; 7,\; -0.073\; 0]^{\mathrm{T}} $. 将两种算法得到的最优LGF控制增益矩阵$ K_{\varepsilon}^*(k) $和$ K^*_{\varepsilon} $应用于MASs (23)中. 为了对比两种算法的一致性控制效果, 引入一致性控制误差$ \varepsilon_i(k) = \sum_{j = 1}^N d_{i j}(x_i(k)\;- x_j(k)) $. 仿真结果见图9图10.

    图 9  例1中有限时域方法获得的一致性误差
    Fig. 9  Consensus errors obtained by finite-horizon method in example 1
    图 10  例1中无限时域方法获得的一致性误差
    Fig. 10  Consensus errors obtained by infinite-horizon method in example 1

    例2. 在本例中, 改变5个智能体的初始状态为$ x_1(0) = [1,\; 2]^{\mathrm{T}} $, $ x_2(0) = [-0.5,\; -0.1]^{\mathrm{T}} $, $ x_3(0) = [0.3, 2]^{\mathrm{T}} $, $ x_4(0) = [0.8,\; 0.2]^{\mathrm{T}} $, $ x_5(0) = [-3,\; -2]^{\mathrm{T}} $. 两种算法得到的最终低增益参数均为$ \varepsilon = 7.1\times 10^{-3} $. 文献[38]所提算法得到的最优LGF控制增益矩阵为$ K_{\varepsilon} = [-0.132\; 4,\; -0.110\; 6]^{\mathrm{T}} $. 最终得到的仿真结果见图11图12.

    图 12  例2中无限时域方法获得的一致性误差
    Fig. 12  Consensus errors obtained by infinite-horizon method in example 2

    另外, 本文用每个智能体对应一致性误差的绝对误差积分(Integral absolute error, IAE)的平均值和均方误差(Mean square error, MSE)的和两个指标[4748]来评价本仿真实验的控制效果, 结果见表1.

    表 1  对比实验评价指标
    Table 1  Evaluation indices of comparison experiments
    $100\le k \le 120$ ${\mathrm{IAE}}$ ${\mathrm{MSE}}$
    例1−有限时域方法 0.637 7 0.005 4
    例1−无限时域方法 10.264 9 2.116 9
    例2−有限时域方法 1.074 8 0.014 7
    例2−无限时域方法 5.186 9 0.510 9
    下载: 导出CSV 
    | 显示表格
    $$ \begin{equation} {\mathrm{IAE}} = \frac{\sum\limits_{i = 1}^N\sum\limits_{k = 0}^{k^*}|\varepsilon_i(k)|}{N} \nonumber \end{equation} $$
    $$ \begin{equation} {\mathrm{MSE}} = \sum\limits_{i = 1}^N\frac{1}{k^*} \sum\limits_{k = 0}^{k^*}|\varepsilon_i(k)|^2\nonumber \end{equation} $$

    同时, 为了对比两种算法的一致性控制效果, 统计了智能体一致性误差对应的调节时间指标(以一致性误差范围的$ \pm\ 2\% $进行计算), 在不同初始状态下, 将时域参数均设置为200, 每个智能体对应的调节时间如表2表3所示.

    表 2  例1中一致性误差调节时间
    Table 2  Consensus error setting time in example 1
    例1−调节时间 有限时域方法 无限时域方法
    智能体1 109 137
    智能体2 119 161
    智能体3 104 127
    智能体4 109 137
    智能体5 90 110
    下载: 导出CSV 
    | 显示表格
    表 3  例2中一致性误差调节时间
    Table 3  Consensus error setting time in example 2
    例2−调节时间 有限时域方法 无限时域方法
    智能体1 108 131
    智能体2 116 158
    智能体3 120 183
    智能体4 108 131
    智能体5 84 93
    下载: 导出CSV 
    | 显示表格

    图9 ~ 图12以及表1可知, 本文所提算法能够更快地实现一致性控制, 一致性误差较小. 同时由表2表3可知, 在一定的时间范围内, 本文所提的有限时域一致性控制算法得到的一致性性能指标较文献[38]所提无限时域一致性控制算法要好, 这也说明了本文提出算法的优越性.

    本文提出一种基于Q学习的数据驱动算法, 用于求解具有未知模型参数、执行器饱和的离散时间MASs的有限时域一致性控制问题. 首先结合LGF方法, 将执行器饱和的有限时域一致性控制问题转化为执行器饱和的单智能体最优控制问题, 给出原问题的控制器设计方案. 然后在未知系统模型参数的条件下, 设计基于Q学习的数据驱动后向时间算法逼近求解MTVRE, 用以获取LGF控制增益矩阵, 并给出该算法的收敛性说明. 最后, 给出仿真结果来验证基于Q学习的有限时域一致性控制算法的有效性, 并证明智能体的初始状态会影响收敛速度的问题. 同时, 还给出对比实验来评价有限时域一致性控制算法与无限时域一致性控制算法的控制效果.

    在本文提出的方法中, 有限时域参数 $ \tau $ 作为算法1的输入参数, 其在参数选择过程中需凭借经验来进行设定. 在未来的研究中, 将探讨更为精确的有限时域参数设置方法, 以确定 $ \tau $ 的边界条件, 从而设定合理的有限时域参数 $ \tau $.


  • 1 Oracle特性具体包括模型选择相和性和参数估计渐进正态性. 其含义为, 在一些变量不是提前已知的情况下, 如果算法具有Oracle特性, 那么它能够筛选出正确的预测的概率为1而且能够有效而正确地估计非零估计量.
  • 图  1  基于自适应LASSO先验的SBL框架的因子图

    Fig.  1  The factor graph of the proposed SBL framework using adaptive LASSO priors

    图  2  四种算法的稀疏先验代价函数二维等高线图

    Fig.  2  Two dimensional contour plots of cost functions of different sparse priors

    图  3  本算法在不同参数下稀疏先验代价函数二维等高线图

    Fig.  3  Two dimensional contour plots of cost functions of the proposed sparse priors versus hyperparameters

    图  4  一维信号稀疏恢复图

    Fig.  4  Results for one-dimensional signal recovery

    图  5  实值模型下各算法稀疏恢复准确度与测量数的关系

    Fig.  5  RMSE of different algorithms with the real-value signal model versus length of measurements

    图  6  复值模型下各算法稀疏恢复准确度与测量数的关系

    Fig.  6  RMSE of different algorithms with the complex-value signal model versus length of measurements

    图  7  高维实值信号模型下各算法稀疏恢复准确度与测量数的关系

    Fig.  7  RMSE of different algorithms with the high-dimensional real-value signal model versus length of measurements

    图  8  高维复值信号模型下各算法稀疏恢复准确度与测量数的关系

    Fig.  8  RMSE of different algorithms with the high-dimensional complex-value signal model versus length of measurements

    图  9  实值模型下各算法稀疏恢复准确度与稀疏度的关系

    Fig.  9  RMSE of different algorithms with the real-value signal model versus number of non-zero elements

    图  10  复值模型下各算法稀疏恢复准确度与稀疏度的关系

    Fig.  10  RMSE of different algorithms with the complex-value signal model versus number of non-zero elements

    图  11  高维实值信号模型下各算法稀疏恢复准确度与稀疏度的关系

    Fig.  11  RMSE of different algorithms with the high-dimensional real-value signal model versus number of non-zero elements

    图  12  高维复值信号模型下各算法稀疏恢复准确度与稀疏度的关系

    Fig.  12  RMSE of different algorithms with the high-dimensional complex-value signal model versus number of non-zero elements

    图  13  实值模型下各算法稀疏恢复准确度与信噪比的关系

    Fig.  13  RMSE of different algorithms versus SNR with the real-value signal model

    图  14  复值模型下各算法稀疏恢复准确度与信噪比的关系

    Fig.  14  RMSE of different algorithms versus SNR with the complex-value signal model

    图  15  高维实值信号模型下各算法稀疏恢复准确度与信噪比的关系

    Fig.  15  RMSE of different algorithms versus SNR with the high-dimensional real-value signal model

    图  16  高维复值信号模型下各算法稀疏恢复准确度与信噪比的关系

    Fig.  16  RMSE of different algorithms versus SNR with the high-dimensional complex-value signal model

    图  17  DOA估计的准确度与测量数的关系

    Fig.  17  RMSE of DOA estimation using different algorithms versus number of measurements

    图  18  DOA估计准确度与信噪比的关系

    Fig.  18  RMSE of DOA estimation using different algorithms versus SNR

    表  1  各算法单次运行时间

    Table  1  Time consumptions of different algorithms

    实值信号模型 复值信号模型
    算法 用时(s) 算法 用时(s)
    FastLaplace 0.11 FastSBL 1.54
    aLASSO 1.94 GAMP-SBL 0.51
    FastSBL 0.40 MFOCUSS 0.21
    GAMP-SBL 0.07 HSL-SBL 3.16
    FaLASSO-SBL 0.26 FaLASSO-SBL 0.74
    aLASSO-SBL 0.98 aLASSO-SBL 2.33
    下载: 导出CSV

    表  2  恢复高维信号时各算法单次运行时间

    Table  2  Time consumptions of different algorithms when the dimension of signal is high

    实值信号模型 复值信号模型
    算法 用时(s) 算法 用时(s)
    FastLaplace 0.83 FastSBL 6.95
    aLASSO 5.71 GAMP-SBL 2.17
    FastSBL 3.40 MFOCUSS 2.86
    GAMP-SBL 0.69 HSL-SBL 15.73
    FaLASSO-SBL 1.06 FaLASSO-SBL 4.61
    aLASSO-SBL 8.38 aLASSO-SBL 17.41
    下载: 导出CSV

    表  3  单快拍DOA估计实验各算法单次运行时间

    Table  3  Time consumptions of different algorithms for single snapshot DOA estimation

    算法 用时(s) 算法 用时(s)
    SS-ESPRIT 0.37 HSL-SBL 0.85
    SURE-IR 1.64 FaLASSO-SBL 0.47
    L1-SR 0.91 aLASSO-SBL 0.83
    OGSBL 0.69
    下载: 导出CSV
  • [1] Wang L, Zhao L F, Bi G A,, Wan C R, Zhang L R, Zhang H J. Novel wideband DOA estimation based on sparse Bayesian learning with dirichlet process priors. IEEE Transactions on Signal Processing. 2016, 64(2): 275-289. doi: 10.1109/TSP.2015.2481790
    [2] Xenaki A, Boldt J B, Christensen M G. Sound source localization and speech enhancement with sparse Bayesian learning beamforming. The Journal of the Acoustical Society of America. 2018, 143(6): 3912-3921 doi: 10.1121/1.5042222
    [3] Bai Z L, Sun J W, Jensen J R, Christensen M G. Indoor sound source localization based on sparse Bayesian learning and compressed data. In: Proceedings of the 27th European Signal Processing Conference. A Coruna, Spain: IEEE, 2019. 1−5
    [4] Zheng Y L, Fraysse A, Rodet T. Efficient variational Bayesian approximation method based on subspace optimization. IEEE Transactions on Image Processing. 2015, 24(2): 681-693 doi: 10.1109/TIP.2014.2383321
    [5] 兰诚栋, 林宇鹏, 方大锐, 陈建. 多视点稀疏测量的图像绘制方法. 自动化学报, 2021, 47(4): 882-890

    Lan Cheng-Dong, Lin Yu-Peng, Fang Da-Rui, Chen Jian. Multi-view sparse measurement for image-based rendering method. Acta Automatica Sinica. 2021, 47(4): 882-890
    [6] Zhang M C, Yuan X J, He Z Q. Variance state propagation for structured sparse Bayesian learning. IEEE Transactions on Signal Processing. 2020, 68: 2386-2400 doi: 10.1109/TSP.2020.2983827
    [7] Liu S H, Huang Y M, Wu H, Tan C, Jia J B. Efficient multitask structure-aware sparse Bayesian learning for frequency-difference electrical impedance tomography. IEEE Transactions on Industrial Informatics. 2021, 17(1): 463-472 doi: 10.1109/TII.2020.2965202
    [8] 郭俊锋, 李育亮. 基于学习字典的机器人图像稀疏表示方法. 自动化学报, 2020, 46(4): 820-830

    Guo Jun-Feng, Li Yu-Liang. Sparse representation of robot image based on dictionary learning algorithm. Acta Automatica Sinica. 2020, 46(4): 820-830
    [9] 张芳, 王萌, 肖志涛, 吴骏, 耿磊, 童军, 王雯. 基于全卷积神经网络与低秩稀疏分解的显著性检测. 自动化学报, 2019, 45(11): 2148-2158

    Zhang Fang, Wang Meng, Xiao Zhi-Tao, Wu Jun, Geng Lei, Tong Jun, Wang Wen. Saliency detection via full convolution neural network and low rank sparse decomposition. Acta Automatica Sinica. 2019, 45(11): 2148-2158
    [10] Ojeda A, Kenneth K D, Mullen T. Fast and robust block-sparse Bayesian learning for EEG source imaging. NeuroImage. 2018, 174: 449-462 doi: 10.1016/j.neuroimage.2018.03.048
    [11] Jiao Y, Zhang Y, Chen X, Yin E W, Jin J, Wang X Y, Cichocki A. Sparse group representation model for motor imagery EEG classification. IEEE Journal of Biomedical and Health Informatics. 2019, 23(2): 631-641 doi: 10.1109/JBHI.2018.2832538
    [12] Niu H Q, Gerstoft P, Ozanich E, Li Z L, Zhang R H, Gong Z X, Wang H B. Block sparse Bayesian learning for broadband mode extraction in shallow water from a vertical array. The Journal of the Acoustical Society of America 2020, 147(6): 3729-3739 doi: 10.1121/10.0001322
    [13] Zheng R, Xu X, Ye Z F, Dai J S. Robust sparse Bayesian learning for DOA estimation in impulsive noise environments. Signal Processing. 2020, 171(107500): 1-6
    [14] 曹娜, 王永利, 孙建红, 赵宁, 宫小泽. 基于字典学习和拓展联合动态稀疏表示的SAR目标识别. 自动化学报, 2020, 46(12): 2638-2646

    CAO Na, WANG Yong-Li, SUN Jian-Hong, ZHAO Ning, GONG Xiao-Ze. SAR target recognition based on dictionary learning and extended joint dynamic sparse representation. Acta Automatica Sinica. 2020, 46(12): 2638-2646
    [15] Yang Z, Li J, Stoica P, Xie L H. Sparse methods for direction-of-arrival estimation. Academic Press Library in Signal Processing. London: Academic Press, 2018. 509-581
    [16] Tipping M E, Smola A. Sparse Bayesian learning and the relevance vector machine. The Journal of Machine Learning Research. 2001, 59(1): 211-244
    [17] Babacan S D, Molina R, Katsaggelos A K. Bayesian compressive sensing using laplace priors. IEEE Transactions on Image Processing. 2010, 19(1): 53-63 doi: 10.1109/TIP.2009.2032894
    [18] Zhao L F, Wang L, Bi G A, Yang L. An autofocus technique for high-resolution inverse synthetic aperture radar imagery. IEEE Transactions on Geoscience and Remote Sensing. 2014, 52(10): 6392-6403 doi: 10.1109/TGRS.2013.2296497
    [19] Yang J, Yang Y. Sparse Bayesian DOA estimation using hierarchical synthesis lasso priors for off-grid signals. IEEE Transactions on Signal Processing. 2020, 68: 872-884 doi: 10.1109/TSP.2020.2967665
    [20] Zou H. The adaptive lasso and its oracle properties. Journal of the American Statistical Association. 2006, 101(476): 1418-1429 doi: 10.1198/016214506000000735
    [21] Tipping M E, Faul A C. Fast marginal likelihood maximisation for sparse Bayesian models. In: Proceedings of the Ninth International Workshop on Artificial Intelligence and Statistics. Florida, USA: Springer, 2003. 3−6
    [22] Duan H, Yang L, Fang J, Li H. Fast inverse-free sparse Bayesian learning via relaxed evidence lower bound maximization. IEEE Signal Processing Letters. 2017, 24(6): 774-778 doi: 10.1109/LSP.2017.2692217
    [23] Shoukairi M A, Rao B D. Sparse Bayesian learning using approximate message passing. In: Proceedings of the 48th Asilomar Conference on Signals, Systems and Computers. Pacific Grove, USA: IEEE, 2014. 1957−1961
    [24] Shoukairi M A, Schniter P, Rao B D. A gamp-based low complexity sparse Bayesian learning algorithm. IEEE Transactions on Signal Processing. 2018, 66(2): 294-308 doi: 10.1109/TSP.2017.2764855
    [25] Thomas C K, Slock D. Save - space alternating variational estimation for sparse Bayesian learning. In: Proceedings of IEEE Data Science Workshop. Lausanne, Switzerland: IEEE, 2018. 11−15
    [26] Worley B. Scalable mean-field sparse Bayesian learning. IEEE Transactions on Signal Processing. 2019, 67(24): 6314-6326 doi: 10.1109/TSP.2019.2954504
    [27] Candes E J, Romberg J, Tao T. Robust uncertainty principles: exact signal reconstruction from highly incomplete frequency information. IEEE Transactions on Information Theory. 2006, 52(2): 489-509 doi: 10.1109/TIT.2005.862083
    [28] Wipf D P, Rao B D, Nagarajan S. Latent variable Bayesian models for promoting sparsity. IEEE Transactions on Information Theory. 2011, 57(9): 6236-6255 doi: 10.1109/TIT.2011.2162174
    [29] Figueiredo M A T, Nowak R D, Wright S J. Gradient projection for sparse reconstruction: Application to compressed sensing and other inverse problems. IEEE Journal of Selected Topics in Signal Processing. 2007, 1(4): 586-597 doi: 10.1109/JSTSP.2007.910281
    [30] Xenaki A, Gerstoft P, Mosegaard K. Compressive beamforming. Journal of the Acoustical Society of America. 2014, 136(1): 260-271 doi: 10.1121/1.4883360
    [31] Bishop C M. Pattern recognition and machine learning. New York, USA: Springer-Verlag, 2006. 152−169
    [32] Tzikas D G, Likas A C, Galatsanos N P. The variational approximation for Bayesian inference. IEEE Signal Processing Magazine. 2008, 25(6): 131-146 doi: 10.1109/MSP.2008.929620
    [33] Higham N J. Accuracy and stability of numerical algorithms. Society for Industrial and Applied Mathematics. Philadelphia, USA: Springer, 2002. 67−93
    [34] Pati Y C, Rezaiifar R, Krishnaprasad P S. Orthogonal matching pursuit: recursive function approximation with applications to wavelet decomposition. In: Proceesdings of the Conference on Signals, Systems and Computers. Pacific Grove, USA: IEEE, 2002. 1−5
    [35] Cotter S F, Rao B D, Engan K, Delgado K K. Sparse solutions to linear inverse problems with multiple measurement vectors. IEEE Transactions on Signal Processing. 2005, 53(7): 2477-2488 doi: 10.1109/TSP.2005.849172
    [36] Thakre A, Haardt M, Giridhar K. Single snapshot spatial smoothing with improved effective array aperture. IEEE Signal Processing Letters. 2009, 16(6): 505-508 doi: 10.1109/LSP.2009.2017573
    [37] Raj A G, Mcclellan J H. Single snapshot super-resolution DOA estimation for arbitrary array geometries. IEEE Signal Processing Letters. 2019, 26(1): 119-123 doi: 10.1109/LSP.2018.2881927
    [38] Fang J, Wang F, Shen Y, Li H, Blum R S. Super-resolution compressed sensing for line spectral estimation: An iterative reweighted approach. IEEE Transactions on Signal Processing. 2016, 64(18): 4649-4662 doi: 10.1109/TSP.2016.2572041
    [39] Yang Z, Xie L H, Zhang C. Off-grid direction of arrival estimation using sparse Bayesian inference. IEEE Transactions on Signal Processing. 2013, 61(1): 38-43 doi: 10.1109/TSP.2012.2222378
  • 期刊类型引用(2)

    1. 谭福容,孙绍伦,张森,陈先中,赵宝永. 基于泊松算法和多尺度特征编码网络的三维料面重构及修复. 冶金自动化. 2024(02): 94-102 . 百度学术
    2. 赵炯. 高炉炉顶气密箱布料溜槽不同工况下的使用特性分析及优化. 山西冶金. 2024(09): 124-125+128 . 百度学术

    其他类型引用(2)

  • 加载中
  • 图(18) / 表(3)
    计量
    • 文章访问数:  1991
    • HTML全文浏览量:  1105
    • PDF下载量:  403
    • 被引次数: 4
    出版历程
    • 收稿日期:  2021-01-12
    • 录用日期:  2021-04-29
    • 网络出版日期:  2021-06-16
    • 刊出日期:  2022-05-13

    目录

    /

    返回文章
    返回