2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

提示学习在计算机视觉中的分类、应用及展望

刘袁缘 刘树阳 刘云娇 袁雨晨 唐厂 罗威

王冰洁, 徐磊, 林宗利, 施阳, 杨涛. 基于自适应动态规划的量化通信下协同最优输出调节. 自动化学报, 2025, 51(4): 1−11 doi: 10.16383/j.aas.c240494
引用本文: 刘袁缘, 刘树阳, 刘云娇, 袁雨晨, 唐厂, 罗威. 提示学习在计算机视觉中的分类、应用及展望. 自动化学报, xxxx, xx(x): x−xx doi: 10.16383/j.aas.c240177
Wang Bing-Jie, Xu Lei, Lin Zong-Li, Shi Yang, Yang Tao. Cooperative optimal output regulation under quantized communication based on adaptive dynamic programming. Acta Automatica Sinica, 2025, 51(4): 1−11 doi: 10.16383/j.aas.c240494
Citation: Liu Yuan-Yuan, Liu Shu-Yang, Liu Yun-Jiao, Yuan Yu-Chen, Tang Chang, Luo Wei. The classification, applications, and prospects of prompt learning in computer vision. Acta Automatica Sinica, xxxx, xx(x): x−xx doi: 10.16383/j.aas.c240177

提示学习在计算机视觉中的分类、应用及展望

doi: 10.16383/j.aas.c240177 cstr: 32138.14.j.aas.c240177
基金项目: 国家自然科学基金(62076227), 湖北省自然科学基金(2023AFB572), 湖北省智能地理信息处理重点实验室(KLIGIP-2022-B10), 国家自然科学基金(U2341228)资助
详细信息
    作者简介:

    刘袁缘:中国地质大学(武汉)计算机学院副教授. 主要研究方向为计算机视觉. E-mail: liuyy@cug.edu.cn

    刘树阳:中国地质大学(武汉)计算机学院硕士研究生. 主要研究方向为人脸情感识别. E-mail: 20171003670@cug.edu.cn

    刘云娇:中国地质大学(武汉)计算机学院硕士研究生. 主要研究方向为遥感图像分割. E-mail: luyunjiao@cug.edu.cn

    袁雨晨:中国地质大学(武汉)计算机学院硕士研究生. 主要研究方向为聚类分析. E-mail: 1202321648@cug.edu.cn

    唐厂:中国地质大学(武汉)计算机学院教授. 主要研究方向为多视图学习. E-mail: tangchang@cug.edu.cn

    罗威:中国舰船研究设计中心高级工程师. 主要研究方向为舰船人工智能. 本文通信作者. E-mail: csddc_weiluo@163.com

The Classification, Applications, and Prospects of Prompt Learning in Computer Vision

Funds: Supported by National Natural Science Foundation of China (62076227), Natural Science Foundation of Hubei Province (2023AFB572), Hubei Key Laboratory of Intelligent Geo-information Processing (KLIGIP-2022-B10), and National Natural Science Foundation of China (U2341228)
More Information
    Author Bio:

    LIU Yuan-Yuan Associate professor at the School of Computer Science, China University of Geosciences (Wuhan). Her mian research interest is computer vision

    LIU Shu-Yang Master student at the School of Computer Science, China University of Geosciences (Wuhan). His main research interest is facial emotion recognition

    LIU Yun-Jiao Master student at the School of Computer Science, China University of Geosciences (Wuhan). Her main research interest is remote sensing image segmentation

    YUAN Yu-Chen Master student at the School of Computer Science, China University of Geosciences (Wuhan). His main research interest is cluster analysis

    TANG Chang Professor at the School of Computer Science, China University of Geosciences (Wuhan). His main research interest is multi-view learning

    LUO Wei Senior engineer at China Ship Development and Design Center. His main research interest is ship artificial intelligence. Corresponding author of this paper

  • 摘要: 随着计算机视觉(Computer vision, CV)的快速发展, 人们对于提高视觉任务的性能和泛化能力的需求不断增长, 导致模型的复杂度与对各种资源的需求进一步提高. 提示学习(Prompt learning, PL)作为一种能有效地提升模型性能和泛化能力、重用预训练模型和降低计算量的方法, 在一系列下游视觉任务中受到了广泛的关注与研究. 然而, 现有的PL综述缺乏对PL方法全面的分类和讨论, 也缺乏对现有实验结果进行深入的研究以评估现有方法的优缺点. 因此, 本文对PL在CV领域的分类、应用和性能进行全面的概述. 首先, 介绍PL的研究背景和定义, 并简要回顾CV领域中PL研究的最新进展. 其次, 对目前CV领域中的PL方法进行分类, 包括文本提示、视觉提示和视觉—语言联合提示, 对每类PL方法进行详细阐述并探讨其优缺点. 接着, 综述PL在十个常见下游视觉任务中的最新进展. 此外, 提供三个CV应用的实验结果并进行总结和分析, 全面讨论不同PL方法在CV领域的表现. 最后, 基于上述讨论对PL在CV领域面临的挑战和机遇进行分析, 为进一步推动PL在CV领域的发展提供前瞻性的思考.
  • 近年来, 多智能体系统的输出调节问题因其在无人机编队控制、自动驾驶和车联网以及多航天器姿态同步等领域的应用而引起广泛的关注[13]. 多智能体输出调节问题的目标是通过设计一种分布式控制策略, 实现每个跟随者的输出信号跟踪参考信号, 并抑制由外部系统描述的干扰信号[46]. 目前, 分布式控制策略的设计方法主要有两种: 前馈−反馈方法[78]与内模原理方法[910].

    此外, 在多智能体系统中, 智能体的通信通常受限于系统的通信拓扑结构, 智能体通常只能与邻居进行直接通信. 在领导−跟随多智能体系统中, 跟随者为获得领导者的状态信息, 可通过设计分布式观测器进行估计[7, 11]. 在自主水下航行器[12], 航天器编队控制[13]等实际网络通信中, 通信信道的有限带宽在智能体之间的信息传输中不容忽视[1418]. 为降低通信负担, 减少通信信道中传输数据的比特数, 一些学者通过设计量化器与编码−解码方案来解决量化通信下多智能体系统的协同输出调节问题. 文献[19]利用对数量化器对控制输入进行量化, 并通过扇形约束方法来处理存在的量化误差. 文献[20]通过设计一种基于缩放函数策略的动态编码−解码方案, 保证量化误差的收敛, 实现多智能体系统跟踪误差渐近收敛到零. 文献[21]将上述结果推广到具有切换拓扑图的多智能体系统上, 解决带有切换图的线性多智能体系统的量化协同输出调节问题. 值得注意的是, 上述研究中所设计的控制策略都是基于模型的, 这就要求每个智能体需要知道系统的模型信息. 然而, 由于通信带宽的固有限制和网络系统固有的脆弱性将导致如时间延迟, 数据包丢失, 信号量化以及网络攻击等现象的发生, 智能体难以完整获得整个系统的动态信息[2224].

    随着自适应动态规划的发展[2528], 一种针对不确定动态系统的自适应控制方法应运而生, 其优势在于可以利用在线数据通过学习来逼近动态系统的控制策略, 而不必完全了解系统的动态信息, 为模型未知的协同输出调节问题提供新的解决方案. 近年来, 一些学者将最优控制理论与自适应动态规划方法进行结合[2931], 通过数据驱动的方式求解最优/次优控制策略, 在保证闭环系统实现输出调节的同时, 最小化系统性能指标. 文献[3]利用前馈−反馈方法设计分布式控制策略, 解决跟随者对领导者状态未知的多智能体系统的协同最优输出调节问题. 文献[32]构建分布式自适应内部模型来估计领导者的动态, 并提出基于策略迭代与值迭代的强化学习算法, 在线学习最优控制策略. 文献[33]针对包含外部系统在内的所有智能体动态未知的多智能体系统, 利用内模原理与自适应动态规划方法, 解决协同最优输出调节问题. 然而, 上述的这些研究并未考虑通信信道带宽有限的情况. 而在实际的工程应用中, 如智能交通系统中的自适应巡航控制等问题, 往往期望设计一种能在通信带宽有限且系统动力学未知情况下运行的数据驱动算法, 来实现多智能体系统间的协同最优输出调节, 这促使我们对这一问题进行研究.

    本文的主要贡献如下: 1) 通过引入均匀量化器, 设计分布式量化观测器来减少通信信道中传输数据的比特数, 降低多智能体间的通信负担. 同时, 将均匀量化器引入到编码−解码方案设计中, 消除量化误差对多智能体系统的影响, 保证每个跟随者对外部系统状态的估计误差渐近收敛至零. 2) 将分布式量化观测器的估计值引入到次优控制策略的设计中, 在系统动态未知的情况下, 提出一种基于自适应动态规划的数据驱动算法, 在线学习次优控制策略, 解决量化通信下的协同最优输出调节问题. 3) 受文献[32]的启发, 在学习阶段, 本文考虑一个更一般的情况, 即跟随者系统只能通过观测器对领导者的状态进行估计, 而无法直接获得领导者的状态. 在这种情况下, 证明学习到的控制器增益将收敛到最优控制增益的任意小邻域内. 与现有文献相比, 文献[32]需要智能体间的精确通信, 而本文中智能体间传输的为量化后的信息, 降低了多智能体间的通信负担, 并通过引入编码−解码方案消除量化误差的影响, 实现量化通信下外部系统状态估计误差的渐近收敛. 文献[3, 34]不仅需要智能体间的精确通信, 并且需要假设每个跟随者系统都能够获得外部系统状态的实际值. 本文在学习阶段考虑一个更一般的情况, 跟随者系统可通过设计的分布式量化观测器对领导者的状态进行估计, 从而获得外部系统状态的估计值.

    本文其余部分安排如下. 第1节介绍图论的基础知识以及相关符号说明; 第2节介绍本文的问题描述; 第3节设计量化通信下的分布式观测器; 第4节提出自适应次优控制策略与自适应动态规划算法; 第5节在智能车联网自适应巡航控制系统上验证理论结果; 第6节总结本文的主要结果, 并提出未来的研究方向.

    本节介绍一些图论的基础知识以及相关符号的定义.

    多智能体系统通过通信网络与相邻的智能体之间共享信息, 该网络可以使用图论来描述. 在这一部分, 首先介绍图论的一些基本知识. 考虑一个具有$ N $个智能体的有向图$ \mathcal{G}=(\mathcal{V},\; \mathcal{E}) $, 其中$ \mathcal{V}= \{1,\;2,\;\cdots,\;N\} $表示智能体的集合, $ \mathcal{E} \subseteq \mathcal{V} \times \mathcal{V} $表示边的集合, 邻接矩阵被定义为$ \mathcal{A}=[a_{ij}] \in \bf{R}^{N\times N} $, 其中当$ a_{ij}> 0 $时, $ (j,\;i) \in \mathcal{E} $, 否则$ a_{ij}=0 $. 有向图$ \mathcal{G} $的拉普拉斯矩阵被定义为$ \mathcal{L}=[\ell_{ij}]\in \bf{R}^{N\times N} $, 其中$ \ell_{ii}=\sum\nolimits_{j=1}^{N}a_{ij} $, $ \ell_{ij}=-a_{ij} $, $ j\ne i $. 领导者由智能体$ 0 $表示, 由$ N $个智能体和领导者组成的图称为增广有向图$ \mathcal{\bar{G}}=(\mathcal{\bar{V}},\;\mathcal{\bar{E}}) $, 其中$ \mathcal{\bar{V}}= \{0,\;1,\;2,\;\cdots,\;N\} $表示智能体的集合, $ \mathcal{\bar{E}} \subseteq \mathcal{\bar{V}} \times \mathcal{\bar{V}} $表示边的集合. 如果从领导者智能体$ 0 $到智能体$ i\; \in\mathcal{V} $存在有向边, 则$ a_{i0}=1 $, 否则$ a_{i0}=0 $. 定义$ G={\rm diag}\{a_{10}, \;a_{20},\;\cdots,\; a_{N0}\} $表示对角矩阵, 令$ H=\mathcal{L}+G $, $ \mathcal{F}=H+\mathcal{A} $. $ \mathcal{N}_{i}=\left\{j|a_{ij}>0,\; j \in \mathcal{\bar{V}}\right\} $表示智能体 $ i\; \in\mathcal{V} $的邻居集合. 对于一个根节点而言, 如果存在从根节点到每个其他节点的有向路径, 则该有向图具有有向生成树.

    $ \bf{Z} $表示整数的集合. $ ||\cdot|| $为向量的欧氏范数和矩阵的$ 2 $范数. 对于列向量$ l=(l_{1},\; l_{2},\;\cdots,\; l_{n})^{{\mathrm{T}}} \in \bf{R}^{n} $, $ ||l||_{\infty}={\rm max}_{1\leq i\leq n}|l_{i}| $. $ \otimes $表示克罗内克积算子. 对于矩阵$ X \in \bf{R}^{m\times m} $, $ \rho(X) $表示它的谱半径, $ \lambda(X) $表示它的特征值, $ \sigma(X) $表示它的谱. $ {\rm tr}(X) $表示它的迹. $ X>0 $表示为正定矩阵, $ X\ge0 $表示为半正定矩阵. 对于矩阵$ X \in \bf{R}^{m\times n} $, $ {\rm rank}(X) $表示它的列秩. $ {\rm vec}(A)=[a^{{\mathrm{T}}}_{1},\; a^{{\mathrm{T}}}_{2},\; \cdots,\; a^{{\mathrm{T}}}_{q}]^{{\mathrm{T}}} \in \bf{R}^{pq} $ 表示将矩阵$ A\in \bf{R}^{p\times q} $向量化, 其中$ a_{i}\in\bf{R}^{p} $是矩阵$ A $的第$ i $列. 对于对称矩阵$ B \in \bf{R}^{m\times m} $, $ b_{mm} $为矩阵$ B $中第$ m $行第$ m $列的元素, $ {\rm vecs}(B)=[b_{11},\; 2b_{12},\;\cdots,\; 2b_{1m},\; b_{22}, 2b_{23},\;\cdots,\;2b_{m-1,\;m},\;b_{mm}]^{{\mathrm{T}}} \in \bf{R}^{\frac{1}{2}m(m+1)} $. 针对任意的列向量$ c\in \bf{R}^{n} $, $ c_{n} $为$ c $中第$ n $个元素, $ {\rm vecv}(c)= [c^{2}_{1},\;\, c_{1}c_{2},\;\,\cdots,\;\,c_{1}c_{n},\;\,c^{2}_{2},\;\,c_{2}c_{3},\;\cdots,\;c_{n-1}c_{n} $, $ c^{2}_{n}]^{{\mathrm{T}}} \in \bf{R}^{\frac{1}{2}n(n+1)}$. $ D={\rm blockdiag}\{D_{1},\;D_{2},\;\cdots,\;D_{N} \} $表示分块对角矩阵, 其中$ D_{i} $为对角块, $ i=1,\; 2,\;\cdots,\; N $. $ \mathbf{1}_n $与$ {I}_n $分别表示$ n $维全1列向量与$ n\times n $维单位矩阵. 针对复数$ {\textit z} $, $ {\rm Re}({\textit z}) $表示$ {\textit z} $的实部.

    本文考虑如下一类连续时间线性多智能体系统:

    $$ \dot{x}_i=A_{i}x_{i}+B_{i}u_{i}+D_{i}\omega\; $$ (1a)
    $$ \dot{\omega}=E\omega\; $$ (1b)
    $$ e_{i}=C_{i}x_{i}+F_{i}\omega,\; \quad i\in \mathcal{V}\; $$ (1c)

    其中, $ x_i\in\bf{R}^{n_i} $, $ u_i\in\bf{R}^{m_i} $, $ e_i\in\bf{R}^{p_i} $分别表示第$ i $个智能体的状态向量, 输入向量以及跟踪误差. 系统(1)的矩阵维数分别为$ A_i\in\bf{R}^{n_i\times n_i} $, $ B_i\in\bf{R}^{n_i\times m_i} $, $ D_i\in\bf{R}^{n_i\times q} $, $ C_i\in\bf{R}^{p_i\times n_i} $, $ F_i\in\bf{R}^{p_i\times q} $. 自治系统(1b)称为外部系统, 其中, $ \omega\in\bf{R}^{q} $表示外部系统的状态, $ E\in\bf{R}^{q\times q} $表示外部系统矩阵.

    针对以上系统, 本文给出一些基本假设条件如下所示:

    假设1. $ (A_i,\;B_i) $可镇定, $ i\in \mathcal{V} $.

    假设2. $ {\rm rank}\left[ \begin{matrix} A_{i}-\lambda I_{n_i} & B_{i} \\ C_{i} & 0 \end{matrix} \right]= n_{i}+p_{i},\; \forall \lambda \in \sigma(E),\; i\in \mathcal{V}. $

    假设3. 有向图$ \mathcal{\bar{G}} $包含以智能体$ 0 $为根节点的有向生成树.

    注1. 假设1和假设2均为多智能体系统输出调节问题中的基本假设[4, 30]. 如果假设3成立, 则$ H $的所有特征值均具有正实部[8].

    引理1[3, 8] . 假设1 ~ 3成立, 对于$ j=1,\;2,\;\cdots,\;q $, $ i\in \mathcal{V} $, 选择充分大的 $ \alpha>0 $ 使 $ {\rm Re}(\lambda_{j}(E)- \alpha\lambda_{i} (H))< 0 $, 其中$ \lambda_{j}(E) $和$ \lambda_{i}(H) $分别为$ E $的第$ j $个和$ H $的第$ i $个特征值, 令$ K_{i} $使$ A_{i}-B_{i}K_{i} $赫尔维玆, $ L_{i}=K_{i}X_{i}+U_{i} $, 其中$ (X_{i},\;U_{i}) $为以下调节器方程的一组解:

    $$ X_{i}E=A_{i}X_{i}+B_{i}U_{i}+D_{i}\; $$ (2a)
    $$ 0=C_{i}X_{i}+F_{i} $$ (2b)

    通过设计控制策略$ u_{i}=-K_{i}x_{i}+L_{i}\eta_{i} $可实现多智能体系统(1)的协同输出调节, 其中$ \eta_{i} $为第$ i $个跟随者对领导者状态$ \omega $的估计值.

    本文的控制目标是通过设计一种次优控制策略

    $$ u_{i}=-K^{*}_{i}x_{i}+L^{*}_{i}\eta_{i},\;\quad i\in \mathcal{V}\; $$ (3)

    实现多智能体系统的协同最优输出调节. 其中$ K^{*}_{i} $为最优反馈控制增益, $ L^{*}_{i} $为最优前馈控制增益.

    此外, 所设计的次优控制策略, 不仅需要解决协同输出调节问题, 同时还需要解决以下两个优化问题.

    问题1.

    $$ \begin{aligned} &\min\limits_{(X_{i},\;U_{i})}\quad {\rm tr}(X^{{\mathrm{T}}}_{i}Q_{i}X_{i}+U^{{\mathrm{T}}}_{i}R_{i}U_{i})\;\\ &\; \rm{s.t.}\quad (2)\; \end{aligned} $$

    其中, $ Q_{i}=Q^{{\mathrm{T}}}_{i}>0 $, $ R_{i}=R^{{\mathrm{T}}}_{i}>0 $.

    根据文献[35]可知, 求解静态优化问题1能够得到调节器方程(2)的唯一最优解$ (X^{*}_{i},\;U^{*}_{i}) $, 最优前馈控制增益$ L^{*}_{i}=K^{*}_{i}X^{*}_{i}+U^{*}_{i} $. 接下来, 为得到最优反馈控制增益$ K^{*}_{i} $, 需要求解以下动态规划问题.

    定义状态误差变量$ \bar{x}_{i}=x_{i}-X^{*}_{i}\omega $与输入误差变量$ \bar{u}_{i}=u_{i}-U_{i}^{*}\omega $. 根据调节器方程(2)与次优控制策略(3)能够得到系统(1a)的误差系统为

    $$ \dot{\bar{x}}_{i}=A_{i}\bar{x}_{i}+B_{i}\bar{u}_{i}\; $$ (4a)
    $$ e_{i}=C_{i}\bar{x}_{i}\; $$ (4b)

    其中, 控制输入为$ \bar{u}_{i}=-K^{*}_{i}\bar{x}_{i}+L^{*}_{i}(\eta_{i}-\omega) $. 误差系统(4)的最优控制策略为$ \bar{u}_{i}=-K^{*}_{i}\bar{x}_{i} $, 可通过求解以下优化问题获得.

    问题2.

    $$ \begin{aligned} &\min \limits_{\bar{u}_{i}}\quad \int_{0}^{\infty} (\bar{x}^{{\mathrm{T}}}_{i}\bar{Q}_{i}\bar{x}_{i}+\bar{u}^{{\mathrm{T}}}_{i}\bar{R}_{i}\bar{u}_{i}){\mathrm{d}}t\;\\ &\; \rm{s.t.}\quad (4)\; \end{aligned} $$

    其中, $ \bar{Q}_{i} = \bar{Q}^{{\mathrm{T}}}_{i}\ge 0 $, $ \bar{R}_{i} = \bar{R}^{{\mathrm{T}}}_{i}>0 $, $ (A_{i},\;\sqrt{\bar{Q}_{i}}) $可观测.

    问题2是一个标准的线性二次型调节器问题, 根据线性最优控制理论, 最优反馈增益$ K^{*}_{i} $为

    $$ K^{*}_{i}=\bar{R}^{-1}_{i}B^{{\mathrm{T}}}_{i}P^{*}_{i}\; $$ (5)

    其中, $ P^{*}_{i}=(P^{*}_{i})^{{\mathrm{T}}}>0 $是以下代数黎卡提方程的唯一解:

    $$ A^{{\mathrm{T}}}_{i}P_{i}^{*}+P_{i}^{*}A_{i}+\bar{Q}_{i}-P_{i}^{*}B_{i}\bar{R}^{-1}_{i}B^{{\mathrm{T}}}_{i}P_{i}^{*}=0 $$ (6)

    注2. 根据文献[3]中定理1的分析可知, 问题2的性能指标中应用控制策略$ \bar{u}_{i}=-K^{*}_{i}\bar{x}_{i}+L^{*}_{i}(\eta_{i}\,- \omega) $与最优控制策略$ \bar{u}_{i}=-K^{*}_{i}\bar{x}_{i} $之间的成本误差是有界的. 因此, 本文所设计的控制策略(3)是次优控制策略.

    由于最优反馈控制增益$ K^{*}_{i} $和最优前馈控制增益$ L^{*}_{i} $是相互独立的, 因此问题1和问题2可以分别进行求解. 值得注意的是, 直接求解非线性方程(6)往往比较困难, 尤其是针对维数比较高的矩阵. 因此, 通常采用以下策略迭代的方法来解决此类问题[36].

    简单而言, 选择一个使闭环系统稳定并保证所需成本有限的反馈控制增益$ K_{i,\;0} $, 即$ A_{i}-B_{i}K_{i,\;0} $是赫尔维玆矩阵. 通过策略迭代的方式求解如下Lyapunov方程来更新值$ P_{i,\;k} $:

    $$ \begin{split} &(A_{i}-B_{i}K_{i,\;k})^{{\mathrm{T}}}P_{i,\;k}+P_{i,\;k}(A_{i}-B_{i}K_{i,\;k})\;+\\ & \qquad\bar{Q}_{i}+ K^{{\mathrm{T}}}_{i,\;k}\bar{R}_{i}K_{i,\;k}=0\; \end{split} $$ (7)

    其中, $ k=1,\;2,\;\cdots $表示迭代次数. 通过以下方程来更新反馈控制增益

    $$ K_{i,\;k+1}=\bar{R}^{-1}_{i}B^{{\mathrm{T}}}_{i}P_{i,\;k} $$ (8)

    文献[36]已证明策略迭代方法中的每一次迭代反馈控制增益$ K_{i,\;k} $都可接受, 即保证了$ A_{i}\;- B_{i}K_{i,\;k} $是赫尔维玆矩阵. 同时也保证了$ \mathop{\lim}\nolimits_{k \to \infty}K_{i,\;k} = K_{i}^* $且$ \mathop{\lim}\nolimits_{k \to \infty}P_{i,\;k}=P_{i}^* $.

    为降低多智能体间的通信负担, 在本节中, 通过引入量化器与编码−解码方案设计分布式量化观测器, 用于估计量化通信下领导者的状态$ \omega $.

    在正式介绍编码−解码方案之前, 首先考虑一种均匀量化器$ \mathcal{Q}[e] $[37]:

    $$ \mathcal{Q}[e]=\varsigma,\;\quad \varsigma-\frac{1}{2}<e \leq \varsigma+\frac{1}{2}\; $$ (9)

    其中, $ \varsigma\in\bf{Z} $, $ e $表示需要量化的变量.

    给定向量$ h=[h_{1},\;h_{2}\cdots,\;h_{n}]\in \bf{R}^{n} $, 定义量化器$ \mathcal{Q}[h]=[\mathcal{Q}[h_{1}],\;\cdots,\; \mathcal{Q}[h_{n}]] $. 量化误差为

    $$ ||h-\mathcal{Q}[h]||_{\infty} \leq \frac{1}{2} $$ (10)

    由于量化误差的存在, 智能体无法获得邻居传输的准确信息, 为消除量化误差带来的影响, 将量化器引入到如下编码−解码方案的设计之中.

    1)编码器

    为传输$ \eta_j(k) $量化后的数据, 对于任意$ k\ge1 $, 智能体$ j \in \mathcal{\bar{V}} $生成的量化输出为$ {\textit z}_j(k) $, 即

    $$ {\textit z}_{j}(k)=\mathcal{Q}\left[\frac{1}{s(k-1)}(\eta_j(k)-b_j(k-1))\right]\; $$ (11a)
    $$ b_j(k)=s(k-1){\textit z}_{j}(k)+b_j(k-1) $$ (11b)

    其中, 内部状态$ b_j(k) $的初值$ b_j(0)=0 $, $ s(k)= s(0) \mu^k>0 $为自适应调整编码器的递减序列, $ \mu\in (0,\;1) $.

    2)解码器

    当智能体$ i $从邻居智能体$ j $接收到量化后的数据$ {\textit z}_{j}(k) $时, 通过以下规则递归生成$ \eta_j(k) $的估计值$ \hat{\eta}_j(k) $, 并通过零阶保持器输出为连续信号$ \hat{\eta}_j(t) $, 即

    $$ \hat{\eta}_j(k)=s(k-1){\textit z}_{j}(k)+\hat{\eta}_j(k-1)\; $$ (12a)
    $$ \hat{\eta}_j(t)=\hat{\eta}_j(k),\; kT \leq t<(k+1)T\; $$ (12b)

    其中, 初值$ \hat{\eta}_j(0)=0 $, $ T>0 $为采样时间, 其选取遵循香农采样定理.

    图 1所示, 对智能体$ i $和邻居智能体$ j $之间的通信而言, 在每个采样时刻, 智能体$ j $对外部系统状态的估计值$ \eta_j(t) $进行采样, 并将采样后的数据$ \eta_j(k) $编码为量化后的数据$ {\textit z}_j(k) $, 然后通过通信信道传输给邻居智能体$ i $. 邻居智能体$ i $接收到数据信息之后通过解码器解码为$ \hat{\eta}_j(k) $, 进而通过零阶保持器得到发送者状态的估计值$ \hat{\eta}_j(t) $. 其中$ b_j(k) $表示一个预测器, 目的是预测智能体$ j $的邻居智能体$ i $经过解码后的得到的数据$ \hat{\eta}_j(k) $.

    图 1  编码−解码方案
    Fig. 1  Encoder-decoder scheme

    注3. 在编码−解码方案设计中, $ s(k) $表示用于调整预测误差$ \eta_j(k)-b_j(k-1) $的调节函数. $ \mu\in (0,\;1) $保证了随着迭代次数的增加, 智能体$ i $对邻居智能体$ j $传输数据的估计误差$ \eta_j(k)-\hat{\eta}_j(k) $逐渐减小, 即消除了量化误差对传输数据准确性的影响.

    接下来, 将上述经编码−解码方案传输的估计值$ \hat{\eta}_j(t) $引入到分布式观测器的设计当中, 针对每个跟随者$ i \in \mathcal{V} $, 受文献[8]的启发, 本文构建分布式量化观测器如下:

    $$ \dot{\eta}_i=E\eta_i+\alpha \sum\limits_{j \in \mathcal{N}_i} a_{i j}\left(\hat{\eta}_j-\eta_i\right) $$ (13)

    其中, $ \eta_i \in \bf{R}^{q} $, 参数$ \alpha>0 $. $ \hat{\eta}_j \in \bf{R}^{q} $表示智能体$ i $对$ \eta_j $经过编码−解码后的估计值, $ \hat{\eta}_0 = \hat{\omega} $.

    本文理论部分的全文流程图如图 2所示. 本文利用量化器与编码−解码方案设计分布式量化观测器, 在减少通讯负担的同时, 对外部系统的状态进行估计. 定理1证明了所提观测器对外部系统状态估计误差的收敛性. 通过求解问题1与问题2设计次优控制策略. 当系统模型未知时, 我们给出一个在线学习算法1, 通过数据驱动的方式在线求解次优控制策略. 定理2则证明了由算法1得到的次优控制策略能够实现量化通信下的自适应协同最优输出调节.

    图 2  理论部分示意图
    Fig. 2  Illustration of the theoretical part

    接下来, 通过以下定理说明所设计的分布式量化观测器保证了对外部系统状态估计误差的收敛性.

    定理1. 考虑外部系统(1b)和分布式量化观测器(13), 如果假设1 ~ 3成立, 对于充分大的$ \alpha>0 $, 经过编码−解码后, 智能体$ i $对外部系统状态的估计误差

    $$ \mathop{\lim}\limits_{t \to \infty}(\eta_{i}(t)-\omega(t))=0\; $$ (14)

    其中, $ i \in \mathcal{V} $.

    证明. 定义$ \bar{\eta}(t)=[\eta_{1}^{{\mathrm{T}}}(t),\; \eta_{2}^{{\mathrm{T}}}(t),\; \cdots,\; \eta_{N}^{{\mathrm{T}}}(t)]^{{\mathrm{T}}} $, $ \hat{\eta}(t)=[\hat{\eta}_{1}^{{\mathrm{T}}}(t),\; \hat{\eta}_{2}^{{\mathrm{T}}}(t),\; \cdots,\; \hat{\eta}_{N}^{{\mathrm{T}}}(t)]^{{\mathrm{T}}} $, $ \bar{\omega}(t)=\mathbf{1}_N\otimes \omega(t) $, $ \hat{\bar{\omega}}(t)=\mathbf{1}_N\otimes\hat{\omega}(t) $, $ \bar{E}={ I_{{N}}}\otimes E $. 将外部系统(1b)与分布式量化观测器(13)整理成如下紧凑形式:

    $$ \dot{\bar{\omega}}(t)=\bar{E}\bar{\omega}(t)\; $$ (15a)
    $$ \begin{split} \dot{\bar{\eta}}(t)=\;&\bar{E}\bar{\eta}(t)-\alpha(\mathcal{F}\otimes I_{q})\bar{\eta}(t)\;+ \\ &\alpha(\mathcal{A}\otimes I_{q})\hat{\eta}(t)+\alpha(H\otimes I_{q})\hat{\bar{\omega}}(t) \end{split} $$ (15b)

    定义$ e_{\omega}(t)=\bar{\omega}(t)-\hat{\bar{\omega}}(t) $, $ e_{\eta}(t)=\bar{\eta}(t)-\hat{\eta}(t) $, 可得

    $$ \begin{split} \dot{\bar{\eta}}(t)=\;&(\bar{E}-\alpha(H\otimes I_{q}))\bar{\eta}(t)\;+\\ &\alpha(H\otimes I_{q})\bar{\omega}(t)-\alpha(\mathcal{A}\otimes I_{q})e_{\eta}(t)\;-\\ &\alpha(H\otimes I_{q})e_{\omega}(t) \end{split} $$ (16)

    定义$ \tilde{\eta}(t)=\bar{\eta}(t)-\bar{\omega}(t) $, 根据式(15a)和式(16)有

    $$ \begin{split} \dot{\tilde{\eta}}(t)=\;&(\bar{E}-\alpha(H\otimes I_{q}))\tilde{\eta}(t)\;-\\ &\alpha(\mathcal{A}\otimes I_{q})e_{\eta}(t)-\alpha(H\otimes I_{q})e_{\omega}(t) \end{split} $$ (17)

    根据引理1可知, 对于$ j=1,\;2,\;\cdots,\;q $, $ i\in \mathcal{V} $, $ {\rm Re}(\lambda_{j}(E)-\alpha\lambda_{i}(H))<0 $, 其中$ \lambda_{j}(E) $和$ \lambda_{i}(H) $分别为$ E $的第$ j $个和$ H $的第$ i $个特征值, 即$ \bar{E}- \alpha(H\otimes I_{q}) $是赫尔维玆的.

    令$ E_h=\bar{E}-\alpha(H\otimes I_{q}) $, $ E_H=\alpha(H\otimes I_{q}) $, $ E_A= \alpha(\mathcal{A}\otimes I_{q}) $, 则式(16)可改写为

    $$ \begin{split} \dot{\bar{\eta}}(t)=\;&E_{h}\bar{\eta}(t)+E_{H}\bar{\omega}(t)\;-\\ &E_{A}e_{\eta}(t)-E_{H}e_{\omega}(t) \end{split} $$ (18)

    由于$ \hat{\bar{\omega}}(t) $与$ \hat{\eta}(t) $使用编码−解码方案进行更新, 将系统(15a)与(18)进行离散化. 定义$ e_{\omega}(k)= \bar{\omega}(k)-\hat{\bar{\omega}}(k) $, $ e_{\eta}(k)=\bar{\eta}(k)-\hat{\eta}(k) $, 系统(15a)与(18)利用零阶保持器方法进行离散化[38], 即

    $$ \bar{\omega}(k+1)={\mathrm{e}}^{\bar{E}{{T}}}\bar{\omega}(k)\; $$ (19a)
    $$ \begin{split} \bar{\eta}(k+1)=\;&{\mathrm{e}}^{E_{h}{{T}}}\bar{\eta}(k)+\int_{0}^{{{T}}}{\mathrm{e}}^{E_{h}\tau}E_{H}{\mathrm{d}}\tau\bar{\omega}(k)\; -\\ &\int_{0}^{{{T}}}{\mathrm{e}}^{E_{h}\tau}E_{A}{\mathrm{d}}\tau e_{\eta}(k) \;-\\ &\int_{0}^{{{T}}}{\mathrm{e}}^{E_{h}\tau}E_{H}{\mathrm{d}}\tau e_{\omega}(k)\; \end{split} $$ (19b)

    其中, $ T $为采样时间, 其选取遵循香农采样定理.

    接下来, 将预测器$ b_{j}(k) $表示为紧凑型, 其中$ j \in \mathcal{\bar{V}} $. 定义$ b_{\omega}(k)=\mathbf{1}_N\otimes b_0(k) $, $ b_{\eta}(k)=[b_1^{{\mathrm{T}}}(k),\;b_2^{{\mathrm{T}}} (k),\; \cdots,\; b_N^{{\mathrm{T}}}(k)]^{{\mathrm{T}}} $. 预测器$ b_{j}(k) $表示对智能体 $ i $经过解码后得到的数据$ \hat{\eta}_j(k) $的预测, 根据$ \hat{\eta}_0(k) = \hat{\omega}(k) $, 且初始值$ b_{\omega}(0)=\hat{\bar{\omega}}(0) $, $ b_{\eta}(0)=\hat{\eta}(0) $, 可得$ b_{\omega}(k)=\hat{\bar{\omega}}(k) $, $ b_{\eta}(k)=\hat{\eta}(k) $. 因此, $ e_{\omega}(k)= \bar{\omega}(k)\;- b_{\omega}(k) $, $ e_{\eta}(k)=\bar{\eta}(k)-b_{\eta}(k) $.

    根据式(11), 有

    $$ \begin{split} b_{\omega}(k)=\;&s(k - 1)\mathcal{Q}\left[\frac{1}{s(k - 1)}(\bar{\omega}(k) - b_{\omega}(k - 1))\right] +\\&b_{\omega}(k-1) \end{split} $$ (20a)
    $$ \begin{split} b_{\eta}(k)=\;&s(k - 1)\mathcal{Q}\left[\frac{1}{s(k - 1)}(\bar{\eta}(k) - b_{\eta}(k - 1))\right]+\\ &b_{\eta}(k-1) \end{split} $$ (20b)

    将式(19a)的左右两边同时减去$ b_{\omega}(k) $, 可以得到

    $$ \begin{split} &\bar{\omega}(k+1)-b_{\omega}(k)={\mathrm{e}}^{\bar{E}T}\bar{\omega}(k)-b_{\omega}(k)=\\ &\quad {{e}}_{\omega}(k)+({\mathrm{e}}^{\bar{E}T}-I_{qN})\bar{\omega}(k)=s(k)\theta_{\omega}(k)\; \end{split} $$ (21)

    其中, $ \theta_{\omega}(k)=\frac{e_{\omega}(k)}{s(k)}+\frac{1}{s(k)}({\mathrm{e}}^{\bar{E}T}-I_{qN})\bar{\omega}(k) $.

    基于式(20a)和式(21), 可得

    $$ \begin{split} e_{\omega}(k+1)=\;&\bar{\omega}(k+1)-b_{\omega}(k+1)= \\ & \bar{\omega}(k+1)-b_{\omega}(k)\;-\\ & s(k)\mathcal{Q}\left[\frac{1}{s(k)}(\bar{\omega}(k+1)-b_{\omega}(k))\right]=\\ & s(k)(\theta_{\omega}(k)-\mathcal{Q}[\theta_{\omega}(k)])\\[-3pt]\end{split} $$ (22)

    同理, 将式(19b)的左右两边同时减去$ b_{\eta}(k) $, 可得

    $$ \begin{split} &\bar{\eta}(k+1)-b_{\eta}(k)=\\ &\quad ({\mathrm{e}}^{E_{h}T}-I_{qN})\bar{\eta}(k)+\int_{0}^{{{T}}}{\mathrm{e}}^{E_{h}\tau}E_{H}{\mathrm{d}}\tau\bar{\omega}(k)\;+\\ &\quad (I_{qN}-\int_{0}^{{{T}}}{\mathrm{e}}^{E_{h}\tau}E_{A}{\mathrm{d}}\tau)e_{\eta}(k)\;-\\ &\quad \int_{0}^{{{T}}}{\mathrm{e}}^{E_{h}\tau}E_{H}{\mathrm{d}}\tau e_{\omega}(k)= s(k)\theta_{\eta}(k)\; \end{split} $$ (23)

    其中,

    $$\begin{split} \theta_{\eta}(k)=&\frac{1}{s(k)}({\mathrm{e}}^{E_{h}T}-I_{qN})\bar{\eta}(k)\;+\\&\frac{1}{s(k)}\int_{0}^{{{T}}}{\mathrm{e}}^{E_{h}\tau} E_{H} {\mathrm{d}}\tau\bar{\omega}(k)\;+\\& \frac{e_{\eta}(k)}{s(k)}(I_{qN}-\int_{0}^{{{T}}}{\mathrm{e}}^{E_{h}\tau}E_{A}{\mathrm{d}}\tau)\;-\\& \frac{e_{\omega}(k)}{s(k)} \int_{0}^{{{T}}}{\mathrm{e}}^{E_{h}\tau} E_{H}{\mathrm{d}}\tau \end{split}$$

    基于式(20b)和式(23), 可得

    $$ \begin{split} e_{\eta}(k+1)=\;&\bar{\eta}(k+1)-b_{\eta}(k+1)=\\ & \bar{\eta}(k+1)-b_{\eta}(k)\;-\\ & s(k)\mathcal{Q}\left[\frac{1}{s(k)}(\bar{\eta}(k+1)-b_{\eta}(k))\right]=\\ & s(k)(\theta_{\eta}(k)-\mathcal{Q}[\theta_{\eta}(k)]) \end{split} $$ (24)

    根据式(22), 式(24)以及量化误差(10), 有

    $$ ||\frac{e_{\omega}(k)}{s(k)}||_{\infty}\leq\frac{1}{2\mu}\; $$ (25a)
    $$ ||\frac{e_{\eta}(k)}{s(k)}||_{\infty}\leq\frac{1}{2\mu}\; $$ (25b)

    由$ \mathop{\lim}\nolimits_{k \to \infty}s(k) = 0 $可知$ \mathop{\lim}\nolimits_{k \to \infty}e_{\omega}(k) = e_{\eta}(k) = 0 $, 进而可知$ \mathop{\lim}\nolimits_{t \to \infty}e_{\omega}(t) = e_{\eta}(t) = 0 $. 由$ \bar{E}-\alpha(H\otimes I_{q}) $是赫尔维玆的, $ \mathop{\lim}\nolimits_{t \to \infty}e_{\omega}(t)=e_{\eta}(t)=0 $, 根据文献[39]引理$ 9.1 $, 可知$ \mathop{\lim}\nolimits_{t \to \infty}\tilde{\eta}(t)=0 $. 因此, 对于每个跟随者$ i \in \mathcal{V} $, 有$ \mathop{\lim}\nolimits_{t \to \infty}\tilde{\eta}_{i}(t)=0 $.

    在第3节中, 通过设计的分布式量化观测器可使每个跟随者渐近观测到外部系统的状态信息. 在本节中, 将观测到的估计值$ \eta_{i}(t) $引入到自适应动态规划算法的学习阶段, 进而设计一种数据驱动的方法来解决量化通信下的协同最优输出调节问题. 值得注意的是, 该方法能够近似逼近控制增益$ K^* $与$ L^* $, 而不需要知道系统矩阵$ A_{i} $, $ B_{i} $与$ D_{i} $的先验知识.

    考虑第$ i $个智能体, 定义$ \bar{x}_{ij}=x_{i}-X_{ij}\omega $, $ X_{ij}\in \bf{R}^{n_{i}\times q} $表示$ C_{i}X_{ij}+F=0 $的基础解系. 其中, $ i \in \mathcal{V} $, $ j=0,\;1,\;\cdots,\;h_{i}+1 $. $ h_{i}=(n_{i}-p_{i })q $ 表示 $ I_{q}\otimes C_{i} $零空间的维数. 接下来, 定义一个西尔维斯特方程$ S_{i}(X_{ij})=X_{ij}E-A_{i}X_{ij} $, $ X_{ij} \in \bf{R}^{n_{i} \times q} $, 根据输入误差变量$ \bar{u}_{i}=u_{i}-U_{i}^{*}\omega $与(2a), 式(4)可改写为

    $$ \begin{split} \dot{\bar{x}}_{i}=&\;A_{i}\bar{x}_{i}+B_{i}\bar{u}_{i}=\\ &\bar{A}_{i}\bar{x}_{ij}+B_{i}(K_{i,\;k}\bar{x}_{ij}+u_{i})\;+\\ &(D_{i}-S_{i}(X_{ij}))\omega =\\ &\bar{A}_{i}\bar{x}_{ij}+B_{i}(K_{i,\;k}\bar{x}_{ij}+u_{i})\;+\\ & (D_{i}-S_{i}(X_{ij}))\eta_{i}-(D_{i}-S_{i}(X_{ij}))\tilde{\eta}_{i} \end{split} $$ (26)

    其中, $ \bar{A}_{i}=A_{i}-B_{i}K^{*}_{i} $. 通过增大$ \alpha $, 可使$ \tilde{\eta}_{i}(t) $以所需的速度收敛到零[32].

    根据式(26)以及代数黎卡提方程(7)和(8), 有

    $$ \begin{split} &\bar{x}^{{\mathrm{T}}}_{ij}(t+\delta)P_{i,\;k}\bar{x}_{ij}(t+\delta)-\bar{x}^{{\mathrm{T}}}_{ij}(t)P_{i,\;k}\bar{x}_{ij}(t)=\\ &\quad\int_{t}^{t+\delta} (\bar{x}^{{\mathrm{T}}}_{ij}(\bar{A}_{i}^{{\mathrm{T}}}P_{i,\;k}+P_{i,\;k}\bar{A}_{i})\bar{x}_{ij}\;+\\ &\quad2(u_{i}+K_{i,\;k}\bar{x}_{ij})^{{\mathrm{T}}}B^{{\mathrm{T}}}_{i}P_{i,\;k}\bar{x}_{ij}\;+\\ &\quad2\eta_{i}^{{\mathrm{T}}}(D_{i}-S_{i}(X_{ij}))^{{\mathrm{T}}}P_{i,\;k}\bar{x}_{ij})\,\; {\mathrm{d}}\tau=\\ &\quad\int_{t}^{t+\delta} (-\bar{x}^{{\mathrm{T}}}_{ij}(\bar{Q}_{i}+ K^{{\mathrm{T}}}_{i,\;k}\bar{R}_{i}K_{i,\;k})\bar{x}_{ij}\;+\\ &\quad2(u_{i}+K_{i,\;k}\bar{x}_{ij})^{{\mathrm{T}}}\bar{R}_{i}K_{i,\;k+1}\bar{x}_{ij}\;+\\ &\quad2\eta_{i}^{{\mathrm{T}}}(D_{i}-S_{i}(X_{ij}))^{{\mathrm{T}}}P_{i,\;k}\bar{x}_{ij})\,\; {\mathrm{d}}\tau \end{split} $$ (27)

    通过克罗内克积的性质, 有

    $$ \begin{split} &\bar{x}^{{\mathrm{T}}}_{ij}(\bar{Q}_{i}+ K^{{\mathrm{T}}}_{i,\;k}\bar{R}_{i}K_{i,\;k})\bar{x}_{ij}= \\ &\quad(\bar{x}^{{\mathrm{T}}}_{ij}\otimes \bar{x}^{{\mathrm{T}}}_{ij}){\rm vec}(\bar{Q}_{i}+ K^{{\mathrm{T}}}_{i,\;k}\bar{R}_{i}K_{i,\;k})\; \end{split} $$ (28a)
    $$ \begin{split} &(u_{i}+K_{i,\;k}\bar{x}_{ij})^{{\mathrm{T}}}\bar{R}_{i}K_{i,\;k+1}\bar{x}_{ij} =\\ &\quad((\bar{x}^{{\mathrm{T}}}_{ij}\otimes \bar{x}^{{\mathrm{T}}}_{ij})(I_{ni}\otimes K^{{\mathrm{T}}}_{i,\;k}\bar{R}_{i})\;+ \\ &\quad(\bar{x}^{{\mathrm{T}}}_{ij}\otimes u^{{\mathrm{T}}}_{i})(I_{ni}\otimes \bar{R}_{i})){\rm vec}(K_{i,\;k+1})\; \end{split} $$ (28b)
    $$ \begin{split} &\eta_{i}^{{\mathrm{T}}}(D_{i}-S_{i}(X_{ij}))^{{\mathrm{T}}}P_{i,\;k}\bar{x}_{ij}= \\ &\quad(\bar{x}^{{\mathrm{T}}}_{ij}\otimes \eta_{i}^{{\mathrm{T}}}){\rm vec}((D_{i}-S_{i}(X_{ij}))^{{\mathrm{T}}}P_{i,\;k}) \end{split} $$ (28c)

    对于任意两个向量$ p $, $ q $以及正整数$ c $, 定义以下矩阵

    $$ \begin{split} {\Pi}_{pp}=\;&[\mathrm{vecv}(p(t_{1}))-\mathrm{vecv}(p(t_{0})),\;\cdots,\; \\ & \mathrm{vecv}(p(t_{c}))-\mathrm{vecv}(p(t_{c-1}))]^{{\mathrm{T}}}\; \end{split} $$ (29a)
    $$ {\Xi}_{pq}=\left[\int_{t_{0}}^{t_{1}}p\otimes q {\mathrm{d}}\tau,\;\cdots,\;\int_{t_{c-1}}^{t_{c}}p\otimes q {\mathrm{d}}\tau \right]^{{\mathrm{T}}}\; $$ (29b)

    其中, $ t_0<t_1<\cdots<t_c $, 基于以上矩阵定义, 通过式(27)得到以下矩阵方程

    $$ \Psi_{ij,\;k} \begin{bmatrix} {\rm vecs}(P_{i,\;k}) \\ {\rm vec}(K_{i,\;k+1})\\ {\rm vec}((D_{i}-S_{i}(X_{ij})^{{\mathrm{T}}}P_{i,\;k}) \end{bmatrix} =\Phi_{ij,\;k} $$ (30)

    其中,

    $$ \begin{split} \Psi_{ij,\;k}=\;&[ \Pi_{\bar{x}_{ij}\bar{x}_{ij}},\; -2\Xi_{\bar{x}_{ij}\bar{x}_{ij}}(I_{ni}\otimes K^{{\mathrm{T}}}_{i,\;k}\bar{R}_{i}) \;-\\ & 2\Xi_{\bar{x}_{ij}u_{i}}(I_{ni}\otimes \bar{R}_{i}),\;-2\Xi_{\bar{x}_{ij}\eta_{i}}]\; \end{split} $$ (31a)
    $$ \Phi_{ij,\;k}= -\Xi_{\bar{x}_{ij}\bar{x}_{ij}} {\rm vec}(\bar{Q}_{i}+K^{{\mathrm{T}}}_{i,\;k}\bar{R}_{i}K_{i,\;k}) $$ (31b)

    如果矩阵$ \Psi_{ij,\;k} $列满秩, 则式(30)具有唯一解. 文献[30]引理$ 3 $中给出矩阵$ \Psi_{ij,\;k} $列满秩的充分条件. 如果存在正整数$ c^{*} $使得任意的$ c>c^{*} $和时间序列$ t_{0}<t_{1}<\cdots<t_{c} $, 满足以下条件时,

    $$ \begin{split}& {\rm rank}([\Xi_{\bar{x}_{ij}\bar{x}_{ij}},\;\Xi_{\bar{x}_{ij}u_{i}},\;\Xi_{\bar{x}_{ij}\eta_{i}}])=\\&\quad \frac{n_{i}(n_{i}+1)}{2}+(m_{i}+q)n_{i}\; \end{split} $$ (32)

    矩阵$ \Psi_{ij,\;k} $对任意正整数$ k $列满秩.

    根据调节器方程(2), 西尔维斯特方程$ S_{i}(X_{ij})= X_{ij}E-A_{i}X_{ij} $以及式(30)的解, 能够求得调节器方程的解$ (X_{i},\;U_{i}) $. 该方法与文献[3]中式(27)的求解思路一致, 这里不做赘述.

    为确保满秩条件(32)能够得到满足, 在学习阶段$ [t_{0},\;t_{c}] $, 本文在初始控制策略上增加探测噪声$ \xi_{i} $, 即$ u_{i0}=-K_{i0}x_{i}+\xi_{i} $, 其中, $ K_{i0} $使$ A_{i}-B_{i}K_{i0} $赫尔维玆.

    据此, 针对量化通信下的自适应协同最优输出调节问题, 本文给出一个在线学习算法, 即算法1.

    算法1. 基于自适应动态规划的量化通信下协同最优输出调节算法

    1: 令$ i=1 $

    2: 选择一个初始控制策略$ u_{i0}=-K_{i0}x_{i}+\xi_{i} $

    3: 通过式(13)计算编码−解码后对外部系统状态的估 计值$ \eta_{i} $

    4: 计算满足条件(32)的$ \Xi_{\bar{x}_{ij}\bar{x}_{ij}},\;\Xi_{\bar{x}_{ij}u_{i}},\;\Xi_{\bar{x}_{ij}\eta_{i}} $

    5: 令$ k=0 $

    6: 通过式(30)求解$ P_{i,\;k} $, $ K_{i,\;k+1} $以及$ S_{i}(X_{ij}) $

    7: 令$ k\gets k+1 $, 重复步骤6, 直至满足$ ||P_{i,\;k}\;- \qquad\qquad P_{i,\;k-1}||<c_{i} $, 其中, 阈值$ c_{i} $为足够小的正数

    8: $ k^{*}\gets k $

    9: $ P_{i,\;k^*}\gets P_{i,\;k} $, $ K_{i,\;k^*}\gets K_{i,\;k} $

    10: 通过$ S_{i}(X_{ij}) $以及问题1求解调节器方程的最优解    $ (X^{*}_{i},\;U^{*}_{i}) $, $ L_{i,\;k^*}=K_{i,\;k^*}X^{*}_{i}+U^{*}_{i} $

    11: 学习到的次优控制策略为

    $$ u_{i}^*=-K_{i,\;k^*}x_{i}+L_{i,\;k^*}\eta_{i}\; $$ (33)

    12: 令$ i\gets i+1 $, 重复步骤2 ~ 11, 直至$ i=N $.

    注4. 本文利用所设计的算法1通过系统状态$ x_{i} $, 输入$ u_{i} $以及对外部系统状态的估计值$ \eta_{i} $在线学习次优控制策略(3), 而不需要依赖系统矩阵$ A_{i} $, $ B_{i} $与$ D_{i} $的先验知识. 然而, 由于在分布式量化观测器的设计部分应用外部系统的矩阵信息, 因此要求跟随者对外部系统矩阵$ E $是已知的. 目前, 在精确通信下, 文献[7, 11]不要求跟随者对外部系统矩阵$ E $是已知的, 即已经研究了部分/全部跟随者无法访问领导者系统矩阵信息的情况, 并设计了自适应分布式观测器. 然而在量化通信下, 文献[7, 11]中所设计的自适应分布式观测器并不适用, 需要设计自适应分布式量化观测器对外部系统矩阵$ E $的估计值$ E_{i}(t) $进行观测, 其中观测器中包含经过编码−解码方案后传输的信息$ \hat{E}_{i}(t) $, 我们难以保证估计误差$ {\lim}_{t \to \infty}(E_{i}(t)-E) $收敛到零, 这对我们的研究带来全新的挑战, 在未来的工作中将进一步研究.

    接下来, 给出关于控制增益$ K_{i,\;k^*} $和值$ P_{i,\;k^*} $的收敛性的定理.

    定理2. 在满足条件(32)的情况下, 对于任意小的参数$ \delta>0 $, 存在充分大的$ \alpha>0 $使由算法1得到的解$ \left\{P_{i,\;k}\right\}_{k=0}^{\infty} $和$ \left\{K_{i,\;k}\right\}_{k=0}^{\infty} $满足不等式$ ||P_{i,\;k^*}- P_{i}^*||<\delta $, $ ||K_{i,\;k^*}-K_{i}^*||<\delta $, 其中$ i \in \mathcal{V} $. 且由算法1得到的次优控制策略能够实现量化通信下的协同最优输出调节.

    证明. 令$ \left\{\bar{P}_{i,\;k}\right\}_{k=0}^{\infty} $, $ \left\{\bar{K}_{i,\;k}\right\}_{k=0}^{\infty} $为基于模型迭代方法得到的解.

    基于模型方法的收敛性分析已经在文献[36]中得到证明. 对于每个跟随者$ i \in \mathcal{V} $, 存在$ k^* $使得以下不等式成立, 即

    $$ \begin{split}& ||\bar{K}_{i,\;k^*}-K_{i}^*||<\frac{\delta}{2}\;\\& ||\bar{P}_{i,\;k^*}-P_{i}^*||<\frac{\delta}{2} \end{split} $$ (34)

    接下来, 需要证明算法1在每次迭代中学到的控制增益$ K_{i,\;k} $和值$ P_{i,\;k} $足够接近基于模型算法(7)和(8)得到的控制增益$ \bar{K}_{i,\;k} $和值$ \bar{P}_{i,\;k} $. 下面将通过归纳法证明.

    当$ k=0 $时, 对于所有的跟随者$ i \in \mathcal{V} $, 有$ K_{i0}= \bar{K}_{i0} $. 定义$ \Delta P_{i0}=P_{i0}-\bar{P}_{i0} $. $ \Delta P_{i0} $可通过以下方程进行求解, 即

    $$ \begin{split}& \Psi_{ij,\;0} \begin{bmatrix} {\rm vecs}(\Delta P_{i0}) \\ {\rm vec}(\bar{R}^{-1}_{i}B^{{\mathrm{T}}}_{i}\Delta P_{i0})\\ {\rm vec}((D_{i}-S_{i}(X_{ij}))^{{\mathrm{T}}}\Delta P_{i0})\\ \end{bmatrix}=\\&\qquad 2\Xi_{\bar{x}_{ij}\tilde{\eta}_{i}}{\rm vec}((D_{i}-S_{i}(X_{ij}))^{{\mathrm{T}}}\bar{P}_{i0}) \end{split} $$ (35)

    令$ ||\Delta\tilde{\eta}||=\max\nolimits_{t_{0}\leq t\leq t_{c}}\tilde{\eta}(t) $, 可知

    $$\begin{split}& \lim\nolimits_{||\Delta\tilde{\eta}||\rightarrow0} (P_{i0}- \bar{P}_{i0})=0\\ &\lim\nolimits_{||\Delta\tilde{\eta}||\rightarrow0}(K_{i1}-\bar{K}_{i1})=\\&\qquad\lim\nolimits_{||\Delta\tilde{\eta}||\rightarrow0} (\bar{R}^{-1}_{i}B^{{\mathrm{T}}}_{i}(P_{i0}- \bar{P}_{i0}))=0 \end{split}$$

    当$ k=p $时, 假设$ \lim\nolimits_{||\Delta\tilde{\eta}||\rightarrow0}(K_{ip}-\bar{K}_{ip})=0 $. 令$ \Delta P_{ip}= P_{ip}-\bar{P}_{ip} $. $ \Delta P_{ip} $可通过以下方程进行求解

    $$ \Psi_{ij,\;0} \begin{bmatrix} {\rm vecs}(\Delta P_{ip}) \\ {\rm vec}(\bar{R}^{-1}_{i}B^{{\mathrm{T}}}_{i}\Delta P_{ip})\\ {\rm vec}((D_{i}-S_{i}(X_{ij}))^{{\mathrm{T}}}\Delta P_{ip}) \end{bmatrix} =\Delta \Phi_{ij,\;p} $$ (36)

    其中, $ \lim\nolimits_{||\Delta\tilde{\eta}||\rightarrow0}\Delta \Phi_{ij,\;p}=0 $. 因此, 可得

    $$\begin{split}&\lim\nolimits_{||\Delta\tilde{\eta}||\rightarrow0} (P_{ip}-\bar{P}_{ip})=0\\ &\lim\nolimits_{||\Delta\tilde{\eta}||\rightarrow0}(K_{i,\;p+1}- \bar{K}_{i,\;p+1})=\\& \qquad\lim\nolimits_{||\Delta\tilde{\eta}||\rightarrow0} (\bar{R}^{-1}_{i}B^{{\mathrm{T}}}_{i}(P_{ip}- \bar{P}_{ip}))=0 \end{split}$$

    通过增大$ \alpha $的值能够加速$ \Delta\tilde{\eta} $的收敛, 对于充分大的$ \alpha>0 $, 总能找到足够小的$ \Delta\tilde{\eta} $使得在任何迭代$ k $处, 满足不等式$ ||P_{i,\;k}-\bar{P}_{i,\;k}||<\delta/2 $, $ ||K_{i,\;k}\;- \bar{K}_{i,\;k}||<\delta/2 $.

    因此, 当$ k=k^* $时, 以下不等式成立, 即

    $$ \begin{split}& ||K_{i,\;k^*}-\bar{K}_{i,\;k^*}||<\frac{\delta}{2}\;\\& ||P_{i,\;k^*}-\bar{P}_{i,\;k^*}||<\frac{\delta}{2} \end{split} $$ (37)

    根据式(34)与式(37), 通过矩阵三角不等式可知, $ ||P_{i,\;k^*}-P_{i}^*||<\delta $, $ ||K_{i,\;k^*}-K_{i}^*||<\delta $.

    接下来, 证明由算法1得到的次优控制策略能够实现量化通信下的协同最优输出调节. 令$ \tilde{\eta}_{i}(t)= \eta_{i}(t)-\omega(t) $, 由定理1可知, 在量化通信, 对外部系统状态的估计误差$ \mathop{\lim}\nolimits_{t \to \infty}\tilde{\eta}_{i}(t)=0 $. 对于$ \dot{\bar{x}}_{i}(t)= (A_{i}-B_{i}K^{*}_{i})\bar{x}_{i}(t)+B_{i}L^{*}_{i}\tilde{\eta}(t) $, 由于$ A_{i}- B_{i}K^{*}_{i} $是赫尔维玆的, $ \mathop{\lim}\nolimits_{t \to \infty}\tilde{\eta}_{i}(t)=0 $, 根据文献[39]引理$ 9.1 $, 可知$ \mathop{\lim}\nolimits_{t \to \infty}\bar{x}_{i}(t) = 0 $. 根据式(4b)可知$ e_{i}(t)= C\bar{x}_{i}(t) $, 因此$ \mathop{\lim}\nolimits_{t \to \infty}e_{i}(t)=0 $, 实现了多智能体系统的量化通信下协同最优输出调节.

    在本节中, 我们将算法1应用于智能车联网的纵向协同自适应巡航控制[3, 40]. 协同自适应巡航控制是一种基于无线通信的智能自动驾驶策略, 车辆的通信拓扑如图 3所示, 外部系统仅可被车辆$ \#1 $直接访问.

    图 3  车辆通信拓扑图
    Fig. 3  Vehicular platoon communication topology

    利用以下模型对第$ i\;(i=1,\;2,\;3,\;4) $辆车进行建模:

    $$ \begin{split} x_{i}&=\upsilon_{i}\;\\ \dot{\upsilon}_{i}&=a_{i}\;\\ \dot{a}_{i}&=\sigma^{-1}_{i}a_{i}+\sigma^{-1}_{i}u_{i}+d_{i}\; \end{split} $$ (38)

    其中, $ x_{i} $, $ \upsilon_{i} $, $ a_{i} $, $ \sigma_{i} $分别为车辆$ \#i $发动机的位置、速度、加速度和时间常数. 常数$ d_{i} $是机械阻力与$ \sigma_{i} $和车辆$ \#i $质量的乘积之比. $ \sigma_{i} $与$ d_{i} $的值与文献[3]相同.

    车辆$ \#i $的参考轨迹$ x^{*}_{i} $和干扰信号$ d_{i} $均由以下外部系统产生

    $$ \begin{split}& \dot{\omega}_{1}=0.7\omega_{2}\;\\& \dot{\omega}_{2}=-0.7\omega_{1}\;\\& \dot{d_{i}}=d_{i}\omega_{2}\;\\& x^{*}_{i}=-5\omega_{1}-10(i+1)\omega_{2}\; \end{split} $$ (39)

    外部系统状态的初值为$ \omega(t)=[\omega_{1}(t)\; \; \; \omega_{2}(t)]= [0\; \; \; 1]^{{\mathrm{T}}} $.

    接下来, 对量化通信下的智能车联网系统进行仿真. 其中观测器参数$ \alpha=10 $, 调节函数$ s(k) $的初值为$ s(0)=0.05 $, 参数$ \mu=0.8 $. 外部系统状态估计误差$ \tilde{\eta}_{i}(t) $的收敛性如图 4所示.

    图 4  量化通信下外部系统状态估计误差$\tilde{\eta}_{i}(t)$的轨迹
    Fig. 4  The trajectory of the exosystem state estimation error $\tilde{\eta}_{i}(t)$ under quantized communication

    图 4可知, 选择的参数$ \alpha $能够保证$ \tilde{\eta}_{i}(t) $足够小, 当$ t>30 $s时, $ \tilde{\eta}_{i}(t)<10^{-6} $.

    当$ t<10 $s时, 我们应用初始控制策略$ u_{i0}= -K_{i0}x_{i}+\xi_{i} $, 其中探测噪声$ \xi_{i} $为不同频率的正弦信号的总和. 根据算法1迭代学习到控制增益$ K_{i,\;k} $和值$ P_{i,\;k} $, 其中每辆车的值$ P_{i,\;k} $与基于模型情况下得到的最优值$ P_{i}^{*} $的比较结果如图 5所示.

    图 5  每辆车$P_{i,\;k}$与最优解$P_{i}^{*}$的比较
    Fig. 5  Comparisons of $P_{i,\;k}$ and the optimal solution $ P_{i}^{*}$ of each vehicle

    图 5可知, 当迭代次数$ k=9 $时, $ P_{i,\;k} $能够收敛到最优解$ P_{i}^{*} $. 也就是说, 经过9次迭代之后, 所有车辆均能学习到最优控制值.

    当$ t=10 $s时, 通过学习到的最优控制增益$ (K_{i,\;k^*},\; P_{i,\;k^*}) $更新次优控制策略(3)并应用于智能车联网系统, 其实际轨迹$ x_{i} $与参考轨迹$ x^{*}_{i} $的跟踪情况如图 6所示. 仿真结果表明, 所有的车辆均能实现对参考轨迹的跟踪.

    图 6  智能互联自动驾驶车辆的实际轨迹$x_{i}$与参考轨迹$x^{*}_{i}$
    Fig. 6  Actual trajectories $x_{i}$ of connected and autonomous vehicles and their references $x^{*}_{i}$

    若当$ t=10 $s时, 不采用更新后的次优控制策略(3), 而是继续使用初始控制策略, 则初始控制策略控制下的智能车联网系统的实际轨迹$ x_{i} $与参考轨迹$ x^{*}_{i} $的跟踪情况如图 7所示. 从图 6图 7的对比可知, 通过算法1得到的次优控制策略能够实现车联网自动驾驶车辆在有干扰情况下对参考轨迹的跟踪.

    图 7  初始控制策略下智能互联自动驾驶车辆的实际轨迹$x_{i}$与参考轨迹$x^{*}_{i}$
    Fig. 7  Actual trajectories $x_{i}$ of intelligent connected and autonomous vehicles and their references $x^{*}_{i}$ under the initial control strategy

    接下来, 通过表 1比较量化通信对车辆间通信传输比特数的影响.

    表 1  达到$ ||P_{i,\;k}-P_{i}^{*}||<10^{-4} $有无量化通信传输的比特数
    Table 1  Transmitted bits with and without quantized communication to reach $ ||P_{i,\;k}-P_{i}^{*}||<10^{-4} $
    算法1下传输的比特数 无量化通信传输的比特数[3] 降低百分比
    80000 192000 58.33%
    下载: 导出CSV 
    | 显示表格

    表 1可知, 量化通信下只需要传输较少的比特数就能够达到特定的收敛误差, 量化通信下降低了$ 58.33\% $比特.

    本文研究量化通信下系统动态未知的连续时间多智能体系统的协同最优输出调节问题. 通过引入均匀量化器与编码−解码方案, 设计一种基于采样和量化数据的分布式协议, 用于观测外部系统状态, 在保证外部系统状态估计误差收敛的同时, 降低多智能体间的通信负担. 针对一类具有不确定系统动态的多智能体系统, 设计一种自适应动态规划方法, 用于多智能体系统的协同最优输出调节. 理论分析和在智能车联网自适应巡航控制系统上的仿真验证表明, 模型未知的多智能体系统能够在量化通信下实现渐近跟踪与干扰抑制. 我们未来的研究将考虑在有限带宽通信约束下, 针对外部系统状态与系统矩阵全部未知的非线性多智能体系统设计自适应最优控制策略.

  • 图  1  基于PL的CV应用概述

    Fig.  1  Overview of CV applications based on PL

    图  2  NLP中的提示流程

    Fig.  2  The prompting process in NLP

    图  3  文本提示((a)基于手工设计的文本提示; (b)连续提示; (c)基于梯度引导的文本提示; (d)基于视觉映射到语言空间的提示; (e)基于图像引导的文本提示; (f)基于伪标签的文本提示; (g)基于多任务的文本提示)

    Fig.  3  Text prompts((a)Text prompt based on hand-crafted; (b)Continuous prompt; (c)Text prompt based on gradient guidance; (d)Prompt based on the mapping from vision to the language space; (e)Text prompt based on image guidance; (f)Text prompt based on pseudo-labels; (g)Text prompt based on multi-tasking)

    图  4  视觉提示((a)基于像素扰动的视觉提示; (b)基于提示tokens的视觉提示; (c)基于提示模块的视觉提示; (d)基于上下文样例模板的视觉提示; (e)基于网络结构搜索的视觉提示)

    Fig.  4  Visual prompts ((a) Pixel perturbation-based visual prompt; (b) Prompt tokens-based visual prompt; (c) Prompt module-based visual prompt; (d) Contextual example template-based visual prompt; (e) Network architecture search-based visual prompt)

    图  5  在视觉—语言模型上引入视觉—语言联合提示的四种方法对比((a)独立训练两种模态的提示; (b)共享地训练两种模态的提示; (c)使用两个MLP层来生成提示; (d)使用一个轻量级的自注意力网络来生成提示)

    Fig.  5  Comparison of four methods for introducing vision-language joint prompts in vision-language models ((a) Independently train the prompts of the two modalities; (b) Train the prompts of two modalities in a shared manner; (c) Utilizing two MLP layers to generate prompts; (d) Employing a lightweight self-attention network to generate prompts)

    图  6  图像识别中的视觉提示方法((a)基于像素扰动提示的DAM-VP; (b)基于提示tokens的VQT)

    Fig.  6  Visual prompt methods in image recognition ((a) DAM-VP based on pixel perturbation prompts; (b) VQT based on prompt tokens)

    图  7  基于视觉—语言联合提示的MaPLe图像分类框架

    Fig.  7  Vision-language joint prompts-based MaPLe image classification framework

    图  8  SAM方法流程图

    Fig.  8  Flowchart of the SAM method

    图  9  基于CLIP的OVD框架((a)在CLIP的文本编码器端引入文本提示; (b)在CLIP的图像编码器端引入提示tokens)

    Fig.  9  CLIP-based OVD framework ((a) Introducing text prompts at the text encoder side of CLIP; (b) Introducing prompt tokens at the image encoder side of CLIP)

    图  10  CLIPCap图像描述任务框架

    Fig.  10  Image caption task framework of CLIPCap

    图  11  ViPT方法流程图

    Fig.  11  Flowchart of the ViPT method

    图  12  基于手工设计的文本提示的FEWVLM模型结构

    Fig.  12  FEWVLM model structure based on hand-crafted text prompts

    表  1  CV领域视觉与多模态基础大模型及其参数量

    Table  1  Vision and multimodal foundational large models in CV with their parameter size

    模型 视觉 多模态
    DERT Vision Transformer DINOv2 LVM CLIP SAM MiniGPT-4 LLaVA Yi-VL
    年份 2020 2021 2023 2023 2021 2023 2023 2023 2024
    参数量 40M 86M$ \sim $632M 1.1B 300M$ \sim $3B 400M$ \sim $1.6B 1B 13B 7B$ \sim $13B 6B$ \sim $34B
    下载: 导出CSV

    表  2  图像分类任务中提示方法和非提示方法的性能对比(加粗表示性能最优, 下划线表示性能次优)

    Table  2  In the task of image classification, a comparison of the performance between prompted and unprompted methods is presented (Bold indicates the best performance and underline indicates the second-best performance)

    预训练模型 ViT-B-22K Swin-B-22K
    方法 非PL方法 PL方法 非PL方法 PL方法
    全面微调 (%) 线性探测 (%) VP (%) VPT (%) DAM-VP (%) 全面微调 (%) 线性探测 (%) VP (%) VPT (%) DAM-VP (%)
    CIFAR10 97.4 96.3 94.2 96.83 97.3 98.3 96.3 94.8 96.9 97.3
    CIFAR100 68.9 63.4 78.7 78.8 88.1 73.3 61.6 80.6 80.5 88.1
    Food-101 84.9 84.4 80.5 83.3 86.9 91.7 88.2 83.4 90.1 90.5
    DTD 64.3 63.2 59.5 65.8 73.1 72.4 73.6 75.1 78.5 80.0
    SVHN 87.4 36.6 87.6 78.1 87.9 91.2 43.5 80.3 87.8 81.7
    CUB-200 87.3 85.3 84.6 88.5 87.5 89.7 88.6 86.5 90.0 90.4
    Stanford Dogs 89.4 86.2 84.5 90.2 92.3 86.2 85.9 81.3 84.8 88.5
    Flowers102 98.8 97.9 97.7 99.0 99.2 98.3 99.4 98.6 99.3 99.6
    下载: 导出CSV

    表  3  从基类到新类的泛化设置下CLIP、CoOp、CoCoOp和MaPLe的对比(HM代表对基类和新类的准确率取调和平均值, 加粗表示性能最优)

    Table  3  Comparison of CLIP, CoOp, CoCoOp and MaPLe under the generalization setting from base class to new class (HM denotes the harmonic mean of the accuracies on both base and new classes, bold indicates the best performance)

    数据集 CLIP CoOp) CoCoOp MaPLe
    Base (%) New (%) HM (%) Base (%) New (%) HM (%) Base (%) New (%) HM (%) Base (%) New (%) HM (%)
    ImageNet 72.43 68.14 70.22 76.47 67.88 71.92 75.98 70.43 73.10 76.66 70.54 73.47
    Caltech101 96.84 94.00 95.40 98.00 89.81 93.73 97.96 93.81 95.84 97.74 94.36 96.02
    OxfordPets 91.17 97.26 94.12 93.67 95.29 94.47 95.20 97.69 96.43 95.43 97.76 96.58
    StanfordCars 63.37 74.89 68.65 78.12 60.40 68.13 70.49 73.59 72.01 72.94 74.00 73.47
    Flowers102 72.08 77.80 74.83 97.60 59.67 74.06 94.87 71.75 81.71 95.92 72.46 82.56
    Food-101 90.10 91.22 90.66 88.33 82.26 85.19 90.70 91.29 90.99 90.71 92.05 91.38
    FGVCAircraft 27.19 36.29 31.09 40.44 22.30 28.75 33.41 23.71 27.74 37.44 35.61 36.50
    SUN397 69.36 75.35 72.23 80.60 65.89 72.51 79.74 76.86 78.27 80.82 78.70 79.75
    DTD 53.24 59.90 56.37 79.44 41.18 54.24 77.01 56.00 64.85 80.36 59.18 68.16
    EuroSAT 56.48 64.05 60.03 92.19 54.74 68.69 87.49 60.04 71.21 94.07 73.23 82.35
    UCF101 70.53 77.50 73.85 84.69 56.05 67.46 82.33 73.45 77.64 83.00 78.66 80.77
    平均值 69.34 74.22 71.10 82.69 63.22 71.66 80.47 71.69 75.83 82.28 75.14 78.55
    下载: 导出CSV

    表  4  ADE20K数据集上提示方法和非提示方法的语义分割性能对比(加粗表示性能最优, 下划线表示性能次优

    Table  4  Comparison of semantic segmentation performance on the ADE20K dataset between prompted and unprompted methods (Bold indicates the best performance and underline indicates the second-best performance)

    评价指标 参数量(M) mIoU(%)
    PL方法SPM14.945.05
    VPT13.3942.11
    AdaptFormer16.3144.00
    SAM53.0
    EfficientSAM51.8
    非PL方法fully tuning317.2947.53
    head tuning13.1437.77
    下载: 导出CSV

    表  5  COCO数据集上提示方法和非提示方法的实例分割性能对比(加粗表示性能最优, 下划线表示性能次优)

    Table  5  Comparison of instance segmentation performance on the COCO dataset between prompted and unprompted methods (Bold indicates the best performance and underline indicates the second-best performance)

    评价指标 mAP(%)
    PL方法SAM46.8
    EfficientSAM44.4
    HQ-SAM 49.5
    PA-SAM49.9
    非PL方法Mask2Former43.7
    OneFormer45.6
    下载: 导出CSV

    表  6  多模态跟踪任务中提示方法和非提示方法的性能对比(加粗表示性能最优, 下划线表示性能次优)

    Table  6  Performance comparison between prompted and unprompted methods in multimodal tracking tasks (Bold indicates the best performance and underline indicates the second-best performance)

    数据集 RGBT234 LasHeR
    评价指标 precision (%) success (%) precision (%) success (%)
    PL
    方法
    TaTrack 87.2 64.4 85.3 61.8
    MPLT 88.4 65.7 72.0 57.1
    ViPT 83.5 61.7 65.1 52.5
    ProTrack 79.5 59.9 53.8 42.0
    非PL
    方法
    OsTrack 72.9 54.9 51.5 41.2
    FANet 78.7 55.3 44.1 30.9
    SGT 72.0 47.2 36.5 25.1
    下载: 导出CSV
  • [1] Xu M, Yin W, Cai D, Yi R, Xu D, Wang Q, et al. A survey of resource-efficient llm and multimodal foundation models. arXiv preprint arXiv: 2401.08092, 2024.
    [2] Zhou J, Chen Y, Hong Z, Chen W, Yu Y, Zhang T, et al. Training and Serving System of Foundation Models: A Comprehensive Survey. IEEE Open Journal of the Computer Society, DOI: 10.1109/OJCS.2024.3380828
    [3] Liu Z, Yu X, Fang Y, Zhang X. Graphprompt: Unifying pre-training and downstream tasks for graph neural networks. In: Proceedings of the ACM Web Conference. Austin, USA: 2023. 417-428
    [4] Liu P, Yuan W, Fu J, Jiang Z, Hayashi H, Neubig G. Pre-train, prompt, and predict: A systematic survey of prompting methods in natural language processing. ACM Computing Surveys, 2023, 55(9): 1−35
    [5] Oquab M, Darcet T, Moutakanni T, Vo H, Szafraniec M, Khalidov V, Fernandez P, Haziza D, Massa F, El-Nouby A. Dinov2: Learning robust visual features without supervision. arXiv preprint arXiv: 230407193, 2023.
    [6] Radford A, Kim J W, Hallacy C, Ramesh A, Goh G, Agarwal S, et al. Learning transferable visual models from natural language supervision. In: Proceedings of the International Conference on Machine Learning. Virtual Event: PMLR, 2021. 8748-8763
    [7] Kirillov A, Mintun E, Ravi N, Mao H, Rolland C, Gustafson L, et al. Segment Anything. In: Proceeding of 2023 IEEE/CVF International Conference on Computer Vision (ICCV). Paris, France: IEEE, 2023. 3992-4003
    [8] 廖宁, 曹敏, 严骏驰. 视觉提示学习综述. 计算机学报, 2024, 47(04): 790−820

    Liao Ning, Cao Min, Yan Jun-Chi. Visual prompt learning: a survey. Chinese Journal of Computers, 2024, 47(04): 790−820
    [9] Zang Y, Li W, Zhou K, Huang C, Loy C C. Unified vision and language prompt learning. arXiv: 2210.07225, 2022
    [10] Khattak M U, Rasheed H, Maaz M, Khan S, Khan F S. Maple: Multi-modal prompt learning. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver, BC, Canada: IEEE, 2023. 19113-19122
    [11] Chen S, Ge C, Tong Z, Wang J, Song Y, Wang J, et al. Adaptformer: Adapting vision transformers for scalable visual recognition. arXiv: 2205.13535, 2022
    [12] Deng J, Dong W, Socher R, Li L J, Li K, Fei-Fei L. Imagenet: A large-scale hierarchical image database. 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, FL, USA: IEEE, 2009. 248-255
    [13] Zhou K, Yang J, Loy C C, Liu Z. Learning to prompt for vision-language models. International Journal of Computer Vision, 2022, 130(9): 2337−2348 doi: 10.1007/s11263-022-01653-1
    [14] Zhou K, Yang J, Loy C C, Liu Z. Conditional prompt learning for vision-language models. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans, LA, USA: IEEE, 2022. 16816-16825
    [15] Derakhshani M M, Sanchez E, Bulat A, da Costa V G, Snoek C G, Tzimiropoulos G, et al. Bayesian prompt learning for image-language model generalization. In: Proceedings of the IEEE/CVF International Conference on Computer Vision. Vancouver, BC, Canada: IEEE, 2023. 15237-15246
    [16] Yao H, Zhang R, Xu C. Visual-language prompt tuning with knowledge-guided context optimization. In: Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. Vancouver, BC, Canada: IEEE, 2023. 6757-6767
    [17] Bulat A, Tzimiropoulos G. Lasp: Text-to-text optimization for language-aware soft prompting of vision & language models. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver, BC, Canada: IEEE, 2023. 23232-23241
    [18] Zhu B, Niu Y, Han Y, Wu Y, Zhang H. Prompt-aligned gradient for prompt tuning. In: Proceedings of the IEEE/CVF International Conference on Computer Vision. Paris, France: IEEE, 2023. 15659-15669
    [19] Huang T, Chu J, Wei F. Unsupervised prompt learning for vision-language models. arXiv preprint arXiv: 2204.03649, 2022.
    [20] Shen S, Yang S, Zhang T, Zhai B, Gonzalez J E, Keutzer K, Darrell T. Multitask vision-language prompt tuning. In: Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. Waikoloa, HI, USA: IEEE, 2024. 5656-5667
    [21] Bahng H, Jahanian A, Sankaranarayanan S, Isola P. Exploring visual prompts for adapting large-scale models. arXiv preprint arXiv: 2203.17274, 2022.
    [22] Chen A, Yao Y, Chen P Y, Zhang Y, Liu S. Understanding and improving visual prompting: A label-mapping perspective. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver, BC, Canada: IEEE, 2023. 19133-19143
    [23] Oh C, Hwang H, Lee H Y, Lim Y, Jung G, Jung J, Choi H, Song K. Blackvip: Black-box visual prompting for robust transfer learning. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver, BC, Canada: IEEE, 2023. 24224-24235
    [24] Huang Q, Dong X, Chen D, Zhang W, Wang F, Hua G, Yu N. Diversity-aware meta visual prompting. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver, BC, Canada: IEEE, 2023. 10878-10887
    [25] Jia M, Tang L, Chen B C, Cardie C, Belongie S, Hariharan B, et al. Visual prompt tuning. In: Proceedings of the European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022. 709-727
    [26] Tu C H, Mai Z, Chao W L. Visual query tuning: Towards effective usage of intermediate representations for parameter and memory efficient transfer learning. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver, BC, Canada: IEEE, 2023. 7725-7735
    [27] Das R, Dukler Y, Ravichandran A, Swaminathan A. Learning expressive prompting with residuals for vision transformers. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver, BC, Canada: IEEE, 2023. 3366-3377
    [28] Dong B, Zhou P, Yan S, Zuo W. LPT: long-tailed prompt tuning for image classification. In: Proceedings of The Eleventh International Conference on Learning Representations. Kigali, Rwanda: ICLR, 2023. 1-20
    [29] Zhang Y, Zhou K, Liu Z. Neural prompt search. IEEE Transactions on Pattern Analysis and Machine Intelligence, DOI: 10.48550/arXiv.2206.04673
    [30] Hu EJ, Shen Y, Wallis P, Allen-Zhu Z, Li Y, Wang S, et al. Lora: Low-rank adaptation of large language models. arXiv preprint arXiv: 2106.09685, 2021.
    [31] Houlsby N, Giurgiu A, Jastrzebski S, Morrone B, De Laroussilhe Q, Gesmundo A, et al. Parameter-efficient transfer learning for NLP. In: Proceedings of the International Conference on Machine Learning. Long Beach, CA, USA: PMLR, 2019. 2790-2799
    [32] Nilsback M E, Zisserman A. Automated flower classification over a large number of classes. In: Proceedings of the Sixth Indian Conference on Computer Vision, Graphics & Image Processing. Bhubaneswar, India: IEEE, 2008. 722-729
    [33] Helber P, Bischke B, Dengel A, Borth D. Eurosat: A novel dataset and deep learning benchmark for land use and land cover classification. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2019, 12(7): 2217−26 doi: 10.1109/JSTARS.2019.2918242
    [34] Fahes M, Vu T H, Bursuc A, Pérez P, De Charette R. Poda: Prompt-driven zero-shot domain adaptation. In: Proceedings of the IEEE/CVF International Conference on Computer Vision. Vancouver, BC, Canada: IEEE, 2023. 18623-18633
    [35] Liu L, Chang J, Yu BX, Lin L, Tian Q, Chen C W. Prompt-matched semantic segmentation. arXiv preprint arXiv: 2208.10159, 2022.
    [36] Liu W, Shen X, Pun C M, Cun X. Explicit visual prompting for low-level structure segmentations. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver, BC, Canada: IEEE, 2023. 19434-19445
    [37] Bar A, Gandelsman Y, Darrell T, Globerson A, Efros A. Visual prompting via image inpainting. arXiv: 2209. 00647, 2022.
    [38] Ma X, Wang Y, Liu H, Guo T, Wang Y. When visual prompt tuning meets source-free domain adaptive semantic segmentation. Advances in Neural Information Processing Systems, 2023, 36: 6690−6702
    [39] Zhao X, Ding W, An Y, Du Y, Yu T, Li M, et al. Fast segment anything. arXiv preprint arXiv: 2306.12156, 2023.
    [40] Zhang C, Han D, Qiao Y, Kim J U, Bae S H, Lee S, et al. Faster segment anything: Towards lightweight sam for mobile applications. arXiv preprint arXiv: 2306.14289, 2023.
    [41] Xiong Y, Varadarajan B, Wu L, Xiang X, Xiao F, Zhu C, et al. Efficientsam: Leveraged masked image pretraining for efficient segment anything. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, WA, USA: IEEE, 2024. 16111-16121
    [42] Ke L, Ye M, Danelljan M, Tai Y W, Tang C K, Yu F. Segment anything in high quality. Advances in Neural Information Processing Systems. arXiv: 2306. 01567, 2024.
    [43] Xie Z, Guan B, Jiang W, Yi M, Ding Y, Lu H, et al. PA-SAM: Prompt Adapter SAM for High-Quality Image Segmentation. arXiv preprint arXiv: 2401.13051, 2024.
    [44] Wang X, Zhang X, Cao Y, Wang W, Shen C, Huang T. Seggpt: Segmenting everything in context. arXiv preprint arXiv: 2304.03284, 2023.
    [45] Ren T, Liu S, Zeng A, Lin J, Li K, Cao H, et al. Grounded sam: Assembling open-world models for diverse visual tasks. arXiv preprint arXiv: 2401.14159, 2024.
    [46] Zou X, Yang J, Zhang H, Li F, Li L, Wang J, et al. Segment everything everywhere all at once. In: Proceedings of the 37th Conference on Neural Information Processing Systems. New Orleans, LA, USA: NeurIPS. 2023. 19769-19782.
    [47] Gu X, Lin T Y, Kuo W, Cui Y. Open-vocabulary object detection via vision and language knowledge distillation. arXiv preprint arXiv: 2104.13921, 2021.
    [48] Du Y, Wei F, Zhang Z, Shi M, Gao Y, Li G. Learning to prompt for open-vocabulary object detection with vision-language model. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans, LA, USA: IEEE, 2022. 14084-14093
    [49] Wu X, Zhu F, Zhao R, Li H. Cora: Adapting CLIP for open-vocabulary detection with region prompting and anchor pre-matching. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver, BC, Canada: IEEE, 2023. 7031-7040
    [50] Ju C, Han T, Zheng K, Zhang Y, Xie W. Prompting visual-language models for efficient video understanding. European Conference on Computer Vision. Tel Aviv, Israel: Springer Nature Switzerland, 2022. 105-124
    [51] Wang M, Xing J, Liu Y. Actionclip: A new paradigm for video action recognition. arXiv preprint arXiv: 2109.08472, 2021.
    [52] Mokady R, Hertz A, Bermano A H. Clipcap: Clip prefix for image captioning. arXiv preprint arXiv: 2111.09734, 2021.
    [53] Tewel Y, Shalev Y, Schwartz I, Wolf L. Zerocap: Zero-shot image-to-text generation for visual-semantic arithmetic. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans, USA: IEEE, 2022. 17918-17928
    [54] Su Y, Lan T, Liu Y, Liu F, Yogatama D, Wang Y, et al. Language models can see: Plugging visual controls in text g eneration. arXiv preprint arXiv: 2205.02655, 2022.
    [55] Wang N, Xie J, Wu J, Jia M, Li L. Controllable image captioning via prompting. In: Proceedings of the AAAI Conference on Artificial Intelligence. Washington, DC, USA: AAAI Press, 2023. 2617-2625
    [56] Yang J, Li Z, Zheng F, Leonardis A, Song J. Prompting for multi-modal tracking. In: Proceedings of the 30th ACM International Conference on Multimedia. Lisbon, Portugal: Association for Computing Machinery, 2022. 3492-3500
    [57] Zhu J, Lai S, Chen X, Wang D, Lu H. Visual prompt multi-modal tracking. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver, BC, Canada: IEEE, 2023. 9516-9526
    [58] He K, Zhang C, Xie S, Li Z, Wang Z. Target-aware tracking with long-term context attention. In: Proceedings of the AAAI Conference on Artificial Intelligence. Washington, DC, USA: AAAI Press, 2023. 773-780
    [59] Luo Y, Guo X, Feng H, Ao L. RGB-T Tracking via Multi-Modal Mutual Prompt Learning. arXiv preprint arXiv: 2308.16386, 2023.
    [60] Tsimpoukelli M, Menick J L, Cabi S, Eslami S M, Vinyals O, Hill F. Multimodal few-shot learning with frozen language models. Advances in Neural Information Processing Systems, 2021, 34: 200−12
    [61] Yang Z, Gan Z, Wang J, Hu X, Lu Y, Liu Z, et al. An empirical study of GPT-3 for few-shot knowledge-based VQA. In: Proceedings of the AAAI Conference on Artificial Intelligence. Virtual Event: AAAI Press, 2022. 3081-3089
    [62] Jin W, Cheng Y, Shen Y, Chen W, Ren X. A good prompt is worth millions of parameters: Low-resource prompt-based learning for vision-language models. arXiv preprint arXiv: 2110.08484, 2021.
    [63] Wang A J, Zhou P, Shou M Z, Yan S. Enhancing visual grounding in vision-language pre-training with position-guided text prompts. IEEE Transactions on Pattern Analysis and Machine Intelligence, DOI: 10.1109/TPAMI.2023.3343736
    [64] Wu W, Liu T, Wang Y, Xu K, Yin Q, Hu Y. Dynamic multi-modal prompting for efficient visual grounding. In: Proceedings of the 6th Chinese Conference on Pattern Recognition and Computer Vision. Xiamen, China: Springer-Verlag, 2023. 359-371
    [65] Hegde D, Valanarasu J M, Patel V. CLIP goes 3D: leveraging prompt tuning for language grounded 3D recognition. In: Proceedings of the IEEE/CVF International Conference on Computer Vision. Paris, France: IEEE, 2023. 2028-2038
    [66] Zhu X, Zhang R, He B, Guo Z, Zeng Z, Qin Z, et al. Pointclip v2: Prompting clip and gpt for powerful 3d open-world learning. In: Proceedings of the IEEE/CVF International Conference on Computer Vision. Paris, France: IEEE, 2023. 2639-2650
    [67] Bar-Tal O, Ofri-Amar D, Fridman R, Kasten Y, Dekel T. Text2live: Text-driven layered image and video editing. In: Proceedings of the European Conference on Computer Vision. Cham, Switzerland: Springer Nature, 2022. 707-723
    [68] Krizhevsky A. Learning Multiple Layers of Features from Tiny Images [Master's thesis], University of Toronto, Canada, 2009
    [69] Bossard L, Guillaumin M, Van G L. Food-101: Mining discriminative components with random forests. In: Proceedings of the European Conference on Computer Vision. Zurich, Switzerland: Springer International Publishing, 2014. 446-461
    [70] Cimpoi M, Maji S, Kokkinos I, Mohamed S, Vedaldi A. Describing textures in the wild. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Columbus, Ohio, USA: IEEE, 2014. 3606-3613
    [71] Netzer Y, Wang T, Coates A, Bissacco A, Wu B, Ng A Y. Reading digits in natural images with unsupervised feature learning. In: Proceedings of the NIPS Workshop on Deep Learning and Unsupervised Feature Learning. Granada, Spain: NIPS, 2011. 4
    [72] Wah C, Branson S, Welinder P, Perona P, Belongie S. The caltech-ucsd birds-200-2011 dataset, Technical Report CNS-TR-2011-001, California Institute of Technology, USA, 2011.
    [73] Khosla A, Jayadevaprakash N, Yao B, Fei-Fei L. Novel dataset for fine-grained image categorization. In: Proceedings of the First Workshop on Fine-Grained Visual Categorization, IEEE Conference on Computer Vision and Pattern Recognition. Colorado Springs, CO, USA: IEEE, 2011
    [74] Fei-Fei L, Fergus R, Perona P. Learning generative visual models from few training examples: An incremental Bayesian approach tested on 101 object categories. In: Proceedings of the 2004 Conference on Computer Vision and Pattern Recognition Workshop. Washington, DC, USA: IEEE, 2004. 178-178
    [75] Parkhi O M, Vedaldi A, Zisserman A, Jawahar C V. Cats and dogs. In: Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI, USA: IEEE, 2012. 3498-3505
    [76] Krause J, Stark M, Deng J, Fei-Fei L. 3d object representations for fine-grained categorization. In: Proceedings of the IEEE International Conference on Computer Vision Workshops. Sydney, Australia: IEEE, 2013. 554-561
    [77] Maji S, Rahtu E, Kannala J, Blaschko M, Vedaldi A. Fine-grained visual classification of aircraft. arXiv preprint arXiv: 1306.5151, 2013.
    [78] Xiao J, Hays J, Ehinger K A, Oliva A, Torralba A. SUN database: Large-scale scene recognition from abbey to zoo. In: Proceedings of the 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco, CA, USA: IEEE, 2010. 3485-3492
    [79] Soomro K, Zamir A, Shah M. UCF101: A dataset of 101 human actions classes from videos in the wild. arXiv: 1212.0402, 2012.
    [80] Cheng B, Misra I, Schwing A G, Kirillov A, Girdhar R. Masked-attention mask transformer for universal image segmentation. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans, LA, USA: IEEE, 2022. 1290-1299
    [81] Jain J, Li J, Chiu MT, Hassani A, Orlov N, Shi H. OneFormer: One Transformer to Rule Universal Image Segmentation. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver, BC, Canada: IEEE, 2023. 2989-2998
    [82] Zhou B, Zhao H, Puig X, Fidler S, Barriuso A, Torralba A. Scene parsing through ADE20K dataset. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017. 633-641
    [83] Lin T Y, Maire M, Belongie S, Hays J, Perona P, Ramanan D, et al. Microsoft COCO: Common objects in context. In: Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland: Springer International Publishing, 2014. 740-755
    [84] Xiao Y, Yang M, Li C, Liu L, Tang J. Attribute-based progressive fusion network for RGBT tracking. In: Proceedings of the AAAI Conference on Artificial Intelligence. Virtual Event: AAAI Press, 2022. 2831-2838
    [85] Li C, Xue W, Jia Y, Qu Z, Luo B, Tang J, et al. LasHeR: A large-scale high-diversity benchmark for RGBT tracking. arXiv: 2104.13202, 2021.
  • 加载中
计量
  • 文章访问数:  46
  • HTML全文浏览量:  43
  • 被引次数: 0
出版历程
  • 收稿日期:  2024-04-04
  • 录用日期:  2024-08-27
  • 网络出版日期:  2025-03-20

目录

/

返回文章
返回