2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

视觉Transformer研究的关键问题: 现状及展望

田永林 王雨桐 王建功 王晓 王飞跃

孙超利, 李贞, 金耀初. 模型辅助的计算费时进化高维多目标优化. 自动化学报, 2022, 48(4): 1119−1128 doi: 10.16383/j.aas.c200969
引用本文: 田永林, 王雨桐, 王建功, 王晓, 王飞跃. 视觉Transformer研究的关键问题: 现状及展望. 自动化学报, 2022, 48(4): 957−979 doi: 10.16383/j.aas.c220027
Sun Chao-Li, Li Zhen, Jin Yao-Chu. Surrogate-assisted expensive evolutionary many-objective optimization. Acta Automatica Sinica, 2022, 48(4): 1119−1128 doi: 10.16383/j.aas.c200969
Citation: Tian Yong-Lin, Wang Yu-Tong, Wang Jian-Gong, Wang Xiao, Wang Fei-Yue. Key problems and progress of vision Transformers: The state of the art and prospects. Acta Automatica Sinica, 2022, 48(4): 957−979 doi: 10.16383/j.aas.c220027

视觉Transformer研究的关键问题: 现状及展望

doi: 10.16383/j.aas.c220027
基金项目: 广东省重点领域研发计划(2020B090921003), 广州市智能网联汽车重大科技专项(202007050002), 国家自然科学基金(U1811463), 英特尔智能网联汽车大学合作研究中心(ICRI-IACV)资助
详细信息
    作者简介:

    田永林:中国科学技术大学与中科院自动化研究所联合培养博士研究生. 2017年获得中国科学技术大学自动化系学士学位. 主要研究方向为计算机视觉, 智能交通. E-mail: tyldyx@mail.ustc.edu.cn

    王雨桐:中国科学院自动化研究所复杂系统管理与控制国家重点实验室助理研究员. 2021年获得中国科学院大学控制理论与控制工程专业博士学位. 主要研究方向为深度学习中的对抗攻击与防御. E-mail: yutong.wang@ia.ac.cn

    王建功:中国科学院自动化研究所博士研究生. 2018年获得同济大学学士学位. 主要研究方向为计算机视觉, 交通场景理解, 医学图像处理. E-mail: wangjiangong2018@ia.ac.cn

    王晓:中国科学院自动化研究所复杂系统管理与控制国家重点实验室副研究员, 青岛智能产业技术研究院院长. 2016年获得中国科学院大学社会计算博士学位. 主要研究方向为社会交通, 动态网群组织, 平行智能和社交网络分析. E-mail: x.wang@ia.ac.cn

    王飞跃:中国科学院自动化研究所复杂系统管理与控制国家重点实验室研究员.主要研究方向为智能系统和复杂系统的建模、分析与控制. 本文通信作者. E-mail: feiyue.wang@ia.ac.cn

Key Problems and Progress of Vision Transformers: The State of the Art and Prospects

Funds: Supported by Key-Area Research and Development Program of Guangdong Province (2020B090921003), Key Research and Development Program of Guangzhou (202007050002), National Natural Science Foundation of China (U1811463) and Intel Collaborative Research Institute for Intelligent and Automated Connected Vehicles (ICRI-IACV)
More Information
    Author Bio:

    TIAN Yong-Lin Ph. D. candidate in the Department of Automation, University of Science and Technology of China and Institute of Automation, Chinese Academy of Sciences. He received his bachelor degree from University of Science and Technology of China in 2017. His research interest covers computer vision and intelligent transportation system

    WANG Yu-Tong Assistant professor at the State Key Laboratory for Management and Control of Complex Systems, Institute of Automation, Chinese Academy of Sciences. She received her Ph. D. degree in control theory and control engineering from University of Chinese Academy of Sciences in 2021. Her research interest covers computer vision and adversarial attack

    WANG Jian-Gong Ph. D. candidate at Institute of Automation, Chinese Academy of Sciences. He received his bachelor degree from Tongji University in 2018. His research interest covers computer vision, traffic scene understanding and medical image processing

    WANG Xiao Associate professor at the State Key Laboratory for Management and Control of Complex Systems, Institute of Automation, Chinese Academy of Sciences and the president of the Qingdao Academy of Intelligent Industries. She received her Ph. D. degree in social computing from University of Chinese Academy of Sciences in 2016. Her research interest covers social transportation, cybermovement organizations, parallel intelligence and social network analysis

    WANG Fei-Yue Professor at the State Key Laboratory for Management and Control of Complex Systems, Institute of Automation, Chinese Academy of Sciences. His research interest covers modeling, analysis, and control of intelligent systems and complex systems. Corresponding author of this paper

  • 摘要: Transformer所具备的长距离建模能力和并行计算能力使其在自然语言处理领域取得了巨大成功并逐步拓展至计算机视觉等领域. 本文以分类任务为切入, 介绍了典型视觉Transformer的基本原理和结构, 并分析了Transformer与卷积神经网络在连接范围、权重动态性和位置表示能力三方面的区别与联系; 同时围绕计算代价、性能提升、训练优化以及结构设计四个方面总结了视觉Transformer研究中的关键问题以及研究进展; 并提出了视觉Transformer的一般性框架; 然后针对检测和分割两个领域, 介绍了视觉Transformer在特征学习、结果产生和真值分配等方面给上层视觉模型设计带来的启发和改变; 并对视觉Transformer未来发展方向进行了展望.
  • 在复杂的工程优化问题中, 通常有多个目标需要同时优化, 而这些目标之间往往相互冲突和影响, 即一个目标的改善会导致至少一个其他目标的恶化, 这些问题被称为多目标优化问题[1]. 一般多目标优化问题[2]的数学模型可表示为:

    $$ \begin{split} &\text{min} \, \boldsymbol{F} (\boldsymbol{x}) = (f_1 (\boldsymbol{x}),f_2 (\boldsymbol{x}), \cdots, f_M (\boldsymbol{x})) \\ & \text{s.t.} \quad \boldsymbol{x} = (x_1, x_2, \cdots, x_D)^{\rm T }\in {\bf{R}}^D \end{split} $$ (1)

    其中, $ M $是目标个数, $ \boldsymbol{x} $$ D $维决策空间$ {\bf{R}}^D $中的一个决策向量. 在优化问题中, 进化算法(Evolutionary algorithm, EA)[3] 由于其不需要假设任何目标函数的凹凸性, 可微性或约束性, 且有更多的机会获得全局最优解, 因而获得了工业界和科学界的关注, 并且在实际工程中得到了很多应用. 求解多目标优化问题的进化算法(Multi-objective evolutionary algorithm, MOEA)[4]通常分为4大类: 1) 基于支配关系的进化多目标算法: 如快速非支配排序的遗传算法(Nondominated sorting genetic algorithm II, NSGA-II)[5-6]、提升强度的Pareto进化算法[7]; 2) 基于分解的进化多目标算法:如基于分解的多目标进化算法(Multiobjective evolutionary algorithm based on decomposition, MOEA/D)[8]、参考向量引导进化算法(Reference vector guided evolutionary algorithm, RVEA)[9]; 3) 基于指标的进化多目标算法:基于指标的进化算法[10]、基于超体积估计的算法[11]; 4) 其他算法:如基于分解和支配的高维多目标进化算法(Many-objective optimization algorithm based on dominance and decomposition, MOEA-DD)[12]、基于双目标优化的进化算法(Bi-goal evolution, BiGE)[13]. 然而, 不管哪一类现有的多目标优化进化算法, 在搜寻最优解集的过程中都需要耗费大量的性能评估次数, 而在许多实际的多目标优化问题中其目标函数的评价非常昂贵, 如: 航空发动机管路卡箍布局优化[14]中, 一台典型的航空发动机通常包含上百根管路, 而涉及计算一根管路震动频率的模拟函数评估可能需要大量的时间, 因此很大程度地限制了多目标进化算法在这类问题中的应用. 目前求解昂贵的多目标优化问题常用的方法之一是引入代理模型, 使用模型代替昂贵多目标计算的进化算法通常称为代理模型辅助的进化多目标算法(Surrogate-assisted evolutionary multi-objective optimization, SAEMO). 常见的求解多目标优化问题的SAEMO算法通常分为三类. 第1类是在多目标优化过程中直接用代理模型代替费时的目标函数计算来进行环境选择. 如Akhtar等[15]为每个目标建立一个径向基函数模型, 并提出用多个准则来选择具有代表性的点进行真实的目标函数评价. 如Zhang等[16]提出了高斯过程随机模型辅助的算法, 该算法对每个目标建立高斯过程模型, 基于分解策略将多目标问题转换成多个单目标优化问题, 根据个体每个目标的高斯过程模型估值计算切比雪夫函数值, 并利用获取函数进行环境选择. Chugh等[17]提出对每个目标函数建立高斯过程模型, 并通过目标函数估值的角度惩罚距离指标值和估值的不确定度来选择真实计算的个体, 称为克里金模型辅助 的RVEA算法(Kriging-assisted RVEA, K-RVEA). 为了提高计算费时多目标问题的优化 性能, Wang等[18]在为每个目标函数建立代理模型的基础上引入一种自适应获取函数指标, 从而提出了一种新的采样选择标准. Yang等[19]提出了离线数据驱动的多目标优化, 在进化算法中使用了粗代理模型和细代理模型两种模型, 粗代理模型用于引导算法快速地定位到较好的搜索空间, 同时细代理模型主要关注平衡粗代理模型知识迁移过来的好解. 文献[20]构建了一个正确模型和多个辅助模型作为多个优化问题, 然后利用多任务优化方法来求解这些问题, 实现了从辅助模型到正确模型的迁移. Zhao等[21]对多目标问题的每个目标建立了若干代理模型, 并基于目标空间和决策空间个体的距离提出了一种新的不确定度计算方法. 求解多目标优化问题的第2类SAEMO算法是对多目标问题的聚合函数建立代理模型, 即通过聚合函数将多目标转换为单目标, 对单目标建立代理模型, 从而辅助多目标优化. Knowles[22]基于求解单目标问题的有效全局优化算法(Efficient global optimization, EGO), 提出使用切比雪夫函数将多目标优化问题转换成单目标优化问题, 并对单目标问题建立高斯过程模型, 利用获取函数选择个体进行真实计算, 从而实现了基于EGO的Pareto面寻优算法 (Pareto optimization with the efficient global optimization, ParEGO). 代理模型辅助的多目标优化算法中第3类是根据支配关系训练分类模型, 将代理模型作为分类器辅助多目标优化算法. 如Pan等[23]引入人工神经网络来预测参考点与候选解之间的优劣关系来选择好的候选解进行真实计算, 为一种基于分类的代理模型辅助进化算法(A classification based surrogate-assisted evolutionary algorithm, CSEA). Zhang等[24]提出利用个体间的支配关系训练支持向量机分类模型来预测后代个体的质量, 从而选择好的个体作为下一个父代.

    虽然代理模型在单目标计算费时问题的优化中获得了较多关注, 但其在计算费时多目标优化问题中的应用还处于起步阶段, 目前还有很多亟待解决的问题.

    1) 模型的选择. 目前常见的代理模型有多项式回归模型[25], 径向基函数[26-27], 高斯过程[28], 人工神经网络[29]和支持向量机[30]等. 在进化过程中选择哪一种模型对目标函数进行估值会很大程度影响算法的寻优能力.

    2) 模型的用途选择. 通常情况下, 全局代理模型用于辅助提高算法的探索能力,局部代理模型用于辅助提高算法的开发能力. 而在多目标优化问题中, 由于有多个目标, 确定模型的用途更是进化多目标算法能否快速找到Pareto非支配解集的重要因素.

    3) 填充标准. 如何选择个体进行真实目标函数计算并且更新模型在代理模型辅助的单目标和多目标进化优化中起着至关重要的作用, 其选择的好坏会直接影响模型更新后的准确度.

    在SAEMO中, 模型估值的不确定度会影响算法的搜索方向, 从而影响算法的求解性能, 因此在优化过程中, 估值的不确定度往往和估值同时考虑. 与多项式回归、径向基函数和人工神经网络等模型相比, 高斯过程代理模型不仅能够提供个体估值, 同时还能提供估值的不确定度, 因此本文选择高斯过程模型用来作为原目标函数的估值模型, 并通过对高斯过程模型最优解集的搜索, 探索最优解集可能存在的不同领域, 从而提高算法的开发能力. 另外, 模型搜索获得的最优解集是原优化问题的潜在非支配解, 因此从中选择真实计算的个体能够加快算法对原问题的求解效率. 然而, 由于高斯过程的获取函数是针对单目标优化问题的建模提出来的, 随着目标数的增加, 对每个目标分别建立高斯过程模型时个体估值的不确定度会随之增大. 因此, 针对多目标优化问题, 考虑到个体的收敛性、种群的多样性以及估值的不确定性, 本文对高斯过程模型的期望提高(Expected improvement, EI)获取函数进行了改进. 使用角度惩罚距离函数值作为个体的收敛性指标, 所有目标估值的不确定度均值作为个体的估值不确定度, 从而使算法在选择个体进行真实计算时在开发和开采能力上达到平衡.

    本文主要贡献包含以下两个方面:

    1) 通过对模型最优解集的搜索提高算法的开发能力, 使其能够引导种群向具有较好目标函数值的区域进化, 并从获得的最优解集中选择个体进行真实的目标函数评价, 从而加快收敛速度.

    2) 考虑个体的收敛性、种群的多样性以及估值的不确定性, 针对计算费时多目标优化问题提出一种新的填充准则.

    高斯过程(Gaussian process, GP)是基于统计理论提出的机器学习方法[28], 其性质由均值函数$ \mu(\boldsymbol{x}) $和协方差函数$ k(\boldsymbol{x}_i,\boldsymbol{x}_j) $唯一确定,

    $$ \mathbf{\mu}(\boldsymbol{x}) = {\rm{E}}[f(\boldsymbol{x})] $$ (2)
    $$ k(\boldsymbol{x}_i,\boldsymbol{x}_j) = {\rm{E}}[(f(\boldsymbol{x_i})-\mu(\boldsymbol{x_i}))(f(\boldsymbol{x}_j)-\mu(\boldsymbol{x}_j))] $$ (3)

    其中, $ \boldsymbol{x}_i $,$ \boldsymbol{x}_j $代表决策空间R中2个任意的$ D $维向量, $ \mu(\boldsymbol{x}) $$ k(\boldsymbol{x}) $分别为均值函数和协方差函数. 因此, 给定数据集 $\text{DS} = \{(\boldsymbol{x}_i, f(\boldsymbol{x}_i)), i = 1,2,\cdots,n\}$, 假设训练集 $\boldsymbol{X} = [\boldsymbol{x}_1;\boldsymbol{x}_2;\cdots;\boldsymbol{x}_n],\boldsymbol{Y} = f(\boldsymbol{x}_1); f(\boldsymbol{x}_2); \cdots; $$ f(\boldsymbol{x}_n)]$, 则高斯过程模型可定义如下:

    $$ \hat{f}(\boldsymbol{x}) = f(\boldsymbol{x}) + \varepsilon $$ (4)

    其中, $ \hat{f}(\boldsymbol{x}) $是高斯过程回归模型在$ \boldsymbol{x} $上的预测值, $ \varepsilon $是一个随机变量, 服从均值为零, 方差为$ {\sigma ^2} $的高斯分布. 由此可得

    $$\hat{f}(\boldsymbol{x}) \sim {\rm{N}}(0, \boldsymbol{K}+\sigma^2 {\boldsymbol{I}}) $$ (5)

    其中, $ \boldsymbol{K} $$ n \times n $阶对称的正定协方差矩阵, 每个元素$ k_{ij} $表示$ \boldsymbol{x}_i $$ \boldsymbol{x}_j $之间的相关性. 则

    $$ \begin{array}{l} \begin{bmatrix} \boldsymbol{Y}\\ \boldsymbol{Y^{*}} \end{bmatrix} = {\rm{N}} \begin{pmatrix} 0, \begin{bmatrix} \boldsymbol{K}(\boldsymbol{X}, \boldsymbol{X})+\sigma^2 {\boldsymbol{I}} & \boldsymbol{K}(\boldsymbol{X}, \boldsymbol{X^{*}}) \\ \boldsymbol{K}(\boldsymbol{X^{*}}, \boldsymbol{X}) & \boldsymbol{K}(\boldsymbol{X^{*}}, \boldsymbol{X^{*}}) \end{bmatrix} \end{pmatrix} \end{array} $$ (6)

    式中, $ \boldsymbol{K}(\boldsymbol{X}, \boldsymbol{X^{*}}) $表示测试输出样本$ \boldsymbol{X}^* $和训练输出样本$ \boldsymbol{X} $之间的协方差矩阵, $ \boldsymbol{K}(\boldsymbol{X^{*}}, \boldsymbol{X^{*}}) $为测试输出样本$ \boldsymbol{X}^* $自身的协方差矩阵.

    随后, 通过最大似然估计方法寻找最优的超参数, 从而最终确定高斯过程模型. 当给定输入$ \boldsymbol{X}^* $, 其通过训练集中的输入$ \boldsymbol{X} $和其观测目标输出值$ \boldsymbol{Y} $, 预测出$ \hat{f}(\boldsymbol{X}^{*}) $概率最大的预测后验分布, 即

    $$ \hat{f}(\boldsymbol{X}^{*}|\boldsymbol{X}^{*}, \boldsymbol{X}, \boldsymbol{Y}) \sim {\rm{ N}}\left(\mu, \Sigma \right) $$ (7)

    其中

    $$ \mu = \boldsymbol{K}(\boldsymbol{X^{*}}, \boldsymbol{X}) (\boldsymbol{K}(\boldsymbol{X}, \boldsymbol{X})+ \sigma^2 {\boldsymbol{I}})^{-1}\boldsymbol{Y} $$ (8)
    $$ \begin{split} \Sigma =\;& \boldsymbol{K}(\boldsymbol{X^{*}}, \boldsymbol{X^{*}}) -\\ &\boldsymbol{K}(\boldsymbol{X^{*}}, \boldsymbol{X}) (\boldsymbol{K}(\boldsymbol{X}, \boldsymbol{X})+ \sigma^2 {\boldsymbol{I}})^{-1} \boldsymbol{K}(\boldsymbol{X}, \boldsymbol{X^{*}}) \end{split} $$ (9)

    RVEA算法[9]是2016年Cheng等针对高维多目标优化问题提出的基于分解的进化算法. 不同于最初提出的基于分解的多目标进化算法MOEA/D[8], RVEA中使用一组自适应的参考向量, 同时提出了角度惩罚距离(Angle penalized distance, APD)作为环境选择策略. 在RVEA中, 参考向量根据目标函数值范围的不同调整其分布,

    $$ \boldsymbol{V}_{t+1,i} = \frac {\boldsymbol{V}_{0,i}\circ (\boldsymbol{V}^{\max}_{t+1} - \boldsymbol{Z}^{{\rm{min}}}_{t+1})}{\|\boldsymbol{V}_{0,i}\circ (\boldsymbol{Z}^{\max}_{t+1} - \boldsymbol{Z}^{{\rm{min}}}_{t+1})\|} $$ (10)

    式中, $ \boldsymbol{V}_{0,i} $表示初始化时第$ i $个均匀分布的参考向量, $\boldsymbol{Z}^{{\rm{max}}}_{t+1}$$\boldsymbol{Z}^{{\rm{min}}}_{t+1}$分别表示迄今为止每个目标上的最大和最小函数值构成的向量.

    在RVEA中, 角度惩罚距离APD的计算方法如下:

    $$ d_{t,i,j} = (1+P(\theta_{t,i,j})) \cdot \left\| \boldsymbol{F}^{'}(\boldsymbol{x}_i(t)) \right\| $$ (11)

    其中, ${{{d}}_{t,i,j}}$表示第$ i $个个体在第$ t $代时在第$ j $个参考向量上的APD值, $ \theta_{t,i,j} $ 表示第$ t $代个体$ i $的目标函数值与第$ j $个参考向量之间的夹角. $ P(\theta_{t,i,j}) $为惩罚函数, 其计算公式为

    $$P(\theta_{t,i,j}) = M \cdot \left(\frac{t}{t_{{\rm{max}}}}\right)^{\alpha} \cdot \frac{\theta_{t,i,j}}{\gamma_{v_{t,j}}} $$ (12)

    式中

    $$ \gamma_{v_{t,j}} = \mathop {\min}\limits_{i \in \{ 1, \cdots ,N\} ,i \ne j} \left\langle {{\boldsymbol{V}_{t,i}},{\boldsymbol{V}_{t,j}}} \right\rangle $$ (13)

    $ M $$ N $分别表示目标数和参考向量数, $t_{{\rm{max}}}$为种群最大进化代数, $\gamma_{v_{t,j}}$表示参考向量$ \boldsymbol{V}_{t,i} $与其他参考向量之间的最小角度, $ \alpha $是控制惩罚函数速率的参数. 式(11)中, $ \boldsymbol{F}^{'}(\boldsymbol{x}_i(t)) $表示第$ t $代的第$ i $个解归一化之后的目标函数值, 其归一化方法为:

    $$ \boldsymbol{F}^{'}(\boldsymbol{x}_i(t)) = \boldsymbol{F}(\boldsymbol{x}_i(t))-\boldsymbol{F}^{*} $$ (14)

    式中, $ \boldsymbol{F}(\boldsymbol{x}_i(t)) $是个体$ i $$ t $代的一个目标函数值, $ \boldsymbol{F}^{*} $表示由每个目标最小值组成的向量.

    模型的用途以及选择个体真实计算的模型填充准则对于代理模型辅助的进化算法在计算资源有限的情况下寻找计算费时问题的最优解集是非常重要的[31-33]. 随着目标空间维度的增加, 对计算费时问题的求解算法在搜索效率上有了更高的要求. 由于常见的求解高维多目标的优化算法需要大量的目标函数评价次数, 使其在求解这类费时问题时受到了很大地限制. 使用计算廉价的代理模型代替计算费时的目标函数评价是求解计算费时多目标优化问题的常见方法. 然而, 模型的使用方法会极大地影响算法的搜索效率, 特别是当目标空间维度增加时, 由于各个目标均为估值, 一个目标估值错误将会导致优化算法朝着错误的方向进行搜索, 从而严重影响最优解集的寻找. 另一方面, 在搜索最优解集的过程中,选择若干个体进行真实评价也是非常重要的. 这些真实计算的个体不仅用于更新模型, 以提高模型的估值准确度, 同时也是潜在的非支配候选解. 鉴于高斯过程模型不仅能够提供估值还能够提供估值不确定度, 本文提出使用高斯过程模型来估计目标函数值, 以辅助计算费时的高维多目标问题的优化(Surrogate-assisted expensive evolutionary many-objective optimization, SAExp-EMO). 在该方法中, 为了提高搜索效率, 首先将各个代理模型作为优化目标, 使用对求解高维多目标问题具有较好优化性能的RVEA算法对代理模型进行最优解集的搜索, 找到具有较好收敛性能的解, 从而能够提供较好的供真实计算个体选择的候选解集. 算法1给出了本文方法的伪代码. 算法1分为3个部分: 第1部分为初始化阶段(1 ~ 3行), 主要是用拉丁超立方抽样方法采样若干个体以供初始代理模型的训练, 同时获得目前的非支配解集. 第2部分是训练代理模型并对其进行最优解集的搜索(5 ~ 6行), 第3部分是通过填充准则策略从搜索到的代理模型最优解集中选择个体进行真实计算. 第2部分和第3部分交替运行, 直到满足停止条件, 即达到最大评价次数为止.

    算法1. 代理模型辅助的计算费时进化多目标优化 (SAExp-EMO)

    输入: 最大评价次数MaxOE;评价次数$ OE = 0 $;

    输出: 最优解集PS

    1) 使用拉丁超立方体采样$ N_s $个解, 并对其使用真实的目标函数进行真实计算. 存放到数据库$ Arc $ 中;

    2) $ OE = N_s $;

    3) 非支配排序$ Arc $中的个体, 并将非支配解存入集合$ PS $中;

    4) While $OE \le MaxOE;$

    5) 利用$ Arc $中的样本信息为每个目标函数训练代理模型;

    6) 利用RVEA对模型进行最优解集的搜索(详见算法2);

    7) 利用填充准则选择个体使用真实目标函数进行真实计算, 更新$ PS $并存入$ Arc $中(参见算法3);

    8) $ OE = OE + 1 $;

    9) End while.

    当模型能够很好地拟合原目标函数时, 搜索代理模型得到的最优解集即为原优化问题的最优解集, 并且能够大量地节省求解问题的计算时间. 因此, 为了提高对费时高维多目标优化问题的求解效率, 在SAExp-EMO中, 通过对高斯过程模型进行最优解集的搜索使种群能够落到目标函数值较好的潜在区域, 以供真实计算个体的选择. 任何求解高维多目标优化问题的算法都可以用来实现对代理模型最优解集的搜索. RVEA[9]是Cheng等在2016年提出的基于分解的求解高维多目标优化问题的有效方法, 其提供了角度惩罚距离用于在高维目标空间更好地选择下一代父代种群. 同时, 自适应参考向量可以更均匀的取到最优解集. 因此, 本文选用RVEA对高斯过程模型进行非支配最优解集的搜索. $ \left| pop(t) \right| $表示当前$ t $代种群大小, 算法2给出了搜索模型最优解集的伪代码.

    算法2. 模型最优解集的搜索

    输入: 模型的最大评价次数$ L $; 数据库$ Arc $; 高斯过程模型$ GP = ({GP}_1,{GP}_2, \ldots,{GP}_M) $;

    输出: 当前种群$ pop(t) $;

    1) $ t = 0 $;

    2) 将$ Arc $中所有个体作为RVEA的初始种群$ pop(t) $;

    3) $ l = \left| Arc \right| $;

    4) While $l \le L;$

    5) 产生参考向量;

    6) 父代种群$ P(t) $通过二进制交叉、多项式变异产生子代种群$ Q(t) $;

    7) 用GP模型对子代个体进行评价;

    8) 将父代和子代个体分配给其最近的参考向量;

    9) 利用APD指标进行环境选择得到下一代父代种群$ pop(t) $;

    10) 自适应参考向量;

    11) $ l = l + \left| pop(t) \right| $;

    12) $ t = t+1 $;

    13) End while;

    14) 输出$ pop(t) $.

    模型管理是代理模型辅助的优化算法中最重要的环节$, $ 由于真实计算的个体不仅要用于模型的更新以提高模型的估值准确度, 同时其也是潜在的最优非支配解集中的候选解, 所以填充准则的选择, 将直接影响最终获得的优化结果好坏. 常见的针对高斯过程模型提出的填充准则是针对单目标优化问题的, 不能直接用于多目标优化问题. 考虑到RVEA中角度惩罚距离指标可以同时衡量一个个体的收敛性和多样性, 故本文考虑将目标函数估值的角度惩罚距离值作为个体的性能指标. 其角度惩罚距离期望值提高越大, 说明个体的整体性能提高较大, 因此选择这类个体进行真实的目标函数计算有利于加快费时优化问题最优解集的搜索. 另一方面, 若个体估值的总体不确定度较大, 即各个目标估值不确定的累加和较大时, 表明该个体的估值不可信. 因此, 对这类个体进行真实的目标函数计算并用于模型的更新将有利于代理模型准确度的提高. 基于以上分析, 本文针对高维多目标优化问题, 提出一种改进的期望提高获取函数, 以选择具有较高价值的个体进行真实计算. 式(15) 给出了改进的期望提高获取函数.

    $$ \begin{split} EI(\boldsymbol{x}_i) =\;& (d^{*}-d_{t,i,j}) \Phi\left(\frac{d^{*}-d_{t,i,j}}{\tilde{s}(\boldsymbol{x}_i)}\right) +\\ &\tilde{s}(\boldsymbol{x}_i) \varphi\left(\frac{d^{*}-d_{t,i,j}}{\tilde{s}(\boldsymbol{x}_i)}\right) \end{split} $$ (15)

    其中, $ d_{t,i,j} $为第$ i $个个体在$ t $代相对于第$ j $个参考向量的APD值, $ d^{*} $表示$ Arc $中所有个体具有的最小的APD值, 即

    $$ d^{*} = \min\limits_{i = 1,2,\cdots,|Arc|}\{d_{t,i,j}\} $$ (16)

    $ s(\boldsymbol{x}_i) $为个体$ i $各个目标估值不确定度的平均值, 即

    $$ \tilde{s}(\boldsymbol{x}_i) = \frac{\sum\limits_{k = 1}^M{s_k}(\boldsymbol{x}_i)}{M} $$ (17)

    其中, $ s_k(\boldsymbol{x}_i) $表示第$ i $个个体在第$ k $个目标上的估值不确定度.

    算法3. 改进的填充准则

    输入: 当前模型搜索的最后一代$ pop(t) $; 参考向量$ \boldsymbol{V} $;

    输出: 使用真实目标函数计算的解$ \boldsymbol{x}^* $

    1) $ pop(t) $中每个个体$ \boldsymbol{x}_i $寻找其最近的参考向量$ \boldsymbol{V}_j $;

    2) 计算个体与最近参考向量的APD值$ d_{t,i,j} $;

    3) 确定个体每个目标上的估值不确定度,将这些估值不确定度的平均值作为个体估值的不确定度;

    4) 根据式(15)计算$ pop(t) $中各个解的$ EI $值;

    5) 选择$ pop(t) $$ EI $值最大的个体$ \boldsymbol{x}^{*} $.

    算法3给出了改进的填充准则的伪代码$. $ 在算法3中, 将模型搜索最优解集的最后一代种群个体分配给其最近的参考向量, 并计算相应的角度惩罚距离值. 同时根据各个目标估值的不确定计算个体的整体估值不确定度(所有目标估值不确定度的平均). 随后根据个体的角度惩罚距离和平均不确定度计算其期望提高值, 从种群中选择期望值最大的个体进行真实计算.

    为验证本文方法的有效性, 本文在7个DTLZ基准问题[34]上进行了测试, 每个问题分别测试了3、4、 6、 8、 10个目标. 并和没有代理模型辅助的进化算法RVEA以及具有代表性的用于求解计算费时多目标优化问题的代理模型辅助算法, K-RVEA[17], CSEA[23]和ParEGO[22]进行了对比. 其中K-RVEA同样为每个目标建立代理模型并搜索模型的最优, 和本文不同的是, 在K-RVEA中优化模型的最后一代种群进行了聚类, 并根据和固定参考向量相关联的个体数差异选择APD最小或者不确定度最大的若干个体进行真实评价. CSEA是基于神经网络的求解费时问题的多目标优化问题, 通过对个体的分类选择若干有前途的个体进行真实计算. ParEGO使用切比雪夫函数将多目标优化问题转换成单目标优化问题, 并对单目标优化问题建立高斯过程模型, 利用获取函数选择个体进行真实计算.

    实验中, 所有算法的最大目标函数评价次数均设置为300次. 根据文献[34]给出的DTLZ测试函数的定义, 问题的维度为$ K+M-1 $, $ M $为目标数, DTLZ1和DTLZ7测试函数$ K $的取值分别为5和20, DTLZ2-6测试函数$ K $取值为10. 所有算法都独立运行20次, 本文对比算法的结果都在PlatEMO上运行得到. 为了公平比较, 除了初始样本大小, 对比算法中搜索算法的参数均采用原文给出的参数, 即交叉${\eta _{{c}}}$和变异${\eta _{{n}}}$算子均为20, 交叉概率${p_{{c}}}$设为1.0, 变异概率${p_{{n}}}$设为$ 1/D $, 其中$ D $为决策变量的维度. 在K-RVEA、CSEA、ParEGO中, 初始采样大小均为$ 11D-1 $, 其测试问题维度为固定的10维. 而本文测试问题维度是不固定的, 决策空间大小由目标函数个数决定, 因此当目标维度增高, 决策空间维度也随之增大. 由于$ 11D-1 $占用大量评价次数, 优化代数减少不利于算法的寻优. 故本实验中K-RVEA、CSEA、ParEGO和SAExp-EMO初始样本设置都为$ N_s = 5D-1 $. 利用置信度$ \sigma = 0.05 $的Wilcoxon秩和检验方法来判断本文算法和其他算法获得的解集之间的差异性. 符号$+$、− 和$ \approx $分别表示所比较的算法性能比本文SAExp-EMO算法好、差和没有明显的差异.

    反转世代距离评价指标(Inverted generational distance, IGD)[35]是一个综合性能评价指标, 通常被用作衡量求解多目标优化问题方法的性能指标. 它主要通过计算每个在真实Pareto前沿面上的点(个体)到算法获取的非支配面上个体之间的最小欧式距离和, 来评价算法的收敛性能和分布性能. 值越小, 算法的综合性能越好. IGD的计算公式如下:

    $$ IGD({\boldsymbol{P}},{\boldsymbol{Q}}) = \frac{{\sum\limits_{{\boldsymbol{v}} \in {\boldsymbol{P}}} d ist({\boldsymbol{v}},{\boldsymbol{Q}})}}{{|{\boldsymbol{P}}|}} $$ (18)

    其中, $ \boldsymbol{P} $$ \boldsymbol{Q} $分别为均匀分布在真实 Pareto面上的点集和算法获得的最优Pareto面. $ dist(\boldsymbol{v},\boldsymbol{Q}) $$ \boldsymbol{P} $中个体$ \boldsymbol{v} $到Pareto面$ \boldsymbol{Q} $的最小欧几里得距离. 因此, IGD 是通过计算真实Pareto面上点集到获取的非支配面的最小欧氏距离的平均值来评价算法的综合性能. 当$ \boldsymbol{P} $中个体数足够多时, 其解就会均匀的覆盖真实Pareto面, 本文中$ \left| \boldsymbol{P} \right| $设置为10000.

    3.3.1   搜索模型最优解集的最大评价次数$ L $

    搜索模型最优解集的评价次数会影响算法对计算费时问题的寻优能力, 评价次数过少, 算法还没找到模型的最优解集, 评价次数过多, 搜索可能会偏离真实的问题最优. 为此, 本文分别使用$ L = 0 $, $ L = 500\times M $, $ L = 1\,000\times M $, $ L = 1\,500\times M $, $ L = $$ 2\,000\times M $, $ L = 2\,500\times M $$ L = 3\,000\times M $ 模型评价次数对DTLZ1和DTLZ2测试问题上进行了算法性能进行了测试, 其中$ M $为问题的目标数. 在实验中, 目标函数分别设置为3、6、8、10进行了测试. 图1给出了不同L值下获得的IGD值. 由图1可以看出, 当搜索模型的最大评价次数为$ L = 1\,000\times $$ M $时算法在这两个函数上的性能最好. 为此, 在本文的方法中, 搜索模型最优的停止条件为模型评价次数达到$ L = 1\,000\times M $.

    图 1  不同模型评价次数下算法的性能结果对比图
    Fig. 1  Performance comparison of the proposed method with different number of evaluations on surrogate model
    3.3.2   不同算法中的实验结果

    为了验证本文算法的有效性, 本文算法和RVEA, ParEGO, K-RVEA以及CSEA在3、4、6、8、10个目标的DTLZ1~7测试问题上进行了实验结果对比. 需要注意的是ParEGO算法是针对目标函数个数不超过4个的多目标优化问题提出的, 因此本文单独将ParEGO和SAExp-EMO方法在3个和4个目标的DTLZ1 ~ 7测试函数上进行了对比. 表1给出了SAExp-EMO和ParEGO获得的IGD平均值的结果,其中最好结果以粗体表示. 由表1 可以看出, 本文提出的SAExp-EMO方法能够在3个目标和 4个目标的DTLZ1 ~ 7测试函数集上获得更好或者一样的IGD值, 说明SAExp-EMO算法在收敛性和多样性上具有更好的性能.

    表 1  SAExp-EMO和ParEGO在3个和4个目标函数的DTLZ测试问题上获得的平均IGD统计结果
    Table 1  Average IGD statistical results of SAExp-EMO and ParEGO on DTLZ test problems of 3 and 4 objective functions
    测试问题 目标数     ParEGO   SAExp-EMO
    DTLZ1  3 $4.84\times 10^{1}(8.51\times 10^{0})$− $\bf{1.09\times10^{1}(4.16\times 10^{0})}$
     4 $5.49\times10^{1}(1.09\times10^{1})$− $\bf{1.25\times10^{1}(5.06\times10^{1})}$
    DTLZ2  3 $4.76\times10^{-1}(3.63\times10^{-2})$− $\bf{1.72\times10^{-1}(4.60\times10^{-2})} $
     4 $5.77\times10^{-1}(2.98\times10^{-2})$− $\bf{3.65\times10^{-1}(4.40\times10^{-1})}$
    DTLZ3  3 $4.61\times10^{0}(5.38\times10^{1})$− $\bf{1.65\times10^{2}(6.07\times10^{1})} $
     4 $4.45\times10^{2}(7.57\times10^{1})$− $\bf{2.40\times10^{2}(1.19\times10^{2})}$
    DTLZ4  3 $7.80\times10^{-1}(7.38\times10^{-2})$$\approx$ $\bf{5.59\times10^{-1}(4.80\times10^{-2})}$
     4 $8.92\times10^{-1}(9.00\times10^{-1})$− $\bf{7.12\times10^{-1}(1.48\times10^{\rm{-}1})} $
    DTLZ5  3 $3.74\times10^{-1}(7.78\times10^{-2})$− $\bf{4.01\times10^{-2}(7.00\times10^{-2})}$
     4 $4.09\times10^{-1}(4.52\times10^{-2})$− $\bf{7.80\times10^{-2}(0.00\times10^{0})}$
    DTLZ6  3 $8.04\times10^{0}(2.44\times10^{-1})$− $\bf{3.63\times10^{0}(2.61\times10^{0})}$
     4 $8.16\times10^{0}(2.52\times10^{-1})$− $\bf{3.84\times10^{0}(4.61\times10^{-1})}$
    DTLZ7  3 $7.28\times10^{0}(2.16\times10^{0})$− $\bf{7.70\times10^{-1}(1.35\times10^{-1})}$
     4 $ 1.11\times10^{1}(7.97\times10^{-1})$− $\bf{1.09\times10^{0}(3.18\times10^{-1})}$
    +/−/≈ 0/13/1
    下载: 导出CSV 
    | 显示表格

    RVEA、K-RVEA和CSEA均是针对高维多目标提出的优化算法, 其中RVEA无代理模型辅助, 而K-RVEA和CSEA均为代理模型辅助的高维多目标优化方法. 表2给出了不同算法在3、4、6、8、10个目标的DTLZ上的测试结果, 其中最好结果以粗体表示. 由表2可以看出, 相比于无代理模型辅助的RVEA, 本文的SAExp-EMO在所有DTLZ测试函数上均获得了性能较好的解, 只有在4个目标的DTLZ4上获得的结果和RVEA无差别. 相比于代理模型辅助的K-RVEA, 本文方法在25个问题上获得了较好解, 在测试问题DTLZ1~7中, 除DTLZ4外, 本文算法的结果都优于K-RVEA. 这是因为 DTLZ4的Pareto前沿是一条退化的覆盖在目标空间中一个子空间曲线, 而SAExp-EMO在使用参考向量搜索模型最优解集的过程中, 有大量没有分配到解的空参考向量, 这使得收敛到Pareto前沿的求解过程缓慢, 而CSEA算法在DTLZ4上取得了最好的效果, 主要归因于CSEA中基于径向空间划分的更新参考点的策略. 从表2可以看出, SAExp-EMO算法在10个目标的DTLZ1、DTLZ2、DTLZ3和DTLZ7的结果明显优于K-RVEA, 这归因于K-RVEA模型最优解集搜索的频率是固定的, 在高维的决策空间中, 会导致种群搜索陷入局部某块区域,不利于找到有前途的候选解. 与 CSEA相比, SAExp-EMO在26个问题上获得了较好解, 只有在3个问题上没有比过CSEA, 表明了本文算法在求解高维多目标优化问题上具有较好的性能.

    表 2  SAExp-EMO、RVEA、K-RVEA和CSEA得到的平均IGD值
    Table 2  Average IGD values obtained by SAExp-EMO, RVEA, K-RVEA and CSEA
    测试问题 目标数    RVEA    K-RVEA     CSEA   SAExp-EMO
    DTLZ1  3 $3.65\times10^{1}(1.10\times10^{1})$− $2.48\times10^{1}(8.56\times10^{0})$− $1.97\times10^{1}(5.82\times10^{0})$− $\bf{1.33\times10^{1}(4.53\times10^{0})} $
     4 $3.18\times10^{1}(1.03\times10^{1})$− $3.01\times10^{1}(1.18\times10^{1})$− $1.71\times10^{1}(5.31\times10^{0})$− $\bf{1.35\times10^{1}(5.03\times10^{0})} $
     6 $2.96\times10^{1}(8.16\times10^{0})$− $3.18\times10^{1}(6.94\times10^{0})$− $1.43\times10^{1}(6.68\times10^{0})$− $\bf{1.15\times10^{1}(6.29\times10^{0})}$
     8 $2.00\times10^{1}(9.31\times10^{0})$− $3.22\times10^{1}(1.12\times10^{1})$$\approx$ $1.44\times10^{1}(6.01\times10^{0})$− $\bf{1.17\times10^{1}(4.46\times10^{0})} $
     10 $2.15\times10^{1}(8.45\times10^{0})$− $2.48\times10^{1}(9.28\times10^{0})$− $1.45\times10^{1}(5.70\times10^{0})$− $\bf{1.28\times10^{1}(5.45\times10^{0})}$
    DTLZ2  3 $4.09\times10^{-1}(3.22\times10^{-2})$− $2.66\times10^{-1}(4.88\times10^{-2})$− $2.69\times10^{-1}(1.13\times10^{-1})$− $\bf{1.38\times10^{-1}(6.13\times10^{-2} )}$
     4 $5.16\times10^{-1}(3.61\times10^{-2})$− $3.95\times10^{-1}(4.94\times10^{-2})$− $4.76\times10^{-1}(1.04\times10^{-1})$− $\bf{3.27\times10^{-1}(5.53\times10^{-2})}$
     6 $6.97\times10^{-1}(6.73\times10^{-2})$− $5.93\times10^{-1}(4.96\times10^{-2})$− $\bf{5.76\times10^{-1}(4.01\times10^{-2})}$$\approx$ ${6.15\times10^{-1}(4.93\times10^{-2})}$
     8 $7.93\times10^{-1}(3.69\times10^{-2})$− $6.54\times10^{-1}(4.95\times10^{-2})$− $7.57\times10^{-1}(3.52\times10^{-2})$− $\bf{5.45\times10^{-1}(2.42\times10^{-1})}$
     10 $9.54\times10^{-1}(5.16\times10^{-2})$− $7.36\times10^{-1}(4.59\times10^{-2})$− $8.44\times10^{-1}(5.65\times10^{-2})$− $\bf{6.08\times10^{-1}(3.09\times10^{-1})}$
    DTLZ3  3 $4.18\times10^{2}(6.66\times10^{1})$− $3.38\times10^{2}(7.51\times10^{1})$− $2.12\times10^{2}(4.37\times10^{1})$− $\bf{1.13\times10^{2}(2.96\times10^{1})}$
     4 $4.17\times10^{2}(7.54\times10^{1})$− $3.56\times10^{2}(7.56\times10^{1})$− $2.17\times10^{2}(4.94\times10^{1})$− $\bf{1.26\times10^{2}(6.16\times10^{1})}$
     6 $3.85\times10^{2}(7.05\times10^{1})$− $3.45\times10^{2}(7.90\times10^{1})$− $2.09\times10^{2}(5.44\times10^{1})$− $\bf{1.46\times10^{2}(7.89\times10^{1})}$
     8 $3.57\times10^{2}(7.05\times10^{1})$− $3.38\times10^{2}(5.74\times10^{1})$− $2.08\times10^{2}(5.09\times10^{1})$− $\bf{1.49\times10^{2}(7.88\times10^{1} )}$
     10 $3.77\times10^{2}(1.02\times10^{2})$− $3.24\times10^{2}(7.92\times10^{1})$− $2.18\times10^{2}(5.85\times10^{1})$ $\approx$ $\bf{1.10\times10^{2}(2.87\times10^{1})}$
    DTLZ4  3 $5.58\times10^{-1}(6.90\times10^{-2})$− $\bf{4.17\times10^{-1}(1.12\times10^{-1})}$ $\approx$ $7.22\times10^{-1}(1.53\times10^{-1})$− $4.81\times10^{-1}(1.40\times10^{-1})$
     4 $6.96\times10^{-1}(8.80\times10^{-2})$ $\approx$ $5.46\times10^{-1}(1.13\times10^{-1})$+ $\bf{5.43\times10^{-1}(1.02\times10^{-1})}$+ $6.64\times10^{-1}(1.45\times10^{-1})$
     6 $8.53\times10^{-1}(8.13\times10^{-2})$− $6.84\times10^{-1}(8.64\times10^{-2})$+ $\bf{5.74\times10^{-1}(1.01\times10^{-1})}$ $\approx$ $8.52\times10^{-1}(8.99\times10^{-2})$
     8 $9.32\times10^{-1}(7.75\times10^{-2})$− $8.34\times10^{-1}(9.14\times10^{-2})$+ $\bf{7.39\times10^{-1}(3.42\times10^{-2})}$+ $8.36\times10^{-1}(1.76\times10^{-1})$
     10 $1.03\times10^{0}(7.03\times10^{-2})$− $8.89\times10^{-1}(6.96\times10^{-2})$ $\approx$ $\bf{8.12\times10^{-1}(4.54\times10^{-2})}$+ $8.17\times10^{-1}(2.43\times10^{-1})$
    DTLZ5  3 $3.45\times10^{-1}(4.41\times10^{-2})$− $1.81\times10^{-1}(4.44\times10^{-2})$− $1.46\times10^{-1}(4.29\times10^{-2})$− $\bf{3.84\times10^{-2}(8.64\times10^{-3})}$
     4 $3.79\times10^{-1}(7.42\times10^{-2})$− $1.90\times10^{-1}(3.12\times10^{-2})$− $2.00\times10^{-1}(4.29\times10^{-2})$− $\bf{6.98\times10^{-2}(1.43\times10^{-2})}$
     6 $4.28\times10^{-1}(6.52\times10^{-2})$− $2.29\times10^{-1}(3.40\times10^{-1})$ $\approx$ $2.17\times10^{-1}(7.87\times10^{-1})$− $\bf{1.30\times10^{-1}(4.04\times10^{-2})}$
     8 $4.26\times10^{-1}(5.83\times10^{-2})$− $2.19\times10^{-1}(4.87\times10^{-2})$− $2.43\times10^{-1}(6.08\times10^{-2})$− $\bf{8.31\times10^{-2}(2.32\times10^{-2})}$
     10 $4.06\times10^{-1}(1.02\times10^{-1})$− $2.23\times10^{-1}(5.87\times10^{-2})$ $\approx$ $2.54\times10^{-1}(5.35\times10^{-2})$− $\bf{9.97\times10^{-2}(4.07\times10^{-2})} $
    DTLZ6  3 $7.94\times10^{0}(2.75\times10^{-1})$− $4.42\times10^{0}(5.40\times10^{-1})$− $4.54\times10^{0}(5.84\times10^{-1})$− $\bf{3.07\times10^{0}(7.11\times10^{-1})}$
     4 $8.02\times10^{0}(2.61\times10^{-1})$− $4.35\times10^{0}(4.66\times10^{-1})$− $6.99\times10^{0}(7.87\times10^{-1})$− $\bf{3.46\times10^{0}(4.82\times10^{-1})}$
     6 $8.19\times10^{0}(3.42\times10^{-1})$− $4.58\times10^{0}(7.79\times10^{-1})$− $7.11\times10^{0}(1.76\times10^{-1})$− $\bf{4.19\times10^{0}(6.93\times10^{-1})} $
     8 $8.18\times10^{0}(2.75\times10^{-1})$− $5.78\times10^{0}(4.49\times10^{-1})$− ${7.21\times10^{0}(5.28\times10^{-1})}$$\approx$ $\bf{3.60\times10^{0}(5.11\times10^{-1})}$
     10 $8.22\times10^{0}(4.07\times10^{-1})$− $6.32e\times10^{0}(6.35\times10^{-1})$ $\approx$ $7.44\times10^{0}(4.18\times10^{-1})$ $\approx$ $\bf{3.95\times10^{0}(1.16\times10^{0})}$
    DTLZ7  3 $6.85\times10^{0}(7.29\times10^{-1})$− $1.15\times10^{0}(1.69\times10^{0})$− $4.02\times10^{0}(4.82\times10^{0})$− $\bf{5.36\times10^{-1}(2.26\times10^{-1})}$
     4 $8.81\times10^{0}(1.31\times10^{0})$− $2.14\times10^{0}(3.24\times10^{0})$ $\approx$ $7.54\times10^{0}(9.33\times10^{-1})$ $\approx$ $\bf{6.92\times10^{-1}(1.37\times10^{-1})}$
     6 $1.29\times10^{1}(1.44\times10^{0})$− $3.49\times10^{0}(2.76\times10^{0})$− $1.36\times10^{1}(1.65\times10^{0})$− $ \bf{1.13\times10^{0}(2.42\times10^{-1})}$
     8 $1.72\times10^{1}(2.18\times10^{0})$− $4.18\times10^{0}(2.18\times10^{0})$− $2.26\times10^{1}(2.27\times10^{0})$− $\bf{6.82\times10^{-1}(1.38\times10^{-1})}$
     10 $2.18\times10^{1}(3.56\times10^{0})$− $7.83\times10^{0}(3.32\times10^{0})$− $2.86\times10^{1}(2.30\times10^{0})$− $\bf{1.19\times10^{0}(5.68\times10^{-1})} $
    +/−/≈ 0/34/1 3/25/7 3/26/6
    下载: 导出CSV 
    | 显示表格

    为进一步查看最后非支配解集的分布, 图2(a)给出了各个算法在3个目标的DTLZ1测试问题上找到的最优非支配解集. 三角形、正方形、菱形分别表示算法K-RVEA、CSEA和SAExp-EMO所获得最优非支配解集. 由图2(a)可知, SAExp-EMO所获得非支配解的目标函数值比K-RVEA和CSEA都小. 在相同的评价次数下, 相比于K-RVEA, CSEA算法SAExp-EMO获得的种群更靠近真实的Pareto前沿, 说明SAExp-EMO算法有更快和更好的收敛性, 同时从解的分布看, SAExp-EMO所找到的目标空间具有更好解的分布性. 图2(b)为K-RVEA, CSEA, 以及SAExp-EMO在3个目标DTLZ1上独立运行20次获得的IGD均值的收敛图. 由图2(b)可以看出,在相同的评价次数下, SAExp-EMO获得了比K-RVEA和CSEA更好的IGD值, 同时SAExp-EMO算法具有更快的收敛速度.

    图 2  不同算法在DTLZ1上的性能结果对比
    Fig. 2  Performance comparison of different methods on three-objective DTLZ1 problem

    针对代理模型辅助的计算费时多目标问题的优化, 本文提出了一种新的填充准则, 基于角度惩罚距离以及目标估值的平均不确定度, 改进期望提高计算方式, 用于选择使用真实目标函数计算的个体. 算法在3、4、6、8 和10个目标的DTLZ基准测试问题上进行了测试, 和其他有代表性的代理模型辅助的多目标进化算法的实验结果相比, 本文所提方法具有更好的求解性能.

    目前, 高斯过程模型面临最大的问题是当决策空间维度增加时, 训练时间会呈现指数级增长, 导致在决策空间高维上很难使用. 为此, 如何求解决策空间高维的多目标计算费时优化问题,需要进一步展开研究.

  • 图  1  ViT模型结构[15]

    Fig.  1  The framework of ViT[15]

    图  2  自注意力[15]与多头自注意力[15]

    Fig.  2  Self-attention[15]and multi-head self-attention[15]

    图  3  Transformer与CNN有效感受野对比[25]

    Fig.  3  The comparison[25] of effective receptive field between Transformer and CNN

    图  4  单尺度与多尺度结构对比

    Fig.  4  The comparison of single-scale framework and multi-scale framework

    图  5  类Transformer方法的交互模块结构对比(Transformer[8], MLP-Mixer[85], ResMLP[86], gMLP[87], CycleMLP[88], ConvMixer[89], PoolFormer[90], MetaFormer[90], CMT[34], CVX[91])

    Fig.  5  The comparison of mixing blocks of Transformer-like methods (Transformer[8], MLP-Mixer[85], ResMLP[86], gMLP[87], CycleMLP[88], ConvMixer[89], PoolFormer[90], MetaFormer[90], CMT[34], CVX[91])

    图  6  视觉Transformer的一般性框架

    Fig.  6  Vision Transformers architecture

    图  7  DETR的结构图[16]

    Fig.  7  The framework of DETR[16]

    图  8  基于Transformer和CNN的目标检测器的收敛速度对比(DETR-DC5[16], TSP-FCOS[115], TSP-RCNN[115], SMCA[110], Deformable DETR[24], Conditional DETR-DC5-R50[111], RetinaNet[104], Faster R-CNN[95], Sparse R-CNN[108])

    Fig.  8  The comparison of converge speed among object detectors based on Transformer and CNN (DETR-DC5[16], TSP-FCOS[115], TSP-RCNN[115], SMCA[110], Deformable DETR[24], Conditional DETR-DC5-R50[111], RetinaNet[104], Faster R-CNN[95], Sparse R-CNN[108])

    图  9  DETR交叉注意力稀疏性变化

    Fig.  9  The change of sparsity of cross-attention map in DETR

    图  10  SETR的结构图[121]

    Fig.  10  The framework of SETR[121]

    表  1  不同Transformer自注意力机制以及卷积的时间和空间复杂度($ N $, $ d $, $ s $分别表示序列长度、特征维度和局部窗口尺寸, 其中$s<N$)

    Table  1  The time and space complexity of different Transformer frameworks ($N$, $ d $, $ s $denote the length, dimension and local window size respectively)

    名称 时间复杂度 空间复杂度
    Convolution $ {\rm{O}}(Nd^2s) $ $ {\rm{O}}(Ns^2d^2+Nd) $
    Transformer[8] $ {\rm{O}}(N^2d) $ $ {\rm{O}}(N^2+Nd) $
    Sparse Transformers[49] $ {\rm{O}}(N\sqrt{N}d) $
    Reformer[50] $ {\rm{O}}(N\log Nd) $ $ {\rm{O}}(N\log N+Ld) $
    Linear Transformer[33] $ {\rm{O}}(Nd^2) $ $ {\rm{O}}(Nd+d^2) $
    Performer[54] $ {\rm{O}}(Nd^2\log d) $ $ {\rm{O}}(Nd\log d+d^2\log d) $
    AFT-simple[56] $ {\rm{O}}(Nd) $ $ {\rm{O}}(Nd) $
    AFT-full[56] $ {\rm{O}}(N^2d) $ $ {\rm{O}}(Nd) $
    AFT-local (1D)[56] $ {\rm{O}}(Nsd) $ $ {\rm{O}}(Nd) $
    Swin Transformer (2D)[23] ${\rm{O}}(Ns^2d)$
    下载: 导出CSV

    表  2  视觉Transformer算法在ImageNet-1k上的Top-1准确率比较

    Table  2  The comparison of Top-1 accuracy of different vision Transformers on ImageNet-1k dataset

    方法名称 迭代轮次 批处理大小 参数量 (×106) 计算量 (GFLOPs) 图像尺寸 Top-1 准确率
    训练 测试
    ViT-B/16[15] 300 4 096 86 743 224 384 77.9
    ViT-L/16[15] 307 5172 224 384 76.5
    DeiT-Ti[58] 300 1 024 5 1.3 224 224 72.2
    DeiT-S[58] 22 4.6 224 224 79.8
    DeiT-B[58] 86 17.6 224 224 81.8
    DeiT-B$ \uparrow $[58] 86 52.8 224 384 83.1
    ConViT-Ti[60] 300 512 6 1 224 224 73.1
    ConViT-S[60] 27 5.4 224 224 81.3
    ConViT-B[60] 86 17 224 224 82.4
    LocalViT-T[61] 300 1 024 5.9 1.3 224 224 74.8
    LocalViT-S[61] 22.4 4.6 224 224 80.8
    CeiT-T[73] 300 1 024 6.4 1.2 224 224 76.4
    CeiT-S[73] 24.2 4.5 224 224 82.0
    CeiT-S$ \uparrow $[73] 24.2 12.9 224 384 83.3
    ResT-Small[53] 300 2 048 13.66 1.9 224 224 79.6
    ResT-Base[53] 30.28 4.3 224 224 81.6
    ResT-Large[53] 51.63 7.9 224 224 83.6
    Swin-T[23] 300 1 024 29 4.5 224 224 81.3
    Swin-S[23] 50 8.7 224 224 83.0
    Swin-B[23] 88 15.4 224 224 83.3
    Swin-B$ \uparrow $[23] 88 47.0 224 384 84.2
    VOLO-D1[68] 300 1 024 27 6.8 224 224 84.2
    VOLO-D2[68] 59 14.1 224 224 85.2
    VOLO-D3[68] 86 20.6 224 224 85.4
    VOLO-D4[68] 193 43.8 224 224 85.7
    VOLO-D5[68] 296 69.0 224 224 86.1
    VOLO-D5$ \uparrow $[68] 296 304 224 448 87.0
    PVT-Tiny[22] 300 128 13.2 1.9 224 224 75.1
    PVT-Small[22] 24.5 3.8 224 224 79.8
    PVT-Medium[22] 44.2 6.7 224 224 81.2
    PVT-Large[22] 61.4 9.8 224 224 81.7
    DeepViT-S[66] 300 256 27 6.2 224 224 82.3
    DeepViT-L[66] 55 12.5 224 224 83.1
    Refined-ViT-S[59] 300 256 25 7.2 224 224 83.6
    Refined-ViT-M[59] 55 13.5 224 224 84.6
    Refined-ViT-L[59] 81 19.1 224 224 84.9
    Refined-ViT-L$ \uparrow $[59] 512 81 69.1 224 384 85.7
    CrossViT-9[63] 300 4 096 8.6 1.8 224 224 73.9
    CrossViT-15[63] 27.4 5.8 224 224 81.5
    CrossViT-18[63] 43.3 9.0 224 224 82.5
    下载: 导出CSV

    表  3  基于Transformer和基于CNN的目标检测算法在COCO 2017 val数据集上的检测精度比较. 其中C. 表示基于CNN的算法, T. 表示基于Transformer的算法

    Table  3  The comparison of detection performance of Transformer-based and CNN-based detectors on COCO 2017 val set. C. denotes CNN-based methods, T. denotes Transformer-based methods

    类型 方法名称 迭代轮次 计算量 (GFLOPs) 参数量 (×106) 帧数 (FPS) 多尺度输入 $ AP $ $ AP_{50} $ $ AP_{75} $ $ AP_{S} $ $ AP_{M} $ $ AP_{L} $
    C. FCOS[116] 36 177 17 41.0 59.8 44.1 26.2 44.6 52.2
    Faster R-CNN[95] 36 180 42 26 40.2 61.0 43.8 24.2 43.5 52.0
    Faster R-CNN+[95] 108 180 42 26 42.0 62.1 45.5 26.6 45.4 53.4
    Mask R-CNN[99] 36 260 44 41.0 61.7 44.9
    Cascade Mask R-CNN[105] 36 739 82 18 46.3 64.3 50.5
    T. ViT-B/16-FRCNN$ \ddagger $[117] 21 36.6 56.3 39.3 17.4 40.0 55.5
    ViT-B/16-FRCNN*[117] 21 37.8 57.4 40.1 17.8 41.4 57.3
    DETR-R50[16] 500 86 41 28 42.0 62.4 44.2 20.5 45.8 61.1
    DETR-DC5-R50[16] 500 187 41 12 43.3 63.1 45.9 22.5 47.3 61.1
    ACT-MTKD (L=16)[113] 156 14 40.6 18.5 44.3 59.7
    ACT-MTKD (L=32)[113] 169 16 43.1 22.2 47.1 61.4
    Deformable DETR[24] 50 78 34 27 39.7 60.1 42.4 21.2 44.3 56.0
    Deformable DETR-DC5[24] 50 128 34 22 41.5 61.8 44.9 24.1 45.3 56.0
    Deformable DETR[24] 50 173 40 19 43.8 62.6 47.7 26.4 47.1 58.0
    Two-Stage Deformable DETR[24] 50 173 40 19 46.2 65.2 50.0 28.8 49.2 61.7
    SMCA[110] 50 152 40 22 41.0 21.9 44.3 59.1
    SMCA+[110] 108 152 40 22 42.7 22.8 46.1 60.0
    SMCA[110] 50 152 40 10 43.7 63.6 47.2 24.2 47.0 60.4
    SMCA+[110] 108 152 40 10 45.6 65.5 49.1 25.9 49.3 62.6
    Efficient DETR[109] 36 159 32 44.2 62.2 48.0 28.4 47.5 56.6
    Efficient DETR*[109] 36 210 35 45.1 63.1 49.1 28.3 48.4 59.0
    Conditional DETR[111] 108 90 44 43.0 64.0 45.7 22.7 46.7 61.5
    Conditional DETR-DC5[111] 108 195 44 45.1 65.4 48.5 25.3 49.0 62.2
    UP-DETR[112] 150 86 41 28 40.5 60.8 42.6 19.0 44.4 60.0
    UP-DETR+[112] 300 86 41 28 42.8 63.0 45.3 20.8 47.1 61.7
    TSP-FCOS[115] 36 189 51.5 15 43.1 62.3 47.0 26.6 46.8 55.9
    TSP-RCNN[115] 36 188 64 11 43.8 63.3 48.3 28.6 46.9 55.7
    TSP-RCNN+[115] 96 188 64 11 45.0 64.5 49.6 29.7 47.7 58.0
    YOLOS-S[114] 150 200 30.7 7 36.1 56.4 37.1 15.3 38.5 56.1
    YOLOS-S[114] 150 179 27.9 5 37.6 57.6 39.2 15.9 40.2 57.3
    YOLOS-B[114] 150 537 127 42.0 62.2 44.5 19.5 45.3 62.1
    下载: 导出CSV

    表  4  基于Transformer的语义分割算法在ADE20K val数据集上的语义分割精度比较. 其中, 1k表示ImageNet-1k, 22k表示ImageNet-1k和ImageNet-21k的结合

    Table  4  The comparison of semantic segmentation performance of Transformer-based methods on ADE20K val set. 1k denotes ImageNet-1k dataset, 22k denotes the combination of ImageNet-1k and ImageNet-21k

    方法名称 骨干网络 预训练数据集 图像尺寸 参数量 (×106) 计算量 (GFLOPs) 帧数 (FPS) 多尺度输入 mIoU
    UperNet[122] R-50 1k 512 23.4 42.8
    R-101 1k 512 86 1 029 20.3 44.9
    Swin-T 1k 512 60 236 18.5 46.1
    Swin-S 1k 512 81 259 15.2 49.3
    Swin-B 22k 640 121 471 8.7 51.6
    Swin-L 22k 640 234 647 6.2 53.5
    Segformer[25] MiT-B3 1k 512 47.3 79 50.0
    MiT-B4 1k 512 64.1 95.7 15.4 51.1
    MiT-B5 1k 512 84.7 183.3 9.8 51.8
    Segmenter[124] ViT-S/16 1k 512 37.0 34.8 46.9
    ViT-B/16 1k 512 106 24.1 50.0
    ViT-L/16 22k 640 334 53.6
    MaskFormer[125] R-50 1k 512 41 53 24.5 46.7
    R-101 1k 512 60 73 19.5 47.2
    Swin-T 1k 512 42 55 22.1 48.8
    Swin-S 1k 512 63 79 19.6 51.0
    Swin-B 22k 640 102 195 12.6 53.9
    Swin-L 22k 640 212 375 7.9 55.6
    Mask2Former[26] R-50 1k 512 49.2
    R-101 1k 512 50.1
    Swin-S 1k 512 52.4
    Swin-B 22k 640 55.1
    Swin-L 22k 640 57.3
    下载: 导出CSV

    表  5  基于Transformer的实例分割方法和基于CNN算法在COCO test-dev数据集上的实例分割精度比较

    Table  5  The comparison of instance segmentation performance of Transformer-based and typical CNN-based methods on COCO test-dev dataset

    方法名称 骨干网络 迭代轮次 帧数 (FPS) $ Ap^m $ $ Ap_S^m $ $ Ap_M^m $ $ Ap_L^m $ $ Ap^b $
    Mask R-CNN[99] R-50-FPN 36 15.3 37.5 21.1 39.6 48.3 41.3
    R-101-FPN 36 11.8 38.8 21.8 41.4 50.5 43.1
    Blend Mask[96] R-50-FPN 36 15.0 37.8 18.8 40.9 53.6 43.0
    R-101-FPN 36 11.5 39.6 22.4 42.2 51.4 44.7
    SOLO v2[97] R-50-FPN 36 10.5 38.2 16.0 41.2 55.4 40.7
    R-101-FPN 36 9.0 39.7 17.3 42.9 57.4 42.6
    ISTR[127] R-50-FPN 36 13.8 38.6 22.1 40.4 50.6 46.8
    R-101-FPN 36 11.0 39.9 22.8 41.9 52.3 48.1
    SOLQ[98] R-50 50 39.7 21.5 42.5 53.1 47.8
    R-101 50 40.9 22.5 43.8 54.6 48.7
    Swin-L 50 45.9 27.8 49.3 60.5 55.4
    QueryInst[126] R-50-FPN 36 7.0 40.6 23.4 42.5 52.8 45.6
    R-101-FPN 36 6.1 41.7 24.2 43.9 53.9 47.0
    Swin-L 50 3.3 49.1 31.5 51.8 63.2 56.1
    Mask2Former[26] R-50 50 43.7 30.6
    R-101 50 44.2 31.1
    Swin-T 50 45.0 31.8
    Swin-L 50 50.1 36.2
    下载: 导出CSV

    表  6  基于Transformer的全景分割算法在COCO panoptic minval数据集上的全景分割精度比较

    Table  6  The comparison of panoptic segmentation performance of Transformer-based methods on COCO panoptic minival dataset

    方法名称 骨干网络 迭代轮次 参数量 (×106) 计算量 (GFLOPs) $ PQ $ $ PQ^{Th} $ $ PQ^{St} $
    DETR[16] R-50 150+25 42.8 137 43.4 48.2 36.3
    R-101 61.8 157 45.1 50.5 37
    MaxDeepLab[123] Max-S 54 61.9 162 48.4 53.0 41.5
    Max-L 451 1 846 51.1 57.0 42.2
    MaskFormer[125] R-50 300 45 181 46.5 51.0 39.8
    R-101 64 248 47.6 52.5 40.3
    Swin-T 42 179 47.7 51.7 41.7
    Swin-S 63 259 49.7 54.4 42.6
    Swin-B 102 411 51.1 56.3 43.2
    Swin-L 212 792 52.7 58.5 44.0
    Panoptic SegFormer[128] R-50 12 51.0 214 48.0 52.3 41.5
    R-50 24 51.0 214 49.6 54.4 42.4
    R-101 69.9 286 50.6 55.5 43.2
    Swin-L 221.4 816 55.8 61.7 46.9
    下载: 导出CSV
  • [1] 张慧, 王坤峰, 王飞跃. 深度学习在目标视觉检测中的应用进展与展望. 自动化学报, 2017, 43(8): 1289-1305

    Zhang Hui, Wang Kun-Feng, Wang Fei-Yue. Advances and perspectives on applications of deep learning in visual object detection. Acta Automatica Sinica, 2017, 43(8): 1289-1305
    [2] 陈伟宏, 安吉尧, 李仁发, 李万里. 深度学习认知计算综述. 自动化学报, 2017, 43(11): 1886-1897

    Chen Wei-Hong, An Ji-Yao, Li Ren-Fa, Li Wan-Li. Review on deep-learning-based cognitive computing. Acta Automatica Sinica, 2017, 43(11): 1886-1897
    [3] LeCun Y, Boser B, Denker J S, Henderson D, Howard R E, Hubbard W, et al. Backpropagation applied to handwritten zip code recognition. Neural Computation, 1989, 1(4): 541-551 doi: 10.1162/neco.1989.1.4.541
    [4] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks. In: Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe, USA: Curran Associates Inc., 2012. 1097−1105
    [5] He K M, Zhang X Y, Ren S Q, Sun J. Deep residual learning for image recognition. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE, 2016. 770−778
    [6] Hochreiter S, Schmidhuber J. Long short-term memory. Neural Computation, 1997, 9(8): 1735-1780 doi: 10.1162/neco.1997.9.8.1735
    [7] Chung J, Gulcehre C, Cho K H, Bengio Y. Empirical evaluation of gated recurrent neural networks on sequence modeling. arXiv preprint arXiv: 1412.3555, 2014.
    [8] Vaswani A, Shazeer N, Parmar N, Uszkoreit U, Jones L, Gomez A N, et al. Attention is all you need. In: Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA: Curran Associates Inc., 2017. 6000−6010
    [9] Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate. In: Proceedings of the 3rd International Conference on Learning Representations. San Diego, USA, 2015.
    [10] Gehring J, Auli M, Grangier D, Yarats D, Dauphin Y N. Convolutional sequence to sequence learning. In: Proceedings of the 34th International Conference on Machine Learning. Sydney, Australia: JMLR.org, 2017. 1243−1252
    [11] Jozefowicz R, Vinyals O, Schuster M, Shazeer N, Wu Y H. Exploring the limits of language modeling. arXiv preprint arXiv: 1602.02410, 2016.
    [12] Luong T, Pham H, Manning C D. Effective approaches to attention-based neural machine translation. In: Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon, Portugal: The Association for Computational Linguistics, 2015. 1412−1421
    [13] Devlin J, Chang M W, Lee K, Toutanova K. BERT: Pre-training of deep bidirectional transformers for language understanding. In: Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Minneapolis, Minnesota, USA: Association for Computational Linguistics, 2018. 4171−4186
    [14] Brown T B, Mann B, Ryder N, Subbiah M, Kaplan J, Dhariwal P, et al. Language models are few-shot learners. In: Proceedings of the Advances in Neural Information Processing Systems 33: Annual Conference on Neural Information Processing Systems. 2020.
    [15] Dosovitskiy A, Beyer L, Kolesnikov A, Weissenborn D, Zhai X H, Unterthiner T, et al. An image is worth 16x16 words: Transformers for image recognition at scale. In: Proceedings of the 9th International Conference on Learning Representations. Virtual Event, Austria: OpenReview.net, 2020.
    [16] Carion N, Massa F, Synnaeve G, Usunier N, Kirillov A, Zagoruyko S. End-to-end object detection with transformers. In: Proceedings of the 16th European Conference on Computer Vision. Glasgow, UK: Springer, 2020. 213−229
    [17] Han K, Wang Y H, Chen H T, Chen X H, Guo J Y, Liu Z H, et al. A survey on vision transformer. IEEE Transactions on Pattern Analysis and Machine Intelligence, DOI: 10.1109/TPAMI.2022.3152247
    [18] Liu Y, Zhang Y, Wang Y X, Hou F, Yuan J, Tian J, et al. A survey of visual transformers. arXiv preprint arXiv: 2111.06091, 2021.
    [19] Khan S, Naseer M, Hayat M, Zamir S W, Khan, F S, Shah M. Transformers in vision: A survey. arXiv preprint arXiv: 2101.01169, 2021.
    [20] Selva J, Johansen A S, Escalera S, Nasrollahi K, Moeslund T B, Clapés A. Video transformers: A survey. arXiv preprint arXiv: 2201.05991, 2022.
    [21] Shamshad F, Khan S, Zamir S W, Khan M H, Hayat M, Khan F S, et al. Transformers in medical imaging: A survey. arXiv preprint arXiv: 2201.09873, 2022.
    [22] Wang W H, Xie E Z, Li X, Fan D P, Song K T, Liang D, et al. Pyramid vision transformer: A versatile backbone for dense prediction without convolutions. In: Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision (ICCV). Montreal, Canada: IEEE, 2021. 548−558
    [23] Liu Z, Lin Y T, Cao Y, Hu H, Wei Y X, Zhang Z, et al. Swin transformer: Hierarchical vision transformer using shifted windows. In: Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision (ICCV). Montreal, Canada: IEEE, 2021. 9992−10002
    [24] Zhu X Z, Su W J, Lu L W, Li B, Wang X G, Dai J F. Deformable DETR: Deformable transformers for end-to-end object detection. In: Proceedings of the 9th International Conference on Learning Representations. Virtual Event, Austria: OpenReview.net, 2021.
    [25] Xie E Z, Wang W H, Yu Z D, Anandkumar A, Alvarez J M, Luo P. SegFormer: Simple and efficient design for semantic segmentation with transformers. arXiv preprint arXiv: 2105.15203, 2021.
    [26] Cheng B W, Misra I, Schwing A G, Kirillov A, Girdhar R. Masked-attention mask transformer for universal image segmentation. arXiv preprint arXiv: 2112.01527, 2021.
    [27] Zhou L W, Zhou Y B, Corso J J, Socher R, Xiong C M. End-to-end dense video captioning with masked transformer. In: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 8739−8748
    [28] Zeng Y H, Fu J L, Chao H Y. Learning joint spatial-temporal transformations for video inpainting. In: Proceedings of the 16th European Conference on Computer Vision. Glasgow, UK: Springer, 2020. 528−543
    [29] Jiang Y F, Chang S Y, Wang Z Y. TransGAN: Two transformers can make one strong gan. arXiv preprint arXiv: 2102.07074, 2021.
    [30] Zhao H, Jiang L, Jia J, Torr P H, Koltun V. Point transformer. In: Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision. Montreal, Canada: IEEE, 2021. 16259−16268
    [31] Guo M H, Cai J X, Liu Z N, Mu T J, Martin R R, Hu S M. PCT: Point cloud transformer. Computational Visual Media, 2021, 7(2): 187-199 doi: 10.1007/s41095-021-0229-5
    [32] Shen Z R, Zhang M Y, Zhao H Y, Yi S, Li H S. Efficient attention: Attention with linear complexities. In: Proceedings of the 2021 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV). Waikoloa, USA: IEEE, 2021. 3530−3538
    [33] Katharopoulos A, Vyas A, Pappas N, François F. Transformers are rNNS: Fast autoregressive transformers with linear attention. In: Proceedings of the 37th International Conference on Machine Learning. PMLR, 2020. 5156−5165
    [34] Guo J Y, Han K, Wu H, Xu C, Tang Y H, Xu C J, et al. CMT: Convolutional neural networks meet vision transformers. arXiv preprint arXiv: 2107.06263, 2021.
    [35] Xiao T, Singh M, Mintun E, Darrell T, Dollár P, Girshick R. Early convolutions help transformers see better. In: Proceedings of the 35th Conference on Neural Information Processing Systems (NeurIPS 2021). 2021.
    [36] Kolesnikov A, Beyer L, Zhai X H, Puigcerver J, Yung J, Gelly S, et al. Big transfer (BiT): General visual representation learning. In: Proceedings of the 16th European Conference on Computer Vision. Glasgow, UK: Springer, 2020. 491−507
    [37] Mahajan D, Girshick R, Ramanathan V, He K M, Paluri M, Li Y X, et al. Exploring the limits of weakly supervised pretraining. In: Proceedings of the 15th European Conference on Computer Vision (ECCV). Munich, Germany: Springer, 2018. 185−201
    [38] Touvron H, Vedaldi A, Douze M, Jégou H. Fixing the train-test resolution discrepancy. In: Proceedings of the 33rd Conference on Neural Information Processing Systems (NeurIPS 2019). Vancouver, Canada, 2019. 8250−8260
    [39] Xie Q Z, Luong M T, Hovy E, Le Q V. Self-training with noisy student improves ImageNet classification. In: Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, USA: IEEE, 2020. 10684−10695
    [40] Ba J L, Kiros J R, Hinton G E. Layer normalization. arXiv preprint arXiv: 1607.06450, 2016.
    [41] Kim Y, Denton C, Hoang L, Rush A M. Structured attention networks. In: Proceedings of the 5th International Conference on Learning Representations. Toulon, France: OpenReview.net, 2017.
    [42] Buades A, Coll B, Morel J M. A non-local algorithm for image denoising. In: Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR′′05). San Diego, USA: IEEE, 2005. 60−65
    [43] Wang X L, Girshick R, Gupta A, He K M. Non-local neural networks. In: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 7794−7803
    [44] Han Q, Fan Z J, Dai Q, Sun L Cheng M M, Liu J Y, et al. Demystifying local vision transformer: Sparse connectivity, weight sharing, and dynamic weight. arXiv preprint arXiv: 2106.04263, 2021.
    [45] Chen L C, Papandreou G, Kokkinos I, Murphy K, Yuille A L. DeepLab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4): 834-848 doi: 10.1109/TPAMI.2017.2699184
    [46] De Brabandere B, Jia X, Tuytelaars T, Van Gool L. Dynamic filter networks. In: Proceedings of the 30th International Conference on Neural Information Processing Systems. Barcelona, Spain: Curran Associates Inc., 2016. 667−675
    [47] Islam A, Jia S, Bruce N D B. How much position information do convolutional neural networks encode? In: Proceedings of the 8th International Conference on Learning Representations. Addis Ababa, Ethiopia: OpenReview.net, 2020.
    [48] Tay Y, Dehghani M, Bahri D, Metzler D. Efficient transformers: A survey. arXiv preprint arXiv: 2009.06732, 2020.
    [49] Child R, Gray S, Radford A, Sutskever I. Generating long sequences with sparse transformers. arXiv preprint arXiv: 1904.10509, 2019.
    [50] Kitaev N, Kaiser L, Levskaya A. Reformer: The efficient transformer. In: Proceedings of the 8th International Conference on Learning Representations. Addis Ababa, Ethiopia: OpenReview.net, 2020.
    [51] Rao Y M, Zhao W L, Liu B L, Lu J W, Zhou J, Hsieh C J. DynamicViT: Efficient vision transformers with dynamic token sparsification. arXiv preprint arXiv: 2106.02034, 2021.
    [52] Wang W X, Yao L, Chen L, Lin B B, Cai D, He X F, et al. CrossFormer: A versatile vision transformer hinging on cross-scale attention. arXiv preprint arXiv: 2108.00154, 2021.
    [53] Zhang Q L, Yang B B. ResT: An efficient transformer for visual recognition. arXiv preprint arXiv: 2105.13677, 2021.
    [54] Choromanski K M, Likhosherstov V, Dohan D, Song X Y, Gane A, Sarlás T, et al. Rethinking attention with performers. In: Proceedings of the 9th International Conference on Learning Representations. Virtual Event, Austria: OpenReview.net, 2021.
    [55] Tsai Y H H, Bai S J, Yamada M, Morency L P, Salakhutdinov R. Transformer dissection: An unified understanding for transformer$'$s attention via the lens of kernel. arXiv preprint arXiv: 1908.11775, 2019.
    [56] Zhai S F, Talbott W, Srivastava N, Huang C, Goh H, Zhang R X, et al. An attention free transformer. arXiv preprint arXiv: 2015.14103, 2021.
    [57] Lu J C, Yao J H, Zhang J G, Zhu X T, Xu H, Gao W G, et al. SOFT: Softmax-free transformer with linear complexity. In: Proceedings of the 35th Conference on Neural Information Processing Systems (NeurIPS 2021). 2021.
    [58] Touvron H, Cord M, Douze M, Francisco M, Sablayrolles A, Jégou H. Training data-efficient image transformers & distillation through attention. In: Proceedings of the 38th International Conference on Machine Learning. PMLR, 2021. 10347−10357
    [59] Zhou D Q, Shi Y J, Kang B Y, Yu W H, Jiang Z H, Li Y, et al. Refiner: Refining self-attention for vision transformers. arXiv preprint arXiv: 2106.03714, 2021.
    [60] d′′Ascoli S, Touvron H, Leavitt M L, Morcos A S, Biroli G, Sagun L. ConViT: Improving vision transformers with soft convolutional inductive biases. In: Proceedings of the 38th International Conference on Machine Learning. PMLR, 2021. 2286−2296
    [61] Li Y W, Zhang K, Cao J Z, Timofte R, Van Gool L. LocalViT: Bringing locality to vision transformers. arXiv preprint arXiv: 2104.05707, 2021.
    [62] Lin T Y, Dollár P, Girshick R, He K M, Hariharan B, Belongie S. Feature pyramid networks for object detection. In: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA: IEEE, 2017. 936-−944
    [63] Chen C F, Fan Q F, Panda R. CrossViT: Cross-attention multi-scale vision transformer for image classification. In: Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision. Montreal, Canada: IEEE, 2021. 347−356
    [64] Gong C Y, Wang D L, Li M, Chandra V, Liu Q. Improve vision transformers training by suppressing over-smoothing. arXiv preprint arXiv: 2104.12753, 2021.
    [65] Yun S, Han D, Chun S, Oh S J, Yoo Y, Choe J. CutMix: Regularization strategy to train strong classifiers with localizable features. In: Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, Korea: IEEE, 2019. 6022−6031
    [66] Zhou D Q, Kang B Y, Jin X J, Yang L J, Lian X C, Hou Q B, et al. DeepViT: Towards deeper vision transformer. arXiv preprint arXiv: 2103.11886, 2021.
    [67] Tay Y, Bahri D, Metzler D, Juan D C, Zhao Z, Zheng C. Synthesizer: Rethinking self-attention for transformer models. In: Proceedings of the 38th International Conference on Machine Learning. PMLR, 2021. 10183−10192
    [68] Yuan L, Hou Q B, Jiang Z H, Feng J S, Yan S C. VOLO: Vision outlooker for visual recognition. arXiv preprint arXiv: 2106.13112, 2021.
    [69] Mihcak M K, Kozintsev I, Ramchandran K, Moulin P. Low-complexity image denoising based on statistical modeling of wavelet coefficients. IEEE Signal Processing Letters, 1999, 6(12): 300-303 doi: 10.1109/97.803428
    [70] He K M, Sun J, Tang X O. Guided image filtering. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(6): 1397-1409 doi: 10.1109/TPAMI.2012.213
    [71] Criminisi A, Pérez P, Toyama K. Region filling and object removal by exemplar-based image inpainting. IEEE Transactions on Image Processing, 2004, 13(9): 1200-1212 doi: 10.1109/TIP.2004.833105
    [72] Raghu M, Unterthiner T, Kornblith S, Zhang C Y, Dosovitskiy A. Do vision transformers see like convolutional neural networks? In: Proceedings of the 35th Conference on Neural Information Processing Systems (NeurIPS 2021). 2021.
    [73] Yuan K, Guo S P, Liu Z W, Zhou A J, Yu F W, Wu W. Incorporating convolution designs into visual transformers. In: Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision (ICCV). Montreal, Canada: IEEE, 2021. 559−568
    [74] Chen Y P, Dai X Y, Chen D D, Liu M C, Dong X Y, Yuan L, et al. Mobile-former: Bridging MobileNet and transformer. arXiv preprint arXiv: 2108.05895, 2021.
    [75] Mehta S, Rastegari M. MobileViT: Light-weight, general-purpose, and mobile-friendly vision transformer. arXiv preprint arXiv: 2110.02178, 2021.
    [76] Peng Z L, Huang W, Gu S Z, Xie L X, Wang Y W, Jiao J B, et al. Conformer: Local features coupling global representations for visual recognition. In: Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision (ICCV). Montreal, Canada: IEEE, 2021. 357−366
    [77] Yan H, Deng B C, Li X N, Qiu X P. TENER: Adapting transformer encoder for named entity recognition. arXiv preprint arXiv: 1911.04474, 2019.
    [78] Shaw P, Uszkoreit J, Vaswani A. Self-attention with relative position representations. In: Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. New Orleans, USA: Association for Computational Linguistics, 2018. 464−468
    [79] Dai Z H, Yang Z L, Yang Y M, Carbonell J G, Le Q V, Salakhutdinov R. Transformer-XL: Attentive language models beyond a fixed-length context. In: Proceedings of the 57th Conference of the Association for Computational Linguistics. Florence, Italy: Association for Computational Linguistics, 2019. 2978−2988
    [80] Huang Z H, Liang D, Xu P, Xiang B. Improve transformer models with better relative position embeddings. In: Proceedings of the Findings of the Association for Computational Linguistics: EMNLP. Association for Computational Linguistics, 2020. 3327−3335
    [81] Parmar N, Ramachandran P, Vaswani A, Bello I, Levskaya A, Shlens J. Stand-alone self-attention in vision models. In: Proceedings of the Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems. Vancouver, Canada, 2019. 68−80
    [82] Wu K, Peng H W, Chen M H, Fu J L, Chao H Y. Rethinking and improving relative position encoding for vision transformer. In: Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision (ICCV). Montreal, Canada: IEEE, 2021. 10013−10021
    [83] Deng J, Dong W, Socher R, Li L J, Li K, Li F F. ImageNet: A large-scale hierarchical image database. In: Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, USA: IEEE, 2009. 248−255
    [84] Zhao Y C, Wang G T, Tang C X, Luo C, Zeng W J, Zha Z J. A battle of network structures: An empirical study of CNN, transformer, and MLP. arXiv preprint arXiv: 2108.13002, 2021.
    [85] Tolstikhin I, Houlsby N, Kolesnikov A, Beyer L, Zhai X H, Unterthiner T, et al. MLP-Mixer: An all-MLP architecture for vision. arXiv preprint arXiv: 2105.01601, 2021.
    [86] Touvron H, Bojanowski P, Caron M, Cord M, El-Nouby A, Grave E, et al. ResMLP: Feedforward networks for image classification with data-efficient training. arXiv preprint arXiv: 2105.03404, 2021.
    [87] Liu H X, Dai Z H, So D R, Le Q V. Pay attention to MLPs. In: Proceedings of the 35th Conference on Neural Information Processing Systems (NeurIPS 2021). 2021.
    [88] Chen S F, Xie E Z, Ge C J, Chen R J, Liang D, Luo P. CycleMLP: A MLP-like architecture for dense prediction. arXiv preprint arXiv: 2107.10224, 2021.
    [89] Ng D, Chen Y Q, Tian B, Fu Q, Chng E S. ConvMixer: Feature interactive convolution with curriculum learning for small footprint and noisy far-field keyword spotting. arXiv preprint arXiv: 2201.05863, 2022.
    [90] Yu W H, Luo M, Zhou P, Si C Y, Zhou Y C, Wang X C, et al. MetaFormer is actually what you need for vision. arXiv preprint arXiv: 2111.11418, 2021.
    [91] Jeevan P, Sethi A. Convolutional xformers for vision. arXiv preprint arXiv: 2201.10271, 2022.
    [92] Liu Z, Mao H Z, Wu C Y, Feichtenhofer C, Darrell T, Xie S N. A ConvNet for the 2020s. arXiv preprint arXiv: 2201.03545, 2022.
    [93] Ding X H, Zhang X Y, Zhou Y Z, Han J G, Ding G G, Sun J. Scaling up your kernels to 31x31: Revisiting large kernel design in CNNs. arXiv preprint arXiv: 2203.06717, 2022.
    [94] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition. In: Proceedings of the 3rd International Conference on Learning Representations. San Diego, USA, 2014.
    [95] Ren S Q, He K M, Girshick R, Sun J. Faster R-CNN: Towards real-time object detection with region proposal networks. In: Proceedings of the Advances in Neural Information Processing Systems 28: Annual Conference on Neural Information Processing Systems 2015. Montreal, Canada, 2015. 91−99
    [96] Chen H, Sun K Y, Tian Z, Shen C H, Huang Y M, Yan Y L. BlendMask: Top-down meets bottom-up for instance segmentation. In: Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, USA: IEEE, 2020. 8570−8578
    [97] Wang X L, Zhang R F, Kong T, Li L, Shen C H. SOLOv2: Dynamic and fast instance segmentation. In: Proceedings of the 34th Conference on Neural Information Processing Systems (NeurIPS 2020). Vancouver, Canada, 2020.
    [98] Dong B, Zeng F G, Wang T C, Zhang X Y, Wei Y C. SOLQ: Segmenting objects by learning queries. In: Proceedings of the 35th Conference on Neural Information Processing Systems (NeurIPS 2021). 2021.
    [99] He K M, Gkioxari G, Dollár P, Girshick R B. Mask R-CNN. In: Proceedings of the 2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE, 2017. 2980−2988
    [100] Liu W, Anguelov D, Erhan D, Szegedy C, Reed S, Fu C Y, et al. SSD: Single shot MultiBox detector. In: Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands: Springer, 2016. 21−37
    [101] Law H, Deng J. CornerNet: Detecting objects as paired keypoints. In: Proceedings of the 15th European Conference on Computer Vision (ECCV). Munich, Germany: Springer, 2018. 765−781
    [102] Zhou X Y, Wang D Q, Krähenbühl P. Objects as points. arXiv preprint arXiv: 1904.07850, 2019.
    [103] Lin T Y, Maire M, Belongie S, Hays J, Perona P, Ramanan D, et al. Microsoft COCO: Common objects in context. In: Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland: Springer, 2014. 740−755
    [104] Lin T Y, Goyal P, Girshick R, He K M, Dollár P. Focal loss for dense object detection. In: Proceedings of the 2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE, 2017. 2999−3007
    [105] Cai Z W, Vasconcelos N. Cascade R-CNN: Delving into high quality object detection. In: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 6154−6162
    [106] Zhang S F, Chi C, Yao Y Q, Lei Z, Li S Z. Bridging the gap between anchor-based and anchor-free detection via adaptive training sample selection. In: Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, USA: IEEE, 2020. 9756−9765
    [107] Chen Y H, Zhang Z, Cao Y, Wang L W, Lin S, Hu H. RepPoints v2: Verification meets regression for object detection. In: Proceedings of the Advances in Neural Information Processing Systems 33: Annual Conference on Neural Information Processing Systems 2020. 2020.
    [108] Sun P Z, Zhang R F, Jiang Y, Kong T, Xu C F, Zhan W, et al. Sparse R-CNN: End-to-end object detection with learnable proposals. In: Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, USA: IEEE, 2021. 14449−14458
    [109] Yao Z Y, Ai J B, Li B X, Zhang C. Efficient DETR: Improving end-to-end object detector with dense prior. arXiv preprint arXiv: 2104.01318, 2021.
    [110] Gao P, Zheng M H, Wang X G, Dai J F, Li H S. Fast convergence of DETR with spatially modulated co-attention. In: Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision (ICCV). Montreal, Canada: IEEE, 2021. 3601−3610
    [111] Meng D P, Chen X K, Fan Z J, Zeng G, Li H Q, Yuan Y H, et al. Conditional DETR for fast training convergence. In: Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision (ICCV). Montreal, Canada: IEEE, 2021. 3631−3640
    [112] Dai Z G, Cai B L, Lin Y G, Chen J Y. UP-DETR: Unsupervised pre-training for object detection with transformers. In: Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, USA: IEEE, 2021. 1601−1610
    [113] Zheng M H, Gao P, Zhang R R, Li K C, Wang X G, Li H S, et al. End-to-end object detection with adaptive clustering transformer. arXiv preprint arXiv: 2011.09315, 2020.
    [114] Fang Y X, Liao B C, Wang X G, Fang J M, Qi J Y, Wu R, et al. You only look at one sequence: Rethinking transformer in vision through object detection. arXiv preprint arXiv: 2106.00666, 2021.
    [115] Sun Z Q, Cao S C, Yang Y M, Kitani K. Rethinking transformer-based set prediction for object detection. In: Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision (ICCV). Montreal, Canada: IEEE, 2021. 3591−3600
    [116] Tian Z, Shen C H, Chen H, He T. FCOS: Fully convolutional one-stage object detection. In: Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, Korea: IEEE, 2019. 9626−9635
    [117] Beal J, Kim E, Tzeng E, Park D H, Zhai A, Kislyuk D. Toward transformer-based object detection. arXiv preprint arXiv: 2012.09958, 2020.
    [118] Girshick R. Fast R-CNN. In: Proceedings of the 2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile: IEEE, 2015. 1440−1448
    [119] Minaee S, Boykov Y Y, Porikli F, Plaza A J, Kehtarnavaz N, Terzopoulos D. Image segmentation using deep learning: A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, DOI: 10.1109/TPAMI.2021.3059968
    [120] Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation. In: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, USA: IEEE, 2015. 3431−3440
    [121] Zheng S X, Lu J C, Zhao H S, Zhu X T, Luo Z K, Wang Y B, et al. Rethinking semantic segmentation from a sequence-to-sequence perspective with transformers. In: Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, USA: IEEE, 2021. 6877−6886
    [122] Xiao T T, Liu Y C, Zhou B L, Jiang Y N, Sun J. Unified perceptual parsing for scene understanding. In: Proceedings of the 15th European Conference on Computer Vision (ECCV). Munich, Germany: Springer, 2018. 432−448
    [123] Wang H Y, Zhu Y K, Adam H, Yuille A, Chen L C. MaX-DeepLab: End-to-end panoptic segmentation with mask transformers. In: Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, USA: IEEE, 2021. 5459−5470
    [124] Strudel R, Garcia R, Laptev I, Schmid C. Segmenter: Transformer for semantic segmentation. In: Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision (ICCV). Montreal, Canada: IEEE, 2021. 7242−7252
    [125] Cheng B W, Schwing A, Kirillov A. Per-pixel classification is not all you need for semantic segmentation. In: Proceedings of the 35th Conference on Neural Information Processing Systems (NeurIPS 2021). 2021.
    [126] Fang Y X, Yang S S, Wang X G, Li Y, Fang C, Shan Y, et al. QueryInst: Parallelly supervised mask query for instance segmentation. arXiv preprint arXiv: 2105.01928, 2021.
    [127] Hu J, Cao L J, Yan L, Zhang S C, Wang Y, Li K, et al. ISTR: End-to-end instance segmentation with transformers. arXiv preprint arXiv: 2105.00637, 2021.
    [128] Li Z Q, Wang W H, Xie E Z, Yu Z D, Anandkumar A, Alvarez J M, et al. Panoptic SegFormer: Delving deeper into panoptic segmentation with transformers. arXiv preprint arXiv: 2109.03814, 2022.
  • 期刊类型引用(66)

    1. 李玉洁,马子航,王艺甫,王星河,谭本英. 视觉Transformer(ViT)发展综述. 计算机科学. 2025(01): 194-209 . 百度学术
    2. 周建亭,宣士斌,王婷. 融合遮挡信息的改进DDETR无人机目标检测算法. 计算机工程与应用. 2024(01): 236-244 . 百度学术
    3. 张英俊,白小辉,谢斌红. CNN-Transformer特征融合多目标跟踪算法. 计算机工程与应用. 2024(02): 180-190 . 百度学术
    4. 王飞跃,王雨桐. 数字科学家与平行科学:AI4S和S4AI的本源与目标. 中国科学院院刊. 2024(01): 27-33 . 百度学术
    5. 彭斌,白静,李文静,郑虎,马向宇. 面向图像分类的视觉Transformer研究进展. 计算机科学与探索. 2024(02): 320-344 . 百度学术
    6. 田鑫驰,王亚刚,尹钟,陈浩. 整合卷积与高效自注意力机制的图像分类模型. 小型微型计算机系统. 2024(03): 684-691 . 百度学术
    7. 胡杰,昌敏杰,徐博远,徐文才. ConvFormer:基于Transformer的视觉主干网络. 电子学报. 2024(01): 46-57 . 百度学术
    8. 刘建华,王楠,白明辰. 手机室内场景要素实例化现实增强方法研究进展. 计算机工程与应用. 2024(07): 58-69 . 百度学术
    9. 王杨,李迎春,许佳炜,王傲,马唱,宋世佳,谢帆,赵传信,胡明. 基于改进Vision Transformer网络的农作物病害识别方法. 小型微型计算机系统. 2024(04): 887-893 . 百度学术
    10. 黄荣,宋俊杰,周树波,刘浩. 基于自监督视觉Transformer的图像美学质量评价方法. 计算机应用. 2024(04): 1269-1276 . 百度学术
    11. 缪青海,王兴霞,杨静,赵勇,王雨桐,陈圆圆,田永林,俞怡,林懿伦,鄢然,马嘉琪,那晓翔,王飞跃. 从基础智能到通用智能:基于大模型的GenAI和AGI之现状与展望. 自动化学报. 2024(04): 674-687 . 本站查看
    12. 田永林,王兴霞,王雨桐,王建功,郭超,范丽丽,沈甜雨,武万森,张红梅,朱正秋,王飞跃. RAG-PHI:检索增强生成驱动的平行人与平行智能. 智能科学与技术学报. 2024(01): 41-51 . 百度学术
    13. 林飞,王飞跃,田永林,丁显廷,倪清桦,王静,申乐. 平行药物系统:基于大语言模型和三类人的框架与方法. 智能科学与技术学报. 2024(01): 88-99 . 百度学术
    14. 苏宇. 大型语言模型的法律风险与治理路径. 法律科学(西北政法大学学报). 2024(01): 76-88 . 百度学术
    15. 刘新,刘冬兰,付婷,王勇,常英贤,姚洪磊,罗昕,王睿,张昊. 基于联邦学习的时间序列预测算法. 山东大学学报(工学版). 2024(03): 55-63 . 百度学术
    16. 陈俊英,李朝阳,席月芸,刘冲. ViT和注意力融合的类别不均衡PCB缺陷检测方法. 仪器仪表学报. 2024(04): 294-306 . 百度学术
    17. 范诗萌,孙炜,覃宇,覃业宝,胡曼倩,刘崇沛. 基于三分支混合特征提取的双目立体匹配算法. 机器人. 2024(04): 414-424 . 百度学术
    18. 邵攀,石卫超,秦道龙,张晓东,董婷,管宗胜. 集成CNN和Transformer的通道交互多层级融合变化检测. 测绘科学. 2024(05): 110-121 . 百度学术
    19. 陈天航,曾业战,邓倩,钟春良. 基于Transformer与信息融合的绝缘子缺陷检测方法. 电气技术. 2024(08): 11-17 . 百度学术
    20. 李广丽,叶艺源,吴光庭,李传秀,吕敬钦,张红斌. 联合多视角Transformer编码与在线融合互学习的乳腺癌病理图像分类模型. 电子学报. 2024(07): 2369-2381 . 百度学术
    21. 李俊仪,李向阳,龙朝勋,李海燕,李红松,余鹏飞. 基于多级区域选择与跨层特征融合的野生菌分类. 计算机工程. 2024(09): 179-188 . 百度学术
    22. 孙红,吴一凡,徐广辉,田鑫驰,朱江明. Rmcvit:一种融合卷积与自注意力的轻量级图像识别算法. 小型微型计算机系统. 2024(08): 1929-1934 . 百度学术
    23. 文思佳,张栋,赵伟强,孙瑞,尚佳童,雷涛. 融合CNN-Transformer的医学图像分割网络. 计算机与数字工程. 2024(08): 2452-2456 . 百度学术
    24. 王飞跃. 智能科技与K21教育:未来社会的未来学校与未来师生. 智能科学与技术学报. 2024(03): 281-283 . 百度学术
    25. 张志成,王静,张阳,田永林,张濛濛,吕宜生,王飞跃. OrthoGPT:面向精准诊疗的多模态骨科大模型. 智能科学与技术学报. 2024(03): 338-346 . 百度学术
    26. 朱守泰,李康宇,王西峰. 物流移动机器人的视觉全局定位方法研究. 制造业自动化. 2024(10): 100-104+120 . 百度学术
    27. 王林,刘景亮,王无为. 基于空洞卷积融合Transformer的无人机图像小目标检测方法. 计算机应用. 2024(11): 3595-3602 . 百度学术
    28. 韩宇超,同向前,邓亚平. 基于概率密度估计与时序Transformer网络的风功率日前区间预测. 中国电机工程学报. 2024(23): 9285-9296 . 百度学术
    29. 周慧,朱虹,陈澎. 基于可变形的多尺度自注意力特征融合SAR影像舰船识别. 大连海事大学学报. 2024(04): 110-118 . 百度学术
    30. 李文华,叶洪涛,罗文广,刘乙奇. 基于MHSA-LSTM的软测量建模及其在化工过程中的应用. 化工学报. 2024(12): 4654-4665 . 百度学术
    31. 任书玉,汪晓丁,林晖. 目标检测中注意力机制综述. 计算机工程. 2024(12): 16-32 . 百度学术
    32. 李翔,张涛,张哲,魏宏杨,钱育蓉. Transformer在计算机视觉领域的研究综述. 计算机工程与应用. 2023(01): 1-14 . 百度学术
    33. 田鑫驰,王亚刚,尹钟. FuseNet:应用于移动端的轻量型图像识别网络. 计算机应用研究. 2023(01): 288-293+298 . 百度学术
    34. 瞿定垚,王学. 基于Swin Transformer的家居垃圾分类系统. 电子制作. 2023(01): 67-74 . 百度学术
    35. Fei-Yue Wang,Jing Yang,Xingxia Wang,Juanjuan Li,Qing-Long Han. Chat with ChatGPT on Industry 5.0:Learning and Decision-Making for Intelligent Industries. IEEE/CAA Journal of Automatica Sinica. 2023(04): 831-834 . 必应学术
    36. 杜康宁,宁少慧,邓功也. 基于视觉Transformer的滚动轴承智能故障诊断. 组合机床与自动化加工技术. 2023(04): 96-99 . 百度学术
    37. 付忠广,王诗云,高玉才,周湘淇. 基于Mobile-VIT的旋转机械故障诊断方法. 汽轮机技术. 2023(02): 119-121+86 . 百度学术
    38. 卢经纬,郭超,戴星原,缪青海,王兴霞,杨静,王飞跃. 问答ChatGPT之后:超大预训练模型的机遇和挑战. 自动化学报. 2023(04): 705-717 . 本站查看
    39. 田永林,陈苑文,杨静,王雨桐,王晓,缪青海,王子然,王飞跃. 元宇宙与平行系统:发展现状、对比及展望. 智能科学与技术学报. 2023(01): 121-132 . 百度学术
    40. 李兰兰,周颖,林禹,尤梦翔,林美福,陈文新. 基于多模态图像构建CNN-ViT模型在弥漫性大B细胞淋巴瘤骨髓受累诊断中的应用. 中国医学影像学杂志. 2023(04): 390-394 . 百度学术
    41. 艾振华,臧升睿,陈敏,陈倩倩,迟洁茹,杨国为,于腾. 基于NATCA-Greater YOLO的航拍小目标检测. 青岛大学学报(工程技术版). 2023(02): 18-25 . 百度学术
    42. 李建,杜建强,朱彦陈,郭永坤. 基于Transformer的目标检测算法综述. 计算机工程与应用. 2023(10): 48-64 . 百度学术
    43. 杨海燕,李涛. ChatGPT教学应用:场景、局限与突破策略. 中国教育信息化. 2023(06): 26-34 . 百度学术
    44. 刘华平,郭迪,孙富春,张新钰. 基于形态的具身智能研究:历史回顾与前沿进展. 自动化学报. 2023(06): 1131-1154 . 本站查看
    45. 王敏,王培东. 基于深度学习的高分辨率遥感图像语义分割方法综述. 广州城市职业学院学报. 2023(02): 96-100 . 百度学术
    46. 丛晓峰,桂杰,贺磊,章军. 基于视觉多头注意力与跨层白化的水下图像增强网络. 模式识别与人工智能. 2023(05): 407-418 . 百度学术
    47. 吴珺,董佳明,刘欣,王春枝. 注意力优化的轻量目标检测网络及应用. 智能系统学报. 2023(03): 506-516 . 百度学术
    48. 熊聪,于安宁,高兴华,原森浩,曾孝平. 基于改进YOLOX的钢材表面缺陷检测算法. 电子测量技术. 2023(09): 151-157 . 百度学术
    49. 王飞跃. 平行医生与平行医院:ChatGPT与通用人工智能技术对未来医疗的冲击与展望. 协和医学杂志. 2023(04): 673-679 . 百度学术
    50. 杨乐,郭一鸣,霍勇博,任晓龙,林平远,张志宏. 改进YOLOv5在电力生产违规穿戴检测中的应用. 电力系统保护与控制. 2023(14): 160-168 . 百度学术
    51. 阳东升,卢经纬,李强,王飞跃. 超大预训练模型在指挥控制领域的应用与挑战. 指挥与控制学报. 2023(02): 146-155 . 百度学术
    52. 杜泉成,王晓,李灵犀,宁焕生. 行人轨迹预测方法关键问题研究:现状及展望. 智能科学与技术学报. 2023(02): 143-162 . 百度学术
    53. 黄峻,田永林,戴星原,王晓,平之行. 基于深度学习的自动驾驶多模态轨迹预测方法:现状及展望. 智能科学与技术学报. 2023(02): 180-199 . 百度学术
    54. 蒿敬波,阳广贤,肖湘江,陶阳. 基于Transformer模型的心音小波谱图识别. 计算机技术与发展. 2023(10): 189-194 . 百度学术
    55. 高皓章,唐友,辛鹏,朱国东. 基于TransUnet的田间杂草分割研究. 无线互联科技. 2023(15): 100-103 . 百度学术
    56. 周涛,党培,陆惠玲,侯森宝,彭彩月,师宏斌. 跨模态跨尺度跨维度的PET/CT图像的Transformer分割模型. 电子与信息学报. 2023(10): 3529-3537 . 百度学术
    57. 林峰,宁琪琳,朱智勤. 改进DAB-DETR算法的非规则交通对象检测. 现代电子技术. 2023(21): 141-148 . 百度学术
    58. 李伟文,缪小冬,顾曹雨,左朝杰. 融合点柱网络和DETR的三维复杂道路目标检测. 重庆理工大学学报(自然科学). 2023(11): 32-39 . 百度学术
    59. 刘富州,袁博文,吕桐,卢炳文,周杰,吴大明. 基于sViT的风电场集电线故障区段定位. 电工电气. 2023(12): 29-36+53 . 百度学术
    60. 刘金宇,杜健民. 基于视觉Transformer的荒漠草原微斑块识别. 信息技术与信息化. 2023(12): 200-203 . 百度学术
    61. 陈凡,宋文革,范誉瀚,陈塞. 基于CNN-Transformer融合模型的选煤厂振动筛上杂物语义分割研究. 煤炭工程. 2023(S1): 193-199 . 百度学术
    62. 王飞跃. 平行智能数字警察构建平行安全新格局:从平行警务到平安中国. 智能科学与技术学报. 2023(04): 431-435 . 百度学术
    63. 汪磊,何怡刚,谭畅. 基于DA-Transformer的风机叶片覆冰检测. 三峡大学学报(自然科学版). 2022(05): 1-8 . 百度学术
    64. Fei-Yue Wang. The DAO to MetaControl for MetaSystems in Metaverses: The System of Parallel Control Systems for Knowledge Automation and Control Intelligence in CPSS. IEEE/CAA Journal of Automatica Sinica. 2022(11): 1899-1908 . 必应学术
    65. 张文娟,杨皓哲,张彬,李秀杰. 考虑多时间尺度特征的城市轨道交通短时客流量预测模型. 交通运输系统工程与信息. 2022(06): 212-223 . 百度学术
    66. 王本礼,王也. 基于深度学习的遥感影像地类信息获取技术现状研究. 国土资源导刊. 2022(04): 74-80 . 百度学术

    其他类型引用(86)

  • 加载中
图(10) / 表(6)
计量
  • 文章访问数:  7071
  • HTML全文浏览量:  4562
  • PDF下载量:  6167
  • 被引次数: 152
出版历程
  • 收稿日期:  2022-01-11
  • 网络出版日期:  2022-03-28
  • 刊出日期:  2022-04-13

目录

/

返回文章
返回