2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于重组性高斯自注意力的视觉Transformer

赵亮 周继开

赵亮, 周继开. 基于重组性高斯自注意力的视觉Transformer. 自动化学报, 2023, 49(9): 1976−1988 doi: 10.16383/j.aas.c220715
引用本文: 赵亮, 周继开. 基于重组性高斯自注意力的视觉Transformer. 自动化学报, 2023, 49(9): 1976−1988 doi: 10.16383/j.aas.c220715
Zhao Liang, Zhou Ji-Kai. Vision Transformer based on reconfigurable Gaussian self-attention. Acta Automatica Sinica, 2023, 49(9): 1976−1988 doi: 10.16383/j.aas.c220715
Citation: Zhao Liang, Zhou Ji-Kai. Vision Transformer based on reconfigurable Gaussian self-attention. Acta Automatica Sinica, 2023, 49(9): 1976−1988 doi: 10.16383/j.aas.c220715

基于重组性高斯自注意力的视觉Transformer

doi: 10.16383/j.aas.c220715
基金项目: 国家自然科学基金(51209167, 12002251), 陕西省自然科学基金(2019JM-474), 陕西省岩土与地下空间工程重点实验室开放基金(YT202004), 陕西省教育厅服务地方专项计划(22JC043)资助
详细信息
    作者简介:

    赵亮:西安建筑科技大学信息与控制工程学院教授. 主要研究方向为智能建筑检测, 计算机视觉和模式识别. 本文通信作者. E-mail: zhaoliang@xauat.edu.cn

    周继开:西安建筑科技大学信息与控制工程学院硕士研究生. 主要研究方向为图像处理和目标检测. E-mail: m18706793699@163.com

Vision Transformer Based on Reconfigurable Gaussian Self-attention

Funds: Supported by National Natural Science Foundation of China (51209167, 12002251), Natural Science Foundation of Shaanxi Province (2019JM-474), Open Fund Project of Key Laboratory of Geotechnical and Underground Space Engineering in Shaanxi Province (YT202004), and Shaanxi Provincial Department of Education Service Local Special Plan Project (22JC043)
More Information
    Author Bio:

    ZHAO Liang Professor at College of Information and Control Engineering, Xi'an University of Architecture and Technology. His research interest covers intelligent building detection, computer vision and pattern recognition. Corresponding author of this paper

    ZHOU Ji-Kai Master student at College of Information and Control Engineering, Xi'an University of Architecture and Technology. His research interest covers image processing and object detection

  • 摘要: 在目前视觉Transformer的局部自注意力中, 现有的策略无法建立所有窗口之间的信息流动, 导致上下文语境建模能力不足. 针对这个问题, 基于混合高斯权重重组(Gaussian weight recombination, GWR)的策略, 提出一种新的局部自注意力机制SGW-MSA (Shuffled and Gaussian window-multi-head self-attention), 它融合了3种不同的局部自注意力, 并通过GWR策略对特征图进行重建, 在重建的特征图上提取图像特征, 建立了所有窗口的交互以捕获更加丰富的上下文信息. 基于SGW-MSA设计了SGWin Transformer整体架构. 实验结果表明, 该算法在mini-imagenet图像分类数据集上的准确率比Swin Transformer提升了5.1%, 在CIFAR10图像分类实验中的准确率比Swin Transformer提升了5.2%, 在MS COCO数据集上分别使用Mask R-CNN和Cascade R-CNN目标检测框架的mAP比Swin Transformer分别提升了5.5%和5.1%, 相比于其他基于局部自注意力的模型在参数量相似的情况下具有较强的竞争力.
  • 目前计算机视觉领域使用的方法有两大类, 分别是卷积神经网络(Convolutional neural networks, CNN)和Transformer. 其中CNN是图像分类[1]、目标检测[2]和语义分割[3]等计算机视觉任务的主流方法, 自AlexNet[4]诞生并在ImageNet图像分类挑战中获得冠军以后, 研究者们开始通过各种方法设计卷积神经网络, 使得网络变得更深、更密集、更复杂[5-8], 在随后的几年内出现了很多经典的卷积神经网络. VGGNet[5]探索了CNN的深度及性能之间的关系, 通过使用很小的卷积叠加增加网络的深度达到提升网络精度的效果; DenseNet[6]通过从特征图的角度入手, 为每一个模块加入密集连接达到了更好的性能和更少的参数量; ResNet[7]通过引入残差结构解决了随着网络层数的加深出现梯度消失的问题; GoogLeNet[9]使用密集成分来近似最优的稀疏结构, 在提升性能的同时不增加计算量; EfficientNet[10]提出了一种多维度混合的模型缩放方法, 可以同时兼顾模型的精度以及速度. 在CNN模型性能越来越强的同时, 另一类视觉Transformer的方法横空出世. Transformer由于其自注意力模块具有捕捉长距离依赖[11]的能力广泛被应用于自然语言处理的任务中, 而后被用到了计算机视觉任务中并取得了比CNN方法更优的效果. 在文献[12-15]中将自注意力模块嵌入到CNN中并应用于图像分类、目标检测和语义分割等计算机视觉任务中. Vision Transformer (ViT)[16]不使用卷积神经网络而是通过将图像序列化的方法首次将Transformer架构应用到图像领域中, 并且在ImageNet数据集上取得了比ResNet更好的效果, 而后在短时间内被引入改进[17-20]并应用于各种图像领域的各种下游任务[21-24]. 但是Transformer的复杂度成为了其性能最大的瓶颈, 为了减小因全局自注意力引起的二次复杂度, 现有的方法较多使用局部自注意力机制. 目前现有的局部自注意力机制主要有7类(如图1所示).

    1) 目前几乎所有的基于局部自注意力的Transformer模型都会使用常规窗口自注意力(Window-multi-head self-attention, W-MSA), 通过W-MSA与其他类型的局部自注意力交替使用来建立窗口之间的通信, 如图1(a)所示.

    图 1  现有局部自注意力方法
    Fig. 1  Existing local self-attention methods

    2) HaloNet[25]通过对窗口进行缩放的操作来收集窗口之外的信息并建立跨窗口的信息交互, 如图1(b)所示.

    3) Swin Transformer通过在连续的局部注意力层之间移动窗口的分区建立跨窗口之间的信息通信缓解感受野受限的问题, 如图1(c)所示.

    4) CrossFormer[26]提出了跨尺度嵌入层和长短注意力, 有效地建立了长远距离的跨窗口的连接.

    5) Shuffle Transformer[27]在连续的局部自注意力层之间加入空间shuffle的操作, 以提供长距离窗口之间的连接并增强建模能力.

    6) GG Transformer[28]受到了人类在自然场景中识别物体的Glance和Gaze行为的启发, 能够有效地对远程依赖性和局部上下文进行建模, 4) ~ 6)这3种局部注意力可统一归为图1(d)的形式.

    7) Axial-DeepLab[29]将二维自注意力分解为横向和纵向两个一维的自注意力, 如图1(e)所示.

    8) CSWin Transformer[30]提出了一种在“十”字等宽窗口内计算自注意力的方式(Cross-shaped window self-attention), 通过横条和纵条窗口自注意力并行实现, 如图1(f)所示.

    9) Pale Transformer[31]提出了“十”字等间隔窗口自注意力(Pale-shaped-attention, PS-Attention), 如图1(g)所示.

    图1展示了现有的局部自注意力方法. 不同的颜色表示不同的窗口, 在每个窗口内执行计算自注意力, 并通过引入各种策略来建立跨窗口之间的连接. 这些工作虽然取得了优异的性能, 甚至优于一些最新的CNN的方法, 但是每个自注意力层中的依赖性仍然具有局限性, 具体表现在当特征图很大时, 通过有间隔的采样点组成的窗口无法建立所有窗口之间的信息流动导致了模型捕获的上下文语义信息的能力不足. 针对上述问题, 本文提出了一种高斯窗口自注意力机制(Gaussian window-multi-head self-attention, GW-MSA), 它包括纵向高斯窗口自注意力(Vertical Gaussian window-multi-head self-attention, VGW-MSA)和横向高斯窗口自注意力(Horizontal Gaussian window-MSA, HGW-MSA)两种类型的局部自注意力. GW-MSA与图1(d)中的Shuffled W-MSA联合组成了SGW-MSA, 有效地捕捉更丰富的上下文依赖, 如图2所示, 不同颜色的点代表不同的窗口组成, 在GW-MSA中, 通过混合高斯权重重组GWR策略重构特征图, 并在重构后的特征图上计算局部自注意力. 本文在Swin Transformer结构的基础上, 引入SGW-MSA设计了SGWin Transformer模型, 在公开数据集CIFAR10、mini-imagenet、KITTI、PASCAL VOC和MS COCO上进行了实验, 实验结果表明SGWin Transformer在图像分类和目标检测的任务上优于其他同等参数量的基于局部自注意力的Transformer网络.

    图 2  局部自注意力组合
    Fig. 2  Local self-attention combination

    Swin Transformer提出了一种新的基于Transformer的视觉主干网络, 自注意力的计算在局部非重叠窗口内进行. 一方面可以将复杂度从之前的和图像大小成平方的关系变成线性关系, 并且采用非重叠局部窗口, 大大减小了计算量; 另一方面在不同的注意力层之间采用移动窗口的操作, 使得不同窗口之间的信息可以交换. 并且由于性能超越了参数量相似的CNN主干, 推动了Transformer成为了视觉主干网络的新主流, 在近两年出现了越来越多基于局部自注意力机制的视觉Transformer方法, 然而目前的各种局部自注意力建立远距离跨窗口连接策略具有一定的局限性. 当特征图很大时, 现有的窗口连接的策略无法建立所有窗口之间的信息流动导致无法捕捉足够的上下文信息. 假设特征图的高和宽分别为$ h $和$ w $, 局部窗口的高和宽分别为$ W_h $和$ W_w $, 对于特征图上划分的某一个局部窗口, 该窗口在纵向和横向可以建立最近窗口连接的距离分别为:

    $$ d^h_{\text{min}} = \mathop {\max } {\left( {{0},{\frac{h}{W_h} - W_h + 1}} \right) } $$ (1)
    $$ d^w_{\text{min}} = \mathop {\max } {\left( {{0},{\frac{w}{W_w} - W_w + 1}} \right) } $$ (2)

    在纵向和横向可以建立最远窗口连接的距离分别为:

    $$ d^h_{\text{max}} = \frac{h}{W_h} {\left( {W_h - 1} \right) } + W_h $$ (3)
    $$ d^w_{\text{max}} = \frac{w}{W_w} {\left( {W_w - 1} \right) } + W_w $$ (4)

    所以具有4种不能建立窗口连接的情况: 1)$d^h_{\text{min}} > W_h$; 2)$ d^w_{\text{min}}>W_w $; 3)$ d^h_{\text{max}}<h-W_h $; 4)$d^w_{\text{max}} < w- W_w$. 当$ h,w,W_h,W_w $之间的关系满足式(5) ~ 式(7)中的一种情况时就会出现特征图过大导致无法建立所有窗口之间信息交互的情况. 当满足式(5)或式(6)时, 窗口之间的纵向距离或者横向距离分别大于$ d^h_{\text{max}} $和$ d^w_{\text{max}} $时无法建立连接, 当满足式(7) 中的情况时, 窗口之间的纵(横)向距离小于$ d^h_{\text{min}} \;(d^w_{\text{min}}) $或者大于$ d^h_{\text{max}}\; (d^w_{\text{max}}) $都无法建立连接.

    $$ 2W_h ^ 2 - W_h < h \leq 2W_h ^2 -1 $$ (5)
    $$ 2W_w ^ 2- W_w < w \leq 2W_w ^ 2 - 1 $$ (6)
    $$ h > 2W_h ^ 2 - 1 \;或\; w > 2W_w ^ 2 - 1 $$ (7)

    为了解决当特征图过大时现有的局部自注意力机制无法建立所有窗口之间的信息交互的问题, 本文提出了一种新的局部自注意力机制SGW-MSA, 并在Swin Transformer的基础上将所有的移动窗口自注意力SW-MSA替换为SGW-MSA得到一种新的SGWin Transformer模型, 模型的整体架构如图3(a) 所示. 主干网络符合标准的视觉分层Transformer的PVT[32]的结构, 该设计包含了4个阶段的金字塔结构, 每个阶段由Patch embed或Patch merging和多个SGWin Transformer block串联组合而成. 如图3(b)所示, 每个SGWin Transformer block由两组结构串联组成, 第一组结构包括一个W-MSA模块和一个MLP, 第二组结构由一个SGW-MSA模块和一个MLP模块组成, MLP对输入特征图进行非线性化的映射得到新的特征图, SGW-MSA局部自注意力机制的示意图如图3(c)所示. 整个模型的计算过程为: 输入图片通过Patch embed将输入图像下采样4倍, 并得到指定通道数的特征图, 特征图会被送入Stage 1的SGWin Transformer block中, 通过W-MSA、SGW-MSA模块提取局部特征和图像中的上下文信息并建立所有窗口之间的信息流通, Stage 1最后一个SGWin Transformer block的输出会被送入Stage 2中, 除Stage 1之外的所有Stage会通过一个Patch merging将上一个阶段输出的特征图尺寸降采样两倍(宽和高变为原来的二分之一), 通道维度变为原来的两倍. 整个网络之后可以接一个Softmax层和一个全连接层用于图像分类任务, 并且每个阶段的特征图可输入到目标检测的FPN[33]部分中进行多尺度目标检测.

    图 3  SGWin Transformer整体架构
    Fig. 3  Overall architecture of SGWin Transformer

    当出现式(5)或式(6)中的情况时, 两个窗口之间的纵(横)向距离大于一定值时就无法建立连接. 当出现式(7)中的情况时, 两个窗口之间的纵(横)向距离大于或小于一定值时都无法建立连接. 因此式(7) 中的问题包含式(5)和式(6)存在的问题. 仅考虑式(7)中的情况, 将纵向无法建立窗口连接的两个距离分别记为$ d^h_{\text{min}} $和$ d^h_{\text{max}} $, 将横向无法建立窗口连接的两个距离分别记为$ d^w_{\text{min}} $和$ d^w_{\text{max}} $. 如图4所示, 为了能够建立所有窗口之间的信息交互, SGW-MSA将输入特征图在通道上均匀拆分成3组, 对第一组特征图使用现有的Shuffled W-MSA等间隔采样点组成窗口用于纵(横)向距离大于$ d^h_{\text{min}}\; (d^w_{\text{min}}) $且小于$ d^h_{\text{max}}\; (d^w_{\text{max}}) $窗口之间的联系; 后两份特征图分别使用横向高斯窗口自注意力HGW-MSA和纵向高斯窗口自注意力VGW-MSA计算局部自注意力, 建立Shuffled W-MSA未能建立的窗口的联系. 最后将3个部分的局部自注意力计算结果在通道上进行合并得到最终的输出结果.

    图 4  SGW-MSA局部自注意力示意图
    Fig. 4  SGW-MSA local self-attention diagram
    1.3.1   GW-MSA局部自注意力机制

    GW-MSA可用于建立Shuffled W-MSA未能建立的窗口连接, 分为VGW-MSA和HGW-MSA两种不同的形式. 如图5所示, 每个形式的GW-MSA由混合高斯权重重组GWR模块、常规局部自注意力W-MSA和逆混合高斯权重重组(re Gaussian weight recombination, reGWR)模块3个部分组成, 其中GWR是本文为了建立纵(横)向距离小于$ d_{\text{min}}^h\left(d_{\text{min}}^w\right) $或者大于$ d_{\text{max}}^h\left(d_{\text{max}}^w\right) $窗口之间的信息交互提出的一种特征图重组的策略.

    图 5  GW-MSA局部自注意力示意图
    Fig. 5  GW-MSA local self-attention diagram

    假设特征图的高和宽分别为$ h $和$ w $, 局部窗口的高和宽分别为$ W_h $和$ W_w $. GWR会将输入特征图划分成多个长条形状的基础元素块(Basic element block, BEB), 计算纵向的VGW-MSA时将特征图按高切分成若干份高宽分别为$ W_b\;(W_b<W_h) $和$ w $的横条基础元素块, 如图6(a)所示. 计算横向的HGW-MSA时将特征图按宽切分成高宽分别为$ h $和$ W_b\;(W_b<W_w) $的竖条基础元素块, 如图6(b)所示. 当$ h $或$ w $不能整除$ w_b $时, 取最大可以整除$ W_b $的长度作为重组区域.

    图 6  纵横向基础元素块示意图
    Fig. 6  Schematic diagram of vertical and horizontal basic element block

    为所有的基础元素块建立高斯权重分布表, 结合高斯权重分布表尽可能使距离小于$ d_{\text{min}}^h \left(d_{\text{min}}^w\right) $或者大于$ d_{\text{max}}^h\left(d_{\text{max}}^w\right) $的基础元素块放在一起用于重组特征图. 然后在重组后的特征图上使用W-MSA计算局部自注意力. 高斯权重分布表由一维高斯分布公式得到:

    $$ f(x) = A\cdot \text{exp}\left(-\frac{(x-\mu)^2}{2\sigma^2} \right)$$ (8)

    式中$ A $代表权重的幅值, $\mu $表示均值, $ \sigma^2 $为方差. GWR策略的思想就是根据高斯分布的特性. 如图6(c)和图6(d)所示, 纵向基础元素块越靠近图像上边缘或下边缘, 权重越小; 横向基础元素块越靠近左边缘和右边缘, 权重越小. 权重越高的基础元素块对应图像中的位置颜色越亮, 代表对应位置的权重越高; 权重越低的基础元素块对应图像中的位置颜色越暗, 代表对应位置的权重越低. 将特征图上的每一个基础元素块看作一个点, 以特征图中心的基础元素块为原点建立坐标系, 依据每个基础元素块在坐标系中的位置可以被赋予一个对应的高斯分布权重, 纵向和横向的中心基础元素块的位置坐标记为$ cx = \left({h}/ {2W_b}\;或\;{w}/ {2W_b}\right) $, 对于任意$ x $位置下的基础元素块对应的高斯权重分布遵循下式:

    $$ \text{Weight}(x) = \text{exp}\left(-\left(\frac{x-cx}{cx}\right)^2 \frac{1}{2\sigma^2}\right) $$ (9)

    式中的$ \sigma $取值为1.5, 分子部分除以$ cx $是为了控制权重不会过小而约等于0. 为了尽可能将权重近似的基础元素块放在一起, 本文采用了带权重的随机抽样$ A\text{-}ExpJ $[34]依据每一个基础元素块的索引以及对应的权重进行随机抽样, 最后将所有基础元素块的索引按照抽样的顺序进行排列得到新的重组后的特征图. 假设将特征图划分成基础元素块的序列索引为$ idx = \left[{{1},{2},{\cdots},{n}}\right] $, 其中$ n = {h}/ {W_b}\;或\;{w}/ {W_b} $; 基础元素块的高斯权重分布表为$W = [{W_1},{W_2},{\cdots}, {W_n}]$, 其中$ n = {h}/ {W_b}\;或\;{w}/ {W_b} $; 重组的索引$ idx_{\text{new}} $可以由式(10)得到, 其中$ n $表示通过权重抽样的个数. A-ExpJ表示带权重的随机抽样函数. 最后按照新的基础元素块的索引对特征图进行重组得到GWR策略的输出结果.

    $$ idx_{\text{new}} = A\text-ExpJ\left({{idx},{W},{n}}\right) $$ (10)
    1.3.2   SGW-MSA的计算过程

    假设输入特征图为$ X\in {{\bf{R}}} ^{h\times w\times c} $, SGW-MSA首先将输入特征图$ X $在通道上切分成3个部分, 第一个部分的特征图记为$ X_S\in {{\bf{R}}}^{h\times w\times \frac{c}{3}} $, 第二个部分的特征图记为$ X_V\in {{\bf{R}}}^{h\times w\times \frac{c}{3}} $, 第三个部分的特征图记为$ X_H\in {{\bf{R}}}^{h\times w\times \frac{c}{3}} $. 对$ X_S $使用Shuffled W-MSA在特征图上使用等间隔采样点组成窗口, 并在所有的窗口内部计算自注意力. 对$ X_V $和$ X_H $分别使用纵向和横向的GWR策略对特征图进行重组, 并在重组的特征图上使用W-MSA计算局部自注意力. 具体计算过程如下.

    首先在$ X_S $上通过等间隔采样特征点形成多个具有相同尺寸$ \left({{W_h},{W_w}}\right) $的窗口:

    $$ X_S = \left[{{X^1_S},{X^2_S},{\cdots},{X^N_S}}\right] $$ (11)

    其中$ X^i_S \in {{\bf{R}}}^{h\times w\times \frac{c}{3}} $, $ i\in \left[{{1},{2},{\cdots},{N}}\right] $, 窗口的总数$ N = {h\cdot w}/ ({W_h\cdot W_w}) $. 然后使用GWR策略对$ X_V $和$ X_H $进行重组, 将重组后的$ X_V $和$ X_H $拆分成多个具有相同尺寸$ \left({{W_h},{W_w}}\right) $的窗口:

    $$ X_V = \left[{{X^1_V},{X^2_V},{\cdots},{X^N_V}}\right] $$ (12)
    $$ X_H = \left[{{X^1_H},{X^2_H},{\cdots},{X^N_H}}\right] $$ (13)

    其中$ X^i_V\in {{\bf{R}}}^{W_h\times W_w\times \frac{c}{3}} $, $ X^i_H\in {{\bf{R}}}^{W_h\times W_w\times \frac{c}{3}} $, $ i\in [{1},{2}, {\cdots},{N}] $, 窗口的总数$ N = {h\cdot w}/({W_h\cdot W_w}) $. 当$ h\cdot w $不能被$ W_h\cdot W_w $整除时, 可以对特征图进行填充或者插值的方法确保$ h\cdot w $可以被$ W_h\cdot W_w $整除.

    每一个窗口内部单独计算局部自注意力. 在计算局部自注意力时, 使用3个全连接层$ \ell_Q,\ell_K,\ell_V $计算得到Q (Qurey), K (Key), V (Value), 计算式如下:

    $$ Y^i_S = MSA\left(\ell_Q\left(X^i_S\right),\ell_K\left(X^i_S\right),\ell_V\left(X^i_S\right)\right) $$ (14)
    $$ Y^i_V = MSA\left(\ell_Q\left(X^i_V\right),\ell_K\left(X^i_V\right),\ell_V\left(X^i_V\right)\right) $$ (15)
    $$ Y^i_H = MSA\left(\ell_Q\left(X^i_H\right),\ell_K\left(X^i_H\right),\ell_V\left(X^i_H\right)\right) $$ (16)

    其中$ i\in [1,2,\cdots,N] $, $ MSA $表示Multi-head self-attention[33]. 最后将所有的局部自注意力的计算结果在空间上进行合并得到新的特征图:

    $$ Y_S = [Y^1_S,Y^2_S, \cdots, Y^N_S] $$ (17)
    $$ Y_V = [Y^1_V,Y^2_V, \cdots, Y^N_V] $$ (18)
    $$ Y_H = [Y^1_H,Y^2_H, \cdots, Y^N_H] $$ (19)

    因为GWR策略将原有的特征图根据新的基础元素块的顺序进行了重组, 所以需要将$ Y_V $和$ Y_H $依据原先的基础元素块的顺序进行还原. 将两个部分的局部自注意力计算结果在通道上进行合并, 得到最终的输出结果, 如式(20)所示, 其中$ Concat $表示在通道上进行合并.

    $$ Y = Concat(Y_S, Y_V, Y_H) $$ (20)
    1.3.3   计算复杂度分析

    对于给定的尺寸为$ {{\bf{R}}}^{h\times w\times c} $的特征图, 局部窗口的尺寸为$ (W_h\times W_w) $, 用$ {\cal{O}} $表示复杂度. 标准的全局自注意力(Global self-attention)的计算复杂度如式(21) 所示:

    $$ {\cal{O}}_{\text{Global}} = 4hwc^2 + 2c(hw)^2 $$ (21)

    SGW-MSA的计算复杂度如式(22)所示

    $$ {\cal{O}}_{\text{SGW}} = 4hwc^2 + 2W_wW_hhwc $$ (22)

    其中$ W_w,W_h $分别为局部窗口的宽和高. 对比式(9)和式(10), 因为$ S_wS_h \ll hw $, 所以$ {\cal{O}}_{\text{SGW}}\ll {\cal{O}}_{\text{Global}} $, 即SGW-MSA的计算复杂度远小于全局自注意力的计算复杂度.

    SGWin Transformer block由两组结构串联组成. 如图7所示, 第一组结构包括一个W-MSA模块和一个多层感知机模块MLP, 第二组结构由一个SGW-MSA模块和一个MLP模块组成, MLP对输入特征图进行非线性化的映射得到新的特征图, W-MSA用于捕捉特征图的局部自注意力, SGW-MSA用于捕捉局部自注意力并建立所有窗口之间的信息流通. 整个SGWin Transformer block的向前传播式如下:

    $$ \hat{x}^l = \text{W-MSA}(\text{LN}(x^{l-1}))+x^{l-1} $$ (23)
    $$ x^l = \text{MLP}(\text{LN}(\hat{x}^l)+\hat{x}^l) $$ (24)
    $$ \hat{x}^{l+1} = \text{SGW-MSA}(\text{LN}(x^l))+x^l $$ (25)
    $$ x^{l+1} = \text{MLP}(\text{LN}(\hat{x}^{l+1}))+\hat{x}^{l+1} $$ (26)

    其中$ x^{l-1} $为前一个Patch embed或者Patch merging或者SGWin Transformer block的输出, $ \hat{x}^l $和$ x^l $分别代表(SG)W-MSA模块和MLP模块的输出, LN代表LayerNorm.

    图 7  SGWin Transformer block结构示意图
    Fig. 7  Structure diagram of SGWin Transformer block

    SGWin Transformer的超参数配置与Swin Transformer相同, 如表1所示. 其中Stage = $ i $表示SGWin Transformer模型的第$ i $个阶段. Stride表示SGWin Transformer模型在每个阶段下采样的倍数. Layer表示当前阶段的模块名字, 一个阶段包含两个模块, Patch embed和Patch merging负责对特征图进行下采样, 下采样的倍数分别为4和2, Patch embed和Patch merging的输出会被送入后续的Transformer block中提取局部自注意力并进行特征的映射, 在最后一个Transformer block后接一个平均池化层和全连接层可用于图像分类任务, 或者将每一层的特征图输出可用于目标检测任务. 模型的第$ i $个Stage的模型的超参数定义如下:

    表 1  SGWin Transformer的超参数配置表
    Table 1  Super parameter configuration table of SGWin Transformer
    StageStrideLayerParameter
    14Patch embed$\begin{aligned} P_1 = 4\;\;\\ C_1 = 96\end{aligned}$
    Transformer block${\left[\begin{aligned} S_1 = 7\\H_1 = 3\\R_1 = 4\end{aligned}\right ]}\times{2}$
    28Patch merging$\begin{aligned} P_2 = 2\;\;\;\\C_2 = 192\end{aligned}$
    Transformer block${\left[\begin{aligned} S_2 = 7\\H_2 = 6\\R_2 = 4\end{aligned}\right ]}\times{2}$
    316Patch merging$\begin{aligned} P_3 = 2\;\;\;\\C_3 = 384\end{aligned}$
    Transformer block${\left[\begin{aligned} S_3 = 7\;\;\\H_3 = 12\\R_3 = 4\;\;\end{aligned}\right ]}\times{2}$
    432Patch merging$\begin{aligned} p_4 = 2\;\;\;\\C_4 = 768\end{aligned}$
    Transformer block${\left[\begin{aligned} S_4 = 7\;\;\\H_4 = 24\\R_4 = 4\;\;\end{aligned}\right ]}\times{2}$
    下载: 导出CSV 
    | 显示表格

    $ 1) $ $ P_i $. 第$ i $个Stage的输入特征图下采样的倍数, 第一个Stage下采样的倍数是4, 其余3个Stage的下采样倍数为2;

    $ 2) $ $ C_i $. 第$ i $个Stage的输入特征图下采样后新特征图的通道数;

    $ 3) $ $ S_i $. 第$ i $个Stage的Transformer block中计算局部自注意力的窗口大小;

    $ 4) $ $ H_i $. 第$ i $个Stage的Transformer block中多头自注意力机制的Head数量;

    $ 5) $ $ R_i $. 第$ i $个Stage的Transformer block中MLP模块的通道扩展比.

    本文分别在图像分类数据集CIFAR10[35]以及目标检测数据集KITTI[36]、PASCAL VOC[37]、MS COCO[38]上进行了实验, 与其他参数量相似且具有代表性的基于局部自注意力的Transformer的模型进行了对比, 并通过消融实验分析验证了本文提出的局部自注意力机制SGW-MSA模块的有效性.

    热力图通常是对类别进行可视化的图像, 表示着模型特征提取的能力. 图8展示了本文算法与基线算法Swin Transformer的热力图对比, 第一行是原图, 第二行是Swin Transformer的热力图, 第三行是SGWin Transformer的热力图. (a)、(b)、(c)列的对比可以看出SGWin Transformer比Swin Transformer热力图覆盖的目标范围更全面; (d)列的对比可以看出SGWin Transformer比Swin Transformer的定位更准确且小目标检测能力更强. 所以SGWin Transformer算法比Swin Transformer算法的目标定位更加准确, 也验证了本文提出的SGW-MSA局部自注意力机制的有效性. 此外SGWin Transformer对小目标检测的性能也有一定提升.

    图 8  本文算法与Swin Transformer的热力图对比
    Fig. 8  Comparison between the algorithm in this paper and the thermal diagram of Swin Transformer

    为了验证SGW-MSA模块的有效性, 首先在MS COCO数据集上进行了消融实验分析. 实验使用mmdetection[39]目标检测库以及Mask R-CNN[40]目标检测框架, 将主干网络替换为Swin Transformer, 然后依次将本文改进的策略加入到Swin Transformer中进行实验, 优化器采用对超参数不敏感的AdamW[41]优化算法更新参数, 训练Epoch为12, 初始学习率为1×10−4, 在第8 Epoch和第11 Epoch结束时分别衰减10倍, 评价指标采用目标检测平均精度$ AP^b $以及实例分割平均精度$ AP^m $.

    2.2.1   GWR策略超参数消融实验分析

    GWR策略通过横条和竖条状的基础元素块重组特征图来建立距离小于$ d_{\text{min}}^h\; (d_{\text{min}}^w ) $或者大于$ d_{\text{max}}^h\; (d_{\text{max}}^w) $的窗口的连接, 对于基础元素块的宽度$ W_b $的设置会直接影响重组后的特征图的结果, 也会对网络的性能造成影响. 为了验证$ W_b $($ W_b $小于局部窗口的宽和高)的最佳取值, 本文在默认窗口大小为$ 7\times 7 $的情况下, $ W_b $的值从1到6取值进行对比实验, 在不使用预训练模型的情况下, 实验结果如表2所示.

    表 2  基础元素块宽度消融实验对比
    Table 2  Comparison of ablation experiments of basic element block width
    $W_b$$AP^b\;(\%)$$AP^m\;(\%)$
    134.231.9
    234.932.5
    335.833.2
    436.333.7
    535.532.4
    634.732.0
    下载: 导出CSV 
    | 显示表格

    表2中可以看出当基础元素块的宽度$ W_b $从1到6改变的过程中, 在1到4的区间内精度呈现上升趋势, 在4到6区间内精度呈现下降趋势, 在取值为4时模型的精度达到了最高, 达到了最好的效果, 所以本文的GWR策略中基础元素块的宽度确定为4.

    2.2.2   纵向VGW-MSA与横向HGW-MSA的消融实验分析

    在验证GW-MSA局部自注意力中包含的纵向VGW-MSA和横向HGW-MSA的有效性时, 本文依次将基线算法Swin Transformer的SW-MSA替换为Shuffled W-MSA、Shuffled W-MSA+VGW-MSA、Shuffled W-MSA+VGW-MSA+HGW-MSA, 逐步验证每个模块的有效性, 在不使用预训练模型的情况下, 实验结果如表3所示.

    表 3  SGW-MSA消融实验结果
    Table 3  SGW-MSA ablation experimental results
    序号方法$AP^b\;(\%)$$AP^m\;(\%)$
    ASW-MSA (baseline)30.829.5
    BShuffled W-MSA33.6 (+2.8)31.6 (+2.1)
    CB+VGW-MSA34.9 (+1.3)32.7 (+1.1)
    DC+HGW-MSA36.3 (+1.4)33.7 (+1.0)
    下载: 导出CSV 
    | 显示表格

    表3中可以看出本文算法的基线模型Swin Transformer使用SW-MSA局部自注意力的目标检测和实例分割的平均精度分别为30.8%和29.5%; 将SW-MSA替换为Shuffled W-MSA后精度分别提升了2.8%和2.1%; 将SW-MSA替换为Shuffled W-MSA与纵向高斯窗口自注意力VGW-MSA的结合后精度分别提升了1.3%和1.1%; 将SW-MSA替换为SGW-MSA (Shuffled W-MSA+VGW-MSA+HGW-MSA)后精度分别提升了1.4%和1.0%. 这些消融实验的数据进一步验证了本文提出的SGW-MSA局部自注意力机制的有效性.

    2.2.3   三种局部自注意力特征图融合的消融实验与分析

    为了更直观地感受到SGW-MSA联合3种自注意力机制的优势, 选用ImageNet中的图像分别可视化3种局部自注意力机制的注意力热力图. 输入图像采用$ 224\times 224 $像素的尺寸, 每一个stage中特征图的尺寸分别为$ 56\times 56,28\times 28,14\times 14, 7\times 7 $, 越靠后的stage可视化出的热力图覆盖的物体范围越大、效果越好, 但是考虑到最后一个stage特征图的尺寸为7×7等于局部自注意力机制的窗口大小, 此时的三个局部自注意力全部退化为全局自注意力. 因此选取第3个stage中最后一个SGWin Transformer block中SGW-MSA的3个自注意力的热力图进行可视化对比. 融合效果示意图如图9所示.

    图 9  融合效果示意图
    Fig. 9  Schematic diagram of fusion effect

    图9展示了各部分注意力机制的输出结果. 可以看到每一种注意力的关注部分都有所不同. Shuffled W-MSA建立固定距离的窗口连接, 对跳跃的关注目标和周围信息的联系比较敏感. VGW-MSA建立纵轴上任意距离的窗口连接, 对目标和纵向背景之间的联系比较敏感. HGW-MSA建立横轴上任意距离的窗口连接, 更关注目标和横向背景之间的联系. 因此, 相比于单一的局部自注意力机制, SGW-MSA通过融合3种自注意力机制的方式, 具有更优秀的上下文信息提取能力.

    2.3.1   CIFAR10图像分类实验

    CIFAR10数据集包含60 000张尺寸为$ 32$的彩色图片, 分为10个类别, 每一个类别有6 000张图像. 分为训练集50 000张, 测试集10 000张. 本文在训练集上训练模型, 并用测试集测试输出的Top1准确率(排名第一的类别与实际结果相符的准确率). 在训练模型时, 采用PyTorch深度学习框架和Timm图像分类库, 优化器采用了对超参数不敏感的AdamW[42], 学习率采用余弦退火[43]的方式, 初始的学习率设置为$ 1\times 10^{-3} $, 最小学习率为$ 1\times 10^{-6} $, warmup学习率为$ 1\times 10^{-4} $, warmup Epoch设置为3, 权重衰减率为$ 2\times 10^{-5} $, 动量为0.9, 数据增强采用随机裁剪和水平随机翻转. 训练总轮数为130 Epoch, 在120个Epoch之后保持最低学习率继续训练10 Epoch. 损失函数采用标准的交叉熵分类损失函数. 在不使用预训练模型的情况下, 所有的模型均在一张RTX2070的GPU上训练, 基础配置采用表1中的配置. 因为CIFAR10数据集中的图像较小, 所以配置中的窗口大小$ S_i $设置为3; 4个阶段的通道数$ C_i $分别对应$ [32, 64,128,256] $; 4个阶段Transformer block的Head数量$ H_i $分别设置为$ [2, 4, 8, 16] $; SGWin Transformer的基础元素块的宽度$ W_b $设置为1. 表4展示了参与对比的模型在CIFAR10数据集上的实验结果. 可以看出本文所设计的SGWin Transformer在参数量相当的情况下的性能明显优于现有具有代表性的其他基于局部自注意力的Transformer模型. Top1准确率比目前最先进的Pale Transformer提升0.41%, 相比于基线算法Swin Transformer, SGWin Transformer在参数量相同的情况下, 仅仅通过替换SW-MSA为SGW-MSA就达到了5.2%的提升, 验证了本文设计的SGW-MSA的有效性.

    表 4  CIFAR10数据集上的Top1精度对比
    Table 4  Top1 accuracy comparison on CIFAR10 dataset
    算法Top1准确率 (%)Parameter (MB)
    Swin Transformer85.447.1
    CSWin Transformer90.207.0
    CrossFormer88.647.0
    GG Transformer87.757.1
    Shuffle Transformer89.327.1
    Pale Transformer90.237.0
    SGWin Transformer90.647.1
    下载: 导出CSV 
    | 显示表格
    2.3.2   mini-imagenet数据集上的实验

    本文还在mini-imagenet数据集上进行了实验. mini-imagenet数据集包含60 000张图像, 分为100个类别, 每张图像的宽高中的长边均为500个像素, 每个类别的图像大约有6 000张. 将50 000张图像作为训练集, 10 000张图像作为验证集, 训练模型的设置基本与第2.3.1节中的CIFAR10数据集相同, 不同的是模型的超参数配置采用表1中的配置, 训练的Epoch数为100. SGWin Transformer的基础元素块的宽度$ W_b $设置为4. 表5展示了参与对比的模型在mini-imagenet数据集上的实验结果. 从表5中的结果可以看出本文算法相比于基线Swin Transformer提升了5.1%, 同时比最先进的Pale Transformer提升了0.67%. 证明了SGW-MSA的有效性.

    表 5  mini-imagenet数据集上的Top1精度对比
    Table 5  Top1 accuracy comparison on mini-imagenet dataset
    算法Top1准确率(%)Parameter (MB)
    Swin Transformer67.5128
    CSWin Transformer71.6823
    CrossFormer70.4328
    GG Transformer69.8528
    Shuffle Transformer71.2628
    Pale Transformer71.9623
    SGWin Transformer72.6328
    下载: 导出CSV 
    | 显示表格
    2.4.1   MS COCO数据集上的实验结果

    本文使用mmdetection库以及Mask R-CNN目标检测框架, 将主干网络替换为所有具有代表性的基于局部窗口自注意力的Transformer模型, 并与本文的方法进行了对比, 采用AdamW优化器更新网络参数, 训练周期为36 Epoch, 设置初始学习率为$ 1\times 10^{-4} $, 在第27 Epoch和33 Epoch结束之后分别衰减10倍. 所有的模型均不使用预训练模型. 实验结果如表6所示. 其中Params (M)代表模型的参数量, FLOPs (G)代表模型的计算复杂度. 可以看出本文提出的SGWin Transforemr算法达到了45.1%的mAP, 相比于目前最先进的Pale Transformer模型提升1.8%, 并且在参数量不变的情况下比基线算法Swin Transformer提升了5.5%. 此外, SGWin Transformer在实例分割上也具有一定的提升, 比最先进的Pale Transformer提升了1.3%, 比基线算法Swin Transformer提升了4.2%, 也验证了本文提出的SGW-MSA的有效性. 此外使用mmdetection库以及Cascade R-CNN[44]目标检测框架, 除训练周期外实验配置如同上述的Mask R-CNN, 训练周期设置为11 Epoch, 初始学习率为$ 1\times 10^{-4} $, 在第8 Epoch和11 Epoch结束后分别衰减10倍. 实验结果如表7所示. 本文提出的SGWin Transformer算法达到42.9%$ (AP^b) $和37.8%$ (AP^m )$, 相比于Pale Transformer模型分别提升了1.4%和1.7%, 并且在参数量不变的情况下比基线算法Swin Transformer分别提升了5.1%和4.4%. 证明了SGW-MSA的有效性.

    表 6  以Mask R-CNN为目标检测框架在MS COCO数据集上的实验结果
    Table 6  Experimental results on MS COCO dataset based on Mask R-CNN
    BackboneParams (M)FLOPs (G)$AP^b\;(\%)$$AP^b_{50}\;(\%)$$AP^b_{75}\;(\%)$$AP^m\;(\%)$$AP^m_{50}\;(\%)$$AP^m_{75}\;(\%)$
    Swin4826439.661.343.236.658.239.3
    CSWin4227942.663.346.939.060.542.0
    Cross5030141.362.745.338.259.741.2
    GG4826540.061.443.936.758.239.0
    Shuffle4826842.763.647.139.160.942.2
    Focal4929140.762.444.837.859.640.8
    Pale4130643.364.147.939.561.242.8
    SGWin4826545.166.049.940.863.544.2
    下载: 导出CSV 
    | 显示表格
    表 7  以Cascade R-CNN为目标检测框架在MS COCO数据集上的实验结果
    Table 7  Experimental results on MS COCO dataset based on Cascade R-CNN
    BackboneParams(M)FLOPs(G)$AP^b\;(\%)$$AP^b_{50}\;(\%)$$AP^b_{75}\;(\%)$$AP^m\;(\%)$$AP^m_{50}\;(\%)$$AP^m_{75}\;(\%)$
    Swin8675447.855.540.933.452.835.8
    CSWin8075740.757.144.535.555.038.3
    Cross8877039.556.943.034.753.737.2
    GG8675638.155.441.533.251.935.1
    Shuffle8675840.757.044.435.855.138.0
    Focal8777038.655.642.234.553.739.0
    Pale7977041.557.845.336.155.239.0
    SGWin8675642.960.946.337.857.240.5
    下载: 导出CSV 
    | 显示表格

    为了更直观地展示SGWin Transformer的有效性, 本文选取MS COCO测试集的图像进行检测并将结果进行可视化, 如图10所示. 以Cascade R-CNN为目标检测框架, 分别将Swin Transformer以及SGWin Transformer作为主干网络进行检测. 从图中可以看出, SGWin Transformer相比于基线算法检测到了更多的小目标(如图10(a)中心的人和车, 如图10(b)中心处的绵羊)和遮挡目标(图10(c)最下边的游艇, 图10(d)泳池中的人). 证明了SGW-MSA能够通过提取更多的上下信息来提高遮挡目标和小目标的检测效果.

    图 10  MS COCO检测结果或可视化
    Fig. 10  MS COCO test results or visualization
    2.4.2   在其他目标检测数据集上的实验结果

    本文还在KITTI数据集和PASCAL VOC数据集上进行了对比实验, 使用PyTorch深度学习框架以及YOLOv5[45]目标检测架构, 采用SGD[46]优化器, 学习率采用余弦退火的方式, 初始学习率设置为0.01, 最小学习率为$ 1\times 10^{-6} $, warmup学习率为0.1, warmup学习率为0.1, warmup Epoch为3, 权重衰减为$ 5\times 10^{-4} $, 动量为0.937, 数据增强采用Mosaic[47]、水平翻转和色调变换. 在3张RTX3090的GPU上训练模型, 超参数采用表1中的配置. 采用上述的训练策略, 所有的算法均不使用预训练模型, 在PASCAL VOC数据集上训练100 Epoch, 在KITTI数据集上训练300 Epoch, 训练Batch size数为64, 实验结果如表8所示. 可以看出在模型参数量相当的情况下, 本文提出的SGWin Transformer模型在KITTI数据集和PASCAL VOC数据集的精度比最先进的Pale Transformer分别提升了0.3和0.6, 比基线算法Swin Transformer分别提升了1.9和4.5. 在检测速度方面, SGWin Transformer的FPS达到了56, 超出最先进的Pale Transformer算法16%, 相比于基线算法Swin Transformer提升了12%. 所以本文设计的SGWin Transformer在速度和精度上都优于其他Transformer, 整体性能最好.

    表 8  KITTI和PASCAL VOC数据集上的实验结果
    Table 8  Experimental results on KITTI and PASCAL VOC dataset
    BackboneKITTI mAP@0.5:0.95VOC mAP@0.5Params (M)FPS
    Swin57.359.614.450
    CSWin58.764.114.248
    Cross58.162.813.820
    Shuffle58.764.614.453
    GG57.862.414.446
    Pale58.964.514.248
    SGWin59.265.114.456
    下载: 导出CSV 
    | 显示表格

    本文针对现有的基于局部自注意力机制的Transformer模型不能建立所有窗口之间信息流通的问题, 提出了一种SGW-MSA局部自注意力以及SGWin Transformer模型, 在SGW-MSA中结合3种不同的局部自注意力机制的特点, 有效地建立所有窗口之间的信息交互. 实验结果表明在参数量和计算量相当的情况下, 本文提出的算法比现有的基于局部自注意力的Transformer模型更具有优势, 证明了本文提出的SGW-MSA通过高斯随机窗口策略建立所有窗口之间的信息流动能够捕捉更多的特征图语义信息并且具有更强大的上下文建模能力.

  • 图  1  现有局部自注意力方法

    Fig.  1  Existing local self-attention methods

    图  2  局部自注意力组合

    Fig.  2  Local self-attention combination

    图  3  SGWin Transformer整体架构

    Fig.  3  Overall architecture of SGWin Transformer

    图  4  SGW-MSA局部自注意力示意图

    Fig.  4  SGW-MSA local self-attention diagram

    图  5  GW-MSA局部自注意力示意图

    Fig.  5  GW-MSA local self-attention diagram

    图  6  纵横向基础元素块示意图

    Fig.  6  Schematic diagram of vertical and horizontal basic element block

    图  7  SGWin Transformer block结构示意图

    Fig.  7  Structure diagram of SGWin Transformer block

    图  8  本文算法与Swin Transformer的热力图对比

    Fig.  8  Comparison between the algorithm in this paper and the thermal diagram of Swin Transformer

    图  9  融合效果示意图

    Fig.  9  Schematic diagram of fusion effect

    图  10  MS COCO检测结果或可视化

    Fig.  10  MS COCO test results or visualization

    表  1  SGWin Transformer的超参数配置表

    Table  1  Super parameter configuration table of SGWin Transformer

    StageStrideLayerParameter
    14Patch embed$\begin{aligned} P_1 = 4\;\;\\ C_1 = 96\end{aligned}$
    Transformer block${\left[\begin{aligned} S_1 = 7\\H_1 = 3\\R_1 = 4\end{aligned}\right ]}\times{2}$
    28Patch merging$\begin{aligned} P_2 = 2\;\;\;\\C_2 = 192\end{aligned}$
    Transformer block${\left[\begin{aligned} S_2 = 7\\H_2 = 6\\R_2 = 4\end{aligned}\right ]}\times{2}$
    316Patch merging$\begin{aligned} P_3 = 2\;\;\;\\C_3 = 384\end{aligned}$
    Transformer block${\left[\begin{aligned} S_3 = 7\;\;\\H_3 = 12\\R_3 = 4\;\;\end{aligned}\right ]}\times{2}$
    432Patch merging$\begin{aligned} p_4 = 2\;\;\;\\C_4 = 768\end{aligned}$
    Transformer block${\left[\begin{aligned} S_4 = 7\;\;\\H_4 = 24\\R_4 = 4\;\;\end{aligned}\right ]}\times{2}$
    下载: 导出CSV

    表  2  基础元素块宽度消融实验对比

    Table  2  Comparison of ablation experiments of basic element block width

    $W_b$$AP^b\;(\%)$$AP^m\;(\%)$
    134.231.9
    234.932.5
    335.833.2
    436.333.7
    535.532.4
    634.732.0
    下载: 导出CSV

    表  3  SGW-MSA消融实验结果

    Table  3  SGW-MSA ablation experimental results

    序号方法$AP^b\;(\%)$$AP^m\;(\%)$
    ASW-MSA (baseline)30.829.5
    BShuffled W-MSA33.6 (+2.8)31.6 (+2.1)
    CB+VGW-MSA34.9 (+1.3)32.7 (+1.1)
    DC+HGW-MSA36.3 (+1.4)33.7 (+1.0)
    下载: 导出CSV

    表  4  CIFAR10数据集上的Top1精度对比

    Table  4  Top1 accuracy comparison on CIFAR10 dataset

    算法Top1准确率 (%)Parameter (MB)
    Swin Transformer85.447.1
    CSWin Transformer90.207.0
    CrossFormer88.647.0
    GG Transformer87.757.1
    Shuffle Transformer89.327.1
    Pale Transformer90.237.0
    SGWin Transformer90.647.1
    下载: 导出CSV

    表  5  mini-imagenet数据集上的Top1精度对比

    Table  5  Top1 accuracy comparison on mini-imagenet dataset

    算法Top1准确率(%)Parameter (MB)
    Swin Transformer67.5128
    CSWin Transformer71.6823
    CrossFormer70.4328
    GG Transformer69.8528
    Shuffle Transformer71.2628
    Pale Transformer71.9623
    SGWin Transformer72.6328
    下载: 导出CSV

    表  6  以Mask R-CNN为目标检测框架在MS COCO数据集上的实验结果

    Table  6  Experimental results on MS COCO dataset based on Mask R-CNN

    BackboneParams (M)FLOPs (G)$AP^b\;(\%)$$AP^b_{50}\;(\%)$$AP^b_{75}\;(\%)$$AP^m\;(\%)$$AP^m_{50}\;(\%)$$AP^m_{75}\;(\%)$
    Swin4826439.661.343.236.658.239.3
    CSWin4227942.663.346.939.060.542.0
    Cross5030141.362.745.338.259.741.2
    GG4826540.061.443.936.758.239.0
    Shuffle4826842.763.647.139.160.942.2
    Focal4929140.762.444.837.859.640.8
    Pale4130643.364.147.939.561.242.8
    SGWin4826545.166.049.940.863.544.2
    下载: 导出CSV

    表  7  以Cascade R-CNN为目标检测框架在MS COCO数据集上的实验结果

    Table  7  Experimental results on MS COCO dataset based on Cascade R-CNN

    BackboneParams(M)FLOPs(G)$AP^b\;(\%)$$AP^b_{50}\;(\%)$$AP^b_{75}\;(\%)$$AP^m\;(\%)$$AP^m_{50}\;(\%)$$AP^m_{75}\;(\%)$
    Swin8675447.855.540.933.452.835.8
    CSWin8075740.757.144.535.555.038.3
    Cross8877039.556.943.034.753.737.2
    GG8675638.155.441.533.251.935.1
    Shuffle8675840.757.044.435.855.138.0
    Focal8777038.655.642.234.553.739.0
    Pale7977041.557.845.336.155.239.0
    SGWin8675642.960.946.337.857.240.5
    下载: 导出CSV

    表  8  KITTI和PASCAL VOC数据集上的实验结果

    Table  8  Experimental results on KITTI and PASCAL VOC dataset

    BackboneKITTI mAP@0.5:0.95VOC mAP@0.5Params (M)FPS
    Swin57.359.614.450
    CSWin58.764.114.248
    Cross58.162.813.820
    Shuffle58.764.614.453
    GG57.862.414.446
    Pale58.964.514.248
    SGWin59.265.114.456
    下载: 导出CSV
  • [1] 蒋弘毅, 王永娟, 康锦煜. 目标检测模型及其优化方法综述. 自动化学报, 2021, 47(6): 1232-1255 doi: 10.16383/j.aas.c190756

    Jiang Hong-Yi, Wang Yong-Juan, Kang Jin-Yu. A survey of object detection models and its optimiza-tion methods. Acta Automatica Sinica, 2021, 47(6): 1232-1255 doi: 10.16383/j.aas.c190756
    [2] 尹宏鹏, 陈波, 柴毅, 刘兆栋. 基于视觉的目标检测与跟踪综述. 自动化学报, 2016, 42(10): 1466-1489 doi: 10.16383/j.aas.2016.c150823

    Yin Hong-Peng, Chen Bo, Chai Yi, Liu Zhao-Dong. Vision-based object detection and tracking: a review.Acta Automatica Sinica, 2016, 42(10): 1466-1489 doi: 10.16383/j.aas.2016.c150823
    [3] 徐鹏斌, 翟安国, 王坤峰, 李大字. 全景分割研究综述. 自动化学报, 2021, 47(3): 549-568 doi: 10.16383/j.aas.c200657

    Xu Peng-Bin, Q An-Guo, Wang Kun-Feng, Li Da-Zi. A survey of panoptic segmentation methods. Acta Automatica Sinica, 2021, 47(3): 549-568 doi: 10.16383/j.aas.c200657
    [4] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks. Communications of the ACM, 2017, 60(6): 84-90 doi: 10.1145/3065386
    [5] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv: 1409.1556, 2014.
    [6] Huang G, Liu Z, Laurens V D M. Densely connected convolutional networks. In: Proceedings of the Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA: IEEE, 2017. 4700−4708
    [7] He K, Zhang X, Ren S. Deep residual tearning for image recognition. In: Proceedings of the Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE, 2016. 770−778
    [8] Xie S, Girshick R, Dollár P. Aggregated residual transformations for deep neural networks. In: Proceedings of the Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA: IEEE, 2017. 1492−1500
    [9] Szegedy C, Liu W, Jia Y. Going deeper with convolutions. In: Proceedings of the Conference on Computer Vision and Pattern Recognition (CVPR). Boston, USA: IEEE, 2015. 1−9
    [10] Tan M, Le Q V. EfficientNet: Rethinking model scaling for convolutional neural networks. In: Proceedings of the 36th International Conference on Machine Learning. New York, USA: JMLR, 2019. 6105−6114
    [11] Tomar G S, Duque T, Tckstrm O. Neural paraphrase identification of questions with noisy pretraining. In: Proceedings of the First Workshop on Subword and Character Level Models in NLP. Copenhagen, Denmark: Association for Computational Linguistics, 2017. 142−147
    [12] Wang C, Bai X, Zhou L. Hyperspectral image classification based on non-local neural networks. In: Proceedings of the International Geoscience and Remote Sensing Symposium. Yokohama, Japan: IEEE, 2019. 584−587
    [13] Zhao H, Jia J, Koltun V. Exploring self-attention for image recognition. In: Proceedings of the Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, USA: IEEE, 2020. 10073−10082
    [14] Ramachandran P, Parmar N, Vaswani A. Stand-alone self-attention in vision models. In: Proceedings of the Advances in Neural Information Processing Systems. Vancouver, Canada: NeurIPS, 2019.
    [15] Carion N, Massa F, Synnaeve G. End-to-end object detection with transformers. In: Proceedings of the 16th European Conference. Glasgow, UK: ECCV, 2020. 213−229
    [16] Dosovitskiy A, Beyer L, Kolesnikov A. An image is worth 16×16 words: Transformers for image recognition at scale. In: Proceedings of the International Conference on Learning Representations. Virtual Event: ICLR, 2021.
    [17] Chu X, Tian Z, Zhang B. Conditional positional encodings for vision transformers. In: Proceedings of the International Conference on Learning Representations. Virtual Event: ICLR, 2021.
    [18] Han K, Xiao A, Wu E. Transformer in transformer. Advances in Neural Information Processing Systems. 2021, 34: 15908-15919
    [19] Touvron H, Cord M, Douze M. Training data-efficient image transformers distillation through attention. In: Proceedings of the International Conference on Machine Learning. Jeju Island, South Korea: PMLR, 2021. 10347−10357
    [20] Yuan L, Chen Y, Wang T. Tokens-to-Token ViT: Training vision transformers from scratch on ImageNet. In: Proceedings of the International Conference on Computer Vision. Montreal, Canada: IEEE, 2021. 558−567
    [21] Henaff O. Data-efficient image recognition with contrastive predictive coding. In: Proceedings of International Conference on Machine Learning. Berlin, Germany: PMLR, 2020. 4182−4192
    [22] Liu Z, Lin Y, Cao Y. Swin Transformer: Hierarchical vision transformer using shifted windows. In: Proceedings of the International Conference on Computer Vision. Montreal, Canada: IEEE, 2021. 10012−10022
    [23] Rao Y, Zhao W, Liu B. Dynamicvit: Efficient vision transformers with dynamic token sparsification. Advances in Neural Information Processing Systems. 2021, 34: 13937-13949
    [24] Lin H, Cheng X, Wu X. CAT: Cross attention in visiontransformer. In: Proceedings of the International Conference on Multimedia and Expo. Taipei, China: IEEE, 2022. 1−6
    [25] Vaswani A, Ramachandran P, Srinivas A. Scaling local self-attention for parameter efficient visual backbones. In: Proceedings of Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, USA: IEEE, 2021. 12894−12904
    [26] Wang W, Chen W, Qiu Q. Crossformer++: A versatile vision transformer hinging on cross-scale attention. arXiv preprint arXiv: 2303.06908, 2023.
    [27] Huang Z, Ben Y, Luo G. Shuffle transformer: Rethinking spatial shuffle for vision transformer. arXiv preprint arXiv: 2106.03650, 2021.
    [28] Yu Q, Xia Y, Bai Y. Glance-and-gaze Vision Transformer. Advances in Neural Information Processing Systems.2021, 34: 12992-13003
    [29] Wang H, Zhu Y, Green B. Axial-deeplab: Stand-alone axial-attention for panoptic segmentation. In: Proceedings of the 16th European Conference. Glasgow, UK: ECCV, 2020. 108−126
    [30] Dong X, Bao J, Chen D. Cswin transformer: A general vision transformer backbone with cross-shaped windows. In: Proceedings of the Conference on Computer Vision and Pattern Recognition. New York, USA: IEEE, 2022. 12124−12134
    [31] Wu S, Wu T, Tan H. Pale transformer: A general vision transformer backbone with pale-shaped attention. In: Proceedings of the AAAI Conference on Artificial Intelligence. Washington, USA: 2022. 2731−2739
    [32] Wang W, Xie E, Li X. Pyramid vision transformer: A versatile backbone for dense prediction without convolutions. In: Proceedings of the International Conference on Computer Vision. Montreal, Canada: IEEE, 2021. 568−578
    [33] Ren S, He K, Girshick R. Faster r-cnn: Towards real-time object detection with region proposal networks. Advances in Neural Information Processing Systems. 2015, 28
    [34] Efraimidis P S, Spirakis P G. Weighted random samplingwith a reservoir. Information Processing Letters, 2006, 97(5): 181-185 doi: 10.1016/j.ipl.2005.11.003
    [35] Krizhevsky A, Hinton G. Convolutional beep belief networks on Cifar-10[J]. Unpublished manuscript, 2010, 40(7): 1-9
    [36] Geiger A, Lenz P, Stiller C. Vision meets robotics: The kitti dataset. International Journal of Robotics Research (IJRR), 2013
    [37] Everingham M, Eslami S M A, Van Gool L. The pascal visual object classes challenge: A retrospective. International Journal of Computer Vision, 2015, 111: 98-136 doi: 10.1007/s11263-014-0733-5
    [38] Veit A, Matera T, Neumann L. Coco-text: Dataset and benchmark for text detection and recognition in natural images. arXiv preprint arXiv: 1601.07140, 2016.
    [39] Selvaraju R R, Cogswell M, Das A. Grad-cam: Visual explanations from deep networks via gradient-based localization. In: Proceedings of the International Conference on Computer Vision. Venice, Italy: IEEE, 2017. 618−626
    [40] Chen K, Wang J, Pang J. MMDetection: Open MMLab detection toolbox and benchmark. arXiv preprint arXiv: 1906.07155, 2019.
    [41] He K, Gkioxari G, Dollár P. Mask R-CNN. In: Proceedings of the International Conference on Computer Vision. Venice, Italy: IEEE, 2017. 2961−2969
    [42] Loshchilov I, Hutter F. Decoupled weight decay regularization. arXiv preprint arXiv: 1711.05101, 2017.
    [43] You Y, Li J, Reddi S. Large batch optimization for deep learning: Training bert in 76 minutes. arXiv preprint arXiv: 1904.00962, 2019.
    [44] Cai Z, Vasconcelos N. Cascade R-CNN: Delving into high quality object detection. In: Proceedings of the Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 6154−6162
    [45] Wu W, Liu H, Li L. Application of local fully Convolutional Neural Network combined with YOLO v5 algorithm in small target detection of remote sensing image. PloS one, 2021, 16(10): 1-10
    [46] Bottou, L. Stochastic Gradient descent tricks. Journal of Machine Learning Research. 2017, 18: 1−15
    [47] Bochkovskiy A, Wang C Y, Liao H Y M. Yolov4: Optimal speed and accuracy of object detection. arXiv preprint arXiv: 2004.10934, 2020.
  • 期刊类型引用(4)

    1. 彭斌,白静,李文静,郑虎,马向宇. 面向图像分类的视觉Transformer研究进展. 计算机科学与探索. 2024(02): 320-344 . 百度学术
    2. 崔梦萌,焦亮,王石磊. 面向学前教育聊天机器人的情感生成式语聊方法研究. 自动化与仪器仪表. 2024(06): 184-188+193 . 百度学术
    3. 王登飞,苏宏升,陈光武,陈登科,赵小娟. 基于聚焦线性注意力Retinexformer的TEDS图像实时暗光增强方法研究. 铁道科学与工程学报. 2024(11): 4840-4850 . 百度学术
    4. 李珍. 基于连续词袋模型的神经机器翻译模型优化研究. 自动化与仪器仪表. 2024(11): 48-52 . 百度学术

    其他类型引用(3)

  • 加载中
图(10) / 表(8)
计量
  • 文章访问数:  647
  • HTML全文浏览量:  185
  • PDF下载量:  234
  • 被引次数: 7
出版历程
  • 收稿日期:  2022-09-10
  • 录用日期:  2023-01-13
  • 网络出版日期:  2023-08-24
  • 刊出日期:  2023-09-26

目录

/

返回文章
返回