Key Problems and Progress of Vision Transformers: The State of the Art and Prospects
-
摘要: Transformer所具备的长距离建模能力和并行计算能力使其在自然语言处理领域取得了巨大成功并逐步拓展至计算机视觉等领域. 本文以分类任务为切入, 介绍了典型视觉Transformer的基本原理和结构, 并分析了Transformer与卷积神经网络在连接范围、权重动态性和位置表示能力三方面的区别与联系; 同时围绕计算代价、性能提升、训练优化以及结构设计四个方面总结了视觉Transformer研究中的关键问题以及研究进展; 并提出了视觉Transformer的一般性框架; 然后针对检测和分割两个领域, 介绍了视觉Transformer在特征学习、结果产生和真值分配等方面给上层视觉模型设计带来的启发和改变; 并对视觉Transformer未来发展方向进行了展望.
-
关键词:
- 视觉Transformer /
- 图像分类 /
- 目标检测 /
- 图像分割 /
- 计算机视觉
Abstract: Due to its long-range sequence modeling and parallel computing capability, Transformers have achieved significant success in natural language processing and are gradually expanding to computer vision area. Starting from image classification, we introduce the architecture of classic vision Transformer and compare it with convolutional neural networks in connection range, dynamic weights and position representation ability. Then, we summarize existing problems and corresponding solutions in vision Transformers including computational efficiency, performance improvement, optimization and architecture design. Besides, we propose a general architecture of Vision Transformers. For object detection and image segmentation, we discuss Transformer-based models and their roles on feature extraction, result generation and ground-truth assignment. Finally, we point out the development trends of vision Transformers.-
Key words:
- Vision Transformers /
- image classification /
- object detection /
- image segmentation /
- computer vision
-
陶瓷是一种多晶材料, 具有高熔点、高硬度和高耐磨性的特点, 目前已广泛应用于民生、电子通讯、医疗和军工等领域. 为了提升陶瓷材料品质, 研究人员通常利用扫描电子显微镜(Scanning electron microscope, SEM)对陶瓷样品扫描成像, 通过分析图像中晶粒的尺寸分布来估计陶瓷样品的物理属性[1]. 扫描电子显微镜的工作原理是通过高压将电子束打在样品表面, 电子与样品表面材料相互作用产生电信号, 对电信号接收处理后显示成像结果. 陶瓷材料的SEM图像由材料区域(即晶粒)和晶粒间的空隙(即晶界)组成, 由于陶瓷是一种绝缘材料, 不具备导电的性质, 在成像时容易被高压电击穿[2]. 为了避免此类情况, 需要控制晶粒尺寸尽可能小, 即同样大小的面积内存在更多的晶界, 使高压电从晶界导出, 保护陶瓷样本不被击穿. 然而晶粒尺寸直接决定了陶瓷材料的性能[3], 因此需要统计SEM图像中晶粒尺寸大小的分布, 进而间接建立实验条件与陶瓷材料性能的对应关系. 目前, SEM图像中的晶粒分析主要依靠人工手段, 测量结果具有明显的局限性: 首先, 一幅陶瓷SEM图像中包含大量晶粒, 人工统计耗时耗力, 测量难度大、效率低; 其次, 晶粒大小形状不规则, 人工测量易受主观因素影响而导致误差较大. 因此, 研究一种能够自动测量晶粒尺寸且准确率高、运算速度快的算法对分析陶瓷材料物理属性具有重要意义.
为了分析陶瓷材料的物理属性, 首先应该分析陶瓷材料SEM图像中的晶粒尺寸分布, SEM图像具有以下几个特点: 图像边缘信息丰富但纹理信息缺失, 图像中的晶粒大小不均匀且形状不规则, 图像的对比度较低. 基于上述特点, 利用图像分割技术实现对晶粒的分割, 然后统计晶粒的大小分布是一种可行的方法. 然而图像分割方法众多, 常用的方法有基于像素的图像分割方法、基于轮廓的图像分割方法、基于区域的图像分割方法和基于深度学习的图像分割方法.
基于像素的图像分割方法有阈值法[4]和聚类方法, 其中阈值法严重依赖于阈值个数及参数选取, 实际分割结果较为粗糙, 而基于聚类的方法鲁棒性高, 因此应用较为广泛. 聚类方法主要涉及分层聚类[5]、模糊聚类[6]和谱聚类[7]. 分层聚类算法利用像素之间的相似性进行层次分解, 该类算法计算简单, 便于执行, 但分割结果依赖于树的构建及阈值选取. 模糊聚类算法[8]利用最小误差准则构建目标函数, 通过优化目标函数得到每个像素到聚类中心的隶属度, 根据隶属度可以实现像素分类. 该类算法能够实现图像的快速分割, 但容易忽略图像的空间结构信息、且对噪声较为敏感. 基于谱聚类的图像分割算法是将图像视为一个大的矩阵, 将图像分割问题转化为矩阵特征值分解问题, 该算法能获得连续域中的全局最优解, 但分割结果对相似度矩阵构建较为敏感.
基于轮廓的图像分割通常采用能量泛函方法, 该方法将图像分割问题转变为能量泛函的最小值求解过程, 主要涉及参数活动轮廓模型[9]和几何活动轮廓模型[10]. 参数活动轮廓模型首先构建一条可变形的参数曲线及相应的能量函数, 以最小化能量目标函数为目标, 通过控制参数曲线变形以实现具有最小能量的闭合曲线, 并将其作为目标轮廓. 几何活动轮廓模型以水平集方法为代表, 该类方法将轮廓视为一个高维函数的零水平集, 通过对该水平集函数进行微分, 从输出中提取零水平集, 进而得到轮廓线. 基于能量泛函的图像分割方法不依赖于图像的边缘及纹理特征, 因此对于噪声强度大、灰度不均匀、对比度较低且目标边界模糊的图像分割效果较好, 但算法计算复杂度较高, 且分割结果依赖于初始轮廓的选取.
基于区域的图像分割方法主要涉及两个重要步骤, 图像超像素分割[11]和区域合并[12-13], 其基本思想是首先对图像进行过分割, 然后利用过分割结果进行区域合并以生成最终分割结果. 主流的超像素算法如简单的线性迭代聚类(Simple linear iterative clustering, SLIC)[14]、线性谱聚类(Linear spectral clustering, LSC)[15]、基于熵率的超像素分割算法[16]等, 这些超像素算法大多都采用了局部网格内的轮廓迭代优化策略. 该类算法的优势在于能够获得基于预设区域数目的超像素分割结果, 且在局部区域内能获得较为准确的轮廓边界, 缺陷在于优化策略仅在局部区域内进行, 因此超像素块大小均匀, 很难捕获真实的目标轮廓.
近年来, 随着深度学习[17]的快速发展, 图像语义分割[18]越来越受到学者们的关注. 与传统的图像分割不同, 图像语义分割本质上是对图像的像素进行分类, 将输入图像中的每个像素分配一个语义类别, 以得到像素化的密集分类. Long等[19]率先提出了面向图像语义分割的端到端全卷积网络(Fully Convolutional network, FCN), 该网络首次采用了低层与高层语义特征融合思路, 并采用转置卷积层作为解码器以代替全连接层从而实现了从图像像素到像素类别的转换. 与经典的卷积神经网络(Convolutional neural network, CNN)相比, FCN不仅有效提升了图像语义分割精度, 而且开创了编解码网络结构, 为其后各种图像语义分割网络奠定了基础. 图像分割结果除了与解码器结构设计有关外, 还与上下文信息获取密切相关. 为了获得更宽的感受野以学习更为有效的图像特征, He等[20]首先将金字塔池化引入到网络结构中, 不仅解决了网络受限于输入图像的尺寸问题, 而且有效融合了图像的空间多尺度特征. Zhao等[21]在此基础上提出了金字塔场景分析网络, 利用多尺度卷积核实现图像的空间金字塔池化, 从而使网络能够捕获图像的多尺度特征, 优化网络对复杂场景的理解能力. 近来, Chen等[22]利用卷积核膨胀的思路扩大感受野, 使用了计算量更小且更有效的空洞空间金字塔池化来完成图像的多尺度信息融合. 此外, 针对图像的轮廓预测, Cheng等[23]提出了富卷积特征网络(Richer convolutional features, RCF), 该网络在每一个卷积层都计算其损失函数, 且将所有层的特征信息进行融合得到最终的特征, 其中深层特征可以定位图像的轮廓边缘, 浅层特征可以为深层特征补充细节. 近年来, 学者们发现多尺度的特征表达能有效改善图像分割效果, 因此Gao等[24]构建了一个分层密集连接的模块Res2Net, 以细粒度表示多尺度特征, 并增加了每个网络层的感受野范围. 针对多尺度特征融合问题, Li等[25]提出了深层特征聚合网络, 该网络通过轻量子网络的级联来实现多尺度特征表达并有效减少了参数数目. 常规的多尺度融合方法缺少特征权重信息, 对此, Ding等通过设计尺度选择策略, 提出了CGBNet[26], 该网络通过在每个空间位置选择性地融合来自不同尺度特征的分割结果, 进而提高了图像的分割精度.
尽管当前已经涌现出大量图像分割算法, 这些算法能解决图像分割领域存在的多种问题, 在很多特殊应用场景中能够满足实际应用需求. 然而扫描电镜图像分割[27]面临两个困难: 首先, SEM图像具有非常高的分辨率, 现有图像分割算法对SEM图像分割耗时较长; 其次, SEM图像采集成本较高, 很难像常规图像一样形成海量数据集, 因此难以直接利用深度卷积神经网络实现端到端的目标分割. 此外, 针对陶瓷材料晶粒分割问题, 由于陶瓷材料SEM图像主要呈现晶粒的轮廓信息, 缺少纹理细节信息, 通常需要大量的预处理及交互处理, 因此很难将主流的图像分割算法直接应用到晶粒分割中. 对此, 薛维华等[28]提出了一种基于图像序列间相似性的晶粒组织图像分割方法, 该方法利用边缘检测、骨架化、断点连接等一系列操作以实现晶粒轮廓提取. 尽管该方法能够获得晶粒的分割结果, 但需要设置较多参数, 且对光照较为敏感、鲁棒性较低. 近来, Jiang等[29]提出一种用于砂岩分析的晶粒自动分割方法, 该研究采用超像素与模糊聚类相结合的方式对砂岩图像进行分割, 获得了较好的砂岩晶粒分割效果. 然而该方法依赖于SLIC超像素分割结果及后续的区域合并算法, SLIC在陶瓷材料SEM图像上很难获得好的预分割结果, 因此这种方法不适合陶瓷材料SEM图像的晶粒分割. 在此基础上, Banerjee等[30]提出一种晶粒自动分割及晶粒度量方法, 该方法首先检测图像边缘并执行二值化处理, 然后利用形态学闭运算及膨胀操作获取封闭轮廓, 利用小区域移除及轮廓细化运算获取单线条封闭轮廓. 与之前的方法相比, 该方法计算简单, 对灰度值较为均匀的SEM晶粒图像容易获得好的分割结果, 然而不足在于该方法主要依赖图像二值化运算提取轮廓, 忽略了图像的灰度细节信息, 因此对于复杂晶粒图像容易发生误分割. 上述方法均利用无监督图像分割技术实现晶粒分割, 将基于监督学习的图像分割技术应用到SEM图像晶粒分割时, 通常面临人工标注成本高, 能够获得的训练样本有限, 且利用深度学习获得的图像分割结果通常存在边缘精度较低等问题, 诸多限制导致当前的图像分割技术难以有效解决陶瓷材料SEM图像中的晶粒分割难题.
在无监督图像分割算法中, 基于像素分类的图像分割、基于区域信息的图像分割都依赖于图像的纹理特征, 而陶瓷材料SEM图像中的纹理信息缺失, 导致这两类方法难以实现有效的图像分割. 鉴于此类图像边缘信息丰富, 本文将采用基于轮廓的图像分割策略. 在此类方法中, 分水岭[31]是最为流行的一种算法. 然而分水岭算法依赖于图像梯度, 且存在过分割问题, 因此基于数据与模型联合驱动的方式, 提出了基于鲁棒分水岭变换联合轻量级富卷积特征网络(Lightweight and richer convolutional features jointing robust watershed transform, LRCF-RWT)的陶瓷材料晶粒分割算法, 提出的算法具有以下两个贡献:
1) 利用鲁棒分水岭变换实现了晶粒的快速预分割, 既解决了传统分水岭算法的过分割问题, 又解决了分割区域个数与轮廓精度难以平衡的问题, 较主流的超像素算法能够获得更好的陶瓷材料SEM图像预分割结果;
2) 提出了轻量级RCF网络-LRCF (Lightweight and richer convolutional features), 并将LRCF网络与RWT (Robust watershed transform)相结合, 兼顾两者的优势, 一方面获取正确的分割区域, 另一方面获取更为精准的轮廓定位. 采用深度可分离卷积将原始RCF网络模型从113 MB 压缩为13.7 MB, 从而有效降低了LRCF对计算和内存资源的消耗; 利用LRCF轮廓预测结果修正RWT的预分割结果, 即数据与模型联合驱动的方式, 实现了分割精度的明显提升.
1. 算法介绍
本文提出的算法主要由三个部分组成: 首先对图像进行预处理, 解决图像灰度值不均匀的问题; 其次使用鲁棒分水岭变换实现图像预分割; 最后执行形态学轮廓优化, 并根据卷积神经网络输出的图像轮廓对预分割结果进行修正, 总体流程如图1所示. 其中, SE (Structured edge)为结构边缘算法[32].
1.1 预处理
由于SEM成像的原理是将电子束打在样本表面, 与样本表面相互作用, 而陶瓷材料具有绝缘性, 所以得到的图像会产生明显的反光现象, 导致图像灰度值不均匀. 工业上为了解决该问题, 采用金属镀膜法, 将电阻率较小的金属(例如金)镀在样本表面, 镀金后得到的陶瓷电镜图像灰度值基本一致. 为了降低图像本身光照不均等问题对实验结果带来的干扰, 本文将实验所用图像分为两组, 一组为未经处理的陶瓷电镜图像, 另一组图像为镀金后成像效果较好的陶瓷电镜图像. 未镀金的陶瓷电镜图像存在曝光问题, 需经预处理以解决灰度值不均匀的问题, 针对该问题, Jobson等[33]首先提出了单尺度(Single scale retinex, SSR)算法.
在SSR算法中, 决定物体颜色的主要因素是物体对长波、中波、短波三种波长光的反射能力, 而不是光照的强度. 因此物体本身的颜色不受光照的影响, 但光照强度会造成成像时的颜色差异. 一幅图像
$ I(x,y) $ 由反射图像$ R(x,y) $ 和入射图像$ L(x,y) $ 组成, 如式(1)所示, SSR算法就是设法去除或降低入射光$ L $ , 从而得到物体原本的面貌$ R $ .$$ I(x,y)=R(x,y)\cdot L\left(x,y\right) $$ (1) SSR算法主要通过环绕函数确定环绕像素的权值, 以此来估计中心像素的亮度, 即:
$$ R\left(x,y\right)=\mathrm{ln}\ {I}\left(x,y\right)-\mathrm{ln}\left[F\left(x,y\right)*I\left(x,y\right)\right] $$ (2) 其中,
$ * $ 表示卷积, 由于SSR在去除亮度影响时会丢失细节, 因此Jobson等[34]在SSR算法的基础上进一步提出了多尺度Retinex算法(Multi scale retinex, MSR), 模型表达为:$$ {R_{MSR}} = \sum\limits_{n = 1}^N {{w_n}} {R_n} $$ (3) $$ {F}_{n}(x,y)=\mu {\rm exp}\left(-\frac{{x}^{2}+{y}^{2}}{{{c}_{n}^{2}}}\right) $$ (4) 其中,
$ {R}_{MSR} $ 是MSR算法输出的反射图像, 通常$ N=3 $ , 表示低、中、高三个尺度,$ {w}_{n} $ 表示权重系数,${w}_{1}={w}_{2}={w}_{3}=1/3.$ $F_n(x,y)$ 是高斯环绕函数, 其中$ \mu $ 是归一化因子, 取值满足$\iint F(x,y){\rm{d}}x{\rm{d}}y= $ $ 1.\,\,{c}_{n}$ 表示高斯环绕空间常数, 通常${c}_{1}{=1}5,\; {c}_{2}{=80,\;} $ $ {c}_{3}{=200}$ .将MSR算法用于图像预处理, 预处理结果如图2所示. 图2(a) ~ 2(d)为原图, 图2(e) ~ 2(h)为经过预处预处理的图像.可以看出, 经过预处理后的图像整体灰度值较为均匀, 有利后续算法实现晶粒的准确分割, 算法能有效解决陶瓷SEM图像的灰度不均匀问题.
1.2 鲁棒分水岭变换
图像预处理后需要对图像进行预分割, 分水岭算法的优势在于计算简单, 主要依赖图像的梯度信息实现图像分割, 缺陷在于不能较好的利用图像的纹理信息, 而陶瓷材料SEM图像恰好缺失纹理信息, 因此使用分水岭算法是一个合适的选择. 传统的分水岭变换容易导致图像过分割, 针对该问题, 学者们提出了基于梯度重建的分水岭变换(Morphological gradient reconstruction based watershed transform, MGR-WT)[35].
首先对预处理后的图像计算梯度, 然后进行梯度重建以移除无用的局部极小值, 最后进行分水岭变换得到分割结果. 通常, 形态学梯度重建(Morphological gradient reconstruction, MGR)能够有效平滑图像的局部极小值区域, 减少梯度图像中的局部极小值个数, 进而在分水岭变换中可以抑制图像过分割. 形态学梯度重建算子通常涉及到结构元素选择, 结构元素的大小及形状会影响最终的重建结果及分割效果, 参数适中时能平衡分割精度和过分割, 但是如何确定最佳的结构元素参数非常困难, 通常根据经验进行人为设定. 图3利用形态学闭重建作用于梯度图像, 梯度图像由SE算法[32]生成.
$ r $ 表示形态学闭重建所选取的圆形结构元素半径. 从图3可以看出, 当用于梯度重建的结构元参数$ r $ 取值较小时($ r=1 $ ), 容易引起过分割, 即分割结果中包含大量的小区域; 当$ r $ 取值较大时($ r=10 $ ), 容易引起欠分割, 即多个目标分割结果被合并在一起, 且轮廓精度较低; 当$ r $ 取值适中时($ r=5 $ ), 分割结果能够兼顾分割区域数目及轮廓精度, 但$ r $ 的取值为经验值, 且减少分割区域数目是以牺牲轮廓精度为代价的. 针对上述问题, 论文提出一种鲁棒分水岭变换(Robust watershed transform, RWT)以解决MGR-WT的分割结果依赖参数选择的缺陷.令
$ f $ 和$ g $ 分别表示标记图像和约束变换的掩码图像, 如果$ f\le g $ , 则由$ f $ 重建$ g $ 的形态学膨胀重建$ {R}^{\delta } $ 表示为$$ {R}_{g}^{\delta }\left(f\right)={\delta }_{g}^{\left(n\right)}\left(f\right) $$ (6) 其中,
${\delta }_{g}^{\left(1\right)}\left(f\right)=\delta \left(f\right)\wedge g,{\delta }_{g}^{\left(k\right)}\left(f\right)=\delta \left({\delta }_{g}^{(k-1)}(f)\right)\wedge g$ , 当$2\le k\le n,n\in {\bf N}^{+}$ 时,$ {\delta }_{g}^{\left(n\right)}\left(f\right)={\delta }_{g}^{(n-1)}\left(f\right) $ 成立.$ \delta $ 表示形态学膨胀运算,$\wedge$ 表示逐点取极小值运算.同样, 当
$ f\ge g $ , 则由$ f $ 重建$ g $ 的形态学腐蚀重建$ {R}^{\varepsilon } $ 表示为:$$ {R}_{g}^{\varepsilon }\left(f\right)={\varepsilon }_{g}^{\left(n\right)}\left(f\right) $$ (7) 其中,
${\varepsilon }_{g}^{\left(1\right)}\left(f\right)=\varepsilon \left(f\right)\vee g,{\varepsilon }_{g}^{\left(k\right)}\left(f\right)=\varepsilon \left({\varepsilon }_{g}^{(k-1)}(f)\right)\vee g$ , 当$2\le k\le n,n\in {\bf N}^{+}$ 时,$ {\varepsilon }_{g}^{\left(n\right)}\left(f\right)={\varepsilon }_{g}^{(n-1)}\left(f\right) $ 成立.$\varepsilon $ 表示形态学腐蚀运算,$\vee$ 表示逐点取极大值运算.对图像进行形态学重建运算, 可以在保持大的目标不被平滑的同时有效滤除小目标. 由于组合形态学开闭运算在图像滤波、特征提取等方面表现出比基本形态学开闭运算更好的性能, 所以定义
$ f $ 重建$ g $ 的组合形态学开、闭运算$ {R}^{\gamma } $ 和$ {R}^{\phi } $ 为:$$ \left\{\begin{array}{c}{R}_{g}^{\gamma }\left(f\right)={R}_{g}^{\delta }\left({R}_{g}^{\varepsilon }\right(f\left)\right)\\ {R}_{g}^{\phi }\left(f\right)={R}_{g}^{\varepsilon }\left({R}_{g}^{\delta }\right(f\left)\right)\end{array}\right. $$ (8) 由
$ f $ 重建$ g $ 的无参数自适应形态学梯度重建如式(8)所示, 其中$ m $ 表示最大结构元素的尺度, 通常$ m>10 $ , 多尺度结构元素满足关系${b}_{1}\subseteq \cdots \subseteq {b}_{i}\subseteq $ $ {b}_{i+1}\subseteq \cdots\subseteq {b}_{m}$ .$$ \Psi (g,m)={\vee }_{1\le i\le m}\{{R}_{g}^{\phi }\left(f{)}_{{b}_{i}}\right\} $$ (9) 利用公式对图像进行梯度重建并执行分水岭变换, 分割结果仍然包含较多的小区域, 如图4(a)所示, 主要原因在于
$ i $ 的取值从1开始, 虽然设置了更大的$ i $ 值, 例如$ i=3 $ 可以减少小区域数目, 但同时降低了结果的轮廓精度. 为了得到更好的重建结果, 需要将这些小区域去除. 设$ H $ 为梯度图像,$ I $ 是$ H $ 的区域极小值图像,$ W $ 是经过分水岭变换获得的分割结果,$ I=({I}_{1},{I}_{2},\cdots ,{I}_{n}),{I}_{j} $ 表示图像$ I $ 中第$ j $ 个连接分量,$ 1\le j\le n $ . 同样,$ W={W}_{1}\cup {W}_{2}\cup \cdots \cup $ $ {W}_{n},{W}_{j} $ 表示$ W $ 中第$ j $ 个分割区域, 由此可以得到:$$ \sum\limits_{p\in {W}_{j}}\theta \left({x}_{p}\right)\ge \sum\limits_{q\in {I}_{j}}\theta \left({x}_{q}\right) $$ (10) 其中,
${W}_{{j}_{1}}\cup {W}_{{j}_{2}}\ne \emptyset ,1\le {j}_{1},{j}_{2}\le n,{j}_{1}\ne {j}_{2},{x}_{p}$ 是$ W $ 中第$ p $ 个像素,$ {x}_{q} $ 是$ I $ 中第$ q $ 个像素, 并且$$ \theta \left({x}_{i}\right)=\left\{\begin{array}{cc}1,&\;\;\;\;\;\;\; {x}_{i}\in {W}_{j}\;\;{\rm{or}}\;\;{I}_{j}\\ 0,& {\rm otherwise}\end{array}\right. $$ (11) 式(9)和(10)表明, 通过去除图像I中较小的连通分量, 达到合并较小的分割区域的目的, 利用式(11)去除较小的连通分量, 从而根据分割结果实现区域合并.
$$ {I}^{r}={R}_{I}^{\delta }\left(\varepsilon \left(I\right){b}_{k}\right) $$ (12) 其中,
$ k $ 是结构元素参数,$ k $ 值越大, 合并图像$ W $ 中小区域越多.RWT首先得到无参数的自适应形态学梯度重建公式, 然后计算局部极小值, 采用二值形态学重建对局部极小值优化. 由式(8)可以看出, RWT采用多尺度结构元素实现梯度重建, 重建结果随着
$ m $ 的增大而收敛, 因此$ m $ 为常数, 解决了MGR的单尺度梯度重建结果容易受结构元素参数影响的问题. 此外, 由式(11)可以看出, 参数$ k $ 的变化会导致区域极小值个数的变化, 然而这种变化只会影响最终的分割区域个数, 而不影响最终的轮廓精度, 实际效果等价于区域合并运算, 如图4所示. 由图4(b)可以看出, MGR-WT会将一个完整的晶粒错误分割成两部分, 而在图4(c)中, RWT实现了正确的晶粒分割, 因此本文提出的RWT较MGR-WT能够实现更好的晶粒分割效果.1.3 数据与模型联合驱动的轮廓优化
尽管图4给出了较好的分割结果, 且鲁棒性较好, 不易受环境和参数的影响, 然而分割结果仍然存在以下问题: 一方面, 由于不同晶粒之间的缝隙过大, 从而导致双线轮廓问题, 如图5所示; 另一方面, 由于分割结果过度依赖于结构边缘算法输出的梯度, 缺乏对图像语义信息的利用, 因此导致轮廓定位不准问题, 如图9(c)所示.
为了解决双线轮廓问题, 采用基于形态学轮廓优化的双线消除策略. 首先检查每个标签所覆盖的区域, 确保图像中每个标签只能覆盖一个区域; 然后给定一个结构元, 令结构元遍历整张图像, 并消除比结构元小的区域. 基于这个处理思路, 本文选用基于形态学的轮廓优化方法对图像进行处理, 步骤如下:
步骤1. 首先确保图像中每个标签只能覆盖一个区域;
步骤2. 对每一个标签区域执行形态学开运算, 从原始图像中减去开运算结果, 如式(12);
$$ {f}_{m}={\bigcup }_{l=1}^{L}{b}_{l}-\delta \left(\varepsilon \right({b}_{l}\left)\right) $$ (13) 其中,
$ {b}_{l} $ 表示第$ l $ 个标签区域,$ l=1,\cdots ,L,{f}_{m} $ 表示原始图像中去掉开运算部分的结果.步骤3. 将
$ {f}_{m} $ 重新分配给相邻区域, 使每个区域标签不同, 并重新标号.利用双线轮廓优化方法对图5进行优化, 结果如图6所示. 显然, 该方法可以解决轮廓双线问题并且不改变分割轮廓形状.
为了进一步提升分割轮廓的精度, 避免分割结果过度依赖SE得到的梯度, 引入基于卷积神经网络的图像轮廓预测模型. 传统神经网络边缘检测模型[36-37]的局限性在于其提取的低层级特征信息很难去表征高层次信息, 大多数基于CNN网络的边缘检测模型仅仅只利用卷积网络的最后一层, 在深层次的特征信息中缺失了浅层的细节信息, 容易导致网络模型无法收敛并造成梯度消失. RCF是基于VGG16构建的网络框架, 将所有来自卷积层的层级特征组合成一个整体框架, 用来检测边缘信息, 其中所有参数均可自动学习多尺度和多层级的特征. 在预测图像轮廓之前, 首先改变原始图像的大小, 构建一组图像金字塔, 将这些图像输入到RCF网络进行前向传递; 然后用双线性插值法将边缘检测图恢复为原始大小; 最后将这些边缘图的平均值输出.
利用RCF网络模型可以得到较为准确的晶粒轮廓, 但RCF网络存在模型大、参数多、训练速度慢等问题, 因此, RCF网络对计算和内存资源消耗较高. 为了解决该问题, 利用深度可分离卷积(Depthwise separable convolution, DSC)替代RCF网络中的标准卷积, 从而得到轻量型的丰富卷积特征网络. 深度可分离卷积将标准卷积分解成深度卷积和逐点卷积, 如图7所示. 假设输入特征图尺寸为
$ {D}_{F}\times {D}_{F}\times M $ , 输出特征图尺寸为$ {D}_{F}\times {D}_{F}\times N $ , 卷积核尺寸为$ {D}_{K}\times {D}_{K}\times M\times N $ , 则标准卷积的计算量为$ {D}_{K}^{2}\times M\times N\times {D}_{F}^{2} $ , DSC的计算量为深度卷积和逐点卷积的计算量之和$ {D}_{K}^{2}\times M\times {D}_{F}^{2}+ $ $ M\times N\times {D}_{F}^{2} $ . 与标准卷积相比, DSC的计算量可缩减为标准卷积的$( 1/N+1/{D}_{K}^{2}) $ . 图8给出了LRCF的网络结构图, 其模型大小仅13.7 MB, 约为原RCF模型大小的1/8. 将LRCF应用于陶瓷晶粒轮廓预测, 结合RWT实现数据与模型联合驱动的陶瓷晶粒分割, 结果如图10 所示. p线为优化前结果, g线为优化前结果, y线为Ground Truth. 由图10(a)可以看出, 基于SE与RWT (SE-RWT) 实现的陶瓷晶粒分割结果总体较好, 缺陷在于部分晶粒的轮廓定位不准, 而基于LRCF和RWT (LRCF-RWT) 实现的陶瓷晶粒分割结果不仅能够获得准确的晶粒区域, 而且实现了更为准确的晶粒轮廓定位, 如图10(b) ~ (c)所示.边缘检测领域中的数据集往往是由不同标注者进行标注, 得到的标注结果受标注者本身对目标物体认知的影响. 虽然人与人的认知各不相同, 但是对于相同图像的边缘标注具有非常高的一致性.
因此, 对每张图像的标注结果取均值, 生成新的边缘率映射图, 取值范围为[0, 1]. 其中, 0表示没有标注者将其标注为边缘像素, 1表示所有的标注者都将其标注为边缘像素. 边缘概率值超过
$ \eta $ ($ \eta $ 取值0.5)的记为正样本, 概率值等于0的记为负样本. 利用训练数据中标记的结果生成相应的边缘概率图, 定义损失函数如下:$$l\left( {{X_i};W} \right)\left\{ {\begin{array}{*{20}{l}} &\alpha \cdot {\rm{ln}} (1 - P\left( {{X_i};W} \right)),&{\rm{if}}\;\;{y_i}{\rm{ = 0,}}\\ &0,&{\rm{if}}\;\;0 < {y_i} < \eta \\ &\beta \cdot {\rm{ln}} P\left( {{X_i};W} \right),&{\rm{otherwise}} \end{array}} \right.$$ (14) $$ \alpha =\lambda \frac{\left|{Y}^{+}\right|}{\left|{Y}^{+}\right|+\left|{Y}^{-}\right|}{,}\qquad\beta =\frac{\left|{Y}^{-}\right|}{\left|{Y}^{+}\right|+\left|{Y}^{-}\right|} $$ (15) 其中,
$ {Y}^{+} $ 和$ {Y}^{-} $ 分别表示正样本集和负样本集,$ \alpha $ 和$ \beta $ 分别表示正、负样本所占总样本的比例,$ \lambda $ 表示超参数, 用于平衡正、负样本的比例.$ {X}_{i} $ 和$ {y}_{i} $ 分别给出了像素$ i $ 处的激活值和标注边缘概率.$ P\left(X\right) $ 是标准的Sigmoid函数,$ W $ 表示在结构中学习到的所有参数, 最终得到的损失函数为式(15), 其中$ {X}_{i}^{\left(k\right)} $ 和$ {X}_{i}^{fuse} $ 分别表示来自$ k $ 层和融合层的激活值,$ \left|I\right| $ 表示图像$ I $ 中的像素数,$ K $ 表示层数.$$ L\left(W\right)=\sum\limits_{i=1}^{\left|I\right|}\left(\sum\limits_{k=1}^{K}l\left({X}_{i}^{\left(k\right)};W\right)+l\left({X}_{i}^{fuse};W\right)\right) $$ (16) 由LRCF得到的图像梯度预测结果如图9(a)所示. 该结果表明, LRCF能够实现较好的陶瓷晶粒梯度预测结果, 对该结果进行分水岭变换, 结果如图9(b)所示. y线表示Ground Truth. 由图9(b)可以看出, 尽管分割结果存在过分割问题, 然而分割结果的轮廓贴合度较高, 即LRCF能帮助分水岭变换获得更为准确的轮廓定位. 与图4中的RWT结果相比, LRCF的缺陷在于区域分割错误严重, 优势在于轮廓精度更高.
算法1. 基于数据与模型联合驱动的晶粒分割结果优化
输入.
$ f\_rwt $ (RWT分割结果),$ f\_lrcf $ (基于LRCF的分割结果),$ m $ (基于LRCF的分割结果中标签的总数)输出.
$ g $ (优化结果)1) 定义
$ f\_lrcf $ 标签$label ;$ 2) for
$i=\mathrm{1,2},\cdots ,m ;$ 3) 寻找
$ f\_lrcf $ 中$ label=i $ 的位置$L ;$ 4) 确定
$ L $ 在$ f\_rwt $ 中的标签$label\_rwt1, label\_ rwt2 ,$ $\cdots;$ 5) 从
$ L $ 中选取所占比例最大的标签, 设为$label\_rwt ;$ 6)
$label=label\_rwt ;$ 7) end.
据此, 本文利用LRCF对RWT的结果进行优化, 即数据与模型联合驱动的方式, 在保持RWT分割区域不变的情况下有效提升RWT的轮廓定位精度, 从而实现LRCF与RWT的优势互补, 获取更好的晶粒分割结果, 具体如算法1所示. 利用算法1, 对图4中RWT结果进行优化, 结果如图10所示. 从图中可以看出, 优化后的边缘更加准确, 且优化前后并未引入基于LRCF分割结果中过分割部分.
2. 实验结果
为了降低图像本身光照不均等问题对实验结果带来的干扰, 选取两组陶瓷SEM图像作为实验数据, 第1组是未经处理的陶瓷SEM图像, 第2组是经过工业镀金处理后去除光照影响的陶瓷SEM图像. 为了验证LRCF-RWT的分割性能, 选取Liu等[38]提出的基于聚类的分割算法(Morphological gradient reconstruction, Liu's-MGR)、随机游走(Random walker, RW)[39]、SLIC[14]、LSC[15]、Banerjee等[30]提出的算法、SE梯度结合分水岭变换的方法(Structured edge based watershed transform, SE-WT)[32]、SE梯度结合自适应形态学重建的分水岭变换方法(Structured edge adaptive morphological reconstruction and watershed transform, SE-AMR-WT)[40]、RCF结合分水岭变换(RCF-WT)[23]方法与本文提出的LRCF-RWT进行对比. 上述对比算法均采用公开代码进行实验, 算法参数与原文一致, 其中LRCF训练时设置损失参数
$ \eta =0.5, $ $ \lambda =1.1 $ , 训练所用数据集为基准数据集[41].LRCF网络在Intel Core i99900X @3.5 GHZ 128 GB RAM, 双NVIDIA GeForce RTX 2080Ti GPU工作站上进行训练, 编程环境为PyTorch1.2.
由于Liu's-MGR算法、SE-WT以及RCF-WT算法在分割线边缘附近都存在大量的闭合小区域, 为了公平对比, 本文将形态学梯度重建引入到所有对比算法中, 即使用Liu's-MGR、SE-MGR-WT和RCF-MGR-WT作为对比算法.
2.1 分割结果对比
图11为第1组实验图像(未镀金图像)的分割结果对比, 图中每一列代表一幅实验图像, 图11(a)为Liu's-MGR分割结果, 聚类中心数为5, 从结果可以看出, 该算法是依据像素灰度值进行分割, 由于实验图像晶粒之间灰度值不具备明显的差异, 所以这种基于聚类的分割算法结果不适用于本次实验图像. 图11(b)是随机游走的分割结果, 在图中较为均匀地选取了60个种子点, 与Liu's-MGR相比, 虽然分割精度有所提升, 但该算法的分割结果依赖于初始种子点的数量以及播撒位置, 很难做到将实验图像精准分割. 图11(c)和图11(d)是两种超像素算法的分割结果, 图11(c)是SLIC的分割结果, 该算法的分割结果大小均匀、形状较为规则, 而陶瓷晶粒大小不一、形状不规则, 而且SLIC对灰度值较为敏感, 所以SLIC不适用于实验图像. 图11(d)是LSC的分割结果, 与图11(c)相比, 该算法得到的结果对晶界的定位较为准确, 但与SLIC有同样的缺陷, 即算法对像素灰度值较为敏感, 导致过分割. 图11(e)是文献[30]提出的算法分割结果, 该算法分割结果较为准确, 但会受到光照影响, 导致分割错误, 而且该算法未能分割出图像边缘部分的晶粒. 图11(f)是SE-MGR-WT的分割结果, 分割结果与LSC分割结果较为相似, 但LSC对晶粒的分割是不准确的. 虽然LSC的分割结果与晶界重合率较高, 但晶粒之间并没有形成闭合区域, 相比之下SE-MGR-WT的分割结果得到的晶粒区域闭合且彼此独立. 图11(g)是SE-AMR-WT的分割结果, 与图11(f)相比, 该算法采用自适应多尺度形态学算子对梯度进行重建, 重建效果优于单尺度梯度重建, 所以该算法解决了过分割问题之后, 晶粒分割准确率提升, 但是分割结果存在双线轮廓问题. 图11(h)是RCF-MGR-WT对应的分割结果, 该算法利用网络深层特征进行区域定位, 浅层特征补充细节, 分割边缘准确性优于SE-AMR-WT, 但该算法分割结果过分割严重. 图11(i)是本文提出的LRCF-RWT的分割结果, 与上述算法相比, 该算法对陶瓷晶粒分割准确, 同时解决了双线轮廓问题, 分割效果最好.
图12为第2组实验图像(镀金图像)的分割结果对比, 图中每一列代表一幅实验图像, 镀金后图像整体的灰度值变化范围缩小. 与图11相比, Liu's-MGR在减小了灰度值的影响之后, 分割结果能够部分贴合晶界, 但误分割仍然严重. 由于随机游走受像素灰度值影响不大, 因此图12(b)与图11(b)近似. 在灰度值影响减弱的情况下, SLIC和LSC的分割结果仍然存在严重的误分割. 其余算法分割结果与图11相比均有不同程度的改善, 其中 LRCF-RWT表现出最好的结果.
2.2 实验指标对比
为了进一步对比不同分割算法的性能, 本文采用4种算法指标对分割结果进行测试, 分别是重叠比率(Covering, CV)[41]、变化信息(Variation of information, VI)[42]、全局一致性误差(Global consistency error, GCE)[43]和边界位移误差(Boundary displacement error, BDE)[44]. 其中CV的值越大, 表示分割结果越好; VI、GCE和BDE的值越小, 表示分割结果越好.
为了减小实验样品的不同处理方式对分割结果的影响, 指标对比时同样将实验图像分为2组, 表1是未处理的陶瓷电镜图像分割的实验指标平均值, 表2是镀金后的陶瓷电镜图像分割的实验指标平均值. 从图11可以看出, Liu's-MGR不适用于实验图像, 随机游走与Liu's-MGR相比准确率有所提升. 对照表1可以看出, Liu's-MGR的CV指标很低, 随机游走的CV指标比Liu's-MGR高. 从图11可以看出, SLIC分割结果并不准确, 虽然LSC分割结果与晶界重合率比较高, 但是该算法受像素灰度值影响较大, 且并未在晶粒边缘构成闭合区域, 所以2种算法CV指标较低. SE-MGR-WT与LSC相比, 分割结果构成闭合区域, 所以该算法的CV值大于LSC的CV值. 但是SE-MGR-WT过分割严重, 所以当SE-AMR-WT克服了过分割问题后, CV指标大幅度提升. 从图像中可以看出, 文献[30]的算法能够较为准确地分割出晶粒, 所以该算法的CV值比SE-MGR-WT大, 但算法受灰度值大小影响, 且难以分割图像边缘部分的晶粒, 因此CV值小于SE-AMR-WT. RCF-MGR-WT的分割结果过分割也很严重, 因此该算法的CV值比SE-AMR-WT低, 但RCF-MGR-WT的分割边缘的准确率高, 表现为该算法的变化信息和误差比SE-AMR-WT小. 相比其他算法, LRCF-RWT获得了最高的实验指标.
表 1 不同方法对陶瓷晶粒分割的性能指标对比(第1组实验, 未镀金的图像)Table 1 Performance comparison of different approaches for ceramic grain segmentation (the first group of experiments for unplated image)Methods CV↑ VI↓ GCE↓ BDE↓ Liu's-MGR[38] 0.2889 3.4270 0.4742 7.3230 Random Walker[39] 0.3556 2.9003 0.1407 13.2147 SLIC[14] 0.3547 3.0524 0.4396 10.1678 LSC[15] 0.3455 2.8820 0.3563 7.5911 Banerjee's[30] 0.5959 2.1992 0.2031 3.9182 SE-MGR-WT[32] 0.4680 2.3887 0.1364 5.0346 SE-AMR-WT[40] 0.8287 1.1280 0.1122 1.6261 RCF-MGR-WT[23] 0.6636 1.4952 0.0955 3.5651 LRCF-RWT 0.8697 0.8710 0.0763 1.6262 表 2 不同方法对陶瓷晶粒分割的性能指标对比(第2组实验, 镀金的图像)Table 2 Performance comparison of different approaches for ceramic grain segmentation (the second group of experiments for gilded image)Methods CV↑ VI↓ GCE↓ BDE↓ Liu's-MGR[38] 0.2622 3.8053 0.3565 6.9440 Random Walker[39] 0.3823 2.9517 0.2202 16.4378 SLIC[14] 0.3279 3.0962 0.4070 11.3350 LSC[15] 0.3347 2.8418 0.3265 8.0651 Banerjee's[30] 0.7035 1.7175 0.1052 2.7484 SE-MGR-WT[32] 0.7979 1.2031 0.1033 2.0565 SE-AMR-WT[40] 0.8757 0.9909 0.1110 1.2623 RCF-MGR-WT[23] 0.5771 1.7691 0.0895 4.8813 LRCF-RWT 0.9217 0.6699 0.0628 1.0201 分析表2实验数据, 在去除了光照干扰之后, Liu's-MGR、随机游走、SLIC以及LSC的实验指标与表1类似, 这些算法均表现出较低的分割精度. RCF-MGR-WT利用深层次和浅层次的特征, 算法结果稳定, 分割结果不受光照的影响. 文献[30]算法、SE-MGR-WT、SE-AMR-WT以及LRCF-RWT的实验指标对比表1有所提升, 图像对比也可以看出这3种算法在图12的分割结果比图11好. 由以上分析可得, 分割结果图的视觉效果和实验指标的直观数据得出的结论一致, LRCF-RWT的分割效果最好, 分割准确率最高.
2.3 晶粒尺寸计算
在完成图像分割之后, 就可以对晶粒尺寸进行计算. 在图像分割过程中, 已经将各个晶粒分开, 此时可以得到一幅图像中所有的晶粒数目以及晶粒尺寸的分布. 选取每幅图像中尺寸大小较为均匀的晶粒, 计算其尺寸的平均值, 计算方法可将晶粒近似为圆形, 通过得到晶粒面积间接计算其直径, 即为该晶粒尺寸. 其中人工测量方式为每幅图像选取5个形状大小较为均匀的晶粒, 测量晶粒尺寸并求平均值. 由于人工测量结果受测量者主观影响较大, 所以选择5位测量者分别对实验图像进行测量, 得到的测量数据如表3所示, 在去除最大值和最小值后, 对测量值取平均值, 以此来减弱主观因素对测量的影响, 最终得到的人工测量结果如表4所示. 从表3和表4可以看出, 人工测量的误差较大, 且测量中受主观影响较大, 测量费时费力. 表5为表4各算法分割结果中晶粒尺寸与Ground Truth的差值, 可以看出, 给出的LRCF-RWT与对比算法相比, 得到的晶粒尺寸更接近真实结果, 进一步验证了提出算法的优势.
表 3 人工测量晶粒尺寸结果(像素)Table 3 Grain sizes using manual method (pixels)测量者 1 测量者 2 测量者 3 测量者 4 测量者 5 1 94.55 89.17 93.39 94.22 88.51 2 90.92 100.33 105.38 91.48 99.91 3 107.50 100.91 102.09 96.49 89.91 4 101.61 89.91 92.08 94.42 93.38 5 108.31 103.88 95.16 102.45 93.52 6 112.51 108.21 112.34 109.70 107.84 7 101.85 104.13 102.80 94.40 89.73 表 4 不同方法对陶瓷晶粒尺寸的计算结果对比(像素)Table 4 Comparison of ceramic grain sizes using different approaches (pixels)人工测量 Ground Truth Liu's-MGR[38] RW[39] SLI[14] LSC[15] [30] SE-MGR-WT[32] SE-AMR-WT[40] RCF-MGR-WT[23] LRCF-RWT 1 92.26 97.80 88.00 195.16 74.33 63.95 92.58 48.88 83.73 63.07 98.56 2 97.24 98.00 85.60 161.54 74.48 63.66 86.59 55.09 94.34 75.08 99.15 3 99.83 92.33 82.81 175.15 76.66 62.39 105.29 50.92 90.52 63.08 92.47 4 93.29 93.34 65.97 206.96 75.72 62.73 86.45 53.17 87.70 65.21 92.48 5 100.50 96.09 74.38 192.80 75.99 68.04 102.02 67.25 93.87 59.95 96.76 6 110.08 98.93 69.83 177.56 76.48 70.01 104.08 76.38 96.00 59.31 100.65 7 99.68 96.61 78.18 183.03 75.50 71.71 114.28 85.29 93.98 53.59 97.67 表 5 不同方法计算陶瓷晶粒尺寸结果的误差(像素)Table 5 Error comparison of different approaches on ceramic grain size computation (pixels)Liu's-MGR[38] RW[39] SLIC[14] LSC[15] [30] SE-MGR-WT[32] SE-AMR-WT[40] RCF-MGR-WT[23] LRCF-RWT 1 −9.80 +97.36 −23.47 −33.85 −5.22 −48.92 −14.07 −34.73 −0.76 2 −12.40 +63.54 −23.52 −34.34 −11.41 −42.91 −3.66 −22.92 +1.15 3 −9.52 +82.82 −15.67 −29.94 −12.96 −41.41 −1.81 −29.25 −0.14 4 −27.37 +113.62 −17.62 −30.61 −6.89 −40.17 −5.64 −28.13 −0.86 5 −21.71 +96.71 −20.1 −28.05 +6.07 −28.84 −2.22 −36.14 −0.67 6 −29.10 +18.63 −22.45 −28.92 +5.15 −19.55 −2.93 −39.62 +1.72 7 −18.43 +86.42 −21.11 −24.90 +17.67 −11.32 −2.63 −43.02 −1.06 3. 结束语
针对人工测量陶瓷材料晶粒尺寸效率低、误差大的问题, 提出了一种数据与模型联合驱动的陶瓷材料晶粒分割算法. 该算法解决了传统分水岭算法存在的过分割以及分割区域个数与轮廓精度难以平衡的问题, 并通过引入卷积神经网络提升了分割精度, 实现了陶瓷材料SEM图像中晶粒的正确分割, 便于后续晶粒尺寸的统计与计算. 实验结果表明, 与传统分割算法相比, 提出的算法能实现不同类型陶瓷材料SEM图像中晶粒的准确分割.
然而, 针对未镀金SEM图像, 由于个别区域受光照影响严重, 预处理后该区域的灰度值依旧与其他区域差异过大, 导致分割错误. 此外, 部分图像中晶界不明显, 灰度值与晶粒相似, 导致晶粒未能正确分割. 针对上述问题, 未来我们将深入研究弱监督学习及生成对抗网络在陶瓷材料晶粒分割中的应用.
-
图 5 类Transformer方法的交互模块结构对比(Transformer[8], MLP-Mixer[85], ResMLP[86], gMLP[87], CycleMLP[88], ConvMixer[89], PoolFormer[90], MetaFormer[90], CMT[34], CVX[91])
Fig. 5 The comparison of mixing blocks of Transformer-like methods (Transformer[8], MLP-Mixer[85], ResMLP[86], gMLP[87], CycleMLP[88], ConvMixer[89], PoolFormer[90], MetaFormer[90], CMT[34], CVX[91])
图 8 基于Transformer和CNN的目标检测器的收敛速度对比(DETR-DC5[16], TSP-FCOS[115], TSP-RCNN[115], SMCA[110], Deformable DETR[24], Conditional DETR-DC5-R50[111], RetinaNet[104], Faster R-CNN[95], Sparse R-CNN[108])
Fig. 8 The comparison of converge speed among object detectors based on Transformer and CNN (DETR-DC5[16], TSP-FCOS[115], TSP-RCNN[115], SMCA[110], Deformable DETR[24], Conditional DETR-DC5-R50[111], RetinaNet[104], Faster R-CNN[95], Sparse R-CNN[108])
表 1 不同Transformer自注意力机制以及卷积的时间和空间复杂度(
$ N $ ,$ d $ ,$ s $ 分别表示序列长度、特征维度和局部窗口尺寸, 其中$s<N$ )Table 1 The time and space complexity of different Transformer frameworks (
$N$ ,$ d $ ,$ s $ denote the length, dimension and local window size respectively)名称 时间复杂度 空间复杂度 Convolution $ {\rm{O}}(Nd^2s) $ $ {\rm{O}}(Ns^2d^2+Nd) $ Transformer[8] $ {\rm{O}}(N^2d) $ $ {\rm{O}}(N^2+Nd) $ Sparse Transformers[49] $ {\rm{O}}(N\sqrt{N}d) $ — Reformer[50] $ {\rm{O}}(N\log Nd) $ $ {\rm{O}}(N\log N+Ld) $ Linear Transformer[33] $ {\rm{O}}(Nd^2) $ $ {\rm{O}}(Nd+d^2) $ Performer[54] $ {\rm{O}}(Nd^2\log d) $ $ {\rm{O}}(Nd\log d+d^2\log d) $ AFT-simple[56] $ {\rm{O}}(Nd) $ $ {\rm{O}}(Nd) $ AFT-full[56] $ {\rm{O}}(N^2d) $ $ {\rm{O}}(Nd) $ AFT-local (1D)[56] $ {\rm{O}}(Nsd) $ $ {\rm{O}}(Nd) $ Swin Transformer (2D)[23] ${\rm{O}}(Ns^2d)$ — 表 2 视觉Transformer算法在ImageNet-1k上的Top-1准确率比较
Table 2 The comparison of Top-1 accuracy of different vision Transformers on ImageNet-1k dataset
方法名称 迭代轮次 批处理大小 参数量 (×106) 计算量 (GFLOPs) 图像尺寸 Top-1 准确率 训练 测试 ViT-B/16[15] 300 4 096 86 743 224 384 77.9 ViT-L/16[15] 307 5172 224 384 76.5 DeiT-Ti[58] 300 1 024 5 1.3 224 224 72.2 DeiT-S[58] 22 4.6 224 224 79.8 DeiT-B[58] 86 17.6 224 224 81.8 DeiT-B$ \uparrow $[58] 86 52.8 224 384 83.1 ConViT-Ti[60] 300 512 6 1 224 224 73.1 ConViT-S[60] 27 5.4 224 224 81.3 ConViT-B[60] 86 17 224 224 82.4 LocalViT-T[61] 300 1 024 5.9 1.3 224 224 74.8 LocalViT-S[61] 22.4 4.6 224 224 80.8 CeiT-T[73] 300 1 024 6.4 1.2 224 224 76.4 CeiT-S[73] 24.2 4.5 224 224 82.0 CeiT-S$ \uparrow $[73] 24.2 12.9 224 384 83.3 ResT-Small[53] 300 2 048 13.66 1.9 224 224 79.6 ResT-Base[53] 30.28 4.3 224 224 81.6 ResT-Large[53] 51.63 7.9 224 224 83.6 Swin-T[23] 300 1 024 29 4.5 224 224 81.3 Swin-S[23] 50 8.7 224 224 83.0 Swin-B[23] 88 15.4 224 224 83.3 Swin-B$ \uparrow $[23] 88 47.0 224 384 84.2 VOLO-D1[68] 300 1 024 27 6.8 224 224 84.2 VOLO-D2[68] 59 14.1 224 224 85.2 VOLO-D3[68] 86 20.6 224 224 85.4 VOLO-D4[68] 193 43.8 224 224 85.7 VOLO-D5[68] 296 69.0 224 224 86.1 VOLO-D5$ \uparrow $[68] 296 304 224 448 87.0 PVT-Tiny[22] 300 128 13.2 1.9 224 224 75.1 PVT-Small[22] 24.5 3.8 224 224 79.8 PVT-Medium[22] 44.2 6.7 224 224 81.2 PVT-Large[22] 61.4 9.8 224 224 81.7 DeepViT-S[66] 300 256 27 6.2 224 224 82.3 DeepViT-L[66] 55 12.5 224 224 83.1 Refined-ViT-S[59] 300 256 25 7.2 224 224 83.6 Refined-ViT-M[59] 55 13.5 224 224 84.6 Refined-ViT-L[59] 81 19.1 224 224 84.9 Refined-ViT-L$ \uparrow $[59] 512 81 69.1 224 384 85.7 CrossViT-9[63] 300 4 096 8.6 1.8 224 224 73.9 CrossViT-15[63] 27.4 5.8 224 224 81.5 CrossViT-18[63] 43.3 9.0 224 224 82.5 表 3 基于Transformer和基于CNN的目标检测算法在COCO 2017 val数据集上的检测精度比较. 其中C. 表示基于CNN的算法, T. 表示基于Transformer的算法
Table 3 The comparison of detection performance of Transformer-based and CNN-based detectors on COCO 2017 val set. C. denotes CNN-based methods, T. denotes Transformer-based methods
类型 方法名称 迭代轮次 计算量 (GFLOPs) 参数量 (×106) 帧数 (FPS) 多尺度输入 $ AP $ $ AP_{50} $ $ AP_{75} $ $ AP_{S} $ $ AP_{M} $ $ AP_{L} $ C. FCOS[116] 36 177 — 17 √ 41.0 59.8 44.1 26.2 44.6 52.2 Faster R-CNN[95] 36 180 42 26 √ 40.2 61.0 43.8 24.2 43.5 52.0 Faster R-CNN+[95] 108 180 42 26 √ 42.0 62.1 45.5 26.6 45.4 53.4 Mask R-CNN[99] 36 260 44 — √ 41.0 61.7 44.9 — — — Cascade Mask R-CNN[105] 36 739 82 18 √ 46.3 64.3 50.5 — — — T. ViT-B/16-FRCNN$ \ddagger $[117] 21 — — — — 36.6 56.3 39.3 17.4 40.0 55.5 ViT-B/16-FRCNN*[117] 21 — — — — 37.8 57.4 40.1 17.8 41.4 57.3 DETR-R50[16] 500 86 41 28 — 42.0 62.4 44.2 20.5 45.8 61.1 DETR-DC5-R50[16] 500 187 41 12 — 43.3 63.1 45.9 22.5 47.3 61.1 ACT-MTKD (L=16)[113] — 156 — 14 — 40.6 — — 18.5 44.3 59.7 ACT-MTKD (L=32)[113] — 169 — 16 — 43.1 — — 22.2 47.1 61.4 Deformable DETR[24] 50 78 34 27 — 39.7 60.1 42.4 21.2 44.3 56.0 Deformable DETR-DC5[24] 50 128 34 22 — 41.5 61.8 44.9 24.1 45.3 56.0 Deformable DETR[24] 50 173 40 19 √ 43.8 62.6 47.7 26.4 47.1 58.0 Two-Stage Deformable DETR[24] 50 173 40 19 √ 46.2 65.2 50.0 28.8 49.2 61.7 SMCA[110] 50 152 40 22 — 41.0 — — 21.9 44.3 59.1 SMCA+[110] 108 152 40 22 — 42.7 — — 22.8 46.1 60.0 SMCA[110] 50 152 40 10 √ 43.7 63.6 47.2 24.2 47.0 60.4 SMCA+[110] 108 152 40 10 √ 45.6 65.5 49.1 25.9 49.3 62.6 Efficient DETR[109] 36 159 32 — √ 44.2 62.2 48.0 28.4 47.5 56.6 Efficient DETR*[109] 36 210 35 — √ 45.1 63.1 49.1 28.3 48.4 59.0 Conditional DETR[111] 108 90 44 — — 43.0 64.0 45.7 22.7 46.7 61.5 Conditional DETR-DC5[111] 108 195 44 — — 45.1 65.4 48.5 25.3 49.0 62.2 UP-DETR[112] 150 86 41 28 — 40.5 60.8 42.6 19.0 44.4 60.0 UP-DETR+[112] 300 86 41 28 — 42.8 63.0 45.3 20.8 47.1 61.7 TSP-FCOS[115] 36 189 51.5 15 √ 43.1 62.3 47.0 26.6 46.8 55.9 TSP-RCNN[115] 36 188 64 11 √ 43.8 63.3 48.3 28.6 46.9 55.7 TSP-RCNN+[115] 96 188 64 11 √ 45.0 64.5 49.6 29.7 47.7 58.0 YOLOS-S[114] 150 200 30.7 7 — 36.1 56.4 37.1 15.3 38.5 56.1 YOLOS-S[114] 150 179 27.9 5 √ 37.6 57.6 39.2 15.9 40.2 57.3 YOLOS-B[114] 150 537 127 — — 42.0 62.2 44.5 19.5 45.3 62.1 表 4 基于Transformer的语义分割算法在ADE20K val数据集上的语义分割精度比较. 其中, 1k表示ImageNet-1k, 22k表示ImageNet-1k和ImageNet-21k的结合
Table 4 The comparison of semantic segmentation performance of Transformer-based methods on ADE20K val set. 1k denotes ImageNet-1k dataset, 22k denotes the combination of ImageNet-1k and ImageNet-21k
方法名称 骨干网络 预训练数据集 图像尺寸 参数量 (×106) 计算量 (GFLOPs) 帧数 (FPS) 多尺度输入 mIoU UperNet[122] R-50 1k 512 — — 23.4 √ 42.8 R-101 1k 512 86 1 029 20.3 √ 44.9 Swin-T 1k 512 60 236 18.5 √ 46.1 Swin-S 1k 512 81 259 15.2 √ 49.3 Swin-B 22k 640 121 471 8.7 √ 51.6 Swin-L 22k 640 234 647 6.2 √ 53.5 Segformer[25] MiT-B3 1k 512 47.3 79 — √ 50.0 MiT-B4 1k 512 64.1 95.7 15.4 √ 51.1 MiT-B5 1k 512 84.7 183.3 9.8 √ 51.8 Segmenter[124] ViT-S/16 1k 512 37.0 — 34.8 √ 46.9 ViT-B/16 1k 512 106 — 24.1 √ 50.0 ViT-L/16 22k 640 334 — — √ 53.6 MaskFormer[125] R-50 1k 512 41 53 24.5 √ 46.7 R-101 1k 512 60 73 19.5 √ 47.2 Swin-T 1k 512 42 55 22.1 √ 48.8 Swin-S 1k 512 63 79 19.6 √ 51.0 Swin-B 22k 640 102 195 12.6 √ 53.9 Swin-L 22k 640 212 375 7.9 √ 55.6 Mask2Former[26] R-50 1k 512 — — — √ 49.2 R-101 1k 512 — — — √ 50.1 Swin-S 1k 512 — — — √ 52.4 Swin-B 22k 640 — √ 55.1 Swin-L 22k 640 — — — √ 57.3 表 5 基于Transformer的实例分割方法和基于CNN算法在COCO test-dev数据集上的实例分割精度比较
Table 5 The comparison of instance segmentation performance of Transformer-based and typical CNN-based methods on COCO test-dev dataset
方法名称 骨干网络 迭代轮次 帧数 (FPS) $ Ap^m $ $ Ap_S^m $ $ Ap_M^m $ $ Ap_L^m $ $ Ap^b $ Mask R-CNN[99] R-50-FPN 36 15.3 37.5 21.1 39.6 48.3 41.3 R-101-FPN 36 11.8 38.8 21.8 41.4 50.5 43.1 Blend Mask[96] R-50-FPN 36 15.0 37.8 18.8 40.9 53.6 43.0 R-101-FPN 36 11.5 39.6 22.4 42.2 51.4 44.7 SOLO v2[97] R-50-FPN 36 10.5 38.2 16.0 41.2 55.4 40.7 R-101-FPN 36 9.0 39.7 17.3 42.9 57.4 42.6 ISTR[127] R-50-FPN 36 13.8 38.6 22.1 40.4 50.6 46.8 R-101-FPN 36 11.0 39.9 22.8 41.9 52.3 48.1 SOLQ[98] R-50 50 — 39.7 21.5 42.5 53.1 47.8 R-101 50 — 40.9 22.5 43.8 54.6 48.7 Swin-L 50 — 45.9 27.8 49.3 60.5 55.4 QueryInst[126] R-50-FPN 36 7.0 40.6 23.4 42.5 52.8 45.6 R-101-FPN 36 6.1 41.7 24.2 43.9 53.9 47.0 Swin-L 50 3.3 49.1 31.5 51.8 63.2 56.1 Mask2Former[26] R-50 50 — 43.7 — — — 30.6 R-101 50 — 44.2 — — — 31.1 Swin-T 50 — 45.0 — — — 31.8 Swin-L 50 — 50.1 — — — 36.2 表 6 基于Transformer的全景分割算法在COCO panoptic minval数据集上的全景分割精度比较
Table 6 The comparison of panoptic segmentation performance of Transformer-based methods on COCO panoptic minival dataset
方法名称 骨干网络 迭代轮次 参数量 (×106) 计算量 (GFLOPs) $ PQ $ $ PQ^{Th} $ $ PQ^{St} $ DETR[16] R-50 150+25 42.8 137 43.4 48.2 36.3 R-101 61.8 157 45.1 50.5 37 MaxDeepLab[123] Max-S 54 61.9 162 48.4 53.0 41.5 Max-L 451 1 846 51.1 57.0 42.2 MaskFormer[125] R-50 300 45 181 46.5 51.0 39.8 R-101 64 248 47.6 52.5 40.3 Swin-T 42 179 47.7 51.7 41.7 Swin-S 63 259 49.7 54.4 42.6 Swin-B 102 411 51.1 56.3 43.2 Swin-L 212 792 52.7 58.5 44.0 Panoptic SegFormer[128] R-50 12 51.0 214 48.0 52.3 41.5 R-50 24 51.0 214 49.6 54.4 42.4 R-101 69.9 286 50.6 55.5 43.2 Swin-L 221.4 816 55.8 61.7 46.9 -
[1] 张慧, 王坤峰, 王飞跃. 深度学习在目标视觉检测中的应用进展与展望. 自动化学报, 2017, 43(8): 1289-1305Zhang Hui, Wang Kun-Feng, Wang Fei-Yue. Advances and perspectives on applications of deep learning in visual object detection. Acta Automatica Sinica, 2017, 43(8): 1289-1305 [2] 陈伟宏, 安吉尧, 李仁发, 李万里. 深度学习认知计算综述. 自动化学报, 2017, 43(11): 1886-1897Chen Wei-Hong, An Ji-Yao, Li Ren-Fa, Li Wan-Li. Review on deep-learning-based cognitive computing. Acta Automatica Sinica, 2017, 43(11): 1886-1897 [3] LeCun Y, Boser B, Denker J S, Henderson D, Howard R E, Hubbard W, et al. Backpropagation applied to handwritten zip code recognition. Neural Computation, 1989, 1(4): 541-551 doi: 10.1162/neco.1989.1.4.541 [4] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks. In: Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe, USA: Curran Associates Inc., 2012. 1097−1105 [5] He K M, Zhang X Y, Ren S Q, Sun J. Deep residual learning for image recognition. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE, 2016. 770−778 [6] Hochreiter S, Schmidhuber J. Long short-term memory. Neural Computation, 1997, 9(8): 1735-1780 doi: 10.1162/neco.1997.9.8.1735 [7] Chung J, Gulcehre C, Cho K H, Bengio Y. Empirical evaluation of gated recurrent neural networks on sequence modeling. arXiv preprint arXiv: 1412.3555, 2014. [8] Vaswani A, Shazeer N, Parmar N, Uszkoreit U, Jones L, Gomez A N, et al. Attention is all you need. In: Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA: Curran Associates Inc., 2017. 6000−6010 [9] Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate. In: Proceedings of the 3rd International Conference on Learning Representations. San Diego, USA, 2015. [10] Gehring J, Auli M, Grangier D, Yarats D, Dauphin Y N. Convolutional sequence to sequence learning. In: Proceedings of the 34th International Conference on Machine Learning. Sydney, Australia: JMLR.org, 2017. 1243−1252 [11] Jozefowicz R, Vinyals O, Schuster M, Shazeer N, Wu Y H. Exploring the limits of language modeling. arXiv preprint arXiv: 1602.02410, 2016. [12] Luong T, Pham H, Manning C D. Effective approaches to attention-based neural machine translation. In: Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon, Portugal: The Association for Computational Linguistics, 2015. 1412−1421 [13] Devlin J, Chang M W, Lee K, Toutanova K. BERT: Pre-training of deep bidirectional transformers for language understanding. In: Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Minneapolis, Minnesota, USA: Association for Computational Linguistics, 2018. 4171−4186 [14] Brown T B, Mann B, Ryder N, Subbiah M, Kaplan J, Dhariwal P, et al. Language models are few-shot learners. In: Proceedings of the Advances in Neural Information Processing Systems 33: Annual Conference on Neural Information Processing Systems. 2020. [15] Dosovitskiy A, Beyer L, Kolesnikov A, Weissenborn D, Zhai X H, Unterthiner T, et al. An image is worth 16x16 words: Transformers for image recognition at scale. In: Proceedings of the 9th International Conference on Learning Representations. Virtual Event, Austria: OpenReview.net, 2020. [16] Carion N, Massa F, Synnaeve G, Usunier N, Kirillov A, Zagoruyko S. End-to-end object detection with transformers. In: Proceedings of the 16th European Conference on Computer Vision. Glasgow, UK: Springer, 2020. 213−229 [17] Han K, Wang Y H, Chen H T, Chen X H, Guo J Y, Liu Z H, et al. A survey on vision transformer. IEEE Transactions on Pattern Analysis and Machine Intelligence, DOI: 10.1109/TPAMI.2022.3152247 [18] Liu Y, Zhang Y, Wang Y X, Hou F, Yuan J, Tian J, et al. A survey of visual transformers. arXiv preprint arXiv: 2111.06091, 2021. [19] Khan S, Naseer M, Hayat M, Zamir S W, Khan, F S, Shah M. Transformers in vision: A survey. arXiv preprint arXiv: 2101.01169, 2021. [20] Selva J, Johansen A S, Escalera S, Nasrollahi K, Moeslund T B, Clapés A. Video transformers: A survey. arXiv preprint arXiv: 2201.05991, 2022. [21] Shamshad F, Khan S, Zamir S W, Khan M H, Hayat M, Khan F S, et al. Transformers in medical imaging: A survey. arXiv preprint arXiv: 2201.09873, 2022. [22] Wang W H, Xie E Z, Li X, Fan D P, Song K T, Liang D, et al. Pyramid vision transformer: A versatile backbone for dense prediction without convolutions. In: Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision (ICCV). Montreal, Canada: IEEE, 2021. 548−558 [23] Liu Z, Lin Y T, Cao Y, Hu H, Wei Y X, Zhang Z, et al. Swin transformer: Hierarchical vision transformer using shifted windows. In: Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision (ICCV). Montreal, Canada: IEEE, 2021. 9992−10002 [24] Zhu X Z, Su W J, Lu L W, Li B, Wang X G, Dai J F. Deformable DETR: Deformable transformers for end-to-end object detection. In: Proceedings of the 9th International Conference on Learning Representations. Virtual Event, Austria: OpenReview.net, 2021. [25] Xie E Z, Wang W H, Yu Z D, Anandkumar A, Alvarez J M, Luo P. SegFormer: Simple and efficient design for semantic segmentation with transformers. arXiv preprint arXiv: 2105.15203, 2021. [26] Cheng B W, Misra I, Schwing A G, Kirillov A, Girdhar R. Masked-attention mask transformer for universal image segmentation. arXiv preprint arXiv: 2112.01527, 2021. [27] Zhou L W, Zhou Y B, Corso J J, Socher R, Xiong C M. End-to-end dense video captioning with masked transformer. In: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 8739−8748 [28] Zeng Y H, Fu J L, Chao H Y. Learning joint spatial-temporal transformations for video inpainting. In: Proceedings of the 16th European Conference on Computer Vision. Glasgow, UK: Springer, 2020. 528−543 [29] Jiang Y F, Chang S Y, Wang Z Y. TransGAN: Two transformers can make one strong gan. arXiv preprint arXiv: 2102.07074, 2021. [30] Zhao H, Jiang L, Jia J, Torr P H, Koltun V. Point transformer. In: Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision. Montreal, Canada: IEEE, 2021. 16259−16268 [31] Guo M H, Cai J X, Liu Z N, Mu T J, Martin R R, Hu S M. PCT: Point cloud transformer. Computational Visual Media, 2021, 7(2): 187-199 doi: 10.1007/s41095-021-0229-5 [32] Shen Z R, Zhang M Y, Zhao H Y, Yi S, Li H S. Efficient attention: Attention with linear complexities. In: Proceedings of the 2021 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV). Waikoloa, USA: IEEE, 2021. 3530−3538 [33] Katharopoulos A, Vyas A, Pappas N, François F. Transformers are rNNS: Fast autoregressive transformers with linear attention. In: Proceedings of the 37th International Conference on Machine Learning. PMLR, 2020. 5156−5165 [34] Guo J Y, Han K, Wu H, Xu C, Tang Y H, Xu C J, et al. CMT: Convolutional neural networks meet vision transformers. arXiv preprint arXiv: 2107.06263, 2021. [35] Xiao T, Singh M, Mintun E, Darrell T, Dollár P, Girshick R. Early convolutions help transformers see better. In: Proceedings of the 35th Conference on Neural Information Processing Systems (NeurIPS 2021). 2021. [36] Kolesnikov A, Beyer L, Zhai X H, Puigcerver J, Yung J, Gelly S, et al. Big transfer (BiT): General visual representation learning. In: Proceedings of the 16th European Conference on Computer Vision. Glasgow, UK: Springer, 2020. 491−507 [37] Mahajan D, Girshick R, Ramanathan V, He K M, Paluri M, Li Y X, et al. Exploring the limits of weakly supervised pretraining. In: Proceedings of the 15th European Conference on Computer Vision (ECCV). Munich, Germany: Springer, 2018. 185−201 [38] Touvron H, Vedaldi A, Douze M, Jégou H. Fixing the train-test resolution discrepancy. In: Proceedings of the 33rd Conference on Neural Information Processing Systems (NeurIPS 2019). Vancouver, Canada, 2019. 8250−8260 [39] Xie Q Z, Luong M T, Hovy E, Le Q V. Self-training with noisy student improves ImageNet classification. In: Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, USA: IEEE, 2020. 10684−10695 [40] Ba J L, Kiros J R, Hinton G E. Layer normalization. arXiv preprint arXiv: 1607.06450, 2016. [41] Kim Y, Denton C, Hoang L, Rush A M. Structured attention networks. In: Proceedings of the 5th International Conference on Learning Representations. Toulon, France: OpenReview.net, 2017. [42] Buades A, Coll B, Morel J M. A non-local algorithm for image denoising. In: Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR′′05). San Diego, USA: IEEE, 2005. 60−65 [43] Wang X L, Girshick R, Gupta A, He K M. Non-local neural networks. In: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 7794−7803 [44] Han Q, Fan Z J, Dai Q, Sun L Cheng M M, Liu J Y, et al. Demystifying local vision transformer: Sparse connectivity, weight sharing, and dynamic weight. arXiv preprint arXiv: 2106.04263, 2021. [45] Chen L C, Papandreou G, Kokkinos I, Murphy K, Yuille A L. DeepLab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4): 834-848 doi: 10.1109/TPAMI.2017.2699184 [46] De Brabandere B, Jia X, Tuytelaars T, Van Gool L. Dynamic filter networks. In: Proceedings of the 30th International Conference on Neural Information Processing Systems. Barcelona, Spain: Curran Associates Inc., 2016. 667−675 [47] Islam A, Jia S, Bruce N D B. How much position information do convolutional neural networks encode? In: Proceedings of the 8th International Conference on Learning Representations. Addis Ababa, Ethiopia: OpenReview.net, 2020. [48] Tay Y, Dehghani M, Bahri D, Metzler D. Efficient transformers: A survey. arXiv preprint arXiv: 2009.06732, 2020. [49] Child R, Gray S, Radford A, Sutskever I. Generating long sequences with sparse transformers. arXiv preprint arXiv: 1904.10509, 2019. [50] Kitaev N, Kaiser L, Levskaya A. Reformer: The efficient transformer. In: Proceedings of the 8th International Conference on Learning Representations. Addis Ababa, Ethiopia: OpenReview.net, 2020. [51] Rao Y M, Zhao W L, Liu B L, Lu J W, Zhou J, Hsieh C J. DynamicViT: Efficient vision transformers with dynamic token sparsification. arXiv preprint arXiv: 2106.02034, 2021. [52] Wang W X, Yao L, Chen L, Lin B B, Cai D, He X F, et al. CrossFormer: A versatile vision transformer hinging on cross-scale attention. arXiv preprint arXiv: 2108.00154, 2021. [53] Zhang Q L, Yang B B. ResT: An efficient transformer for visual recognition. arXiv preprint arXiv: 2105.13677, 2021. [54] Choromanski K M, Likhosherstov V, Dohan D, Song X Y, Gane A, Sarlás T, et al. Rethinking attention with performers. In: Proceedings of the 9th International Conference on Learning Representations. Virtual Event, Austria: OpenReview.net, 2021. [55] Tsai Y H H, Bai S J, Yamada M, Morency L P, Salakhutdinov R. Transformer dissection: An unified understanding for transformer$'$s attention via the lens of kernel. arXiv preprint arXiv: 1908.11775, 2019. [56] Zhai S F, Talbott W, Srivastava N, Huang C, Goh H, Zhang R X, et al. An attention free transformer. arXiv preprint arXiv: 2015.14103, 2021. [57] Lu J C, Yao J H, Zhang J G, Zhu X T, Xu H, Gao W G, et al. SOFT: Softmax-free transformer with linear complexity. In: Proceedings of the 35th Conference on Neural Information Processing Systems (NeurIPS 2021). 2021. [58] Touvron H, Cord M, Douze M, Francisco M, Sablayrolles A, Jégou H. Training data-efficient image transformers & distillation through attention. In: Proceedings of the 38th International Conference on Machine Learning. PMLR, 2021. 10347−10357 [59] Zhou D Q, Shi Y J, Kang B Y, Yu W H, Jiang Z H, Li Y, et al. Refiner: Refining self-attention for vision transformers. arXiv preprint arXiv: 2106.03714, 2021. [60] d′′Ascoli S, Touvron H, Leavitt M L, Morcos A S, Biroli G, Sagun L. ConViT: Improving vision transformers with soft convolutional inductive biases. In: Proceedings of the 38th International Conference on Machine Learning. PMLR, 2021. 2286−2296 [61] Li Y W, Zhang K, Cao J Z, Timofte R, Van Gool L. LocalViT: Bringing locality to vision transformers. arXiv preprint arXiv: 2104.05707, 2021. [62] Lin T Y, Dollár P, Girshick R, He K M, Hariharan B, Belongie S. Feature pyramid networks for object detection. In: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA: IEEE, 2017. 936-−944 [63] Chen C F, Fan Q F, Panda R. CrossViT: Cross-attention multi-scale vision transformer for image classification. In: Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision. Montreal, Canada: IEEE, 2021. 347−356 [64] Gong C Y, Wang D L, Li M, Chandra V, Liu Q. Improve vision transformers training by suppressing over-smoothing. arXiv preprint arXiv: 2104.12753, 2021. [65] Yun S, Han D, Chun S, Oh S J, Yoo Y, Choe J. CutMix: Regularization strategy to train strong classifiers with localizable features. In: Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, Korea: IEEE, 2019. 6022−6031 [66] Zhou D Q, Kang B Y, Jin X J, Yang L J, Lian X C, Hou Q B, et al. DeepViT: Towards deeper vision transformer. arXiv preprint arXiv: 2103.11886, 2021. [67] Tay Y, Bahri D, Metzler D, Juan D C, Zhao Z, Zheng C. Synthesizer: Rethinking self-attention for transformer models. In: Proceedings of the 38th International Conference on Machine Learning. PMLR, 2021. 10183−10192 [68] Yuan L, Hou Q B, Jiang Z H, Feng J S, Yan S C. VOLO: Vision outlooker for visual recognition. arXiv preprint arXiv: 2106.13112, 2021. [69] Mihcak M K, Kozintsev I, Ramchandran K, Moulin P. Low-complexity image denoising based on statistical modeling of wavelet coefficients. IEEE Signal Processing Letters, 1999, 6(12): 300-303 doi: 10.1109/97.803428 [70] He K M, Sun J, Tang X O. Guided image filtering. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(6): 1397-1409 doi: 10.1109/TPAMI.2012.213 [71] Criminisi A, Pérez P, Toyama K. Region filling and object removal by exemplar-based image inpainting. IEEE Transactions on Image Processing, 2004, 13(9): 1200-1212 doi: 10.1109/TIP.2004.833105 [72] Raghu M, Unterthiner T, Kornblith S, Zhang C Y, Dosovitskiy A. Do vision transformers see like convolutional neural networks? In: Proceedings of the 35th Conference on Neural Information Processing Systems (NeurIPS 2021). 2021. [73] Yuan K, Guo S P, Liu Z W, Zhou A J, Yu F W, Wu W. Incorporating convolution designs into visual transformers. In: Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision (ICCV). Montreal, Canada: IEEE, 2021. 559−568 [74] Chen Y P, Dai X Y, Chen D D, Liu M C, Dong X Y, Yuan L, et al. Mobile-former: Bridging MobileNet and transformer. arXiv preprint arXiv: 2108.05895, 2021. [75] Mehta S, Rastegari M. MobileViT: Light-weight, general-purpose, and mobile-friendly vision transformer. arXiv preprint arXiv: 2110.02178, 2021. [76] Peng Z L, Huang W, Gu S Z, Xie L X, Wang Y W, Jiao J B, et al. Conformer: Local features coupling global representations for visual recognition. In: Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision (ICCV). Montreal, Canada: IEEE, 2021. 357−366 [77] Yan H, Deng B C, Li X N, Qiu X P. TENER: Adapting transformer encoder for named entity recognition. arXiv preprint arXiv: 1911.04474, 2019. [78] Shaw P, Uszkoreit J, Vaswani A. Self-attention with relative position representations. In: Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. New Orleans, USA: Association for Computational Linguistics, 2018. 464−468 [79] Dai Z H, Yang Z L, Yang Y M, Carbonell J G, Le Q V, Salakhutdinov R. Transformer-XL: Attentive language models beyond a fixed-length context. In: Proceedings of the 57th Conference of the Association for Computational Linguistics. Florence, Italy: Association for Computational Linguistics, 2019. 2978−2988 [80] Huang Z H, Liang D, Xu P, Xiang B. Improve transformer models with better relative position embeddings. In: Proceedings of the Findings of the Association for Computational Linguistics: EMNLP. Association for Computational Linguistics, 2020. 3327−3335 [81] Parmar N, Ramachandran P, Vaswani A, Bello I, Levskaya A, Shlens J. Stand-alone self-attention in vision models. In: Proceedings of the Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems. Vancouver, Canada, 2019. 68−80 [82] Wu K, Peng H W, Chen M H, Fu J L, Chao H Y. Rethinking and improving relative position encoding for vision transformer. In: Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision (ICCV). Montreal, Canada: IEEE, 2021. 10013−10021 [83] Deng J, Dong W, Socher R, Li L J, Li K, Li F F. ImageNet: A large-scale hierarchical image database. In: Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, USA: IEEE, 2009. 248−255 [84] Zhao Y C, Wang G T, Tang C X, Luo C, Zeng W J, Zha Z J. A battle of network structures: An empirical study of CNN, transformer, and MLP. arXiv preprint arXiv: 2108.13002, 2021. [85] Tolstikhin I, Houlsby N, Kolesnikov A, Beyer L, Zhai X H, Unterthiner T, et al. MLP-Mixer: An all-MLP architecture for vision. arXiv preprint arXiv: 2105.01601, 2021. [86] Touvron H, Bojanowski P, Caron M, Cord M, El-Nouby A, Grave E, et al. ResMLP: Feedforward networks for image classification with data-efficient training. arXiv preprint arXiv: 2105.03404, 2021. [87] Liu H X, Dai Z H, So D R, Le Q V. Pay attention to MLPs. In: Proceedings of the 35th Conference on Neural Information Processing Systems (NeurIPS 2021). 2021. [88] Chen S F, Xie E Z, Ge C J, Chen R J, Liang D, Luo P. CycleMLP: A MLP-like architecture for dense prediction. arXiv preprint arXiv: 2107.10224, 2021. [89] Ng D, Chen Y Q, Tian B, Fu Q, Chng E S. ConvMixer: Feature interactive convolution with curriculum learning for small footprint and noisy far-field keyword spotting. arXiv preprint arXiv: 2201.05863, 2022. [90] Yu W H, Luo M, Zhou P, Si C Y, Zhou Y C, Wang X C, et al. MetaFormer is actually what you need for vision. arXiv preprint arXiv: 2111.11418, 2021. [91] Jeevan P, Sethi A. Convolutional xformers for vision. arXiv preprint arXiv: 2201.10271, 2022. [92] Liu Z, Mao H Z, Wu C Y, Feichtenhofer C, Darrell T, Xie S N. A ConvNet for the 2020s. arXiv preprint arXiv: 2201.03545, 2022. [93] Ding X H, Zhang X Y, Zhou Y Z, Han J G, Ding G G, Sun J. Scaling up your kernels to 31x31: Revisiting large kernel design in CNNs. arXiv preprint arXiv: 2203.06717, 2022. [94] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition. In: Proceedings of the 3rd International Conference on Learning Representations. San Diego, USA, 2014. [95] Ren S Q, He K M, Girshick R, Sun J. Faster R-CNN: Towards real-time object detection with region proposal networks. In: Proceedings of the Advances in Neural Information Processing Systems 28: Annual Conference on Neural Information Processing Systems 2015. Montreal, Canada, 2015. 91−99 [96] Chen H, Sun K Y, Tian Z, Shen C H, Huang Y M, Yan Y L. BlendMask: Top-down meets bottom-up for instance segmentation. In: Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, USA: IEEE, 2020. 8570−8578 [97] Wang X L, Zhang R F, Kong T, Li L, Shen C H. SOLOv2: Dynamic and fast instance segmentation. In: Proceedings of the 34th Conference on Neural Information Processing Systems (NeurIPS 2020). Vancouver, Canada, 2020. [98] Dong B, Zeng F G, Wang T C, Zhang X Y, Wei Y C. SOLQ: Segmenting objects by learning queries. In: Proceedings of the 35th Conference on Neural Information Processing Systems (NeurIPS 2021). 2021. [99] He K M, Gkioxari G, Dollár P, Girshick R B. Mask R-CNN. In: Proceedings of the 2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE, 2017. 2980−2988 [100] Liu W, Anguelov D, Erhan D, Szegedy C, Reed S, Fu C Y, et al. SSD: Single shot MultiBox detector. In: Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands: Springer, 2016. 21−37 [101] Law H, Deng J. CornerNet: Detecting objects as paired keypoints. In: Proceedings of the 15th European Conference on Computer Vision (ECCV). Munich, Germany: Springer, 2018. 765−781 [102] Zhou X Y, Wang D Q, Krähenbühl P. Objects as points. arXiv preprint arXiv: 1904.07850, 2019. [103] Lin T Y, Maire M, Belongie S, Hays J, Perona P, Ramanan D, et al. Microsoft COCO: Common objects in context. In: Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland: Springer, 2014. 740−755 [104] Lin T Y, Goyal P, Girshick R, He K M, Dollár P. Focal loss for dense object detection. In: Proceedings of the 2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE, 2017. 2999−3007 [105] Cai Z W, Vasconcelos N. Cascade R-CNN: Delving into high quality object detection. In: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 6154−6162 [106] Zhang S F, Chi C, Yao Y Q, Lei Z, Li S Z. Bridging the gap between anchor-based and anchor-free detection via adaptive training sample selection. In: Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, USA: IEEE, 2020. 9756−9765 [107] Chen Y H, Zhang Z, Cao Y, Wang L W, Lin S, Hu H. RepPoints v2: Verification meets regression for object detection. In: Proceedings of the Advances in Neural Information Processing Systems 33: Annual Conference on Neural Information Processing Systems 2020. 2020. [108] Sun P Z, Zhang R F, Jiang Y, Kong T, Xu C F, Zhan W, et al. Sparse R-CNN: End-to-end object detection with learnable proposals. In: Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, USA: IEEE, 2021. 14449−14458 [109] Yao Z Y, Ai J B, Li B X, Zhang C. Efficient DETR: Improving end-to-end object detector with dense prior. arXiv preprint arXiv: 2104.01318, 2021. [110] Gao P, Zheng M H, Wang X G, Dai J F, Li H S. Fast convergence of DETR with spatially modulated co-attention. In: Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision (ICCV). Montreal, Canada: IEEE, 2021. 3601−3610 [111] Meng D P, Chen X K, Fan Z J, Zeng G, Li H Q, Yuan Y H, et al. Conditional DETR for fast training convergence. In: Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision (ICCV). Montreal, Canada: IEEE, 2021. 3631−3640 [112] Dai Z G, Cai B L, Lin Y G, Chen J Y. UP-DETR: Unsupervised pre-training for object detection with transformers. In: Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, USA: IEEE, 2021. 1601−1610 [113] Zheng M H, Gao P, Zhang R R, Li K C, Wang X G, Li H S, et al. End-to-end object detection with adaptive clustering transformer. arXiv preprint arXiv: 2011.09315, 2020. [114] Fang Y X, Liao B C, Wang X G, Fang J M, Qi J Y, Wu R, et al. You only look at one sequence: Rethinking transformer in vision through object detection. arXiv preprint arXiv: 2106.00666, 2021. [115] Sun Z Q, Cao S C, Yang Y M, Kitani K. Rethinking transformer-based set prediction for object detection. In: Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision (ICCV). Montreal, Canada: IEEE, 2021. 3591−3600 [116] Tian Z, Shen C H, Chen H, He T. FCOS: Fully convolutional one-stage object detection. In: Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, Korea: IEEE, 2019. 9626−9635 [117] Beal J, Kim E, Tzeng E, Park D H, Zhai A, Kislyuk D. Toward transformer-based object detection. arXiv preprint arXiv: 2012.09958, 2020. [118] Girshick R. Fast R-CNN. In: Proceedings of the 2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile: IEEE, 2015. 1440−1448 [119] Minaee S, Boykov Y Y, Porikli F, Plaza A J, Kehtarnavaz N, Terzopoulos D. Image segmentation using deep learning: A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, DOI: 10.1109/TPAMI.2021.3059968 [120] Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation. In: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, USA: IEEE, 2015. 3431−3440 [121] Zheng S X, Lu J C, Zhao H S, Zhu X T, Luo Z K, Wang Y B, et al. Rethinking semantic segmentation from a sequence-to-sequence perspective with transformers. In: Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, USA: IEEE, 2021. 6877−6886 [122] Xiao T T, Liu Y C, Zhou B L, Jiang Y N, Sun J. Unified perceptual parsing for scene understanding. In: Proceedings of the 15th European Conference on Computer Vision (ECCV). Munich, Germany: Springer, 2018. 432−448 [123] Wang H Y, Zhu Y K, Adam H, Yuille A, Chen L C. MaX-DeepLab: End-to-end panoptic segmentation with mask transformers. In: Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, USA: IEEE, 2021. 5459−5470 [124] Strudel R, Garcia R, Laptev I, Schmid C. Segmenter: Transformer for semantic segmentation. In: Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision (ICCV). Montreal, Canada: IEEE, 2021. 7242−7252 [125] Cheng B W, Schwing A, Kirillov A. Per-pixel classification is not all you need for semantic segmentation. In: Proceedings of the 35th Conference on Neural Information Processing Systems (NeurIPS 2021). 2021. [126] Fang Y X, Yang S S, Wang X G, Li Y, Fang C, Shan Y, et al. QueryInst: Parallelly supervised mask query for instance segmentation. arXiv preprint arXiv: 2105.01928, 2021. [127] Hu J, Cao L J, Yan L, Zhang S C, Wang Y, Li K, et al. ISTR: End-to-end instance segmentation with transformers. arXiv preprint arXiv: 2105.00637, 2021. [128] Li Z Q, Wang W H, Xie E Z, Yu Z D, Anandkumar A, Alvarez J M, et al. Panoptic SegFormer: Delving deeper into panoptic segmentation with transformers. arXiv preprint arXiv: 2109.03814, 2022. 期刊类型引用(66)
1. 李玉洁,马子航,王艺甫,王星河,谭本英. 视觉Transformer(ViT)发展综述. 计算机科学. 2025(01): 194-209 . 百度学术
2. 周建亭,宣士斌,王婷. 融合遮挡信息的改进DDETR无人机目标检测算法. 计算机工程与应用. 2024(01): 236-244 . 百度学术
3. 张英俊,白小辉,谢斌红. CNN-Transformer特征融合多目标跟踪算法. 计算机工程与应用. 2024(02): 180-190 . 百度学术
4. 王飞跃,王雨桐. 数字科学家与平行科学:AI4S和S4AI的本源与目标. 中国科学院院刊. 2024(01): 27-33 . 百度学术
5. 彭斌,白静,李文静,郑虎,马向宇. 面向图像分类的视觉Transformer研究进展. 计算机科学与探索. 2024(02): 320-344 . 百度学术
6. 田鑫驰,王亚刚,尹钟,陈浩. 整合卷积与高效自注意力机制的图像分类模型. 小型微型计算机系统. 2024(03): 684-691 . 百度学术
7. 胡杰,昌敏杰,徐博远,徐文才. ConvFormer:基于Transformer的视觉主干网络. 电子学报. 2024(01): 46-57 . 百度学术
8. 刘建华,王楠,白明辰. 手机室内场景要素实例化现实增强方法研究进展. 计算机工程与应用. 2024(07): 58-69 . 百度学术
9. 王杨,李迎春,许佳炜,王傲,马唱,宋世佳,谢帆,赵传信,胡明. 基于改进Vision Transformer网络的农作物病害识别方法. 小型微型计算机系统. 2024(04): 887-893 . 百度学术
10. 黄荣,宋俊杰,周树波,刘浩. 基于自监督视觉Transformer的图像美学质量评价方法. 计算机应用. 2024(04): 1269-1276 . 百度学术
11. 缪青海,王兴霞,杨静,赵勇,王雨桐,陈圆圆,田永林,俞怡,林懿伦,鄢然,马嘉琪,那晓翔,王飞跃. 从基础智能到通用智能:基于大模型的GenAI和AGI之现状与展望. 自动化学报. 2024(04): 674-687 . 本站查看
12. 田永林,王兴霞,王雨桐,王建功,郭超,范丽丽,沈甜雨,武万森,张红梅,朱正秋,王飞跃. RAG-PHI:检索增强生成驱动的平行人与平行智能. 智能科学与技术学报. 2024(01): 41-51 . 百度学术
13. 林飞,王飞跃,田永林,丁显廷,倪清桦,王静,申乐. 平行药物系统:基于大语言模型和三类人的框架与方法. 智能科学与技术学报. 2024(01): 88-99 . 百度学术
14. 苏宇. 大型语言模型的法律风险与治理路径. 法律科学(西北政法大学学报). 2024(01): 76-88 . 百度学术
15. 刘新,刘冬兰,付婷,王勇,常英贤,姚洪磊,罗昕,王睿,张昊. 基于联邦学习的时间序列预测算法. 山东大学学报(工学版). 2024(03): 55-63 . 百度学术
16. 陈俊英,李朝阳,席月芸,刘冲. ViT和注意力融合的类别不均衡PCB缺陷检测方法. 仪器仪表学报. 2024(04): 294-306 . 百度学术
17. 范诗萌,孙炜,覃宇,覃业宝,胡曼倩,刘崇沛. 基于三分支混合特征提取的双目立体匹配算法. 机器人. 2024(04): 414-424 . 百度学术
18. 邵攀,石卫超,秦道龙,张晓东,董婷,管宗胜. 集成CNN和Transformer的通道交互多层级融合变化检测. 测绘科学. 2024(05): 110-121 . 百度学术
19. 陈天航,曾业战,邓倩,钟春良. 基于Transformer与信息融合的绝缘子缺陷检测方法. 电气技术. 2024(08): 11-17 . 百度学术
20. 李广丽,叶艺源,吴光庭,李传秀,吕敬钦,张红斌. 联合多视角Transformer编码与在线融合互学习的乳腺癌病理图像分类模型. 电子学报. 2024(07): 2369-2381 . 百度学术
21. 李俊仪,李向阳,龙朝勋,李海燕,李红松,余鹏飞. 基于多级区域选择与跨层特征融合的野生菌分类. 计算机工程. 2024(09): 179-188 . 百度学术
22. 孙红,吴一凡,徐广辉,田鑫驰,朱江明. Rmcvit:一种融合卷积与自注意力的轻量级图像识别算法. 小型微型计算机系统. 2024(08): 1929-1934 . 百度学术
23. 文思佳,张栋,赵伟强,孙瑞,尚佳童,雷涛. 融合CNN-Transformer的医学图像分割网络. 计算机与数字工程. 2024(08): 2452-2456 . 百度学术
24. 王飞跃. 智能科技与K21教育:未来社会的未来学校与未来师生. 智能科学与技术学报. 2024(03): 281-283 . 百度学术
25. 张志成,王静,张阳,田永林,张濛濛,吕宜生,王飞跃. OrthoGPT:面向精准诊疗的多模态骨科大模型. 智能科学与技术学报. 2024(03): 338-346 . 百度学术
26. 朱守泰,李康宇,王西峰. 物流移动机器人的视觉全局定位方法研究. 制造业自动化. 2024(10): 100-104+120 . 百度学术
27. 王林,刘景亮,王无为. 基于空洞卷积融合Transformer的无人机图像小目标检测方法. 计算机应用. 2024(11): 3595-3602 . 百度学术
28. 韩宇超,同向前,邓亚平. 基于概率密度估计与时序Transformer网络的风功率日前区间预测. 中国电机工程学报. 2024(23): 9285-9296 . 百度学术
29. 周慧,朱虹,陈澎. 基于可变形的多尺度自注意力特征融合SAR影像舰船识别. 大连海事大学学报. 2024(04): 110-118 . 百度学术
30. 李文华,叶洪涛,罗文广,刘乙奇. 基于MHSA-LSTM的软测量建模及其在化工过程中的应用. 化工学报. 2024(12): 4654-4665 . 百度学术
31. 任书玉,汪晓丁,林晖. 目标检测中注意力机制综述. 计算机工程. 2024(12): 16-32 . 百度学术
32. 李翔,张涛,张哲,魏宏杨,钱育蓉. Transformer在计算机视觉领域的研究综述. 计算机工程与应用. 2023(01): 1-14 . 百度学术
33. 田鑫驰,王亚刚,尹钟. FuseNet:应用于移动端的轻量型图像识别网络. 计算机应用研究. 2023(01): 288-293+298 . 百度学术
34. 瞿定垚,王学. 基于Swin Transformer的家居垃圾分类系统. 电子制作. 2023(01): 67-74 . 百度学术
35. Fei-Yue Wang,Jing Yang,Xingxia Wang,Juanjuan Li,Qing-Long Han. Chat with ChatGPT on Industry 5.0:Learning and Decision-Making for Intelligent Industries. IEEE/CAA Journal of Automatica Sinica. 2023(04): 831-834 . 必应学术
36. 杜康宁,宁少慧,邓功也. 基于视觉Transformer的滚动轴承智能故障诊断. 组合机床与自动化加工技术. 2023(04): 96-99 . 百度学术
37. 付忠广,王诗云,高玉才,周湘淇. 基于Mobile-VIT的旋转机械故障诊断方法. 汽轮机技术. 2023(02): 119-121+86 . 百度学术
38. 卢经纬,郭超,戴星原,缪青海,王兴霞,杨静,王飞跃. 问答ChatGPT之后:超大预训练模型的机遇和挑战. 自动化学报. 2023(04): 705-717 . 本站查看
39. 田永林,陈苑文,杨静,王雨桐,王晓,缪青海,王子然,王飞跃. 元宇宙与平行系统:发展现状、对比及展望. 智能科学与技术学报. 2023(01): 121-132 . 百度学术
40. 李兰兰,周颖,林禹,尤梦翔,林美福,陈文新. 基于多模态图像构建CNN-ViT模型在弥漫性大B细胞淋巴瘤骨髓受累诊断中的应用. 中国医学影像学杂志. 2023(04): 390-394 . 百度学术
41. 艾振华,臧升睿,陈敏,陈倩倩,迟洁茹,杨国为,于腾. 基于NATCA-Greater YOLO的航拍小目标检测. 青岛大学学报(工程技术版). 2023(02): 18-25 . 百度学术
42. 李建,杜建强,朱彦陈,郭永坤. 基于Transformer的目标检测算法综述. 计算机工程与应用. 2023(10): 48-64 . 百度学术
43. 杨海燕,李涛. ChatGPT教学应用:场景、局限与突破策略. 中国教育信息化. 2023(06): 26-34 . 百度学术
44. 刘华平,郭迪,孙富春,张新钰. 基于形态的具身智能研究:历史回顾与前沿进展. 自动化学报. 2023(06): 1131-1154 . 本站查看
45. 王敏,王培东. 基于深度学习的高分辨率遥感图像语义分割方法综述. 广州城市职业学院学报. 2023(02): 96-100 . 百度学术
46. 丛晓峰,桂杰,贺磊,章军. 基于视觉多头注意力与跨层白化的水下图像增强网络. 模式识别与人工智能. 2023(05): 407-418 . 百度学术
47. 吴珺,董佳明,刘欣,王春枝. 注意力优化的轻量目标检测网络及应用. 智能系统学报. 2023(03): 506-516 . 百度学术
48. 熊聪,于安宁,高兴华,原森浩,曾孝平. 基于改进YOLOX的钢材表面缺陷检测算法. 电子测量技术. 2023(09): 151-157 . 百度学术
49. 王飞跃. 平行医生与平行医院:ChatGPT与通用人工智能技术对未来医疗的冲击与展望. 协和医学杂志. 2023(04): 673-679 . 百度学术
50. 杨乐,郭一鸣,霍勇博,任晓龙,林平远,张志宏. 改进YOLOv5在电力生产违规穿戴检测中的应用. 电力系统保护与控制. 2023(14): 160-168 . 百度学术
51. 阳东升,卢经纬,李强,王飞跃. 超大预训练模型在指挥控制领域的应用与挑战. 指挥与控制学报. 2023(02): 146-155 . 百度学术
52. 杜泉成,王晓,李灵犀,宁焕生. 行人轨迹预测方法关键问题研究:现状及展望. 智能科学与技术学报. 2023(02): 143-162 . 百度学术
53. 黄峻,田永林,戴星原,王晓,平之行. 基于深度学习的自动驾驶多模态轨迹预测方法:现状及展望. 智能科学与技术学报. 2023(02): 180-199 . 百度学术
54. 蒿敬波,阳广贤,肖湘江,陶阳. 基于Transformer模型的心音小波谱图识别. 计算机技术与发展. 2023(10): 189-194 . 百度学术
55. 高皓章,唐友,辛鹏,朱国东. 基于TransUnet的田间杂草分割研究. 无线互联科技. 2023(15): 100-103 . 百度学术
56. 周涛,党培,陆惠玲,侯森宝,彭彩月,师宏斌. 跨模态跨尺度跨维度的PET/CT图像的Transformer分割模型. 电子与信息学报. 2023(10): 3529-3537 . 百度学术
57. 林峰,宁琪琳,朱智勤. 改进DAB-DETR算法的非规则交通对象检测. 现代电子技术. 2023(21): 141-148 . 百度学术
58. 李伟文,缪小冬,顾曹雨,左朝杰. 融合点柱网络和DETR的三维复杂道路目标检测. 重庆理工大学学报(自然科学). 2023(11): 32-39 . 百度学术
59. 刘富州,袁博文,吕桐,卢炳文,周杰,吴大明. 基于sViT的风电场集电线故障区段定位. 电工电气. 2023(12): 29-36+53 . 百度学术
60. 刘金宇,杜健民. 基于视觉Transformer的荒漠草原微斑块识别. 信息技术与信息化. 2023(12): 200-203 . 百度学术
61. 陈凡,宋文革,范誉瀚,陈塞. 基于CNN-Transformer融合模型的选煤厂振动筛上杂物语义分割研究. 煤炭工程. 2023(S1): 193-199 . 百度学术
62. 王飞跃. 平行智能数字警察构建平行安全新格局:从平行警务到平安中国. 智能科学与技术学报. 2023(04): 431-435 . 百度学术
63. 汪磊,何怡刚,谭畅. 基于DA-Transformer的风机叶片覆冰检测. 三峡大学学报(自然科学版). 2022(05): 1-8 . 百度学术
64. Fei-Yue Wang. The DAO to MetaControl for MetaSystems in Metaverses: The System of Parallel Control Systems for Knowledge Automation and Control Intelligence in CPSS. IEEE/CAA Journal of Automatica Sinica. 2022(11): 1899-1908 . 必应学术
65. 张文娟,杨皓哲,张彬,李秀杰. 考虑多时间尺度特征的城市轨道交通短时客流量预测模型. 交通运输系统工程与信息. 2022(06): 212-223 . 百度学术
66. 王本礼,王也. 基于深度学习的遥感影像地类信息获取技术现状研究. 国土资源导刊. 2022(04): 74-80 . 百度学术
其他类型引用(85)
-