2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于注意力机制和循环域三元损失的域自适应目标检测

周洋 韩冰 高新波 杨铮 陈玮铭

周洋, 韩冰, 高新波, 杨铮, 陈玮铭. 基于注意力机制和循环域三元损失的域自适应目标检测. 自动化学报, 2024, 50(11): 2188−2203 doi: 10.16383/j.aas.c220938
引用本文: 周洋, 韩冰, 高新波, 杨铮, 陈玮铭. 基于注意力机制和循环域三元损失的域自适应目标检测. 自动化学报, 2024, 50(11): 2188−2203 doi: 10.16383/j.aas.c220938
Zhou Yang, Han Bing, Gao Xin-Bo, Yang Zheng, Chen Wei-Ming. Domain adaptive object detection based on attention mechanism and cycle domain triplet loss. Acta Automatica Sinica, 2024, 50(11): 2188−2203 doi: 10.16383/j.aas.c220938
Citation: Zhou Yang, Han Bing, Gao Xin-Bo, Yang Zheng, Chen Wei-Ming. Domain adaptive object detection based on attention mechanism and cycle domain triplet loss. Acta Automatica Sinica, 2024, 50(11): 2188−2203 doi: 10.16383/j.aas.c220938

基于注意力机制和循环域三元损失的域自适应目标检测

doi: 10.16383/j.aas.c220938 cstr: 32138.14.j.aas.c220938
基金项目: 国家自然科学基金(62076190, 41831072, 62036007), 陕西省重点创新产业链基金(2022ZDLGY01-11), 西安市重点产业链技术攻关项目(23ZDCYJSGG0022-2023), 国家空间科学数据中心青年开放课题基金(NSSDC2302005)资助
详细信息
    作者简介:

    周洋:西安电子科技大学电子工程学院硕士研究生. 2020年获得西南石油大学电子信息工程专业学士学位. 主要研究方向为计算机视觉和域自适应目标检测. E-mail: yzhou_6@stu.xidian.edu.cn

    韩冰:西安电子科技大学电子工程学院教授. 主要研究方向为智能辅助驾驶系统, 视觉感知与认知, 空间物理与人工智能交叉. 本文通信作者. E-mail: bhan@xidian.edu.cn

    高新波:西安电子科技大学教授. 主要研究方向为机器学习, 图像处理, 计算机视觉, 模式识别和多媒体内容分析. E-mail: xbgao@ieee.org

    杨铮:西安电子科技大学电子工程学院博士研究生. 2017年获得西安电子科技大学智能科学与技术专业学士学位. 主要研究方向为深度学习, 目标跟踪和强化学习. E-mail: zhengy@stu.xidian.edu.cn

    陈玮铭:西安电子科技大学电子工程学院硕士研究生. 2019年获得西安电子科技大学机械设计制造及其自动化专业学士学位. 主要研究方向为计算机视觉, 目标检测和遥感技术. E-mail: wmchen@stu.xidian.edu.cn

Domain Adaptive Object Detection Based on Attention Mechanism and Cycle Domain Triplet Loss

Funds: Supported by National Natural Science Foundation of China (62076190, 41831072, 62036007), Key Industry Innovation Chain of Shaanxi Province (2022ZDLGY01-11), Key Industry Chain Technology Research Project of Xi'an (23ZDCYJSGG0022-2023), and Youth Open Project of National Space Science Data Center (NSSDC2302005)
More Information
    Author Bio:

    ZHOU Yang Master student at the School of Electronic Engineering, Xidian University. He received his bachelor degree in electronic and information engineering from Southwest Petroleum University in 2020. His research interest covers computer vision and domain adaptive detection

    HAN Bing Professor at the School of Electronic Engineering, Xidian University. Her research interest covers intelligent auxiliary drive system, visual perception and cognition, and cross-disciplinary research between space physics and artificial intelligence. Corresponding author of this paper

    GAO Xin-Bo Professor at Xidian University. His research interest covers machine learning, image processing, computer vision, pattern recognition, and multimedia content analysis

    YANG Zheng Ph.D. candidate at the School of Electronic Engineering, Xidian University. He received his bachelor degree in intelligent science and technology from Xidian University in 2017. His research interest covers deep learning, object tracking, and reinforcement learning

    CHEN Wei-Ming Master student at the School of Electronic Engineering, Xidian University. He received his bachelor degree in mechanical design manufacture and automation from Xidian University in 2019. His research interest covers computer vision, object detection, and remote sensing

  • 摘要: 目前大多数深度学习算法都依赖于大量的标注数据并欠缺一定的泛化能力. 无监督域自适应算法能提取到已标注数据和未标注数据间隐式共同特征, 从而提高算法在未标注数据上的泛化性能. 目前域自适应目标检测算法主要为两阶段目标检测器设计. 针对单阶段检测器中无法直接进行实例级特征对齐导致一定数量域不变特征的缺失, 提出结合通道注意力机制的图像级域分类器加强域不变特征提取. 此外, 对于域自适应目标检测中存在类别特征的错误对齐引起的精度下降问题, 通过原型学习构建类别中心, 设计了一种基于原型的循环域三元损失(Cycle domain triplet loss, CDTL)函数, 从而实现原型引导的精细类别特征对齐. 以单阶段目标检测算法作为检测器, 并在多种域自适应目标检测公共数据集上进行实验. 实验结果证明该方法能有效提升原检测器在目标域的泛化能力, 达到比其他方法更高的检测精度, 并且对于单阶段目标检测网络具有一定的通用性.
  • 随着深度学习时代的到来, 许多领域都发生着日新月异的巨大变化, 无论是智慧安防、智慧医疗亦或是目前备受关注的自动驾驶领域都得益于深度神经网络中提取到的高维语义. 目前基于神经网络[1]的深度学习方法在图像分类、目标检测、图像分割等领域取得了卓越的成绩. 但不可否认这些成功的背后都依赖于大量的标注数据, 所以目前大多数深度学习方法可以认为是数据驱动的. 通常地, 机器学习模型需要大量的已标注数据用于训练, 并假设训练集和测试集的数据是同分布的[2], 才能在测试阶段取得较好的效果. 但实际上如果将一个在某种特定场景(或数据集上)训练好的模型直接应用到另一种场景中(或另一个数据集上), 当新场景数据与训练集数据不满足同分布假设的时候, 就会造成模型性能的大幅降低. 这是因为分布上的不一致使得直接应用于训练集外的模型发生了域迁移, 进而导致性能的退化. 这种现象在真实场景中非常常见, 例如自动驾驶场景中训练数据通常从晴朗的白天捕获而来, 而测试环境是没有标注的夜晚或者雨雪天等极端天气都会造成模型精度的骤减. 为解决以上问题, 提出了无监督域自适应方法, 旨在利用源域已有标注的数据和目标域没有标注的数据同时作为网络输入部分, 利用域自适应算法促使网络学习到域不变特征, 进而提升模型在目标域的泛化能力. 这种无监督的域自适应方法[3-4]在早期往往通过一种距离度量来构造损失函数, 在训练过程中通过最小化这个损失函数从而拉近两个域之间的距离; 基于梯度反转层方法[5]的提出为域自适应方向提供了一种新的思路, 与生成对抗网络[6]中的原理类似, 通过构造一个具有梯度反转层的域分类器作为判别器, 利用对抗训练得到能够捕获域不变特性的特征提取器. 域自适应的方法目前在分类和分割任务上都取得了很好的成果并在行人重识别领域也有较好的结合[7-8], 但由于目标检测任务同时涉及到目标分类和目标框的回归使得直接应用域自适应方法存在一定困难, 所以基于域自适应方法在检测任务上的研究工作相对较少并存在一定的挑战.

    目前, 大多数方法都是基于双阶段目标检测网络Faster R-CNN (Region convolutional neural network)[9]实现的域自适应目标检测算法. Chen等[10]首次将Faster R-CNN与域自适应算法相结合, 利用对抗特征学习的方法构建梯度反转层和域分类器实现图像级和实例级的特征对齐. Saito等[11]讨论了域分类器对于主干网络浅层和深层特征进行域自适应带来的不同影响, 并且使用Focal Loss[12]作为深层特征的域分类损失函数以解决类别不平衡问题. Shen等[13]进一步讨论了网络不同位置加入Focal Loss所带来的影响. Zheng等[14]引入注意力机制获得权重特征图, 该特征图强调可能存在目标的区域, 并将该特征图和域分类损失加权, 使得网络更加关注于可能存在目标的区域, 同时该方法构建类别原型并计算各类原型之间的相似性, 实现类别特征的对齐. Xu等[15]提出一种类别正则化的策略进一步加强特征对齐, 该策略利用多标签分类器的弱定位能力去指导对抗训练. Hsu等[16]通过关注前景像素来实现基于中心感知的特征对齐, 从而获得更好的跨域自适应性. Chen等[17]在输入端使用循环对抗生成网络(Cycle generative adversarial network, CycleGAN)[18]将源域和目标域的图像转变成一个插值域来联结域间的鸿沟, 同时从域分类器中引入上下文特征向量来增强实例级特征的表达能力. Deng等[19]设计了一种教师−学生蒸馏网络, 将蒸馏损失和域分类损失共同指导网络学习到域不变特征. Xu等[20]结合图的思想, 在源域和目标域构建图结构和图一致性损失, 进而拉近两个域间的距离. Wu等[21]提出一种基于向量分解的解耦学习方法以分离域不变表示和域特异表示, 从而促进了领域不变表示包含更多的领域无关信息.

    在单阶段目标检测器上实现域自适应算法相较于双阶段检测器更为困难, 因为其缺少可以提取目标建议的区域提取网络(Region proposal network, RPN)[9], 所以无法直接实现实例级的特征对齐. 文献[22-24]都是基于单阶段多检测框检测器(Single shot multibox detector, SSD)[25]的域自适应目标检测算法. Rodriguez等[24]利用伪标签自训练的思想, 先使用在源域训练好的模型在目标域推理得到伪标签, 再设计伪标签更新的策略使得模型向目标域泛化. 李威等[23]综合源域和目标域中域不变的内容空间及域特有的属性空间表示进行多样性的图像翻译, 从而实现了一种多源域的渐进域自适应算法, 但二者[23-24]都需要先进行源域向目标域的图像翻译, 再作为域自适应检测网络的输入进行训练, 不属于端到端的训练方式. Chen等[22]在图像和像素级别的对齐基础上, 构建原型特征隐式地完成实例级对齐, 但其在实例的选择上缺少目标置信度信息对实例特征进行筛选, 进而导致目标域原型存在较大的偏差. 兼具速度和精度的YOLO (You only look once)系列网络是广受工业界青睐的目标检测器之一, 尽管YOLOv1提出较早, 但YOLO系列检测器的发展却从未停止. 从2015年提出的YOLOv1[26]到目前最新的YOLOv8[27], YOLO系列网络的演进更能体现出目标检测的发展. 先进的YOLO检测器精度和速度也已远远超过Faster R-CNN和SSD网络. Zhang等[28]以YOLOv3[29]检测器为基础实现域自适应YOLO目标检测算法(Domain adaptation YOLO, DAYOLO), 但其只是简单地将文献[10]中的域自适应方法迁移到YOLOv3上. Hnewa等[30]以YOLOv4[31]为检测器提出一种多尺度特征融合的域自适应YOLO目标检测网络(Multi scale domain adaptive YOLO, MS-DAYOLO); Vidit等[32]以YOLOv5[33]作为检测器, 引入自注意力机制自适应捕获目标区域, 从而提高在目标域上的检测精度. 尽管如此, 二者都缺乏对类别特征的对齐[30, 32], 从而导致不同类别之间误对齐带来的精度下降. Li等[34]以YOLOv5作为检测器提出步进式域自适应YOLO目标检测算法(Stepwise domain adaptative YOLO, S-DAYOLO), 在图像级和实例级特征对齐模块之间引入类别一致性模块, 一定程度上缓解了类别特征误对齐带来的影响.

    基于此, 本文针对单阶段目标检测算法(以YOLO检测器为主), 提出一种主要基于对抗特征训练的无监督域自适应单阶段目标检测算法. 首先本文设计了一种简单而有效的基于通道注意力机制的域分类器(Channel attention domian classifier, CADC), 用于图像级特征对齐以加强图像级域不变特征的提取, 进而补充域不变信息. 该方法将SE (Squeeze-excitation)通道注意力机制模块[35]与域分类器相结合, 使得网络更加关注域不变特征通道并且抑制域特异特征通道. 进一步地, 通过构造不同类别的原型特征, 设计了一种基于原型的循环域三元损失(Cycle domain triplet loss, CDTL)函数, 在循环域三元损失函数的指导下使不同域之间相同类别原型间的距离尽可能近, 同时使得同一个域中不同类别原型间的距离尽可能远, 进而对齐类别特征. 总的来说, 本文主要贡献如下:

    1)为了自适应地搜寻更多的具有域不变特性的特征, 提出基于通道注意力机制的图像级域分类器, 加强模型对域不变信息的学习.

    2)为了纠正特征对齐中出现的类别偏差, 设计了一种域间基于原型的循环域三元损失函数以更好地实现类别对齐, 进一步提升检测精度.

    3)通过大量实验证明本文方法的有效性, 并适用于单阶段目标检测网络, 可以为后续相关工作提供一定的参考.

    在域自适应目标检测中往往将源域数据定义为$\Omega_{\rm{s}} = \{ X_{\rm{s}}^i, b_{\rm{s}}^i, y_{\rm{s}}^i | i = 1, \cdots, N_{\rm{s}}\}$, 将目标域数据定义为$\Omega_{\rm{t}} = \{ X_{\rm{t}}^i | i = 1, \cdots, N_{\rm{t}}\}$. $ X_{\rm{s}}^i$和$X_{\rm{t}}^i $分别代表在源域和目标域数据集中的第$ i $幅图像, $y_{\rm{s}}^i \in \{ 1, 2, \cdots, K\}$和 $ b_{\rm{s}}^i $分别代表在源域中第$ i $幅图像的类别标注和框标注, $ K $代表在数据集中的类别数. 本文的目标是利用已有标注的源域数据和未标注的目标域数据设计域自适应算法, 使得原检测器在目标域数据上仍具有较高的检测精度. 本文提出了基于通道注意力机制的域分类器(CADC)和循环域三元损失(CDTL)函数, 网络总体流程如图1所示. 图中实线代表原检测器的数据流向, 虚线代表域自适应算法的数据流向, DG代表图象级和实例级域分类器组, 包含实例级特征对齐域分类器和本文所引入的基于通道注意力机制的图像级特征对齐域分类器CADC. 图象级和实例级域分类器组与颈部网络相对应的骨干网络特征图$ F_1 $、$ F_2 $和$ F_3 $相连接, 从而实现多尺度图像级和实例级的对齐. 同时在$ F_1 $的前一组卷积输出特征上引入像素级特征对齐域分类器[17], 实现浅层局部特征的对齐, 在特征图上构建循环域三元损失函数所需的类别原型. 总的来说, 在通常的图像级对齐和实例级对齐的基础上, 本文引入的通道注意力域分类器(CADC)和循环域三元损失(CDTL)函数对目标域数据和源域数据实现从图像特征到实例特征以及类别特征的分层对齐, 从而提高检测器在目标域的检测精度. 其中, CADC可以增强域不变通道特征并同时抑制域特异通道特征, 从而使得网络能够学习到两个域之间的隐式共同特性, 进而使得图像级的特征能够较好地对齐. 而CDTL利用原型学习的思想, 在源域和目标域循环构建三元损失函数中的正负样本和锚示例, 最后通过最小化CDTL实现类别对齐, 进一步提高目标检测网络在目标域数据集上的检测精度. 本文在第1.1节和第1.2节中将更为详细地对上述两种方法进行介绍.

    图 1  基于注意力机制和循环域三元损失的域自适应目标检测算法流程
    Fig. 1  The pipeline of domain adaptive object detection based on attention mechanism and cycle domain triplet loss

    在计算机视觉中, 注意力机制可以视为一种动态选择过程, 它是根据输入的重要性自适应地加权特征来实现的. 通道注意力机制作为注意力机制的一员, 其核心思想是通过辅助网络计算每个通道对最终任务的贡献程度将其以权重的形式与网络加权, 从而使得网络偏向于对当前任务更有用的通道特征的学习. 例如SENet[35]、ECANet[36]和SRM[37]等神经网络. Wang等[38]提出BatchNorm层中较小的缩放因子所对应的通道对域自适应任务的影响较小的假设, 并对该通道权重通过剪枝正则化证明其对域自适应任务所带来的贡献较小. 受此启发, 本文直接在域自适应目标检测中的域分类器上引入通道注意力机制. 因为网络的不同通道特征对最终的域自适应具有不同的贡献程度, 并且在深度特征图中, 每个通道特征对应于输入数据的特定部分即不同的物体, 这些物体在不同域中的高维特征是相似的. 所以, 在域自适应目标检测任务中引入通道注意力机制有助于检测器学习到不同域间同类物体的共同特征. 基于此, 本文用域分类器的分类损失函数指导含有通道注意力机制的域分类器进行学习. 结合通道注意力机制的域分类器大大提升了其域判别能力, 这迫使检测器必须更加关注于两个域之间具有域不变内容特征通道的学习, 同时抑制对域自适应过程中贡献较小的通道, 以此与域判别器相抗衡, 实现特征对抗学习. 在本节中, 我们选用SENet中的SE模块对通道间的领域信息进行建模.

    在以YOLO系列网络的颈部网络(Neck)部分相对应的骨干特征图$ F_1 $, $ F_2 $和$ F_3 $中引入基于通道注意力机制的图像级特征对齐域分类器. 选择这三处特征作为域分类器的输入是因为它们包含深层和丰富的多尺度语义信息, 同时其特征会跟随Neck部分网络不断聚合实现深层语义信息和低层纹理空间信息的融合. 本文将SE模块插入到域分类器中, 在训练阶段帮助网络更加关注于对域分类任务中贡献最大的通道, 进而更有效地提取到域不变特征. 因为域分类器只在训练阶段使用, 所以推理阶段该方法保持了检测器的原有结构. 具体地, 输入图像$ X $通过骨干网络(Backbone)得到三个与Neck相连接的特征图$F_i\;(i = 1, 2, 3)$, 如式(1)所示.

    $$ F_i = Backbone(X) $$ (1)

    其中, $ Backbone $代表检测器的主干网络, $F_i\;(i = 1, 2, 3)$为经主干网络提取到的特征层. 然后, 将其依次通过CADC中的卷积层(Convolutional layer, Conv)和SE模块中的平均池化(Average pooling, AvgP)、全连接层(Fully layer, FC)和Sigmoid激活函数得到通道的域不变性权重向量$ {\boldsymbol{w}}_i $, 如式(2)所示. 最后将权重向量$ {\boldsymbol{w}}_i $与域分类器中卷积输出特征进行加权后输入到梯度反转层(Gradient reversal layer, GRL)中, 得到最后的域分类特征$ {\boldsymbol{d}}_i\;(i = 1, 2, 3) $, 如式(3)所示, 即

    $$ {\boldsymbol{w}}_i = Sigmoid(FC(AvgP(Conv(F_i)))) $$ (2)
    $$ {\boldsymbol{d}}_i = GRL(Conv(F_i){\boldsymbol{w}}_i) $$ (3)

    最后, 对这三组域分类特征分别使用交叉熵损失函数和两个Focal损失函数作为分类损失, 如式(4) ~ (6)所示, 这里$ \gamma $为Focal损失函数的系数. 与DAYOLO[28]一样, 本文对最终的检测结果使用ROIPooling以间接获取三组实例特征$ {\boldsymbol{ins}} $, 并使用交叉熵损失函数作为三组实例特征的域分类损失函数, 计算过程如式(7)所示, 式中, $D_i \,(i=1,2) $分别代表源域和目标域的域标签. 总的域分类损失$ L_{{\rm{DA}}} $为四者之和, 由式(8)计算得到.

    $$ \begin{split} L_{{\rm{DA1}}} = \;&- \sum\limits_i{[D_i\ln({\boldsymbol{d}}_1)\;+ }\\ &{(1 - D_i)\ln (1 -{\boldsymbol{d}}_1)]} \end{split} $$ (4)
    $$ \begin{split} L_{{\rm{DA}}2} =\;& - \sum\limits_i {[D_i(1 - {\boldsymbol{d}}_2)^{\gamma}\ln({\boldsymbol{d}}_2)}\;+ \\ &{(1 - D_i){\boldsymbol{d}}_2^{\gamma }\ln (1 - {\boldsymbol{d}}_2)]} \end{split} $$ (5)
    $$ \begin{split} L_{{\rm{DA}}3} =\;& - \sum\limits_i {[D_i(1 - {\boldsymbol{d}}_3)^{\gamma}\ln({\boldsymbol{d}}_3)}\;+ \\ &{(1 - D_i){\boldsymbol{d}}_3^{\gamma }\ln (1 - {\boldsymbol{d}}_3)]} \end{split} $$ (6)
    $$ \begin{split} L_{{\rm{DA}}4} =\;& - \sum\limits_i {[D_i\ln ({\boldsymbol{ins}}) }\;+ \\ &{(1 - D_i)\ln (1 - {\boldsymbol{ins}})]} \end{split}$$ (7)
    $$ L_{{\rm{DA}}} = L_{{\rm{DA}}1} + L_{{\rm{DA}}2} + L_{{\rm{DA}}3} + L_{{\rm{DA}}4} $$ (8)

    在文献[39]中作者通过设立锚示例$ {\boldsymbol{a}} $、正样本示例$ {\boldsymbol{p}} $和负样本示例$ {\boldsymbol{n}} $组成以嵌入特征表示的三元组$ \{{\boldsymbol{a}}, {\boldsymbol{p}}, {\boldsymbol{n}}\} $来构造三元损失(Triple loss, TripleLoss)函数, 如式(9)所示.

    $$ L = \max (d({\boldsymbol{a}}, {\boldsymbol{p}}) - d({\boldsymbol{a}}, {\boldsymbol{n}}) + margin, 0) $$ (9)

    其中, 锚示例和正样本示例同类. $ d(\cdot) $代表距离函数, 一般使用$L_2 $范数表示. $ margin $为超参数以控制正负样本间的距离, 同时防止模型学习到$ d({\boldsymbol{a}}, {\boldsymbol{p}}) $等于$ d({\boldsymbol{a}}, {\boldsymbol{n}}) $的特殊情况. TripleLoss的目的是通过最小化$ L $以减少锚示例和正样本示例之间的距离, 从而使得同类样本嵌入特征相互靠近、异类样本嵌入特征相互远离. 受此启发, 本文利用域自适应中源域和目标域类别相同的固有属性, 针对实例级对齐中忽略类别信息造成不同类别特征误对齐的问题, 提出一种基于类别原型对齐的循环域三元损失函数和类别原型更新机制. 遵循原型网络[40]的思想, 从特征图中提取类别原型$ {\boldsymbol{v}}_k $充当类别中心$ k $代表类别数. 首先将源域中各类类别中心作为正样本示例$ {{\boldsymbol{p}}_{{i}}}, i \in \{ 1, 2, \cdots, K\} $, 目标域中同类样本的类别中心作为锚示例$ {{\boldsymbol{a}}_{{i}}}, i \in \{ 1, 2, \cdots, K\} $, 将源域中不同类样本的类别中心作为负样本示例$ {{\boldsymbol{n}}_{{i}}}, i \in \{ 1, 2, \cdots, K\} $, 构建三元损失函数, 进行既定迭代次数的训练. 然后交换源域和目标域, 将源域中各类类别中心作为锚示例, 而将目标域中的同类类别中心作为正样本示例, 异类类别中心作为负样本示例构建三元损失函数再次进行既定迭代次数的训练. 在整个训练过程中交替进行构成了基于原型的循环域三元损失函数, 其设计思想如图2所示. 图中蓝色代表源域, 橙色代表目标域, 不同类别用不同的形状表示, 其中, ${\boldsymbol{v}}^i_S$和${\boldsymbol{v}}^i_T$分别表示源域和目标域中第$i $个样本的类别原型. 循环域三元损失函数可以有效缓解目标域原型构建过程中没有监督信息指导带来的误差积累, 实现更精确的类别特征对齐.

    图 2  循环域自适应三元损失函数原理
    Fig. 2  Principle of cycle domain adaptive TripleLoss

    具体地, 以YOLO检测器中骨干网络的特征图$ F_1 $及其对应的YOLO头为例. 记检测头的输出特征图为$ F_{{\rm{head}}1} $, 将$ F_{{\rm{head}}1} $按照通道维度分成3个与锚相对应的子矩阵, 分别记为$ F_{{\rm{head}}1}^q $, $ F_{{\rm{head}}1}^t $和$ F_{{\rm{head}}1}^v $, 然后构造类别特征矩阵$ F_{{\rm{cls}}} $和置信度特征矩阵$ F_{{\rm{obj}}} $, 如式(10)和式(11)所示.

    $$ \begin{split} F_{{\rm{cls}}} =\;& [ F_{{\rm{head}}1}^q(1:K), \\& F_{{\rm{head}}1}^t(1:K), F_{{\rm{head}}1}^v(1:K)] \end{split} $$ (10)
    $$ \begin{split} F_{{\rm{obj}}} = \;&[ F_{{\rm{head}}1}^q(1+K), \\& F_{{\rm{head}}1}^t(1+K), F_{{\rm{head}}1}^v(1+K)] \end{split} $$ (11)

    不同于文献[22]中原型的构建方式, 这里利用YOLO检测器独有的置信度信息矩阵$ F_{{\rm{obj}}} $对类别矩阵$ F_{{\rm{cls}}} $进行选择, 得到类别信息掩码矩阵$ F_{{\rm{mask}}} $, 如式(12)所示.

    $$ F_{{\rm{mask}}} = F_{{\rm{obj}}} \odot F_{{\rm{cls}}}^{{\rm{MAX}}} $$ (12)

    其中, $F_{{\rm{cls}}}^{{\rm{MAX}}}$通过式(13)得到, 即利用与每一个锚相对应的最大概率值来选择对应的类别, $ \odot $代表哈达玛积.

    $$ \begin{split} F_{{\rm{cls}}}^{{\rm{MAX}}} =\;& [\max(F_{{\rm{head}}1}^q(1:K)), \\&\max(F_{{\rm{head}}1}^t(1:K)), \max(F_{{\rm{head}}1}^v(1:K))] \end{split} $$ (13)

    值得注意的是, 此时的$ F_{{\rm{mask}}} $被类别信息所填充, 即$F_{{\rm{mask}}}(i, j) = l, l \in(1, 2, \cdots,K)$. 然后利用$ F_{{\rm{mask}}} $得到第$ l $类目标在$ F_1 $上像素位置为$ (i, j) $处的特征, 记为$ F_1^l $, 如式(14)和式(15)所示.

    $$ F_1^l = F_1 \odot F_{{\rm{mask}}}^l $$ (14)
    $$ \left\{ \begin{split} &F_{{\rm{mask}}}^l(i, j) = 1, \qquad F_{{\rm{mask}}}(i, j) = l\\ &F_{{\rm{mask}}}^l(i, j) = 0, \qquad F_{{\rm{mask}}}(i, j) \neq l \end{split} \right. $$ (15)

    最后, 通过式(16)可得到类别$ l $对应于$ F_1 $的原型$ {\boldsymbol{v}}_l $:

    $$ {\boldsymbol{v}}_l = \frac{1}{N}\sum\limits_{i = 1}^W {\sum\limits_{j = 1}^H {F_1^l(i, j)} } ,\quad l \in \{1, 2, \cdots, K\} $$ (16)

    其中, $W $和$H $分别为$F^l_1 $的宽度和高度. 由于网络训练输入受小批量(MiniBatch)训练数据规模的限制, 单个训练批量(Batch)中的有限数据所得到的原型并不能完全代表全局原型, 因此本文将单个Batch中得到的原型称为局部原型${\boldsymbol{v}}_l^{{\rm{local}}}, l \in \{1, 2, \cdots, K\}$, 然后使用动量更新[41]得到全局原型. 将动量更新参数随训练迭代次数进行自适应调整, 使得局部原型更好地拟合全局原型${\boldsymbol{v}}_l^{{\rm{global}}}, l \in \{1, 2, \cdots, K\},$ 最终利用全局原型计算循环域三元损失函数, 其流程如算法1所示. 其中, Epochs代表总训练轮数, epoch代表加入目标域原型计算的时刻. 在训练更新过程中, 本文循环交替从源域和目标域中提取原型构建三元损失函数, 从而减少目标域中伪标签带来的累计误差. 循环域三元损失函数计算如式(17)所示.

    $$\begin{split} &L_{{\rm{CDTL}}} = \\ & \left\{ \begin{aligned} &\max (d({{\boldsymbol{v}}_{\rm{s}}^{{m}}},{{\boldsymbol{v}}_{\rm{t}}^{{n}}}) - d({{\boldsymbol{v}}_{\rm{s}}^{{m}}},{{\boldsymbol{v}}_{\rm{s}}^{{n}}}) + margin,0),\\ & \qquad \qquad\;\;\;\;\;\;\; \qquad \qquad m \ne n,(iter)\text{mod} 3 < 2\\ &\max (d({{\boldsymbol{v}}_{\rm{s}}^{{m}}},{{\boldsymbol{v}}_{\rm{t}}^{{n}}}) - d({{\boldsymbol{v}}_{\rm{t}}^{{m}}},{{\boldsymbol{v}}_{\rm{t}}^{{n}}}) + margin,0),\\ &\qquad\;\;\;\;\;\;\; \qquad \qquad \qquad m \ne n,(iter)\text{mod} 3 = 2 \end{aligned} \right.\end{split} $$ (17)

    其中, $ iter $代表训练迭代次数, ${{\boldsymbol{v}}}_{\rm{s}}^m$代表源域数据$\Omega_{\rm{s}}$中类别$m $的全局原型特征, ${\boldsymbol{v}}_{\rm{t}}^n$代表目标域数据$\Omega_{\rm{t}}$中类别$n $的全局原型特征. 同理${\boldsymbol{v}}_{\rm{s}}^n$代表源域数据$\Omega_{\rm{s}}$中类别$n $的全局原型特征, ${\boldsymbol{v}}_{\rm{t}}^m$代表目标域数据$\Omega_{\rm{t}}$中类别$m $的全局原型特征. 本文设置从目标域中提取锚示例和从源域中提取正负示例的迭代次数为2, 而在源域提取锚示例和在目标域提取正负示例的迭代次数为1, 循环交替进行训练.

    2.1.1   评价指标

    本文的评价指标除了使用目标检测中的平均精度(Average precision, AP)和平均精度均值(Mean average precision, mAP)进行评判外, 还提出了衡量域自适应目标检测算法域自适应能力的评价指标: 平均精度增长力(AP growth potential, GP)和平均精度均值增长力(mAP growth potential, mGP). 在无监督域自适应目标检测领域, 研究人员通常仅使用源域数据进行监督训练并在目标域上进行测试的结果(Source only, SO)作为域自适应算法精度提升的参考. 同时将使用目标域数据进行监督训练并在目标域进行测试所得结果作为域自适应算法的目标(Oracle). 我们可以简单地将其视为衡量域自适应算法的下限和理论上限. 但由于研究人员所选用的基础检测器不同以及训练相关参数的不同设置, 原检测器在没有域自适应算法的加持下最终的检测精度(SO)也会有所不同. 这使得在不同检测器和训练参数的设置下域自适应算法的比较失去了公平性. 尽管有些方法已经开始使用相较于原检测器的检测精度增量进行比较, 但又忽略了使用目标域数据进行监督训练所能达到的上限. 基于此, 平均精度增长力(GP) 和平均精度均值增长力(mGP)在衡量域自适应算法带来的提升的同时, 也考虑到在基础检测器上算法精度提升的难度. 其计算如式(18)和式(19)所示.

    $$ GP = \frac{{AP_{{\rm{res}}} - AP_{{\rm{so}}}}}{{AP_{{\rm{oracle}}} - AP_{{\rm{so}}}}} $$ (18)
    $$ mGP = \frac{{mAP_{{\rm{res}}} - mAP_{{\rm{so}}}}}{{mAP_{{\rm{oracl}}e} - mAP_{{\rm{so}}}}} $$ (19)

    式中, $ AP_{{\rm{res}}} $代表域自适应目标检测算法的检测结果.

    2.1.2   实验数据集

    本文实验共涉及11个数据集, 可将其分为4种实验场景: 恶劣天气场景下的域自适应、跨摄像头的域自适应、虚拟到现实的域自适应以及现实到图画的域自适应.

    1) 恶劣天气场景下的域自适应

    恶劣天气场景下的域自适应实验包括晴朗天气到浓雾天气的域自适应CityScapes→FoggyCityScapes, 晴朗白天到傍晚下雨的域自适应SunnyDay→DuskRainy以及晴朗白天到夜晚下雨的域自适应SunnyDay→NightRainy.

    a) CityScapes: CityScapes数据集[42]是广泛应用于目标检测、语义分割等任务的自动驾驶场景下的数据集合. 该数据集由Daimlerand TU Dresden发布. 其中, 目标检测数据集共包含有8个类别: 汽车(car)、卡车(truck)、摩托车(motor)、自行车(bike)、火车(train)、公共汽车(bus)、骑手(rider)和人(person). 该数据集收集于50个城市, 涵盖了各种各样的现实场景. 数据集包含2975幅训练图像和500幅测试图像.

    b) FoggyCityScapes: 考虑到自动驾驶场景下的复杂环境和恶劣天气的影响, 文献[43]使用了一个雾噪声滤波器作用于CityScapes数据集上, 将其渲染为雾霾场景. 与CityScapes一样, 该数据集包含2 975幅训练图像和500幅测试图像, 且与CityScapes中的数据一一对应.

    c) SunnyDay, DuskRainy, NightRainy: Wu等[21]基于BDD100数据集[44]设计了两种恶劣天气下域自适应场景, 分别为晴朗的白天到下雨的傍晚和晴朗的白天到下雨的夜晚. 其中晴朗白天数据集(SunnyDay)从BDD100数据集收集了27708幅晴朗白天的图像. 下雨的傍晚数据集(DuskRainy)和下雨的夜晚数据集(NightRainy)分别包含3501幅和2494幅图像, 并且进行了一定程度的渲染以扩大域之间的距离. 三个数据集只包含BDD100中常见的7类交通目标, 不包含交通灯(light)、交通牌(sign)以及火车(train).

    2) 跨摄像头的域自适应

    跨摄像头的域自适应实验为KITTI→CityScapes. KITTI数据集[45]亦是使用范围最广的自动驾驶数据集之一, 该数据集采集了德国多个城市数小时的交通场景, 除2D RGB目标检测数据集外还由灰度和深度传感器采集到深度信息数据集, 在目标检测数据集中包含7481幅训练图像和7518幅测试图像, 共有汽车、货车、卡车、行人、骑行者、坐着的人、有轨电车和其他8类. 实验中只使用汽车一个类别.

    3) 虚拟到现实的域自适应

    虚拟到现实的域自适应实验为Sim10k→CityScapes.考虑到从真实世界中收集和标注图像的困难以及高昂的成本. 2017年, 合成数据集Sim10K[46]由游戏侠盗猎车手所在公司发布. 它拥有10 K幅图像, 但只使用一个汽车类别, 共58 701辆汽车实例.

    4) 现实到图画的域自适应

    现实到图画的域自适应实验分别为VOC→Clipart1k、VOC→Comic2k、VOC→Watercolor2k.

    a) VOC: Pascal VOC[47]是经典的真实世界目标检测数据集. 遵循文献[22]的实验设置, 使用VOC-2007和VOC2012的组合作为源域, 共包含16 551幅图像和20个类别.

    b) Clipart1k: Clipart1k数据集[48]是一个与现实环境风格迥异的图画形式数据集, 包含与VOC相同的20类目标. Clipart1k共包含1 000幅图像, 实验中将这1 000幅图像同时作为目标域的训练集和测试集.

    c) Comic2k和Watercolor2k[48]: 二者分别为卡通和水彩风格的非现实数据集. Comic2k和Watercolor2k均包含2 000幅图像, 其中训练集和测试集均各为1 000幅. 不同于Clipart1k, Comic2k和Watercolor2k只包含了VOC数据集中的6类目标.

    2.1.3   实验细节

    本文主要以YOLOv3和YOLOv5作为基础检测器, 验证所提出的域自适应目标检测算法的有效性. 在基于YOLOv3的实验中, 为确保实验的公平性, 采用DAYOLO中相同的实验参数配置, 即训练批量规模(Batchsize)为8, 其中每个Batch中的1/2来自源域, 其余1/2来自目标域, 图像分辨率设置为$416\times 416 $像素. 另外, 本文采用与基于YOLOv5的域自适应方法A-DAYOLO[32]和S-DAYOLO[34]相同的实验参数设置基于YOLOv5的实验, 即Batchsize为8、图像分辨率为$512\times512 $像素, 检测模型为YOLOv5系列模型中的small版本(YOLOv5s). 除此之外保留所有原YOLOv3和YOLOv5的参数设置和网络结构. 以上所有实验均采用单张RTX 3090显卡在Ubuntu18.0, Pytorch1.8.1, CUDA 11.1的环境下完成.

    实验1. CityScapes→FoggyCityScapes恶劣天气场景下目标检测实验. 首先以CityScapes数据集作为源域、FoggyCityScapes作为目标域, 基于YOLOv3和YOLOv5s检测器的实验结果分别如表1所示. 从实验结果中可以看出, 本文方法超过目前最好的基于YOLOv3的域自适应算法DAYOLO 2.2%, 达到了38.3%的检测精度. 同时, mGP达到了83.9%, 相较于DAYOLO提高了22.9%. 在基于YOLOv5的算法中, 本文方法达到了34.3%的mAP和83.8%的mGP, 精度增长力指标远高于目前已知的最优方法S-DAYOLO. 实验证明了本文方法的有效性, 同时也说明本文方法可以适配于不用的YOLO系列网络. 图3展示了本文方法在FoggyCityScapes数据集的检测主观结果. 图中第1列为${\rm{SO}}$的检测结果, 第2列代表本文方法在YOLOv3上的检测结果, 第3列代表本文方法在YOLOv5s上的检测结果, 第4列为标签真值(Ground truth, GT). 从主观结果可以看出, 本文方法在一定程度上弥补了在源域进行训练、在目标域进行测试时存在漏检的不足, 但相对于标签真值仍存在一定的误检.

    表 1  不同方法在CityScapes→FoggyCityScapes数据集上的对比实验结果(%)
    Table 1  The results of different methods on the CityScapes→FoggyCityScapes dataset (%)
    方法检测器personridercartruckbusmotorbiketrainmAPmGP
    DAF[10]Faster R-CNN25.031.040.522.135.320.027.120.227.738.8
    SWDA[11]Faster R-CNN29.942.343.524.536.230.035.332.634.370.0
    C2F[14]Faster R-CNN34.046.952.130.843.234.737.429.938.679.1
    CAFA[16]Faster R-CNN41.938.756.722.641.524.635.526.836.081.9
    ICCR-VDD[21]Faster R-CNN33.444.051.733.952.034.236.834.740.0
    MeGA[20]Faster R-CNN37.749.052.425.449.234.539.046.941.891.1
    DAYOLO[28]YOLOv329.527.746.19.128.212.724.84.536.161.0
    本文方法(v3)YOLOv334.037.255.831.444.422.330.850.738.383.9
    MS-DAYOLO[31]YOLOv439.646.556.528.951.027.536.045.941.568.6
    A-DAYOLO[32]YOLOv532.835.751.318.834.511.825.616.228.3
    S-DAYOLO[34]YOLOv542.642.161.923.540.524.437.339.539.069.9
    本文方法(v5)YOLOv5s30.937.453.323.839.524.229.935.034.383.8
     注: “—”表示该方法没有进行此实验; (v3)表示检测器为YOLOv3; (v5)表示检测器为YOLOv5s; 加粗数值表示对比实验中的最佳结果.
    下载: 导出CSV 
    | 显示表格
    图 3  本文方法在CityScapes→FoggyCityScapes上的主观检测结果
    Fig. 3  The subjective results of our method on CityScapes→FoggyCityScapes

    实验2. SunnyDay→DuskRainy恶劣天气场景下目标检测实验. 以晴朗白天数据集SunnyDay作为源域、下雨的傍晚数据集DuskRainy作为目标域进行实验. 基于YOLOv3和YOLOv5s检测器的实验结果分别如表2所示. 由于DuskRainy并没有测试集, 故这里用平均精度增量来对比实验结果. 从实验结果中可以看出, 基于YOLOv3的本文方法取得了40.2%的最高检测精度, 相对于SO涨幅7.4%. 基于YOLOv5s的本文方法取得了36.5%的检测精度, 相对于SO涨幅9.4%, 与目前该数据集上最佳方法ICCR-VDD的涨幅接近.

    表 2  不同方法在SunnyDay→DuskRainy数据集上的对比实验结果(%)
    Table 2  The results of different methods on the SunnyDay→DuskRainy dataset (%)
    方法检测器busbikecarmotorpersonridertruckmAP$\Delta{\rm{mAP}}$
    DAF[10]Faster R-CNN43.627.552.316.128.521.744.833.55.2
    SWDA[11]Faster R-CNN40.022.851.415.426.320.344.231.53.2
    ICCR-VDD[21]Faster R-CNN47.933.255.126.130.523.848.137.89.5
    本文方法(v3)YOLOv350.124.970.724.239.119.053.240.27.4
    本文方法(v5)YOLOv5s46.222.168.216.534.817.550.536.59.4
     注: $\Delta {\rm{mAP}}$表示mAP的涨幅程度.
    下载: 导出CSV 
    | 显示表格

    实验 3. SunnyDay→NightRainy恶劣天气场景下目标检测实验. 以晴朗白天数据集SunnyDay作为源域、下雨的夜晚数据集NightRainy作为目标域进行实验. 基于YOLOv3和YOLOv5s检测器的实验结果分别如表3所示. 类似地, 由于NightRainy并未提供测试集, 所以这里仍然用平均精度增量对比不同方法的实验结果. 从实验结果中可以看出, 基于YOLOv3的本文方法取得了25.3%的最高检测精度, 相对于SO涨幅5.1%. 基于YOLOv5s的本文方法取得了21.5%的检测精度, 相对于SO涨幅4.7%. SunnyDay→DuskRainy和SunnyDay→NightRainy的主观实验结果如图4所示, 图中前两行为SunnyDay→DuskRainy域自适应结果, 后两行为SunnyDay→NightRainy域自适应结果. 可以看到在本文方法的加持下原YOLOv3和YOLOv5s检测器在低光照雨天的恶劣天气环境下仍然有不错的检测效果.

    表 3  不同方法在SunnyDay→NightRainy数据集上的对比实验结果(%)
    Table 3  The results of different methods on the SunnyDay→NightRainy dataset (%)
    方法检测器busbikecarmotorpersonridertruckmAP$\Delta {\rm{mAP}}$
    DAF[10]Faster R-CNN23.812.037.70.214.94.029.017.41.1
    SWDA[11]Faster R-CNN24.710.033.70.613.510.429.117.41.1
    ICCR-VDD[21]Faster R-CNN34.815.638.610.518.717.330.623.77.4
    本文方法(v3)YOLOv345.08.251.14.020.99.637.925.35.1
    本文方法(v5)YOLOv5s40.79.345.00.612.89.232.521.54.7
    下载: 导出CSV 
    | 显示表格
    图 4  本文方法在SunnyDay→DuskRainy和SunnyDay→NightRainy上的主观检测结果
    Fig. 4  The subjective results of our method on SunnyDay→DuskRainy and SunnyDay→NightRainy

    实验 4. KITTI→CityScapes跨摄像头场景目标检测实验. KITTI和CityScapes数据集分别是由不同的摄像头捕捉而成, 具有不同的视角、尺度和环境信息. 以KITTI数据集作为源域、CityScapes作为目标域, 基于YOLOv3和YOLOv5s检测器的实验如表4所示. 由于KITTI训练集图像数量远大于CityScapes的训练集图像数量, 且在KITTI→CityScapes实验中仅涉及出现最多的汽车类, 故相较于实验1的多目标检测而言, 该检测任务的分类分支为二分类, 所以误检较少, 更容易达到较高精度. 实验结果表明, 本文方法在YOLOv3和YOLOv5s的检测器上分别达到61.1%和60.0%的最高检测精度以及29.4%和50.4%的精度增长力.

    表 4  KITTI→CityScapes和Sim10k→CityScapes数据集上的对比实验结果(%)
    Table 4  The results of different methods on KITTI→CityScapes and Sim10k→CityScapes datasets (%)
    方法KITTI→CityScapesSim10k→CityScapes
    APGPAPGP
    DAF[10]38.521.039.022.5
    SWDA[11]37.919.542.330.8
    C2F[14]43.835.3
    CAFA[16]43.232.949.047.7
    MeGA[20]43.032.444.837.0
    DAYOLO[28]54.082.250.939.5
    本文方法(v3)61.129.460.837.1
    A-DAYOLO[32]37.744.9
    S-DAYOLO[34]49.352.9
    本文方法(v5)60.050.460.356.3
    下载: 导出CSV 
    | 显示表格

    实验 5. Sim10k→CityScapes虚拟到现实场景的目标检测实验. Sim10k→CityScapes上的实验具有很大的应用价值, 因为现实场景下数据的收集和标注是高成本的, 而在虚拟仿真环境下则可以很容易地获取到数据的标注信息. 通过域自适应算法使得在虚拟仿真环境下训练好的模型在真实环境也能取得不错的检测精度. 类似于KITTI→CityScapes实验, Sim10k→CityScapes也仅涉及一个类别汽车, 因此其检测精度提升较小. 实验结果如表4所示. 从表4中可见, 本文方法以YOLOv3和YOLOv5s作为检测器, 分别达到60.8%和60.3%的检测精度, 同时精度增长力为37.1%和56.3%. 其中精度增长力在所有方法中达到最高.

    2.3.1   CADC和CDTL的消融实验

    在消融实验中, SO代表仅用源域训练集进行训练并在目标域测试集上进行测试, Oracle代表仅使用目标域训练集进行训练并在目标域进行测试, CADC和CDTL分别表示单独使用通道注意力域分类器和循环域三元损失函数.

    在CityScapes→FoggyCityScapes上的消融实验分别如表5表6所示. 结果表明, 当只使用域通道注意力机制分类器(CADC)的时候, 在YOLOv3和YOLOv5s上分别提升了8.8%和12.7%的平均精度均值(mAP), 充分证明了基于通道注意力机制的域分类器在CityScapes→FoggyCityScapes实验上的有效性. 当在YOLOv3和YOLOv5s上仅使用循环域三元损失(CDTL)函数时, 平均精度也能得到2.1%和4.8%的提升. 而当二者共同作用下时, 在YOLOv3和YOLOv5s上相较于SO分别增加了9.9%和12.9%的平均精度, 同时在YOLOv3检测器上对火车类的检测甚至超过Oracle, 达到50.7%的最好成绩, 进一步证明了两种方法的相辅相成.

    表 5  CityScapes→FoggyCityScapes数据集上基于YOLOv3的消融实验结果(%)
    Table 5  The results of ablation experiment on CityScapes→FoggyCityScapes dataset based on YOLOv3 (%)
    方法personridercartruckbusmotorbiketrainmAP
    SO29.835.044.720.432.414.828.321.628.4
    CADC34.438.054.724.445.021.232.149.137.2
    CDTL31.138.046.728.934.523.427.813.730.5
    CADC + CDTL34.037.255.831.444.422.330.850.738.3
    Oracle34.938.855.925.345.022.633.449.140.2
    下载: 导出CSV 
    | 显示表格
    表 6  CityScapes→FoggyCityScapes数据集上基于YOLOv5s的消融实验结果(%)
    Table 6  The results of ablation experiment on CityScapes→FoggyCityScapes dataset based on YOLOv5s (%)
    方法personridercartruckbusmotorbiketrainmAP
    SO26.933.139.98.921.111.324.84.921.4
    CADC32.637.152.726.838.123.038.132.634.1
    CDTL29.736.743.213.125.517.128.713.126.2
    CADC + CDTL30.937.453.323.839.524.229.935.034.3
    Oracle34.837.957.524.442.723.133.240.836.8
    下载: 导出CSV 
    | 显示表格

    在SunnyDay→DuskRainy上的消融实验结果分别如表7表8所示. 在以YOLOv3作为检测器的实验中, 使用源域SunnyDay数据集训练模型直接应用到目标域DuskRainy中的检测精度为32.8% (即表中的SO). 另外, 对于单独加入通道注意力机制的域分类器(即表中的CADC), 检测精度提高到39.6%, 而当为网络仅加入循环域三元损失进行训练时(即表中的CDTL), 网络检测精度提高到35.7%. 当同时加入本文提出的通道注意力机制的域分类器和循环域三元损失函数时, 网络可以达到最高的检测精度40.2%. 在以YOLOv5s作为检测器的实验中, 使用源域SunnyDay数据集训练模型直接应用到目标域DuskRainy的检测精度为27.1% (即表中的SO). 对于单独加入通道注意力机制的域分类器时(即表中的CADC), 检测精度为35.9%, 相较于SO提高了8.8%. 而当为网络仅加入循环域三元损失进行训练时(即表中的CDTL), 检测精度为30.4%, 相较于SO提高了3.3%. 当同时加入本文提出的通道注意力机制域分类器和循环域三元损失函数时, 网络可以达到最高的检测精度36.5%.

    表 7  SunnyDay→DuskRainy数据集上基于YOLOv3的消融实验结果(%)
    Table 7  The results of ablation experiment on SunnyDay→DuskRainy dataset based on YOLOv3 (%)
    方法busbikecarmotorpersonridertruckmAP
    SO43.714.368.412.031.510.948.732.8
    CADC50.022.670.823.238.418.7 53.539.6
    CDTL45.420.169.215.234.817.247.835.7
    CADC + CDTL50.1 24.970.7 24.2 39.119.053.240.2
    下载: 导出CSV 
    | 显示表格
    表 8  SunnyDay→DuskRainy数据集上基于YOLOv5s的消融实验结果(%)
    Table 8  The results of ablation experiment on SunnyDay→DuskRainy dataset based on YOLOv5s (%)
    方法busbikecarmotorpersonridertruckmAP
    SO37.28.463.85.523.77.943.427.1
    CADC45.622.168.216.634.515.450.135.9
    CDTL41.613.165.57.629.710.244.930.4
    CADC + CDTL46.222.1 68.2 16.534.817.550.5 36.5
    下载: 导出CSV 
    | 显示表格

    在SunnyDay→NightRainy上的消融实验结果分别如表9表10所示. 在以YOLOv3作为检测器的实验中, 使用源域SunnyDay数据集训练模型直接应用到目标域NightRainy的检测精度为20.2%(即表中的SO). 当加入通道注意力域分类器(即表中的CADC)时, 准确率提高到24.8%, 而当单独加入循环域三元损失(CDTL)函数进行训练时, 准确率提高到21.7%. 当同时加入本文提出的通道注意力机制域分类器和循环域三元损失函数时, 达到最高的检测精度25.3%. 在以YOLOv5s作为检测器的实验中, 使用源域SunnyDay训练模型直接应用到目标域NightRainy的检测精度为14.2% (即表中的SO). 当单独加入通道注意力机制域分类器(即表中的CADC)时, 检测精度为20.1%, 相较于SO提高了5.9%, 而当单独加入循环域三元损失(即表中的CDTL)时, 检测精度为19.3%, 相较于SO提高了5.1%. 当同时加入本文提出的通道注意力机制域分类器和循环域三元损失函数时, 达到最高的检测精度21.5%.

    表 9  SunnyDay→NightRainy数据集上基于YOLOv3的消融实验结果(%)
    Table 9  The results of ablation experiment on SunnyDay→NightRainy dataset based on YOLOv3 (%)
    方法busbikecarmotorpersonridertruckmAP
    SO39.25.144.20.214.86.930.720.2
    CADC44.48.150.90.620.2 11.338.324.8
    CDTL40.48.245.80.616.27.233.421.7
    CADC + CDTL45.08.2 51.14.020.99.637.925.3
    下载: 导出CSV 
    | 显示表格
    表 10  SunnyDay→NightRainy数据集上基于YOLOv5s的消融实验结果(%)
    Table 10  The results of ablation experiment on SunnyDay→NightRainy dataset based on YOLOv5s (%)
    方法busbikecarmotorpersonridertruckmAP
    SO25.43.236.30.29.14.420.814.2
    CADC38.78.342.70.312.36.432.020.1
    CDTL34.36.244.20.511.28.730.319.3
    CADC + CDTL40.79.345.0 0.6 12.8 9.232.5 21.5
    下载: 导出CSV 
    | 显示表格

    KITTI→CityScapes的消融实验结果如表11的第1列数据所示, 从表11中可以看出, YOLOv3在使用源域KITTI进行训练并在目标域CityScapes上进行测试的精度为59.6% (SO), 使用目标域CityScapes进行训练并在目标域CityScapes上进行测试的精度为64.7% (Oracle), 仅存在5.1%的提升空间. YOLOv5s在使用源域KITTI进行训练并在目标域CityScapes上进行测试的精度为54.0% (SO), 使用目标域CityScapes进行训练并在目标域CityScapes上进行测试的精度为65.9% (Oracle). 从表11中可以看出, CADC和CDTL两种方法单独使用所带来的精度提升相当. 在YOLOv3上的精度均为60.5%, 在YOLOv5s上的精度分别为59.5%和59.0%, 当二者共同作用时使得精度得到进一步的提升, 在YOLOv3和YOLOv5s的检测器上分别达到61.1%和60%的最佳性能, 相较于SO提高了1.5%和6%.

    表 11  KITTI→CityScapes和Sim10k→CityScapes数据集上的对比实验结果(%)
    Table 11  The results of different methods on KITTI→CityScapes and Sim10k→CityScapes datasets (%)
    方法KITTISim10k
    YOLOv3SO59.658.5
    CADC60.559.6
    CDTL60.560.8
    CADC + CDTL61.159.8
    Oracle64.764.7
    YOLOv5sSO54.053.1
    CADC59.558.6
    CDTL59.060.3
    CADC + CDTL60.059.0
    Oracle65.965.9
    下载: 导出CSV 
    | 显示表格

    Sim10k→CityScapes的消融实验如表11的第2列数据所示, 当同时加入循环域三元损失函数和域通道注意力分类器时, 在YOLOv3和YOLOv5s检测器上分别达到了59.8%和59.0%的检测精度. 相对于SO的实验结果, 分别提升了1.3%和5.9%. 但在两个检测器上单独使用循环域三元损失函数时所能达到的精度均超过了与域通道注意力分类器共同作用下的精度. 我们认为这种现象的产生是因为Sim10k和CityScapes风格迥异, 即两个域之间的距离较大. 当域分类器作用时, 网络会更加注重于拉近两个域得到域不变特征, 从而疏忽了对具有判别性的实例特征的学习. 循环域三元损失(CDTL)从类别原型更新的角度为这类单目标检测任务提供了另一种不依赖于域分类器的解决方案.

    图5展示了KITTI→CityScapes和Sim10k→CityScapes任务中以YOLOv5s作为检测器, 单独使用通道注意力机制的域分类器(CADC)和循环域三元损失(CDTL)以及共同使用两者情况下的主观检测结果. 图中每一行分别为CityScapes测试集中不同的场景, 前两行代表KITTI→CityScapes的主观实验结果, 后两行代表Sim10k→CityScapes的主观实验结果. 第1列代表SO的检测结果, 即不加入任何改进方法; 第2列表示只加入通道注意力机制的域分类器(CADC)得到的结果; 第3列表示只加入循环域三元损失(CDTL)得到的结果; 第4列表示二者共同作用的结果. 从图中可以看出, 无论是KITTI→CityScapes还是Sim10k→CityScapes上的实验, 当单独使用通道注意力机制的域分类器(CADC)使得网络更加注重于检测到尽可能多的目标; 而单独使用循环域三元损失(CDTL)所检测的目标则更为准确, 即置信度更高. 当二者共同作用时能够检测到更多具有较高置信度的目标, 弥补了漏检带来的精度降低.

    图 5  本文方法在KITTI→CityScapes和Sim10k→CityScapes上的消融实验结果
    Fig. 5  The ablation experimental results of our method on KITTI→CityScapes and Sim10k→CityScapes

    此外, 为进一步验证基于通道注意力机制的域分类器和循环域三元损失函数的有效性, 本文将其直接加入以SSD为检测器的I3Net进行对应的三组域自适应目标检测实验: VOC→Clipart1k, VOC→Comic2k和VOC→Watercolor2k. 本文遵循I3Net的实验设置进行复现以确保实验对比的公平性, 实验结果分别如表12 ~ 14所示. 表中CADC* 表示将SE通道注意力机制加入到I3Net的域分类器中的方法. 从表12中VOC→Clipart1k的域自适应实验可以看出, 当在I3Net的训练过程中加入循环域三元损失函数时, 准确率提升了0.9%. 当基于通道注意力机制的域分类器和循环域三元损失函数同时加入训练时, 模型性能可以提升2.5%. 但是在表13的VOC→Comic2k和表14的VOC→Watercolor2k实验中, 当I3Net训练仅加入循环域三元损失时造成了精度的下降. 经分析, 原因如下: VOC数据集包括20个类, 而Comic2k和Watercolor2k数据集中仅包含VOC数据集中的6个类, 在I3Net训练时, 并没有删除VOC中与Comic2k和Watercolor2k数据集不同类别的标注信息. 但本文提出的基于原型的循环域三元损失的方法仍然会根据源域类别构造20个类别原型, 这就使得网络隐式地对Comic2k和Watercolor2k数据集外的类别进行学习, 从而降低了在其测试集上的检测精度. 值得一提的是, 与通道注意力机制域分类器的结合弥补了循环域三元损失带来的精度丢失, 使得添加了通道注意力机制的I3Net在VOC→Comic2k得到了提升, 这也证明了通道注意力机制域分类器的有效性. 图6展示了本文方法加入到I3Net后的主观实验结果, 可以看到本文方法能显著提高目标检测效果. 主观和客观实验结果也表明本文方法除适用于YOLO目标检测网络外, 也适配于SSD等单阶段目标检测网络.

    表 12  本文方法在VOC→Clipart1k上的实验(%)
    Table 12  The experiment of our method on VOC→Clipart1k (%)
    方法aerobcyclebirdboatbottlebuscarcatchaircowtabledoghrsbikeprsnplntsheepsofatraintvmAP
    I3Net23.766.225.319.323.755.235.713.637.835.525.413.924.160.356.339.813.634.556.041.835.1
    I3Net + CDTL23.361.627.817.124.754.339.812.341.434.132.215.527.677.957.037.45.5031.351.847.836.0
    I3Net + CDTL + ${\rm{CADC}}^*$31.260.431.819.427.063.340.713.741.138.427.218.025.567.854.937.215.536.454.847.837.6
    下载: 导出CSV 
    | 显示表格
    表 13  本文方法在VOC→Comic2k上的实验(%)
    Table 13  The experiment of our method on VOC→Comic2k (%)
    方法bikebirdcarcatdogpersonmAP
    I3Net44.917.831.910.723.546.329.2
    I3Net + CDTL43.715.131.511.718.646.927.9
    I3Net + CDTL + CADC*47.816.033.815.124.443.530.1
    下载: 导出CSV 
    | 显示表格
    表 14  本文方法在VOC→Watercolor2k上的实验(%)
    Table 14  The experiment of our method on VOC→Watercolor2k (%)
    方法bikebirdcarcatdogpersonmAP
    I3Net81.349.643.638.231.361.751.0
    I3Net + CDTL79.547.241.733.535.460.349.6
    I3Net + CDTL + CADC*84.145.346.632.931.461.450.3
    下载: 导出CSV 
    | 显示表格
    图 6  本文方法在VOC→Clipart1k上的主观结果
    Fig. 6  The subjective results of our method on VOC→Clipart1k
    2.3.2   像素级对齐域分类器$D_{{\rm{pixel}}}$的消融实验

    相较于现有大多数域自适应目标检测工作中以VGG16作为骨干网络的Faster R-CNN检测器, YOLO中的骨干网络DarkNet具有残差连接和更深的网络结构, 因为YOLOv3和YOLOv5s中与Neck部分所连接的三处骨干网络(Backbone)特征层所在网络位置的深度已经大于VGG16, 因此可以将其输出视为网络的深层特征. 基于此, 本文构建消融实验来验证是否在浅层网络即与Neck部分所连接的第一个特征层之前实现像素级对齐的必要性. 实验结果如表15所示, 表15中, C→F, K→C和S→C分别代表CityScapes→FoggyCityScapes, KITTI→CityScapes和Sim10k→CityScapes, Dpixel代表是否在网络浅层特征处加入像素级对齐域分类器. 实验结果表明, 当加入像素级对齐域分类器时, 在基于YOLOv3和YOLOv5s的检测器上检测精度都能得到不同程度的提升, 从而证明了像素级对齐对于YOLO系列网络的必要性.

    表 15  像素级对齐对网络的影响(%)
    Table 15  The impact of pixel alignment to network (%)
    方法检测器C→FK→CS→C
    CDTL + CADCYOLOv335.959.858.4
    CDTL + CADC + $D_{{\rm{pixel}}}$YOLOv337.260.559.6
    CDTL + CADCYOLOv5s32.758.956.8
    CDTL + CADC + $D_{{\rm{pixel}}}$YOLOv5s34.159.558.6
    下载: 导出CSV 
    | 显示表格
    2.3.3   通道注意力域分类器(CADC)中损失函数选择实验

    Focal损失函数在网络不同位置的作用不尽相同, 从而对网络带来不同的影响[13]. 基于此, 本文针对YOLO网络对不同通道注意力域分类器上使用Focal损失函数所带来的影响在CityScapes→FoggyCityScapes任务上进行实验验证, 实验中不涉及循环域三元损失函数, 结果如表16所示. 表16中, $ F_1 $, $ F_2 $, $ F_3 $表示YOLOv3或者YOLOv5s中与Neck相连接的Backbone特征层, CE代表交叉熵损失函数(Cross-entropy loss function), FL代表Focal损失函数(Focal loss function). 实验结果表明, 在YOLOv3和YOLOv5s上, F1所对应的域分类器损失函数选择交叉熵损失(CE), F2和F3所对应的域分类器损失函数选择Focal损失(FL)时分别达到最高的检测精度37.2%和34.1%. Focal损失函数的使用很好地缓解了域自适应目标检测过程中深层特征存在的类别不平衡的问题.

    表 16  通道注意力域分类器中损失函数的选择
    Table 16  The choice of loss function in channel attention domain classifier
    检测器$F_1$$F_2$$F_3$mAP (%)
    YOLOv3/v5sCECECE35.8/32.7
    YOLOv3/v5sCECEFL36.4/33.2
    YOLOv3/v5sCEFLFL37.2/34.1
    YOLOv3/v5sFLFLFL37.0/33.5
    下载: 导出CSV 
    | 显示表格
    2.3.4   循环域三元损失函数的循环迭代次数(iter)实验

    为缓解目标域伪标签误差累积造成的精度下降, 本文提出循环域三元损失函数, 即目标域和源域的原型分别作为正负样本示例和锚示例, 在既定的训练迭代次数后交换目标域和源域的原型, 将其作为锚示例和正负样本示例. 这种交替训练的策略可以使有标签的源域原型对伪标签目标域原型进行一定的纠正, 从而减小伪标签给训练带来的误导. 本文对不同循环迭代次数iter及其所带来的影响进行实验探索, 实验结果如图7所示. 图中横坐标的S代表源域训练迭代数, T代表目标域训练迭代数, S/T表示以源域类别原型作为正负样本示例、目标域类别原型作为锚示例训练既定轮数后交换目标域和源域的原型分别作为锚示例和正负样本示例训练迭代既定次数. 图7中, 纵坐标mAP50表示预测结果与GT的交并比阈值为 0.50 时的预测平均精度.从图7中可以看出, 当循环迭代次数S/T为2/1即以源域类别原型作为正负样本示例、目标域类别原型作为锚示例训练两轮, 以目标域类别原型作为正负样本示例、源域类别原型作为锚示例训练迭代1轮时, 在YOLOv3和YOLOv5s上能达到最佳的精度30.5%和26.2%; 当源域类别原型作为正负样本示例、目标域类别原型作为锚示例训练轮数超过2轮时, 网络会更加倾向于源域中类别原型的学习, 而忽略了目标域中原型对域不变特征提取的帮助导致精度下降. 相反, 如果目标域类别原型作为正负样本示例、源域类别原型作为锚示例的训练轮数的增加也会导致精度的下降, 即误差的积累不能很好地得到修正. 实验表明, 无论是基于YOLOv3还是YOLOv5s检测器, 当源域充当正样本示例和锚示例, 目标域充当负样本示例, 二者训练迭代次数分别为2和1时检测精度最佳.

    图 7  不同循环迭代训练次数在YOLOv3和YOLOv5s检测器上的结果
    Fig. 7  The result of different cycle iterations on YOLOv3 and YOLOv5s

    本文提出一种基于注意力机制和循环域三元损失函数的无监督域自适应单阶段目标检测算法. 首先通过在图像级域分类器中引入通道注意力机制, 使得网络更加关注于域不变特征的学习. 其次设计了一种适用于域自适应的三元损失函数引导网络实现基于类别原型的特征对齐. 分别在单阶段目标检测器YOLOv3, YOLOv5s和SSD上进行实验以证明本文方法对单阶段目标检测网络的适配性. 在众多域自适应目标检测公共数据集的实验结果表明, 本文的方法在基于YOLO的域自适应目标检测网络中取得最好的结果, 同时对基于SSD的域自适应目标检测网络也能带来精度的提升. 尽管如此, 本文所提出的循环域三元损失函数依赖于前期目标域原型伪标签的准确性, 当目标域原型伪标签误差较大时使用该方法并不能得到一个很好的检测效果. 未来可以尝试在循环域三元损失函数中使用图来表示类别中心, 从而避免原型构建过程中误差累计导致精度的丢失.

  • 图  1  基于注意力机制和循环域三元损失的域自适应目标检测算法流程

    Fig.  1  The pipeline of domain adaptive object detection based on attention mechanism and cycle domain triplet loss

    图  2  循环域自适应三元损失函数原理

    Fig.  2  Principle of cycle domain adaptive TripleLoss

    图  3  本文方法在CityScapes→FoggyCityScapes上的主观检测结果

    Fig.  3  The subjective results of our method on CityScapes→FoggyCityScapes

    图  4  本文方法在SunnyDay→DuskRainy和SunnyDay→NightRainy上的主观检测结果

    Fig.  4  The subjective results of our method on SunnyDay→DuskRainy and SunnyDay→NightRainy

    图  5  本文方法在KITTI→CityScapes和Sim10k→CityScapes上的消融实验结果

    Fig.  5  The ablation experimental results of our method on KITTI→CityScapes and Sim10k→CityScapes

    图  6  本文方法在VOC→Clipart1k上的主观结果

    Fig.  6  The subjective results of our method on VOC→Clipart1k

    图  7  不同循环迭代训练次数在YOLOv3和YOLOv5s检测器上的结果

    Fig.  7  The result of different cycle iterations on YOLOv3 and YOLOv5s

    表  1  不同方法在CityScapes→FoggyCityScapes数据集上的对比实验结果(%)

    Table  1  The results of different methods on the CityScapes→FoggyCityScapes dataset (%)

    方法检测器personridercartruckbusmotorbiketrainmAPmGP
    DAF[10]Faster R-CNN25.031.040.522.135.320.027.120.227.738.8
    SWDA[11]Faster R-CNN29.942.343.524.536.230.035.332.634.370.0
    C2F[14]Faster R-CNN34.046.952.130.843.234.737.429.938.679.1
    CAFA[16]Faster R-CNN41.938.756.722.641.524.635.526.836.081.9
    ICCR-VDD[21]Faster R-CNN33.444.051.733.952.034.236.834.740.0
    MeGA[20]Faster R-CNN37.749.052.425.449.234.539.046.941.891.1
    DAYOLO[28]YOLOv329.527.746.19.128.212.724.84.536.161.0
    本文方法(v3)YOLOv334.037.255.831.444.422.330.850.738.383.9
    MS-DAYOLO[31]YOLOv439.646.556.528.951.027.536.045.941.568.6
    A-DAYOLO[32]YOLOv532.835.751.318.834.511.825.616.228.3
    S-DAYOLO[34]YOLOv542.642.161.923.540.524.437.339.539.069.9
    本文方法(v5)YOLOv5s30.937.453.323.839.524.229.935.034.383.8
     注: “—”表示该方法没有进行此实验; (v3)表示检测器为YOLOv3; (v5)表示检测器为YOLOv5s; 加粗数值表示对比实验中的最佳结果.
    下载: 导出CSV

    表  2  不同方法在SunnyDay→DuskRainy数据集上的对比实验结果(%)

    Table  2  The results of different methods on the SunnyDay→DuskRainy dataset (%)

    方法检测器busbikecarmotorpersonridertruckmAP$\Delta{\rm{mAP}}$
    DAF[10]Faster R-CNN43.627.552.316.128.521.744.833.55.2
    SWDA[11]Faster R-CNN40.022.851.415.426.320.344.231.53.2
    ICCR-VDD[21]Faster R-CNN47.933.255.126.130.523.848.137.89.5
    本文方法(v3)YOLOv350.124.970.724.239.119.053.240.27.4
    本文方法(v5)YOLOv5s46.222.168.216.534.817.550.536.59.4
     注: $\Delta {\rm{mAP}}$表示mAP的涨幅程度.
    下载: 导出CSV

    表  3  不同方法在SunnyDay→NightRainy数据集上的对比实验结果(%)

    Table  3  The results of different methods on the SunnyDay→NightRainy dataset (%)

    方法检测器busbikecarmotorpersonridertruckmAP$\Delta {\rm{mAP}}$
    DAF[10]Faster R-CNN23.812.037.70.214.94.029.017.41.1
    SWDA[11]Faster R-CNN24.710.033.70.613.510.429.117.41.1
    ICCR-VDD[21]Faster R-CNN34.815.638.610.518.717.330.623.77.4
    本文方法(v3)YOLOv345.08.251.14.020.99.637.925.35.1
    本文方法(v5)YOLOv5s40.79.345.00.612.89.232.521.54.7
    下载: 导出CSV

    表  4  KITTI→CityScapes和Sim10k→CityScapes数据集上的对比实验结果(%)

    Table  4  The results of different methods on KITTI→CityScapes and Sim10k→CityScapes datasets (%)

    方法KITTI→CityScapesSim10k→CityScapes
    APGPAPGP
    DAF[10]38.521.039.022.5
    SWDA[11]37.919.542.330.8
    C2F[14]43.835.3
    CAFA[16]43.232.949.047.7
    MeGA[20]43.032.444.837.0
    DAYOLO[28]54.082.250.939.5
    本文方法(v3)61.129.460.837.1
    A-DAYOLO[32]37.744.9
    S-DAYOLO[34]49.352.9
    本文方法(v5)60.050.460.356.3
    下载: 导出CSV

    表  5  CityScapes→FoggyCityScapes数据集上基于YOLOv3的消融实验结果(%)

    Table  5  The results of ablation experiment on CityScapes→FoggyCityScapes dataset based on YOLOv3 (%)

    方法personridercartruckbusmotorbiketrainmAP
    SO29.835.044.720.432.414.828.321.628.4
    CADC34.438.054.724.445.021.232.149.137.2
    CDTL31.138.046.728.934.523.427.813.730.5
    CADC + CDTL34.037.255.831.444.422.330.850.738.3
    Oracle34.938.855.925.345.022.633.449.140.2
    下载: 导出CSV

    表  6  CityScapes→FoggyCityScapes数据集上基于YOLOv5s的消融实验结果(%)

    Table  6  The results of ablation experiment on CityScapes→FoggyCityScapes dataset based on YOLOv5s (%)

    方法personridercartruckbusmotorbiketrainmAP
    SO26.933.139.98.921.111.324.84.921.4
    CADC32.637.152.726.838.123.038.132.634.1
    CDTL29.736.743.213.125.517.128.713.126.2
    CADC + CDTL30.937.453.323.839.524.229.935.034.3
    Oracle34.837.957.524.442.723.133.240.836.8
    下载: 导出CSV

    表  7  SunnyDay→DuskRainy数据集上基于YOLOv3的消融实验结果(%)

    Table  7  The results of ablation experiment on SunnyDay→DuskRainy dataset based on YOLOv3 (%)

    方法busbikecarmotorpersonridertruckmAP
    SO43.714.368.412.031.510.948.732.8
    CADC50.022.670.823.238.418.7 53.539.6
    CDTL45.420.169.215.234.817.247.835.7
    CADC + CDTL50.1 24.970.7 24.2 39.119.053.240.2
    下载: 导出CSV

    表  8  SunnyDay→DuskRainy数据集上基于YOLOv5s的消融实验结果(%)

    Table  8  The results of ablation experiment on SunnyDay→DuskRainy dataset based on YOLOv5s (%)

    方法busbikecarmotorpersonridertruckmAP
    SO37.28.463.85.523.77.943.427.1
    CADC45.622.168.216.634.515.450.135.9
    CDTL41.613.165.57.629.710.244.930.4
    CADC + CDTL46.222.1 68.2 16.534.817.550.5 36.5
    下载: 导出CSV

    表  9  SunnyDay→NightRainy数据集上基于YOLOv3的消融实验结果(%)

    Table  9  The results of ablation experiment on SunnyDay→NightRainy dataset based on YOLOv3 (%)

    方法busbikecarmotorpersonridertruckmAP
    SO39.25.144.20.214.86.930.720.2
    CADC44.48.150.90.620.2 11.338.324.8
    CDTL40.48.245.80.616.27.233.421.7
    CADC + CDTL45.08.2 51.14.020.99.637.925.3
    下载: 导出CSV

    表  10  SunnyDay→NightRainy数据集上基于YOLOv5s的消融实验结果(%)

    Table  10  The results of ablation experiment on SunnyDay→NightRainy dataset based on YOLOv5s (%)

    方法busbikecarmotorpersonridertruckmAP
    SO25.43.236.30.29.14.420.814.2
    CADC38.78.342.70.312.36.432.020.1
    CDTL34.36.244.20.511.28.730.319.3
    CADC + CDTL40.79.345.0 0.6 12.8 9.232.5 21.5
    下载: 导出CSV

    表  11  KITTI→CityScapes和Sim10k→CityScapes数据集上的对比实验结果(%)

    Table  11  The results of different methods on KITTI→CityScapes and Sim10k→CityScapes datasets (%)

    方法KITTISim10k
    YOLOv3SO59.658.5
    CADC60.559.6
    CDTL60.560.8
    CADC + CDTL61.159.8
    Oracle64.764.7
    YOLOv5sSO54.053.1
    CADC59.558.6
    CDTL59.060.3
    CADC + CDTL60.059.0
    Oracle65.965.9
    下载: 导出CSV

    表  12  本文方法在VOC→Clipart1k上的实验(%)

    Table  12  The experiment of our method on VOC→Clipart1k (%)

    方法aerobcyclebirdboatbottlebuscarcatchaircowtabledoghrsbikeprsnplntsheepsofatraintvmAP
    I3Net23.766.225.319.323.755.235.713.637.835.525.413.924.160.356.339.813.634.556.041.835.1
    I3Net + CDTL23.361.627.817.124.754.339.812.341.434.132.215.527.677.957.037.45.5031.351.847.836.0
    I3Net + CDTL + ${\rm{CADC}}^*$31.260.431.819.427.063.340.713.741.138.427.218.025.567.854.937.215.536.454.847.837.6
    下载: 导出CSV

    表  13  本文方法在VOC→Comic2k上的实验(%)

    Table  13  The experiment of our method on VOC→Comic2k (%)

    方法bikebirdcarcatdogpersonmAP
    I3Net44.917.831.910.723.546.329.2
    I3Net + CDTL43.715.131.511.718.646.927.9
    I3Net + CDTL + CADC*47.816.033.815.124.443.530.1
    下载: 导出CSV

    表  14  本文方法在VOC→Watercolor2k上的实验(%)

    Table  14  The experiment of our method on VOC→Watercolor2k (%)

    方法bikebirdcarcatdogpersonmAP
    I3Net81.349.643.638.231.361.751.0
    I3Net + CDTL79.547.241.733.535.460.349.6
    I3Net + CDTL + CADC*84.145.346.632.931.461.450.3
    下载: 导出CSV

    表  15  像素级对齐对网络的影响(%)

    Table  15  The impact of pixel alignment to network (%)

    方法检测器C→FK→CS→C
    CDTL + CADCYOLOv335.959.858.4
    CDTL + CADC + $D_{{\rm{pixel}}}$YOLOv337.260.559.6
    CDTL + CADCYOLOv5s32.758.956.8
    CDTL + CADC + $D_{{\rm{pixel}}}$YOLOv5s34.159.558.6
    下载: 导出CSV

    表  16  通道注意力域分类器中损失函数的选择

    Table  16  The choice of loss function in channel attention domain classifier

    检测器$F_1$$F_2$$F_3$mAP (%)
    YOLOv3/v5sCECECE35.8/32.7
    YOLOv3/v5sCECEFL36.4/33.2
    YOLOv3/v5sCEFLFL37.2/34.1
    YOLOv3/v5sFLFLFL37.0/33.5
    下载: 导出CSV
  • [1] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks. In: Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe, USA: NIPS, 2012. 1106−1114
    [2] Bottou L, Bousquet O. The tradeoffs of large scale learning. In: Proceedings of the 20th International Conference on Neural Information Processing Systems. Vancouver, Canada: Curran Associates Inc., 2007. 161−168
    [3] Shen J, Qu Y R, Zhang W N, Yu Y. Wasserstein distance guided representation learning for domain adaptation. In: Proceedings of the 32nd AAAI Conference on Artificial Intelligence. New Orleans, USA: AAAI, 2018. 4058−4065
    [4] 皋军, 黄丽莉, 孙长银. 一种基于局部加权均值的领域自适应学习框架. 自动化学报, 2013, 39(7): 1037−1052

    Gao Jun, Huang Li-Li, Sun Chang-Yin. A local weighted mean based domain adaptation learning framework. Acta Automatica Sinica, 2013, 39(7): 1037−1052
    [5] Ganin Y, Ustinova E, Ajakan H, Germain P, Larochelle H, Laviolette F, et al. Domain-adversarial training of neural networks. The Journal of Machine Learning Research, 2016, 17(1): 2096−2030
    [6] Goodfellow I, Pouget-Abadie J, Mirza M, Xu B, Warde-Farley D, Ozair S, et al. Generative adversarial networks. Communications of the ACM, 2020, 63(11): 139−144 doi: 10.1145/3422622
    [7] 郭迎春, 冯放, 阎刚, 郝小可. 基于自适应融合网络的跨域行人重识别方法. 自动化学报, 2022, 48(11): 2744−2756

    Guo Ying-Chun, Feng Fang, Yan Gang, Hao Xiao-Ke. Cross-domain person re-identification on adaptive fusion network. Acta Automatica Sinica, 2022, 48(11): 2744−2756
    [8] 梁文琦, 王广聪, 赖剑煌. 基于多对多生成对抗网络的非对称跨域迁移行人再识别. 自动化学报, 2022, 48(1): 103−120

    Liang Wen-Qi, Wang Guang-Cong, Lai Jian-Huang. Asymmetric cross-domain transfer learning of person re-identification based on the many-to-many generative adversarial network. Acta Automatica Sinica, 2022, 48(1): 103−120
    [9] Ren S Q, He K M, Girshick R, Sun J. Faster R-CNN: Towards real-time object detection with region proposal networks. In: Proceedings of the 28th International Conference on Neural Information Processing Systems. Montreal, Canada: MIT Press, 2015. 91−99
    [10] Chen Y H, Li W, Sakaridis C, Dai D X, Van Gool L. Domain adaptive faster R-CNN for object detection in the wild. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 3339−3348
    [11] Saito K, Ushiku Y, Harada T, Saenko K. Strong-weak distribution alignment for adaptive object detection. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, USA: IEEE, 2019. 6949−6958
    [12] Lin T Y, Goyal P, Girshick R, He K M, Dollar P. Focal loss for dense object detection. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(2): 318−327 doi: 10.1109/TPAMI.2018.2858826
    [13] Shen Z Q, Maheshwari H, Yao W C, Savvides M. SCL: Towards accurate domain adaptive object detection via gradient detach based stacked complementary losses. arXiv preprint arXiv: 1911.02559, 2019.
    [14] Zheng Y T, Huang D, Liu S T, Wang Y H. Cross-domain object detection through coarse-to-fine feature adaptation. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, USA: IEEE, 2020. 13763−13772
    [15] Xu C D, Zhao X R, Jin X, Wei X S. Exploring categorical regularization for domain adaptive object detection. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, USA: IEEE, 2020. 11721−11730
    [16] Hsu C C, Tsai Y H, Lin Y Y, Yang M H. Every pixel matters: Center-aware feature alignment for domain adaptive object detector. In: Proceedings of the 16th European Conference on Computer Vision (ECCV). Glasgow, UK: Springer, 2020. 733−748
    [17] Chen C Q, Zheng Z B, Ding X H, Huang Y, Dou Q. Harmonizing transferability and discriminability for adapting object detectors. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, USA: IEEE, 2020. 8866−8875
    [18] Zhu J Y, Park T, Isola P, Efros A A. Unpaired image-to-image translation using cycle-consistent adversarial networks. In: Proceedings of the IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE, 2017. 2242−2251
    [19] Deng J H, Li W, Chen Y H, Duan L X. Unbiased mean teacher for cross-domain object detection. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, USA: IEEE, 2021. 4089−4099
    [20] Xu M H, Wang H, Ni B B, Tian Q, Zhang W J. Cross-domain detection via graph-induced prototype alignment. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE, 2020. 12352−12361
    [21] Wu A M, Liu R, Han Y H, Zhu L C, Yang Y. Vector-decomposed disentanglement for domain-invariant object detection. In: Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). Montreal, Canada: IEEE, 2021. 9322−9331
    [22] Chen C Q, Zheng Z B, Huang Y, Ding X H, Yu Y Z. I.3Net: Implicit instance-invariant network for adapting one-stage object detectors. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. IEEE, 2021. 12576−12585
    [23] 李威, 王蒙. 基于渐进多源域迁移的无监督跨域目标检测. 自动化学报, 2022, 48(9): 2337−2351

    Li Wei, Wang Meng. Unsupervised cross-domain object detection based on progressive multi-source transfer. Acta Automatica Sinica, 2022, 48(9): 2337−2351
    [24] Rodriguez A L, Mikolajczyk K. Domain adaptation for object detection via style consistency. In: Proceedings of the 30th British Machine Vision Conference. Cardiff, UK: BMVA Press, 2019.
    [25] Liu W, Anguelov D, Erhan D, Szegedy C, Reed S, Fu C Y, et al. SSD: Single shot MultiBox detector. In: Proceedings of the 14th European Conference on Computer Vision (ECCV). Amsterdam, The Netherlands: Springer, 2016. 21−37
    [26] Redmon J, Divvala S, Girshick R, Farhadi A. You only look once: Unified, real-time object detection. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE, 2016. 779−788
    [27] Yolov8 [Online], available: https://github.com/ultralytics/yolov8, February 15, 2023
    [28] Zhang S Z, Tuo H Y, Hu J, Jing Z L. Domain adaptive YOLO for one-stage cross-domain detection. In: Proceedings of the 13th Asian Conference on Machine Learning. PMLR, 2021. 785−797
    [29] Redmon J, Farhadi A. YOLOv3: An incremental improvement. arXiv preprint arXiv: 1804.02767, 2018.
    [30] Hnewa M, Radha H. Integrated multiscale domain adaptive YOLO. IEEE Transactions on Image Processing, 2023, 32: 1857−1867 doi: 10.1109/TIP.2023.3255106
    [31] Bochkovskiy A, Wang C Y, Liao H Y M. YOLOv4: Optimal speed and accuracy of object detection. arXiv preprint arXiv: 2004.10934, 2020.
    [32] Vidit V, Salzmann M. Attention-based domain adaptation for single-stage detectors. Machine Vision and Applications, 2022, 33(5): Article No. 65 doi: 10.1007/s00138-022-01320-y
    [33] YOLOv5 [Online], available: https://github.com/ultralytics/yolov5, November 28, 2022
    [34] Li G F, Ji Z F, Qu X D, Zhou R, Cao D P. Cross-domain object detection for autonomous driving: A stepwise domain adaptative YOLO approach. IEEE Transactions on Intelligent Vehicles, 2022, 7(3): 603−615 doi: 10.1109/TIV.2022.3165353
    [35] Hu J, Shen L, Sun G. Squeeze-and-excitation networks. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 7132−7141
    [36] Wang Q L, Wu B G, Zhu P F, Li P H, Zuo W M, Hu Q H. ECA-Net: Efficient channel attention for deep convolutional neural networks. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, USA: IEEE, 2020. 11531−11539
    [37] Lee H, Kim H E, Nam H. SRM: A style-based recalibration module for convolutional neural networks. In: Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, South Korea: IEEE, 2019. 1854−1862
    [38] Wang M Z, Wang W, Li B P, Zhang X, Lan L, Tan H B, et al. InterBN: Channel fusion for adversarial unsupervised domain adaptation. In: Proceedings of the 29th ACM International Conference on Multimedia. Virtual Event: ACM, 2021. 3691−3700
    [39] Ding S Y, Lin L, Wang G R, Chao H Y. Deep feature learning with relative distance comparison for person re-identification. Pattern Recognition, 2015, 48(10): 2993−3003 doi: 10.1016/j.patcog.2015.04.005
    [40] Snell J, Swersky K, Zemel R. Prototypical networks for few-shot learning. In: Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA: Curran Associates Inc., 2017. 4080−4090
    [41] He K M, Fan H Q, Wu Y X, Xie S N, Girshick R. Momentum contrast for unsupervised visual representation learning. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, USA: IEEE, 2020. 9726−9735
    [42] Cordts M, Omran M, Ramos S, Rehfeld T, Enzweiler M, Benenson R, et al. The cityscapes dataset for semantic urban scene understanding. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE, 2016. 3213−3223
    [43] Sakaridis C, Dai D X, Van Gool L. Semantic foggy scene understanding with synthetic data. International Journal of Computer Vision, 2018, 126(9): 973−992 doi: 10.1007/s11263-018-1072-8
    [44] Yu F, Chen H F, Wang X, Xian W Q, Chen Y Y, Liu F C, et al. Bdd100K: A diverse driving dataset for heterogeneous multitask learning. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, USA: IEEE, 2020. 2633−2642
    [45] Geiger A, Lenz P, Stiller C, Urtasun R. Vision meets robotics: The KITTI dataset. The International Journal of Robotics Research, 2013, 32(11): 1231−1237 doi: 10.1177/0278364913491297
    [46] Johnson-Roberson M, Barto C, Mehta R, Sridhar S N, Rosaen K, Vasudevan R. Driving in the matrix: Can virtual worlds replace human-generated annotations for real world tasks? In: Proceedings of the IEEE International Conference on Robotics and Automation (ICRA). Singapore: IEEE, 2017. 746−753
    [47] Everingham M, Van Gool L, Williams C K I, Winn J, Zisserman A. The Pascal visual object classes (VOC) challenge. International Journal of Computer Vision, 2010, 88(2): 303−338 doi: 10.1007/s11263-009-0275-4
    [48] Inoue N, Furuta R, Yamasaki T, Aizawa K. Cross-domain weakly-supervised object detection through progressive domain adaptation. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 5001−5009
  • 加载中
图(7) / 表(16)
计量
  • 文章访问数:  862
  • HTML全文浏览量:  353
  • PDF下载量:  177
  • 被引次数: 0
出版历程
  • 收稿日期:  2022-12-05
  • 录用日期:  2023-05-18
  • 网络出版日期:  2023-08-18
  • 刊出日期:  2024-11-26

目录

/

返回文章
返回