2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于旋转框精细定位的遥感目标检测方法研究

朱煜 方观寿 郑兵兵 韩飞

朱煜, 方观寿, 郑兵兵, 韩飞. 基于旋转框精细定位的遥感目标检测方法研究. 自动化学报, 2023, 49(2): 415−424 doi: 10.16383/j.aas.c200261
引用本文: 朱煜, 方观寿, 郑兵兵, 韩飞. 基于旋转框精细定位的遥感目标检测方法研究. 自动化学报, 2023, 49(2): 415−424 doi: 10.16383/j.aas.c200261
Zhu Yu, Fang Guan-Shou, Zheng Bing-Bing, Han Fei. Research on detection method of refined rotated boxes in remote sensing. Acta Automatica Sinica, 2023, 49(2): 415−424 doi: 10.16383/j.aas.c200261
Citation: Zhu Yu, Fang Guan-Shou, Zheng Bing-Bing, Han Fei. Research on detection method of refined rotated boxes in remote sensing. Acta Automatica Sinica, 2023, 49(2): 415−424 doi: 10.16383/j.aas.c200261

基于旋转框精细定位的遥感目标检测方法研究

doi: 10.16383/j.aas.c200261
基金项目: 上海市科学技术委员会(17DZ1100808)资助
详细信息
    作者简介:

    朱煜:华东理工大学信息科学与工程学院教授. 1999年获得南京大学博士学位. 主要研究方向为图像处理, 计算机视觉, 多媒体通信和深度学习. 本文通信作者. E-mail: zhuyu@ecust.edu.cn

    方观寿:华东理工大学信息科学与工程学院硕士研究生. 主要研究方向为目标检测, 深度学习. E-mail: y30180616@mail.ecust.edu.cn

    郑兵兵:华东理工大学信息科学与工程学院博士研究生. 主要研究方向为医学图像处理, 深度学习和计算机视觉. E-mail: bostonkg@outlook.com

    韩飞:华东理工大学信息科学与工程学院硕士研究生. 主要研究方向为目标检测, 计算机视觉和深度学习. E-mail: fei-han_huali@163.com

Research on Detection Method of Refined Rotated Boxes in Remote Sensing

Funds: Supported by Shanghai Science and Technology Committee (17DZ1100808)
More Information
    Author Bio:

    ZHU Yu Professor at the School of Information Science and Engineering, East China University of Science and Technology. She received her Ph.D. degree from Nanjing University in 1999. Her research interest covers image processing, computer vision, multi-media communication, and deep learning. Corresponding author of this paper

    FANG Guan-Shou Master student at the School of Information Science and Engineering, East China University of Science and Technology. His research interest covers object detection and deep learning

    ZHENG Bing-Bing Ph.D. candidate at the School of Information Sc-ience and Engineering, East China University of Science and Technology. His research interest covers medical image processing, deep learning, and computer vision

    HAN Fei Master student at the School of Information Science and Engineering, East China University of Science and Technology. His research interest covers object detection, computer vision, and deep learning

  • 摘要: 遥感图像中的目标往往呈现出任意方向排列, 而常见的目标检测算法均采用水平框检测, 并不能满足这类场景的应用需求. 因此提出一种旋转框检测网络R2-FRCNN. 该网络利用粗调与细调两阶段实现旋转框检测, 粗调阶段将水平框转换为旋转框, 细调阶段进一步优化旋转框的定位. 针对遥感图像存在较多小目标的特点, 提出像素重组金字塔结构, 融合深浅层特征, 提升复杂背景下小目标的检测精度. 此外, 为了在金字塔各层中提取更加有效的特征信息, 在粗调阶段设计一种积分与面积插值法相结合的感兴趣区域特征提取方法, 同时在细调阶段设计旋转框区域特征提取方法. 最后在粗调和细调阶段均采用全连接层与卷积层相结合的预测分支, 并且利用SmoothLn作为网络的回归损失函数, 进一步提升算法性能. 提出的网络在大型遥感数据集DOTA上进行评估, 评估指标平均准确率达到0.7602. 对比实验表明了R2-FRCNN网络的有效性.
  • 近年来, 随着遥感技术的发展, 高质量的遥感图像日益增多, 这为遥感领域的应用奠定了基础. 遥感图像广泛应用于灾害监测、资源调查、土地利用评价、农业产值测算、城市建设规划等领域[1], 对于社会和经济发展具有重要的意义. 而目标检测作为遥感图像处理的应用之一, 获得图中特定目标类别和位置. 通常关注飞机、机场、船舶、桥梁和汽车等目标, 因此对于民用和军用领域有着十分重要的用途[2]. 在民用领域中, 船舶的定位有利于海上救援行动, 车辆的定位有利于车辆计数和分析道路的拥堵情况等. 在军事领域中, 这些类别信息的检测获取, 有利于快速且精准地锁定攻击目标位置、分析战争形势以及制定军事行动等. 因此对于遥感图像中的目标进行精准检测至关重要.

    目标检测是计算机视觉领域中一个重要且具有挑战性的研究热点. 随着深度学习的快速发展, 目标检测器的性能取得了显著进步, 已经广泛应用于各个行业. 目前常用的目标检测器大致可以分为两级检测器和单级检测器两类[3]. 两级检测器是基于区域卷积神经网络(Regions with convolutional neural network, R-CNN)框架, 检测过程分为两个阶段. 第1阶段从图像中生成一系列候选框区域, 第2阶段从候选框区域中提取特征, 然后使用分类器和回归器进行预测. Faster R-CNN[4]作为两级检测器的经典方法, 提出候选区域生成网络(Region proposal networks, RPN)用于候选框的产生, 从而快速、准确地实现端到端检测. 之后区域全卷积网络(Region-based fully convolutional network, R-FCN)[5]、Cascade R-CNN[6]等两级检测器的出现进一步提高目标检测的精度. 单级检测器将检测问题简化为回归问题, 仅仅由一系列卷积层进行分类回归, 而不需要产生候选框及特征提取阶段. 因此这类方法通常检测速度较快. 例如, Redmon等[7]提出YOLO检测器, 将图像划分为一系列网格区域, 每个网格区域直接回归得到边界框. Liu等[8]提出SSD检测器, 在多个不同尺度大小的特征图上直接分类回归. Lin等[9]提出Focal Loss分类损失函数, 解决单级检测器的类别不平衡问题, 进一步提高检测精度. 这些先进的目标检测技术往往用于水平边界框的生成, 然而在遥感图像中, 大多数检测目标呈现出任意方向排列, 对于横纵比大或者密集排列的目标, 仅仅采用水平框检测将包含过多的冗余信息, 影响检测效果. 因此旋转方向成为不可忽视的因素.

    早期应用于遥感领域的旋转框检测算法主要来源于文本检测, 例如R2CNN[10]和RPN[11]等. 然而由于遥感图像背景复杂且空间分辨率变化较大, 相比于二分类的文本检测具有更大困难, 因此这些优秀的文本检测算法直接应用于遥感领域中并不能取得较好的检测效果. 近年来, 随着目标检测算法的发展以及针对遥感图像的深入研究, 涌现出许多性能良好的旋转框检测算法. 例如Ding等[12]提出旋转感兴趣区域学习器(Region of interest transformer, RoI), 将水平框转换为旋转框, 并在学习器中执行边界框的回归; Zhang等[13]提出通过捕获全局场景和局部特征的相关性增强特征; Azimi等[14]提出基于多尺度卷积核的图像级联方法; Yang等[15]提出像素注意力机制抑制图像噪声, 突出目标的特征, 并且在SmoothL1损失[4]中引入IoU常数因子解决旋转框的边界问题, 使旋转框预测更加精确. Yang等[16]设计精细调整模块, 采用特征调整模块, 通过插值操作实现特征对齐. Xu等[17]提出回归4种长度比来表示对应边的相对偏移距离, 并且引入了一个真实框与其水平边界框面积比作为倾斜因子, 用于对每个目标水平或旋转检测的选择. Wei等[18]提出利用预测内部中线实现旋转目标检测的方法. Li等[19]提出利用预测的掩模获取旋转框的方法. Wang等[20]提出了一种基于初始横向连接的特征金字塔网络(Feature pyramid networks, FPN)增强算法, 同时利用语义注意力机制网络提供语义特征, 从复杂的背景中提取目标.

    因此, 目前在遥感图像中用于旋转框检测的方法大致可以分为两种. 其中一种算法整体结构仍然为水平框检测, 仅仅在回归预测分支中增加一些变量的获取, 例如角度因子等. 这种算法使得在网络预测的像素中包含较多背景信息, 容易出现图1所示的角度偏移以及漏检较多等问题. 另一种算法预设含有角度的锚点框, 然后采用旋转候选框内的像素进行预测. 由于目标的旋转角度较多, 因此这种算法需要预设大量的锚点框以保证召回率, 这样会极大地增加计算量.

    图 1  遥感图像目标检测问题可视化
    Fig. 1  Visualization of remote sensing images object detection problem

    针对上述不足, 本文结合这两种处理方法的优势, 以Faster R-CNN[21]为基础, 提出一种用于旋转框检测的网络R2-FRCNN (Refined rotated faster R-CNN). 该网络依次采用上述两种旋转框处理方法, 将前一种方法得到旋转框的过程视为粗调, 这个阶段产生的旋转框作为后一种方法的预设框, 然后对于旋转框再次进行调整, 这个过程称为细调. 两阶段调整使得网络输出更加精确的预测框. 此外, 针对遥感图像存在较多小目标的特点, 本文提出像素重组特征金字塔结构(Pixel-recombination feature pyramid network, PFPN), 相比于传统的金字塔网络, 本文的金字塔结构使得特征局部信息与全局信息相结合, 从而突出复杂背景下小目标的特征响应. 同时为了更好地提取表征目标信息的特征, 用于后续预测阶段, 本文在粗调阶段设计积分感兴趣区域池化方法(Integrate region of interest pool, IRoIPool), 以及在精调阶段设计旋转感兴趣区域池化方法(Rotated region of interest pool, RRoIPool), 提升复杂背景下小目标的检测精度. 最后, 本文在粗调和细调阶段均采用全连接层与卷积层结合的预测分支以及SmoothLn回归损失函数, 进一步提升算法性能.

    本文结构安排如下: 第1节详细阐述本文提出的旋转框检测网络R2-FRCNN; 第2节通过与官方基准方法和现有方法的实验结果进行对比, 以及本文方法各模块的分离实验, 评估本文方法的性能; 第3节总结.

    本节对提出的网络R2-FRCNN结构以及各模块进行阐述. 首先介绍R2-FRCNN网络的整体结构, 然后详细介绍各个模块(像素重组金字塔结构、感兴趣区域特征提取和网络预测分支结构), 最后介绍本文使用的损失函数.

    图2展示了R2-FRCNN网络的整体结构, 可以分为基础网络、像素重组金字塔、候选区域生成网络RPN、粗略调整阶段和精细调整阶段5个部分.

    图 2  R2-FRCNN网络结构图
    Fig. 2  The structure of R2-FRCNN

    本文采用ResNet[22]作为算法的基础网络, 将C3C4C5C6特征层用于构建特征金字塔结构, 增强网络对于小目标的检测能力. 由金字塔产生的P3P4P5P6P7 5个特征层上, 每个像素点预设3个锚点框, 锚点框的长宽比为{1:1, 1:2, 2:1}, 尺寸大小为8, 经由RPN[4]调整锚点框的位置生成一系列候选框. 然后选择置信度较高的2000个候选框用于粗略调整阶段, 该模块的回归过程将水平框调整为旋转框. 最后这些候选框进入精细调整阶段, 再次调整旋转框的位置, 得到更好的检测效果. 经过两阶段调整后的框, 选择后一阶段中最大分类数值作为置信度, 同时采用旋转非极大抑制算法处理, 选取邻域内置信度较高的框, 并且抑制低置信度的框, 这些高置信度的候选框即为网络输出预测框.

    特征金字塔结构[23]被广泛应用于许多先进的目标检测算法中, 这个结构的设计在于浅层的定位信息准确, 深层的语义信息丰富, 通过融合深浅层特征图, 提升对于小目标的检测性能. 如表1所示, RoI-Transformer (RT)[12]、CADNet[13]、SCRDet[15]、R3Det[16]和GV R-CNN (GV)[17]均采用了深浅层融合特征, 表现出优异的检测性能, 而R2CNN[10]未使用特征融合, 取得的检测结果远低于其他方法. 图3为本文设计的像素重组金字塔结构. 该结构分为2个阶段: 第1阶段为$ {C}_{i} $$ {M}_{i} $, 采用尺度转化的方式, 利用局部特征信息的同时, 融合上下层构建金字塔结构; 第2阶段为$ {M}_{i} $$ {P}_{i} $, 采用非局部注意力[24]模块, 利用全局信息, 突出目标区域的特征.

    表 1  不同方法在DOTA数据集的检测精度对比(%)
    Table 1  Comparison of detection accuracy of different methods in DOTA (%)
    类别R2CNN[10]RT[12]CADNet[13]SCRDet[15]R3Det[16]GV[17]本文方法
    飞机80.9488.6487.8089.9889.2489.6489.10
    棒球场65.6778.5282.4080.6580.8185.0081.22
    桥梁35.3443.4449.4052.0951.1152.2654.47
    田径场67.4475.9273.5068.3665.6277.3472.97
    小型车辆59.9268.8171.1068.3670.6773.0179.99
    大型车辆50.9173.6864.5060.3276.0373.1482.28
    船舶55.8183.5976.6072.4178.3286.8287.64
    网球场90.6790.7490.9090.8590.8390.7490.54
    篮球场66.9277.2779.2087.9484.8979.0287.31
    储油罐72.3981.4673.3086.8684.4286.8186.33
    足球场55.0658.3948.4065.0265.1059.5554.20
    环形车道52.2353.5460.9066.6857.1870.9168.18
    港口55.1462.8362.0066.2568.1072.9476.12
    游泳池53.3558.9367.0068.2468.9870.8670.83
    直升机48.2247.6762.2065.2160.8857.3259.19
    平均准确率60.6769.5669.9072.6172.8175.0276.02
    下载: 导出CSV 
    | 显示表格
    图 3  像素重组金字塔结构
    Fig. 3  The structure of pixel-recombination pyramid

    在第1阶段中, 特征上采样对于金字塔结构是一个关键的操作. 最常用的特征上采样方式为插值和转置卷积[25]. 插值法仅考虑相邻像素, 无法获取密集预测任务所需的丰富语义信息. 转置卷积作为卷积的逆运算, 将其作为上采样方式存在2点不足[26]: 1)对于整个特征图都采用同样的卷积核, 而不考虑特征图中的目标信息, 限制了上采样过程对于局部变化的响应; 2)若采用较大的卷积核将会增加大量参数. 本文引入尺度转换作为特征上采样方法. 深浅层特征融合的操作过程如图4所示. 该方法首先利用“通道转化”方法[27]压缩通道数(本文压缩系数$r=0.5$), 增大特征图尺寸, 即:

    图 4  特征融合结构
    Fig. 4  The structure of feature fusion
    $${I_{H,W,C}} = {I_{\left\lfloor {H/r} \right\rfloor ,\left\lfloor {W/r} \right\rfloor ,C \cdot {r^2} + r \cdot {\rm{mod}}\left( {W,r} \right) + {\rm{mod}}\left( {H,r} \right)}}$$ (1)

    然后, 采用$1 \times 1 $的卷积层用于调整通道数, 再由Softmax函数[28]作用于每一通道的特征层. 最后采用式(2)进行加权求和, 使得特征融合过程更好地利用局部信息.

    $$ \left\{\begin{aligned} &{y}_{m,n,c}=\displaystyle\sum\limits_{i=-2}^{2}\displaystyle\sum\limits_{j=-2}^{2}{x}_{m+i,n+j,c}\cdot {w}_{m,n,k} \\ &k=\left(i+2\right)\times 5+j+2 \end{aligned}\right. $$ (2)

    式中, $m、n$分别表示像素的横、纵位置, $ c $表示$ C $特征层当前通道, $ k $表示$ M $特征层当前通道.

    第2阶段采用非局部注意力模块, 利用特征图中目标与全局特征的关系, 突出目标区域的响应.

    根据非局部注意力模块的定义, 假设$ C $为通道数, $ s $为尺度大小, ${{G}}$为特征图尺度的乘积即$s\times s,x$为输入特征图, $ q\left(x\right) $$ k\left(x\right) $$ v\left(x\right) $定义为采用不同线性转换的结果:

    $$ q\left({x}^{s}\right)={{W}_{q}^{s}}^{\rm T}{x}^{s} $$ (3)
    $$ k\left({x}^{s}\right)={{W}_{k}^{s}}^{\rm T}{x}^{s} $$ (4)
    $$ v\left({x}^{s}\right)={{W}_{v}^{s}}^{\rm T}{x}^{s} $$ (5)

    式中, 系数矩阵${{W}}_{{q}}^{{s}},\;{{W}}_{{k}}^{{s}}\in { \bf{R}}^{{{C}}\times {{C}}/8},\;{{W}}_{{v}}^{{s}}\in {\bf{R}}^{{{C}}\times {{C}}}$.

    ${{q}}\left({{x}}^{{s}}\right)$${{k}}\left({{x}}^{{s}}\right)$矩阵相乘, 得二维矩阵${{o}}^{{s}}\in {\bf{R}}^{{{G}}\times {{G}}}$; 再运用Softmax将矩阵的每一行转换为概率值, 最后与${{v}}\left({{x}}^{{s}}\right)$矩阵相乘后再与输入相加, 得输出量${{{x}}^{{s}}}'$:

    $$ {{x}^{s}}'={x}^{s}+{\left({o}^{s}v^{\rm{T}}{\left({x}^{s}\right)}\right)}^{\rm T} $$ (6)

    在本文的特征金字塔结构中, 第1阶段输出的$ {M}_{3} $$ {M}_{4} $由于尺度较大, 直接用于非局部注意力模块计算量较大. 因此为了保留这两层的语义信息, 同时再次融合不同层的特征, 该结构将$ {M}_{3} $$ {M}_{4} $池化为$ {M}_{5} $的尺寸大小, 然后计算这3层的均值输入非局部注意力模块, 再由插值操作输出对应相等尺寸的特征图. $ {M}_{6} $$ {M}_{7} $的特征图直接应用非局部注意力模块得到$ {P}_{6} $$ {P}_{7} $层.

    感兴趣区域特征提取模块主要用于固定输出尺寸大小, 提取表征框内区域的特征, 便于后续的网络预测. 本文的RoI特征提取模块主要分为粗调阶段的水平框和细调阶段的旋转框RoI特征提取两部分.

    自然场景图像中的目标通常是固定方向呈现, 因此两阶段式目标检测算法采用水平框的RoI特征提取. 目前, 应用较为广泛的RoI特征提取是RoIPooling[4]和RoI Align[29]. 图5(a)为RoI池化原理图, 选择量化后块中最大像素值作为池化后的结果. 然而量化的结果会导致提取的小目标像素存在偏差, 影响检测效果. 图5(b)为RoI对齐原理图, 取消量化操作, 采用双线性插值在块中计算出N个浮点坐标的像素值, 均值作为块的结果. 然而这个操作存在两点不足: 采样点数量需要预先设置, 不同大小候选框设置了相同数量的采样点.

    图 5  常用RoI特征提取示意图
    Fig. 5  The schematic diagram of commonRoI feature extraction

    因此, 本文采用精确RoI (Precise RoI, Pr-RoI)池化方法[30]的特征提取操作, 如图6所示, 由插值操作将块内特征视为一个连续的过程, 采用积分方法获得整个块的像素和, 其均值作为块的结果, 即:

    $$ {\rm{IRoIPool}}\left(bin,{\cal{F}}\right)=\dfrac{{\int }_{{y}_{1}}^{{y}_{2}}{\int }_{{x}_{1}}^{{x}_{2}}f\left(x,y\right){\rm d}x{\rm d}y}{\left({x}_{2}-{x}_{1}\right)\times \left({y}_{2}-{y}_{1}\right)} $$ (7)
    图 6  IRoIPool特征提取示意图
    Fig. 6  The diagram of IRoIPool feature extraction

    式中, $ f(x,y) $为采用面积插值法[15]所得的像素值.

    旋转框RoI特征提取直接采用积分操作较为复杂, 因此本文将积分操作视为块内一定数量的像素之和, 从而得到块的均值, 即:

    $$ {\rm{RRoIPool}}\left(bin,{\cal{F}}\right)=\frac{\displaystyle\sum\limits _{y={y}_{1}}^{{y}_{2}}\displaystyle\sum\limits _{x={x}_{1}}^{{x}_{2}}f\left(x,y\right)}{{N}_{x}\times {N}_{y}} $$ (8)
    $$ {N_x} = \left\lfloor {\dfrac{{{x_2} - {x_1}}}{{{l_x}}}} \right\rfloor + 1,{N_y} = \left\lfloor {\dfrac{{{y_2} - {y_1}}}{{{l_y}}}} \right\rfloor + 1 $$ (9)

    式中, $ ({x}_{1},{y}_{1}) $$ ({x}_{2},{y}_{2}) $分别为旋转框在水平位置处的左上角和右下角点, $ {l}_{x} $$ {l}_{y} $分别为水平方向和垂直方向的采样距离, 如图7所示.

    根据候选框的大小决定采样点的数量. 然而采样距离太小会导致计算量大幅增加, 因此为平衡检测效率与精度, 本文将采样距离$ {l}_{x} $$ {l}_{y} $设置为0.4.

    旋转框在水平位置处采样点的坐标为$ ({x}_{h},{y}_{h}) $, 旋转框$ w $所对应的边与横轴正方向的夹角为$ \theta $, 旋转框的中心点为$ ({c}_{x},{c}_{y}) $, 由式(10)转化为旋转框中的坐标$ (x,y) $, 再由面积插值法得到该位置的像素值.

    $$ \left[ \begin{array}{c}x\\ y\end{array} \right] = \left[ \begin{array}{ccc}{\rm cos}\theta & - {\rm sin}\theta & \left(1 - {\rm cos}\theta \right) \cdot {c}_{x} + {\rm sin}\theta \cdot {c}_{y}\\ {\rm sin}\theta & {\rm cos}\theta & - {\rm sin}\theta \cdot {c}_{x} + \left(1 - {\rm cos}\theta \right) \cdot {c}_{y} \end{array} \right]\left[ \begin{array}{c}{x}_{h}\\ {y}_{h}\\ 1\end{array} \right] $$ (10)
    图 7  旋转RoI特征提取示意图
    Fig. 7  The diagram of rotated RoI feature extraction

    本文方法与R3Det类似, 都使用了精细调整旋转框的定位. 然而R3Det每一次调整的预测分支直接采用卷积层操作, 但是卷积操作为水平滑动, 用于旋转框回归将会包含一些背景像素干扰预测结果, 而本文方法采用旋转框感兴趣区域提取框内的特征信息用于预测, 更加有利于检测性能的提升.

    目标检测算法分为定位和分类两个任务. 一般而言, 两级检测器的预测分支采用全连接层, 而单级检测器的预测分支采用卷积层. Wu等[31]发现这两个任务适合于不同的预测分支结构, 全连接层更适合用于分类任务, 卷积层更适合用于回归任务. 因此, 本文采用图8所示的预测分支结构.

    图 8  预测分支结构图
    Fig. 8  The diagram of prediction branch

    在本文采用的预测分支中, 分类结构保持不变, 仍然采用全连接层. 而回归分支采用一系列ResNet网络中的ResBlock结构(本文使用2个).

    本文提出网络的损失函数包含RPN阶段${L}_{{\rm{RPN}}}$、粗略调整阶段$ {L}_{ro} $和精细调整阶段$ {L}_{re} $, 即:

    $$ L={L}_{{\rm{RPN}}}+{L}_{ro}+{L}_{re} $$ (11)

    每一阶段的损失函数都包含分类损失和回归损失. 分类损失采用交叉熵损失函数[4]. 回归损失采用SmoothLn损失函数[32], 如式(12)所示, 相比于SmoothL1损失函数[4], 该损失函数的一阶导数是连续存在的, 具有良好的光滑性.

    $$ S{L}_{n}\left(x\right)=\left(\left|x\right|+1\right){\rm ln}\left(\left|x\right|+1\right)-\left|x\right| $$ (12)
    $$ \dfrac{\partial S{L}_{n}\left(x\right)}{\partial x}={\rm sign}\left(x\right)\cdot{\rm ln}\left({\rm sign}\left( {x} \right)\cdot{ x+1}\right) $$ (13)

    此外, 式(11)中RPN阶段为水平框的回归, 因此使用$x、y、w、h$4个值代表水平框. 粗调阶段和细调阶段为旋转框的回归, 使用$x、y、 w、 h、\theta$5个值代表旋转框, 因此旋转框的回归转换值定义为:

    $$ \left[\begin{array}{c}{t}_{x}\\ {t}_{y}\end{array}\right] = \left[\begin{array}{cc}{\rm cos}\theta & {\rm sin}\theta \\ -{\rm sin}\theta & {\rm cos}\theta \end{array}\right]\left[\begin{array}{c}{x}_{t}-{x}_{a}\\ {y}_{t}-{y}_{a}\end{array}\right]\left[\begin{array}{cc}\dfrac{1}{{w}_{a}}& 0\\ 0& \dfrac{1}{{h}_{a}}\end{array}\right] $$ (14)
    $$ {t}_{w}=\log_2\left(\frac{{w}_{t}}{{w}_{a}}\right),\;\;\;{t}_{h}=\log_2\left(\frac{{h}_{t}}{{h}_{a}}\right) $$ (15)
    $$ {t}_{\theta }=\left({\theta }_{t}-{\theta }_{a}\right){\rm{mod}}\;2\pi $$ (16)

    式中, $x、y、w、h、\theta$分别为旋转框中心点的横、纵坐标, 框的宽度、高度和旋转角度. ${x}_{t}、{x}_{a}$分别表示真实框和候选框的值.

    本文实验设备使用英特尔E5-2683 CPU, 英伟达GTX 1080Ti显卡, 64 GB内存的服务器, 实验环境为Ubuntu 16.04.4操作系统、Cuda9.0、Cudnn7.4.2、Pytorch1.1.0、Python3.7.

    本文实验中采用3个GPU进行训练, 批处理大小为3 (GPU显存限制), 输入图像统一为1024$\times$1024分辨率. 训练的迭代次数为15轮, 同时使用衰减系数为0.0001、动量为0.9的随机梯度下降作为优化器, 初始的学习率设置为0.01, 分别在第8、第11轮和第14轮将学习率降低10倍. 图9是在DOTA 数据集上训练过程的损失下降曲线图(一轮训练有4500次迭代), 在第8轮(36000次迭代)出现明显的损失下降.

    图 9  在DOTA上训练过程损失曲线图
    Fig. 9  Train loss on DOTA

    本文使用DOTA[21]用于算法的评估. DOTA是由旋转框标注的大型公开数据集, 主要用于遥感图像目标检测任务. 该数据集包含由各个不同传感器和平台采集的2806张图像, 图像的大小范围从800 × 800像素到4000 × 4000像素, 含有各种尺度、方向和形状. 专家选择15种常见类别对这些图像进行标注, 总共标注188282个目标对象, 包括飞机、棒球场、桥梁、田径场、小型车辆、大型车辆、船舶、网球场、篮球场、储油罐、足球场、环形车道、港口、游泳池和直升机. 另外该数据集选取一半的图像作为训练集, 1/6作为验证集, 1/3作为测试集, 其中测试集的标注不公开. 为降低高分辨率图像由于压缩对于小目标的影响, 本文将所有图像统一裁剪为1024 × 1024的子图像, 重叠为200像素.

    本文方法采用ResNet50与可变形卷积[33]相结合作为基础网络进行本节实验. 为了评估本文方法的性能, 实验数据均采用官方提供的训练集和测试集. 实验结果通过提交到DOTA评估服务器上获得, 本文方法的评估结果平均准确率为0.7602, 超过目前官方提供的基准方法[21].

    除了与官方基准方法进行对比, 本节实验还与R2CNN[10]、RoI-Transformer[12]、CADNet[13]、SCRDet[15]、R3Det[16]和GV R-CNN[17]进行对比分析, 各方法的检测结果如表1所示.

    表1中的检测结果可以看出, 本文方法的检测结果优于其他方法, 达到76.02%的平均准确率. 其中桥梁、小型车辆、大型车辆、船舶和港口这些类别取得最高检测精度. 由图10可以看出, 这些类别的目标在遥感数据集中尺寸较小, 并且往往呈现出密集排列, 因此说明本文方法对于在这类场景的检测更具有优势. 此外, 飞机、网球场、篮球场、储水池、游泳池等类别在遥感数据集中尺寸较大, 对于这些目标本文方法仍取得与其他方法中最高检测精度相差不大的结果. 这些检测结果说明本文方法能够有效地用于检测遥感图像中的目标.

    图 10  各类别检测结果展示
    Fig. 10  Visualization of each category detection

    1)各模块对于检测精度的影响

    为验证本文方法各模块的有效性, 本节进行了一系列对比实验. 表2展示了网络在DOTA 数据集上不同模块设置的检测结果. 其中“√”表示采用该项设置, ConvFc表示采用第1.4节设计的预测分支结构. 对比实验分析如下:

    表 2  R2-FRCNN模块分离检测结果
    Table 2  R2-FRCNN module separates detection results
    模块R2-FRCNN
    基准设置
    精细调整
    IRoIPool
    RRoIPool
    PFPN
    SmoothLn
    ConvFc
    平均准确率 (%)69.5273.6273.9974.3174.9775.1375.96
    下载: 导出CSV 
    | 显示表格

    a)基准设置. 本节实验将扩展后的Faster R-CNN OBB[21]用于旋转框检测任务. 其中, 基础网络采用ResNet50[22], 并且采用特征金字塔[23], RoI特征提取采用RoI Align[29], 回归分支采用Smoo-thL1损失函数[4]. 为了保证实验的公平性和准确性, 后续实验参数设置都是严格一致.

    b)精细调整. 在实验的精细调整阶段, 初始候选区域特征提取选择Rotated RoI Align (RRoI Align)方法, 该方法为RoI Align[29]在旋转框中的应用. 由表2的结果显示, 精细调整阶段的添加, 使得检测效果得到大幅提升, 评估指标平均准确率增加4.10%. 说明提取旋转候选框内像素进一步调整是有必要的, 这个阶段避免了水平框特征提取包含过多背景像素的问题, 从而提升对较大横纵比目标的检测效果. 然而在实验中发现, 在精细调整结构中多次调整提升效果并不明显, 从一次调整增加为两次调整, 平均准确率为73.68%, 仅仅增加0.06%, 因此为了减少参数量, 本文后续实验的精细调整阶段采用一次调整过程.

    c) RoI特征提取. 实验中, 将第1.3节提出的IRoIPool和RRoIPool用于替换初始两阶段调整模块的RoI Align和RRoI Align. 由表2的实验结果显示, 相比于初始RoI特征提取方法, IRoIPool方法使得检测精度平均准确率提升0.37%, RRoIPool方法使得检测精度平均准确率进一步提升0.32%, 说明本文设计的RoI特征提取更为有效. 本文后续将对这两个特征提取方法的结构做进一步研究.

    d) PFPN结构. 为了更好地验证PFPN的作用, 本文对此设计了两组实验. 第1组, 金字塔结构的深浅层不进行尺寸转化和非局部注意力模块, 仅仅采用$ 1\times 1 $的卷积将特征层的通道数转化为256, 网络的其他结构和训练超参数保持一致, 平均准确率仅为64.55%, 由于DOTA数据集中小目标较多, 因此说明PFPN金字塔结构对于小目标的检测效果显著. 第2组实验的结果见表2, 相比于FPN, PFPN使得平均准确率提升0.66%, 说明本文提出的PFPN结构对于遥感目标的检测更为有效.

    e)网络预测分支. 本节针对预测分支进行两部分的实验, 即回归损失函数和预测分支结构. 由表2可以看出, 相比于SmoothL1, 回归损失函数采用SmoothLn, 使得检测精度平均准确率提升0.16%. 此外, 采用第1.4节所设计的预测分支结构, 分类过程采用全连接层, 回归过程采用卷积层, 仅增加2个ResBlock模块, 使得平均准确率提升0.83%. 由此说明回归过程采用SmoothLn函数和卷积层更加适合旋转框目标检测.

    2)感兴趣区域特征提取模块研究

    本节研究不同RoI特征提取结构对于检测精度的影响, 实验分为水平候选框特征提取方法和旋转候选框特征提取方法两部分. 实验结果分别见表3表4所示.

    表 3  不同水平框特征提取方法的实验结果
    Table 3  Experimental results of feature extraction methods of different horizontal boxes
    模块平均准确率 + 精细调整
    方法RoIPoolingRoI AlignIRoIPool
    平均准确率 (%)71.2173.6273.99
    下载: 导出CSV 
    | 显示表格
    表 4  不同旋转框特征提取方法的实验结果
    Table 4  Experimental results of different featureextraction methods of rotated boxes
    模块平均准确率 + 精细调整 + IRoIPool
    方法RRoI A-PoolingRRoI AlignRRoIPool
    平均准确率 (%)73.3873.9974.31
    下载: 导出CSV 
    | 显示表格

    表3的实验结果显示, 采用RoIPooling方式的检测精度相对较低, 其量化操作降低了对于小目标的检测效果. 而RoI Align方式取消量化操作, 采用插值方式使得平均准确率提升2.41%, 说明提取连续的特征有利于目标检测. 本文方法在面积插值法的基础上引入积分操作, 平均准确率提升0.37%. 相比于前一种方式选取固定数量的像素点, 本文采用的积分操作类似于选取较多点, 可以提取更多特征, 有利于检测效果的提升.

    表4为采用不同旋转框特征提取方法的检测结果. 第1种方法旋转感兴趣区域平均池化方法(Rotated region of interest average pooling, RRoI A-Pooling)选取旋转框内的像素点, 像素均值作为提取的特征. 第2种方法采用类似RoI Align的方式在旋转框内选择浮点数坐标, 运用双线性插值获得对应的像素值, 平均准确率提升0.61%. 本文采用方法RRoIPool可以根据旋转框大小选择不同数量的像素点表示特征. 相比于第2种方式提升0.32%, 说明本文采用的旋转框特征提取方式更适合于精细调整模块.

    基于深度学习的目标检测算法在自然场景图像中取得了很大进展. 然而遥感图像存在背景复杂、小目标较多、排列方向任意等难点, 常见的目标检测算法并不满足这类场景的应用需求. 因此本文提出一种粗调与细调两阶段结合的旋转框检测网络R2-FRCNN用于遥感图像检测任务. 并且设计像素重组金字塔结构, 提高复杂背景下小目标的检测性能. 同时在粗调阶段设计一种水平框特征提取方法IRoIPool, 细调阶段设计旋转框特征提取方法RRoIPool. 此外, 本文还采用SmoothLn回归损失函数, 以及全连接层和卷积层结合的预测分支, 进一步提升检测精度. 实验结果表明本文方法在大型公共数据集DOTA上获得了较好的检测效果. 然而本文方法存在检测速度较慢、GPU资源消耗较大等缺点, 因此在后续的工作中也将针对网络的轻量化展开进一步研究.

  • 图  1  遥感图像目标检测问题可视化

    Fig.  1  Visualization of remote sensing images object detection problem

    图  2  R2-FRCNN网络结构图

    Fig.  2  The structure of R2-FRCNN

    图  3  像素重组金字塔结构

    Fig.  3  The structure of pixel-recombination pyramid

    图  4  特征融合结构

    Fig.  4  The structure of feature fusion

    图  5  常用RoI特征提取示意图

    Fig.  5  The schematic diagram of commonRoI feature extraction

    图  6  IRoIPool特征提取示意图

    Fig.  6  The diagram of IRoIPool feature extraction

    图  7  旋转RoI特征提取示意图

    Fig.  7  The diagram of rotated RoI feature extraction

    图  8  预测分支结构图

    Fig.  8  The diagram of prediction branch

    图  9  在DOTA上训练过程损失曲线图

    Fig.  9  Train loss on DOTA

    图  10  各类别检测结果展示

    Fig.  10  Visualization of each category detection

    表  1  不同方法在DOTA数据集的检测精度对比(%)

    Table  1  Comparison of detection accuracy of different methods in DOTA (%)

    类别R2CNN[10]RT[12]CADNet[13]SCRDet[15]R3Det[16]GV[17]本文方法
    飞机80.9488.6487.8089.9889.2489.6489.10
    棒球场65.6778.5282.4080.6580.8185.0081.22
    桥梁35.3443.4449.4052.0951.1152.2654.47
    田径场67.4475.9273.5068.3665.6277.3472.97
    小型车辆59.9268.8171.1068.3670.6773.0179.99
    大型车辆50.9173.6864.5060.3276.0373.1482.28
    船舶55.8183.5976.6072.4178.3286.8287.64
    网球场90.6790.7490.9090.8590.8390.7490.54
    篮球场66.9277.2779.2087.9484.8979.0287.31
    储油罐72.3981.4673.3086.8684.4286.8186.33
    足球场55.0658.3948.4065.0265.1059.5554.20
    环形车道52.2353.5460.9066.6857.1870.9168.18
    港口55.1462.8362.0066.2568.1072.9476.12
    游泳池53.3558.9367.0068.2468.9870.8670.83
    直升机48.2247.6762.2065.2160.8857.3259.19
    平均准确率60.6769.5669.9072.6172.8175.0276.02
    下载: 导出CSV

    表  2  R2-FRCNN模块分离检测结果

    Table  2  R2-FRCNN module separates detection results

    模块R2-FRCNN
    基准设置
    精细调整
    IRoIPool
    RRoIPool
    PFPN
    SmoothLn
    ConvFc
    平均准确率 (%)69.5273.6273.9974.3174.9775.1375.96
    下载: 导出CSV

    表  3  不同水平框特征提取方法的实验结果

    Table  3  Experimental results of feature extraction methods of different horizontal boxes

    模块平均准确率 + 精细调整
    方法RoIPoolingRoI AlignIRoIPool
    平均准确率 (%)71.2173.6273.99
    下载: 导出CSV

    表  4  不同旋转框特征提取方法的实验结果

    Table  4  Experimental results of different featureextraction methods of rotated boxes

    模块平均准确率 + 精细调整 + IRoIPool
    方法RRoI A-PoolingRRoI AlignRRoIPool
    平均准确率 (%)73.3873.9974.31
    下载: 导出CSV
  • [1] Ya Y, Pan H, Jing Z L, Ren X G, Qiao L F. Fusion object detection of satellite imagery with arbitrary-oriented region convolutional neural network. Aerospace Systems, 2019, 2(2): 163-174 doi: 10.1007/s42401-019-00033-x
    [2] 王彦情, 马雷, 田原. 光学遥感图像舰船目标检测与识别综述. 自动化学报, 2011, 37(9): 1029-1039

    Wang Yan-Qing, Ma Lei, Tian Yuan. State-of-the-art of ship detection and recognition in optical remotely sensed imagery. Acta Automatica Sinica, 2011, 37(9): 1029-1039
    [3] 张慧, 王坤峰, 王飞跃. 深度学习在目标视觉检测中的应用进展与展望. 自动化学报, 2017, 43(8): 1289-1305

    Zhang Hui, Wang Kun-Feng, Wang Fei-Yue. Advances and perspec-tives on applications of deep learning in visual object detection. Acta Auto-matica Sinica, 2017, 43(8): 1289-1305
    [4] Ren S Q, He K M, Girshick R, Sun J. Faster R-CNN: Towards real-time object detection with region proposal networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149 doi: 10.1109/TPAMI.2016.2577031
    [5] Dai J F, Li Y, He K M, Sun J. R-FCN: Object detection via re-gion-based fully convolutional networks. In: Proceedings of the 30th International Conference on Neural Information Processing Systems. Barcelona, Spain: 2016. 379−387
    [6] Cai Z W, Vasconcelos N. Cascade R-CNN: Delving into high quality object detection. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 6154−6162
    [7] Redmon J, Divvala S, Girshick R, Farhadi A. You only look once: Unified, real-time object detection. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016. 779−788
    [8] Liu W, Anguelov D, Erhan D, Szegedy C, Reed S, Fu C Y, et al. SSD: Single shot MultiBox detector. In: Proceedings of the 14th European Conference on Computer Vision. Amsterdam, Netherlands: 2016. 21−37
    [9] Lin T Y, Goyal P, Girshick R, He K M, Dollár P. Focal loss for dense object detection. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(2): 318-327 doi: 10.1109/TPAMI.2018.2858826
    [10] Jiang Y Y, Zhu X Y, Wang X B, Yang S L, Li W, Wang H, et al. R2CNN: Rotational region CNN for orientation robust scene text detection [Online], available: https://arxiv.org/abs/1706. 09579, June 29, 2017
    [11] Ma J Q, Shao W Y, Ye H, Wang L, Wang H, Zheng Y B, et al. Ar-bitrary-oriented scene text detection via rotation proposals. IEEE Transac-tions on Multimedia, 2018, 20(11): 3111-3122 doi: 10.1109/TMM.2018.2818020
    [12] Ding J, Xue N, Long Y, Xia G S, Lu Q K. Learning RoI transformer for oriented object detection in aerial images. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE, 2019. 2844−2853
    [13] Zhang G J, Lu S J, Zhang W. CAD-Net: A context-aware detection network for objects in remote sensing imagery. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(12): 10015-10024 doi: 10.1109/TGRS.2019.2930982
    [14] Azimi S M, Vig E, Bahmanyar R, Körner M, Reinartz P. To-wards multi-class object detection in unconstrained remote sensing imagery. In: Proceedings of the 14th Asian Conference on Computer Vision. Perth, Australia: 2019. 150−165
    [15] Yang X, Yang J R, Yan J C, Zhang Y, Zhang T F, Guo Z, et al. SCRDet: Towards more robust detection for small, cluttered and rotated objects. In: Proceedings of the IEEE/CVF International Conference on Computer Vision. Seoul, South Korea: IEEE, 2019. 8231−8240
    [16] Yang X, Yan J C, Feng Z N, He T. R3DET: Refined single-stage detector with feature refinement for rotating object. In: Proceedings of the 35th AAAI Conference on Artificial Intelligence. Virtual Event: 2021. 3163−3171
    [17] Xu Y C, Fu M T, Wang Q M, Wang Y K, Chen K, Xia G S, et al. Gliding vertex on the horizontal bounding box for multi-oriented object detection. IEEE Transactions on Pattern Analysis and Machine Intelli-gence, 2019, 43(4): 1452-1459
    [18] Wei H R, Zhang Y, Cheng Z H, Li H, Wang H Q, Sun X. Oriented objects as pairs of middle lines [Online], available: https://arxiv.org/abs/1912.10694, December 23, 2019
    [19] Li Y Y, Huang Q, Pei X, Jiao L C, Shang R H. RADet: Refine feature pyramid network and multi-layer atten-tion network for arbitrary-oriented ob-ject detection of remote sensing images. Remote Sensing, 2020, 12(3): Article No. 389 doi: 10.3390/rs12030389
    [20] Wang J W, Ding J, Guo H W, Cheng W S, Pan T, Yang W. Mask OBB: A semantic attention-based mask ori-ented bounding box representation for multi-category object detection in aerial images. Remote Sensing, 2019, 11(24): Article No. 2930 doi: 10.3390/rs11242930
    [21] Xia G S, Bai X, Ding J, Zhu Z, Belongie S, Luo J B, et al. DOTA: A large-scale dataset for object detection in aerial images. In: Proceedings of the IEEE/CVF Conference on Com-puter Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 3974−3983
    [22] He K M, Zhang X Y, Ren S Q, Sun J. Deep residual learning for image recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016. 770−778
    [23] Lin T Y, Dollár P, Girshick R, He K M, Hariharan B, Be-longie S. Feature pyramid networks for object detection. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE, 2017. 936−944
    [24] Yi J R, Wu P X, Metaxas D N. ASSD: Attentive single shot multibox detector. Computer Vision and Im-age Understanding, 2019, 189: Article No. 102827 doi: 10.1016/j.cviu.2019.102827
    [25] Zeiler M D, Krishnan D, Taylor G W, Fergus R. Deconvolutional networks. In: Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco, USA: IEEE, 2010. 2528−2535
    [26] Wang J Q, Chen K, Xu R, Liu Z W, Loy C C, Lin D. CARAFE: Content-aware reassembly of features. In: Proceedings of the IEEE/CVF International Conference on Computer Vision. Seoul, South Korea: IEEE, 2019. 3007−3016
    [27] Zhou P, Ni B B, Geng C, Hu J G, Xu Y. Scale-transferrable object detection. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 528−537
    [28] Bridle J S. Probabilistic interpretation of feedforward classification network outputs, with relationships to statistical pattern recognition. Neurocomputing: Algorithms, Architectures and Applications, 1990: 227−236
    [29] He K M, Gkioxari G, Dollár P, Girshick R. Mask R-CNN. In: Proceedings of the IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017. 2980−2988
    [30] Jiang B R, Luo R X, Mao J Y, Xiao T T, Jiang Y N. Acquisition of localization confidence for accurate object detection. In: Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: 2018. 816−832
    [31] Wu Y, Chen Y P, Yuan L, Liu Z C, Wang L J, Li H Z, et al. Rethinking classification and localization for object detection. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE, 2020. 10183− 10192
    [32] Liu Y L, Jin L W. Deep matching prior network: Toward tighter multi-oriented text detection. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE, 2017. 3454−3461
    [33] Dai J F, Qi H Z, Xiong Y W, Li Y, Zhang G D, Hu H, et al. Deformable convolutional networks. In: Proceedings of the IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017. 764−773
  • 期刊类型引用(22)

    1. 李耀龙,陈晓林,林浩,王宇,王春林. DySnake-YOLO:改进的YOLOv9c电路板表面缺陷检测方法. 计算机工程与应用. 2025(03): 242-252 . 百度学术
    2. 雷帮军,朱涵. 基于上下文空间感知的遥感图像旋转目标检测. 电光与控制. 2025(03): 69-75 . 百度学术
    3. 李璇,冯昭明,徐宇航,马雷,程莉. 基于空间匹配校准的预成端盒端口信息自动化识别. 控制与决策. 2025(04): 1367-1376 . 百度学术
    4. 张华卫,张文飞,蒋占军,廉敬,吴佰靖. 引入上下文信息和Attention Gate的GUS-YOLO遥感目标检测算法. 计算机科学与探索. 2024(02): 453-464 . 百度学术
    5. 管文青,周世斌,张国鹏. 混合注意力特征增强的航空图像目标检测. 计算机工程与应用. 2024(04): 249-257 . 百度学术
    6. 禹鑫燚,林密,卢江平,欧林林. 基于向量叉乘标签分配的遥感图像目标检测算法. 高技术通讯. 2024(02): 132-142 . 百度学术
    7. 王志林,于瓅. 基于改进YOLOv5的遥感图像检测. 重庆科技学院学报(自然科学版). 2024(02): 62-67 . 百度学术
    8. 张云佐,郭威,李文博. 遥感图像密集小目标全方位精准检测算法. 吉林大学学报(工学版). 2024(04): 1105-1113 . 百度学术
    9. 陈天鹏,胡建文. 基于改进FCOS的遥感图像舰船目标检测. 计算机科学. 2024(S1): 479-485 . 百度学术
    10. 魏瑶坤,康运江,王丹伟,赵鹏,徐斌. 改进YOLOv5s的旋转框工业零件检测算法. 激光与光电子学进展. 2024(14): 155-164 . 百度学术
    11. 程凯伦,胡晓兵,陈海军,李虎. 基于改进YOLOv5s的遥感图像目标检测方法. 激光与光电子学进展. 2024(18): 285-291 . 百度学术
    12. 焦仕昂,罗亮,杨萌,翟宏睿,刘维勤. 基于改进YOLOv7的光学遥感图像船舶旋转目标检测. 武汉理工大学学报(交通科学与工程版). 2024(05): 903-908 . 百度学术
    13. 董燕,魏铭宏,高广帅,刘洲峰,李春雷. 基于双重标签分配的遥感有向目标检测方法. 计算机科学. 2024(S2): 496-504 . 百度学术
    14. 温桂炜,杨志钢. 面向遥感图像目标检测的特征增强和融合方法. 应用科技. 2024(05): 305-310 . 百度学术
    15. 张娜,包梓群,罗源,吴彪,涂小妹. 改进的Cascade R-CNN算法在目标检测上的应用. 电子学报. 2023(04): 896-906 . 百度学术
    16. 庄文华,唐晓刚,张斌权,原光明. 基于改进YOLOv5的遥感图像旋转框目标检测. 电子设计工程. 2023(14): 137-141+146 . 百度学术
    17. 顾东泽,王敬东,姜宜君,廖元晖. 一种基于CenterNet的多朝向建筑物检测方法. 电子测量技术. 2023(10): 150-154 . 百度学术
    18. 沈中华,陈万委,甘增康. 基于改进YOLOv5的旋转目标检测算法及其应用研究. 包装工程. 2023(19): 229-237 . 百度学术
    19. 刘恩海,许佳音,李妍,樊世燕. 自适应特征细化的遥感图像有向目标检测. 计算机工程与应用. 2023(24): 155-164 . 百度学术
    20. 何林远,白俊强,贺旭,王晨,刘旭伦. 基于稀疏Transformer的遥感旋转目标检测. 激光与光电子学进展. 2022(18): 55-63 . 百度学术
    21. 王宏乐,王兴林,李文波,邹阿配,叶全洲,刘大存. 一种基于解耦旋转锚框匹配策略的谷粒检测方法. 广东农业科学. 2022(12): 143-150 . 百度学术
    22. 安胜彪,娄慧儒,陈书旺,白宇. 基于深度学习的旋转目标检测方法研究进展. 电子测量技术. 2021(21): 168-178 . 百度学术

    其他类型引用(19)

  • 加载中
图(10) / 表(4)
计量
  • 文章访问数:  2004
  • HTML全文浏览量:  261
  • PDF下载量:  317
  • 被引次数: 41
出版历程
  • 收稿日期:  2020-04-29
  • 录用日期:  2020-09-07
  • 网络出版日期:  2023-01-06
  • 刊出日期:  2023-02-20

目录

/

返回文章
返回