A Butterfly Detection Algorithm Based on Transfer Learning and Deformable Convolution Deep Learning
-
摘要: 针对自然生态蝴蝶多种特征检测的实际需求,以及生态环境下蝴蝶检测效率低、精度差问题,本文提出了一种基于迁移学习和可变形卷积深度神经网络的蝴蝶检测算法(Transfer learning and deformable convolution deep learning network,TDDNET).该算法首先使用可变形卷积模型重建ResNet-101卷积层,强化特征提取网络对蝴蝶特征的学习,并以此结合区域建议网络(Region proposal network,RPN)构建二分类蝴蝶检测网络,以下简称DNET-base;然后在DNET-base的模型上,构建RPN网络来指导可变形的敏感位置兴趣区域池化层,以便获得多尺度目标的评分特征图和更准确的位置,再由弱化非极大值抑制(Soft non-maximum suppression,Soft-NMS)精准分类形成TDDNET模型.随后通过模型迁移,将DNET-base训练参数迁移至TDDNET,有效降低数据分布不均造成的训练困难与检测性能差的影响,再由Fine-tuning方式快速训练TDDNET多分类网络,最终实现了对蝴蝶的精确检测.所提算法在854张蝴蝶测试集上对蝴蝶检测结果的mAP0.5为0.9414、mAP0.7为0.9235、检出率DR为0.9082以及分类准确率ACC为0.9370,均高于在同等硬件配置环境下的对比算法.对比实验表明,所提算法对生态照蝴蝶可实现较高精度的检测.Abstract: Aiming at the demand of butterfly multi-features recognition, and the problems of low precision and efficiency of butterfly detection in ecological environment, a butterfly detection with deformable convolution depth neural network based transfer learning is proposed (TDDNET). Firstly, the ResNet-101 convolutional layer is reconstructed by using the deformable convolutional model, which can reinforce the learning of feature extraction network for butterfly features. At the same time, this algorithm is combined with the region proposal network (RPN) to construct a two-classes detection network named DNET-base. Next, on the DNET-base to build TDDNET, the subnetwork RPN is used to guide the deformable sensitive position RoI pooling layer, which can obtain the scores feature map and the multi-scale object location. Then, we use the Soft-nms to obtain better detection results. Finally, the model after DNET-base training is transferred to the TDDNET, and fine-tuning the TDDNET multi-classification parameters. In testing datasets which have 854 images, the butterfly mAP0.5 of the proposed algorithm is 0.9414, mAP0.7 is 0.9235, the detection rate (DR) is 0.9082 and the classification accuracy (ACC) is 0.9370. The experiments demonstrate that the proposed algorithm outperforms the state-of-the-art model in the same hardware environment. The results show that the proposed algorithm can detect butterflies with high accuracy.
-
近年来, 随着遥感技术的发展, 高质量的遥感图像日益增多, 这为遥感领域的应用奠定了基础. 遥感图像广泛应用于灾害监测、资源调查、土地利用评价、农业产值测算、城市建设规划等领域[1], 对于社会和经济发展具有重要的意义. 而目标检测作为遥感图像处理的应用之一, 获得图中特定目标类别和位置. 通常关注飞机、机场、船舶、桥梁和汽车等目标, 因此对于民用和军用领域有着十分重要的用途[2]. 在民用领域中, 船舶的定位有利于海上救援行动, 车辆的定位有利于车辆计数和分析道路的拥堵情况等. 在军事领域中, 这些类别信息的检测获取, 有利于快速且精准地锁定攻击目标位置、分析战争形势以及制定军事行动等. 因此对于遥感图像中的目标进行精准检测至关重要.
目标检测是计算机视觉领域中一个重要且具有挑战性的研究热点. 随着深度学习的快速发展, 目标检测器的性能取得了显著进步, 已经广泛应用于各个行业. 目前常用的目标检测器大致可以分为两级检测器和单级检测器两类[3]. 两级检测器是基于区域卷积神经网络(Regions with convolutional neural network, R-CNN)框架, 检测过程分为两个阶段. 第1阶段从图像中生成一系列候选框区域, 第2阶段从候选框区域中提取特征, 然后使用分类器和回归器进行预测. Faster R-CNN[4]作为两级检测器的经典方法, 提出候选区域生成网络(Region proposal networks, RPN)用于候选框的产生, 从而快速、准确地实现端到端检测. 之后区域全卷积网络(Region-based fully convolutional network, R-FCN)[5]、Cascade R-CNN[6]等两级检测器的出现进一步提高目标检测的精度. 单级检测器将检测问题简化为回归问题, 仅仅由一系列卷积层进行分类回归, 而不需要产生候选框及特征提取阶段. 因此这类方法通常检测速度较快. 例如, Redmon等[7]提出YOLO检测器, 将图像划分为一系列网格区域, 每个网格区域直接回归得到边界框. Liu等[8]提出SSD检测器, 在多个不同尺度大小的特征图上直接分类回归. Lin等[9]提出Focal Loss分类损失函数, 解决单级检测器的类别不平衡问题, 进一步提高检测精度. 这些先进的目标检测技术往往用于水平边界框的生成, 然而在遥感图像中, 大多数检测目标呈现出任意方向排列, 对于横纵比大或者密集排列的目标, 仅仅采用水平框检测将包含过多的冗余信息, 影响检测效果. 因此旋转方向成为不可忽视的因素.
早期应用于遥感领域的旋转框检测算法主要来源于文本检测, 例如R2CNN[10]和RPN[11]等. 然而由于遥感图像背景复杂且空间分辨率变化较大, 相比于二分类的文本检测具有更大困难, 因此这些优秀的文本检测算法直接应用于遥感领域中并不能取得较好的检测效果. 近年来, 随着目标检测算法的发展以及针对遥感图像的深入研究, 涌现出许多性能良好的旋转框检测算法. 例如Ding等[12]提出旋转感兴趣区域学习器(Region of interest transformer, RoI), 将水平框转换为旋转框, 并在学习器中执行边界框的回归; Zhang等[13]提出通过捕获全局场景和局部特征的相关性增强特征; Azimi等[14]提出基于多尺度卷积核的图像级联方法; Yang等[15]提出像素注意力机制抑制图像噪声, 突出目标的特征, 并且在SmoothL1损失[4]中引入IoU常数因子解决旋转框的边界问题, 使旋转框预测更加精确. Yang等[16]设计精细调整模块, 采用特征调整模块, 通过插值操作实现特征对齐. Xu等[17]提出回归4种长度比来表示对应边的相对偏移距离, 并且引入了一个真实框与其水平边界框面积比作为倾斜因子, 用于对每个目标水平或旋转检测的选择. Wei等[18]提出利用预测内部中线实现旋转目标检测的方法. Li等[19]提出利用预测的掩模获取旋转框的方法. Wang等[20]提出了一种基于初始横向连接的特征金字塔网络(Feature pyramid networks, FPN)增强算法, 同时利用语义注意力机制网络提供语义特征, 从复杂的背景中提取目标.
因此, 目前在遥感图像中用于旋转框检测的方法大致可以分为两种. 其中一种算法整体结构仍然为水平框检测, 仅仅在回归预测分支中增加一些变量的获取, 例如角度因子等. 这种算法使得在网络预测的像素中包含较多背景信息, 容易出现图1所示的角度偏移以及漏检较多等问题. 另一种算法预设含有角度的锚点框, 然后采用旋转候选框内的像素进行预测. 由于目标的旋转角度较多, 因此这种算法需要预设大量的锚点框以保证召回率, 这样会极大地增加计算量.
针对上述不足, 本文结合这两种处理方法的优势, 以Faster R-CNN[21]为基础, 提出一种用于旋转框检测的网络R2-FRCNN (Refined rotated faster R-CNN). 该网络依次采用上述两种旋转框处理方法, 将前一种方法得到旋转框的过程视为粗调, 这个阶段产生的旋转框作为后一种方法的预设框, 然后对于旋转框再次进行调整, 这个过程称为细调. 两阶段调整使得网络输出更加精确的预测框. 此外, 针对遥感图像存在较多小目标的特点, 本文提出像素重组特征金字塔结构(Pixel-recombination feature pyramid network, PFPN), 相比于传统的金字塔网络, 本文的金字塔结构使得特征局部信息与全局信息相结合, 从而突出复杂背景下小目标的特征响应. 同时为了更好地提取表征目标信息的特征, 用于后续预测阶段, 本文在粗调阶段设计积分感兴趣区域池化方法(Integrate region of interest pool, IRoIPool), 以及在精调阶段设计旋转感兴趣区域池化方法(Rotated region of interest pool, RRoIPool), 提升复杂背景下小目标的检测精度. 最后, 本文在粗调和细调阶段均采用全连接层与卷积层结合的预测分支以及SmoothLn回归损失函数, 进一步提升算法性能.
本文结构安排如下: 第1节详细阐述本文提出的旋转框检测网络R2-FRCNN; 第2节通过与官方基准方法和现有方法的实验结果进行对比, 以及本文方法各模块的分离实验, 评估本文方法的性能; 第3节总结.
1. 旋转框目标检测方法
本节对提出的网络R2-FRCNN结构以及各模块进行阐述. 首先介绍R2-FRCNN网络的整体结构, 然后详细介绍各个模块(像素重组金字塔结构、感兴趣区域特征提取和网络预测分支结构), 最后介绍本文使用的损失函数.
1.1 网络结构设计
图2展示了R2-FRCNN网络的整体结构, 可以分为基础网络、像素重组金字塔、候选区域生成网络RPN、粗略调整阶段和精细调整阶段5个部分.
本文采用ResNet[22]作为算法的基础网络, 将C3、C4、C5和C6特征层用于构建特征金字塔结构, 增强网络对于小目标的检测能力. 由金字塔产生的P3、P4、P5、P6和P7 5个特征层上, 每个像素点预设3个锚点框, 锚点框的长宽比为{1:1, 1:2, 2:1}, 尺寸大小为8, 经由RPN[4]调整锚点框的位置生成一系列候选框. 然后选择置信度较高的2000个候选框用于粗略调整阶段, 该模块的回归过程将水平框调整为旋转框. 最后这些候选框进入精细调整阶段, 再次调整旋转框的位置, 得到更好的检测效果. 经过两阶段调整后的框, 选择后一阶段中最大分类数值作为置信度, 同时采用旋转非极大抑制算法处理, 选取邻域内置信度较高的框, 并且抑制低置信度的框, 这些高置信度的候选框即为网络输出预测框.
1.2 像素重组金字塔结构
特征金字塔结构[23]被广泛应用于许多先进的目标检测算法中, 这个结构的设计在于浅层的定位信息准确, 深层的语义信息丰富, 通过融合深浅层特征图, 提升对于小目标的检测性能. 如表1所示, RoI-Transformer (RT)[12]、CADNet[13]、SCRDet[15]、R3Det[16]和GV R-CNN (GV)[17]均采用了深浅层融合特征, 表现出优异的检测性能, 而R2CNN[10]未使用特征融合, 取得的检测结果远低于其他方法. 图3为本文设计的像素重组金字塔结构. 该结构分为2个阶段: 第1阶段为
$ {C}_{i} $ →$ {M}_{i} $ , 采用尺度转化的方式, 利用局部特征信息的同时, 融合上下层构建金字塔结构; 第2阶段为$ {M}_{i} $ →$ {P}_{i} $ , 采用非局部注意力[24]模块, 利用全局信息, 突出目标区域的特征.表 1 不同方法在DOTA数据集的检测精度对比(%)Table 1 Comparison of detection accuracy of different methods in DOTA (%)类别 R2CNN[10] RT[12] CADNet[13] SCRDet[15] R3Det[16] GV[17] 本文方法 飞机 80.94 88.64 87.80 89.98 89.24 89.64 89.10 棒球场 65.67 78.52 82.40 80.65 80.81 85.00 81.22 桥梁 35.34 43.44 49.40 52.09 51.11 52.26 54.47 田径场 67.44 75.92 73.50 68.36 65.62 77.34 72.97 小型车辆 59.92 68.81 71.10 68.36 70.67 73.01 79.99 大型车辆 50.91 73.68 64.50 60.32 76.03 73.14 82.28 船舶 55.81 83.59 76.60 72.41 78.32 86.82 87.64 网球场 90.67 90.74 90.90 90.85 90.83 90.74 90.54 篮球场 66.92 77.27 79.20 87.94 84.89 79.02 87.31 储油罐 72.39 81.46 73.30 86.86 84.42 86.81 86.33 足球场 55.06 58.39 48.40 65.02 65.10 59.55 54.20 环形车道 52.23 53.54 60.90 66.68 57.18 70.91 68.18 港口 55.14 62.83 62.00 66.25 68.10 72.94 76.12 游泳池 53.35 58.93 67.00 68.24 68.98 70.86 70.83 直升机 48.22 47.67 62.20 65.21 60.88 57.32 59.19 平均准确率 60.67 69.56 69.90 72.61 72.81 75.02 76.02 在第1阶段中, 特征上采样对于金字塔结构是一个关键的操作. 最常用的特征上采样方式为插值和转置卷积[25]. 插值法仅考虑相邻像素, 无法获取密集预测任务所需的丰富语义信息. 转置卷积作为卷积的逆运算, 将其作为上采样方式存在2点不足[26]: 1)对于整个特征图都采用同样的卷积核, 而不考虑特征图中的目标信息, 限制了上采样过程对于局部变化的响应; 2)若采用较大的卷积核将会增加大量参数. 本文引入尺度转换作为特征上采样方法. 深浅层特征融合的操作过程如图4所示. 该方法首先利用“通道转化”方法[27]压缩通道数(本文压缩系数
$r=0.5$ ), 增大特征图尺寸, 即:$${I_{H,W,C}} = {I_{\left\lfloor {H/r} \right\rfloor ,\left\lfloor {W/r} \right\rfloor ,C \cdot {r^2} + r \cdot {\rm{mod}}\left( {W,r} \right) + {\rm{mod}}\left( {H,r} \right)}}$$ (1) 然后, 采用
$1 \times 1 $ 的卷积层用于调整通道数, 再由Softmax函数[28]作用于每一通道的特征层. 最后采用式(2)进行加权求和, 使得特征融合过程更好地利用局部信息.$$ \left\{\begin{aligned} &{y}_{m,n,c}=\displaystyle\sum\limits_{i=-2}^{2}\displaystyle\sum\limits_{j=-2}^{2}{x}_{m+i,n+j,c}\cdot {w}_{m,n,k} \\ &k=\left(i+2\right)\times 5+j+2 \end{aligned}\right. $$ (2) 式中,
$m、n$ 分别表示像素的横、纵位置,$ c $ 表示$ C $ 特征层当前通道,$ k $ 表示$ M $ 特征层当前通道.第2阶段采用非局部注意力模块, 利用特征图中目标与全局特征的关系, 突出目标区域的响应.
根据非局部注意力模块的定义, 假设
$ C $ 为通道数,$ s $ 为尺度大小,${{G}}$ 为特征图尺度的乘积即$s\times s,x$ 为输入特征图,$ q\left(x\right) $ 、$ k\left(x\right) $ 和$ v\left(x\right) $ 定义为采用不同线性转换的结果:$$ q\left({x}^{s}\right)={{W}_{q}^{s}}^{\rm T}{x}^{s} $$ (3) $$ k\left({x}^{s}\right)={{W}_{k}^{s}}^{\rm T}{x}^{s} $$ (4) $$ v\left({x}^{s}\right)={{W}_{v}^{s}}^{\rm T}{x}^{s} $$ (5) 式中, 系数矩阵
${{W}}_{{q}}^{{s}},\;{{W}}_{{k}}^{{s}}\in { \bf{R}}^{{{C}}\times {{C}}/8},\;{{W}}_{{v}}^{{s}}\in {\bf{R}}^{{{C}}\times {{C}}}$ .${{q}}\left({{x}}^{{s}}\right)$ 与${{k}}\left({{x}}^{{s}}\right)$ 矩阵相乘, 得二维矩阵${{o}}^{{s}}\in {\bf{R}}^{{{G}}\times {{G}}}$ ; 再运用Softmax将矩阵的每一行转换为概率值, 最后与${{v}}\left({{x}}^{{s}}\right)$ 矩阵相乘后再与输入相加, 得输出量${{{x}}^{{s}}}'$ :$$ {{x}^{s}}'={x}^{s}+{\left({o}^{s}v^{\rm{T}}{\left({x}^{s}\right)}\right)}^{\rm T} $$ (6) 在本文的特征金字塔结构中, 第1阶段输出的
$ {M}_{3} $ 和$ {M}_{4} $ 由于尺度较大, 直接用于非局部注意力模块计算量较大. 因此为了保留这两层的语义信息, 同时再次融合不同层的特征, 该结构将$ {M}_{3} $ 和$ {M}_{4} $ 池化为$ {M}_{5} $ 的尺寸大小, 然后计算这3层的均值输入非局部注意力模块, 再由插值操作输出对应相等尺寸的特征图.$ {M}_{6} $ 和$ {M}_{7} $ 的特征图直接应用非局部注意力模块得到$ {P}_{6} $ 和$ {P}_{7} $ 层.1.3 感兴趣区域特征提取模块
感兴趣区域特征提取模块主要用于固定输出尺寸大小, 提取表征框内区域的特征, 便于后续的网络预测. 本文的RoI特征提取模块主要分为粗调阶段的水平框和细调阶段的旋转框RoI特征提取两部分.
自然场景图像中的目标通常是固定方向呈现, 因此两阶段式目标检测算法采用水平框的RoI特征提取. 目前, 应用较为广泛的RoI特征提取是RoIPooling[4]和RoI Align[29]. 图5(a)为RoI池化原理图, 选择量化后块中最大像素值作为池化后的结果. 然而量化的结果会导致提取的小目标像素存在偏差, 影响检测效果. 图5(b)为RoI对齐原理图, 取消量化操作, 采用双线性插值在块中计算出N个浮点坐标的像素值, 均值作为块的结果. 然而这个操作存在两点不足: 采样点数量需要预先设置, 不同大小候选框设置了相同数量的采样点.
因此, 本文采用精确RoI (Precise RoI, Pr-RoI)池化方法[30]的特征提取操作, 如图6所示, 由插值操作将块内特征视为一个连续的过程, 采用积分方法获得整个块的像素和, 其均值作为块的结果, 即:
$$ {\rm{IRoIPool}}\left(bin,{\cal{F}}\right)=\dfrac{{\int }_{{y}_{1}}^{{y}_{2}}{\int }_{{x}_{1}}^{{x}_{2}}f\left(x,y\right){\rm d}x{\rm d}y}{\left({x}_{2}-{x}_{1}\right)\times \left({y}_{2}-{y}_{1}\right)} $$ (7) 式中,
$ f(x,y) $ 为采用面积插值法[15]所得的像素值.旋转框RoI特征提取直接采用积分操作较为复杂, 因此本文将积分操作视为块内一定数量的像素之和, 从而得到块的均值, 即:
$$ {\rm{RRoIPool}}\left(bin,{\cal{F}}\right)=\frac{\displaystyle\sum\limits _{y={y}_{1}}^{{y}_{2}}\displaystyle\sum\limits _{x={x}_{1}}^{{x}_{2}}f\left(x,y\right)}{{N}_{x}\times {N}_{y}} $$ (8) $$ {N_x} = \left\lfloor {\dfrac{{{x_2} - {x_1}}}{{{l_x}}}} \right\rfloor + 1,{N_y} = \left\lfloor {\dfrac{{{y_2} - {y_1}}}{{{l_y}}}} \right\rfloor + 1 $$ (9) 式中,
$ ({x}_{1},{y}_{1}) $ 和$ ({x}_{2},{y}_{2}) $ 分别为旋转框在水平位置处的左上角和右下角点,$ {l}_{x} $ 和$ {l}_{y} $ 分别为水平方向和垂直方向的采样距离, 如图7所示.根据候选框的大小决定采样点的数量. 然而采样距离太小会导致计算量大幅增加, 因此为平衡检测效率与精度, 本文将采样距离
$ {l}_{x} $ 和$ {l}_{y} $ 设置为0.4.旋转框在水平位置处采样点的坐标为
$ ({x}_{h},{y}_{h}) $ , 旋转框$ w $ 所对应的边与横轴正方向的夹角为$ \theta $ , 旋转框的中心点为$ ({c}_{x},{c}_{y}) $ , 由式(10)转化为旋转框中的坐标$ (x,y) $ , 再由面积插值法得到该位置的像素值.$$ \left[ \begin{array}{c}x\\ y\end{array} \right] = \left[ \begin{array}{ccc}{\rm cos}\theta & - {\rm sin}\theta & \left(1 - {\rm cos}\theta \right) \cdot {c}_{x} + {\rm sin}\theta \cdot {c}_{y}\\ {\rm sin}\theta & {\rm cos}\theta & - {\rm sin}\theta \cdot {c}_{x} + \left(1 - {\rm cos}\theta \right) \cdot {c}_{y} \end{array} \right]\left[ \begin{array}{c}{x}_{h}\\ {y}_{h}\\ 1\end{array} \right] $$ (10) 本文方法与R3Det类似, 都使用了精细调整旋转框的定位. 然而R3Det每一次调整的预测分支直接采用卷积层操作, 但是卷积操作为水平滑动, 用于旋转框回归将会包含一些背景像素干扰预测结果, 而本文方法采用旋转框感兴趣区域提取框内的特征信息用于预测, 更加有利于检测性能的提升.
1.4 预测分支结构
目标检测算法分为定位和分类两个任务. 一般而言, 两级检测器的预测分支采用全连接层, 而单级检测器的预测分支采用卷积层. Wu等[31]发现这两个任务适合于不同的预测分支结构, 全连接层更适合用于分类任务, 卷积层更适合用于回归任务. 因此, 本文采用图8所示的预测分支结构.
在本文采用的预测分支中, 分类结构保持不变, 仍然采用全连接层. 而回归分支采用一系列ResNet网络中的ResBlock结构(本文使用2个).
1.5 网络训练损失函数
本文提出网络的损失函数包含RPN阶段
${L}_{{\rm{RPN}}}$ 、粗略调整阶段$ {L}_{ro} $ 和精细调整阶段$ {L}_{re} $ , 即:$$ L={L}_{{\rm{RPN}}}+{L}_{ro}+{L}_{re} $$ (11) 每一阶段的损失函数都包含分类损失和回归损失. 分类损失采用交叉熵损失函数[4]. 回归损失采用SmoothLn损失函数[32], 如式(12)所示, 相比于SmoothL1损失函数[4], 该损失函数的一阶导数是连续存在的, 具有良好的光滑性.
$$ S{L}_{n}\left(x\right)=\left(\left|x\right|+1\right){\rm ln}\left(\left|x\right|+1\right)-\left|x\right| $$ (12) $$ \dfrac{\partial S{L}_{n}\left(x\right)}{\partial x}={\rm sign}\left(x\right)\cdot{\rm ln}\left({\rm sign}\left( {x} \right)\cdot{ x+1}\right) $$ (13) 此外, 式(11)中RPN阶段为水平框的回归, 因此使用
$x、y、w、h$ 4个值代表水平框. 粗调阶段和细调阶段为旋转框的回归, 使用$x、y、 w、 h、\theta$ 5个值代表旋转框, 因此旋转框的回归转换值定义为:$$ \left[\begin{array}{c}{t}_{x}\\ {t}_{y}\end{array}\right] = \left[\begin{array}{cc}{\rm cos}\theta & {\rm sin}\theta \\ -{\rm sin}\theta & {\rm cos}\theta \end{array}\right]\left[\begin{array}{c}{x}_{t}-{x}_{a}\\ {y}_{t}-{y}_{a}\end{array}\right]\left[\begin{array}{cc}\dfrac{1}{{w}_{a}}& 0\\ 0& \dfrac{1}{{h}_{a}}\end{array}\right] $$ (14) $$ {t}_{w}=\log_2\left(\frac{{w}_{t}}{{w}_{a}}\right),\;\;\;{t}_{h}=\log_2\left(\frac{{h}_{t}}{{h}_{a}}\right) $$ (15) $$ {t}_{\theta }=\left({\theta }_{t}-{\theta }_{a}\right){\rm{mod}}\;2\pi $$ (16) 式中,
$x、y、w、h、\theta$ 分别为旋转框中心点的横、纵坐标, 框的宽度、高度和旋转角度.${x}_{t}、{x}_{a}$ 分别表示真实框和候选框的值.2. 实验结果与分析
本文实验设备使用英特尔E5-2683 CPU, 英伟达GTX 1080Ti显卡, 64 GB内存的服务器, 实验环境为Ubuntu 16.04.4操作系统、Cuda9.0、Cudnn7.4.2、Pytorch1.1.0、Python3.7.
本文实验中采用3个GPU进行训练, 批处理大小为3 (GPU显存限制), 输入图像统一为1024
$\times$ 1024分辨率. 训练的迭代次数为15轮, 同时使用衰减系数为0.0001、动量为0.9的随机梯度下降作为优化器, 初始的学习率设置为0.01, 分别在第8、第11轮和第14轮将学习率降低10倍. 图9是在DOTA 数据集上训练过程的损失下降曲线图(一轮训练有4500次迭代), 在第8轮(36000次迭代)出现明显的损失下降.2.1 实验数据集
本文使用DOTA[21]用于算法的评估. DOTA是由旋转框标注的大型公开数据集, 主要用于遥感图像目标检测任务. 该数据集包含由各个不同传感器和平台采集的2806张图像, 图像的大小范围从800 × 800像素到4000 × 4000像素, 含有各种尺度、方向和形状. 专家选择15种常见类别对这些图像进行标注, 总共标注188282个目标对象, 包括飞机、棒球场、桥梁、田径场、小型车辆、大型车辆、船舶、网球场、篮球场、储油罐、足球场、环形车道、港口、游泳池和直升机. 另外该数据集选取一半的图像作为训练集, 1/6作为验证集, 1/3作为测试集, 其中测试集的标注不公开. 为降低高分辨率图像由于压缩对于小目标的影响, 本文将所有图像统一裁剪为1024 × 1024的子图像, 重叠为200像素.
2.2 检测结果对比
本文方法采用ResNet50与可变形卷积[33]相结合作为基础网络进行本节实验. 为了评估本文方法的性能, 实验数据均采用官方提供的训练集和测试集. 实验结果通过提交到DOTA评估服务器上获得, 本文方法的评估结果平均准确率为0.7602, 超过目前官方提供的基准方法[21].
除了与官方基准方法进行对比, 本节实验还与R2CNN[10]、RoI-Transformer[12]、CADNet[13]、SCRDet[15]、R3Det[16]和GV R-CNN[17]进行对比分析, 各方法的检测结果如表1所示.
由表1中的检测结果可以看出, 本文方法的检测结果优于其他方法, 达到76.02%的平均准确率. 其中桥梁、小型车辆、大型车辆、船舶和港口这些类别取得最高检测精度. 由图10可以看出, 这些类别的目标在遥感数据集中尺寸较小, 并且往往呈现出密集排列, 因此说明本文方法对于在这类场景的检测更具有优势. 此外, 飞机、网球场、篮球场、储水池、游泳池等类别在遥感数据集中尺寸较大, 对于这些目标本文方法仍取得与其他方法中最高检测精度相差不大的结果. 这些检测结果说明本文方法能够有效地用于检测遥感图像中的目标.
2.3 分离实验
1)各模块对于检测精度的影响
为验证本文方法各模块的有效性, 本节进行了一系列对比实验. 表2展示了网络在DOTA 数据集上不同模块设置的检测结果. 其中“√”表示采用该项设置, ConvFc表示采用第1.4节设计的预测分支结构. 对比实验分析如下:
表 2 R2-FRCNN模块分离检测结果Table 2 R2-FRCNN module separates detection results模块 R2-FRCNN 基准设置 √ √ √ √ √ √ √ 精细调整 √ √ √ √ √ √ IRoIPool √ √ √ √ √ RRoIPool √ √ √ √ PFPN √ √ √ SmoothLn √ √ ConvFc √ 平均准确率 (%) 69.52 73.62 73.99 74.31 74.97 75.13 75.96 a)基准设置. 本节实验将扩展后的Faster R-CNN OBB[21]用于旋转框检测任务. 其中, 基础网络采用ResNet50[22], 并且采用特征金字塔[23], RoI特征提取采用RoI Align[29], 回归分支采用Smoo-thL1损失函数[4]. 为了保证实验的公平性和准确性, 后续实验参数设置都是严格一致.
b)精细调整. 在实验的精细调整阶段, 初始候选区域特征提取选择Rotated RoI Align (RRoI Align)方法, 该方法为RoI Align[29]在旋转框中的应用. 由表2的结果显示, 精细调整阶段的添加, 使得检测效果得到大幅提升, 评估指标平均准确率增加4.10%. 说明提取旋转候选框内像素进一步调整是有必要的, 这个阶段避免了水平框特征提取包含过多背景像素的问题, 从而提升对较大横纵比目标的检测效果. 然而在实验中发现, 在精细调整结构中多次调整提升效果并不明显, 从一次调整增加为两次调整, 平均准确率为73.68%, 仅仅增加0.06%, 因此为了减少参数量, 本文后续实验的精细调整阶段采用一次调整过程.
c) RoI特征提取. 实验中, 将第1.3节提出的IRoIPool和RRoIPool用于替换初始两阶段调整模块的RoI Align和RRoI Align. 由表2的实验结果显示, 相比于初始RoI特征提取方法, IRoIPool方法使得检测精度平均准确率提升0.37%, RRoIPool方法使得检测精度平均准确率进一步提升0.32%, 说明本文设计的RoI特征提取更为有效. 本文后续将对这两个特征提取方法的结构做进一步研究.
d) PFPN结构. 为了更好地验证PFPN的作用, 本文对此设计了两组实验. 第1组, 金字塔结构的深浅层不进行尺寸转化和非局部注意力模块, 仅仅采用
$ 1\times 1 $ 的卷积将特征层的通道数转化为256, 网络的其他结构和训练超参数保持一致, 平均准确率仅为64.55%, 由于DOTA数据集中小目标较多, 因此说明PFPN金字塔结构对于小目标的检测效果显著. 第2组实验的结果见表2, 相比于FPN, PFPN使得平均准确率提升0.66%, 说明本文提出的PFPN结构对于遥感目标的检测更为有效.e)网络预测分支. 本节针对预测分支进行两部分的实验, 即回归损失函数和预测分支结构. 由表2可以看出, 相比于SmoothL1, 回归损失函数采用SmoothLn, 使得检测精度平均准确率提升0.16%. 此外, 采用第1.4节所设计的预测分支结构, 分类过程采用全连接层, 回归过程采用卷积层, 仅增加2个ResBlock模块, 使得平均准确率提升0.83%. 由此说明回归过程采用SmoothLn函数和卷积层更加适合旋转框目标检测.
2)感兴趣区域特征提取模块研究
本节研究不同RoI特征提取结构对于检测精度的影响, 实验分为水平候选框特征提取方法和旋转候选框特征提取方法两部分. 实验结果分别见表3和表4所示.
表 3 不同水平框特征提取方法的实验结果Table 3 Experimental results of feature extraction methods of different horizontal boxes模块 平均准确率 + 精细调整 方法 RoIPooling RoI Align IRoIPool 平均准确率 (%) 71.21 73.62 73.99 表 4 不同旋转框特征提取方法的实验结果Table 4 Experimental results of different featureextraction methods of rotated boxes模块 平均准确率 + 精细调整 + IRoIPool 方法 RRoI A-Pooling RRoI Align RRoIPool 平均准确率 (%) 73.38 73.99 74.31 表3的实验结果显示, 采用RoIPooling方式的检测精度相对较低, 其量化操作降低了对于小目标的检测效果. 而RoI Align方式取消量化操作, 采用插值方式使得平均准确率提升2.41%, 说明提取连续的特征有利于目标检测. 本文方法在面积插值法的基础上引入积分操作, 平均准确率提升0.37%. 相比于前一种方式选取固定数量的像素点, 本文采用的积分操作类似于选取较多点, 可以提取更多特征, 有利于检测效果的提升.
表4为采用不同旋转框特征提取方法的检测结果. 第1种方法旋转感兴趣区域平均池化方法(Rotated region of interest average pooling, RRoI A-Pooling)选取旋转框内的像素点, 像素均值作为提取的特征. 第2种方法采用类似RoI Align的方式在旋转框内选择浮点数坐标, 运用双线性插值获得对应的像素值, 平均准确率提升0.61%. 本文采用方法RRoIPool可以根据旋转框大小选择不同数量的像素点表示特征. 相比于第2种方式提升0.32%, 说明本文采用的旋转框特征提取方式更适合于精细调整模块.
3. 结束语
基于深度学习的目标检测算法在自然场景图像中取得了很大进展. 然而遥感图像存在背景复杂、小目标较多、排列方向任意等难点, 常见的目标检测算法并不满足这类场景的应用需求. 因此本文提出一种粗调与细调两阶段结合的旋转框检测网络R2-FRCNN用于遥感图像检测任务. 并且设计像素重组金字塔结构, 提高复杂背景下小目标的检测性能. 同时在粗调阶段设计一种水平框特征提取方法IRoIPool, 细调阶段设计旋转框特征提取方法RRoIPool. 此外, 本文还采用SmoothLn回归损失函数, 以及全连接层和卷积层结合的预测分支, 进一步提升检测精度. 实验结果表明本文方法在大型公共数据集DOTA上获得了较好的检测效果. 然而本文方法存在检测速度较慢、GPU资源消耗较大等缺点, 因此在后续的工作中也将针对网络的轻量化展开进一步研究.
-
表 1 针对所提算法网络结构自身差异对比
Table 1 Contrast the differences of the network structure of the proposed algorithm
网络结构差异 mAP0.5 mAP0.7 DR ACC TDDNET (Soft-NMS) 0.9415 0.9235 0.9082 0.9370 TDDNET (NMS) 0.9358 0.9208 0.9004 0.9274 DDNET (NMS, 无迁移) 0.9137 0.9009 0.8503 0.9180 TDDNET(无可变形卷积) 0.8827 0.8506 0.8532 0.8728 表 2 针对所提算法中在不同层使用可变形卷积模型的差异
Table 2 Aiming at the difference of using deformable convolution network in different layers of the proposed algorithm
可变形卷积网络层 mAP0.5 mAP0.7 DR ACC TDDNET完整框架 0.9415 0.9235 0.9082 0.9370 TDDNET框架(除Res2c) 0.9402 0.9174 0.9004 0.9304 Res5 $(a, b, c)+$ PS RoI 0.9258 0.9076 0.8939 0.9186 PS RoI 0.9106 0.8902 0.8899 0.8960 Res5 $(a, b, c)$ 0.8802 0.8609 0.8693 0.8901 表 3 所提算法与其他目标检测算法的实验结果
Table 3 Experimental results of the proposed algorithm and other target detection algorithms
对比算法 mAP0.5 mAP0.7 DR ACC Faster R-CNN [12] 0.7879 0.7418 0.8308 0.7845 Faster R-CNN* 0.8207 0.7932 0.8554 0.8144 R-FCN [22] 0.8650 0.8405 0.8650 0.8911 R-FCN* 0.8957 0.8594 0.8747 0.9087 FPN [24] 0.8926 0.8644 0.8994 0.9057 FPN* 0.9288 0.9261 0.8982 0.9206 SSD [25] 0.7794 0.7013 0.8648 0.7564 YOLO-v3 [17] (ResNet50) 0.7787 0.7785 0.8751 0.7956 YOLO-v3 [17] (DarkNet) 0.7889 0.7822 0.8746 0.8050 TDDNET 0.9415 0.9235 0.9082 0.9370 -
[1] 寿建新, 周尧, 李宇飞.世界蝴蝶分类名录.陕西:陕西科学技术出版社, 2006Shou Jian-Xin, Zhou Yao, Li Yu-Fei. Systematic butterffly names of the world. Shaanxi:Shaanxi Science and Technology Press, 2006 [2] 马方舟, 徐海根, 陈萌萌.全国蝴蝶多样性观测网络(China BON-Butterflies)建设进展.生态与农村环境学报, 2018, 34(1):27-36 http://d.old.wanfangdata.com.cn/Periodical/ncsthj201801004Ma Fang-Zhou, Xu Hai-Geng, Chen Meng-Meng. Progress in construction of china butterfly diversity observation network (China BON-Butterflies). Journal of Ecology and Rural Environment, 2018, 34(1):27-36 http://d.old.wanfangdata.com.cn/Periodical/ncsthj201801004 [3] Kang S H, Cho J H, Lee S H. Identification of butterfly based on their shapes when viewed from different angles using an artificial neural network. Journal of Asia-Pacific Entomology, 2014, 17(2):143-149 doi: 10.1016/j.aspen.2013.12.004 [4] Kaya Y, Kayci L, Uyar M. Automatic identification of butterfly species based on local binary patterns and artificial neural network. Applied Soft Computing, 2015, 28:132-137 doi: 10.1016/j.asoc.2014.11.046 [5] 李凡.基于数字图像的蝴蝶种类自动识别研究[硕士学位论文], 北京林业大学, 中国, 2015Li Fan. The research on automatic identification of butterfly species based on the digital image[Master dithesis], Beijing Forestry University, China, 2015 [6] 孙晓, 潘汀, 任福继.基于ROI-KNN卷积神经网络的面部表情识别.自动化学报, 2016, 42(6):883-891 http://www.aas.net.cn/CN/abstract/abstract18879.shtmlSun Xiao, Pan Ting, Ren Fu-Ji. Facial expression recognition using ROI-KNN deep convolutional neural networks. Acta Automatica Sinica, 2016, 42(6):883-891 http://www.aas.net.cn/CN/abstract/abstract18879.shtml [7] 张慧, 王坤峰, 王飞跃.深度学习在目标视觉检测中的应用进展与展望.自动化学报, 2017, 43(8):1289-1305 http://www.aas.net.cn/CN/abstract/abstract19104.shtmlZhang Hui, Wang Kun-Feng, Wang Fei-Yue. Advances and perspectives on applications of deep learning in visual object detection. Acta Automatica Sinica, 2017, 43(8):1289-1305 http://www.aas.net.cn/CN/abstract/abstract19104.shtml [8] 常亮, 邓小明, 周明全, 武仲科, 袁野, 等.图像理解中的卷积神经网络.自动化学报, 2016, 42(9):1300-1312 http://www.aas.net.cn/CN/abstract/abstract18919.shtmlChang Liang, Deng Xiao-Ming, Zhou Ming-Quan Wu Zhong-Ke, Yuan Ye, et al. Convolutional neural networks in image understanding. Acta Automatica Sinica, 2016, 42(9):1300-1312 http://www.aas.net.cn/CN/abstract/abstract18919.shtml [9] Liu Z Y, Gao J F, Yang G G. Localization and classification of paddy field pests using a saliency map and deep convolutional neural network. Scientific Reports, 2016, 6:204-210 [10] 周爱明, 马鹏鹏, 席天宇, 王江宁, 冯晋, 邵泽中, 等.基于深度学习的蝴蝶科级标本图像自动识别.昆虫学报, 2017, 60(11):1339-1348 http://d.old.wanfangdata.com.cn/Periodical/kcxb201711012Zhou Ai-Ming, Ma Peng-Peng, Xi Tian-Yu, Wang Jiang-Ning, Feng Jin, Shao Ze-Zhong, et al. Automatic identification of butterfly specimen images at the family level based on deep learning method. Acta Entomologica Sinica, 2017, 60(11):1339-1348 http://d.old.wanfangdata.com.cn/Periodical/kcxb201711012 [11] 谢娟英, 侯琦, 史颖欢, 吕鹏, 景丽萍, 庄福振, 等.蝴蝶种类自动识别研究.计算机研究与发展, 2018, 55(8):1609-1618 http://d.old.wanfangdata.com.cn/Periodical/jsjyjyfz201808002Xie Juan-Ying, Hou Qi, Shi Ying-Huan, Lv Peng, Jing Li-Ping, Zhuan Fu-Zhen, et al. The automatic identification of butterfly species. Journal of Computer Research and Development, 2018, 55(8):1609-1618 http://d.old.wanfangdata.com.cn/Periodical/jsjyjyfz201808002 [12] Ren S Q, He Kai-Ming, Gitshick R. Faster R-CNN:Towards real-time object detection with region proposal networks. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6):1137-1149 [13] Zeiler M D, Fergus R. Visualizing and understanding convolutional networks. In: Proceedings of the 13th European Conference on Computer Vision, Zurich, Switzerland: Springer Verlag, 2014. 818-833 [14] Chatfield, Ken. Return of the devil in the details: Delving deep into convolutional nets. arXiv preprint, arXiv: 1405.3531, 2014 [15] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition. arXiv preprint, arXiv: 1409.1556, 2015 [16] Redmon J, Farhadi A. YOLO9000: better, faster, stronger. In: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, Hawaii, USA: IEEE, 2017. 6517-6525 [17] Redmon J, Farhadi A. YOLO-v3: An incremental improvement. arXiv preprint, arXiv: 1804.02767, 2018 [18] He Kai-Ming, Zhang Xiang-Yu, Ren Shao-Ping. Deep residual learning for image recognition. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, Nevada, USA: IEEE, 2016. 770-778 [19] Bodla N, Singh B, Chellappa R. Soft-NMS: Improving object detection with one line of code. In: Proceedings of the 2017 IEEE International Conference on Computer Vision, Venice, Italy: IEEE, 2017. 5562-5570 [20] Dai J F, Qi H Z, Xiong Y W. Deformable convolutional networks. In: Proceedings of the 2017 IEEE International Conference on Computer Vision, Venice, Italy: IEEE, 2017. 764-773 [21] Jadergarg M, Simonyan K, Zisserman A. Spatial transformer networks. In: Proceedings of the 30th Annual Conference on Neural Information Processing Systems, Barcelona, Spain: Curran Associates, Inc. 2016. 2017-2025 [22] Dai J F, Li Y, He K M. R-FCN: Object detection via region-based fully convolutional networks. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016. 379-387 [23] Shrivastava A, Gupta A, Girshick R. Training region-based object detectors with online hard example mining. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, Nevada, USA: IEEE, 2016. 761-769 [24] Lin T Y, Dollar P, Girshick R B. Feature pyramid networks for object detection. In: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, Hawaii, USA: IEEE, 2017. 936-944 [25] Liu W, Anguelov D, Erhan D. SSD: Single shot multibox detector. In: Proceedings of the 13th European conference on computer vision, Amsterdam, the Netherlands: Springer Verlag, 2016. 21-37 [26] 刘丽, 赵凌君, 郭承玉, 王亮, 汤俊.图像纹理分类方法研究进展和展望.自动化学报, 2018, 44(4):584-607 http://www.aas.net.cn/CN/abstract/abstract19252.shtmlLiu Li, Zhao Ling-Jun, Guo Cheng-Yu, Wang Liang, Tang Jun. Texture classification:state-of-the-art methods and prospects. Acta Automatica Sinica, 2018, 44(4):584-607 http://www.aas.net.cn/CN/abstract/abstract19252.shtml [27] 罗建豪, 吴建鑫.基于深度卷积特征的细粒度图像分类研究综述.自动化学报, 2017, 43(8):1306-1318 http://www.aas.net.cn/CN/abstract/abstract19105.shtmlLuo Jian-Hao, Wu Jian-Xin. A survey on fine-grained image categorization using deep convolutional features. Acta Automatica Sinica, 2017, 43(8):1306-1318 http://www.aas.net.cn/CN/abstract/abstract19105.shtml [28] Yu Fisher, Vladlen Koltun, Thomas Funkhouser. Dilated residual networks. In: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, Hawaii, USA: IEEE, 2017. 636-644 [29] Zhou Y Z, Ye Q X, Qiu Q, Jiao J B. Oriented response networks. In: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, Hawaii, USA: IEEE, 2017. 4961-4970 [30] Jeon Y, Kim J. Active convolution: Learning the shape of convolution for image classification. In: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, Hawaii, USA: IEEE, 2017. 1846-1854 [31] He K M, Gkioxari G, Dollar P. Mask r-cnn. In: Proceedings of the 2017 IEEE International Conference on Computer Vision, Venice, Italy: IEEE, 2017. 2980-2988 [32] 李策, 张亚超, 蓝天, 杜少毅.一种高分辨率遥感图像视感知目标检测算法.西安交通大学学报, 2018, 6(52):9-16 http://d.old.wanfangdata.com.cn/Periodical/xajtdxxb201806002Li Ce, Zhang Ya-Chao, Lan Tian, Du Shao-Yi. An object detection algorithm with visual perception for high-resolution remote sensing images. Journal of Xi'an Jiaotong University, 2018, 6(52):9-16 http://d.old.wanfangdata.com.cn/Periodical/xajtdxxb201806002 [33] Kim S W, Kook H K. Parallel feature pyramid network for object detection. In: Proceedings of the 15th European Conference on Computer Vision, Munich, Germany: Springer Verlag, 2018. 234-250 [34] Cai Z W, Nuno V. Cascade R-CNN: Delving into high quality object detection. In: Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition, Salt Lake, USA: IEEE, 2018. 6154-6162 [35] Szegedy C, Ioffe S, Vanhoucke V. Inception-v4, inception-resnet and the impact of residual connections on learning. In: Proceedings of the 31st AAAI Conference on Artificial Intelligence, San Francisco, California, USA: AAAI, 2017. 4278-4284 [36] Xie S N, Girxhick R, Dollar P. Aggregated residual transformations for deep neural networks. In: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, Hawaii, USA: IEEE, 2017. 5987-5995 [37] Zhou P, Ni B B. Scale-transferrable object detection. In: Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition, Salt Lake, USA: IEEE, 2018. 528-537 [38] Bharat Singh, Larry S. Davis. An Analysis of Scale Invariance in Object Detection SNIP. In: Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition, Salt Lake, USA: IEEE, 2018. 3578-3587 期刊类型引用(22)
1. 李耀龙,陈晓林,林浩,王宇,王春林. DySnake-YOLO:改进的YOLOv9c电路板表面缺陷检测方法. 计算机工程与应用. 2025(03): 242-252 . 百度学术
2. 雷帮军,朱涵. 基于上下文空间感知的遥感图像旋转目标检测. 电光与控制. 2025(03): 69-75 . 百度学术
3. 李璇,冯昭明,徐宇航,马雷,程莉. 基于空间匹配校准的预成端盒端口信息自动化识别. 控制与决策. 2025(04): 1367-1376 . 百度学术
4. 张华卫,张文飞,蒋占军,廉敬,吴佰靖. 引入上下文信息和Attention Gate的GUS-YOLO遥感目标检测算法. 计算机科学与探索. 2024(02): 453-464 . 百度学术
5. 管文青,周世斌,张国鹏. 混合注意力特征增强的航空图像目标检测. 计算机工程与应用. 2024(04): 249-257 . 百度学术
6. 禹鑫燚,林密,卢江平,欧林林. 基于向量叉乘标签分配的遥感图像目标检测算法. 高技术通讯. 2024(02): 132-142 . 百度学术
7. 王志林,于瓅. 基于改进YOLOv5的遥感图像检测. 重庆科技学院学报(自然科学版). 2024(02): 62-67 . 百度学术
8. 张云佐,郭威,李文博. 遥感图像密集小目标全方位精准检测算法. 吉林大学学报(工学版). 2024(04): 1105-1113 . 百度学术
9. 陈天鹏,胡建文. 基于改进FCOS的遥感图像舰船目标检测. 计算机科学. 2024(S1): 479-485 . 百度学术
10. 魏瑶坤,康运江,王丹伟,赵鹏,徐斌. 改进YOLOv5s的旋转框工业零件检测算法. 激光与光电子学进展. 2024(14): 155-164 . 百度学术
11. 程凯伦,胡晓兵,陈海军,李虎. 基于改进YOLOv5s的遥感图像目标检测方法. 激光与光电子学进展. 2024(18): 285-291 . 百度学术
12. 焦仕昂,罗亮,杨萌,翟宏睿,刘维勤. 基于改进YOLOv7的光学遥感图像船舶旋转目标检测. 武汉理工大学学报(交通科学与工程版). 2024(05): 903-908 . 百度学术
13. 董燕,魏铭宏,高广帅,刘洲峰,李春雷. 基于双重标签分配的遥感有向目标检测方法. 计算机科学. 2024(S2): 496-504 . 百度学术
14. 温桂炜,杨志钢. 面向遥感图像目标检测的特征增强和融合方法. 应用科技. 2024(05): 305-310 . 百度学术
15. 张娜,包梓群,罗源,吴彪,涂小妹. 改进的Cascade R-CNN算法在目标检测上的应用. 电子学报. 2023(04): 896-906 . 百度学术
16. 庄文华,唐晓刚,张斌权,原光明. 基于改进YOLOv5的遥感图像旋转框目标检测. 电子设计工程. 2023(14): 137-141+146 . 百度学术
17. 顾东泽,王敬东,姜宜君,廖元晖. 一种基于CenterNet的多朝向建筑物检测方法. 电子测量技术. 2023(10): 150-154 . 百度学术
18. 沈中华,陈万委,甘增康. 基于改进YOLOv5的旋转目标检测算法及其应用研究. 包装工程. 2023(19): 229-237 . 百度学术
19. 刘恩海,许佳音,李妍,樊世燕. 自适应特征细化的遥感图像有向目标检测. 计算机工程与应用. 2023(24): 155-164 . 百度学术
20. 何林远,白俊强,贺旭,王晨,刘旭伦. 基于稀疏Transformer的遥感旋转目标检测. 激光与光电子学进展. 2022(18): 55-63 . 百度学术
21. 王宏乐,王兴林,李文波,邹阿配,叶全洲,刘大存. 一种基于解耦旋转锚框匹配策略的谷粒检测方法. 广东农业科学. 2022(12): 143-150 . 百度学术
22. 安胜彪,娄慧儒,陈书旺,白宇. 基于深度学习的旋转目标检测方法研究进展. 电子测量技术. 2021(21): 168-178 . 百度学术
其他类型引用(19)
-