A Synonym Mining Algorithm Based on Pair-wise Character Embedding andNoisy Robust Learning
-
摘要: 同义词挖掘是自然语言处理中一项重要任务. 为了构建大规模训练语料, 现有研究利用远程监督、点击图筛选等方式抽取同义词种子, 而这几种方式都不可避免地引入了噪声标签, 从而影响高质量同义词挖掘模型的训练. 此外, 由于大量实体词所具有的少样本特性、领域分布差异性和预训练词向量训练目标与同义词挖掘任务的不一致性, 在同义词挖掘任务中, 词级别的预训练词向量很难产生高质量的实体语义表示. 为解决这两个问题, 提出了一种利用成对字向量和噪声鲁棒学习框架的同义词挖掘模型. 模型利用预训练的成对字向量增强实体语义表示, 并利用自动标注的噪声标签通过交替优化的方式, 估计真实标签的分布并产生伪标签, 希望通过这些改进提升模型的表示能力和鲁棒性. 最后, 使用WordNet分析和过滤带噪声数据集, 并在不同规模、不同领域的同义词数据集上进行了实验验证. 实验结果和分析表明, 该同义词挖掘模型在各种数据分布和噪声比例下, 与有竞争力的基准方法相比, 均提升了同义词判别和同义词集合生成的效果.Abstract: Synonym mining is an important task in natural language processing. In order to construct large-scale training corpus, existing studies extract synonym seeds using distant supervision and click graph filtering, which inevitably introduce noisy labels, thus affecting the training of high-quality synonym mining models. In addition, due to the few-shot and domain-distribution-shift property of most entity words, and the inconsistency between the training objective of the pre-trained word embeddings and the synonym mining task, it is difficult for the pre-trained word embeddings in the synonym mining task to produce high-quality entity semantic representations. To address these two issues, this paper proposes a synonym mining model that utilizes pair-wise character embeddings and a noise robust learning framework. The model uses pre-trained pair-wise character embeddings to enhance the entity semantic representations, estimate true label distribution and generate pseudo-labels through a joint optimization process. We want to improve the representation ability and robustness of the model through these improvements. Finally, we use WordNet to analyze and filter noisy datasets and conduct the experiments on synonym datasets of different sizes and domains. The experimental results show that the proposed synonym mining model improves the synonym set-instance classification and set generation performances compared to competitive benchmark methods under different data distribution and noise ratios.
-
近年来, 随着遥感技术的发展, 高质量的遥感图像日益增多, 这为遥感领域的应用奠定了基础. 遥感图像广泛应用于灾害监测、资源调查、土地利用评价、农业产值测算、城市建设规划等领域[1], 对于社会和经济发展具有重要的意义. 而目标检测作为遥感图像处理的应用之一, 获得图中特定目标类别和位置. 通常关注飞机、机场、船舶、桥梁和汽车等目标, 因此对于民用和军用领域有着十分重要的用途[2]. 在民用领域中, 船舶的定位有利于海上救援行动, 车辆的定位有利于车辆计数和分析道路的拥堵情况等. 在军事领域中, 这些类别信息的检测获取, 有利于快速且精准地锁定攻击目标位置、分析战争形势以及制定军事行动等. 因此对于遥感图像中的目标进行精准检测至关重要.
目标检测是计算机视觉领域中一个重要且具有挑战性的研究热点. 随着深度学习的快速发展, 目标检测器的性能取得了显著进步, 已经广泛应用于各个行业. 目前常用的目标检测器大致可以分为两级检测器和单级检测器两类[3]. 两级检测器是基于区域卷积神经网络(Regions with convolutional neural network, R-CNN)框架, 检测过程分为两个阶段. 第1阶段从图像中生成一系列候选框区域, 第2阶段从候选框区域中提取特征, 然后使用分类器和回归器进行预测. Faster R-CNN[4]作为两级检测器的经典方法, 提出候选区域生成网络(Region proposal networks, RPN)用于候选框的产生, 从而快速、准确地实现端到端检测. 之后区域全卷积网络(Region-based fully convolutional network, R-FCN)[5]、Cascade R-CNN[6]等两级检测器的出现进一步提高目标检测的精度. 单级检测器将检测问题简化为回归问题, 仅仅由一系列卷积层进行分类回归, 而不需要产生候选框及特征提取阶段. 因此这类方法通常检测速度较快. 例如, Redmon等[7]提出YOLO检测器, 将图像划分为一系列网格区域, 每个网格区域直接回归得到边界框. Liu等[8]提出SSD检测器, 在多个不同尺度大小的特征图上直接分类回归. Lin等[9]提出Focal Loss分类损失函数, 解决单级检测器的类别不平衡问题, 进一步提高检测精度. 这些先进的目标检测技术往往用于水平边界框的生成, 然而在遥感图像中, 大多数检测目标呈现出任意方向排列, 对于横纵比大或者密集排列的目标, 仅仅采用水平框检测将包含过多的冗余信息, 影响检测效果. 因此旋转方向成为不可忽视的因素.
早期应用于遥感领域的旋转框检测算法主要来源于文本检测, 例如R2CNN[10]和RPN[11]等. 然而由于遥感图像背景复杂且空间分辨率变化较大, 相比于二分类的文本检测具有更大困难, 因此这些优秀的文本检测算法直接应用于遥感领域中并不能取得较好的检测效果. 近年来, 随着目标检测算法的发展以及针对遥感图像的深入研究, 涌现出许多性能良好的旋转框检测算法. 例如Ding等[12]提出旋转感兴趣区域学习器(Region of interest transformer, RoI), 将水平框转换为旋转框, 并在学习器中执行边界框的回归; Zhang等[13]提出通过捕获全局场景和局部特征的相关性增强特征; Azimi等[14]提出基于多尺度卷积核的图像级联方法; Yang等[15]提出像素注意力机制抑制图像噪声, 突出目标的特征, 并且在SmoothL1损失[4]中引入IoU常数因子解决旋转框的边界问题, 使旋转框预测更加精确. Yang等[16]设计精细调整模块, 采用特征调整模块, 通过插值操作实现特征对齐. Xu等[17]提出回归4种长度比来表示对应边的相对偏移距离, 并且引入了一个真实框与其水平边界框面积比作为倾斜因子, 用于对每个目标水平或旋转检测的选择. Wei等[18]提出利用预测内部中线实现旋转目标检测的方法. Li等[19]提出利用预测的掩模获取旋转框的方法. Wang等[20]提出了一种基于初始横向连接的特征金字塔网络(Feature pyramid networks, FPN)增强算法, 同时利用语义注意力机制网络提供语义特征, 从复杂的背景中提取目标.
因此, 目前在遥感图像中用于旋转框检测的方法大致可以分为两种. 其中一种算法整体结构仍然为水平框检测, 仅仅在回归预测分支中增加一些变量的获取, 例如角度因子等. 这种算法使得在网络预测的像素中包含较多背景信息, 容易出现图1所示的角度偏移以及漏检较多等问题. 另一种算法预设含有角度的锚点框, 然后采用旋转候选框内的像素进行预测. 由于目标的旋转角度较多, 因此这种算法需要预设大量的锚点框以保证召回率, 这样会极大地增加计算量.
针对上述不足, 本文结合这两种处理方法的优势, 以Faster R-CNN[21]为基础, 提出一种用于旋转框检测的网络R2-FRCNN (Refined rotated faster R-CNN). 该网络依次采用上述两种旋转框处理方法, 将前一种方法得到旋转框的过程视为粗调, 这个阶段产生的旋转框作为后一种方法的预设框, 然后对于旋转框再次进行调整, 这个过程称为细调. 两阶段调整使得网络输出更加精确的预测框. 此外, 针对遥感图像存在较多小目标的特点, 本文提出像素重组特征金字塔结构(Pixel-recombination feature pyramid network, PFPN), 相比于传统的金字塔网络, 本文的金字塔结构使得特征局部信息与全局信息相结合, 从而突出复杂背景下小目标的特征响应. 同时为了更好地提取表征目标信息的特征, 用于后续预测阶段, 本文在粗调阶段设计积分感兴趣区域池化方法(Integrate region of interest pool, IRoIPool), 以及在精调阶段设计旋转感兴趣区域池化方法(Rotated region of interest pool, RRoIPool), 提升复杂背景下小目标的检测精度. 最后, 本文在粗调和细调阶段均采用全连接层与卷积层结合的预测分支以及SmoothLn回归损失函数, 进一步提升算法性能.
本文结构安排如下: 第1节详细阐述本文提出的旋转框检测网络R2-FRCNN; 第2节通过与官方基准方法和现有方法的实验结果进行对比, 以及本文方法各模块的分离实验, 评估本文方法的性能; 第3节总结.
1. 旋转框目标检测方法
本节对提出的网络R2-FRCNN结构以及各模块进行阐述. 首先介绍R2-FRCNN网络的整体结构, 然后详细介绍各个模块(像素重组金字塔结构、感兴趣区域特征提取和网络预测分支结构), 最后介绍本文使用的损失函数.
1.1 网络结构设计
图2展示了R2-FRCNN网络的整体结构, 可以分为基础网络、像素重组金字塔、候选区域生成网络RPN、粗略调整阶段和精细调整阶段5个部分.
本文采用ResNet[22]作为算法的基础网络, 将C3、C4、C5和C6特征层用于构建特征金字塔结构, 增强网络对于小目标的检测能力. 由金字塔产生的P3、P4、P5、P6和P7 5个特征层上, 每个像素点预设3个锚点框, 锚点框的长宽比为{1:1, 1:2, 2:1}, 尺寸大小为8, 经由RPN[4]调整锚点框的位置生成一系列候选框. 然后选择置信度较高的2000个候选框用于粗略调整阶段, 该模块的回归过程将水平框调整为旋转框. 最后这些候选框进入精细调整阶段, 再次调整旋转框的位置, 得到更好的检测效果. 经过两阶段调整后的框, 选择后一阶段中最大分类数值作为置信度, 同时采用旋转非极大抑制算法处理, 选取邻域内置信度较高的框, 并且抑制低置信度的框, 这些高置信度的候选框即为网络输出预测框.
1.2 像素重组金字塔结构
特征金字塔结构[23]被广泛应用于许多先进的目标检测算法中, 这个结构的设计在于浅层的定位信息准确, 深层的语义信息丰富, 通过融合深浅层特征图, 提升对于小目标的检测性能. 如表1所示, RoI-Transformer (RT)[12]、CADNet[13]、SCRDet[15]、R3Det[16]和GV R-CNN (GV)[17]均采用了深浅层融合特征, 表现出优异的检测性能, 而R2CNN[10]未使用特征融合, 取得的检测结果远低于其他方法. 图3为本文设计的像素重组金字塔结构. 该结构分为2个阶段: 第1阶段为
$ {C}_{i} $ →$ {M}_{i} $ , 采用尺度转化的方式, 利用局部特征信息的同时, 融合上下层构建金字塔结构; 第2阶段为$ {M}_{i} $ →$ {P}_{i} $ , 采用非局部注意力[24]模块, 利用全局信息, 突出目标区域的特征.表 1 不同方法在DOTA数据集的检测精度对比(%)Table 1 Comparison of detection accuracy of different methods in DOTA (%)类别 R2CNN[10] RT[12] CADNet[13] SCRDet[15] R3Det[16] GV[17] 本文方法 飞机 80.94 88.64 87.80 89.98 89.24 89.64 89.10 棒球场 65.67 78.52 82.40 80.65 80.81 85.00 81.22 桥梁 35.34 43.44 49.40 52.09 51.11 52.26 54.47 田径场 67.44 75.92 73.50 68.36 65.62 77.34 72.97 小型车辆 59.92 68.81 71.10 68.36 70.67 73.01 79.99 大型车辆 50.91 73.68 64.50 60.32 76.03 73.14 82.28 船舶 55.81 83.59 76.60 72.41 78.32 86.82 87.64 网球场 90.67 90.74 90.90 90.85 90.83 90.74 90.54 篮球场 66.92 77.27 79.20 87.94 84.89 79.02 87.31 储油罐 72.39 81.46 73.30 86.86 84.42 86.81 86.33 足球场 55.06 58.39 48.40 65.02 65.10 59.55 54.20 环形车道 52.23 53.54 60.90 66.68 57.18 70.91 68.18 港口 55.14 62.83 62.00 66.25 68.10 72.94 76.12 游泳池 53.35 58.93 67.00 68.24 68.98 70.86 70.83 直升机 48.22 47.67 62.20 65.21 60.88 57.32 59.19 平均准确率 60.67 69.56 69.90 72.61 72.81 75.02 76.02 在第1阶段中, 特征上采样对于金字塔结构是一个关键的操作. 最常用的特征上采样方式为插值和转置卷积[25]. 插值法仅考虑相邻像素, 无法获取密集预测任务所需的丰富语义信息. 转置卷积作为卷积的逆运算, 将其作为上采样方式存在2点不足[26]: 1)对于整个特征图都采用同样的卷积核, 而不考虑特征图中的目标信息, 限制了上采样过程对于局部变化的响应; 2)若采用较大的卷积核将会增加大量参数. 本文引入尺度转换作为特征上采样方法. 深浅层特征融合的操作过程如图4所示. 该方法首先利用“通道转化”方法[27]压缩通道数(本文压缩系数
$r=0.5$ ), 增大特征图尺寸, 即:$${I_{H,W,C}} = {I_{\left\lfloor {H/r} \right\rfloor ,\left\lfloor {W/r} \right\rfloor ,C \cdot {r^2} + r \cdot {\rm{mod}}\left( {W,r} \right) + {\rm{mod}}\left( {H,r} \right)}}$$ (1) 然后, 采用
$1 \times 1 $ 的卷积层用于调整通道数, 再由Softmax函数[28]作用于每一通道的特征层. 最后采用式(2)进行加权求和, 使得特征融合过程更好地利用局部信息.$$ \left\{\begin{aligned} &{y}_{m,n,c}=\displaystyle\sum\limits_{i=-2}^{2}\displaystyle\sum\limits_{j=-2}^{2}{x}_{m+i,n+j,c}\cdot {w}_{m,n,k} \\ &k=\left(i+2\right)\times 5+j+2 \end{aligned}\right. $$ (2) 式中,
$m、n$ 分别表示像素的横、纵位置,$ c $ 表示$ C $ 特征层当前通道,$ k $ 表示$ M $ 特征层当前通道.第2阶段采用非局部注意力模块, 利用特征图中目标与全局特征的关系, 突出目标区域的响应.
根据非局部注意力模块的定义, 假设
$ C $ 为通道数,$ s $ 为尺度大小,${{G}}$ 为特征图尺度的乘积即$s\times s,x$ 为输入特征图,$ q\left(x\right) $ 、$ k\left(x\right) $ 和$ v\left(x\right) $ 定义为采用不同线性转换的结果:$$ q\left({x}^{s}\right)={{W}_{q}^{s}}^{\rm T}{x}^{s} $$ (3) $$ k\left({x}^{s}\right)={{W}_{k}^{s}}^{\rm T}{x}^{s} $$ (4) $$ v\left({x}^{s}\right)={{W}_{v}^{s}}^{\rm T}{x}^{s} $$ (5) 式中, 系数矩阵
${{W}}_{{q}}^{{s}},\;{{W}}_{{k}}^{{s}}\in { \bf{R}}^{{{C}}\times {{C}}/8},\;{{W}}_{{v}}^{{s}}\in {\bf{R}}^{{{C}}\times {{C}}}$ .${{q}}\left({{x}}^{{s}}\right)$ 与${{k}}\left({{x}}^{{s}}\right)$ 矩阵相乘, 得二维矩阵${{o}}^{{s}}\in {\bf{R}}^{{{G}}\times {{G}}}$ ; 再运用Softmax将矩阵的每一行转换为概率值, 最后与${{v}}\left({{x}}^{{s}}\right)$ 矩阵相乘后再与输入相加, 得输出量${{{x}}^{{s}}}'$ :$$ {{x}^{s}}'={x}^{s}+{\left({o}^{s}v^{\rm{T}}{\left({x}^{s}\right)}\right)}^{\rm T} $$ (6) 在本文的特征金字塔结构中, 第1阶段输出的
$ {M}_{3} $ 和$ {M}_{4} $ 由于尺度较大, 直接用于非局部注意力模块计算量较大. 因此为了保留这两层的语义信息, 同时再次融合不同层的特征, 该结构将$ {M}_{3} $ 和$ {M}_{4} $ 池化为$ {M}_{5} $ 的尺寸大小, 然后计算这3层的均值输入非局部注意力模块, 再由插值操作输出对应相等尺寸的特征图.$ {M}_{6} $ 和$ {M}_{7} $ 的特征图直接应用非局部注意力模块得到$ {P}_{6} $ 和$ {P}_{7} $ 层.1.3 感兴趣区域特征提取模块
感兴趣区域特征提取模块主要用于固定输出尺寸大小, 提取表征框内区域的特征, 便于后续的网络预测. 本文的RoI特征提取模块主要分为粗调阶段的水平框和细调阶段的旋转框RoI特征提取两部分.
自然场景图像中的目标通常是固定方向呈现, 因此两阶段式目标检测算法采用水平框的RoI特征提取. 目前, 应用较为广泛的RoI特征提取是RoIPooling[4]和RoI Align[29]. 图5(a)为RoI池化原理图, 选择量化后块中最大像素值作为池化后的结果. 然而量化的结果会导致提取的小目标像素存在偏差, 影响检测效果. 图5(b)为RoI对齐原理图, 取消量化操作, 采用双线性插值在块中计算出N个浮点坐标的像素值, 均值作为块的结果. 然而这个操作存在两点不足: 采样点数量需要预先设置, 不同大小候选框设置了相同数量的采样点.
因此, 本文采用精确RoI (Precise RoI, Pr-RoI)池化方法[30]的特征提取操作, 如图6所示, 由插值操作将块内特征视为一个连续的过程, 采用积分方法获得整个块的像素和, 其均值作为块的结果, 即:
$$ {\rm{IRoIPool}}\left(bin,{\cal{F}}\right)=\dfrac{{\int }_{{y}_{1}}^{{y}_{2}}{\int }_{{x}_{1}}^{{x}_{2}}f\left(x,y\right){\rm d}x{\rm d}y}{\left({x}_{2}-{x}_{1}\right)\times \left({y}_{2}-{y}_{1}\right)} $$ (7) 式中,
$ f(x,y) $ 为采用面积插值法[15]所得的像素值.旋转框RoI特征提取直接采用积分操作较为复杂, 因此本文将积分操作视为块内一定数量的像素之和, 从而得到块的均值, 即:
$$ {\rm{RRoIPool}}\left(bin,{\cal{F}}\right)=\frac{\displaystyle\sum\limits _{y={y}_{1}}^{{y}_{2}}\displaystyle\sum\limits _{x={x}_{1}}^{{x}_{2}}f\left(x,y\right)}{{N}_{x}\times {N}_{y}} $$ (8) $$ {N_x} = \left\lfloor {\dfrac{{{x_2} - {x_1}}}{{{l_x}}}} \right\rfloor + 1,{N_y} = \left\lfloor {\dfrac{{{y_2} - {y_1}}}{{{l_y}}}} \right\rfloor + 1 $$ (9) 式中,
$ ({x}_{1},{y}_{1}) $ 和$ ({x}_{2},{y}_{2}) $ 分别为旋转框在水平位置处的左上角和右下角点,$ {l}_{x} $ 和$ {l}_{y} $ 分别为水平方向和垂直方向的采样距离, 如图7所示.根据候选框的大小决定采样点的数量. 然而采样距离太小会导致计算量大幅增加, 因此为平衡检测效率与精度, 本文将采样距离
$ {l}_{x} $ 和$ {l}_{y} $ 设置为0.4.旋转框在水平位置处采样点的坐标为
$ ({x}_{h},{y}_{h}) $ , 旋转框$ w $ 所对应的边与横轴正方向的夹角为$ \theta $ , 旋转框的中心点为$ ({c}_{x},{c}_{y}) $ , 由式(10)转化为旋转框中的坐标$ (x,y) $ , 再由面积插值法得到该位置的像素值.$$ \left[ \begin{array}{c}x\\ y\end{array} \right] = \left[ \begin{array}{ccc}{\rm cos}\theta & - {\rm sin}\theta & \left(1 - {\rm cos}\theta \right) \cdot {c}_{x} + {\rm sin}\theta \cdot {c}_{y}\\ {\rm sin}\theta & {\rm cos}\theta & - {\rm sin}\theta \cdot {c}_{x} + \left(1 - {\rm cos}\theta \right) \cdot {c}_{y} \end{array} \right]\left[ \begin{array}{c}{x}_{h}\\ {y}_{h}\\ 1\end{array} \right] $$ (10) 本文方法与R3Det类似, 都使用了精细调整旋转框的定位. 然而R3Det每一次调整的预测分支直接采用卷积层操作, 但是卷积操作为水平滑动, 用于旋转框回归将会包含一些背景像素干扰预测结果, 而本文方法采用旋转框感兴趣区域提取框内的特征信息用于预测, 更加有利于检测性能的提升.
1.4 预测分支结构
目标检测算法分为定位和分类两个任务. 一般而言, 两级检测器的预测分支采用全连接层, 而单级检测器的预测分支采用卷积层. Wu等[31]发现这两个任务适合于不同的预测分支结构, 全连接层更适合用于分类任务, 卷积层更适合用于回归任务. 因此, 本文采用图8所示的预测分支结构.
在本文采用的预测分支中, 分类结构保持不变, 仍然采用全连接层. 而回归分支采用一系列ResNet网络中的ResBlock结构(本文使用2个).
1.5 网络训练损失函数
本文提出网络的损失函数包含RPN阶段
${L}_{{\rm{RPN}}}$ 、粗略调整阶段$ {L}_{ro} $ 和精细调整阶段$ {L}_{re} $ , 即:$$ L={L}_{{\rm{RPN}}}+{L}_{ro}+{L}_{re} $$ (11) 每一阶段的损失函数都包含分类损失和回归损失. 分类损失采用交叉熵损失函数[4]. 回归损失采用SmoothLn损失函数[32], 如式(12)所示, 相比于SmoothL1损失函数[4], 该损失函数的一阶导数是连续存在的, 具有良好的光滑性.
$$ S{L}_{n}\left(x\right)=\left(\left|x\right|+1\right){\rm ln}\left(\left|x\right|+1\right)-\left|x\right| $$ (12) $$ \dfrac{\partial S{L}_{n}\left(x\right)}{\partial x}={\rm sign}\left(x\right)\cdot{\rm ln}\left({\rm sign}\left( {x} \right)\cdot{ x+1}\right) $$ (13) 此外, 式(11)中RPN阶段为水平框的回归, 因此使用
$x、y、w、h$ 4个值代表水平框. 粗调阶段和细调阶段为旋转框的回归, 使用$x、y、 w、 h、\theta$ 5个值代表旋转框, 因此旋转框的回归转换值定义为:$$ \left[\begin{array}{c}{t}_{x}\\ {t}_{y}\end{array}\right] = \left[\begin{array}{cc}{\rm cos}\theta & {\rm sin}\theta \\ -{\rm sin}\theta & {\rm cos}\theta \end{array}\right]\left[\begin{array}{c}{x}_{t}-{x}_{a}\\ {y}_{t}-{y}_{a}\end{array}\right]\left[\begin{array}{cc}\dfrac{1}{{w}_{a}}& 0\\ 0& \dfrac{1}{{h}_{a}}\end{array}\right] $$ (14) $$ {t}_{w}=\log_2\left(\frac{{w}_{t}}{{w}_{a}}\right),\;\;\;{t}_{h}=\log_2\left(\frac{{h}_{t}}{{h}_{a}}\right) $$ (15) $$ {t}_{\theta }=\left({\theta }_{t}-{\theta }_{a}\right){\rm{mod}}\;2\pi $$ (16) 式中,
$x、y、w、h、\theta$ 分别为旋转框中心点的横、纵坐标, 框的宽度、高度和旋转角度.${x}_{t}、{x}_{a}$ 分别表示真实框和候选框的值.2. 实验结果与分析
本文实验设备使用英特尔E5-2683 CPU, 英伟达GTX 1080Ti显卡, 64 GB内存的服务器, 实验环境为Ubuntu 16.04.4操作系统、Cuda9.0、Cudnn7.4.2、Pytorch1.1.0、Python3.7.
本文实验中采用3个GPU进行训练, 批处理大小为3 (GPU显存限制), 输入图像统一为1024
$\times$ 1024分辨率. 训练的迭代次数为15轮, 同时使用衰减系数为0.0001、动量为0.9的随机梯度下降作为优化器, 初始的学习率设置为0.01, 分别在第8、第11轮和第14轮将学习率降低10倍. 图9是在DOTA 数据集上训练过程的损失下降曲线图(一轮训练有4500次迭代), 在第8轮(36000次迭代)出现明显的损失下降.2.1 实验数据集
本文使用DOTA[21]用于算法的评估. DOTA是由旋转框标注的大型公开数据集, 主要用于遥感图像目标检测任务. 该数据集包含由各个不同传感器和平台采集的2806张图像, 图像的大小范围从800 × 800像素到4000 × 4000像素, 含有各种尺度、方向和形状. 专家选择15种常见类别对这些图像进行标注, 总共标注188282个目标对象, 包括飞机、棒球场、桥梁、田径场、小型车辆、大型车辆、船舶、网球场、篮球场、储油罐、足球场、环形车道、港口、游泳池和直升机. 另外该数据集选取一半的图像作为训练集, 1/6作为验证集, 1/3作为测试集, 其中测试集的标注不公开. 为降低高分辨率图像由于压缩对于小目标的影响, 本文将所有图像统一裁剪为1024 × 1024的子图像, 重叠为200像素.
2.2 检测结果对比
本文方法采用ResNet50与可变形卷积[33]相结合作为基础网络进行本节实验. 为了评估本文方法的性能, 实验数据均采用官方提供的训练集和测试集. 实验结果通过提交到DOTA评估服务器上获得, 本文方法的评估结果平均准确率为0.7602, 超过目前官方提供的基准方法[21].
除了与官方基准方法进行对比, 本节实验还与R2CNN[10]、RoI-Transformer[12]、CADNet[13]、SCRDet[15]、R3Det[16]和GV R-CNN[17]进行对比分析, 各方法的检测结果如表1所示.
由表1中的检测结果可以看出, 本文方法的检测结果优于其他方法, 达到76.02%的平均准确率. 其中桥梁、小型车辆、大型车辆、船舶和港口这些类别取得最高检测精度. 由图10可以看出, 这些类别的目标在遥感数据集中尺寸较小, 并且往往呈现出密集排列, 因此说明本文方法对于在这类场景的检测更具有优势. 此外, 飞机、网球场、篮球场、储水池、游泳池等类别在遥感数据集中尺寸较大, 对于这些目标本文方法仍取得与其他方法中最高检测精度相差不大的结果. 这些检测结果说明本文方法能够有效地用于检测遥感图像中的目标.
2.3 分离实验
1)各模块对于检测精度的影响
为验证本文方法各模块的有效性, 本节进行了一系列对比实验. 表2展示了网络在DOTA 数据集上不同模块设置的检测结果. 其中“√”表示采用该项设置, ConvFc表示采用第1.4节设计的预测分支结构. 对比实验分析如下:
表 2 R2-FRCNN模块分离检测结果Table 2 R2-FRCNN module separates detection results模块 R2-FRCNN 基准设置 √ √ √ √ √ √ √ 精细调整 √ √ √ √ √ √ IRoIPool √ √ √ √ √ RRoIPool √ √ √ √ PFPN √ √ √ SmoothLn √ √ ConvFc √ 平均准确率 (%) 69.52 73.62 73.99 74.31 74.97 75.13 75.96 a)基准设置. 本节实验将扩展后的Faster R-CNN OBB[21]用于旋转框检测任务. 其中, 基础网络采用ResNet50[22], 并且采用特征金字塔[23], RoI特征提取采用RoI Align[29], 回归分支采用Smoo-thL1损失函数[4]. 为了保证实验的公平性和准确性, 后续实验参数设置都是严格一致.
b)精细调整. 在实验的精细调整阶段, 初始候选区域特征提取选择Rotated RoI Align (RRoI Align)方法, 该方法为RoI Align[29]在旋转框中的应用. 由表2的结果显示, 精细调整阶段的添加, 使得检测效果得到大幅提升, 评估指标平均准确率增加4.10%. 说明提取旋转候选框内像素进一步调整是有必要的, 这个阶段避免了水平框特征提取包含过多背景像素的问题, 从而提升对较大横纵比目标的检测效果. 然而在实验中发现, 在精细调整结构中多次调整提升效果并不明显, 从一次调整增加为两次调整, 平均准确率为73.68%, 仅仅增加0.06%, 因此为了减少参数量, 本文后续实验的精细调整阶段采用一次调整过程.
c) RoI特征提取. 实验中, 将第1.3节提出的IRoIPool和RRoIPool用于替换初始两阶段调整模块的RoI Align和RRoI Align. 由表2的实验结果显示, 相比于初始RoI特征提取方法, IRoIPool方法使得检测精度平均准确率提升0.37%, RRoIPool方法使得检测精度平均准确率进一步提升0.32%, 说明本文设计的RoI特征提取更为有效. 本文后续将对这两个特征提取方法的结构做进一步研究.
d) PFPN结构. 为了更好地验证PFPN的作用, 本文对此设计了两组实验. 第1组, 金字塔结构的深浅层不进行尺寸转化和非局部注意力模块, 仅仅采用
$ 1\times 1 $ 的卷积将特征层的通道数转化为256, 网络的其他结构和训练超参数保持一致, 平均准确率仅为64.55%, 由于DOTA数据集中小目标较多, 因此说明PFPN金字塔结构对于小目标的检测效果显著. 第2组实验的结果见表2, 相比于FPN, PFPN使得平均准确率提升0.66%, 说明本文提出的PFPN结构对于遥感目标的检测更为有效.e)网络预测分支. 本节针对预测分支进行两部分的实验, 即回归损失函数和预测分支结构. 由表2可以看出, 相比于SmoothL1, 回归损失函数采用SmoothLn, 使得检测精度平均准确率提升0.16%. 此外, 采用第1.4节所设计的预测分支结构, 分类过程采用全连接层, 回归过程采用卷积层, 仅增加2个ResBlock模块, 使得平均准确率提升0.83%. 由此说明回归过程采用SmoothLn函数和卷积层更加适合旋转框目标检测.
2)感兴趣区域特征提取模块研究
本节研究不同RoI特征提取结构对于检测精度的影响, 实验分为水平候选框特征提取方法和旋转候选框特征提取方法两部分. 实验结果分别见表3和表4所示.
表 3 不同水平框特征提取方法的实验结果Table 3 Experimental results of feature extraction methods of different horizontal boxes模块 平均准确率 + 精细调整 方法 RoIPooling RoI Align IRoIPool 平均准确率 (%) 71.21 73.62 73.99 表 4 不同旋转框特征提取方法的实验结果Table 4 Experimental results of different featureextraction methods of rotated boxes模块 平均准确率 + 精细调整 + IRoIPool 方法 RRoI A-Pooling RRoI Align RRoIPool 平均准确率 (%) 73.38 73.99 74.31 表3的实验结果显示, 采用RoIPooling方式的检测精度相对较低, 其量化操作降低了对于小目标的检测效果. 而RoI Align方式取消量化操作, 采用插值方式使得平均准确率提升2.41%, 说明提取连续的特征有利于目标检测. 本文方法在面积插值法的基础上引入积分操作, 平均准确率提升0.37%. 相比于前一种方式选取固定数量的像素点, 本文采用的积分操作类似于选取较多点, 可以提取更多特征, 有利于检测效果的提升.
表4为采用不同旋转框特征提取方法的检测结果. 第1种方法旋转感兴趣区域平均池化方法(Rotated region of interest average pooling, RRoI A-Pooling)选取旋转框内的像素点, 像素均值作为提取的特征. 第2种方法采用类似RoI Align的方式在旋转框内选择浮点数坐标, 运用双线性插值获得对应的像素值, 平均准确率提升0.61%. 本文采用方法RRoIPool可以根据旋转框大小选择不同数量的像素点表示特征. 相比于第2种方式提升0.32%, 说明本文采用的旋转框特征提取方式更适合于精细调整模块.
3. 结束语
基于深度学习的目标检测算法在自然场景图像中取得了很大进展. 然而遥感图像存在背景复杂、小目标较多、排列方向任意等难点, 常见的目标检测算法并不满足这类场景的应用需求. 因此本文提出一种粗调与细调两阶段结合的旋转框检测网络R2-FRCNN用于遥感图像检测任务. 并且设计像素重组金字塔结构, 提高复杂背景下小目标的检测性能. 同时在粗调阶段设计一种水平框特征提取方法IRoIPool, 细调阶段设计旋转框特征提取方法RRoIPool. 此外, 本文还采用SmoothLn回归损失函数, 以及全连接层和卷积层结合的预测分支, 进一步提升检测精度. 实验结果表明本文方法在大型公共数据集DOTA上获得了较好的检测效果. 然而本文方法存在检测速度较慢、GPU资源消耗较大等缺点, 因此在后续的工作中也将针对网络的轻量化展开进一步研究.
-
表 1 数据集统计信息
Table 1 Dataset statistics
数据集 Wiki NYT PubMed CILIN 文档 100000 118664 1554433 — 句子 6839331 3002123 15051203 — 训练集单词 8731 2600 72627 75614 训练集同义词集合 4359 1273 28600 17317 测试集单词 891 389 1743 2237 测试集同义词集合 256 117 250 500 表 2 超参数设置
Table 2 Hyper-parameter settings
数据集 Wiki NYT PubMed CILIN 词向量维度$d_w$ 50 50 50 300 词级别表示维度$d_p$ 250 250 250 250 集合表示隐单元维度$d'_s$ 500 500 500 500 学习率 0.0001 0.0001 0.0003 0.0003 训练轮数 800 500 50 50 负样本采样数量$K$ 50 20 50 70 批大小 64 32 32 32 随机失活比例 0.5 0.3 0.3 0.3 字向量维度$d_c$ 50 50 50 150 卷积窗口大小$w_c$ 5 5 5 5 字级别表示维度$d_v$ 24 24 24 50 辅助判别器损失比率$\alpha$ 0.15 0.15 0.15 0.15 表 3 数据集噪声比例
Table 3 Noise data percentage on datasets
统计类别 Wiki PubMed 训练集 测试集 训练集 测试集 原始词对 4372 635 44027 1493 噪声样本对 875 169 2740 70 遗漏样本对 380 182 12851 331 干净词对 3877 648 54138 1754 原始集合数量 4359 256 28600 250 干净集合数量 3327 228 25761 259 表 4 实验结果(%)
Table 4 Main experimental results (%)
方法 Wiki NYT PubMed ARI (± std) FMI (± std) NMI (± std) ARI (± std) FMI (± std) NMI (± std) ARI (± std) FMI (± std) NMI (± std) K-means* 34.35
(± 1.06)35.47
(± 0.96)86.98
(± 0.27)28.87
(± 1.98)30.85
(± 1.76)83.71
(± 0.57)48.68
(± 1.93)49.86
(± 1.79)88.08
(± 0.45)Louvain* 42.25 (± 0) 46.48 (± 0) 92.58 (± 0) 21.83 (± 0) 30.58 (± 0) 90.13 (± 0) 46.58 (± 0) 52.76 (± 0) 90.46 (± 0) SetExpan + Louvain* 44.78
(± 0.28)44.95
(± 0.28)92.12
(± 0.02)43.92
(± 0.90)44.31
(± 0.93)90.34
(± 0.11)58.91
(± 0.08)61.87
(± 0.07)92.23
(± 0.15)约束K-means* 38.80
(± 0.51)39.96
(± 0.49)90.31
(± 0.15)33.80
(± 1.94)34.57
(± 2.06)87.92
(± 0.30)49.12
(± 0.85)51.92
(± 0.83)89.91
(± 0.15)SVM + Louvain* 6.03
(±0.73)7.75
(± 0.81)25.43
(± 0.13)3.64
(± 0.42)5.10
(± 0.39)21.02
(± 0.27)7.76
(± 0.96)8.79
(± 1.03)31.08
(± 0.34)L2C* 12.87
(± 0.22)19.90
(± 0.24)73.47
(± 0.29)12.71
(± 0.89)16.66
(± 0.68)70.23
(± 1.20)— — — SynSetMine* 56.43
(± 1.31)57.10
(± 1.17)93.04
(± 0.23)44.91
(± 2.16)46.37
(± 1.92)90.62
(± 1.53)74.33
(± 0.66)74.45
(± 0.64)94.90
(± 0.97)SynSetMine 54.52
(± 1.23)54.87
(± 1.08)92.80
(± 0.20)47.33
(± 1.84)47.96
(± 2.07)90.16
(± 1.29)71.61
(± 0.66)72.20
(± 0.60)94.38
(± 0.60)NL-P2V 63.01
(± 1.06)63.54
(± 0.98)93.92
(± 0.12)50.72
(± 1.63)52.88
(± 2.10)91.66
(± 1.02)75.54
(± 0.88)75.65
(± 0.56)94.98
(± 0.49)NL-Word-P2V 61.31
(± 0.94)61.18
(± 0.76)93.70
(± 0.41)49.13
(± 1.07)51.69
(± 1.71)91.21
(± 0.45)74.67
(± 0.96)74.58
(± 0.50)95.02
(± 0.46)NL-P2V w/o P2V 56.09
(± 1.01)56.34
(± 0.83)93.13
(± 0.31)49.04
(± 1.43)50.02
(± 1.79)91.07
(± 0.57)73.48
(± 0.92)73.49
(± 0.47)94.47
(± 0.56)表 5 CILIN实验结果(%)
Table 5 Experimental results on CILIN (%)
方法 训练噪声比例 ARI FMI NMI SynSetMine 0 17.07 17.97 71.94 NL-P2V 1 20.26 20.73 73.97 SynSetMine 2 17.02 17.57 73.34 NL-P2V 3 17.01 17.96 73.36 SynSetMine 3 14.28 15.80 75.00 NL-P2V 5 16.24 16.91 74.01 表 6 效率对比
Table 6 Efficiency comparison
方法 训练 集合预测 Wiki
(h)NYT PubMed
(h)Wiki
(s)NYT
(s)PubMed
(s)K-means — — — 1.82 0.88 2.95 Louvain — — — 3.94 20.59 74.60 SynSetMine 7.7 77 min 3.6 3.57 1.24 19.11 NL-P2V w/o P2V 8.2 80 min 4.9 3.60 1.18 20.58 NL-P2V 18.1 2.9 h 7.1 6.47 2.69 27.04 -
[1] Azad H K, Deepak A. Query expansion techniques for information retrieval: a survey. Information Processing & Management, 2019, 56(5): 1698-1735. [2] Gui T, Ye J, Zhang Q, Zhou Y, Gong Y, Huang X. Leveraging document-level label consistency for named entity recognition. In: Proceedings of the 29th International Joint Conference on Artificial Intelligence. Virtual Event: 2020. 3976−3982 [3] Zhang H, Cai J, Xu J, Wang J. Complex question decomposition for semantic parsing. In: Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence, Italy: ACL, 2019. 4477−4486 [4] 饶子昀, 张毅, 刘俊涛, 曹万华. 应用知识图谱的推荐方法与系统. 自动化学报, 2020, 46(x): 1-16.Rao Zi-Yun, Zhang Yi, Liu Jun-Tao, Cao Wan-Hua. Recommendation methods and systems using knowledge graph. Acta Automatica Sinica, 2020, 46(x): 1-16. [5] 侯丽微, 胡珀, 曹雯琳. 主题关键词信息融合的中文生成式自动摘要研究. 自动化学报, 2019, 45(3): 530-539.HOU Li-Wei, HU Po, CAO Wen-Lin. Automatic Chinese Abstractive Summarization With Topical Keywords Fusion. ACTA AUTOMATICA SINICA, 2019, 45(3): 530-539. [6] Qu M, Ren X, Han J. Automatic synonym discovery with knowledge bases. In: Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Halifax, Canada: ACM, 2017. 997−1005 [7] Wang Z, Yue X, Moosavinasab S, Huang Y, Lin S, Sun H. SurfCon: Synonym discovery on privacy-aware clinical data. In: Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. Anchorage, USA: ACM, 2019. 1578−1586 [8] Li C, Zhang M, Bendersky M, Deng H, Metzler D, Najork M. Multi-view embedding-based synonyms for email search. In: Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval. Paris, France: ACM. 575−584 [9] Shen J, Lyu R, Ren X, Vanni M, Sadler B, Han J. Mining entity synonyms with efficient neural set generation. In: Proceedings of the 33rd AAAI Conference on Artificial Intelligence. Honolulu, Hawaii, USA: AAAI, 2019. 249−256 [10] Song H, Kim M, Park D, Lee J. Learning from noisy labels with deep neural networks: A survey [Online], available: https://arxiv.org/abs/2007.08199, July 22, 2020 [11] Arazo E, Ortego D, Albert P, O'Connor N E, McGuinness K. Unsupervised label noise modeling and loss correction. In: Proceedings of the 36th International Conference on Machine Learning. Long Beach, USA: PMLR, 2019. 312−321 [12] Zhang H, Long D, Xu G, Zhu M, Xie P, Huang F, et al. Learning with noise: Improving distantly-supervised fine-grained entity typing via automatic relabeling. In: Proceedings of the 29th International Joint Conference on Artificial Intelligence. Virtual Event: IJCAI, 2020. 3808−3815 [13] Chen B, Gu X, Hu Y, Tang S, Hu G, Zhuang Y, et al. Improving distantly-supervised entity typing with compact latent space clustering. In: Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Minneapolis, USA: ACL, 2019. 2862−2872 [14] Jiang L, Huang D, Liu M, Yang W. Beyond synthetic noise: Deep learning on controlled noisy labels. In: Proceedings of the 37th International Conference on Machine Learning. Virtual Event: PMLR, 2020. 4804−4815 [15] Mikolov T, Sutskever I, Chen K, Corrado G S, Dean J. Distributed representations of words and phrases and their compositionality. In: Proceedings of the 27th Annual Conference on Neural Information Processing Systems. Lake Tahoe, USA: NIPS, 2013. 3111−3119 [16] 李小涛, 游树娟, 陈维. 一种基于词义向量模型的词语语义相似度算法. 自动化学报, 2020, 46(8): 1654-1669.Li Xiao-Tao, You Shu-Juan, Chen Wai. An algorithm of semantic similarity between words based on word single-meaning embedding model. Acta Automatica Sinica, 2020, 46(8): 1654-1669. [17] Fei H, Tan S, Li P. Hierarchical multi-task word embedding learning for synonym prediction. In: Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. Anchorage, USA: ACM, 2019. 834−842 [18] Roth M, Upadhyay S. Combining discourse markers and cross-lingual embeddings for synonym-antonym classification. In: Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Minneapolis, USA: ACL, 2019. 3899−3905 [19] Miller G. Wordnet: a lexical database for english. Communications of the ACM, 1995, 38(11): 39-41. doi: 10.1145/219717.219748 [20] Zaheer M, Kottur S, Ravanbakhsh S, Póczos B, Salakhutdinov R, Smola A J. Deep sets. In: Proceedings of the Annual Conference on Neural Information Processing Systems. Long Beach, USA: NIPS, 2017. 3391−3401 [21] Kipf T N, Welling M. Semi-supervised classification with graph convolutional networks. In: Proceedings of the 5th International Conference on Learning Representations. Toulon, France: ICLR, 2017. [22] Hazem A, Daille B. Word embedding approach for synonym extraction of multi-word terms. In: Proceedings of the 11th International Conference on Language Resources and Evaluation. Miyazaki, Japan: ELRA, 2018. 297−303 [23] Devlin J, Chang M W, Lee K, Toutanova K. Bert: Pre-training of deep bidirectional transformers for language understanding. In: Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Minneapolis, USA: ACL, 2019. 4171−4186 [24] Banar N, Daelemans W, Kestemont M. Character-level transformer-based neural machine translation. In: Proceedings of the 4th International Conference on Natural Language Processing and Information Retrieval. Seoul, South Korea: ACM, 2020. 149−156 [25] Miyamoto Y, Cho K. Gated word-character recurrent language model. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing. Austin, USA: ACL, 2016. 1992−1997 [26] Lukovnikov D, Fischer A, Lehmann J, Auer S. Neural network-based question answering over knowledge graphs on word and character level. In: Proceedings of the 26th International Conference on World Wide Web. Perth, Australia: ACM, 2017. 1211−1220 [27] Joshi M, Choi E, Levy O, Weld D S, Zettlemoyer L. Pair2Vec: Compositional word-pair embeddings for cross-sentence inference. In: Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Minneapolis, USA: ACL, 2019. 3597−3608 [28] Pereyra G, Tucker G, Chorowski J, Kaiser L, Hinton G E. Regularizing neural networks by penalizing confident output distributions. In: Proceedings of the 5th International Conference on Learning Representations. Toulon, France: ICLR, 2017. [29] Nguyen X V, Epps J, Bailey J. Information theoretic measures for clusterings comparison: Variants, properties, normalization and correction for chance. The Journal of Machine Learning Research, 2010, 11: 2837-2854. [30] Blondel V, Guillaume J, Lambiotte R, Lefebvre E. Fast unfolding of communities in large networks. Journal of Statistical Mechanics: Theory and Experiment, 2008, 2008(10): 10008. doi: 10.1088/1742-5468/2008/10/P10008 [31] Shen J, Wu Z, Lei D, Shang J, Ren X, Han J. Setexpan: Corpus-based set expansion via context feature selection and rank ensemble. Machine Learning and Knowledge Discovery in Databases, 2017. 1: 288-304. [32] Hsu Y, Lv Z, Kira Z. Learning to cluster in order to transfer across domains and tasks. In: Proceedings of the 6th International Conference on Learning Representations. Vancouver, Canada: ICLR, 2018. [33] Xu P, Barbosa D. Neural fine-grained entity type classification with hierarchy-aware loss. In: Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. New Orleans, Louisiana, USA: ACL, 2018. 16−25 [34] van der Maaten L. Accelerating t-sne using tree-based algorithms. The Journal of Machine Learning Research, 2014, 15(1): 3221-3245. [35] He Y, Chakrabarti K, Cheng T, Tylenda T. Automatic discovery of attribute synonyms using query logs and table corpora. In: Proceedings of the 25th International Conference on World Wide Web. Montreal, Canada: ACM, 2016. 1429−1439 [36] Liu X, Wang L, Zhang J, Yin J, Liu H. Global and local structure preservation for feature selection. IEEE Transactions on Neural Networks and Learning Systems, 2013, 25(6): 1083-1095. [37] Grigonyte G, Cordeiro J, Dias G, Moraliyski R, Brazdil P. Paraphrase alignment for synonym evidence discovery. In: Proceedings of the 23rd International Conference on Computational Linguistics. Beijing, China: ACL, 2010. 403−411 [38] 王亚珅, 黄河燕, 冯冲, 周强. 基于注意力机制的概念化句嵌入研究. 自动化学报, 2020, 46(7): 1390-1400.WANG Ya-Shen, HUANG He-Yan, FENG Chong, ZHOU Qiang. Conceptual Sentence Embeddings Based on Attention Mechanism. ACTA AUTOMATICA SINICA, 2020, 46(7): 1390-1400. [39] Ustalov D, Panchenko A, Biemann C. Automatic induction of synsets from a graph of synonyms. In: Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Vancouver, Canada: ACL, 2017. 1579−1590 [40] Tang C, Liu X, Li M, Wang P, Chen J, Wang L, Li W. Robust unsupervised feature selection via dual self-representation and manifold regularization. Knowledge-based Systems, 2018. 145: 109-120. doi: 10.1016/j.knosys.2018.01.009 [41] Wang X, Hua Y, Kodirov E, Robertson N M. ProSelfLC: Progressive self label correction for training robust deep neural networks. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Virtual Event: CVPR, 2021. [42] Lin Y, Shen S, Liu Z, Luan H, Sun M. Neural relation extraction with selective attention over instances. In: Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Berlin, Germany: ACL, 2016. 2124−2133 期刊类型引用(22)
1. 李耀龙,陈晓林,林浩,王宇,王春林. DySnake-YOLO:改进的YOLOv9c电路板表面缺陷检测方法. 计算机工程与应用. 2025(03): 242-252 . 百度学术
2. 雷帮军,朱涵. 基于上下文空间感知的遥感图像旋转目标检测. 电光与控制. 2025(03): 69-75 . 百度学术
3. 李璇,冯昭明,徐宇航,马雷,程莉. 基于空间匹配校准的预成端盒端口信息自动化识别. 控制与决策. 2025(04): 1367-1376 . 百度学术
4. 张华卫,张文飞,蒋占军,廉敬,吴佰靖. 引入上下文信息和Attention Gate的GUS-YOLO遥感目标检测算法. 计算机科学与探索. 2024(02): 453-464 . 百度学术
5. 管文青,周世斌,张国鹏. 混合注意力特征增强的航空图像目标检测. 计算机工程与应用. 2024(04): 249-257 . 百度学术
6. 禹鑫燚,林密,卢江平,欧林林. 基于向量叉乘标签分配的遥感图像目标检测算法. 高技术通讯. 2024(02): 132-142 . 百度学术
7. 王志林,于瓅. 基于改进YOLOv5的遥感图像检测. 重庆科技学院学报(自然科学版). 2024(02): 62-67 . 百度学术
8. 张云佐,郭威,李文博. 遥感图像密集小目标全方位精准检测算法. 吉林大学学报(工学版). 2024(04): 1105-1113 . 百度学术
9. 陈天鹏,胡建文. 基于改进FCOS的遥感图像舰船目标检测. 计算机科学. 2024(S1): 479-485 . 百度学术
10. 魏瑶坤,康运江,王丹伟,赵鹏,徐斌. 改进YOLOv5s的旋转框工业零件检测算法. 激光与光电子学进展. 2024(14): 155-164 . 百度学术
11. 程凯伦,胡晓兵,陈海军,李虎. 基于改进YOLOv5s的遥感图像目标检测方法. 激光与光电子学进展. 2024(18): 285-291 . 百度学术
12. 焦仕昂,罗亮,杨萌,翟宏睿,刘维勤. 基于改进YOLOv7的光学遥感图像船舶旋转目标检测. 武汉理工大学学报(交通科学与工程版). 2024(05): 903-908 . 百度学术
13. 董燕,魏铭宏,高广帅,刘洲峰,李春雷. 基于双重标签分配的遥感有向目标检测方法. 计算机科学. 2024(S2): 496-504 . 百度学术
14. 温桂炜,杨志钢. 面向遥感图像目标检测的特征增强和融合方法. 应用科技. 2024(05): 305-310 . 百度学术
15. 张娜,包梓群,罗源,吴彪,涂小妹. 改进的Cascade R-CNN算法在目标检测上的应用. 电子学报. 2023(04): 896-906 . 百度学术
16. 庄文华,唐晓刚,张斌权,原光明. 基于改进YOLOv5的遥感图像旋转框目标检测. 电子设计工程. 2023(14): 137-141+146 . 百度学术
17. 顾东泽,王敬东,姜宜君,廖元晖. 一种基于CenterNet的多朝向建筑物检测方法. 电子测量技术. 2023(10): 150-154 . 百度学术
18. 沈中华,陈万委,甘增康. 基于改进YOLOv5的旋转目标检测算法及其应用研究. 包装工程. 2023(19): 229-237 . 百度学术
19. 刘恩海,许佳音,李妍,樊世燕. 自适应特征细化的遥感图像有向目标检测. 计算机工程与应用. 2023(24): 155-164 . 百度学术
20. 何林远,白俊强,贺旭,王晨,刘旭伦. 基于稀疏Transformer的遥感旋转目标检测. 激光与光电子学进展. 2022(18): 55-63 . 百度学术
21. 王宏乐,王兴林,李文波,邹阿配,叶全洲,刘大存. 一种基于解耦旋转锚框匹配策略的谷粒检测方法. 广东农业科学. 2022(12): 143-150 . 百度学术
22. 安胜彪,娄慧儒,陈书旺,白宇. 基于深度学习的旋转目标检测方法研究进展. 电子测量技术. 2021(21): 168-178 . 百度学术
其他类型引用(19)
-