刘小波 刘鹏 蔡之华 乔禹霖 王凌 汪敏

刘小波, 刘鹏, 蔡之华, 乔禹霖, 王凌, 汪敏. 基于深度学习的光学遥感图像目标检测研究进展. 自动化学报, 2021, 47(9): 2078−2089 doi: 10.16383/j.aas.c190455
Liu Xiao-Bo, Liu Peng, Cai Zhi-Hua, Qiao Yu-Lin, Wang Ling, Wang Min. Research progress of optical remote sensing image object detection based on deep learning. Acta Automatica Sinica, 2021, 47(9): 2078−2089 doi: 10.16383/j.aas.c190455
doi: 10.16383/j.aas.c190455
基金项目: 国家自然科学基金(61973285, 61873249, 61773355, 61603355), 湖北省自然科学基金(2018CFB528), 地质探测与评估教育部重点实验室主任基金(CUG2019ZR10), 中央高校基本科研业务费(CUGL17022)资助

    刘小波:中国地质大学(武汉)自动化学院副教授. 2008年获得中国地质大学计算机学院计算机科学硕士学位. 2012年获得中国地质大学计算机学院地球科学信息工程博士学位. 主要研究方向为机器学习, 演化计算, 高光谱遥感图像处理. 本文通信作者. E-mail: xbliu@cug.edu.cn

    刘鹏:中国地质大学(武汉)自动化学院硕士研究生. 2017年获得湖北理工学院电气与电子信息工程学院学士学位. 主要研究方向为遥感图像处理, 机器学习. E-mail: pengliu0908@cug.edu.cn

    蔡之华:中国地质大学(武汉)计算机学院教授. 1986年获得武汉大学学士学位. 1992年获得北京工业大学硕士学位. 2003年获得中国地质大学(武汉)博士学位. 主要研究方向为数据挖掘, 机器学习, 演化计算. E-mail: zhcai@cug.edu.cn

    乔禹霖:中国地质大学(武汉)自动化学院硕士研究生. 2018年获得青岛科技大学自动化学院学士学位. 主要研究方向为深度学习, 图像生成. E-mail: ylqiao@cug.edu.cn

    王凌:清华大学自动化系教授. 1995年获得清华大学自动化系学士学位. 1999年获得清华大学自动化系控制理论与控制工程专业博士学位. 主要研究方向为智能优化理论、方法与应用, 复杂生产过程建模、优化与调度. E-mail: wangling@tsinghua.edu.cn

    汪敏:中国地质大学(武汉)自动化学院硕士研究生. 2017年获得青岛科技大学自动化学院学士学位. 主要研究方向为显著性检测, 语义分割, 人体解析. E-mail: wm@cug.edu.cn

Research Progress of Optical Remote Sensing Image Object Detection Based on Deep Learning

Funds: Supported by National Natural Science Foundation of China (61973285, 61873249, 61773355, 61603355), Natural Science Foundation of Hubei Province (2018CFB528), Opening Fund of Ministry of Education Key Laboratory of Geological Survey and Evaluation (CUG2019ZR10), and Fundamental Research Funds for the Central Universities (CUGL17022)
More Information
    Author Bio:

    LIU Xiao-Bo Associate professor at the School of Automation, China University of Geosciences, Wuhan. He received his master degree in computer sciences from the School of Computer Science, China University of Geosciences, Wuhan, in 2008. He received his Ph.D. degree in geosciences information engineering from the School of Computer Science, China University of Geosciences, Wuhan in 2012. His research interest covers machine learning, evolutionary computation, and hyperspectral remote sensing image processes. Corresponding author of this paper

    LIU Peng Master student at the School of Automation, China University of Geosciences, Wuhan. He received his bechelor degree from the School of Electrical and Electronics Engineering, Hubei Institute of Technology in 2017. His research interest covers remote sensing image processing and machine learning

    CAI Zhi-Hua Professor at the School of Computer Sciences, China University of Geosciences, Wuhan. He received his bechelor degree from Wuhan University in 1986. He received his master degree from Beijing University of Technology, in 1992. He received his Ph.D. degree from China University of Geosciences, Wuhan in 2003. His research interest covers data mining, machine learning, evolutionary computation and their applications

    QIAO Yu-Lin Master student at the School of Automation, China University of Geosciences, Wuhan. He received his bechelor degree from the School of Automation, Qingdao University of Science and Technology in 2018. His research interest covers deep learning and image generation

    WANG Ling Professor in the Department of Automation, Tsinghua University. He received his bechelor degree from the Department of Automation, Tsinghua University in 1995. He received his Ph.D. degree in control theory and control engineering from the Department of Automation, Tsinghua University in 1999. His research interest covers intelligent optimization theory, method and application, and complex production process modeling, optimization and scheduling

    WANG Min Master student at the School of Automation, China University of Geosciences, Wuhan. She received her bechelor degree from the School of Automation, Qingdao University of Science and Technology in 2017. Her research interest covers saliency detection, semantic segmentation, and human parsing

  • 摘要: 光学遥感图像的目标检测 (Optical remote sensing images object detection, ORSIOD) 是航空和卫星图像分析领域的一个基本但具有挑战性的问题, 近年来受到广泛关注. 本文从如下几个方面介绍了基于深度学习的光学遥感图像目标检测的研究现状. 首先对光学遥感图像目标检测的主要难点进行了介绍, 接着对现有基于深度学习的目标检测算法进行概括, 并以光学遥感图像目标检测的难点为驱动分析对比了不同的基于深度学习的光学遥感图像目标检测方法的优缺点, 最后对未来的发展趋势进行了详细的分析.
    1)  1 未正式发表的算法, 参见文献: Adam V. You only look twice: Rapid multi-scale object detection in satellite imagery. arXiv:1805.09512v1[cs.CV]. 2018.
  • 图  1  光学遥感图像目标检测所遇到的几个问题的典型案例图

    Fig.  1  A typical case diagram showing several problems encountered in optical remote sensing image target detection

    图  2  Two-stage算法流程图

    Fig.  2  Two-stage algorithm flow chart

    图  3  One-stage算法流程图

    Fig.  3  One-stage algorithm flow chart

    表  1  解决图像分辨率过高问题的不同方法对比

    Table  1  Comparison of different methods to solve the problem of high image resolution

    解决问题 论文来源 方法 优点 缺点/难点
    图像分辨率过高 [21-27] 将大图切割为小图 使得网络能够对每个图像块进行处理提高检测效果 图像块边缘的目标被切割
    [28] 以一定重叠率切割 避免图像块边缘目标被切割 引入过多冗余信息
    [29] 在以一定重叠了切割后使用RCNN检测 RCNN 的第 1 阶段网络可以过滤掉冗余的背景信息 第 1 阶段网络仍然会受到冗余信息的影响
    YOLT 滑动取图像块之后, 利用非极大值抑制来防止重叠部分的多次检测 减小重叠区域的重复检测 未能解决使用滑块方法造成的检测速度过慢问题
    [30] 使用全卷积神经网络将大图映射为较小特征图, 每个像素对应固定尺寸的边界框 能够直接对整个大图进行处理 只能应对较大尺寸的目标
    注: YOLT是一个未正式发表的算法, 参见文献: Adam V. You only look twice: rapid multi-scale object detection in satellite imagery. arXiv:1805.09512v1 [cs.CV]. 2018.
    表  2  解决目标像素过少问题的不同方法对比

    Table  2  Comparison of different methods to solve the problem of too few object pixels

    解决问题 论文来源 方法       优点       缺点/难点  
    目标过小 YOLT 增加YOLOv3网络的网格数 提高了小目标的检测能力 降低检测速度
    [31] 加入反卷积层 对小目标进行放大 无法放大在反卷积层前已经消失的小目标
    [25] 用反卷积层来结合不同层的信息 兼顾大小目标的检测 浅层网络会引入过多噪声
    [24] 使用平衡系数来减小浅层网络中
    [32] 在YOLOv2网络中加入膨胀卷积 扩大感受野同时减少参数 膨胀卷积会丢失局部信息
    [33] 使用像素级注意力机制 弥补了膨胀卷积的不足 其注意力机制经过多个池化层得来, 对于小目标不敏感
    注: YOLT是一个未正式发表的算法, 参见文献: Adam V. You only look twice: Rapid multi-scale object detection in satellite imagery. arXiv:1805.09512v1 [cs.CV]. 2018.
    表  3  解决目标方向变化问题的不同方法对比

    Table  3  Comparison of different methods to solve the problem of object direction change

    解决问题 论文来源 方法 优点 缺点/难点
    [22-26, 34] 使用几个不同角度进行旋转数据增强 易于实现 效果有限
    [35] 使用但应性变换来进行数据增强 比普通选择增强效果要好 属于数据增强范畴, 效果有限
    [36] 加入旋转不变层, 引入正则化约束 从增强网络能力上解决问题 正则化约束项难以定义
    [37] 预测阶段加入多角度锚框进行预测 对方向的变化目标可以更好的定位 锚框的角度固定, 不能很好适应实际情况
    [38] 采用全连接层增强旋转不变性 能够解决方向变化问题 采用全连接层会固定网络输入的尺寸
    [25] 加入方向预测分支 边界框可以以一定角度定位目标 没有解决网络对于方向变化的处理问题
    [39] 使用旋转ROI池化 解决普通ROI池化会引入背景噪声
    表  4  解决目标尺寸变化问题的不同方法对比

    Table  4  Comparison of different methods to solve the problem of object size change

    解决问题 论文来源 方法 优点 缺点/难点
    尺寸变化 [30] 使用三个网络预测不同尺寸的区域推荐 解决不同尺寸目标的分类问题 没有解决不同尺寸目标定位问题
    [22] 使用特征金字塔网络的不同层来获得区
    解决不同尺寸目标的定位问题 层的选取需要视实际数据集而定
    [40] 使用网络的两个层分别使用RPN网络 解决不同尺寸目标的定位问题 两层不一定能够满足不同数据集的需要
    [28] 使用自编码机的多个层预测, 针对不同
    解决不同尺寸目标的检测问题 锚框的不同尺寸选取需要根据实际数据
    表  5  解决目标密集排列问题的不同方法对比

    Table  5  Comparison of different methods to solve the problem that objects are densely arranged

    解决问题 论文来源 方法 优点 缺点/难点
    [22, 39] 使用带有方向的边界框预测 解决密集目标定位问题 没有解决网络难以提取密集排列目标特
    [41] 使用局部再识别机制, 使用网络进行重复
    减小因密集排列漏检的目标数 对密集排列严重的目标检测效果不够好
    YolT 通过上采用来放大密集目标之间的间隙 将密集排列目标区分开 会增大图片分辨率
    注: YOLT是一个未正式发表的算法, 参见文献: Adam V. You only look twice: Rapid multi-scale object detection in satellite imagery. arXiv:1805.09512v1 [cs.CV]. 2018.
    表  6  解决复杂背景问题的不同方法对比

    Table  6  Comparison of different methods for solving complex background problems

    解决问题 论文来源 方法 优点 缺点/难点
    背景复杂 [42] 使用语义分割区分海洋和陆地 实现海陆分离, 避免陆地背景的影响 密集停靠的舰船与陆地特征相近,
    [23] 将大量不包含有目标的陆地信息作为负样本进行训练, 使网络在检测过程中自动实现海陆分离 无需海陆分离步骤, 减少陆地背景对于近岸船只的检测 海陆分离的效果易受选取的背景样
    [43] 使用多尺度的视觉注意力机制 减少不同尺寸目标预测过程中复杂背景的影响 多尺度的引入增加了网络计算量
    [44] 在Faster R-CNN 网络中加入位置敏感分数图预测 通过不同局部位置的预测综合确定目标类别 对于相似多较高的背景类难以区分
    表  7  解决样本不足问题的不同方法对比

    Table  7  Comparison of different methods for solving sample insufficient

    解决问题 论文来源 方法 优点 缺点/难点
    样本不足 [24-27, 36, 44-46] 使用包括平移、缩放、旋转、镜像翻转、水平翻
    易于实现样本扩充方法 效果有限, 扩充的数据本质上讲还是原来的数据
    [47] 使用 GAN 来进行虚拟样本生成 有效扩充样本数 时间消耗较大
    [30] 使用难分负样本挖掘来增强扩充包含有不同场景
    减少复杂背景的影响 没有扩充正样本
    [16, 41] 使用 ImageNet 数据集对主干网络进行预训练 减少深度学习模型训练
