2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于自适应全局定位算法的带钢表面缺陷检测

王延舒 余建波

王延舒, 余建波. 基于自适应全局定位算法的带钢表面缺陷检测. 自动化学报, 2024, 50(8): 1550−1564 doi: 10.16383/j.aas.c210467
引用本文: 王延舒, 余建波. 基于自适应全局定位算法的带钢表面缺陷检测. 自动化学报, 2024, 50(8): 1550−1564 doi: 10.16383/j.aas.c210467
Wang Yan-Shu, Yu Jian-Bo. Strip surface defect detection based on adaptive global localization algorithm. Acta Automatica Sinica, 2024, 50(8): 1550−1564 doi: 10.16383/j.aas.c210467
Citation: Wang Yan-Shu, Yu Jian-Bo. Strip surface defect detection based on adaptive global localization algorithm. Acta Automatica Sinica, 2024, 50(8): 1550−1564 doi: 10.16383/j.aas.c210467

基于自适应全局定位算法的带钢表面缺陷检测

doi: 10.16383/j.aas.c210467
基金项目: 国家重点研发计划 (2022YFF0605700), 国家自然科学基金(92167107), 中央高校基本业务经费项目(22120220575)资助
详细信息
    作者简介:

    王延舒:同济大学机械与能源工程学院硕士研究生. 2020年获四川大学学士学位. 主要研究方向为机器学习, 深度学习, 视觉检测与识别. E-mail: 2030211@tongji.edu.cn

    余建波:同济大学机械与能源工程学院教授. 2009年获上海交通大学博士学位. 主要研究方向为机器学习, 深度学习, 智能质量管控, 过程控制, 视觉检测与识别. 本文通信作者. E-mail: jbyu@tongji.edu.cn

Strip Surface Defect Detection Based on Adaptive Global Localization Algorithm

Funds: Supported by National Key Research and Development Program of China (2022YFF0605700), National Natural Science Foundation of China (92167107), and Fundamental Research Funds for the Central Universities (22120220575)
More Information
    Author Bio:

    WANG Yan-Shu Master student at the School of Mechanical Engineering, Tongji University. He received his bachelor degree from Sichuan University in 2020. His research interest covers machine learning, deep learning, and visual visual inspection and identification

    YU Jian-Bo Professor at the School of Mechanical Engineering, Tongji University. He received his Ph.D. degree from Shanghai Jiao Tong University in 2009. His research interest covers machine learning, deep learning, intelligent quality control, process control, and visual inspection and identification. Corresponding author of this paper

  • 摘要: 针对热轧带钢表面缺陷检测存在的智能化水平低、检测精度低和检测速度慢等问题, 提出了一种基于自适应全局定位网络(Adaptive global localization network, AGLNet)的深度学习缺陷检测算法. 首先, 引入一种残差网络(Residual network, ResNet)与特征金字塔网络(Feature pyramid network, FPN)集成的特征提取结构, 减少缺陷语义信息在层级传递间的消失; 其次, 提出基于TPE (Tree-structure Parzen estimation)的自适应树型候选框提取网络(Adaptive tree-structure region proposal extraction network, AT-RPN), 无需先验知识的积累, 避免了人为调参的训练模式; 最后, 引入全局定位回归算法, 以全局定位的模式在复杂的缺陷检测中实现缺陷更精确定位. 本文实现一种快速、准确、更智能化、更适用于实际应用的热轧带钢表面缺陷的算法. 实验结果表明, AGLNet在NEU-DET热轧带钢表面缺陷数据集上的检测速度保持在11.8帧/s, 平均精度达到79.90 %, 优于目前其他深度学习带钢表面缺陷检测算法. 另外, 该算法还具备较强的泛化能力.
  • 热轧带钢在制造业中得到广泛运用, 是制造业上游重要的原料之一. 但因其制作工艺复杂、制作环节较多, 在热轧带钢生产的过程中表面易于产生缺陷[1]. 在竞争激烈的钢铁制造行业, 高效的带钢缺陷检测可以帮助企业提高生产的效率, 进而提高企业的竞争力[2]. 传统的钢带表面检测方法主要是人工检测法和频闪光灯检测法[3], 均为非自动化检测方法, 检测速度较慢, 花费大量人力成本. 而计算机视觉检测方法是一种自动化的非接触的检测技术, 早期多基于激光扫描检测法, 后期发展出了基于摄像器件CCD (Charge coupled device)的检测方法[4]. 相对于传统方法, 计算机视觉检测具有分类能力强、检测精度高和检测成本低等优点. 而随着计算机技术、深度学习的发展, 基于卷积神经网络(Convolutional neural network, CNN)的深度学习模型广泛应用于各种缺陷检测场景之中, 展现出更加卓越的检测性能[5]. 其通过对底层特征的重组, 形成高维度的抽象特征和类别属性, 从而进行从局部特征到整体特征的图像精确识别[6].

    基于深度学习的缺陷检测是目标检测算法在实际生产中的应用, 任务是找出图像中的缺陷目标, 并确定其位置、大小和类别信息. 目前, 深度学习的检测算法主要分为两类, 一类是以Faster R-CNN[7]、Mask R-CNN[8]为代表的双阶段(Two-stage)检测算法; 另一类以YOLO[9]、SSD (Single shot multibox detector)[10]为代表的单阶段(One-stage)检测算法. 双阶段检测算法将目标检测任务分成两个阶段来完成, 首先使用区域候选网络(Region proposal network, RPN)[11]将原图分解成多个可能产生目标的候选区域, 再通过回归损失函数(Regression loss function)确定目标的位置信息, 通过分类损失函数(Classification loss function)确定目标的类别信息, 这种方法准确率比较高, 但是检测速度较慢. 凭借其在检测精度上的优越性, 双阶段检测方法在缺陷检测领域已经进行了诸多研究. Tao等[12]将Faster R-CNN用于无人机电力巡检中绝缘子缺陷定位, 首先在自然环境下确定绝缘子区域, 再从绝缘子区域中实现缺陷检测. He等[13] 通过Faster R-CNN对带钢表面缺陷进行检测, 该网络的创新在于将Backbone中多级特征图组合为一个多尺度特征图, 在NEU-DET数据集上有较好的检测效果. 单阶段检测算法使用一个全卷积神经网络, 直接从整张图来预测包围框(Bounding box)的坐标, 以及包围框中包含物体的置信度和物体类别的概率, 是一个端到端的过程. 该方法速度较快但是精确度较低. Cheng等[14] 提出具有差异通道注意力机制和自适应性空间特征融合的DEA_RetinaNet深度学习网络. 该网络采用基于差分进化搜索的锚优化方法, 提高了网络的检测精度. 同时, 利用空间特征融合模块对卷积核提取的浅层和深层特征进行有效融合. 在检测带钢缺陷时达到78.25%的平均精度. Chen等[15]使用SSD网络对接触网支撑装置上的紧固件缺陷区域进行定位, 使用不同层的特征图进行目标检测, 得到了较好的效果. Zhang等[16]将YOLO-v3版本应用于桥梁表面缺陷定位, 其主要改进在于引入预训练权重、批再规范化(Batch renormalization)和Focal loss, 进一步提高了缺陷检测率.

    上述提到的双阶段深度学习方法均基于锚标定(Anchor-based)机制进行检测. 使用Anchor机制可以产生密集的锚框(Anchor box), 使网络可以直接在此基础上进行目标分类和回归, 这有效地提高了网络目标的召回能力, 对小目标检测来说提升非常明显. 同时, 在训练过程中加入了大量先验的参数, 让Anchor-based网络更容易训练且更加稳定, 使检测效果较为理想. 然而, Anchor-based在实际训练和测试中也有诸多不足: 1)在Anchor-based网络的训练过程中重复调节参数无疑浪费了时间; 2) Anchor-based网络容易生成大量完全不包含目标的背景框, 导致正负样本严重不平衡, 浪费计算资源, 且易造成过拟合.

    为提升检测的速度和灵活性, Anchor-free网络以其更灵活的机制, 摆脱了使用锚而带来的计算量过大、冗余框过多和人为介入过度等问题, 更加适用于实际的工业检测领域, 这也逐渐成为近些年来的研究热点. Anchor-free主要以两种不同的方式检测没有预设锚的目标[17]. 一种方法是将锚框转化为关键点描述, 然后将问题转为关键点的检测与匹配问题, 例如CornerNet[18]和CenterNet[19]. Jia等[20]提出了一种改进的CenterNet来完成卫生陶瓷的缺陷检测. 另一种方法利用语义分割的思想, 将图像分解成数个小格, 对小格进行分类和回归进行密集预测, 提升了目标检测性能. Zhu等[21]提出一种目标检测的特征选择无锚(Feature selective anchor-free, FSAF)模块. 该模块可以嵌入到具有特征金字塔结构的单点探测器中. Tian等[22]提出全卷积单阶段(Fully convolutional one-stage, FCOS)检测器, 该检测器以每像素预测的方式解决了目标检测问题. 它避免了所有与锚点相关的超参数的设置, 取得了比以往基于锚点的一级检测器更好的检测效果. Kong等[23]提出FoveaBox网络, 该网络增加了两个子网, 一个用于像素级分类, 另一个用于边界盒预测, 从而提高了检测性能. 但是, Anchor-free方法较为灵活的机制, 会导致检测效果不太稳定.

    在实际的工业生产中, 需要精确度和速度都维持较高水准的检测算法, 从而应对现实的检测问题. 所以, 为了保持Anchor-based网络的稳定性和精确性, 同时具有Anchor-free网络的灵活和高速的特点, 通过点或边定位思想来获取目标更精确定位的双阶段目标检测网络相继出现. Lu等[24]提出Grid R-CNN, 借助卷积层生成热力图的方式确定初始的网格点, 从而借助这些网格点确定定位框四条边的位置, 使网络对目标的位置信息更加敏感. Wang等[25]提出边侧感知边界定位(Side-aware boundary localization, SABL)的检测方法, 通过提取出每条边的特征, 利用Bucket机制对四条边进行精确定位, 取代了传统方法对整个锚框的位置回归. 然而, 上述方法虽然在目标的检测精度上取得了进步, 但仍然存在如下问题: 1)工业产品众多, 各类产品缺陷类型多种多样, 为保证多样化的缺陷检测, 上述方法需要经过多次实验获取先验知识, 获取最优化的网络参数设置, 才能保持高精度的缺陷检测, 花费了大量的人力资源和时间; 2)各类缺陷形状差异较大, 在单一产品上的缺陷模式众多, 空间布局密集, 上述方法对密集检测效果不佳.

    为解决上述提到的问题, 本文提出自适应全局定位网络(Adaptive global localization network, AGLNet), 在提高缺陷检测精度的同时, 提出自适应树型候选框提取算法(Adaptive tree-structure region proposal extraction network, AT-RPN), 提高了检测速度, 使检测更智能化, 更加适用于各种复杂的工业缺陷检测环境. 本文的主要贡献有如下几个方面: 1)提出一种集成残差网络(Residual network, ResNet)和特征金字塔网络(Feature pyramid network, FPN)的特征提取网络结构, 有效地利用CNN的各层级特征, 减少了层级传递中的语义缺失, 更适合于工业场景中小缺陷的检测, 缓解表面缺陷空间布局密集导致的检测率低下的问题; 2)提出AT-RPN算法, 在RPN[11]的基础上加入了基于TPE (Tree-structured Parzen estimator)的自适应Anchor调节模块, 以及RoIAlign (Region of interest align)[8]池化结构, 实现了训练和测试过程锚高宽比(Anchor-ratio)参数的自主调节, 减少了人为的介入, 提高了检测精度, 同时节约了运算成本; 3)采用全局定位回归(Global localization regression)算法, 该方法预测特征图中每个单元格与真实标定框(Ground-truth box)四个方向上的偏移量(Box offsets), 经过二项分类预测(Binomial classification prediction)和稀疏选择器模块(Sparse selection module), 获取筛选后的激活点参量加入回归运算, 从而获取目标更精确的定位信息, 同时保证检测的速度. 实验中, 使用NEU-DET数据集[13]进行验证. 结果表明, AGLNet实现了端到端的热轧带钢表面缺陷检测, 解决了Anchor-based网络需要大量先验知识的问题, 同时也缓解了Anchor-free网络中不稳定的问题, 在密集检测中效果更佳, 平均精度均值达到79.90%, 具有较高的准确度和较好的实时性, 适用于复杂的工业缺陷检测环境中.

    图1所示, AGLNet结构主要包括三部分: 1)特征提取网络, 采用残差网络和特征金字塔相结合(ResNet50_FPN)的特征信息提取结构. 2) AT-RPN候选框提取算法, 结合提取到的特征信息和自适应调节后的锚框参数, 从而获取相应的候选区域. 其中RoIAlign池化网络利用多尺度特征图和真实标定框信息筛选核实的候选区域特征图. 3)全局定位回归算法, 该模块对候选区域中每个子区域进行回归计算, 获得目标的位置信息, 然后利用分类损失函数获取目标的类别信息.

    图 1  AGLNet结构
    Fig. 1  The structure of AGLNet

    特征提取网络采用ResNet50_FPN提取出原图像的多尺度的特征图, 提取流程如图1中所示. ResNet50对输入图像进行从低维度到高维度的特征提取, 生成各自阶段的特征图{$C2 $, $C3 $, $C4 $, $C 5$}; FPN利用ResNet50生成的各阶段特征图, 采取从高维度到低维度的上采样以及横向连接操作, $C5 $经过256个$1\times1 $卷积得到$T5 $. 同时, $T5 $经过上采样得到的结果与特征图$C4 $经过256个$1\times1 $的卷积得到的结果进行张量相加得到$T4 $. $T3 $和$T2 $的获取流程同$T4 $. 经过张量相加得到的{$T5 $, $T4 $, $T3 $, $T2 $} 分别经过256个$3\times 3 $的卷积, 最终得到从高维度抽象特征到低维度底层特征.

    在目标检测中, 使用多种形状大小的锚框作为初始预测, 经过RPN和感兴趣区域(Region of interest, RoI)筛选后产生候选区域, 以完成后续的目标回归和分类任务. 自适应参数配置可以减少大量的电脑运算时间, 以及获得更准确的结果, 这使得锚框的配置成为重要的超参数. 所以, 本文采用了基于TPE的参数优化算法, 形成了自适应的锚高宽比调节模块, 应用于AGLNet, 通过迭代获得最优的参数设置, 并减少了人为的介入. 超参数AscaleAratio可以借助锚的高、宽计算获得, 如式(1)和式(2)所示, 通过优化候选框高、宽的参数组合, 以达到最优的检测效果.

    $$ \begin{equation} A_{{\rm{scale}}}=\sqrt{h\times w} \end{equation} $$ (1)
    $$ \begin{equation} A_{{\rm{ratio}}}=\;\frac{h}{w} \end{equation} $$ (2)
    $$ \begin{equation} w\;\leq W,\;\;\;h\;\leq H \end{equation} $$ (3)

    其中, $ {A_{{\rm{scale}}}} $是锚框尺度(Anchor scale), 意味着锚框面积的开方; $ {A_{{\rm{ratio}}}} $是锚框的高宽比; W, H是候选区域的宽与高.

    近些年来有很多关于超参数优化问题的研究, 其中较为有效的方法是贝叶斯优化[26]. 而TPE优化算法是根据贝叶斯优化的思想, 使用高斯混合模型(Gaussian mixture model, GMM)来学习超参数模型的方法, 可以使用预期改进选择下一个超参数. 相比于其他贝叶斯优化方法, TPE在高维空间效果更好, 同时在速度上有显著的提升[26].

    在传统检测中, 需要首先设定锚框的高宽比和框的大小, 例如[0.5, 1, 2]和[4, 8, 16]. 但是, 这种办法具有较明显的不足: 只是对一张图片的多个像素点进行机械选取, 无法根据实际情况选取出最优化的框, 此过程生成约20 000张候选区域, 再根据交并比(Intersection over union, IoU)的标准进行筛选[11], 这无疑浪费了大量的资源. 并且, 对于一些形状特殊的目标缺陷, 根据传统设置的参数无法选取到最优的结果. 由此启发了本文对锚框尺度Ascale和锚框高度比Aratio两个超参数进行优化的想法, 进而打造最优质的候选框. AT-RPN将锚框高(h)和宽(w)作为输入的超参数, 并通过式(1)和式(2)计算出锚框的高宽比和锚框尺度.

    AT-RPN超参数优化过程如下.

    步骤 1. 设置超参数筛选域, 对超参数高(h)和宽(w)的取值范围进行定域.

    步骤 2. 设置目标函数, AT-RPN的损失函数由分类损失函数和回归函数构成, 定义为

    $$ \begin{equation} \begin{split} L(\{p_i\}, \{r_i\})=\;&\frac1{N_{\rm cls}}{\sum_i}L_{\rm cls}(p_i, p_i^\ast)\;+\\ &\mu\frac1{N_{\rm reg}}{\sum_i}p_i^\ast L_{\rm reg}(r_i, r_i^\ast) \end{split} \end{equation} $$ (4)

    在AT-RPN算法中, 目标函数是损失函数, 目标值为损失函数的值, 高和宽作为超参数. 通过输入不同的高和宽, 反复迭代实现损失值的减少, 以达到最优的目的. 式中, $ {p_i} $表示第$i $个锚框的预测概率, $ {p_i^\ast} $表示IoU标定的概率. 当标定框包含目标时, $ {p_i^\ast} $ = 1; 当标定框不包含目标时, $ {p_i^\ast} $ = 0. $ {N_{\rm cls}} $, $ {N_{\rm reg}} $, $ {\mu} $为固定值.

    $ {L_{\rm cls}(\cdot)} $表示是否为目标的对数损失函数, 即

    $$ \begin{equation} L_{\rm cls}(p_i,p_i^\ast)=\lg\lbrack p_i\cdot p_i^\ast+(1-p_i\;)(1-\;p_i^\ast)\rbrack \end{equation} $$ (5)

    $ {L_{\rm reg}(\cdot)} $表示修正参数后的回归损失函数, 定义为

    $$ \begin{equation} L_{\rm reg}({r_i}, {{r_i}^\ast})={ \sum_{i\in\{x, y, w, h\}}}{ smooth_L}({r_i}-{r_i}^\ast) \end{equation} $$ (6)

    式中, $ {r_i} =$ $ {r_x} $, $ {r_y} $, $ {r_w} $, $ {r_h} )$表示候选区域预测的距离参数, ${r_i^\ast}$= $( {r_x^\ast}$, $ {r_y^\ast} $, $ {r_w^\ast} $, $ {r_h^\ast}) $表示与目标真实标定框的距离. $ { smooth_{L}(x)} $ 函数定义为

    $$ \begin{equation} smooth_{L}(x)=\left\{\begin{array}{l}0.5x^2\;, \;\;\;\;\;\;\left|x\right|<1\\\left|x\right|-0.5, \;\; {否则} \end{array}\right. \end{equation} $$ (7)

    $ {r_i} $和$ {r_i^\ast} $的计算式分别为

    $$ \begin{equation} \begin{split} &r_x=\frac{x-x_a}{w_a}, \;\;r_y=\frac{y-y_a}{h_a} \\ &r_w=\lg\frac w{w_a}, \;\;r_h=\lg\frac h{h_a}\;\; \end{split} \end{equation} $$ (8)
    $$ \begin{equation} \begin{split} &r_x^\ast=\frac{x^\ast-x_a}{w_a}, \;\;r_y^\ast=\frac{y^\ast-y_a}{h_a} \\ &r_w^\ast=\lg\frac{w^\ast}{w_a}, \;\;\;r_h^\ast=\lg\frac{h^\ast}{h_a}\;\; \end{split} \end{equation} $$ (9)

    式中, $ {x^\ast} $, $ {y^\ast} $, $ {w^\ast} $, $ {h^\ast} $分别为目标真实标定框中心点横坐标和纵坐标、标定框宽度和高度; $ {x_a} $, $ {y_a} $, $ {w_a} $, $ {h_a} $分别为预测出的锚框中心点横坐标和纵坐标、锚框宽度和高度.

    步骤 3. 在模型被赋予到初始化的超参数数值之后, 建立高斯回归模型, 目的是使目标函数中的超参数的取值符合联合正态分布, 便于后续模型利用迭代过的历史信息进行优化取值.

    通过以上3个步骤, AT-RPN获取到一个待优化的超参数模型:

    $$ \begin{equation} L:\chi\rightarrow {\cal R} ,\qquad x\in\chi \end{equation} $$ (10)

    其中, $ {\chi} $是超参数的范围, $x $为模型中的超参数.

    步骤 4. 转换待优化模型为代理函数, 即

    $$ \begin{equation} x_{i+1}= {\rm{arg}}\mathop {{\rm{max}} }_{x}L(x;\Psi_i) \end{equation} $$ (11)

    步骤 5. 使用采集函数(Acquisition function), 在每次迭代中, 从现有的众多超参数中决定输入的超参数.

    步骤 6. 选取一个输入的超参数$ {(x_i\in\chi)} $, 输入到原模型$L(x) $中, 得到的结果为

    $$ \begin{equation} y_t=L(x;\Psi_i)+\epsilon \end{equation} $$ (12)

    其中, $ {\epsilon} $为平均值的高斯分布$ {\epsilon}\; {\sim} \;{\rm N} $(0, $ {\sigma^2} $)的噪音, $ {\sigma} $是噪音的方差.

    步骤 7. 观察到该组值$ {x_i} $, $ {y_i} $, 并加入到现有的观察到的数据中:

    $$ \begin{equation} \Psi_{i+1}={\{\Psi_i\;, \;(x_{i+1}, y_{i+1})\}}\\ \end{equation} $$ (13)

    式中, $ {\Psi_i} $为现有观察到的数据, 待新数据加入后进行下一轮迭代, 重复步骤4 ~ 7.

    在式(11)中, 采用期望函数(Expected improvement, EI)作为采集函数, 通过构造增益期望函数来获取新测量值相较于历史最优值的增益的期望值, 使其可以在探索和利用之间选取一个较为平衡的点作为下一组超参数的标准. 期望函数中最常见的为

    $$ \begin{equation} EI_{y^\ast}(x)=\int_{-\infty}^{y^\ast}(y^\ast-y)p(y\vert x)\operatorname d y \end{equation} $$ (14)

    式中, $ {y^\ast} $是目标函数的阈值, $x $是建议的超参数, $y $是使用超参数$x $的目标函数所取到的实际值, $p(y {|} x)$是表示在给出$x $后$y $的概率. TPE优化模型在遵循贝叶斯优化的基础上, 设置:

    $$ \begin{equation} p(x\vert y)=\left\{\begin{array}{l}l(x)\;\;, \;\;\;\;\;\;若\;y\leq y^\ast\\g(x)\;, \;\;\;\;\;\;若\;y>y^\ast\end{array}\right. \end{equation} $$ (15)

    在这里, 本文设置上一次运算的$ {y_t} $值为本次运算的阈值$ {y^\ast} $. $l(x )$代表小于或等于上一次迭代中目标函数$ {y^\ast} $的$x $的概率分布; $g(x) $代表大于上一次迭代中目标函数值$ {y^\ast} $的$x $的概率分布. 为了优化目标函数的值, 不断进行迭代以获取${{l(x)}/{g(x)}}$的最大值.

    在本模型中, 采用EI作为采集函数, 构建TPE算法的EI函数为

    $$ \begin{equation} \begin{split} EI_{y^\ast}(x)=\;&\int_{-\infty}^{y^\ast}(y^\ast-y)p(y\vert x)\operatorname d y=\\ &\int_{-\infty}^{y^\ast}(y^\ast-y)\frac{p(y\vert x)p(y)}{p(x)}\operatorname d y \end{split} \end{equation} $$ (16)

    设置$ {\gamma=p(y<y^\ast)} $, $ {\gamma} $为目标函数的值低于阈值的概率, 且

    $$ \begin{equation} \begin{split} &p(x)=\int p(x\vert y)p(y)\operatorname d y=\\ &\quad\qquad\gamma l(x)+(1-x)g(x) \end{split} \end{equation} $$ (17)

    根据前述, 可知:

    $$ \begin{equation} \begin{split} EI_{y^\ast}(x)=\;&\int_{-\infty}^{y\ast}(y^\ast-y)p(x\vert y)p(y)\operatorname d y=\\ &l(x)\int_{-\infty}^{y\ast}(y^\ast-y)p(y)\operatorname d y=\\ &\gamma y^\ast l(x)-l(x)\int_{-\infty}^{y\ast}p(y)\operatorname d y \end{split} \end{equation} $$ (18)

    则原EI函数可以转换为[25]

    $$ \begin{equation} EI_{y^\ast}(x)=\frac{\gamma y^\ast l(x)-l(x)\int_{-\infty}^{y^\ast}p(y) {\rm{d}}y}{\gamma l(x)+(1-x)g(x)} \end{equation} $$ (19)

    在每次迭代中, TPE算法可以决定得到最优EI的$ {x^\ast} $作为候选超参数点加入$ {\Psi_i} $中, 进行下一步迭代, 直至达到最大迭代次数或终止时间. 本文提出的基于TPE的优化算法见算法1所示.

    算法 1. TPE算法

    输入. 初始锚框宽和高$(w, h) $数组

    输出. 锚框最优组合$(w, h) $

    1: 模型参数初始化;

    2: For $i=1, 2, 3,\cdots $, 迭代开始;

    3: 使用高斯过程回归处理数组;

    4: 设置采集函数${\rm arg} \mathop {{\rm{max}} }_{x}L$并选择$ {x_{i+1}} $输入到模型:

    $${x_{i+1}}={\rm arg}\mathop {{\rm{max}} }_{x}L(x;\Psi_i)$$

    5: 获取目标函数值$ {y_{i+1}} $;

    6: 将新超参数$ {(x_{i+1}, y_{i+1})} $加入到原超参数数组$ {\Psi_{i+1}} $= $ \{{\Psi_i} $; $ {(x_{i+1}, y_{i+1})} \}$, 原超参数数组更新;

    7: 根据新的超参数数组更新统计模型;

    8: 重复步骤3 ~ 7, 直至迭代到最大次数或取得最优解;

    9: 迭代结束.

    图2为本文提出的TPE自适应Anchor-ratio调节模块流程图.

    图 2  TPE自适应Anchor-ratio调节模块流程图
    Fig. 2  Flow chart of TPE adaptive anchor-ratio adjustment module

    输入图像在经过ResNet50_FPN卷积后, 得到不同尺度的特征图, 依次输入到AT-RPN, 得到一组矩形候选区域. 每个候选区域都具有描述该区域包含缺陷目标的置信度. 在传统的RPN[11]中, 通过如下步骤完成候选区域提取的工作: 1)采用256个$3\times3 $的窗口依次在各层的特征图上进行滑动. 2)在滑过的每一个位置上映射出三个具有固定尺寸和不同高宽比的锚框, 各层特征图的锚框尺度不同, 锚框配置为Ascale = [8, 16, 32, 64, 128], Aratio = [0.5, 1, 2]. 3)上述操作得到的$256 $维特征图并列输入到回归层和分类层. 回归层对锚框的中心点坐标和宽高进行回归预测, 从而得到候选区域的位置信息; 分类层计算区域前景后景分数, 判断是否包含缺陷目标. 4)采用非极大值抑制法(Non-maximum suppression, NMS)对获得的候选区域进行筛选, 减少冗余且不影响精度的区域. 本文提出的AT-RPN嵌入了基于TPE的锚优化模块, 在训练和测试时, 无需输入锚框的配置, 在初始化值赋予之后自动进行超参数优化, 获取最优的参数配置, 提高了网络的精度. 图3为AT-RPN的整体结构图.

    图 3  AT-RPN整体结构图
    Fig. 3  Whole structure of AT-RPN

    在训练过程中, 给每个锚框分配一个二进制标签, 采用IoU的方式, 判断该区域属于目标还是背景. IoU表示锚框和目标真实标定框之间的交集面积和并集面积之比, 定义为

    $$ \begin{equation} IoU(A, B)=\left|\frac{A\cap B}{A\cup B}\right| \end{equation} $$ (20)
    $$ \begin{equation} I=\left\{\begin{array}{l}\,\;\;1, \;\;\;\;\;0.7< IoU\leq1\\\;\,\;0, \;\;\;\;\;0.3< IoU\leq0.7\\-1, \;\;\;\;\;0\leq IoU\leq0.3\end{array}\right.\\ \end{equation} $$ (21)

    式中, $ { I} $为分配的二进制标签, 当$ { IoU} $大于等于0.7时, 标记该区域为正样本$(I=1 )$, 加入训练; 当$ { IoU} $小于等于0.3时, 标记该区域为负样本$(I=-1) $, 加入训练; 而剩余的样本会影响模型精度, 故不参与训练 $(I=0)$.

    AGLNet采用RoIAlign方法将候选区域池化为固定尺寸的特征图, 以便后续的目标分类和位置回归的操作. 在传统的双阶段检测网络中, 一般使用RoIPooling的方法经过两次量化过程固定特征图: 1)将候选区域的边界量化为整数坐标值; 2)将量化后的边界区域平均分割成$k\times k $个单元, 对每一个单元的边界进行量化. RoIPooling反向传播具体计算为

    $$ \begin{equation} \frac{\partial L}{\partial x_i}={\sum\limits_r}{\sum\limits_j}\lbrack i=i^\ast(r,j)\rbrack\frac{\partial L}{\partial y_{rj}}\end{equation} $$ (22)

    式中, $r $表示候选区域的序列, $i $代表像素点的序列, $ {x_i} $表示池化前特征图上的像素点, $ {y_{rj}} $代表池化后的第$r $个候选区域的第$j $个点, ${i^\ast}(r,\, j)$代表最大池化过程中选出的最大像素点所在的坐标. 当池化过程中某一个像素值采用了当前点$ {x_i} $的像素值, 即$ i={i^\ast}(r,\, j) $时, 才会传回梯度. 但是, 在整个过程中存在一些不足, 最终结果是通过两次四舍五入的量化过程得到的, 由此产生了一定的误差, 影响到目标检测的精确性. 为解决该问题, 本文采用RoIAlign, 取消量化过程, 使用双线性内插的方法得到坐标浮点数像素点上的图像值, 从而将上述问题转化为连续操作, 具体过程如下: 1)遍历每一个候选区域, 保持该区域的浮点数边界不变; 2)将候选区域平均分割为$k\times k $个单元, 保持每个单元边界不变; 3)在每个单元中计算固定的4个坐标位置, 用双线性内插方法计算该4个位置的值, 再进行最大池化的操作. 双线性内插法是做了两次一维的线性插值, 用4个最邻近估计给定灰度, 即

    $$ (u',v'),(u',v'+1),(u'+1,v'),(u'+1,v'+1) $$ (23)

    新图像的输入像素点$( {u_0} $, $ {v_0}) $必定落在原始图像的4个像素点中间, 具体计算为

    $$ \begin{equation} \begin{split} g(u_0,v_0)=\;& (1-\alpha)(1-\beta)g(u',v')\;+\\ &\alpha(1-\beta)g(u'+1,v')\;+\\ & \beta(1-\alpha)g(u', v'+1)\;+\\&\alpha\beta g(u'+1,v'+1) \end{split} \end{equation} $$ (24)

    式中, $\alpha $设为在平面直角坐标系中, $x $轴上$u' $到$u_0 $的长度与$u' $到$u'+1 $的长度的比值; $\beta $设为在平面直角坐标系中, $y $轴上$v' $到$v_0 $的长度与$v' $到$v'+1 $的长度的比值.

    RoIAlign的反向传播公式为

    $$ \begin{equation} \begin{split} \frac{\partial L}{\partial x_i}=\;&{\sum_i}{\sum_j}\lbrack d(i, i^\ast(r, j))<1\rbrack\;\times\\&(1-\triangle h)(1-\triangle w)\frac{\partial L}{\partial y_{rj}} \end{split} \end{equation} $$ (25)

    式(25)表示每一个与$ {i^\ast}(r,\; j) $横、纵坐标差值小于1的点都接受与此对应的点$ {y_{rj}} $回传的梯度, $d( {\cdot},\; {\cdot}) $表示两点之间的距离, $ {\triangle h} $和$ {\triangle w} $表示$ {x_i} $与${i^\ast}(r,\, j)$横纵坐标的差值.

    在传统的双阶段网络中, 通过包围框回归(Bounding-box regression)确定目标在图像中的位置信息[7-8]. 通过第一阶段网络获得目标的候选框$P( {x_p} $, $ {y_p} $, $ {w_p} $, $ {h_p}) $, $ {x_p} $, $ {y_p} $是候选框中心点的横、纵坐标信息, $ {w_p} $, $ {h_p} $是候选框的宽和高. 目标的真实位置信息通过$ G({x_g} $, $ {y_g} $, $ {w_g} $, ${h_g} )$来表示, $ {x_g} $, $ {y_g} $是目标真实标定框中心点的横、纵坐标信息, $ {w_g} $, ${h}_g$是真实标定框的宽和高信息. 在传统的回归方法(例如Faster R-CNN)中, $ {\triangle x} $, $ {\triangle y} $, $ {\triangle w} $, $ {\triangle h} $是预测单个框的偏移量, 具体计算为

    $$ \begin{equation} \begin{split} &\triangle x=\frac{x_g-x_p}{w_p}, \;\;\;\;\triangle y=\frac{y_g-y_p}{h_p}\\ &\triangle w={\rm lg}\frac{w_g}{w_p}, \;\;\;\;\;\;\;\;\triangle h={\rm lg}\frac{h_g}{h_p} \end{split} \end{equation} $$ (26)

    传统的方法Faster R-CNN是通过预测上述4个偏移量来确定目标的位置, 在候选框和真实标定框之间存在很大位移时, 精确定位会变得很困难, 影响最终的检测精度. 在实际的工业缺陷检测中, 缺陷的形状各异, 需要更加精确的位置信息, 因此本文引入了全局定位回归方法, 如图1所示. 在经过RoIAlign之后, 网络可以获得被分为$k\times k $单元的特征图, 将每一个单元的特征信息输入到全卷积网络中, 计算每个单元特征$ {u_i} $在各自位置$( {x_i} $, $ {y_i}) $到真实标定框$G $左上角和右下角的距离, 借此进行位置偏移量的预测, 以确定目标的精确位置[27]. 本文方法摆脱了锚框的限制, 使用对全局各点的偏移量的回归计算, 使网络对目标的位置更加敏感, 获得精确的位置信息. 特征图各单元格位置偏移量具体计算为

    $$ \begin{equation} \begin{split} &l_i=\frac{x_i-x_l}{w_p}, \;\;\;\;\;t_i=\frac{y_i-y_t}{h_p}\\ &r_i=\frac{x_r-x_i}{w_p}, \;\;\;\;\;b_i=\frac{y_b-y_i}{h_p} \end{split} \end{equation} $$ (27)

    其中, $ {l_i} $, $ {t_i} $, $ {r_i} $, $ {b_i} $分别表示单元格到真实标定框左边界、上边界、右边界和下边界的距离; $ {x_i} $, $ {y_i} $表示单元格位置的横、纵坐标, $ {x_l} $, $ {y_t} $和$ {x_r} $, $ {y_b} $分别表示真实标定框左上角和右下角的横、纵坐标.

    然而, 将特征图的单元格全部输入到全卷积中, 无疑会花费大量计算, 并且单元格具有前景和背景的信息, 具有背景信息的单元格加入回归中会降低最终检测的效果. 所以, 进行了两次稀疏化的操作: 首先, 标签化每个单元格, 使用二项分类预测第一次的稀疏化操作, 通过该预测算法, 将每一个单元格标签化, 判断每个单元是属于前景还是后景特征. 若该单元格为前景信息, 则判断$ {c_i} $为1; 若不是前景信息, 则判断$ {c_i} $为0. 并只允许具有前景信息的单元格加入运算, 定义如下:

    $$ \begin{equation} c_i=\left\{\begin{array}{l}1, \;\;\;\;\;u_i\in G\\0, \;\;\;\;\; {否则} \end{array}\right. \end{equation} $$ (28)

    $ {c_i} $作为单元格分类判断的输出量加入到位置偏移量运算中, 形成5个条件的回归$ {l_i} $, $ {t_i} $, $ {r_i} $, $ {b_i} $, $ {c_i} $. 在训练时, 二项分类预测输出值$ {c_i} $传入sigmoid激活函数计算二值交叉熵损失. 在上述操作完成后, 进入第二个稀疏化选择模块进行筛选, 在全连接层中加入Dropout稀疏化操作, 使神经网络向前迭代的过程中随机让网络的50%的节点停止工作, 并且不更新权重, 有效地避免了输入太多点后产生过拟合, 同时显著减少了运算量.

    图4为AGLNet方法(图4(a))与传统回归的Faster R-CNN (图4(b))和关键点定位算法Grid R-CNN (图4(c))之间的网络结构比较. 由图4可知, Faster R-CNN将候选框和真实标定框中心点之间的差值与两框高和宽之间的差值, 输出为单一向量进行回归预测, 对目标的位置缺少有效的监督, 无法得到较好的检测效果. Grid R-CNN采用了多关键点定位的方法, 首先通过热力图(Heatmap)的方式找到候选区域中目标的9个关键点位置信息, 通过预测点的加权求和得到预测框的边界信息, 该方法采用多点监督的方式, 具有更高的敏感性, 可以获得更好的检测效果. 本文方法对候选区域的单元格进行两次筛选, 获取对定位起到关键作用的单元格位置信息加入到回归运算中, 对目标位置具有更高的敏感性.

    图 4  AGLNet与Faster R-CNN和Grid R-CNN的比较
    Fig. 4  Comparison of AGLNet with Faster R-CNN and Grid R-CNN

    实验采用的硬件配置为Intel (R) Core (TM) i7-8700K处理器, GTX 1080 Ti显卡, 软件环境为CUDA10.0和cuDNN7.6, 开发环境为Ubuntu18.04. AGLNet模型通过Pycharm和开源的深度学习框架Pytorch1.1.0来完成. 在训练中使用随机梯度下降(Stochastic gradient descent, SGD)优化器优化网络参数, 学习率为0.0015, Momentum为0.9, 一共迭代24 000次. 在目标检测中, 评价网络性能时需要同时兼顾精确率(Precision, P)和召回率(Recall, R), 一般使用平均精度(Average precision, AP)和平均精度均值(Mean average precision, mAP)来评价网络的性能. AP表示某一类缺陷的检测精度, 计算式如式(29)所示. mAP是所有类别检测精度的均值, 计算式如式(30)所示:

    $$ \begin{equation} AP(i)=\int_0^1P(R)\operatorname d R \end{equation} $$ (29)
    $$ \begin{equation} mAP=\frac{{\sum\limits_{i=1}^{n}}AP(i)}n \end{equation} $$ (30)

    其中, $i $表示某一类别的缺陷, AP($i $)为某一类别的检测精度, $n $为总类别数. $P $表示精度, $R $表示召回率, $P $和$R $的计算式分别为

    $$ \begin{equation} P\;=\;\;\frac{TP}{TP+FP} \end{equation} $$ (31)
    $$ \begin{equation} R\;=\;\;\frac{TP}{TP+FN} \end{equation} $$ (32)

    式中, $TP $为成功预测的正例, $FN $为被误判为负例的正例, $FP $为被误判为正例的负例. $TP +FP$即表示为检测出的正样本总数, $TP+FN $表示所有正样本数. 通过计算IoU并设定阈值确定分类结果是否正确, 从而确定$TP $、$FP $和$FN $的数量.

    FPS (Frane per second)为网络模型每秒可以检测的图片数量, 用于评价网络模型的检测速度, 具体计算为

    $$ \begin{equation} FPS\;=\;\;\frac{N_{{\rm{figure}}}\;}{A_{{\rm{time}}}} \end{equation} $$ (33)

    式中, ${N_{{\rm{figure}}}}$为检测图片的总数, ${A_{\rm{time}}}$为检测总时间.

    本次实验采用NEU-DET数据集[13]验证AGLNet模型在工业缺陷检测场景下的精度和速度. 该数据集是关于热轧带钢的6类表面缺陷的图片和标签, 每类缺陷图片为300张, 共1800张, 图片大小为$200\times 200 $像素. 缺陷类型如图5所示, 分别为裂纹(Crazing)、夹杂(Inclusion)、斑块(Patches)、麻点(Pitted-surface)、压入氧化(Rolled-in_scale)和划痕(Scratches).

    图 5  NEU-DET数据集热轧带钢表面缺陷
    Fig. 5  Surface defects of hot rolled strip in NEU-DET dataset

    随机划分训练集和测试集比例为7 : 3, 即测试集为1260张, 测试集540张. 图片储存为 .jpg格式的灰度图, 缺陷的位置和类别信息以VOC数据集的格式储存为 .xml文件. 由于热轧带钢表面的复杂性, 同类缺陷的外观具有较大差异, 而不同种类缺陷色差和形状具有相似部分, 且与背景颜色差异度低, 目标缺陷的高宽比具有很大的差异性, 因而增加了精确位置定位的难度.

    2.2.1   带钢表面缺陷检测结果分析

    为了检验AGLNet的检测精度, 选取了4种经典的目标检测模型(Faster R-CNN, RetinaNet, FCOS, Grid R-CNN)和YOLO系列算法(YOLO-v1, YOLO-v2, YOLO-v3, YOLO-v4, YOLO-v5, YOLOF)与AGLNet模型进行对比实验. Faster R-CNN, RetinaNet, FCOS, Grid R-CNN均采用ResNet50作为特征提取网络; 为了保证YOLO系列算法的完整性和高效性, YOLO系列算法没有使用ResNet50替代原本特征提取网络. 如表1对比实验结果所示, 相比于其他方法, AGLNet实验方法取得了最高的平均精度均值. 相较于精度较高但速度较慢的经典双阶段模型Faster R-CNN, AGLNet, 在NEU-DET数据集上的mAP依然提高了0.70%的精度. 相较于兼顾检测速度和精度的RetinaNet而言, AGLNet的mAP提高了4.54%. 对比于同样基于Anchor-free思想的FCOS来说, AGLNet提高了4.72%的mAP. 相较于同样采用点偏移量回归定位的双阶段网络Grid R-CNN, AGLNet的mAP提高了6.76%. 就YOLO系列检测算法而言, AGLNet比YOLO-v1, YOLO-v2, YOLO-v3, YOLO-v4, YOLO-v5, YOLOF分别提高了17.00%, 13.37%, 10.50%, 1.91%, 3.08%和2.58%. 从单一缺陷角度分析, AGLNet在划痕缺陷的检测上有显著的提升, 达到了最高的检测精度96.64%. 另外, AGLNet检测麻点缺陷时保持最优的检测精度, 达到了91.67%; 在夹杂和斑点两种缺陷的检测上也具有十分突出的检测结果; 在检测裂纹和压入氧化缺陷特征时, 仍维持较高的水平.

    2.2.2   检测结果分析

    为进一步评估网络的性能, 表2展示了AGLNet, Gird R-CNN和Faster R-CNN在NEU-DET数据集的对比测试结果. Faster R-CNN, Grid R-CNN和AGLNet均属于双阶段网络, 通过AGLNet与其他两种算法的对比可以得出, 凭借AGLNet对于缺陷特征的高敏感性的特点, 可以在实际的缺陷检测中检测到更细小的缺陷信息, 最终获取更准确的缺陷定位, 生成更多比较细小的缺陷检测框. Grid R-CNN和AGLNet都是基于Anchor-free思想的检测模型, 通过表2中对比可以得出, 此类思想的检测算法均会生成数量较多、较为细小的缺陷框, AGLNet识别出来的小缺陷位置更加准确. 综上结果, AGLNet凭借其对图像的高敏感性, 降低了多个缺陷空间位置聚集导致的干扰, 对于夹杂、斑点、麻点以及划痕这四类空间分布密集的缺陷具有突出的检测效果. 但是, 由于AGLNet对图像缺陷的敏感程度过高, 其在检测裂痕缺陷时, 提取出过多的缺陷特征, 将实际的缺陷区域划分成多个缺陷区域, 导致检测出的区域和实际标定的区域出现了较大偏差, 致使该缺陷类型的检测精度相对较低.

    表 1  各个模型在NEU-DET数据集的缺陷检测平均精度结果(%)
    Table 1  The average precision results of defect detection for each model in the NEU-DET dataset (%)
    方法 平均精度均值 裂纹 夹杂 斑块 麻点 压入氧化 划痕
    Faster R-CNN 79.20 71.31 84.63 82.92 80.17 80.31 75.87
    RetinaNet 75.36 53.02 78.74 93.33 91.37 62.21 73.49
    FCOS 75.18 52.41 75.03 91.48 84.85 62.86 84.43
    Grid R-CNN 73.14 41.52 78.68 86.23 86.47 59.74 86.21
    YOLO-v1 62.90 42.35 63.42 68.23 66.49 69.37 67.53
    YOLO-v2 66.53 47.35 70.47 72.23 65.82 65.49 77.84
    YOLO-v3 69.40 68.39 61.88 71.44 68.33 72.66 73.71
    YOLO-v4 77.99 64.87 70.84 93.24 83.83 69.52 85.63
    YOLO-v5 76.82 62.42 75.76 84.23 81.27 64.59 92.63
    YOLOF 77.32 63.48 71.82 90.56 85.21 64.24 88.63
    AGLNet 79.90 54.72 83.31 88.63 91.67 64.42 96.64
    下载: 导出CSV 
    | 显示表格
    表 2  AGLNet、Grid R-CNN and Faster R-CNN基于NEU-DET数据集的对比测试结果
    Table 2  Comparison results of AGLNet, Grid R-CNN and Faster R-CNN based on NEU-DET dataset
    裂纹 夹杂 斑块 麻点 压入氧化 划痕
    AGLNet
    Grid R-CNN
    Faster R-CNN
    下载: 导出CSV 
    | 显示表格
    表 3  各模型FLOPs, Params和FPS对比结果
    Table 3  Comparison of FLOPs, Params and FPS of each model
    方法 FLOPs (GMAC) Params (M) FPS (帧/s)
    Faster R-CNN 408.36 98.25 ~8.2
    RetinaNet 239.32 37.74 ~12.3
    FCOS 438.68 89.79 ~9.3
    Grid R-CNN 329.51 64.32 ~10.2
    YOLO-v3 89.45 27.84 ~15.4
    YOLOF 151.47 63.24 ~13.4
    AGLNet 273.95 79.80 ~1.8
    下载: 导出CSV 
    | 显示表格
    2.2.3   检测速度分析

    为了评估AGLNet的检测速度, 表3将模型每秒浮点运算次数(Floating point operations per second, FLOPs)、模型参数量(Parameters, Params)和模型每秒处理图片量(FPS)与其他检测器进行比较. FLOPs表示所需的计算能力, Params参数大小描述所需的内存. 如表3所示, AGLNet的FLOPs低于其他两款双阶段的模型Faster R-CNN和Grid R-CNN, 在检测的精度上高于这两款模型. 这表明AGLNet在提高计算精度的同时, 降低了模型的计算量. 相较基于Anchor-free思想的RetinaNet, FCOS和Grid R-CNN, AGLNet的FLOPs高于RetinaNet, 低于FCOS和Grid R-CNN. 相较追求速度的YOLO系列的算法, AGLNet在FLOPs方面是不足的, 但是精度高于两者的精度. 综上, 在追求检测精度和检测速度的前提下, AGLNet保持着最高的检测精度, 同时AGLNet也有较高的FPS, 表明AGLNet模型在检测速度上也较为优秀, 能够满足实际生产中实时缺陷检测的速度要求.

    表 4  各类缺陷在不同IoU阈值下的测试结果
    Table 4  Detection results of various defects under different IoU thresholds
    IoU阈值 缺陷类型 gts Dets Recall mAP
    IoU0.5 裂纹 139 1 886 0.935 54.72
    IoU0.75 裂纹 139 1 823 0.923 47.48
    IoU0.5 夹杂 181 1 188 0.945 83.31
    IoU0.75 夹杂 181 1 163 0.932 82.17
    IoU0.5 斑块 151 627 0.960 88.63
    IoU0.75 斑块 151 591 0.942 89.45
    IoU0.5 麻点 88 689 0.955 91.67
    IoU0.75 麻点 88 636 0.938 89.24
    IoU0.5 压入氧化 126 1 034 0.893 64.42
    IoU0.75 压入氧化 126 1 051 0.882 59.66
    IoU0.5 划痕 117 317 0.991 96.64
    IoU0.75 划痕 117 322 0.986 92.79
    IoU0.5 全部缺陷 802 5 741 0.947 79.90
    IoU0.75 全部缺陷 802 5 586 0.934 76.79
    下载: 导出CSV 
    | 显示表格
    2.2.4   模型评估

    为了全面评估模型的性能, 分析模型尚存在的不足, 本文结合上述实验结果进行更充分的分析. 根据表1, 以裂纹类型的缺陷为例, RetinaNet, FCOS, Grid R-CNN以及AGLNet对其的检测精度分别是53.02%, 52.41%, 41.52%以及54.72%, 检测效果都不太理想. 根据AP的计算式(29)可得出, 高水平的AP需要精度和召回率同时保持较高水平才能实现, 因此本文进行如下实验, 分别将IoU的阈值设置为0.5和0.75, 探究IoU阈值设置对模型的检测结果、召回率、平均检测精度的影响, 实验结果如表4所示. 其中, gts为测试集中真实存在的全部缺陷数量, Dets表示检测出来的缺陷总数, Recall代表检测出来的缺陷比例, mAP表示检测出来的缺陷的平均精度.

    实验结果表明, 在使用AGLNet测试NEU-DET数据集时, 提高了IoU的阈值设置, 会显著降低平均检测精度的水平, 共降低了3.11%的平均检测精度; 但是对召回率的影响不大, 仅降低了1.3%. 在IoU0.5的情况下, 平均召回率达到了0.947, 裂纹和压入氧化两个缺陷的召回率也分别达到了0.935和0.893; 在IoU0.75的情况下, 平均召回率达到了0.934, 裂纹和压入氧化两个缺陷的召回率也分别达到了0.923和0.882. 上述情况表明, AGLNet对目标检测的能力是极佳的, 可以识别出原图中绝大多数的缺陷目标. 综上, 提高IoU的阈值对召回率影响不大, 但是对精确度影响显著, 说明已识别出来的高质量正样本是足够的. 提高阈值, 去除低质量正样本后, TP仍然可以保持较高的水平.

    同时, 在IoU0.5的情况下, 6种缺陷的召回率都相对较高, 但裂纹和压入氧化的mAP却很低. 通过统计, 裂纹数据集中, 真正的缺陷总数为139个, 但是AGLNet检测出来1 886个缺陷目标, 负样本数远远超过正样本的数量, 导致计算的精确度较低, 这是最终没有获得理想结果的主要原因.

    经过具体分析检测的结果图片, 裂纹和压入氧化等缺陷有如下几个特点, 从而加大了图片的检测难度: 1)缺陷图片的分辨率差; 2)缺陷的空间布局密集; 3)真实标定框内有多处非缺陷的正常区域; 4)缺陷呈线型不规则的结构.

    图6中, 以两个缺陷的图片为例, 左列为真实标定框的位置图片, 右列为AGLNet检测出来的区域. 经过对比, 在原始标注的图中, 由于缺陷过于不规则, 人为标注的真实标定框的区域其实包含了一部分缺陷区域和一部分正常区域. 在检测结果图中, AGLNet算法仅将缺陷区域识别出来, 而将正常区域去除, 导致输出了多个且较小的检测目标框. 所以AGLNet凭借其对图片的高敏感度, 仅将图中缺陷的位置检测出并输出, 并没有输出真实标定框中正常区域. 虽然AGLNet能够更精确地检测出缺陷的位置, 但由于与真实标定框的位置不相符, 从而导致在最终计算检测结果与真实标定框的重叠率时, 结果变差, 最终的mAP结果不太理想.

    图 6  AGLNet模型下裂纹和压入氧化缺陷检测结果与人工标注位置对比
    Fig. 6  Comparison between inspection results of crazing and rolled-in_scale defects under AGLNet model and manually marked positions
    2.2.5   消融实验

    为了验证创新模块的有效性, 在仍然采取全局定位回归算法的基础上, 实施消融实验, 验证其他网络模块对AGLNet检测效果的提升. 结果如表5所示, 使用ResNet50_FPN的模型和AT-RPN达到了最高的mAP, 且速度相对较高. 同时, 对上述四次实验的mAP和FPS进行了对比评估, 对比结果如表6所示. 对比实验1和实验2以及对比实验3和实验4表明, AT-RPN模块可以有效地提高AGLNet的检测精度和速度. 对比实验1和实验3以及对比实验2和实验4表明, FPN加入网络后会提高网络检测的精度, 同时影响检测的速度. 经过测试, 由FPN模块和AT-RPN模块组成的模型比原始模型平均精度均值提高了3.08%, FPS提高了1.2. 结果表明, 在提高检测精度的同时, 提高了检测速度.

    表 5  消融实验结果
    Table 5  Results of ablation experiments
    序号 ResNet50_FPN ResNet50 AT-RPN RPN mAP (%) FPS GPU 存贮占用量(MiB)
    1 79.90 11.8 5568
    2 78.64 10.3 7039
    3 77.97 12.2 5024
    4 76.82 10.6 6436
    下载: 导出CSV 
    | 显示表格
    表 6  消融实验对比结果
    Table 6  Comparison results of ablation experiments
    序号 对比实验 mAP提升(%) FPS提升 节约显存占用率(%)
    1 实验1/实验2 1.26 1.5 20.89
    2 实验3/实验4 1.15 1.6 21.93
    3 实验1/实验3 1.93 −0.4 −10.82
    4 实验2/实验4 1.82 −0.3 −9.36
    5 实验1/实验4 3.08 1.2 13.49
    下载: 导出CSV 
    | 显示表格

    为了更全面地检测AT-RPN的效果, 本文对AT-RPN算法、RPN算法和AABO算法分类以及回归损失函数的变化进行了对比. AABO优化算法同样是一种基于贝叶斯思想的Anchor优化器, 通过TPE和Bandit-based算法的结合以及优化锚框参数选择, 获取到更好的检测结果, 提高了检测速度. 对比结果如图7图8所示. 三次实验网络均采用ResNet50_FPN作为特征提取器, 网络第二阶段均采用全局定位回归作为位置回归方式. 红线表示AT-RPN算法中函数的损失值, 绿线表示RPN算法中函数的损失值, 蓝线表示AABO算法中函数的损失值. 在图7图8中, AT-RPN和AABO的分类损失函数和位置回归函数的损失值下降得更快, 并且均比传统RPN算法中的损失函数更早达到稳定值. AABO与AT-RPN相比较, AT-RPN的损失函数下降的过程更加稳定. 另外, 根据表6消融实验对比结果可知, 使用AT-RPN后, 可以节省20%以上对电脑显存的占用, 大大降低了缺陷检测算法对电脑GPU的占用率, 更适用于实际的工业环境中. 所以, 损失函数对比实验和消融实验对比结果表明, AT-RPN可以大大提升网络的检测精度和网络检测速度, 并减少深度学习算法对计算机显存占用, 对实际工业生产应用有较大的帮助.

    图 7  AT-RPN、RPN和AABO的分类损失函数变化对比
    Fig. 7  The change of classification loss function of AT-RPN, RPN and AABO

    为了更加全面地验证AGLNet模型的性能, 本文采用新的数据集进行测试评估. 印刷电路板(Printed circuit board, PCB)是各种电子元器件的载体, 在电子通讯等多个领域有着广泛的应用. 随着技术的不断发展, 电子产品向更轻、更薄转变, PCB也朝着更薄更小的方向迈进. 传统人工检测模式逐渐不适用于目前的质检过程, 所以人们开始着力于研究使用人工智能检测的方法取代传统人工检测的模式, 以达到PCB缺陷检测速度更快、精度更高的目的.

    扩展实验在PCB-Master[28]数据集上进行(http://robotics.pkusz.edu.cn/resources/dataset/). 该数据集每张图片的平均像素大小为2 777 × 2 138. PCB缺陷类型一共有6种, 分为漏孔(Missing_hole)、鼠咬(Mouse_bite)、断路(Open_circuit)、短路(Short)、毛刺(Spur)和余铜(Spurious_copper). 一张PCB的图片中包含多种且多个缺陷, 缺陷的统计结果如表7所示, 缺陷的高宽比如图9所示. 随机划分训练集和测试集比例为7 : 3, 即训练集为485张图片, 测试集为207张图片. 由于印刷电路板缺陷非常细小、缺陷微弱, 所以一般用高分辨率的图像进行记录.

    表 7  PCB-Master数据集基本信息
    Table 7  Basic information of PCB-Master dataset
    缺陷类型图像数量缺陷数量
    漏孔115497
    鼠咬115492
    断路115482
    短路115491
    毛刺115488
    余铜116503
    全部缺陷总计6932 953
    下载: 导出CSV 
    | 显示表格
    表 8  各个模型在PCB-Master数据集上测试结果
    Table 8  Test results of each model on PCB-Master dataset
    Faster R-CNNRetinaNetFCOSGrid R-CNNYOLO-v3YOLOFAGLNet
    AP (漏孔) (%)87.4391.5490.7395.5585.8394.2299.45
    AP (鼠咬) (%)84.9090.5085.2493.3779.2593.3595.17
    AP (断路) (%)86.1589.6584.7491.4574.7388.6392.93
    AP (短路) (%)89.4592.1692.8399.7083.2399.7099.70
    AP (毛刺) (%)86.9195.2691.5095.3682.6298.8699.65
    AP (余铜) (%)86.5387.4888.0390.4873.1095.3994.22
    mAP (%)86.9091.1088.8594.3279.7995.0396.85
    FPS (帧/s)~4.20~6.67~5.41~5.88~9.52~7.69~6.25
    下载: 导出CSV 
    | 显示表格
    图 8  AT-RPN、RPN 和 AABO的位置回归损失函数变化对比
    Fig. 8  The change of location regression loss function of AT-RPN, RPN and AABO

    为了与之前的实验形成对比, 本文同样选取了Faster R-CNN, RetinaNet, FCOS, Grid R-CNN, YOLO-v3, YOLOF和AGLNet七种算法对PCB-Master数据集进行训练和测试, 测试结果如表8所示. 相较基于Anchor-free思想的RetinaNet, FCOS, Grid R-CNN检测模型, AGLNet在PCB-Master数据集上的mAP分别提高了5.75%, 8.00%, 2.53%的精度. 相较于经典的双阶段的Faster R-CNN和单阶段的YOLO-v3检测网络, AGLNet在PCB-Master数据集上的mAP分别提高了9.95%和17.06%的精度. 相较于2021年最新的YOLOF检测模型, AGLNet在该数据集上的检测平均精度高出1.82%. 从单一缺陷角度分析, AGLNet在漏孔、鼠咬、断路、短路、毛刺缺陷上均有较高的检测精度, 在短路和毛刺两个缺陷检测效果最为显著, 高达99.70%和99.65%. 在余铜缺陷的检测中, 略逊色于YOLOF, 但仍然保持着94.22% 的检测精度. 评估AGLNet在PCB-Master数据集上的检测速度, 表8展示了各模型之间FPS的比较. 如表8所示, AGLNet的检测速度约为6.25帧/s, 高于Faster R-CNN, Grid R-CNN, FCOS模型, 略低于RetinaNet和YOLOF模型, 低于YOLO-v3模型.

    为了评估AGLNet在PCB-Master数据集上各种缺陷中AP与召回率的情况, 表9展示了模型在测试集上各类缺陷的检测结果. gts为缺陷的数量, Dets为模型检测出的缺陷数量, Recall为模型在测试集上的召回率. 如表9可知, AGLNet的召回率在各个缺陷上都取得了很高的结果, 可以完全识别所有的断路和毛刺缺陷. PCB缺陷检测结果如图10所示.

    表 9  PCB-Master测试集检测数据统计
    Table 9  Data statistics of PCB-Master defect detection test set
    缺陷类别 gts Dets Recall AP
    漏孔 169 696 0.998 0.995
    鼠咬 142 665 0.990 0.952
    断路 142 667 0.990 0.929
    短路 132 590 1.000 0.997
    毛刺 143 687 1.000 0.997
    余铜 137 644 0.979 0.942
    全部缺陷总计 865 3949
    下载: 导出CSV 
    | 显示表格
    图 9  PCB-Master 数据集中的高宽比统计结果
    Fig. 9  Statistical results of aspect ratio in PCB-Master dataset
    图 10  PCB-Master 检测结果
    Fig. 10  PCB-Master test results

    综合比较, YOLOF, RetinaNet和YOLO-v3模型虽然检测速度高于本文的AGLNet模型, 但是AGLNet的检测精度却远高于这三个模型. 此外, AGLNet模型在速度和精度上都高于Faster R-CNN, Grid R-CNN, FCOS模型. 综上所述, 综合比较各类模型在PCB-Master数据集上的检测结果, 本文可以得知AGLNet在检测精度上展现了最好的效果, 远高于其他模型; 同时, 在模型检测的速度上也保持着不错的结果. 所以, AGLNet凭借其对图片的敏感性, 可以对细小的缺陷实现高精准度的检测, 满足了印刷电路板质检的基本要求, 是一个相对有价值的模型.

    针对热轧钢带表面缺陷检测精度低、速度慢、智能化低等问题, 本文提出了AGLNet, 采用结合后的残差网络和特征金字塔网络作为特征提取结构, 提取目标缺陷的高维度到低维度特征, 并使用本文创新提出的AT-RPN自适应候选框提取算法模块, 无需先验知识的测试积累, 抛弃人为调参的模式, 最后使用本文引入的全局定位回归算法改变过去包围框回归的传统思路, 采用全局定位回归的新模式获取复杂缺陷更精确的定位, 以及分类损失函数获取目标的类别信息, 从而实现一种快速、准确、更智能化、更适用于实际工业应用的带钢表面缺陷检测的算法.

    通过实验可以得到以下结论: 1)通过结合后的残差网络和特征金字塔网络的特征提取结构, 可以减少层级之间传递导致的语义缺失, 有效缓解缺陷形状差异较大、空间位置密集的问题; 2) AT-RPN自适应候选框提取模块, 在提高了检测精度的同时, 也大大提高了检测的速度; 3)全局定位回归算法抛弃传统对包围框进行回归的模式, 采用多点监督定位的方法实现了目标缺陷的更精确定位; 4) 与其他经典算法相比, AGLNet算法通过NEU-DET数据集进行验证, 平均精度均值达到对比实验中最优的79.90%, 同时FPS达到优异的11.8 帧/s; 5) AGLNet具有较强的泛化能力, 在PCB-Master印刷电路板缺陷数据集的检测中, 平均精度为各算法中最优的96.85%, FPS约为6.25 帧/s, 实现了快速、精确的智能化的缺陷检测.

  • 图  1  AGLNet结构

    Fig.  1  The structure of AGLNet

    图  2  TPE自适应Anchor-ratio调节模块流程图

    Fig.  2  Flow chart of TPE adaptive anchor-ratio adjustment module

    图  3  AT-RPN整体结构图

    Fig.  3  Whole structure of AT-RPN

    图  4  AGLNet与Faster R-CNN和Grid R-CNN的比较

    Fig.  4  Comparison of AGLNet with Faster R-CNN and Grid R-CNN

    图  5  NEU-DET数据集热轧带钢表面缺陷

    Fig.  5  Surface defects of hot rolled strip in NEU-DET dataset

    图  6  AGLNet模型下裂纹和压入氧化缺陷检测结果与人工标注位置对比

    Fig.  6  Comparison between inspection results of crazing and rolled-in_scale defects under AGLNet model and manually marked positions

    图  7  AT-RPN、RPN和AABO的分类损失函数变化对比

    Fig.  7  The change of classification loss function of AT-RPN, RPN and AABO

    图  8  AT-RPN、RPN 和 AABO的位置回归损失函数变化对比

    Fig.  8  The change of location regression loss function of AT-RPN, RPN and AABO

    图  9  PCB-Master 数据集中的高宽比统计结果

    Fig.  9  Statistical results of aspect ratio in PCB-Master dataset

    图  10  PCB-Master 检测结果

    Fig.  10  PCB-Master test results

    表  1  各个模型在NEU-DET数据集的缺陷检测平均精度结果(%)

    Table  1  The average precision results of defect detection for each model in the NEU-DET dataset (%)

    方法 平均精度均值 裂纹 夹杂 斑块 麻点 压入氧化 划痕
    Faster R-CNN 79.20 71.31 84.63 82.92 80.17 80.31 75.87
    RetinaNet 75.36 53.02 78.74 93.33 91.37 62.21 73.49
    FCOS 75.18 52.41 75.03 91.48 84.85 62.86 84.43
    Grid R-CNN 73.14 41.52 78.68 86.23 86.47 59.74 86.21
    YOLO-v1 62.90 42.35 63.42 68.23 66.49 69.37 67.53
    YOLO-v2 66.53 47.35 70.47 72.23 65.82 65.49 77.84
    YOLO-v3 69.40 68.39 61.88 71.44 68.33 72.66 73.71
    YOLO-v4 77.99 64.87 70.84 93.24 83.83 69.52 85.63
    YOLO-v5 76.82 62.42 75.76 84.23 81.27 64.59 92.63
    YOLOF 77.32 63.48 71.82 90.56 85.21 64.24 88.63
    AGLNet 79.90 54.72 83.31 88.63 91.67 64.42 96.64
    下载: 导出CSV

    表  2  AGLNet、Grid R-CNN and Faster R-CNN基于NEU-DET数据集的对比测试结果

    Table  2  Comparison results of AGLNet, Grid R-CNN and Faster R-CNN based on NEU-DET dataset

    裂纹 夹杂 斑块 麻点 压入氧化 划痕
    AGLNet
    Grid R-CNN
    Faster R-CNN
    下载: 导出CSV

    表  3  各模型FLOPs, Params和FPS对比结果

    Table  3  Comparison of FLOPs, Params and FPS of each model

    方法 FLOPs (GMAC) Params (M) FPS (帧/s)
    Faster R-CNN 408.36 98.25 ~8.2
    RetinaNet 239.32 37.74 ~12.3
    FCOS 438.68 89.79 ~9.3
    Grid R-CNN 329.51 64.32 ~10.2
    YOLO-v3 89.45 27.84 ~15.4
    YOLOF 151.47 63.24 ~13.4
    AGLNet 273.95 79.80 ~1.8
    下载: 导出CSV

    表  4  各类缺陷在不同IoU阈值下的测试结果

    Table  4  Detection results of various defects under different IoU thresholds

    IoU阈值 缺陷类型 gts Dets Recall mAP
    IoU0.5 裂纹 139 1 886 0.935 54.72
    IoU0.75 裂纹 139 1 823 0.923 47.48
    IoU0.5 夹杂 181 1 188 0.945 83.31
    IoU0.75 夹杂 181 1 163 0.932 82.17
    IoU0.5 斑块 151 627 0.960 88.63
    IoU0.75 斑块 151 591 0.942 89.45
    IoU0.5 麻点 88 689 0.955 91.67
    IoU0.75 麻点 88 636 0.938 89.24
    IoU0.5 压入氧化 126 1 034 0.893 64.42
    IoU0.75 压入氧化 126 1 051 0.882 59.66
    IoU0.5 划痕 117 317 0.991 96.64
    IoU0.75 划痕 117 322 0.986 92.79
    IoU0.5 全部缺陷 802 5 741 0.947 79.90
    IoU0.75 全部缺陷 802 5 586 0.934 76.79
    下载: 导出CSV

    表  5  消融实验结果

    Table  5  Results of ablation experiments

    序号 ResNet50_FPN ResNet50 AT-RPN RPN mAP (%) FPS GPU 存贮占用量(MiB)
    1 79.90 11.8 5568
    2 78.64 10.3 7039
    3 77.97 12.2 5024
    4 76.82 10.6 6436
    下载: 导出CSV

    表  6  消融实验对比结果

    Table  6  Comparison results of ablation experiments

    序号 对比实验 mAP提升(%) FPS提升 节约显存占用率(%)
    1 实验1/实验2 1.26 1.5 20.89
    2 实验3/实验4 1.15 1.6 21.93
    3 实验1/实验3 1.93 −0.4 −10.82
    4 实验2/实验4 1.82 −0.3 −9.36
    5 实验1/实验4 3.08 1.2 13.49
    下载: 导出CSV

    表  7  PCB-Master数据集基本信息

    Table  7  Basic information of PCB-Master dataset

    缺陷类型图像数量缺陷数量
    漏孔115497
    鼠咬115492
    断路115482
    短路115491
    毛刺115488
    余铜116503
    全部缺陷总计6932 953
    下载: 导出CSV

    表  8  各个模型在PCB-Master数据集上测试结果

    Table  8  Test results of each model on PCB-Master dataset

    Faster R-CNNRetinaNetFCOSGrid R-CNNYOLO-v3YOLOFAGLNet
    AP (漏孔) (%)87.4391.5490.7395.5585.8394.2299.45
    AP (鼠咬) (%)84.9090.5085.2493.3779.2593.3595.17
    AP (断路) (%)86.1589.6584.7491.4574.7388.6392.93
    AP (短路) (%)89.4592.1692.8399.7083.2399.7099.70
    AP (毛刺) (%)86.9195.2691.5095.3682.6298.8699.65
    AP (余铜) (%)86.5387.4888.0390.4873.1095.3994.22
    mAP (%)86.9091.1088.8594.3279.7995.0396.85
    FPS (帧/s)~4.20~6.67~5.41~5.88~9.52~7.69~6.25
    下载: 导出CSV

    表  9  PCB-Master测试集检测数据统计

    Table  9  Data statistics of PCB-Master defect detection test set

    缺陷类别 gts Dets Recall AP
    漏孔 169 696 0.998 0.995
    鼠咬 142 665 0.990 0.952
    断路 142 667 0.990 0.929
    短路 132 590 1.000 0.997
    毛刺 143 687 1.000 0.997
    余铜 137 644 0.979 0.942
    全部缺陷总计 865 3949
    下载: 导出CSV
  • [1] 王典洪, 甘胜丰, 张伟民, 雷维新. 基于监督双限制连接Isomap算法的带钢表面缺陷图像分类方法. 自动化学报, 2014, 40(5): 883−891

    Wang Dian-Hong, Gan Sheng-Feng, Zhang Wei-Min, Lei Wei-Xin. Strip surface defect image classification based on double-limited and supervised-connect Isomap algorithm. Acta Automatica Sinica, 2014, 40(5): 883−891
    [2] Song K C, Yan Y H. A noise robust method based on completed local binary patterns for hot-rolled steel strip surface defects. Applied Surface Science, 2013, 285: 858−864 doi: 10.1016/j.apsusc.2013.09.002
    [3] Neogi N, Mohanta D K, Dutta P K. Review of vision-based steel surface inspection systems. EURASIP Journal on Image and Video Processing, 2014, 2014(1): Article No. 50 doi: 10.1186/1687-5281-2014-50
    [4] 许志祥, 卢宏, 沈剑. 摄像机定标及其误差分析. 自动化学报, 1993, 19(1): 115−117

    Xu Zhi-Xiang, Lu Hong, Shen Jian. Camera calibration and its error analysis. Acta Automatica Sinica, 1993, 19(1): 115−117
    [5] 李少波, 杨静, 王铮, 朱书德, 杨观赐. 缺陷检测技术的发展与应用研究综述. 自动化学报, 2020, 46(11): 2319−2336

    Li Shao-Bo, Yang Jing, Wang Zheng, Zhu Shu-De, Yang Guan-Ci. Review of development and application of defect detection technology. Acta Automatica Sinica, 2020, 46(11): 2319−2336
    [6] 刘国梁, 余建波. 基于堆叠降噪自编码器的神经−符号模型及在晶圆表面缺陷识别. 自动化学报, 2022, 48(11): 2688−2702

    Liu Guo-Liang, Yu Jian-Bo. Application of neural-symbol model based on stacked denoising auto-encoders in wafer map defect recognition. Acta Automatica Sinica, 2022, 48(11): 2688−2702
    [7] Ren S Q, He K M, Girshick R, Sun J. Faster R-CNN: Towards real-time object detection with region proposal networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137−1149 doi: 10.1109/TPAMI.2016.2577031
    [8] He K M, Gkioxari G, Dollár P, Girshick R. Mask R-CNN. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(2): 386−397 doi: 10.1109/TPAMI.2018.2844175
    [9] Redmon J, Divvala S, Girshick R, Farhadi A. You only look once: Unified, real-time object detection. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE, 2016. 779−788
    [10] Liu W, Anguelov D, Erhan D, Szegedy C, Reed S, Fu C Y, et al. SSD: Single shot MultiBox detector. In: Proceedings of the 14th European Conference on Computer Vision (ECCV). Amsterdam, The Netherlands: Springer, 2016. 21−37
    [11] Lin T Y, Dollár P, Girshick R, He K M, Hariharan B, Belongie S. Feature pyramid networks for object detection. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA: IEEE, 2017. 936−944
    [12] Tao X, Zhang D P, Wang Z H, Liu X L, Zhang H Y, Xu D. Detection of power line insulator defects using aerial images analyzed with convolutional neural networks. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2020, 50(4): 1486−1498 doi: 10.1109/TSMC.2018.2871750
    [13] He Y, Song K C, Meng Q G, Yan Y H. An end-to-end steel surface defect detection approach via fusing multiple hierarchical features. IEEE Transactions on Instrumentation and Measurement, 2020, 69(4): 1493−1504 doi: 10.1109/TIM.2019.2915404
    [14] Cheng X, Yu J B. RetinaNet with difference channel attention and adaptively spatial feature fusion for steel surface defect detection. IEEE Transactions on Instrumentation and Measurement, 2021, 70: Article No. 2503911
    [15] Chen J W, Liu Z G, Wang H R, Núñez A, Han Z W. Automatic defect detection of fasteners on the catenary support device using deep convolutional neural network. IEEE Transactions on Instrumentation and Measurement, 2018, 67(2): 257−269 doi: 10.1109/TIM.2017.2775345
    [16] Zhang C B, Chang C C, Jamshidi M. Concrete bridge surface damage detection using a single-stage detector. Computer-Aided Civil and Infrastructure Engineering, 2020, 35(4): 389−409 doi: 10.1111/mice.12500
    [17] Zhang S F, Chi C, Yao Y Q, Lei Z, Li S Z. Bridging the gap between anchor-based and anchor-free detection via adaptive training sample selection. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, USA: IEEE, 2020. 9756−9765
    [18] Law H, Deng J. CornerNet: Detecting objects as paired keypoints. International Journal of Computer Vision, 2020, 128(3): 642−656 doi: 10.1007/s11263-019-01204-1
    [19] Duan K W, Bai S, Xie L X, Qi H G, Huang Q M, Tian Q. CenterNet: Keypoint triplets for object detection. In: Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, South Korea: IEEE, 2019. 6568−6577
    [20] Jia X G, Yang X Q, Yu X H, Gao H J. A modified CenterNet for crack detection of sanitary ceramics. In: Proceedings of the 46th Annual Conference of the IEEE Industrial Electronics Society (IECON). Singapore: IEEE, 2020. 5311−5316
    [21] Zhu C C, He Y H, Savvides M. Feature selective anchor-free module for single-shot object detection. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, USA: IEEE, 2019. 840−849
    [22] Tian Z, Shen C H, Chen H, He T. FCOS: Fully convolutional one-stage object detection. In: Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, South Korea: IEEE, 2019. 9626−9635
    [23] Kong T, Sun F C, Liu H P, Jiang Y N, Li L, Shi J B. FoveaBox: Beyound anchor-based object detection. IEEE Transactions on Image Processing, 2020, 29: 7389−7398 doi: 10.1109/TIP.2020.3002345
    [24] Lu X, Li B Y, Yue Y X, Li Q Q, Yan J J. Grid R-CNN. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, USA: IEEE, 2019. 7355−7364
    [25] Wang J Q, Zhang W W, Cao Y H, Chen K, Pang J M, Gong T, et al. Side-aware boundary localization for more precise object detection. In: Proceedings of the 16th European Conference on Computer Vision (ECCV). Glasgow, UK: Springer, 2020. 403−419
    [26] Bergstra J, Bardenet R, Bengio Y, Kégl B. Algorithms for hyper-parameter optimization. In: Proceedings of the 24th International Conference on Neural Information Processing Systems (NIPS). Granada, Spain: Curran Associates Inc., 2011. 2546−2554
    [27] Cao J L, Cholakkal H, Anwer R M, Khan F S, Pang Y W, Shao L. D2Det: Towards high quality object detection and instance segmentation. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, USA: IEEE, 2020. 11482−11491
    [28] Ding R W, Dai L H, Li G P, Liu H. TDD-net: A tiny defect detection network for printed circuit boards. CAAI Transactions on Intelligence Technology, 2019, 4(2): 110−116 doi: 10.1049/trit.2019.0019
  • 期刊类型引用(0)

    其他类型引用(1)

  • 加载中
图(10) / 表(9)
计量
  • 文章访问数:  953
  • HTML全文浏览量:  410
  • PDF下载量:  207
  • 被引次数: 1
出版历程
  • 收稿日期:  2021-05-28
  • 录用日期:  2021-11-26
  • 网络出版日期:  2023-02-06
  • 刊出日期:  2024-08-22

目录

/

返回文章
返回