-
摘要: 布匹瑕疵检测是纺织工业中产品质量评估的关键环节, 实现快速、准确、高效的布匹瑕疵检测对于提升纺织工业的产能具有重要意义. 在实际布匹生产过程中, 布匹瑕疵在形状、大小及数量分布上存在不平衡问题, 且纹理布匹复杂的纹理信息会掩盖瑕疵的特征, 加大布匹瑕疵检测难度. 本文提出基于深度卷积神经网络的分类不平衡纹理布匹瑕疵检测方法(Detecting defects in imbalanced texture fabric based on deep convolutional neural network, ITF-DCNN), 首先建立一种基于通道叠加的ResNet50卷积神经网络模型(ResNet50+)对布匹瑕疵特征进行优化提取; 其次提出一种冗余特征过滤的特征金字塔网络(Filter-feature pyramid network, F-FPN)对特征图中的背景特征进行过滤, 增强其中瑕疵特征的语义信息; 最后构造针对瑕疵数量进行加权的MFL (Multi focal loss)损失函数, 减轻数据集不平衡对模型的影响, 降低模型对于少数类瑕疵的不敏感性. 通过实验对比, 提出的方法能有效提升布匹瑕疵检测的准确率及定位精度, 同时降低了布匹瑕疵检测的误检率和漏检率, 明显优于当前主流的布匹瑕疵检测算法.Abstract: Fabric defect detection is a key part of product quality assessment in the textile industry. Achieving fast, accurate and efficient fabric defect detection is of great significance for improving the productivity of the textile industry. In the production process of fabric, imbalance exists in the shape, size and quantity distribution of fabric defects, and the complex texture information of the jacquard fabric will cover the characteristics of the defect, which makes it difficult to detect fabric defects. This paper proposes a method for detecting defects in imbalanced texture fabric based on deep convolutional neural network (ITF-DCNN). First, an improved ResNet50 convolutional neural network model (ResNet50+) based on channel concatenate is established to optimize the fabric defect features. Second, F-FPN (filter-feature pyramid network) method for filtering redundant feature is proposed to filter the background features in the feature maps and enhance the semantic information of defect features. Finally, a MFL (multi focal loss) function weighted with the number of defects is construct to reduce the impact of imbalance on the model, and reduce the model's insensitivity to a small number of defects. Experiments shows the proposed method effectively improves the accuracy of fabric defect detection and the accuracy of defect positioning, while reducing the false detection rate and missed detection rate of defect detection, which is significantly higher than the mainstream fabric defect detection algorithm.
-
电熔镁砂(Fused magnesium furnace, FMF)具有熔点高、结构致密、抗氧化性强、耐压强度高、耐腐蚀性强以及化学性能稳定等优良特性, 在工业、军事领域乃至航天工业中都是不可或缺的战略资源.目前, 提炼电熔镁砂的工艺流程通常是利用三相交流电熔镁炉(简称电熔镁炉)通过电弧来对以菱镁矿石为主的粉末状原料加热熔炼.通过吸收电弧产生的热量将矿石粉末加热到近3 000℃, 分解为熔液状态的氧化镁(MgO)和二氧化碳(CO$_2$)气体, 再通过降温结晶过程排除杂质, 从而得到高纯度的MgO晶体, 即电熔镁砂[1-3].而熔炼所用容器为有限使用次数的铁制炉壳, 并通过水循环系统进行冷却.
电熔镁炉的运行主要包括加热熔化、加料和排气三种正常工况.由于我国电熔镁矿石存在品位低、矿物组成复杂以及成分波动大等特性, 物料在熔化过程中电阻和熔点不稳定, 易发生欠烧等异常工况[4-5], 对生产安全、人员安全和产品质量产生很大影响, 通常是由于原料杂质成分导致局部熔点升高, 以及不适当的电流设定值使局部熔炼区温度低于原料熔化温度, 熔池过于粘稠, 使CO$_2$气体无法正常排出, 迫使溶液穿透炉壳保护层与铁质炉壳直接接触, 造成炉壳温度过高至烧红烧透, 处理不及时甚至会导致烧漏、熔液漏出现象.
由于超高温电熔镁炉熔液温度不直接可测, 目前欠烧异常工况主要通过现场工人定期观察炉壳特征来诊断.但人工巡检工作强度大、危险性高, 且准确性高度依赖操作人员的经验和状态.此外, 通常从正常工况到产生欠烧工况仅需2 $\sim$ 3分钟, 而巡检工人通常需要对每个厂区内的三台电熔镁炉进行往返巡视, 滞后性大, 处理不及时会导致漏检.针对上述问题, 亟需一种自动且快速有效的电熔镁炉工况诊断方法.文献[4]提出了一种基于电流数据的工况诊断方法, 通过各工况的历史电流数据提取出一系列专家规则库, 再利用该规则库对现场运行工况进行实时诊断.但实际生产的众多不稳定因素导致该方法无法准确、稳定地工作, 例如熔池中不断产生的CO$_2$气泡导致熔液翻滚, 使液面与三相电极间距不断变化, 电阻也会随之改变, 导致电流无规律的波动.此外, 根据电流数据人为制定专家规则也高度依赖于专家经验, 易发生漏报和误报.在计算机视觉领域, 卷积神经网络(Convolutional neural network, CNN)由于出色的空间特征提取性能被用于图像分割[6]、图像超分辨率复原[7-8]以及图像识别[9-10].利用CNN的空间特征提取特性以及生成式对抗神经网络(Generative adversarial networks, GAN)的样本生成特性, 文献[11]通过静态图像信息进行工况诊断, 但在训练与预测过程仅利用单帧图片输入, 缺少对连续时间信息的感知, 因此模型无法描述实际生产的动态过程.而在动态过程的表征及识别方面, 循环神经网络(Recurrent neural network, RNN)由于特殊的时序编码结构被广泛应用于语音辨识[12-13]、视频识别[14]以及视频预测中[15].但RNN结构仅利用全连接结构作为输入, 因此往往忽略了图像序列中的空间特征.
根据前文所述, 电熔镁炉欠烧工况时溶液凝固在炉壳内壁导致炉壳烧红烧透, 为异常工况诊断提供了更直观的视觉信息.本文主要工作如下:
为排除熔炼现场众多随机因素的干扰, 提出灰度一致性变换和时序残差图像提取的预处理方法; 针对电熔镁炉异常工况发生发展的视觉特征, 提出将CNN与RNN相结合的工况诊断方法, 其中CNN对预处理后的序列图像提取空间特征并编码为时间独立的特征向量, 再将一系列按时间序列排列的特征向量输入至RNN用以提取时序特征, 从而挖掘出异常工况从无到有再到显著的时空特性; 针对电熔镁炉异常工况标记数据稀疏及获取困难等问题, 且为了避免人工逐帧标记, 结合电熔镁炉异常工况的位置相对固定以及随时间变化缓慢的特性, 提出一种基于加权中值滤波的欠烧工况标记方法, 并利用电熔镁炉实际生产过程的视频信号, 对所提方法与现有两种深度学习模型(基于CNN的模型与基于RNN的模型)进行了实验比较, 验证了所提方法的有效性.
1. 电熔镁炉欠烧工况视觉特征分析
电熔镁炉生产现场如图 1 (a)所示, 其中实线框内为所标记的炉壳区域.当欠烧工况开始发生时, 炉壳的局部区域会被粘稠MgO熔液烧红(如图 1 (b)所示, 其中欠烧工况发生的部位被标记在实线框内).通过识别炉壳的图像序列中的高亮度区域便能对这一工况进行判断.但由于高亮度水雾以及炉壳上固有的白斑干扰, 直接通过图像中高亮度区域来判断往往导致极高概率的误报.通过对原始图像序列提取出时序残差信息(如图 1 (c)显示了某时刻欠烧工况下的时序残差图像, 两处高亮度区域为欠烧区域), 可有效抑制炉壳上固有特征(如白斑)带来的干扰, 以及由于不同图像序列中光照不一致造成的环境干扰.
在空间维度上, 虽然欠烧工况的区域形状不定, 但由于其形成的内在机理是由于熔液凝固在炉壳内壁所致, 因此具有一定的空间特征规律(如图 1 (b)所示).最直接的异常工况诊断方法是对残差图像进行逐帧空间特征提取, 再对工况进行分类.然而, 由于环绕在炉壳周围的水雾也呈现出高亮度特征, 且区域形状不定, 会对最终的分类结果造成较大干扰.因此, 大量水雾带来的干扰成为从空间维度准确诊断电熔镁炉欠烧工况的主要难点.简单地将空间特征作为判断依据并无法完整描述欠烧工况.
在时间维度上, 欠烧区域一旦发生则位置随时间相对固定, 且亮度与范围随时间递增的特征不同, 水雾在时间维度中呈现出持续时间短且空间位置不确定性强的特征.图 1 (d)为图 1 (c)中竖线标记位置处残差随时间的变化, 其中横坐标为时间序列, 纵坐标为图像空间维度中的垂直维度$ y $.图 1 (d)中, 虚线框内为水雾干扰区域, 随时间呈现出类似噪声分布特征; 实线框内为欠烧工况区域, 在时间维度上呈现出位置相对固定而强度递增的特征.但由于各种因素干扰, 欠烧工况区域并不是严格随时间变大, 即会在某些时刻变小甚至在短时间内消失(如图 1 (d)箭头所示).因此, 在利用每一时刻图像的空间信息的同时, 需要结合其在长时间跨度的整体动态特性作为诊断依据.
2. 基于卷积循环神经网络的电熔镁炉异常工况诊断
2.1 电熔镁炉异常工况诊断策略
本文利用电熔镁炉现场生产过程的视频信号, 结合欠烧(异常)工况的视觉特征, 分别利用CNN与RNN提取空间与时间维度上的特征, 并建立如图 2所示的基于卷积循环神经网络(Convolutional recurrent neural network, CRNN)的电熔镁炉欠烧工况诊断结构.该结构主要由三部分组成:图像序列预处理模块、基于卷积循环神经网络的特征提取模块和基于加权中值滤波的工况区域标记模块.
将图像序列预处理得到的结果作为网络输入, 基于加权中值滤波的工况区域标记作为网络的期望输出, 建立基于CRNN的特征提取模型.在实时诊断过程中(图 2中实线框部分), 对于实时视频信号首先通过视频序列预处理模块, 处理后的图像序列输入训练得到的CRNN模型得到诊断结果输出.
具体地, 图像序列预处理模块由图像序列灰度一致性变换与时序残差图像提取步骤组成, 前者用以排除电熔镁炉炉口火焰亮度波动造成的相机不稳定曝光干扰, 后者用以排除不同炉壳表面固有视觉特征带来的干扰.在基于RNN的特征提取模块中, CNN利用输入的图像提取空间特征, 并输出时序上无关联的空间特征向量, 而RNN则利用该特征向量在时序维度上进行特征提取, 并最终获得工况诊断信息.本文使用对时间感知能力较强的长短期记忆(Long short-term memory, LSTM)结构[16]作为RNN的基本单元.由于对实际视频信号进行逐帧的异常工况区域标记过程复杂且成本过高, 本文结合欠烧异常工况的视觉特征, 利用基于加权中值滤波的工况区域标记模块对标记数据进行稠密化与区域优化, 而初始标签数据获取阶段仅需要粗略与时序稀疏的人工标记.
2.2 异常工况诊断算法
2.2.1 图像序列预处理
首先对相机采集的原始图像序列依次进行灰度一致性变换和时序残差图像提取.
1) 图像序列灰度一致性变换.在生产过程中, 电熔镁炉炉口亮度波动会对相机曝光产生随机干扰, 相机自动调整曝光量会使拍摄的炉体图像明暗不一.这种整体的环境光波动会对后续空间特征提取产生干扰.因此, 本文利用灰度一致性约束[17]对炉壳图像序列进行处理.令$ V_ {\rm RGB} = \{I_1, I_2, \cdots, I_N\} $为相机拍摄的图像序列, 其中$ I_n $为第$ n $帧RGB空间的图像.首先通过颜色空间映射将RGB空间的图像序列$ V $转换到Lab空间, 即$ V_ {\rm Lab} = f_{\rm Lab}(V_ {\rm RGB}) = $ $ \{f_ {\rm Lab}(I_1) $, $ f_ {\rm Lab}(I_2), \cdots, f_ {\rm Lab}(I_N)\} $, 其中$ f_ {\rm Lab} $为颜色空间映射函数(将RGB空间图像映射到Lab空间).现将Lab空间的图像$ f(I_n) $简写为$ H_n $, 则经过灰度一致性约束的图像$ \hat{H} $为
$ \begin{align} &\hat{H}^l_n = \frac{\varphi(H^l_t)}{\varphi(H^l_n)}(H^l_n-\bar{H}^l_n)+\bar{H}^l_t, \ \ l\in\{{\rm L, a, b}\}\\ &H_t = \frac{1}{N_1}\sum\limits_{i = 1}^{N_1}H_i \end{align} $
(1) 其中, L, a, b分别为Lab颜色空间的三个通道, $ H^l_n $为第$ n $帧Lab空间中的第$ l $通道的图像, $ \hat{H}^l_n $为约束后对应的图像, $ H^l_t $为参考帧$ t $下的图像, $ \bar{H} $表示对图像$ H $取均值, $ \varphi(H) $表示对图像$ H $取标准差.为排除相机噪声干扰, 将$ H_t $取为前$ N_1 $帧图像的平均值作为参考图像而非单一帧图像. $ N_1 $的取值主要依据熔炼过程中炉口火焰的闪烁周期和炉壳周围的水雾移动速度共同决定, 本文取经验值50.则通过灰度一致性变换后的图像序列$ \hat{V}_{\rm Lab} = $ $ \{\hat{H}_1, \hat{H}_2, \cdots $, $ \hat{H}_N\} $.最后将Lab空间的图像序列转换回RGB空间, 得到$ \hat{V}_ {\rm RGB} = $ $ \{\hat{I}_1, \hat{I}_2, \cdots, \hat{I}_N\} $.
2) 时序残差图像提取.不同电熔镁炉可能存在固有的视觉特征差异, 例如图 1 (b)中炉壳上的白斑, 以及不同的环境光源.为排除这些固有视觉特征差异对工况诊断的干扰以及使后续网络模型可以用于不同电熔镁炉, 本文对经过灰度一致性变换后的图像序列进行时序残差图像(图 1 (c))提取, 其值为
$ \begin{align} R_n = f_{\rm YUV}(\hat{I}_n)-\frac{1}{N_2}\sum\limits_{i = N_1+1}^{N_1+N_2}f_ {\rm YUV}(\hat{I}_i) \end{align} $
(2) 其中, $ R_n $表示第$ n $帧时序残差图像, $ f_ {\rm YUV} $为将图像从RGB空间映射到YUV空间的函数.类似式(1), 取前$ N_2 $帧图像的平均值作为参考图像, 其中$ N_2 $取经验值50.本文仅采用式(2)中时序残差图像$ R_n $的Y通道作为后续基于深度学习的工况诊断的网络模型输入, 即时序残差图像序列$ V_R = $ $ \{R_1 $, $ R_2 $, $ \cdots $, $ R_N\} $.
需要注意的是, 本文提到的时序残差图像是指相对于初始状态(即前50帧的平均状态)的残差而非相对于上一时刻的残差.另一点需要注意的是, 由于熔炼初期不会发生欠烧工况, 使用熔炼初期的前$ N_2 $帧图像的平均值作为参考图像.因此, 该预处理不会带来诊断延迟.
2.2.2 基于卷积循环神经网络的特征提取
1) 基于CNN的空间特征提取.传统图像处理方法依靠人为定义的算子(如梯度算子、Sobel算子和SIFT算子)提取图像特征.这些由算子提取特征的操作可视为算子$ \omega $与残差图像$ R $的卷积操作, 即$ F = \omega\ast R $, 其中, $ \ast $代表卷积操作, $ F $为图像特征矩阵.与传统方法不同, CNN将卷积算子也称为卷积核$ W $, 视为可以调节的网络参数, 即依靠大量训练数据和优化算法对这些参数进行自动调整, 从而达到提取图像特征的目的.因此本文将一层卷积网络描述为
$ \begin{align} L_ {\rm conv}^j = {\rm ReLu}(W^j\ast L_ {\rm conv}^{j-1}+B^j) \end{align} $
(3) 其中, $ L_ {\rm conv}^j $为第$ j $层网络输出, $ L_ {\rm conv}^{j-1} $为前一层网络输入(对于第1层网络, $ L_ {\rm conv}^{j-1} $为输入数据, 即时序残差图像), $ B_i $为偏置参数, ReLu$ (\cdot) $为修正线性单元(Rectified linear units, ReLu), $ {\rm ReLu}(x) = $ $ {\rm max}(x, 0) $.本文使用每10帧时序残差图像$ R = $ $ \{R_1, R_2, \cdots, R_{10}\} $作为CNN的输入, 即输入为一个$ w\times h\times10 $的三维矩阵, 其中$ w $为图像宽度, $ h $为图像高度.本文采用6层卷积网络(即$ j = 1, 2 $, $ \cdots $, $ 6 $), 其结构以及每一层网络的卷积核$ W $大小如图 3所示.第1层网络的卷积核为$ 10 \times 11 \times 11 $ $ \times $ $ 64 $, 输出大小为$ 64\times(w-10)\times (h - 10) $; 第2层的卷积核为$ 64\times 5 \times 5 \times128 $, 输出大小为$ 128\times (w $ $ - $ $ 14)\times (h-14) $; 第3层的卷积核为$ 128 \times 3 \times 3 $ $ \times $ $ 128 $, 输出大小为$ 128\times(w-16)\times(h-16) $; 第4层的卷积核为$ 128\times3\times3 \times 64 $, 输出大小为$ 64 $ $ \times $ $ (w-18)\times (h-18) $; 第5层的卷积核为$ 64 \times 5 \times 5 $ $ \times $ $ 64 $, 输出大小为$ 64 \times (w-22) \times (h-22) $; 第6层的卷积核为$ 64\times11\times11\times 64 $, 输出大小为$ 64 $ $ \times $ $ (w-32)\times (h-32) $.为了使网络具有非线性映射关系, 第1 $ \sim $ 5层网络后均包括一层ReLu操作(图 3中为便于观察网络结构没有给出).由于每层网络无填充(Padding)操作, 因此输出的空间维度大小逐层降低.例如, 对于空间维度大小为$ 33 \times 33 \times 10 $的输入, 最终输出为64维的向量.
2) 基于RNN的时序特征提取.本文使用的循环神经网络直接利用CNN的输出$ y_ {\rm conv} $作为输入, 结构如图 4所示, 其中网络输入$ x $对应于卷积网络输出$ y_ {\rm conv} $. RNN的隐含层单元不仅输出结果$ y $, 还包括状态$ h $, 且该状态$ h $通过不断循环(如图 4 (a)所示), 将时间序列信息引入网络.本文将输入$ x $的当前时刻及历史时刻的序列作为RNN的输入, 展开为如图 4 (b)所示的结构.需要注意的是, 由于状态$ h $通过不断循环传递时序信息, 时间$ t $的状态$ h^t $为该时刻的输入$ x $, 即$ y_ {\rm conv}^t $, 以及之前时刻的输入$ \{x^{t-1} $, $ x^{t-2}, \cdots\} $, 即$ \{y_ {\rm conv}^{t-1}, y_ {\rm conv}^{t-2}, \cdots\} $共同作用的结果.因此, RNN的循环结构使得该网络能够描述输入序列的时间特性.
传统循环神经网络单元, 存在随着时间递增, 后节点对前节点的感知能力下降, 即长期依赖问题[18].而长短期记忆单元, 即LSTM单元, 通过门的设计来保护与控制每个节点的状态, 其中一个门仅允许少量的线性交互, 使得时间较早的信息不会流失[19].因此, 本文利用LSTM作为RNN结构的核心单元来提取来自于CNN的时序特征, 结构如图 5所示, 其中
$ \begin{align} f^t& = \sigma(W_f\times[h^{t-1}, y_ {\rm conv}^t]^ {\rm T}+b_f)\\ i^t& = \sigma(W_i\times[h^{t-1}, y_ {\rm conv}^t]^ {\rm T}+b_i)\\ \tilde{C}^t& = \tanh(W_C\times[h^{t-1}, y_ {\rm conv}^t]^ {\rm T}+b_C)\\ C^t& = f^t\odot C^{t-1}+i^t\odot\tilde{C}^t\\ o^t& = \sigma(W_o\times[h^{t-1}, y_ {\rm conv}^t]^ {\rm T}+b_o)\\ h^t& = o^t\odot\tanh(C^t) \end{align} $
(4) 其中, $ f^t $, $ i^t $, $ \tilde{C}^t $, $ o^t $均为LSTM单元内部变量; $ \sigma(\cdot) $为sigmoid非线性单元, 即$ \sigma(x) = (1+{\rm e}^{-x})^{-1} $, $ \tanh $为双曲正切函数; $ \odot $为哈达马积, $ W_f $, $ W_i $, $ W_C $和$ W_o $为LSTM单元权值, $ b_f $, $ b_i $, $ b_C $和$ b_o $为LSTM单元偏置; $ y_{\rm conv}^t $为序列$ t $的卷积神经网络输出, $ h^{t-1} $与$ C^{t-1} $为$ t-1 $时刻LSTM单元输出; $ C^{t} $与$ h^{t} $为$ t $时刻LSTM单元输出.通过对LSTM单元输出$ h_t $使用softmax回归, 最终LSTM网络输出$ t $时刻(即第$ t $帧图像序列)诊断结果的概率分布$ P(y_t) $为
$ \begin{align} &P(y_t = k) = {\rm softmax}(h^t) = \\ &\qquad\frac{\exp(W_{hk}h^t_k+b_k)}{\sum\limits_{k'\in K}\exp(W_{hk}h^t_{k'}+b_k)} \end{align} $
(5) 其中, $ K $为诊断结果类别空间, $ K = [0, 1] $ (0代表正常区域, 1代表欠烧区域).最终诊断结果$ \hat{y}_t $为
$ \begin{align} \hat{y}_t = \arg\mathop{\max}_k(P(y_t = k), k\in K) \end{align} $
(6) 本文将两个网络(CNN与LSTM)作为一个整体进行训练, 其损失函数$ L_ {\rm Loss} $为交叉熵, 定义如下
$ \begin{align} L_ {\rm Loss} = -\sum\limits_{x\in X}\sum\limits_{k\in K}Q(y = k)\log(P(y = k)) \end{align} $
(7) 其中, $ (x, y) $为一组数据对, $ X $为批处理数据中数据对数量, $ Q(y = k) $为标签数据的概率分布, 即对于正常区域$ Q(y = 0) = 1 $, $ Q(y = 1) = 0 $, 而欠烧区域$ Q(y = 0) = 0 $, $ Q(y = 1) = 1 $.
2.2.3 基于加权中值滤波的工况区域标记
电熔镁炉欠烧工况主要依赖于人工判断, 但人为地对训练集图像序列的每一帧进行标签制作成本较高.例如, 对一段持续1小时的图像序列进行标签制作, 视频为30帧/s, 则需要对10万帧数据进行欠烧工况发生位置的标记.尽管训练集不成对的网络训练方法已被提出[20], 但需要利用只有输入数据和只有标签数据分别对网络进行训练, 再通过同时有输入和标签的数据对进行网络参数调整.因此, 仍然需要获取大量带有标签的工况数据.
为了快速并准确获取大量已标记数据, 本文首先做出下述观察:
1) 欠烧工况一旦发生, 其空间位置保持不变, 在残差图像中呈现出的区域大小随时间增加.
2) 欠烧区域形状不规则, 但是一旦发生, 其形状不随时间发生较大变化.
产生这两项观察的根本原因是由于接触炉壳内壁的MgO高粘度溶液不会随时间发生较大变化.
结合上述两项观察, 本文提出一种从稀疏标记数据中自动得到密集标记数据的方法, 仅需手动对图像序列中的2帧图像进行欠烧工况的粗略定位, 就能够通过自动标记优化方法对整段图像序列的欠烧工况发生区域进行准确标记, 其具体步骤如下:
1) 对图像序列进行稀疏粗略标记.对一段时序残差图像中欠烧工况发生的起始帧$ G_1 $与结束帧$ G_N $进行人工定位, 构成含有粗略定位的参考标记图像$ \bar{Y}_1 $, $ \bar{Y}_N $ (如图 6 (c)所示).
2) 将稀疏粗略标记传播至其他帧图像.利用线性投影将第一步中的两帧参考标记图像$ \bar{Y}_1, \bar{Y}_N $, 的标记区域传播至其他帧, 构成$ \bar{Y}_1, \bar{Y}_2, \cdots, \bar{Y}_N $, 其中线性投影可描述为
$ \begin{align} \mathit{\boldsymbol{O}}_i = \mathit{\boldsymbol{O}}_1+\frac{\mathit{\boldsymbol{O}}_N-\mathit{\boldsymbol{O}}_1}{N-1}(i-1) \end{align} $
(8) 其中, $ \mathit{\boldsymbol{O}}_i $为第$ i $帧对应的人工定位坐标.
3) 标记区域优化.前两步得到的标记区域仅为粗略定位, 因此本文利用加权中值滤波对每一帧的参考标记图像$ \bar{Y}_N $进行优化处理以得到最终的标签数据$ Y_n $:
$ \begin{align} Y_n(p)& = \arg\mathop{ {\rm med}}_{k\in K}(h_p(k))\\ h_p(k)& = \sum\limits_{q\in \mathit{\boldsymbol{N}}(p)}\omega(p, q)\delta(\bar{Y}_n(q)-k)\bar{Y}_n(q)\\ \omega(p, q)& = \exp\left(-\frac{|R_i(p)-R_i(q)|^2}{2\rho_R^2}-\frac{|x_p-x_q|^2}{2\rho_x^2}\right) \end{align} $
(9) 其中, $ \mathit{\boldsymbol{N}}(p) $为像素$ p $的邻域, $ x_p $为像素$ p $的空间坐标, $ \delta $为克罗内克函数(Kronecker delta function), 即当内部变量为0时$ \delta(\cdot) = 1 $, 否则为$ \delta(\cdot) = 0 $, $ R_i $为预处理得到的第$ i $帧时序残差图像, $ \rho_R $和$ \rho_x $为加权中值滤波器的固有参数.本文取$ \rho_R = 0.08 $, $ \rho_x $ $ = $ $ 2 $.图 6 (d)为经过加权中值滤波后的标签, 结合图 6 (a)和图 6 (b)可以看到该标签能够对欠烧区域进行准确定位.
3. 应用验证与实验结果与分析
本节结合实际的电熔镁炉过程介绍卷积循环神经网络的具体实现细节, 并从电熔镁炉欠烧工况的诊断率与诊断敏感度两方面, 对提出的深度学习网络模型进行评价.其中, 诊断率由网络模型对所有测试帧的诊断正确率表示, 包括漏诊断率(欠烧工况发生时未检测出)、误诊断率(正常状态下诊断为欠烧工况)和总诊断率(总的诊断准确率); 诊断敏感度用从实际发生欠烧工况到由模型诊断出欠烧工况发生所历经的帧数表示.
实验主要与现有的纯卷积神经网络模型[21]和纯循环神经网络模型[12]进行对比.其中, 文献[21]对输入图像分别提取局部空间特征与全局空间特征进行图像的显著性检测.具体地, 文献[21]对局部裁剪图像以及整体图像, 分别利用两个卷积神经网络进行空间特征提取, 再通过一层全连接层融合不同尺度的空间特征.而文献[12]利用含有多层LSTM单元的RNN进行语言识别.为了尽可能保证不同网络之间的对比公平性, 对文献[21]及文献[12]均采用7层网络结构, 即对文献[21]采用4层CNN与2层全连接层进行不同尺度的空间特征提取, 并利用1层全连接层进行特征融; 对文献[12]采用7层LSTM单元(本文提出的网络包含6层卷积层与1层LSTM单元).此外, 通过去除预处理步骤中的图像序列灰度一致性变换和时序残差图像提取这两步来分析提出的预处理方法对最终诊断结果的影响.
3.1 卷积循环神经网络训练
本文使用从电熔镁炉熔炼现场采集的5组图像序列, 分辨率分别为$ 330\times380\times300 $, $ 330\times380\times 367 $, $ 315\times385\times800 $, $ 360\times480\times201 $和$ 360\times321\times200 $, 其中, 前两个维度分别为水平与垂直方向的空间维度, 最后一个维度为时间维度(即视频帧数).将第1 $ \sim $ 3组序列作为训练数据集, 第4组和第5组用于进行应用验证.由于工业背景下存在数据获取困难的问题, 直接使用采集到的图像序列用于会导致训练集过小, 网络容易产生过拟合现象.为此, 本文对第1 $ \sim $ 3组训练数据进行窗口化处理. CNN网络输入为$ 33\times33\times10 $的数据(即空间维度取$ 33\times33 $), LSTM网络总共所需的输入为$ 64\times10 $的数据, 则网络需要$ 33\times33\times19 $的数据输入.从欠烧工况开始时刻进行训练数据选取, 3组数据的开始时刻分别为121、266、290帧, 数据选取步幅为[14, 14, 8].共产生51 452组训练数据对.使用第2.2.3节中的训练数据集标记方法对训练与评价数据进行标记仅耗时60.46 s (除去对欠烧工况区域的人工定位时间).网络训练采用批处理方法, 每批含有128组数据, 则共产生401批数据, 其中350批作为训练数据, 50批作为验证数据.
本文利用tensorflow[22]框架建立卷积循环神经网络模型(CNN网络与LSTM网络), 并利用式(7)中的损失函数对两个网络同时进行训练.使用均值为0、方差为$ 1\times10^{-3} $的高斯分布来初始化网络模型的权值, 偏置则初始化为0.使用Adam优化算法[23]进行网络训练, 初始学习率为$ 1\times10^{-3} $, 学习衰减率为0.99, 即对所有训练集训练一次则学习率衰减为之前的0.99倍.网络训练在i7-4770, 3.40 GHz的4核CPU、内存为16 GB的电脑中运行.通过$ 4 $ $ \times $ $ 10^5 $次训练, 网络模型逐渐收敛, 收敛曲线如图 7所示, 其中, 训练Loss和训练Acc分别表示训练时的损失函数Loss和准确率; 验证Loss和验证Acc分别表示验证时的损失函数Loss和准确率.
3.2 诊断结果分析
本文利用电熔镁炉熔炼现场采集的图像序列4和5对提出的卷积循环神经网络进行测试.将测试集中每一帧图像及其对应的工况作为一组测试数据, 即总测试数据数量为序列总帧数(401组).漏诊断率$ r_O $、误诊断率$ r_F $和总诊断率$ r_A $定义为
$ \begin{align} r_O& = \frac{\mbox{未诊断出的欠烧工况帧数}}{\mbox{序列总帧数}} \times100 \%\\ r_F& = \frac{\mbox{错误诊断为欠烧工况的帧数}}{\mbox{序列总帧数}} \times100 \%\\ r_A& = \frac{\mbox{诊断正确的帧数}}{\mbox{序列总帧数}}\times100 \% \end{align} $
(10) 表 1显示了文献[21]提出的卷积神经网络模型、文献[12]采用的循环神经网络模型和本文使用的卷积循环神经网络对电熔镁炉欠烧工况的诊断率.所有方法均使用第2.2.1节描述的预处理后的时序残差图像作为输入.
从表 1可以看出, 由于缺少在时间维度上的特征提取, 文献[21]中的卷积神经网络模型的总诊断率最低; 文献[12]中的循环神经网络模型由于缺少对图像序列中每个像素的领域像素进行编码(即空间特征提取)而导致总的诊断率低于本文提出的方法; 本文提出的CNN与RNN结合的方法通过对图像序列的空间特征和时序特征同时进行提取, 从而能够达到较高的诊断率, 且误诊断率较低(对本次实验的序列4和5, 误诊断率为0).
图 8显示了对图像序列4和5的欠烧工况诊断结果, 包括序列中炉壳表面某一欠烧区域的平均灰度值, 对应的时序残差图像平均灰度值, 以及文献[12]中的循环神经网络模型和本文方法的诊断结果.文献[12]中的循环神经网络模型对欠烧工况的诊断在序列4中滞后标签数据8帧(0.27 s), 在序列5 (图 8 (b))中滞后27帧(0.90 s), 而本文方法在对欠烧工况的诊断序列4中滞后标签数据17帧(0.57 s), 在序列5中滞后1帧(0.03 s), 因此本文提出的方法对异常工况有着更高的敏感度.此外, 从图 8可以看出, 循环神经网络模型[12]的诊断结果稳定性较差, 例如在图 8 (b)中判断当前工况为异常工况后仍然可能将后续序列判断为正常工况, 而本文提出的方法相对而言更加稳定.为了方便方法比较, 对序列4从101 $ \sim $ 181帧(显示间隔为10帧)的结果进行了可视化展示, 每列自上而下分别为输入序列、CNN[21]、LSTM[12]和本文方法的结果, 诊断的欠烧区域以最小包围矩形标记显示如图 9所示.从图 9可以看到, 文献[12]中仅使用LSTM的诊断模型与文献[21]中仅使用CNN的诊断模型相比诊断结果更加稳定, 但两者均倾向于将高亮度水雾区域误诊断为欠烧区域(例如, 文献[21]诊断结果的第101, 111, 161, 181帧, 文献[12]诊断结果的第101, 141帧).而本文所提的卷积神经网络与循环神经网络相结合的方法则能够很大程度地避免这类误诊断现象.
在算法运行角度方面, 在与训练所用电脑相同配置(i7-4770, 3.40 GHz的4核CPU, 16 GB内存)条件下, 所提方法在线诊断时对分辨率为360 $ \times $ 480的视频信号的执行速率为0.0271 s/帧, 其中预处理耗时0.0057 s/帧, 卷积循环神经网络耗时0.0214 s/帧.因此, 整个算法流程每秒可处理约37帧图像, 能够满足实时性要求.
3.3 预处理与网络可视化分析
本节对第2.2节描述的预处理步骤(图像序列灰度一致性变换和时序残差图像提取)对最终欠烧工况诊断结果的影响进行分析, 并对训练中间结果, 即CNN的第一层卷积核进行可视化, 以分析空间特征对整个工况诊断的意义.
表 2为预处理步骤对欠烧工况诊断率的影响结果, 其中, 无预处理为去除灰度一致性变换和时序残差图像提取步骤的结果, 无预处理1为去除灰度一致性变换步骤的结果, 无预处理2为去除时序残差图像提取步骤的结果.本文提出的两步预处理步骤分别解决了炉口火焰对相机曝光产生的影响和冗余信息对网络模型产生的影响.从表 2可以看出, 两者对最终的诊断结果均产生较为重要的影响, 其中图像序列灰度一致性变换(即预处理1)对诊断结果的影响更大.此外, 从图 8中输入图像平均灰度值与残差图像平均灰度值这两条曲线可以看出, 未做任何处理的图像序列, 图像灰度值在异常工况发生时无任何变化, 而经过时序残差图像提取后, 其灰度值变化较为明显.
表 2 预处理对诊断率的影响(%)Table 2 Influences of two preprocessing procedures on diagnosis rates (%)漏诊断率 误诊断率 总诊断率 无预处理 11.47 7.23 81.30 无预处理1 10.22 6.73 83.04 无预处理2 7.48 2.74 89.77 本文方法 4.99 0.00 95.01 图 10为本文使用的卷积循环神经网络模型中CNN权值参数的可视化结果, 其中卷积核按照方差从大到小排列, 且每个卷积核均被归一化到$ [0, 1] $区间.图 10 (a)为$ L_ {\rm conv}^{1} $层$ (10\times11\times11\times64) $卷积核$ W^1 $的第一个通道(共10个通道).在这些卷积核中, 部分核呈现出类似噪声分布的状态, 主要是由于相机本身的噪声以及生产现场的水雾在空间与时间上呈现出无规律的变化; 另一部分核呈现出较为规律的模式, 类似人为定义的特征提取算子, 例如边缘提取算子点提取算子和纹理提取算子.这些卷积核通过将分布在不同空间位置的图像信息聚合为一个整体输入到LSTM网络中, 并通过参数训练来调整每个空间位置对最终输出结果的影响, 从而将异常工况在炉壳的空间分布信息利用起来, 使之在最终的工况诊断中发挥作用.
由于本文使用的CNN模型采用多帧残差图像作为输入, 网络也起到一部分时序特征提取作用, 则卷积核$ W^1 $的通道可以理解为卷积核随时间的分布.图 10 (b)展示了$ L_ {\rm conv}^1 $层第3个卷积核(即图 10 (a)中实线框标记出的卷积核)随输入通道(即时间维度)的变化结果, 可以看到卷积核随时序呈现较为缓慢的变化.但仅从10帧图像无法判断该特征是由故障工况引起还是由大范围水雾干扰引起.因此仅采用10帧图像作为CNN的输入无法提取足够的时序信息来判断故障工况的发生, 而利用更多的时序图像来将图像随时间的变化建立到CNN中代价较高[24] (例如, 将30帧图像序列建立到模型中则需要第一层核函数为30层), 这对网络收敛速度和后续的诊断速度都会产生较大的影响.由于循环神经网络有着出色的时序记忆特性, 可以充分提取出序列图像随时间的变化关系, 因此本文对电熔镁炉异常工况的时序特征提取主要通过循环神经网络来实现.
4. 结论
本文结合生产现场的实际视频信息, 提出了一种基于卷积循环神经网络的异常工况诊断方法.通过图像序列灰度一致性变换和时序残差预处理, 排除了生产现场环境光变化以及不同电熔镁炉炉壳固有视觉特征的变化带来的干扰, 提高了诊断精度.在此基础上, 使用工况的视频信号, 从空间和时间两个维度提取电熔镁炉异常工况局部缓变的时空特征, 并诊断异常工况, 相比其他方法具有更高的诊断精度.
本文提出的卷积循环神经网络可推广于其他具有强时空特征的其他工业过程的工况诊断, 以及难以利用电流电压等易受到强干扰的一维数据进行工况诊断的工业过程; 所提出的基于加权中值滤波方法可推广应用于工况标记困难的其他工业过程.
结合现有视频语义预测方法[25]以及基于过程数据故障趋势预测方法[26], 下一步将在本文提出的卷积循环神经网络框架基础上, 开展基于视频信号的故障趋势预测研究工作.
-
表 1 增强前后数据集中的样本分布
Table 1 Samples distribution of the dataset before and after data augmentation
瑕疵类别 沾污 花毛 虫粘 破洞 蜡斑 网折 其他 正常 总计 训练集增强前 2432 398 208 122 73 77 52 2756 6118 训练集增强后 9728 1594 834 490 292 306 206 11026 24476 验证集增强前 141 33 12 6 2 5 4 420 623 验证集增强后 562 134 48 22 6 22 14 1672 2490 表 2 数据集增强前后模型准确率对比实验结果 (%)
Table 2 Experimental results of model on accuracy before and after dataset enhancement (%)
瑕疵类别 沾污 花毛 虫粘 破洞 蜡斑 网折 其他 正常 总计 数据集增强前 88.24 83.36 87.56 89.36 83.78 88.21 89.65 98.66 88.61 数据集增强后 90.56 85.51 90.35 91.42 87.64 89.24 90.02 99.81 90.57 表 3 数据集增强前后模型mAP对比实验结果 (%)
Table 3 Experimental results of model on mAP before and after dataset enhancement (%)
瑕疵类别 沾污 花毛 虫粘 破洞 蜡斑 网折 其他 正常 总计 数据集增强前 69.06 58.51 81.50 83.44 33.33 63.70 45.51 — 62.15 数据集增强后 70.04 59.12 83.23 83.54 35.78 63.70 47.31 — 63.25 表 4 不同模型在布匹瑕疵数据集上的实验结果 (%)
Table 4 Experimental results of different models on the jacquard fabric defect dataset (%)
检测器 主干网络 mAP 准确率 误检率 漏检率 Faster R-CNN ResNet50 65.56 87.40 12.60 1.42 Cascade R-CNN ResNet50 63.77 90.55 9.45 2.85 RetinaNet ResNet50 65.60 53.86 46.13 0.20 Faster R-CNN ResNet101 63.85 88.72 11.28 2.24 Cascade R-CNN ResNet101 64.60 90.35 9.65 1.83 RetinaNet ResNet101 66.52 56.23 43.77 0.12 GLCM — — 64.63 35.37 6.87 Gabor — — 83.87 16.13 1.67 GMM — — 81.32 18.68 1.77 PTIT[38] — — 92.56 7.44 0.94 CAE-SGAN[41] — — 85.01 14.99 2.65 SurfNet[42] — — 84.82 15.18 1.79 ITF-DCNN ResNet50 73.41 97.56 2.44 1.65 ITF-DCNN ResNet101 73.92 97.66 2.34 1.14 表 5 改进后的ResNet50+ 网络性能对比实验 (%)
Table 5 Experimental performance result of ResNet50+ (%)
mAP 准确率 误检率 漏检率 ResNet50 63.77 90.55 9.45 2.85 ResNet50+I 63.68 91.76 8.24 2.66 ResNet50+C 64.14 92.31 7.69 3.43 ResNet50+ 64.72 92.78 7.22 2.91 表 6 F-FPN性能验证实验结果 (%)
Table 6 Experimental performance result of F-FPN (%)
mAP 准确率 误检率 漏检率 Top-Down FPN 63.77 90.55 9.45 2.85 PANet 65.69 92.23 7.77 2.56 加性F-FPN 70.31 93.65 6.53 1.95 卷积F-FPN 71.42 96.72 3.28 1.25 表 7 MFL的性能验证实验结果
Table 7 Experimental performance result of MFL
损失函数 $ \alpha $ $ \gamma $ $ \omega $ mAP (%) 准确率 (%) 误检率 (%) 漏检率 (%) CE — — — 63.77 90.55 9.45 2.85 FL 0.25 5.0 — 52.53 70.23 29.77 9.56 FL 0.25 2.0 — 65.62 92.86 7.14 2.02 FL 0.25 1.0 — 64.88 91.91 8.09 2.12 FL 0.50 0.5 — 64.74 91.55 8.45 2.33 FL 0.75 0.2 — 59.27 83.02 16.98 8.50 FL 0.75 0.1 — 58.11 80.85 19.15 7.56 FL 0.75 0.0 — 58.01 81.22 18.78 7.66 MFL — 1.0 0.618 68.21 94.39 5.61 1.44 MFL — 2.0 0.618 70.12 95.32 4.68 1.68 MFL — 5.0 0.618 68.11 94.50 5.50 1.56 MFL — 2.0 0.100 67.22 93.68 6.32 2.26 MFL — 2.0 0.300 69.03 94.88 5.12 1.56 MFL — 2.0 1.000 69.22 95.17 4.83 1.29 MFL — 2.0 2.000 68.81 94.35 5.65 1.68 MFL — 2.0 5.000 64.38 92.41 7.59 2.42 表 8 采用F-FPN的模型在不同模板上的泛化性分析 (%)
Table 8 Generalization analysis of models using F-FPN on different templates (%)
模板1 模板2 模板3 模板4 模板5 模板6 模板7 模板8 模板9 模板10 均值 准确率 95.87 96.79 99.67 93.56 91.74 91.11 93.66 99.12 98.23 93.65 95.34 mAP 69.12 69.73 75.37 68.97 67.46 68.12 68.24 75.96 76.82 68.02 70.78 表 9 采用FPN的模型在不同模板上的泛化性分析 (%)
Table 9 Generalization analysis of models using FPN on different templates (%)
模板1 模板2 模板3 模板4 模板5 模板6 模板7 模板8 模板9 模板10 均值 准确率 91.63 91.04 92.38 90.39 88.34 88.12 91.25 91.75 91.42 89.11 90.54 mAP 62.43 61.75 65.86 62.01 61.99 61.08 62.51 65.63 66.74 61.46 63.07 -
[1] 张慧, 王坤峰, 王飞跃. 深度学习在目标视觉检测中的应用进展与展望. 自动化学报, 2017, 43(8): 1289-1305Zhang Hui, Wang Kun-Feng, Wang Fei-Yue. Advances and perspectives on applications of deep learning in visual object detection. Acta Automatica Sinica, 2017, 43(8): 1289-1305 [2] Kumar A. Computer-vision-based fabric defect detection: A survey. IEEE Transactions on Industrial Electronics, 2008, 55(1): 348-363 doi: 10.1109/TIE.1930.896476 [3] Chan C H, Pang G K H. Fabric defect detection by Fourier analysis. IEEE Transactions on Industry Applications, 2000, 36(5): 1267-1276 doi: 10.1109/28.871274 [4] Hanbay K, Talu M F, Özgüven Ö F. Fabric defect detection systems and methods-a systematic literature review. Optik, 2016, 127(24): 11960-11973 doi: 10.1016/j.ijleo.2016.09.110 [5] Chetverikov D, Hanbury A. Finding defects in texture using regularity and local orientation. Pattern Recognition, 2002, 35(10): 2165-2180 doi: 10.1016/S0031-3203(01)00188-1 [6] Ngan H Y T, Pang G K H, Yung N H C. Automated fabric defect detection-a review. Image and Vision Computing, 2011, 29(7): 442-458 doi: 10.1016/j.imavis.2011.02.002 [7] Yapi D, Allili M S, Baaziz N. Automatic fabric defect detection using learning-based local textural distributions in the contourlet domain. IEEE Transactions on Automation Science and Engineering, 2018, 15(3): 1014-1026 doi: 10.1109/TASE.2017.2696748 [8] Ravandi S A H, Toriumi K. Fourier transform analysis of plain weave fabric appearance. Textile Research Journal, 1995, 65(11): 676-683 doi: 10.1177/004051759506501108 [9] Escofet J, Garcia-Verela M S M, Abril H C, Torrecilla E. Inspection of fabric resistance to abrasion by Fourier analysis. In: Proceedings of the SPIE 3490, Optics in Computing'98. Bruges, Belgium: SPIE, 1998. 207−210 [10] Zachevsky I, Zeevi Y Y. Model-based color natural stochastic textures processing and classification. In: Proceedings of the IEEE Global Conference on Signal and Information Processing (GlobalSIP). Orlando, USA: IEEE, 2015. 1357−1361 [11] 李敏, 崔树芹, 谢治平. 高斯混合模型在印花织物疵点检测中的应用. 纺织学报, 2015, 36(8): 94-98 doi: 10.13475/j.fzxb.20140504105Li Min, Cui Shu-Qin, Xie Zhi-Ping. Application of Gaussian mixture model on defect detection of print fabric. Journal of Textile Research, 2015, 36(8): 94-98 doi: 10.13475/j.fzxb.20140504105 [12] Allili M S, Baaziz N, Mejri M. Texture modeling using contourlets and finite mixtures of generalized Gaussian distributions and applications. IEEE Transactions on Multimedia, 2014, 16(3): 772-784 doi: 10.1109/TMM.2014.2298832 [13] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks. In: Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe, USA: Curran Associates Inc., 2012. 1097−1105 [14] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition. In: Proceedings of the 3rd International Conference on Learning Representations. San Diego, USA: ICLR, 2015. [15] Szegedy C, Vanhoucke V, Ioffe S, Shlens J, Wojna Z. Rethinking the inception architecture for computer vision. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE, 2016. 2818−2826 [16] Szegedy C, Ioffe S, Vanhoucke V, Alemi A A. Inception-v4, inception-ResNet and the impact of residual connections on learning. In: Proceedings of the 31st AAAI Conference on Artificial Intelligence. San Francisco, USA: AAAI, 2017. 4278−4284 [17] Ioffe S, Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift. In: Proceedings of the 32nd International Conference on International Conference on Machine Learning. Lille, France: JMLR.org, 2015. 448−456 [18] Szegedy C, Liu W, Jia Y Q, Sermanet P, Reed S, Anguelov D, et al. Going deeper with convolutions. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, USA: IEEE, 2015. 1−9 [19] He K M, Zhang X Y, Ren S Q, Sun J. Deep residual learning for image recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE, 2016. 770−778 [20] Huang G, Liu Z, Van Der Maaten L, Weinberger K Q. Densely connected convolutional networks. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA: IEEE, 2017. 2261−2269 [21] Cai Z W, Vasconcelos N. Cascade R-CNN: Delving into high quality object detection. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 6154−6162 [22] Tan M X, Pang R M, Le Q V. EfficientDet: Scalable and efficient object detection. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, USA: IEEE, 2019. 10778−10787 [23] Lin T Y, Dollár P, Girshick R, He K M, Hariharan B, Belongie S. Feature pyramid networks for object detection. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE, 2017. 936−944 [24] 周波, 李俊峰. 结合目标检测的人体行为识别. 自动化学报, 2020, 46(9): 1961-1970 doi: 10.16383/j.aas.c180848Zhou Bo, Li Jun-Feng. Human action recognition combined with object detection. Acta Automatica Sinica, 2020, 46(9): 1961-1970 doi: 10.16383/j.aas.c180848 [25] 范家伟, 张如如, 陆萌, 何佳雯, 康霄阳, 柴文俊, 等. 深度学习方法在糖尿病视网膜病变诊断中的应用. 自动化学报, 2021, 47(5): 985-1004Fan Jia-Wei, Zhang Ru-Ru, Lu Meng, He Jia-Wen, Kang Xiao-Yang, Chai Wen-Jun, et al. Applications of deep learning techniques for diabetic retinal diagnosis. Acta Automatica Sinica, 2021, 47(5): 985-1004 [26] 陈文帅, 任志刚, 吴宗泽, 付敏跃. 基于深度学习的极性电子元器件目标检测与方向识别方法. 自动化学报, 2021, 47(7): 1701-1709 doi: 10.16383/j.aas.c190037Chen Wen-Shuai, Ren Zhi-Gang, Wu Zong-Ze, Fu Min-Yue. Detecting object and direction for polar electronic components via deep learning. Acta Automatica Sinica, 2021, 47(7): 1701-1709 doi: 10.16383/j.aas.c190037 [27] 吴高昌, 刘强, 柴天佑, 秦泗钊. 基于时序图像深度学习的电熔镁炉异常工况诊断. 自动化学报, 2019, 45(8): 1475-1485Wu Gao-Chang, Liu Qiang, Chai Tian-You, Qin S J. Abnormal condition diagnosis through deep learning of image sequences for fused magnesium furnaces. Acta Automatica Sinica, 2019, 45(8): 1475-1485 [28] 张芳, 王萌, 肖志涛, 吴骏, 耿磊, 童军, 等. 基于全卷积神经网络与低秩稀疏分解的显著性检测. 自动化学报, 2019, 45(11): 2148-2158Zhang Fang, Wang Meng, Xiao Zhi-Tao, Wu Jun, Geng Lei, Tong Jun, et al. Saliency detection via full convolution neural network and low rank sparse decomposition. Acta Automatica Sinica, 2019, 45(11): 2148-2158 [29] 李良福, 马卫飞, 李丽, 陆铖. 基于深度学习的桥梁裂缝检测算法研究. 自动化学报, 2019, 45(9): 1727-1742 doi: 10.16383/j.aas.2018.c170052Li Liang-Fu, Ma Wei-Fei, Li Li, Lu Cheng. Research on detection algorithm for bridge cracks based on deep learning. Acta Automatica Sinica, 2019, 45(9): 1727-1742 doi: 10.16383/j.aas.2018.c170052 [30] Lin T Y, Goyal P, Girshick R, He K M, Piotr D. Focal loss for dense object detection. In: Proceedings of the IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE, 2017. 2999−3007 [31] Yu J H, Jiang Y N, Wang Z Y, Cao Z M, Huang T. UnitBox: An advanced object detection network. In: Proceedings of the 24th ACM International Conference on Multimedia. Amsterdam, The Netherlands: ACM, 2016. 516−520 [32] Çelik H İ, Dülger L C, Topalbekiroğlu M. Fabric defect detection using linear filtering and morphological operations. Indian Journal of Fibre and Textile Research, 2014, 39(3): 254-259 [33] Ng M K, Ngan H Y T, Yuan X M, Zhang W X. Patterned fabric inspection and visualization by the method of image decomposition. IEEE Transactions on Automation Science and Engineering, 2014, 11(3): 943-947 doi: 10.1109/TASE.2014.2314240 [34] Ren R X, Hung T, Tan K C. A generic deep-learning-based approach for automated surface inspection. IEEE Transactions on Cybernetics, 2018, 48(3): 929-940 doi: 10.1109/TCYB.2017.2668395 [35] Çelik H İ, Dülger L C, Topalbekiroğlu M. Development of a machine vision system: Real-time fabric defect detection and classification with neural networks. The Journal of The Textile Institute, 2014, 105(6): 575-585 doi: 10.1080/00405000.2013.827393 [36] Bissi L, Baruffa G, Placidi P, Ricci E, Scorzoni A, Valigi P. Automated defect detection in uniform and structured fabrics using Gabor filters and PCA. Journal of Visual Communication and Image Representation, 2013, 24(7): 838-845 doi: 10.1016/j.jvcir.2013.05.011 [37] Li Y D, Zhao W G, Pan J H. Deformable patterned fabric defect detection with fisher criterion-based deep learning. IEEE Transactions on Automation Science and Engineering, 2017, 14(2): 1256-1264 doi: 10.1109/TASE.2016.2520955 [38] Jing J F, Ma H, Zhang H H. Automatic fabric defect detection using a deep convolutional neural network. Coloration Technology, 2019, 135(3): 213-223 doi: 10.1111/cote.12394 [39] Raheja J L, Ajay B, Chaudhary A. Real time fabric defect detection system on an embedded DSP platform. Optik, 2013, 124(21): 5280-5284 doi: 10.1016/j.ijleo.2013.03.038 [40] Tao X, Zhang D P, Ma W Z, Liu X L, Xu D. Automatic metallic surface defect detection and recognition with convolutional neural networks. Applied Sciences, 2018, 8(9): Article No. 1575 [41] He D, Xu K, Zhou P, Zhou D D. Surface defect classification of steels with a new semi-supervised learning method. Optics and Lasers in Engineering, 2019, 117: 40-48 doi: 10.1016/j.optlaseng.2019.01.011 [42] Arikan S, Varanasi K, Stricker D. Surface defect classification in real-time using convolutional neural networks. arXiv preprint arXiv: 1904.04671, 2019. 期刊类型引用(1)
1. 唐力,赵志宇,张建文,李标奇,徐敏. 结合非负矩阵分解和流形学习的大数据聚类方法研究. 制造业自动化. 2024(09): 170-178+220 . 百度学术
其他类型引用(10)
-