-
摘要: 现有多视图子空间聚类算法通常先进行张量表示学习, 进而将学习到的表示张量融合为统一的亲和度矩阵. 然而, 因其独立地学习表示张量和亲和度矩阵, 忽略了两者之间的高度相关性. 为了解决此问题, 提出一种基于一步张量学习的多视图子空间聚类方法, 联合学习表示张量和亲和度矩阵. 具体地, 该方法对表示张量施加低秩张量约束, 以挖掘视图的高阶相关性. 利用自适应最近邻法对亲和度矩阵进行灵活重建. 使用交替方向乘子法对模型进行优化求解, 通过对真实多视图数据的实验表明, 较于最新的多视图聚类方法, 提出的算法具有更好的聚类准确性.Abstract: A surge of the existing multi-view subspace clustering algorithms generally learn the third-order tensor representation first and then fuse the learned representation tensor into a unified affinity matrix. However, since they learn the representation tensor and the affinity matrix independently, they cannot seamlessly capture their high-order correlation. To address this challenge, we propose a novel multi-view subspace clustering method based on one-step tensor learning (OTSC) to jointly learn the representation tensor and affinity matrix. Specifically, we impose the low-rank tensor constraint on the representation tensor to explore the correlation of high-order cross-views dexterously, utilize the adaptive nearest neighbor strategy to reconstruct a flexible affinity matrix, and adopt the alternating direction method of multipliers (ADMM) to optimize our model. Extensive experiments on real multi-view data demonstrated the superiority of OTSC compared to the state-of-the-art methods.
-
电熔镁砂(Fused magnesium furnace, FMF)具有熔点高、结构致密、抗氧化性强、耐压强度高、耐腐蚀性强以及化学性能稳定等优良特性, 在工业、军事领域乃至航天工业中都是不可或缺的战略资源.目前, 提炼电熔镁砂的工艺流程通常是利用三相交流电熔镁炉(简称电熔镁炉)通过电弧来对以菱镁矿石为主的粉末状原料加热熔炼.通过吸收电弧产生的热量将矿石粉末加热到近3 000℃, 分解为熔液状态的氧化镁(MgO)和二氧化碳(CO$_2$)气体, 再通过降温结晶过程排除杂质, 从而得到高纯度的MgO晶体, 即电熔镁砂[1-3].而熔炼所用容器为有限使用次数的铁制炉壳, 并通过水循环系统进行冷却.
电熔镁炉的运行主要包括加热熔化、加料和排气三种正常工况.由于我国电熔镁矿石存在品位低、矿物组成复杂以及成分波动大等特性, 物料在熔化过程中电阻和熔点不稳定, 易发生欠烧等异常工况[4-5], 对生产安全、人员安全和产品质量产生很大影响, 通常是由于原料杂质成分导致局部熔点升高, 以及不适当的电流设定值使局部熔炼区温度低于原料熔化温度, 熔池过于粘稠, 使CO$_2$气体无法正常排出, 迫使溶液穿透炉壳保护层与铁质炉壳直接接触, 造成炉壳温度过高至烧红烧透, 处理不及时甚至会导致烧漏、熔液漏出现象.
由于超高温电熔镁炉熔液温度不直接可测, 目前欠烧异常工况主要通过现场工人定期观察炉壳特征来诊断.但人工巡检工作强度大、危险性高, 且准确性高度依赖操作人员的经验和状态.此外, 通常从正常工况到产生欠烧工况仅需2 $\sim$ 3分钟, 而巡检工人通常需要对每个厂区内的三台电熔镁炉进行往返巡视, 滞后性大, 处理不及时会导致漏检.针对上述问题, 亟需一种自动且快速有效的电熔镁炉工况诊断方法.文献[4]提出了一种基于电流数据的工况诊断方法, 通过各工况的历史电流数据提取出一系列专家规则库, 再利用该规则库对现场运行工况进行实时诊断.但实际生产的众多不稳定因素导致该方法无法准确、稳定地工作, 例如熔池中不断产生的CO$_2$气泡导致熔液翻滚, 使液面与三相电极间距不断变化, 电阻也会随之改变, 导致电流无规律的波动.此外, 根据电流数据人为制定专家规则也高度依赖于专家经验, 易发生漏报和误报.在计算机视觉领域, 卷积神经网络(Convolutional neural network, CNN)由于出色的空间特征提取性能被用于图像分割[6]、图像超分辨率复原[7-8]以及图像识别[9-10].利用CNN的空间特征提取特性以及生成式对抗神经网络(Generative adversarial networks, GAN)的样本生成特性, 文献[11]通过静态图像信息进行工况诊断, 但在训练与预测过程仅利用单帧图片输入, 缺少对连续时间信息的感知, 因此模型无法描述实际生产的动态过程.而在动态过程的表征及识别方面, 循环神经网络(Recurrent neural network, RNN)由于特殊的时序编码结构被广泛应用于语音辨识[12-13]、视频识别[14]以及视频预测中[15].但RNN结构仅利用全连接结构作为输入, 因此往往忽略了图像序列中的空间特征.
根据前文所述, 电熔镁炉欠烧工况时溶液凝固在炉壳内壁导致炉壳烧红烧透, 为异常工况诊断提供了更直观的视觉信息.本文主要工作如下:
为排除熔炼现场众多随机因素的干扰, 提出灰度一致性变换和时序残差图像提取的预处理方法; 针对电熔镁炉异常工况发生发展的视觉特征, 提出将CNN与RNN相结合的工况诊断方法, 其中CNN对预处理后的序列图像提取空间特征并编码为时间独立的特征向量, 再将一系列按时间序列排列的特征向量输入至RNN用以提取时序特征, 从而挖掘出异常工况从无到有再到显著的时空特性; 针对电熔镁炉异常工况标记数据稀疏及获取困难等问题, 且为了避免人工逐帧标记, 结合电熔镁炉异常工况的位置相对固定以及随时间变化缓慢的特性, 提出一种基于加权中值滤波的欠烧工况标记方法, 并利用电熔镁炉实际生产过程的视频信号, 对所提方法与现有两种深度学习模型(基于CNN的模型与基于RNN的模型)进行了实验比较, 验证了所提方法的有效性.
1. 电熔镁炉欠烧工况视觉特征分析
电熔镁炉生产现场如图 1 (a)所示, 其中实线框内为所标记的炉壳区域.当欠烧工况开始发生时, 炉壳的局部区域会被粘稠MgO熔液烧红(如图 1 (b)所示, 其中欠烧工况发生的部位被标记在实线框内).通过识别炉壳的图像序列中的高亮度区域便能对这一工况进行判断.但由于高亮度水雾以及炉壳上固有的白斑干扰, 直接通过图像中高亮度区域来判断往往导致极高概率的误报.通过对原始图像序列提取出时序残差信息(如图 1 (c)显示了某时刻欠烧工况下的时序残差图像, 两处高亮度区域为欠烧区域), 可有效抑制炉壳上固有特征(如白斑)带来的干扰, 以及由于不同图像序列中光照不一致造成的环境干扰.
在空间维度上, 虽然欠烧工况的区域形状不定, 但由于其形成的内在机理是由于熔液凝固在炉壳内壁所致, 因此具有一定的空间特征规律(如图 1 (b)所示).最直接的异常工况诊断方法是对残差图像进行逐帧空间特征提取, 再对工况进行分类.然而, 由于环绕在炉壳周围的水雾也呈现出高亮度特征, 且区域形状不定, 会对最终的分类结果造成较大干扰.因此, 大量水雾带来的干扰成为从空间维度准确诊断电熔镁炉欠烧工况的主要难点.简单地将空间特征作为判断依据并无法完整描述欠烧工况.
在时间维度上, 欠烧区域一旦发生则位置随时间相对固定, 且亮度与范围随时间递增的特征不同, 水雾在时间维度中呈现出持续时间短且空间位置不确定性强的特征.图 1 (d)为图 1 (c)中竖线标记位置处残差随时间的变化, 其中横坐标为时间序列, 纵坐标为图像空间维度中的垂直维度$ y $.图 1 (d)中, 虚线框内为水雾干扰区域, 随时间呈现出类似噪声分布特征; 实线框内为欠烧工况区域, 在时间维度上呈现出位置相对固定而强度递增的特征.但由于各种因素干扰, 欠烧工况区域并不是严格随时间变大, 即会在某些时刻变小甚至在短时间内消失(如图 1 (d)箭头所示).因此, 在利用每一时刻图像的空间信息的同时, 需要结合其在长时间跨度的整体动态特性作为诊断依据.
2. 基于卷积循环神经网络的电熔镁炉异常工况诊断
2.1 电熔镁炉异常工况诊断策略
本文利用电熔镁炉现场生产过程的视频信号, 结合欠烧(异常)工况的视觉特征, 分别利用CNN与RNN提取空间与时间维度上的特征, 并建立如图 2所示的基于卷积循环神经网络(Convolutional recurrent neural network, CRNN)的电熔镁炉欠烧工况诊断结构.该结构主要由三部分组成:图像序列预处理模块、基于卷积循环神经网络的特征提取模块和基于加权中值滤波的工况区域标记模块.
将图像序列预处理得到的结果作为网络输入, 基于加权中值滤波的工况区域标记作为网络的期望输出, 建立基于CRNN的特征提取模型.在实时诊断过程中(图 2中实线框部分), 对于实时视频信号首先通过视频序列预处理模块, 处理后的图像序列输入训练得到的CRNN模型得到诊断结果输出.
具体地, 图像序列预处理模块由图像序列灰度一致性变换与时序残差图像提取步骤组成, 前者用以排除电熔镁炉炉口火焰亮度波动造成的相机不稳定曝光干扰, 后者用以排除不同炉壳表面固有视觉特征带来的干扰.在基于RNN的特征提取模块中, CNN利用输入的图像提取空间特征, 并输出时序上无关联的空间特征向量, 而RNN则利用该特征向量在时序维度上进行特征提取, 并最终获得工况诊断信息.本文使用对时间感知能力较强的长短期记忆(Long short-term memory, LSTM)结构[16]作为RNN的基本单元.由于对实际视频信号进行逐帧的异常工况区域标记过程复杂且成本过高, 本文结合欠烧异常工况的视觉特征, 利用基于加权中值滤波的工况区域标记模块对标记数据进行稠密化与区域优化, 而初始标签数据获取阶段仅需要粗略与时序稀疏的人工标记.
2.2 异常工况诊断算法
2.2.1 图像序列预处理
首先对相机采集的原始图像序列依次进行灰度一致性变换和时序残差图像提取.
1) 图像序列灰度一致性变换.在生产过程中, 电熔镁炉炉口亮度波动会对相机曝光产生随机干扰, 相机自动调整曝光量会使拍摄的炉体图像明暗不一.这种整体的环境光波动会对后续空间特征提取产生干扰.因此, 本文利用灰度一致性约束[17]对炉壳图像序列进行处理.令$ V_ {\rm RGB} = \{I_1, I_2, \cdots, I_N\} $为相机拍摄的图像序列, 其中$ I_n $为第$ n $帧RGB空间的图像.首先通过颜色空间映射将RGB空间的图像序列$ V $转换到Lab空间, 即$ V_ {\rm Lab} = f_{\rm Lab}(V_ {\rm RGB}) = $ $ \{f_ {\rm Lab}(I_1) $, $ f_ {\rm Lab}(I_2), \cdots, f_ {\rm Lab}(I_N)\} $, 其中$ f_ {\rm Lab} $为颜色空间映射函数(将RGB空间图像映射到Lab空间).现将Lab空间的图像$ f(I_n) $简写为$ H_n $, 则经过灰度一致性约束的图像$ \hat{H} $为
$ \begin{align} &\hat{H}^l_n = \frac{\varphi(H^l_t)}{\varphi(H^l_n)}(H^l_n-\bar{H}^l_n)+\bar{H}^l_t, \ \ l\in\{{\rm L, a, b}\}\\ &H_t = \frac{1}{N_1}\sum\limits_{i = 1}^{N_1}H_i \end{align} $
(1) 其中, L, a, b分别为Lab颜色空间的三个通道, $ H^l_n $为第$ n $帧Lab空间中的第$ l $通道的图像, $ \hat{H}^l_n $为约束后对应的图像, $ H^l_t $为参考帧$ t $下的图像, $ \bar{H} $表示对图像$ H $取均值, $ \varphi(H) $表示对图像$ H $取标准差.为排除相机噪声干扰, 将$ H_t $取为前$ N_1 $帧图像的平均值作为参考图像而非单一帧图像. $ N_1 $的取值主要依据熔炼过程中炉口火焰的闪烁周期和炉壳周围的水雾移动速度共同决定, 本文取经验值50.则通过灰度一致性变换后的图像序列$ \hat{V}_{\rm Lab} = $ $ \{\hat{H}_1, \hat{H}_2, \cdots $, $ \hat{H}_N\} $.最后将Lab空间的图像序列转换回RGB空间, 得到$ \hat{V}_ {\rm RGB} = $ $ \{\hat{I}_1, \hat{I}_2, \cdots, \hat{I}_N\} $.
2) 时序残差图像提取.不同电熔镁炉可能存在固有的视觉特征差异, 例如图 1 (b)中炉壳上的白斑, 以及不同的环境光源.为排除这些固有视觉特征差异对工况诊断的干扰以及使后续网络模型可以用于不同电熔镁炉, 本文对经过灰度一致性变换后的图像序列进行时序残差图像(图 1 (c))提取, 其值为
$ \begin{align} R_n = f_{\rm YUV}(\hat{I}_n)-\frac{1}{N_2}\sum\limits_{i = N_1+1}^{N_1+N_2}f_ {\rm YUV}(\hat{I}_i) \end{align} $
(2) 其中, $ R_n $表示第$ n $帧时序残差图像, $ f_ {\rm YUV} $为将图像从RGB空间映射到YUV空间的函数.类似式(1), 取前$ N_2 $帧图像的平均值作为参考图像, 其中$ N_2 $取经验值50.本文仅采用式(2)中时序残差图像$ R_n $的Y通道作为后续基于深度学习的工况诊断的网络模型输入, 即时序残差图像序列$ V_R = $ $ \{R_1 $, $ R_2 $, $ \cdots $, $ R_N\} $.
需要注意的是, 本文提到的时序残差图像是指相对于初始状态(即前50帧的平均状态)的残差而非相对于上一时刻的残差.另一点需要注意的是, 由于熔炼初期不会发生欠烧工况, 使用熔炼初期的前$ N_2 $帧图像的平均值作为参考图像.因此, 该预处理不会带来诊断延迟.
2.2.2 基于卷积循环神经网络的特征提取
1) 基于CNN的空间特征提取.传统图像处理方法依靠人为定义的算子(如梯度算子、Sobel算子和SIFT算子)提取图像特征.这些由算子提取特征的操作可视为算子$ \omega $与残差图像$ R $的卷积操作, 即$ F = \omega\ast R $, 其中, $ \ast $代表卷积操作, $ F $为图像特征矩阵.与传统方法不同, CNN将卷积算子也称为卷积核$ W $, 视为可以调节的网络参数, 即依靠大量训练数据和优化算法对这些参数进行自动调整, 从而达到提取图像特征的目的.因此本文将一层卷积网络描述为
$ \begin{align} L_ {\rm conv}^j = {\rm ReLu}(W^j\ast L_ {\rm conv}^{j-1}+B^j) \end{align} $
(3) 其中, $ L_ {\rm conv}^j $为第$ j $层网络输出, $ L_ {\rm conv}^{j-1} $为前一层网络输入(对于第1层网络, $ L_ {\rm conv}^{j-1} $为输入数据, 即时序残差图像), $ B_i $为偏置参数, ReLu$ (\cdot) $为修正线性单元(Rectified linear units, ReLu), $ {\rm ReLu}(x) = $ $ {\rm max}(x, 0) $.本文使用每10帧时序残差图像$ R = $ $ \{R_1, R_2, \cdots, R_{10}\} $作为CNN的输入, 即输入为一个$ w\times h\times10 $的三维矩阵, 其中$ w $为图像宽度, $ h $为图像高度.本文采用6层卷积网络(即$ j = 1, 2 $, $ \cdots $, $ 6 $), 其结构以及每一层网络的卷积核$ W $大小如图 3所示.第1层网络的卷积核为$ 10 \times 11 \times 11 $ $ \times $ $ 64 $, 输出大小为$ 64\times(w-10)\times (h - 10) $; 第2层的卷积核为$ 64\times 5 \times 5 \times128 $, 输出大小为$ 128\times (w $ $ - $ $ 14)\times (h-14) $; 第3层的卷积核为$ 128 \times 3 \times 3 $ $ \times $ $ 128 $, 输出大小为$ 128\times(w-16)\times(h-16) $; 第4层的卷积核为$ 128\times3\times3 \times 64 $, 输出大小为$ 64 $ $ \times $ $ (w-18)\times (h-18) $; 第5层的卷积核为$ 64 \times 5 \times 5 $ $ \times $ $ 64 $, 输出大小为$ 64 \times (w-22) \times (h-22) $; 第6层的卷积核为$ 64\times11\times11\times 64 $, 输出大小为$ 64 $ $ \times $ $ (w-32)\times (h-32) $.为了使网络具有非线性映射关系, 第1 $ \sim $ 5层网络后均包括一层ReLu操作(图 3中为便于观察网络结构没有给出).由于每层网络无填充(Padding)操作, 因此输出的空间维度大小逐层降低.例如, 对于空间维度大小为$ 33 \times 33 \times 10 $的输入, 最终输出为64维的向量.
2) 基于RNN的时序特征提取.本文使用的循环神经网络直接利用CNN的输出$ y_ {\rm conv} $作为输入, 结构如图 4所示, 其中网络输入$ x $对应于卷积网络输出$ y_ {\rm conv} $. RNN的隐含层单元不仅输出结果$ y $, 还包括状态$ h $, 且该状态$ h $通过不断循环(如图 4 (a)所示), 将时间序列信息引入网络.本文将输入$ x $的当前时刻及历史时刻的序列作为RNN的输入, 展开为如图 4 (b)所示的结构.需要注意的是, 由于状态$ h $通过不断循环传递时序信息, 时间$ t $的状态$ h^t $为该时刻的输入$ x $, 即$ y_ {\rm conv}^t $, 以及之前时刻的输入$ \{x^{t-1} $, $ x^{t-2}, \cdots\} $, 即$ \{y_ {\rm conv}^{t-1}, y_ {\rm conv}^{t-2}, \cdots\} $共同作用的结果.因此, RNN的循环结构使得该网络能够描述输入序列的时间特性.
传统循环神经网络单元, 存在随着时间递增, 后节点对前节点的感知能力下降, 即长期依赖问题[18].而长短期记忆单元, 即LSTM单元, 通过门的设计来保护与控制每个节点的状态, 其中一个门仅允许少量的线性交互, 使得时间较早的信息不会流失[19].因此, 本文利用LSTM作为RNN结构的核心单元来提取来自于CNN的时序特征, 结构如图 5所示, 其中
$ \begin{align} f^t& = \sigma(W_f\times[h^{t-1}, y_ {\rm conv}^t]^ {\rm T}+b_f)\\ i^t& = \sigma(W_i\times[h^{t-1}, y_ {\rm conv}^t]^ {\rm T}+b_i)\\ \tilde{C}^t& = \tanh(W_C\times[h^{t-1}, y_ {\rm conv}^t]^ {\rm T}+b_C)\\ C^t& = f^t\odot C^{t-1}+i^t\odot\tilde{C}^t\\ o^t& = \sigma(W_o\times[h^{t-1}, y_ {\rm conv}^t]^ {\rm T}+b_o)\\ h^t& = o^t\odot\tanh(C^t) \end{align} $
(4) 其中, $ f^t $, $ i^t $, $ \tilde{C}^t $, $ o^t $均为LSTM单元内部变量; $ \sigma(\cdot) $为sigmoid非线性单元, 即$ \sigma(x) = (1+{\rm e}^{-x})^{-1} $, $ \tanh $为双曲正切函数; $ \odot $为哈达马积, $ W_f $, $ W_i $, $ W_C $和$ W_o $为LSTM单元权值, $ b_f $, $ b_i $, $ b_C $和$ b_o $为LSTM单元偏置; $ y_{\rm conv}^t $为序列$ t $的卷积神经网络输出, $ h^{t-1} $与$ C^{t-1} $为$ t-1 $时刻LSTM单元输出; $ C^{t} $与$ h^{t} $为$ t $时刻LSTM单元输出.通过对LSTM单元输出$ h_t $使用softmax回归, 最终LSTM网络输出$ t $时刻(即第$ t $帧图像序列)诊断结果的概率分布$ P(y_t) $为
$ \begin{align} &P(y_t = k) = {\rm softmax}(h^t) = \\ &\qquad\frac{\exp(W_{hk}h^t_k+b_k)}{\sum\limits_{k'\in K}\exp(W_{hk}h^t_{k'}+b_k)} \end{align} $
(5) 其中, $ K $为诊断结果类别空间, $ K = [0, 1] $ (0代表正常区域, 1代表欠烧区域).最终诊断结果$ \hat{y}_t $为
$ \begin{align} \hat{y}_t = \arg\mathop{\max}_k(P(y_t = k), k\in K) \end{align} $
(6) 本文将两个网络(CNN与LSTM)作为一个整体进行训练, 其损失函数$ L_ {\rm Loss} $为交叉熵, 定义如下
$ \begin{align} L_ {\rm Loss} = -\sum\limits_{x\in X}\sum\limits_{k\in K}Q(y = k)\log(P(y = k)) \end{align} $
(7) 其中, $ (x, y) $为一组数据对, $ X $为批处理数据中数据对数量, $ Q(y = k) $为标签数据的概率分布, 即对于正常区域$ Q(y = 0) = 1 $, $ Q(y = 1) = 0 $, 而欠烧区域$ Q(y = 0) = 0 $, $ Q(y = 1) = 1 $.
2.2.3 基于加权中值滤波的工况区域标记
电熔镁炉欠烧工况主要依赖于人工判断, 但人为地对训练集图像序列的每一帧进行标签制作成本较高.例如, 对一段持续1小时的图像序列进行标签制作, 视频为30帧/s, 则需要对10万帧数据进行欠烧工况发生位置的标记.尽管训练集不成对的网络训练方法已被提出[20], 但需要利用只有输入数据和只有标签数据分别对网络进行训练, 再通过同时有输入和标签的数据对进行网络参数调整.因此, 仍然需要获取大量带有标签的工况数据.
为了快速并准确获取大量已标记数据, 本文首先做出下述观察:
1) 欠烧工况一旦发生, 其空间位置保持不变, 在残差图像中呈现出的区域大小随时间增加.
2) 欠烧区域形状不规则, 但是一旦发生, 其形状不随时间发生较大变化.
产生这两项观察的根本原因是由于接触炉壳内壁的MgO高粘度溶液不会随时间发生较大变化.
结合上述两项观察, 本文提出一种从稀疏标记数据中自动得到密集标记数据的方法, 仅需手动对图像序列中的2帧图像进行欠烧工况的粗略定位, 就能够通过自动标记优化方法对整段图像序列的欠烧工况发生区域进行准确标记, 其具体步骤如下:
1) 对图像序列进行稀疏粗略标记.对一段时序残差图像中欠烧工况发生的起始帧$ G_1 $与结束帧$ G_N $进行人工定位, 构成含有粗略定位的参考标记图像$ \bar{Y}_1 $, $ \bar{Y}_N $ (如图 6 (c)所示).
2) 将稀疏粗略标记传播至其他帧图像.利用线性投影将第一步中的两帧参考标记图像$ \bar{Y}_1, \bar{Y}_N $, 的标记区域传播至其他帧, 构成$ \bar{Y}_1, \bar{Y}_2, \cdots, \bar{Y}_N $, 其中线性投影可描述为
$ \begin{align} \mathit{\boldsymbol{O}}_i = \mathit{\boldsymbol{O}}_1+\frac{\mathit{\boldsymbol{O}}_N-\mathit{\boldsymbol{O}}_1}{N-1}(i-1) \end{align} $
(8) 其中, $ \mathit{\boldsymbol{O}}_i $为第$ i $帧对应的人工定位坐标.
3) 标记区域优化.前两步得到的标记区域仅为粗略定位, 因此本文利用加权中值滤波对每一帧的参考标记图像$ \bar{Y}_N $进行优化处理以得到最终的标签数据$ Y_n $:
$ \begin{align} Y_n(p)& = \arg\mathop{ {\rm med}}_{k\in K}(h_p(k))\\ h_p(k)& = \sum\limits_{q\in \mathit{\boldsymbol{N}}(p)}\omega(p, q)\delta(\bar{Y}_n(q)-k)\bar{Y}_n(q)\\ \omega(p, q)& = \exp\left(-\frac{|R_i(p)-R_i(q)|^2}{2\rho_R^2}-\frac{|x_p-x_q|^2}{2\rho_x^2}\right) \end{align} $
(9) 其中, $ \mathit{\boldsymbol{N}}(p) $为像素$ p $的邻域, $ x_p $为像素$ p $的空间坐标, $ \delta $为克罗内克函数(Kronecker delta function), 即当内部变量为0时$ \delta(\cdot) = 1 $, 否则为$ \delta(\cdot) = 0 $, $ R_i $为预处理得到的第$ i $帧时序残差图像, $ \rho_R $和$ \rho_x $为加权中值滤波器的固有参数.本文取$ \rho_R = 0.08 $, $ \rho_x $ $ = $ $ 2 $.图 6 (d)为经过加权中值滤波后的标签, 结合图 6 (a)和图 6 (b)可以看到该标签能够对欠烧区域进行准确定位.
3. 应用验证与实验结果与分析
本节结合实际的电熔镁炉过程介绍卷积循环神经网络的具体实现细节, 并从电熔镁炉欠烧工况的诊断率与诊断敏感度两方面, 对提出的深度学习网络模型进行评价.其中, 诊断率由网络模型对所有测试帧的诊断正确率表示, 包括漏诊断率(欠烧工况发生时未检测出)、误诊断率(正常状态下诊断为欠烧工况)和总诊断率(总的诊断准确率); 诊断敏感度用从实际发生欠烧工况到由模型诊断出欠烧工况发生所历经的帧数表示.
实验主要与现有的纯卷积神经网络模型[21]和纯循环神经网络模型[12]进行对比.其中, 文献[21]对输入图像分别提取局部空间特征与全局空间特征进行图像的显著性检测.具体地, 文献[21]对局部裁剪图像以及整体图像, 分别利用两个卷积神经网络进行空间特征提取, 再通过一层全连接层融合不同尺度的空间特征.而文献[12]利用含有多层LSTM单元的RNN进行语言识别.为了尽可能保证不同网络之间的对比公平性, 对文献[21]及文献[12]均采用7层网络结构, 即对文献[21]采用4层CNN与2层全连接层进行不同尺度的空间特征提取, 并利用1层全连接层进行特征融; 对文献[12]采用7层LSTM单元(本文提出的网络包含6层卷积层与1层LSTM单元).此外, 通过去除预处理步骤中的图像序列灰度一致性变换和时序残差图像提取这两步来分析提出的预处理方法对最终诊断结果的影响.
3.1 卷积循环神经网络训练
本文使用从电熔镁炉熔炼现场采集的5组图像序列, 分辨率分别为$ 330\times380\times300 $, $ 330\times380\times 367 $, $ 315\times385\times800 $, $ 360\times480\times201 $和$ 360\times321\times200 $, 其中, 前两个维度分别为水平与垂直方向的空间维度, 最后一个维度为时间维度(即视频帧数).将第1 $ \sim $ 3组序列作为训练数据集, 第4组和第5组用于进行应用验证.由于工业背景下存在数据获取困难的问题, 直接使用采集到的图像序列用于会导致训练集过小, 网络容易产生过拟合现象.为此, 本文对第1 $ \sim $ 3组训练数据进行窗口化处理. CNN网络输入为$ 33\times33\times10 $的数据(即空间维度取$ 33\times33 $), LSTM网络总共所需的输入为$ 64\times10 $的数据, 则网络需要$ 33\times33\times19 $的数据输入.从欠烧工况开始时刻进行训练数据选取, 3组数据的开始时刻分别为121、266、290帧, 数据选取步幅为[14, 14, 8].共产生51 452组训练数据对.使用第2.2.3节中的训练数据集标记方法对训练与评价数据进行标记仅耗时60.46 s (除去对欠烧工况区域的人工定位时间).网络训练采用批处理方法, 每批含有128组数据, 则共产生401批数据, 其中350批作为训练数据, 50批作为验证数据.
本文利用tensorflow[22]框架建立卷积循环神经网络模型(CNN网络与LSTM网络), 并利用式(7)中的损失函数对两个网络同时进行训练.使用均值为0、方差为$ 1\times10^{-3} $的高斯分布来初始化网络模型的权值, 偏置则初始化为0.使用Adam优化算法[23]进行网络训练, 初始学习率为$ 1\times10^{-3} $, 学习衰减率为0.99, 即对所有训练集训练一次则学习率衰减为之前的0.99倍.网络训练在i7-4770, 3.40 GHz的4核CPU、内存为16 GB的电脑中运行.通过$ 4 $ $ \times $ $ 10^5 $次训练, 网络模型逐渐收敛, 收敛曲线如图 7所示, 其中, 训练Loss和训练Acc分别表示训练时的损失函数Loss和准确率; 验证Loss和验证Acc分别表示验证时的损失函数Loss和准确率.
3.2 诊断结果分析
本文利用电熔镁炉熔炼现场采集的图像序列4和5对提出的卷积循环神经网络进行测试.将测试集中每一帧图像及其对应的工况作为一组测试数据, 即总测试数据数量为序列总帧数(401组).漏诊断率$ r_O $、误诊断率$ r_F $和总诊断率$ r_A $定义为
$ \begin{align} r_O& = \frac{\mbox{未诊断出的欠烧工况帧数}}{\mbox{序列总帧数}} \times100 \%\\ r_F& = \frac{\mbox{错误诊断为欠烧工况的帧数}}{\mbox{序列总帧数}} \times100 \%\\ r_A& = \frac{\mbox{诊断正确的帧数}}{\mbox{序列总帧数}}\times100 \% \end{align} $
(10) 表 1显示了文献[21]提出的卷积神经网络模型、文献[12]采用的循环神经网络模型和本文使用的卷积循环神经网络对电熔镁炉欠烧工况的诊断率.所有方法均使用第2.2.1节描述的预处理后的时序残差图像作为输入.
从表 1可以看出, 由于缺少在时间维度上的特征提取, 文献[21]中的卷积神经网络模型的总诊断率最低; 文献[12]中的循环神经网络模型由于缺少对图像序列中每个像素的领域像素进行编码(即空间特征提取)而导致总的诊断率低于本文提出的方法; 本文提出的CNN与RNN结合的方法通过对图像序列的空间特征和时序特征同时进行提取, 从而能够达到较高的诊断率, 且误诊断率较低(对本次实验的序列4和5, 误诊断率为0).
图 8显示了对图像序列4和5的欠烧工况诊断结果, 包括序列中炉壳表面某一欠烧区域的平均灰度值, 对应的时序残差图像平均灰度值, 以及文献[12]中的循环神经网络模型和本文方法的诊断结果.文献[12]中的循环神经网络模型对欠烧工况的诊断在序列4中滞后标签数据8帧(0.27 s), 在序列5 (图 8 (b))中滞后27帧(0.90 s), 而本文方法在对欠烧工况的诊断序列4中滞后标签数据17帧(0.57 s), 在序列5中滞后1帧(0.03 s), 因此本文提出的方法对异常工况有着更高的敏感度.此外, 从图 8可以看出, 循环神经网络模型[12]的诊断结果稳定性较差, 例如在图 8 (b)中判断当前工况为异常工况后仍然可能将后续序列判断为正常工况, 而本文提出的方法相对而言更加稳定.为了方便方法比较, 对序列4从101 $ \sim $ 181帧(显示间隔为10帧)的结果进行了可视化展示, 每列自上而下分别为输入序列、CNN[21]、LSTM[12]和本文方法的结果, 诊断的欠烧区域以最小包围矩形标记显示如图 9所示.从图 9可以看到, 文献[12]中仅使用LSTM的诊断模型与文献[21]中仅使用CNN的诊断模型相比诊断结果更加稳定, 但两者均倾向于将高亮度水雾区域误诊断为欠烧区域(例如, 文献[21]诊断结果的第101, 111, 161, 181帧, 文献[12]诊断结果的第101, 141帧).而本文所提的卷积神经网络与循环神经网络相结合的方法则能够很大程度地避免这类误诊断现象.
在算法运行角度方面, 在与训练所用电脑相同配置(i7-4770, 3.40 GHz的4核CPU, 16 GB内存)条件下, 所提方法在线诊断时对分辨率为360 $ \times $ 480的视频信号的执行速率为0.0271 s/帧, 其中预处理耗时0.0057 s/帧, 卷积循环神经网络耗时0.0214 s/帧.因此, 整个算法流程每秒可处理约37帧图像, 能够满足实时性要求.
3.3 预处理与网络可视化分析
本节对第2.2节描述的预处理步骤(图像序列灰度一致性变换和时序残差图像提取)对最终欠烧工况诊断结果的影响进行分析, 并对训练中间结果, 即CNN的第一层卷积核进行可视化, 以分析空间特征对整个工况诊断的意义.
表 2为预处理步骤对欠烧工况诊断率的影响结果, 其中, 无预处理为去除灰度一致性变换和时序残差图像提取步骤的结果, 无预处理1为去除灰度一致性变换步骤的结果, 无预处理2为去除时序残差图像提取步骤的结果.本文提出的两步预处理步骤分别解决了炉口火焰对相机曝光产生的影响和冗余信息对网络模型产生的影响.从表 2可以看出, 两者对最终的诊断结果均产生较为重要的影响, 其中图像序列灰度一致性变换(即预处理1)对诊断结果的影响更大.此外, 从图 8中输入图像平均灰度值与残差图像平均灰度值这两条曲线可以看出, 未做任何处理的图像序列, 图像灰度值在异常工况发生时无任何变化, 而经过时序残差图像提取后, 其灰度值变化较为明显.
表 2 预处理对诊断率的影响(%)Table 2 Influences of two preprocessing procedures on diagnosis rates (%)漏诊断率 误诊断率 总诊断率 无预处理 11.47 7.23 81.30 无预处理1 10.22 6.73 83.04 无预处理2 7.48 2.74 89.77 本文方法 4.99 0.00 95.01 图 10为本文使用的卷积循环神经网络模型中CNN权值参数的可视化结果, 其中卷积核按照方差从大到小排列, 且每个卷积核均被归一化到$ [0, 1] $区间.图 10 (a)为$ L_ {\rm conv}^{1} $层$ (10\times11\times11\times64) $卷积核$ W^1 $的第一个通道(共10个通道).在这些卷积核中, 部分核呈现出类似噪声分布的状态, 主要是由于相机本身的噪声以及生产现场的水雾在空间与时间上呈现出无规律的变化; 另一部分核呈现出较为规律的模式, 类似人为定义的特征提取算子, 例如边缘提取算子点提取算子和纹理提取算子.这些卷积核通过将分布在不同空间位置的图像信息聚合为一个整体输入到LSTM网络中, 并通过参数训练来调整每个空间位置对最终输出结果的影响, 从而将异常工况在炉壳的空间分布信息利用起来, 使之在最终的工况诊断中发挥作用.
由于本文使用的CNN模型采用多帧残差图像作为输入, 网络也起到一部分时序特征提取作用, 则卷积核$ W^1 $的通道可以理解为卷积核随时间的分布.图 10 (b)展示了$ L_ {\rm conv}^1 $层第3个卷积核(即图 10 (a)中实线框标记出的卷积核)随输入通道(即时间维度)的变化结果, 可以看到卷积核随时序呈现较为缓慢的变化.但仅从10帧图像无法判断该特征是由故障工况引起还是由大范围水雾干扰引起.因此仅采用10帧图像作为CNN的输入无法提取足够的时序信息来判断故障工况的发生, 而利用更多的时序图像来将图像随时间的变化建立到CNN中代价较高[24] (例如, 将30帧图像序列建立到模型中则需要第一层核函数为30层), 这对网络收敛速度和后续的诊断速度都会产生较大的影响.由于循环神经网络有着出色的时序记忆特性, 可以充分提取出序列图像随时间的变化关系, 因此本文对电熔镁炉异常工况的时序特征提取主要通过循环神经网络来实现.
4. 结论
本文结合生产现场的实际视频信息, 提出了一种基于卷积循环神经网络的异常工况诊断方法.通过图像序列灰度一致性变换和时序残差预处理, 排除了生产现场环境光变化以及不同电熔镁炉炉壳固有视觉特征的变化带来的干扰, 提高了诊断精度.在此基础上, 使用工况的视频信号, 从空间和时间两个维度提取电熔镁炉异常工况局部缓变的时空特征, 并诊断异常工况, 相比其他方法具有更高的诊断精度.
本文提出的卷积循环神经网络可推广于其他具有强时空特征的其他工业过程的工况诊断, 以及难以利用电流电压等易受到强干扰的一维数据进行工况诊断的工业过程; 所提出的基于加权中值滤波方法可推广应用于工况标记困难的其他工业过程.
结合现有视频语义预测方法[25]以及基于过程数据故障趋势预测方法[26], 下一步将在本文提出的卷积循环神经网络框架基础上, 开展基于视频信号的故障趋势预测研究工作.
-
表 1 符号与定义
Table 1 Notations and definitions
符号 定义 $\boldsymbol{x}, X, {\cal{X}}$ 向量, 矩阵, 张量 1 单位向量 $I$ 单位矩阵 ${\cal{I}}$ 单位张量 $n$ 样本个数 $V$ 视图个数 $d_v$ 第$v$个视图的特征维度 $X^v\in {\bf{R}}^{d_v \times n}$ 第$v$个视图的特征矩阵 ${\cal{Z}}\in{\bf{R}}^{n\times n\times V}$ 表示张量 $A\in {\bf{R}}^{n \times n}$ 亲和度矩阵 $E^v\in {\bf{R}}^{n \times n}$ 噪声矩阵 $\|\cdot\|_{2,1}$ $l_{2,1}$范数 $\|\cdot\|_{\rm{F}}$ Frobenius范数 $\|\cdot\|_\infty$ 无穷范数 $\|\cdot\|_{*}$ 矩阵核范数 $\|\cdot\|_{\circledast}$ 张量核范数 ${\rm{FFT}}$ 快速傅里叶分解 表 2 真实多视图数据集信息
Table 2 Summary of all real-world multi-view databases
数据集 样本数量 类别 视图 种类 Extended YaleB 640 38 3 面部图像 ORL 400 40 3 面部图像 3Sources 169 6 3 新闻故事 BBCSport 544 5 2 新闻故事 UCI-Digits 2000 10 3 手写数字 COIL_20 1440 20 3 通用对象 表 3 参数设置
Table 3 Parameter setting
数据集 $\alpha$ $\gamma$ $K$ Extended YaleB 1 0.005 5 ORL 0.1 0.05 12 3Sources 0.1 50 8 BBCSport 0.05 5 8 UCI-Digits 0.2 2 15 COIL_20 0.05 1 5 表 4 数据集Extended YaleB、ORL的聚类结果
Table 4 Clustering results (mean
$ \pm $ standard deviation) on Extended YaleB and ORL数据 类型 方法 $ACC$ $NMI$ $AR$ $F$-$score$ $Precision$ $Recall$ Extended YaleB 单视图方法 SSCbest 0.587±0.003 0.534±0.003 0.430±0.005 0.487±0.004 0.451±0.002 0.509±0.007 LRRbest 0.615±0.013 0.627±0.040 0.451±0.002 0.508±0.004 0.481±0.002 0.539±0.001 RSSbest 0.742±0.001 0.787±0.000 0.685±0.001 0.717±0.001 0.704±0.001 0.730±0.000 多视图方法 RMSC 0.210±0.013 0.157±0.019 0.060±0.014 0.155±0.012 0.151±0.012 0.159±0.013 DiMSC 0.615±0.003 0.636±0.002 0.453±0.005 0.504±0.006 0.481±0.004 0.534±0.004 LT-MSC 0.626±0.010 0.637±0.003 0.459±0.030 0.521±0.006 0.485±0.001 0.539±0.002 MLAN 0.346±0.011 0.352±0.015 0.093±0.009 0.213±0.023 0.159±0.018 0.321±0.013 t-SVD 0.652±0.000 0.667±0.004 0.500±0.003 0.550±0.002 0.514±0.004 0.590±0.004 GMC 0.434±0.000 0.449±0.000 0.157±0.000 0.265±0.000 0.204±0.000 0.378±0.000 LMSC 0.598±0.005 0.568±0.004 0.354±0.007 0.423±0.006 0.390±0.006 0.463±0.005 SCMV-3DT 0.410±0.001 0.413±0.002 0.185±0.002 0.276±0.001 0.244±0.002 0.318±0.001 LRTG 0.954±0.000 0.905±0.000 0.899±0.000 0.909±0.000 0.908±0.000 0.911±0.000 WTNNM 0.648±0.005 0.661±0.002 0.501±0.000 0.552±0.000 0.533±0.000 0.573±0.000 GLTA 0.571±0.002 0.630±0.005 0.510±0.005 0.560±0.004 0.544±0.004 0.576±0.006 本方法 OTSC 0.969±0.001 0.934±0.001 0.931±0.002 0.937±0.002 0.935±0.002 0.939±0.002 WOTSC 0.972±0.000 0.943±0.000 0.938±0.000 0.944±0.000 0.942±0.000 0.946±0.000 ORL 单视图方法 SSCbest 0.765±0.008 0.893±0.007 0.694±0.013 0.682±0.012 0.673±0.007 0.764±0.005 LRRbest 0.773±0.003 0.895±0.006 0.724±0.020 0.731±0.004 0.701±0.001 0.754±0.002 RSSbest 0.846±0.024 0.938±0.007 0.798±0.023 0.803±0.023 0.759±0.030 0.852±0.017 多视图方法 RMSC 0.723±0.007 0.872±0.012 0.645±0.003 0.654±0.007 0.607±0.009 0.709±0.004 DiMSC 0.838±0.001 0.940±0.003 0.802±0.000 0.807±0.003 0.764±0.012 0.856±0.004 LT-MSC 0.795±0.007 0.930±0.003 0.750±0.003 0.768±0.004 0.766±0.009 0.837±0.005 MLAN 0.705±0.02 0.854±0.018 0.384±0.010 0.376±0.015 0.254±0.021 0.721±0.020 t-SVD 0.970±0.003 0.993±0.002 0.967±0.002 0.968±0.003 0.946±0.004 0.991±0.003 GMC 0.633±0.000 0.857±0.000 0.337±0.000 0.360±0.000 0.232±0.000 0.801±0.000 LMSC 0.877±0.024 0.949±0.006 0.839±0.022 0.843±0.021 0.806±0.027 0.884±0.017 SCMV-3DT 0.839±0.012 0.908±0.007 0.763±0.018 0.769±0.017 0.747±0.020 0.792±0.016 LRTG 0.933±0.003 0.970±0.002 0.905±0.005 0.908±0.005 0.888±0.004 0.928±0.007 WTNNM 0.967±0.000 0.992±0.000 0.960±0.000 0.952±0.000 0.946±0.000 0.968±0.000 GLTA 0.976±0.002 0.994±0.006 0.958±0.024 0.963±0.019 0.952±0.035 0.989±0.012 本方法 OTSC 0.983±0.002 0.988±0.001 0.964±0.003 0.965±0.003 0.958±0.004 0.972±0.001 WOTSC 0.938±0.000 0.972±0.000 0.907±0.000 0.909±0.000 0.885±0.000 0.936±0.000 表 5 数据集3Sources、UCI-Digits的聚类结果
Table 5 Clustering results (mean
$ \pm $ standard deviation) on 3Sources and UCI-Digits数据 类型 方法 $ACC$ $NMI$ $AR$ $F$-$score$ $Precision$ $Recall$ 3Sources 单视图方法 SSCbest 0.762±0.003 0.694±0.003 0.658±0.004 0.743±0.003 0.769±0.001 0.719±0.005 LRRbest 0.647±0.033 0.542±0.018 0.486±0.028 0.608±0.033 0.594±0.031 0.636±0.096 RSSbest 0.722±0.000 0.601±0.000 0.533±0.000 0.634±0.000 0.679±0.000 0.595±0.000 多视图方法 RMSC 0.583±0.022 0.630±0.011 0.455±0.031 0.557±0.025 0.635±0.029 0.497±0.028 DiMSC 0.795±0.004 0.727±0.010 0.661±0.005 0.748±0.004 0.711±0.005 0.788±0.003 LT-MSC 0.781±0.000 0.698±0.003 0.651±0.003 0.734±0.002 0.716±0.008 0.754±0.005 MLAN 0.775±0.015 0.676±0.005 0.580±0.008 0.666±0.007 0.756±0.003 0.594±0.009 t-SVD 0.781±0.000 0.678±0.000 0.658±0.000 0.745±0.000 0.683±0.000 0.818±0.000 GMC 0.693±0.000 0.622±0.000 0.443±0.000 0.605±0.000 0.484±0.000 0.804±0.000 LMSC 0.912±0.006 0.826±0.007 0.842±0.011 0.887±0.008 0.873±0.007 0.877±0.012 SCMV-3DT 0.440±0.020 0.386±0.009 0.226±0.012 0.411±0.009 0.399±0.012 0.425±0.016 LRTG 0.947±0.000 0.865±0.000 0.881±0.000 0.909±0.000 0.911±0.000 0.906±0.000 WTNNM 0.793±0.000 0.692±0.000 0.679±0.000 0.761±0.010 0.693±0.000 0.845±0.000 GLTA 0.859±0.008 0.753±0.015 0.713±0.014 0.775±0.011 0.827±0.009 0.730±0.013 本方法 OTSC 0.953±0.000 0.880±0.000 0.893±0.000 0.918±0.000 0.914±0.000 0.922±0.000 WOTSC 0.947±0.000 0.867±0.000 0.888±0.000 0.914±0.000 0.909±0.000 0.920±0.000 UCI-Digits 单视图方法 SSCbest 0.815±0.011 0.840±0.001 0.770±0.005 0.794±0.004 0.747±0.010 0.848±0.004 LRRbest 0.871±0.001 0.768±0.002 0.736±0.002 0.763±0.002 0.759±0.002 0.767±0.002 RSSbest 0.819±0.000 0.863±0.000 0.787±0.000 0.810±0.000 0.756±0.000 0.872±0.000 多视图方法 RMSC 0.915±0.024 0.822±0.008 0.789±0.014 0.811±0.012 0.797±0.017 0.826±0.006 DiMSC 0.703±0.010 0.772±0.006 0.652±0.006 0.695±0.006 0.673±0.005 0.718±0.007 LT-MSC 0.803±0.001 0.775±0.001 0.725±0.001 0.753±0.001 0.739±0.001 0.767±0.001 MLAN 0.874±0.000 0.910±0.000 0.847±0.000 0.864±0.000 0.797±0.000 0.943±0.000 t-SVD 0.955±0.000 0.932±0.000 0.924±0.000 0.932±0.000 0.930±0.000 0.934±0.000 GMC 0.736±0.000 0.815±0.000 0.678±0.000 0.713±0.000 0.644±0.000 0.799±0.000 LMSC 0.893±0.000 0.815±0.000 0.783±0.000 0.805±0.000 0.798±0.000 0.812±0.000 SCMV-3DT 0.930±0.001 0.861±0.001 0.846±0.001 0.861±0.001 0.859±0.001 0.864±0.001 LRTG 0.981±0.000 0.953±0.000 0.957±0.000 0.961±0.000 0.961±0.000 0.962±0.000 WTNNM 0.998±0.000 0.993±0.000 0.994±0.000 0.995±0.010 0.998±0.000 0.995±0.000 GLTA 0.997±0.000 0.992±0.000 0.993±0.000 0.994±0.000 0.994±0.000 0.994±0.000 本方法 OTSC 0.983±0.001 0.958±0.001 0.962±0.001 0.966±0.001 0.965±0.000 0.966±0.002 WOTSC 0.983±0.000 0.958±0.000 0.962±0.000 0.966±0.000 0.965±0.000 0.966±0.000 表 6 数据集BBCSport、COIL-20的聚类结果
Table 6 Clustering results (mean
$ \pm $ standard deviation) on BBCSport and COIL-20数据 类型 方法 $ACC$ $NMI$ $AR$ $F$-$score$ $Precision$ $Recall$ BBCSport 单视图方法 SSCbest 0.627±0.003 0.534±0.008 0.364±0.007 0.565±0.005 0.427±0.004 0.834±0.004 LRRbest 0.836±0.001 0.698±0.002 0.705±0.001 0.776±0.001 0.768±0.001 0.784±0.001 RSSbest 0.878±0.000 0.714±0.000 0.717±0.000 0.784±0.000 0.787±0.000 0.782±0.000 多视图方法 RMSC 0.826±0.001 0.666±0.001 0.637±0.001 0.719±0.001 0.766±0.001 0.677±0.001 DiMSC 0.922±0.000 0.785±0.000 0.813±0.000 0.858±0.000 0.846±0.000 0.872±0.000 LT-MSC 0.460±0.046 0.222±0.028 0.167±0.043 0.428±0.014 0.328±0.028 0.629±0.053 MLAN 0.721±0.000 0.779±0.000 0.591±0.000 0.714±0.000 0.567±0.000 0.962±0.000 t-SVD 0.879±0.000 0.765±0.000 0.784±0.000 0.834±0.000 0.863±0.000 0.807±0.000 GMC 0.807±0.000 0.760±0.000 0.722±0.000 0.794±0.000 0.727±0.000 0.875±0.000 LMSC 0.847±0.003 0.739±0.001 0.749±0.001 0.810±0.001 0.799±0.001 0.822±0.001 SCMV-3DT 0.980±0.000 0.929±0.000 0.935±0.000 0.950±0.000 0.959±0.000 0.942±0.000 LRTG 0.943±0.005 0.869±0.009 0.840±0.012 0.879±0.000 0.866±0.006 0.892±0.014 WTNNM 0.963±0.000 0.900±0.000 0.908±0.000 0.930±0.000 0.950±0.000 0.911±0.000 GLTA 1.000±0.000 1.000±0.000 1.000±0.000 1.000±0.000 1.000±0.000 1.000±0.000 本方法 OTSC 0.970±0.000 0.914±0.000 0.911±0.000 0.933±0.000 0.928±0.000 0.937±0.000 WOTSC 0.985±0.000 0.950±0.000 0.957±0.000 0.967±0.000 0.963±0.000 0.971±0.000 COIL-20 单视图方法 SSCbest 0.803±0.022 0.935±0.009 0.798±0.022 0.809±0.013 0.734±0.027 0.804±0.028 LRRbest 0.761±0.003 0.829±0.006 0.720±0.020 0.734±0.006 0.717±0.003 0.751±0.002 RSSbest 0.837±0.012 0.930±0.006 0.789±0.005 0.800±0.005 0.717±0.012 0.897±0.017 多视图方法 RMSC 0.685±0.045 0.800±0.017 0.637±0.044 0.656±0.042 0.620±0.057 0.698±0.026 DiMSC 0.778±0.022 0.846±0.002 0.732±0.005 0.745±0.005 0.739±0.007 0.751±0.003 LT-MSC 0.804±0.011 0.860±0.002 0.748±0.004 0.760±0.007 0.741±0.009 0.776±0.006 MLAN 0.862±0.011 0.961±0.004 0.835±0.006 0.844±0.013 0.758±0.008 0.953±0.007 t-SVD 0.830±0.000 0.884±0.005 0.786±0.003 0.800±0.004 0.785±0.007 0.808±0.001 GMC 0.791±0.001 0.941±0.000 0.782±0.000 0.794±0.000 0.694±0.000 0.929±0.000 LMSC 0.806±0.013 0.862±0.007 0.765±0.014 0.776±0.013 0.770±0.013 0.783±0.013 SCMV-3DT 0.701±0.028 0.810±0.009 0.635±0.003 0.654±0.029 0.614±0.039 0.702±0.018 LRTG 0.927±0.000 0.976±0.000 0.928±0.000 0.932±0.000 0.905±0.000 0.961±0.000 WTNNM 0.902±0.000 0.945±0.000 0.893±0.000 0.898±0.010 0.897±0.000 0.900±0.000 GLTA 0.903±0.006 0.946±0.001 0.891±0.007 0.897±0.006 0.893±0.013 0.900±0.001 本方法 OTSC 0.936±0.004 0.983±0.004 0.938±0.006 0.941±0.006 0.906±0.007 0.979±0.006 WOTSC 0.960±0.026 0.976±0.004 0.934±0.025 0.938±0.024 0.918±0.042 0.959±0.004 -
[1] Du G W, Zhou L H, Yang Y D, Lü K, Wang L Z. Deep multiple auto-encoder-based multi-view clustering. Data Science and Engineering, 2021, 6(3): 323-338 doi: 10.1007/s41019-021-00159-z [2] Fu L L, Chen Z L, Chen Y Y, Wang S P. Unified low-rank tensor learning and spectral embedding for multi-view subspace clustering. IEEE Transactions on Multimedia, DOI: 10.1109/TMM.2022.3185886 [3] Wang X Y, Han T X, Yan S C. An HOG-LBP human detector with partial occlusion handling. In: Proceedings of the IEEE 12th International Conference on Computer Vision (ICCV). Kyoto, Japan: IEEE, 2009. 32−39 [4] Lades M, Vorbruggen J C, Buhmann J, Lang J, von der Malsburg C, Wurtz R P, et al. Distortion invariant object recognition in the dynamic link architecture. IEEE Transactions on Computers, 1993, 42(3): 300-311 doi: 10.1109/12.210173 [5] Dalal N, Triggs B. Histograms of oriented gradients for human detection. In: Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’05). San Diego, USA: IEEE, 2005. 886−893 [6] Zhang C Q, Fu H Z, Liu S, Liu G C, Cao X C. Low-rank tensor constrained multiview subspace clustering. In: Proceedings of the IEEE International Conference on Computer Vision (ICCV). Santiago, Chile: IEEE, 2015. 1582−1590 [7] Xie Y, Tao D C, Zhang W S, Liu Y, Zhang L, Qu Y Y. On unifying multi-view self-representations for clustering by tensor multi-rank minimization. International Journal of Computer Vision, 2018, 126(11): 1157-1179 doi: 10.1007/s11263-018-1086-2 [8] Shi D, Zhu L, Li J J, Cheng Z Y, Zhang Z. Flexible multiview spectral clustering with self-adaptation. IEEE Transactions on Cybernetics, DOI: 10.1109/TCYB.2021.3131749 [9] 赵博宇, 张长青, 陈蕾, 刘新旺, 李泽超, 胡清华. 生成式不完整多视图数据聚类. 自动化学报, 2021, 47(8): 1867-1875 doi: 10.16383/j.aas.c200121Zhao Bo-Yu, Zhang Chang-Qing, Chen Lei, Liu Xin-Wang, Li Ze-Chao, Hu Qing-Hua. Generative model for partial multi-view clustering. Acta Automatica Sinica, 2021, 47(8): 1867-1875 doi: 10.16383/j.aas.c200121 [10] Qin Y L, Wu H Z, Zhang X P, Feng G R. Semi-supervised structured subspace learning for multi-view clustering. IEEE Transactions on Image Processing, 2022, 31: 1-14 doi: 10.1109/TIP.2021.3128325 [11] Han Z B, Zhang C Q, Fu H Z, Zhou J Y. Trusted multi-view classification with dynamic evidential fusion. IEEE Transactions on Pattern Analysis and Machine Intelligence, DOI: 10.1109/TPAMI.2022.3171983 [12] An J F, Luo H Y, Zhang Z, Zhu L, Lu G M. Cognitive multi-modal consistent hashing with flexible semantic transformation. Information Processing & Management, 2022, 59(1): Article No. 102743 [13] Peng Z H, Liu H, Jia Y H, Hou J H. Adaptive attribute and structure subspace clustering network. IEEE Transactions on Image Processing, 2022, 31: 3430-3439 doi: 10.1109/TIP.2022.3171421 [14] Huang Z Y, Zhou J T, Zhu H Y, Zhang C, Lv J C, Peng X. Deep spectral representation learning from multi-view data. IEEE Transactions on Image Processing, 2021, 30: 5352-5362 doi: 10.1109/TIP.2021.3083072 [15] Liang Y W, Huang D, Wang C D, Yu P S. Multi-view graph learning by joint modeling of consistency and inconsistency. IEEE Transactions on Neural Networks and Learning Systems, DOI: 10.1109/TNNLS.2022.3192445 [16] Wang H, Yang Y, Liu B. GMC: Graph-based multi-view clustering. IEEE Transactions on Knowledge and Data Engineering, 2020, 32(6): 1116-1129 doi: 10.1109/TKDE.2019.2903810 [17] Patel V M, Vidal R. Kernel sparse subspace clustering. In: Proceedings of the IEEE International Conference on Image Processing (ICIP). Paris, France: IEEE, 2014. 2849−2853 [18] Yin M, Guo Y, Gao J B, He Z S, Xie S L. Kernel sparse subspace clustering on symmetric positive definite manifolds. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE, 2016. 5157−5164 [19] Wang S Q, Chen Y Y, Zhang L N, Cen Y G, Voronin V. Hyper-laplacian regularized nonconvex low-rank representation for multi-view subspace clustering. IEEE Transactions on Signal and Information Processing over Networks, 2022, 8: 376-388 doi: 10.1109/TSIPN.2022.3169633 [20] Li Z L, Tang C, Zheng X, Liu X W, Zhang W, Zhu E. High-order correlation preserved incomplete multi-view subspace clustering. IEEE Transactions on Image Processing, 2022, 31: 2067-2080 doi: 10.1109/TIP.2022.3147046 [21] Liu G C, Lin Z C, Yan S C, Sun J, Yu Y, Ma Y. Robust recovery of subspace structures by low-rank representation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(1): 171-184 doi: 10.1109/TPAMI.2012.88 [22] Elhamifar E, Vidal R. Sparse subspace clustering: Algorithm, theory, and applications. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(11): 2765-2781 doi: 10.1109/TPAMI.2013.57 [23] 尹明, 吴浩杨, 谢胜利, 杨其宇. 基于自注意力对抗的深度子空间聚类. 自动化学报, 2022, 48(1): 271-281Yin Ming, Wu Hao-Yang, Xie Sheng-Li, Yang Qi-Yu. Self-attention adversarial based deep subspace clustering. Acta Automatica Sinica, 2022, 48(1): 271-281 [24] Gao H C, Nie F P, Li X L, Huang H. Multi-view subspace clustering. In: Proceedings of the IEEE International Conference on Computer Vision (ICCV). Santiago, Chile: IEEE, 2015. 4238−4246 [25] Chen Y Y, Xiao X L, Zhou Y C. Multi-view subspace clustering via simultaneously learning the representation tensor and affinity matrix. Pattern Recognition, 2020, 106: 107441 doi: 10.1016/j.patcog.2020.107441 [26] Zhang G Y, Zhou Y R, Wang C D, Huang D, He X Y. Joint representation learning for multi-view subspace clustering. Expert Systems with Applications, 2021, 166: 113913 doi: 10.1016/j.eswa.2020.113913 [27] Wu J L, Xie X Y, Nie L Q, Lin Z C, Zha H B. Unified graph and low-rank tensor learning for multi-view clustering. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(4): 6388-6395 doi: 10.1609/aaai.v34i04.6109 [28] Carroll J D, Chang J J. Analysis of individual differences in multidimensional scaling via an n-way generalization of “eckart-young” decomposition. Psychometrika, 1970, 35(3): 283-319 doi: 10.1007/BF02310791 [29] Tucker L R. Some mathematical notes on three-mode factor analysis. Psychometrika, 1966, 31(3): 279-311 doi: 10.1007/BF02289464 [30] Kilmer M E, Braman K, Hao N, Hoover R C. Third-order tensors as operators on matrices: A theoretical and computational framework with applications in imaging. SIAM Journal on Matrix Analysis and Applications, 2013, 34(1): 148-172 doi: 10.1137/110837711 [31] Liu X W, Wang L, Zhang J, Yin J P, Liu H. Global and local structure preservation for feature selection. IEEE Transactions on Neural Networks and Learning Systems, 2014, 25(6): 1083-1095 doi: 10.1109/TNNLS.2013.2287275 [32] Chen G L, Lerman G. Spectral curvature clustering (SCC). International Journal of Computer Vision, 2009, 81(3): 317-330 doi: 10.1007/s11263-008-0178-9 [33] Liu G C, Lin Z C, Yu Y. Robust subspace segmentation by low-rank representation. In: Proceedings of the 27th International Conference on Machine Learning (ICML). Haifa, Israel: Omnipress, 2010. 663−670 [34] 王卫卫, 李小平, 冯象初, 王斯琪. 稀疏子空间聚类综述. 自动化学报, 2015, 41(8): 1373-1384 doi: 10.16383/j.aas.2015.c140891Wang Wei-Wei, Li Xiao-Ping, Feng Xiang-Chu, Wang Si-Qi. A survey on sparse subspace clustering. Acta Automatica Sinica, 2015, 41(8): 1373-1384 doi: 10.16383/j.aas.2015.c140891 [35] You C, Robinson D P, Vidal R. Scalable sparse subspace clustering by orthogonal matching pursuit. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE, 2016. 3918−3927 [36] Vidal R, Favaro P. Low rank subspace clustering (LRSC). Pattern Recognition Letters, 2014, 43: 47-61 doi: 10.1016/j.patrec.2013.08.006 [37] Kheirandishfard M, Zohrizadeh F, Kamangar F. Deep low-rank subspace clustering. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Seattle, USA: IEEE, 2020. 864−865 [38] Nie F P, Wang X Q, Huang H. Clustering and projected clustering with adaptive neighbors. In: Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (SIGKDD). New York, USA: ACM, 2014. 977−986 [39] Yin M, Gao J B, Xie S L, Guo Y. Multiview subspace clustering via tensorial t-product representation. IEEE Transactions on Neural Networks and Learning Systems, 2019, 30(3): 851-864 doi: 10.1109/TNNLS.2018.2851444 [40] Xia R K, Pan Y, Du L, Yin J. Robust multi-view spectral clustering via low-rank and sparse decomposition. In: Proceedings of the 28th AAAI Conference on Artificial Intelligence (AAAI). Québec City, Canada: AAAI Press, 2014. 2149−2155 [41] Chen Y Y, Xiao X L, Peng C, Lu G M, Zhou Y C. Low-rank tensor graph learning for multi-view subspace clustering. IEEE Transactions on Circuits and Systems for Video Technology, 2022, 32(1): 92-104 doi: 10.1109/TCSVT.2021.3055625 [42] Guo X J. Robust subspace segmentation by simultaneously learning data representations and their affinity matrix. In: Proceedings of the 24th International Conference on Artificial Intelligence. Buenos Aires, Argentina: AAAI Press, 2015. 3547−3553 [43] 文杰, 颜珂, 张正, 徐勇. 基于低秩张量图学习的不完整多视角聚类. 自动化学报, DOI: 10.16383/j.aas.c200519Wen Jie, Yan Ke, Zhang Zheng, Xu Yong. Low-rank tensor graph learning based incomplete multi-view clustering. Acta Automatica Sinica, DOI: 10.16383/j.aas.c200519 [44] Cao X C, Zhang C Q, Fu H Z, Liu S, Zhang H. Diversity-induced multi-view subspace clustering. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, USA: IEEE, 2015. 586−594 [45] Nie F P, Cai G H, Li J, Li X L. Auto-weighted multi-view learning for image clustering and semi-supervised classification. IEEE Transactions on Image Processing, 2018, 27(3): 1501-1511 doi: 10.1109/TIP.2017.2754939 [46] Zhang C Q, Fu H Z, Hu Q H, Cao X C, Xie Y, Tao D C, et al. Generalized latent multi-view subspace clustering. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(1): 86-99 doi: 10.1109/TPAMI.2018.2877660 [47] Gao Q X, Xia W, Wan Z Z, Xie D Y, Zhang P. Tensor-SVD based graph learning for multi-view subspace clustering. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(4): 3930-3937 doi: 10.1609/aaai.v34i04.5807 期刊类型引用(1)
1. 唐力,赵志宇,张建文,李标奇,徐敏. 结合非负矩阵分解和流形学习的大数据聚类方法研究. 制造业自动化. 2024(09): 170-178+220 . 百度学术
其他类型引用(10)
-