A Two-stage Domain Generalization Learning Framework for Fault Diagnosis of Bearings
-
摘要: 设备在实际运行过程中工况复杂多变, 导致振动信号分布存在较大差异. 现有的多数方法通过添加度量指标来约束特征提取过程, 提取源域和目标域的相似特征以解决从单一源域到目标域的诊断问题. 然而, 实际运行过程往往包含多个源域数据, 且目标域信息在不同源域中存在较大差异, 难以有效学习不同域之间的域不变特征. 针对上述问题, 提出了一种基于两阶段域泛化学习框架的轴承故障诊断方法. 在第一阶段, 利用大尺寸卷积特征提取模型对多视图振动信号进行预训练, 提取多个源域数据之间的初级故障特征. 在第二阶段, 将初级故障特征输入动静双态融合的时空图卷积模型中, 捕捉随时间变化的动态特征和全局时空特征. 通过两阶段的学习, 将多个源域的数据映射到一个共有特征空间, 提取判别性和泛化性特征. 实验结果表明, 该方法在多源域轴承故障诊断任务中具有较高的诊断精度和较强的泛化能力.Abstract: During the actual operation of the equipment, the working conditions are complex and changeable, resulting in large differences in vibration signal distribution. Many existing methods constrain the feature extraction process by incorporating measurement metrics, aiming to extract similar features from both the source and target domains to address diagnostic problems from a single source domain to a target domain. However, the actual operational process often involves data from multiple source domains, and the target domain information exhibits significant differences across these various source domains, making it difficult to extract the domain invariant feature. In response to the above problems, this paper proposes a two-stage domain generalization learning framework for fault diagnosis of bearings. In the first stage, the large-scale convolutional feature extraction model is used to pre-train multi-view vibration signals to extract primary fault features between multiple source domain data. In the second stage, the primary fault features are input into the spatial-temporal graph convolutional model for dynamic and static two-state fusion combining dynamic and static states to capture the dynamic features and global spatiotemporal features that change over time. Through two-stage learning, data from multiple source domains are mapped to a common feature space, and discriminative and generalization features are extracted. Experimental results show that this method has high diagnostic accuracy and strong generalization ability in multi-source domain bearing fault diagnosis tasks.
-
随着现代工业科技的进步, 旋转机械正朝着智能化的方向迈进. 在这一进程中, 轴承作为旋转机械中非常重要的零部件, 被称为“工业的关节”[1−2]. 值得注意的是, 轴承也是旋转机械中最容易发生故障的部件. 有统计数据表明, 轴承故障约占所有旋转机械故障的30%[3]. 因此, 轴承故障诊断技术作为保障旋转机械安全运行的“一把利器”, 及时诊断轴承故障至关重要[4].
近年来, 基于深度学习的算法已广泛应用于滚动轴承故障诊断任务中[5]. 这些故障诊断算法的一个重要假设是训练数据和测试数据的分布一致[6]. 然而, 实际工程中, 需诊断的数据往往与训练数据存在明显分布差异, 上述假设难以满足, 导致诊断性能下降[7].
迁移学习运用已有的知识来学习新的知识, 克服了域间分布差异, 在应对上述问题时具有巨大的潜力[8]. An 等提出了一种基于高斯混合变分的域自适应故障诊断方法, 设计通用辅助分布, 实现源域和目标域的分布对齐, 有效应用于可变工况下的轴承故障诊断任务[9]. Ding 等提出了一种新型的深度不平衡域自适应框架, 通过成本敏感学习和分类对齐实现了细粒度的潜在空间匹配, 有效完成单个源域到目标域的跨域故障诊断任务[10]. 叶楠等通过小波包分解对源域和目标域信号进行重构, 并改进半监督深度信念网络. 在单源域到目标域的跨域故障诊断任务中, 该方法显著优于其他迁移学习方法[11]. 黄星华等采用变体VOLO构造特征提取器, 结合域对抗自适应策略, 实现源域与目标域的特征对齐[12]. 陈仁祥等提出了一种基于深度注意力迁移学习的方法, 通过添加域适配层实现深度特征的迁移适配, 该方法相较于其他方法能够更有效地应对单一源域到目标域的跨域任务挑战[13]. 以上迁移学习方法通过使用单一源域的数据来训练模型, 有效地解决了域间分布差异导致的诊断性能下降的问题. 然而, 实际运行过程往往包含多个源域数据, 且目标域信息在不同源域中存在较大差异, 因此依赖单一源域获得的特征信息有限, 提取的特征缺乏判别性和泛化性[14].
为突破单源域到目标域故障诊断方法的局限性, 一些研究人员利用多个源域数据, 借助添加度量指标来解决分布差异导致的诊断性能下降的问题[15]. Li等提出一种半监督卷积神经网络模型, 将故障信号转换为图像, 利用卷积神经网络自动提取故障特征, 并采用相关对齐约束特征提取过程. 实验结果表明这种多工况迁移故障诊断方法的分类精度明显高于单一工况的迁移方法[16]. Li 等提出了一种强化集成深度迁移学习网络, 利用多个核函数设计不同的最大均值差异, 增强模型的多样性, 有效地利用来自不同源域的信息实现知识迁移, 该方法比其他方法更能满足跨域任务的挑战[17]. Yang等提出了一种多源迁移学习框架, 将多源迁移学习任务拆分为多个子任务, 使用加权 Wasserstein 损失平衡源域和目标域的样本, 结合多个分布适应子网络和多源诊断知识融合模块完成跨域诊断任务. 所提出的框架在将多源域的知识迁移到目标域时明显优于其他先进方法[18]. 可以看出, 上述方法主要关注源域与目标域之间的差异, 忽略了多源域之间的差异, 难以有效学习不同域之间的域不变特征, 导致模型泛化力不足, 影响最终诊断结果. 此外, 这些度量指标的引入需要借助部分目标域样本, 在实际工程中难以实现.
因此, 本文深入考虑多视图数据及其特征之间的时空关系, 提出了一种基于两阶段域泛化学习框架的轴承故障诊断方法. 在第一阶段, 用大尺寸卷积特征提取模型对多视图振动信号数据进行预训练, 以提取不同域之间的初级故障特征. 在第二阶段, 将初级故障特征送入动静双态融合的时空图卷积模型. 其中, 动态时空图卷积模块自适应地调整节点之间的邻接矩阵, 捕捉节点随时间变化的动态信息; 静态时空图卷积模块提取固定图结构上的特征, 使每个节点都能有效地聚合周围节点的信息, 捕捉全局时空特征. 该两阶段学习框架将多个源域数据映射到一个共有特征空间, 实现同设备多工况的域泛化任务, 增强所提取特征的判别性和泛化性, 不仅能够准确区分不同健康状态, 而且在不同域中均表现良好. 通过实验验证, 此方法在不依赖任何度量指标的前提下, 实现了较高的诊断精度和较强的泛化能力.
本文的主要贡献在于: 1) 提出一种基于两阶段域泛化学习框架的轴承故障诊断方法, 在源域与目标域之间振动信号存在显著分布差异的情况下, 不依赖任何度量指标, 将多个源域数据映射到一个共有特征空间. 2) 采用大尺寸卷积特征提取模型进行预训练, 有效提取多源域数据的初级故障特征, 为第二阶段提供可靠的输入. 3) 构建一种动静双态融合的时空图卷积模型, 捕捉随时间变化的动态特征和全局时空特征.
1. 基础知识
1.1 域泛化
域泛化是指从一个或多个不同但相关的源域中通过训练模型提取域不变特征, 并在目标域上实现良好的泛化效果[19]. 域泛化任务可分为多源域到单目标域、多源域到多目标域、单源域到多目标域以及单源域到单目标域这四个类型. 本文主要关注多源域到单目标域的域泛化任务.
假设共有$Q $个源域数据集, 表示为$ {\boldsymbol{S}} = \{ {{\boldsymbol{S}}_1}, {{\boldsymbol{S}}_2},\; \cdots ,\;{{\boldsymbol{S}}_Q} \} $, 其中每个源域$ {{\boldsymbol{S}}_q} = \left\{ {{\boldsymbol{x}}_i^{{s_q}},\;y_i^{{s_q}}} \right\}_{i = 1}^{{n_{{s_q}}}} $包括样本数据及其对应的标签, 总共有$ {n_{{s_q}}} $个样本. $ {\boldsymbol{x}}_i^{{s_q}} $属于样本空间$ {{\boldsymbol{X}}^{{s_q}}} $, 服从边缘分布$ P\left( {{{\boldsymbol{X}}^{{s_q}}}} \right) $. 所有源域的样本空间表示为$ {{\boldsymbol{X}}^s} = \{ {{\boldsymbol{X}}^{{s_1}}},\;{{\boldsymbol{X}}^{{s_2}}},\; \cdots , {{\boldsymbol{X}}^{{s_Q}}} \} $. 样本的标签$ y_{i}^{{{s}_{q}}}\in {{{\boldsymbol{Y}}}^{{{s}_{q}}}} $表示第$ q $个源域中样本$ {\boldsymbol{x}}_{i}^{{{s}_{q}}} $的健康状态, 其中标签空间$ {{{\boldsymbol{Y}}}^{{{s}_{q}}}}=\{ 1,\;2,\;\cdots , C \} $包括$ C $种不同的健康状态. 所有源域的标签空间表示为$ {{{\boldsymbol{Y}}}^{s}}=\left\{ {{{\boldsymbol{Y}}}^{{{s}_{1}}}},\;{{{\boldsymbol{Y}}}^{{{s}_{2}}}},\;\cdots ,\;{{{\boldsymbol{Y}}}^{{{s}_{Q}}}} \right\} $. 目标域是一个不包含标签信息的数据集, 表示为$ {\boldsymbol{T}}=\left\{ {\boldsymbol{x}}_{j}^{t} \right\}_{j=1}^{{{n}_{t}}} $, 共包含$ {{n}_{t}} $个样本, $ {\boldsymbol{x}}_j^{{t}} $属于样本空间$ {{\boldsymbol{X}}^{{t}}} $, 服从边缘分布$ P\left( {\boldsymbol{X}}^{{t}} \right) $, 该数据集未参与训练. 各个源域之间以及源域与目标域之间存在数据分布差异, 即$ P\left( {\boldsymbol{X}}^{{t}} \right)\ne P\left( {{{\boldsymbol{X}}}^{{{s}_{q}}}} \right) $, $ P\left( {{{\boldsymbol{X}}}^{{{s}_{i}}}} \right)\ne P\left( {{{\boldsymbol{X}}}^{{{s}_{q}}}} \right) $.
多源域到单目标域的域泛化任务利用从样本空间$ {{{\boldsymbol{X}}}^{s}} $到标签空间$ {{{\boldsymbol{Y}}}^{s}} $的非线性映射关系$ {{{\boldsymbol{Y}}}^{s}}= f\left( {{{\boldsymbol{X}}}^{s}}|{\boldsymbol{\theta }} \right) $, 无需为特定的目标域重新训练模型, 就能判定目标域中未标记的样本的健康状态, 其中$ {\boldsymbol{\theta}} $为模型的可训练参数. 多源域到单目标域的域泛化过程如图1所示.
1.2 图卷积神经网络
图卷积神经网络可以直接作用于图结构信息, 擅长处理非欧几里得结构的数据, 具有良好的提取空间特征的能力[20].
将一组节点及节点间关系构成的图作为输入, 提取节点间的空间相关性. 将图定义为$ {\boldsymbol{G}}=( {\boldsymbol{V}}, {\boldsymbol{E}},\;{\boldsymbol{A}} ) $, 其中$ {\boldsymbol{V}}\in {{{\bf{R}} }^{N\times d}} $表示节点的特征矩阵, $ N $为节点的总数, $ d $表示特征的长度; $ {\boldsymbol{E}} $表示节点之间连接的边集; $ {\boldsymbol{A}}\in {{{\bf{R}} }^{N\times N}} $为邻接矩阵, 表示不同节点之间的相邻关系. 对于无向图, $ {{{\boldsymbol{A}}}_{mn}}=( {{v}_{m}}, {{v}_{n}} )\in {\boldsymbol{E}} $表示连接第$ m $个节点和第$ n $个节点之间的边, 若存在连接则为1, 否则为0.
将图卷积网络中引入Chebyshev多项式, 能够更灵活地适应不同图结构, 有助于模型提取图数据中相邻节点的特征. 对于图数据$ {\boldsymbol{x}}\in {{{\bf{R}} }^{N}} $, 将$ K-1 $阶Chebyshev多项式的图卷积定义为:
$$ \begin{align} {{g}_{\theta }}*{\boldsymbol{x}}={{g}_{\theta }}\left( {\boldsymbol{L}} \right){\boldsymbol{x}}=\sum\limits_{k=0}^{K-1}{{{{\boldsymbol{\theta}} }_{k}}{{T}_{k}}\left( {\tilde{{\boldsymbol{L}}}} \right)}{\boldsymbol{x}} \end{align} $$ (1) 其中, $ {{g}_{\theta }} $表示由$ {\boldsymbol{\theta}} $参数化的滤波器; $* $表示图卷积运算; $ {\boldsymbol{L}}={\boldsymbol{D}}-{\boldsymbol{A}} $为拉普拉斯矩阵, $ {\boldsymbol{D}}\in {{{\bf{R}} }^{N\times N}} $为度矩阵; $ \tilde{{\boldsymbol{L}}}=\frac{2}{{{\lambda }_{\max }}}{\boldsymbol{L}}-{{{\boldsymbol{I}}}_{N}} $; $ {{{\boldsymbol{\theta}} }_{k}}\in {{{\bf{R}} }^{K}} $ 表示第$ k $阶Chebyshev多项式的系数, 对应第$ k $阶Chebyshev多项式在图卷积中的作用程度; $ {{T}_{k}}\left( \cdot \right) $ 是Chebyshev递归多项式$ {{T}_{k}}\left( {\boldsymbol{x}} \right)=2{\boldsymbol{x}}{{T}_{k-1}}\left( {\boldsymbol{x}} \right)-{{T}_{k-2}}\left( {\boldsymbol{x}} \right) $, $ {{T}_{0}}\left( {\boldsymbol{x}} \right)=1 $, $ {{T}_{1}}\left( {\boldsymbol{x}} \right)={\boldsymbol{x}} $; $ {{\lambda }_{\max }} $为拉普拉斯矩阵的最大特征值; $ {{{\boldsymbol{I}}}_{N}} $为单位矩阵.
2. 提出方法
本文提出了一种基于两阶段域泛化学习框架的轴承故障诊断方法, 如图2所示. 第一阶段采用大尺寸卷积特征提取模型, 从多视图数据提取初级故障特征, 第二阶段采用动静双态融合的时空图卷积模型. 本文所提方法的独特之处在于, 无需依赖任何度量指标将多个源域的数据映射到一个共有特征空间, 即使目标域与不同源域存在较大分布差异, 也能有效实现特征的判别性和泛化性提取. 以下详细介绍该方法的细节.
2.1 第一阶段
该阶段用大尺寸卷积特征提取模型提取初级故障特征, 分为多视图数据输入、初级特征提取和故障分类三个模块, 模型结构细节如图3所示.
2.1.1 多视图数据输入模块
现有研究成果通常使用单一轴向的振动信号进行训练, 但不同轴向的振动信号呈现出不同特性. 为提供充分的故障信息, 本文考虑水平($ x $轴)、垂直($ y $轴)和轴向($ z $轴)三个视图的振动信号, 并作为三个通道输入到特征提取网络进行预训练[21]. 假设输入模型的样本 $ {\boldsymbol{x}}_{i}^{{{s}_{q}}} $ 为:
$$ \begin{align} {\boldsymbol{x}}_{i}^{{{s}_{q}}}=\left[ {\boldsymbol{x}}_{i,\;x}^{{{s}_{q}}},\;{\boldsymbol{x}}_{i,\;y}^{{{s}_{q}}},\;{\boldsymbol{x}}_{i,\;z}^{{{s}_{q}}} \right] \end{align} $$ (2) 其中, $ {\boldsymbol{x}}_{i,\;x}^{{{s}_{q}}} $、$ {\boldsymbol{x}}_{i,\;y}^{{{s}_{q}}} $和$ {\boldsymbol{x}}_{i,\;z}^{{{s}_{q}}} $分别表示$ x $ 轴、$ y $轴、$ z $轴的样本.
2.1.2 初级特征提取模块
初级特征提取模块包含卷积层、最大池化层、Dropout层. 输入样本$ {\boldsymbol{x}}_{i}^{{{s}_{q}}} $, 通过卷积层提取特征, 最大池化层降低数据维度, Dropout层减少过拟合, 得到初级故障特征$ {\boldsymbol{f}}_{i,\;D3}^{{{s}_{q}}} $. 考虑到多视图数据特征丰富, 故将卷积核尺寸加宽, 以全面提取更广泛的特征. 卷积层、最大池化层、Dropout层的细节表示如式 (3) ~ (5)所示:
$$ \begin{align} {\boldsymbol{f}}_{i,\;C1}^{{{s}_{q}}}=\text{ReLU}\left( \sum\limits_{o=1}^{kernel}{\left( {{{\boldsymbol{\omega}} }_{o,\;C1}}*{\boldsymbol{x}}_{i}^{{{s}_{q}}} \right)}+{{{\boldsymbol{b}}}_{C1}} \right) \end{align} $$ (3) $$ \begin{align} {\boldsymbol{f}}_{i,\;P2}^{{{s}_{q}}}=\text{down}\left( {\boldsymbol{f}}_{i,\;C1}^{{{s}_{q}}},\;g \right) \end{align} $$ (4) $$ \begin{align} r=\text{rand},\;\;{\boldsymbol{f}}_{i,\;D3}^{{{s}_{q}}}=\left\{ \begin{matrix} 0 & r<p \\ \dfrac{{\boldsymbol{f}}_{i,\;P2}^{{{s}_{q}}}}{1-p} & r\ge p \end{matrix} \right. \end{align} $$ (5) 其中, $ \text{ReLU}\left( \cdot \right) $为激活函数; $ kernel $ 表示卷积核的个数; $ {{{\boldsymbol{\omega}}}_{o,\;C1}} $ 表示第$ o $个卷积核的权重, 卷积层的权重表示为$ {{{\boldsymbol{\omega}} }_{C1}}=\{ {{{\boldsymbol{\omega}} }_{1,\;C1}},\;{{{\boldsymbol{\omega}} }_{2,\;C1}},\;\cdots , {{{\boldsymbol{\omega}} }_{kernel,\;C1}} \} $; $ \text{down}\left( \cdot \right) $表示下采样操作; $ g $为池化层步幅的大小; rand 表示一个在 [0, 1] 区间服从均匀分布的随机数.
初级特征提取模块的过程可表述为:
$$ \begin{align} {\boldsymbol{f}}_{i,\;D3}^{{{s}_{q}}}=G\left( {\boldsymbol{x}}_{i}^{{{s}_{q}}}|{{{\boldsymbol{\dot{\theta }}} }} \right) \end{align} $$ (6) 其中, $ {{{\boldsymbol{\dot{\theta }}} }} =\left\{ {{{\boldsymbol{\omega}} }_{C1}},\;{{{\boldsymbol{b}}}_{C1}} \right\} $为该模块的可训练参数.
2.1.3 故障分类模块
故障分类模块首先将初级故障特征$ {\boldsymbol{f}}_{i,\;D3}^{{{s}_{q}}} $展平为一维特征表示, 并输入全连接层, 如式 (7) ~ (8)所示:
$$ \begin{align} {\boldsymbol{f}}_{i,\;F4}^{{{s}_{q}}}=\text{flatten}\left( {\boldsymbol{f}}_{i,\;D3}^{{{s}_{q}}} \right) \end{align} $$ (7) $$ \begin{align} {\boldsymbol{f}}_{i,\;F5}^{{{s}_{q}}}={{{\boldsymbol{\omega}} }_{F4}}{\boldsymbol{f}}_{i,\;F4}^{{{s}_{q}}}+{{{\boldsymbol{b}}}_{F4}} \end{align} $$ (8) 其中, $ \text{flatten}\left( \cdot \right) $表示展平操作.
然后, 将$ {\boldsymbol{f}}_{i,\;F5}^{{{s}_{q}}} $送入到Softmax激活函数, 得到第$ q $个源域中第$ i $个样本的预测标签$ \hat{{\boldsymbol{y}}}_{i}^{{{s}_{q}}} $, 其表达式为:
$$ \begin{align} \hat{{\boldsymbol{y}}}_{i}^{{{s}_{q}}}=\frac{\exp \left( {{{\boldsymbol{\omega}} }_{F5}}{\boldsymbol{f}}_{i,\;F5}^{{{s}_{q}}}+{{{\boldsymbol{b}}}_{F5}} \right)}{\sum\limits_{i=1}^{{{n}_{{{s}_{q}}}}}{\exp \left( {{{\boldsymbol{\omega}} }_{F5}}{\boldsymbol{f}}_{i,\;F5}^{{{s}_{q}}}+{{{\boldsymbol{b}}}_{F5}} \right)}} \end{align} $$ (9) 其中, $ {{{\boldsymbol{\omega}} }_{F5}} $和$ {{\boldsymbol{b}}}_{F5} $分别为权重参数和偏置参数.
2.1.4 优化目标
综上所述, 第一阶段的过程可表述为:
$$ \begin{align} {{{\boldsymbol{Y}}}^{s}}=f\left( {{{\boldsymbol{X}}}^{s}}|{{{\boldsymbol{\theta}} }_{1}} \right) \end{align} $$ (10) 其中, 第一阶段的可训练参数为$ {{{\boldsymbol{\theta}} }_{1}}=\{ {\boldsymbol{\dot{\theta }}},\;{{{\boldsymbol{\omega}} }_{F4}},\;{{{\boldsymbol{b}}}_{F4}}, {{{\boldsymbol{\omega}} }_{F5}},\;{{{\boldsymbol{b}}}_{F5}}\} $. 大尺寸卷积特征提取模型通过最小化交叉熵损失函数$ {{{\boldsymbol{L}}}_{1}} $更新$ {{{\boldsymbol{\theta}} }_{1}} $:
$$ \begin{align} {{{\boldsymbol{L}}}_{1}}=-\frac{1}{{{n}_{{{s}_{q}}}}}\sum\limits_{i=1}^{{{n}_{{{s}_{q}}}}}{\sum\limits_{c=1}^{C}{{\boldsymbol{y}}_{i,\;c}^{{{s}_{q}}}\lg \hat{{\boldsymbol{y}}}_{i,\;c}^{{{s}_{q}}}}} \end{align} $$ (11) 其中, $ C $表示健康状态类别总数; $ {\boldsymbol{y}}_{i,\;c}^{{{s}_{q}}} $为健康状态标记$ y_{i}^{{{s}_{q}}}\in \left\{ 1,\;2,\;\cdots ,\;C \right\} $的向量形式. 在第一阶段, 通过最小化交叉熵损失函数$ {{{\boldsymbol{L}}}_{1}} $进行监督训练.
2.2 第二阶段
由于多视图数据复杂且多样, 存在一些冗余信息, 导致第一阶段学到的特征判别性和泛化性不足[22]. 但这些初级故障特征具备一定的时间和空间特性, 可以为第二阶段模型的训练提供可靠的输入, 有助于提高第二阶段的训练速度[23−24]. 考虑到轴承故障振动信号的非欧几里得数据结构, 图卷积网络在处理此类数据时表现出卓越的性能, 而且具有出色的空间特征提取能力. 因此, 第二阶段选择图卷积网络进一步提取特征.
然而, 传统的图卷积网络仅关注相邻节点的结构关系, 无法有效地利用节点随时间变化的关系以及全局时空关系. 为了克服这一限制, 本文提出了动静双态融合的时空图卷积模型, 该模型由特征序列构建、动态时空图卷积、静态时空图卷积、特征融合、故障分类、域分类六个模块构成, 其详细结构如图4所示. 特征序列构建模块为初级故障特征添加时间步长, 构建包含上下文信息的特征序列. 动态时空图卷积模块能够自适应地调整节点之间的连接权重, 以有效地获取节点随时间变化的动态信息. 静态时空图卷积模块在保持图结构不变的情况下提取特征, 从而使每个节点都能够充分整合其周围节点的信息, 以捕捉节点之间的空间关系和全局时空特征. 特征融合模块用于融合动态时空图卷积和静态时空图卷积模块提取的时空特征, 有助于模型全面提取动态特征和全局时空特征.
2.2.1 特征序列构建模块
为更全面地考虑特征间的时间和空间特性, 给模型提供更丰富的上下文信息, 采用滑动窗的处理方式, 以$ context $为滑动窗口大小、以1为步长, 在特征$ {\boldsymbol{f}}_{i,\;D3}^{{{s}_{q}}} $的长度维度上进行滑动, 构建出一个特征序列集$ {\boldsymbol{X}}_{i,\;text}^{{{s}_{q}}} $:
$$ \begin{split} {\boldsymbol{X}}_{i,\,text,\,1}^{{{s}_{q}}} = \;& \left[ {\boldsymbol{f}}_{i,\,D3,\,e-\frac{context}{2}}^{{{s}_{q}}},\,{\boldsymbol{f}}_{i,\,D3,\,e-\frac{context}{2}+1}^{{{s}_{q}}},\,\cdots ,\right. \\ &\;{\boldsymbol{f}}_{i,\;D3,\;e}^{{{s}_{q}}},\; \cdots ,\;{\boldsymbol{f}}_{i,\;D3,\;e+\frac{context}{2}-1}^{{{s}_{q}}},\\ &\left.\;{\boldsymbol{f}}_{i,\;D3,\;e+\frac{context}{2}}^{{{s}_{q}}} \right] \\[-1pt] \end{split} $$ (12) $$ \begin{split} {\boldsymbol{X}}_{i,\,text}^{{{s}_{q}}} = & \left[ {\boldsymbol{X}}_{i,\,text,\,1}^{{{s}_{q}}},\,{\boldsymbol{X}}_{i,\,text,\,2}^{{{s}_{q}}},\,\cdots, ,\,{\boldsymbol{X}}_{i,\,text,\,u}^{{{s}_{q}}},\,\cdots,\right. \\ & \left. {\boldsymbol{X}}_{i,\;text,\;{{N}_{{{s}_{q}}}}}^{{{s}_{q}}} \right] \\[-1pt]\end{split} $$ (13) 其中, $ e $表示滑动窗的中心位置, 整个序列包含了以$ {\boldsymbol{f}}_{e,\;D3}^{{{s}_{q}}} $为中心点, 从$ e-\frac{context}{2} $到$ e+\frac{context}{2} $的共$ context $个特征; $ u\in [ 1,\;{{N}_{{{s}_{q}}}} ] $, $ e\in [ [ \frac{context}{2} ],\;{{n}_{{{s}_{q}}}} ] $, 特征序列的个数为$ {{N}_{{{s}_{q}}}}={{n}_{{{s}_{q}}}}-context+1 $.
2.2.2 动态时空图卷积模块
随着时间的推移, 不同时间步的特征具有不同的重要性. 然而, 传统的图卷积网络受限于预定义的图结构, 难以有效捕捉节点之间随时间变化的动态关系. 为解决这一问题, 引入动态时空图卷积模块, 自适应地调整节点之间的连接权重.
将节点之间的邻接矩阵定义为$ {\boldsymbol{A}}_{1}^{{{s}_{q}}} $, 令第$ m $个节点和第$ n $个节点之间的邻接矩阵为:
$$ \begin{split} &{\boldsymbol{A}}_{1,mn}^{{s_q}} = \\ &\frac{{\exp \left( {{\rm{ReLU}}\left( {{{\boldsymbol{\omega} }^T}\left| {{\boldsymbol{X}}_{m,text}^{{s_q}} - {\boldsymbol{X}}_{n,text}^{{s_q}}} \right|} \right)} \right)}}{{\sum\limits_{n = 1}^{{N_{{s_q}}}} {\sum\limits_{m = 1}^{{N_{{s_q}}}} {\exp \left( {{\rm{ReLU}}\left( {{{\boldsymbol{\omega} }^T}\left| {{\boldsymbol{X}}_{m,text}^{{s_q}} - {\boldsymbol{X}}_{n,text}^{{s_q}}} \right|} \right)} \right)} } }} \end{split} $$ (14) $$ \begin{split} {{\boldsymbol{L}}_{GL}} =\;& \sum\limits_{n = 1}^{{N_{{s_q}}}} \sum\limits_{m = 1}^{{N_{{s_q}}}} \left( {\left\| {{\boldsymbol{X}}_{m,text}^{{s_q}} - {\boldsymbol{X}}_{n,text}^{{s_q}}} \right\|_2^2{\boldsymbol{A}}_{1,mn}^{{s_q}}} \right) +\\ &\lambda \left\| {{\boldsymbol{A}}_1^{{s_q}}} \right\|_F^2 \\[-1pt]\end{split} $$ (15) 其中, $ {\boldsymbol{X}}_{m,\;text}^{{{s}_{q}}} $和$ {\boldsymbol{X}}_{n,\;text}^{{{s}_{q}}} $分别表示第$ q $个源域中第$ m $个节点和第$ n $个节点对应的特征序列; $ \lambda $是正则化参数; 可训练的权重向量定义为${\boldsymbol{\omega}} =( {{\omega }_{1}},\;{{\omega }_{2}},\;\cdots , {{\omega }_{{{N}_{{{s}_{q}}}}}} )^{\rm{T}}\in {{{\bf{R}}}^{{{N}_{{{s}_{q}}}}\times 1}}$. 通过最小化式(15)中的损失函数$ {{{\boldsymbol{L}}}_{GL}} $来更新权重向量$ {\boldsymbol{\omega}} $, 通过动态调整节点之间的连接权重来更新邻接矩阵$ {\boldsymbol{A}}_{1}^{{{s}_{q}}} $, 以捕捉动态特征. 动态节点连接如图5所示, 特征序列越相似, 建立连接的可能性越大.
将特征序列$ {\boldsymbol{X}}_{i,\;text}^{{{s}_{q}}} $和动态变化的邻接矩阵$ {\boldsymbol{A}}_{1}^{{{s}_{q}}} $送入$ K-1 $阶Chebyshev多项式的动态图卷积层, 捕捉节点之间的动态变化关系. 其表达式为:
$$ \begin{split} {\boldsymbol{X}}_{i,\;DGCN}^{{s_q}}=\; & {g_{\theta}}({\boldsymbol{L}}_{DGCN}^{{{s}_{q}}}){\boldsymbol{X}}_{i,\;text}^{{s_q}} =\\ & \sum_{k=0}^{K-1}{{\boldsymbol{\theta}}_k{T_k}\left(\frac{2}{{\lambda_{\max}}}{\boldsymbol{L}}_{DGCN}^{{{s}_{q}}}-{\boldsymbol{I}}_N\right)}{\boldsymbol{X}}_{i,\;text}^{{s_q}} \end{split} $$ (16) 其中, $ {{g}_{\theta }}(\cdot ) $表示使用Chebyshev多项式参数$ {\boldsymbol{\theta}} $进行的图卷积操作; $ {\boldsymbol{L}}_{DGCN}^{{{s}_{q}}}={\boldsymbol{D}}_{1}^{{{s}_{q}}}-{\boldsymbol{A}}_{1}^{{{s}_{q}}} $ 为第$ q $个源域中动态图卷积层的拉普拉斯矩阵, $ {\boldsymbol{D}}_{1}^{{{s}_{q}}}\in {{\Re }^{{{N}_{{{s}_{q}}}}\times {{N}_{{{s}_{q}}}}}} $为邻接矩阵$ {\boldsymbol{A}}_{1}^{{{s}_{q}}} $ 的度矩阵; $ {{{\boldsymbol{\theta}} }_{k}}\in {{\Re }^{K}} $是权重参数, 表示第$ k $阶Chebyshev多项式在图卷积中的作用程度; $ {{T}_{k}}(\cdot ) $表示Chebyshev递归多项式; $ {{\lambda }_{\max }} $为拉普拉斯矩阵的最大特征值; $ {{{\boldsymbol{I}}}_{N}} $为单位矩阵.
将$ {\boldsymbol{X}}_{i,\;DGCN}^{{s_q}} $送入时序卷积层, 捕捉特征序列随时间变化的趋势和规律[25]. 其表达式为:
$$ \begin{split} {\boldsymbol{X}}_{i,\;DTCN}^{s_q}=\; & \text{ReLU}\left( \Phi * \left( \text{ReLU}\left( {\boldsymbol{X}}_{i,\;DGCN}^{s_q} \right) \right) \right) \in\\ & { \bf{R}}^{N_{s_q} \times H \times {context}} \\[-1pt] \end{split} $$ (17) 其中, $ \Phi $为卷积核的参数; $ H $为特征通道的数量.
2.2.3 静态时空图卷积模块
考虑到节点间的空间位置存在关联性, 单纯依赖于动态时空图卷积模块难以有效捕捉全局时空信息. 静态时空图卷积模块使用固定的拉普拉斯矩阵作为邻接矩阵, 从固定图结构中提取特征, 如图6所示, 其主要目的是聚合每个节点周围所有节点的信息, 以全面提取全局时空特征.
假设节点之间均存在连接且贡献相同, 定义邻接矩阵$ {\boldsymbol{A}}_{2}^{{{s}_{q}}} $每行的行和为1, 每列的列和为1, 且矩阵中每个元素均相等. 将特征序列$ {\boldsymbol{X}}_{i,\;text}^{{{s}_{q}}} $和邻接矩阵$ {\boldsymbol{A}}_{2}^{{{s}_{q}}} $ 送入$ K-1 $阶Chebyshev多项式的静态图卷积层, 以捕捉全局时空关系. 其表达式为:
$$ \begin{split} {\boldsymbol{X}}_{i,\;GCN}^{s_q} =\;& g_{\theta}\left( {\boldsymbol{L}}_{GCN}^{{{s}_{q}}} \right){\boldsymbol{X}}_{i,\;text}^{s_q}= \\ & \sum_{k=0}^{K-1}{\boldsymbol{\theta}}_kT_k\left( \frac{2}{\lambda_{\max}}{\boldsymbol{L}}_{GCN}^{{{s}_{q}}}-{\boldsymbol{I}}_N \right){\boldsymbol{X}}_{i,\;text}^{s_q} \end{split} $$ (18) 其中, $ {\boldsymbol{L}}_{GCN}^{{{s}_{q}}}={\boldsymbol{D}}_{2}^{{{s}_{q}}}-{\boldsymbol{A}}_{2}^{{{s}_{q}}} $ 为静态图卷积层的拉普拉斯矩阵.
将$ {\boldsymbol{X}}_{i,\;GCN}^{{s_q}} $送入时序卷积层, 捕捉特征序列随时间变化的趋势和规律. 其表达式为:
$$ \begin{split} {\boldsymbol{X}}_{i,\;TCN}^{s_q}=\; & \text{ReLU}\left( \Phi * \left( \text{ReLU}\left( {\boldsymbol{X}}_{i,\;GCN}^{s_q} \right) \right) \right) \in\\ & {\bf{R}}^{N_{s_q} \times H \times {context}} \end{split} $$ (19) 2.2.4 特征融合模块
动态时空图卷积模块将自适应生成的邻接矩阵作为拉普拉斯矩阵的一部分, 捕捉节点之间的动态关系; 静态时空图卷积模块使用固定的拉普拉斯矩阵, 捕捉全局时空特征. 将这两个模块提取的特征进行融合, 使模型可以同时考虑动态特征和全局时空特征, 得到更全面、更丰富的特征表示[26]. 这一特征融合过程表示为:
$$ \begin{align} {\boldsymbol{F}}_{i}^{{{s}_{q}}}=\text{flatten}\left( {\boldsymbol{X}}_{i,\;DTCN}^{{{s}_{q}}}||{\boldsymbol{X}}_{i,\;TCN}^{{{s}_{q}}} \right) \end{align} $$ (20) 其中, $\| $为特征拼接操作. 可以看出, $\boldsymbol{f}_{i,D3}^{{{s}_{q}}} $通过特征序列构建、动态时空图卷积、静态时空图卷积三个模块提取时空特征, 表示为${\boldsymbol{F}}_{i}^{{{s}_{q}}}={{G}_{f}}( \boldsymbol{f}_{i,D3}^{{{s}_{q}}}|{{\boldsymbol{\theta}}_{f}} ) $, 可训练参数为${{\boldsymbol{\theta} }_{f}}= \left\{ \boldsymbol{\omega} ,\;{{\theta }_{k}},\;{{\lambda }_{\max }},\;\Phi \right\} $.
2.2.5 故障分类模块
将$ {\boldsymbol{F}}_{i}^{{{s}_{q}}} $ 送入Softmax激活函数, 得到第$ q $个源域中第$ i $个特征序列的预测标签$ \hat{{\boldsymbol{y}}}_{i}^{{{s}_{q}}} $, 其表达式为:
$$ \begin{align} \hat{{\boldsymbol{y}}}_{i}^{{{s}_{q}}}=\frac{\exp \left( {{{\boldsymbol{\omega}} }_{y}}{\boldsymbol{F}}_{i}^{{{s}_{q}}}+{{{\boldsymbol{b}}}_{y}} \right)}{\sum\limits_{i=1}^{{{N}_{{{s}_{q}}}}}{\exp \left( {{{\boldsymbol{\omega}} }_{y}}{\boldsymbol{F}}_{i}^{{{s}_{q}}}+{{{\boldsymbol{b}}}_{y}} \right)}} \end{align} $$ (21) $$ \begin{align} {{{\boldsymbol{\theta}} }_{y}}=\left\{ {{{\boldsymbol{\omega}} }_{y}},\;{{{\boldsymbol{b}}}_{y}} \right\} \end{align} $$ (22) 其中, $ {{{\boldsymbol{\omega}}}_{y}} $为权重参数; $ {{{\boldsymbol{b}}}_{y}} $为偏置参数, 用于调整预测结果的偏移; $ {{{\boldsymbol{\theta}} }_{y}} $为故障分类模块的可训练参数.
2.2.6 域分类模块
本文在域分类模块中嵌入梯度反转层(Gradient reversal layer, GRL)在反向传播过程中反转梯度的符号, 促使模型混淆域间最优特征, 无法判别样本所属的域, 从而提升模型的域泛化性能.
将$ {\boldsymbol{F}}_{i}^{{{s}_{q}}} $ 送入Softmax激活函数, 得到第$ q $个源域中第$ i $个特征序列的域标签$ \hat{{\boldsymbol{d}}}_{i}^{{{s}_{q}}} $, 其表达式为:
$$ \begin{align} \hat{{\boldsymbol{d}}}_{i}^{{{s}_{q}}}=\frac{\exp \left( {{{\boldsymbol{\omega}} }_{d}}{\boldsymbol{F}}_{i}^{{{s}_{q}}}+{{{\boldsymbol{b}}}_{d}} \right)}{\sum\limits_{i=1}^{{{N}_{{{s}_{q}}}}}{\exp \left( {{{\boldsymbol{\omega}} }_{d}}{\boldsymbol{F}}_{i}^{{{s}_{q}}}+{{{\boldsymbol{b}}}_{d}} \right)}} \end{align} $$ (23) $$ \begin{align} {{{\boldsymbol{\theta}} }_{d}}=\left\{ {{{\boldsymbol{\omega}} }_{d}},\;{{{\boldsymbol{b}}}_{d}} \right\} \end{align} $$ (24) 其中, $ {{{\boldsymbol{\omega}}}_{d}} $为权重参数; $ {{{\boldsymbol{b}}}_{d}} $为偏置参数, 用于调整预测结果的偏移; $ {{{\boldsymbol{\theta}} }_{d}} $为域分类模块的可训练参数. 同理, 目标域的域分类模块输出为$ \hat{{\boldsymbol{d}}}_{j}^{t} $.
2.2.7 优化目标
第二阶段有2个优化目标[27], 分别为:
1) 故障分类模块$ {{G}_{y}} $的误差:
$$ \begin{align} {{{\boldsymbol{L}}}_{y}}=-\frac{1}{{{N}_{{{s}_{q}}}}}\sum\limits_{i=1}^{{{N}_{{{s}_{q}}}}}{\sum\limits_{c=1}^{C}{{\boldsymbol{y}}_{i}^{{{s}_{q}}}\lg \hat{{\boldsymbol{y}}}_{i}^{{{s}_{q}}}}} \end{align} $$ (25) 通过最小化损失函数$ {{{\boldsymbol{L}}}_{y}} $更新可训练参数$ {{{\boldsymbol{\theta}} }_{y}} $.
2) 域分类模块$ {{G}_{d}} $的误差:
$$ \begin{split} {\boldsymbol{L}}_d = &-\frac{1}{{N_{{s_q}}}} \sum_{i=1}^{N_{{s_q}}} \sum_{c=1}^{C_d} {\boldsymbol{d}}_{i}^{{s_q}} \lg \hat{{\boldsymbol{d}}}_{i}^{{s_q}} \;-\\ & \frac{1}{{N_t}} \sum_{j=1}^{N_t} (1 - {\boldsymbol{d}}_{j}^t) \lg (1 - \hat{{\boldsymbol{d}}}_{j}^t) \end{split} $$ (26) 其中, $ {{C}_{d}} $为源域个数; $ {\boldsymbol{d}}_{i}^{{{s}_{q}}} $和$ {\boldsymbol{d}}_{j}^{t} $分别为域标签$ d_{i}^{{{s}_{q}}}, d_{j}^{t}\in \left\{ 1,\;2,\;\cdots ,\;Q \right\} $的向量形式. 通过最大化损失函数$ {{{\boldsymbol{L}}}_{d}} $更新可训练参数$ {{{\boldsymbol{\theta}} }_{d}} $.
第二阶段通过最小化动静双态融合的时空图卷积模型的损失函数$ {{{\boldsymbol{L}}}_{2}} $更新参数$ {{{\boldsymbol{\theta}} }_{f}} $、$ {{{\boldsymbol{\theta}} }_{y}} $、$ {{{\boldsymbol{\theta}} }_{d}} $, 该模型的损失函数表达式为:
$$ \begin{split} {{{\boldsymbol{L}}}_{2}} =\;& {{{\boldsymbol{L}}}_{y}} - \beta {{{\boldsymbol{L}}}_{d}}= \\ & -\frac{1}{{{N}_{{{s}_{q}}}}} \sum_{i=1}^{{{N}_{{{s}_{q}}}}} \sum_{c=1}^{{{C}}} {{\boldsymbol{y}}_{i,\;c}^{{{s}_{q}}}\lg \hat{{\boldsymbol{y}}}_{i,\;c}^{{{s}_{q}}}}\;+ \\ & \beta \frac{1}{{{N}_{{{s}_{q}}}}} \sum_{i=1}^{{{N}_{{{s}_{q}}}}} \sum_{c=1}^{{{C}_{d}}} {{\boldsymbol{d}}_{i,\;c}^{{{s}_{q}}}\lg \hat{{\boldsymbol{d}}}_{i,\;c}^{{{s}_{q}}}} \;+\\ & \beta \frac{1}{{{N}_{t}}} \sum_{j=1}^{{{N}_{t}}} {(1-{\boldsymbol{d}}_{j,\;c}^{t})\lg (1-\hat{{\boldsymbol{d}}}_{j,\;c}^{t})} \end{split} $$ (27) 其中, $ \beta $为超参数.
更新参数过程的表达式为:
$$ \begin{split} & \left( \hat{{\boldsymbol{\theta}}}_f,\; \hat{{\boldsymbol{\theta}}}_y \right) = \arg \min_{{\boldsymbol{\theta}}_f,\; {\boldsymbol{\theta}}_y} \left( {\boldsymbol{\theta}}_f,\; {\boldsymbol{\theta}}_y,\; \hat{{\boldsymbol{\theta}}}_d \right) \\ & \left( \hat{{\boldsymbol{\theta}}}_d \right) = \arg \max_{{\boldsymbol{\theta}}_d} \left( \hat{{\boldsymbol{\theta}}}_f,\; \hat{{\boldsymbol{\theta}}}_y,\; {\boldsymbol{\theta}}_d \right) \end{split} $$ (28) 本文所提出方法的训练过程可表述为:
$$ \begin{align} {{{\boldsymbol{Y}}}^{s}}=f\left( {{{\boldsymbol{X}}}^{s}}|{{{\boldsymbol{\theta}} }_{all}} \right) \end{align} $$ (29) 其中, 该方法的可训练参数为$ {{{\boldsymbol{\theta}} }_{all}}=\left\{ {{{\boldsymbol{\theta}} }_{1}},\;{{{\boldsymbol{\theta}} }_{2}}\right\} $, $ {{{\boldsymbol{\theta}} }_{2}}= \left\{ {{{\boldsymbol{\theta}} }_{f}},\;{{{\boldsymbol{\theta}} }_{y}},\;{{{\boldsymbol{\theta}} }_{d}} \right\} $.
综上所述, 本文所提出的两阶段域泛化学习框架, 在第一阶段采用大尺寸卷积特征提取模型, 从多视图数据提取初级故障特征; 在第二阶段采用动静双态融合的时空图卷积模型, 同时考虑动态特征和全局时空特征. 通过这一学习框架可以将多源域数据映射到一个共有特征空间, 提取具备判别性和泛化性的特征, 实现多源域到目标域的故障诊断任务. 该框架的伪代码如算法1所示.
算法1. 所提故障诊断方法流程
输入. 多源域数据集$ {\boldsymbol{S}}=\left\{ {{{\boldsymbol{S}}}_{1}},\;{{{\boldsymbol{S}}}_{2}},\;\cdots ,\;{{{\boldsymbol{S}}}_{Q}} \right\} $, 其中$ {{{\boldsymbol{S}}}_{q}}= \{ {\boldsymbol{x}}_{i}^{{{s}_{q}}},\;y_{i}^{{{s}_{q}}} \}_{i=1}^{{{n}_{{{s}_{q}}}}} $; 目标域数据集$ {\boldsymbol{T}}=\{ {\boldsymbol{x}}_{j}^{t} \}_{j=1}^{{{n}_{t}}} $; 迭代次数$ {{E}_{1}},\;{{E}_{2}} $.
输出. 故障诊断的准确率等评价指标.
1: 第一阶段(见2.1节)
2: 读取配置参数
3: for $ q=1\to Q $ do
4: for $ {{E}_{1}} $ epoch do
5: for $ i=1; i\leq{{n}_{{{s}_{q}}}}; i++ $ do
6: 由式(3) ~ (5)提取初级特征$ {\boldsymbol{f}}_{i,\;D3}^{{{s}_{q}}} \leftarrow {\boldsymbol{x}}_{i}^{{{s}_{q}}} $
7: 由式(7) ~ (9)预测样本标签$ \hat{{\boldsymbol{y}}}_{i}^{{{s}_{q}}} \leftarrow {\boldsymbol{f}}_{i,\;D3}^{{{s}_{q}}} $
8: end for
9: 最小化损失函数$ {{{\boldsymbol{L}}}_{1}} $更新参数${\boldsymbol{{\theta}} _1} $
10: end for
11: end for
12: 通过映射$ G\left( {\boldsymbol{T}}|{\boldsymbol{\theta}}_1 \right) $识别目标域样本$ {\boldsymbol{x}}_{i}^{t} $类别
13: 保存模型提取的特征和训练信息
14: 第二阶段(见2.2节)
15: 读取配置参数
16: for $ q=1\to Q $ do
17: for $ {{E}_{2}} $ epoch do
18: for $ i=1; i\leq{{n}_{{{s}_{q}}}}; i++ $ do
19: 给特征添加时间步长$ {\boldsymbol{X}}_{i,\;text}^{{{s}_{q}}}\leftarrow {\boldsymbol{f}}_{i,\;D3}^{{{s}_{q}}} $
20: 由式(14) ~ (20)提取时空特征$ {\boldsymbol{F}}_{i}^{{{s}_{q}}}\leftarrow $${\boldsymbol{X}}_{i,\;text}^{{{s}_{q}}} $
21: 预测源域样本标签$ \hat{{\boldsymbol{y}}}_{i}^{{{s}_{q}}},\;\hat{{\boldsymbol{d}}}_{i}^{{{s}_{q}}}\leftarrow {{{\boldsymbol{\omega}} }_{y}},\;{{{\boldsymbol{\omega}}}_{d}}$, $\;{\boldsymbol{F}}_{i}^{{{s}_{q}}} ,\;{{{\boldsymbol{b}}}_{y}},\;{{{\boldsymbol{b}}}_{d}} $
22: end for
23: 预测目标域样本标签$ \hat{{\boldsymbol{d}}}_{j}^{t}\leftarrow {{{\boldsymbol{\omega}} }_{d}},\;{\boldsymbol{F}}_{j}^{t},\;{{{\boldsymbol{b}}}_{d}} $
24: 最小化损失函数$ {{{\boldsymbol{L}}}_{2}} $更新参数$ {{\hat{{\boldsymbol{\theta}} }}_{f}},\;{{\hat{{\boldsymbol{\theta}} }}_{y}},\;{{\hat{{\boldsymbol{\theta}} }}_{d}}\leftarrow $ ${{{\boldsymbol{\theta}} }_{f}},\;{{{\boldsymbol{\theta }}}_{y}},\;{{{\boldsymbol{\theta}} }_{d}} $
25: end for
26: end for
27: 使用最优参数$ {{\hat{{\boldsymbol{\theta}} }}_{f}},\;{{\hat{{\boldsymbol{\theta}} }}_{y}},\;{{\hat{{\boldsymbol{\theta }}}}_{d}} $识别样本$ {\boldsymbol{x}}_{i}^{t} $的类别
3. 实验与分析
本文进行实验的操作系统为Windows10, CPU为Intel(R)Core i5-7200U, GPU为NVIDIA GeForce 940MX. 使用的软件包和版本包括Python 3.6、TensorFlow-GPU 1.15.0、Keras 2.3.1、NumPy 1.16.0、SciPy 1.1.0、Scikit-learn 0.21.3、H5py 2.10.0以及Matplotlib 3.3.4. 为了保证实验结果的可靠性, 在相同的实验环境下对所有实验任务重复10次.
3.1 轴承数据集说明
实验选用同设备多工况轴承故障数据集. 采集数据的实验台图片如图7所示. 数据采样频率为
51200 Hz, 传感器灵敏度为100 mv/g, 使用三个传感器($ x $轴、$ y $轴、$ z $轴)收集轴承的振动信号, 因此特征通道数$ H=3 $.将四种工况(转速为300 rpm、600 rpm、900 rpm、1200 rpm)的振动信号分别标记为域A、B、C、D. 每个域均包含五种健康状态, 即正常状态(Health, H)和四种故障状态: 滚子故障(Ball fault, BF)、内圈故障(Inner fault, IF)、内外圈故障(Inner and outer fault, IOF)、外圈故障(Outer fault, OF), 如图8所示.
每种工况采集
10000 个样本, 其中每种健康状态采集2000 个样本, 每个样本的振动信号长度为1024 个数据点. 在第二阶段构建特征序列时设置滑动窗口大小为$ context $=5, 每个域的特征序列数为10000 −5+1=9996 . 则多源域数据集的总样本数为10000 ×3=30000 , 特征序列数为9996 ×3=29988 ; 目标域数据集的总样本数为10000 , 特征序列数为9996. 该实验的数据说明如表1所示.表 1 不同域泛化任务的轴承数据说明Table 1 Bearing data description of different domain generalization tasks域泛化任务 源域 目标域 转速(rpm) 总样本数 特征序列数 转速(rpm) 总样本数 特征序列数 任务1 B-C-D→A 600、900、 1200 30000 29988 300 10000 9996 任务2 A-C-D→B 300、900、 1200 30000 29988 600 10000 9996 任务3 A-B-D→C 300、600、 1200 30000 29988 900 10000 9996 任务4 A-B-C→D 300、600、900 30000 29988 1200 10000 9996 3.2 参数设置
从四个域中选取一个域作为目标域, 其他三个域组合成源域, 执行多源域到目标域的跨工况域泛化任务. 例如B-C-D→A表示多源域(B、C、D)向目标域(A)进行泛化. 然后依次设计四个域泛化任务(B-C-D→A、A-C-D→B、A-B-D→C、A-B-C→D). 通过观察测试结果的准确率, 确定本方法的网络结构参数以及训练过程中的关键参数. 在不进行过度拟合和过度调参的情况下, 当第一阶段模型的测试准确率达到70%以上时, 认为提取到的初级故障特征能够为第二阶段提供可靠的输入. 本方法的网络结构参数设置详见表2, 实验采用Adam优化器, 训练迭代次数设置为80, 批次处理大小设置为64, 学习率为0.002.
表 2 结构参数设计Table 2 Structural parameter design网络结构 输入尺寸 输出尺寸 参数设置 填充方式 第一阶段 输入层 64×3× 1024 64×3× 1024 ×1— — 卷积层(C1) 64×3× 1024 ×164×3×13×64 kernel_size=400, filter=64, stride=50 same 最大池化层(P2) 64×3×13×64 64×3×2×64 pool_size=5, strides=5 valid Dropout层(D3) 64×3×2×64 64×3×2×64 p=0.5 — 展平层(F4) 64×3×2×64 64×3×128 — — 全连接层(F5) 64×3×128 64×384 — — 故障分类器 64×384 64×5 — — 第二阶段 输入层 64×3×128 64×3×128 — — 添加时间步 64×3×128 64×5×3×128 — — 动态图卷积层 64×5×3×128 64×5×3×64 k=3, filter=64, $ \lambda =0.001 $ valid 时序卷积层 64×5×3×64 64×5×3×64 filter=64, stride=(1,1), kernel=(3,1) same 静态图卷积层 64×5×3×128 64×5×3×64 k=3, filter=64 valid 时序卷积层 64×5×3×64 64×5×3×64 filter=64, stride=(1,1), kernel=(3,1) same 全连接层 64×5×3×64, 64×5×3×64 64×5×3×128 — — 展平层 64×5×3×128 64× 1920 — — 故障分类 全连接层 64× 1920 64×64 — — 故障分类器 64×64 64×5 — — 域分类 梯度反转层 64× 1920 64× 1920 $ \beta =0.01 $ — 全连接层 64× 1920 64×64 — — 域分类器 64×64 64×4 — — 3.3 评价指标
本文采用准确率、F1得分、精确率和召回率这四个评价指标, 全面评估该方法对轴承振动信号数据中五种健康状态进行分类的性能.
考虑到四个域泛化任务(B-C-D→A、A-C-D→B、A-B-D→C、A-B-C→D)难度不同, 为综合评价本方法的性能, 实验中的评价指标为四个任务的平均值.
3.4 健康状态分类性能验证
表3展示了使用本方法进行轴承健康状态分类的结果. 实验结果表明, 本文提出的轴承故障分类方法表现出色, 大多数样本都能够被准确分类, 而且具备良好的鲁棒性. 对于正常状态、内圈故障和外圈故障这三种健康状态识别精度较高, 尤其是正常状态, 四个评价指标均取得最优值. 尽管在滚子故障和内外圈故障的识别中准确率稍低、方差稍大, 但F1 得分仍然保持在相对较高的水平, 表明该方法能够较好地平衡不同健康状态的样本.
表 3 五种健康状态分类结果统计表Table 3 Table of classification results of five health states健康状态 准确率(%) F1得分(%) 精确率(%) 召回率(%) 滚子故障 97.05±2.32 97.39±2.02 95.95±2.87 99.96±0.01 内圈故障 99.06±0.10 99.06±0.10 99.80±0.01 98.33±0.57 内外圈故障 92.27±1.05 97.61±1.31 99.98±0.01 96.34±0.07 外圈故障 99.15±0.04 99.15±0.01 98.44±0.18 99.20±0.50 正常状态 99.98±0.01 99.98±0.01 99.97±0.01 99.99±0.01 平均值 98.77±0.36 98.77±0.38 98.83±0.53 98.77±0.32 3.5 多视图数据有效性验证
为了验证多视图数据对轴承故障诊断性能的影响, 分别去掉振动信号中的$ x $、$ y $、$ z $三个视图中的一个进行了三组对比实验. 得到四种不同的多视图数据组合的故障诊断性能结果, 如表4所示.
表 4 不同的多视图数据组合对性能的影响统计表Table 4 Table of the impact of different multi-view data combinations on performance不同视图组合 准确率(%) F1得分(%) 精确率(%) 召回率(%) $ xz $ 90.75±0.50 90.24±0.62 92.06±0.76 90.42±0.61 $ xy $ 92.31±0.71 92.67±0.62 93.18±0.45 92.31±0.71 $ yz $ 94.78±2.23 94.57±2.55 95.70±1.33 94.76±2.54 $ xyz $ 98.77±0.36 98.77±0.38 98.83±0.53 98.77±0.32 实验结果表明, 采用不同的视图组合方式对模型性能产生了显著影响. 采用$“ xz ”$视图组合时, 该方法在轴承故障分类任务中性能表现略差; 采用$“ xy ”$视图组合时, 相比视图组合$“ xz” $性能略有提升; 采用$ “yz ”$视图组合时, 相比于前两种视图组合性能有所提升, 但方差较大, 故鲁棒性较差; 采用$ “xyz” $视图组合时取得了最佳性能, 而且方差较小, 鲁棒性较强, 这表明多视图数据融合机制能够为模型提供更丰富的信息, 从不同轴向提取故障特征, 从而实现更优异的轴承故障分类性能.
3.6 动静双态融合的时空图卷积模型有效性验证
为验证该模型在轴承故障诊断任务中的优越性, 对动态图卷积层、静态图卷积层、时序卷积层这几个关键层逐步去除进行消融实验. 得到五种不同层组合的模型故障诊断性能结果, 如表5所示.
表 5 动静双态融合的时空图卷积模型不同组成结构对性能的影响统计表Table 5 Table of the impact of different structures of the spatial-temporal graph convolutional model for dynamic and static two-state fusion on performance动态时空图卷积模块 静态时空图卷积模块 准确率(%) F1 得分(%) 精确率(%) 召回率(%) 动态图卷积层 时序卷积层 静态图卷积层 时序卷积层 √ × √ × 90.36±0.63 90.32±0.52 90.87±2.40 90.36±0.37 × √ × √ 92.58±4.35 92.66±4.13 93.57±2.01 92.25±4.35 × × √ √ 90.69±3.12 90.75±3.24 92.35±1.05 90.70±4.49 √ √ × × 90.35±0.51 90.34±0.51 91.91±0.56 90.35±0.59 √ √ √ √ 98.77±0.36 98.77±0.38 98.83±0.53 98.77±0.32 实验结果表明, 本文提出的动静双态融合的时空图卷积模型的各评价指标均取得最优值, 在故障诊断任务中实现了最佳性能, 较小的方差进一步证明其较强的鲁棒性. 这归因于模型中动态图卷积层捕捉了随时间变化的动态特征, 静态图卷积层捕捉了静态图结构下的全局特征, 引入时序卷积层使模型能够分析特征随时间的变化趋势和规律. 综合利用这些关键层使得模型能够有效区分不同域之间的差异, 从而各项评价指标均能取得最佳性能水平.
为更清晰地展现该方法特征提取的性能, 分别对特征$ {\boldsymbol{X}}_{text}^{{{s}_{q}}} $、$ {\boldsymbol{X}}_{DGCN}^{{{s}_{q}}} $、$ {\boldsymbol{X}}_{DTCN}^{{{s}_{q}}} $、$ {\boldsymbol{X}}_{GCN}^{{{s}_{q}}} $、$ {\boldsymbol{X}}_{TCN}^{{{s}_{q}}} $、$ {{{\boldsymbol{F}}}^{{{s}_{q}}}} $进行可视化, 图9展示了动静双态融合的时空图卷积模型不同层的特征可视化效果. 同时, 本文选用轮廓系数[28]和CH指数[29]作为特征可视化效果的量化评估指标. 轮廓系数接近1 时, 表示样本与其所属簇越相似, 且与其他簇差异越显著. CH指数越大, 表示簇内离散度越小, 簇间离散度越大. 表6展示了图9特征可视化图的量化结果. 图9(a)中, 在输入模型之前特征重叠严重, 难以有效地分离各种健康状态, 轮廓系数和CH指数分别为
0.0828 和1194.49 . 图9(b)和图9(d)中, 经过动态图卷积层和静态图卷积层的处理, 能够准确分离出正常状态, 但其余四种故障状态的特征紧密地聚集在一起, 轮廓系数分别为0.1134 和0.1920 , CH指数分别为2336.10 和5208.58 . 图9(c)和图9(e)中, 经过时序卷积层的处理, 效果有所提升, 轮廓系数分别为0.4807 和0.5021 , CH指数分别为13642.92 和14917.97 , 但仍不理想. 在图9(f)中, 经过特征融合, 绝大多数特征被正确分类并有效地分离开, 轮廓系数和CH指数分别为0.5431 和17765.84 , 展示出该模型提取时空特征能力的优越性.表 6 不同特征可视化效果的量化指标统计表Table 6 Table of quantitative indicators of different feature visualization effects量化指标 $ {\boldsymbol{X}}_{text}^{{{s}_{q}}} $ $ {\boldsymbol{X}}_{DGCN}^{{{s}_{q}}} $ $ {\boldsymbol{X}}_{DTCN}^{{{s}_{q}}} $ $ {\boldsymbol{X}}_{GCN}^{{{s}_{q}}} $ $ {\boldsymbol{X}}_{TCN}^{{{s}_{q}}} $ $ {{{\boldsymbol{F}}}^{{{s}_{q}}}} $ 轮廓系数 0.0828 0.1134 0.4807 0.1920 0.5021 0.5431 CH指数 1194.49 2336.10 13642.92 5208.58 14917.97 17765.84 3.7 与其他方法的对比
机械系统的启停、低负载或临界运行阶段通常处于低转速条件, 导致振动信号具有复杂的频谱特性, 故障特征的提取相对困难[30]. 在实际工程中, 采集到的振动信号通常包含低转速条件, 故障特征难以有效提取. 为解决这一问题, 本实验考虑在高转速条件下学习样本与健康状态的映射关系, 并将其泛化到低转速条件下进行故障诊断. 将转速为600 rpm、900 rpm和
1200 rpm的域B、C和D组合成源域, 将转速为300 rpm 的域A作为目标域, 执行任务B-C-D→A, 源域与目标域之间振动信号的分布存在显著差异, 验证本方法在低转速数据样本上的泛化性能.将本方法与其他6种模型的故障诊断结果进行对比: 1) 卷积神经网络(Convolutional neural network, CNN) 作为经典深度学习模型, 对于局部特征提取表现出色; 2) 第一层宽卷积核深度卷积神经网络(Deep convolutional neural networks with wide first-layer kernal, WDCNN) 擅长提取短时特征, 卷积核参数较少, 能够有效地抑制过拟合, 可以自动学习去除对诊断没有帮助的特征; 3) 图卷积网络(Graph convolutional network, GCN)适用于图数据, 有效考虑了节点之间的拓扑结构, 能够捕获多传感器之间的联系; 4) 时序卷积网络(Temporal convolutional network, TCN)用于时间序列建模, 擅长捕捉时间相关性; 5) 域对抗图卷积网络(Domain adversarial graph convolutional network, DAGCN)充分利用数据结构信息, 高效学习域不变和判别特征[31]; 6) 基于相关−方差贡献算法的自适应收敛可视图神经网络(Correlation variance contribution network, CVC-Net) 针对不同域数据样本之间存在的相互依赖性, 充分考虑动态融合下多个传感器信号的相关性、互补性和冗余性[32]. 本方法与CNN、WDCNN、GCN、TCN、DAGCN和CVC-Net这六种对比方法的故障诊断性能对比结果如表7所示.
表 7 不同方法的诊断结果统计表Table 7 Table of statistics of diagnostic results of different methods评估指标 域泛化任务B-C-D→A CNN WDCNN GCN TCN DAGCN CVC-Net 所提方法 准确率(%) 60.24±9.14 63.20±6.51 59.77±8.56 62.64±5.38 85.01±6.75 86.31±5.25 95.14±1.75 F1得分(%) 64.01±6.86 65.70±5.30 54.85±5.17 57.37±7.54 83.30±8.21 85.11±4.50 95.81±0.86 精确率(%) 63.61±8.43 61.86±6.46 57.38±6.52 61.15±8.64 90.98±3.83 80.04±3.59 95.95±1.98 召回率(%) 61.13±7.25 63.19±5.43 59.07±7.89 62.32±7.95 85.37±9.47 86.67±5.58 95.03±0.85 实验结果表明, 对比方法的各评价指标均明显低于所提出的方法. GCN的诊断精度最低; TCN的诊断精度略高于GCN; CNN和WDCNN的诊断精度高于GCN和TCN; DAGCN和CVC-Net模型在各项评价指标上均取得了相对显著的优势, 但低于本方法. 相比之下, 本方法各项评价指标均高于其他方法, 方差最低, 证明其鲁棒性较强. 这表明该方法融合了多视图数据, 能有效捕捉节点间随时间变化的关系, 聚合周围节点信息, 提取域不变时空特征, 进而能够将在高转速数据样本中提取的特征成功泛化至低转速数据样本, 具有较高的诊断精度和良好的泛化能力.
为了直观观察不同诊断方法特征提取的性能, 对任务B-C-D→A中的特征进行可视化, 图10展示了各方法的特征可视化效果, 用轮廓系数和CH指数量化评估不同方法的特征可视化效果, 如表8所示. 在图10(a)、图10(b)和图10(d)中, CNN、WDCNN和TCN可以准确地识别出正常状态和外圈故障, 但对于其他三种健康状态的区分能力较差, 轮廓系数分别为
0.2164 、0.1926 、0.2390 , CH指数分别为3920.27 、3484.86 、4795.91 . 在图10(c)中, GCN可以准确地识别出正常状态, 但绝大多数故障状态的特征紧密地聚集在一起, 无法准确地识别出各类故障, 轮廓系数和CH指数分别为0.1843 、3483.51 . 在图10(e)和图10(f)中, DAGCN和CVC-Net模型分类效果优于其他四个对比方法, 但类间距离较小, 轮廓系数分别为0.4440 、0.4620 , CH 指数分别为12051.26 、11544.79 , 仍不理想. 在图10(g)中, 所提方法可以正确分类绝大多数特征并将其有效地分离开, 轮廓系数和CH指数分别为0.5082 、14780.77. 验证了本文所提方法在轴承故障诊断任务中良好的诊断精度及其泛化能力.表 8 不同方法特征可视化效果的量化指标统计表Table 8 Table of quantitative indicators of feature visualization effects of different methods量化指标 CNN WDCNN GCN TCN DAGCN CVC-Net 所提方法 轮廓系数 0.2164 0.1926 0.1843 0.2390 0.4440 0.4602 0.5082 CH指数 3920.27 3484.86 3483.51 4795.91 12051.26 11544.79 14780.77 4. 结论与展望
提出了一种基于两阶段域泛化学习框架的轴承故障诊断方法, 该方法可以有效地将多个源域的数据映射到一个共有特征空间, 以提取判别性和泛化性特征, 实现同设备多工况的域泛化任务. 根据实验结果得到以下三个结论:
1) 该方法采用大尺寸卷积特征提取模型进行预训练, 有效提取多源域数据的初级故障特征, 为第二阶段提取判别性和泛化性特征奠定基础.
2) 该方法将初级故障特征输入动静双态融合的时空图卷积模型, 捕捉节点随时间变化的动态特征及全局时空特征.
3) 该方法无需任何度量指标就能将多个源域的数据映射到一个共有特征空间, 有效地解决了多个源域与目标域数据之间存在较大分布差异导致诊断性能下降的问题, 具有广泛的应用前景.
本文为轴承故障诊断提供了一种域泛化新方法. 然而, 仍存在一些问题需要进一步研究. 首先, 动态时空图卷积模块和静态时空图卷积模块在融合过程中可能存在一种内在的权衡, 需要设计合适的超参数来平衡两者的重要性. 其次, 本方法实现了同设备跨工况的域泛化任务, 未来可以将泛化任务扩展到未知设备和未知模态.
-
表 1 不同域泛化任务的轴承数据说明
Table 1 Bearing data description of different domain generalization tasks
域泛化任务 源域 目标域 转速(rpm) 总样本数 特征序列数 转速(rpm) 总样本数 特征序列数 任务1 B-C-D→A 600、900、 1200 30000 29988 300 10000 9996 任务2 A-C-D→B 300、900、 1200 30000 29988 600 10000 9996 任务3 A-B-D→C 300、600、 1200 30000 29988 900 10000 9996 任务4 A-B-C→D 300、600、900 30000 29988 1200 10000 9996 表 2 结构参数设计
Table 2 Structural parameter design
网络结构 输入尺寸 输出尺寸 参数设置 填充方式 第一阶段 输入层 64×3× 1024 64×3× 1024 ×1— — 卷积层(C1) 64×3× 1024 ×164×3×13×64 kernel_size=400, filter=64, stride=50 same 最大池化层(P2) 64×3×13×64 64×3×2×64 pool_size=5, strides=5 valid Dropout层(D3) 64×3×2×64 64×3×2×64 p=0.5 — 展平层(F4) 64×3×2×64 64×3×128 — — 全连接层(F5) 64×3×128 64×384 — — 故障分类器 64×384 64×5 — — 第二阶段 输入层 64×3×128 64×3×128 — — 添加时间步 64×3×128 64×5×3×128 — — 动态图卷积层 64×5×3×128 64×5×3×64 k=3, filter=64, $ \lambda =0.001 $ valid 时序卷积层 64×5×3×64 64×5×3×64 filter=64, stride=(1,1), kernel=(3,1) same 静态图卷积层 64×5×3×128 64×5×3×64 k=3, filter=64 valid 时序卷积层 64×5×3×64 64×5×3×64 filter=64, stride=(1,1), kernel=(3,1) same 全连接层 64×5×3×64, 64×5×3×64 64×5×3×128 — — 展平层 64×5×3×128 64× 1920 — — 故障分类 全连接层 64× 1920 64×64 — — 故障分类器 64×64 64×5 — — 域分类 梯度反转层 64× 1920 64× 1920 $ \beta =0.01 $ — 全连接层 64× 1920 64×64 — — 域分类器 64×64 64×4 — — 表 3 五种健康状态分类结果统计表
Table 3 Table of classification results of five health states
健康状态 准确率(%) F1得分(%) 精确率(%) 召回率(%) 滚子故障 97.05±2.32 97.39±2.02 95.95±2.87 99.96±0.01 内圈故障 99.06±0.10 99.06±0.10 99.80±0.01 98.33±0.57 内外圈故障 92.27±1.05 97.61±1.31 99.98±0.01 96.34±0.07 外圈故障 99.15±0.04 99.15±0.01 98.44±0.18 99.20±0.50 正常状态 99.98±0.01 99.98±0.01 99.97±0.01 99.99±0.01 平均值 98.77±0.36 98.77±0.38 98.83±0.53 98.77±0.32 表 4 不同的多视图数据组合对性能的影响统计表
Table 4 Table of the impact of different multi-view data combinations on performance
不同视图组合 准确率(%) F1得分(%) 精确率(%) 召回率(%) $ xz $ 90.75±0.50 90.24±0.62 92.06±0.76 90.42±0.61 $ xy $ 92.31±0.71 92.67±0.62 93.18±0.45 92.31±0.71 $ yz $ 94.78±2.23 94.57±2.55 95.70±1.33 94.76±2.54 $ xyz $ 98.77±0.36 98.77±0.38 98.83±0.53 98.77±0.32 表 5 动静双态融合的时空图卷积模型不同组成结构对性能的影响统计表
Table 5 Table of the impact of different structures of the spatial-temporal graph convolutional model for dynamic and static two-state fusion on performance
动态时空图卷积模块 静态时空图卷积模块 准确率(%) F1 得分(%) 精确率(%) 召回率(%) 动态图卷积层 时序卷积层 静态图卷积层 时序卷积层 √ × √ × 90.36±0.63 90.32±0.52 90.87±2.40 90.36±0.37 × √ × √ 92.58±4.35 92.66±4.13 93.57±2.01 92.25±4.35 × × √ √ 90.69±3.12 90.75±3.24 92.35±1.05 90.70±4.49 √ √ × × 90.35±0.51 90.34±0.51 91.91±0.56 90.35±0.59 √ √ √ √ 98.77±0.36 98.77±0.38 98.83±0.53 98.77±0.32 表 6 不同特征可视化效果的量化指标统计表
Table 6 Table of quantitative indicators of different feature visualization effects
量化指标 $ {\boldsymbol{X}}_{text}^{{{s}_{q}}} $ $ {\boldsymbol{X}}_{DGCN}^{{{s}_{q}}} $ $ {\boldsymbol{X}}_{DTCN}^{{{s}_{q}}} $ $ {\boldsymbol{X}}_{GCN}^{{{s}_{q}}} $ $ {\boldsymbol{X}}_{TCN}^{{{s}_{q}}} $ $ {{{\boldsymbol{F}}}^{{{s}_{q}}}} $ 轮廓系数 0.0828 0.1134 0.4807 0.1920 0.5021 0.5431 CH指数 1194.49 2336.10 13642.92 5208.58 14917.97 17765.84 表 7 不同方法的诊断结果统计表
Table 7 Table of statistics of diagnostic results of different methods
评估指标 域泛化任务B-C-D→A CNN WDCNN GCN TCN DAGCN CVC-Net 所提方法 准确率(%) 60.24±9.14 63.20±6.51 59.77±8.56 62.64±5.38 85.01±6.75 86.31±5.25 95.14±1.75 F1得分(%) 64.01±6.86 65.70±5.30 54.85±5.17 57.37±7.54 83.30±8.21 85.11±4.50 95.81±0.86 精确率(%) 63.61±8.43 61.86±6.46 57.38±6.52 61.15±8.64 90.98±3.83 80.04±3.59 95.95±1.98 召回率(%) 61.13±7.25 63.19±5.43 59.07±7.89 62.32±7.95 85.37±9.47 86.67±5.58 95.03±0.85 表 8 不同方法特征可视化效果的量化指标统计表
Table 8 Table of quantitative indicators of feature visualization effects of different methods
量化指标 CNN WDCNN GCN TCN DAGCN CVC-Net 所提方法 轮廓系数 0.2164 0.1926 0.1843 0.2390 0.4440 0.4602 0.5082 CH指数 3920.27 3484.86 3483.51 4795.91 12051.26 11544.79 14780.77 -
[1] 刘建昌, 权贺, 于霞, 何侃, 李镇华. 基于参数优化VMD和样本熵的滚动轴承故障诊断. 自动化学报, 2022, 48(3): 808−819Liu Jian-Chang, Quan He, Yu Xia, He Kan, Li Zhen-Hua. Rolling bearing fault diagnosis based on parameter optimization vmd and sample entropy. Acta Automatica Sinica, 2022, 48(3): 808−819 [2] Xin G, Zhong Q T, Jin Y Q, Li Z, Chen Y F, Li Y F, et al. Autonomous bearing fault diagnosis based on fault-induced envelope spectrum and moving peaks-over-threshold approach. IEEE Transactions on Instrumentation and Measurement, 2024, 73: 1−12 [3] Ma Z P, Fu L, Dun G, Tan D P, Xu F, Zhang L B. A robust domain distribution alignment discriminative network driven by physical samples for rotor-bearing fault diagnosis. Knowledge-Based Systems, 2024, 300(27): 1−15 [4] Pu H X, Zhang K, An Y Y. Restricted sparse networks for rolling bearing fault diagnosis. IEEE Transactions on Industrial Informatics, 2023, 19(11): 11139−11149 doi: 10.1109/TII.2023.3243929 [5] 范苍宁, 刘鹏, 肖婷, 赵巍, 唐降龙. 深度域适应综述: 一般情况与复杂情况. 自动化学报, 2021, 47(25): 515−548Fan Cang-Ning, Liu Peng, Xiao Ting, Zhao Wei, Tang Jiang-Long. A review of deep domain adaptation: General situation and complex situation. Acta Automatica Sinica, 2021, 47(25): 515−548 [6] Wang J D, Lan C L, Liu C, Ouyang Y D, Qin T, Lu W, et al. Generalizing to unseen domains: A survey on domain generalization. IEEE Transactions on Knowledge and Data Engineering, 2022, 35(8): 8052−8072 [7] Huo C R, Xu W Y, Jiang Q S, Shen Y H, Zhu Q X, Zhang Q K. An unsupervised transfer learning approach for rolling bearing fault diagnosis based on dual pseudo-label screening. Structural Health Monitoring, 2024, 23(4): 2288−2309 doi: 10.1177/14759217231206579 [8] An Y Y, Zhang K, Chai Y, Liu Q, Huang X H. Bearing fault diagnosis under variable working conditions base on contrastive domain adaptation method. IEEE Transactions on Instrumentation and Measurement, 2022, 71: 1−11 [9] An Y Y, Zhang K, Chai Y, Zhu Z Q, Liu Q. Gaussian mixture variational based transformer domain adaptation fault diagnosis method and its application in bearing fault diagnosis. IEEE Transactions on Industrial Informatics, 2022, 20(1): 615−625 [10] Ding Y F, Jia M P, Zhuang J C, Cao Y D, Zhao X L, Lee C G. Deep imbalanced domain adaptation for transfer learning fault diagnosis of bearings under multiple working conditions. Reliability Engineering & System Safety, 2023, 230: Article No. 108890 [11] 叶楠, 常佩泽, 张露予, 王嘉. 基于改进后半监督深度信念网络的多工况轴承故障诊断研究. 机械工程学报, 2021, 57(15): 80−90 doi: 10.3901/JME.2021.15.080Ye Nan, Chang Pei-Ze, Zhang Lu-Yu, Wang Jia. Research on multi-condition bearing fault diagnosis based on improved semi-supervised deep belief network. Journal of Mechanical Engineering, 2021, 57(15): 80−90 doi: 10.3901/JME.2021.15.080 [12] 黄星华, 吴天舒, 杨龙玉, 胡友强, 柴毅. 一种面向旋转机械的基于Transformer特征提取的域自适应故障诊断. 仪器仪表学报, 2022, 43(11): 210−218Huang Xing-Hua, Wu Tian-Shu, Yang Long-Yu, Hu You-Qiang, Chai Yi. Domain adaptive fault diagnosis based on transformer feature extraction for rotating machinery. Chinese Journal of Scientific Instrument, 2022, 43(11): 210−218 [13] 陈仁祥, 唐林林, 胡小林, 胡友强, 柴毅. 不同转速下基于深度注意力迁移学习的滚动轴承故障诊断方法. 振动与冲击, 2022, 41(12): 95−101, 195Chen Ren-Xiang, Tang Lin-Lin, Hu Xiao-Lin, Hu You-Qiang, Chai Yi. A rolling bearing fault diagnosis method based on deep attention transfer learning at different rotations. Journal of Vibration and Shock, 2022, 41(12): 95−101, 195 [14] Chen Z Y, Liao Y X, Li J P, Huang R Y, Xu L, Jin G, et al. A multi-source weighted deep transfer network for open-set fault diagnosis of rotary machinery. IEEE Transactions on Cybernetics, 2022, 53(3): 1982−1993 [15] 吕鹏飞, 闫云聚, 荔越. 基于马氏距离的改进核Fisher化工故障诊断研究. 自动化学报, 2020, 46(11): 2379−2391Lv Peng-Fei, Yan Yun-Ju, Li Yue. Research on fault diagnosis of improved kernel Fisher based on Mahalanobis distance in the field of chemical industry. Acta Automatica Sinica, 2020, 46(11): 2379−2391 [16] Li X Y, Zhang Z, Gao L, Wen L. A new semi-supervised fault diagnosis method via deep coral and transfer component analysis. IEEE Transactions on Emerging Topics in Computational Intelligence, 2021, 6(3): 690−699 [17] Li X Q, Jiang H K, Xie M, Wang T Q, Wang R X, Wu Z H. A reinforcement ensemble deep transfer learning network for rolling bearing fault diagnosis with multi-source domains. Advanced Engineering Informatics, 2022, 51: Article No. 101480 doi: 10.1016/j.aei.2021.101480 [18] Yang B, Xu S C, Lei Y G, Lee C G, Stewart E, Roberts C. Multi-source transfer learning network to complement knowledge for intelligent diagnosis of machines with unseen faults. Mechanical Systems and Signal Processing, 2022, 162: Article No. 108095 doi: 10.1016/j.ymssp.2021.108095 [19] Zhou K Y, Liu Z W, Qiao Y, Xiang T, Loy C C. Domain generalization: A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 45 (4): 4396−4415. [20] Bhatti U A, Tang H, Wu G L, Marjan S, Hussain A. Deep learning with graph convolutional networks: An overview and latest applications in computational intelligence. International Journal of Intelligent Systems, 2023, 2023(1): Article No. 8342104 [21] Liu X L, Hou F, Qin H, Hao A M. Multi-view multi-scale CNNs for lung nodule type classification from CT images. Pattern Recognition, 2018, 77: 262−275 doi: 10.1016/j.patcog.2017.12.022 [22] Jia Z Y, Lin Y F, Wang J, Ning X J, He Y L, Zhou R H, et al. Multi-view spatial-temporal graph convolutional networks with domain generalization for sleep stage classification. IEEE Transactions on Neural Systems and Rehabilitation Engineering, 2021, 29: 1977−1986 doi: 10.1109/TNSRE.2021.3110665 [23] Huang R Y, Li J P, Liao Y X, Chen J B, Wang Z, Li W H. Deep adversarial capsule network for compound fault diagnosis of machinery toward multidomain generalization task. IEEE Transactions on Instrumentation and Measurement, 2021, 70: 1−11 [24] Zhao D F, Liu S L, Miao Z H, Zhang H L, Dou W. Subdomain adaptation joint attention network enabled two-stage strategy towards few-shot fault diagnosis of LRE turbopump. Advanced Engineering Informatics, 2024, 60: Article No. 102366 doi: 10.1016/j.aei.2024.102366 [25] Luo F, Poslad S, Budanese E. Temporal convolutional networks for multiperson activity recognition using a 2-D LIDAR. IEEE Internet of Things Journal, 2020, 7(8): 7432−7442 doi: 10.1109/JIOT.2020.2984544 [26] Guo Q G, Li J, Zhou F D, Li G L, Lin J L. An open-set fault diagnosis framework for mmcs based on optimized temporal convolutional network. Applied Soft Computing, 2023, 133: Article No. 109959 doi: 10.1016/j.asoc.2022.109959 [27] Yang Y J, Zhang T X, Li G Y, Kim T, Wang G H. An unsupervised domain adaptation model based on dual-module adversarial training. Neurocomputing, 2022, 475: 102−111 doi: 10.1016/j.neucom.2021.12.060 [28] Bagirov A M, Aliguliyev R M, Sultanova N. Finding compact and well-separated clusters: Clustering using silhouette coefficients. Pattern Recognition, 2023, 135: Article No. 109144 doi: 10.1016/j.patcog.2022.109144 [29] Gonzalez K, Misra S. Unsupervised learning monitors the carbon-dioxide plume in the subsurface carbon storage reservoir. Expert Systems With Applications, 2022, 201: Article No. 117216 doi: 10.1016/j.eswa.2022.117216 [30] Gao D W, Huang K, Zhu Y S, Zhu L P, Yan K, Ren Z J, et al. Semi-supervised small sample fault diagnosis under a wide range of speed variation conditions based on uncertainty analysis. Reliability Engineering & System Safety, 2024, 242: Article No. 109746 [31] Li T, Zhao Z, Sun C, Yan R, Chen X. Domain adversarial graph convolutional network for fault diagnosis under variable working conditions. IEEE Transactions on Instrumentation and Measurement, 2021, 70: 1−10 [32] Li X, Wang Y, Yao J, Li M, Gao Z. Multi-sensor fusion fault diagnosis method of wind turbine bearing based on adaptive convergent viewable neural networks. Reliability Engineering & System Safety, 2024, 245: Article No. 109980 -