联合嵌入式多标签分类算法

刘慧婷; 冷新杨; 王利利; 赵鹏

doi:10.16383/j.aas.c180087

联合嵌入式多标签分类算法

doi: 10.16383/j.aas.c180087

刘慧婷^1,2, ,,
冷新杨^1,2,,
王利利^1,2,,
赵鹏^1,2,

1.
安徽大学计算智能与信号处理教育部重点实验室合肥 230601
2.
安徽大学计算机科学与技术学院合肥 230601

基金项目:

国家自然科学基金 61602004

国家自然科学基金 61202227

详细信息

作者简介:
冷新杨   安徽大学硕士研究生.主要研究方向为机器学习, 文本分类.E-mail:lxy_un@126.com

王利利   安徽大学硕士研究生.主要方向领域为机器学习, 数据挖掘.E-mail:wll9267@126.com

赵鹏   安徽大学副教授, 博士.主要研究方向为机器学习, 智能信息处理.E-mail:zhaopeng_ad@163.com

通讯作者:
刘慧婷安徽大学副教授, 博士.主要研究方向为机器学习, 数据挖掘.本文通信作者.E-mail:htliu@ahu.edu.cn

计量
- 文章访问数: 2636
- HTML全文浏览量: 509
- PDF下载量: 167
- 被引次数: 16
出版历程
- 收稿日期: 2018-02-05
- 录用日期: 2018-05-18
- 刊出日期: 2019-10-20

A Joint Embedded Multi-label Classification Algorithm

LIU Hui-Ting^{1,2
, ,},
LENG Xin-Yang^{1,2
,},
WANG Li-Li^{1,2
,},
ZHAO Peng^{1,2
,}

1.
Key Laboratory of Intelligent Computing and Signal Processing of Ministry of Education, Anhui University, Hefei 230601
2.
School of Computer Science and Technology, Anhui University, Hefei 230601

Funds:

National Natural Science Foundation of China 61602004

National Natural Science Foundation of China 61202227

More Information

Author Bio:
   Master student at Anhui University. His research interest covers machine learning and text categorization

   Master student at Anhui University. Her research interest covers machine learning and data mining

   Ph.D., associate professor at Anhui University. Her research interest covers machine learning and intelligent information processing

Corresponding author: LIU Hui-Ting Ph.D., associate professor at Anhui University. Her research interest covers machine learning and data mining. Corresponding author of this paper

摘要

摘要: 现有的一些多标签分类算法，因多标签数据含有高维的特征或标签信息而变得不可行.为了解决这一问题，提出基于去噪自编码器和矩阵分解的联合嵌入多标签分类算法Deep AE-MF.该算法包括两部分：特征嵌入部分使用去噪自编码器对特征空间学习得到非线性表示，标签嵌入部分则是利用矩阵分解直接学习到标签空间对应的潜在表示与解码矩阵.Deep AE-MF将特征嵌入和标签嵌入的两个阶段进行联合，共同学习一个潜在空间用于模型预测，进而得到一个有效的多标签分类模型.为了进一步提升模型性能，在Deep AE-MF方法中对标签间的负相关信息加以利用.通过在不同数据集上进行实验证明了提出Deep AE-MF方法的有效性和鲁棒性.
- 多标签分类 /
- 矩阵分解 /
- 去噪自编码器 /
- 标签嵌入
Abstract: Some existing classification algorithms become infeasible anymore, because most multi-label data contains high-dimensional features or label information. To solve this problem, a joint embedded multi-label learning classification algorithm named Deep AE-MF is proposed in this paper, which is based on denoising auto-encoder and matrix factorization. The algorithm includes two parts:the feature embedding part uses denoising auto-encoder to obtain the nonlinear representation of feature space learning, and the label embedding part directly learns the potential representation and decoding matrix of the corresponding label space using matrix factorization. In order to get an effective classification model, Deep AE-MF combines the two phases of feature embedding and label embedding to learn a potential space for model prediction. To further improve the performance of the model, the negative correlation between tags is exploited in Deep AE-MF. Experiments on different datasets show the effectiveness and robustness of the proposed Deep AE-MF method.
- Multi-label classification /
- matrix factorization /
- denoising auto-encoder /
- label embedding
注释:

1) 本文责任编委张敏灵

HTML全文

受震动冲击、工况切换、机械磨损、化学侵蚀、负载变化以及能量消耗等因素影响, 设备的健康性能水平将不可避免地劣化, 最终导致其失效, 甚至引起系统故障与事故, 造成人员与财产的损失^[1-3]. 作为预测与健康管理的关键技术之一, 寿命与剩余寿命(Remaining useful life, RUL)预测技术能够为设备维修管理提供有效的信息支持与理论支撑^[4-5]. 因此, 准确地预测设备寿命及剩余寿命具有重要的理论研究和工程应用价值.

随着传感技术与监测方法的进步, 系统的健康水平可通过状态监测数据, 也就是退化数据来体现. 另外, 由于运行环境、测量误差、样本差异性以及固有随机性等影响, 退化过程往往具有随机性与不确定性^[6-7]. 因此, 基于随机退化过程建模的设备寿命与剩余寿命预测方法在近些年得到了广泛关注, 并成为国内外研究的热点问题, 如Gamma退化过程模型、Wiener退化过程模型、逆高斯退化过程模型等^[8-9]. 相比于Gamma过程与逆高斯过程等单调退化过程模型, Wiener退化过程模型不仅能够描述非单调的退化数据, 还具有良好的数学计算特性^[8-11]. 鉴于此, 本文主要关注基于Wiener过程的退化建模与寿命预测问题.

目前, 对于非单调退化过程模型, 其寿命及剩余寿命往往定义为随机退化过程首次达到失效阈值的时刻, 即首达时间(First passage time, FPT)^{[8-9, 12]}. 也就是说, 退化过程一旦达到给定的失效阈值, 便认为该设备发生了失效. 这种寿命定义方式虽然适用于一些安全性要求较高的关键设备, 但是相对保守. 例如, 当退化过程具有较大的随机性与波动性时, 基于首达时间的定义方式可能就会导致退化过程较早达到给定阈值而引起设备提前终止运行, 造成较大的浪费. 迄今为止, 鲜有文献考虑了这一实际问题.

实际上, 退化数据是设备健康状态水平的内在变化的外在表现. 具体来说, 设备的性能水平与健康状态会随使用次数以及时间的累积而不可避免地发生退化, 表现为退化数据呈现出递增或者递减的变化趋势, 例如电池的电容量减少^[13]、陀螺仪漂移系数的增长^[14]、轴承振动幅度的变大^[15] 等. 这些退化数据会随着时间或使用次数的累积, 最终超过并远离所给定的阈值. 众所周知, 首达时间表示退化过程首次达到阈值的时刻, 而最后逃逸时间(Last exit time, LET)则表示退化过程最后一次离开阈值的时刻^[16-17], 反映了设备最后一次恢复到正常状态的时刻, 也就是说从此以后退化过程彻底远离了失效阈值. 首达时间对数据的动态随机性十分敏感, 相比之下, 最后逃逸时间具有更强的鲁棒性, 能够避免由于退化过程动态随机性与数据波动性所导致的设备过早终止运行.

鉴于此, 本文提出一种基于最后逃逸时间的随机退化设备寿命与剩余寿命定义方式. 在新框架下, 以线性Wiener过程模型为研究对象, 首先建立了首达时间与最后逃逸时间之间的关系, 然后推导得到了最后逃逸时间下寿命与剩余寿命分布的表达形式. 此外, 通过数值仿真验证了所得结论的理论正确性, 并进一步完成了模型参数敏感度分析. 最后, 通过实例说明了最后逃逸时间描述随机退化设备寿命具有一定可行性与有效性.

1. 问题描述

1.1 首达时间与最后逃逸时间

首达时间与最后逃逸时间的定义均来自随机过程理论中的概念, 反映了非单调随机过程首次通过和最后一次离开某一给定边界的时刻^[16-19]. 受随机过程的不确定性与动态随机性影响, 随机过程的轨迹可能多次往返于某一个给定边界, 如图1所示.

图 1 随机过程中首达时间与最后逃逸时间

Fig. 1 The first passage time and last exit time of the stochastic process

下载: 全尺寸图片幻灯片

图1为仿真生成的一组非单调随机退化轨迹. 从图中可以发现, 受模型的随机性与不确定性影响, 相同数学模型下的随机过程其退化轨迹也会存在明显的差异, 这会导致首达时间与最后逃逸时间存在差异. 因此, 以下几点需要注意:

1) 对于连续时间随机退化过程, 首达时间与最后逃逸时间均是一个随机变量, 反映了其取值范围的各种可能性;

2) 对于随机过程产生的某一退化轨迹而言, 如果首达时间和最后逃逸时间已出现, 那么其首达时间和最后逃逸时间则是一个具体的特定时刻;

3) 如果该随机过程具有马尔科夫性, 那么其首达时间、最后逃逸时间与过去状态无关, 仅与当前状态相关.

1.2 问题来源

图2表示某一轴承振动退化数据的均方根值(Root mean square, RMS). 从图中可以看出, 受退化过程的随机性与波动性影响, 退化过程在超过某一给定阈值后, 仍可能会回到阈值之下, 并经过较长时间后才会最终离开阈值. 因此, 若直接用首达时间来定义该轴承的寿命与剩余寿命, 预测结果对退化过程的随机性和波动性十分敏感, 得到的结果过于保守, 将导致设备提前终止运行或过早维护, 造成较大浪费.

图 2 轴承RMS退化轨迹

Fig. 2 The RMS degradation paths of bearing

下载: 全尺寸图片幻灯片

以西安交通大学雷亚国教授^{[15, 20]}课题组所完成的全寿命周期轴承退化实验为例, 若按照文献[15]中所给出的轴承寿命定义方式(即令轴承最大振动幅值小于20 g), 首达时间下得到的寿命会明显小于实际寿命, 如表1所示. 相比之下, 最后逃逸时间下得到的寿命则更加接近轴承的实际寿命.

注 1. 需要注意的是, 轴承数据1_4与3_2的退化过程不明显, 其退化数据突然超过给定阈值, 可视为突发失效, 因此本文不讨论这两组数据.

表 1 轴承真实寿命对比(min)

Table 1 Comparison of bearings＇ actual lifetime (min)

轴承数据	实际寿命	首达时间下寿命	最后逃逸时间下寿命
1_1	123	91	110
1_2	161	74	110
1_3	159	149	149
1_5	52	47	49
2_1	491	488	488
2_2	161	144	161
2_3	533	478	533
2_4	42	38	38
2_5	399	199	284
3_1	2538	2524	2529
3_3	371	352	362
3_4	1515	1456	1461
3_5	114	74	98

下载: 导出CSV

| 显示表格

1.3 模型描述

本文主要研究基于最后逃逸时间的寿命与剩余寿命预测问题. 假设设备的退化过程为X(t), 那么首达时间下的寿命$\tilde T$与在${t_k}$时刻处的剩余寿命${\tilde L_k}$表示如下

$$\tilde T = \inf \{ t:X(t) \geq \xi |{x_0} < \xi \} $$

(1)

$${\tilde L_k} = \inf \{ {l_k}:X({t_k} + {l_k}) \geq \xi |{x_k} < \xi \} $$

(2)

其中, $\xi $表示给定的阈值, ${x_0}$表示退化过程的初值, $l_k$表示剩余寿命在$t_k $时刻处的取值, ${x_k}$表示在${t_k}$时刻处的退化值, inf表示下确界.

与式(1)、式(2)类似, 基于最后逃逸时间的寿命$T $与在t_k时刻处的剩余寿命L_k可表示为

$$T = \sup \{ t:X(t) \leq \xi |{x_0} < \xi \} $$

(3)

$${L_k} = \sup \{ {l_k}:X({t_k} + {l_k}) \leq \xi |{x_k}\} $$

(4)

其中, sup表示上确界. 需要注意的是, 不同于首达时间, 即使${x_k}$大于阈值$\xi ,$ 最后逃逸时间仍可能存在.

此外, 对于单调退化过程(如Gamma过程模型、逆高斯过程模型等), $X(t + \Delta t) > $$ X(t)$恒成立. 因此, 单调退化过程首达时间下寿命与剩余寿命和最后逃逸时间下一致, 即有

$$\tilde T = T = \inf \{ t:X(t) \geq \xi |{x_0} < \xi \} $$

(5)

$${\tilde L_k} = {L_k} = \inf \{ {l_k}:X({t_k} + {l_k}) \geq \xi |{x_k} < \xi \} $$

(6)

目前, 已有很多文章(如文献[21-22])给出了单调退化过程的寿命与剩余寿命预测方法. 因此, 本文主要以Wiener过程为例, 研究最后逃逸时间下非单调退化过程的寿命与剩余寿命预测问题.

2. 寿命分布与剩余寿命分布推导

2.1 基于最后逃逸时间的寿命分布推导

一般来说, 传统线性Wiener过程模型可表示为

$$X(t) = {x_0} + \mu t + {\sigma _B}B(t)$$

(7)

其中, $X(t)$表示在t时刻的退化状态, ${x_0}$表示退化过程的初值, $\mu > 0$和${\sigma _B} > 0$分别表示漂移系数与扩散系数, $B(t)$表示标准布朗运动, 令退化过程的阈值为$\xi > $0.

不同于传统基于首达时间下的寿命分布推导方法, 最后逃逸时间下的寿命与剩余寿命分布难以通过直接求解式(3)与式(4)得到. 因此, 为求解式(3)与式(4), 本文先给出以下定义

$${T_0} = \sup \{ t:X(t) \leq \xi |{x_0} = \xi \} $$

(8)

其中, ${T_0}$为一个随机变量, 用于描述首达时间下寿命与最后逃逸时间下寿命之间的差异, 也就是

$${T_0} = T - {\tilde T}$$

(9)

这样, 便可通过${T_0}$建立最后逃逸时间下寿命分布与传统基于首达时间下寿命分布之间的联系, 如式(9)所示. 需要注意的是, ${T_0}$为一个非负随机变量. 那么, 根据式(9)可知, 首达时间下的寿命分布期望和方差均会小于最后逃逸时间下的结果. 为求解$T $的表达形式, 首先给出${T_0}$的求解方式, 如定理1所示.

定理 1. 若退化过程如式(7)所示, 且退化初值等于给定阈值, 即${x_0} = \xi ,$ 那么${T_0}$的概率密度函数(Probability density function, PDF)有如下形式

$$\begin{split} {f_{{T_0}}}(t;s) = \;&\dfrac{1}{{2\sqrt {2\pi t} }}\exp \left( { - \dfrac{{{\mu ^2}t}}{{\sigma _B^2}}} \right) \times \\ &\left\{ {\dfrac{{\exp \left[ { - \dfrac{{2{\mu ^2}(s - t)}}{{\sigma _B^2}}} \right](s - t)}}{{\sqrt {2\pi } {{(s - t)}^{\frac{3}{2}}}}}} \right.{\rm{ + }} \\ &\left. {\dfrac{{\dfrac{{\mu \sqrt {2\pi } {{(s - t)}^{{\frac{3}{2}}}}}}{{{\sigma _B}}}{\rm{Erf}}\left[ {\sqrt {\dfrac{{{\mu ^2}(s - t)}}{{2\sigma _B^2}}} } \right]}}{{\sqrt {2\pi } {{(s - t)}^{\frac{3}{2}}}}}} \right\} \end{split} $$

(10)

其中, $s $表示${T_0}$的最大取值范围, 即${T_0} \leq s;$ ${\rm{Erf}}$表示误差函数.

证明. 首先定义一个新的随机变量$\kappa _h^s$如下所示

$$\kappa _h^s = \sup \{ t \leq s:B(t) = h(t)\} $$

(11)

其中, B(0) = h(0) = 0. 那么$\kappa _h^s$则表示在时间s前, 标准布朗运动B(t)通过一个时变边界h(t)的逃逸时间.

类似于式(11), 定义一个新的随机变量$\gamma _h^s$如下

$$\gamma _h^s = \inf \{ t \leq s:B(t) = h(t)\} $$

(12)

其中, $\gamma _h^s$表示在时间s前, 标准布朗运动B(t)通过一个时变边界h(t)的首达时间.

根据文献[19]可知, $\kappa _h^s$与$\gamma _h^s$的PDF有如下关系

$${f_{\kappa _h^s}}(t) = p\left(t;\;0,\;h(t)\right)\int_{ - \infty }^{ + \infty } 2 {\nu _\chi }\left(s - t,\;\hat h\right){\rm{d}}\chi $$

(13)

其中,

$${\nu _\chi }\left(t,\;\hat h\right) = {f_{\gamma _{\hat h}^s}}\left(t|B(0) = \chi \right)$$

(14)

$$p(t;\;x,\;y) = \frac{1}{{2\sqrt {2\pi t} }}\exp \left[ { - \frac{{{{(x - y)}^2}}}{{2t}}} \right]$$

(15)

在式(14)中, $\hat h(t) = h(s - t) = - \mu /{\sigma _B} (s - t)$表示$ h(t)$的时间反函数.

那么, 令$h(t) = - \mu /{\sigma _B}t ,$ 式(12)等价于式(8), 即有$\kappa _h^s = {T_0}.$ 因此, 可以通过计算式(12)来求解${T_0}.$ 接下来, 根据h(t)的函数形式和式(15), $p(t;\;0,\;h(t))$的表达形式很容易得到, 即

$$p(t;\;0,\;h(t)) = \frac{1}{{2\sqrt {2\pi t} }}\exp \left( { - \frac{{{\mu ^2}t}}{{2\sigma _B^2}}} \right)$$

(16)

实际上, 式(14), 即${f_{\gamma _{\hat h}^s}}(t|B(0) = \chi )$描述了随机过程 $B(t) + \chi $ 通过一个时变边界 $\hat h(t) = $$ - \mu /{\sigma _B} (s - t)$首达时间的PDF. 根据模型变换可以发现, 这等价于随机过程${\sigma _B}B(t) - \mu t$通过给定阈值$ - \mu s - {\sigma _B}\chi $的首达时间. 因此, 根据Wiener过程的性质可得到如下结果

$$ \begin{split} {\nu _\chi }\left(t,\;\hat h\right) =\; &{f_{\gamma _{\hat h}^s}}(t|B(0) = \chi )= \\ & \dfrac{{|\mu s + {\sigma _B}\chi |}}{{\sqrt {2\pi \sigma _B^2{t^3}} }}\exp \left[ { - \dfrac{{{{( - \mu s - {\sigma _B}\chi + \mu t)}^2}}}{{2\sigma _B^2t}}} \right] \end{split} $$

(17)

进一步, 将s − t代入式(17)可以得到式(13)中函数${\nu _\chi }(s - t,\;\hat h)$的具体表示形式如下

$$\begin{split} &{\nu _\chi }(s - t,\;\hat h) = \dfrac{{|\mu s + {\sigma _B}\chi |}}{{\sqrt {2\pi \sigma _B^2{{(s - t)}^3}} }} \;\times \\ & \qquad \exp \left[ { - \dfrac{{{{( - \mu s - {\sigma _B}\chi + \mu (s - t))}^2}}}{{2\sigma _B^2(s - t)}}} \right] = \\ & \qquad \dfrac{{|\mu s + {\sigma _B}\chi |}}{{\sqrt {2\pi \sigma _B^2{{(s - t)}^3}} }}\exp \left[ { - \dfrac{{{{( - {\sigma _B}\chi - \mu t)}^2}}}{{2\sigma _B^2(s - t)}}} \right] \end{split} $$

(18)

那么, 根据式(18)和式(16), $\kappa _h^s$的概率密度函数, 即式(13)为

$$\begin{split} &{f_{\kappa _h^s}}(t) = p(t;\;0,\;h(t))\int_{ - \infty }^{ + \infty } 2 {\nu _\chi }(s - t,\;\hat h){\rm{d}}\chi = \\ &\qquad \dfrac{1}{{2\sqrt {2\pi t} }}\exp \left( { - \dfrac{{{\mu ^2}t}}{{2\sigma _B^2}}} \right)\int_{ - \infty }^{ + \infty } 2 {\nu _\chi }\left(s - t,\;\hat h\right){\rm{d}}\chi = \\ & \qquad \dfrac{1}{{\sqrt {2\pi t} }}\exp \left( { - \dfrac{{{\mu ^2}t}}{{2\sigma _B^2}}} \right) \times \left\{ {\dfrac{{2\exp \left[ { - \dfrac{{2{\mu ^2}(s - t)}}{{\sigma _B^2}}} \right]}}{{\sqrt {2\pi } {{(s - t)}^{\frac{1}{2}}}}}} \right. {\rm{ + }}\\ & \qquad \left. {\dfrac{{\dfrac{{\mu \sqrt {2\pi } }}{{{\sigma _B}}}{\rm{Erf}}\left[ {\sqrt {\dfrac{{{\mu ^2}(s - t)}}{{2\sigma _B^2}}} } \right]}}{{\sqrt {2\pi } }}} \right\} \\[-33pt] \end{split} $$

(19)

其中,

$${\rm{Erf}}\left[ {\sqrt {\dfrac{{{\mu ^2}(s- t)}}{{2\sigma _B^2}}} } \right] = \dfrac{{\smallint _0^{\sqrt {\dfrac{{{\mu ^2}(s- t)}}{{2\sigma _B^2}}} }2\exp ( -\; {\eta ^2}){\rm{d}}\eta }}{{\sqrt \pi }}$$

(20)

□

进一步, 根据定理1的结论以及式(9), 便可得到最后逃逸时间下的寿命分布PDF表达形式如推论1所示.

推论 1. 若退化过程如式(7)所示, 其阈值为$\xi $以及退化初值为${x_0} = 0,$ 同时给定寿命的取值范围为$(0,\;{T_{\max }}),$ 那么基于最后逃逸时间的寿命分布PDF为

$${f_T}(t;\;{T_{\max }}) = \int_0^t {{f_{{T_0}}}(t - \tau ;\;{T_{\max }} - \tau )} {f_{\tilde T}}(\tau ){\rm{d}}\tau $$

(21)

其中, ${f_{{T_0}}}(t - \tau ;\;{T_{\max }} - \tau )$的表达形式可由式(10)直接得到, ${f_{\tilde T}}(\tau )$为Wiener过程的首达时间下寿命分布PDF, 即

$${f_{\tilde T}}(\tau ) = \frac{\xi }{{\sqrt {2\pi \sigma _B^2\tau _{}^3} }}\exp \left[ { - \frac{{{{(\xi - \mu \tau )}^2}}}{{2\sigma _B^2\tau }}} \right]$$

(22)

这样, 便得到了基于最后逃逸时间的寿命分布表示形式. 需要注意的是, 推论1中${T_{\max }}$需要事先给定, 当且仅当${T_{\max }}$趋于无穷大时, 式(21)完全等价于式(3).

2.2 基于最后逃逸时间的剩余寿命分布推导

假设退化过程如式(7)所示, 且当前退化时刻为${t_k},$ 退化量为${x_k}.$ 不同于首达时间下剩余寿命的求解, 基于最后逃逸时间的剩余寿命需要分以下三种情况进行讨论.

情况 1. 当前退化量${x_k}$小于阈值$\xi, $ 当前时刻下剩余寿命可等价于求解初值为${x_k}$的寿命, 那么可根据推论1中寿命预测的结果直接得到, 结果如下所示

$${f_L}({l_k};\;{T_{\max }}) = \int_0^{{l_k}} {{f_{{T_0}}}({l_k} - \tau ;\;{T_{\max }} - \tau )} {f_{\tilde L}}(\tau ){\rm{d}}\tau $$

(23)

其中, $L $表示给定$T_{\max} $条件下剩余寿命分布的PDF.

$${f_{\tilde L}}(\tau ) = \dfrac{{\xi - {x_k}}}{{\sqrt {2\pi \sigma _B^2\tau _{}^3} }}\exp \left[ { - \dfrac{{{{(\xi - \mu \tau - {x_k})}^2}}}{{2\sigma _B^2\tau }}} \right]$$

(24)

情况 2. 当前退化量${x_k}$等于阈值$\xi, $ 剩余寿命直接等于${T_0},$ 其分布可由定理1直接计算得到, 结果如式(10)所示.

情况 3. 当前退化量${x_k}$大于阈值$\xi, $ 需要分别讨论两种可能性, 并分别计算概率分布, 具体结果如下.

1)退化过程再也不回到阈值, 前一次达到阈值的时刻即是最后逃逸时间, 这意味着寿命早已终止. 假设最后一次达到阈值的时刻为${\omega _k},$ 那么有剩余寿命${L_k}$为${\omega _k} - {t_k},$ 其概率等于退化过程回不到阈值的概率

$$\begin{split} \Pr& \left\{ {{L_k} = {\omega _k} - {t_k}} \right\} = \\ &1 - \int_0^{ + \infty } {\dfrac{{|\xi - {x_k}|}}{{\sqrt {2\pi \sigma _B^2l_k^3} }}} \exp \left[ { - \dfrac{{{{(\xi - \mu {l_k} - {x_k})}^2}}}{{2\sigma _B^2{l_k}}}} \right]{\rm{d}}{l_k} = \\ & 1 - \exp \left( { - \dfrac{{2|\xi - {x_k}|\mu }}{{\sigma _B^2}}} \right) = \\ &1 - \exp \left[ { - \dfrac{{2({x_k} - \xi )\mu }}{{\sigma _B^2}}} \right] \\[-10pt] \end{split} $$

(25)

2)退化过程会回到阈值, 最后逃逸时间下的剩余寿命${L_k}$大于0. 此时可根据情况1的方式进行求解, 结果如下

$${f_L}({l_k};\;{T_{\max }}) = \int_0^{{l_k}} {{f_{{T_0}}}({l_k} -\tau ;\;{T_{\max }} -\tau )} {f_{\tilde L}}(\tau ){\rm{d}}\tau $$

(26)

其中,

$${f_{\tilde L}}(\tau ) = \frac{{{x_k} - \xi }}{{\sqrt {2\pi \sigma _B^2\tau _{}^3} }}\exp \left[ { - \frac{{{{(\xi - \mu \tau - {x_k})}^2}}}{{2\sigma _B^2\tau }}} \right]$$

(27)

从上式中可以看出, 当退化量超过阈值后, 存在两种可能的情况, 即退化过程回到阈值之下与退化过程彻底远离阈值. 需要注意的是, 这两种情况均有可能发生, 可通过式(25)计算得到退化过程回不到阈值的概率为$\Pr {\{} {L_k} = $$ {\omega _k} - {t_k} {\}},$ 而能回到阈值的概率等于$1 - \Pr {\{} {L_k} = {\omega _k} - {t_k} {\}} .$

综上, 基于最后逃逸时间下的剩余寿命预测结果便已经推导得到. 由于退化过程的随机性, 退化过程即使超过阈值后仍有可能返回阈值之下. 因此, 不同于首达时间下剩余寿命预测问题, 最后逃逸时间下的剩余寿命预测需要考虑退化量是否大于阈值, 进而需分以上三种情况进行讨论.

2.3 考虑随机效应影响下的寿命分布推导

在实际工程中, 受样本间差异性的影响, 退化过程的初值往往存在差异性, 即${x_0}$取值不同. 为描述样本差异性所带来的影响, 通常在退化过程中引入随机效应, 也就是假设${x_0}$服从某种随机分布. 鉴于高斯混合模型能够近似逼近任意分布, 本文假设${x_0}$服从高斯混合模型, 其中每个高斯分布间相互独立, 且第i个高斯分布期望为${u_i},$ 标准差为${\sigma _i},$ 以及权重为${\varpi _i}.$ 那么这种情况下的寿命分布如定理2所示.

定理 2. 若退化过程如式(7)所示, 其阈值为$\xi $, 给定寿命的取值范围为$(0,\;{T_{\max }}),$ 且退化初值为${x_0}$存在随机效应, 服从期望为${u_i},$ 标准差为${\sigma _i},$ 以及权重为${\varpi _i}$的高斯混合模型(i = 1, 2,···, N), 那么基于最后逃逸时间的寿命分布PDF为

$${f_T}(t;\;{T_{\max }}) = \int_0^t {{f_{{T_0}}}(t - \tau ;\;{T_{\max }} - \tau )} {f_{\tilde T}}(\tau ){\rm{d}}\tau $$

(28)

其中, ${f_{{T_0}}}(t - \tau ;\;{T_{\max }} - \tau )$的表达形式可由式(10)直接得到, ${f_{\tilde T}}(\tau )$为Wiener过程的首达时间下寿命分布PDF, 即

$$\begin{split} {f_{\tilde T}}(\tau ) = &\sum\limits_{i = 1}^N {{\varpi _i}\dfrac{{\mu \sigma _i^2 + \sigma _B^2(\xi - {u_i})}}{{\sqrt {2\pi (\sigma _B^2\tau + \sigma _i^2)_{}^3} }}}\; \times \\ &\exp \left[ { - \dfrac{{{{(\xi - {u_i} - \mu \tau )}^2}}}{{2(\sigma _B^2\tau + \sigma _i^2)}}} \right] \\[-10pt] \end{split} $$

(29)

证明. 与第2.1节中推导过程类似, 可以得到${T_0} = $$ T- \tilde T ,$ 因此首先计算${T_0}$的表达形式. 根据${T_0}$的定义可知, 式(8)等价于

$${T_0} = \sup \{ t:\mu t + {\sigma _B}(t) \leq 0\} $$

(30)

由式(30)可以发现, ${T_0}$的取值与退化初值以及阈值无关, 其分布形式仅取决于退化过程的漂移系数与扩散系数. 因此, ${T_0}$的概率密度函数仍为式(10)所示.

另一方面, 受随机初值的影响, 式(1)可以等价为初值为0的退化过程通过一个随机阈值的首达时间问题, 即

$$\begin{split} \tilde T = &\inf \{ t:X(t) \geq \xi |{x_0} < \xi \}= \\ & \inf \{ t:\mu t + {\sigma _B}(t) \geq \xi - {x_0}\} \\ \end{split} $$

(31)

因此, 根据全概率公式, $\tilde T$ 的概率密度函数${f_{\tilde T}}(\tau )$为

$$\begin{split} {f_{\tilde T}}(\tau ) = &\int_{ - \infty }^{ + \infty } {\dfrac{{\xi - {x_0}}}{{\sqrt {2\pi \sigma _B^2\tau _{}^3} }}\exp \left[ { - \dfrac{{{{(\xi - {x_0} - \mu \tau )}^2}}}{{2\sigma _B^2\tau }}} \right]} \times\\ & \left\{ {\sum\limits_{i = 1}^N {\dfrac{{{\varpi _i}}}{{\sqrt {2\pi \sigma _i^2} }}\exp \left[ { - \dfrac{{{{({x_0} - {\mu _i})}^2}}}{{2\sigma _i^2}}} \right]} } \right\}{\rm{d}}{x_0} \\[-20pt] \end{split} $$

(32)

为便于求解式(32), 根据文献[23]给出如下引理1.

引理 1^[23]. 若$Z\sim {\rm N}(\alpha ,\;{\beta ^2}),\;$ 且$C \in {\mathbb{{\bf{R}}}^ + }, \;$${\omega _1},\;{\omega _2}, $$ \;A, B \in \mathbb{{\bf{R}}},$ 则有

$$\begin{split} {{{\rm{E}}}_Z} &\left[ {\left( {{\omega _1} - AZ} \right){\rm{exp}}\left( { - \dfrac{{{{({\omega _2} - BZ)}^2}}}{{2C}}} \right)} \right] =\\ & \sqrt {\dfrac{C}{{{B^2}{\beta ^2} + C}}} \left( {{\omega _1} - A\dfrac{{B{\omega _2}{\beta ^2} + \alpha C}}{{{B^2}{\beta ^2} + C}}} \right) \times\\ & {\rm{exp}}\left( { - \dfrac{{{{({\omega _2} - B\alpha )}^2}}}{{2{B^2}{\beta ^2} + 2C}}} \right) \end{split} $$

(33)

其中, ${{{\rm{E}}}_Z}\left[ \cdot \right]$表示关于Z的期望.

根据引理1, 便可得到如下结果

$$\begin{split} \int_{ - \infty }^{ + \infty } & {\dfrac{{\xi - {x_0}}}{{\sqrt {2\pi \sigma _B^2\tau _{}^3} }}\exp \left[ { - \dfrac{{{{(\xi - {x_0} - \mu \tau )}^2}}}{{2\sigma _B^2\tau }}} \right]} \times \\ & \left\{ {\dfrac{{{\varpi _i}}}{{\sqrt {2\pi \sigma _i^2} }}\exp \left[ { - \dfrac{{{{({x_0} - {\mu _i})}^2}}}{{2\sigma _i^2}}} \right]} \right\}{\rm{d}}{x_0} = \\ &\dfrac{{\mu \sigma _i^2 + \sigma _B^2(\xi - {u_i})}}{{\sqrt {2\pi (\sigma _B^2\tau + \sigma _i^2)_{}^3} }} \times \exp \left[ { - \dfrac{{{{(\xi - {u_i} - \mu \tau )}^2}}}{{2(\sigma _B^2\tau + \sigma _i^2)}}} \right] \end{split} $$

(34)

进一步, 根据高斯混合模型的性质, $\tilde T$的概率密度函数${f_{\tilde T}}(\tau )$为式(29)所示. □

注 2. 需要注意的是, Wiener退化过程模型的参数估计问题在很多文献中已经得到了广泛研究, 例如文献[9-11], 受篇幅所限本文不再讨论.

3. 数值仿真

3.1 寿命分布

首先根据定理1和定理2中所得结论验证寿命分布的正确性. 为验证定理1, 假设退化过程的漂移系数$\mu $与扩散系数${\sigma _B}$分别为1和2, 阈值$\xi $为5, 退化初值${x_0}$为0, 最大取值范围${T_{\max }} = $500. 那么便可得到寿命分布的PDF如图3所示.

图 3 寿命分布PDF

Fig. 3 PDF of the lifetime distribution

下载: 全尺寸图片幻灯片

从图3中可以发现, 本文所得理论结果与蒙特卡洛得到的仿真结果一致, 说明了本文方法在理论上的正确性. 此外, 与首达时间下的结果进行对比可以发现, 最后逃逸时间下寿命期望和方差都要明显大于首达时间下的结果, 这也和第2.1节中分析结果一致.

图 4 不同T_max取值下寿命分布PDF

Fig. 4 PDF of the lifetime distribution with different T_max

下载: 全尺寸图片幻灯片

若分别令${T_{\max }}$ 为20和50, 得到结果如图4所示. 由图4可见, 若${T_{\max }}$的取值过小, 得到寿命分布在接近${T_{\max }}$的取值部分存在明显的误差. 为了更好地对比${T_{\max }}$的取值对寿命分布的影响, 图5展示了4种${T_{\max }}$下寿命分布PDF. 从图5中可以发现, 当${T_{\max }}$取值较小时, 估计得到寿命分布与式(3)所定义寿命分布之间的误差随着寿命取值的增大而增大, 而${T_{\max }}$的取值越大越接近式(3)中所定义的寿命分布.

图 5 4种T_max取值下寿命分布PDF

Fig. 5 PDF of the lifetime distribution with four different T_max

下载: 全尺寸图片幻灯片

对于定理2的验证, 假设退化过程的漂移系数$\mu $与扩散系数${\sigma _B}$分别为1和2, 阈值$\xi $为5, 最大取值范围${T_{\max }} = $$ 500,$ 退化初值${x_0}$服从期望为${u_1}\;{\rm{ = 1,}} $$ {u_2}\;{\rm{ = 2,}}\;{u_3}\;{\rm{ = 3,}}$ 标准差为${\sigma _1} = 1,\;{\sigma _2} = 1/2, \;{\sigma _3} = 1/3$, 以及权重为${\varpi _1} = 0.2, $$ \; {\varpi _2} = 0.6,\;{\varpi _3} = 0.2$的高斯混合模型. 那么便可得到寿命分布的PDF如图6所示. 从图6中可见, 本文方法能够很好地拟合蒙特卡洛得到的结果, 证明了本文方法理论正确性.

图 6 随机效应影响下寿命分布PDF

Fig. 6 PDF of the lifetime distribution with random effects

下载: 全尺寸图片幻灯片

3.2 敏感度分析

实际上, 退化过程的参数不同, 也会导致得到的寿命分布存在较大差异性. 为更好地体现模型参数对寿命分布的影响, 进一步分析模型参数的敏感性. 假设退化过程模型如式(7)所示, 模型参数漂移系数$\mu $与扩散系数${\sigma _B}$分别为1和2, 阈值$\xi $为5, 退化初值${x_0}$为0, 最大取值范围${T_{\max }} = $500.

首先, 改变漂移系数$\mu $的取值, 并得到了不同取值下寿命分布PDF如图7所示. 在图7中, 柱状图表示通过蒙特卡洛数值仿真得到的寿命分布, 实线和虚线分别表示最后逃逸时间下和首达时间下的寿命分布PDF. 从图7中可以发现, $\mu $取值越大, 寿命分布的期望和方差越小, 并且越接近首达时间下寿命分布.

图 7 不同μ取值下寿命分布PDF

Fig. 7 PDF of the lifetime distribution with different μ

下载: 全尺寸图片幻灯片

类似地, 图8显示了不同扩散系数${\sigma _B}$取值下寿命分布的PDF. 从图8中可以发现, ${\sigma _B}$的取值越小, 越接近首达时间下的结果.

图 8 不同${\sigma _B}$取值下寿命分布PDF

Fig. 8 PDF of the lifetime distribution with different ${\sigma _B}$

下载: 全尺寸图片幻灯片

由此可见, 漂移系数$\mu$与扩散系数${\sigma _B}$的比值越大, 最后逃逸时间下的寿命分布PDF越接近首达时间下的结果; 反之, 则偏差越大. 需要注意的是, 漂移系数$\mu$与扩散系数${\sigma _B}$的比值反映了退化过程的动态特性与波动性. 也就是说, 退化过程的动态特征和波动性越强, 最后逃逸时间下寿命结果与首达时间下的结果差异越大. 实际上, 退化过程的动态特征和波动性越强, 退化过程越容易在早期超过给定阈值, 在这种情况下, 若仍采用首达时间来定义寿命或剩余寿命, 很可能导致预测得到的寿命远小于实际寿命.

4. 实例验证

本节将通过滚动轴承与激光器的两组实际退化数据, 分别说明本文方法在数据波动较大与较小两种情况下的有效性. 需要注意的是, 由第2节可知, 本文仅考虑了线性Wiener退化过程模型的寿命预测问题. 因此, 在本节中主要将本文所得到结果与首达时间下基于线性Wiener过程模型的寿命预测结果(见文献[9, 24-25])进行对比.

4.1 滚动轴承实例

滚动轴承是一种典型的退化元件, 其广泛应用于武器装备、航空航天、生产制造等关键系统的旋转机械设备中. 研究表明滚动轴承的退化失效是引起旋转机械发生故障的重要原因^[26]. 通常采用其振动信号的最大振幅或均方根来反映滚动轴承的健康性能状态. 因此, 本文采用轴承最大振幅数据来描述其退化状态.

本文采用西安交通大学雷亚国教授^{[15, 20]}课题组的轴承全寿命周期数据对本文方法进行验证. 由第2节可知, 受算法复杂性和计算复杂度所限, 本文仅考虑了线性退化模型的寿命与剩余寿命分布求解问题. 因此, 本文仅对具有线性特征的退化数据进行分析, 3_5轴承的最大振幅退化轨迹如图9所示. 从图9中可以发现, 该退化过程具有较为明显的线性趋势, 且该数据具有较强的动态随机特性. 为更好地进行对比实验, 本文采用经验模态分解算法(Empirical mode decomposition, EMD)对该轴承数据进行滤波处理, 图9中虚线即为滤波后的轴承退化数据, 可以发现滤波后的数据更加平稳, 也更具有线性特征.

图 9 轴承退化轨迹

Fig. 9 Degradation path of a bearing

下载: 全尺寸图片幻灯片

根据线性Wiener过程模型的特性, 采用极大似然估计算法即可得到退化模型的参数估计值. 接下来, 根据文献[20]中轴承失效定义方式, 给定失效阈值为$\xi = 20$g, 采用第2.1节中所得到的结论便可计算出首达时间和最后逃逸时间下剩余寿命分布PDF. 基于原始退化数据和滤波后数据的预测结果分别如图10 (a)和图10 (b)所示.

图 10 不同测试时间处剩余寿命分布PDF

Fig. 10 PDF of the RUL distribution at different testing time

下载: 全尺寸图片幻灯片

从图10 (a)中可以发现, 首达时间下的剩余寿命分布PDF与最后逃逸时间下的剩余寿命分布PDF存在明显差异. 由图10 (a)估计当退化时间接近35 min时, 退化过程能够达到给定阈值, 说明首达时间下的剩余寿命已经接近为0 min, 这远远小于真实寿命114 min. 图10 (b)则反映了滤波后的剩余寿命预测结果, 可以发现通过滤波的方法可以降低数据的波动性(如图9所示), 使得计算得到的首达时间下结果与最后逃逸时间下结果几乎一致.

为更好地对比, 图11给出了两种不同定义方式下剩余寿命期望的对比. 在图11中, 分别给出了实验室获取的真实寿命以及基于原始数据、滤波数据下根据两种不同寿命定义方式计算得到的剩余寿命预测值. 从图11中可以发现, 首达时间下的寿命预测值为35 min, 与真实寿命相差79 min, 而基于最后逃逸时间计算得到的寿命为97 min, 更加接近全寿命周期实验中得到的实际寿命. 相比之下, 通过滤波后数据得到的结果, 仍然远远偏离真实剩余寿命, 并不能有效改善剩余寿命预测的准确度.

图 11 不同测试时间处剩余寿命期望

Fig. 11 Means of the RUL at different testing time

下载: 全尺寸图片幻灯片

通过以上对比可以发现, 当退化的随机性和波动性比较强, 退化过程很容易在退化的初始阶段就超过阈值, 若仍采用首达时间来定义寿命与剩余寿命, 则可能会导致设备提前终止运行或过早维护, 引起不必要的浪费. 与之相反, 基于最后逃逸时间的定义, 可以克服这一局限性, 具有较好的鲁棒性与适应性. 另外, 通过与滤波后结果对比可以发现, 虽然采用滤波、平滑等方法可以减小数据的随机性与波动性, 但并未有效改善剩余寿命预测结果; 此外, 通过滤波、平滑等方法也可能会消除退化以及数据本身的随机性与不确定性, 可能会导致预测结果出现偏差.

需要注意的是, 由于其他几组轴承数据具有较强非线性而不适用于线性Wiener过程模型, 因此未采用第2.1节中所提方法进行分析. 但是从表1中可以看出, 其他几组轴承数据首达时间下寿命明显短于实际寿命, 相比之下, 最后逃逸时间下寿命更加接近真实值.

4.2 激光器实例

注意到, 轴承退化数据的波动性与随机性较强, 导致两种定义下剩余寿命预测结果存在较大差异. 接下来, 本文以激光器的公开退化数据说明当退化过程随机性与数据波动性较小时, 两种定义方式的剩余寿命预测情况.

图12描述了文献[27]中15组激光器的退化轨迹, 其中虚线为给定的失效阈值. 本节中采用第8组数据予以说明, 其退化轨迹如图13所示. 类似地, 根据极大似然估计得到, 退化模型的参数为$\hat \mu = $0.0015以及${\hat \sigma _B} = $0.0068. 给定失效阈值$\xi = $ 6, 那么可以得到剩余寿命预测结果如图14所示.

图 12 激光器的退化轨迹

Fig. 12 Degradation paths of the laser device

下载: 全尺寸图片幻灯片

图 13 第8组激光器退化轨迹

Fig. 13 Degradation path of the 8th laser device

下载: 全尺寸图片幻灯片

图 14 不同测试时间处剩余寿命分布PDF

Fig. 14 PDF of the RUL distribution at different testing times

下载: 全尺寸图片幻灯片

从图14中可以发现, 两种定义下的剩余寿命分布PDF非常接近, 这说明两种定义下的剩余寿命预测结果几乎没有差别. 也就是说, 当数据的波动性较小时, 两种定义下的寿命及剩余寿命没有太大差别. 如图15所示, ${T_0}$的期望和标准差分别为20 h和29 h. 而$\tilde T$的期望和标准差分别为4000 h和286 h, 因此${T_0}$相对较小, 由式(9)可知, $T \approx \tilde T.$

图 15 T₀概率密度函数

Fig. 15 Probability density function of T₀

下载: 全尺寸图片幻灯片

综上所述, 从两个实际案例中可以发现, 相比于首达时间下寿命及剩余寿命的定义, 最后逃逸时间的定义方式具有更好的鲁棒性. 当退化过程具有较强动态随机特性时, 能够避免由于退化值偶然超过阈值而低估和误算其实际寿命; 当退化过程动态随机性较弱时, 也能得到与首达时间下几乎一样的结果. 这说明采用最后逃逸时间来描述随机退化设备的寿命具有可行性与有效性, 存在潜在的工程应用价值.

5. 结论

本文针对随机退化设备的寿命预测问题中, 传统首达时间下的寿命与剩余寿命预测结果存在较为保守的缺陷, 基于最后逃逸时间提出了一种新的寿命与剩余寿命定义框架. 在这个新框架下, 给出了基于线性Wiener过程模型的寿命与剩余寿命分布解析表示, 并进一步扩展至随机效应影响下的退化模型. 最后分别通过数值仿真与工程实例证实了本文所提理论的正确性与有效性, 说明了采用最后逃逸时间来定义寿命或剩余寿命具有一定的可行性. 通过对比可以发现, 相比于传统基于首达时间下的寿命预测方法, 基于最后逃逸时间的寿命预测方法具有更好的鲁棒性. 但本文方法仍有一些问题值得进一步研究.

1) 本文仅给出了线性Wiener过程模型下的寿命与剩余寿命预测结果, 但迄今为止国内外学者已提出了很多新的退化模型, 例如非线性Wiener过程模型等. 这些模型更具一般性与普适性, 有待进一步研究其最后逃逸时间下寿命分布推导方法.

2) 相比于首达时间定义的‘‘保守”, 最后逃逸时间较为‘‘激进”, 对于一些高可靠性要求的关键设备, 容易导致预测结果大于真实寿命, 如何在首达时间‘‘保守”与最后逃逸时间‘‘激进”中选取一个‘‘折中”的方案是一个值得研究的问题.

3) 迄今为止, 首达时间和最后逃逸时间主要用于基于随机退化过程建模的剩余寿命预测方法中, 目前基于机器学习的寿命预测方法考虑相对较少, 有待进一步研究.

4) 由于退化随机性的影响, 当退化过程离开阈值时, 无法立刻判定该退化过程之后是否能再次返回阈值之下, 这会导致计算得到的最后逃逸时间与真实逃逸时间存在一定的滞后.

5) 由式(9)与前面分析可知, 最后逃逸时间下的寿命分布方差大于传统首达时间下的结果, 这会给维护决策带来一定的挑战, 如何减小预测结果的方差也是一个值得研究的问题.

本文责任编委张敏灵

图 1 基于嵌入方法的两种模型图

Fig. 1 Illustration of models based on embedding method

下载: 全尺寸图片幻灯片

图 2 Deep AE-MF算法模型图

Fig. 2 The model of algorithm deep AE-MF

下载: 全尺寸图片幻灯片

图 3 $\alpha$的不同取值对数据集TJ和enron使用不同度量方式的性能体现

Fig. 3 The performance of Deep AE-MF on data sets TJ and Enronis with respect to different values of $\alpha$ and different metrics

下载: 全尺寸图片幻灯片

图 4 $s/K$的不同取值对数据集EURLex-4K和enron使用不同度量方式的性能体现

Fig. 4 The performance of Deep AE-MF on data sets EURLex-4K and enron with respect to different values of $s/K$ and different metrics

下载: 全尺寸图片幻灯片

表 1 多标签数据集相关统计

Table 1 Multi-label datasets and associate statistics

数据集	标签数	实例数	特征数	标记密度	平均标记数
enron	53	1 702	8 000	0.0637	3.378
ohsumed	23	13 928	8 000	0.0720	1.663
movieLens	20	10 076	8 000	0.1020	2.043
TJ	9	5 892	8 000	0.2001	1.801
Delicious	983	16 105	500	0.0193	19.03
EURLex-4K	3 993	19 438	5 000	0.0013	5.31

下载: 导出CSV

表 2 多标签数据集字符数量统计

Table 2 The number of characters in a multi-label dataset

数据集	含有不同字符数的样本比例
数据集	50以内	50~100	100~200	200~400	400~800	800以上
enron	0.437133	0.287309	0.165100	0.052291	0.014101	0.0440658
ohsumed	0.591008	0.325526	0.082473	0.000992	0	0
movieLens	0.427197	0.558372	0.014431	0	0	0
TJ	0.134589	0.354888	0.339613	0.159708	0.011202	0

下载: 导出CSV

表 3 基于hamming loss的性能比较

Table 3 The hamming loss of ten multi-label algorithms with respect to different data sets

算法/数据集	enron	ohsumed	movieLens	TJ	Delicious	EURLex-4K
BR	0.0771	0.1484	0.1992	0.2923	0.0185	0.0032
CCA-SVM	0.1593	0.2148	0.3116	0.3764	-	-
CCA-Ridge	0.1549	0.2140	0.3045	0.3268	-	-
LS_ML	0.1000	0.2119	0.2474	0.2842	-	-
PLST	0.0843	0.1510	0.2186	0.2906	0.0183	0.0037
CPLST	0.0841	0.1512	0.2186	0.2906	0.0182	0.0038
FaIE	0.0841	0.1505	0.2188	0.2882	0.0183	0.0038
ML_CSSP	0.0836	0.1479	0.2075	0.2804	0.0181	0.0036
Deep AE-MF	0.0518	0.1693	0.1416	0.1891	0.0310	0.0013
Deep AE-MF+neg	0.0509	0.1630	0.1445	0.1869	0.0279	0.0012

下载: 导出CSV

表 4 基于Micro-F1-label的性能比较

Table 4 The Micro-F1-label of ten multi-label algorithms with respect to different data sets

算法/数据集	enron	ohsumed	movieLens	TJ	Delicious	EURLex-4K
BR	0.3451	0.1137	0.3308	0.4281	0.1370	0.1294
CCA-SVM	0.2622	0.1528	0.3058	0.4355	-	-
CCA-Ridge	0.2744	0.1509	0.3074	0.4344	-	-
LS_ML	0.3417	0.1531	0.3633	0.4931	-	-
PLST	0.3638	0.1589	0.3639	0.4781	0.1911	0.1540
CPLST	0.3643	0.1577	0.3642	0.4787	0.1911	0.1534
FaIE	0.3643	0.1593	0.3607	0.4839	0.1911	0.1539
ML_CSSP	0.3606	0.1543	0.3532	0.4850	0.1860	0.1534
Deep AE-MF	0.5475	0.1642	0.3968	0.5421	0.2757	0.4913
Deep AE-MF+neg	0.5531	0.1962	0.4122	0.5632	0.2775	0.4936

下载: 导出CSV

表 5 基于Macro-F1-label的性能比较

Table 5 The Macro-F1-label of ten multi-label algorithms with respect to different data sets

算法/数据集	enron	ohsumed	movieLens	TJ	Delicious	EURLex-4K
BR	0.0923	0.0656	0.2066	0.4146	0.0338	0.0371
CCA-SVM	0.1045	0.1150	0.2572	0.4282	-	-
CCA-Ridge	0.1019	0.1134	0.2556	0.4488	-	-
LS_ML	0.1158	0.1141	0.2971	0.4832	-	-
PLST	0.1149	0.0884	0.2742	0.4717	0.0460	0.0507
CPLST	0.1149	0.0863	0.2744	0.4725	0.0462	0.0514
FaIE	0.1147	0.0863	0.2609	0.4647	0.0461	0.0506
ML_CSSP	0.1147	0.0793	0.2375	0.4580	0.0437	0.0492
Deep AE-MF	0.1356	0.0960	0.3394	0.5440	0.1316	0.1477
Deep AE-MF+neg	0.1384	0.1011	0.3455	0.5629	0.1324	0.1483

下载: 导出CSV

表 6 基于F1的性能比较

Table 6 The F1 of ten multi-label algorithms with respect to different data sets

算法/数据集	enron	ohsumed	movieLens	TJ	Delicious	EURLex-4K
BR	0.2885	0.1046	0.2705	0.4482	0.1280	0.2061
CCA-SVM	0.2758	0.1354	0.2982	0.4191	-	-
CCA-Ridge	0.2937	0.1344	0.2983	0.4360	-	-
LS_ML	0.3510	0.1352	0.3523	0.4821	-	-
PLST	0.4029	0.1343	0.3158	0.4753	0.1650	0.2502
CPLST	0.4036	0.1330	0.3164	0.4758	0.1651	0.2503
FaIE	0.4000	0.1327	0.3171	0.4738	0.1650	0.2502
ML_CSSP	0.3814	0.1318	0.2854	0.4799	0.1632	0.2419
Deep AE-MF	0.4491	0.1489	0.3307	0.4677	0.2138	0.4291
Deep AE-MF+neg	0.4582	0.1491	0.3381	0.5013	0.2310	0.4365

下载: 导出CSV

表 7 基于P@K的性能比较

Table 7 The P@K of six multi-label algorithms with respect to different data sets

数据集	EURLex-4K					Delicious
度量准则/算法	LEML	PD-sparse	Deep AE-MF	Deep AE-MF+neg	LEML	PD-sparse	Deep AE-MF	Deep AE-MF+neg
P@1	0.6340	0.7643	0.8078	0.8104	0.6567	0.5182	0.6633	0.6754
P@3	0.5035	0.6037	0.6821	0.6893	0.6055	0.4418	0.6095	0.6123
P@5	0.4128	0.4972	0.5764	0.5805	0.5608	0.5656	0.5764	0.5834

下载: 导出CSV

表 8 Student$'$s t test结果$P$值(加粗表示$P$值大于0.05)

Table 8 $P$ value of Student$'$s t test results (Bold indicates that $P$ value is greater than 0.05)

		enron	ohsumed	movieLens	TJ	Delicious	EURLex-4K
Deep AE-MF	hamming loss
	BR	1.87E-5	1.02E-3	7.03E-6	2.94E-7	1.32E-5	9.64E-3
	LS_ML	2.93E-5	1.27E-4	5.92E-7	3.28E-7	-	-
	CCA-SVM	3.38E-8	2.04E-6	4.47E-7	4.55E-10	-	-
	CCA-Ridge	5.34E-9	6.01E-6	2.33E-7	3.97E-7	-	-
	PLST	2.41E-8	2.91E-3	8.36E-12	3.04E-9	8.04E-6	4.67E-4
	CPLST	2.43E-8	3.04E-3	2.05E-5	1.32E-9	5.01E-6	9.75E-4
	FaIE	3.62E-9	5.83E-4	1.25E-11	3.09E-9	1.61E-5	5.38E-4
	ML_CSSP	9.35E-8	8.36E-2	8.18E-7	7.93E-10	3.08E-6	4.29E-3
	Deep AE-MF+neg	1.90E-5	7.39E-4	3.89E-7	2.73E-4	3.21E-3	1.09E-1
Deep AE-MF	Macro-F1-label
	BR	4.85E-10	3.01E-6	1.73E-7	3.61E-7	2.63E-9	3.12E-9
	LS_ML	4.03E-10	1.25E-1	3.26E-7	4.11E-8	-	-
	CCA-SVM	3.19E-8	5.48E-2	3.21E-7	3.37E-9	-	-
	CCA-Ridge	6.06E-11	4.84E-4	1.51E-5	3.01E-6	-	-
	PLST	1.51E-9	2.23E-3	1.93E-5	6.64E-7	4.38E-8	4.13E-12
	CPLST	1.42E-9	5.19E-3	5.21E-5	1.03E-6	8.21E-9	1.62E-11
	FaIE	1.72E-10	3.99E-2	1.83E-5	5.11E-7	2.26E-7	1.45E-10
	ML_CSSP	1.64E-10	4.12E-4	4.03E-6	3.03E-7	6.63E-9	8.11E-11
	Deep AE-MF+neg	1.61E-5	5.51E-7	8.11E-2	3.09E-7	1.18E-3	2.34E-4
Deep AE-MF	Micro-F1-label
	BR	1.62E-8	2.82E-5	2.34E-8	5.07E-11	1.35E-8	9.95E-9
	LS_ML	3.90E-7	1.54E-4	2.75E-7	1.31E-10	-	-
	CCA-SVM	2.74E-7	5.75E-4	4.25E-9	6.72E-9	-	-
	CCA-Ridge	2.70E-7	1.84E-4	4.85E-8	1.06E-10	-	-
	PLST	5.01E-6	8.47E-3	9.98E-9	2.71E-10	5.21E-8	1.02E-9
	CPLST	7.08E-6	6.36E-3	4.18E-9	4.14E-11	5.08E-8	1.73E-12
	FaIE	1.40E-5	5.86E-3	1.61E-9	1.08E-10	5.35E-9	4.44E-10
	ML_CSSP	6.03E-5	3.01E-4	2.84E-9	6.08E-12	5.86E-7	2.21E-9
	Deep AE-MF+neg	1.2E-2	3.31E-3	8.03E-5	3.45E-8	4.21E-4	2.21E-3

下载: 导出CSV

参考文献(45)

[1]	Gong Y C, Ke Q F, Isard M, Lazebnik S. A multi-view embedding space for modeling internet images, tags, and their semantics. International Journal of Computer Vision, 2014, 106 (2):210-233 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=04fd939c81a601681d8a34f3be315ec8
[2]	Cambria E. Affective computing and sentiment analysis. IEEE Intelligent Systems, 2016, 31 (2):102-107 http://www.springer.com/978-94-007-1756-5
[3]	张晨光, 张燕, 张夏欢.最大规范化依赖性多标记半监督学习方法.自动化学报, 2015, 41 (9):1577-1588 http://www.aas.net.cn/CN/abstract/abstract18732.shtml Zhang Chen-Guang, Zhang Yan, Zhang Xia-Huan. Normalized dependence maximization multi-label semi-supervised learning method. Acta Automatica Sinica, 2015, 41 (9):1577-1588 http://www.aas.net.cn/CN/abstract/abstract18732.shtml
[4]	Poria S, Cambria E, Bajpai R, Hussain A. A review of affective computing:from unimodal analysis to multimodal fusion. Information Fusion, 2017, 37 :98-125 doi: 10.1016/j.inffus.2017.02.003
[5]	Boutell M R, Luo J B, Shen X P, Brown C M. Learning multi-label scene classification. Pattern Recognition, 2004, 37 (9):1757-1771 doi: 10.1016/j.patcog.2004.03.009
[6]	Wu Q, Ye Y, Ho S S, Zhou S. Semi-supervised multi-label collective classification ensemble for functional genomics. BMC Genomics, 2014, 15 (S9):S17 doi: 10.1186/1471-2164-15-S9-S17
[7]	Kazawa H, Izumitani T, Taira H, Maeda E. Maximal margin labeling for multi-topic text categorization. In: Proceedings of the 2005 Advances in Neural Information Processing Systems. Vancouver, Canada: The MIT Press, 2005. 649-656
[8]	Hüllermeier E, Fürnkranz J, Cheng W W, Brinker K. Label ranking by learning pairwise preferences. Artificial Intelligence, 2008, 172 (16-17):1897-1916 doi: 10.1016/j.artint.2008.08.002
[9]	Zaragoza J H, Sucar L E, Morales E F, Bielza C, Larrañaga P. Bayesian chain classifiers for multidimensional classification. In: Proceedings of the 22nd International Joint Conference on Artificial Intelligence. Barcelona, Brazil, 2011. 2192-2197
[10]	Elisseeff A, Weston J. A kernel method for multi-labelled classification. In: Proceedings of the 2002 Advances in Neural Information Processing Systems. Cambridge: MIT, 2002. 681-687
[11]	Xu J H. An extended one-versus-rest support vector machine for multi-label classification. Neurocomputing, 2011, 74 (17):3114-3124 doi: 10.1016/j.neucom.2011.04.024
[12]	张敏灵.一种新型多标记懒惰学习算法.计算机研究与发展, 2012, 49(11):2271-2282 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=jsjyjyfz201211001 Zhang Min-Ling. An improved multi-label lazy learning approach. Journal of Computer Research and Development, 2012, 49 (11):2271-2282 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=jsjyjyfz201211001
[13]	Zhang M L, Peña J M, Robles V. Feature selection for multi-label naive Bayes classification. Information Sciences, 2009, 179 (19):3218-3229 doi: 10.1016/j.ins.2009.06.010
[14]	Guo Y, Wu Q Y, Deng C R, Chen J, Tan M K. Double forward propagation for memorized batch normalization. In: Proceedings of the 32nd AAAI Conference on Artiflcial Intelligence. New Orleans, USA: AAAI Press, 2018.
[15]	Li L, Wang H F. Towards label imbalance in multi-label classification with many labels[Online], available: https://arxiv.org/abs/1604.01304, May 24, 2018.
[16]	Wu Q Y, Ye Y M, Zhang H J, Chow T W S, Ho S S. ML-TREE:a tree-structure-based approach to multilabel learning. IEEE Transactions on Neural Networks and Learning Systems, 2015, 26 (3):430-443 doi: 10.1109/TNNLS.2014.2315296
[17]	Wu Q Y, Tan M K, Song H J, Chen J, Ng M K. ML-FOREST:a multi-label tree ensemble method for multi-label classification. IEEE Transactions on Knowledge and Data Engineering, 2016, 28 (10):2665-2680 doi: 10.1109/TKDE.2016.2581161
[18]	Kapoor A, Jain P, Viswanathan R. Multilabel classification using Bayesian compressed sensing. In: Proceedings of the 2012 Advances in Neural Information Processing Systems. Lake Tahoe, Nevada, USA: NIPS, 2012. 2645-2653
[19]	Park C H, Lee M. On applying linear discriminant analysis for multi-labeled problems. Pattern Recognition Letters, 2008, 29 (7):878-887 doi: 10.1016/j.patrec.2008.01.003
[20]	Ji S W, Tang L, Yu S P, Ye J P. Extracting shared subspace for multi-label classification. In: Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Las Vegas, USA: ACM, 2008. 381-389
[21]	Yu S P, Yu K, Tresp V, Kriegel H P. Multi-output regularized feature projection. IEEE Transactions on Knowledge and Data Engineering, 2006, 18 (12):1600-1613 doi: 10.1109/TKDE.2006.194
[22]	Wang J, Yang Y, Mao J H, Huang Z H, Huang C, Xu W. CNN-RNN: a unified framework for multi-label image classification. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016. 2285-2294
[23]	Nam J, Kim J, Mencía E L, Gurevych I, Fürnkranz J. Large-scale multi-label text classification-revisiting neural networks. In: Proceedings of the 2014 Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Berlin, Heidelberg, Germany: Springer, 2014. 437-452
[24]	Hsu D, Kakade S M, Langford J, Zhang T. Multi-label prediction via compressed sensing. In: Proceedings of the 2009 Advances in Neural Information Processing Systems. Vancouver, Canada: MIT Press, 2009. 772-780
[25]	Tai F, Lin H T. Multilabel classification with principal label space transformation. Neural Computation, 2012, 24 (9):2508-2542 doi: 10.1162/NECO_a_00320
[26]	Chen Y N, Lin H T. Feature-aware label space dimension reduction for multi-label classification. In: Proceedings of the 2012 Advances in Neural Information Processing Systems. Lake Tahoe, Nevada, US: NIPS, 2012. 1529-1537
[27]	Lin Z J, Ding G G, Hu M Q, Wang J M. Multi-label classification via feature-aware implicit label space encoding. In: Proceedings of the 31st International Conference on Machine Learning. Beijing, China, 2014. 325-333
[28]	Yu H F, Jain P, Kar P, Dhillon I. Large-scale multi-label learning with missing labels. In: Proceedings of the 31st International Conference on Machine Learning. Beijing, China: ACM, 2014. 593-601
[29]	Tsoumakas G, Katakis I. Multi-label classification:an overview. International Journal of Data Warehousing and Mining, 2007, 3 (3):1-13
[30]	付忠良.多标签代价敏感分类集成学习算法.自动化学报, 2014, 40(6):1075-1085 http://www.aas.net.cn/CN/abstract/abstract18377.shtml Fu Zhong-Liang. Cost-sensitive ensemble learning algorithm for multi-label classification problems. Acta Automatica Sinica, 2014, 40 (6):1075-1085 http://www.aas.net.cn/CN/abstract/abstract18377.shtml
[31]	Abdi H, Williams L J. Principal component analysis. Wiley Interdisciplinary Reviews:Computational Statistics, 2010, 2 (4):433-459 doi: 10.1002/wics.101
[32]	Pudil P, Somol P, Haindl M. Introduction to Statistical Pattern Recognition (Second Edition). San Diego:Academic Press, 1990. 441-507
[33]	Roweis S T, Saul L K. Nonlinear dimensionality reduction by locally linear embedding. Science, 2000, 290 (5500):2323-2326 doi: 10.1126/science.290.5500.2323
[34]	Tsoumakas G, Katakis I, Vlahavas I. Effective and efficient multilabel classification in domains with large number of labels. In: Proceedings of the 2008 ECML/PKDD Workshop on Mining Multidimensional Data. Antwerp, Belgium: Springer, 2008. 53-59
[35]	Tsoumakas G, Vlahavas I. Random k-labelsets: an ensemble method for multilabel classification. In: Proceedings of the 2008 European Conference on Machine Learning. Berlin, Heidelberg, Germany: Springer, 2007. 406-417
[36]	唐朝辉, 朱清新, 洪朝群, 祝峰.基于自编码器及超图学习的多标签特征提取.自动化学报, 2016, 42(7):1014-1021 http://www.aas.net.cn/CN/abstract/abstract18892.shtml Tang Chao-Hui, Zhu Qing-Xin, Hong Chao-Qun, Zhu William. Multi-label feature selection with autoencoders and hypergraph learning. Acta Automatica Sinica, 2016, 42 (7):1014-1021 http://www.aas.net.cn/CN/abstract/abstract18892.shtml
[37]	Zhang Y, Schneider J. Multi-label output codes using canonical correlation analysis. In: Proceedings of the 14th International Conference on Artificial Intelligence and Statistics. Ft. Lauderdale, USA: JMLR, 2011. 873-882
[38]	Wang W R, Arora R, Livescu K, Bilmes J. On deep multi-view representation learning. In: Proceedings of the 32nd International Conference on Machine Learning. Lille, France: Omni Press, 2015. 1083-1092
[39]	Schapire R E, Singer Y. BoosTexter:a boosting-based system for text categorization. Machine Learning, 2000, 39 (2-3):135-168 http://d.old.wanfangdata.com.cn/NSTLQK/NSTL_QKJJ021532080/
[40]	Yang Y M. An evaluation of statistical approaches to text categorization. Information Retrieval, 1999, 1 (1-2):69-90 doi: 10.1023/A%3A1009982220290
[41]	Godbole S, Sarawagi S. Discriminative methods for multi-labeled classification. In: Proceedings of the 2004 Pacific-Asia Conference on Knowledge Discovery and Data Mining. Berlin, Heidelberg, Germany: Springer, 2004. 22-30
[42]	Yen I E H, Huang X R, Ravikumar P, Zhong K, Dhillon I. PD-Sparse: a primal and dual sparse approach to extreme multiclass and multilabel classification. In: Proceedings of the 2016 International Conference on Machine Learning. NY, USA: ACM, 2016. 3069-3077
[43]	Bhatia K, Jain H, Kar P, Varma M, Jain P. Sparse local embeddings for extreme multi-label classification. In: Proceedings of the 2015 Advances in Neural Information Processing Systems. Montreal, Canada: Cornell University Library, 2015. 730-738
[44]	Bi W, Kwok J. Efficient multi-label classification with many labels. In: Proceedings of the 2013 International Conference on Machine Learning. Atlanta, GA, USA: ACM, 2013. 405-413
[45]	Demšar J. Statistical comparisons of classifiers over multiple data sets. The Journal of Machine Learning Research, 2006, 7 :1-30 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=8d2ca9dbb44bf0def88798c7dffbf6f4

施引文献

期刊类型引用(4)

1.	乔宏霞，杜杭威，李元可，杨安. 氯氧镁水泥混凝土中涂层钢筋的锈蚀劣化模型研究. 建筑结构. 2024(03): 65-70 . 百度学术
2.	康守强，邢颖怡，王玉静，王庆岩，谢金宝，MIKULOVICH Vladimir Ivanovich. 基于无监督深度模型迁移的滚动轴承寿命预测方法. 自动化学报. 2023(12): 2627-2638 . 本站查看
3.	严帅，熊新. 基于KPCA和TCN-Attention的滚动轴承退化趋势预测. 电子测量技术. 2022(15): 28-34 . 百度学术
4.	张伟涛，纪晓凡，黄菊，楼顺天. 航发轴承复合故障诊断的循环维纳滤波方法. 西安电子科技大学学报. 2022(06): 139-151 . 百度学术

其他类型引用(12)

资源附件(0)

访问统计

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

联合嵌入式多标签分类算法

doi: 10.16383/j.aas.c180087

通讯作者: 刘慧婷 安徽大学副教授, 博士.主要研究方向为机器学习, 数据挖掘.本文通信作者.E-mail:htliu@ahu.edu.cn

计量

出版历程

A Joint Embedded Multi-label Classification Algorithm

Corresponding author: LIU Hui-Ting Ph.D., associate professor at Anhui University. Her research interest covers machine learning and data mining. Corresponding author of this paper

1. 问题描述

1.1 首达时间与最后逃逸时间

1.2 问题来源

1.3 模型描述

2. 寿命分布与剩余寿命分布推导

2.1 基于最后逃逸时间的寿命分布推导

2.2 基于最后逃逸时间的剩余寿命分布推导

2.3 考虑随机效应影响下的寿命分布推导

3. 数值仿真

3.1 寿命分布

3.2 敏感度分析

4. 实例验证

4.1 滚动轴承实例

4.2 激光器实例

5. 结论

期刊类型引用(4)

其他类型引用(12)

计量

出版历程

目录

1. 问题描述

1.1 首达时间与最后逃逸时间

1.2 问题来源

1.3 模型描述

2. 寿命分布与剩余寿命分布推导

2.1 基于最后逃逸时间的寿命分布推导

2.2 基于最后逃逸时间的剩余寿命分布推导

2.3 考虑随机效应影响下的寿命分布推导

3. 数值仿真

3.1 寿命分布

3.2 敏感度分析

4. 实例验证

4.1 滚动轴承实例

4.2 激光器实例

5. 结论

通讯作者:
刘慧婷安徽大学副教授, 博士.主要研究方向为机器学习, 数据挖掘.本文通信作者.E-mail:htliu@ahu.edu.cn