-
摘要: 针对混合属性数据集聚类精度低的问题,本文提出一种基于改进距离度量的半监督模糊均值聚类(Fuzzy C-means,FCM)算法.首先,在数据集中针对类别属性进行预处理,并设置相应的相异度阈值;将传统聚类距离度量与改进的Jaccard距离度量结合,确定混合属性数据集的距离度量函数;最后,将所得距离度量函数与传统半监督FCM算法相结合,并在滚动轴承的不同复合故障数据的特征集中进行聚类.实验表明,该算法能在含无序属性的混合属性数据集的聚类中取得更好的聚类效果.Abstract: This paper puts forward a semi-supervised fuzzy C-means (FCM) algorithm based on an improved distance measure to solve the problem of low accuracy of clustering algorithm of data sets with mixed attributes. First, the classification attributes are preprocessed in the data set, and the corresponding dissimilarity threshold is set. Then the traditional clustering distance measure is combined with the improved Jaccard distance measure to determine the distance measure function. Finally, the distance measure function is combined with the traditional semi-supervised FCM algorithm, and clustering is carried out on the characteristic data sets of different coupling fault data of rolling bearings. Simulation results show that the algorithm can achieve better clustering accuracy in mixed data sets.
-
Key words:
- Mixed attributes /
- dissimilarity threshold /
- fuzzy C-means (FCM) /
- Jaccard
-
聚类过程主要包括数据准备、特征选取与提取、相似度计算、聚类与评估等步骤, 经典的聚类算法包含K-means、K-modes、模糊均值聚类(Fuzzy C-means, FCM)算法、DBSCAN等.目前仍有关于经典聚类算法的衍生算法的研究, 文献[1]以近邻反射传播聚类算法为基础, 提出一种基于同类约束的半监督近邻反射传播聚类方法.文献[2]提出K-近邻估计协同系数的协同模糊C均值算法.然而, 这些聚类算法的距离度量函数是仅针对单属性的数据集的距离运算.
随着互联网和物联网的快速发展和广泛应用, 各种数据的数量呈现指数式增长, 可获取的数据属性也呈现出多样化.许多学者开始致力于混合属性数据集聚类的相关研究. Huang [3]提出一种适用于混合属性数据聚类的K-prototypes算法, 对于分类属性部分, 该算法采用匹配差异度来描述数据点之间相异度.近年来, 陈晋音等[4]提出一种面向混合属性数据的增量式聚类算法.根据混合属性数据特征, 将特征向量集分为数值占优、分类占优和均衡型三类.文献[5]对不同情况的特征选取相应的距离度量方式进行分析, 通过预设参数, 发现数据密集区域, 确定核心点, 进而利用核心点确定密度相连的对象实现聚类.文献[6]提出一种基于密度的聚类中心自动确定的混合属性数据聚类算法.以上文献在处理混合属性数据的聚类时, 并未考虑无序属性数据的聚类问题.
文献[7]将混合属性数据分为有序属性和无序属性两个部分, 并构造出双重近邻无向图, 但未对混合属性数据聚类时距离度量做深入研究.文献[8]针对不同维度的向量间的无序属性向量集的距离度量展开研究.文献[9]针对机械系统故障诊断中对先验知识利用不足和在高维特征空间中诊断难的问题, 提出一种基于成对约束和通过约束准则构造核函数的半监督谱核聚类方法.本文基于文献[7-9]提出一种改进的半监督FCM算法, 首先对混合数据集的构成进行占优分析, 确定占优因子$\alpha$, 对Jaccard距离做阈值改进, 并将所获改进Jaccard距离作为无序属性距离度量函数, 进而将所得混合属性距离度量函数应用于半监督FCM聚类算法, 得到改进的半监督FCM聚类算法.最后, 在滚动轴承的不同类型单故障及复合故障数据的特征集中进行算法对比验证.
1. 混合属性数据集及其距离度量
数据集由多个数据组成, 每个数据对象由其属性进行描述.数据库中的每个对象以一元组的形式呈现, 每一列代表一个属性.数据挖掘中常用的属性类型包括: 1)数值属性, 通常用实数值来描述, 包括离散型数值和连续型数值之分; 2)分类(标称)属性, 每个不同的值代表某种类别、代码或状态, 这些值无列别顺序; 3)二值属性, 取值只有1或0两种情况.通常1表示属性值非空, 0表示属性值为空值; 4)序数属性, 属性取值的值域是一个有意义的序列.
以上为常规属性类型, 当数据对象包含多种属性类型时, 称为混合属性数据.本文将混合属性分为有序属性和无序属性两类, 划分依据是此属性有无列别顺序.常规属性中, 数值属性和序数属性属于有序属性, 分类属性属于无序属性, 若二值属性维数较多, 则只能看成有序属性, 若维数为1, 则既能看成有序属性, 亦能看成无序属性.
对于数据集的距离度量是进行有意义的聚类分析的前提, 若存在某混合属性数据集表达式为$\Phi$ $=$ $\{\pmb {X_{1}}, {\pmb X_{2}} , \cdots , {\pmb X_{n}}\}$, 记混合属性特征向量${\pmb {X}_i}=$ $(x_{i1} $, $x_{i2} $, , 前$m$维属性为有序属性, 后$l-m$维为无序属性.对于上述混合属性距离度量而言, 一般将混合属性数据按照属性类型进行划分, 分别求解距离, 再进行整体距离的加权求和.本节对有序属性和无序属性的距离度量进行简要阐述, 并对无序属性的距离度量方法加以改进, 最后给出本文提出的混合属性距离度量的完备性证明.
1.1 欧氏距离
本文在处理前$m$维有序属性的距离计算时, 采用欧氏距离作为距离度量函数.在距离度量中, 闵可夫斯基距离(Minkowski distance)是衡量数值点之间距离的一种非常常见的方法, 计算公式为
$ \begin{align}\label{} {\text{dist}}\left( {{\pmb {X}_i}, {\pmb {X}_j}} \right) = \root p \of {\sum\limits_{{r} = {\text{1}}}^m {{{\left| {{X_{ir}} - {X_{jr}}} \right|}^p}} } \end{align} $
(1) 其中, 如果$p \to \infty $时, 就是切比雪夫距离; $p=1$时, 表示曼哈顿距离; $p=2$时, 表示欧氏距离, 即
$ \begin{align}\label{} {\text{dist}}\left( {{\pmb {X}_i}, {\pmb {X}_j}} \right) = \root {} \of {\sum\limits_{{r} = {\text{1}}}^m {{{\left| {{X_{ir}} - {X_{jr}}} \right|}^2}} } \end{align} $
(2) 可以看出, 欧氏距离是两个向量相对应维度的运算, 即欧氏距离适用于有序属性的计算.
1.2 Jaccard距离及其改进
对于后$l-m$维的无序属性, 本文采用改进的Jaccard距离度量方法.
传统的Jaccard相似度常用于二值型数据的相似度计算.在数据挖掘中, 经常将属性值二值化, 通过计算Jaccard相似度, 可以简单快速地得到两个对象的相似程度.记集合, $\cdots , {X_{il}} \}$, 集合, 则$A$和$B$的Jaccard相似系数定义为
$ \begin{align}\label{} {D_J}\left( {A, B} \right) = \frac{{\left| {A \cap B} \right|}}{{\left| {A \cup B} \right|}} \end{align} $
(3) 相应的Jaccard距离定义为
$ \begin{align}\label{} {\hat D_J}\left( {A, B} \right) = 1 - \frac{{\left| {A \cap B} \right|}}{{\left| {A \cup B} \right|}} \end{align} $
(4) 其中, Jaccard相似系数反映了$A$和$B$集合的相交程度, 值在[0, 1]范围之内, 若$A$和$B$不相交, 则值为$0$.
广义Jaccard相似系数定义[10]为
$ \begin{align}\label{} & {\vec D_J}( {A, B} ) =\nonumber\\&\qquad \frac{{\sum\limits_{{r} = m+1}^l {{X_{ir}}{X_{jr}}} }}{{\sum\limits_{r = m+1}^l {{X^2_{ir}}} + \sum\limits_{r = m+1}^l {{X^2_{jr}}} - \sum\limits_{r = m+1}^l {{X_{ir}}{X_{jr}}} }} \end{align} $
(5) 可见, 广义Jaccard相似系数虽然考虑向量中各维数值的大小, 但是向量属性的排序对计算结果有一定的影响.因此, 广义Jaccard相似系数处理无序属性集的效果不理想.
实际生活或生产环境下, 传感设备所得数值存在一定的误差, 本文对相似系数计算做了相应改进, 引入相异度阈值系数修正属性数值的相似性判断, 则相似性判断公式为
$ \begin{align}\label{} 1 - \varepsilon \le {{{X_{ip}}} \over {{X_{jq}}}} \le 1 + \varepsilon \end{align} $
(6) 其中, $p = m + 1, m + 2, \cdots , l$; $q = m + 1, m + 2$, $\cdots $, $l$.即若向量$A$和$B$中存在两个属性值${X_{ip}}$和${X_{jq}}$满足以上条件, 则令
$ \begin{align}\nonumber {X_{ip}} = {X_{jq}} = {{{X_{ip}} + {X_{jq}}} \over 2} \in A \cap B \end{align} $
定义为考虑相异度阈值下的集合长度, 则改进的Jaccard相似系数表达式为
$ \begin{align}\label{} {{D'}_J}\left( {A, B} \right) = \frac{{\left\| {A \cap B} \right\|}}{{\left\| {A \cup B} \right\|}} \end{align} $
(7) 1.3 混合属性距离度量的完备性证明
有序属性部分距离度量采用欧氏距离, 无序属性部分距离度量采用改进的Jaccard距离, 则混合属性的距离表达式为
$ \begin{align}\label{} d\left( {{\pmb x}, {\pmb y}} \right) = &\ \beta \sqrt {\sum\limits_{i = 1}^{\rm{m}} {{{\left( {{x_{1i}} - {y_{1i}}} \right)}^2}} } +\nonumber\\ &\ \left( {1 - \beta } \right)\left[ {1 - {{D'}_J}\left( {{x_2}, {y_2}} \right)} \right] \end{align} $
(8) 其中, ${\pmb x}$与均为前$m$个有序属性以及$l-m$个无序属性组成的混合属性向量, ${\pmb x_{1}} $和${\pmb y_{1}} $分别为${\pmb x}$与的前$m$个有序属性组成的向量, $x_{2} $和$y_{2}$分别为与的$l-m$个无序属性组成的集合, 为了均衡非占优属性对数据对象整体相似性的影响, 引入占优因子$\alpha$[3], 并针对本文算例取值0.6, 若, 则特征向量集是数值占优数据集, 则令$\beta = 0.4$, 若$(l$ $-$ , 则特征向量集是分类占优数据集, 则令, 若以上两个条件均不满足, 则特征向量集是均衡型混合属性数据集, 令.
距离定义需满足同一性、非负性、对称性和三角不等性, 为了使证明过程更加清晰, 记有${\pmb x}$和${\pmb y}$和三个向量, ${\pmb x_{A}}$和${\pmb x_{B}}$和为有序向量部分, 维数为$m$, $A$和$B$和$C$为无序属性部分构成的集合, 维数为$l$.
定理1. 若$\| {A \cap B} \| = | M | = k$, , 且有$\| {M \cap C} \| = p$, $0 \leq p \leq k$, 则$\| A\cap C\|+\| B$ $\cap$ $C \| \leq p + l$ ($M$为集合$A$和$B$考虑相异度阈值情况下, 求交集所得的集合).
证明. 若$\| {A \cap B} \| = k$, 则.向量A中已有$p$个元素属于$C$, $k-p$个元素不属于$C$, 及$l-k$个元素可能属于$C$.同理, $B$的情况亦然.易证, $A$和$B$中相异元素属于$C$的个数最大值为$l-p$, 即
$ \| {A \cap C} \| + \| {B \cap C} \| \leq 2p + l - p = p + l $
推论1. 本文所提混合属性距离满足三角不等性.
证明. 需证, 即
$ \begin{align*} &\root {} \of {\sum\limits_{i = 1}^{{m}} {{{\left( {{x_{Ai}} - {x_{Ci}}} \right)}^2}} } + 1 - {{D'}_J}\left( {A, C} \right) +\\ &\qquad \root {} \of {\sum\limits_{i = 1}^{{m}} {{{\left( {{x_{Bi}} - {x_{Ci}}} \right)}^2}} } + 1 - {{D'}_J}\left( {B, C} \right) \geq\\ &\qquad \root {} \of {\sum\limits_{i = 1}^{{m}} {{{\left( {{x_{Ai}} - {x_{Bi}}} \right)}^2}} } + 1 - {{D'}_J}\left( {A, B} \right) \end{align*} $
将欧氏距离统一放置等式左侧, 即
$ \begin{align*}\nonumber &\root {} \of {\sum\limits_{i = 1}^{{m}} {{{\left( {{x_{Ai}} - {x_{Ci}}} \right)}^2}} } + \root {} \of {\sum\limits_{i = 1}^{{m}} {{{\left( {{x_{Bi}} -{x_{Ci}}} \right)}^2}} } -\\&\qquad\root {} \of {\sum\limits_{i = 1}^{{m}} {{{\left( {{x_{Ai}} - {x_{Bi}}} \right)}^2}} } +1 - {{D'}_J}\left( {A, C} \right) - \\&\qquad {{D'}_J}\left( {B, C} \right) \geq - {{D'}_J}\left( {A, B} \right) \end{align*} $
不等式左侧, 根据定理1, 有
$ \begin{align} & 1 - {D'_J}\left( {A, C} \right) - {D'_J}\left( {B, C} \right)= \nonumber\\[1mm] &\qquad 1-\left( {\frac{{\left\| {A \cap C} \right\|}}{{2l - \left\| {A \cap C} \right\|}} + \frac{{\left\| {B \cap C} \right\|}}{{2l - \left\| {B \cap C} \right\|}}} \right)\geq \nonumber\\[1mm] &\qquad 1-\left( {\frac{{\left\| {A \cap C} \right\|}}{{2l - \left\| {A \cap C} \right\|}} + \frac{{l + p - \left\| {A \cap C} \right\|}}{{l - p + \left\| {A \cap C} \right\|}}} \right)\geq \nonumber\\[1mm] &\qquad 1-\left( {\frac{{\left\| {A \cap C} \right\|}}{{2l - \left\| {A \cap C} \right\|}} + \frac{{l + k - \left\| {A \cap C} \right\|}}{{l - k + \left\| {A \cap C} \right\|}}} \right)\geq \nonumber\\[1mm] &\qquad 1-\left( {\frac{{\left\| {A \cap C} \right\|}}{{2l - \left\| {A \cap C} \right\|}} + \frac{{2l - \left\| {A \cap C} \right\|}}{{\left\| {A \cap C} \right\|}}} \right)\geq 0 \end{align} $
(9) 推论2. 混合属性距离度量满足距离度量准则.
证明.
1)
$ \begin{align*} & d\left( {{x_A}, {x_A}} \right) =\\ &\qquad \root {} \of {\sum\limits_{i = 1}^{{m}} {{{\left( {{x_{Ai}} - {x_{Ai}}} \right)}^2}} } + 1 - {D'_J}\left( {A, A} \right) = 0\end{align*} $
满足到自己距离为零;
2) ,可知
$ \begin{align*} &d\left( {x, y} \right) =\\ &\qquad \root {} \of {\sum\limits_{i = 1}^{{m}} {{{\left( {{x_{Ai}} - {x_{Bi}}} \right)}^2}} } + \left[ {1 - {{D'}_J}\left( {A, B} \right)} \right] \geq 0\end{align*} $
满足非负性;
3) $ d\left(x, y\right)=d\left(y, x\right)$, 满足对称性;
4) 由推论1可知, 满足三角不等性.故混合属性距离度量满足距离度量准则.
2. 改进半监督FCM算法
2.1 FCM算法
FCM算法是根据不同样本点对聚类中心的隶属度不同来划分聚类的算法, 它的隶属度取值由K-means聚类算法的$\{0, 1\}$, 拓展至[0, 1], 即每个样本的类别隶属度为一个实数区间, 相较而言, 更具灵活性.
记${\pmb {X}_i}$ $( {i = 1, 2, \cdots , n} )$中每一个向量均有$l$维属性.根据选定的相似性度量函数, 划分为$c$个聚类中心称为簇$V_{k} $, 其中$k=1, 2, \cdots , c$.那么$n$个样本分别属于$c$个类别的隶属度矩阵记为$U$ $=$ (模糊划分矩阵), 其中$u_{ik} $ $(1\le i\le n$, $1$ $\le$ $k$ $\le$ $c)$表示第$i$个样本${\pmb X_{i}} $属于第$k$个类别的隶属度, 应满足以下约束条件:
$ \begin{align}\label{} &u_{ik} \in \left[0, 1\right], && 1\le i\le n, ~ 1\le k\le c \sum _{k=1}^{c}u_{ik} =1, && 1\le i\le n \end{align} $
(10) $ \begin{align}\label{} & \sum _{k=1}^{c}u_{ik} =1, && 1\le i\le n \end{align} $
(11) FCM算法的目标函数定义为
$ \begin{align}\label{} J\left( {U, V} \right) = \sum\limits_{k = 1}^c {\sum\limits_{i = 1}^n {{{\left( {{u_{ik}}} \right)}^2}} } {d^2}\left( {{\pmb {X}_i}, {\pmb {v}_k}} \right) \end{align} $
(12) 聚类中心的迭代公式为
$ \begin{align}\label{} {{\pmb v_k}} = \displaystyle{{\sum\limits_{i = 1}^n {\left( {{\pmb {X}_i}u_{ik}^2} \right)} } \over \displaystyle{\sum\limits_{i = 1}^n {u_{ik}^2} }} \end{align} $
(13) 以下为传统FCM的算法描述.
算法1. FCM算法
输入. 待聚类样本.
输出.聚类中心及隶属度矩阵.
步骤1. 给定需要划分的聚类中心数目$ c$及相关参数;
步骤2. 初始化隶属度矩阵$ U$;
步骤3.根据公式计算$ c$个聚类中心;
步骤4. 计算出各个样本点到聚类中心的距离矩阵, 并得到新的隶属度矩阵(若分母为$0$, 则令$u_{ik}$ $=$ $1$);
步骤5. 计算出目标函数值$J$.如果小于给定的阈值$\delta$或与上次循环产生的目标函数值之差小于阈值则算法停止.否则, 返回步骤2.
2.2 半监督FCM算法的改进
多数情况下的聚类集成算法建立在非监督方式之上, 由于缺乏对先验知识的利用, 致使聚类集成的准确性、鲁棒性和稳定性有所降低.
半监督模糊聚类突破了有监督和无监督模糊聚类中只考虑一种样本类型的局限, 整体考虑数据集中的所有样本, 提高了未知样本的使用率, 从而改善了聚类效果.它的核心思想是利用监督数据, 得到初始的聚类划分, 然后利用得到的初始的聚类划分对未标记的数据进行约束指导[11].
本文将改进距离度量公式与半监督模糊聚类算法结合, 得到改进的半监督FCM算法目标函数.
$ \begin{align}\label{} J\left( {U, W} \right) =&\sum\limits_{k = 1}^C \sum\limits_{i = 1}^N {{\left( {{u_{ik}}} \right)}^2}\Bigg\{ \sum\limits_{r = 1}^{\rm{m}} {{{\left( {{x_{ir}} - {v_{kr}}} \right)}^2}} +\nonumber\\ & \left[ {1 - {{D'}_J}\left( {{{x''}_i}, {{v''}_k}} \right)} \right] \Bigg\} \end{align} $
(14) 记${\pmb {x}'_i}$表示向量${\pmb {X}_i}$的有序属性向量部分, ${x}''_i$表示向量${\pmb {X}_i}$的无序属性构成的集合.聚类中心向量${\pmb {v}_k}$为有序属性和无序属性${\pmb{v}''_k}$组成的混合属性向量, ${\pmb{v}''_k}$迭代运算中以集合形式${v''_k}$存在.
聚类中心有序部分迭代公式为
$ \begin{align}\label{} {{\pmb {v}'_k}} = {{\displaystyle\sum\limits_{i = 1}^n {\left( {{ {\pmb{x}'_i}}u_{ik}^2} \right)} } \over \displaystyle{\sum\limits_{i = 1}^n {u_{ik}^2} }} \end{align} $
(15) ${v''_k}$的运算较为复杂.假设某次迭代后, 属于第$k$个聚类中心的特征向量有$s$个, 且分别为${{{x}}_{{{{z}}_{{1}}}}}, {{{x}}_{{{{z}}_{{2}}}}}$, $\cdots$, ${{{x}}_{{{{z}}_{{s}}}}}$, 式中${z_1}$, ${z_2}$, $\cdots$, ${z_s}$代表向量的真实下标, 记, 在本节中, $\bigcup$表示向量所有维度或集合所有元素全部放在一个向量或集合中, 而并非求并集, 对向量集$S$中的元素进行降序排列, 并取分段中位数组合成新的无序属性部分的聚类中心${v''_k}$.其中分段中位数求取公式如下:
当$s$为奇数时, 令
$ \begin{align}\nonumber z = {{1 + s} \over 2} \end{align} $
则
$ \begin{align}\label{} {v''_k} = \bigcup\limits_{r = 1}^{l - m} {{S_{z + \left(r-1\right) \times s}}} \end{align} $
(16) 当$s$为偶数时, 令
$ \begin{align}\nonumber z = {s \over 2} \end{align} $
则
$ \begin{align}\label{} {v''_k} = \bigcup\limits_{r = 1}^{l - m} {{{{S_{z + \left(r-1\right) \times s}} + {S_{z + 1 + \left(r-1\right) \times s}}} \over 2}} \end{align} $
(17) 定义$R\left( \cdot \right)$为将集合转换成一维行向量的运算, 则, 由于无序属性部分顺序无关, 故的形式并不唯一, 取其中一种形式, 与有序属性部分聚类中心联合, 最终求得.即改进的FCM算法中的聚类中心每次更新是由有序部分更新结果与无序部分更新结果共同构成.
以下为改进半监督FCM的算法描述.
算法2. 改进的半监督FCM算法
输入. 标记样本和未标记样本.
输出. 聚类中心及未标记样本的隶属度矩阵.
步骤 1. 将标记样本和未标记样本进行筛选及降维预处理;
步骤 2. 利用FCM算法对标记样本进行预聚类;
步骤 3. 利用步骤2所得聚类中心对未标记样本做如下操作:采用改进距离度量函数计算未标记样本与聚类中心的距离, 选择最靠近第$i$个聚类中心的未标记样本并贴上标签$i$, 加入到标记样本中, 并从未标记样本中删除;
步骤4. 计算各个样本点到聚类中心的距离矩阵, 并得到新的隶属度矩阵(若分母为$0$, 则令$u_{ik}$ $=$ $1$);
步骤5. 对最新获得的标记样本进行重聚类处理, 计算目标函数值$J$.迭代至$J$小于给定的阈值$\delta$或与上次循环产生的目标函数值之差小于阈值则算法停止.
3. 仿真与分析
3.1 训练数据及验证数据的获取
本文所提算法主要针对包含有序和无序属性的混合属性数据集的聚类方法, 为验证聚类算法的聚类精度, 选用滚动轴承多种工况下的振动信号进行预处理和时频分析[12], 并提取相应特征值构成训练数据和测试数据.
在轴承运行过程中, 当内滚道发生剥落、裂纹、点蚀等损伤时, 会产生一定频率的冲击振动, 轴承外圈亦是同理, 当滚动体产生损伤时, 缺陷部位通过内圈或外圈滚道表面时, 也会产生一定频率的冲击振动, 现实中的滚动轴承的振动信号, 主要通过安放在轴承座上的传感器测取设备获得, 测得的信号是包含若干成分的混合.损伤故障大致可以分为两类: 1)可以从转速和轴承的几何尺寸求得的通过频率, 又称为故障特征频率. 2)由于损伤冲击作用诱发的轴承系统的高频固有振动成分.若不考虑机械系统的非线性因素, 近似构造出包含轴系和轴承的复合振动信号数学模型如下[13]:
$ \begin{align} \begin{cases} x\left( t \right) = {x_1}\left( t \right) + {x_2}\left( t \right) + n\left( t \right)\\[3mm] {x_1}\left( t \right) = \sum\limits_i {{a_i}\cos 2\pi {f_i}t} + \sum\limits_j {{b_j}\cos 2\pi {f_j}t}\\[3mm] {x_2}\left( t \right) = \sum\limits_k {{A_k}[1 + {b_{k, j}}\left( t \right)]\cos 2\pi {f_{k, gz}}t} \end{cases} \end{align} $
(18) 其中, $x\left( t \right)$为加速度传感器采集的轴承座综合振动信号; 为与轴转频和轴承各元件通过频率相关的低频振动信号; ${a_i}$为与轴转频相关的第$i$个低频振动信号分量的幅值; ${f_i}$为频率; ${b_j}$为滚动轴承故障隐患所引起的第$j$个低频振动信号分量的幅值; ${f_j}$为滚动轴承元件的故障通过频率; ${x_2}\left( t \right)$为以固有频率为载波频率, 以滚动轴承通过频率为调制频率的调制信号; 为滚动轴承第$k$个调制信号, 其调制频率为滚动轴承的各元件的通过频率; ${f_{k, gz}}$为载波频率, 是各零部件的固有频率; 为$x\left( t \right)$中的噪声分量.
由某故障轴承的结构参数计算得到转速为1 800 r/min下的故障特征频率, 可知,
$ \begin{align}\nonumber {f_r} = {n \over {60}} = 30 {\rm Hz} \end{align} $
相应地, 各故障特征频率如表 1所示.
表 1 轴承各部件故障特征频率(Hz)Table 1 Characteristic frequency of rolling bearings (Hz)内圈 外圈 保持架 滚动体 163.2 107.4 11.9 141.2 将以上四种故障频率分别作为单故障振动信号的频率, 忽略机械系统的非线性因素, 近似构造出包含轴系和轴承的复合振动信号.
对复合振动信号进行特征提取, 并构造混合属性向量, 特征向量中有序属性部分包含最大值、最小值、峭度值、均值标准差5个指标, 无序属性部分的构建主要是通过对复合振动信号进行经验模态分解(Empirical mode decomposition, EMD) [14], 得到若干本征模函数(Intrinsic mode function, IMF)分量, 再进行希尔伯特变换, 进而求得特征频率值而获得.对于构造的外圈故障和滚动体故障复合振动信号进行EMD分解, 最终得到8组本征模函数分量及对应频谱图, 如图 1所示.
3.2 测试实验1
实验部分选取五种故障(各取50组), 进行聚类处理及分析.五种故障包括内圈故障、外圈故障、滚动体故障三个单故障及内外圈、滚动体外圈两种复合故障.聚类结果采用聚类精度均值来衡量, 即每个簇中占比最高的对象所占的比例的平均值.
轴承的混合属性特征向量中有序属性与无序属性数值差异性较大, 图 2 (a)和图 2 (b)分别为未标准化数据及标准化数据的预聚类结果.
从图 2可以看出, 未标准化数据对预聚类的正确率影响较明显, 标准化数据预聚类正确率更高.预聚类所得聚类中心对最终聚类结果正确率有直接影响, 故本文预聚类前对于原始数据做标准化的预处理.
图 3 (a)为FCM重聚类结果, 相同分组用实线相连, 纵坐标为数据点实际组别, 聚类实验结果用实线相连.可以看出传统半监督FCM聚类算法单故障聚类结果较理想, 聚类不纯度较低, 但耦合故障聚类的实验结果与实际组别交叉严重, 聚类结果不理想.图 3 (b)为改进FCM重聚类结果图, 与传统半监督FCM聚类结果相比, 耦合故障的聚类精度明显提高, 详细结果如表 2所示.图 4 (a)和图 4 (b)为两种聚类算法聚类结果的柱状统计图(柱状图坐标分别为: $x$:实验结果组别号, $y$:实际组别号, $z$:统计数).
表 2 聚类精度对比表Table 2 Comparison table of clustering accuracy单故障 耦合故障 传统FCM聚类精度 0.98 0.65 改进FCM聚类精度 1.00 0.87 经计算可得, 欧氏距离作为距离度量函数所得试验结果的聚类精度为0.848, 改进的混合属性距离度量函数所得试验结果的聚类精度为0.94.
表 2为FCM聚类算法改进前及改进后在单故障及复合故障聚类中的精度对比.从表 2可以看出, 在本实验部分, 复合故障之间的干扰对传统FCM聚类精度有较大影响, 改进的混合属性距离作为距离度量函数在耦合故障诊断方面具有显著优势.
3.3 测试实验2
实验选取4组单故障及6组耦合故障的特征数据集(每组50个向量)进行聚类处理, 此时故障类型较多, 复合故障之间干扰较强, 传统FCM的聚类精度急剧下降, 实验结果部分添加了混合属性聚类的K-prototypes方法作为对比.
重聚类结果散点图如图 5所示, 图 5 (a)为传统半监督FCM聚类的结果, 图 5 (b)为K-prototypes聚类的结果, 图 5 (c)为改进半监督FCM聚类的结果, 纵坐标代表类别, 试验数据共有10种故障, 每种故障50组数据, 并分别加上类别属性编号$1$ $\sim$ $10$, 故图中横坐标$1$ $\sim$ $50$, $51$ $\sim$ $100$, $\cdots$, $451$ $\sim$ $500$的实际类别应该依次对应$1$ $\sim$ $10$类, 图中的散点分布为聚类方法所得的结果, 图 5 (a)图中横坐标$1$ $\sim$ $50$的区间, 有若干点纵坐标为7, 横坐标$300$ $\sim$ $350$的区间, 有若干点纵坐标为9, 这些都是实际结果与实验结果不相符的情况.三种聚类算法的柱状统计图如图 6所示.
由正确率柱状图对比可知, 当故障类型较多时, 改进FCM重聚类的聚类效果最好, K-prototypes次之, 传统FCM重聚类的聚类效果较差, 三种算法的聚类精度如表 3所示.
表 3 三种算法聚类精度对比表Table 3 Comparison table of clustering accuracy by three algorithms传统FCM K-prototypes 改进FCM 聚类精度 0.786 0.842 0.902 考虑到噪音对低频信号有较大干扰, 对4, 7, 8, 9故障聚类结果进行分析, 并对无序属性部分距离度量计算时的相异度阈值采用自适应阈值调整, 自适应阈值调整公式如下:
$ \begin{align}\nonumber \varepsilon = {\varepsilon _0} + {{{f_{\max }} - f} \over {{f_{\max }}}} \times \gamma \end{align} $
由表 4可知, $\varepsilon=0.12$时, 聚类效果最好, 因此基准值取0.12, 在特定区间内, 相异度阈值越高则低频信号聚类精度越高, 超过一定区间则会导致高频信号的错归类, 进而影响聚类精度.根据式(6), 结合本文实验算例, 可知最易错归类的相异度阈值为0.125, 故乘数因子$\gamma$取值0.005.式中$f_{\max }$取值163.2, $f$为计算Jaccard距离的两个数的平均值.根据以上参数设置, 得到最终结果如图 7和图 8所示.
表 4 不同$\varepsilon$值下聚类精度对比表Table 4 Comparison table of clustering accuracy by different $\varepsilon$$\varepsilon$ 0.09 0.10 0.11 0.12 0.13 0.14 聚类精度 0.796 0.868 0.898 0.902 0.88 0.822 将图 8与图 6 (c)对比, 可知混合属性距离度量公式进行自适应阈值调整后, 聚类精度进一步提升, 由聚类精度计算公式求得, 聚类精度提升至0.912.
4. 结束语
本文提出一种基于改进Jaccard距离的混合属性距离度量方法, 并运用于半监督FCM聚类算法中, 得到改进的半监督FCM算法, 将在数值属性数据集的聚类方法扩展到了混合属性数据集的聚类问题中.通过对聚类算法的聚类精度这一指标值进行比较, 证明了改进的半监督FCM算法在聚类效果方面有了显著提升, 并得到如下结论.
1) 传统半监督FCM算法将样本不同特征量赋予相同的权重, 忽略了不同属性特征量本身的相异性, K-prototypes算法作为混合属性聚类算法, 对分类属性采用匹配差异度的距离度量方法, 但是和广义的Jaccard距离有相同的弊端, 即向量维度对计算结果有很大影响, 处理含无序属性的混合属性数据集时, 精度较低.改进半监督FCM聚类在处理含无序属性的混合属性数据集的聚类问题时, 采用欧氏距离与改进的Jaccard相结合的距离度量方式, 聚类精度明显优于传统的半监督FCM聚类和K-prototypes聚类.
2) 当聚类中心较多时(对应试验中故障类型较多), 对于改进半监督FCM, 相异度阈值可采用自适应阈值调整, 即对于无序属性部分自适应改变$\varepsilon$的值, 聚类精度得到提高.
半监督聚类的标记样本数据必须满足每个簇都至少有一个样本被标记出, 且初始样本数据对聚类结果影响较大.换而言之, 半监督聚类算法是建立在对标记样本完全信任的基础上的.因此, 如何提高算法对于不均衡数据集的聚类精度问题需要进一步研究.另外, 将轨迹坐标值作为无序属性分量, 并将本文提出算法与时间翘曲距离结合, 对轴心轨迹进行相似性判断并聚类, 也是下一步工作的重点.
-
表 1 轴承各部件故障特征频率(Hz)
Table 1 Characteristic frequency of rolling bearings (Hz)
内圈 外圈 保持架 滚动体 163.2 107.4 11.9 141.2 表 2 聚类精度对比表
Table 2 Comparison table of clustering accuracy
单故障 耦合故障 传统FCM聚类精度 0.98 0.65 改进FCM聚类精度 1.00 0.87 表 3 三种算法聚类精度对比表
Table 3 Comparison table of clustering accuracy by three algorithms
传统FCM K-prototypes 改进FCM 聚类精度 0.786 0.842 0.902 表 4 不同$\varepsilon$值下聚类精度对比表
Table 4 Comparison table of clustering accuracy by different $\varepsilon$
$\varepsilon$ 0.09 0.10 0.11 0.12 0.13 0.14 聚类精度 0.796 0.868 0.898 0.902 0.88 0.822 -
[1] 徐明亮, 王士同, 杭文龙.一种基于同类约束的半监督近邻反射传播聚类方法.自动化学报, 2016, 42(2):255-269 http://www.aas.net.cn/CN/abstract/abstract18815.shtmlXu Ming-Liang, Wang Shi-Tong, Hang Wen-Long. A semi-supervised affinity propagation clustering method with homogeneity constraint. Acta Automatica Sinica, 2016, 42(2):255-269 http://www.aas.net.cn/CN/abstract/abstract18815.shtml [2] 赵慧珍, 刘付显, 李龙跃. K-近邻估计协同系数的协同模糊C均值算法.计算机工程与应用, 2016, 52(19):19-24 doi: 10.3778/j.issn.1002-8331.1601-0312Zhao Hui-Zhen, Liu Fu-Xian, Li Long-Yue. Novel collaboration fuzzy C-means algorithm with K-nearest neighbor method determined Collaboration Coefficient. Computer Engineering and Applications, 2016, 52(19):19-24 doi: 10.3778/j.issn.1002-8331.1601-0312 [3] Huang Z X. Clustering large data sets with mixed numeric and categorical values. In: Proceedings of the 1st Pacific-Asia Conference on Knowledge Discovery and Data Mining. Singapore, Singapore: PAKDD, 1997. 21-34 [4] 陈晋音, 何辉豪.基于密度和混合距离度量方法的混合属性数据聚类研究.控制理论与应用, 2015, 32(8):993-1002 http://d.old.wanfangdata.com.cn/Periodical/kzllyyy201508001Chen Jin-Yin, He Hui-Hao. Density-based clustering algorithm for numerical and categorical data with mixed distance measure methods. Control Theory and Applications, 2015, 32(8):993-1002 http://d.old.wanfangdata.com.cn/Periodical/kzllyyy201508001 [5] 黄德才, 李晓畅.基于相对密度的混合属性数据增量聚类算法.控制与决策, 2013, 28(6):815-822 http://d.old.wanfangdata.com.cn/Periodical/kzyjc201306005Huang De-Cai, Li Xiao-Chang. Incremental relative density-based clustering algorithm for mixture data sets. Control and Decision, 2013, 28(6):815-822 http://d.old.wanfangdata.com.cn/Periodical/kzyjc201306005 [6] 陈晋音, 何辉豪.基于密度的聚类中心自动确定的混合属性数据聚类算法研究.自动化学报, 2015, 41(10):1798-1813 http://www.aas.net.cn/CN/abstract/abstract18754.shtmlChen Jin-Yin, He Hui-Hao. Research on density-based clustering algorithm for mixed data with determine cluster centers automatically. Acta Automatica Sinica, 2015, 41(10):1798-1813 http://www.aas.net.cn/CN/abstract/abstract18754.shtml [7] 陈新泉.面向混合属性数据集的双重聚类方法.计算机工程与科学, 2013, 35(2):127-132 doi: 10.3969/j.issn.1007-130X.2013.02.022Chen Xin-Quan. Dual clustering method of mixed data set. Computer Engineering and Science, 2013, 35(2):127-132 doi: 10.3969/j.issn.1007-130X.2013.02.022 [8] Gardner A, Kanno J, Duncan C A, Selmic R. Measuring distance between unordered sets of different sizes. In: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Columbus, OH, USA: IEEE, 2014. 137-143 [9] 李城梁, 马芸, 张锐, 魏伟.基于半监督谱核聚类的转子系统故障诊断.振动、测试与诊断, 2016, 36(3):562-567 http://d.old.wanfangdata.com.cn/Periodical/zdcsyzd201603026Li Cheng-Liang, Ma Yun, Zhang Rui, Wei Wei. Rotor system fault diagnosis based on semi-supervised spectrum kernel clustering. Journal of Vibration, Measurement and Diagnosis, 2016, 36(3):562-567 http://d.old.wanfangdata.com.cn/Periodical/zdcsyzd201603026 [10] 嵇威华, 吕国芳.基于广义Jaccard系数处理冲突证据方法.控制工程, 2015, 22(1):98-101 http://d.old.wanfangdata.com.cn/Periodical/jczdh201501017Ji Wei-Hua, Lv Guo-Fang. Conflicting evidence combination method based on generalized Jaccard coefficient. Control Engineering of China, 2015, 22(1):98-101 http://d.old.wanfangdata.com.cn/Periodical/jczdh201501017 [11] 周晨曦, 梁循, 齐金山.基于约束动态更新的半监督层次聚类算法.自动化学报, 2015, 41(7):1253-1263 http://www.aas.net.cn/CN/abstract/abstract18699.shtmlZhou Chen-Xi, Liang Xun, Qi Jin-Shan. A semi-supervised agglomerative hierarchical clustering method based on dynamically updating constraints. Acta Automatica Sinica, 2015, 41(7):1253-1263 http://www.aas.net.cn/CN/abstract/abstract18699.shtml [12] 袁杰, 王福利, 王姝, 赵露平.基于D-S融合的混合专家知识系统故障诊断方法.自动化学报, 2017, 43(9):1580-1587 http://www.aas.net.cn/CN/abstract/abstract19134.shtmlYuan Jie, Wang Fu-Li, Wang Shu, Zhao Lu-Ping. A fault diagnosis approach by D-S fusion theory and hybrid expert knowledge system. Acta Automatica Sinica, 2017, 43(9):1580-1587 http://www.aas.net.cn/CN/abstract/abstract19134.shtml [13] 张超, 陈建军, 郭迅.基于第2代小波和EMMD的转子系统复合故障诊断.振动、测试与诊断, 2011, 31(1):98-103 doi: 10.3969/j.issn.1004-6801.2011.01.022Zhang Chao, Chen Jian-Jun, Guo Xun. Complex fault diagnosis for rotor systems using the second generation wavelet and extremum field mean mode decomposition. Journal of Vibration, Measurement and Diagnosis, 2011, 31(1):98-103 doi: 10.3969/j.issn.1004-6801.2011.01.022 [14] Hao H, Wang H L, Rehman N U. A joint framework for multivariate signal denoising using multivariate empirical mode decomposition. Signal Processing, 2017, 135:263-273 doi: 10.1016/j.sigpro.2017.01.022 期刊类型引用(8)
1. 黄跃珍,戴晶帼,张承业,魏东. 基于关联图关键边发现的人脸图像聚类算法. 北京邮电大学学报. 2023(01): 97-102 . 百度学术
2. 郁小强,袁海,王磊,韩磊,赛颖夫. 基于信息融合的配电网工程三维数据智能处理算法设计. 电子设计工程. 2023(09): 118-122 . 百度学术
3. 刘雪梅,卢汉康,李海瑞,槐先锋,陈晓璐. 知识驱动的水利工程应急方案智能生成方法——以南水北调中线工程为例. 水利学报. 2023(06): 666-676 . 百度学术
4. 陈庆超,韩松,毛钧毅. 采用多层次特征融合SPP-net的暂态稳定多任务预测. 控制与决策. 2022(05): 1279-1288 . 百度学术
5. 刘兰淇,向青松. 网络数据交换下复合载荷节点半监督方法仿真. 计算机仿真. 2021(06): 268-272 . 百度学术
6. 余海燕,陈京京,邱航,王永,王若凡. 嵌套删失数据期望最大化的高斯混合聚类算法. 自动化学报. 2021(06): 1302-1314 . 本站查看
7. 赵云强,韩翼,崔慧茹,郑琳. 聚类目标函数下混合属性大数据集分析系统. 电子设计工程. 2020(04): 73-76+81 . 百度学术
8. 谭程宏,卢雪松. 利用搜索模型提升Simulink故障探测性能的方法研究. 计算机应用研究. 2020(09): 2758-2761 . 百度学术
其他类型引用(13)
-