-
摘要: 针对自适应聚类集成选择方法(Adaptive cluster ensemble selection,ACES)存在聚类集体稳定性判定方法不客观和聚类成员选择方法不够合理的问题,提出了一种改进的自适应聚类集成选择方法(Improved ACES,IACES).IACES依据聚类集体的整体平均归一化互信息值判定聚类集体稳定性,若稳定则选择具有较高质量和适中差异性的聚类成员,否则选择质量较高的聚类成员.在多组基准数据集上的实验结果验证了IACES方法的有效性:1)IACES能够准确判定聚类集体的稳定性,而ACES会将某些不稳定的聚类集体误判为稳定;2)与其他聚类成员选择方法相比,根据IACES选择聚类成员进行集成在绝大部分情况下都获得了更佳的聚类结果,在所有数据集上都获得了更优的平均聚类结果.Abstract: Adaptive cluster ensemble selection (ACES) is not only non-objective in judging the stability of cluster ensemble but also unreasonable in selecting cluster members. To overcome such drawbacks, an improved adaptive cluster ensemble selection (IACES) approach is proposed. First, IACES judges the stablity of cluster ensemble according to its total average normalized mutual information. Second, if cluster ensemble is stable, then cluster members with high quality and moderate diversity are selected, else, cluster members with high quality are selected. We evaluate the proposed method on several benchmark datasets and the results show that IACES can judge the stability of cluster ensemble correctedly while ACES misjudges some unstable cluster ensemble as stable. Besides, ensembling the cluster members selected by IACES produces better final solutions than other cluster member selection methods in almost all cases, and is superior average results in all cases.
-
Key words:
- Machine learning /
- cluster analysis /
- cluster ensemble /
- cluster ensemble selection
-
聚类分析的目标是依据对象之间的相似度对其自动分组/簇, 使得簇内对象彼此相似度尽量高, 而簇间对象彼此相似度尽量低[1-2].虽然已有上千种聚类算法, 但没有一种能有效识别不同大小, 不同形状, 不同密度甚至可能包含噪声的簇[1].已有聚类方法主要分为: 1)基于划分的方法, 将聚类问题转化为优化问题, 并采用不同的优化策略, 例如, K均值算法(K-means, KM)[3]、非负矩阵分解(Non-negative matrix factorization, NMF)[4]、近邻传播算法(Affinity propagation, AP)[5]、子空间聚类算法[6]以及基于深度学习[7]的聚类算法[8]; 2)层次聚类[2], 例如单连接(Single linkage, SL)、全连接(Complete linkage, CL)、组平均(Average linkage, AL); 3)基于模型的方法[1], 将聚类问题转化为模型的充分统计量估计问题; 4)基于密度的方法, 通过寻找被低密度区域分离的高密度区域来进行聚类, 例如密度峰值(Density peaks, DP)算法[9]、谱聚类方法[10]; 5)基于谱图理论将聚类问题转化为图划分问题.
2002年, 文献[11]正式提出聚类集成(Cluster ensemble), 通过组合多个不同的聚类结果能够获得更加优越的最终结果, 具有传统聚类算法无可比拟的优势[12].早期的聚类集成研究主要围绕聚类成员生成和共识函数设计问题展开, 目前已有较多聚类成员生成方法及共识函数设计方法[13-26].受"选择性集成学习"研究启发, 文献[27]于2008年开启了选择性聚类集成研究, 其关键问题为聚类成员选择问题, 即如何从所有聚类成员集合(称为聚类集体)中选出部分聚类成员用于后续集成, 获得比对所有聚类成员进行集成更加优越的结果.文献[27]提出了质量和多样性综合准则(Joint criterion, JC)、聚类并选择(Cluster and select, CAS)和凸包(Convex hull, CH)三种方法.文献[28]提出了自适应聚类集成选择(Adaptive cluster ensemble selection, ACES), 依据聚类成员与初始一致划分$\pi ^{\ast }$的归一化互信息(Normalized mutual information, NMI)将聚类集体分为稳定和不稳定两类, 并选择不同的聚类成员子集. ACES方法存在两个问题: 1)判定聚类集体稳定性的方法不客观, 稳定性与初始一致划分$\pi ^{\ast }$有关, 在某些情况下容易将不稳定的聚类集体误判为稳定.当聚类成员之间差异性较低时, NMI值较大, 且NMI值大于0.5的比例较高, 聚类成员与$\pi ^{\ast }$的NMI值也较大, 此时聚类集体稳定; 当聚类成员之间差异性较高时, NMI值较低, 平均NMI值低于0.5, 且NMI值大于0.5的比例低于50%, 但仍然有绝大多数的聚类成员与$\pi ^{\ast }$的NMI值大于0.5, 此时虽然聚类集体不稳定, 但ACES方法却判定聚类集体是稳定的. 2)聚类成员子集的选择方法不够合理.当聚类集体稳定时, ACES简单地选择Full集并输出$\pi ^{\ast }$, 而没有进一步选择差异性较高的聚类成员来提高集成效果; 当聚类集体不稳定时, ACES简单地选择High集, 可能会选出少量聚类质量较差的聚类成员.
本文针对ACES存在的问题, 提出了一种改进的自适应聚类集成选择方法(Improved adaptive cluster ensemble selection, IACES).本文把所有聚类成员的整体平均NMI值(Total average NMI, TANMI)作为判定聚类集体是否稳定的依据, 若TANMI大于0.5, 则聚类集体稳定; 否则, 不稳定.有效解决了上述第一个问题.当聚类集体稳定时, 聚类成员提供相似的聚类结构, 差异可能由聚类算法陷入局部最优值引起, $\pi ^{\ast }$能够在一定程度上减小聚类成员之间差异引起的方差, 可能比聚类成员更加接近于真实分类结果.与ACES选择Full集不同, 本文首先选择与$\pi ^{\ast }$的差异性最低(NMI值最大)的1/4的聚类成员, 降低平均误差; 然后选择与$\pi ^{\ast }$的差异性最高(NMI值最小)的1/4的聚类成员, 增加平均差异性; 另外, 为了避免选出离群点, 通过约束聚类成员的平均NMI值(Average NMI, ANMI)排名高于某一阈值.此时, 选出的聚类成员既具有较高质量, 又具有适中的差异性, 往往能够获得比$\pi ^{\ast }$更加优越的结果.当聚类集体不稳定时, 聚类成员提供了不同的聚类结构, 差异可能由聚类算法本身的偏置或数据集的复杂结构引起, 此时$\pi ^{\ast }$偏离真实分类结果的可能性较大, 因此应该尽量降低聚类成员的平均误差, 选择与$\pi ^{\ast }$差异性大的聚类成员(High集)往往会得到更好的结果.但High集里会存在一些质量较差的聚类成员, 此时通过约束聚类成员ANMI值排名高于某一阈值, 能够在很大程度上避免选出质量较差的聚类成员.有效解决了上述第二个问题.
1. 聚类集成相关研究
本文在文献[11]提出的聚类集成框架上, 增加聚类成员选择模块, 形成选择性聚类集成系统框架, 如图 1所示, 其中聚类成员选择是本文的研究重点.选择性聚类集成分为三步:第一步将数据集作为输入, 运行聚类算法, 输出聚类集体$P=\{P^{(1)}, \cdots$, $P^{(l)}\}, $这一步称为聚类成员生成; 第二步将聚类集体作为输入, 输出若干聚类成员构成的集合$E=$ ${\{}E^{(1)}$, $\cdots$, $E^{(r)}{\}}\subseteq P$, 这一步称为聚类成员选择; 第三步将$E$作为输入, 对它们进行组合, 输出最终的聚类结果, 这一步称为聚类组合(Combination)/集成(Ensemble)/融合(Fusion), 也称为共识函数(Consensus function)设计.下面对聚类集成相关研究予以阐述.
1.1 聚类成员生成
研究人员从聚类模型和数据集等角度入手提出了不同的聚类成员生成方法: 1)采用同一种聚类算法[11-16, 18-22, 24-30].由于采用随机初始化的KM每次运行会得到不同的聚类结果, 因此可通过多次运行来生成聚类成员.该方法计算复杂度仅为O$(lknd)$, 其中$l$为聚类成员的个数, $k$为簇个数, $n$为数据集大小, $d$为特征数, 因此成为产生聚类成员最常见的方法[31]. 2)对不同的数据子集进行聚类, 例如随机投影、投影到不同的子空间、采用不同的采样技术、选择不同的特征子集等[11, 23]. 3)采用不同的聚类个数, 例如设置多个不同的$k$值或在指定的区间随机选择k[17].
1.2 聚类成员选择
文献[32]指出当聚类成员多样性较高时能够获得更好的集成效果.与此不同, 文献[33]指出适中的多样性能够获得最佳的集成效果.文献[28]认为不同数据集产生的聚类成员具有不同的特点, 应该区别对待, 提出了ACES: 1)采用AL对聚类集体(Full集)进行集成, 获得一致划分$\pi^{\ast }$; 2)计算所有聚类成员与$\pi ^{\ast }$的NMI值, 若平均NMI值(Mean NMI, MNMI)大于0.5, 则聚类集体稳定(Stable, S), 否则, 聚类集体不稳定(Non-stable, NS); 若聚类集体稳定, 则输出$\pi ^{\ast }$为最终的聚类集成结果, 若不稳定, 则选择与$\pi ^{\ast }$差异大的一半子集High (具体地, 将所有聚类成员与$\pi ^{\ast }$的NMI值按照降序排列, 选择NMI值小的一半子集), 采用AL对High集进行集成得到最终的聚类集成结果.
文献[27]提出了JC, CAS和CH三种聚类成员选择方法, 其中每个聚类成员的质量与该成员和其他聚类成员的归一化互信息之和(Sum of normalized mutual information, SNMI)成正比, 而聚类集体的多样性与所有聚类成员与其他成员的SNMI之和成反比. JC首先选择质量最高的聚类成员, 然后逐一选择使得目标函数值最大的聚类成员, 直到选出预设的$K$个聚类成员为止. CAS使用NJW谱算法[34]将聚类集体划分为$K$个分组, 并从每个分组中选出一个质量最高的聚类成员. CH首先根据聚类集体绘制质量-多样性图, 然后通过凸包创建该图的简要概括, 其中包括质量最高、多样性最大的聚类成员所对应的点, 最后选出有凸包内的点对应的聚类成员.该文使用CSPA (Cluster-based similarity partitioning algorithm)[11]作为一致性函数, 对JC, CAS和CH进行了实验比较, 总体来看, CAS获得了最佳聚类集成结果, 但需要人工设置聚类成员个数.
文献[29]提出最有效一致划分(Best validated consensus partition, BVCP), 采用不同的聚类成员选择方法选出不同子集, 并对每个子集进行集成, 获得多个候选一致划分(Candidate consensus partition, CCP), 最后使用多个相对有效性指标评价每个CCP, 得到最佳评价指标的CCP即为最终的一致划分.近期, 文献[30]基于证据空间扩展有效性指标Davies-Bouldin (DB), 利用聚类成员的类别相关矩阵度量差异性, 以较高有效性和较大差异性为目标选择聚类成员.
1.3 共识函数设计
聚类分析过程中, 对象标签是未知的, 因此不同聚类成员得到的簇标签没有显式的对应关系.另外, 聚类成员可能包含不同的簇个数, 使得簇标签对应问题极具挑战[11].根据是否显式解决簇标签对应问题, 聚类集成方法可分为以下两类: 1)组对法(Pairwise approach), 引入超图的邻接矩阵$H$将表示对象之间的两两关系, 有效避免了簇标签对应问题.根据处理的矩阵不同, 可以分为: a)对$H$ (或其加权矩阵)进行处理, 包括HGPA (Hypergraph partitioning algorithm)[11]和MCLA (Meta-clustering algorithm)[11]、基于NMF的方法[15]、基于KM的方法[19]、结合KM与拉普拉斯矩阵的方法[26]、基于矩阵低秩近似的方法[35]等; b)对相似度矩阵$S$ (或$S$的加权矩阵)进行处理, 包括基于图划分算法的CSPA[11]、混合模型方法[12]、二部图模型方法[13]、层次聚类法[14]、链接法[17]、加权共现矩阵(Weighted co-association matrices)方法[20]、使用多蚁群算法的方法[22]、基于AP的方法[24]、基于DP的方法[25]、基于谱聚类的方法[36]等.组对法因其思想简单而成为解决共识函数设计问题的主要方法. 2)重新标注法(Re-labeling approach), 包括累积投票(Cu- mulative voting)[16]、PRI (Probabilistic rand index)[18]、选择性投票[21]等.
2. 本文方法
2.1 聚类成员之间的差异性计算
在没有先验知识的情况下, 衡量聚类成员差异性大小的一种思路是依据聚类成员彼此之间的"相似"程度:两个聚类成员越相似, 差异越小, 反之差异越大.本文采用源自信息论的NMI值[11]来度量聚类成员之间的相似度, NMI值越大, 两个聚类结果的匹配程度越高, 其相似度越大, 差异性越小.通过计算聚类成员两两之间的NMI值, 即可得到聚类成员之间的相似度矩阵.
2.2 聚类集体稳定性判定方法
假设$l$个聚类成员构成的聚类集体$P=\{P^{(1)}$, $\cdots$, $P^{(l)}\}, $ ACES首先采用AL对聚类集体进行集成, 获得一致划分$\pi ^{\ast }$; 然后计算所有聚类成员与$\pi ^{\ast }$的NMI值, 若MNMI大于0.5, 则聚类集体稳定, 否则, 不稳定. MNMI的计算方法如下:
$ \begin{align} {\rm MNMI}=\frac{1}{l}\sum\limits_{i=1}^l {{\rm NMI}(P^{(i)}, \pi ^\ast )} \end{align} $
(1) 与ACES不同, 本文根据所有聚类成员之间的相似程度判定聚类集体的稳定性, 当所有聚类成员的TANMI大于0.5 (或NMI值大于0.5的比例Proportion较高, 例如Proportion $\ge 50$ %)时, 说明聚类集体的整体相似度较高, 差异性较低, 聚类集体稳定; 否则, 不稳定. TANMI的计算方法如下:
$ \begin{align} {\rm TANMI}=\frac{2}{l(l-1)}\sum\limits_{i=1}^{l-1} {\sum\limits_{j=i+1}^l {S_{ij} } } \end{align} $
(2) 其中, $S_{ij}$表示聚类成员$P^{(i)}$和$P^{(j)}$之间的NMI值, $S_{ij}$越大, 其相似度越大, 差异性越小. Proportion的计算方法如下:
$ \begin{align} {\rm Proportion}=\frac{2}{l(l-1)}\sum\limits_{i=1}^{l-1} {\sum\limits_{j=i+1}^l {F {(}S_{ij} )} } \end{align} $
(3) 其中, $F(x)$为指示函数:当$x>$ 0.5时, $F(x)$为1, 否则为0.
由式(1)可知, MNMI的大小不仅与聚类集体有关, 还与$\pi ^{\ast }$有关.由式(2)和式(3)可知, TANMI统计聚类集体的整体平均NMI值, Proportion统计聚类成员之间NMI值大于0.5的比例, 对于给定的聚类集体, TANMI和Proportion是固定不变的.聚类集体稳定性分为两种情况: 1)聚类集体稳定, 此时, 多数聚类成员之间的相似度较高, 差异性较低(NMI值大于0.50), Proportion $>0.5$, TANMI $>$ $0.5$, 多数聚类成员与$\pi ^{\ast }$的NMI值也大于0.5, 故MNMI $>0.5$, 因此, ACES与IACES方法都能正确判定聚类集体为稳定. 2)聚类集体不稳定, 此时, 多数聚类成员之间的相似度较低, 差异性较高(NMI值小于0.5), Proportion $ < 0.5$, TANMI $ < 0.5$, IACES方法能够正确判定聚类集体为不稳定, 而ACES判定聚类集体是否稳定与$\pi ^{\ast }$有关.当多数聚类成员与$\pi ^{\ast }$的NMI值大于0.5时, MNMI $>$ 0.5, ACES方法会将聚类集体误判为稳定; 当多数聚类成员与$\pi ^{\ast }$的NMI值小于0.5时, MNMI $ < $ 0.5, ACES方法判定聚类集体不稳定.
2.3 聚类成员选择方法
根据集成学习理论[37], 集成的泛化误差$E$等于集成中各基学习器的平均泛化误差$\overline E $与平均差异性$\overline A $之差, 即$E=\overline E -\overline A $.因此, 要提高集成学习的性能, 可从两个方面着手: 1)尽量降低各基学习器的误差; 2)尽量增加基学习器之间的差异性.
文献[28]通过实验对比了4种聚类成员集合, 分别是所有聚类成员构成的集合Full, 与$\pi $$^{\ast }$差异性最低的一半聚类成员构成的集合Low, 与$\pi ^{\ast }$差异性最高的一半聚类成员构成的集合High, 与$\pi ^{\ast }$差异性适中的一半聚类成员构成的集合Medium, 实验结果显示, 当聚类集体稳定时, 选择Full集合进行集成获得了最佳结果; 当聚类集体不稳定时, 选择High集合进行集成获得了最佳结果.
本文在ACES基础上进行了改进, 提出以下聚类成员选择方法:当聚类集体稳定时, 本文首先选择与$\pi ^{\ast }$的NMI值最大的1/4的聚类成员, 尽量降低聚类成员的平均误差; 然后选择与$\pi ^{\ast }$的差异性最高(NMI值最小)的1/4的聚类成员, 尽量增加平均差异性, 构成聚类成员集合LaH (Low and high); 另外, 为了避免选出精度较低的聚类成员(离群点), 在LaH集合中剔除部分平均NMI值较低的聚类成员.具体地, 本文对每个聚类成员与其他聚类成员的ANMI进行排名, 限制选出的聚类成员排名在前$\theta $以内, $0 \% < {\theta \le }100 \%.$不妨假设聚类成员$P^{(i)}$的ANMI$_{i}$排名为Rank$^{(i)}$, 则符合条件的聚类成员集合为$C={\{}P^{(i)}\vert $ Rank$^{(i)}/l\ge {\theta }, $ $1\le i\le l{\}}, $因此, 选择的聚类成员集合为LaH $\cap $ $C$, 其中$\cap $表示集合的交运算.此时, LaH $\cap $ $C$既具有较高质量, 又具有适中的差异性, 对其进行集成往往能够获得比${\pi }^{\ast }$更加优越的结果.当聚类集体不稳定时, 聚类成员提供了不同的聚类结构, 差异可能由聚类算法本身的偏置或数据集的复杂结构引起, 此时${\pi }^{\ast }$很可能偏离了真实分类结果, 因此应该尽量降低聚类成员的平均误差, 选择与${\pi }^{\ast }$差异性大的聚类成员(High集)可能会得到更好的结果.但High集里可能会存在一些质量较差的聚类成员, 此时可通过约束聚类成员的ANMI排名在某一范围内.本文对每个聚类成员与其他聚类成员的ANMI进行排名, 限制选出的聚类成员排名在前${\theta }$以内, $0\, \% < \theta \le 100\, \%, $因此, 选择的聚类成员集合为High $\cap $ $C$.
为了确定合理的$\theta $, 本文首先采用不同的$\theta $选出不同的聚类成员子集, 然后对每个子集进行集成, 获得多个CCP, 最后使用内部有效性指标DB对每个CCP进行评价, 得到最低DB值的CCP即为最终的一致划分.考虑到要确定最佳的参数$\theta $需要运行$l$次, 而DB的计算复杂度较高, 当聚类成员个数$l$较大时, 需要耗费极其高昂的计算代价.因此, 为了提高算法效率, 本文仅设置$\theta =10\, \%, 20\, \%, \cdots$, $100\, \%, $比较这10种情况下获得的最佳结果, 获得一个较优解.在本文实验中, 绝大多数情况下, 当$\theta $等于70 %, 80 %或90 %时获得了最低的DB值.
3. 实验
实验平台为Intel Xeon E5-1650六核处理器, 频率3.50 GHz, 内存16.00 GB, 程序在MATLAB2016b下运行.
3.1 实验数据集和评价指标
实验采用13组公共文本测试集, 具体描述如表 1所示, 数据集中的文本数($n_{d}$)从204 $\sim$ 8 580不等, 特征数($n_{w}$)从5 832 $\sim$ 41 681不等, 类别数($k$$^{\ast }$)从3 $\sim$ 10不等, 平均每个类别包含的文本数($n_{c}$)从34 $\sim$ 1 774不等, 平衡因子(Balance)从0.037 $\sim$ 0.998不等(Balance等于最小类别包含的文本数除以最大类别包含的文本数, 值越小, 数据集越不平衡, 反之越平衡).对于每个数据集, 使用停用词表移去停用词, 并且去掉出现在少于两个文本中的词.数据集tr11, tr23, tr41和tr45取自TREC-5TREC-6和TREC-7数据集la1, la2和la12取自TREC-5, 由洛杉矶时报(Los Angles Times)上的文章构成.数据集hitech, reviews和sports取自报纸San Jose Mercury, 它们是TREC文本集的一部分.数据集classic由用于评估信息检索系统的四种摘要构成, 每个摘要集合构成单独的一类.数据集k1b来自于WebACE project[38], 每个文本对应于Yahoo!主题层次下的一个网页. ng3为NG20的子集, 包含了有关政治的3个不同方面, 每方面分别包含约1 000条信息.
表 1 实验数据集描述Table 1 Description of datasetsDataset $n_{d}$ $n_{w}$ $k$$^{\ast }$ $n_{c}$ Balance tr11 414 6 429 9 46 0.046 tr23 204 5 832 6 34 0.066 tr41 878 7 454 10 88 0.037 tr45 690 8 261 10 69 0.088 la1 3 204 31 472 6 534 0.290 la2 3 075 31 472 6 543 0.274 la12 6 279 31 472 6 1 047 0.282 hitech 2 301 10 080 6 384 0.192 reviews 4 069 18 483 5 914 0.098 sports 8 580 14 870 7 1 226 0.036 classic 7 094 41 681 4 1 774 0.323 k1b 2 340 21 839 6 390 0.043 ng3 2 998 15 810 3 999 0.998 因为文本类别标签已知, 本文采用NMI值量化聚类结果和已知类别的匹配程度.当两个类别标签一一对应时, NMI值达到最大值1.另外, 本文还采在信息检索领域常用的综合指标, F值(F-measure). F值越大, 聚类质量越高, 反之越低.
3.2 实验设计与结果分析
本节通过实验对文献[28]提出的ACES、本文提出的IACES、文献[27]提出的CAS进行比较, 其中ACES和IACES根据聚类集体的稳定性自适应选择不同的聚类成员, CAS通过人工设置的方法选择不同个数的聚类成员(分别设置为聚类集体大小的5~25 %, 以5 %递增, 本文沿用该方法).实验分为两部分: 1)聚类集体稳定性判定方法对比, 分别根据ACES和IACES判定出聚类集体的稳定性结果, 并进行分析比较, 验证本文提出的聚类集体稳定性判定方法的有效性; 2)聚类成员选择方法对比, 分别根据ACES, IACES和CAS选择不同的聚类成员集合并采用不同的共识函数设计方法进行集成, 比较不同算法获得的NMI值和F值, 验证本文的聚类成员选择方法的有效性.下面对实验中采用的聚类成员生成策略和共识函数设计方法进行介绍.
首先对经过预处理的文本数据集进行TF-IDF (Term frequency-inverse document frequency)加权, 然后运行使用余弦相似度的KM算法$l$次, 每次生成$k_{0}$个簇, 采用如下两种不同的策略分别生成$l$ $=$ 1 000个聚类成员: 1) $k_{0}=k^{\ast }$; 2) $k_{0}$随机选自区间[2, $2\times k^{\ast }$], 由此分别构建聚类集体$P_{1}$和$P_{2}$.策略1是聚类集成研究中最常见的方法, 由于采用了相同的聚类算法, 每个算法生成的簇个数相等, 因此聚类成员的差异性仅由不同初始聚类中心引起, 聚类集体往往会缺乏多样性.策略2试图通过约束聚类成员具有不同的簇个数来提高聚类成员多样性.
常见的共识函数设计方法有基于图划分算法的CSPA, HGPA, MCLA (其中CSPA总体聚类效果最好), 基于层次聚类SL, CL, AL, WL的方法(其中AL总体聚类效果最好), 基于谱聚类(Spectral clustering, SC)的方法, 基于KM的方法.因此, 本文采用CSPA, AL, SC和KM进行集成. CSPA调用了图划分算法METIS, 不平衡因子UB取默认值0.05, 得到稳定的聚类结果. AL获得了稳定的聚类结果.谱聚类方法由于调用了KM算法, 在部分数据集上获得的聚类结果不够稳定, 本文重复运行KM算法10次取最优结果.基于KM的方法获得的聚类结果极不稳定, 受初始聚类中心影响较大.为了提高聚类结果的稳定性和聚类质量, 本文引入K-means++ (KM++)算法, 运行KM++ 10次取最优结果.
3.2.1 聚类集体稳定性判定方法对比
表 2给出了分别根据ACES和IACES方法判定的聚类集体稳定性结果, 其中MNMI值根据式(1)计算, Number表示与$\pi $$^{\ast }$的NMI值大于0.5的聚类成员个数, TANMI根据式(2)计算, Proportion根据式(3)计算, Stability为"S"表示聚类集体稳定, Stability为"NS"表示聚类集体不稳定.
表 2 分别根据ACES和IACES判定的聚类集体稳定性结果Table 2 Stability results of cluster ensemble according to ACES and IACES聚类集体$P_{1}$ 聚类集体$P_{2}$ ACES IACES ACES IACES Dataset MNMI Number Stability TANMI Proportion Stability MNMI Number Stability TANMI Proportion Stability tr11 0.655 989 S 0.539 0.7498 S 0.682 940 S 0.574 0.8384 S tr23 0.663 991 S 0.607 0.9361 S 0.712 904 S 0.649 0.8736 S tr41 0.731 999 S 0.642 0.9939 S 0.732 959 S 0.649 0.8922 S tr45 0.718 1 000 S 0.640 0.9917 S 0.705 922 S 0.616 0.8121 S la1 0.597 863 S 0.514 0.5553 S 0.592 894 S 0.541 0.6879 S la2 0.593 934 S 0.524 0.6296 S 0.539 735 S 0.489 0.4374 NS la12 0.634 973 S 0.558 0.7586 S 0.570 838 S 0.493 0.4938 NS hitech 0.551 727 S 0.475 0.3251 NS 0.537 654 S 0.458 0.2602 NS reviews 0.683 940 S 0.610 0.8480 S 0.672 958 S 0.608 0.7622 S sports 0.736 998 S 0.652 0.9637 S 0.651 958 S 0.585 0.7443 S classic 0.801 966 S 0.692 0.8375 S 0.709 945 S 0.594 0.7500 S k1b 0.673 994 S 0.585 0.8992 S 0.654 969 S 0.555 0.7811 S ng3 0.541 664 S 0.451 0.3791 NS 0.525 648 S 0.467 0.4441 NS 根据表 2, 可以进行以下比较:
1) 因为在所有数据集上MNMI值都大于0.5, 所以ACES将由不同聚类成员生成策略产生的聚类集体都判定为稳定.当$k_{0}=k^{\ast }$时, 在hitech和ng3上, 聚类集体的TANMI值小于0.5, 所以IACES将其判定为不稳定, 而在其他11个数据集上, 聚类集体的TANMI值大于0.5, 所以IACES将其判定为稳定; 当$k_{0}\in [2, 2\times k^{\ast }$]时, 在la2, la12, hitech和ng3上, 聚类集体的TANMI值小于0.5, 所以IACES将其判定为不稳定, 而在其他9个数据集上, 聚类集体的TANMI值都大于0.5, 所以IACES将其判定为稳定.
2) 如果以Proportion是否高于0.5来判定聚类集体稳定与否, 那么在所有数据集上的判定结果都与依据TANMI判定的结果一致, 而在部分数据集上与依据MNMI判定的结果不一致.究其原因, 当半数以上的聚类成员之间的NMI值大于0.5时, 聚类集体的差异性相对较低, 聚类集体稳定.此时, TANMI值也大于0.5, 绝大多数聚类成员(Number $>$ 500)与$\pi ^{\ast }$的NMI值大于0.5, 故MNMI也大于0.5.因此, 根据TANMI和ANMI判定的结果都是聚类集体稳定.然而, 当半数以下的聚类成员之间的NMI值大于0.5时, 聚类集体的差异性相对较高, 聚类集体不稳定.此时, TANMI值也小于0.5, 但仍然有绝大多数聚类成员(Number $>$ 500)与$\pi ^{\ast }$的NMI值大于0.5, 故MNMI仍然大于0.5.因此, 根据TANMI判定的结果是聚类集体不稳定, 而根据ANMI判定的结果依然是聚类集体稳定.
综上, 由于IACES依据TANMI判定聚类集体稳定性, 只客观地依赖于聚类集体本身的特性, 因此能够准确判定其稳定性; 而由于ACES依据MNMI判定聚类集体稳定性, 与初始一致划分$\pi ^{\ast} $有关, 因此会将某些不稳定的聚类集体误判为稳定.
3.2.2 聚类成员选择方法对比
1) 分别根据ACES和IACES选择聚类成员并进行集成获得的结果对比.
图 2和图 3分别显示了采用聚类集体$P_{1}$和$P_{2}$时根据ACES和IACES选择聚类成员, 并采用CSPA, AL, SC, KM++进行集成获得的NMI值和F值, 其中Average统计了8种算法(以"聚类成员选择方法_共识函数设计方法"命名)在13组数据集上的平均结果.
根据图 2, 分别比较不同共识函数根据ACES和IACES选择聚类成员并进行集成获得的NMI值和F值, 可以发现:
a) 对于聚类集体不稳定的2种情况(hitech和ng3), IACES_CSPA, IACES_AL, IACES_SC和IACES_KM++获得的NMI值和F值都分别高于ACES_CSPA, ACES_AL, ACES_SC和ACES_ KM++.
b) 对于其他11种聚类集体稳定的情况, IACES_CSPA仅在tr23, la1, sports上获得了比ACES_CSPA低的NMI值和F值, 而在其他8组数据集上都获得了高于ACES_CSPA的NMI值和F值; IACES_AL仅在la12和k1b上获得了比ACES_AL低的NMI值和F值, 而在其他9组数据集上都获得了高于ACES_AL的NMI值和F值; IACES_SC仅在tr45上获得了比ACES_SC低的NMI值, 而在其他10组数据集上都获得了高于ACES_SC的NMI值, IACES_SC仅在tr45和k1b上获得了比ACES_SC低的F值, 而在其他9组数据集上都获得了高于ACES_SC的F值; IACES_KM++仅在la12上获得了比ACES_ KM++低的NMI值和F值, 而在其他10组数据集上都获得了高于ACES_KM++的NMI值和F值.
c) 总体来看, 当采用聚类集体$P_{1}$时, 与ACES相比, 采用IACES进行成员选择, CSPA分别以10/13和10/13的比例提高了NMI值和F值; AL分别以11/13和11/13的比例提高了NMI值和F值; SC分别以12/13和11/13的比例提高了NMI值和F值; KM++分别以12/13和12/13的比例提高了NMI值和F值; CSPA, AL, SC, KM++获得的平均NMI值和F值都有不同程度的提高.
根据图 3, 分别比较不同共识函数根据ACES和IACES选择聚类成员并进行集成获得的NMI值和F值, 可以发现:
a) 对于聚类集体不稳定的4种情况(la2, la12, hitech和ng3), IACES_CSPA在la2, la12和ng3上获得的NMI值和F值低于IACES_CSPA, 在hitech上获得了比ACES_CSPA高的NMI和F值; IACES_AL, IACES_SC和IACES_KM++获得的NMI值和F值都分别高于ACES_AL, ACES_SC和ACES_KM++.
b) 对于其他7种聚类集体稳定的情况, IACES_CSPA在所有7组数据集上都获得了高于ACES_CSPA的NMI值和F值; IACES_AL仅在tr11和la1上获得了比ACES_AL低的NMI值, 而在其他5组数据集上都获得了高于ACES_ AL的NMI值, IACES_AL仅在la1上获得了比ACES_AL低的F值, 而在其他6组数据集上都获得了高于ACES_AL的F值; IACES_SC仅在la1上获得了比ACES_SC低的NMI值, 而在其他6组数据集上都获得了高于ACES_SC的NMI值, IACES_SC仅在tr41上获得了比ACES_SC低的F值, 而在其他6组数据集上都获得了高于ACES_ SC的F值; IACES_KM++仅在la1上获得了比ACES_KM++低的NMI值和F值, 而在其他6组数据集上都获得了高于ACES_KM++的NMI值和F值.
c) 总体来看, 当采用聚类集体$P_{2}$时, 与ACES相比, 采用IACES进行成员选择, CSPA分别以10/13和10/13的比例提高了NMI值和F值; AL分别以11/13和12/13的比例提高了NMI值和F值; SC分别以12/13和11/13的比例提高了NMI值和F值; KM++分别以12/13和12/13的比例提高了NMI值和F值; CSPA, AL, SC, KM++获得的平均NMI值和F值都有不同程度的提高.
综上, 与ACES相比, 根据IACES选择聚类成员进行CSPA, AL, SC和KM++集成在绝大部分情况下都获得了更高的NMI值和F值, 每个共识函数设计方法在所有数据集上获得的平均NMI值和F值都更高.
2) 聚类成员选择方法CAS, ACES, IACES综合比较
本文实验中聚类集体大小为1 000, CAS分别选择$s=50, 100, 150, 200, 250$个聚类成员, 每个$s$对应一种聚类成员选择方法, 例如CAS ($s=50$)表示根据CAS选择50个聚类成员.图 4和图 5分别显示了当采用聚类集体$P_{1}$和$P_{2}$时, 根据CAS, ACES和IACES选择聚类成员并采用CSPA, AL, SC, KM++进行集成获得的NMI值和F值的平均值(例如, 图 4中的IACES表示4个聚类集成算法IACES_CSPA, IACES_AL, IACES_SC, IACES_ KM++获得的NMI值的平均值), 其中Total average统计了7种不同聚成员选择方法在13组数据集上的平均结果.
a) IACES在每个数据集上获得的NMI值和F值的平均值都高于ACES和CAS.
b) ACES在某些数据集上获得的NMI值和F值的平均值低于CAS (例如图 4中的tr23和ng3), 但在绝大部分情况下都高于CAS.
c) 总体来看, IACES在所有数据集上获得了最高的平均结果, ACES次之, 即自适应聚类成员选择方法ACES优于CAS方法, 而本文的方法则比ACES更加优越.
4. 结论
本文提出了一种改进的自适应聚类集成选择方法(IACES), 有效解决了ACES存在的聚类集体稳定性判定方法不客观和聚类成员选择方法不够合理的问题.在多组基准数据集上进行了实验, 实验结果表明: 1) IACES能够准确判定聚类集体的稳定性, 而ACES会将某些不稳定的聚类集体误判为稳定; 2)与其他聚类成员选择方法相比, 根据IACES选择聚类成员进行集成在绝大部分情况下都获得了更佳的聚类结果, 在所有数据集上都获得了更优的平均聚类结果.
-
表 1 实验数据集描述
Table 1 Description of datasets
Dataset $n_{d}$ $n_{w}$ $k$$^{\ast }$ $n_{c}$ Balance tr11 414 6 429 9 46 0.046 tr23 204 5 832 6 34 0.066 tr41 878 7 454 10 88 0.037 tr45 690 8 261 10 69 0.088 la1 3 204 31 472 6 534 0.290 la2 3 075 31 472 6 543 0.274 la12 6 279 31 472 6 1 047 0.282 hitech 2 301 10 080 6 384 0.192 reviews 4 069 18 483 5 914 0.098 sports 8 580 14 870 7 1 226 0.036 classic 7 094 41 681 4 1 774 0.323 k1b 2 340 21 839 6 390 0.043 ng3 2 998 15 810 3 999 0.998 表 2 分别根据ACES和IACES判定的聚类集体稳定性结果
Table 2 Stability results of cluster ensemble according to ACES and IACES
聚类集体$P_{1}$ 聚类集体$P_{2}$ ACES IACES ACES IACES Dataset MNMI Number Stability TANMI Proportion Stability MNMI Number Stability TANMI Proportion Stability tr11 0.655 989 S 0.539 0.7498 S 0.682 940 S 0.574 0.8384 S tr23 0.663 991 S 0.607 0.9361 S 0.712 904 S 0.649 0.8736 S tr41 0.731 999 S 0.642 0.9939 S 0.732 959 S 0.649 0.8922 S tr45 0.718 1 000 S 0.640 0.9917 S 0.705 922 S 0.616 0.8121 S la1 0.597 863 S 0.514 0.5553 S 0.592 894 S 0.541 0.6879 S la2 0.593 934 S 0.524 0.6296 S 0.539 735 S 0.489 0.4374 NS la12 0.634 973 S 0.558 0.7586 S 0.570 838 S 0.493 0.4938 NS hitech 0.551 727 S 0.475 0.3251 NS 0.537 654 S 0.458 0.2602 NS reviews 0.683 940 S 0.610 0.8480 S 0.672 958 S 0.608 0.7622 S sports 0.736 998 S 0.652 0.9637 S 0.651 958 S 0.585 0.7443 S classic 0.801 966 S 0.692 0.8375 S 0.709 945 S 0.594 0.7500 S k1b 0.673 994 S 0.585 0.8992 S 0.654 969 S 0.555 0.7811 S ng3 0.541 664 S 0.451 0.3791 NS 0.525 648 S 0.467 0.4441 NS -
[1] Duda R O, Hart P E, Stork D G. Pattern Classification (2nd edition). New York:John Wiley and Sons, 2001. [2] Jain A K, Murty M N, Flynn P J. Data clustering:a review. ACM Computing Surveys (CSUR), 1999, 31(3):264-323 doi: 10.1145/331499.331504 [3] Jain A K. Data clustering:50 years beyond K-means. Pattern Recognition Letters, 2010, 31(8):651-666 doi: 10.1016/j.patrec.2009.09.011 [4] Lee D D, Seung H S. Learning the parts of objects by non-negative matrix factorization. Nature, 1999, 401(6755):788-791 doi: 10.1038/44565 [5] Frey B J, Dueck D. Clustering by passing messages between data points. Science, 2007, 315(5814):972-976 doi: 10.1126/science.1136800 [6] Deng Z H, Choi K S, Jiang Y Z, Wang J, Wang S T. A survey on soft subspace clustering. Information Sciences, 2014, 348:84-106 http://dl.acm.org/citation.cfm?id=2906693 [7] Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks. Science, 2006, 313(5786):504-507 doi: 10.1126/science.1127647 [8] Xie J Y, Girshick R, Farhadi A. Unsupervised deep embedding for clustering analysis. In:Proceedings of the 33rd International Conference on Machine Learning. New York City, NY, USA:International Machine Learning Society, 2016. 478-487 [9] Rodriguez A, Laio A. Clustering by fast search and find of density peaks. Science, 2014, 344(6191):1492-1496 doi: 10.1126/science.1242072 [10] von Luxburg U. A tutorial on spectral clustering. Statistics and Computing, 2007, 17(4):395-416 doi: 10.1007/s11222-007-9033-z [11] Strehl A, Ghosh J. Cluster ensembles-a knowledge reuse framework for combining multiple partitions. The Journal of Machine Learning Research, 2002, 3(3):583-617 http://dl.acm.org/citation.cfm?id=944935 [12] Topchy A, Jain A K, Punch W. A mixture model for clustering ensembles. In:Proceedings of the 4th SIAM International Conference on Data Mining. Lake Buena Vista, FL, USA:SIAM, 2004. 379-390 [13] Fern X Z, Brodley C E. Solving cluster ensemble problems by bipartite graph partitioning. In:Proceedings of the 21st International Conference on Machine Learning. Banff, Alberta, Canada:ACM, 2004. 36 [14] Fred A L N, Jain A K. Combining multiple clusterings using evidence accumulation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(6):835-850 doi: 10.1109/TPAMI.2005.113 [15] Li T, Ding C, Jordan M I. Solving consensus and semi-supervised clustering problems using nonnegative matrix factorization. In:Proceedings of the 7th IEEE International Conference on Data Mining (ICDM). Omaha, NE, USA:IEEE, 2007. 577-582 [16] Ayad H G, Kamel M S. Cumulative voting consensus method for partitions with variable number of clusters. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2008, 30(1):160-173 doi: 10.1109/TPAMI.2007.1138 [17] Iam-On N, Boongeon T, Garrett S, Price C. A link-based cluster ensemble approach for categorical data clustering. IEEE Transactions on Knowledge and Data Engineering, 2012, 24(3):413-425 doi: 10.1109/TKDE.2010.268 [18] Carpineto C, Romano G. Consensus clustering based on a new probabilistic rand index with application to subtopic retrieval. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(12):2315-2326 doi: 10.1109/TPAMI.2012.80 [19] Wu J J, Liu H F, Xiong H, Cao J, Chen J. K-means-based consensus clustering:a unified view. IEEE Transactions on Knowledge and Data Engineering, 2015, 27(1):155-169 doi: 10.1109/TKDE.2014.2316512 [20] Berikov V, Pestunov I. Ensemble clustering based on weighted co-association matrices:error bound and convergence properties. Pattern Recognition, 2017, 63:427-436 doi: 10.1016/j.patcog.2016.10.017 [21] Zhou Z H, Tang W. Clusterer ensemble. Knowledge-Based Systems, 2006, 19(1):77-83 doi: 10.1016/j.knosys.2005.11.003 [22] Yang Y, Kamel M S. An aggregated clustering approach using multi-ant colonies algorithms. Pattern Recognition, 2006, 39(7):1278-1289 doi: 10.1016/j.patcog.2006.02.012 [23] 罗会兰, 孔繁胜, 李一啸.聚类集成中的差异性度量研究.计算机学报, 2007, 30(8):1315-1324 doi: 10.3321/j.issn:0254-4164.2007.08.013Luo Hui-Lan, Kong Fan-Sheng, Li Yi-Xiao. An analysis of diversity measures in clustering ensembles. Chinese Journal of Computers, 2007, 30(8):1315-1324 doi: 10.3321/j.issn:0254-4164.2007.08.013 [24] Yu Z W, Li L, Liu J M, Zhang J, Han G Q. Adaptive noise immune cluster ensemble using affinity propagation. IEEE Transactions on Knowledge and Data Engineering, 2015, 27(12):3176-3189 doi: 10.1109/TKDE.2015.2453162 [25] 褚睿鸿, 王红军, 杨燕, 李天瑞.基于密度峰值的聚类集成.自动化学报, 2016, 42(9):1401-1412 http://www.aas.net.cn/CN/abstract/abstract18928.shtmlChu Rui-Hong, Wang Hong-Jun, Yang Yan, Li Tian-Rui. Clustering ensemble based on density peaks. Acta Automatica Sinica, 2016, 42(9):1401-1412 http://www.aas.net.cn/CN/abstract/abstract18928.shtml [26] Xu S, Chan K S, Gao J, Xu X F, Li X F, Hua X P, An J. An integrated K-means-Laplacian cluster ensemble approach for document datasets. Neurocomputing, 2016, 214:495-507 doi: 10.1016/j.neucom.2016.06.034 [27] Fern X Z, Lin W. Cluster ensemble selection. Statistical Analysis and Data Mining, 2008, 1(3):128-141 doi: 10.1002/sam.v1:3 [28] Azimi J, Fern X. Adaptive cluster ensemble selection. In:Proceedings of the 21st International Joint Conference on Artificial Intelligence. Pasadena, California, USA:ACM, 2009. 992-997 [29] Naldi M C, Carvalho A C P L F, Campello R J G B. Cluster ensemble selection based on relative validity indexes. Data Mining and Knowledge Discovery, 2013, 27(2):259-289 doi: 10.1007/s10618-012-0290-x [30] 毕凯, 王晓丹, 邢雅琼.基于证据空间有效性指标的聚类选择性集成.通信学报, 2015, 36(8):135-145 http://d.old.wanfangdata.com.cn/Periodical/txxb201508017Bi Kai, Wang Xiao-Dan, Xing Ya-Qiong. Cluster ensemble selection based on validity index in evidence space. Journal on Communications, 2015, 36(8):135-145 http://d.old.wanfangdata.com.cn/Periodical/txxb201508017 [31] Iam-On N, Boongoen T. Comparative study of matrix refinement approaches for ensemble clustering. Machine Learning, 2015, 98(1-2):269-300 doi: 10.1007/s10994-013-5342-y [32] Fern X Z, Brodley C E. Random projection for high dimensional data clustering:a cluster ensemble approach. In:Proceedings of the 20th International Conference on Machine Learning. Washington, DC, USA:ACM, 2003. 186-193 [33] Hadjitodorov S T, Kuncheva L I, Todorova L P. Moderate diversity for better cluster ensembles. Information Fusion, 2006, 7(3):264-275 doi: 10.1016/j.inffus.2005.01.008 [34] Ng A Y, Jordan M I, Weiss Y. On spectral clustering:analysis and an algorithm. In:Proceedings of the 14th International Conference on Neural Information Processing Systems:Natural and Synthetic. Vancouver, British Columbia, Canada:ACM, 2001. 849-856 [35] 徐森, 周天, 于化龙, 李先锋.一种基于矩阵低秩近似的聚类集成算法.电子学报, 2013, 41(6):1219-1224 doi: 10.3969/j.issn.0372-2112.2013.06.028Xu Sen, Zhou Tian, Yu Hua-Long, Li Xian-Feng. Matrix low rank approximation-based cluster ensemble algorithm. Acta Electronica Sinica, 2013, 41(6):1219-1224 doi: 10.3969/j.issn.0372-2112.2013.06.028 [36] 周林, 平西建, 徐森, 张涛.基于谱聚类的聚类集成算法.自动化学报, 2012, 38(8):1335-1342 http://www.aas.net.cn/CN/abstract/abstract17740.shtmlZhou Lin, Ping Xi-Jian, Xu Sen, Zhang Tao. Cluster ensemble based on spectral clustering. Acta Automatica Sinica, 2012, 38(8):1335-1342 http://www.aas.net.cn/CN/abstract/abstract17740.shtml [37] Krogh A, Vedelsby J. Neural network ensembles, cross validation and active learning. In:Proceedings of the 7th International Conference on Neural Information Processing Systems. Denver, CO, USA:ACM, 1994. 231-238 [38] Han E H, Boley D, Gini M, Gross R, Hastings K, Karypis G, Kumar V, Mobasher B, Moore J. WebACE:a web agent for document categorization and exploration. In:Proceedings of the 2nd International Conference on Autonomous Agents. Minneapolis, Minnesota, USA:ACM, 1998. 408-415 期刊类型引用(8)
1. 李娜,徐森,徐秀芳,许贺洋,郭乃瑄,刘轩绮,周天. 一种三层加权文本聚类集成方法. 智能系统学报. 2024(04): 807-816 . 百度学术
2. 徐秀芳,徐丹妍,徐森,郭乃瑄,许贺洋. 一种结合谱聚类与关联规则的轴承故障诊断方法. 计算机测量与控制. 2023(01): 51-58 . 百度学术
3. 王安琪,江峰,张友强,杜军威. 基于近似约简与最优采样的集成剪枝. 计算机系统应用. 2022(07): 210-216 . 百度学术
4. 王子瑜,张长江,周军华,李强. 基于TMS320C6455的弱小运动目标的检测跟踪算法的研究. 舰船电子工程. 2022(11): 37-39+54 . 百度学术
5. 王江峰,徐森,徐秀芳,花小朋,皋军,安晶. 聚类成员簇个数的选择方法研究. 盐城工学院学报(自然科学版). 2022(04): 51-56 . 百度学术
6. 徐华杰. K-means聚类在A保险公司客户细分模型中的研究. 网络安全技术与应用. 2021(09): 39-41 . 百度学术
7. 王留洋,俞扬信,陈伯伦,章慧. 基于共识和分类改善文档聚类的识别信息方法. 计算机应用. 2020(04): 1069-1073 . 百度学术
8. 皋军,黄欣辰,邵星. 基于成对约束的半监督选择性聚类集成. 江苏科技大学学报(自然科学版). 2020(04): 57-63 . 百度学术
其他类型引用(18)
-