2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于低秩约束的熵加权多视角模糊聚类算法

张嘉旭 王骏 张春香 林得富 周塔 王士同

张嘉旭, 王骏, 张春香, 林得富, 周塔, 王士同. 基于低秩约束的熵加权多视角模糊聚类算法. 自动化学报, 2022, 48(7): 1760−1770 doi: 10.16383/j.aas.c190350
引用本文: 张嘉旭, 王骏, 张春香, 林得富, 周塔, 王士同. 基于低秩约束的熵加权多视角模糊聚类算法. 自动化学报, 2022, 48(7): 1760−1770 doi: 10.16383/j.aas.c190350
Zhang Jia-Xu, Wang Jun, Zhang Chun-Xiang, Lin De-Fu, Zhou Ta, Wang Shi-Tong. Entropy-weighting multi-view fuzzy C-means with low rank constraint. Acta Automatica Sinica, 2022, 48(7): 1760−1770 doi: 10.16383/j.aas.c190350
Citation: Zhang Jia-Xu, Wang Jun, Zhang Chun-Xiang, Lin De-Fu, Zhou Ta, Wang Shi-Tong. Entropy-weighting multi-view fuzzy C-means with low rank constraint. Acta Automatica Sinica, 2022, 48(7): 1760−1770 doi: 10.16383/j.aas.c190350

基于低秩约束的熵加权多视角模糊聚类算法

doi: 10.16383/j.aas.c190350
基金项目: 国家自然科学基金(61772239), 江苏省自然科学基金(BK20181339)资助
详细信息
    作者简介:

    张嘉旭:江南大学数字媒体学院硕士研究生. 主要研究方向为人工智能和模式识别. E-mail: zhangjiaxu@hl.chinamobile.com

    王骏:上海大学通信与信息工程学院副教授. 主要研究方向为人工智能, 模糊聚类和医学图像分类. 本文通信作者. E-mail: wangjun_sytu@hotmail.com

    张春香:江南大学数字媒体学院硕士研究生. 主要研究方向为人工智能和模式识别. E-mail: 17851308360@163.com

    林得富:江南大学数字媒体学院硕士研究生. 主要研究方向为人工智能和模式识别. E-mail: jiangnandaxu_2022@yeah.net

    周塔:江苏科技大学电子信息学院副教授. 主要研究方向为人工智能, 模式识别与智能系统. E-mail: jkdzhout@just.edu.cn

    王士同:江南大学数字媒体学院教授. 主要研究方向为人工智能和模式识别. E-mail: wxwangst@aliyun.com

Entropy-weighting Multi-view Fuzzy C-means With Low Rank Constraint

Funds: Supported by National Natural Science Foundation of China (61772239) and Natural Science Foundation of Jiangsu Province (BK20181339)
More Information
    Author Bio:

    ZHANG Jia-Xu Master student at the School of Digital Media, Jiangnan University. His research interest covers artificial intelligence and data mining

    WANG Jun Associate professor at the School of Communication and Information Engineering,Shanghai University. His research interest covers artificial intelligence, fuzzy clustering, and medical image classification. Corresponding author of this paper

    ZHANG Chun-Xiang Master student at the School of Digital Media, Jiangnan University. Her research interest covers artificial intelligence and data mining

    LIN De-Fu Master student at the School of Digital Media, Jiangnan University. His research interest covers artificial intelligence and data mining

    ZHOU Ta Associate professor at the School of Electronic Information, Jiangsu University of Science and Technology. His research interest covers artificial intelligence, pattern recognition, and intelligent systems

    WANG Shi-Tong Professor at the School of Digital Media, Jiangnan University. His research interest covers artificial intelligence and data mining

  • 摘要: 如何有效挖掘多视角数据内部的一致性以及差异性是构建多视角模糊聚类算法的两个重要问题. 本文在Co-FKM算法框架上, 提出了基于低秩约束的熵加权多视角模糊聚类算法(Entropy-weighting multi-view fuzzy C-means with low rank constraint, LR-MVEWFCM). 一方面, 从视角之间的一致性出发, 引入核范数对多个视角之间的模糊隶属度矩阵进行低秩约束; 另一方面, 基于香农熵理论引入视角权重自适应调整策略, 使算法根据各视角的重要程度来处理视角间的差异性. 本文使用交替方向乘子法(Alternating direction method of multipliers, ADMM)进行目标函数的优化. 最后, 人工模拟数据集和UCI (University of California Irvine)数据集上进行的实验结果验证了该方法的有效性.
  • 随着多样化信息获取技术的发展, 人们可以从不同途径或不同角度来获取对象的特征数据, 即多视角数据. 多视角数据包含了同一对象不同角度的信息. 例如: 网页数据中既包含网页内容又包含网页链接信息; 视频内容中既包含视频信息又包含音频信息; 图像数据中既涉及颜色直方图特征、纹理特征等图像特征, 又涉及描述该图像内容的文本. 多视角学习能有效地对多视角数据进行融合, 避免了单视角数据数据信息单一的问题[1-4].

    多视角模糊聚类是一种有效的无监督多视角学习方法[5-7]. 它通过在多视角聚类过程中引入各样本对不同类别的模糊隶属度来描述各视角下样本属于该类别的不确定性程度. 经典的工作有: 文献[8]以经典的单视角模糊C均值(Fuzzy C-means, FCM)算法作为基础模型, 利用不同视角间的互补信息确定协同聚类的准则, 提出了Co-FC (Collaborative fuzzy clustering)算法; 文献[9]参考文献[8]的协同思想提出Co-FKM (Multiview fuzzy clustering algorithm collaborative fuzzy K-means)算法, 引入双视角隶属度惩罚项, 构造了一种新型的无监督多视角协同学习方法; 文献[10]借鉴了Co-FKM和Co-FC所使用的双视角约束思想, 通过引入视角权重, 并采用集成策略来融合多视角的模糊隶属度矩阵, 提出了WV-Co-FCM (Weighted view colla-borative fuzzy C-means) 算法; 文献[11]通过最小化双视角下样本与聚类中心的欧氏距离来减小不同视角间的差异性, 基于K-means聚类框架提出了Co-K-means (Collaborative multi-view K-means clustering)算法; 在此基础上, 文献[12]提出了基于模糊划分的TW-Co-K-means (Two-level wei-ghted collaborative K-means for multi-view clustering)算法, 对Co-K-means算法中的双视角欧氏距离加入一致性权重, 获得了比Co-K-means更好的多视角聚类结果. 以上多视角聚类方法都基于成对视角来构造不同的正则化项来挖掘视角之间的一致性和差异性信息, 缺乏对多个视角的整体考虑.

    一致性和差异性是设计多视角聚类算法需要考虑的两个重要原则[10-14]. 一致性是指在多视角聚类过程中, 各视角的聚类结果应该尽可能保持一致. 在设计多视角聚类算法时, 往往通过协同、集成等手段来构建全局划分矩阵, 从而得到最终的聚类结果[14-16]. 差异性是指多视角数据中的每个视角均反映了对象在不同方面的信息, 这些信息互为补充[10], 在设计多视角聚类算法时需要对这些信息进行充分融合. 综合考虑这两方面的因素, 本文拟提出新型的低秩约束熵加权多视角模糊聚类算法(Entropy-weighting multi-view fuzzy C-means with low rank constraint, LR-MVEWFCM), 其主要创新点可以概括为以下3个方面:

    1)在模糊聚类框架下提出了面向视角一致性的低秩约束准则. 已有的多视角模糊聚类算法大多基于成对视角之间的两两关系来构造正则化项, 忽视了多个视角的整体一致性信息. 本文在模糊聚类框架下从视角全局一致性出发引入低秩约束正则化项, 从而得到新型的低秩约束多视角模糊聚类算法.

    2) 在模糊聚类框架下同时考虑多视角聚类的一致性和差异性, 在引入低秩约束的同时进一步使用面向视角差异性的多视角香农熵加权策略; 在迭代优化的过程中, 通过动态调节视角权重系数来突出具有更好分离性的视角的权重, 从而提高聚类性能.

    3)在模糊聚类框架下首次使用交替方向乘子法(Alternating direction method of multipliers, ADMM)[15]对LR-MVEWFCM算法进行优化求解.

    在本文中, 令$ N $为样本总量, $ D $为样本维度, $ K $为视角数目, $ C $为聚类数目, $ m $为模糊指数. 设$ {\boldsymbol{x}}_{j,k} $表示多视角场景中第$ j $个样本第$ k $个视角的特征向量, $ j = 1,\cdots{},N $, $ k = 1,\cdots{},K $; $ {\boldsymbol{v}}_{i,k} $表示第$ k $个视角下, 第$ i $个聚类中心, $ i = 1,\cdots{},C $; $ U_k = \left[{\mu{}}_{ij,k}\right] $表示第$ k $个视角下的模糊隶属度矩阵, 其中$ {\mu{}}_{ij,k} $是第$ k $个视角下第$ j $个样本属于第$ i $个聚类中心的模糊隶属度, $ i = 1,\cdots{},C $, $ j = 1,\cdots{},N. $

    本文第1节在相关工作中回顾已有的经典模糊C均值聚类算法FCM模型[17]和多视角模糊聚类Co-FKM模型[9]; 第2节将低秩理论与多视角香农熵理论相结合, 提出本文的新方法; 第3节基于模拟数据集和UCI (University of California Irvine)数据集验证本文算法的有效性, 并给出实验分析; 第4节给出实验结论.

    设单视角环境下样本${\boldsymbol{x}}_1,\cdots{},{\boldsymbol{x}}_N\in{}{\bf{R}}^{D}$, $ U = [{\mu{}}_{i,j}] $是模糊划分矩阵, $ V = [{\boldsymbol{v}}_1,{\boldsymbol{v}}_2,\cdots{},{\boldsymbol{v}}_C] $是样本的聚类中心. FCM算法的目标函数可表示为

    $$ \begin{split} &J_{{\rm{FCM}}}=\sum\limits_{i=1}^C\sum\limits_{j=1}^N{\mu{}}_{ij}^m{\left\Vert{}{\boldsymbol{x}}_j-{\boldsymbol{v}}_i\right\Vert{}}^2\\ &\sum\limits_{i=1}^C{\mu{}}_{ij}=1,\;\;0 < {\mu{}}_{ij}\leq{}1,\;\;m>1 \end{split}$$ (1)

    可得到$J_{{\rm{FCM}}}$取得局部极小值的必要条件为

    $$ {\boldsymbol{v}}_i = \frac{\sum\limits_{j = 1}^N{\left({\mu{}}_{ij}\right)}^mx_j}{\sum\limits_{j = 1}^N{\left({\mu{}}_{ij}\right)}^m}\;\; \qquad\qquad$$ (2)
    $$ {\mu{}}_{ij} = \frac{1}{\sum\limits_{s = 1}^c{\left(\frac{{\left\Vert{}{\boldsymbol{x}}_j-{\boldsymbol{v}}_i\right\Vert{}}^2}{{\left\Vert{}{\boldsymbol{x}}_j-{\boldsymbol{v}}_s\right\Vert{}}^2}\right)}^{\frac{1}{m-1}}} \; \;\;\;$$ (3)

    根据式(2)和式(3)进行迭代优化, 使目标函数收敛于局部极小点, 从而得到样本属于各聚类中心的模糊划分矩阵$ U $.

    在经典FCM算法的基础上, 文献[9]通过引入视角协同约束正则项, 对视角间的一致性信息加以约束, 提出了多视角模糊聚类Co-FKM模型.

    多视角模糊聚类Co-FKM模型需要满足如下条件:

    $$ \begin{split} &\sum\limits_{i=1}^C{\mu{}}_{ij,k}=1,\\ &\quad{\mu{}}_{ij,k}\leq{}1,\;i=1,2,\cdots{},C;\;j=1,2,\cdots{},N\end{split}$$ (4)

    多视角模糊聚类Co-FKM模型的目标函数$J_{{\rm{Co}}\text{-}{\rm{FKM}}}$定义为

    $$ J_{{\rm{Co}}\text{-}{\rm{FKM}}} = \sum\limits_{k = 1}^K\sum\limits_{i = 1}^C\sum\limits_{j = 1}^N{\mu{}}_{ij,k}^m{\left\Vert{}{\boldsymbol{x}}_{j,k}-{\boldsymbol{v}}_{i,k}\right\Vert{}}^2+\eta{}{\Delta{}}_k $$ (5)
    $$ {\Delta{}}_k = \frac{1}{K - 1} \sum\limits_{ k = 1,k\not = \tilde{k}}^K\sum\limits_{i = 1}^C\sum\limits_{j = 1}^N \left({\mu{}}_{ij,\tilde{k}}^m - {\mu{}}_{ij,k}^m \right){ \left\Vert{}{\boldsymbol{x}}_{j,k} - {\boldsymbol{v}}_{i,k} \right\Vert{}}^2 $$ (6)

    式(5)中, $ \eta{} $表示协同划分参数; $ \Delta{} $表示视角一致项, 由式(6)可知, 当各视角趋于一致时, $ \Delta{} $将趋于0.

    迭代得到各视角的模糊隶属度$ {\mu{}}_{ij,k} $后, 为了最终得到一个具有全局性的模糊隶属度划分矩阵, Co-FKM算法对各视角下的模糊隶属度采用几何平均的方法, 得到数据集的整体划分, 具体形式为

    $$ {\hat{\mu{}}}_{ij} = \sqrt[K]{\prod\limits_{k\in{}K}{\mu{}}_{ij,k}} $$ (7)

    其中, $ {\hat{\mu{}}}_{ij} $为全局模糊划分结果.

    针对当前多视角模糊聚类算法研究中存在的不足, 本文提出一种基于低秩约束的熵加权多视角模糊聚类新方法LR-MVEWFCM. 一方面通过向多视角模糊聚类算法的目标学习准则中引入低秩约束项, 在整体上控制聚类过程中各视角的一致性; 另一方面基于香农熵理论, 通过熵加权机制来控制各视角之间的差异性. 同时使用交替方向乘子法对模型进行优化求解.

    设多视角隶属度$U_1,\cdots,U_K$融合为一个整体的隶属度矩阵$ U $, 将矩阵$ U $的秩函数凸松弛为核范数, 通过对矩阵$ U $进行低秩约束, 可以将多视角数据之间的一致性问题转化为核范数最小化问题进行求解, 具体定义为

    $$ \Gamma{}(U) = {\left\Vert{}U\right\Vert{}}_* $$ (8)

    其中, $U = [ U_1\; \; \cdots{}\;\; U_K ]^{\rm{T}}$表示全局划分矩阵, $ {\left\Vert{}\cdot{}\right\Vert{}}_* $表示核范数. 式(8)的优化过程保证了全局划分矩阵的低秩约束. 低秩约束的引入, 可以弥补当前大多数多视角聚类算法仅能基于成对视角构建约束的缺陷, 从而更好地挖掘多视角数据中包含的全局一致性信息.

    目前已有的多视角的聚类算法在处理多视角数据时, 通常默认每个视角平等共享聚类结果[11], 但实际上某些视角的数据往往因空间分布重叠而导致可分性较差. 为避免此类视角的数据过多影响聚类效果, 本文拟对各视角进行加权处理, 并构建香农熵正则项从而在聚类过程中有效地调节各视角之间的权重, 使得具有较好可分离性的视角的权重系数尽可能大, 以达到更好的聚类效果.

    令视角权重系数$ \sum_{k = 1}^Kw_k = 1 $$ w_k\geq{}0 $, 则香农熵正则项表示为

    $$ f\left(w_k\right) = -\sum\limits_{k = 1}^Kw_k\ln{w_k} $$ (9)

    综上所述, 本文作如下改进: 首先, 用本文提出的低秩约束全局模糊隶属度矩阵$ U $; 其次, 计算损失函数时考虑视角权重$ w_k $, 并加入视角权重系数的香农熵正则项. 设$U = [ U_1\;\; \cdots{}\;\; U_K ]^{\rm{T}}$; ${\pmb w} = [w_1,\cdots{},w_k, \cdots{}, w_K]$表示$ K $个视角下的视角权重. 本文所构建LR-MVEWFCM的目标函数为

    $$ \begin{split} J\left({\pmb w},U,V\right) =\;& \sum\limits_{k = 1}^Kw_k\sum\limits_{i = 1}^C\sum\limits_{j = 1}^N{\left({\mu{}}_{ij,k}\right)}^m{\left\Vert{}{\boldsymbol{x}}_{j,k} - {\boldsymbol{v}}_{i,k}\right\Vert{}}^2+ \\ &{\theta{}\left\Vert{}U\right\Vert{}}_*+\lambda{}\sum\limits_{k = 1}^Kw_k\ln{w_k}\\[-15pt] \end{split} $$ (10)

    其中, 约束条件为

    $$\left\{ \begin{aligned}& \sum\limits_{i = 1}^C {{\mu _{ij,k}}} = 1,&{\mu _{ij,k}} \in \left[ {0,1} \right]\\ &\sum\limits_{k = 1}^K {{w_k}} = 1,&{w_k} \in \left[ {0,1} \right]\;\;\; \end{aligned}\right.$$ (11)

    本文取模糊指数$ m = 2 $.

    在本节中, 我们将使用ADMM方法, 通过交替方向迭代的策略来实现目标函数$ \left(11\right) $的最小化.

    $$ \begin{aligned}[b] f({\boldsymbol{w}},U,V)=\;&\sum\limits_{k=1}^Kw_k\sum\limits_{i=1}^C\sum\limits_{j=1}^N{({\mu{}}_{ij,k})}^2\times\\ &{\Vert{}{\boldsymbol{x}}_{j,k}-{\boldsymbol{v}}_{i,k}\Vert{}}^2+ \lambda{}\sum\limits_{k=1}^Kw_k\ln{w_k} \\[-15pt]\end{aligned} $$ (12)
    $$ g\left(Z\right) = {\theta{}\left\Vert{}Z\right\Vert{}}_* $$ (13)

    最小化式$ \left(10\right) $可改写为如下约束优化问题:

    $$ \begin{split} &\min L\left({\boldsymbol{w}},U,V,Z\right)=f\left({\boldsymbol{w}},U,V\right)+g\left(Z\right)\\ &\;\;\;\;\;\;\;\;\;\;\;\;\;{\left\{\begin{aligned} &\sum\limits_{i=1}^C{\mu{}}_{ij,k}=1,\;\;{\mu{}}_{ij,k}\in{}\left[0,1\right] \\ &\sum\limits_{k=1}^Kw_k=1,\;\;\;\;w_k\in{}\left[0,1\right]\end{aligned}\right.} \\&Z =U \end{split}$$ (14)

    其求解过程可分解为如下几个子问题:

    1) $ V $-子问题. 固定$ {\boldsymbol{w}} $$ U $, 更新$ V $

    $$ \begin{split}{\boldsymbol{v}}_{i,k}^{\left(t+1\right)} =\;& \arg\mathop { \min }\limits_{v_{i,k}^t} \sum\limits_{k = 1}^Kw_k^{\left(t\right)}\times\\ &\sum\limits_{i = 1}^C\sum\limits_{j = 1}^N{\left({\mu{}}_{ij,k}^{\left(t\right)}\right)}^2{\left\Vert{}{\boldsymbol{x}}_{j,k}-{\boldsymbol{v}}_{i,k}^{\left(t\right)}\right\Vert{}}^2 \end{split}$$ (15)

    通过最小化式$ \left(15\right) $, 可得到$ {\boldsymbol{v}}_{i,k}^{\left(t+1\right)} $的闭合解为

    $$ {\boldsymbol{v}}_{i,k}^{\left(t + 1\right)} = \frac{\sum\limits_{j = 1}^N{\left({\mu{}}_{ij,k}^{\left(t\right)}\right)}^2{\boldsymbol{x}}_{j,k}}{\sum\limits_{j = 1}^N{\left({\mu{}}_{ij,k}^{\left(t\right)}\right)}^2} $$ (16)

    2) $ U $-子问题. 固定$ {\boldsymbol{w}} $, $ Q $$ Z $, 更新$ U $

    $$ \begin{split} U^{\left(t+1\right)}=\;& \arg\mathop { \min }\limits_{{U^{\left( t \right)}}} f\left({\boldsymbol{w}},U,V\right) + \alpha{}\left(\sum\limits_{k=1}^Kw_k^{\left(t\right)} - 1\right)+ \\ & \sum\limits_{j=1}^N\sum\limits_{k=1}^K{\beta{}}_{j,k}\left(\sum\limits_{i=1}^C{\mu{}}_{ij,k}^{\left(t\right)} - 1\right)+ \\ & \frac{\rho{}}{2}{\left\Vert{}U^{\left(t\right)}-Z^{\left(t\right)}+Q^{\left(t\right)}\right\Vert{}}_{\rm{F}}^2\\[-15pt] \end{split}$$ (17)

    通过最小化式$ \left(17\right) $, 可得到$ U^{\left(t+1\right)} $的封闭解为

    $$ \begin{split} {\mu{}}_{ij,k}^{\left(t+1\right)}=\;& \dfrac{\rho{}z_{ij,k}^{\left(t\right)}-\rho{}q_{ij,k}^{\left(t\right)}}{2w_k^{\left(t\right)}{\left\Vert{}{\boldsymbol{x}}_{j,k}-{\boldsymbol{v}}_{i,k}^{\left(t+1\right)}\right\Vert{}}^2+\rho{}}- \\ &\left( \sum\limits_{i=1}^C\dfrac{\rho{}z_{ij,k}^{\left(t\right)}-\rho{}q_{ij,k}^{\left(t\right)}}{2w_k^{\left(t\right)}{\left\Vert{}{\boldsymbol{x}}_{j,k} - {\boldsymbol{v}}_{i,k}^{\left(t+1\right)}\right\Vert{}}^2 + \rho{}} - 1 \right)\;\times{} \\ &\left(\dfrac{1}{\sum\limits_{i=1}^C\frac{1}{2w_k^{\left(t\right)}{\left\Vert{}{\boldsymbol{x}}_{j,k}-{\boldsymbol{v}}_{i,k}^{\left(t+1\right)}\right\Vert{}}^2+\rho{}}}\right)\;\times{} \\ &\left(\dfrac{1}{2w_k^{\left(t\right)}{\left\Vert{}{\boldsymbol{x}}_{j,k}-{\boldsymbol{v}}_{i,k}^{\left(t+1\right)}\right\Vert{}}^2 + \rho{}}\right)\\[-15pt] \end{split}$$ (18)

    3) $ {{w}} $-子问题. 固定$ V $$ U $, 更新$ {\boldsymbol{w}} $

    $$ w_{k}^{(t+1)} = \frac{\exp \left(\frac{-\sum\limits_{i = 1}^{C} \sum\limits_{j = 1}^{N}\left(\mu_{i j, k}^{(t+1)}\right)^{2}\left\|{\boldsymbol{x}}_{j, k}-{\boldsymbol{v}}_{i, k}^{(t+1)}\right\|^{2}}{\lambda}-1\right)}{\sum\limits_{k = 1}^{K} \exp \left(\frac{-\sum\limits_{i = 1}^{C} \sum\limits_{j = 1}^{N}\left(\mu_{i j, k}^{(t+1)}\right)^{2}\left\|{\boldsymbol{x}}_{j, k} - {\boldsymbol{v}}_{i, k}^{(t+1)}\right\|^{2}}{\lambda}-1 \right) } $$ (19)

    4) $ {{Z}} $-子问题. 固定$ Q $$ U $, 更新$ Z $

    $$ \begin{split} Z^{\left(t+1\right)} =\;&\arg \mathop {\min }\limits_{{Z^{\left( t \right)}}} {Z^{\left(t\right)}} + \ \frac{\rho{}}{2}{\left\Vert{}U^{\left(t+1\right)}-Z^{\left(t\right)}+Q^{\left(t\right)}\right\Vert{}}_{\rm{F}}^2= \\&{\theta{}\left\Vert{}Z^{\left(t\right)}\right\Vert{}}_*+\frac{\rho{}}{2}{\left\Vert{}U^{\left(t+1\right)}-Z^{\left(t\right)}+Q^{\left(t\right)}\right\Vert{}}_{\rm{F}}^2 \end{split} $$ (20)

    通过引入软阈值算子, 可得式$ \left(20\right) $的解为

    $$ Z^{(t+1)} = D_{\frac{\theta} { \rho}}\left(U^{(t+1)}+Q^{(t)}\right) = A S_{\frac{\theta}{ \rho}}(\Sigma) B^{\mathrm{T}} $$ (21)

    其中, $U^{\left(t+1\right)}+Q^{\left(t\right)}=A{\Sigma{}B}^{\rm{T}}$为矩阵$U^{(t+1)}+Q^{(t)}$的奇异值分解, 核范数的近邻算子可由软阈值算子$S_{\theta / \rho}(\Sigma) = {\rm{diag}}(\{\max (0, \sigma_{i}-\theta / \rho)\})\;(i = 1,2, \cdots, N)$给出.

    5) $ {{Q}} $-子问题. 固定$ Z $$ U $, 更新$ Q $

    $$ Q^{\left(t+1\right)} = Q^{\left(t\right)}+\frac{\rho{}}{2}\left(U^{\left(t+1\right)}-Z^{\left(t+1\right)}\right) $$ (22)

    经过上述迭代过程, 目标函数收敛于局部极值, 同时得到不同视角下的模糊隶属度矩阵. 本文借鉴文献[10]的集成策略, 使用视角权重系数 $ {\boldsymbol{w}} =$$ [w_1,\cdots{},w_k,\cdots{},w_K] $和模糊隶属度矩阵$ U $来构建具有全局特性的模糊空间划分矩阵$ \tilde{U} $:

    $$ \tilde{U} = \sum\limits_{k = 1}^Kw_kU_k $$ (23)

    其中, $ w_k $, $ U_k $分别表示第$ k $个视角的视角权重系数和相应的模糊隶属度矩阵.

    LR-MVEWFCM算法描述如下:

    输入. 包含$ K\ \left(1\leq{}k\leq{}K\right) $个视角的多视角样本集, 其中任意一个视角对应样本集$X_k =\{{\boldsymbol{x}}_{1,k},\cdots{}, {\boldsymbol{x}}_{N,k}\}$, 聚类中心$ C $, 迭代阈值$ \epsilon{} $, 最大迭代次数$ T $;

    输出. 各视角聚类中心$ {\boldsymbol{v}}_{i,k}^{\left(t\right)} $, 模糊空间划分矩阵$ \tilde{U} $和各视角权重$ w_k $;

    步骤1. 随机初始化$ V^{\left(t\right)} $, 归一化$ U^{\left(t\right)} $$ {\boldsymbol{w}}^{\left(t\right)} $, $ t = 0 $;

    步骤2. 根据式$ \left(21\right) $更新$ {\boldsymbol{v}}_{i,k}^{\left(t+1\right)} $;

    步骤3. 根据式$ \left(23\right) $更新$ U^{\left(t+1\right)} $;

    步骤4. 根据式$ \left(24\right) $更新$ w_k^{\left(t+1\right)} $;

    步骤5. 根据式$ \left(26\right) $更新$ Z^{\left(t+1\right)} $;

    步骤6. 根据式$ \left(27\right) $更新$ Q^{\left(t+1\right)} $;

    步骤7. 如果$ \left\Vert{}L^{\left(t+1\right)}-L^{\left(t\right)}\right\Vert{}<\epsilon{} $或者$ t>T $, 则算法结束并跳出循环, 否则, 返回步骤2;

    步骤8. 根据步骤7所获取的各视角权重$ w_k $及各视角下的模糊隶属度$ U_k $, 使用式$ \left(23\right) $计算$\tilde{U} $.

    2.2.1   与低秩约束算法比较

    近年来, 基于低秩约束的机器学习模型得到了广泛的研究. 经典工作包括文献[16]中提出LRR (Low rank representation)模型, 将矩阵的秩函数凸松弛为核范数, 通过求解核范数最小化问题, 求得基于低秩表示的亲和矩阵; 文献[14]提出低秩张量多视角子空间聚类算法(Low-rank tensor constrained multiview subspace clustering, LT-MSC), 在各视角间求出带有低秩约束的子空间表示矩阵; 文献 [18] 则进一步将低秩约束引入多模型子空间聚类算法中, 使算法模型取得了较好的性能. 本文将低秩约束与多视角模糊聚类框架相结合, 提出了LR-MVEWFCM算法, 用低秩约束来实现多视角数据间的一致性. 本文方法可作为低秩模型在多视角模糊聚类领域的重要拓展.

    2.2.2   与多视角Co-FKM算法比较

    图1图2分别给出了多视角Co-FKM算法和本文LR-MVEWFCM算法的工作流程.

    图 1  Co-FKM算法处理多视角聚类任务工作流程
    Fig. 1  Co-FKM algorithm for multi-view clustering task
    图 2  LR-MVEWFCM算法处理多视角聚类任务工作流程
    Fig. 2  LR-MVEWFCM algorithm for multi-view clustering task

    本文算法与经典的多视角Co-FKM算法在多视角信息的一致性约束和多视角聚类结果的集成策略上均有所不同. 在多视角信息的一致性约束方面, 本文将Co-FKM算法中的视角间两两约束进一步扩展到多视角全局一致性约束; 在多视角聚类结果的集成策略上, 本文不同于Co-FKM算法对隶属度矩阵简单地求几何平均值的方式, 而是将各视角隶属度与视角权重相结合, 构建具有视角差异性的集成决策函数.

    本文采用模拟数据集和UCI中的真实数据集进行实验验证, 选取FCM[17]、CombKM[19]、Co-FKM[9]和Co-Clustering[20]这4个聚类算法作为对比算法, 参数设置如表1所示. 实验环境为: Intel Core i5-7400 CPU, 其主频为2.3 GHz, 内存为8 GB. 编程环境为MATLAB 2015b.

    表 1  参数定义和设置
    Table 1  Parameter setting in the experiments
    算法算法说明参数设置
    FCM经典的单视角模糊聚类算法模糊指数$m=\frac{\min (N, D-1)}{\min (N, D-1)-2}$,
    其中, $N$表示样本数, $D$表示样本维数
    CombKM组合${\rm{K}}\text{-}{\rm{means}}$算法
    Co-FKM多视角协同划分的模糊聚类算法模糊指数$m=\frac{\min (N, D-1)}{\min (N, D-1)-2}$, 协同学习系数$\eta{}\in{}\frac{K-1}{K}$,
    其中, $K$为视角数, 步长$\rho{}=0.01$
    Co-Clustering基于样本与特征空间的协同聚类算法正则化系数$\lambda \in\left\{10^{-3}, 10^{-2}, \cdots, 10^{3}\right\}$,
    正则化系数$\mu \in\left\{10^{-3}, 10^{-2}, \cdots, 10^{3}\right\}$
    LR-MVEWFCM基于低秩约束的熵加权多视角模糊聚类算法视角权重平衡因子$\lambda{}\in{}\left\{{10}^{-5}, {10}^{-4}, \cdots{}, {10}^5\right\}$, 低秩约束正则项系数$\theta{}\in{}\left\{{10}^{-3}, 10^{-2}, \cdots{}, {10}^3\right\}$, 模糊指数$m=2$
    MVEWFCMLR-MVEWFCM 算法中低秩约束正则项系数$\theta{}=0$视角权重平衡因子$\lambda{}\in{}\left\{{10}^{-5}, {10}^{-4}, \cdots{}, {10}^5\right\}$, 模糊指数$m=2$
    下载: 导出CSV 
    | 显示表格

    本文采用如下两个性能指标对各算法所得结果进行评估.

    1) 归一化互信息(Normalized mutual information, NMI)[10]

    $$ N M I = \frac{\sum\limits_{i = 1}^{C} \sum\limits_{j = 1}^{C} N_{i, j} \log_{2} N \times \frac{N_{i, j}}{N_{i}} \times N_{j}}{\sqrt{\sum\limits_{i = 1}^{C} N_{i} \log_{2}\frac{ N_{i}}{N} \times \sum\limits_{j = 1}^{C} N_{j} \log_{2} \frac{N_{j}}{ N}}} $$ (24)

    其中, $ N_{i,j} $表示第$ i $类与第$ j $类的契合程度, $ N_i $表示第$ i $类中所属样本量, $ N_j $表示第$ j $类中所属样本量, 而$ N $表示数据的样本总量;

    2) 芮氏指标(Rand index, RI)[10]

    $$ R I = \dfrac{f_{00}+f_{11}}{\tfrac{N(N-1)}{2}} $$ (25)

    其中, $ f_{00} $表示具有不同类标签且属于不同类的数据配对点数目, $ f_{11} $则表示具有相同类标签且属于同一类的数据配对点数目, $ N $表示数据的样本总量. 以上两个指标的取值范围介于$ \left[0,1\right] $之间, 数值越接近1, 说明算法的聚类性能越好. 为了验证算法的鲁棒性, 各表中统计的性能指标值均为算法10次运行结果的平均值.

    为了评估本文算法在多视角数据集上的聚类效果, 使用文献[10]的方法来构造具有三维特性的模拟数据集A($x,y,z$), 其具体生成过程为: 首先在MATLAB环境下采用正态分布随机函数normrnd构建数据子集$A _{1} $($x,y,z$), $A _{2} $($x,y,z$)和$ A_{3} $($x, y,z$), 每组对应一个类簇, 数据均包含200个样本. 其中第1组与第2组数据集在特征z上数值较为接近, 第2组与第3组数据集在特征x上较为接近; 然后将3组数据合并得到集合A($x,y,z$), 共计600个样本; 最后对数据集内的样本进行归一化处理. 我们进一步将特征x, y, z表2的方式两两组合, 从而得到多视角数据.

    表 2  模拟数据集特征组成
    Table 2  Characteristic composition of simulated dataset
    视角包含特征
    视角 1$x,y$
    视角 2$y,z$
    视角 3$x,z$
    下载: 导出CSV 
    | 显示表格

    将各视角下的样本可视化, 如图3所示.

    图 3  模拟数据集及各视角数据集
    Fig. 3  Simulated data under multiple views

    通过观察图3可以发现, 视角1中的数据集在空间分布上具有良好的可分性, 而视角2和视角3的数据在空间分布上均存在着一定的重叠, 从而影响了所在视角下的聚类性能. 通过组合不同视角生成若干新的数据集, 如表3所示, 并给出了LR-MVEWFCM重复运行10次后的平均结果和方差.

    表 3  模拟数据实验算法性能对比
    Table 3  Performance comparison of the proposed algorithms on simulated dataset
    编号包含特征NMIRI
    1视角11.0000 ± 0.00001.0000 ± 0.0000
    2视角20.7453 ± 0.00750.8796 ± 0.0081
    3视角30.8750 ± 0.00810.9555 ± 0.0006
    4视角1, 视角21.0000 ± 0.00001.0000 ± 0.0000
    5视角1, 视角31.0000 ± 0.00001.0000 ± 0.0000
    6视角2, 视角30.9104 ± 0.03960.9634 ± 0.0192
    7视角2, 视角31.0000 ± 0.00001.0000 ± 0.0000
    下载: 导出CSV 
    | 显示表格

    对比LR-MVEWFCM在数据集1~3上的性能, 我们发现本文算法在视角1上取得了最为理想的效果, 在视角3上的性能要优于视角2, 这与图3中各视角数据的空间可分性是一致的. 此外, 将各视角数据两两组合构成新数据集4~6后, LR-MVEWFCM算法都得到了比单一视角更好的聚类效果, 这都说明了本文采用低秩约束来挖掘多视角数据中一致性的方法, 能够有效提高聚类性能.

    基于多视角数据集7, 我们进一步给出本文算法与其他经典聚类算法的比较结果.

    表4中可以发现, 由于模拟数据集在某些特征空间下具有良好的空间可分性, 所以无论是本文的算法还是Co-Clustering算法、FCM算法等算法均取得了很好的聚类效果, 而CombKM算法的性能较之以上算法则略有不足, 分析其原因在于CombKM算法侧重于挖掘样本之间的信息, 却忽视了多视角之间的协作, 而本文算法通过使用低秩约束进一步挖掘了多视角之间的全局一致性, 因而得到了比CombKM算法更好的聚类效果.

    表 4  模拟数据集7上各算法的性能比较
    Table 4  Performance comparison of the proposed algorithms on simulated dataset 7
    数据集指标Co-ClusteringCombKMFCMCo-FKMLR-MVEWFCM
    ANMI-mean1.00000.93051.00001.00001.0000
    NMI-std0.00000.14640.00000.00000.0000
    RI-mean1.00000.94451.00001.00001.0000
    RI-std0.00000.11710.00000.00000.0000
    下载: 导出CSV 
    | 显示表格

    本节采用5个UCI数据集: 1) Iris数据集; 2) Image Segmentation (IS) 数据集; 3) Balance数据集; 4) Ionosphere数据集; 5) Wine数据集来进行实验. 由于这几个数据集均包含了不同类型的特征, 所以可以将这些特征进行重新分组从而构造相应的多视角数据集. 表5给出了分组后的相关信息.

    表 5  基于UCI数据集构造的多视角数据
    Table 5  Multi-view data constructded based on UCI dataset
    编号原数据集说明视角特征样本视角类别
    8ISShape92 31027
    RGB9
    9IrisSepal长度215023
    Sepal宽度
    Petal长度2
    Petal宽度
    10Balance天平左臂重量262523
    天平左臂长度
    天平右臂重量2
    天平右臂长度
    11IrisSepal长度115043
    Sepal宽度1
    Petal长度1
    Petal宽度1
    12Balance天平左臂重量162543
    天平左臂长度1
    天平右臂重量1
    天平右臂长度1
    13Ionosphere每个特征单独
    作为一个视角
    1351342
    14Wine每个特征单独
    作为一个视角
    1178133
    下载: 导出CSV 
    | 显示表格

    我们在多视角数据集上运行各多视角聚类算法; 同时在原数据集上运行FCM算法. 相关结果统计见表6表7.

    表 6  5种聚类方法的NMI值比较结果
    Table 6  Comparison of NMI performance of five clustering methods
    编号Co-ClusteringCombKMFCMCo-FKMLR-MVEWFCM
    均值P-value均值P-value均值P-value均值P-value均值
    80.5771 ±
    0.0023
    0.00190.5259 ±
    0.0551
    0.20560.5567 ±
    0.0184
    0.00440.5881 ±
    0.0109
    3.76×10−40.5828 ±
    0.0044
    90.7582 ±
    7.4015 ×10−17
    2.03×10−240.7251 ±
    0.0698
    2.32×10−70.7578 ±
    0.0698
    1.93×10−240.8317 ±
    0.0064
    8.88×10−160.9029 ±
    0.0057
    100.2455 ±
    0.0559
    0.01650.1562 ±
    0.0749
    3.47×10−50.1813 ±
    0.1172
    0.00610.2756 ±
    0.0309
    0.10370.3030 ±
    0.0402
    110.7582 ±
    1.1703×10−16
    2.28×10−160.7468 ±
    0.0079
    5.12×10−160.7578 ±
    1.1703×10−16
    5.04×10−160.8244 ±
    1.1102×10−16
    2.16×10−160.8768 ±
    0.0097
    120.2603 ±
    0.0685
    0.38250.1543 ±
    0.0763
    4.61×10−40.2264 ±
    0.1127
    0.15730.2283 ±
    0.0294
    0.01460.2863 ±
    0.0611
    130.1385 ±
    0.0085
    2.51×10−90.1349 ±
    2.9257×10−17
    2.35×10−130.1299 ±
    0.0984
    2.60×10−100.2097 ±
    0.0329
    0.04830.2608 ±
    0.0251
    140.4288 ±
    1.1703×10−16
    1.26×10−080.4215 ±
    0.0095
    7.97×10−090.4334 ±
    5.8514×10−17
    2.39×10−080.5295 ±
    0.0301
    0.43760.5413 ±
    0.0364
    下载: 导出CSV 
    | 显示表格

    通过观察表6表7中的$ {\rm{NMI}} $${\rm{ RI }}$指标值可知, Co-FKM算法的聚类性能明显优于其他几种经典聚类算法, 而相比于Co-FKM算法, 由于LR-MVEWFCM采用了低秩正则项来挖掘多视角数据之间的一致性关系, 并引入多视角自适应熵加权策略, 从而有效控制各视角之间的差异性. 很明显, 这种聚类性能更为优异和稳定, 且收敛性的效果更好. 表6表7中的结果也展示了在IS、Balance、Iris、Ionosphere和Wine数据集上, 其NMI和RI指标均提升3 ~ 5个百分点, 这也说明了本文算法在多视角聚类过程中的有效性.

    表 7  5种聚类方法的RI值比较结果
    Table 7  Comparison of RI performance of five clustering methods
    编号Co-ClusteringCombKMFCMCo-FKMLR-MVEWFCM
    均值P-value均值P-value均值P-value均值P-value均值
    80.8392 ±
    0.0010
    1.3475 ×10−140.8112 ±
    0.0369
    1.95×10−70.8390 ±
    0.0115
    0.00320.8571 ±
    0.0019
    0.00480.8508 ±
    0.0013
    90.8797 ±
    0.0014
    1.72×10−260.8481 ±
    0.0667
    2.56×10−50.8859 ±
    1.1703×10−16
    6.49×10−260.9358 ±
    0.0037
    3.29×10−140.9665 ±
    0.0026
    100.6515 ±
    0.0231
    3.13×10−40.6059 ±
    0.0340
    1.37×10−60.6186 ±
    0.0624
    0.00160.6772 ±
    0.0227
    0.07610.6958 ±
    0.0215
    110.8797 ±
    0.0014
    1.25×10−180.8755 ±
    0.0029
    5.99×10−120.8859 ±
    0.0243
    2.33×10−180.9267 ±
    2.3406×10−16
    5.19×10−180.9527 ±
    0.0041
    120.6511 ±
    0.0279
    0.01560.6024 ±
    0.0322
    2.24×10−50.6509 ±
    0.0652
    0.11390.6511 ±
    0.0189
    0.0080.6902 ±
    0.0370
    130.5877 ±
    0.0030
    1.35×10−120.5888 ±
    0.0292
    2.10×10−140.5818 ±
    1.1703×10−16
    4.6351 ×10−130.6508 ±
    0.0147
    0.03580.6855 ±
    0.0115
    140.7187 ±
    1.1703×10−16
    3.82×10−60.7056 ±
    0.0168
    1.69×10−60.7099 ±
    1.1703×10−16
    8.45×10−70.7850 ±
    0.0162
    0.59050.7917 ±
    0.0353
    下载: 导出CSV 
    | 显示表格

    为进一步说明本文低秩约束发挥的积极作用, 将LR-MVEWFCM算法和MVEWFCM算法共同进行实验, 算法的性能对比如图4所示.

    图 4  低秩约束对算法性能的影响(横坐标为数据集编号, 纵坐标为聚类性能指标)
    Fig. 4  The influence of low rank constraints on the performance of the algorithm (the X-coordinate is the data set number and the Y-coordinate is the clustering performance index)

    图4中不难发现, 无论在模拟数据集上还是UCI真实数据集上, 相比较MVEWFCM算法, LR-MVEWFCM算法均可以取得更好的聚类效果. 因此可见, LR-MVEWFCM目标学习准则中的低秩约束能够有效利用多视角数据的一致性来提高算法的聚类性能.

    为研究本文算法的收敛性, 同样选取8个数据集进行收敛性实验, 其目标函数变化如图5所示.

    图 5  LR-MVEWFCM算法的收敛曲线
    Fig. 5  Convergence curve of LR-MVEWFCM algorithm

    图5中可以看出, 本文算法在真实数据集上仅需迭代15次左右就可以趋于稳定, 这说明本文算法在速度要求较高的场景下具有较好的实用性.

    综合以上实验结果, 我们不难发现, 在具有多视角特性的数据集上进行模糊聚类分析时, 多视角模糊聚类算法通常比传统单视角模糊聚类算法能够得到更优的聚类效果; 在本文中, 通过在多视角模糊聚类学习中引入低秩约束来增强不同视角之间的一致性关系, 并引入香农熵调节视角权重关系, 控制不同视角之间的差异性, 从而得到了比其他多视角聚类算法更好的聚类效果.

    LR-MVEWFCM算法包含两个正则项系数, 即视角权重平衡因子$ \lambda{} $和低秩约束正则项系数$ \theta{} $, 图6以LR-MVEWFCM算法在模拟数据集7上的实验为例, 给出了系数从0到1000过程中, 算法性能的变化情况, 当低秩正则项系数$ \theta$= 0时, 即不添加此正则项, 算法的性能最差, 验证了本文加入的低秩正则项的有效性, 当$ \theta{} $值变化过程中, 算法的性能相对变化较小, 说明本文算法在此数据集上对于$ \theta{} $值变化不敏感, 具有一定的鲁棒性; 而当香农熵正则项系数$ \lambda$= 0时, 同样算法性能较差, 也说明引入此正则项的合理性. 当$ \lambda{} $值变大时, 发现算法的性能也呈现变好趋势, 说明在此数据集上, 此正则项相对效果比较明显.

    图 6  模拟数据集7上参数敏感性分析
    Fig. 6  Sensitivity analysis of parameters on simulated dataset 7

    本文从多视角聚类学习过程中的一致性和差异性两方面出发, 提出了基于低秩约束的熵加权多视角模糊聚类算法. 该算法采用低秩正则项来挖掘多视角数据之间的一致性关系, 并引入多视角自适应熵加权策略从而有效控制各视角之间的差异性,从而提高了算法的性能. 在模拟数据集和真实数据集上的实验均表明, 本文算法的聚类性能优于其他多视角聚类算法. 同时本文算法还具有迭代次数少、收敛速度快的优点, 具有良好的实用性. 由于本文采用经典的FCM框架, 使用欧氏距离来衡量数据对象之间的差异,这使得本文算法不适用于某些高维数据场景. 如何针对高维数据设计多视角聚类算法, 这也将是我们今后的研究重点.

  • 图  1  Co-FKM算法处理多视角聚类任务工作流程

    Fig.  1  Co-FKM algorithm for multi-view clustering task

    图  2  LR-MVEWFCM算法处理多视角聚类任务工作流程

    Fig.  2  LR-MVEWFCM algorithm for multi-view clustering task

    图  3  模拟数据集及各视角数据集

    Fig.  3  Simulated data under multiple views

    图  4  低秩约束对算法性能的影响(横坐标为数据集编号, 纵坐标为聚类性能指标)

    Fig.  4  The influence of low rank constraints on the performance of the algorithm (the X-coordinate is the data set number and the Y-coordinate is the clustering performance index)

    图  5  LR-MVEWFCM算法的收敛曲线

    Fig.  5  Convergence curve of LR-MVEWFCM algorithm

    图  6  模拟数据集7上参数敏感性分析

    Fig.  6  Sensitivity analysis of parameters on simulated dataset 7

    表  1  参数定义和设置

    Table  1  Parameter setting in the experiments

    算法算法说明参数设置
    FCM经典的单视角模糊聚类算法模糊指数$m=\frac{\min (N, D-1)}{\min (N, D-1)-2}$,
    其中, $N$表示样本数, $D$表示样本维数
    CombKM组合${\rm{K}}\text{-}{\rm{means}}$算法
    Co-FKM多视角协同划分的模糊聚类算法模糊指数$m=\frac{\min (N, D-1)}{\min (N, D-1)-2}$, 协同学习系数$\eta{}\in{}\frac{K-1}{K}$,
    其中, $K$为视角数, 步长$\rho{}=0.01$
    Co-Clustering基于样本与特征空间的协同聚类算法正则化系数$\lambda \in\left\{10^{-3}, 10^{-2}, \cdots, 10^{3}\right\}$,
    正则化系数$\mu \in\left\{10^{-3}, 10^{-2}, \cdots, 10^{3}\right\}$
    LR-MVEWFCM基于低秩约束的熵加权多视角模糊聚类算法视角权重平衡因子$\lambda{}\in{}\left\{{10}^{-5}, {10}^{-4}, \cdots{}, {10}^5\right\}$, 低秩约束正则项系数$\theta{}\in{}\left\{{10}^{-3}, 10^{-2}, \cdots{}, {10}^3\right\}$, 模糊指数$m=2$
    MVEWFCMLR-MVEWFCM 算法中低秩约束正则项系数$\theta{}=0$视角权重平衡因子$\lambda{}\in{}\left\{{10}^{-5}, {10}^{-4}, \cdots{}, {10}^5\right\}$, 模糊指数$m=2$
    下载: 导出CSV

    表  2  模拟数据集特征组成

    Table  2  Characteristic composition of simulated dataset

    视角包含特征
    视角 1$x,y$
    视角 2$y,z$
    视角 3$x,z$
    下载: 导出CSV

    表  3  模拟数据实验算法性能对比

    Table  3  Performance comparison of the proposed algorithms on simulated dataset

    编号包含特征NMIRI
    1视角11.0000 ± 0.00001.0000 ± 0.0000
    2视角20.7453 ± 0.00750.8796 ± 0.0081
    3视角30.8750 ± 0.00810.9555 ± 0.0006
    4视角1, 视角21.0000 ± 0.00001.0000 ± 0.0000
    5视角1, 视角31.0000 ± 0.00001.0000 ± 0.0000
    6视角2, 视角30.9104 ± 0.03960.9634 ± 0.0192
    7视角2, 视角31.0000 ± 0.00001.0000 ± 0.0000
    下载: 导出CSV

    表  4  模拟数据集7上各算法的性能比较

    Table  4  Performance comparison of the proposed algorithms on simulated dataset 7

    数据集指标Co-ClusteringCombKMFCMCo-FKMLR-MVEWFCM
    ANMI-mean1.00000.93051.00001.00001.0000
    NMI-std0.00000.14640.00000.00000.0000
    RI-mean1.00000.94451.00001.00001.0000
    RI-std0.00000.11710.00000.00000.0000
    下载: 导出CSV

    表  5  基于UCI数据集构造的多视角数据

    Table  5  Multi-view data constructded based on UCI dataset

    编号原数据集说明视角特征样本视角类别
    8ISShape92 31027
    RGB9
    9IrisSepal长度215023
    Sepal宽度
    Petal长度2
    Petal宽度
    10Balance天平左臂重量262523
    天平左臂长度
    天平右臂重量2
    天平右臂长度
    11IrisSepal长度115043
    Sepal宽度1
    Petal长度1
    Petal宽度1
    12Balance天平左臂重量162543
    天平左臂长度1
    天平右臂重量1
    天平右臂长度1
    13Ionosphere每个特征单独
    作为一个视角
    1351342
    14Wine每个特征单独
    作为一个视角
    1178133
    下载: 导出CSV

    表  6  5种聚类方法的NMI值比较结果

    Table  6  Comparison of NMI performance of five clustering methods

    编号Co-ClusteringCombKMFCMCo-FKMLR-MVEWFCM
    均值P-value均值P-value均值P-value均值P-value均值
    80.5771 ±
    0.0023
    0.00190.5259 ±
    0.0551
    0.20560.5567 ±
    0.0184
    0.00440.5881 ±
    0.0109
    3.76×10−40.5828 ±
    0.0044
    90.7582 ±
    7.4015 ×10−17
    2.03×10−240.7251 ±
    0.0698
    2.32×10−70.7578 ±
    0.0698
    1.93×10−240.8317 ±
    0.0064
    8.88×10−160.9029 ±
    0.0057
    100.2455 ±
    0.0559
    0.01650.1562 ±
    0.0749
    3.47×10−50.1813 ±
    0.1172
    0.00610.2756 ±
    0.0309
    0.10370.3030 ±
    0.0402
    110.7582 ±
    1.1703×10−16
    2.28×10−160.7468 ±
    0.0079
    5.12×10−160.7578 ±
    1.1703×10−16
    5.04×10−160.8244 ±
    1.1102×10−16
    2.16×10−160.8768 ±
    0.0097
    120.2603 ±
    0.0685
    0.38250.1543 ±
    0.0763
    4.61×10−40.2264 ±
    0.1127
    0.15730.2283 ±
    0.0294
    0.01460.2863 ±
    0.0611
    130.1385 ±
    0.0085
    2.51×10−90.1349 ±
    2.9257×10−17
    2.35×10−130.1299 ±
    0.0984
    2.60×10−100.2097 ±
    0.0329
    0.04830.2608 ±
    0.0251
    140.4288 ±
    1.1703×10−16
    1.26×10−080.4215 ±
    0.0095
    7.97×10−090.4334 ±
    5.8514×10−17
    2.39×10−080.5295 ±
    0.0301
    0.43760.5413 ±
    0.0364
    下载: 导出CSV

    表  7  5种聚类方法的RI值比较结果

    Table  7  Comparison of RI performance of five clustering methods

    编号Co-ClusteringCombKMFCMCo-FKMLR-MVEWFCM
    均值P-value均值P-value均值P-value均值P-value均值
    80.8392 ±
    0.0010
    1.3475 ×10−140.8112 ±
    0.0369
    1.95×10−70.8390 ±
    0.0115
    0.00320.8571 ±
    0.0019
    0.00480.8508 ±
    0.0013
    90.8797 ±
    0.0014
    1.72×10−260.8481 ±
    0.0667
    2.56×10−50.8859 ±
    1.1703×10−16
    6.49×10−260.9358 ±
    0.0037
    3.29×10−140.9665 ±
    0.0026
    100.6515 ±
    0.0231
    3.13×10−40.6059 ±
    0.0340
    1.37×10−60.6186 ±
    0.0624
    0.00160.6772 ±
    0.0227
    0.07610.6958 ±
    0.0215
    110.8797 ±
    0.0014
    1.25×10−180.8755 ±
    0.0029
    5.99×10−120.8859 ±
    0.0243
    2.33×10−180.9267 ±
    2.3406×10−16
    5.19×10−180.9527 ±
    0.0041
    120.6511 ±
    0.0279
    0.01560.6024 ±
    0.0322
    2.24×10−50.6509 ±
    0.0652
    0.11390.6511 ±
    0.0189
    0.0080.6902 ±
    0.0370
    130.5877 ±
    0.0030
    1.35×10−120.5888 ±
    0.0292
    2.10×10−140.5818 ±
    1.1703×10−16
    4.6351 ×10−130.6508 ±
    0.0147
    0.03580.6855 ±
    0.0115
    140.7187 ±
    1.1703×10−16
    3.82×10−60.7056 ±
    0.0168
    1.69×10−60.7099 ±
    1.1703×10−16
    8.45×10−70.7850 ±
    0.0162
    0.59050.7917 ±
    0.0353
    下载: 导出CSV
  • [1] Xu C, Tao D, Xu C. Multi-view Learning with Incomplete Views[J]. IEEE Transactions on Image Processing, 2015, 24(12): 5812-5825 doi: 10.1109/TIP.2015.2490539
    [2] Brefeld U. Multi-view learning with dependent views. In: Proceedings of the 30th Annual ACM Symposium on Applied Computing, Salamanca, Spain: ACM, 2015. 865−870
    [3] Muslea I, Minton S, Knoblock C A. Active Learning with Multiple Views[J]. Journal of Artificial Intelligence Research, 2006, 27(1): 203-233
    [4] Zhang C, Adeli E, Wu Z, et al. Infant brain development prediction with latent partial multi-view representation learning[J]. IEEE Transactions on Medical Imaging, 2018, 38(4): 909-918
    [5] Bickel S, Scheffer T. Multi-view clustering. In: Proceedings of the 4th IEEE International Conference on Data Mining (ICDM'04), Brighton, UK: IEEE, 2004. 19−26
    [6] Wang Y, Chen L. Multi-view fuzzy clustering with minimax optimization for effective clustering of data from multiple sources[J]. Expert Systems with Applications, 2017, 72: 457-466 doi: 10.1016/j.eswa.2016.10.006
    [7] 王骏, 王士同, 邓赵红. 聚类分析研究中的若干问题[J]. 控制与决策, 2012, 27(3): 321-328

    Wang J, Wang S T, Deng Z H. Survey on challenges in clustering analysis research. Control and Decision, 2012, 27(3): 321-328
    [8] Pedrycz W. Collaborative fuzzy clustering[J]. Pattern Recognition Letters, 2002, 23(14): 1675-1686 doi: 10.1016/S0167-8655(02)00130-7
    [9] Cleuziou G, Exbrayat M, Martin L, Sublemontier J H. CoFKM: A centralized method for multiple-view clustering. In: Proceedings of the 9th IEEE International Conference on Data Mining, Miami, FL, USA: IEEE, 2009. 752−757
    [10] Jiang Y, Chung F L, Wang S, et al. Collaborative fuzzy clustering from multiple weighted views[J]. IEEE Trans Cybern, 2015, 45(4): 688-701 doi: 10.1109/TCYB.2014.2334595
    [11] Bettoumi S, Jlassi C, Arous N. Collaborative multi-view k-means clustering[J]. Soft Computing, 2019, 23(3): 937-945
    [12] Zhang G Y, Wang C D, Huang D, et al. TW-Co-k-means: two-level weighted collaborative k-means for multi-view clustering[J]. Knowledge-Based Systems, 2018, 150: 127-138 doi: 10.1016/j.knosys.2018.03.009
    [13] Cao X C, Zhang C Q, Fu H Z, Liu S, Zhang H. Diversity-induced multi-view subspace clustering. In: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition, Boston, MA, USA: IEEE, 2015. 586−594
    [14] Zhang C Q, Fu H Z, Liu S, Liu G C, Cao X C. Low-rank tensor constrained multiview subspace clustering. In: Proceedings of the 2015 IEEE International Conference on Computer Visio, Santiago, Chile: IEEE, 2015. 1582−1590
    [15] Boyd S, Parikh N, Chu E, et al. Distributed optimization and statistical learning via the alternating direction method of multipliers[J]. Foundations and Trends in Machine learning, 2011, 3(1): 1-122
    [16] Liu G, Lin Z, Yan S, et al. Robust Recovery of Subspace Structures by Low-Rank Representation[J]. In: Proceedings of IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(1): 171-184 doi: 10.1109/TPAMI.2012.88
    [17] Bezdek J C, Ehrlich R, Full W. FCM: The fuzzy c -means clustering algorithm[J]. Computers Geosciences, 1984, 10(2): 191-203
    [18] Abavisani M, Patel V M. Multimodal sparse and low-rank subspace clustering[J]. Information Fusion, 2018, 39: 168-177 doi: 10.1016/j.inffus.2017.05.002
    [19] Gu Q Q, Zhou J. Learning the shared subspace for multi-task clustering and transductive transfer classification. In: Proceedings of the 9th IEEE International Conference on Data Mining, Miami beach, FL, USA: IEEE, 2009. 159−168
    [20] Gu Q Q, Zhou J. Co-clustering on manifolds. In: Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Paris, France: ACM, 2009. 359−368
  • 期刊类型引用(9)

    1. 区卓越,邓秀勤,陈磊. 基于加权锚点的自适应多视图互补聚类算法. 计算机应用. 2025(01): 115-126 . 百度学术
    2. 孙志华,齐肇江,陈江尧,陈冰恽,肖禹,徐峰. 基于模糊分簇的电力调度大数据检索方法. 电子设计工程. 2024(16): 139-142 . 百度学术
    3. 马宗方,李雷华,田鸿朋. 一种基于证据多视角的模糊C-means聚类算法. 控制工程. 2024(08): 1345-1354 . 百度学术
    4. 马盈仓,吴也凡,邢志伟,袁林. 基于k-近邻局部线性邻域重建的多视角聚类算法. 纺织高校基础科学学报. 2023(03): 75-83 . 百度学术
    5. 杨鸿潭. 基于伪标签增强的多视角模糊聚类. 信息与电脑(理论版). 2023(08): 120-123+127 . 百度学术
    6. 文杰,颜珂,张正,徐勇. 基于低秩张量图学习的不完整多视角聚类. 自动化学报. 2023(07): 1433-1445 . 本站查看
    7. 陈笑笑,任丹丹,刘清. 粒子群优化的加权核范数低秩矩阵补全算法. 赤峰学院学报(自然科学版). 2023(05): 22-28 . 百度学术
    8. 贺艳芳,李莉杰. 基于低秩约束的多视角聚类算法研究. 现代信息科技. 2022(15): 74-76+80 . 百度学术
    9. 李骜,陈嘉佳,于晓洋,陈德运,张英涛,孙广路. 不完备数据的鲁棒多视角图学习及其聚类应用. 控制与决策. 2022(12): 3251-3258 . 百度学术

    其他类型引用(6)

  • 加载中
图(7) / 表(7)
计量
  • 文章访问数:  676
  • HTML全文浏览量:  108
  • PDF下载量:  201
  • 被引次数: 15
出版历程
  • 收稿日期:  2019-05-09
  • 录用日期:  2019-07-17
  • 网络出版日期:  2022-05-31
  • 刊出日期:  2022-07-01

目录

/

返回文章
返回