赵博宇 张长青 陈蕾 刘新旺 李泽超 胡清华

doi: 10.16383/j.aas.c200121
基金项目: 国家自然科学基金(61976151, 61732011, 61872190), 南京邮电大学江苏省大数据安全与智能处理重点实验室资助

    赵博宇:天津大学智能与计算学部硕士研究生. 主要研究方向为多视图学习. E-mail: boyuzhao@tju.edu.cn

    张长青:天津大学智能与计算学部副教授. 主要研究方向为机器学习, 模式识别. 本文通信作者. E-mail: zhangchangqing@tju.edu.cn

    陈蕾:南京邮电大学计算机学院教授. 主要研究方向为人工智能, 机器学习及数据挖掘应用. E-mail: chenlei@njupt.edu.cn

    刘新旺:国防科技大学计算机学院教授. 主要研究方向为核学习, 特征选择, 谱聚类和隐变量学习. E-mail: 1022xinwang.liu@gmail.com

    李泽超:南京理工大学计算机科学与工程学院教授. 主要研究方向为大媒体分析, 计算机视觉. E-mail: zechao.li@njust.edu.cn

    胡清华:天津大学智能与计算学部教授. 主要研究方向为多模态学习, 度量学习, 模糊集不确定性建模与推理, 粗糙集和概率论. E-mail: huqinghua@tju.edu.cn

Generative Model For Partial Multi-view Clustering

Funds: Supported by National Natural Science Foundation of China (61976151, 61732011, 61872190), Jiangsu Key Laboratory of Big Data Security & Intelligent Processing, Nanjing University of Posts and Telecommunications
More Information
    Author Bio:

    ZHAO Bo-Yu Master student at the College of Intelligence and Computing, Tianjin University. His main research interest is multi-view learning

    ZHANG Chang-Qing Associate professor at the College of Intelligence and Computing, Tianjin University. His research interest covers machine learning and pattern recognition. Corresponding author of this paper

    CHEN Lei Professor at the School of Computer Science, Nanjing University of Posts and Telecommunications. His research interest covers application of artificial intelligence, machine learning and data mining

    LIU Xin-Wang Professor at the School of Computer, National University of Defense Technology. His research interest covers kernel learning, feature selection, spectral clustering and latent variable learning

    LI Ze-Chao Professor at the School of Computer Science and Engineering, Nanjing University of Science and Technology. His research interest covers big media analysis and computer vision

    HU Qing-Hua Professor at the College of Intelligence and Computing, Tianjin University. His research interest covers multi-modality learning, metric learning, uncertainty modeling and reasoning with fuzzy sets, rough sets and probability theory

  • 摘要:

    基于自表示子空间聚类的多视图聚类引起越来越多的关注. 大多数现有算法假设每个样本的所有视图都可获得, 然而在实际应用中, 由于各种因素, 可能会导致某些视图缺失. 为了对视图不完整数据进行聚类, 本文提出了一种在统一框架下同时执行缺失视图补全和多视图子空间聚类的方法. 具体地, 缺失视图是由已观测视图数据约束的隐表示生成的. 此外, 多秩张量应用于挖掘不同视图之间的高阶相关性. 这样通过隐表示和高阶张量同时挖掘了不同视图以及所有样本(即使是不完整视图样本)之间的相关性. 本文使用增广拉格朗日交替方向最小化(AL-ADM)方法求解优化问题. 在真实数据集上的实验结果表明, 我们的方法优于最新的多视图聚类算法, 具有更好的聚类准确度和鲁棒性.

  • 图  1  同时用$P(X|H)$对隐空间$H$进行建模, 并基于隐表示生成完整特征. 根据完整的数据, GM-PMVC将子空间表示集成到一个张量中, 可以挖掘多视图数据高阶相关性

    Fig.  1  Illustration of generative model for partial multi-view clustering (GM-PMVC). Given incomplete multi-view data, we simultaneously model latent space $H$ by $P(X|H)$ and generate complete feature based on latent representation. According to the completed data, GM-PMVC integrates subspace representation into a tensor which can effectively explores higher-order correlations equipped with low-rank constraint

    图  2  在四个数据集上不同缺失率的准确度(ACC)和归一化互信息(NMI) (平均值 ± 标准差)

    Fig.  2  Results (mean ± std) in terms of accuracy and NMI on four datasets with different missing rate

    图  3  YaleB数据集上缺失率为10 %时的模型分析: (a) 参数调整对NMI指标的影响; (b)迭代过程中的收敛条件数值和聚类指数曲线(收敛条件数值已归一化)

    Fig.  3  Model analysis on YaleB with missing rate: 10 %: (a) Performence with parameter tuning; (b) Convergence and clustering index curves during iteration (convergence values are normlized)

    表  1  符号与定义

    Table  1  Notations and definitions

    $b$ 标量 $B$ 矩阵
    ${\boldsymbol{b}}$ 向量 ${\cal{B}}$ 张量
    ${\cal{I}}$ 单位张量 $fft$ 快速傅里叶变换
    ${\cal{B}}_{ijk}$ 张量${\cal{B}}$第$(i,j,k)$元素 ${\cal{Q}}$ 正交张量
    ${\cal{B}}(i,:,:)$ 第$i$水平切片 ${\cal{B}}^{\rm T}$ ${\cal{B}}$的转置
    ${\cal{B}}(:,i,:)$ 第$i$侧面切片 ${\cal{B}}_{f}$ $fft({\cal{B}},[],3)$
    ${\cal{B}}(:,:,i)$ 第$i$正面切片 $B^{(i)}$ ${\cal{B}}(:,:,i)$
    $||B||_{F}$ $\sqrt{\sum\nolimits_{i,j}|B_{ij}|^{2}}$ $||B||_{*}$ 矩阵$B$奇异值之和
    $||{\cal{B}}||_{F}$ $\sqrt{\sum\nolimits_{i,j,k}|{\cal{B}}_{ijk}|^{2}}$ $||{\cal{B}}||_{1}$ $\sum\nolimits_{i,j,k}|{\cal{B}}_{ijk}|$
    表  2  算法运行时间对比(秒)

    Table  2  Algorithm running time comparison (s)

    Algorithms ORL yaleB
    MIC 84.67 143.30
    IMG 83.02 169.38
    PVC 120.68 404.82
    DAIMC 157.76 191.27
    SRLCs 93.21 193.36
    t-SVD-MSC 56.77 107.03
    Ours 180.90 288.50
