-
摘要: 现有基于深度学习的立体匹配算法在学习推理过程中缺乏有效信息交互, 而特征提取和代价聚合两个子模块的特征维度存在差异, 导致注意力方法在立体匹配网络中应用较少、方式单一. 针对上述问题, 本文提出了一种多维注意力特征聚合立体匹配算法. 设计2D注意力残差模块, 通过在原始残差网络中引入无降维自适应2D注意力残差单元, 局部跨通道交互并提取显著信息, 为匹配代价计算提供丰富有效的特征. 构建3D注意力沙漏聚合模块, 以堆叠沙漏结构为骨干设计3D注意力沙漏单元, 捕获多尺度几何上下文信息, 进一步扩展多维注意力机制, 自适应聚合和重新校准来自不同网络深度的代价体. 在三大标准数据集上进行评估, 并与相关算法对比, 实验结果表明所提算法具有更高的预测视差精度, 且在无遮挡的显著对象上效果更佳.Abstract: Existing deep learning-based stereo matching algorithms lack effective information interaction in the learning and reasoning process, and there is difference in feature dimension between feature extraction and cost aggregation, resulting in less and single application of attention methods in stereo matching networks. In order to solve these problems, a multi-dimensional attention feature aggregation stereo matching algorithm was proposed. The two-dimensional (2D) attention residual module is designed by introducing the adaptive 2D attention residual unit without dimensionality reduction into the original residual network. Local cross-channel interaction and extraction of salient information provide abundant and effective features for matching cost calculation. The three-dimensional (3D) attention hourglass aggregation module is constructed by designing a 3D attention hourglass unit with a stacked hourglass structure as the backbone. It captures multi-scale geometric context information and expand the multi-dimensional attention mechanism, adaptively aggregating and recalibrating cost volumes from different network depths. The proposed algorithm is evaluated on three standard datasets and compared with related algorithms. The experimental results show that the proposed algorithm has higher accuracy in predicting disparity and has better effect on unobstructed salient objects.
-
聚类是机器学习领域的重要研究方向之一, 旨在将一组无标签信息的数据划分为一些合理的类别[1]. 近年来, 便利的数据获取技术使得实际应用中待处理的数据呈现多样化的表现形式, 如多媒体数据存在音频、视频、图像和文字等异构信息; 医疗病例中含有多种医疗设备采集到的数据信息. 在机器学习领域, 由多种数据传感器或从不同源域、不同角度以及不同特征提取器所获取到的多样化数据统称为多视角数据. 多视角数据包含客观物体更完整的信息, 反映了客观物体的不同特性[2-3]. 因此, 若能有效利用多个视角的信息, 将获得比单视角方法更精确的聚类结果. 基于此, 许多研究人员投入到多视角聚类研究并提出诸如多视角K-means聚类[4]、多视角模糊聚类[5]、基于多视角矩阵分解的聚类[6]以及多视角一致图聚类[7]等方法. 虽然这些方法普遍获得比单视角聚类更好的性能, 但是这些方法都基于视角完备性假设, 要求待处理的多视角数据不能存在视角缺失情形[8]. 事实上, 视角缺失下的非完整多视角数据在近年来许多实际应用场景中十分普遍, 如在基于核磁共振、正电子成像技术和脑脊液数据信息的阿尔兹海默症诊断中, 许多人通常只含有其中一种或两种数据信息[9]. 在推荐系统中, 客户普遍存在信息不完整现象[10]. 此外, 在多媒体分析、文档分析或多语言文本分析任务中也存在视角缺失的情形[11-12]. 视角缺失不仅造成信息损失, 而且引起了如下3个问题: 1)破坏多视角数据的匹配结构; 2)加剧视角间信息的不平衡; 3)造成样本信息失衡. 这些因素使得不完整多视角聚类具有一定的挑战性.
虽然传统多视角聚类方法可通过删除含有缺失视角的样本或对缺失视角信息进行填充的方式来使得其模型得以执行, 但是这两种方式显然不合理[13-14]. 近10年来学者们针对不完整多视角聚类问题进行了研究并提出了许多方法. 例如, Trivedi等[15]提出了基于核相关性分析的不完整核矩阵恢复方法, 该方法的缺陷是只能处理两个视角的数据集, 而且要求其中一个视角完备. 随后基于矩阵分解的方法得以拓展到不完整多视角聚类, 其中比较典型的方法有: 局部多视角聚类 (Partial multi-view clustering, PMVC)[14]、多个不完整视角聚类 (Multiple incomplete-views clustering, MIC)[16]、双对齐不完整多视角聚类 (Doubly aligned incomplete multi-view clustering, DAIMC)[17]、在线不完整多视角聚类 (Online multi-view clustering with incomplete views, OMVC)[10]和单趟不完整多视角聚类 (One-pass incomplete multi-view clustering, OPIMC)[18]等. PMVC建立了局部对齐不完整多视角矩阵分解模型, 利用含有完整视角的部分样本的对齐信息来约束模型以得到视角间的共同表征. 该方法的缺陷是仅适于处理部分样本含有完整视角且剩余样本仅含有其中一个视角的不完整多视角数据聚类任务. 不同于PMVC, MIC、DAIMC、OMVC和OPIMC等方法引入加权矩阵分解技术, 首先利用样本均值或零向量来填充缺失的视角以对齐多视角数据, 然后引入基于视角缺失先验位置信息的预定义对角矩阵来约束多视角共同表征学习模型, 进而实现任意视角缺失下的多视角聚类. 此外, 为了处理大规模数据的聚类问题, OMVC和OPIMC还提出了区块分解优化方案. 总的来说, 这些方法在传统矩阵分解的多视角聚类模型的基础上, 通过引入视角缺失信息的先验矩阵约束, 让模型仅利用未缺失视角的信息来学习共同表征矩阵, 进而削弱视角缺失所造成的负面影响. 基于视角间的语义一致性, 统一嵌入对齐框架 (Unified embedding alignment framework, UEAF), 建立了一个缺失视角恢复和共同表征学习的联合模型[19]. 该方法的不足之处是要求各视角的特征维度高于数据类别数. 除上述方法外, 一些基于图学习和核学习的方法也被拓展来解决不完整多视角学习问题, 其中代表性的方法有: 基于自适应图学习的不完整多视角谱聚类 (Incomplete multi-view spectral clustering with adaptive graph learning, IMVSC_AGL)[20]和基于核补全的不完整多核K-means (Incomplete multiple kernel K-means with incomplete kernels, IMKKM-IK-MKC)[21]. 这两种方法将特征空间的视角缺失问题转换到流形空间的样本关联信息缺失问题, 利用未缺失样例间的相似度来获得数据的共同表征, 以实现任意视角缺失下的多视角聚类.
虽然上述方法为不完整多视角聚类问题提供了解决方案, 但是还存在以下局限: 1)未能挖掘和利用数据间最优的相似度信息, 如基于矩阵分解的方法普遍忽略了数据间的近邻结构信息; 2)现有方法普遍仅利用未缺失视角的特征或近邻结构信息, 忽略了缺失视角的信息, 如IMVSC_AGL这种基于图的方法忽略了与缺失视角相关联的样本相似度信息. 为了解决以上两个问题, 本文提出一种基于低秩张量图学习的不完整多视角聚类方法, 该方法不仅能够有效地利用视角间的信息和视角内的信息, 而且能挖掘不同视角的相似图间的高阶相关性, 实现缺失样例间的邻接元素补全, 进而得到更合理的聚类指示表征.
本文主要贡献简述如下: 1)针对不完整多视角聚类问题, 提出了一种灵活的基于图学习的聚类方法, 能够处理任意视角缺失下的聚类问题; 2)与现有方法相比, 所提出的方法建立了缺失图元素自适应补全和最优共同表征学习的联合框架, 能够得到数据间正确的邻接关系和最具可分性的聚类表征; 3)在多个数据集上的实验验证了所提出的方法在相似图补全和不完整多视角聚类上的优越性和有效性.
1. 相关知识
1.1 符号定义
在本文中, 用${\boldsymbol{A}} \in {{\bf{R}}^{m \times n}}$和${\cal{A}} \in {{\bf{R}}^{{n_1} \times {n_2} \times {n_3}}}$分别表示维度为$m \times n$的矩阵和维度为${n_1} \times {n_2} \times {n_3}$的三阶张量, 其元素分别表示为${{\boldsymbol{A}}_{i,j}}$和${{\cal{A}}_{i,j,k}}$. ${\left\| {\boldsymbol{A}} \right\|_*}$和${\left\| {\cal{A}} \right\|_{ \circledast} }$分别表示矩阵核范数和张量核范数, 其中矩阵${\boldsymbol{A}}$的核范数为其奇异值之和. ${\left\| {\boldsymbol{A}} \right\|_{\rm{F}}}$和${\left\| {\cal{A}} \right\|_{\rm{F}}}$分别为矩阵和张量的Frobenius范数, 计算方式分别为${\left\| {\boldsymbol{A}} \right\|_{\rm{F}}} = $ $ \sqrt {\sum\nolimits_{i = 1}^m {\sum\nolimits_{j = 1}^n {{\boldsymbol{A}}_{i,j}^2} } }\,和$${\| {\cal{A}} \|_{\rm{F}}} = \sqrt {\sum\nolimits_{k = 1}^{{n_3}} {\sum\nolimits_{j = 1}^{{n_2}} {\sum\nolimits_{i = 1}^{{n_1}} {{\cal{A}}_{i,j,k}^2} } } }.$ ${\boldsymbol{1}}$表示元素值都为1的列向量, ${\boldsymbol{I}}$为单位矩阵. ${\cal{I}}$为单位张量, 其第一个正面的切片为单位矩阵, 其他正面切片的元素为0.
1.2 张量相关基础运算
定义 1. 张量积[22]. 张量${\cal{B}} \in {{\bf{R}}^{{n_1} \times {n_2} \times {n_3}}}$和${\cal{C}} \in {{\bf{R}}^{{n_2} \times {n_4} \times {n_3}}}$的张量积为${n_1} \times {n_4} \times {n_3}$维的张量 ${\cal{S}} = {\cal{B}}*{\cal{C}} = fold\left\{ {bcirc\left( {\cal{B}} \right)unfold\left( {\cal{C}} \right)} \right\}$. 其中关于块对角循环矩阵$bcirc\left( {\cal{B}} \right)$、张量展开矩阵$unfold\left( {\cal{C}} \right)$和张量生成$fold(\cdot)$的相关定义可参考文献[22].
定义 2. 张量奇异值分解[23]. 张量${\cal{A}} \in {{\bf{R}}^{{n_1} \times {n_2} \times {n_3}}}$的奇异值分解可表示为${\cal{A}} = {\cal{U}}*{{{{{\boldsymbol{\Sigma}}}}}} *{{\cal{V}}^{\rm{T}}}$, 其中, ${\cal{U}} \in {{\bf{R}}^{{n_1} \times {n_1} \times {n_3}}}$ 和 ${\cal{V}} \in {{\bf{R}}^{{n_2} \times {n_2} \times {n_3}}}$是对角正交张量, 满足${{\cal{U}}^{\rm{T}}}{\cal{U}} = {\cal{U}}{{\cal{U}}^{\rm{T}}} = {\cal{I}}$和${{\cal{V}}^{\rm{T}}}{\cal{V}} = {\cal{V}}{{\cal{V}}^{\rm{T}}} = {\cal{I}}$. ${{{\boldsymbol{\Sigma}}}} \in {{\bf{R}}^{{n_1} \times {n_2} \times {n_3}}}$表示$f$对角张量, 其每个正面切片都是对角矩阵.
定义 3. 基于张量奇异值分解的张量核范数[23]. 对于张量${\cal{A}} \in {{\bf{R}}^{{n_1} \times {n_2} \times {n_3}}}$, 根据张量奇异值分解技术, 其核范数可表示为
$$ {\left\| {\cal{A}} \right\|_ \circledast }{\rm{ = }}\sum\limits_{k = 1}^{{n_3}} {{{\left\| {{{\cal{A}}_f}\left( {:,:,k} \right)} \right\|}_*}} = \sum\limits_{i = 1}^{\min \left( {{n_1},{n_2}} \right)} {\sum\limits_{k = 1}^{{n_3}} {\left| {{{\cal{S}}_f}\left( {i,i,k} \right)} \right|} } $$ 其中, ${{\cal{A}}_f}$为张量${\cal{A}}$沿着第3个维度的快速傅里叶变换结果, ${{\cal{S}}_f}\left( {i,i,k} \right)$为张量${{\cal{A}}_f}$的张量奇异值分解后的第$k$个正面切片的第$i$个奇异值.
2. 本文方法
本节主要介绍一种基于低秩张量图学习的不完整多视角聚类模型 (Low-rank tensor graph learning, LASAR), 其模型框图如图1所示. 该方法根据各个不完整视角的相似图信息, 通过联合挖掘多视角数据的互补信息来补全不完整相似图的缺失信息, 进而得到最优的聚类共同表征. 其中关于不完整多视角聚类的具体定义表述如下.
定义 4. 不完整多视角聚类. 给定含有$n$个样本和$l$个视角的不完整多视角数据集$\left\{ {{{\boldsymbol{X}}^{\left( v \right)}}} \right\}_{v = 1}^l$和视角缺失信息的先验指示矩阵${\boldsymbol{G}} \in {\left\{ {0,1} \right\}^{n \times l}}$, 不完整多视角聚类旨在将该类存在缺失视角的数据划分为合理的$c$个类别, 要求被划分为同类的样本之间的差异远小于异类样本的差异. 其中, ${{\boldsymbol{X}}^{\left( v \right)}} \in {{\bf{R}}^{{m_v} \times n}}$表示第$v$个视角的样例集合, ${m_v}$表示该视角的特征维度, ${{\boldsymbol{G}}_{i,j}} = 1$表示第i个样本的第$j$个视角未缺失, 否则, ${{\boldsymbol{G}}_{i,j}} = 0$, 且对应样例${\boldsymbol{X}}_{:,i}^{\left( j \right)}$的所有特征元素值用“NaN (空值)” 表示.
2.1 基于低秩张量图学习的不完整多视角聚类模型
基于图的谱聚类是多视角聚类领域的重要分支之一, 其不仅能够处理非线性流形结构(线性不可分)的数据聚类问题, 而且对噪声和视角特征维度失衡问题具有一定的鲁棒性. 传统基于图的多视角谱聚类模型可表示为
$$\mathop {\min }\limits_{{{\boldsymbol{U}}^{\rm{T}}}{\boldsymbol{U}} = {\boldsymbol{I}}} {\rm{tr}}\left( {{{\boldsymbol{U}}^{\rm{T}}}{{\boldsymbol{L}}_{{{{S}}^{\left( v \right)}}}}{\boldsymbol{U}}} \right)$$ (1) 其中, ${{\boldsymbol{S}}^{\left( v \right)}} \in {{\bf{R}}^{n \times n}}$为第$v$个视角的相似图, 其元素${\boldsymbol{S}}_{i,j}^{\left( v \right)}$表示第$i$个样本和第$j$个样本的第$v$个视角的相似度; 若两个样本越相似, 则该值越大. ${{\boldsymbol{L}}_{{{{S}}^{\left( v \right)}}}} \in {{\bf{R}}^{n \times n}}$为图${{\boldsymbol{S}}^{\left( v \right)}}$的拉普拉斯矩阵, 计算方式为: ${{\boldsymbol{L}}_{{{{S}}^{\left( v \right)}}}} = {{\boldsymbol{D}}_{{{{S}}^{\left( v \right)}}}} - {{\boldsymbol{S}}^{\left( v \right)}}$, 其中, ${{\boldsymbol{D}}_{{{{S}}^{\left( v \right)}}}} \in {{\bf{R}}^{n \times n}}$为对角矩阵且其对角元素为${\left( {{{\boldsymbol{D}}_{{{{S}}^{\left( v \right)}}}}} \right)_{i,i}} = {{\sum\nolimits_{j = 1}^n( { {{\boldsymbol{S}}_{i,j}^{\left( v \right)} + {\boldsymbol{S}}_{j,i}^{\left( v \right)}} } } )/ 2}$. ${\boldsymbol{U}} \in {{\bf{R}}^{n \times c}}$为原始多视角数据的共同表征, 其第$i$行可视为第$i$个样本的鉴别表征.
事实上, 模型(1)等价于
$$ \mathop {\min }\limits_{{{\boldsymbol{U}}^{\rm{T}}}{\boldsymbol{U}} = {\boldsymbol{I}}} \sum\limits_{j = 1}^n \sum\limits_{i = 1}^n (\| {{\boldsymbol{U}}_{i,:}} -{{\boldsymbol{U}}_{j,:}} \|_{\rm{2}}^2\sum\limits_{v = 1}^l {{\boldsymbol{S}}_{i,j}^{( v )}} ) $$ 从上式可发现, 若两样本具有较高的相似度(表现为$\sum\nolimits_{v = 1}^l {{\boldsymbol{S}}_{i,j}^{\left( v \right)}}$具有较大的值)时, 其对应样本在目标子空间的分布也会较近, 从而在K-means聚类时被自然地划分为同一类. 因此, 多视角谱聚类的实质是利用样本间的相似度信息来得到更具可分性的鉴别表征, 进而得到更好的聚类结果.
然而, 当数据存在缺失视角时, 显然无法从各个视角中构建含有完整$n \times n$个元素的相似图, 从而导致模型(1)无法执行. 此时, 最直接的一种解决策略是在相似图中将缺失视角对应的元素置为0, 以此补全各视角的相似图矩阵, 从而使模型(1)得以优化求解. 然而, 该策略最大的问题是会破坏原始的样本分布结构. 例如, 若存在如图2所示的$a$、$b$、$c$三个样本, 其中$\big\{ {{\boldsymbol{S}}_{a,b}^{\left( v \right)}} \big\}_{v = 1}^3 = \left\{ {0.8,0.7,0.7} \right\}$表示样本$a$和$b$在3个视角上的相似度分别为0.8、0.7和0.7. 在该图中, 样本$a$和$b$显然更相似, 然而当$a$样本的任意两个视角信息缺失时, 其相似图元素融合后的约束力显然弱于样本$b$和$c$的相似度融合后的约束力$\sum\nolimits_{v = 1}^3 {{\boldsymbol{S}}_{b,c}^{\left( v \right)}} = 1$. 此时, 优化模型(1)势必会导致样本$b$和$c$的低维表征更相似, 进而得到错误的聚类结果. 以上分析表明, 这种通过0值图补全的策略不合理.
对于多视角数据而言, 其视角间不仅存在一致聚类信息, 而且存在丰富的互补信息. 此外, 对于每个样本而言, 尽管其缺失多个视角, 但至少其某一个视角内必然存在一个样例. 因此, 可根据该视角内的样例邻接信息来推断该样本与其他样本在其他视角的关联信息, 进而实现各视角不完整相似图的自适应补全. 基于此思想, 本文设计了如下自适应图补全和聚类表征学习联合模型
$$\begin{split} &\mathop {\min }\limits_{{{\boldsymbol{S}}^{\left( v \right)}},{\boldsymbol{U}}} \sum\limits_{v = 1}^l \big( \| {( {{{\boldsymbol{S}}^{\left( v \right)}} - {{\boldsymbol{Z}}^{\left( v \right)}}} ) \odot {{\boldsymbol{W}}^{\left( v \right)}}}\|_{\rm{F}}^2 \;+ \\ &\qquad {\lambda _2}{\rm{tr}}( {{{\boldsymbol{U}}^{\rm{T}}}{{\boldsymbol{L}}_{{{{S}}^{\left( v \right)}}}}{\boldsymbol{U}}} ) \big) + {\lambda _1}{\left\| {\cal{S}} \right\|_ \circledast } \\ & {\rm{s}}.{\rm{t}}. \;\; 0 \leq {{\boldsymbol{S}}^{\left( v \right)}_{i,j}} \leq 1,{{\boldsymbol{S}}^{\left( v \right)}}{\boldsymbol{1}} = {\boldsymbol{1}}\\ & \qquad {\rm{diag}} \big\{{{{\boldsymbol{S}}^{\left( v \right)}}} \big\} = 0,\;\;{{\boldsymbol{U}}^{\rm{T}}}{\boldsymbol{U}} = {\boldsymbol{I}} \end{split} $$ (2) 其中, ${{\boldsymbol{Z}}^{\left( v \right)}} \in {{\bf{R}}^{n \times n}}$为从第$v$个视角的未缺失样例中构建的相似图, 如K近邻图或利用高斯核构建的相似图. 如图1所示, ${{\boldsymbol{Z}}^{\left( v \right)}}$中缺失样例所对应的行、列元素被初始化为0. ${{\boldsymbol{W}}^{\left( v \right)}} \in {{\bf{R}}^{n \times n}}$为权重矩阵, 其元素值为0或1; 该矩阵根据定义4中的视角缺失先验矩阵${\boldsymbol{G}}$构建, 若第$v$个视角的第$i$个样例和第$j$个样例存在, 则${\boldsymbol{W}}_{i,j}^{\left( v \right)} = 1$, 否则${\boldsymbol{W}}_{i,j}^{\left( v \right)} = 0$. ${{\boldsymbol{S}}^{\left( v \right)}} \in {{\bf{R}}^{n \times n}}$为本模型旨在恢复的完整相似图, 其中, ${\rm{diag}}\{{{{\boldsymbol{S}}^{\left( v \right)}}} \} = 0$表示矩阵${{\boldsymbol{S}}^{\left( v \right)}} $对角线元素为0. ${\lambda _1}$和${\lambda _2}$为正值超参数. $ \odot {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} $表示矩阵元素点乘运算符.
从模型(2)可以发现, 通过引入二值约束矩阵${{\boldsymbol{W}}^{\left( v \right)}}$, LASAR能够有效地利用各个视角内的未缺失样例间的有效邻接信息${{\boldsymbol{Z}}^{\left( v \right)}}$来得到完整的相似图. 而张量低秩约束项${\left\| {\cal{S}} \right\|_ \circledast }$和共同表征学习项${\lambda _2}{\rm{tr}}\left( {{{\boldsymbol{U}}^{\rm{T}}}{{\boldsymbol{L}}_{{{{S}}^{\left( v \right)}}}}{\boldsymbol{U}}} \right)$将使得模型充分考虑视角间的互补信息和一致信息, 进而得到数据间最正确的邻接关系和最优的聚类指示矩阵. 此外, 共同表征学习项${\lambda _2}{\rm{tr}}\left( {{{\boldsymbol{U}}^{\rm{T}}}{{\boldsymbol{L}}_{{{{S}}^{\left( v \right)}}}}{\boldsymbol{U}}} \right)$能促使模型获得具有$c$个连通分量的最优且最适于聚类的相似图${{\boldsymbol{S}}^{\left( v \right)}}$ [7].
2.2 模型优化
由于优化问题(2)含有多个变量, 难以直接求得其解析解, 本部分采用交替迭代优化算法, 通过逐一求解各变量优化子问题, 进而得到问题(2)的最优解. 首先, 为便于问题(2)中各变量的优化, 引入如下变量${\cal{A}}$
$$\begin{split} &\mathop {\min }\limits_{{{\boldsymbol{S}}^{\left( v \right)}},{\boldsymbol{U}},{\cal{A}}} \sum\limits_{v = 1}^l \big( \| {( {{{\boldsymbol{S}}^{\left( v \right)}} - {{\boldsymbol{Z}}^{\left( v \right)}}} ) \odot {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {{\boldsymbol{W}}^{\left( v \right)}}} \|_{\rm{F}}^2 \;+\\&\;\;\qquad {\lambda _2}{\rm{tr}}( {{{\boldsymbol{U}}^{\rm{T}}}{{\boldsymbol{L}}_{{{{S}}^{\left( v \right)}}}}{\boldsymbol{U}}} ) \big) + {\lambda _1}{\left\| {\cal{A}} \right\|_ \circledast } \\ &{\rm{s}}.{\rm{t}}.{\kern 10pt} {\kern 1pt} {\kern 1pt} 0 \leq {{\boldsymbol{S}}^{\left( v \right)}_{i,j}} \leq 1,{{\boldsymbol{S}}^{\left( v \right)}}{\boldsymbol{1}} = {\boldsymbol{1}},{\rm{diag}}\left\{ {{{\boldsymbol{S}}^{\left( v \right)}}} \right\} = 0 \\ &{\kern 25pt} {{\boldsymbol{U}}^{\rm{T}}}{\boldsymbol{U}} = {\boldsymbol{I}},\;{\cal{S}} = {\cal{A}} \\[-10pt]\end{split} $$ (3) 优化问题(2)等价于优化问题(3), 其中问题(3)可进一步改写为
$$\begin{split} & \mathop {\min }\limits_{{{\boldsymbol{S}}^{\left( v \right)}},{\boldsymbol{U}},{\cal{A}},{\cal{C}}} \sum\limits_{v = 1}^l \big( \| {( {{{\boldsymbol{S}}^{\left( v \right)}} - {{{{\boldsymbol{Z}}}}^{\left( v \right)}}} ) \odot {{{{\boldsymbol{W}}}}^{\left( v \right)}}} \|_{\rm{F}}^2 \;+\\&\qquad\;\; {\lambda _2}{\rm{tr}}( {{{\boldsymbol{U}}^{\rm{T}}}{{\boldsymbol{L}}_{{{{S}}^{\left( v \right)}}}}{\boldsymbol{U}}} ) \big) \;+ \\&\;\;\qquad {\lambda _1}{\left\| {\cal{A}} \right\|_ \circledast } + \frac{\mu }{2}\left\| {{\cal{S}} - {\cal{A}} + \frac{{\cal{C}}}{\mu }} \right\|_{\rm{F}}^2 \\ & {\rm{s}}.{\rm{t}}.\;\quad 0 \leq {{\boldsymbol{S}}^{\left( v \right)}_{i,j}} \leq 1,{{\boldsymbol{S}}^{\left( v \right)}}{\boldsymbol{1}} = {\boldsymbol{1}}\\ &\qquad\;\; {{\boldsymbol{U}}^{\rm{T}}}{\boldsymbol{U}} = {\boldsymbol{I}},{\rm{diag}}\left\{ {{{\boldsymbol{S}}^{\left( v \right)}}} \right\} = 0 \end{split} $$ (4) 其中, ${\cal{C}}$为与张量${\cal{S}}$具有同样维度的张量, 由$l$个矩阵${{\boldsymbol{C}}^{\left( v \right)}} \in {{\bf{R}}^{n \times n}}$ ($1 \leq v \leq l$) 组成. $\mu $是惩罚项参数.
关于问题(4)的详细优化过程如下.
步骤1. 求变量${{\boldsymbol{S}}^{\left( v \right)}}$. 由问题(4)可知, 当固定变量${\boldsymbol{U}}$、${\cal{A}} $和${\cal{C}}$时, 关于变量${{\boldsymbol{S}}^{\left( v \right)}}$的优化问题退化为
$$\begin{split} &\mathop {\min }\limits_{{{\boldsymbol{S}}^{\left( v \right)}}} \left\| {\left( {{{\boldsymbol{S}}^{\left( v \right)}} - {{{{\boldsymbol{Z}}}}^{\left( v \right)}}} \right) \odot {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {{{{\boldsymbol{W}}}}^{\left( v \right)}}} \right\|_{\rm{F}}^2\; + \\ & {\kern 15pt} {\lambda _2}{\rm{tr}}\left( {{{\boldsymbol{U}}^{\rm{T}}}{{\boldsymbol{L}}_{{{{S}}^{\left( v \right)}}}}{\boldsymbol{U}}} \right) + \frac{\mu }{2}\left\| {{{\boldsymbol{S}}^{\left( v \right)}} - {{\boldsymbol{A}}^{\left( v \right)}} + \frac{{{{\boldsymbol{C}}^{\left( v \right)}}}}{\mu }} \right\|_{\rm{F}}^2 \\ & {\rm{s}}.{\rm{t}}.{\kern 1pt} {\kern 1pt} {\kern 1pt} 0 \leq {{\boldsymbol{S}}^{\left( v \right)}_{i,j}} \leq 1,{{\boldsymbol{S}}^{\left( v \right)}}{\boldsymbol{1}} = {\boldsymbol{1}},{\rm{diag}}\left\{ {{{\boldsymbol{S}}^{\left( v \right)}}} \right\} = 0 \end{split} $$ (5) 若令${{\boldsymbol{H}}_{i,j}} = \left\| {{{\boldsymbol{U}}_{i,:}} - {{\boldsymbol{U}}_{j,:}}} \right\|_{\rm{2}}^2$, 则问题(5)可变换为如下等价优化问题
$$\begin{split} &\mathop {\min }\limits_{{{\boldsymbol{S}}^{\left( v \right)}}} \sum\limits_{i = 1}^n {\sum\limits_{j = 1}^n {{{\left( {{\boldsymbol{S}}_{i,j}^{\left( v \right)} - {\boldsymbol{M}}_{i,j}^{\left( v \right)}} \right)}^2}} } \\ &{\rm{s}}.{\rm{t}}.{\kern 1pt} {\kern 1pt} {\kern 1pt} 0 \leq {{\boldsymbol{S}}^{\left( v \right)}_{i,j}} \leq 1,{{\boldsymbol{S}}^{\left( v \right)}}{\boldsymbol{1}} = {\boldsymbol{1}},{\rm{diag}}\left\{ {{{\boldsymbol{S}}^{\left( v \right)}}} \right\} = 0 \end{split} $$ (6) 其中, ${\boldsymbol{M}}_{i,j}^{\left( v \right)} = \frac{{{{{\boldsymbol{Z}}}}_{i,j}^{\left( v \right)}{{{\boldsymbol{W}}}}_{i,j}^{\left( v \right)} - \frac{{{\lambda _2}{{\boldsymbol{H}}_{i,j}}}}{4} + \frac{{\mu {\boldsymbol{A}}_{i,j}^{\left( v \right)} - {\boldsymbol{C}}_{i,j}^{\left( v \right)}}}{2}}}{{{{{\boldsymbol{W}}}}_{i,j}^{\left( v \right)} + \frac{\mu}{ 2}}}$
鉴于问题(6)关于变量${{\boldsymbol{S}}^{\left( v \right)}}$的各行相互独立, 因此可对其进行逐行优化, 进而得到变量${{\boldsymbol{S}}^{\left( v \right)}}$的最优解[24], 即
$$ {\boldsymbol{S}}_{i,j}^{\left(v\right)}=\left\{ {\begin{aligned}&{\left({\boldsymbol{M}}_{i,j}^{\left(v\right)}+{{\boldsymbol{\eta}} }_{i}^{\left(v\right)}\right)}_+,\;\;\quad i\ne j\\&\; 0,\qquad\qquad\qquad\qquad i=j\end{aligned}} \right.$$ (7) 其中, 函数${\left( a \right)_ + } = \left\{ {\begin{aligned} {a,}\quad{a \geq 0} \\ {0,}\quad{a < 0} \end{aligned}} \right.$ . 根据约束条件${{\boldsymbol{S}}^{\left( v \right)}}{{\bf{1}}} = {{\bf{1}}}$, 可得
$${\boldsymbol{\eta}} _i^{\left( v \right)} = \frac{{1 - \sum\limits_{j = 1,j \ne i}^n {{\boldsymbol{M}}_{i,j}^{\left( v \right)}} }}{{n - 1}}$$ (8) 步骤2. 求变量${\boldsymbol{U}}$. 将除变量${\boldsymbol{U}}$以外的所有变量视为已知量, 此时模型(4)将退化为如下关于特征值分解的优化问题
$$\mathop {\min }\limits_{{{\boldsymbol{U}}^{\rm{T}}}{\boldsymbol{U}} = {\boldsymbol{I}}} \sum\limits_{v = 1}^l {\left( {{\rm{tr}}\left( {{{\boldsymbol{U}}^{{{\rm{T}}}}}{{\boldsymbol{L}}_{{{{S}}^{\left( v \right)}}}}{\boldsymbol{U}}} \right)} \right)} $$ (9) 其最优解为矩阵$( {\sum\nolimits_{v = 1}^l {{{\boldsymbol{L}}_{{{{S}}^{\left( v \right)}}}}} } )$的前$c$个最小特征值所对应的特征向量集.
步骤3. 求变量${\cal{A}}$. 在将${{\boldsymbol{S}}^{\left( v \right)}}$、${\boldsymbol{U}}$和${\cal{C}}$视为已知量时, 问题(4)退化为如下典型的张量低秩优化问题
$$\mathop {\min }\limits_{\cal{A}} {\lambda _1}{\left\| {\cal{A}} \right\|_ \circledast } + \frac{\mu }{2}\left\| {{\cal{S}} - {\cal{A}} + \frac{{\cal{C}}}{\mu }} \right\|_{\rm{F}}^2$$ (10) 问题(10)可通过张量奇异值分解进行求解[22-23]. 其封闭解可表示为
$$ {\cal{A}} = {\Upsilon _{{\frac{n \mu } {{\lambda _1}}}}}\left( {{\cal{S}} + \dfrac{{\cal{C}}} { \mu }} \right) ={\cal{{\boldsymbol{U}}}}*{\Upsilon _{{\frac{n \mu } {{\lambda _1}}}}}\left( {\boldsymbol{\Sigma}} \right)*{{\cal{V}}^{\rm{T}}} $$ (11) 其中, ${\cal{S}} + {{\cal{C}} / \mu } = {\cal{{\boldsymbol{U}}}}*{\boldsymbol{\Sigma}} *{{\cal{V}}^{\rm{T}}}$, ${\Upsilon _{{{n\mu } / {{\lambda _1}}}}}\left( {\boldsymbol{\Sigma}} \right) = {\boldsymbol{\Sigma}} *{\cal{J}}$, ${\cal{J}} \in {{\bf{R}}^{n \times l \times n}}$是$f$对角张量且其对角元素值在傅里叶域中为${{\cal{J}}_f}\left( {i,i,j} \right) = \max ( {1 - \frac{{{{n\mu } / {{\lambda _1}}}}}{{{\boldsymbol{\Sigma}} _f^{\left( j \right)}\left( {i,i} \right)}},0} )$.
步骤4. 求变量${\cal{C}}$并更新$\mu $. 鉴于$\| {\cal{S}} - {\cal{A}}+ {{\cal{C}}}/ {\mu } \|_{\rm{F}}^2 = \sum\nolimits_{v = 1}^l {\| {{\boldsymbol{S}}^{\left( v \right)}} - {{\boldsymbol{A}}^{\left( v \right)}} + {{{{\boldsymbol{C}}^{\left( v \right)}}}}/{\mu } \|_{\rm{F}}^2}$, 且求张量${\cal{C}}$等价于求变量$\left\{ {{{\boldsymbol{C}}^{\left( v \right)}}} \right\}_{v = 1}^l$, 因此, 变量${\cal{C}}$的更新式可表示为
$${{\boldsymbol{C}}^{\left( v \right)}} \Leftarrow {{\boldsymbol{C}}^{\left( v \right)}} + \mu \left( {{{\boldsymbol{S}}^{\left( v \right)}} - {{\boldsymbol{A}}^{\left( v \right)}}} \right)$$ (12) $\mu $的更新式可表示为
$$\mu \Leftarrow \min \left( {{\rm{\rho}} \mu ,{{\rm{\mu}} _0}} \right)$$ (13) 其中, ${\rm{\rho}} $和${{\rm{\mu}} _0}$为常数.
至此, 问题(4)的未知变量均已求得. 算法1总结了上述优化过程.
算法 1. 问题的优化过程
输入. 不完整的多视角数据$\left\{ {{{\boldsymbol{X}}^{\left( v \right)}}} \right\}_{v = 1}^l$和对应视角缺失信息的表征矩阵${\boldsymbol{G}} \in {{\bf{R}}^{n \times l}}$, 参数${\lambda _1}$, ${\lambda _2}$, $\mu = 0.01$和${\rm{\rho}} = 1.2$.
初始化. 构建各视角的K近邻图${{\boldsymbol{Z}}^{\left( v \right)}} \in {{\bf{R}}^{n \times n}}$, 其中缺失视角对应的行和列的元素值为0. 根据视角缺失信息矩阵${\boldsymbol{G}}$构建各个视角的图元素缺失信息矩阵${{\boldsymbol{W}}^{\left( v \right)}} \in {{\bf{R}}^{n \times n}}$. 矩阵${{\boldsymbol{C}}^{\left( v \right)}} = 0$.
while not converged do
1)利用式(5) ~ (8), 更新变量${{\boldsymbol{S}}^{\left( v \right)}}$;
2)求解式(9), 更新变量${\boldsymbol{U}}$;
3)利用式(11), 更新变量${\cal{A}}$;
4)利用式(12)和式(13), 分别更新变量${{\boldsymbol{C}}^{\left( v \right)}}$和$\mu $;
end while
输出. 共同表征矩阵${\boldsymbol{U}}$.
2.3 计算复杂度分析
鉴于诸如矩阵加、减、乘及元素点除和点乘等矩阵基本运算的计算时间相对较少, 因此, 在本部分对问题(4)的优化算法的计算复杂度分析中, 并不考虑这些基本运算的计算复杂度. 从第2.2节的介绍可以发现, 步骤1和步骤4仅包含上述简单的矩阵运算, 因此其计算复杂度可忽略. 步骤2中计算复杂度较高的运算为矩阵特征值分解运算. 对于维度为$n \times n$的矩阵, 可利用eigs函数来快速地求得其最小的$c$个特征值所对应的特征向量, 该过程的计算复杂度为${\rm{ O}}( {c{n^2}} )$[25]. 因此, 步骤2的计算复杂度大约为${\rm{O}}( {c{n^2}} )$. 在步骤3中, 具有较高计算复杂度的运算为傅里叶变换、傅里叶逆变换和张量奇异值分解运算等. 对于维度为$n \times l \times n$的张量矩阵, 傅里叶变换和逆变换的计算复杂度大约为${\rm{O}}( {l\times{n^2}\log ( n )} )$, 张量奇异值分解的计算复杂度为${\rm{O}}( {{l^2}{n^2}} )$[23]. 因此, 步骤3的计算复杂度大约为${\rm{O}}( {l\times{n^2}\log ( n ){\rm{ + }}{l^2}{n^2}} )$. 综上分析, 算法1的计算复杂度大约为${\rm{O}}( \tau ( l\times{n^2}\log ( n )+ {l^2}{n^2} + c\times{n^2} ) ),$ 其中, $\tau $为算法总的迭代步数.
2.4 与相关方法之间的联系和区别
IMVSC_AGL、基于光谱扰动的不完整多视角聚类 (Spectral perturbation-oriented incomplete multi-view data, PIC)[26]以及生成式不完整多视角聚类 (Generative model for partial multi-view clustering, GM-PMVC)[22]是近年来较先进的基于图学习的不完整多视角聚类方法. 这3种方法和本文所提出方法都利用各视角未缺失的样例之间的邻接关系来获取视角的共同鉴别表征, 区别和联系之处在于: 1) IMVSC_AGL仅利用视角间未缺失样例之间的相似度信息来学习共有表征矩阵. 2) PIC从预定义的近邻相似图的拉普拉斯矩阵中学习视角间一致的拉普拉斯矩阵来聚类. 在该方法中, 每个预构建的相似图中的缺失邻接信息由其他视角的邻接信息的均值来填充, 该操作会引入错误干扰信息. 3) GM-PMVC和本文所提出的方法都采用低秩张量约束来挖掘多视角相似图的高阶关联信息1, 但是GM-PMVC方法采用的是特征级的视角特征恢复策略, 且其目的是学习多个具有视角间差异性的相似图来聚类; 而本文方法的目的是利用视角间的互补信息和一致信息得到各视角最优的相似图和视角间一致的聚类表征.
3. 实验
本节将通过在真实数据集上的实验来验证所提出的LASAR算法的有效性, 其中聚类性能的评价指标为聚类准确度(Accuracy, ACC)、归一化互信息(Normalized mutual information, NMI)和纯度(Purity)[20]. 在实验中, 本文方法的相似图${{\boldsymbol{Z}}^{\left( v \right)}}$初始化为各视角未缺失样例中构建的K近邻图, 其元素值通过高斯核计算, 近邻参数设置为15.
3.1 实验设置
3.1.1 数据集
数据集包括: 1) Caltech7. Caltech7数据集包含7类目标和1474个样本. 其样本来源于有名的目标识别数据库Caltech101[27]. Li等[28]提取每幅图像的Gabor、小波矩、统计变换直方图 (Census transform histogram, CENTRIST)、HOG (Histogram of oriented gradient)、GIST (Generalized search tree)和LBP (Local binary pattern) 等特征构成6个视角数据. 2) BBCSport. 传统BBCSport数据集包含737个从BBCSport网站所收集的文档, 这些文档含有$2\sim 4$个视角表征, 隶属于田径、板球、足球、橄榄球和网球等5种体育运动类新闻[29]. 在本实验中, 选取其中116个含有完整4个视角的样本来对比各算法的性能. 3) Handwritten[30]. Handwritten多视角数据集包含2000个样本和10个数字类别($0 \sim 9$), 其中每个样本含有傅里叶系数、Profile相关性、Karhunen-Love系数、窗口像素均值特征、Zernike矩特征和形态学特征等6种视角特征. 在本实验中, 选取其前5个特征视角来验证各算法在不完整多视角聚类任务上的有效性. 4) Animal[31]. 原始Animal数据集包含30475幅图像和50个类别. 在本实验中, 参考文献[32], 选取其中含有10158个样本和50个类别的子集进行实验对比, 其中每个样本含有DECAF (Deep convolutional activation feature)[33]和VGG (Visual geometry group)[34]两种深度网络所提取的特征. 5) Reuters[35]. Reuters是一个大尺度多语种的文档数据集, 每个文档含有英语、法语、德语、西班牙语和意大利语等5种表现形式. 本实验中选取其中包含英文和法文两个视角的18758个文档来验证本文方法的有效性.
3.1.2 对比算法
对比算法包含前面所介绍的MIC、OMVC、DAIMC、OPIMC、UEAF、IMKKM-IK-MKC、IMVSC_AGL和GM-PMVC等较为先进的不完整多视角聚类方法以及基于多视角非负矩阵分解的聚类方法 (Multi-view nonnegative matrix factorization, MultiNMF)[36]和基于质心的协同正则化 (Centroid-based co-regularization multi-view spectral clustering, CCo_MVSC)[37]两种知名的完整多视角聚类基准算法. 其中, MultiNMF采用矩阵分解技术得到多视角数据的共同表征; 而CCo_MVSC根据多视角数据的相似图矩阵信息, 利用谱聚类方法得到捕获其数据流形结构的共同表征. 对于MultiNMF, 缺失视角分别用如下两种方式填充: 一种用所对应的视角的均值样本填充; 另一种方法参考文献[38-39]采用K近邻方法进行填充. 这两种方法分别称为 “MultiNMF+均值”和 “MultiNMF+KNN”. 在实验中, CCo_MVSC也采用两种缺失视角填充方式: 一种是先构建核矩阵, 然后将缺失样例所关联的核矩阵元素置为0; 另一种是先采用K近邻方法补全缺失视角, 然后构建核矩阵.
3.1.3 不完整多视角数据集的构建
在保证每个样例至少含有一个视角特征的前提条件下, 随机删除Caltech7、BBCSport 和 Handwritten 三个数据库中各视角p% 的样例, 以构成含有p%视角缺失率的不完整多视角数据集. 对于 Animal 和 Reuters数据集, 首先随机选取p% 个样本作为含有完整视角的样本; 然后针对剩余样本, 随机删除其中一半样本的第二视角特征, 接着删除剩余一半样本的第一视角特征, 以构成含有p% 视角配对率的不完整多视角数据集.
3.2 聚类实验结果和分析
各不完整多视角聚类方法在上述数据集上的实验对比结果如表1、表2和图3所示. 其中, 所列的值为这些方法在同样的多组随机生成的不完整多视角数据上的实验结果的均值. 从实验结果中可发现: 1) CCo_MVSC+KNN/零值、UEAF、IMVSC_AGL、GM-PMVC和LASAR等基于图信息的方法普遍获得比同类型方法更好的聚类结果, 表明数据间的邻接信息含有丰富的聚类信息; 2)随着视角缺失率的增加, 所有方法的性能显著下降, 表明视角缺失因素给多视角数据一致聚类信息的挖掘带来了一定的挑战; 3)所提出的LASAR方法在这些数据集上获得了一致最好的聚类结果, 验证了LASAR在不完整多视角聚类上的有效性; 4)与同样使用低秩张量约束来挖掘高阶相关信息的GM-PMVC方法相比, 本文方法在这些数据集上普遍获得了更好的聚类结果, 表明本文方法从不完整多视角数据中得到的相似图更精确.
表 1 各方法在不同视角缺失率下的Caltech7和BBCSport数据集上的实验结果Table 1 Experimental results of different methods on Caltech7 and BBCSport datasets with different missing-view rates数据集 方法 NMI (%) ACC (%) Purity (%) 0.1 0.3 0.5 0.1 0.3 0.5 0.1 0.3 0.5 Caltech7 MultiNMF+均值 30.16 28.52 28.88 46.39 40.61 37.92 79.80 78.43 78.03 MultiNMF+KNN 36.38 34.27 34.19 50.71 43.98 42.66 80.68 80.88 80.17 CCo_MVSC+零值 35.53 34.18 31.52 38.47 38.16 37.35 78.33 77.89 76.21 CCo_MVSC+KNN 37.38 37.18 37.33 39.06 39.62 37.34 80.25 80.36 81.45 MIC 33.71 27.35 20.44 44.07 38.01 35.80 78.12 73.31 68.26 OMVC 28.13 25.32 18.76 40.88 36.82 33.28 79.21 77.73 74.05 DAIMC 44.61 38.45 36.28 48.29 47.46 44.89 83.32 76.83 75.50 OPIMC 42.98 41.54 35.98 49.24 48.34 44.12 84.89 83.70 80.64 UEAF 39.44 31.07 24.02 50.82 42.71 36.32 81.49 78.26 76.29 IMKKM-IK-MKC 24.09 23.45 22.91 36.54 34.87 36.05 72.98 73.82 72.52 IMVSC_AGL 44.05 42.61 37.35 54.72 54.61 51.78 84.27 83.98 82.31 GM-PMVC 60.26 52.35 47.95 62.65 54.95 47.65 91.26 84.49 83.93 LASAR 66.08 62.80 52.76 70.29 69.02 66.46 92.76 90.27 84.84 BBCSport MultiNMF+均值 23.48 18.25 14.79 48.58 42.75 40.34 47.17 44.66 43.10 MultiNMF+KNN 33.41 29.17 32.66 56.03 54.14 54.66 58.62 55.51 58.27 CCo_MVSC+零值 62.79 57.69 39.55 72.76 70.06 61.38 81.49 78.62 66.72 CCo_MVSC+KNN 59.24 56.25 38.97 69.02 69.83 60.06 80.92 78.56 68.62 MIC 29.90 25.84 24.01 51.21 46.21 46.03 55.00 51.72 52.41 OMVC 30.64 41.57 40.63 53.33 51.38 48.79 56.49 59.20 57.47 DAIMC 56.62 50.17 37.89 68.62 63.45 56.89 76.90 71.72 61.03 OPIMC 35.66 31.56 21.75 54.14 52.93 45.69 58.28 56.72 50.86 UEAF 70.71 68.25 55.13 78.22 77.24 69.31 87.41 87.07 77.07 IMKKM-IK-MKC 72.91 64.42 53.52 77.55 75.66 67.07 88.76 84.03 77.00 IMVSC_AGL 70.46 66.11 54.57 76.41 74.48 69.31 87.41 85.00 78.10 GM-PMVC 70.34 66.26 48.93 74.66 73.48 60.07 85.17 84.48 72.68 LASAR 77.09 70.30 57.04 85.00 77.41 73.28 90.00 88.62 78.79 表 2 各方法在不同视角缺失率下的Handwritten及不同视角配对率下的Animal和Reuters数据集上的实验结果Table 2 Experimental results of different methods on Handwritten dataset with different missing-view rates, Animal and Reuters datasets with different paired-view rates数据集 方法 NMI (%) ACC (%) 0.1 0.3 0.5 0.7 0.1 0.3 0.5 0.7 Handwritten MultiNMF+均值 72.05 60.11 41.99 20.88 82.35 71.74 52.03 31.85 MultiNMF+KNN 74.23 74.77 73.81 67.93 83.64 83.89 83.53 78.33 CCo_MVSC+零值 70.90 68.23 62.86 53.14 74.61 73.17 70.15 64.62 CCo_MVSC+KNN 73.03 73.77 73.06 67.66 76.76 76.79 76.20 75.52 MIC 70.84 65.39 52.95 34.71 77.59 73.29 61.27 41.34 OMVC 56.72 44.99 35.16 25.83 65.04 55.00 36.40 29.80 DAIMC 79.78 76.65 68.77 47.10 88.86 86.73 81.92 60.44 OPIMC 77.26 73.74 66.57 51.86 80.20 76.45 69.50 56.66 UEAF 77.74 69.37 55.09 50.56 85.80 76.11 65.39 61.11 IMKKM-IK-MKC 69.43 65.42 59.04 47.36 71.78 69.07 66.08 55.55 IMVSC_AGL 93.68 90.55 86.39 75.44 97.15 95.50 93.19 84.08 GM-PMVC 99.84 99.64 99.12 97.14 99.94 99.87 99.66 98.87 LASAR 99.92 99.81 99.32 99.13 99.97 99.93 99.73 99.68 Animal MultiNMF+均值 48.25 53.51 56.30 61.48 42.04 46.33 48.62 52.92 MultiNMF+KNN 53.68 55.58 58.85 60.68 45.15 47.89 51.51 53.16 CCo_MVSC+零值 52.19 55.31 58.31 61.71 48.12 52.03 54.72 56.73 CCo_MVSC+KNN 49.13 57.96 61.37 63.86 47.71 53.58 56.79 58.41 MIC 48.96 52.79 55.69 59.30 39.44 43.38 45.88 49.15 OMVC 44.66 50.77 53.11 55.38 30.66 42.51 43.98 46.39 DAIMC 49.33 55.03 59.36 62.76 42.76 50.18 53.87 56.42 OPIMC 44.29 52.34 58.51 62.04 37.86 46.33 53.14 53.88 UEAF 54.88 62.10 64.27 68.62 46.76 52.45 58.15 62.71 IMKKM-IK-MKC 51.47 57.21 62.14 66.50 46.05 53.61 58.48 61.85 IMVSC_AGL 56.38 59.65 63.26 66.71 51.61 54.94 57.97 60.73 GM-PMVC 55.57 57.62 61.25 64.55 47.84 50.89 53.99 57.81 LASAR 65.79 69.61 90.26 92.97 58.05 65.67 86.28 88.05 Reuters MultiNMF+均值 19.58 18.82 18.56 19.51 37.68 38.31 37.27 37.58 MultiNMF+KNN 19.91 23.17 22.50 22.21 37.95 38.08 37.47 37.35 CCo_MVSC+零值 17.04 18.66 18.10 20.11 34.66 37.39 37.46 40.01 CCo_MVSC+KNN 17.64 19.33 19.67 20.95 35.42 37.79 39.41 41.06 MIC 18.72 21.30 22.78 24.34 38.47 40.85 41.37 43.05 OMVC 18.05 19.77 21.37 22.97 36.78 37.44 39.45 41.09 DAIMC 26.53 29.98 30.27 31.55 43.32 46.67 47.78 48.89 OPIMC 19.02 22.47 23.82 25.39 40.58 42.19 43.87 44.43 UEAF 24.77 26.85 27.14 28.36 41.45 44.95 46.87 47.92 IMKKM-IK-MKC 24.30 26.75 26.88 28.67 41.13 45.71 46.40 47.29 IMVSC_AGL 25.75 28.41 28.39 29.79 42.38 46.29 47.82 48.91 GM-PMVC 26.22 29.35 30.71 30.89 43.15 46.88 48.19 50.44 LASAR 28.34 32.01 31.27 32.77 45.38 48.14 50.80 52.77 3.3 算法运行时间对比
表3列出了各对比算法和本文所提出的方法在上述5个数据集上的聚类运行时间, 其中视角缺失率或视角配对率均选择为30%. 运行时间测试的软硬件平台为: Ubuntu 18.04, 128 GB内存和Intel i7-9800X CPU. 从表3可以看出, 在大多数情形下, 本文方法的实际运行时间与MIC、OMVC和DAIMC等具有较低计算复杂度的方法相差不大, 特别是在Animal和Reuters等大尺度数据集上, 本文方法明显比MIC和OMVC更高效. 从表3还可以看出, 与同样采用低秩张量约束的GM-PMVC相比, 本文方法能够在更短的时间内获得数据的聚类结果.
表 3 各方法在5个数据集上的运行时间(s), 其中视角缺失率或配对率为30%Table 3 Running time (s) of different methods on the above five datasets with a missing-view rate or paired-view rate of 30%方法 Caltech7 BBCSport Handwritten Animal Reuters 计算复杂度 MultiNMF+均值 60.38 28.62 35.54 13489.18 27385.81 ${\rm{O} } \left( {\tau T\sum\nolimits_{v = 1}^l { {m_v}cn} } \right)$[10] MultiNMF+KNN 59.05 25.46 40.69 13499.88 27408.45 ${\rm{O} } \left( {\tau T\sum\nolimits_{v = 1}^l { {m_v}cn} } \right)$[10] CCo_MVSC+零值 3.01 0.35 5.18 174.16 489.83 ${\rm{O} } \left( {\tau \left( {l{n^3} + {n^3} } \right)} \right)$ CCo_MVSC+KNN 4.36 0.46 7.69 243.77 699.74 ${\rm{O}} \left( {\tau \left( {l{n^3} + {n^3}} \right)} \right)$ MIC 225.31 3.01 149.87 3693.92 22499.46 ${\rm{O}} \left( {\tau T\sum\nolimits_{v = 1}^l {{m_v}cn} } \right)$[10] OMVC 152.54 3.17 27.77 3409.08 18154.71 ${\rm{O}} \left( {\tau T\sum\nolimits_{v = 1}^l {{m_v}cn} } \right)$[10] DAIMC 62.74 81.18 26.72 2191.43 96628.66 ${\rm{O}} \left( {\tau \left( {Tnc{m_{\max }} + lm_{\max }^3} \right)} \right)$[17] OPIMC 0.16 0.05 0.09 3.31 1.05 ${\rm{O}} \left( {\tau lcn{m_{\max }}} \right)$[18] UEAF 4.64 2.36 7.05 1258.93 18599.64 ${\rm{O}} \left( {\tau \left( {2{n^3} + \sum\nolimits_{v = 1}^l {{m_v}{c^2}} } \right)} \right)$[19] IMKKM-IK-MKC 23.68 0.22 41.22 975.38 1762.95 ${\rm{O}} \left( {\tau \left( {{n^3} + l{n^3} + {l^3}} \right)} \right)$[21] IMVSC_AGL 173.58 2.57 81.13 5265.99 28672.45 ${\rm{O}} \left( {\tau \left( {l{n^3} + {n^3} + \sum\nolimits_{v = 1}^l {n_v^3} } \right)} \right)$[20] GM-PMVC 607.40 14.63 602.81 50725.43 1.78×105 ${\rm{O}} \left( {\tau l\left( {{n^3} + kdn + {k^3} + {k^2}d} \right)} \right)$[22] LASAR 73.87 1.09 115.60 2352.88 5677.46 ${\rm{O}} \left( {\tau \left( {l{n^2}\log \left( n \right){\rm{ + }}{l^2}{n^2} + c{n^2}} \right)} \right)$ 注: 本表未考虑K-means聚类算法的计算复杂度. 表中, T表示子循环迭代步数, mmax表示所有视角的最大特征维度, nv表示第$v$个视角的未缺失样例数, d表示多视角数据特征的平均维度, k表示矩阵分解模型中的隐层表征维度. 3.4 模型分析
1)超参数敏感性分析. 本部分主要分析${\lambda _1}$和${\lambda _2}$两个超参数对模型性能的影响. 图4展示了所提出的LASAR在视角缺失率为30%的Handwritten和Caltech7数据集上的聚类NMI与这两个超参数之间的关系, 可以发现, 当${\lambda _1}$取值在[0.01, 0.1]之间且${\lambda _2}$取值较小时, 如在$\left[ {0.00001,0.001} \right]$范围内时, LASAR能够得到相对较好的聚类结果.
2)消融实验分析. 为了验证低秩张量约束的有效性, 本部分在4个数据集上对比了本模型的两种退化模型: 一种将低秩张量约束替换为传统的低秩约束; 另一种将低秩张量约束替换为传统“Frobenius”范数约束. 这两种退化模型分别称为“退化模型1”和“退化模型2”. 两种退化模型与本文LASAR的实验对比结果如图5所示. 从该实验结果可看出, 采用低秩张量约束的本文模型获得了更好的聚类性能, 验证了低秩张量约束在数据结构信息挖掘上的有效性.
3)收敛性分析. 图6显示了LASAR的学习模型在视角缺失率为30%的Handwritten和Caltech7数据集上的目标函数值与迭代步数的关系. 为了更好地展示算法的收敛性, 在图6中单独展示了第5个迭代步至收敛步的目标函数值. 从图6中可看出, 聚类NMI先随着迭代步数的增加而增加, 后趋于稳定; 而目标函数值则呈现单调下降后收敛至稳定值的趋势. 该现象表明, 本文针对LASAR的目标模型设计的优化算法具有良好的收敛性.
4)相似图恢复分析. 图7展示了所提出的方法在视角缺失率为70%的Handwritten数据集上所得到的第1个和第5个视角的相似图. 可以发现, 在每个视角缺失1400个样例的情形下, 本文所提出的方法仍然能够得到具有明显聚类连接结构的相似图, 验证了所提出的方法在相似图补全上的有效性.
4. 结束语
针对视角缺失下的不完整多视角聚类难题, 本文提出了一种基于低秩张量图学习的方法. 该方法建立了自适应不完整图补全和最优聚类表征学习的统一框架模型, 通过挖掘视角间邻接结构的高阶相关性和视角间邻接信息的一致性, 得到了很好的相似图恢复效果. 在多种视角缺失率下的5个数据集上, 与多种先进的不完整多视角聚类方法进行对比, 实验结果表明, LASAR在这些数据集上普遍获得了最好的性能, 验证了其在不完整多视角聚类任务上的有效性.
-
表 1 2D注意力残差单元和联合代价体的参数设置(D表示最大视差, 默认步长为1)
Table 1 Parameter setting of the 2D attention residual unit and combined cost volume (D represents the maximum disparity. The default stride is 1)
层级名称 层级设置 输出维度 ${ { { {{F} }_{\rm{l}}} } / { { {{F} }_{\rm{r}}} } }$ 卷积核尺寸, 通道数, 步长 H×W×3 2D 注意力残差模块 Conv0_1 $3 \times 3,32,$ 步长 = 2 ${1 / 2}H \times {1 / 2}W \times 32$ Conv0_2 $3 \times 3,32,$ ${1 / 2}H \times {1 / 2}W \times 32$ Conv0_3 $3 \times 3,32,$ ${1 / 2}H \times {1 / 2}W \times 32$ Conv1_x $\left[ \begin{aligned} 3 \times 3,32 \\ 3 \times 3,32 \end{aligned} \right] \times 3$ ${1 / 2}H \times {1 / 2}W \times 32$ Conv2_x $\left[ \begin{aligned} 3 \times 3,32 \\ 3 \times 3,32 \end{aligned} \right] \times 16$, 步长 = 2 ${1 / 4}H \times {1 / 4}W \times 64$ Conv3_x $\left[ \begin{aligned} 3 \times 3,32 \\ 3 \times 3,32 \end{aligned} \right] \times 3$ ${1 / 4}H \times {1 / 4}W \times 128$ Conv4_x $\left[ \begin{aligned} 3 \times 3,32 \\ 3 \times 3,32 \end{aligned} \right] \times 3$ ${1 / 4}H \times {1 / 4}W \times 128$ ${ {{F} }_{\rm{l}}}$/${ {{F} }_{\rm{r}}}$ 级联: Conv2_x, Conv3_x, Conv4_x ${1 / 4}H \times {1 / 4}W \times 320$ 联合代价体 ${ {{F} }_{{\rm{gc}}} }$ — ${1 / 4}D \times {1 / 4}H \times {1 / 4}W \times 40$ ${\tilde {{F} }_{\rm{l}}}$/${\tilde {{F} }_{\rm{r}}}$ $\left[ \begin{aligned} 3 \times 3,128 \\ 1 \times 1,{\rm{ } }12 \end{aligned} \right]$ ${1 / 4}H \times {1 / 4}W \times 12$ ${ {{F} }_{{\rm{cat}}} }$ — ${1 / 4}D \times {1 / 4}H \times {1 / 4}W \times 24$ ${ {{F} }_{{\rm{com}}} }$ 级联: ${ {{F} }_{{\rm{gc}}} }$, ${ {{F} }_{{\rm{cat}}} }$ ${1 / 4}D \times {1 / 4}H \times {1 / 4}W \times 64$ 表 2 2D注意力残差模块在不同设置下的性能评估
Table 2 Performance evaluation of 2D attention residual module with different settings
网络设置 KITTI2015 2D 注意力单元 > 1 px (%) > 2 px (%) > 3 px (%) EPE (px) — 13.6 3.49 1.79 0.631 最大池化 + 降维 12.9 3.20 1.69 0.623 平均池化 + 降维 12.7 3.26 1.64 0.620 $ \checkmark$ 12.4 3.12 1.61 0.615 表 3 联合代价体和3D注意力沙漏聚合模块在不同设置下的性能评估
Table 3 Evaluation of 3D attention hourglass aggregation module and combined cost volume with different settings
网络设置 KITTI2012 KITTI2015 联合代价体 3D 注意力单元 EPE (px) D1-all (%) EPE (px) D1-all (%) 3D 最大池化 3D 平均池化 $ \checkmark$ — — 0.804 2.57 0.615 1.94 $ \checkmark$ $ \checkmark$ — 0.722 2.36 0.610 1.70 $ \checkmark$ — $ \checkmark$ 0.703 2.33 0.607 1.68 PSMNet[17] $ \checkmark$ $ \checkmark$ 0.867 2.65 0.652 2.03 $ \checkmark$ $ \checkmark$ $ \checkmark$ 0.654 2.13 0.589 1.43 表 4 不同算法在SceneFlow数据集上的性能评估
Table 4 Performance evaluation of different methods on the SceneFlow dataset
表 5 不同算法在KITTI2015上的性能评估 (%)
Table 5 Performance evaluation of different methods on the KITTI2015 dataset (%)
表 6 不同算法在KITTI2012上的性能评估 (%)
Table 6 Performance evaluation of different methods on the KITTI2012 dataset (%)
-
[1] Feng D, Rosenbaum L, Dietmayer K. Towards safe autonomous driving: capture uncertainty in the deep neural network for lidar 3D vehicle detection. In: Proceedings of the 21st International Conference on Intelligent Transportation Systems. Maui, HI, USA: IEEE, 2018. 3266−3273 [2] Schmid K, Tomic T, Ruess F, Hirschmüller H, Suppa M. Stereo vision based indoor/outdoor navigation for flying robots. In: Proceedings of the 2013 IEEE/RSJ International Conference on Intelligent Robots and Systems. Tokyo, Japan: IEEE, 2013. 3955−3962 [3] 李培玄, 刘鹏飞, 曹飞道, 赵怀慈. 自适应权值的跨尺度立体匹配算法. 光学学报, 2018, 38(12): 248-253.Li Pei-Xuan, Liu Peng-Fei, Cao Fei-Dao, Zhao Huai-Ci. Weight-adaptive cross-scale algorithm for stereo matching. Acta Optica Sinica, 2018, 38(12): 248-253. [4] 韩先君, 刘艳丽, 杨红雨. 多元线性回归引导的立体匹配算法. 计算机辅助设计与图形学学报, 2019, 31(1): 84-93.Han Xian-Jun, Liu Yan-Li, Yang Hong-Yu. A stereo matching algorithm guided by multiple linear regression. Journal of Computer-Aided Design & Computer Graphics, 2019, 31(1): 84-93. [5] Zagoruyko S, Komodakis N. Learning to compare image patches via convolutional neural networks. In: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE, 2015. 4353−4361 [6] Luo W, Schwing A G, Urtasun R. Efficient deep learning for stereo matching. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016. 5695−5703 [7] Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(4): 640-651. [8] Mayer N, Ilg E, Hausser P, Fischer P, Cremers D, Dosovitskiy A, Brox T. A large dataset to train convolutional networks for disparity, optical flow, and scene flow estimation. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016. 4040−4048 [9] Song X, Zhao X, Fang L, Hu H. Edgestereo: An effective multi-task learning network for stereo matching and edge detection. International Journal of Computer Vision, 2020, 128(4): 910-930. [10] Song X, Zhao X, Hu H W, Fang L J. Edgestereo: A context integrated residual pyramid network for stereo matching. In: Proceedings of the 14th Asian Conference on Computer Vision. Springer, Cham, 2018. 11365: 20−35 [11] Yang G R, Zhao H S, Shi J P, Deng Z D, Jia J Y. Segstereo: Exploiting semantic information for disparity estimation. In: Proceedings of the 15th European Conference on Computer Vision. Springer Verlag: 2018. 11211: 660−676 [12] Zhang J, Skinner K A, Vasudevan R, Johnson-Roberson M. Dispsegnet: leveraging semantics for end-to-end learning of disparity estimation from stereo imagery. IEEE Robotics and Automation Letters, 2019, 4(2): 1162-1169. [13] Jie Z Q, Wang P F, Ling Y G, Zhao B, Wei Y C, Feng J S, Liu W. Left-right comparative recurrent model for stereo matching. In: Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018.3838−3846 [14] Liang Z F, Feng Y L, Guo Y L, Liu H Z, Chen W, Qiao L B, Zhou L, Zhang J F. Learning for disparity estimation through feature constancy. In: Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 2811−2820 [15] 程鸣洋, 盖绍彦, 达飞鹏. 基于注意力机制的立体匹配网络研究. 光学学报, 2020, 40(14): 144-152.Cheng Ming-Yang, Gai Shao-Yan, Da Fei-Peng. A stereo-matching neural network based on attention mechanism. Acta Optica Sinica, 2020, 40(14): 144-152. [16] 王玉锋, 王宏伟, 于光, 杨明权, 袁昱纬, 全吉成. 基于三维卷积神经网络的立体匹配算法. 光学学报, 2019, 39(11): 227-234.Wang Yu-Feng, Wang Hong-Wei, Yu Guang, Yang Ming-Quan, Yuan Yu-Wei, Quan Ji-Cheng. Stereo matching based on 3D convolutional neural network. Acta Optica Sinica, 2019, 39(11): 227-234. [17] Chang J R, Chen Y S. Pyramid stereo matching network. In: Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 5410−5418 [18] Zhu Z D, He M Y, Dai Y C, Rao Z B, Li B. Multi-scale cross-form pyramid network for stereo matching. In: Proceedings of the 14th IEEE Conference on Industrial Electronics and Applications. Xi'an, China: IEEE, 2019. 1789−1794 [19] Zhang L, Wang Q H, Lu H H, Zhao Y. End-to-end learning of multi-scale convolutional neural network for stereo matching. In: Proceedings of Asian Conference on Machine Learning. 2018. 81−96 [20] Mayer N, Ilg E, Hausser P, Fischer P. A large dataset to train convolutional networks for disparity, optical flow, and scene flow estimation. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016. 4040−4048 [21] Kendall A, Martirosyan H, Dasgupta S, Henry P, Kennedy R, Bachrach A, Bry A. End-to-end learning of geometry and context for deep stereo regression. In: Proceedings of the 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017. 66−75 [22] Lu H H, Xu H, Zhang L, Ma Y B, Zhao Y. Cascaded multi-scale and multi-dimension convolutional neural network for stereo matching. In: Proceedings of the 2018 IEEE Visual Communications and Image Processing. Taichung, China: IEEE, 2018. 1−4 [23] Rao Z B, He M Y, Dai Y C, Zhu Z D, Li B, He R J. MSDC-Net: Multi-scale dense and contextual networks for automated disparity map for stereo matching. arXiv PreprintarXiv: 1904.12658, 2019. [24] Guo X Y, Yang K, Yang W K, Wang X G, Li H S. Group-wise correlation stereo network. In: Proceedings of the 2019 IEEE Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE, 2019. 3273−3282 [25] Liu M Y, Yin H J. Cross attention network for semantic segmentation. In: Proceedings of the 2019 IEEE International Conference on Image Processing. Taipei, China: IEEE, 2019. 2434−2438 [26] 王亚珅, 黄河燕, 冯冲, 周强. 基于注意力机制的概念化句嵌入研究. 自动化学报, 2020, 46(7): 1390-1400.Wang Ya-Shen, Huang He-Yan, Feng Chong, Zhou Qiang. Conceptual sentence embeddings based on attention mechanism. Acta Automatica Sinica, 2020, 46(7): 1390- 1400. [27] Kim J H, Choi J H, Cheon M, Lee J S. RAM: Residual attention module for single image super-resolution. arXiv PreprintarXiv: 1811.12043, 2018. [28] Jeon S, Kim S, Sohn K. Convolutional feature pyramid fusion via attention network. In: Proceedings of the 2017 IEEE International Conference on Image Processing. Beijing, China: IEEE, 2017. 1007−1011 [29] Sang H, Wang Q, Zhao Y. Multi-scale context attention network for stereo matching. IEEE Access, 2019, 7: 15152-15161. [30] Zhang G, Zhu D, Shi W, et al. Multi-dimensional residual dense attention network for stereo matching. IEEE Access, 2019, 7: 51681-51690. [31] Hu J, Shen L, Albanie S, Sun G, Wu E. Squeeze-and-excitation networks. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2019, 42(8). 2011-2023. [32] Wang Q L, Wu B G, Zhu P F, Li P H, Zuo W M, Hu Q H. ECA-Net: Efficient channel attention for deep convolutional neural networks. In: Proceedings of the 2020 IEEE Conference on Computer Vision and Pattern Recognition. Seattle, WA, USA: IEEE, 2020. 11531−11539 [33] Menze M, Geiger A. Object scene flow for autonomous vehicles. In: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE, 2015. 3061−3070 [34] Geiger A, Lenz P, Urtasun R. Are we ready for autonomous driving? The KITTI vision benchmark suite. In: Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI, USA: IEEE, 2012. 3354−3361 [35] Pang J H, Sun W X, Ren J S, Yang C X, Yan Q. Cascade residual learning: A two-stage convolutional neural network for stereo matching. In: Proceedings of the 2017 IEEE International Conference on Computer Vision Workshops. Venice, Italy: IEEE, 2017. 878−886 [36] Žbontar J, Lecun Y. Stereo matching by training a convolutional neural network to compare image patches. Journal of Machine Learning Research, 2016, 17. [37] Tulyakov S, Ivanov A, Fleuret F. Practical deep stereo (PDS): Toward applications-friendly deep stereo matching. In: Proceedings of the 32nd Conference on Neural Information Processing Systems. Montreal, Canada: 2018. 期刊类型引用(1)
1. 陈梅,马学艳,钱罗雄,张锦宏,张弛. 基于多级自表示约束的不完备多视图聚类. 控制与决策. 2025(02): 645-654 . 百度学术
其他类型引用(4)
-