-
摘要: 作为聚类的重要组成部分, 边界点在引导聚类收敛和提升模式识别能力方面起着重要作用, 以BP (Border-peeling clustering)为最新代表的边界剥离聚类借助潜在边界信息来确保簇核心区域的空间隔离, 提高了簇骨架代表性并解决了边界隶属问题. 然而, 现有边界剥离聚类仍存在判别特征不完备、判别模式单一、嵌套迭代等约束. 为此, 提出了基于空间向量分解的边界剥离密度聚类(Density clustering based on the border-peeling using space vector decomposition, CBPVD), 以投影子空间和原始数据空间为基准, 从分布稀疏性(紧密性)和方向偏斜性(对称性)两个视角强化边界的细粒度特征, 进而通过主动边界剥离反向建立簇骨架并指导边界隶属. 与同类算法相比, 40个数据集(人工、UCI、视频图像)上的实验结果以及4个视角的理论分析表明了CBPVD在高维聚类和边界模式识别方面具有良好的综合表现.Abstract: Border points, as an essential part of density clustering, play a key role in guiding clustering convergence and improving pattern recognition ability. Indeed, the border-peeling clustering with BP (border-peeling clustering) as the latest representative ensures the spatial isolation of core region of the cluster by using intrinsic boundary information, then enhancing the cluster backbone. Nevertheless, the performance of available methods tends to be constrained by incomplete discriminant feature, single pattern and multiple iterations. To this end, this paper proposes a novel algorithm named CBPVD (density clustering based on the border-peeling using space vector decomposition). The property of CBPVD is based on the projection subspace and original space to enhance the fine-grained feature representation of the border point from the two perspectives of sparsity (compactness) and skewness (symmetry) of distribution, then reversely establishes the cluster backbone through active boundary peeling and guides the boundary membership. Finally, we compare performance of CBPVD with six state-of-the-art methods over synthetic, UCI, and image datasets. Experiments on 40 datasets and discussion cases from 4 perspectives demonstrate that our algorithm is feasible and effective in clustering and boundary pattern recognition.
-
Key words:
- Clustering /
- space vector decomposition /
- border-peeling /
- projection subspace /
- high dimension /
- density
-
生成式对抗网络(Generative adversarial networks, GANs)是2014年 Goodfellow等[1]依据零和博弈思想和纳什均衡原理提出的一种数据生成模型, 被广泛应用于图像生成领域. GANs在网络结构上主要由生成器G网络和判别器D网络组成[1-3]. G网络的目的是将随机噪声映射到训练集分布中, 对随机噪声和训练数据的联合概率密度进行建模, 关注于数据生成过程. D网络的目的是区分出馈入样本的类别问题, 关注于生成数据和训练数据的最优分界面. GANs的最大特点是对抗学习方式, 训练过程中G网络和D网络交替对抗训练, 两者的能力同步提升.
由于GANs在图像数据生成上的出色表现, 此后为提高GANs生成图像的多样性(模式坍塌问题)和质量等, 研究者提出了许多GANs衍生模型.
从加入条件变量和图像隐码控制方面进行改进. Mirza等[4]提出的条件生成式对抗网络尝试利用训练集样本的某些信息(如图像类别标签)来提高随机噪声
$ z $ 的可解释性, 使得生成图像质量有所提高. Odena[5]提出的半监督学习生成式对抗网络将GANs进行拓展, 利用半监督学习使得D网络分类能力提高, 能够有效提高生成图像质量及收敛速度. Odena等[6]提出的辅助分类器生成式对抗网络可实现多分类问题, 输出的则是对应标签的概率值, 有效提高了GANs模型模拟多类别、高分辨率数据集的效果. Chen等[7]提出的信息极大化生成式对抗网络在GANs对抗学习的基础上, 通过引入一个训练集样本对应的隐含信息(如类别标签, 倾斜度), 使得隐含信息与生成样本具有较高的互信息, 有效提高图像生成质量. Donahue等[8]提出双向生成式对抗网络 (Bidirectional generative adversarial networks, BiGANs)是一种双向结构的对抗模型, 增加了一个训练好的编码器E 网络用于提取训练样本隐码c, 在D网络的馈入信息是随机噪声z与对应生成样本配对或样本隐码c与对应的训练样本配对, 在生成实际场景图像上能取得很好的效果. 以上GANs中对于需要标签信息的GANs模型限制了其在无监督对抗学习中的应用. 双向生成式对抗网络中隐码的引入使得训练样本反复被编码器编码, 而且馈入到D网络的数据不仅仅是图像样本, 还有隐码c, 整个GANs网络框架变得更复杂, 增加训练代价.从GANs网络结构或框架设计方面进行改进. Radford等[9]提出的深度卷积生成式对抗网络(Deep convolutional generative adversarial networks, DCGANs)使用重新设计的卷积神经网络作为G和D网络, 能够有效提高图像生成质量, 并且成为GANs网络结构设计上的标准模型之一. Denton等[10]提出的一种拉普拉斯金字塔生成式对抗网络模型, 结合GANs和条件GANs的一些优点, 使用多个GANs逐层地生成高质量自然图像. Brock等[11]基于残差网络设计的大型生成式对抗网络能有效生成大尺寸, 高质量的自然图像, 但参数量明显大于一般GANs模型, 需要更多的硬件资源和时间成本. Nguyen等[12]提出的双判别器生成式对抗网络使用两个D网络更细化GANs中D网络的分类任务, 能使得训练收敛速度变快及提高生成图像的多样性. 张龙等[13]提出一种协作式结构的GANs模型提高生成图像质量, 一定程度避免了模式坍塌现象的发生. GANs网络结构的设计通常难度较大, 这也是到目前为止, 通过结构设计提升GANs能力的经典GANs模型很少的主要原因.
从优化目标函数梯度消失方面进行改进. GANs优化Jensen-Shannon (JS)散度时可能导致梯度消失, 使得训练效果相对较差, 多样性不足[14]. 研究者主要是使用其他散度代替JS散度. Arjovsky等[14]提出沃瑟斯坦距离生成式对抗网络, 利用沃瑟斯坦距离来描述作为两个分布的相似度; 这有效避免了优化JS散度容易出现的梯度消失现象, 但对D网络权重剪枝比较粗暴. Mao等[15]提出的最小二乘生成式对抗网络(Least squares generative adversarial networks, Least squares GANs或LSGANs)是利用最小二乘原理, 将G和D网络的损失函数设计成最小二乘形式, 使得GANs优化生成数据分布和训练数据分布的Pearson散度, 避免梯度消失, 并且损失函数收敛过程更平稳. Berthelot等[16]提出的边界平衡生成式对抗网络(Boundary equilibrium generative adversarial networks, BEGANs)将一个自编码器作为D网络, 设计了G和D网络的平衡度量方法来优化沃瑟斯坦距离, 进而引入新的超参数来平衡两个网络训练, 以期得到更好的生成图像. Gulrajani等[17]提出的梯度惩罚沃瑟斯坦距离生成式对抗网络(WGANs with gradient penalty, WGANsGP), Wu等[18]提出的沃瑟斯坦散度生成式对抗网络均是WGANs的改进模型, 其中WGANsGP通过梯度惩罚的方式替换掉权重剪切, 从而避免因权重剪切导致的权重集中化和调参上的梯度消失问题. 沃瑟斯坦散度生成式对抗网络通过引入沃瑟斯坦散度, 从而去除WGANs中D网络的Lipschitz条件, 又能保留沃瑟斯坦距离度量两个分布的良好性质(如JS散度的梯度消失问题). Su[19]提出的对偶GANs模型, 通过引入合理的概率散度并找出它的对偶表达, 再将其转化成极小−极大博弈形式, 从而避免了类似于WGANs需要的Lipschitz条件和多数GANs容易发生梯度消失问题. Zhao等[20]提出基于能量的生成式对抗网络是将D网络看成能量函数, 提供了一种基于能量解释的GANs, 并且通过pull-away term策略来防止梯度消失问题导致的模式坍塌. 王功明等[21]等提出一种基于重构误差能量函数的GANs模型, 利用深度置信网络作为G网络, 能预防网络梯度消失, 在生成效果和网络学习效率上有所提升. 这些方法虽然能有效解决梯度消失问题, 但普遍需要比较多的迭代次数, 特别是优化沃瑟斯坦距离的GANs, 通常为使得D网络满足1-Lipschitz条件, 每个批次的训练中很可能需要对其进行多次训练.
除此之外还有其他的改进途径. Qi[22]提出的损失敏感型生成式对抗网络主要为了限制GANs试图模拟任意训练集分布的能力, 让生成模型能够更偏向于改进真实度不高的样本从而提高图像生成效果. Zhang等[23]提出的自注意力生成式对抗网络 (Self-attention generation adversarial networks, SAGANs), 利用注意力机制嵌入G网络和D网络中, 使得两个网络能更好地学习网络自发关注的训练图像特征提高了生成图像质量和多样性, 但其网络规模和训练迭代次数有所增加.
考虑到优化JS散度容易带来的梯度消失问题, 无监督GANs模型在训练上更便利的优点. 本文依然将JS散度作为主优化目标的前提下, 提出了一种基于训练集样本特征解码损失约束的无监督GANs模型. 所设计的模型不仅尽量避免优化JS散度可能带来的梯度消失问题, 同时也通过改进GANs网络拓扑结构, 融入样本本身的特征信息进行训练以提高GANs图像生成能力. 首先利用无监督特征学习模型预训练出训练集样本的中间层特征; 然后构建一个与G网络结构一致和权重共享的解码器Dec, 在每次对抗训练前使用本文设计的约束条件进行图像特征解码; 最后再进行优化JS散度的GANs对抗学习. 为验证所设计的GANs性能, 利用Celeba和Cifar10数据集, 对比分析了几种典型GANs模型的生成效果. 实验结果表明, 本文方法能有效提高生成图像的多样性和质量的同时, 还能减少训练所需的epoch数.
1. 对抗原理
GANs的典型结构由一个生成器G和判别器D组成. G网络的任务是模拟训练集
$ X $ 进行数据生成, D网络的任务是分辨出馈入的样本属于$ X $ 或者$G(Z) $ .G网络的每个输入量为一个随机噪声
$z, \;z \in Z$ 且$Z\sim F_Z(z)$ , 随机噪声$ z $ 的分布函数$ F_Z(z) $ 通常为正态分布或均匀分布. 记训练样本$x,\; x \in X$ 且$X\sim F_X(x)$ , 其中$ F_X(x) $ 为训练样本集$ X $ 的分布函数. 那么D和G网络的损失函数分别为:$$ \begin{array}{l} loss_D = \dfrac{1}{m}\displaystyle\sum\limits_{i = 1}^{m} \left[\ln{D(x_i) + \ln(1 - D(G(z_i)))}\right] \end{array} $$ (1) $$ \begin{array}{l} loss_G = \dfrac{1}{m}\displaystyle\sum\limits_{i = 1}^{m} \ln(1 - D(G(z_i))) \end{array} $$ (2) 式中,
$ m $ 是每次馈入神经网络样本的个数. 从而整个网络的博弈损失函数为:$$ \begin{split} \min\limits_G \max\limits_D V(G, D) =& {\rm{E}}_{X \sim F_X(x)}\left[\ln{D(x)}\right] + \\ &{\rm{E}}_{Z \sim F_Z(z)}\left[\ln(1 - D(G(z))) \right] \end{split} $$ (3) 式中,
$ V(G, D) $ 是一个二元极小极大零和博弈函数,${\rm{E}}(\cdot)$ 为期望函数. 优化损失函数最终目的为使得$G(Z)$ 的统计分布$ F_G(x) $ 趋近于训练样本集$ X $ 的分布$ F_X(x) $ . 为便于以下讨论, 使用概率密度函数代替分布函数来描述分布.2. 解码约束的GANs
本节先分析优化JS散度可能带来的梯度消失问题; 然后提出了本文解决方法, 同时给出了理论推导, 为本文的解决方法提供依据; 最后给出本文方法的训练步骤.
2.1 问题分析
为便于分析和讨论, 先引入Kullback-Leibler (KL)散度和JS散度的定义.
定义1[24]. 设两个具有相同样本空间
$ \Omega $ 的随机变量$ X $ 和$ G $ 的概率密度函数分别为$ f_X(x) $ 和$ f_G(x) .$ KL散度定义为:$$ \begin{array}{l} KL(f_X(x) || f_G(x)) = \int f_X(x) \ln{\frac{f_X(x)}{f_G(x)}} {\rm{d}}x \end{array} $$ (4) 上式定量了
$ f_G(x) $ 和$ f_X(x) $ 之间的相似程度, 如果$ f_G(x) $ 与$ f_X(x) $ 越相似, 那么$ KL(f_X(x)||f_G(x)) $ 值就越小.$ KL(f_X(x)||f_G(x)) $ 是非负函数, 当且仅当$ f_G(x) = f_X(x) $ 时取得最小值0. 它不具有通常距离函数中的对称和三角不等性质. 在信息论中KL散度表示的是用$ f_G(x) $ 拟合已知的$ f_X(x) $ 时产生的信息损耗.定义2[25]. 设两个具有相同样本空间
$ \Omega $ 的随机变量$ X $ 和$ G $ 的概率密度函数分别为$ f_X(x) $ 和$ f_G(x) .$ 它们的JS散度定义为:$$ \begin{split}& JS(f_X(x) || f_G(x)) = \frac{1}{2} KL\left(f_X(x) || \frac{f_X(x) + f_G(x)}{2}\right)+\\ &\qquad\frac{1}{2} KL\left(f_G(x) || \frac{f_X(x)+f_G(x)}{2}\right) \\[-15pt] \end{split} $$ (5) JS散度为非负函数,
$ f_G(x) $ 与$ f_X(x) $ 越相似时$ JS(f_X(x)||f_G(x)) $ 越小, 当且仅当$ f_G(x) = f_X(x) $ 时取得最小值0.$ f_G(x) $ 与$ f_X(x) $ 越不相似时$ JS(f_X(x)||$ $f_G(x)) $ 越接近常数1. 它具有距离函数中的对称和三角不等的性质.式(3)给出了GANs对抗表达形式, Goodfellow等[1]指出GANs 虚拟训练准则
$C(G) $ 当且仅当$ f_G(x) = f_X(x) $ 时取得全局最小值. 在最小点时,$C(G) $ 的极小值为 $-{\rm{ln}}4$ .$C(G) $ 如下所示:$$ \begin{array}{l} C(G) = -\ln4 + 2\cdot JS(f_X(x) || f_G(x)) \end{array} $$ (6) 式(6)表明, 式(3)的优化目标其实是最小化训练集
$ X $ 的概率密度函数$ f_X(x) $ 和生成集$G(Z) $ 的概率密度函数$ f_G(x) $ 的JS散度.Arjovsky等[14]在WGANs的分析过程中指出当生成样本集分布
$ f_G(x) $ 与训练样本集分布$ f_X(x) $ 的相似度越低, 即当两个分布的交叉区域越小,$ JS(f_X(x)||f_G(x)) $ 越接近于常数1. 这可能引发损失函数梯度消失的现象. 在GANs训练过程中,$ f_G(x) $ 是逐渐拟合$ f_X(x) $ 的过程, JS散度的固有性质可知, 在GANs 训练的起步阶段梯度消失现象更明显. 即使GANs能够继续通过优化方法进行参数更新, 为使得$ f_G(x) $ 与$ f_X(x) $ 有足够的相交区域, 也需要更多epoch数进行训练. 解决这个问题的一般方法是使用Pearson散度或沃瑟斯坦距离代替JS散度重新设计损失函数.2.2 特征解码约束的GANs
由第2.1节分析可知, JS散度为常数而导致梯度消失的一个重要前提是
$ f_G(x) $ 与$ f_X(x) $ 的相似度足够低. 那么通过添加约束条件利于$ f_G(x) $ 相似于$ f_X(x) $ 可以达到尽量避免JS散度为常数的目的, 为此本文设计了一种JS +$ \lambda \cdot $ KL混合散度的约束方法. 约束条件$ KL(f_X(x)||f_G(x)) $ 的目的是为使得$ f_G(x) $ 与$ f_X(x) $ 的相交区域变大.如图1所示, 本文设计的GANs分为3个部分: 1)特征学习部分: 目的是预训练出训练集
$ X $ 的特征集$ C $ . 2)解码学习部分: 目的是先通过本文设计的解码约束条件对特征集$ C $ 进行解码, 完成$ KL(f_X(x)||f_{Dec}(x)) $ 约束. 又通过解码器Dec与G网络结构一致, 参数共享, 以近似达到$ KL(f_X(x)|| f_G(x)) $ 约束. 最终使得在优化JS散度前$ f_G(x) $ 与$ f_X(x) $ 相交区域变大, JS散度不易为常数, 从而尽量避免出现梯度消失现象. 3)对抗学习部分: 通过优化JS散度使得$ f_G(x) $ 模拟$ f_X(x) $ . 其中特征学习部分是预训练, 解码学习和对抗学习部分需要一起动态学习. 与一般含自动编码机GANs不同的是, 本文自动编码机主要目的是预训练出可用的隐含特征. 例如, 与双向生成式对抗网络相比, 隐含特征$ c $ 不会馈入D网络对其参数更新及直接参与对抗训练, 仅用于解码学习; 与BEGANs相比, D网络的任务仍然是二分类, 无编码功能.2.2.1 特征学习
在图像特征学习中, 需要提取出图像的隐含信息, 用此表征原始图像. 自编码特征学习是一种有效的图像特征学习方法[26]. 常用的自动编码机较多, 除噪自动编码机[26-28]经过对训练样本加入噪声并进行降噪的训练过程, 能够强迫网络学习到更加鲁棒的不变性特征, 获得馈入图像的更有效和更鲁棒的表达. 收缩自动编码机[26, 29]能够较好地重构训练样本, 并且对训练样本一定程度的扰动具有不变性. 稀疏自动编码机[26, 30]将稀疏编码和自编码机结合, 可以提取馈入样本的稀疏显著性特征. 对于一般任务, 最常用的依然是经典自动编码机模型[26].
由于随机噪声z维度相对较低(如64或100维), 特征提取任务相对简单, 且为获取更好的重构图像效果. 本文将经典自动编码机结合U-Net网络模型[31], 建立了5层的全连接类似U-Net的自动编码机用于
$ C $ 的获取, 并且使得特征$ c $ 的维度与随机噪声$ z $ 的维度是相同的. 图2给出了U-Net型自动编码机用于获取$ X $ 的特征集$ C $ 的示意图. 该网络由5层神经元组成, 第3层用于特征提取, 特征图像像素个数与随机噪声$ z $ 维度相一致.训练过程中, 损失函数选用均方差损失函数:
$$ \begin{array}{l} loss_{AE} = \dfrac{1}{m} \displaystyle\sum\limits_{i = 1}^m (x_i - x_i^*)^2 \end{array} $$ (7) 式中,
$ x_i^* $ 是$ x_i $ 对应的重构图像.2.2.2 解码及对抗学习
设训练样本集
$ X $ 对应的特征集为$ C $ , 解码器为Dec, 它与G网络共享权重, 网络结构一致. 记$ X $ 的概率密度函数为$ f_X(x) $ . 解码集$Dec(C)$ 的概率密度函数为$ f_{Dec}(x) $ . 解码损失函数为:$$ \begin{array}{l} loss_{Dec} = \dfrac{1}{m} \displaystyle\sum\limits_{i = 1}^m ||x_i - Dec(c_i))|| \end{array} $$ (8) 式中,
$ x_i $ 为$ X $ 中的样本,$ c_i $ 为$ x_i $ 对应于$ C $ 中的样本,$ m $ 为样本个数.$ || \cdot || $ 为度量两个样本的距离函数, 常用的函数类型有L1和L2 型函数.在原有的JS散度对抗损失函数中引入解码损失函数进行约束, 需要控制解码约束条件对Dec网络梯度下降的贡献. 主要原因有以下3点: 1) G网络模拟的是训练集
$ X $ 的主要特征, 不需要按像素严格一致. 解码损失函数是按像素严格一致进行图像重构, 因此后者约束更强势. 2)对抗损失函数是优化$ JS(f_X(x)||f_G(x)), $ 解码损失函数是优化$ KL(f_X(x)||$ $f_{Dec}(x)) ,$ 优化后者虽然对避免$ JS(f_X(x)||f_G(x)) $ 为常数有益, 但各自的梯度下降方向并不完全一致, 应保证$ JS(f_X(x)||f_G(x)) $ 是主优化方向. 3)优化二元组$ (f_X(x), f_G(x)) $ 相对于优化三元组$(f_X(x), f_G(x), $ $ f_{Dec}(x)) $ 难度更低. 当$ f_{Dec}(x)\approx f_G(x) $ 时, 相当于近似优化前者.为达到以上目的, 可以通过对解码损失函数权重系数, 训练频次及学习率加以控制. 当解码损失函数式(8)选用L2型函数时, 本文设计的解码损失函数如下:
$$ \begin{array}{l} loss_{Dec} = \delta \cdot \lambda \cdot \dfrac{1}{m} \displaystyle\sum\limits_{i = 1}^m (x_i - Dec(c_i))^2 \end{array} $$ (9) 式中,
$ \delta $ 是判别函数, 1表示进行解码训练, 0表示屏蔽解码训练;$ \lambda $ 是解码损失函数权重系数.$$ \begin{array}{l} \delta = \begin{cases} 1, & (t \; {\rm{mod}} \; r) = 0 \wedge t < l \\ 0, & 否则 \end{cases} \end{array} $$ (10) 式中,
$ t $ 是当前的迭代epoch数,$ r $ 是控制调用解码约束的频次,$ l $ 是控制最后一次解码的控制变量. 每次对抗学习前, 依据条件判别式(10)以此来控制解码约束条件的使用总次数和频率.由此, 最终的对抗网络损失函数为:
$$ \begin{split} &\min\limits_{G, Dec} \max\limits_D V(D, G, Dec) |_{f_{Dec}(x) \approx f_G(x)} =\\ &\qquad \qquad\quad V(D, G) + loss_{Dec} \end{split} $$ (11) 由于D网络是一个二分类网络, 利用单向标签平滑[32]处理能对分类性能有一定提高, 这有益于降低分类网络的训练难度. 在实际训练操作中可以使用这种方式对式(1)进行标签平滑处理.
为使得上面所提供的解决方法有所依据. 分析了以下3点: 1)优化
${\rm{JS}} + \lambda \cdot {\rm{KL}}$ 混合散度对JS散度不为常数的影响. 2)优化${\rm{JS}} + \lambda \cdot {\rm{KL}}$ 混合散度对优化原有JS散度相对于分布对$ (f_X(x), f_G(x)) $ 的极小值点及单调性的影响. 3)优化KL散度时解码损失函数类型选择的依据. 为此下面3个命题进行了讨论分析.命题1. 限制解码器Dec解码约束条件对Dec网络参数更新的梯度贡献, 且使得
$ f_{Dec}(x) \approx $ $f_G(x). $ 那么训练过程中引入解码约束条件有利于避免$ JS(f_X(x) || f_G(x) $ 为常数.证明. 要证明命题结论, 只需要证明引入约束条件后有利于
$ f_G(x) $ 相似于$ f_X(x) $ 即可.记第
$ t $ 次解码训练后解码集Dec($ C, t )$ 对应的概率密度函数为$ f_{Dec}(x, t), $ 第$ t $ 次对抗训练后生成数据集G($ Z, t )$ 对应的概率密度函数为$ f_G(x, t). $ 由式(6)的C(G)条件知, G网络仅仅是使得
$ f_G(x) $ 模拟$ f_X(x) $ , 并不要求$G(Z) = X$ . 所以优化过程是一个依分布收敛的过程, 即:$$ \begin{array}{l} \lim\limits_{t \to \infty} f_G(x, t) = f_X(x) \end{array} $$ (12) 由式(8)可知, 对于解码器Dec的理想目标是求解
$ C \rightarrow X $ 的映射, 使得Dec$(C) =X$ , 即:$$ \begin{array}{l} || x_i - Dec(c_i) || = 0 \end{array} $$ (13) 式中,
$ x_i $ 和Dec($ c_i $ )分别是各自样本空间中的任意样本, 且$ c_i $ 是$ x_i $ 的特征码. 故而解码器Dec的理想目标是使得Dec($ C, t $ )几乎处处收敛于$ X .$ 但由于训练中, 通常只能达到如下情况:$$ \begin{array}{l} || x_i - Dec(c_i) || < \varepsilon_1 \end{array} $$ (14) 故而Dec(
$ C, t $ )是依概率收敛于$ X $ , 即:$$ \begin{array}{l} {\rm{P}}\left\{ \lim\limits_{t \to \infty} | Dec(C, t) - X | < \varepsilon_2 \right\} = 1 \end{array} $$ (15) 其蕴含于
$$ \begin{array}{l} {\rm{P}}\left\{ \lim\limits_{t \to \infty} || f_{Dec}(x, t) - f_X(x) || < \varepsilon_3 \right\} = 1 \end{array} $$ (16) 式中,
$ \varepsilon $ 为任意小的正实数.因为依概率收敛强于依分布收敛(前者是后者的充分非必要条件). 并且存在条件
$ f_{Dec}(x) \approx f_G(x) .$ 所以引入约束条件后, 能够使得
$ f_G(x) $ 相似于$ f_X(x) $ 的概率变大. □命题2. 限制解码约束条件对Dec网络参数更新的梯度贡献, 且使得
$ f_{Dec}(x) \approx f_G(x) .$ 相对于分布对$ ( f_X(x), f_G(x)) $ 引入解码约束条件后可基本不影响新构建的损失函数的单调性及极小值点.证明. 优化式(8), 由距离函数的单调性和非负性可知, 当且仅当
$Dec( C ) =X$ 时取得极小值0, 此时$ f_{Dec}(x) = f_X(x). $ 因为解码过程是使解码概率密度函数
$ f_{Dec}(x) $ 模拟逼近已知的$f_X(x)$ , 式(8)的残差项是解码后信息$Dec(C) $ 相对原信息$ X $ 的信息损耗. 故而解码的目的为:$$ \begin{array}{l} \min\limits_{Dec} KL(f_X(x) || f_{Dec}(x)) \end{array} $$ (17) 先证明式(6)引入
$ KL(f_X(x)||f_G(x)) $ 条件并不影响新损失函数的单调性和极小值点. 记新的损失函数表达式为:$$ \begin{array}{l} C_1(G) = C(G) + KL(f_X(x) || f_G(x)) \end{array} $$ (18) 因为JS散度和KL散度对于任意的分布对
$ (f_X(x), $ $ f_G(x)) $ 为非负单调递增函数.又因为JS散度和KL散度均为当且仅当
$ f_G(x) = $ $ f_X(x) $ 时取得极小值0. 故而式(18)当且仅当$ f_G(x) = f_X(x) $ 时取得极小值点$ -\ln4 $ .又因为
$ f_{Dec}(x) \approx f_G(x) $ . 所以下式的单调性和极值点相对于分布对$(f_X(x),\;$ $ f_G(x)) $ 基本不变:$$ \begin{array}{l} C_2(G) = C(G) + KL(f_X(x) || f_{Dec}(x)) \end{array} $$ (19) 故而基本不影响新构建的损失函数的单调性及极小值点. □
命题3. 当训练集
$X$ 符合正态分布时, 解码器$Dec $ 应选用L2型函数.证明. 记X对应的训练集为C, 解码集为
$Dec(C) $ .$ f_{X}(x|c)$ 为$C$ 给定时,$ X $ 的条件概率密度函数.$f_{Dec}(x|c)$ 为$C $ 给定时, 解码集$Dec (C)$ 等于训练集X的条件概率密度函数, 那么解码器$Dec $ 解码的目的可表达为使得$ f_{Dec}(x|c) \approx $ $f_X(x|c) $ , 即:$$ \begin{array}{l} || f_{Dec}(x|c) - f_X(x|c) || < \varepsilon \end{array} $$ (20) 式中,
$ \varepsilon $ 是任意小的正实数.其蕴含于(由KL散度的信息论含义可得):
$$ \begin{split} &\min\limits_{Dec} KL(f_X(x|c) || f_{Dec}(x|c)) =\\ &\qquad \min\limits_{Dec} {\rm{E}}_{c \in C} \left[ \ln f_X(x|c) - \ln f_{Dec}(x|c) \right] \end{split} $$ (21) 因为
$ \ln f_X(x|c) $ 为已知的训练集$ X $ 及其对应的特征集$ C $ 表达的信息. 所以其为常数, 在梯度下降优化时不对梯度做贡献. 由此式(21)等价于优化下式:$$ \begin{array}{l} \min\limits_{Dec}-{\rm{E}}_{c \in C} \ln f_{Dec}(x|c) \end{array} $$ (22) 又因为
$$ -{\rm{E}}_{c \in C} \ln f_{Dec}(x|c)= -\sum\limits_{i = 1}^m f(c_i) \cdot \ln f_{Dec}(x_i | c_i) $$ (23) 式中,
$ m $ 是馈入神经网络样本的数量.由于
$ c_i $ 在$ C $ 中, 训练过程中$ c_i $ 必然出现. 所以$ f(c_i) = 1 $ .又因为,
$ X $ 符合正态分布,$X \sim {\rm{N}}(x; x^*, \sigma^2) .$ 其中$ x^* $ 是$ x $ 的估计($Dec $ 解码$ x $ 特征$ c $ 的结果, 即$x^*=Dec(c)$ . 从而式(23)等于:$$ \begin{split} &-\sum\limits_{i = 1}^m \ln f_{Dec}(x_i | c_i)= \\ &\qquad -\sum\limits_{i = 1}^m \ln \left(\frac{1}{\sqrt{2 \pi} \sigma} \cdot {\rm{exp}}\left( -\frac{(x_i-x_i^*)^2}{2\sigma^2}\right) \right) = \\ &\qquad \frac{m}{2} \cdot \ln (2\pi) + m \cdot \ln \sigma + \sum\limits_{i = 1}^m \frac{(x_i-x_i^*)^2}{2\sigma^2} \end{split} $$ (24) 式中,
$ x_i^* $ = Dec($ c_i $ ),$ c_i $ 为$ x_i $ 的特征. 前2项是常数项, 梯度下降过程中对梯度不做贡献, 仅最后一项对梯度下降做出贡献. 均方差损失函数为:$$ \begin{array}{l} loss_{MSE} = \frac{1}{m} \sum\limits_{i = 1}^m (x_i - x_i^*)^2 \end{array} $$ (25) 对比式(24)的最后1项和式(25)可知. 优化式(24)等价于优化式(25). □
由命题1可知, 引入解码约束条件当
$ f_{Dec}(x) \approx $ $ f_G(x) $ 时将有利于$ f_G(x) $ 与$ f_X(x) $ 更相似. 从而达到尽量避免$ JS(f_X(x)||f_G(x)) $ 为常数和近似常数的目的, 有利于避免损失函数梯度消失的问题.由命题2可知, 引入解码约束条件基本不影响函数的单调性和极小值点, 表明它们相对于分布对
$ (f_X(x), f_G(x)) $ 的最优解一致, 优化任务的总体目的相近.由命题3可知, 若训练样本
$ X $ 符合正态分布, 应选用均方差损失函数. 由于训练集$ X $ 中样本的结构信息(几何结构量)、颜色信息和清晰度(与图像纹理相关)等关键特征信息, 依据三大中心极限定理可知是满足正态分布假设或近似正态分布假设.2.3 网络训练
通过以上描述, 可以得到整个网络的训练方法, 如下所示:
步骤1. 依据式(7)充分训练U-Net型自动编码机, 获取训练集
$ X $ 的特征集$ C $ .步骤2. 依据式(10)计算出判别值
$ \delta $ , 如果$ \delta $ = 1则对解码器Dec (解码器与生成器G权重共享, 网络结构一致)使用均方根传播优化方法进行解码训练. 每次馈入批量尺寸个$ x $ 和对应的特征码$ c $ .步骤3. 分别馈入批量尺寸个
$ x $ 和$G(z) $ 到判别器D网络, 使用均方根传播优化方法对其进行权重更新.步骤4. 馈入批量尺寸个
$ z $ 到生成器G网络, 使用均方根传播优化方法对其进行权重更新. 连续训练2次G.步骤5. 重复步骤
$2 \sim$ 4, 直到达到最大epoch数为止.3. 实验及分析
本文实验中, 选取的主要软硬件环境为, Tensor-Flow1.12.0 GPU版本, CUDA 9.0, cuDNN 7.4, 英伟达GTX1080, GTX1080Ti, RTX2080Ti显卡. 实验的其他部分如下.
3.1 评价指标及数据集
为定量对比分析多个生成模型的生成图像效果, 选取Inception score (IS)[33-34]、弗雷歇距离(Frechet inception distance, FID)[33-34]和平均清晰度进行评价. IS是评价生成图像的质量和模式类别多样性的指标(对多样性描述更准确一些), 指标值越高越好. FID也是评价生成图像质量和多样性, 越低越好. 计算IS指标不需要训练集做对比, 计算FID指标需要训练集做对比, FID越小表明与训练集的图像质量及多样性越接近. 清晰度是图像重要的视觉质量指标, 越高则有更多纹理结构信息. 清晰度方法选取常用的基于能量梯度表达计算公式:
$$ \begin{split} S(x) = &\sum\limits_{i = 0}^{w-2} \sum\limits_{j = 0}^{h-2} (|I(i+1, j) - I(i, j)|^2+ \\ & |I(i, j+1) - I(i, j)|^2) \end{split} $$ (26) 式中,
$ I(i, j) $ 表示在图像样本$ x $ 中坐标$ (i, j) $ 处的像素值大小,$ w $ 和$ h $ 分别表示样本图像$ x $ 的宽度和高度. 使用$ S(x) $ 除以图像像素个数以获取平均清晰度.为验证本文GANs模型的生成图像的效果, 选取Celeba和Cifar10数据集进行测试. 数据集详细信息如下所示.
Celeba数据集共含有202599张彩色人物上半身图像, 每张图像大小为178
$ \times $ 218像素. 在实验中选取前50000张图像, 裁剪出64$ \times $ 64的人脸图像作为训练集. Cifar10数据集含有50000张训练集彩色图像和10000张测试集彩色图像. 每张图片大小为32$ \times $ 32, 10个类别的图像在训练集和测试集中比例相同. 实验选用Cifar10的训练集作为GANs的训练集. 图3 ~ 4展示了训练集的样本图像.3.2 特征学习实验
在图像特征学习中, 使用类似于U-Net的5层全连接自编码机用于特征学习, 每层神经元数量为:
$ w\times h $ 、$10 \times 10$ 、$10 \times 10$ 、$10 \times 10 $ 和$ w\times h $ $( w$ 和$ h $ 是图像宽度和高度), 激活函数为softsign, 使用Adam方法进行优化, 学习率为0.001, 动量因子为0.9. 每批提取100个样本图像的中间层特征, 迭代次数为 7000. 在GTX1080Ti 显卡条件下, Cifar10数据集上所耗时间约为7小时, Celeba数据集上所耗时间约为18小时.图5展示了部分训练样本重构效果和提取的特征图. 前后3行图像各为一个单元, 每个单元中第1行是原图, 第2行是重构图, 第3行是对应的特征图. 在特征图中, 每1个格子对应原特征图的1个彩色像素.
由图5可以看出, U-Net结构下的自编码机都有比较好的图像重构视觉效果, 所提取的隐含特征都有比较好的特征表达能力. 从图5可以观察出图像颜色和纹理结构越丰富, 隐含特征色彩也越丰富. 反之, 特征的颜色也比较单一. 例如图5人脸图像中, 第
$1 \sim 4$ 列头发颜色和背景颜色都偏暗, 面部方向为正面. 第$5 \sim8 $ 列背景图像, 面部角度及头发颜色都比较鲜明. 与之对应, 它们的特征也有比较明显的颜色区分度, 从而表明所学习到的特征包含了原始图像的一些信息, 如颜色和面部方向. 在Cifar10数据集中依然有类似的规律, 能明显看出, 后4列图像是颜色鲜明的, 特征也鲜明.表1给出了Celeba和Cifar10数据集重构样本与训练集的峰值信噪比(Peek signal to noise ratio, PSNR)和结构相似度(Structural similarity, SSIM)质量评估指标.
表 1 原图像与重构图像的PSNR和SSIM值统计Table 1 PSNR & SSIM between original and reconstructed images数据集 指标 均值 标准差 极小值 极大值 Celeba PSNR 40.588 5.558 22.990 61.158 SSIM 0.9984 0.0023 0.9218 1.0000 Cifar10 PSNR 46.219 6.117 28.189 66.779 SSIM 0.9993 0.0019 0.8180 1.0000 由表1可以看出, 在Celeba和Cifar10数据集上, U-Net型自动编码机重构的样本在PSNR和SSIM指标上都有不错的表现. 结合图5来看, 其提取的特征具有训练集样本的特征表达能力.
3.3 不同解码实验对比
本节实验为验证样本特征有效性, 限制解码约束条件的必要性及解码函数类型选择的重要性做了如下实验. 1)正态特征(每个训练样本对应的特征符合标准正态分布); 2)均匀特征(每个训练样本对应的特征符合[−1, 1]的均匀分布); 3) L1解码约束条件. 4) L2解码约束条件, 但不限制其对损失函数的梯度贡献. 5)本文方法(L2解码约束条件, 限制对损失函数梯度贡献); 除此, 还计算了训练集的指标信息用以对比分析.
所有实验选用均方根传播优化方法, 学习率为0.0002, 动量因子为0.9, 批量尺寸为64, epoch 数为15. 在第1至3或5组实验中, 式(9)选取参数
$ \lambda =$ $1.0\times10^{-7}$ ; 式(10)中,$r = 2,\; l= 11.$ 在第4组实验中,$\lambda = 1.0,\; r = 1,\; l =$ epoch. Celeba和Cifar10实验每组生成50000张图片进行统计分析. 表2 ~ 3展示了统计图像数据得到的各项指标结果, 其中上标 * 项是来自不限L2约束对损失函数梯度贡献权重实验, 第5列是计算与训练集清晰度均值的差距值, 粗体表示最优值.表 2 Celeba中不同解码实验结果Table 2 Results of different decoding experiments in Celeba对比项 IS ($ \sigma \times 0.01 $) FID 清晰度均值 清晰度均值差值 训练集 2.71 ± 2.48 0.00 107.88 0.00 正态特征 1.88 ± 1.25 42.54 121.40 13.52 均匀特征 1.82 ± 1.48 43.04 123.02 15.14 L1 1.99 ± 1.53 32.95 120.16 12.28 L2* 1.69 ± 0.97 46.08 96.88 11.00 L2 (本文) 2.05 ± 1.84 25.62 114.95 7.07 表 3 Cifar10中不同解码实验结果Table 3 Results of different decoding experiments in Cifar10对比项 IS ($ \sigma \times 0.1 $) FID 清晰度均值 清晰度均值差值 训练集 10.70 ± 1.47 0.00 120.56 0.00 正态特征 5.63 ± 0.64 48.21 139.88 19.32 均匀特征 5.51 ± 0.79 46.57 137.13 16.57 L1 5.63 ± 0.79 44.53 138.04 17.48 L2* 4.69 ± 0.55 79.10 119.62 0.94 L2 (本文) 5.83 ± 0.70 42.70 134.97 14.41 1)分析对于馈入图像特征
$ c $ 的必要性. 对比表2 ~ 3中的正态特征, 由均匀特征和L2 (本文)表项可知, 本文方法在IS和FID这两项关键指标上, 均是最优. 特别是在FID指标上有显著提升, 表明使用图像特征$ c $ 进行解码是必要的, 馈入的特征类型是不能随意选取. 对比清晰度, 本文方法的清晰度均值虽不是最大, 但是本文清晰度更接近训练集的清晰度水平, 表明能更合理地模拟训练集高频信息.2)分析解码损失函数类型的必要性. 对比表2 ~ 3中L1和L2 (本文)可知, IS和FID指标依然是本文占优. 清晰度均值表项L1约束占优表明其生成的图像填充的纹理信息更多, 但本文方法清晰度依然最接近训练集清晰度.
3)分析限制解码约束条件对梯度贡献的必要性. 对比表2 ~ 3中L2*和L2 (本文)可知, L2*的IS和FID指标明显占劣势, 这表明其多样性和生成图像的指标较差. 对比清晰度指标可以发现不限制L2约束条件对梯度的贡献, 会影响生成图像的细节纹理填充. 应注意表3中L2*和训练集表项的清晰度均值相近的原因, 前者是因为纹理细节丢失导致清晰度下降, 后者是因为图像前景或背景本身纹理较少(如舰船、马匹、汽车、飞机等类别)导致整体清晰度下降.
通过以上3个方面的分析可以发现, 本文方法中使用图像特征进行解码是必要的, 馈入的解码特征类型不具有随意性; 对于解码损失函数使用L2效果更优, 具有一定必要性; 限制解码损失函数对梯度的贡献, 使得
$ f_{Dec}(x) $ 和$ f_G(x) $ 应近似相等是必要的. 后两点也与模型的理论分析部分一致.图6 ~ 11展示了在Celeba和Cifar10数据集中, 均匀特征、不限制权重的L2约束以及本文方法实验生成样本.
由图3和图6 ~ 8可以看出, 本文方法(图8)生成的图像更细腻, 图像纹理填充主要是填充到头发部分, 视觉效果更好. 而均匀特征生成的图像中(图6), 一些纹理信息不仅填充到面部, 而且还填充到背景区域, 这也是表2中其清晰度均值偏高的原因. 表明它能够生成更多的纹理细节, 但是填充位置未必合理. 对于
${\rm{L}}2^*$ 生成的图像中(图7)能够发现, 生成的样本比较模糊, 纹理信息填充比较差, 影响了视觉效果. 表明限制解码损失函数对梯度下降的贡献是必要的.由图9 ~ 11可以看出, 本文方法(图11)能更明显地生成图像中背景和前景部分. 而均匀特征生成图像(图9)纹理填充得更多. 对于L2*生成的图像(图10)也能够发现图像相对模糊. 通过以上的数据及生成图像对比分析表明, 在本文方法中, 为生成更好质量的图像, 需要选取合适的解码特征类型, 限制解码约束条件权重以及选取合适的解码函数类型.
3.4 耗时分析
本文GANs所使用的G和D网络内部结构均与DCGANs一致, 并且本文将JS散度作为主优化目标, 后者将JS散度作为优化目标. 为验证模型的所耗时间代价, 在同一台含GTX1080Ti显卡的计算机上测试了DCGANs和本文GANs模型的耗时, 以此对比分析出本文的训练时间代价.
由表4可以看出, 在预训练出训练集样本特征前提下, 本文GANs总耗时有所下降, 这得益于总的epoch数减少. 但单位耗时有所提高, 这源于本文GANs在某些epoch训练周期内会使用解码约束条件. 由第3.3节实验设置可以看出, 解码约束的使用仅在0和0到11之内的偶数训练周期中, 共6次. 在特征提取的过程中, 由第3.2节可知, 其耗时远大于用于解码和对抗训练耗时. 表明本文GANs在特征学习过程中的预训练耗时代价较大. 总耗时的减少为模型的参数调试带来了比较大的便利.
3.5 不同GANs实验对比
在对抗训练实验中, 本文选取的G网络和D网络结构与DCGANs一致, LSGANs、WGANs和WGANsGP的网络结构处理方法相同. 选取均方根传播优化方法, 学习率和动量因子分别为0.0002和0.9.
BEGANs和SAGANs分别依据文献[16, 23]代码单独实验, 关键参数与原文一致, 选用Adam优化. 所有实验中批量尺寸为64. 在Celeba和Cifar10上每组实验均生成50000张图片进行数据统计, 获得表5 ~ 6实验数据. 在表5 ~ 6中, SAGANs1使用WGANsGP损失函数(优化沃瑟斯坦距离), SAGANs2使用DCGANs损失函数(优化JS散度); 关于本文所设计GANs参数统计, 前半部分是解码及对抗学习模型参数量, 后半部分是U-Net自动编码机模型参数量.
表 5 Celeba中不同GANs对比Table 5 Comparsion of different GANs in CelebaGANs 模型 epoch 数 优化项 参数量 ($ \times 10^6 $) IS ($ \sigma \times 0.01 $) FID 清晰度均值 清晰度均值差值 训练集 — — — 2.71 ± 2.48 0.00 107.88 0.00 BEGANs[16] 35 沃瑟斯坦距离 4.47 1.74 ± 1.29 46.24 77.58 30.30 DCGANs[9] 20 JS 散度 9.45 1.87 ± 1.58 50.11 124.82 16.94 LSGANs[15] 35 Pearson 散度 9.45 2.02 ± 1.63 39.11 122.19 14.31 WGANs[14] 35 沃瑟斯坦距离 9.45 2.03 ± 1.75 40.31 117.15 9.27 WGANsGP[17] 35 沃瑟斯坦距离 9.45 1.98 ± 1.82 37.01 121.16 13.28 SAGANs1[23] 30 沃瑟斯坦距离 10.98 2.06 ± 1.79 21.94 109.94 2.06 SAGANs2[23] 30 JS 散度 10.98 1.99 ± 1.79 31.04 99.57 8.31 本文方法 15 JS + $ \lambda \cdot $KL 散度 9.45 + 0.84 2.05 ± 1.84 25.62 114.95 7.07 表 6 Cifar10中不同GANs对比Table 6 Comparsion of different GANs in Cifar10GANs 模型 epoch 数 优化项 参数量 ($ \times 10^6 $) IS ($ \sigma \times 0.1 $) FID 清晰度均值 清晰度均值差值 训练集 — — — 10.70 ± 1.47 0.00 120.56 0.00 BEGANs[16] 35 沃瑟斯坦距离 3.67 5.36 ± 0.65 107.64 80.89 39.67 DCGANs[9] 20 JS 散度 8.83 5.04 ± 0.27 54.27 139.12 18.56 LSGANs[15] 35 Pearson 散度 8.83 5.70 ± 0.36 43.35 135.80 15.24 WGANs[14] 35 沃瑟斯坦距离 8.83 5.25 ± 0.33 53.88 136.74 16.18 WGANsGP[17] 35 沃瑟斯坦距离 8.83 5.39 ± 0.30 50.60 139.17 18.61 SAGANs1[23] 30 沃瑟斯坦距离 8.57 6.09 ± 0.47 42.90 126.28 5.72 SAGANs2[23] 30 JS 散度 8.57 5.37 ± 0.46 53.49 133.54 12.98 本文方法 15 JS + $ \lambda \cdot $KL 散度 8.83 + 0.23 5.83 ± 0.70 42.70 134.97 14.41 对比分析表5实验数据可知:
1)对比前5个和本文GANs模型. 由IS指标可以看出, 本文虽稍好于LSGANs、WGANs和WGANsGP, 但它们之间IS指标基本一致; DCGANs和BEGANs较差, 表明两者多样性和质量差于其他方法. 在FID指标上, 本文GANs模型明显优于这5个GANs模型, 表明本文GANs模型相对地更能有效模拟训练集分布. 在清晰度指标上, 虽然清晰度均值不是最大, 但是它与训练集之间的清晰度均值差距更小, 表明本文GANs对高频细节模拟更合理. 对比模型参数可知, 由于特征学习网络的参数量较少, 所以本文GANs模型并没有明显增加参数量. 最后对比epoch数可以看出, 本文相对于上述GANs模型有明显优势.
2)对比SAGANs和本文GANs效果. 从SAGA-Ns1和本文GANs的实验数据可知, 优化沃瑟斯坦距离的SAGANs的综合性能很好, IS指标与本文相当, FID指标稍好于本文GANs; 在清晰度指标上, 它能更合理地模拟人脸纹理信息, 虽然参数量两者基本一致, 但其训练epoch数明显多于本文GANs模型. 再对比SAGANs2和本文GANs可知, 本文综合效果又较明显优于优化JS散度的SAGANs模型. 说明当JS散度作为优化目标或主优化目标时, 本文GANs模型比融入注意力机制和谱归一化优化的SAGANs模型表现更佳. 同时, 通过对应地对比DCGANs与WGANs、SAGANs1与SAGANs2, 可以看出, 优化JS散度模型生成图像质量差于优化沃瑟斯坦距离模型生成图像质量. 这也证明了WGANs[14] 的分析, JS散度的确可能带来梯度消失问题, 导致生成图像质量下降.
由表6可知, 在Cifar10数据集中依然存在上述类似的实验现象, 但从统计的数据来看, 没有单类别数据集那么明显.
通过以上实验数据及分析可知, 本文GANs综合性能达到除了优化沃瑟斯坦距离的SAGANs外的最优效果. 相对而言, 本文GANs在仍以JS散度为主优化目标时, 模型综合性能靠近优化沃瑟斯坦距离的SAGANs, 并且网络结构并没有使用注意力机制和谱归一化优化. 同时在预训练提取出训练特征的前提下, 本文GANs模型明显减少epoch数.
由图12 ~ 19的展示, 可以直观地对比BEGANs、DCGANs、WGANsGP和SAGANs1的GANs生成效果.
对比分析使用Celeba数据集训练GANs而生成的图像. 由图12可知, BEGANs虽然能很好对形态特征进行学习, 但的确存在比较严重的高频信息丢失现象, 并且生成的图像出现斑块. 由图13 ~ 14可知, DCGANs和WGANsGP生成的图像纹理信息填充区域过多, 比如训练图像面部的高频信息较少, 但是生成图像存在面部填充高频信息的现象, 这也是表4对应的清晰度均值项偏高的原因之一. 图15能很明显地观察到优化沃瑟斯坦距离的SAGANs生成的图像, 在面部形态和纹理等特征更合理, 并且结合图8 (本文效果), 也能发现更好地生成图像样本, 其形态和纹理等信息都比较协调. 对比Cifar10数据集生成的图像, 除图16可以明显看出差异外, 难以直接进行视觉评估, 在第3.5节和表6数据进行了分析.
综上所述, 本文方法(JS +
$ \lambda \cdot $ KL散度)相对于DCGANs (JS散度)有较明显的提升, 在IS指标上也能达到LSGANs (Pearson散度)、WGANs (沃瑟斯坦距离)等GANs模型的图像生成效果, 并且在FID指标上进一步有所提高. 此外, 本文方法生成的图像效果能逼近优化沃瑟斯坦距离的SAGANs图像效果, 并且参数量并没明显增加. 在训练集样本特征预学习完成后, 解码及对抗学习能有效减少训练所需的epoch数.4. 结束语
为提高GANs图像生成质量, 考虑到JS散度可能为近似常数时带来对生成图像效果的不利影响, 本文尝试通过增加样本特征解码约束条件来减弱这些影响. 实验结果表明, 利用样本特征解码约束条件进行对抗训练的约束, 有利于图像生成质量提高和减少epoch数. 同时, 本文方法能够更合理地模拟训练集的高频信息部分. 本文方法需对训练样本预学习出样本特征, 虽较少地增加了网络参数量, 但需要较多的特征提取预训练时间. 对于其他特征提取方法, 特征分布与随机噪声分布的关系对生成效果的影响值得进一步研究.
-
表 1 参数设置
Table 1 Hyperparameter configuration
Algorithm Time complexity K-means $k$= The actual number of clusters DPC $dc\in [0.1,20]$ SNN-DPC $k\in [3,70]$ GB-DPC $dc\in [0.1,20] $ EC $dc\in [0.1,20]$ or $dc\in [100,300]$ BP $k\in[3,70], b\in[0.1,0.5], \epsilon\in[0.1,0.5], T\in[100,120],C=2$ CBPVD $k\in[3,70], \tau\in[0.1,0.4]$ 表 2 数据集基本信息
Table 2 Basic information of datasets
数据集 大小 维度 簇数 特征 Compound 399 2 6 Multi-density, -Scale R15 600 2 15 Micro, Adjoining Flame 240 2 2 Overlapping Parabolic 2000 2 2 Cross-winding, Multi-density Jain 373 2 2 Cross-winding, Multi-density 4k2-far 400 2 4 Noise, Convex D31 3100 2 31 Multiple-Micro cluster Aggregation 788 2 7 Bridging Spiral 240 2 3 Manifold Heart disease 303 13 2 UCI, Clinical medicine Hepatitis 155 19 2 UCI, Clinical medicine German Credit 1000 20 2 UCI, Financial Voting 435 16 2 UCI, Political election Credit Approval 690 15 2 UCI, Credit record Bank 4521 16 2 UCI, Financial credit Sonar 208 60 2 UCI, Geology exploration Zoo 101 7 16 UCI, Biological species Parkinson 195 22 2 UCI, Clinical medicine Post 90 8 3 UCI, Postoperative recovery Spectheart 267 22 2 UCI, Clinical medicine Wine 178 13 3 UCI, Wine ingredients Ionosphere 351 34 2 UCI, Atmospheric structure WDBC 569 30 2 UCI, Cancer Optical Recognition 5620 64 10 OCR, Handwritten Digits Olivetti Face 400 10304 40 Face, High-dimensional You-Tube Faces 10000 10000 41 Video stream, Face RNA-seq 801 20531 5 Gene expression, Nonlinear REUTERS 10000 10000 4 Word, News, Text G2-20 2048 2 2 Noise-20% G2-30 2048 2 2 Noise-30% G2-40 2048 2 2 Noise-40% Size500 500 2 5 Gaussian Size2500 2500 2 5 Gaussian Size5000 5000 2 5 Gaussian Size10000 10000 2 5 Gaussian Dim128 1024 128 16 High-dimensional Dim256 1024 256 16 High-dimensional Dim512 1024 512 16 High-dimensional Dim1024 1024 1024 16 High-dimensional MINST 10000 784 10 OCR, high-dimensional 表 3 算法在合成数据集上的聚类表现
Table 3 Performance comparison of algorithms on all synthetic datasets
Dataset Algorithm Parameter ACC Purity JC ARI FMI 4k2-far K-means $k$= 4 1 1 0.13 1 1 DPC $dc$= 0.2168 1 1 1 1 1 GB-DPC $dc$= 0.5 1 1 0.26 1 1 SNN-DPC $k$= 10 1 1 1 1 1 EC $\sigma$= 1 1 1 1 1 1 BP — 0.98 0.99 0.01 0.97 0.98 CBPVD 10, 0.1 1 1 1 1 1 Aggregation K-means $k$= 7 0.78 0.94 0 0.76 0.81 DPC $k$= 7, $dc$= 2.5 0.91 0.95 0.22 0.84 0.87 GB-DPC $dc$= 2.5 0.64 0.99 0.09 0.57 0.68 SNN-DPC $k$= 40 0.98 0.98 0 0.96 0.97 EC $\sigma$= 5.5 1 1 0 1 1 BP — 1 0.95 0.72 0.99 0.99 CBPVD 16, 0.24 1 1 1 1 1 Compound K-means $k$= 6 0.63 0.83 0.23 0.53 0.63 DPC $dc$= 1.25 0.64 0.83 0.15 0.54 0.64 GB-DPC $dc$= 1.8 0.68 0.83 0.23 0.54 0.64 SNN-DPC $k$= 12 0.76 0.84 0.24 0.63 0.74 EC $\sigma$= 5.8 0.68 0.86 0.68 0.59 0.69 BP — 0.77 0.91 0.77 0.65 0.73 CBPVD 9, 0.08 0.90 0.91 0.13 0.94 0.96 Flame K-means $k$= 2 0.83 0.83 0.83 0.43 0.73 DPC $dc$= 0.93 0.84 0.84 0.16 0.45 0.74 GB-DPC $dc$= 2 0.99 0.99 0.99 0.97 0.98 SNN-DPC $k$= 5 0.99 0.99 0.01 0.95 0.98 EC $\sigma$= 5.4 0.80 0.93 0.14 0.51 0.74 BP — 0.98 0.99 0.65 0.96 0.98 CBPVD 3, 0.11 1 1 1 1 1 Spiral K-means $k$= 3 0.35 0.35 0.33 −0.01 0.33 DPC $dc$= 1.74 0.49 0.49 0.35 0.06 0.38 GB-DPC $dc$= 2.95 0.44 0.44 0.36 0.02 0.35 SNN-DPC $k$= 10 1 1 0 1 1 EC $\sigma$= 10 0.34 0.34 0.32 0 0.58 BP — 0.50 0.56 0.50 0.17 0.49 CBPVD 5, 0.32 1 1 1 1 1 Jain K-means $k$= 2 0.79 0.79 0.21 0.32 0.70 DPC $dc$= 1.35 0.86 0.86 0.86 0.52 0.79 GB-DPC $dc$= 1.35 0.35 0.94 0.18 0.15 0.44 SNN-DPC $k$= 10 0.86 0.86 0.14 0.52 0.79 EC $\sigma$= 7.65 0.79 0.86 0.19 0.51 0.78 BP — 0.42 0.98 0.09 0.23 0.53 CBPVD 13, 0.16 1 1 0 1 1 R15 K-means $k$= 15 0.81 0.86 0.03 0.80 0.81 DPC $dc$= 0.95 0.99 0.99 0 0.98 0.98 GB-DPC $dc$= 0.2 0.99 0.99 0.07 0.99 0.99 SNN-DPC $k$= 15 0.99 0.99 0.99 0.99 0.99 EC $\sigma$= 1.45 0.98 0.98 0.98 0.97 0.97 BP — 0.99 0.99 0 0.99 0.99 CBPVD 9, 0.13 1 1 1 1 1 Parabolic K-means $k$= 2 0.81 0.81 0.81 0.39 0.69 DPC $dc$= 1.5 0.82 0.82 0.82 0.41 0.71 GB-DPC $dc$= 0.5 0.94 0.94 0.06 0.77 0.89 SNN-DPC $k$= 9 0.95 0.95 0.95 0.81 0.91 EC $\sigma$= 3.05 0.73 0.73 0.73 0.21 0.66 BP — 0.19 0.98 0.03 0.13 0.36 CBPVD 33, 0.27 1 1 1 1 1 D31 K-means $k$= 31 0.88 0.91 0 0.87 0.87 DPC $dc$= 1.8 0.97 0.97 0 0.94 0.94 GB-DPC $dc$= 4 0.46 0.46 0.02 0.32 0.45 SNN-DPC $k$= 40 0.97 0.97 0 0.94 0.94 EC $\sigma$= 4 0.91 0.91 0.06 0.88 0.89 BP — 0.94 0.95 0 0.90 0.91 CBPVD 13, 0.15 0.97 0.97 0.07 0.94 0.94 表 4 算法在16个真实数据集(UCI)上的聚类表现
Table 4 Performance comparison of algorithms on 16 real-world datasets
Dataset Algorithm Parameter ACC Purity JC ARI FMI Heart disease K-means $k$= 2 0.57 0.57 0.57 0.02 0.52 DPC $dc$= 19.4424 0.55 0.55 0.45 0.01 0.51 GB-DPC $dc$= 19.4424 0.54 0.54 0.54 0 0.71 SNN-DPC $k$= 65 0.59 0.59 0.41 0.03 0.54 EC $\sigma$= 100 0.54 0.54 0.46 −0.001 0.71 BP — 0.53 0.54 0.47 −0.002 0.68 CBPVD 0.27, 26 0.68 0.68 0.32 0.12 0.77 Hepatitis K-means $k$= 2 0.66 0.84 0.66 −0.02 0.67 DPC $dc$= 1 0.63 0.84 0.01 −0.11 0.61 GB-DPC $dc$= 10.2 0.73 0.70 0.28 −0.01 0.72 SNN-DPC $k$= 45 0.70 0.84 0.30 −0.07 0.71 EC $\sigma$= 5.8 0.01 1 0.01 0 0.01 BP — 0.83 0.84 0.83 −0.02 0.84 CBPVD 10, 0.2 0.84 0.84 0.76 0 0.85 German K-means 2 0.67 0.70 0.33 0.05 0.66 DPC $dc$= 53.9814 0.61 0.70 0.61 0.03 0.58 GB-DPC $dc$= 53.9814 0.61 0.70 0.61 0.03 0.58 SNN-DPC $k$= 30 0.62 0.70 0.39 0.01 0.61 EC $\sigma$= 100 0.15 0.72 0.01 0.01 0.20 BP — 0.14 0.70 0.07 0.001 0.20 CBPVD 4, 0.39 0.83 0.83 0.83 0.43 0.74 Voting K-means $k$= 2 0.51 0.61 0.51 −0.002 0.51 DPC $dc$= 1 0.81 0.81 0.19 0.39 0.7 GB-DPC $dc$= 1.7 0.87 0.87 0.87 0.54 0.78 SNN-DPC $k$= 60 0.88 0.88 0.12 0.57 0.79 EC $\sigma$= 2 0.75 0.89 0.75 0.42 0.68 BP — 0.86 0.91 0.05 0.59 0.79 CBPVD 66, 0.33 0.88 0.88 0.12 0.68 0.79 Credit K-means $k$= 2 0.55 0.55 0.45 0.003 0.71 DPC $dc$= 1 0.68 0.68 0.68 0.13 0.60 GB-DPC $dc$= 7 0.55 0.55 0.45 0 0.71 SNN-DPC $k$= 50 0.61 0.61 0.61 0.05 0.53 EC $\sigma$= 800 0.56 0.59 0 0.02 0.68 BP — 0.33 0.69 0.26 0.06 0.35 CBPVD 31, 0.33 0.85 0.85 0.85 0.49 0.74 Bank K-means $k$= 2 0.82 0.88 0.11 −0.002 0.82 DPC $dc$= 2.39 0.64 0.88 0.14 0.04 0.65 GB-DPC $dc$= 10 0.76 0.74 0.24 −0.02 0.76 SNN-DPC $k$= 3 0.81 0.88 0.81 0.01 0.81 EC $\sigma$= 300 0.82 0.82 0 0.02 0.82 BP — 0.24 0.88 0.09 0.01 0.29 CBPVD 24, 0.2 0.88 0.88 0.12 0 0.89 Sonar K-means $k$= 2 0.54 0.54 0.34 0.50 0.50 DPC $dc$= 2.82 0.58 0.58 0.42 0.02 0.66 GB-DPC $dc$= 1.4 0.51 0.53 0.51 −0.004 0.51 SNN-DPC $k$= 19 0.50 0.53 0.50 −0.01 0.51 EC $\sigma$= 1.6 0.54 0.57 0.07 0.01 0.66 BP — 0.51 0.53 0.51 −0.004 0.68 CBPVD 9, 0.66 0.66 0.66 0.66 0.10 0.60 ZOO K-means $k$= 7 0.76 0.84 0.62 0.6 0.69 DPC $dc$= 2.4 0.70 0.79 0.36 0.59 0.68 GB-DPC $dc$= 3.6 0.66 0.75 0.03 0.48 0.60 SNN-DPC $k$= 5 0.56 0.56 0.12 0.31 0.53 EC $\sigma$= 2.3 0.80 0.81 0.08 0.65 0.73 BP — 0.59 0.59 0.23 0.4 0.62 CBPVD 10, 0.15 0.86 0.86 0.01 0.93 0.94 Parkinson K-means $k$= 2 0.72 0.75 0.28 0 0.74 DPC $dc$= 1.3 0.66 0.75 0.34 0.05 0.63 GB-DPC $dc$= 3 0.71 0.71 0.29 −0.05 0.75 SNN-DPC $k$= 80 0.72 0.75 0.28 0.11 0.69 EC $\sigma$= 135 0.70 0.75 0.7 0.14 0.66 BP — 0.19 0.98 0.03 0.13 0.36 CBPVD 13, 0.16 0.82 0.82 0.82 0.25 0.81 POST K-means $k$= 3 0.43 0.71 0.43 −0.002 0.45 DPC $dc$= 1 0.53 0.71 0.53 −0.01 0.52 GB-DPC $dc$= 2.7 0.61 0.71 0.38 −0.03 0.62 SNN-DPC $k$= 60 0.61 0.71 0.61 0.02 0.60 EC $\sigma$= 6 0.70 0.72 0.05 0.04 0.74 BP — 0.62 0.72 0.09 0.04 0.61 CBPVD 10, 0.01 0.79 0.79 0.79 0.25 0.78 Spectheart K-means $k$= 2 0.64 0.92 0.64 −0.05 0.69 DPC $dc$= 1.4142 0.52 0.92 0.48 −0.01 0.65 GB-DPC $dc$= 1.1 0.52 0.92 0.08 0 0.92 SNN-DPC $k$= 80 0.87 0.92 0.13 0.11 0.87 EC $\sigma$= 4 0.92 0.92 0.08 0 0.92 BP — 0.91 0.92 0.91 −0.01 0.91 CBPVD 15, 0.26 0.92 0.92 0.08 0 0.92 Wine K-means $k$= 4 0.66 0.70 0.11 0.32 0.54 DPC $dc$= 0.5 0.55 0.58 0.43 0.15 0.57 GB-DPC $dc$= 5.6 0.60 0.71 0.35 0.27 0.50 SNN-DPC $k$= 3 0.62 0.66 0.51 0.34 0.63 EC $\sigma$= 250 0.66 0.66 0.66 0.37 0.66 BP — 0.68 0.71 0.21 0.34 0.56 CBPVD 4, 0.03 0.91 0.95 0.75 0.8 0.87 Ionosphere K-means $k$= 2 0.71 0.71 0.71 0.18 0.61 DPC $dc$= 3.7 0.65 0.65 0.35 0.02 0.73 GB-DPC $dc$= 3.7 0.65 0.65 0.35 0.02 0.73 SNN-DPC $k$= 34 0.67 0.67 0.67 0.11 0.57 EC $\sigma$= 5 0.65 0.67 0 0.05 0.73 BP — 0.80 0.80 0.80 0.34 0.76 CBPVD 6, 0.51 0.83 0.83 0.87 0.42 0.77 WDBC K-means $k$= 2 0.74 0.89 0.22 0.54 0.76 DPC $dc$= 5 0.67 0.67 0.67 0.10 0.60 GB-DPC $dc$= 3.9 0.63 0.63 0.63 0 0.73 SNN-DPC $k$= 3 0.81 0.81 0.19 0.36 0.75 EC $\sigma$= 350 0.82 0.87 0 0.49 0.78 BP — 0.44 0.88 0.12 0.25 0.52 CBPVD 3, 0.6 0.95 0.95 0.05 0.81 0.91 RNN-seq K-means $k$= 5 0.75 0.75 0.17 0.72 0.79 DPC $dc$= 159.6 0.70 0.73 0.39 0.62 0.76 GB-DPC $dc$= 159.6 0.73 0.73 0.54 0.63 0.77 SNN-DPC $k$= 30 0.73 0.73 0.001 0.51 0.71 EC $\sigma$= 240 0.38 0.38 0.17 0 0.49 BP — 0.78 0.74 0.002 0.63 0.72 CBPVD 10, 0.4 0.996 0.996 0.81 0.99 0.99 REUTERS K-means $k$= 4 0.50 0.58 0.22 0.15 0.41 DPC $dc$= 3.5 0.43 0.43 0.28 0.10 0.46 GB-DPC $dc$= 3.5 0.35 0.55 0 0.14 0.41 SNN-DPC $k$= 40 0.49 0.50 0.49 0.24 0.54 EC $\sigma$= 300 0.40 0.40 0.40 0 0.55 BP — 0.39 0.41 0.38 0.01 0.50 CBPVD 20, 0.1 0.61 0.61 0.61 0.23 0.47 表 5 图像数据集的聚类结果
Table 5 Performance comparison of algorithms on image datasets
Dataset Algorithm Parameter ACC Purity JC ARI FMI Olivetti K-means $k$= 40 0.64 0.67 0.01 0.517 0.54 DPC $dc$= 0.922 0.59 0.65 0.02 0.523 0.56 GB-DPC $dc$= 0.65 0.65 0.73 0.05 0.577 0.59 SNN-DPC $k$= 40 0.66 0.74 0 0.585 0.61 EC $\sigma$= 3700 0.44 0.58 0.02 0.22 0.32 BP — 0.03 0.03 0.03 0 0.15 CBPVD 4, 0.14 0.75 0.78 0 0.646 0.68 Optical K-means $k$= 10 0.71 0.73 0.04 0.58 0.63 DPC $dc$= 1.1 0.60 0.62 0.09 0.475 0.56 GB-DPC $dc$= 10.5 0.61 0.62 0.02 0.468 0.56 SNN-DPC $k$= 10 0.71 0.73 0.20 0.629 0.69 EC $\sigma$= 30 0.69 0.69 0.17 0.596 0.67 BP — 0.80 0.85 0 0.717 0.75 CBPVD 4, 0.45 0.93 0.95 0.30 0.889 0.90 You-Tube Faces K-means $k$= 41 0.52 0.63 0.02 0.51 0.53 DPC $dc$= 6.5 0.53 0.62 0.02 0.48 0.51 GB-DPC $dc$= 6.5 0.31 0.31 0 0.25 0.35 SNN-DPC $k$= 59 0.57 0.69 0.03 0.47 0.50 EC $\sigma$= 100 0.51 0.56 0.01 0.40 0.46 BP — 0.52 0.62 0.04 0.19 0.32 CBPVD 20, 0.1 0.66 0.88 0.01 0.62 0.64 表 6 复杂度对比
Table 6 The time complexity of algorithms
Algorithm Time complexity DBSACN $\text{O}(n^2)$ DPC $\text{O}(n^2)$ GB-DPC $\text{O}(n\log_2n)$ SNN-DPC $\text{O}(n^2)$ DPC-RDE $\text{O}(n^2)$ RA-Clust $\text{O}(n\sqrt{n})$ EC $\text{O}(n^2)$ BP $\text{O}(n^2)$ CBPVD $\text{O}(n^2)$ -
[1] 朱颖雯, 陈松灿. 基于随机投影的高维数据流聚类. 计算机研究与发展, 2020, 57(8): 1683-1696 doi: 10.7544/issn1000-1239.2020.20200432Zhu Ying-Wen, Chen Song-Can. High dimensional data stream clustering algorithm based on random projection. Journal of Computer Research and Development, 2020, 57(8): 1683-1696 doi: 10.7544/issn1000-1239.2020.20200432 [2] Xia S Y, Peng D W, Meng D Y, Zhang C Q, Wang G Y, Giem E, et al. Ball k k-means: fast adaptive clustering with no bounds. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2022, 44(01): 87-99 [3] Rodriguez A, Laio A. Clustering by fast search and find of density peaks. Science, 2014, 344(6191): 1492-1469 doi: 10.1126/science.1242072 [4] Flores K G, Garza S E. Density peaks clustering with gap-based automatic center detection. Knowledge-Based Systems, 2020, 206: Article No. 160350 [5] Wang S L, Li Q, Zhao C F, Zhu X Q, Yuan H N, Dai T R. Extreme clustering–a clustering method via density extreme points. Information Sciences, 2021, 542: 24-39 doi: 10.1016/j.ins.2020.06.069 [6] Hou J, Zhang A H, Qi N M. Density peak clustering based on relative density relationship. Pattern Recognition, 2020, 108: Article No. 107554 [7] Xu X, Ding S F, Wang Y R, Wang L J, Jia W K. A fast density peaks clustering algorithm with sparse search. Information Sciences, 2021, 554: 61-83 doi: 10.1016/j.ins.2020.11.050 [8] Weng S Y, Gou J, Fan Z W. h-DBSCAN: A simple fast DBSCAN algorithm for big data. In: Proceedings of Asian Conference on Machine Learning. New York, USA: PMLR, 2021. 81−96 [9] Ester M, Kriegel H, Sander J, Xu X W. A density-based algorithm for discovering clusters in large spatial databases with noise. In: Proceedings of Knowledge Discovery and Data Mining. New York, USA: ACM, 1996. 226−231 [10] Fang F, Qiu L, Yuan S F. Adaptive core fusion-based density peak clustering for complex data with arbitrary shapes and densities. Pattern Recognition, 2020, 107: Article No. 107452 [11] Chen M, Li L J, Wang B, Cheng J J, Pan L N, Chen X Y. Effectively clustering by finding density backbone based-on kNN. Pattern Recognition, 2016, 60: 486-498 doi: 10.1016/j.patcog.2016.04.018 [12] Averbuch-Elor H, Bar N, Cohen-Or D. Border peeling clustering. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 42(7): 1791-1797 [13] Cao X F, Qiu B Z, Li X L, Shi Z L, Xu G D, Xu J L. Multidimensional balance-based cluster boundary detection for high-dimensional data. IEEE Transactions on Neural Networks and Learning Systems, 2018, 30(6): 1867-1880 [14] Qiu B Z, Cao X F. Clustering boundary detection for high dimensional space based on space inversion and Hopkins statistics. Knowledge-Based Systems, 2016, 98: 216-225 doi: 10.1016/j.knosys.2016.01.035 [15] Zhang R L, Song X H, Ying S R, Ren H L, Zhang B Y, Wang H P. CA-CSM: a novel clustering algorithm based on cluster center selection model. Soft Computing, 2021, 25(13): 8015-8033 doi: 10.1007/s00500-021-05835-w [16] Li X L, Han Q, Qiu B Z. A clustering algorithm using skewness-based boundary detection. Neurocomputing, 2018, 275: 618-626 doi: 10.1016/j.neucom.2017.09.023 [17] Yu H, Chen L Y, Yao J T. A three-way density peak clustering method based on evidence theory. Knowledge-Based Systems, 2021, 211: Article No. 106532 [18] Tong Q H, Li X, Yuan B. Efficient distributed clustering using boundary information. Neurocomputing, 2018, 275: 2355-2366 doi: 10.1016/j.neucom.2017.11.014 [19] Zhang S Z, You C, Vidal R, Li C G. Learning a self-expressive network for subspace clustering. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York, USA: IEEE, 2021. 12393−12403 [20] MacQueen J. Classification and analysis of multivariate observations. In: Proceedings of the 5th Berkeley Symp. Math. Statist. Probability. Berkeley, USA: University of California Press, 1967. 281−297 [21] Liu R, Wang H, Yu X M. Shared-nearest-neighbor-based clustering by fast search and find of density peaks. Information Sciences, 2018, 450: 200-226 doi: 10.1016/j.ins.2018.03.031 [22] Gong C Y, Su Z G, Wang P H, Wang Q. Cumulative belief peaks evidential K-nearest neighbor clustering. Knowledge-Based Systems, 2020, 200: Article No. 105982 [23] 邱保志, 张瑞霖, 李向丽. 基于残差分析的混合属性数据聚类算法. 自动化学报, 2020, 46(7): 1420-1432 doi: 10.16383/j.aas.2018.c180030QIU Bao-Zhi, ZHANG Rui-Lin, LI Xiang-Li. Clustering algorithm for mixed data based on residual analysis. Acta Automatica Sinica, 2020, 46(7): 1420-1432 doi: 10.16383/j.aas.2018.c180030 [24] Zhang R L, Miao Z G, Tian Y, Wang H P. A novel density peaks clustering algorithm based on Hopkins statistic. Expert Systems with Applications, 2022, 201: Article No. 116892 [25] Liu Y H, Ma Z M, Yu F. Adaptive density peak clustering based on K-nearest neighbors with aggregating strategy. Knowledge-Based Systems, 2017, 133: 208-220 doi: 10.1016/j.knosys.2017.07.010 [26] Abbas M, El-Zoghabi A, Shoukry A. DenMune: Density peak based clustering using mutual nearest neighbors. Pattern Recognition, 2021, 109: Article No. 107589 [27] Ren Y Z, Hu X H, Shi K, Yu G X, Yao D Z, Xu Z L. Semi-supervised denpeak clustering with pairwise constraints. In: Proceedings of Pacific Rim International Conference on Artificial Intelligence. Cham, Switzerland: Springer, 2018. 837−850 [28] Ren Y Z, Wang N, Li M X, Xu Z L. Deep density-based image clustering. Knowledge-Based Systems, 2020, 197: 105841 doi: 10.1016/j.knosys.2020.105841 [29] Gao T F, Chen D, Tang Y B, Du B, Ranjan R, Zomaya A Y. Adaptive density peaks clustering: Towards exploratory EEG analysis. Knowledge-Based Systems, 2022, 240: Article No. 108123 [30] Xu J, Wang G Y, Deng W H. DenPEHC: density peak based efficient hierarchical clustering. Information Sciences, 2016, 373: 200-218 doi: 10.1016/j.ins.2016.08.086 [31] Ren Y Z, Kamath U, Domeniconi C, Zhang G J. Boosted mean shift clustering. In: Proceedings of Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Berlin, German: Springer, 2014. 646−661 [32] Lotfi A, Moradi P, Beigy H. Density peaks clustering based on density backbone and fuzzy neighborhood. Pattern Recognition, 2020, 107: Article No. 107449 [33] Teng Q, Yong J L. Fast LDP-MST: An efficient density-peak-based clustering method for large-size datasets. IEEE Transactions on Knowledge and Data Engineering, DOI: 10.1109/TKDE.2022.3150403 [34] Brooks J K. Decomposition theorems for vector measures. Proceedings of the American Mathematical Society, 1969, 21(1): 27-29 doi: 10.1090/S0002-9939-1969-0237743-1 期刊类型引用(1)
1. 陈泓佑,陈帆,和红杰,蒋桐雨. 基于多任务对抗和抗噪对抗学习的人脸超分辨率算法. 模式识别与人工智能. 2022(10): 863-880 . 百度学术
其他类型引用(3)
-