2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于密度峰值的聚类集成

褚睿鸿 王红军 杨燕 李天瑞

张运超, 陈靖, 王涌天. 一种融合重力信息的快速海量图像检索方法. 自动化学报, 2016, 42(10): 1501-1511. doi: 10.16383/j.aas.2016.c150556
引用本文: 褚睿鸿, 王红军, 杨燕, 李天瑞. 基于密度峰值的聚类集成. 自动化学报, 2016, 42(9): 1401-1412. doi: 10.16383/j.aas.2016.c150864
ZHANG Yun-Chao, CHEN Jing, WANG Yong-Tian. Large-scale Image Retrieval Based on a Fusion of Gravity Aware Orientation Information. ACTA AUTOMATICA SINICA, 2016, 42(10): 1501-1511. doi: 10.16383/j.aas.2016.c150556
Citation: CHU Rui-Hong, WANG Hong-Jun, YANG Yan, LI Tian-Rui. Clustering Ensemble Based on Density Peaks. ACTA AUTOMATICA SINICA, 2016, 42(9): 1401-1412. doi: 10.16383/j.aas.2016.c150864

基于密度峰值的聚类集成

doi: 10.16383/j.aas.2016.c150864
基金项目: 

西南交通大学中央高校基本科研业务费专项基金 A0920502051515-12

教育部在线教育研究中心在线教育研究基金(全通教育) 2016YB158

国家自然科学基金 61262058

国家自然科学基金 61572407

国家科技支撑计划课题 2015BAH19F02

详细信息
    作者简介:

    褚睿鸿 西南交通大学信息科学与技术学院硕士研究生.2014年获得西南交通大学信息科学与技术学院学士学位.主要研究方向为集成学习, 数据挖掘.E-mail:rhchu@my.swjtu.edu.cn

    杨燕 西南交通大学信息科学与技术学院教授.2007年在西南交通大学获得博士学位.主要研究方向为数据挖掘, 集成学习, 云计算.E-mail:yyang@swjtu.edu.cn

    李天瑞 西南交通大学信息科学与技术学院教授.主要研究方向为大数据, 云计算, 粗糙集与粒计算.E-mail:trli@swjtu.edu.cn

    通讯作者:

    王红军 西南交通大学信息科学与技术学院副研究员.2009年获得四川大学计算机学院博士学位.主要研究方向为机器学习, 集成学习与数据挖掘.本文通信作者.E-mail:wanghongjun@swjtu.edu.cn

Clustering Ensemble Based on Density Peaks

Funds: 

Fundamental Research Funds for the Central Universities of Southwest Jiaotong University A0920502051515-12

Online Education Research Center of the Ministry of Education Online Education Research Fund (Full Education) 2016YB158

National Natural Science Foundation of China 61262058

National Natural Science Foundation of China 61572407

National Science and Technology Support Program 2015BAH19F02

More Information
    Author Bio:

    Master student at the School of Information Science and Technology, Southwest Jiaotong University. She received her bachelor degree from Southwest Jiaotong University in 2014. Her research interest covers ensemble learning and data mining. E-mail:

    Professor at the School of Information Science and Technology, Southwest Jiaotong University. She received her Ph.D. degree from Southwest Jiaotong University in 2007. Her research interest covers data mining, ensemble learning and cloud computing. E-mail:

    quad Professor at the School of Information Science and Technology, Southwest Jiaotong University. His research interest covers big data, cloud computing, rough set and granular computing. E-mail:

    Corresponding author: WANG Hong-Jun Associate professor at the School of Information Science and Technology, Southwest Jiaotong University. He received his Ph.D. degree from Sichuan University in 2009. His research interest covers machine learning, ensemble learning and data mining. Corresponding author of this paper. E-mail:wanghongjun@swjtu.edu.cn
  • 摘要: 聚类集成的目的是为了提高聚类结果的准确性、稳定性和鲁棒性.通过集成多个基聚类结果可以产生一个较优的结果.本文提出了一个基于密度峰值的聚类集成模型,主要完成三个方面的工作: 1)在研究已有的各聚类集成算法和模型后发现各基聚类结果可以用密度表示; 2)使用改进的最大信息系数(Rapid computation of the maximal information coefficient,RapidMic)表示各基聚类结果之间的相关性,使用这种相关性来衡量原始数据在经过基聚类器聚类后相互之间的密度关系; 3)改进密度峰值(Density peaks,DP)算法进行聚类集成.最后,使用一些标准数据集对所设计的模型进行评估.实验结果表明,相比经典的聚类集成模型,本文提出的模型聚类集成效果更佳.
  • 近年来, 互联网数据呈现爆炸式增长, 特别是每年新增的图像数据以指数级发展, 如何从海量图像数据中快速检索出目标图像成为重要的研究课题.经典的海量图像检索技术主要包含两部分:高效的图像编码技术以及快速的最近邻搜索技术.目前, 国内外众多研究机构已经在海量图像检索相关领域取得了很多重要成果.

    高效的编码方式:面对海量的图像数据, 视觉编码算法精度与效率的均衡是评价其性能的重要指标.词袋模型[1] (Bag of words, BOW)、Fisher向量[2] (Fisher vector, FV)、稀疏编码[3] (Sparse coding, SC)以及局部集聚向量描述[4] (Vector of locally aggregated descriptors, VLAD)等视觉编码框架的提出旨在解决海量图像检索过程中精度与效率均衡的问题.上述算法框架可用于百万量级规模的图像检索, 其中VLAD编码算法通过计算特征描述符与视觉单词的残差来表征图像, 具有良好的检索精度及速度, 特别适用于快速的海量图像检索应用.本文主要结合VLAD编码算法框架进行大规模海量图像检索.

    然而, 传统的VLAD编码算法通过图像特征描述符空间的相似性计算图像相似度, 忽略了图像整体特征在几何空间的相关特性.虽然文献[5-6]提出了几何全校验重排算法, 利用了查询样本与候选样本的空间位置约束信息进行重排, 但算法较为耗时, 只能作用于少量检索结果.然而, 对于海量图像数据, 相关图像可能并不在少量检索结果中, 该几何重排算法精度难以满足要求.弱几何一致性校验[7] (Weak geometry consistency, WGC)的提出解决了几何重排校验无法适用于海量图像的问题, 该算法依据图像整体尺度及角度变化一致的假定筛选特征点, 通过直方图统计加速计算, 实现快速的几何重排.除上述几何重排序的研究工作外, 研究人员也展开对图像编码阶段融合几何信息的研究.文献[8]中, 作者沿用WGC几何变化一致的假定, 提出在特征集聚阶段按照特征角度划分分区, 特征点分区集聚的方法协变局部集聚向量描述符(Covariant vector of locally aggregated descriptors, CVLAD).然而由于图像存在旋转变化, 该算法需要通过穷举法估算查询图像与训练图像的旋转变化, 进而找到不同图像角度分区的对应关系, 算法较为耗时.文献[9]采用单项嵌入方式在特征集聚阶段将特征角度信息融入到图像整体表征中, 并以匹配核的形式重新解释了角度信息对于图像特征匹配的意义.文献[10]利用图像特征角度聚类的思想统一旋转图像的矢量表征, 并采用极坐标对特征角度进行参数化表征, 从而避免CVLAD中角度对应关系的穷举搜索计算.然而上述重排序、特征集聚阶段结合几何信息的工作, 仍然采用传统的K均值聚类算法训练视觉词典, 并未考虑几何信息对视觉词典的影响.因此, 特征编码阶段孤立了特征描述符与特征几何信息的关联性, 也即几何信息没有影响特征编码方式.

    除特征点的几何信息外, 移动硬件传感器数据的融合是近年来海量图像检索领域研究的另一热点.文献[11]提出利用移动设备内置重力传感器信息构建重力对齐的特征描述符(Gravity aligned feature descriptors, GAFD). GAFD算法利用重力方向作为特征点主方向, 节约特征主方向计算时间, 同时提升相似结构特征的匹配性能.文献[12]中作者将GAFD算法用于VLAD编码框架, 其检索精度以及效率有明显提升.然而GAFD是以忽略特征原始梯度主方向为代价换取检索速度以及检索精度的少量提升.特征点梯度主方向对于海量图像检索也具有重要意义.

    快速的最近邻检索:海量图像检索中, 为提高检索效率, 通常采用主成分分析(Principle component analysis, PCA)降低图像表达向量维度[13].然而单纯依靠PCA降维仍不能满足百万量级图像检索对于速度的需求.近年来, 国内外研究人员相继展开对海量图像最近邻搜索问题的研究.

    当前, 主流的最近邻搜索分为两类.一类是线性搜索算法, 算法需要逐次计算查询向量到数据库中每个向量的距离.代表算法是局部敏感哈希(Locality sensitive hashing, LSH)[14], 将向量进行二值编码, 计算向量投影后的汉明距离. LSH主要依据是相似向量在哈希映射后仍以较高概率保持相似.随后, 一些改进算法如谱哈希(Spectral hashing, SH)[15]等算法优化了哈希函数, 谱哈希通过设计高效的特征向量图划分方法实现特征点的最佳哈希编码.另外文献[16]则利用最新的深度学习方法学习紧凑的哈希函数.相比LSH, 该类算法主要利用了样本的分布信息.另一类最近邻搜索算法是非线性搜索方法, 算法无需遍历数据库中的所有向量.该类算法的典型代表有K叉树(K-dimensional tree, K-D tree)[17]以及快速近似最近邻库(Fast library for approximate nearest neighbors, FLANN)[18].

    乘积量化(Product quantization, PQ)[19]是近期提出的一种线性最近邻搜索算法.与LSH等二值编码方法不同, 该算法计算的是向量原始空间的L2距离, 通过对空间的分解优化量化精度, 成为当前海量图像检索中一种有效的压缩方式, 它常用于对图像表达向量PCA降维之后.乘积量化的目标函数可表示为

    $ \begin{array}{l} {\rm{min}}\sum\limits_x {{{\left\| {\boldsymbol{x} - c\left( {i\left( \boldsymbol{x} \right)} \right)} \right\|}^2}} \\ {\rm{s}}.{\rm{t}}.c \in C = {C^1} \times \cdots \times {C^B} \end{array} $

    (1)

    查询向量x的最近邻码字cB个较低维度的子码书分解构成.该方法能够产生大量有效码书并节约内存, 通过子码书量化器的引入能够加速最近邻搜索.然而由于PCA算法自身的问题, 造成奇异值较大的主成分集中于向量的前几维, PQ顺序均匀的子空间划分方法会导致子空间量化误差的不均衡, 显著影响检索精度.文献[20]提出的优化乘积量化(Optimized product quantization, OPQ)算法在一定程度上解决了奇异值分布不均的问题, 但该算法需要引入额外的正交投影矩阵.考虑到上述文献中出现的问题, 兼顾海量图像检索算法的性能与效率.本文设计了一种在特征编码及最近邻查询阶段融合重力信息的海量图像检索算法, 与传统VLAD编码算法相比, 本文主要贡献如下: 1)提出一种融合重力信息的角度编码方法来训练视觉词典, 充分利用相似图像的匹配特征在几何空间以及描述符空间的相关性. 2)提出一种基于角度信息的乘积量化方法用于最近邻检索, 将特征角度分区与乘积量化子分区相结合, 解决传统乘积量化方法中子空间量化误差不均衡的问题. 3)构建了一个包含GPS以及重力信息标注的北京地标建筑(Beijing landmark)数据库, 该数据库可作为后续移动视觉检索工作的基准数据库.本文第1节简单描述了融合重力信息的海量图像检索框架; 第2节介绍了在VLAD编码框架中融合重力信息的角度编码(Oriented coding)方法; 第3节提出基于角度乘积量化(Oriented coding)的最近邻检索并给出具体工作流程; 第4节对文中提出的算法进行实验分析; 最后, 总结全文并提出下一步工作计划.

    融合重力信息的海量图像检索框架如图 1所示, 离线阶段, 数据库图像根据重力信息以及特征角度信息进行分区VLAD量化并在每个子分区构建乘积量化子码书;在线查询阶段, 分区量化后的查询子向量与数据库子向量通过非对称计算得到两者的相似度度量, 具体流程如下:

    图 1  融合重力信息和特征角度信息的海量图像检索框架
    Fig. 1  The framework of large-scale image retrieval based on a fusion of gravity aware orientation information

    离线阶段:

    1)角度编码:数据库图像根据重力信息以及特征角度进行特征分区;

    2) VLAD量化qc:对训练图像角度子分区进行码书映射及残差计算;

    3)角度乘积量化qp:各角度分区VLAD子向量进行PCA降维以及子码书量化.

    在线阶段:

    1)角度编码:查询图像x根据重力信息以及特征角度进行特征分区;

    2) VLAD量化qc:对查询图像角度子分区进行码书映射及残差计算;

    3) PCA降维:各角度分区VLAD子向量降至同数据库图像相同维度;

    4)非对称计算:计算查询子向量到训练图像子向量对应子码书中心的距离:

    $ \sum\limits_{i = 1}^{i = B} {d\left( {{q_{ci}}\left( \boldsymbol{x} \right),{q_{pi}}\left( {{q_{ci}}\left( {{\boldsymbol{y}_i}} \right)} \right)} \right)} $

    (2)

    5)选择K近邻结果进行真实欧氏距离重排序, 排序后的结果即为检索结果.

    本文基于文献[7-10]的工作基础之上, 将几何信息用于视觉词典的训练, 在特征编码阶段, 经重力旋转后具有相似角度的特征点被分区量化, 获得的图像向量表达融合了特征点的描述符以及角度两方面信息.角度乘积量化算法对每个角度子分区进行单独编码量化, 通过查询子向量与角度分区子码书的非对称计算取代查询向量与数据库向量的直接距离计算, 在保证查询精度的前提下大大降低了计算量.

    假定图像I提取n个尺度不变特征变换算法(Scale invariant feature transfarm, SIFT)[5]或者SURF (Speeded up robust features)[21]特征I={t1, t2, · · ·, tn}, 每个特征包含描述符Des、特征角度β以及尺度信息s, 即ti=(Des, β, s). BOW、VLAD等传统图像编码算法假定落在同一视觉单词上描述符相似的特征即为匹配特征:

    $ \begin{array}{l} {\rm{if}}\left\| {De{s_1} - De{s_2}} \right\| < d\\ {\rm{then}}\;{t_1}\;{\rm{and}}\;{t_2}\;{\rm{are}}\;{\rm{matched}} \end{array} $

    (3)

    该假定忽略了每个特征点的上下文几何信息, 因此并不是一个充分条件.

    文献[7]指出, 图像整体的主方向旋转以及特征尺度缩放是一致的, 即相似图像的匹配特征角度变化β1 -β2β以及尺度缩放s1/s2s是定值, 它们满足数学上的线性相关性, 角度以及尺度等几何信息的利用有助于提高图像匹配性能.将几何信息用于BOW、FV、VLAD以及SC等传统图像编码框架, 匹配特征同时满足描述符的相似性以及几何信息的线性相关性, 增加了特征编码的准确性.

    $ \begin{array}{l} {\rm{if}}\left\| {De{s_1} - De{s_2}} \right\| < d\\ {\beta _1} - {\beta _2}{\rm{ = }}\Delta \beta \;{\rm{and}}\;\frac{{{s_1}}}{{{s_2}}} = \Delta s\\ {\rm{then}}\;{t_1}\;{\rm{and}}\;{t_2}\;{\rm{are}}\;{\rm{matched}} \end{array} $

    (4)

    重力传感器已成为当前移动智能硬件的标配, 重力传感器能够记录相机姿态的旋转.由于图像旋转变化的整体性, 特征点主方向的旋转变化Δβ也能够通过重力传感器测得[22].因此, 在词典训练过程中可以充分利用匹配特征主方向的线性相关性.

    在本节中, 我们提出一种融合重力信息的角度编码方法(Oriented coding)来训练具有几何信息的视觉词典, 并将其应用于VLAD检索框架中.

    本节主要介绍融合重力信息的角度编码(Oriented coding)算法, 该方法由重力自适应的特征主方向计算以及角度量化两部分构成.

    1)重力自适应的特征主方向

    图 2反映了在拍摄地标建筑过程中可能发生的相机旋转.地标建筑垂直方向始终与重力方向平行, 因此可以通过图像坐标系中重力方向的变化估算地标建筑的旋转.图 2 (a)中重力方向垂直向下, 设此为基准位置, 图 2 (b)中重力方向相较于图像坐标轴的旋转角度θ可由重力传感器信息Gi测得, 需要特别注意的是图像坐标系与重力坐标系三轴相平行, 但其X轴与Y轴坐标刚相反, 即重力Y轴为图像坐标X轴.

    图 2  不同拍摄角度的地标建筑及对应重力信息
    Fig. 2  The landmark building with different viewing angles and corresponding gravity information

    图 2 (b)中重力传感器信息为Gi=[gx(i), gy(i), gz(i)], 则此时地标建筑旋转角度:

    $ \theta {\rm{ = }}\left\{ \begin{array}{l} \frac{{gy\left( i \right)}}{{\left| {gy\left( i \right)} \right|}} \times \frac{\pi }{2} - \arctan \frac{{gx\left( i \right)}}{{gy\left( i \right)}},\;\;\;\;gy\left( i \right) \ne 0\\ \frac{\pi }{2} - \frac{{gx\left( i \right)}}{{\left| {gx\left( i \right)} \right|}} \times \frac{\pi }{2},\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;gy\left( i \right) = 0 \end{array} \right. $

    (5)

    将地标建筑旋转θ, 即旋转至与图像坐标轴平行位置, 所得图像同图 2 (a)相似.由于图像特征旋转的整体性, 则特征主方向β的旋转为β + θ.经重力信息旋转后, 两张图像对应的匹配特征(t1, t2)角度之间的相互关系可以表示为

    $ \beta \left( {{t_1}} \right) + \theta \left( {{t_1}} \right) = \beta \left( {{t_2}} \right) + \theta \left( {{t_2}} \right) $

    (6)

    θ(t1)与θ(t2)分别是(t1, t2)所在图像的重力方向旋转角度.如果不考虑重力计算旋转角的误差, 则重力旋转后相似图像匹配特征具有相同的主方向.

    2)角度量化考虑到重力传感器精度以及匹配特征的角度计算误差, 本文将旋转后的主方向映射至B个分区, 并建立特征描述符到角度分区的分区索引, O是映射后的分区索引:

    $ O = \left\lfloor {B \times \frac{{\beta + \theta }}{{2{\rm{\pi }}}}} \right\rfloor ,\;\;\;\beta \in \left[ {0,2{\rm{\pi }}} \right) $

    (7)

    通过角度分区映射, 在特征编码阶段, 角度相关的特征点落入相同分区中.如图 3所示, 经过重力信息旋转后, 相似图像的主方向角度分布直方图具有高度相似性.本文在编码过程中综合利用了匹配特征描述符的相似性以及特征主方向的相关性, 训练的视觉词典在几何空间以及描述符空间具有双重区分力.

    图 3  相似图像的主方向角度分布直方图
    Fig. 3  The histogram of angle distribution on similar images

    相比较CVLAD等算法将角度信息用在特征集聚阶段, 文中提出的算法在保持相同维度情况下将角度信息融入到视觉单词中, 增加了视觉单词的区分度, 本文将在后续实验中验证该算法有效性.

    下面将上节提出的Oriented coding方法应用于VLAD检索算法框架中.不失一般性, 本文以文献[4]提出的VLAD算法为例介绍编码过程, 这里没有采用软量化策略[23], 因此编码主要包含两部分:角度编码OC(t)=j, j=1, · · ·, B以及最近邻视觉单词查找NN(t, Cj)=cj, k, k=1, · · ·, K.其中t为输入特征, B, K分别为角度分区数及视觉单词数, Cj代表主方向映射为第j角度分区的视觉词典, cj, kCj中第k视觉单词. xj, k是落在视觉单词cj, k上的所有特征的集聚残差向量和, 也即为图像向量表达x的第j角度分区中第k子向量:

    $ \begin{array}{l} {\boldsymbol{x}_{j,k}} = \sum {\left( {t - {c_{j,k}}} \right)} \\ {\rm{s}}{\rm{.t}}{\rm{.}}t \in \left\{ {\left. t \right|OC\left( t \right) = j \cap NN\left( {t,{\boldsymbol{C}_j}} \right) = {c_{j,k}}} \right\} \end{array} $

    (8)

    通过在特征编码过程中融合特征几何信息, 算法充分利用了匹配特征在描述符以及几何空间的相关性, 并且有助于消除Burstiness[24]现象带来的负面影响.

    图像向量表达维度与海量图像检索速度直接相关.海量图像在线检索时间主要消耗在特征编码以及最近邻检索阶段.假定数据库包含N张图像, 特征描述维度为d, VLAD编码视觉单词个数为K, 角度分区数为B, 则VLAD、CVLAD以及本文提出的Oriented coding算法特征编码时间几乎相同, 而最近邻检索时间分别为O(N × K × d)、O(N × B × B × K × d)以及O(N × B × K × d).

    海量图像检索中, 图像数目N可达百万量级以上, 即使通过PCA将图像整体表征矢量降至D维, 最近邻检索时间复杂度由O(N × B × K × d)降至O(N × D), 速度也通常难以满足快速查询的需求.因此, 本文在传统PCA降维基础上提出基于角度分区的乘积量化方法对检索向量进一步压缩.首先, 通过角度编码算法将图像向量表达分解成若干个子分区, 将每个子分区进行PCA降维; 然后, 在每个分解子分区上进行K均值聚类生成子码书量化器, 构建角度乘积量化方法.该方法采用角度子分区作为乘积量化子分区, 在不额外引入投影矩阵的情况下解决了特征值分布不均的问题.

    假定数据库向量yi=[yi, 1, · · ·, yi, B]由B个角度子分区构成, 其中i=1, · · ·, N, N为数据库图像数目, x=[x1, · · ·, xB]为查询向量.

    离线数据库构建阶段, 首先对角度子分区进行PCA降维:

    $ {\boldsymbol{y}_{i,j}} = {P_j}{\boldsymbol{y}_{i,j}},\;\;\;\;j = 1, \cdots ,B $

    (9)

    然后对降维后的子分区分别进行K均值聚类, 构建B个子分区码书Cpj, j=1, · · ·, B.每个子分区码书包含k*个视觉单词Cpj=[cpj1, · · ·, cpjk*], 总共B × k*个子码书, 分区子码书之间采用笛卡尔积形式组合, 构成(k*)B个大码书.最后对数据库向量进行分区编码, qpj为第j分区量化器, 量化结果为子码书中心索引标号:

    $ \begin{array}{l} {q_p}\left( {{\boldsymbol{y}_i}} \right) = \left[ {{q_{p1}}\left( {{\boldsymbol{y}_{i,1}}} \right), \cdots ,{q_{pB}}\left( {{\boldsymbol{y}_{i,B}}} \right)} \right]\\ {q_{pj}}\left( {{\boldsymbol{y}_{i,j}}} \right) = k\\ {\rm{s}}{\rm{.t}}{\rm{.}}j = 1, \cdots ,B,\;\;\;\;\;k = 1, \cdots ,k* \end{array} $

    (10)

    在线查询阶段, 首先将查询子向量进行PCA降维, 并计算与所在子分区每个码书中心的欧氏距离, 生成B × k*查找表:

    $ \begin{array}{l} d\left( {{x_j},{\boldsymbol{C}_{pj}}} \right) = \left[ {d\left( {{x_j},c_{pj}^1} \right), \cdots ,d\left( {{x_j},c_{pj}^{k*}} \right)} \right]\\ d\left( {{x_j},c_{pj}^k} \right) = \left\| {{x_j} - c_{pj}^k} \right\|_2^2\\ {\rm{s}}{\rm{.t}}{\rm{.}}j = 1, \cdots ,B,\;\;\;\;\;k = 1, \cdots ,k* \end{array} $

    (11)

    然后针对每一数据库向量, 根据离线存储的子码书中心映射索引标号qpj(yi, j)在B × k*查找表中寻找非对称距离:

    $ d\left( {{x_j},{y_{i,j}}} \right) = d\left( {{x_j},C_{pj}^{{q_{pj}}\left( {{y_{i,j}}} \right)}} \right) $

    (12)

    其中, cpjqpj(yi, j)代表第j分区第qpj(yi, j)个码书中心.则查询向量x与数据库向量yi的距离为所有子分区的非对称距离和:

    $ d\left( {x,{y_i}} \right) = \sum\limits_{j = 1}^{j = B} {d\left( {{x_j},{y_{i,j}}} \right)} $

    (12)

    根据非对称计算返回Top K的最近邻距离并进行欧氏距离重排, 最后输出结果即为检索结果.

    算法流程如下:

    算法1.角度乘积量化

    输入.数据库向量以及查询向量.

    输出.查询向量的K最近邻.

    步骤1. PCA降维后的数据库向量子分区分别进行K均值聚类构建子分区码书, 并进行分区编码;

    步骤2.查询子向量PCA降维, 并依次计算与子分区码书中心的距离, 形成B × k*查找表;

    步骤3.通过查找表以及数据库子向量的码书映射情况计算非对称距离;

    步骤4.返回Top K的最近邻距离进行欧氏距离重排.

    若PCA降维后图像整体表征矢量为D维, 则其线性搜索时间复杂度为O(N × D), 而文中提出的角度乘积量化算法的时间复杂度为O(N × B + k* × D), 其中k*为子分区量化器大小, 一般k* « N, 因此角度乘积量化算法大大降低了图像在线查询时间.

    为验证文中提出的Oriented coding方法以及Oriented PQ方法, 本文在自己构建的北京地标建筑(Beijing landmark)图像数据库、Holidays数据库[4]以及SUN397数据库[25]中进行测试. Beijing landmark由课题组使用智能手机在北京周边搜集构建.图像采用自己编写的Android平台拍照应用程序搜集, 在拍照的同时记录GPS以及重力传感器信息.该图像数据库总共包含4 000张地标图像, 每5张图像为一个地标建筑, 分别包含尺度、视角以及旋转等不同变化.数据库中的部分图片如图 4所示. Beijing landmark提供公开下载, 可供后续测试研究(http://pan.baidu.com/s/1c04gdlI).由于每个场景图像数目相同, 本文选择与Zurich以及UKB等标准图像库相类似的评价标准, 取检索到前5张图像中相关图像数目的平均值作为图像检索精度的评价标准, 即为Recall@Top5. Holidays数据库[4]包含1 491张数据库图像以及500张查询图片.本文将图像降采样至最大786 432像素, 采用mAP作为衡量检索精度的标准.考虑到无法获取Holidays数据库的重力信息, 与文献[10]相类似, 本文实验将Holidays数据库图像做人工旋转校正. SUN397包含130 519张各类建筑图像, 本文随机选择其中96 000张图像赋以随机重力信息作为干扰图像, 同Beijing landmark相混合成100 KB大小数据库, 作为海量检索图像数据库.

    图 4  重力信息标注的北京地标建筑数据库
    Fig. 4  Beijing landmarks of gravity information tagging database

    本文实验主要测试文中提出的融合重力信息的Oriented coding方法以及Oriented PQ方法对于海量图像检索性能的影响.考虑到移动端的计算性能以及快速查询要求, 文中采用d=64维SURF特征作为主要特征提取算法, K均值聚类方法作为描述符聚类的主要方法.其中K均值聚类的聚类中心个数设定为K, 特征点进行角度映射的分区数目设置为B.文中将在第4.3节重点讨论这些参数对于检索性能的影响.

    本节主要测试融合重力信息的Oriented coding方法对于海量图像检索精度的影响, 并与VLAD算法[4], 改进的VLAD+算法[26]以及CVLAD[8]进行性能对比.测试数据库为Beijing landmark数据库以及Holidays数据库.

    图 5所示为Beijing landmark数据库下VLAD、VLAD+、CVLAD以及Oriented coding方法检索精度对比.可以看出, 在角度分区B=4, 6, 8的情况下, 文中提出的Oriented coding方法均比VLAD、VLAD+以及CVLAD有较大的精度提升.其中CVLAD检索精度随分区数目增长而提高, 这是由于随着角度分区数目的增加, CVLAD的穷举搜索算法能够更准确地预估图像旋转变化, 因此其检索精度随之提高.但是, 这同样带来了内存以及速度的牺牲.

    图 5  不同编码方法检索精度对比
    Fig. 5  Comparison of retrieval accuracy with different coding method

    与CVLAD不同, 图 5中Oriented coding方法检索精度B=6 > 8 > 4, 图 6具体给出K=16情况下Oriented coding方法随角度分区数目B变化的检索精度变化曲线, 其中B=1代表不分区, 即传统VLAD方法.可以看出, Oriented coding方法在分区数目达到B=6后, 检索精度开始有所下降, 这是由于本文采用重力传感器XY轴计算图像旋转角度, 对图像拍摄时俯仰变化比较敏感.过细角度分区划分会影响到俯仰角较大拍摄图像的特征角度分区, 容易出现错分现象, 导致检索精度下降.因此后续实验中, 无特别说明, 角度分区数目主要设置为B=6进行实验.

    图 6  Oriented coding检索精度与分区数目关系
    Fig. 6  The relationship of oriented coding retrieval accuracy and partition number

    考虑到本文Oriented coding方法相比VLAD、VLAD+以及CVLAD多利用了图像的重力信息, 为公平对比, 本文将重力信息赋予CVLAD算法, 即假定CVLAD也通过重力获取旋转角, 将特征角度用于特征集聚阶段, 无需穷举搜索计算图像旋转角度.本文将CVLAD的重力版本定义为gCVLAD. Oriented coding与gCVLAD方法对比结果如图 7.可以看出本文的方法在相同角度分区数目情况下均优于gCVLAD方法, gCVLAD与Oriented coding相同的是, B=6检索精度最高.

    图 7  Oriented coding与重力版本CVLAD方法检索精度对比
    Fig. 7  Comparison of retrieval accuracy with oriented coding and gCVLAD

    由于重力信息存在计算误差, 下面分别在Rotated Holidays数据库以及原始Holidays数据库中进行对比测试, 这里仅考虑角度编码影响, 剔除重力信息影响.实验中码书大小设置为变化的K, CVLAD以及Oriented coding中角度分区数目B=6.在Rotated Holidays数据库测试中, 由于校正数据库中相似图像匹配特征主方向相同, CVLAD方法无需穷举搜索图像主方向变化.

    表 1所示为Holidays数据库下各方法检索精度对比.可以看出, CVLAD以及Oriented coding方法在校正图像数据库下均具有良好的检索结果, 其中本文提出的Oriented coding方法优于CVLAD, 而VLAD以及VLAD+提升不大, 这验证了正确的角度编码对于检索精度提升的效果.同时, CVLAD和Oriented coding相比无几何信息的VLAD和VLAD+, 随着码书大小K的增加, 检索精度的提升相对较小.

    表 1  Holidays数据库检索精度(mAP)
    Table 1  The retrieval accuracy of Holidays dataset (mAP)
    码书大小 K=8 K=16 K=32 K=64
    Holidays Rotated Holidays Rotated Holidays Rotated Holidays Rotated
    VLAD 0.512 0.515 0.534 0.542 0.551 0.559 0.579 0.587
    VLAD+ 0.560 0.564 0.581 0.586 0.597 0.605 0.613 0.622
    CVLAD 0.658 0.687 0.663 0.694 0.683 0.709 0.697 0.719
    Oriented coding \ 0.709 \ 0.716 \ 0.728 \ 0.736
    下载: 导出CSV 
    | 显示表格

    在时间消耗方面, CVLAD采用穷举遍历法计算图像的旋转, 时间代价为O(N × B × B × K × d).而本文的融合重力信息的Oriented coding方法仅需O(N × B × K × d)时间复杂度, 在B=6的情况下时间节约接近80 %.

    为保证算法性能对比的公平性, 本实验在VLAD、VLAD+、CVLAD以及本文提出的Oriented coding等方法编码后采用PCA降低到相同维度, 然后进行检索精度对比.假定上述编码算法采用的特征描述维度为d, 编码视觉单词个数为K, 角度分区数为B, 则VLAD以及VLAD+图像表达向量维度为K×d, CVLAD以及文中提出的Oriented coding向量维度为B × K × d.本实验对上述编码方法通过PCA将维度降低至同一维度, 比较其检索精度.图 8为分区数目B=6, 词典数目K=16情况下各算法的检索精度比较.实验结果表明, 文中提出的结合重力以及几何信息的Oriented coding编码算法在相同维度下有较大精度优势.而CVLAD在相同维度下相比VLAD+并没有明显的精度优势.另外上述检索算法随着维度增加到一定程度, 检索精度并未继续增长, 甚至部分情况下会发生精度下降的情况.

    图 8  PCA降维后Oriented coding检索算法精度
    Fig. 8  The retrieval accuracy of oriented coding after PCA

    本节主要测试文中提出的Oriented coding最近邻搜索算法的性能, 并将Oriented PQ与Oriented coding相结合, 应用于海量图像检索中.测试数据库由SUN397与Beijing landmark混合构成, 数据库大小为100 KB. PCA降维后图像向量表达维度D=128, 乘积量化子分区数B=8, 子分区聚类词典数目k*=256.

    图 9所示, 文中提出的Oriented PQ方法相比传统的PQ能够提升一定的检索精度, 在100 KB数据库中, 检索精度提升3 %以上, 并且检索精度更加接近直接线性查找算法, 误差在1 %以内.

    图 9  海量图像最近邻检索方法精度对比
    Fig. 9  Comparison of retrieval accuracy with different ANN methods

    表 2所示为海量检索过程中的时间开销.从表 2可见, PQ方法相比PCA降维有较大的检索速度提升.但在较小的10 KB数据库中, 由于子分区中心距离的计算将消耗一定时间O(k* × D), PQ速度提升并不明显.而子分区距离中心计算时间不随图像数目发生变化, 在100 KB数据库中, 影响检索速度的主要因素是特征维度以及图片数目, 此时O(N × B + k* × D) < O(N × D), 随着图片数目的递增, 文中提出的检索算法时间消耗接近于PCA降维的B/D.由于影响PQ速度的关键因素子分区数目相同, 文中提出的Oriented PQ方法与PQ有较为接近的检索速度.

    表 2  海量检索时间消耗(ms)
    Table 2  Time consuming of image retrieval (ms)
    数据库大小 10 KB 100 KB
    PCA 62.1 671.3
    PQ 22.7 104.2
    Oriented PQ 24.3 108.5
    下载: 导出CSV 
    | 显示表格

    稀疏编码是另外一种比较主流的图像检索算法[27-29], 其检索精度与VLAD算法相当, 因此, 本实验测试Oriented coding算法与稀疏编码框架结合的检索精度, 实验结果如图 10所示, 其中“B bins SC with max pooling”代表角度分区数目为B的稀疏编码方法, 每个分区取稀疏系数的最大值, B=1时即为传统的稀疏编码方法.实验结果表明, Oriented coding方法应用于稀疏编码同样能够提升检索精度.然而稀疏编码特征编码阶段较为耗时, 当前还无法应用于实时性要求较高的移动视觉检索系统.

    图 10  基于稀疏编码框架的Oriented coding方法检索精度
    Fig. 10  The retrieval accuracy of oriented coding based on sparse coding framework

    本文研究了海量图像检索过程中利用重力传感器以及特征点角度信息的问题, 提出了一种融合重力信息的Oriented coding以及Oriented PQ快速检索算法.本文搜集了GPS以及重力信息标注的Beijing landmark图像数据库, 可用于后续算法研究.文中提出的融合重力信息的Oriented coding算法综合利用了匹配特征在描述符空间以及几何空间的相关性, Oriented PQ算法在100 KB图像检索中保持较高的检索速度及精度.同时本文提出的Oriented coding算法还存在一些问题, 例如不同角度之间视觉单词的相关性如何消除, 特征尺度信息如何利用, 这些问题的研究有助于进一步降低图像表达向量维度, 本文会在后续研究中继续深入探索这些问题.

  • 图  1  基于基聚类结果获取原始数据二维关系映射图的过程

    Fig.  1  The process of obtaining the two-dimensional relational mapping of original dataset based on clustering results

    图  2  原始数据的基聚类结果的二维关系映射

    Fig.  2  The two-dimensional relational mapping of the base clustering results of original dataset

    图  3  基于改进的DP算法的聚类集成过程

    Fig.  3  The process of cluster ensembling based on improved DP algorithm

    表  1  实验数据集的样本、属性和类别数量

    Table  1  The number of instances, features and classes of datasets

    IDDatasetsNumber of instancesNumber of featuresNumber of classes
    1Aerosol9058923
    2Amber8808923
    3Ambulances9308923
    4Aquarium9228923
    5Balloon8308923
    6Banner8608923
    7Baobab9008923
    8Basket8928923
    9Bateau9008923
    10Bathroom9248923
    11Bed8888923
    12Beret8768923
    13Beverage8738923
    14Bicycle8448923
    15Birthdaycake9328923
    16Blog9438923
    17Blood8668923
    18Boat8578923
    19Bonbon8748923
    20Bonsai8678923
    下载: 导出CSV

    表  2  平均准确率和标准差(每个数据集的最大准确率加粗显示.)

    Table  2  Average MPs and standard deviations (The highest MP among different algorithms on each dataset is bolded.)

    ID AP-average AP-max CSPA HGPA MCLA DP EM QMI K-means
    1 0.022±0.015 0.113±0.072 0.379±0.020 0.384±0.003 0.395±0.020 0.484±0.019 0.354±0.004 0.466±0.053 0.369±0.008
    2 0.023±0.016 0.111±0.054 0.472±0.045 0.502±0.020 0.493±0.004 0.571±0.001 0.387±0.025 0.526±0.050 0.595±0.008
    3 0.026±0.016 0.119±0.056 0.392±0.026 0.394±0.021 0.384±0.008 0.596±0.041 0.370±0.022 0.497±0.019 0.442±0.029
    4 0.021±0.013 0.095±0.040 0.401±0.013 0.394±0.027 0.381±0.026 0.653±0.042 0.353±0.011 0.580±0.057 0.361±0.006
    5 0.026±0.020 0.161±0.118 0.410±0.037 0.468±0.017 0.393±0.009 0.554±0.010 0.358±0.032 0.541±0.035 0.445±0.004
    6 0.027±0.017 0.124±0.058 0.346±0.002 0.365±0.010 0.346±0.004 0.805±0.158 0.358±0.004 0.791±0.112 0.462±0.001
    7 0.018±0.015 0.108±0.098 0.432±0.026 0.474±0.008 0.427±0.017 0.534±0.068 0.389±0.050 0.482±0.024 0.503±0.004
    8 0.022±0.017 0.133±0.099 0.362±0.018 0.394±0.020 0.394±0.008 0.538±0.025 0.357±0.023 0.483±0.049 0.409±0.000
    9 0.028±0.018 0.135±0.066 0.401±0.020 0.445±0.039 0.423±0.023 0.511±0.050 0.367±0.017 0.510±0.020 0.441±0.003
    10 0.019±0.012 0.088±0.045 0.351±0.014 0.369±0.001 0.361±0.014 0.756±0.059 0.355±0.011 0.662±0.031 0.394±0.001
    11 0.035±0.021 0.173±0.045 0.371±0.002 0.401±0.025 0.382±0.024 0.617±0.046 0.347±0.006 0.542±0.029 0.459±0.004
    12 0.020±0.012 0.101±0.048 0.368±0.005 0.372±0.018 0.373±0.017 0.629±0.015 0.354±0.007 0.575±0.094 0.417±0.009
    13 0.031±0.023 0.173±0.101 0.419±0.014 0.425±0.019 0.400±0.013 0.531±0.027 0.353±0.004 0.511±0.015 0.396±0.000
    14 0.020±0.015 0.113±0.089 0.410±0.020 0.412±0.025 0.407±0.006 0.522±0.017 0.357±0.008 0.478±0.028 0.452±0.008
    15 0.017±0.013 0.092±0.063 0.392±0.044 0.446±0.032 0.450±0.014 0.576±0.008 0.372±0.005 0.563±0.042 0.491±0.001
    16 0.023±0.015 0.119±0.056 0.347±0.005 0.383±0.010 0.369±0.006 0.685±0.069 0.357±0.003 0.627±0.077 0.411±0.001
    17 0.018±0.011 0.088±0.025 0.349±0.011 0.352±0.013 0.375±0.003 0.776±0.059 0.354±0.017 0.687±0.095 0.473±0.004
    18 0.022±0.014 0.106±0.052 0.388±0.007 0.368±0.020 0.377±0.012 0.587±0.038 0.354±0.008 0.537±0.025 0.404±0.001
    19 0.016±0.011 0.090±0.049 0.397±0.022 0.411±0.019 0.402±0.012 0.508±0.012 0.357±0.013 0.481±0.020 0.465±0.002
    20 0.021±0.012 0.095±0.032 0.383±0.005 0.385±0.024 0.355±0.011 0.642±0.045 0.380±0.039 0.587±0.051 0.443±0.003
    AVG 0.023±0.015 0.117±0.063 0.389±0.018 0.407±0.019 0.394±0.012 0.604±0.040 0.362±0.016 0.556±0.046 0.442±0.005
    下载: 导出CSV

    表  3  平均纯度值和标准差(每个数据集的最大纯度值加粗显示.)

    Table  3  Average purities and standard deviations (The highest purity among different algorithms on each dataset is bolded.)

    ID AP-average AP-max CSPA HGPA MCLA DP EM QMI K-means
    1 0.315±0.159 0.743±0.251 0.796±0.006 0.796±0.004 0.795±0.004 0.797±0.005 0.803±0.000 0.790±0.009 0.795±0.002
    2 0.233±0.127 0.591±0.231 0.704±0.046 0.667±0.011 0.684±0.007 0.769±0.007 0.764±0.007 0.741±0.017 0.633±0.005
    3 0.274±0.149 0.707±0.290 0.753±0.009 0.755±0.005 0.755±0.002 0.767±0.001 0.764±0.003 0.754±0.012 0.749±0.013
    4 0.252±0.137 0.651±0.244 0.702±0.013 0.706±0.006 0.711±0.008 0.717±0.003 0.719±0.002 0.707±0.003 0.697±0.002
    5 0.316±0.170 0.802±0.317 0.863±0.016 0.843±0.007 0.868±0.003 0.878±0.004 0.881±0.004 0.876±0.005 0.840±0.008
    6 0.079±0.043 0.202±0.077 0.215±0.001 0.212±0.000 0.215±0.002 0.216±0.002 0.216±0.001 0.216±0.000 0.213±0.000
    7 0.270±0.140 0.678±0.240 0.764±0.007 0.761±0.001 0.779±0.005 0.806±0.004 0.801±0.010 0.800±0.007 0.764±0.002
    8 0.336±0.179 0.809±0.325 0.861±0.002 0.853±0.005 0.857±0.001 0.868±0.001 0.866±0.002 0.861±0.006 0.842±0.001
    9 0.339±0.177 0.775±0.300 0.836±0.023 0.839±0.013 0.825±0.012 0.866±0.002 0.864±0.005 0.849±0.003 0.837±0.003
    10 0.239±0.129 0.551±0.223 0.575±0.003 0.578±0.002 0.576±0.000 0.581±0.000 0.580±0.002 0.576±0.002 0.578±0.000
    11 0.345±0.177 0.726±0.284 0.769±0.010 0.752±0.003 0.775±0.006 0.782±0.004 0.786±0.001 0.775±0.009 0.752±0.007
    12 0.250±0.134 0.658±0.237 0.716±0.003 0.717±0.003 0.718±0.001 0.721±0.003 0.722±0.001 0.718±0.003 0.705±0.004
    13 0.325±0.166 0.731±0.274 0.776±0.007 0.777±0.004 0.786±0.003 0.801±0.000 0.800±0.001 0.789±0.014 0.766±0.000
    14 0.325±0.166 0.731±0.274 0.776±0.007 0.777±0.004 0.786±0.003 0.801±0.000 0.800±0.001 0.789±0.014 0.877±0.003
    15 0.289±0.150 0.713±0.270 0.820±0.027 0.779±0.012 0.784±0.020 0.839±0.001 0.839±0.000 0.818±0.015 0.735±0.002
    16 0.265±0.141 0.654±0.265 0.680±0.002 0.674±0.002 0.675±0.002 0.680±0.003 0.681±0.001 0.679±0.002 0.673±0.000
    17 0.171±0.090 0.425±0.158 0.465±0.000 0.460±0.006 0.464±0.001 0.471±0.001 0.471±0.001 0.468±0.001 0.459±0.001
    18 0.306±0.167 0.784±0.329 0.817±0.006 0.823±0.005 0.817±0.005 0.827±0.002 0.828±0.001 0.824±0.002 0.807±0.002
    19 0.316±0.167 0.807±0.316 0.845±0.010 0.844±0.006 0.848±0.005 0.862±0.002 0.863±0.002 0.861±0.000 0.835±0.001
    20 0.295±0.156 0.709±0.276 0.750±0.001 0.750±0.007 0.755±0.001 0.759±0.001 0.755±0.003 0.752±0.004 0.752±0.000
    AVG 0.277±0.146 0.672±0.259 0.724±0.010 0.718±0.005 0.724±0.005 0.740±0.002 0.740±0.002 0.732±0.006 0.715±0.003
    下载: 导出CSV

    表  4  实验选择的6种算法的调整后观察值(括号中的调整秩次用于Friedman调整秩和检验的计算.最小代表最好.)

    Table  4  Aligned observations of six algorithms selected in the experimental study (The ranks in the parentheses are used in the computation of the Friedman aligned ranks test. The smallest one is the best.)

    ID CSPA HGPA MCLA DP EM QMI Total
    1 0.000(68) 0.000(60) -0.001(70) 0.001(57) 0.007(26) -0.006(97) 378
    2 -0.017(111) -0.054(120) -0.038(119) 0.048(1) 0.042(2) 0.019(7) 360
    3 -0.005(93) -0.003(83) -0.002(79) 0.009(21) 0.006(29) -0.004(88) 393
    4 -0.009(104) -0.004(91) 0.001(55) 0.007(28) 0.009(19) -0.003(84) 381
    5 -0.005(94) -0.025(116) 0.000(65) 0.01(17) 0.013(11) 0.007(23) 326
    6 0.000(63) -0.003(80) 0.000(61) 0.001(56) 0.001(52) 0.000(58) 370
    7 -0.021(112) -0.025(115) -0.007(99) 0.021(5) 0.016(9) 0.015(10) 350
    8 0.000(67) -0.008(102) -0.004(90) 0.007(24) 0.005(32) 0.000(62) 377
    9 -0.010(106) -0.008(101) -0.022(114) 0.019(6) 0.018(8) 0.003(40) 375
    10 -0.003(82) 0.000(59) -0.002(74) 0.004(37) 0.002(41) -0.001(71) 364
    11 -0.004(92) -0.021(113) 0.002(42) 0.009(18) 0.013(12) 0.002(43) 320
    12 -0.003(81) -0.001(73) 0.000(66) 0.002(44) 0.003(38) -0.001(69) 371
    13 -0.012(109.5) -0.011(107.5) -0.002(77.5) 0.013(13.5) 0.012(15.5) 0.001(53.5) 377
    14 -0.012(109.5) -0.011(107.5) -0.002(77.5) 0.013(13.5) 0.012(15.5) 0.001(53.5) 377
    15 0.007(27) -0.034(118) -0.029(117) 0.026(4) 0.026(3) 0.005(33) 302
    16 0.001(49) -0.004(89) -0.003(87) 0.002(45) 0.003(39) 0.001(50) 359
    17 -0.001(72) -0.007(100) -0.002(76) 0.004(35) 0.004(36) 0.001(48) 367
    18 -0.006(96) 0.000(64) -0.006(95) 0.004(34) 0.005(31) 0.002(47) 367
    19 -0.008(103) -0.010(105) -0.006(98) 0.008(22) 0.009(20) 0.007(25) 373
    20 -0.003(86) -0.003(85) 0.001(51) 0.006(30) 0.002(46) -0.002(75) 373
    Total 1725 1889 1613 511 485 1037
    AVG 86.25 94.45 80.65 25.55 24.25 51.85
    下载: 导出CSV
  • [1] Jain A K, Murty M N, Flynn P J. Data clustering: a review. ACM Computing Surveys (CSUR), 1999, 31(3): 264-323 doi: 10.1145/331499.331504
    [2] 周晨曦, 梁循, 齐金山.基于约束动态更新的半监督层次聚类算法.自动化学报, 2015, 41(7): 1253-1263 http://www.aas.net.cn/CN/abstract/abstract18699.shtml

    Zhou Chen-Xi, Liang Xun, Qi Jin-Shan. A semi-supervised agglomerative hierarchical clustering method based on dynamically updating constraints. Acta Automatica Sinica, 2015, 41(7): 1253-1263 http://www.aas.net.cn/CN/abstract/abstract18699.shtml
    [3] 陈, 何辉豪.基于密度的聚类中心自动确定的混合属性数据聚类算法研究.自动化学报, 2015, 41(10): 1798-1813 http://www.aas.net.cn/CN/abstract/abstract18754.shtml

    Chen Jin-Yin, He Hui-Hao. Research on density-based clustering algorithm for mixed data with determine cluster centers automatically. Acta Automatica Sinica, 2015, 41(10): 1798-1813 http://www.aas.net.cn/CN/abstract/abstract18754.shtml
    [4] 王卫卫, 李小平, 冯象初, 王斯琪.稀疏子空间聚类综述.自动化学报, 2015, 41(8): 1373-1384 http://www.aas.net.cn/CN/abstract/abstract18712.shtml

    Wang Wei-Wei, Li Xiao-Ping, Feng Xiang-Chu, Wang Si-Qi. A survey on sparse subspace clustering. Acta Automatica Sinica, 2015, 41(8): 1373-1384 http://www.aas.net.cn/CN/abstract/abstract18712.shtml
    [5] Taşdemir K, Moazzen Y, Yildirim I. An approximate spectral clustering ensemble for high spatial resolution remote-sensing images. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2015, 8(5): 1996-2004 doi: 10.1109/JSTARS.2015.2424292
    [6] Parvin H, Minaei-Bidgoli B. A clustering ensemble framework based on selection of fuzzy weighted clusters in a locally adaptive clustering algorithm. Pattern Analysis and Applications, 2015, 18(1): 87-112 doi: 10.1007/s10044-013-0364-4
    [7] Strehl A, Ghosh J. Cluster ensembles——a knowledge reuse framework for combining multiple partitions. The Journal of Machine Learning Research, 2002, 3: 583-617
    [8] Gionis A, Mannila H, Tsaparas P. Clustering aggregation. ACM Transactions on Knowledge Discovery from Data (TKDD), 2007, 1(1): Article No. 4 doi: 10.1145/1217299
    [9] Topchy A, Jain A K, Punch W. Clustering ensembles: models of consensus and weak partitions. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(12): 1866-1881 doi: 10.1109/TPAMI.2005.237
    [10] Bhattacharjee A, Richards W G, Staunton J, Li C, Monti S, Vasa P, Ladd C, Beheshti J, Bueno R, Gillette M, Loda M, Weber G, Mark E J, Lander E S, Wong W, Johnson B E, Golub T R, Sugarbaker D J, Meyerson M. Classification of human lung carcinomas by mRNA expression profiling reveals distinct adenocarcinoma subclasses. Proceedings of the National Academy of Sciences of the United States of America, 2001, 98(24): 13790-13795 doi: 10.1073/pnas.191502998
    [11] Lindblad-Toh K, Tanenbaum D M, Daly M J, Winchester E, Lui W O, Villapakkam A, Stanton S E, Larsson C, Hudson T J, Johnson B E, Lander E S, Meyerson M. Loss-of-heterozygosity analysis of small-cell lung carcinomas using single-nucleotide polymorphism arrays. Nature Biotechnology, 2000, 18(9): 1001-1005 doi: 10.1038/79269
    [12] Rodriguez A, Laio A. Clustering by fast search and find of density peaks. Science, 2014, 344(6191): 1492-1496 doi: 10.1126/science.1242072
    [13] Reshef D N, Reshef Y A, Finucane H K, Grossman S R, McVean G, Turnbaugh P J, Lander E S, Mitzenmacher M, Sabeti P C. Detecting novel associations in large data sets. Science, 2011, 334(6062): 1518-1524 doi: 10.1126/science.1205438
    [14] Tang D M, Wang M W, Zheng W F, Wang H J. RapidMic: rapid computation of the maximal information coefficient. Evolutionary Bioinformatics Online, 2014, 10: 11-16 http://cn.bing.com/academic/profile?id=2004127671&encoded=0&v=paper_preview&mkt=zh-cn
    [15] 唐伟, 周志华.基于Bagging的选择性聚类集成.软件学报, 2005, 16(4): 496-502 doi: 10.1360/jos160496

    Tang Wei, Zhou Zhi-Hua. Bagging-based selective clusterer ensemble. Journal of Software, 2005, 16(4): 496-502 doi: 10.1360/jos160496
    [16] Fred A L N, Jain A K. Combining multiple clusterings using evidence accumulation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(6): 835-850 doi: 10.1109/TPAMI.2005.113
    [17] Topchy A, Jain A K, Punch W. A mixture model for clustering ensembles. In: Proceedings of the 2004 SIAM International Conference on Data Mining. Florida, USA: SIAM, 2004.
    [18] Ayad H G, Kamel M S. On voting-based consensus of cluster ensembles. Pattern Recognition, 2010, 43(5): 1943-1953 doi: 10.1016/j.patcog.2009.11.012
    [19] Zheng L, Li T, Ding C. Hierarchical ensemble clustering. In: Proceedings of the 10th IEEE International Conference on Data Mining (ICDM). Sydney, NSW: IEEE, 2010. 1199-1204
    [20] Wang H J, Shan H H, Banerjee A. Bayesian cluster ensembles. Statistical Analysis and Data Mining, 2011, 4(1): 54-70 doi: 10.1002/sam.v4.1
    [21] 周林, 平西建, 徐森, 张涛.基于谱聚类的聚类集成算法.自动化学报, 2012, 38(8): 1335-1342 doi: 10.3724/SP.J.1004.2012.01335

    Zhou Lin, Ping Xi-Jian, Xu Sen, Zhang Tao. Cluster ensemble based on spectral clustering. Acta Automatica Sinica, 2012, 38(8): 1335-1342 doi: 10.3724/SP.J.1004.2012.01335
    [22] Banerjee B, Bovolo F, Bhattacharya A, Bruzzone L, Chaudhuri S, Mohan B K. A new self-training-based unsupervised satellite image classification technique using cluster ensemble strategy. IEEE Geoscience and Remote Sensing Letters, 2015, 12(4): 741-745 doi: 10.1109/LGRS.2014.2360833
    [23] Lingras P, Haider F. Partially ordered rough ensemble clustering for multigranular representations. Intelligent Data Analysis, 2015, 19(s1): S103-S116 doi: 10.3233/IDA-150772
    [24] Wahid A, Gao X Y, Andreae P. Multi-objective clustering ensemble for high-dimensional data based on strength pareto evolutionary algorithm (SPEA-II). In: Proceedings of the 2015 IEEE International Conference on Data Science and Advanced Analytics (DSAA). Paris: IEEE, 2015. 1-9
    [25] Goswami J P, Mahanta A K. A genetic algorithm based ensemble approach for categorical data clustering. In: Proceedings of the 2015 Annual IEEE India Conference (INDICON). New Delhi, India: IEEE, 2015. 1-6
    [26] Wei S T, Li Z X, Zhang C L. A semi-supervised clustering ensemble approach integrated constraint-based and metric-based. In: Proceedings of the 7th International Conference on Internet Multimedia Computing and Service. New York, USA: ACM, 2015. Article No. 26
    [27] Liu L M, Liao Z F, Liao Z N. An efficient clustering ensemble selection algorithm. International Journal of Autonomous and Adaptive Communications Systems, 2015, 8(2-3): 200-212 http://cn.bing.com/academic/profile?id=1902036342&encoded=0&v=paper_preview&mkt=zh-cn
    [28] Hao Z F, Wang L J, Cai R C, Wen W. An improved clustering ensemble method based link analysis. World Wide Web, 2015, 18(2): 185-195 doi: 10.1007/s11280-013-0208-6
    [29] Huang D, Lai J H, Wang C D. Ensemble clustering using factor graph. Pattern Recognition, 2016, 50: 131-142 doi: 10.1016/j.patcog.2015.08.015
    [30] Kuncheva L I, Whitaker C J. Measures of diversity in classifier ensembles and their relationship with the ensemble accuracy. Machine learning, 2003, 51(2): 181-207 doi: 10.1023/A:1022859003006
    [31] Kuncheva L I, Hadjitodorov S T. Using diversity in cluster ensembles. In: Proceedings of the 2004 IEEE International Conference on Systems, Man and Cybernetics. The Hague: IEEE, 2004. 1214-1219
    [32] Topchy A P, Law M H C, Jain A K, Fred A L. Analysis of consensus partition in cluster ensemble. In: Proceedings of the 4th IEEE International Conference on Data Mining. Brighton, UK: IEEE, 2004. 225-232
    [33] Amasyali M F, Ersoy O. The performance factors of clustering ensembles. In: Proceedings of the 16th IEEE Communication and Applications Conference on Signal Processing. Aydin: IEEE, 2008. 1-4
    [34] Zhang S H, Wong H S. ARImp: a generalized adjusted rand index for cluster ensembles. In: Proceedings of the 20th International Conference on Pattern Recognition (ICPR). Istanbul: IEEE, 2010. 778-781
    [35] Wang T. CA-Tree: a hierarchical structure for efficient and scalable coassociation-based cluster ensembles. IEEE Transactions on Systems, Man, and Cybernetics, Part B: Cybernetics, 2011, 41(3): 686-698 doi: 10.1109/TSMCB.2010.2086059
    [36] 文献全部内容项

    Zhou P, Du L, Wang H M, Shi L, Shen Y D. Learning a robust consensus matrix for clustering ensemble via Kullback-Leibler divergence minimization. In: Proceedings of the 24th International Conference on Artificial Intelligence. Washington, USA: AAAI, 2015. 4112-4118
    [37] Zhong C M, Yue X D, Zhang Z H, Lei J S. A clustering ensemble: two-level-refined co-association matrix with path-based transformation. Pattern Recognition, 2015, 48(8): 2699-2709 doi: 10.1016/j.patcog.2015.02.014
    [38] Wahid A, Gao X Y, Andreae P. Multi-objective multi-view clustering ensemble based on evolutionary approach. In: Proceedings of the 2015 IEEE Congress on Evolutionary Computation (CEC). Sendai, Japan: IEEE, 2015. 1696-1703
    [39] Yu Z W, Wong H S. Class discovery from gene expression data based on perturbation and cluster ensemble. IEEE Transactions on NanoBioscience, 2009, 8(2): 147-160 doi: 10.1109/TNB.2009.2023321
    [40] Zhang X R, Jiao L C, Liu F, Bo L F, Gong M G. Spectral clustering ensemble applied to SAR image segmentation. IEEE Transactions on Geoscience and Remote Sensing, 2008, 46(7): 2126-2136 doi: 10.1109/TGRS.2008.918647
    [41] Hu X H, Park E K, Zhang X D. Microarray gene cluster identification and annotation through cluster ensemble and EM-based informative textual summarization. IEEE Transactions on Information Technology in Biomedicine, 2009, 13(5): 832-840 doi: 10.1109/TITB.2009.2023984
    [42] 徐森, 卢志茂, 顾国昌.解决文本聚类集成问题的两个谱算法.自动化学报, 2009, 35(7): 997-1002 doi: 10.3724/SP.J.1004.2009.00997

    Xu Sen, Lu Zhi-Mao, Gu Guo-Chang. Two spectral algorithms for ensembling document clusters. Acta Automatica Sinica, 2009, 35(7): 997-1002 doi: 10.3724/SP.J.1004.2009.00997
    [43] Ye Y F, Li T, Chen Y, Jiang Q S. Automatic malware categorization using cluster ensemble. In: Proceedings of the 16th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, USA: ACM, 2010. 95-104
    [44] Zhang P, Zhu X Q, Tan J L, Guo L. Classifier and cluster ensembles for mining concept drifting data streams. In: Proceedings of the 2010 IEEE International Conference on Data Mining (ICDM). Sydney, NSW: IEEE, 2010. 1175-1180
    [45] Yu Z W, Deng Z K, Wong H S, Tan L R. Identifying protein-kinase-specific phosphorylation sites based on the bagging——AdaBoost ensemble approach. IEEE Transactions on NanoBioscience, 2010, 9(2): 132-143 doi: 10.1109/TNB.2010.2043682
    [46] Yu Z W, Li L, You J, Wong H S, Han G Q. SC3: triple spectral clustering-based consensus clustering framework for class discovery from cancer gene expression profiles. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2012, 9(6): 1751-1765 doi: 10.1109/TCBB.2012.108
    [47] Ammour N, Alajlan N. A dynamic weights OWA fusion for ensemble clustering. Signal, Image and Video Processing, 2015, 9(3): 727-734 doi: 10.1007/s11760-013-0499-1
    [48] Li F Y, Wu K, Lei J S, Wen M, Bi Z Q, Gu C H. Steganalysis over large-scale social networks with high-order joint features and clustering ensembles. IEEE Transactions on Information Forensics and Security, 2016, 11(2): 344-357 doi: 10.1109/TIFS.2015.2496910
    [49] Xiao W C, Yang Y, Wang H J, Li T R, Xing H L. Semi-supervised hierarchical clustering ensemble and its application. Neurocomputing, 2016, 173: 1362-1376 doi: 10.1016/j.neucom.2015.09.009
    [50] Teng G, He C Z, Xiao J, He Y, Zhu B, Jiang X Y. Cluster ensemble framework based on the group method of data handling. Applied Soft Computing, 2016, 43: 35-46 doi: 10.1016/j.asoc.2016.01.043
    [51] Frey B J, Dueck D. Clustering by passing messages between data points. Science, 2007, 315(5814): 972-976 doi: 10.1126/science.1136800
    [52] Tenenbaum J B, de Silva V, Langford J C. A global geometric framework for nonlinear dimensionality reduction. Science, 2000, 290(5500): 2319-2323 doi: 10.1126/science.290.5500.2319
    [53] Zhou Z H, Tang W. Clusterer ensemble. Knowledge-Based Systems, 2006, 19(1): 77-83 doi: 10.1016/j.knosys.2005.11.003
    [54] Modha D S, Spangler W S. Feature weighting in K-means clustering. Machine Learning, 2003, 52(3): 217-237 doi: 10.1023/A:1024016609528
    [55] Yang Z R, Oja E. Linear and nonlinear projective nonnegative matrix factorization. IEEE Transactions on Neural Networks, 2010, 21(5): 734-749 doi: 10.1109/TNN.2010.2041361
    [56] García S, Fernández A, Luengo J, Herrera F. Advanced nonparametric tests for multiple comparisons in the design of experiments in computational intelligence and data mining: experimental analysis of power. Information Sciences, 2010, 180(10): 2044-2064 doi: 10.1016/j.ins.2009.12.010
  • 期刊类型引用(3)

    1. 董莉莉,梁振英,金增珂,徐玉镜. 不确定链式系统的动力学自适应跟踪控制. 控制工程. 2020(06): 962-970 . 百度学术
    2. 王立玲,董力元,马东,刘秀玲,王洪瑞. 移动机器人速度饱和约束下的轨迹跟踪控制. 机床与液压. 2019(21): 1-4 . 百度学术
    3. 陈志勇,张婷婷,郭益深. 弹性基和弹性关节空间机器人的自适应鲁棒抗扰控制及振动抑制. 自动化学报. 2018(07): 1271-1281 . 本站查看

    其他类型引用(4)

  • 加载中
图(3) / 表(4)
计量
  • 文章访问数:  3080
  • HTML全文浏览量:  559
  • PDF下载量:  1447
  • 被引次数: 7
出版历程
  • 收稿日期:  2015-12-25
  • 录用日期:  2016-04-18
  • 刊出日期:  2016-09-01

目录

/

返回文章
返回