顾鑫 王士同 许敏

顾鑫, 王士同, 许敏. 基于多源的跨领域数据分类快速新算法. 自动化学报, 2014, 40(3): 531-547. doi: 10.3724/SP.J.1004.2014.00531
GU Xin, WANG Shi-Tong, XU Min. A New Cross-multidomain Classification Algorithm and Its Fast Version for Large Datasets. ACTA AUTOMATICA SINICA, 2014, 40(3): 531-547. doi: 10.3724/SP.J.1004.2014.00531
doi: 10.3724/SP.J.1004.2014.00531



    王士同 教授, 中国计算机学会高级会员. 主要研究方向为人工智能, 模式识别, 数据挖掘, 神经网络, 模糊系统, 医学图像处理和生物信息学.E-mail:wxwangst@yahoo.com.cn



A New Cross-multidomain Classification Algorithm and Its Fast Version for Large Datasets


Supported by National Natural Science Foundation of China (60903100, 60975027)

  • 摘要: 研究跨领域学习与分类是为了将对多源域的有监督学习结果有效地迁移至目标域,实现对目标域的无标记分 类. 当前的跨领域学习一般侧重于对单一源域到目标域的学习,且样本规模普遍较小,此类方法领域自适应性较差,面对 大样本数据更显得无能为力,从而直接影响跨域学习的分类精度与效率. 为了尽可能多地利用相关领域的有用数据,本文 提出了一种多源跨领域分类算法(Multiple sources cross-domain classification,MSCC),该算法依据被众多实验证明有效的罗杰斯特回归模型与一致性方法构建多个源域分类器并综合指导目标域的数据分类. 为了充分高效利用大样本的 源域数据,满足大样本的快速运算,在MSCC的基础上,本文结合最新的CDdual (Dual coordinate descent method)算 法,提出了算法MSCC的快速算法MSCC-CDdual,并进行了相关的理论分析. 人工数据集、文本数据集与图像数据集的实 验运行结果表明,该算法对于大样本数据集有着较高的分类精度、快速的运行速度和较高的领域自适应性. 本文的主要贡 献体现在三个方面:1)针对多源跨领域分类提出了一种新的一致性方法,该方法有利于将MSCC算法发展为MSCC-CDdual快速算法;2)提出了MSCC-CDdual快速算法,该算法既适用于样本较少的数据集又适用于大样本数据集;3) MSCC-CDdual 算法在高维数据集上相比其他算法展现了其独特的优势.
  • 收稿日期:  2012-06-25
  • 修回日期:  2013-02-04
  • 刊出日期:  2014-03-20


