2.793

2018影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于多源的跨领域数据分类快速新算法

顾鑫 王士同 许敏

顾鑫, 王士同, 许敏. 基于多源的跨领域数据分类快速新算法. 自动化学报, 2014, 40(3): 531-547. doi: 10.3724/SP.J.1004.2014.00531
引用本文: 顾鑫, 王士同, 许敏. 基于多源的跨领域数据分类快速新算法. 自动化学报, 2014, 40(3): 531-547. doi: 10.3724/SP.J.1004.2014.00531
GU Xin, WANG Shi-Tong, XU Min. A New Cross-multidomain Classification Algorithm and Its Fast Version for Large Datasets. ACTA AUTOMATICA SINICA, 2014, 40(3): 531-547. doi: 10.3724/SP.J.1004.2014.00531
Citation: GU Xin, WANG Shi-Tong, XU Min. A New Cross-multidomain Classification Algorithm and Its Fast Version for Large Datasets. ACTA AUTOMATICA SINICA, 2014, 40(3): 531-547. doi: 10.3724/SP.J.1004.2014.00531

基于多源的跨领域数据分类快速新算法


DOI: 10.3724/SP.J.1004.2014.00531
详细信息
    作者简介:

    王士同 教授, 中国计算机学会高级会员. 主要研究方向为人工智能, 模式识别, 数据挖掘, 神经网络, 模糊系统, 医学图像处理和生物信息学.E-mail:wxwangst@yahoo.com.cn

    通讯作者: 顾鑫
  • 基金项目:

    国家自然科学基金(60903100,60975027)资助

A New Cross-multidomain Classification Algorithm and Its Fast Version for Large Datasets

More Information
  • Fund Project:

    Supported by National Natural Science Foundation of China (60903100, 60975027)

  • 摘要: 研究跨领域学习与分类是为了将对多源域的有监督学习结果有效地迁移至目标域,实现对目标域的无标记分 类. 当前的跨领域学习一般侧重于对单一源域到目标域的学习,且样本规模普遍较小,此类方法领域自适应性较差,面对 大样本数据更显得无能为力,从而直接影响跨域学习的分类精度与效率. 为了尽可能多地利用相关领域的有用数据,本文 提出了一种多源跨领域分类算法(Multiple sources cross-domain classification,MSCC),该算法依据被众多实验证明有效的罗杰斯特回归模型与一致性方法构建多个源域分类器并综合指导目标域的数据分类. 为了充分高效利用大样本的 源域数据,满足大样本的快速运算,在MSCC的基础上,本文结合最新的CDdual (Dual coordinate descent method)算 法,提出了算法MSCC的快速算法MSCC-CDdual,并进行了相关的理论分析. 人工数据集、文本数据集与图像数据集的实 验运行结果表明,该算法对于大样本数据集有着较高的分类精度、快速的运行速度和较高的领域自适应性. 本文的主要贡 献体现在三个方面:1)针对多源跨领域分类提出了一种新的一致性方法,该方法有利于将MSCC算法发展为MSCC-CDdual快速算法;2)提出了MSCC-CDdual快速算法,该算法既适用于样本较少的数据集又适用于大样本数据集;3) MSCC-CDdual 算法在高维数据集上相比其他算法展现了其独特的优势.
  • [1] Yang J, Yan R, Hauptmann A G. Cross-domain video concept detection using adaptive SVMs. In: Proceedings of the 15th International Conference on Multimedia. New York, USA: ACM, 2007. 188-197
    [2] [2] Blitzer J, McDonald R, Pereira F. Domain adaptation with structural correspondence learning. In: Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2006. 120-128
    [3] [3] Pan S J, Tsang I W H, Kwok J T Y, Yang Q. Domain adaptation via transfer component analysis. IEEE Transactions on Neural Networks, 2011, 22(2): 199-210
    [4] [4] Dai W Y, Yang Q, Xue G R, Yu Y. Boosting for transfer learning. In: Proceedings of the 24th International Conference on Machine Learning. New York, USA: ACM, 2007. 193-200
    [5] [5] Dai W Y, Xue G R, Yang Q, Yu Y. Co-clustering based classification for out-of-domain documents. In: Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining. New York, USA: ACM, 2007. 210-219
    [6] [6] Xing D K, Dai W Y, Xue G R, Yu Y. Bridged refinement for transfer learning. In: Proceedings of the 11th European Conference Practice of Knowledge Discovery in Databases. Berlin: Springer, 2007. 324-335
    [7] [7] Suzuki T, Sugiyama M, Tanaka T. Mutual information approximation via maximum likelihood estimation of density ratio. In: Proceedings of the 2009 IEEE international conference on Symposium on Information Theory. NJ, USA: IEEE, 2009. 463-467
    [8] [8] Suzuki T, Sugiyama M, Sese J, Kanamori T. Approximating mutual information by maximum likelihood density ratio estimation. In: Proceedings of the JMLR: Workshop and Conference Proceedings. NJ, USA: IEEE, 2008. 4: 5-20
    [9] [9] Zhuang F Z, Luo P, Xiong H, Xiong Y H, He Q, Shi Z Z. Cross-domain learning from multiple sources: a consensus regularization perspective. IEEE Transactions on Knowledge and Data Engineering, 2010, 22(12): 1664-1678
    [10] Bollegala D, Weir D, Carroll J. Using multiple sources to construct a sentiment sensitive thesaurus for cross-domain sentiment classification. In: HLT'11 Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2011. 132-141
    [11] Hosmer D W, Lemeshow S. Applied Logistic Regression. Hoboken, NJ: John Wiley Sons Press, 2001
    [12] Cal D, Condorelli A, Papa S, Rata M, Zagarella L. Improving intelligence through use of natural language processing. A comparison between NLP interfaces and traditional visual GIS interfaces. Procedia Computer Science, 2011, 21(5): 920-925
    [13] Yu H F, Huang F L, Lin C J. Dual coordinate descent methods for logistic regression and maximum entropy models. Machine Learning, 2011, 85(1-2): 41-75
    [14] Gauvain J L, Lee C H. Maximum a posteriori estimation for multivariate Gaussian mixture observations of Markov chains. IEEE Transactions on Speech and Audio Processing, 1994, 2(2): 291-298
    [15] Ruszczynski A. Nonlinear Optimization. Princeton, NJ: Princeton University Press, 2006
    [16] Keerthi S S, Duan K B, Shevade S K, Poo A N. A fast dual algorithm for kernel logistic regression. Machine Learning, 2005, 61(1-3): 151-165
    [17] Joachims T. Making large-scale support vector machine learning practical. Advances in Kernel Methods: Support Vector Learning. Cambridge, MA: MIT Press, 1999. 169-184
    [18] Collobert P, Sinz P, Weston P, Bottou L. Large scale transductive SVMs. The Journal of Machine Learning Research, 2006, 7: 1687-1712
    [19] Joachims T. Transductive inference for text classification using support vector machines. In: Proceedings of the 16th International Conference on Machine Learning. San Francisco, CA: Morgan Kaufmann, 1999. 200-209
    [20] Joachims T. Transductive learning via spectral graph partitioning. In: Proceedings of the 20th International Conference on Machine Learning. New York, USA: ACM, 2003. 290-297
    [21] Chapelle O, Zien A. Semi-supervised classification by low density separation. In: Proceedings of the 10th International Workshop on Artificial Intelligence and Statistics. San Francisco, CA: Morgan Kaufmann 2005. 57-64
    [22] Chapelle O, Chi M M, Zien A. A continuation method for semi-supervised SVMs. In: Proceedings of the 23rd International Conference on Machine Learning. New York, USA: ACM, 2006. 185-192
    [23] Lin C J, Weng R C, Keerthi S S. Trust region Newton method for large-scale logistic regression. Journal of Machine Learning Research, 2008, 9(4): 627-650
    [24] Deng W B. A limited memory quasi-Newton method for large scale problem. Numerical Mathematics, 1996, 5(1): 71-79
    [25] Zhang Lei. The Research on Human-computer Cooperation in Content-based Image Retrieval [Ph.D. dissertation], Tsinghua University, China, 2001 (张磊. 基于人机交互的内容图像检索研究 [博士论文]. 清华大学, 中国, 2001)
    [26] Shi Z P, Ye F, He Q, Shi Z Z. Symmetrical invariant LBP texture descriptor and application for image retrieval. In: Proceedings of the 2008 Congress on Image and Signal Processing. Sanya, China: IEEE Computer Society, 2008. 825-829
  • [1] 王金甲, 张玉珍, 夏静, 王凤嫔. 多层局部块坐标下降法及其驱动的分类重构网络[J]. 自动化学报, 2020, 46(): 1-16. doi: 10.16383/j.aas.c190540
    [2] 张号逵, 李映, 姜晔楠. 深度学习在高光谱图像分类领域的研究现状与展望[J]. 自动化学报, 2018, 44(6): 961-977. doi: 10.16383/j.aas.2018.c170190
    [3] 张宇, 包研科, 邵良杉, 刘威. 面向分布式数据流大数据分类的多变量决策树[J]. 自动化学报, 2018, 44(6): 1115-1127. doi: 10.16383/j.aas.2017.c160809
    [4] 顾晓清, 蒋亦樟, 王士同. 用于不平衡数据分类的0阶TSK型模糊系统[J]. 自动化学报, 2017, 43(10): 1773-1788. doi: 10.16383/j.aas.2017.c160200
    [5] 马成龙, 颜永红. 基于概率语义分布的短文本分类[J]. 自动化学报, 2016, 42(11): 1711-1717. doi: 10.16383/j.aas.2016.c150268
    [6] 张婷, 李玉鑑, 胡海鹤, 张亚红. 基于跨连卷积神经网络的性别分类模型[J]. 自动化学报, 2016, 42(6): 858-865. doi: 10.16383/j.aas.2016.c150658
    [7] 刘明, 李国军, 郝华青, 侯增广, 刘秀玲. 基于卷积神经网络的T波形态分类[J]. 自动化学报, 2016, 42(9): 1339-1346. doi: 10.16383/j.aas.2016.c150817
    [8] 倪鼎, 马洪兵. 基于近邻协同的高光谱图像谱-空联合分类[J]. 自动化学报, 2015, 41(2): 273-284. doi: 10.16383/j.aas.2015.c140043
    [9] 张景祥, 王士同, 邓赵红, 蒋亦樟, 李奕. 融合异构特征的子空间迁移学习算法[J]. 自动化学报, 2014, 40(2): 236-246. doi: 10.3724/SP.J.1004.2014.00236
    [10] 周全, 王磊, 周亮, 郑宝玉. 基于多尺度上下文的图像标注算法[J]. 自动化学报, 2014, 40(12): 2944-2949. doi: 10.3724/SP.J.1004.2014.02944
    [11] 张倩, 李明, 王雪松, 程玉虎, 朱美强. 一种面向多源领域的实例迁移学习[J]. 自动化学报, 2014, 40(6): 1176-1183. doi: 10.3724/SP.J.1004.2014.01176
    [12] 朱群, 张玉红, 胡学钢, 李培培. 一种基于双层窗口的概念漂移数据流分类算法[J]. 自动化学报, 2011, 37(9): 1077-1084. doi: 10.3724/SP.J.1004.2011.01077
    [13] 张战成, 王士同, 钟富礼. 协作式整体和局部的分类机[J]. 自动化学报, 2011, 37(10): 1256-1263. doi: 10.3724/SP.J.1004.2011.01256
    [14] 殷慧, 曹永锋, 孙洪. 基于多维金字塔表达和AdaBoost的高分辨率SAR图像城区场景分类算法[J]. 自动化学报, 2010, 36(8): 1099-1106. doi: 10.3724/SP.J.1004.2010.01099
    [15] 王红卫, 祁超, 魏永长, 李彬, 朱松. 基于数据的决策方法综述[J]. 自动化学报, 2009, 35(6): 820-833. doi: 10.3724/SP.J.1004.2009.00820
    [16] 苏宏升. 基于贝叶斯最优分类器的多源模糊信息融合方法[J]. 自动化学报, 2008, 34(3): 282-287. doi: 10.3724/SP.J.1004.2008.00282
    [17] 胡包钢, 王泳. 关于互信息准则在分类(包括拒识类别)问题中的应用[J]. 自动化学报, 2008, 34(11): 1396-1403. doi: 10.3724/SP.J.1004.2008.01396
    [18] 冯祖仁, 吕娜, 李良福. 基于最大后验概率的图像匹配相似性指标研究[J]. 自动化学报, 2007, 33(1): 1-8. doi: 10.1360/aas-007-0001
    [19] 刘雷健, 杨静宇, 曹雨龙, 邬永革, 汪华峰. 肺癌细胞识别彩色图像处理系统[J]. 自动化学报, 1996, 22(3): 382-384.
    [20] 毛建昌, 万嘉若, 王成道. 用于纹理分类的多元旋转不变自回归模型[J]. 自动化学报, 1990, 16(3): 243-246.
  • 加载中
计量
  • 文章访问数:  1213
  • HTML全文浏览量:  54
  • PDF下载量:  1058
  • 被引次数: 0
出版历程
  • 收稿日期:  2012-06-25
  • 修回日期:  2013-02-04
  • 刊出日期:  2014-03-20

基于多源的跨领域数据分类快速新算法

doi: 10.3724/SP.J.1004.2014.00531
    基金项目:

    国家自然科学基金(60903100,60975027)资助

    作者简介:

    王士同 教授, 中国计算机学会高级会员. 主要研究方向为人工智能, 模式识别, 数据挖掘, 神经网络, 模糊系统, 医学图像处理和生物信息学.E-mail:wxwangst@yahoo.com.cn

    通讯作者: 顾鑫

摘要: 研究跨领域学习与分类是为了将对多源域的有监督学习结果有效地迁移至目标域,实现对目标域的无标记分 类. 当前的跨领域学习一般侧重于对单一源域到目标域的学习,且样本规模普遍较小,此类方法领域自适应性较差,面对 大样本数据更显得无能为力,从而直接影响跨域学习的分类精度与效率. 为了尽可能多地利用相关领域的有用数据,本文 提出了一种多源跨领域分类算法(Multiple sources cross-domain classification,MSCC),该算法依据被众多实验证明有效的罗杰斯特回归模型与一致性方法构建多个源域分类器并综合指导目标域的数据分类. 为了充分高效利用大样本的 源域数据,满足大样本的快速运算,在MSCC的基础上,本文结合最新的CDdual (Dual coordinate descent method)算 法,提出了算法MSCC的快速算法MSCC-CDdual,并进行了相关的理论分析. 人工数据集、文本数据集与图像数据集的实 验运行结果表明,该算法对于大样本数据集有着较高的分类精度、快速的运行速度和较高的领域自适应性. 本文的主要贡 献体现在三个方面:1)针对多源跨领域分类提出了一种新的一致性方法,该方法有利于将MSCC算法发展为MSCC-CDdual快速算法;2)提出了MSCC-CDdual快速算法,该算法既适用于样本较少的数据集又适用于大样本数据集;3) MSCC-CDdual 算法在高维数据集上相比其他算法展现了其独特的优势.

English Abstract

顾鑫, 王士同, 许敏. 基于多源的跨领域数据分类快速新算法. 自动化学报, 2014, 40(3): 531-547. doi: 10.3724/SP.J.1004.2014.00531
引用本文: 顾鑫, 王士同, 许敏. 基于多源的跨领域数据分类快速新算法. 自动化学报, 2014, 40(3): 531-547. doi: 10.3724/SP.J.1004.2014.00531
GU Xin, WANG Shi-Tong, XU Min. A New Cross-multidomain Classification Algorithm and Its Fast Version for Large Datasets. ACTA AUTOMATICA SINICA, 2014, 40(3): 531-547. doi: 10.3724/SP.J.1004.2014.00531
Citation: GU Xin, WANG Shi-Tong, XU Min. A New Cross-multidomain Classification Algorithm and Its Fast Version for Large Datasets. ACTA AUTOMATICA SINICA, 2014, 40(3): 531-547. doi: 10.3724/SP.J.1004.2014.00531
参考文献 (26)

目录

    /

    返回文章
    返回