2.793

2018影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于池的无监督线性回归主动学习

刘子昂 蒋雪 伍冬睿

刘子昂, 蒋雪, 伍冬睿. 基于池的无监督线性回归主动学习. 自动化学报, 2020, 46(x): 1−13. doi: 10.16383/j.aas.c200071
引用本文: 刘子昂, 蒋雪, 伍冬睿. 基于池的无监督线性回归主动学习. 自动化学报, 2020, 46(x): 1−13. doi: 10.16383/j.aas.c200071
Liu Zi-Ang, Jiang Xue, Wu Dong-Rui. Unsupervised pool-based active learning for linear regression. Acta Automatica Sinica, 2020, 46(x): 1−13. doi: 10.16383/j.aas.c200071
Citation: Liu Zi-Ang, Jiang Xue, Wu Dong-Rui. Unsupervised pool-based active learning for linear regression. Acta Automatica Sinica, 2020, 46(x): 1−13. doi: 10.16383/j.aas.c200071

基于池的无监督线性回归主动学习


DOI: 10.16383/j.aas.c200071
详细信息
    作者简介:

    2017年获得武汉理工大学自动化专业学士学位, 2020年获得华中科技大学控制科学与工程硕士学位. 主要研究方向为机器学习. E-mail: ziangliu@hust.edu.cn

    华中科技大学人工智能与自动化学院博士研究生. 2019年获得西南大学电子信息工程学院学士学位. 主要研究方向为机器学习, 脑机接口和情感计算. E-mail: xuejiang@hust.edu.cn

    华中科技大学人工智能与自动化学院教授, 博士生导师, 图像信息处理与智能控制教育部重点实验室副主任. 主要研究方向为机器学习、脑机接口、计算智能、情感计算. 本文通信作者. E-mail: drwu@hust.edu.cn

  • 基金项目:  湖北省技术创新专项资助项目(2019AEA171), 国家自然科学基金资助项目(61873321), NSFC-深圳机器人基础研究中心重点项目(U1913207), 科技部政府间国际科技创新合作重点专项(2017YFE0128300)资助

Unsupervised Pool-Based Active Learning for Linear Regression

More Information
  • Fund Project:  Supported by Technology Innovation Project of Hubei Province of China(2019AEA171), Natural Science Foundation of China(61873321), International Science and Technology Cooperation Program of China(2017YFE0128300)
  • 摘要: 在许多现实的机器学习应用场景中, 获取大量未标注的数据是很容易的, 但标注过程需要花费大量的时间和经济成本. 因此, 在这种情况下, 需要选择一些最有价值的样本进行标注, 从而只利用较少的标注数据就能训练出较好的机器学习模型. 主动学习已被广泛应用于解决这种场景下的问题. 但是, 大多数现有的主动学习方法都是基于有监督场景: 能够从少量带标签的样本中训练初始模型, 基于模型查询新的样本, 然后迭代更新模型. 无监督情况下的主动学习却很少有人考虑, 即在不知道任何标签信息的情况下最佳地选择要标注的初始训练样本. 这种场景下, 主动学习问题变得更加困难, 因为无法利用任何标签信息. 针对这一场景, 本文研究了基于池的无监督线性回归问题, 提出了一种新的主动学习方法, 该方法同时考虑了信息性、代表性和多样性这三个标准. 本文在3个不同的线性回归模型(岭回归, LASSO和线性支持向量回归)和来自不同应用领域的12个数据集上进行了广泛的实验, 验证了其有效性.
  • 图  1  基于池的ALR中样本的代表性与多样性[17]

    Fig.  1  Illustration of representativeness and diversity in pool-based ALR[17]

    图  2  $d=2$ 时IRD算法图示

    Fig.  2  Illustration of IRD when $d=2$

    图  3  12个数据集上的平均RMSE和CC(mRMSE和mCC; 重复运行100次). 回归模型为RR ( $\lambda=0.5$ ).

    Fig.  3  Mean of the RMSEs and the CCs on the 12 datasets, averaged over 100 runs. RR ( $\lambda=0.5$ ) was used as the regression model.

    图  4  12个数据集上归一化AUC-mRMSE和AUC-mCC

    Fig.  4  Normalized AUCs of the mean RMSEs and the mean CCs on the 12 datasets

    图  5  对于不同的 $M$ , 4种ALR方法的mRMSE和mCC相对于RS在12个数据集上的平均比率.

    Fig.  5  Ratios of the mean RMSEs and the mean CCs for different $M$ , averaged across 12 datasets.

    图  6  在Housing数据集上不同ALR算法所选样本(星号)的t-SNE可视化.

    Fig.  6  t-SNE visualization of the selected samples (asterisks) from different ALR approaches on the Housing dataset.

    图  7  对于不同的 $c_{\max}$ , 4种ALR算法的AUC-mRMSE和AUC-mCC相对于RS在12个数据集上的平均比率.

    Fig.  7  Ratios of AUCs of the mean RMSEs and the mean CCs for different $c_{\max}$ , averaged across 12 datasets.

    图  8  对于不同的 $\lambda$ (RR和LASSO)和 $C$ (线性SVR), 4种ALR算法的AUC-mRMSE和AUC-mCC相对于RS在12个数据集上的平均比率.

    Fig.  8  Ratios of the AUCs of the mean RMSEs and the mean CCs, averaged across 12 datasets, for different $\lambda$ (RR and LASSO) and $C$ (linear SVR).

    图  9  对于不同的 $M$ , IRD及其变体的mRMSE和mCC相对于RS在12个数据集上的平均比率.

    Fig.  9  Ratios of the mean RMSEs and the mean CCs w.r.t. different $M$ , averaged across 12 datasets.

    表  1  基于池的无监督ALR方法中考虑的标准.

    Table  1  Criteria considered in the three existing and the proposed unsupervised pool-based ALR approaches.

    方法 信息性 代表性 多样性
    现有方法 P-ALICE $\checkmark$ $-$ $-$
    GSx $-$ $-$ $\checkmark$
    RD $-$ $\checkmark$ $\checkmark$
    本文方法 IRD $\checkmark$ $\checkmark$ $\checkmark$
    下载: 导出CSV

    表  2  12个数据集的总结.

    Table  2  Summary of the 12 regression datasets.

    数据集 来源 样本个数 原始特征个数 数字型特征个数 类别型特征个数 总的特征个数
    Concrete-CS $^1$ UCI 103 7 7 0 7
    Yacht $^2$ UCI 308 6 6 0 6
    autoMPG $^3$ UCI 392 7 6 1 9
    NO2 $^4$ StatLib 500 7 7 0 7
    Housing $^5$ UCI 506 13 13 0 13
    CPS $^6$ StatLib 534 10 7 3 19
    EE-Cooling $^7$ UCI 768 7 7 0 7
    VAM-Arousal $^8$ ICME 947 46 46 0 46
    Concrete $^9$ UCI 1030 8 8 0 8
    Airfoil $^{10}$ UCI 1503 5 5 0 5
    Wine-Red $^{11}$ UCI 1599 11 11 0 11
    Wine-White $^{11}$ UCI 4898 11 11 0 11
    $^1$ https://archive.ics.uci.edu/ml/datasets/Concrete+Slump+Test
    $^2$ https://archive.ics.uci.edu/ml/datasets/Yacht+Hydrodynamics
    $^3$ https://archive.ics.uci.edu/ml/datasets/auto+mpg
    $^4$ http://lib.stat.cmu.edu/datasets/
    $^5$ https://archive.ics.uci.edu/ml/machine-learning-databases/housing/
    $^6$ http://lib.stat.cmu.edu/datasets/CPS_85_Wages
    $^7$ http://archive.ics.uci.edu/ml/datasets/energy+efficiency
    $^8$ https://dblp.uni-trier.de/db/conf/icmcs/icme2008.html
    $^9$ https://archive.ics.uci.edu/ml/datasets/Concrete+Compressive+Strength
    $^{10}$ https://archive.ics.uci.edu/ml/datasets/Airfoil+Self-Noise
    $^{11}$ https://archive.ics.uci.edu/ml/datasets/Wine+Quality
    下载: 导出CSV

    表  3  AUC-mRMSE/sRMSE和AUC-mCC/sCC的提升百分比.

    Table  3  Percentage improvements of the AUCs of the mean/std RMSEs and the mean/std CCs.

    回归模型 性能指标 相对于RS的提升百分比
    P-ALICE GSx RD IRD
    RR RMSE Mean 2.58 -2.57 4.15 8.63
    std 2.75 3.98 36.60 34.84
    CC Mean 6.54 -3.43 10.39 18.70
    std 12.74 29.47 35.03 42.97
    LASSO RMSE Mean 4.22 0.84 7.58 10.81
    std 6.77 0.85 43.45 39.84
    CC Mean 25.06 69.41 25.67 60.63
    std 6.39 31.05 22.46 29.82
    SVR RMSE Mean 4.21 0.66 5.23 12.12
    std 6.62 -0.19 33.99 38.69
    CC Mean 9.71 -1.65 12.46 28.99
    std 11.10 25.78 34.97 43.25
    下载: 导出CSV

    表  4  非参数多重检验的 $p$ 值( $\alpha=0.05$ ; 如果 $p<\alpha/2$ 拒绝 $H_0$ ).

    Table  4  $p$ -values of non-parametric multiple comparisons ( $\alpha=0.05$ ; reject $H_0$ if $p<\alpha/2$ ).

    回归模型 性能指标 IRD versus
    RS P-ALICE GSx RD
    RR RMSE 0.0000 0.0003 0.0000 0.0284
    CC 0.0000 0.0000 0.0000 0.0005
    LASSO RMSE 0.0000 0.0004 0.0000 0.0596
    CC 0.0000 0.0000 0.0000 0.0000
    SVR RMSE 0.0000 0.0000 0.0000 0.0018
    CC 0.0000 0.0000 0.0000 0.0000
    下载: 导出CSV
  • [1] Mehrabian A. Basic Dimensions for a General Psychological Theory: Implications for Personality, Social, Environmental, and Developmental Studies. Oelgeschlager, Gunn & Hain, 1980
    [2] Grimm M, Kroschel K, and Narayanan S S. The Vera Am Mittag German audio-visual emotional speech database. In: Proc. Int’l Conf. on Multimedia & Expo (ICME). Hannover, German, June 2008. 865−868
    [3] Bradley M M, Lang P J. The international affective digitized sounds (2nd edition; IADS-2): Affective ratings of sounds and instruction manual, Technical Report B-3, University of Florida, Gainesville, FL, 2007
    [4] Joo J, Wu D, Mendel J M, Bugacov A. Forecasting the post fracturing response of oil wells in a tight reservoir. In: Proc. SPE Western Regional Meeting. San Jose, CA, March 2009
    [5] Settles B. Active learning literature survey, Computer Sciences Technical Report 1648, University of Wisconsin– Madison, Madison, WI, 2009
    [6] Burbidge R, Rowland J J, King R D. Active learning for regression based on query by committee. Lecture Notes in Computer Science, 2007, 4881: 209−218
    [7] Cai W, Zhang M, Zhang Y. Batch mode active learning for regression with expected model change. IEEE Trans. on Neural Networks and Learning Systems, 2017, 28(7): 1668−1681 doi:  10.1109/TNNLS.2016.2542184
    [8] Cai W, Zhang Y, Zhou J. Maximizing expected model change for active learning in regression. In: Proc. IEEE 13th Int’l. Conf. on Data Mining. Dallas, TX, December 2013
    [9] Cohn D A, Ghahramani Z, Jordan M I. Active learning with statistical models. Journal of Artificial Intelligence Research, 1996, 4(1): 129−145
    [10] Freund Y, Seung H, Shamir E, Tishby N. Selective sampling using the query by committee algorithm. Machine Learning, 1997, 28(2-3): 133−168
    [11] MacKay D. Information-based objective functions for active data selection. Neural Computation, 1992, 4(4): 590−604 doi:  10.1162/neco.1992.4.4.590
    [12] Sugiyama M. Active learning in approximately linear regression based on conditional expectation of generalization error. Journal of Machine Learning Research, 2006, 7: 141−166
    [13] Sugiyama M, Nakajima S. Pool-based active learning in approximate linear regression. Machine Learning, 2009, 75(3): 249−274 doi:  10.1007/s10994-009-5100-3
    [14] Willett R, Nowak R, Castro R M. Faster rates in regression via active learning. In: Proc. Advances in Neural Information Processing Systems. Vancouver, Canada, December 2006. 179−186
    [15] Wu D, Lawhern V J, Gordon S, Lance B J, Lin C T. Offline EEG-based driver drowsiness estimation using enhanced batch-mode active learning (EBMAL) for regression. In: Proc. IEEE Int’l Conf. on Systems, Man and Cybernetics. Budapest, Hungary, October 2016. 730−736
    [16] Yu H, Kim S. Passive sampling for regression. In: Proc. IEEE Int’l. Conf. on Data Mining. Sydney, Australia, December 2010. 1151−1156
    [17] Wu D. Pool-based sequential active learning for regression. IEEE Trans. on Neural Networks and Learning Systems, 2019, 30(5): 1348−1359 doi:  10.1109/TNNLS.2018.2868649
    [18] Wu D, Lin C T, Huang J. Active learning for regression using greedy sampling. Information Sciences, 2019, 474: 90−105 doi:  10.1016/j.ins.2018.09.060
    [19] Liu Z, Wu D. Integrating informativeness, representativeness and diversity in pool-based sequential active learning for regression. In: Proc. Int’l Joint Conf. on Neural Networks. Glasgow, UK, July 2020
    [20] Wu D, Huang J. Affect estimation in 3D space using multitask active learning for regression. IEEE Trans. on Affective Computing, to be published
    [21] Tong S, Koller D. Support vector machine active learning with applications to text classification. Journal of Machine Learning Research, 2001, 2(Nov): 45−66
    [22] Lewis D, Catlett J. Heterogeneous uncertainty sampling for supervised learning. In: Proc. Int’l Conf. on Machine Learning (ICML). New Brunswick, NJ, July 1994. 148−156
    [23] Lewis D, Gale W. A sequential algorithm for training text classifiers. In: Proc. ACM SIGIR Conf. on Research and Development in Information Retrieval. Dublin, Ireland, July 1994. 3−12
    [24] Grimm M, Kroschel K. Emotion estimation in speech using a 3D emotion space concept. Robust Speech Recognition and Understanding, Austria: InTech, 2007. 281−300
    [25] Grimm M, Kroschel K, Mower E, Narayanan S S. Primitivesbased evaluation and estimation of emotions in speech. Speech Communication, 2007, 49: 787−800 doi:  10.1016/j.specom.2007.01.010
    [26] Wu D, Parsons T D, Mower E, Narayanan S S. Speech emotion estimation in 3D space. In: Proc. IEEE Int’l Conf. on Multimedia & Expo (ICME). Singapore, July 2010. 737−742
    [27] Wu D, Parsons T D, Narayanan S S. Acoustic feature analysis in speech emotion primitives estimation. In: Proc. InterSpeech. Makuhari, Japan, September 2010
    [28] Dunn O J. Multiple comparisons among means. Journal of the American Statistical Association, 1961, 56: 62−64
    [29] Benjamini Y, Hochberg Y. Controlling the false discovery rate: A practical and powerful approach to multiple testing. Journal of the Royal Statistical Society, Series B (Methodological), 1995, 57: 289−300 doi:  10.1111/j.2517-6161.1995.tb02031.x
    [30] Maaten L V D, Hinton G. Visualizing data using t-SNE. Journal of Machine Learning Research, 2008, 9: 2579−2605
  • [1] 姚红革, 张玮, 杨浩琪, 喻钧. 深度强化学习联合回归目标定位[J]. 自动化学报, doi: 10.16383/j.aas.c200045
    [2] 邱保志, 张瑞霖, 李向丽. 基于残差分析的混合属性数据聚类算法[J]. 自动化学报, doi: 10.16383/j.aas.2018.c180030
    [3] 石勇, 李佩佳, 汪华东. L2损失大规模线性非平行支持向量顺序回归模型[J]. 自动化学报, doi: 10.16383/j.aas.2018.c170438
    [4] 刘巧元, 王玉茹, 张金玲, 殷明浩. 基于相关滤波器的视频跟踪方法研究进展[J]. 自动化学报, doi: 10.16383/j.aas.2018.c170394
    [5] 张龙, 赵杰煜, 叶绪伦, 董伟. 协作式生成对抗网络[J]. 自动化学报, doi: 10.16383/j.aas.2018.c170483
    [6] 谭侃, 高旻, 李文涛, 田仁丽, 文俊浩, 熊庆宇. 基于双层采样主动学习的社交网络虚假用户检测方法[J]. 自动化学报, doi: 10.16383/j.aas.2017.c160308
    [7] 耿志强, 张怡康. 一种基于胶质细胞链的改进深度信念网络模型[J]. 自动化学报, doi: 10.16383/j.aas.2016.c150727
    [8] 时增林, 叶阳东, 吴云鹏, 娄铮铮. 基于序的空间金字塔池化网络的人群计数方法[J]. 自动化学报, doi: 10.16383/j.aas.2016.c150663
    [9] 周晓剑. 考虑梯度信息的ε-支持向量回归机[J]. 自动化学报, doi: 10.3724/SP.J.1004.2014.02908
    [10] 梁炎明, 苏芳, 李琦, 刘丁. 基于支持向量机回归的T-S模糊模型自组织算法及应用[J]. 自动化学报, doi: 10.3724/SP.J.1004.2013.02143
    [11] 易辉, 宋晓峰, 姜斌, 刘宇芳, 周智华. 柔性支持向量回归及其在故障检测中的应用[J]. 自动化学报, doi: 10.3724/SP.J.1004.2013.00272
    [12] 丁朋, 卿湘运, 王行愚. 基于Fenchel对偶的核Logistic回归并行学习算法[J]. 自动化学报, doi: 10.3724/SP.J.1004.2011.01145
    [13] 班晓娟, 刘浩, 徐卓然. 一种基于能量人工神经元模型的自生长、自组织神经网络[J]. 自动化学报, doi: 10.3724/SP.J.1004.2011.00615
    [14] 周金柱, 黄进. 集成先验知识的多核线性规划支持向量回归[J]. 自动化学报, doi: 10.3724/SP.J.1004.2011.00360
    [15] 陈荣, 曹永锋, 孙洪. 基于主动学习和半监督学习的多类图像分类[J]. 自动化学报, doi: 10.3724/SP.J.1004.2011.00954
    [16] 胡亮, 车喜龙. 基于Nu-支持向量回归的网格资源监控与预测系统[J]. 自动化学报, doi: 10.3724/SP.J.1004.2010.00139
    [17] 苗宇, 苏宏业, 褚健. 非线性动态系统中迭代的同步数据协调与显著误差检测的支持向量回归方法[J]. 自动化学报, doi: 10.3724/SP.J.1004.2009.00707
    [18] 王玲, 穆志纯, 郭辉. 自组织映射算法与基于专家系统的支持向量回归的结合[J]. 自动化学报
    [19] 韦巍. 一种回归神经网络的快速在线学习算法[J]. 自动化学报
    [20] 刘伟杰, 张以杰. 模糊函数模型辨识的引导点方法[J]. 自动化学报
  • 加载中
计量
  • 文章访问数:  16
  • HTML全文浏览量:  3
  • 被引次数: 0
出版历程
  • 收稿日期:  2020-02-17
  • 录用日期:  2020-08-14

基于池的无监督线性回归主动学习

doi: 10.16383/j.aas.c200071
    基金项目:  湖北省技术创新专项资助项目(2019AEA171), 国家自然科学基金资助项目(61873321), NSFC-深圳机器人基础研究中心重点项目(U1913207), 科技部政府间国际科技创新合作重点专项(2017YFE0128300)资助
    作者简介:

    2017年获得武汉理工大学自动化专业学士学位, 2020年获得华中科技大学控制科学与工程硕士学位. 主要研究方向为机器学习. E-mail: ziangliu@hust.edu.cn

    华中科技大学人工智能与自动化学院博士研究生. 2019年获得西南大学电子信息工程学院学士学位. 主要研究方向为机器学习, 脑机接口和情感计算. E-mail: xuejiang@hust.edu.cn

    华中科技大学人工智能与自动化学院教授, 博士生导师, 图像信息处理与智能控制教育部重点实验室副主任. 主要研究方向为机器学习、脑机接口、计算智能、情感计算. 本文通信作者. E-mail: drwu@hust.edu.cn

摘要: 在许多现实的机器学习应用场景中, 获取大量未标注的数据是很容易的, 但标注过程需要花费大量的时间和经济成本. 因此, 在这种情况下, 需要选择一些最有价值的样本进行标注, 从而只利用较少的标注数据就能训练出较好的机器学习模型. 主动学习已被广泛应用于解决这种场景下的问题. 但是, 大多数现有的主动学习方法都是基于有监督场景: 能够从少量带标签的样本中训练初始模型, 基于模型查询新的样本, 然后迭代更新模型. 无监督情况下的主动学习却很少有人考虑, 即在不知道任何标签信息的情况下最佳地选择要标注的初始训练样本. 这种场景下, 主动学习问题变得更加困难, 因为无法利用任何标签信息. 针对这一场景, 本文研究了基于池的无监督线性回归问题, 提出了一种新的主动学习方法, 该方法同时考虑了信息性、代表性和多样性这三个标准. 本文在3个不同的线性回归模型(岭回归, LASSO和线性支持向量回归)和来自不同应用领域的12个数据集上进行了广泛的实验, 验证了其有效性.

English Abstract

刘子昂, 蒋雪, 伍冬睿. 基于池的无监督线性回归主动学习. 自动化学报, 2020, 46(x): 1−13. doi: 10.16383/j.aas.c200071
引用本文: 刘子昂, 蒋雪, 伍冬睿. 基于池的无监督线性回归主动学习. 自动化学报, 2020, 46(x): 1−13. doi: 10.16383/j.aas.c200071
Liu Zi-Ang, Jiang Xue, Wu Dong-Rui. Unsupervised pool-based active learning for linear regression. Acta Automatica Sinica, 2020, 46(x): 1−13. doi: 10.16383/j.aas.c200071
Citation: Liu Zi-Ang, Jiang Xue, Wu Dong-Rui. Unsupervised pool-based active learning for linear regression. Acta Automatica Sinica, 2020, 46(x): 1−13. doi: 10.16383/j.aas.c200071
  • 在机器学习任务中, 往往需要大量的有标签训练数据以获得更好的性能. 但是, 在许多实际应用场景中, 获取未标注的数据相对容易, 标注过程却很困难, 通常需要投入大量的时间和经济成本. 例如, 在语音信号的情感估计问题中, 可以很容易地记录大量语音, 但是要对语音进行三个维度的评估[1](愉悦度、唤醒度和优势度), 评估者必须反复倾听, 仔细检查. 此外, 由于情感估计具有主观性, 而且部分数据可能只存在细微差异, 通常需要多个评估者, 例如, VAM语料库[2]用到6-17个评估者, IADS-2[3]用到至少110个评估者. 在石油和天然气行业中, 研究油井压裂后180天的累计产油量预测问题[4]有利于提高采收率, 输入信息(油井的压裂参数, 例如油井位置、射孔长度、区域/孔的数量、注入的泥浆/水/砂的体积等)可以在压裂操作期间记录, 但要获得地面产量(压裂后180天累计产油量), 至少需要等待180天.

    在很多这样的问题场景中, 如何确定最优的未标注样本进行标注是非常重要的. 主动学习(Active Learning, AL)[5]可以用于解决此类问题, 它通过选择较少的有价值样本进行标注从而获得性能较好的机器学习模型, 从而减少数据标注工作.

    主动学习可用于分类问题和回归问题. 已有许多用于分类的AL方法[5]被提出, 但回归任务中的AL方法相对较少[6-20]. 这些主动学习回归(Active Learning for Regression, ALR)方法有基于流或基于池[13]的应用场景, 本文考虑的是后者, 即给定一个未标注样本池, ALR需要最优地选择一些样本进行标注, 从中训练出一个较好的线性回归模型.

    现有的大多数基于池的ALR方法[6-12, 14, 15, 19, 20]都考虑的是较简单的有监督场景, 即能够获得少量带标签的样本, 建立初始的回归模型, 然后根据模型选择后续的样本交给专家进行标注. 经过调研, 我们只发现在四项研究[13, 16-18]中明确考虑了完全无监督的基于池的ALR场景(这将在下一节中详细介绍), 即在没有任何标签信息的情况下, 选择最有价值的初始样本进行标注, 这也是本文的重点.

    具体地说, 本文考虑以下问题: 在给定大小为 $ N $ 的未标注样本池中, 如何最佳地选择初始的 $ M $ 个样本进行标注, 从而构建较好的线性回归模型? 这里的 $ M $ 是通过用户指定(通常, 随着 $ M $ 变大, ALR的优势会逐渐减弱). 在本文中, 我们仅关注线性回归模型.

    针对上述问题, 本文提出了一种基于信息性-代表性-多样性(Informativeness-Representativeness-Diversity, IRD)的ALR方法. 通过同时考虑主动学习中的三个重要标准[17]: 信息性、代表性和多样性, 从而确定要查询的 $ M $ 个初始样本. 在3种不同的线性回归模型和来自不同应用领域的12个数据集上的实验表明, 与3种已提出的ALR方法相比, 本文提出的IRD方法所选择的 $ M $ 个样本可以实现更好的性能.

    本文的主要贡献是:

    1. 提出了一种无监督的ALR方法, 同时考虑要选择的 $ M $ 个样本的信息性、代表性和多样性(这里 $ M\le d+1 $ , 其中 $ d $ 是特征维数). 根据调研, 目前文献中ALR的信息性计算都必需输出信息, 还没有无需输出信息的信息性计算方法. 因此, 本文提出的方法是首个可考虑所选样本信息性的完全无监督ALR方法, 具有重要的理论创新性.

    2. 提出了一种迭代式的ALR方法, 同时考虑代表性和多样性, 在 $ M>d+1 $ 时选择另外的 $ M-d-1 $ 个样本.

    3. 在3种常见的线性回归模型和12个真实数据集上的大量实验, 证明了所提出的IRD方法的优越性能.

    本文的组织架构如下: 第1节介绍3种现有的无监督ALR方法, 并指出了它们的局限性; 第2节详细介绍本文提出的IRD算法; 第3节对在12个数据集上的实验进行了讨论和分析; 最后, 第4节给出本文的结论.

    • Wu[17]提出了以下三个基于池的有监督ALR方法应该考虑的标准. 这些标准也适用于无监督的ALR问题:

      1. 信息性: 可以通过不确定性(熵、到决策边界的距离、预测的置信度等)、模型改变期望(expected model change)、误差缩减期望(expected error reduction)等来度量.

      2. 代表性: 可以通过与目标样本相似或接近的样本数量来度量. 跟目标样本相似或接近的样本越多, 那么该目标样本代表性越强. 此标准优先选择靠近簇中心的样本, 或者分布稠密处的样本, 可防止选择离群点. 例如在图1中, 需要构建一个回归模型从输入 $ x_1 $ $ x_2 $ 中预测输出. 两个绿色的点是已经选中的待标注样本, 现在需要从灰色的点中选出第3个待标注样本. 很显然, 从包含'A'的簇中选出一个样本比选择样本'B'更好, 因为'A'处样本稠密, 代表性强, 而样本'B'远离其他样本, 很可能是个离群点, 选出后对构建回归模型有害无利, 反而不如只用最初选出的两个绿色样本的效果.

      图  1  基于池的ALR中样本的代表性与多样性[17]

      Figure 1.  Illustration of representativeness and diversity in pool-based ALR[17]

      3. 多样性: 所选样本应尽可能分散在整个输入空间中, 而不是一个小的局部中, 以便学习一个良好的全局模型. 例如图1 中, 绝大部分样本分布在3个簇中, 那么选择3个样本时, 应该从3个簇中分别选出一个, 让样本更加多样, 而不是只从其中一个或两个簇中选.

      多样性和代表性经常会有一定的冲突, 所以应该折中平衡考虑. 一个常用的方法是先对所有待选样本聚类, 然后选取不同簇中靠近簇中心的样本, 如下文中的RD方法.

      接下来, 我们介绍3种在文献中已有的基于池的无监督ALR方法, 并对照以上三个标准对其进行检查. 假设数据池由 $ N $ $ d $ 维未标注样本 ${\bf{x}} _n = [x_{n,1},x_{n,2},\cdots,x_{n,d}]^{\rm{T}}\in{\bf{R}}^{d\times 1}$ , $n = 1,2,\cdots,N$ 组成, 用户将从中选择 $ M $ 个进行标注.

    • Sugiyama和Nakajima[13]提出了一种基于泛化误差条件期望的重要性加权最小二乘方法(P-ALICE), 这是一种无监督的ALR算法, 用于选择要标注的初始少量样本. 其主要思想是识别 $ M $ 个样本及其相关权重, 计算训练样本与测试样本之间的协变量偏移, 由这 $ M $ 个样本构建的加权线性回归模型可以最小化 $ N $ 个样本上的均方损失估计值.

      $$ {\bf{U}} = \dfrac{1}{N}\sum\limits_{n = 1}^N {\bf{x}}_n{\bf{x}}_n^{\rm{T}}\in {\bf{R}}^{d\times d}, $$ (1)

      $ {\bf{U}}^{-1}\in {\bf{R}}^{d\times d} $ $ {\bf{U}} $ 的逆, $ {\bf{U}}^{-1}_{i,j} $ 表示 $ {\bf{U}}^{-1} $ 的第 $ (i,j) $ 个元素. P-ALICE首先定义关于 $ \lambda $ 的重采样偏差函数:

      $$ b^\lambda({\bf{x}}_n) = \left(\sum\limits_{i,j = 1}^d {\bf{U}}^{-1}_{i,j}x_{n,i}x_{n,j}\right)^\lambda $$ (2)

      其中, $ \lambda\in[0,1] $ , 对于每个不同的 $ \lambda $ , 从样本池中选择 $ M $ 个未标注样本的概率与 $ b^\lambda({\bf{x}}_n) $ 成正比. 将所选样本表示为 $ \{{\bf{x}} _m^\lambda\}_{m = 1}^M $ , 那么, 在 $ N $ 个样本上的均方损失可以如下进行估计:

      $$ Q(\lambda) = {\rm{trace}}[{\bf{UL}}^\lambda({\bf{L}}^\lambda)^{\rm{T}}], $$ (3)

      其中

      $$ {\bf{L}} = [{\bf{X}}^\lambda{\bf{W}}^\lambda({\bf{X}}^\lambda)^T]^{-1} {\bf{X}}^\lambda{\bf{W}}^\lambda \in {\bf{R}}^{d\times M}, $$ (4)

      其中

      $$ {\bf{X}}^\lambda = [{\bf{x}}_1^\lambda,{\bf{x}}_2^\lambda,\cdots,{\bf{x}}_M^\lambda] \in{\bf{R}}^{d\times M} $$ (5)
      $$ {\bf{W}}^\lambda = \!{\rm{diag}}([b^\lambda({\bf{x}}_1^\lambda),b^\lambda({\bf{x}}_2^\lambda),\!\cdots,\! b^\lambda({\bf{x}}_M^\lambda)]^{-1})\!\in \! {\bf{R}}^{M\! \times \!M} $$ (6)

      然后, P-ALICE确定 $ \lambda^* = \arg\min_{\lambda} Q(\lambda) $ , 即选择使得在 $ N $ 个样本上均方损失最小的 $ \lambda^* $ , 并选择相应的 $ \{{\bf{x}} ^{\lambda^*}_m\}_{m = 1}^M $ 进行标注. 由于每个选择的 $ {\bf{x}}^{\lambda^*}_i $ 关联一个权重 $ b^{\lambda^*}({\bf{x}}^{\lambda^*}_i) $ , P-ALICE最后会计算得到一个加权线性回归模型, 以适应训练样本和测试样本之间的协变量偏移.

      综上所述, 对照ALR的三个标准, P-ALICE只考虑了信息性(均方损失估计值), 没有考虑代表性和多样性.

    • Yu和Kim[16]提出了一种基于贪婪采样(Greedy sampling, GS)的ALR算法. 在给定一个初始未标注样本的情况下, GS不需要任何标签信息就可以选择其他未标注的样本. 但是, GS初始至少需要一个确定的未标注样本, 文中并没有对第一个样本的选取进行解释. 因此, Wu、Lin和Huang[18]提出了GSx方法, 将第一个样本指定为最接近 $ N $ 个未标注样本中心的样本. 接下来对GSx算法进行介绍.

      不失一般性, 假设GSx已选择了前 $ M_0 $ 个样本. 对于剩余的 $ N-M_0 $ 个未标注样本 $ {\{{\bf{x}}_n\}}^N_{n = M_0+1} $ , GSx首先计算每个样本到 $ M_0 $ 个已选样本的距离, 即

      $$ d_{nm} = \!||{x}_{n}\!-\!{x}_{m}\!||,\quad \!m\! = \!1,\cdots,\!M_0;n\! = \! M_0\!+\!1,\cdots,\!N $$ (7)

      然后, 计算 $ {x}_{n} $ 到已选 $ M_0 $ 个样本的最小距离 $ \underline{d}_n $ , 即

      $$ \underline{d}_n = \min_{m}d_{nm},\quad n = M_0+1,\cdots,N $$ (8)

      再选择具有最大 $ \underline{d}_n $ 的样本进行标注. 重复此过程, 直到选择的样本数量达到 $ M $ .

      综上所述, 对照ALR的三个标准, GSx仅考虑多样性, 没有考虑信息性和代表性.

    • Wu[17]提出了一种基于样本代表性(Representativeness)和多样性(diversity)的方法, 简称RD.

      RD主要由两部分组成, 一部分是初始化(无监督过程), 另一部分是后续迭代(有监督过程). RD的无监督过程首先对 $ N $ 个未标注样本进行 $ k $ -means聚类( $ k = d+1 $ ), 然后选择最接近每个聚类中心的样本进行标注. 在文献[15]中也使用过类似的方法.

      顾名思义, RD在初始化时仅考虑代表性和多样性, 没有考虑信息性.

    • 表1中总结了P-ALICE、GSx和RD考虑的标准. 可见, 这3种方法都只考虑了ALR的三个基本标准中的一个或两个. 因此, 仍有改进的空间.

      表 1  基于池的无监督ALR方法中考虑的标准.

      Table 1.  Criteria considered in the three existing and the proposed unsupervised pool-based ALR approaches.

      方法 信息性 代表性 多样性
      现有方法 P-ALICE $\checkmark$ $-$ $-$
      GSx $-$ $-$ $\checkmark$
      RD $-$ $\checkmark$ $\checkmark$
      本文方法 IRD $\checkmark$ $\checkmark$ $\checkmark$
    • 本节对本文提出的基于池的无监督ALR算法——IRD进行介绍. 顾名思义, IRD同时考虑信息性、代表性和多样性.

      $ M $ 为要选择的样本数量, $ d $ 为特征维数. 接下来分别讨论IRD算法在三种情形( $ M = d+1 $ , $ M<d+1 $ , 以及 $ M>d+1 $ )下的实现.

    • 对于 $ d $ 维特征数据, 通常需要选择至少 $ d+1 $ 个样本来构造一个线性回归模型 $ f({\bf{x}}) = {\bf{x}}^{\rm{T}}{\bf{w}}+b $ , 其中 $ {\bf{w}}\in {\bf{R}}^{d\times 1} $ 为回归系数, $ b $ 为偏置. 接下来从 $ d = 2 $ 维的特殊样本开始, 对IRD的基本思想解释说明(图2).

      图  2  当 $d=2$ 时IRD算法图示

      Figure 2.  Illustration of IRD when $d=2$

      假设前两个未标注样本 $ {\bf{x}}_1 $ $ {\bf{x}}_2 $ 已确定, 现在需要选择第三个样本 $ \{{\bf{x}}_n\}_{n = 3}^N $ . 为了便于说明, 记 $\bar{{\bf{x}}}_n = [{\bf{x}}_n; y_n]\in{\bf{R}}^{(d+1)\times 1}$ , $n = 1,\cdots,N$ .

      假设 $ H' $ 为通过 $ \bar{{\bf{x}}}_1 $ $ \bar{{\bf{x}}}_2 $ $ d $ 维最佳流形, 并且能够最佳地拟合其余的 $ N-2 $ 个样本. 在无监督问题中, $ H' $ 是未知的, 但如果给定所有 $ \bar{{\bf{x}}}_n $ , 并要求 $ H' $ 必须通过 $ \bar{{\bf{x}}}_1 $ $ \bar{{\bf{x}}}_2 $ , 那么一定会存在这样的 $ H' $ .

      任何的 $ \bar{{\bf{x}}}_n $ ( $n = 3,\cdots,N$ )和 $ \{\bar{{\bf{x}}}_1,\bar{{\bf{x}}}_2\} $ 可以确定一个二维流形 $ H $ , 如图2所示. 那么 $ H $ $ H' $ 会在 $ \overrightarrow{\bar{{\bf{x}}} _1\bar{{\bf{x}}}_2} $ 上相交. 在 $ \overrightarrow{\bar{{\bf{x}}}_1\bar{{\bf{x}}}_2} $ 上找到一点 $ \bar{{\bf{x}}} _v $ 使得 $ \overrightarrow{\bar{{\bf{x}}}_1\bar{{\bf{x}}}_2}\perp \overrightarrow{\bar{{\bf{x}}}_v\bar{{\bf{x}}}_n} $ , 其中 $ \bar{{\bf{x}}} _v\bar{{\bf{x}}}_n\in H $ , 如图2所示.

      那么, 为了获得最佳性能, 则希望 $ H $ 能够尽可能地接近 $ H' $ . 接下来将详细解释如何识别最佳的 $ {\bf{x}}_n^* $ .

      $ \overrightarrow{\bar{{\bf{x}}}_n\bar{{\bf{x}}}_n'} $ 通过 $ \bar{{\bf{x}}}_n $ , 并且平行于 $ y $ 轴, 和 $ H' $ 相交于 $ \bar{{\bf{x}}}_n' $ . 那么, 可以用 $ \overrightarrow{\bar{{\bf{x}}}_v\bar{{\bf{x}}}_n} $ $ \overrightarrow{\bar{{\bf{x}}}_v\bar{{\bf{x}}}_n'} $ 之间的角度 $ \theta $ 来表示 $ H $ $ H' $ 间的接近程度.

      图2中, 可以得到:

      $$ |\theta|\propto \dfrac{|\bar{{\bf{x}}}_n-\bar{{\bf{x}}}_n'|}{|\bar{{\bf{x}}}_v-\bar{{\bf{x}}}_n'|} = \dfrac{|y_n-y_n'|}{\sqrt{(y_n'-y_n'')^2+|\bar{{\bf{x}}}_v-\bar{{\bf{x}}}_n''|^2}}, $$ (9)

      其中, 分子部分 $ |y_n-y_n'| $ 取决于 $ y_n $ $ y_n' $ , 这在无监督问题中是未知的, 只能忽略它. 分母部分由两项组成, 第一项 $ y_n'-y_n'' $ 也是未知的, 同样忽略它. 第二项 $ |\bar{{\bf{x}}}_v-\bar{{\bf{x}}}_n''| $ 可以在无监督的ALR中计算得到. 因为 $ \bar{{\bf{x}}}_v $ $ \bar{{\bf{x}}}_n'' $ 具有相同的 $ y $ , 所以 $ |\bar{{\bf{x}}}_v-\bar{{\bf{x}}}_n''| $ $ y $ 无关, 等于 $ |{\bf{x}}_v-{\bf{x}}_n| $ , 即 $ {\bf{x}}_n $ $ \overrightarrow{{\bf{x}}_1{\bf{x}}_2} $ 的距离, 如图2所示.

      因此, 基于以上推导和可以在基于池的无监督ALR中使用的所有信息, 可以近似得到:

      $$ |\theta|\propto \frac{1}{|{\bf{x}}_v-{\bf{x}}_n|}. $$ (10)

      式(10)从希望 $ H $ $ H' $ 尽可能接近推导而来, 因此这考虑了 $ {\bf{x}}_n $ 的信息性. 此外, $ |{\bf{x}}_v-{\bf{x}}_n| $ 也可以看作从 $ {\bf{x}}_n $ 到已确定样本(在这里也就是 $ \bar{{\bf{x}}}_1 $ $ \bar{{\bf{x}}}_2 $ )之间的距离. 要使 $ \theta $ 变小, 则需要 $ |{\bf{x}} _v-{\bf{x}}_n| $ 尽可能大, 即式(10)也保证了所选样本之间的多样性. 综上所述, 使用式(10)选择第三个样本时同时考虑了信息性和多样性.

      但是, 如果仅使用式(10)作为选择第三个样本的准则, 它将始终选择距离 $ \overrightarrow{{\bf{x}}_1{\bf{x}}_2} $ 最远的样本, 那很有可能是一个离群点. 为了同时考虑到代表性, 可以计算从 $ {\bf{x}}_n $ $ N $ 个样本的平均距离, 结合到式(10)中, 从而选择最佳的样本进行标注:

      $$ {\bf{x}}_n^* =\arg \mathop {\min }\limits_{{{\bf{x}}_n}} \dfrac{\left(\dfrac{1}{N}\sum\limits_{i = 1}^N\left|{\bf{x}}_i-{\bf{x}}_n\right|^2\right)^{\dfrac{1}{2}}} {|{\bf{x}}_v-{\bf{x}}_n|} $$ (11)

      $ d>2 $ 时, 同理, 可以用 $ (d-1) $ 维流形 $ C $ 来代替 $ \overrightarrow{{\bf{x}}_1{\bf{x}}_2} $ , 所有已确定的 $ d $ 个样本 $ \{\bar{{\bf{x}}}_t\}_{t = 1}^d $ 都位于这个流形上. 那么, 可以将式(11)改写为:

      $$ {\bf{x}}_n^* = \arg \mathop {\min }\limits_{{{\bf{x}}_n}} \dfrac{\left(\dfrac{1}{N}\sum\limits_{i = 1}^N|{\bf{x}}_i-{\bf{x}}_n|^2\right)^{\dfrac{1}{2}}} {{\rm{dist}}({\bf{x}}_n,C)} $$ (12)

      其中 $ {\rm{dist}}({\bf{x}}_n,C) $ 表示从 $ {\bf{x}}_n $ 到流形 $ C $ 的距离.

      为了计算 $ {\rm{dist}}({\bf{x}}_n,C) $ , 首先需要找到一个垂直于 $ C $ 的向量 $ {\bf{w}}\in {\bf{R}}^{d\times 1} $ , 即满足

      $$ {\left[ {\begin{array}{*{20}{c}} {{{\bf{x}}_1}}&{{{\bf{x}}_2}}& \cdots &{{{\bf{x}}_d}}\\ 1&1& \cdots &1 \end{array}} \right]^{\rm{T}}}\left[ {\begin{array}{*{20}{c}} {\bf{w}}\\ b \end{array}} \right] = {\bf{0}}. $$ (13)

      那么,

      $$ {\rm{dist}}({\bf{x}}_n,C) = \frac{{\bf{x}}_n^{\rm{T}}{\bf{w}}+b}{|{\bf{w}}|}. $$ (14)

      类似于式(12)的方法尚未出现在ALR中. 在用于分类的AL方法中, 有一些用于选择最接近当前分类边界的样本(即具有最大不确定性的样本)进行标注的方法[21-23], 但是它们与式(12)有3个显著区别:

      1. 式(12)适用于回归问题, 而目前文献中的选择最接近当前分类边界样本的方法[21-23]都是针对分类问题的.

      2. 式(12)是完全无监督的, 即只需要知道样本的特征信息而无需知道其输出. 文献中针对分类问题的方法[21-23]都是有监督的, 要求必须提供一些有标注的样本来初始化分类器, 从而计算待选样本到分类界面的距离.

      3. 式(12)同时考虑了待选样本的信息性和多样性, 而传统分类问题中的方法[21-23]只考虑信息性.

    • 上述方法是在前 $ d $ 个样本确定的情况下, 选择第 $ (d+1) $ 个样本. 第 $ (d+1) $ 个样本的最优性还取决于前 $ d $ 个样本的最优性.

      因此, 本小节提出一种交替优化方法, 以迭代方式优化第 $ d+1 $ 样本: 首先通过GSx或RD算法确定前 $ d $ 个样本, 再通过式(12)选择第 $ (d+1) $ 个样本. 然后反复固定 $ d $ 个样本, 使用式(12)优化每个样本 $ {\bf{x}}_t $ ( $t = 1,\cdots,d+1$ ). 重复此过程, 直到选择的样本收敛或者达到最大迭代次数.

      $ M = d+1 $ 情形下, IRD的伪代码如算法1所示.

      算法1. $ M = d+1 $ 时的IRD算法

      输入: $ N $ 个未标注样本, $ \{{\bf{x}}_n\}^N_{n = 1} $ , 其中 ${\bf{x}}_n\in {\bf{R}}^{d\times 1}$ ; $ c_{\max} $ , 最大迭代次数.

      输出: $ \{{\bf{x}}_t\}_{t = 1}^M $ , $ M = d+1 $ 个最佳的样本集.

      $ 1: $ 用GSx或者RD算法获得初始的 $ M $ 个样本;

      $ 2: $ $ M $ 个样本的索引保存到矩阵 $ P $ 的第一行;

      $ 3: $ $c = 0$ ;

      $ 4: $ while $ c<c_{\max} $ do

      $ 5: $   记 $ M $ 个已选样本为 $ \{{\bf{x}}_t\}_{t = 1}^M $ , 其余样本记为 $ \{{\bf{x}}_n\}_{n = M+1}^N $ ;

      $ 6: $    for $t = 1,\cdots ,M$ do

      $ 7: $    设 $\{{\bf{x}}_1,\cdots,{\bf{x}}_{t-1},{\bf{x}}_{t+1},\cdots,{\bf{x}}_M\}$ 为流形 $ C $ 上的 $ d $ 个点;

      $ 8: $    根据式(14)计算每个 $ {\bf{x}}_n $ 到流形 $ C $ 的距离 $ {\rm{dist}} ({\bf{x}}_n,C) $ , $n = M+1,\cdots,N$ ;

      $ 9: $    将从式(12)计算的 $ {\bf{x}} _n^* $ 记为 $ {\bf{x}}_t $ ;

      $ 10: $    end for

      $ 11: $    if 当前 $ M $ 个样本的索引和矩阵 $ P $ 的任一行相同 then

      $ 12: $     Break;

      $ 13: $    else

      $ 14: $    将当前 $ M $ 个样本的索引保存到矩阵 $ P $ 的下一行;

      $ 15: $    end if

      $ 16: $    $ c = c+1 $ ;

      $ 16: $ end while

    • 情形一中考虑的是 $ M = d+1 $ , 即所选样本数量刚好等于特征数加1, 这是一种非常特殊的情况. 实际上 $ M $ 可能小于 $ d+1 $ , 在这种情况下, 式(12)中的 $ (d-1) $ 维流形 $ C $ 不能唯一确定, 因此 $ {\bf{x}}_n^* $ 不能直接由式(12)得到.

      对于这种情形, 本小节提出一种新的处理方法: 首先, 对 $ N $ 个样本 $ {\bf{x}}_n $ 进行主成分分析(Principal Component Analysis, PCA), 并确定前 $ M-1 $ 个主成分, 然后将每个 $ {\bf{x}}_n $ 替换为其在 $ M-1 $ 个主成分方向的投影. 则式(12)可以在转换后的 $ {\bf{x}}_n $ 上进行计算.

      $ M<d+1 $ 情形下, IRD的伪代码如算法2所示.

      算法2. $ M<d+1 $ 时的IRD算法.

      输入: $ N $ 个未标注样本, $ \{{\bf{x}}_n\}^N_{n = 1} $ , 其中 ${\bf{x}}_n\in {\bf{R}}^{d\times 1}$ ; $ M $ , 要选择的样本数量( $ M<d+1 $ ); $ c_{\max} $ , 最大迭代次数.

      输出: $ \{{\bf{x}}_t\}_{t = 1}^M $ , 最佳的样本集.

      $ 1: $ $[{\bf{x}}_1\ {\bf{x}}_2\ \cdots {\bf{x}}_N]^T\in {\bf{R}}^{N\times d}$ 进行PCA处理;

      $ 2: $ 将每一个样本 $ {\bf{x}}_n\in {\bf{R}}^{d\times 1} $ 替换为前 $ M-1 $ 个主成分方向的投影;

      $ 3: $ 使用算法1得到 $ M $ 个样本.

    • 本小节考虑 $ M>d+1 $ 的情况.

      首先, 使用算法1初始化 $ d+1 $ 个样本, 然后继续确定另外的 $ M-d-1 $ 个样本: 使用 $ k $ -means聚类( $ k = M-d-1 $ )在剩余的 $ N-d-1 $ 个样本中得到 $ M-d-1 $ 个簇, 然后从每个簇中选择一个样本. 这类似于RD方法, 但本文提出一种改进方法: 不是直接选择最接近每个聚类中心的样本, 而是使用迭代的方法来选择剩余的 $ M-d-1 $ 个样本.

      不失一般性, 假设前 $ d+1 $ 个样本已通过算法1确定, 接下来的 $ M-d-2 $ 个样本也暂时确定(例如最接近其簇中心的样本), 要优化将从第 $ (M-d-1) $ 个簇中选择的第 $ M $ 个样本. 对于这个簇中的每个 $ {\bf{x}} _n $ , 将其与这个簇中其他样本的平均距离的倒数作为其代表性. 记 $ S $ 为第 $ (M-d-1) $ 个簇中样本的索引. 则 $ {\bf{x}}_n $ 的代表性可以表示为

      $$ R({\bf{x}}_n) = \dfrac{|S|}{\sum_{i\in S}|{\bf{x}}_n-{\bf{x}}_i|^2} $$ (15)

      其中, $ |S| $ $ S $ 中元素的个数.

      $ {\bf{x}}_n $ $ M-1 $ 个已选样本的最小距离作为其多样性的度量, 即

      $$ D({\bf{x}}_n) = \mathop {\min }\limits_{t = 1,\cdots ,M - 1} |{\bf{x}}_n-{\bf{x}}_t| $$ (16)

      再结合代表性和多样性:

      $$ RD({\bf{x}}_n) = R({\bf{x}}_n)\cdot D({\bf{x}}_n) $$ (17)

      选择样本

      $$ {\bf{x}}_n^* = \arg \mathop {\max }\limits_{{{\bf{x}}_n}} RD({\bf{x}}_n) $$ (18)

      来代替第 $ M $ 个样本. 对每一个 $ \{{\bf{x}}_t\}_{t = d+2}^M $ 重复此过程, 直到不再更新样本或达到最大迭代次数.

      $ M>d+1 $ 情形下, IRD的伪代码如算法3所示.

      算法3. $ M>d+1 $ 时的IRD算法.

      输入: $ N $ 个未标注样本, $ \{{\bf{x}}_n\}^N_{n = 1} $ , 其中 ${\bf{x}}_n\in {\bf{R}}^{d\times 1}$ ; $ M $ , 要选择的样本数量( $ M>d+1 $ ); $ c_{\max} $ , 最大迭代次数.

      输出: $ \{{\bf{x}}_t\}_{t = 1}^M $ , 待标注的最佳的样本集合.

      $ 1: $ 使用算法1确定前 $ d+1 $ 个样本, 并把它们记为 $ \{{\bf{x}}_t\}_{t = 1}^{d+1} $ ;

      $ 2: $ 在其余的 $ N-d-1 $ 个样本上进行 $ k $ -means聚类, 其中 $ k = M-d-1 $ ;

      $ 3: $ 初始化 $ {\bf{x}}_t $ 为第 $ (t-d-1) $ 个簇中最接近中心点的样本, $t = d+2,\cdots,M$ ;

      $ 4: $ $ M $ 个样本的索引保存到矩阵 $ P $ 的第一行;

      $ 5: $ $c = 0$ ;

      $ 6: $ while $ c<c_{\max} $ do

      $ 7: $    for $t = d+2,\cdots,M$ do

      $ 8: $    将式(18)计算的 $ {\bf{x}}_n^* $ 记为 $ {\bf{x}} _t $ ;

      $ 9: $    end for

      $ 10: $    if 当前 $ M $ 个样本的索引和矩阵 $ P $ 的任一行相同then

      $ 11: $     Break;

      $ 12: $    else

      $ 13: $    将当前 $ M $ 个样本的索引保存到矩阵 $ P $ 的下一行;

      $ 14: $    end if

      $ 15: $    $ c = c+1 $ ;

      $ 16: $ end while

    • 为了验证文中提出的基于池的无监督ALR算法IRD的有效性, 在12个数据集和3种线性回归模型上进行了实验. 本节将对实验结果进行分析讨论.

    • 本文使用了12个来自不同应用领域的数据集进行实验, 其基本情况如表2所示.

      表 2  12个数据集的总结.

      Table 2.  Summary of the 12 regression datasets.

      数据集 来源 样本个数 原始特征个数 数字型特征个数 类别型特征个数 总的特征个数
      Concrete-CS $^1$ UCI 103 7 7 0 7
      Yacht $^2$ UCI 308 6 6 0 6
      autoMPG $^3$ UCI 392 7 6 1 9
      NO2 $^4$ StatLib 500 7 7 0 7
      Housing $^5$ UCI 506 13 13 0 13
      CPS $^6$ StatLib 534 10 7 3 19
      EE-Cooling $^7$ UCI 768 7 7 0 7
      VAM-Arousal $^8$ ICME 947 46 46 0 46
      Concrete $^9$ UCI 1030 8 8 0 8
      Airfoil $^{10}$ UCI 1503 5 5 0 5
      Wine-Red $^{11}$ UCI 1599 11 11 0 11
      Wine-White $^{11}$ UCI 4898 11 11 0 11
      $^1$ https://archive.ics.uci.edu/ml/datasets/Concrete+Slump+Test
      $^2$ https://archive.ics.uci.edu/ml/datasets/Yacht+Hydrodynamics
      $^3$ https://archive.ics.uci.edu/ml/datasets/auto+mpg
      $^4$ http://lib.stat.cmu.edu/datasets/
      $^5$ https://archive.ics.uci.edu/ml/machine-learning-databases/housing/
      $^6$ http://lib.stat.cmu.edu/datasets/CPS_85_Wages
      $^7$ http://archive.ics.uci.edu/ml/datasets/energy+efficiency
      $^8$ https://dblp.uni-trier.de/db/conf/icmcs/icme2008.html
      $^9$ https://archive.ics.uci.edu/ml/datasets/Concrete+Compressive+Strength
      $^{10}$ https://archive.ics.uci.edu/ml/datasets/Airfoil+Self-Noise
      $^{11}$ https://archive.ics.uci.edu/ml/datasets/Wine+Quality

      其中9个数据集来自UCI机器学习数据库, 2个来自CMU StatLib Datasets Archive. 这些数据集在其它的ALR实验[7, 8, 16-18]中也用过. 其中两个数据集(autoMPG和CPS)同时包含数字型和类别型特征, 因此首先使用one-hot编码进行处理, 将类别型特征转换为数字型特征, 再进行ALR实验.

      本文还使用了一个公开的情感计算数据集: Vera am Mittag (VAM)数据库[2], 这个数据库也被广泛应用[20, 24-27]. 它包含来自47位讲话者的947条情感语音样本, 从中提取了46个声学特征[26, 27], 其中包括9个音高特征、5个持续时间特征、6个能量特征和26个MFCC特征, 对情感的3个维度(愉悦度, 唤醒度和优势度)进行预测. 在本文实验中, 只将唤醒度作为回归输出.

      对于每个数据集, 采用z-score对输入的每一维进行标准化.

    • 本文将IRD ( $ c_{\max} = 5 $ )与以下四种算法进行了比较:

      1. 随机采样(random sampling, RS): 随机选择 $ M $ 个样本进行标注.

      2. P-ALICE: 在1.1节中已经介绍. 参数 $ \lambda $ ${\{}0,. 1,.2,.3,.4,.41,.42,\cdots,.59,.6,.7,.8,.9,1{\}}$ 中选择最佳的一个.

      3. GSx, 在1.2节中已经介绍.

      4. RD, 在1.3节中已经介绍.

    • 对于每个数据集, 每一次重复实验随机选择50%的样本作为样本池, 其余50%作为测试集, 每种算法从完全未标注的样本池中选择 $ M\in[5,15] $ 个样本进行标注, 然后建立线性回归模型. 所有实验均重复100次.

      在测试集上进行预测, 使用均方根误差(root mean squared error, RMSE)和相关系数(correlation coefficient, CC)作为性能评价指标.

      对于每种方法, 训练3个不同的线性回归模型:

      1. 岭回归(ridge regression, RR), L2正则化系数 $ \lambda = 0.5 $ . 由于选择的样本数量很少, 本文使用较大的 $ \lambda $ 以减小回归模型的方差.

      2. LASSO, L1正则化系数 $ \lambda = 0.5 $ .

      3. 线性支持向量回归(support vector regression, SVR), $ \epsilon = 0.1\cdot {\rm{std}}(y) $ ( $ {\rm{std}}(y) $ $ M $ 个选择样本真实标签的标准差), box constraint $ C = 1 $ . SVR包含L2正则项, 其等效正则化系数为 $ \frac{1}{2C} $ , 与RR和LASSO中的大小相同.

      在后面的小节中主要给出了RR模型上的结果, 因为它的RMSE和CC通常比LASSO和线性SVR更稳定, 尤其对于RS方法而言. 但是, 如3.5节所示, 当使用LASSO或线性SVR时, IRD相对于其它算法(尤其是RS)的提升效果可能更大.

    • 图3中展示了使用RR作为回归模型, 在12个数据集上5种采样方法的平均RMSE和CC.

      图  3  12个数据集上的平均RMSE和CC(mRMSE和mCC; 重复运行100次). 回归模型为RR ( $\lambda=0.5$ ).

      Figure 3.  Mean of the RMSEs and the CCs on the 12 datasets, averaged over 100 runs. RR ( $\lambda=0.5$ ) was used as the regression model.

      通常, 随着 $ M $ 的增加, 五种采样方法的RMSE和CC也会随之得到改善, 因为有更多的训练样本加入回归训练, 逐渐提升了回归性能. 但仍然可能会存在一些波动, 尤其是在样本数量较少的情况下. 因为仅从少量标注样本中训练得到的线性回归模型可能存在很多随机性和不确定性.

      在大多数数据集和大多数 $ M $ 取值上, RS和GSx具有更大的RMSE和更小的CC, 即它们的性能相对于另外三种算法较差. IRD在大多数数据集和大多数 $ M $ 取值上都取得了最小的RMSE和最大的CC, 表明IRD是表现最佳的样本选择方法.

      为了更全面地进行比较, 我们还计算了100次重复实验RMSE和CC平均值的曲线下面积(Area Under Curve, AUC), 分别记为AUC-mRMSE和AUC-mCC, 结果如图4(a)所示. 由于不同数据集上AUC的大小差异很大, 不便在一张图中展示, 因此根据RS的结果进行了归一化处理, 使图4(a)中RS的结果始终为1.

      图  4  12个数据集上归一化AUC-mRMSE和AUC-mCC

      Figure 4.  Normalized AUCs of the mean RMSEs and the mean CCs on the 12 datasets

      图4(a)显示:

      1. IRD在12个数据集中的10个上均获得了最小的RMSE, 在其余两个数据集中排名第二. 平均而言, IRD取得了最小的RMSE. 它在10个数据集上也取得了最大的CC, 在其余2个数据集上排名第二和第三. 平均而言, IRD也取得了最大的CC.

      2. 平均而言, RD的性能略优于P-ALICE, 两者均优于RS.

      3. GSx在7个数据集上的RMSE表现最差, 在另外3个数据集上排名倒数第二, 平均而言, GSx的RMSE最差. 它在6个数据集中的CC也是最低, 因此其CC平均值也最低.

      因此, 五种算法的性能整体排名是: IRD $ > $ RD $ > $ P-ALICE $ > $ RS $ > $ GSx.

      表3中展示了3个回归模型, 5种无监督采样方法在12个数据集上的平均AUC情况. 当 $ M $ 较小时, GSx表现较差的原因可能是其选择的样本大多是离群点, 而离群点的的负面影响超过了GSx多样性的正面影响. IRD同时考虑了信息性、代表性和多样性, 因此表现最好.

      表 3  AUC-mRMSE/sRMSE和AUC-mCC/sCC的提升百分比.

      Table 3.  Percentage improvements of the AUCs of the mean/std RMSEs and the mean/std CCs.

      回归模型 性能指标 相对于RS的提升百分比
      P-ALICE GSx RD IRD
      RR RMSE Mean 2.58 -2.57 4.15 8.63
      std 2.75 3.98 36.60 34.84
      CC Mean 6.54 -3.43 10.39 18.70
      std 12.74 29.47 35.03 42.97
      LASSO RMSE Mean 4.22 0.84 7.58 10.81
      std 6.77 0.85 43.45 39.84
      CC Mean 25.06 69.41 25.67 60.63
      std 6.39 31.05 22.46 29.82
      SVR RMSE Mean 4.21 0.66 5.23 12.12
      std 6.62 -0.19 33.99 38.69
      CC Mean 9.71 -1.65 12.46 28.99
      std 11.10 25.78 34.97 43.25

      除了准确性, 算法的稳定性也很重要. 实际情况中, 如果多种算法具有相似的性能, 通常首选变化较小, 也就是更稳定的算法. 表3展示了运行100次的AUC-mRMSE和AUC-mCC在12个数据集上的平均标准差(standard deviation, std)提升结果. 可以看到, IRD在标准差上相对于RS的提升最大, 即它是最稳定的ALR方法.

      对于不同的 $ M $ , 我们统计了P-ALICE、GSx、RD和IRD对应的RMSE (CC)相对于RS的比率, 重复100次实验在12个数据集上取平均, 结果如图5所示. 可见, 当 $ M $ 较小时, IRD相对于其他4种方法的提升很大, 因为IRD同时考虑了信息性、代表性和多样性. 随着 $ M $ 的增加, IRD的优越性逐渐下降, 因为随着标注样本数量的增加, 每个样本最优性的影响就会减小.

      图  5  对于不同的 $M$ , 4种ALR方法的mRMSE和mCC相对于RS在12个数据集上的平均比率.

      Figure 5.  Ratios of the mean RMSEs and the mean CCs for different $M$ , averaged across 12 datasets.

    • 当使用LASSO和线性SVR作为线性回归模型时, 我们也重复了上述实验. 结果如图4(b)图4(c)所示. 可以得到和图4(a)类似的结论, 例如IRD始终取得最佳的平均性能, 而RD则优于P-ALICE、RS和GSx. 此外, 整体看来, 相对于RR, 4种ALR算法(特别是IRD)在这两个模型上相对于RS的性能提升更为明显.

      为了量化4种无监督ALR算法相对于RS的改善效果, 我们也计算了其AUC-mRMSE和AUC-mCC的提升百分比, 如表3所示. 无论使用哪种线性回归模型或性能指标, IRD的平均表现都优于其他4种方法.

    • 为了确定IRD与其他4种算法之间的性能差异是否具有统计意义, 我们使用Dunn检验[28]对几种方法的AUC-mRMSE和AUC-mCC在12个数据集上的平均值进行了非参数多重比较检验, 使用错误发现率(False Discovery Rate) 方法[29]进行 $ p $ 值校正. 结果如表4所示, 其中具有统计意义的结果以粗体标出.

      表 4  非参数多重检验的 $p$ 值( $\alpha=0.05$ ; 如果 $p<\alpha/2$ 拒绝 $H_0$ ).

      Table 4.  $p$ -values of non-parametric multiple comparisons ( $\alpha=0.05$ ; reject $H_0$ if $p<\alpha/2$ ).

      回归模型 性能指标 IRD versus
      RS P-ALICE GSx RD
      RR RMSE 0.0000 0.0003 0.0000 0.0284
      CC 0.0000 0.0000 0.0000 0.0005
      LASSO RMSE 0.0000 0.0004 0.0000 0.0596
      CC 0.0000 0.0000 0.0000 0.0000
      SVR RMSE 0.0000 0.0000 0.0000 0.0018
      CC 0.0000 0.0000 0.0000 0.0000

      结果表明, 无论使用哪种线性回归模型, IRD的RMSE和CC相对于RS、P-ALICE和GSx的提升始终具有统计学意义; 相对于RD, CC的提升具有统计学意义; 使用线性SVR时, RMSE的提升也具有统计学意义.

    • 为了更直观地了解不同ALR算法选择样本之间的差异, 我们在一个典型数据集(Housing)上使用t-SNE[30]将样本映射到2维空间. 图6展示了三个不同的 $ M $ 值对应的4种ALR算法选择的样本. P-ALICE的样本权重在绘图中没有显示.

      图  6  在Housing数据集上不同ALR算法所选样本(星号)的t-SNE可视化.

      Figure 6.  t-SNE visualization of the selected samples (asterisks) from different ALR approaches on the Housing dataset.

      图6中, GSx倾向于选择位于边界的样本, 这样的样本很有可能是离群点, 且所选样本的分布情况与池中的样本不一致. 因此, 它的平均性能在4种算法中是最差的. 与GSx相比, P-ALICE和RD选择的样本在池中分布更均匀. IRD选择的样本倾向于靠近池的边界, 但不完全位于边界, 这样的样本不太可能是异常点, 并且选择的样本的分布情况与池中样本更一致. 这些都可能是IRD表现较好的原因.

    • 算法1-3中有一个重要参数: $ c_{\max} $ , 最大迭代次数. 当 $ c_{\max} = 0 $ 时, IRD等效于RD. 本小节通过设置 $ c_{\max}>0 $ 来探究IRD的性能是否优于RD.

      图7展示了在3种线性回归模型上, $c_{\max}\in [0,10]$ 的归一化AUC (相对于RS)的变化趋势, 这是在12个数据集上重复100次 实验的平均结果. 如图所示, IRD的性能随着 $ c_{\max} $ 的增加而迅速提升, 并且总是在 $ c_{\max} = 5 $ 之前就达到了最优, 这意味着IRD是一种既有效又高效的算法.

      图  7  对于不同的 $c_{\max}$ , 4种ALR算法的AUC-mRMSE和AUC-mCC相对于RS在12个数据集上的平均比率.

      Figure 7.  Ratios of AUCs of the mean RMSEs and the mean CCs for different $c_{\max}$ , averaged across 12 datasets.

    • 为了研究5种无监督采样方法的性能对3个线性回归模型正则化系数的敏感性, 我们对 $\lambda\in \{0.01,0.05,0.1,0.5,1\}$ 进行了重复实验. 线性SVR有一个等价的L2正则化系数 $ \lambda = \frac{1}{2C} $ , 等效设置为 $ C\in\{50, 10, 5, 1, 0.5\} $ . 将每种采样方法在不同参数回归模型下的AUC结果相对于RS ( $ \lambda = 0.5 $ )进行归一化, 如图8所示.

      图  8  对于不同的 $\lambda$ (RR和LASSO)和 $C$ (线性SVR), 4种ALR算法的AUC-mRMSE和AUC-mCC相对于RS在12个数据集上的平均比率.

      Figure 8.  Ratios of the AUCs of the mean RMSEs and the mean CCs, averaged across 12 datasets, for different $\lambda$ (RR and LASSO) and $C$ (linear SVR).

      整体来看, 5种无监督采样方法的性能首先随着 $ \lambda $ 的增大而提高, 然后下降. 然而, 无论 $ \lambda $ ( $ C $ )取值为多少, IRD的表现通常都是最好的, RD次优. 当 $ \lambda $ 较小时, IRD相对于其他4种方法的提升更大. 此外, 可以看出IRD对参数 $ \lambda $ 不是很敏感, 这将有利于实际应用.

    • 为了研究信息性、代表性和多样性分别对IRD的影响, 我们将IRD与三个变体进行比较:

      1. IRD ( $ c_{\max} = 5 $ ): 本文提出的方法, 在第2节中已介绍.

      2. ID: 当 $ M = d+1 $ 时, 只考虑式(12)的分母部分; 当 $ M>d+1 $ 时, 只考虑式(17)中的 $ D({\bf{x}}_n) $ . 即只考虑信息性和代表性.

      3. RD: 就是 $ c_{\max} = 0 $ 时使用RD进行初始化的IRD. 即只考虑代表性和多样性.

      对于 $ M\in[5, 15] $ , 每种方法在12个数据集上运行100次, 训练3种线性回归模型: RR ( $ \lambda = 0.5 $ )、LASSO ( $ \lambda = 0.5 $ )和 线性SVR ( $ C = 1 $ ). 图9展示了对于不同的 $ M $ 取值, IRD及变体的RMSE和CC相对于RS的平均比率. 3个回归模型上的结论是类似的. 通常, 3种ALR方法都优于RS. IRD仍然表现最好, 这表明同时考虑信息性、代表性和多样性至关重要.

      图  9  对于不同的 $M$ , IRD及其变体的mRMSE和mCC相对于RS在12个数据集上的平均比率.

      Figure 9.  Ratios of the mean RMSEs and the mean CCs w.r.t. different $M$ , averaged across 12 datasets.

    • 主动学习通过选择最有价值的样本进行标注, 从而利用较少的训练数据就可以建立较好的机器学习模型. 这在许多实际应用中有着重要的作用, 因为数据的标注过程往往需要耗费大量的时间和经济成本. 大多数现有的主动学习方法是有监督的: 能够从少量的标注样本中建立一个初始的模型, 基于模型查询新的数据, 然后进行迭代更新. 本文考虑了线性回归中完全无监督的基于池的主动学习问题, 即在完全不知道任何标签信息的情况下, 最优地选择初始的少量样本进行标注. 文中提出一种新的主动学习算法IRD, 该算法同时考虑了主动学习中的三个重要标准: 信息性、代表性和多样性. 在来自于不同应用领域的12个数据集和3种不同的线性回归模型(RR、LASSO和线性SVR)上进行了大量实验, 充分验证了本文提出方法的有效性.

WeChat 关注分享

返回顶部

目录

    /

    返回文章
    返回