李金忠 刘关俊 闫春钢 蒋昌俊

    李金忠  井冈山大学电子与信息工程学院副教授. 2017年获得同济大学博士学位.主要研究方向为机器学习, 信息检索, 智能计算, 服务计算, 大数据. E-mail: 1210510@tongji.edu.cn

    刘关俊  同济大学嵌入式系统与服务计算教育部重点实验室副教授.主要研究方向为Petri网理论, 模型检测, 工作流, 离散事件系统, 网络信息服务, 信息安全. E-mail: liuguanjun@tongji.edu.cn

    闫春钢  同济大学嵌入式系统与服务计算教育部重点实验室教授.主要研究方向为Petri网, 软件形式化验证, 服务计算, 可信计算, 智能计算. E-mail: yanchungang@tongji.edu.cn


    蒋昌俊  同济大学嵌入式系统与服务计算教育部重点实验室教授.主要研究方向为Petri网, 并发理论, 软件形式化验证, 智能交通系统, 网格计算, 服务计算, 可信计算.本文通信作者. E-mail: cjjiang@tongji.edu.cn

Research Advances and Prospects of Learning to Rank


     Associate professor at the College of Electronic and Information Engineering, Jinggangshan University. He received his Ph. D. degree from Tongji University in 2017. His research interest covers machine learning, information retrieval, intelligent computing, service computing, and big data

     Associate professor at the Key Laboratory of Embedded System and Service Computing, Ministry of Education, Tongji University. His research interest covers Petri net theory, model checking, workflow, discrete event system, network information service, and information security

     Professor at the Key Laboratory of Embedded System and Service Computing, Ministry of Education, Tongji University. His research interest covers Petri nets, formal verification of software, service computing, trusted computing, and intelligent computing

    Corresponding author: JIANG Chang-Jun  Professor at the Key Laboratory of Embedded System and Service Computing, Ministry of Education, Tongji University. His research interest covers Petri nets, concurrency theory, formal verification of software, intelligent transportation systems, grid computing, service computing, and trusted computing. Corresponding author of this paper
  • 摘要: 排序学习利用机器学习技术去训练排序模型以解决排序问题,是信息检索与机器学习交叉领域的一个新兴研究热点.越来越多的排序学习方法已经应用于实际系统中,如搜索引擎和推荐系统等.本文概括了排序学习的研究进展,并进行展望.首先,阐述了排序学习问题.然后,对排序学习方法进行了分类,并重点分析了依据训练排序模型时所采用的不同机器学习技术的排序学习方法类别.本文还介绍了一些代表性的标准排序学习数据集,对排序学习方法在若干领域的成功应用进行了总结,并归纳了一些排序学习方法软件包.最后,对排序学习的未来发展趋势和挑战进行了展望和探讨.

  • 图  1  排序学习典型框架[14]

    Fig.  1  A typical framework of learning to rank[14]

    图  2  排序学习方法分类

    Fig.  2  Categories of the learning to rank approaches

    表  1  Pointwise、Pairwise和Listwise排序学习方法对比

    Table  1  Comparison of Pointwise, Pairwise and Listwise learning to rank approaches

    Pointwise单个文档${\rm O}(n)$分类、回归或序数回归问题考虑单个文档之间的排序特征, 不考虑同一查询下文档间的关系信息, 偏离了排序问题的实质.模型较简单, 训练时间较短.
    Pairwise具有偏序关系的文档对${\rm O}(n^2)$二分类问题考虑文档对之间的偏序关系, 部分保留了同一查询下文档间的关系信息, 并不考虑文档在文档列表上的位置, 接近排序问题的实质.模型较复杂, 训练时间较长, 需较高效的学习算法.
    Listwise所有相关联的整个文档列表${\rm O}(n!)$最优化问题等考虑同一查询下不同文档的序列关系, 完全符合排序问题的实质.模型的复杂度以及训练时间的长短很大程度上依赖于文档列表的损失函数或优化目标的定义.
    表  2  排序学习方法类别及实例

    Table  2  Categories and instances of the learning to rank approaches

    感知机PRankLDM (Percep)PAMM
    神经网络RankNet, LambdaRank, FRank, SortNetListNet, ListMLE, R-LTR-NTN, PAMM-NTN
    支持向量机Ranking SVMSVM-MAP, SVM-NDCG
    极限学习机Pointwise RankELMPairwise RankELM, ELMRank
    贝叶斯RankBayes, BLM-Rank
    RF-pointLogisticRankLambdaMART, X-DART Oblivious LambdaMART, QuickScorer, RF-list
    进化算法RankGP, RankMGP, MGP-Rank, RankCSA, RankIP, RankGDE, SwarmRank, RankPSO, RankBCA, RankDE, ES-Rank, R$^2$Rank
    表  3  排序学习数据集

    Table  3  Datasets of learning to rank

    HP2003150147 606640, 1LETOR3.0
    NP200350148 657640, 1LETOR3.0
    TD20035049 058640, 1LETOR3.0
    HP20047574 409640, 1LETOR3.0
    NP20047573 834640, 1LETOR3.0
    TD20047574 146640, 1LETOR3.0
    OHSUMED10616 140450, 1, 2LETOR3.0
    MQ20071 69269 623460, 1, 2LETOR4.0
    MQ200878415 211460, 1, 2LETOR4.0
    MSLR-WEB10K10 0001 200 1921360, 1, 2, 3, 4Microsoft LTR datasets
    MSLR-WEB30K31 5313 771 1251360, 1, 2, 3, 4Microsoft LTR datasets
    Yahoo! LTR challenge set129 921709 8775190, 1, 2, 3, 42010 Yahoo! LTR challenge datasets
    Yahoo! LTR challenge set26 330172 8705960, 1, 2, 3, 42010 Yahoo! LTR challenge datasets
    Yandex internet mathematics 20099 12497 2902450, 1, 2, 3, 4Yandex internet mathematics 2009 contest
    WCL2R795 200290, 1, 2, 3The TodoCL search engine Istella
    LETOR33 01810 454 6292200, 1, 2, 3, 4Istella dataset
    Istella-S LETOR33 0183 408 6302200, 1, 2, 3, 4Istella dataset
    表  4  排序学习方法软件包

    Table  4  Software packages of the learning to rank approaches

    RankLibJAVA支持多种排序学习方法和信息检索的评价指标, 提供多种执行方式评估排序学习方法, 且易于扩展更多的方法和评价指标.包含方法较多、代码开源较早且易于使用, 得到众多研究者的青睐和使用.美国马萨诸塞大学
    QuickRankC++支持多种排序学习方法和度量准则, 提供一种柔性、可扩展的和高效率的排序学习框架去开发和实现更多的排序学习方法.适合于从大规模的训练数据集中学习高质量的排序函数, 侧重追求高效率.新近开发的软件包, 代码开源较晚, 有待于研究者的推广和使用.意大利ISTI-CNR的Istella团队等
    LerotPython是第一个在线排序学习方法软件包, 可构建原型设计和评估在线排序学习方法的理想环境, 易于使用和扩展, 并易于将已实现的方法与新的在线评估和在线排序学习方法进行比较.微软剑桥研究院和荷兰阿姆斯特丹大学等
    LTRC++支持解决分类、回归和排序问题的开源代码, 但目前仅有两种排序学习方法源代码, 不过该软件包易于扩展更多的方法, 也易于使用现有程序.较早开发的排序学习方法的开源库, 但其使用者还有待加强推广.Yandex数据分析学院的学生
    L2RLabJAVA是一个包含设计新排序学习方法各阶段的集成实验环境, 是面向可扩展而设计的一个软件工具包, 有助于实验的展开.但由于该软件包当前仍还未提供访问和开源, 导致融入的排序学习方法较少. 古巴西恩富戈斯大学等
    ESRankJAVA只含有ES-Rank排序学习方法的JAR包.包含方法比较单一且不开源, 该软件包未获得推广.英国诺丁汉大学和米尼亚大学
    MLR-masterMATLAB基于结构化SVM框架, 包含准则排序学习方法和鲁棒的准则排序学习方法, 支持多个核函数评价准则.包含方法比较单一, 该软件包未获得推广.美国加利福尼亚大学
    SVM$^{\rm rank}$C、C++和Python使用线性核函数训练排序SVM的一个工具, 拥有多种语言的开源代码.其C语言版的SVM$^{\rm rank}$是一种开源最早的软件包, 后续软件包和数据集的采集大多遵循其思想开发.美国康乃尔大学
