2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

一种同伴知识互增强下的序列推荐方法

胡开喜 李琳 吴小华 解庆 袁景凌

胡开喜, 李琳, 吴小华, 解庆, 袁景凌. 一种同伴知识互增强下的序列推荐方法. 自动化学报, 2023, 49(7): 1456−1470 doi: 10.16383/j.aas.c220347
引用本文: 胡开喜, 李琳, 吴小华, 解庆, 袁景凌. 一种同伴知识互增强下的序列推荐方法. 自动化学报, 2023, 49(7): 1456−1470 doi: 10.16383/j.aas.c220347
Hu Kai-Xi, Li Lin, Wu Xiao-Hua, Xie Qing, Yuan Jing-Ling. A sequential recommendation method enhanced by peer knowledge. Acta Automatica Sinica, 2023, 49(7): 1456−1470 doi: 10.16383/j.aas.c220347
Citation: Hu Kai-Xi, Li Lin, Wu Xiao-Hua, Xie Qing, Yuan Jing-Ling. A sequential recommendation method enhanced by peer knowledge. Acta Automatica Sinica, 2023, 49(7): 1456−1470 doi: 10.16383/j.aas.c220347

一种同伴知识互增强下的序列推荐方法

doi: 10.16383/j.aas.c220347
基金项目: 国家自然科学基金(62276196, 61602353), 湖北省重点研发计划项目(2021BAA030), 国家留学基金委基金(202106950041, 留金美[2020] 1509), 安康市科学技术研究发展计划(AK2020-GY-08)资助
详细信息
    作者简介:

    胡开喜:武汉理工大学计算机与人工智能学院博士研究生. 2018年获得重庆大学控制工程硕士学位. 主要研究方向为序列预测. E-mail: issac_hkx@whut.edu.cn

    李琳:武汉理工大学计算机与人工智能学院教授. 2009年获得日本东京大学博士学位. 主要研究方向为信息检索, 推荐系统. 本文通信作者. E-mail: cathylilin@whut.edu.cn

    吴小华:武汉理工大学计算机与人工智能学院博士研究生. 2019年获得西北大学计算机科学与技术硕士学位. 主要研究方向为可解释机器学习. E-mail: xhwu@whut.edu.cn

    解庆:武汉理工大学计算机与人工智能学院副教授. 2013年获得澳大利亚昆士兰大学博士学位. 主要研究方向为流数据挖掘与模式分析. E-mail: felixxq@whut.edu.cn

    袁景凌:武汉理工大学计算机与人工智能学院教授. 2004年获得武汉理工大学博士学位. 主要研究方向为分布式并行计算. E-mail: yjl@whut.edu.cn

A Sequential Recommendation Method Enhanced by Peer Knowledge

Funds: Supported by National Natural Science Foundation of China (62276196, 61602353), Key Research and Development Program of Hubei Province (2021BAA030), Foundation of China Scholarship Council (202106950041, LiuJinMei [2020] 1509), and Ankang Municipal Science and Technology Bureau (AK2020-GY-08)
More Information
    Author Bio:

    HU Kai-Xi Ph.D. candidate at the School of Computer Science and Artificial Intelligence, Wuhan University of Technology. He received his master degree in control engineering from Chongqing University in 2018. His main research interest is sequential prediction

    LI Lin Professor at the School of Computer Science and Artificial Intelligence, Wuhan University of Technology. She received her Ph.D. degree from University of Tokyo, Japan, in 2009. Her research interest covers information retrieval and recommender systems. Corresponding author of this paper

    WU Xiao-Hua Ph.D. candidate at the School of Computer Science and Artificial Intelligence, Wuhan University of Technology. He received his master degree in computer science and technology from Northwest University in 2019. His main research interest is explainable machine learning

    XIE Qing Associate professor at the School of Computer Science and Artificial Intelligence, Wuhan University of Technology. He received his Ph.D. degree from University of Queensland, Australia, in 2013. His research interest covers streaming data mining and pattern analysis

    YUAN Jing-Ling Professor at the School of Computer Science and Artificial Intelligence, Wuhan University of Technology. She received her Ph.D. degree from Wuhan University of Technology, in 2004. Her main research interest is parallel distributed computing

  • 摘要: 序列推荐(Sequential recommendation, SR)旨在建模用户序列中的动态兴趣, 预测下一个行为. 现有基于知识蒸馏(Knowledge distillation, KD)的多模型集成方法通常将教师模型预测的概率分布作为学生模型样本学习的软标签, 不利于关注低置信度序列样本中的动态兴趣. 为此, 提出一种同伴知识互增强下的序列推荐方法(Sequential recommendation enhanced by peer knowledge, PeerRec), 使多个具有差异的同伴网络按照人类由易到难的认知过程进行两阶段的互相学习. 在第1阶段知识蒸馏的基础上, 第2阶段的刻意训练通过动态最小组策略协调多个同伴从低置信度样本中挖掘出可被加强训练的潜在样本. 然后, 受训的网络利用同伴对潜在样本预测的概率分布调节自身对该样本学习的权重, 从解空间中探索更优的兴趣表示. 3个公开数据集上的实验结果表明, 提出的PeerRec方法相比于最新的基线方法在基于Top-k的指标上不仅获得了更佳的推荐精度, 且具有良好的在线推荐效率.
  • 随着互联网、5G等信息技术的快速发展, 信息系统记录了大量的用户行为, 例如购物[1-2]、点击浏览[3-5]、移动位置[6-7]等. 人们将用户行为按发生的时间先后顺序排列, 可构成隐含用户兴趣的行为序列[8-10]. 序列推荐(Sequential recommendation, SR)旨在建模行为序列中动态兴趣的演变关系, 从候选集中预测下一个行为, 已广泛用于各类Web应用, 帮助人们解决信息过载的问题. 作为一项基础技术, 序列推荐备受学术界和工业界关注, 并逐渐推广到更多应用场景.

    近年来, 深度学习通过层次化地建模序列数据中行为演变的特征表示, 在捕获用户兴趣方面表现出了优越性[1, 3, 5, 10-11]. 然而, 现实世界中用户与行为的交互是在该用户当时兴趣的影响下产生的, 具有动态不确定的特点[12-15]. 以图1中的电影推荐为例, 假设用户按时间顺序观看了不同类型的电影(喜剧片m1, 恐怖片m2, 爱情片m3), 则历史的行为序列反映出了多种用户兴趣, 导致下一个行为的产生存在多种可能性(恐怖片m4或喜剧片m5). 在学习兴趣演变关系的过程中, 采用固定向量表示的单模型通常不足以建模行为背后隐含的动态兴趣, 使模型的精度提升有限. 此外, 用户观影行为较少时, 通过行为序列分析的用户兴趣也会更加不确定. 在行为序列提供信息有限的情况下, 如何通过建模用户动态兴趣缓解模型不确定性[16], 是一个具有挑战性的问题.

    图 1  用户动态兴趣在潜在空间中的表示与推断
    Fig. 1  The representation and inference of dynamic interests in latent representation spaces

    目前, 大多数序列推荐方法[1, 9, 17]通过建模行为序列在特征空间中的固定向量表示, 并引入额外的用户信息来帮助预测模型学习用户兴趣. 在不引入额外信息的情况下, 最近的研究工作[13-15]利用分布函数表示用户兴趣, 使学习到的兴趣表示可以覆盖更大的行为序列空间. 如图1(a)所示, 每个观影行为隐含的动态兴趣都可以用一个分布函数来表示, 最后通过积分计算推断的兴趣分布表示与观影行为向量表示(三角形)之间的距离预测下一个行为. 但是在模型参数中引入分布函数, 主要存在以下不足: 1) 通常需要预设一种先验的分布形式, 但只有少数几种分布可以求出积分的闭式解, 对更复杂的分布需要近似求解[15]; 2) 分布函数倾向于在有限的函数空间(兴趣表示空间的实线上)探索用户兴趣, 对模型精度的提升有限[18-19].

    针对上述分布函数的不足, 计算机视觉领域的工作[20-22]通常采用多模型集成的方式建模图像中的不确定性, 并验证了随机初始化和扰乱数据样本的顺序就足以获得较好的性能[20]. 如图1(b)所示, 采用多模型集成建模动态兴趣时, 模型可以在不同的训练迭代中探索分布函数(虚线)以外的点, 并通过融合不同的模型推断更优的固定向量来表示用户兴趣. 同时, 为了提升模型在测试阶段的效率, 计算机视觉[22]、自然语言处理[23-24]和推荐[25-26]等领域的工作都表明知识蒸馏(Knowledge distillation, KD)[27]是一种有效的融合方式, 可以通过拉近两个模型兴趣表示的距离, 将多个教师模型的知识迁移到学生模型. 但是, 传统的知识蒸馏将教师模型预测的概率分布作为学生模型学习的软标签[28], 导致学生模型更倾向于从教师模型输出的高置信度样本中获取知识[29-30]. 由于用户的行为序列具有动态不确定的特点[16], 在训练过程中如果教师模型学习的用户兴趣表示距离真实发生的下一个行为(Ground-truth)较远就会使模型产生低置信度, 而低置信度的样本中通常也包含可被加强训练的样本(潜在样本), 可以提供更加丰富的信息, 帮助模型学习分类决策边界即类间信息[31]. 传统的知识蒸馏未能有效地从这些潜在样本中学习动态兴趣, 影响了推荐的精度.

    为了缓解上述问题, 本文提出一种同伴知识互增强下的序列推荐方法(Sequential recommendation enhanced by peer knowledge, PeerRec). 该方法首先设计了多个结构相同但随机初始化参数不同的同伴网络, 使每个同伴网络学习差异化的兴趣固定向量表示. 其次, 按照课程学习[32]由易到难的认知过程, 本文通过第1阶段的知识蒸馏[27]关注同伴输出的高置信度样本, 以模仿训练的方式拉近兴趣表示的距离. 然后, 在此基础上提出了第2阶段基于刻意训练[33]的互相学习, 通过动态最小组策略将多个同伴组成学习共同体, 从低置信度样本中挖掘过滤噪音后的潜在样本, 推动模型在解空间中探索更优的兴趣表示. 相比于最好的基线方法, 本文提出的方法在推荐性能和在线推断效率上均具有优势. 总体而言, 本文的主要贡献如下:

    1) 分析并总结了序列推荐中用户动态兴趣导致行为序列具有不确定的特点, 提出了一种同伴知识互增强下的序列推荐方法, 利用多个同伴建模差异化的用户兴趣固定向量表示, 并按照人类由易到难的认知过程互相学习, 共同提升序列推荐的精度;

    2) 提出了一种基于刻意训练[33]的互相学习方法, 在知识蒸馏的基础上进一步通过动态最小组策略增强模型对潜在样本中动态兴趣的学习;

    3) 公开的ML-1m、LastFM和Toys数据集上的实验结果表明, 提出的PeerRec方法相对于最新的序列推荐方法在NDCG@5指标上分别提升了9.02%、5.03%和1.31%, 且具有良好的推荐效率.

    本文内容安排如下: 第1节为现有序列推荐方法及以知识蒸馏为代表的知识迁移方法的概述; 第2节介绍问题定义、总体框架及PeerRec模型的网络结构; 第3节重点阐述同伴知识互增强的训练, 并进一步讨论模型在互相学习过程中的梯度变化; 第4节介绍数据集、实验设置、评价指标及分析结果; 第5节总结全文工作并展望未来的研究方向.

    本节首先介绍目前序列推荐中建模用户动态兴趣的方法, 然后阐述以知识蒸馏为代表的知识迁移方法以及该类方法与提出的基于刻意训练[33]的互相学习方式的异同.

    在现有工作中, 动态兴趣的建模主要分为基于固定向量表示的方法和基于分布函数的方法.

    基于固定向量表示的方法主要通过引入外部的信息来增强单模型学习兴趣的固定向量表示. 例如, Song等[34]对点击率预估中用户行为和额外的画像特征进行不同阶次的组合. Wang等[9]利用超图卷积建模不同时间段内用户与物品的动态关联, 并利用多头自注意力融合不同时刻的用户兴趣. STKG (Spatial-temporal knowledge graph)模型[6]通过构建一个带权重的兴趣点连接图和辅助的空间信息来优化节点的表示. BERT4Rec[17]虽然没有引入额外信息, 但增强了对双向序列信息的建模. 此外, 模型去噪的方法[11, 35]通过过滤动态性较高的噪音用户, 使模型捕获更加普遍的用户兴趣, 但也会丢失一部分有效的信息. 例如Wang等[11]利用模型自身的响应来剔除损失较大的噪声样本. Qin等[35]通过对比用户偏好的估计, 设计了一种去噪生成器.

    近年来, 基于分布函数的方法[12-15]在不引入额外信息的情况下建模动态兴趣, 引起了研究人员的广泛关注. Jiang等[15]在模型输入的嵌入矩阵中引入高斯分布$ {{{\rm{N}}}}(\mu, \Sigma) $, 扩大了物品和用户的表示空间. Neupane等[12]结合元证据学习建模输出分布的参数. 最近, Fan等[13-14]在嵌入矩阵引入高斯分布的基础上, 进一步采用Wasserstein距离 1计算自注意力层和预测层中分布的距离.

    上述基于单模型固定向量表示的方法假设动态兴趣是确定的, 并通过信息引入、去噪等方式优化向量表示. 基于分布函数的方法利用先验分布建模了动态兴趣, 但实践中对预设分布的近似求解复杂, 性能提升效果并不如模型集成的方法显著[18-19]. 受分布函数和知识蒸馏的启发, 本文采用多个同伴网络以互相学习的方式共同探索更佳的兴趣固定向量表示, 提升序列推荐的精度.

    知识蒸馏起源于模型压缩[27, 36-37]任务, 主要基于学生向教师模仿的策略, 在训练阶段将从多个模型提炼的知识迁移到单模型, 提升测试阶段的效率. 假设$ p_t $和$ p_s $为教师模型和学生模型在一个样本上预测的概率分布, 则教师−学生单向模仿的梯度为

    $$ \triangledown {\cal{L}} = (p_{s, *}-y_{*}p_{t, *})+\sum\limits_{i = 1}^{C-1}(p_{s, i}-p_{t, i}) $$ (1)

    其中, $ C $为类别的数量, $ p_{t, *} $和$ p_{s, *} $分别代表教师和学生对正例输出的概率, 即置信度, $ p_{t, i} $和$ p_{s, i} $分别代表教师和学生对第$ i $个负例输出的概率, $ y_* $是正例样本的标签, $ * $和$ i $分别为概率分布中正例和负例的索引.

    现有工作表明, 式(1)的第1项和第2项在模型训练中具有不同的作用[29, 38]. 从第1项中可以看出, 教师模型对正例输出的置信度$ p_{t, *} $与学生模型对样本学习的重要性权重有较大的关联, 反映了样本学习的难度. 如果教师模型输出的置信度较大($ p_{t, *}\approx1 $), 则学生模型相当于从硬标签$ y_* $中学习, 样本的梯度贡献较大. 反之, 教师模型输出的置信度较小, 则会在当前训练批次的全局训练信号上减少该样本的贡献. 第2项则更多地反映了样本内部负例与正例的相似性信息. 因此, 在模仿过程中, 学生模型会更倾向于从教师模型输出的高置信度样本中获取知识[29-30].

    后续的工作通过融合多个模型缓解建模中的不确定性, 并从学习方式和教师选择上优化了融合效果. 文献[39-40]优化了离线学习方式, 通过两个结构相同但参数不同的深度网络互相学习扩大参数的搜索空间, 减少模型因初始化导致的不确定性. 同一网络在不同的训练阶段上自蒸馏[29]也是一种特殊的互相学习方式. 此外, 通过增加教师模型的数量来提升学生模型是一种直观的方式. 其中, 平均多个不同来源模型的输出, 是一种最直观的融合方式[39], 但会损失一部分多样性. 随后, Chen等[41]引入了辅助和领导的概念来引导互相学习. Zhu等[25]引入了门控机制动态赋予教师不同的权重. Kang等[26]认为注意力加权的方式会引入弱关联信息, 因此, 每次只从多个教师中选择一个专家传递知识.

    但知识蒸馏倾向于从教师模型输出的高置信度样本中获取知识, 未能有效发掘可进一步学习的低置信度样本. 不同于模仿策略, 刻意训练[33]从另一个角度阐述了教师−学生传递知识的方式, 认为教师针对性地给学生训练有待提高(低置信度)的样本, 可以进一步提升学生模型. 因此, 按照人类课程学习[32]由易到难的认知过程, 本文在知识蒸馏的基础上进一步提出了第2阶段基于刻意训练的互相学习, 加强模型从低置信度的潜在样本中学习动态兴趣.

    序列推荐主要包含用户和按时间顺序排列的行为序列. 本文定义如下概念: 给定一组用户集合$ {\cal{U}} = \{u_1, u_2, \cdots, u_{\left|{\cal{U}}\right|}\} $和行为集合${\cal{B}} = \{b_1, b_2, \cdots, b_{\left|{\cal{B}}\right|}\}$. 对于用户集合中的任一用户$ u\in{\cal{U}} $, 其产生的行为序列可以定义为$X_u = \{{\boldsymbol{x}}_1^{\left(u\right)}, \cdots, {\boldsymbol{x}}_t^{\left(u\right)}, \cdots, {\boldsymbol{x}}_{N-1}^{\left(u\right)}\}$, 其中, $ {\boldsymbol{x}}_t^{\left(u\right)} $是$ b_t^{\left(u\right)}\in{\cal{B}} $的独热编码向量, $ b_t^{\left(u\right)} $是用户$ u $在$ t $时刻的行为, $ N $是行为序列的最大长度.

    通过上述定义, 预测下一个用户行为的序列推荐任务定义如下: 给定历史的用户行为序列$ X_u $, 通过学习一个预测模型$ {\cal{M}}:X_u\rightarrow {\boldsymbol{p}}_u $, 输出用户$ u $在$ N $时刻与候选集中所有行为交互的概率分布$ {\boldsymbol{p}}_u $. 通过将$ {\boldsymbol{p}}_u $中的概率值从高到低排序, 可以推断出概率最高的行为是用户$ u $最有可能交互的下一个行为$ {\hat{\boldsymbol{y}}} $. 值得注意的是, 下一个行为的预测是序列到序列(Sequence to sequence, Seq2Seq)预测的基础. 通过将历史序列和已预测的行为共同作为新的序列, 可迭代预测下一个行为, 实现Seq2Seq预测.

    本文的核心思想是集成多个具有差异的同伴网络建模动态兴趣的固定向量表示, 同时通过加强同伴在训练阶段的知识传递, 优化自身对行为序列的建模, 共同提升推荐精度. 因此, 本文提出了一种同伴知识互增强下的序列推荐方法(PeerRec). 该方法主要以目前主流的多头自注意力网络为主体, 设计了包含多同伴网络的模型结构和同伴知识互增强的两阶段训练.

    图2所示, PeerRec模型主要由行为序列嵌入层、用户兴趣表示层和行为预测层组成. 用户兴趣表示层需要学习输入序列中被掩盖行为的用户兴趣固定向量表示, 并通过行为预测层输出其与候选集中行为匹配的概率分布. 在训练阶段, 用户兴趣表示层中的多个同伴网络分别建模用户兴趣, 并按照人类由易到难的认知过程开展基于知识蒸馏和刻意训练的两阶段的互相学习(如图中虚线箭头所指向的$ {\boldsymbol{p}}^{(1)} $和$ {\boldsymbol{p}}^{(2)}) $. 由于多个同伴网络知识互相传递, 在后续测试及工业部署阶段, 可以仅保留一个同伴网络, 提升推荐系统的在线推断效率.

    图 2  PeerRec模型的网络结构
    Fig. 2  The architecture of our proposed PeerRec

    值得注意的是, 互相学习通常需要双方有一定的共识和足够的差异性. 现有工作表明[20, 39], 随机初始化就足以使模型获得多样性, 学习具有差异的用户兴趣固定向量表示. 因此, 本文在设计多个同伴网络时, 采用了共享的嵌入矩阵和相同的序列学习结构促使同伴网络对序列关系的捕获方式形成共识, 并通过不同的随机初始化方式确保同伴网络具备捕获差异化用户兴趣的能力.

    图2左侧所示, 行为序列嵌入层主要包含行为嵌入矩阵$ U $和位置嵌入矩阵$ S $. 首先, 序列中的行为通过查询行为嵌入矩阵$ U\in {\bf{R}}^{\left|{\cal{B}}\right|\times d} $转换为一个固定长度的表示向量, 其中, $ \left|{\cal{B}}\right| $是用户行为集合的大小, $ d $是向量的维度. 行为嵌入矩阵$ U $在输入和输出阶段共享, 且没有引入任何预训练参数. 除了编码行为的特征信息, 嵌入层还引入一个位置嵌入矩阵$ S\in {\bf{R}}^{N\times d} $, 将用户行为在序列中的位置信息转换为一个固定长度的表示向量, 其中, $ N $是输入序列的最大长度. 最后, 通过将行为特征表示向量和位置表示向量相加, 可得到行为序列嵌入层的输出$ {\boldsymbol{h}}_i^0 = {\boldsymbol{x}}_iU+{\boldsymbol{s}}_i $, 其中, $ {\boldsymbol{x}}_i $, $ {\boldsymbol{s}}_i $和$ {\boldsymbol{h}}_i^0 $分别代表输入元素独热编码向量、第$ i $个元素的位置表示向量和最终的输出向量. 嵌入层的输出矩阵$H^0 = [{\boldsymbol{h}}_1^0, \cdots, {\boldsymbol{h}}_i^0, \cdots, {\boldsymbol{h}}_N^0]$将会分别输入到用户兴趣表示层的多个同伴网络中.

    2.4.1   用户兴趣表示学习

    由于多头自注意力机制[42]可以捕获不同子空间的信息, 提升模型的表达能力. 本文在现有工作[17]的基础上, 设计$ T $个结构相同但随机初始化参数不同的自注意力同伴网络, 学习用户的兴趣表示. 如图2所示, 任意一个同伴网络都由$ L $层编码器组成. 编码器包含一个多头自注意力子层和前馈网络子层, 其中第$ l $层编码器的输入为$ H^{l-1} $, 输出为$ H^l $.

    多头自注意力子层将输入的编码矩阵$ H^{l-1} $同时映射到$ M $个子空间, 得到$ M $个注意力头的表示矩阵$ \{{hd}_1, \cdots, {hd}_m, \cdots, {hd}_M\} $, 然后将这些矩阵拼接在一起, 输出$ A_0^l $. 该过程的定义为

    $$ \begin{align} \begin{split} &{A}_0^l = {Concat}\left({hd}_1, \cdots, {hd}_m, \cdots, {hd}_M\right){W}_0^l+H^{l-1}\\ &hd_m = {Softmax}\left(\frac{({H}^{l-1}W_{Q_m}^l)({H}^{l-1}W_{K_m}^l)^{{\rm{T}}}}{\sqrt{\frac{d}{R}}}\right)\;\times\\ &\qquad\quad({H}^{l-1}W_{V_m}^l) \\[-10pt]\end{split} \end{align} $$ (2)

    其中, $ W_{Q_m}^l $, $ W_{K_m}^l $, $ W_{V_m}^l\in{\bf{R}}^{d\times\frac{d}{M}} $分别是第$ m $个子空间的映射矩阵. $ W_{0}^l\in{\bf{R}}^{d\times d} $是输出的映射矩阵, $ M $是自注意力头的数量. $ A_0^l $是经过残差连接后的输出.

    为了引入更多的非线性因素, 多头自注意力子层后面连接了两层前馈网络, 具体为

    $$ \left\{\begin{aligned}& A_1^l = {GeLu}(A_0^lW_1^l+{\boldsymbol{b}}_1^l)\\ &A_2^l = A_1^lW_2^l+{\boldsymbol{b}}_2^l \end{aligned} \right.$$ (3)

    其中, $ W_1^l\in {\bf{R}}^{d \times d_h} $和$ W_2^l\in {\bf{R}}^{d_h \times d} $是两层前馈网络的权重矩阵, $ {\boldsymbol{b}}_1^l\in {\bf{R}}^{d_h} $和$ {\boldsymbol{b}}_2^l\in {\bf{R}}^d $是前馈网络的偏置向量. $ d_h $是中间隐藏层的维度. ${GeLu}(\cdot)$是激活函数. 经过残差连接后, 第$ l $层编码器的输出为$ H^l = A_2^l+A_0^l $. 第$ L $层的输出$ H^L $代表从行为序列中学习的用户兴趣表示.

    2.4.2   兴趣表示与同伴知识互增强的关系

    为了引入多个同伴建模行为序列中的动态兴趣, 本文在用户兴趣表示层中设计了多个结构相同但参数不同的同伴网络, 每个同伴网络在前向传播的过程中独立地学习差异化的用户兴趣固定向量表示. 对于用户兴趣表示矩阵$ H^L $, 本文进一步定义第$ j $ 个同伴网络输出的用户兴趣表示$H^{(j, L)} = [{\boldsymbol{h}}_1^{(j, L)}, \cdots, {\boldsymbol{h}}_i^{(j, L)}, \cdots, {\boldsymbol{h}}_N^{(j, L)}]$. 其中, 被掩盖行为的兴趣表示向量$ {\boldsymbol{h}}_N^{\left(j, L\right)} $可通过共享的行为预测层计算与候选集中行为匹配后的概率分布$ {\boldsymbol{p}}^{\left(j\right)} $.

    由于不同的同伴网络可以学习到具有差异的用户兴趣表示, 通过行为预测层计算的概率分布$ {\boldsymbol{p}}^{\left(j\right)} $也会反映出差异化的知识. 因此, 本文设计了一种同伴知识互增强训练方式, 通过同伴间互相交换概率分布$ {\boldsymbol{p}}^{\left(j\right)} $, 优化兴趣表示的学习.

    图2右侧所示, 经过$ L $层同伴网络迭代的序列特征学习后, 被掩盖的下一个行为的用户兴趣表示向量$ {\boldsymbol{h}}_N^{(j, L)} $输入到行为预测层. 该层包含一个在同伴网络间共享的前馈网络$ O $和与行为序列嵌入层共享的行为嵌入矩阵$ U $. 在第$ j $个同伴网络中, 被掩盖行为的概率分布$ {\boldsymbol{p}}^{(j)} $的计算过程为

    $$ \left\{\begin{aligned} {\boldsymbol{z}}^{\left(j\right)}& = {GeLu}({\boldsymbol{h}}_N^{(j, L)}W_O+{\boldsymbol{b}}_O)U^\text{T}+{\boldsymbol{b}}_U\\ {\boldsymbol{p}}^{\left(j\right)}& = {Softmax}({\boldsymbol{z}}^{\left(j\right)}) \end{aligned}\right. $$ (4)

    其中, $ W_O\in {\bf{R}}^{d\times d} $是前馈网络的权重矩阵, $ {\boldsymbol{b}}_O\in {\bf{R}}^d $和$ {\boldsymbol{b}}_U\in {\bf{R}}^{\left|{\cal{B}}\right|} $分别是前馈网络和行为嵌入矩阵的偏置向量. $ {{\boldsymbol{z}}^{(j)}} = [z_1^{(j)},\cdots, z_{\left|{\cal{B}}\right|}^{(j)}] $是模型最终的输出. 最后, 本文通过${Softmax}(\cdot)$函数计算不同用户兴趣表示推导出的概率分布, 并利用该概率分布进行两阶段的同伴知识互增强的训练.

    为了融合多个同伴网络对用户兴趣的建模, 提升测试阶段单模型的推荐性能, 本文结合课程学习[32]与知识迁移技术, 设计了由易到难的两阶段同伴知识互增强训练.

    1) 第1阶段的知识蒸馏利用教师模型输出的概率分布作为软标签, 通过相对熵关注高置信度样本, 拉近同伴之间兴趣表示的距离. 借鉴文献[39-40]中的定义, 对于第$ i $个被掩盖的待预测行为, 第$ j $个同伴网络在第1阶段的损失函数定义为

    $$ \begin{split} {\cal{L}}_{S1}^{(j)} =\;& \frac{1}{\vert{\cal{I}}\vert}\sum\limits_{i\in{\cal{I}}} \Bigg(-y_{i, \ast}\text{log}(p_{i, \ast}^{(j)})\;+ \\ &\frac{1}{T-1}\sum\limits_{l = 1, l\neq j}^{T}{\text{D}_\text{KL}({\boldsymbol{p}}_i^{(l)}||{\boldsymbol{p}}_i^{(j)})}\Bigg) \end{split} $$ (5)

    其中, $ {\cal{I}} $为训练批次中所有样本的集合, ${\boldsymbol{y}}_i = [y_{i, 1}, \cdots, y_{i, \ast}, \cdots, y_{i, |{\cal{B}}|}]$为被掩盖行为的真实标签, $ {\boldsymbol{p}} _i^{(j)} = [p_{i, 1}^{(j)}, \cdots, p_{i, \ast}^{(j)}, \cdots, p_{i, |{\cal{B}}|}^{(j)}] $为输出的概率分布, 即所有候选行为下一次发生的可能性, $* $和$i $分别为概率分布中正例和负例的索引, $ T $为同伴网络的数量, $ {\boldsymbol{p}}_i^{(l)} $为第$ l $个同伴网络输出的概率分布. $ \text{D}_\text{KL}(\cdot||\cdot) $为两个同伴网络输出概率分布的KL (Kullback-Leibler)散度.

    当存在多个同伴网络时, 式(5)采用了损失平均的方式融合同伴的知识, 即同伴网络$ j $依次向其他$ T-1 $个同伴学习, 再将彼此的KL散度均值作为损失. 相比于另一种概率平均的方式$({\boldsymbol{p}}_i^{\text{avg}} = \frac{1}{T-1}\sum\nolimits_{l = 1, l\neq j}^{T}{\boldsymbol{p}}_i^{(l)})$, 损失平均可以缓解后验熵降低导致同伴网络间多样性丢失的问题. 已有文献[26, 39]对两种方式进行了深入分析, 进一步启发了本文在第2阶段的刻意训练中设计动态最小组策略, 并在第4.7节与损失平均进行实验对比.

    2) 第2阶段基于刻意训练的互相学习以第1阶段知识蒸馏学习的模型参数作为新的初始化参数, 继续从低置信度样本中挖掘出可被加强训练的潜在样本, 增强模型对用户动态兴趣的建模. 刻意训练理论[33]认为教师应该找到一系列学生有待加强的知识, 并进行强化训练. 基于此, 本文设计了动态最小组策略(第3.1节)和同伴间刻意训练的损失函数(第3.2节).

    本文认为低置信度的样本中通常包含有待加强的潜在样本, 而挖掘对受训学生模型有帮助的潜在样本的难点在于: 深度学习模型具有强大的数据拟合能力, 可以在没有捕获有效序列特征的情况下暴力拟合样本, 在后续训练过程中也会发生灾难性遗忘[43], 仅凭受训学生模型本身输出的概率分布很难充分挖掘出需要关注的潜在样本. 因此, 本文首先设计了动态最小组策略$ \Omega(\cdot) $, 利用多个同伴共同挖掘低置信度的潜在样本.

    图3所示, 动态最小组策略$ \Omega(\cdot) $主要分为两步.

    步骤 1. 为了尽可能多地挖掘出低置信度的样本, 本文收集$ T-1 $个同伴网络对正例预测概率最小的概率分布并重构为一个伪同伴. 对于第$ i $个被掩盖的待预测行为, 第$ j $个同伴网络的伪同伴定义为

    图 3  基于刻意训练的互相学习
    Fig. 3  An illustration of deliberate practice based mutual learning
    $$ \begin{split} &\qquad{{\tilde{\boldsymbol{p}}}_i^{(j)}} = {{\boldsymbol{p}}_i^{(g)}}\\ &\qquad\text{s.t. } g =\arg \mathop{\min}\limits_{k} \Omega(j) = \{p^{(k)}_{i, *}|k = 1, \cdots, {T},\\ &\;\quad\qquad\qquad\text{ 且 } \;k\neq j\} \end{split} $$ (6)

    其中, $ {{\tilde{\boldsymbol{p}}}_i^{(j)}} $是重构的伪同伴, $ {{\boldsymbol{p}}_i^{(g)}} $是同伴$ g $对样本$ i $预测的概率分布.

    步骤 2. 由于低置信度样本通常也包括噪音样本, 对这些样本的过度拟合会影响模型的泛化性能[11]. 本文进一步假设如果一个序列不能被所有同伴网络预测正确, 那么它很可能是噪音且损失相对较大[11]. 因此, 本文在第2阶段的刻意训练中减少这些样本对模型学习的贡献, 进一步将伪同伴在样本$ i $上的概率分布重新定义为

    $$ {{\tilde{\boldsymbol{p}}}_i^{(j)}} = \left \{ \begin{array}{ll} {\boldsymbol{y}_i}, & \text{rank}(p^{(\forall j)}_{i, *})< \beta \times {\vert{\cal{I}}\vert}\\ {{\tilde{\boldsymbol{p}}}_i^{(j)}}, & \text{其他} \end{array} \right. $$ (7)

    其中, $ \vert{\cal{I}}\vert $是训练批次中样本的总数量. $ p^{(\forall j)}_{i, *} $代表任意一个同伴网络在样本$ i $上输出正例的概率, $ \text{rank}\left(\cdot\right) $是训练批次中样本$ i $的交叉熵损失经降序排列后的名次. 考虑到过度地过滤不能被所有同伴网络预测正确的样本反而会丢失重要信息, 不利于建模动态兴趣, 本文还设置了一个超参数$ \beta $来控制过滤噪音样本的比例.

    图3中的三角形所示, 为了使受训学生模型注意到动态最小组策略筛选出的潜在样本, 本文利用伪同伴的概率分布计算受训学生模型训练的样本权重, 即刻意训练的强度. 对于第$ j $个同伴网络, 其同伴间刻意训练的损失函数在正例上的定义为

    $$ {\cal{L}}_{{S2}_\text{pos}}^{(j)} = -\frac{1}{\vert{\cal{I}}\vert}\sum\limits_{i\in{\cal{I}}} {(1-{\widetilde{p}}_{i, \ast}^{(j)})}^\gamma \text{log}(p_{i, \ast}^{(j)}) $$ (8)

    其中, $ p_{i, \ast}^{\left(j\right)} $和 $ {\widetilde{p}}_{i, \ast}^{(j)} $分别代表模型自身和伪同伴在正例上输出的概率值, $ {(1-{\widetilde{p}}_{i, \ast}^{(j)})}^\gamma $为伪同伴概率影响下的刻意训练强度, $ \gamma $为调节刻意训练强度的超参数.

    式(8)中的刻意训练损失函数主要由伪同伴和模型自身输出的概率两部分构成, 可将多个同伴网络组成一个学习共同体, 从同一批次样本的全局训练信号上感知潜在的样本. 其包含如下性质:

    性质 1. 模型自身和伪同伴响应一致, 都正确(错误)地预测出了下一个用户行为, 则输出概率$ p_{i, \ast}^{\left(j\right)} $和$ {\widetilde{p}}_{i, \ast}^{(j)} $相对于同一个训练批次内的其他样本都较大(小), 刻意训练强度$ {(1-{\widetilde{p}}_{i, \ast}^{(j)})}^\gamma $相对较小(大), 损失函数也相应较小(大), 模型减少(增加)对该样本的学习.

    性质 2. 模型自身和伪同伴响应不一致, 则损失函数的大小介于性质1的两种情况之间. 相对于同一个训练批次内的其他样本, 正确响应的模型为避免暴力拟合或灾难性遗忘[43]会增加刻意训练强度; 错误响应的模型为关注损失更高的其他样本, 会降低刻意训练强度. 因此, 模型对样本的学习会同时考虑自身和同伴的学习状态, 从全局角度优化训练强度, 使模型更好地学习用户兴趣表示.

    相似地, 为避免候选集中高度相似的行为对预测产生干扰, 本文对所有负例的损失函数定义为

    $$ {\cal{L}}_{S2_\text{neg}}^{(j)} = -\frac{1}{\vert{\cal{I}}\vert}\sum\limits_{i\in{\cal{I}}} \sum\limits_{k\neq\ast}^{\left|{\cal{B}}\right|}{{({\widetilde{p}}_{i, k}^{(j)})}^\gamma \text{log}(1-p_{i, k}^{(j)})} $$ (9)

    其中, $ p_{i, k}^{(j)} $是概率分布$ {\boldsymbol{p}}_i^{(j)} $中的第$ k $个负例元素的概率值, $ {\widetilde{p}}_{i, k}^{(j)} $是对应的伪同伴模型的概率值, $ {({p}_{i, k}^{(j)})}^\gamma $是伪同伴概率影响下的刻意训练强度, $ \gamma $为调节刻意训练强度的超参数.

    最后, 本文结合传统交叉熵损失(图3中的圆形)和同伴间刻意训练的损失函数, 计算最终的损失函数为

    $$ \begin{split}{\cal{L}}_\text{total}^{\left(j\right)} =\;& -\frac{\alpha}{\vert{\cal{I}}\vert}\sum\limits_{i\in{\cal{I}}}y_{i, \ast}\text{log}(p_{i, \ast}^{(j)})\;+\\ &(1-\alpha)\left({\cal{L}}_{S2_\text{pos}}^{(j)}+{\cal{L}}_{S2_\text{neg}}^{(j)}\right) \end{split} $$ (10)

    其中, $ \alpha $为平衡传统交叉熵损失和同伴间刻意训练损失的超参数.

    为了更加直观地解释同伴网络是如何结合伪同伴和模型自身输出的概率建模动态的用户兴趣, 本节进一步探讨同伴间刻意训练的损失函数对第$ j $个同伴网络梯度变化的影响. 对于同伴网络$ j $中的正例损失函数, 式(8)中关于模型最后一层输出$ z_\ast^{(j)} $的梯度推导如下:

    $$ \begin{split} \frac{\partial{\cal{L}}_{{S2}_\text{pos}}^{(j)}}{\partial z_{i, \ast}^{(j)}} =\;& \frac{\partial{\cal{L}}_{{S2}_\text{pos}}^{(j)}}{\partial p_{i, \ast}^{\left(j\right)}}\frac{\partial p_{i, \ast}^{\left(j\right)}}{\partial z_{i, \ast}^{\left(j\right)}}= \\ &-\frac{(1-{\widetilde{p}}_{i, \ast}^{(j)})^\gamma}{p_{i, \ast}^{(j)}}\times p_{i, \ast}^{(j)}(1-p_{i, \ast}^{(j)})= \\ & (1-{\widetilde{p}}_{i, \ast}^{(j)})^\gamma(p_{i, \ast}^{(j)}-y_{i, \ast}) \end{split} $$ (11)

    从式(11)中可以看出, 刻意训练中正例的梯度是标准交叉熵梯度的缩放, 而缩放因子是从伪同伴传递过来的刻意训练强度$ {(1-{\widetilde{p}}_{i, \ast}^{(j)})}^\gamma $. 如果伪同伴对正例的预测发生了较大的偏离(即${\widetilde{p}}_{i, \ast}^{(j)}\approx0)$, 式(11)产生的梯度就接近于标准交叉熵梯度. 此时, 伪同伴会提示第$ j $个同伴网络当前样本中的序列特征需要以较大梯度刻意训练, 如果第$ j $个同伴网络也没有产生正确响应则产生较大的梯度; 如果第$ j $个同伴网络产生正确响应则以中等强度的梯度学习. 只有所有同伴网络都产生正确响应, 才产生较小的梯度.

    因此, 本文提出的同伴间刻意训练的损失函数可以在学习过程中动态地缩放梯度. 在训练阶段, 同伴网络会同时考虑其他网络在上一轮学习中输出的概率分布, 结合不同的用户兴趣表示来调整自身下一轮学习的方向, 直到彼此都预测正确.

    为了评估提出的序列推荐模型PeerRec的有效性, 本文设置了以下4个研究问题(Research question, RQ):

    RQ 1. PeerRec模型与目前最新的序列推荐模型相比, 推荐精度如何?

    RQ 2. 本文提出的基于同伴知识互增强的训练方式, 对模型准确率的影响有多大?

    RQ 3. 增加同伴网络的数量是否能进一步提升PeerRec模型的推荐精度?

    RQ 4. 本文提出的PeerRec模型是否具有良好的在线推荐效率?

    针对RQ 1, 本文将对比目前最新的序列推荐模型; 针对RQ 2, 本文将通过抛弃实验设计不同的变体, 并观察模型的性能变化; 针对RQ 3, 本文通过引入更多的同伴网络, 研究模型的性能变化; 针对RQ 4, 本文在不同数据集上与最新的序列推荐模型对比, 观察模型的运行速率. 此外, 本文还对PeerRec模型的参数敏感性和不同初始化下的稳定性进行了讨论和分析.

    通常, 用户的动态兴趣与序列中交互行为的数量存在较大的相关性. 一方面, 单个用户的交互行为较多, 更容易包含多样化的用户兴趣; 另一方面, 单个用户的交互行为较少, 可反映出有效信息不足导致的不确定性. 因此, 本文以平均序列长度为准则, 选取现有工作[1, 14, 17]中广泛使用的3个公开推荐数据集(ML-1m电影评分[17]、LastFM音乐艺术家推荐[1]和Toys亚马逊评论子类别[1])进行了相关实验. 数据集的具体情况如表1所示.

    表 1  实验集数据统计表
    Table 1  Statistics of dataset
    ML-1mLastFMToys
    用户数量6 0401 09019 412
    行为类别数量3 4163 64611 924
    最长序列的行为数量2 275897548
    最短序列的行为数量1633
    序列的平均行为数量163.5046.216.63
    序列行为数量的方差192.53 77.698.50
    下载: 导出CSV 
    | 显示表格

    借鉴文献[1, 17]中的数据预处理方式, 本文将用户行为按发生的时间先后顺序排列, 并剔除了序列长度小于5的不活跃用户, 将每个序列中的最末一个行为作为测试集, 倒数第二个行为作为验证集, 其余部分构成训练集. 最大序列长度$ N $设置为200. 为了保证序列的长度在最大范围内, 本文将较长的序列从右到左分割成多个子序列.

    本文使用Adam和线性衰减学习率(初始值为1$ \times $$ 10^{-4} $)训练模型, 训练的样本批量大小设置为256. 在同伴网络中, 本文设置多头自注意力层数$ L $为2, 头数$ R $为2, 嵌入向量表示的维度$ d $为64, 中间隐藏层维度为256. 本文采用目前主流的网格搜索方式[9, 14], 通过验证集在$\{0, 0.1, 0.2, 0.3, \cdots, 0.9, 1.0\}$, $ \{0, 0.01, 0.02, 0.03\} $和$ \{0, 0.5, 1.0, 1.5, 2.0\} $范围内寻找同伴知识互增强训练超参数$ \alpha $、$ \beta $和$ \gamma $的最佳组合, 并报告其在测试集上的性能. 最后, 本文在ML-1m、LastFM和Toys数据集上得出的最佳参数组合$ (\alpha, \beta, \gamma )$ 分别为 $ (0.5, 0, 2.0) $, $(0.5, 0.01, 1.0)$和$ (0.5, 0.02, 1.0) $.

    本文的实验环境配置如下: Intel(R) Xeon(R) CPU E5-2650 v4 @ 2.20 GHz, NVIDIA TITAN Xp GPU (显存12 GB), 11.0版本的CUDA. 实验代码采用2.7版本的Python和1.14.0版本的Tensorflow实现PeerRec模型.

    根据常用的评估方法[1, 17], 序列推荐模型的性能可以通过${\text{Top-}}k $命中率(Hit ratio, HR@$ k )、$${\text{Top-}}k$归一化折扣累计收益(Normalized discounted cumulative gain, NDCG@$ k) $和平均倒数排名(Mean reciprocal rank, MRR)评估, 这3个指标的取值越高, 模型的性能就越好. 在本文的工作中, 指标的$ k $值设为 {1, 5, 10}. 当$ k $取1时, HR@1等于NDCG@1. 为了在大量的候选行为中实现高效计算, 本文随机选取99个负例行为与预测目标的行为进行排序.

    为了验证本文提出的PeerRec模型的有效性, 实验按照第1.1节中现有序列推荐方法对用户动态兴趣建模方式的分类, 设置了6个主流的序列推荐模型, 具体如下:

    1) POP (Popularity). 最简单的基线模型, 仅通过用户与行为交互的频次(流行度)预测用户的下一个行为.

    2) BERT4Rec (Sequential recommendation with bidirectional encoder representations from transformer)[17]. 一种基于BERT语言模型, 利用双向序列信息建模动态兴趣的推荐方法.

    3) S3-Rec (Self-supervised learning for sequential recommendation)[1]. 一种利用互信息最大化建模序列和用户数据内部关联的序列推荐方法. 为了公平对比, 本文去除了对额外用户信息建模的模块, 仅利用文中的MIP (Masked item prediction)和SP (Segment prediction)最大化行为序列的内部关联.

    4) HyperRec (Next-item recommendation with sequential hypergraphs)[9]. 一种利用超图卷积建模不同时刻用户动态兴趣的推荐方法.

    5) R-CE (Reweighted cross-entropy)[11]. 一种自适应的去噪策略, 本文使用该策略重新训练原始的BERT4Rec模型.

    6) STOSA (Stochastic self-attention)[14]. 目前最新的建模序列动态兴趣和行为关系传递性的方法.

    本文所使用的推荐模型BERT4Rec、${\rm{S}} ^3 $-Rec、HyperRec、STOSA的源代码均由作者发布. 所有模型都采用了原论文中推荐的参数设置.

    表2列出了采用2个同伴网络时, 本文提出的PeerRec方法与基线方法的对比结果. 为了便于比较, 表2中加粗的数值表示最优的结果, 下划线标记的数值表示次优的结果. 本文可得出如下结论:

    表 2  与基线模型在精度指标上的对比
    Table 2  The comparison with baselines in terms of accuracy based metrics
    数据集模型HR@1HR@5HR@10NDCG@5NDCG@10MRR
    ML-1mPOP0.04070.16030.27750.10080.13830.1233
    BERT4Rec[17]0.36950.68510.78230.53750.56900.5108
    S3-Rec[1]0.28970.65750.79110.45570.52660.4535
    HyperRec[9]0.31800.66310.77380.50140.53750.4731
    R-CE[11]0.39880.64780.74040.53270.56270.5179
    STOSA[14]0.32220.65460.78440.49670.53890.4716
    PeerRec (同伴1)0.42500.71970.81410.58430.61500.5600
    PeerRec (同伴2)0.42520.72250.81410.58600.61570.5610
    LastFMPOP0.02020.09080.17800.05440.08250.0771
    BERT4Rec[17]0.10910.32940.46140.22270.26480.2266
    S3-Rec[1]0.11560.28440.42290.20030.24520.2148
    HyperRec[9]0.11460.31470.46880.21500.26460.2241
    R-CE[11]0.06510.18350.28620.12430.15700.1397
    STOSA[14]0.07520.21650.34120.14580.18600.1556
    PeerRec (同伴1)0.12940.34950.47890.23390.27550.2341
    PeerRec (同伴2)0.12480.33580.48350.23180.27960.2378
    ToysPOP0.02600.10460.18480.06520.09090.0861
    BERT4Rec[17]0.13900.33790.45960.24090.28020.2444
    S3-Rec[1]0.09900.30230.43930.20210.24630.2081
    HyperRec[9]0.11470.28750.39090.20310.23650.2087
    R-CE[11]0.11300.31890.45290.21790.26110.2233
    STOSA[14]0.18380.35870.45500.27490.30590.2732
    PeerRec (同伴 1)0.17940.37030.47850.27850.31340.2810
    PeerRec (同伴 2)0.17820.37060.47780.27810.31270.2803
    下载: 导出CSV 
    | 显示表格

    1) 基于固定向量表示的方法在ML-1m电影数据集上表现较好, 但不同指标上的优势不稳定. 从表2中可以看出, ${\rm{S}} ^3 \text{-Rec}$在没有引入额外用户信息时表现不佳. HyperRec虽然从行为序列的子图中提取了不同时刻的用户兴趣, 但序列子图所能提供的信息有限, 限制了模型的性能. BERT4Rec的性能整体优于${\rm{S}} ^3 \text{-Rec} $和HyperRec, 说明BERT4Rec可以有效利用序列中的双向语义信息丰富兴趣表示的学习. 基于去噪的R-CE方法在序列信息较丰富的ML-1m数据集上表现较好, 而在序列行为较少的LastFM和Toys数据集上表现较差, 说明用户交互行为较少时, 去噪方法更容易导致有效信息丢失, 使推荐性能欠佳.

    2) 基于分布函数的STOSA方法在短序列上表现较好, 尤其在Toys数据集上取得了优越的性能, 原因在于概率分布增加了模型拟合的行为序列空间, 能够有效捕获用户行为之间的演变关系. 在Toys数据集的HR@1指标上, PeerRec性能稍弱于STOSA, 原因在于PeerRec采用多同伴网络集成的方式, 可探索更大的解空间[18-19], 在候选行为类别数量较大的Toys数据集上, 会更倾向于从整体优化推荐精度.

    3) PeerRec方法中的两个同伴网络在绝大多数指标上差异较小且优于基线方法. 在ML-1m、LastFM和Toys数据集上, PeerRec相比于最好的基线方法, 在NDCG@5指标上分别提升了9.02%、5.03%和1.31%. 原因在于PeerRec方法利用多个同伴网络建模行为序列中的动态兴趣, 可比基于分布函数的方法探索更大的表示空间, 且采用的两阶段同伴知识互增强训练方式优化了同伴网络对潜在样本中动态兴趣的建模能力. 由于两个同伴性能差异较小并且得到共同提升, 在后续测试及部署阶段, 可以只保留一个同伴网络, 提升在线推荐效率.

    表3所示, 本文首先完全抛弃第2阶段的刻意训练, 分析其对模型性能的影响. 然后, 如图4所示, 本文保留第1阶段的知识蒸馏并抛弃第2阶段刻意训练中的不同成分, 设置如下刻意训练的变体:

    表 3  知识蒸馏与刻意训练对比
    Table 3  The comparison between knowledge distillation and deliberate practice
    数据集HR@1NDCG@5MRR
    知识蒸馏[39]ML-1m0.39520.56560.5386
    LastFM0.11190.23010.2314
    Toys0.16930.27610.2767
    刻意训练 PeerRecML-1m0.42510.58520.5605
    LastFM0.12710.23290.2360
    Toys0.17880.27830.2807
    下载: 导出CSV 
    | 显示表格
    图 4  PeerRec变体在HR@1指标上的对比
    Fig. 4  The comparison between the variants of PeerRec in terms of HR@1

    1)变体 I. 抛弃式(10)中刻意训练对动态兴趣的建模(即$ \alpha $设置为1), 仅保留第1阶段的知识蒸馏和第2阶段中的基于硬标签的交叉熵训练;

    2)变体II. 抛弃式(7)中利用动态最小组策略过滤低置信度样本中的噪音.

    通过对比知识蒸馏和2个变体在最严格的HR@1指标上输出的平均值, 可得到如下结论.

    1) 第2阶段的刻意训练可以在第1阶段知识蒸馏的基础上进一步提升性能. 本文提出的PeerRec模型是基线模型BERT4Rec的扩展, 即仅采用1个同伴网络时, PeerRec模型可退化为BERT4Rec模型. 结合表3图4可以看出, 实验结果与本文在第1.2节中的分析一致, 知识蒸馏的性能优于传统单模型的BERT4Rec, 而PeerRec模型可以在知识蒸馏的基础上进一步增强对潜在样本中用户动态兴趣的学习, 表明了本文提出的两阶段同伴知识互增强训练的有效性.

    2) 采用2个同伴网络进行两阶段的学习, 但在第2阶段只进行硬标签学习, 变体I的性能会出现不同程度下降. 如图4所示, 变体I与完整的PeerRec模型相比, 在ML-1m、LastFM和Toys数据集上的平均性能分别下降了1.65%、7.43%和11.54%. 这表明通过刻意训练的互相学习可以有效地利用多个同伴建模序列中的动态兴趣, 提升模型的性能.

    3) 抛弃动态最小组策略的噪音过滤后, 模型性能出现下降. 通过对比完整的PeerRec模型和变体II可以发现, 在LastFM和Toys数据集上, 本文以比例$ \gamma $动态地过滤在所有同伴网络中交叉熵损失都较高的样本, 减少它们对模型刻意训练的损失贡献, 有助于序列推荐精度的提升. 相比于纯粹去噪的R-CE方法, 完整的PeerRec模型在ML-1m数据集上没有过滤噪音($ \gamma $设置为0), 取得了更佳的性能. 这主要是因为该数据集用户序列较长且候选集较小, 可以通过动态兴趣建模利用信息, 避免纯粹去噪方法对信息的丢失.

    为了研究PeerRec模型中同伴网络数量和动态最小组策略的影响, 本文在相同的硬件条件下, 通过采用行为类别数量较少的ML-1m数据集并减小样本批量的大小(批量大小为128), 使有限的内存可以容纳更多的同伴网络. 通过逐步增加同伴网络的数量, 对比分析动态最小组策略和损失平均[39]融合方式在HR@1指标上的均值(图5中的阴影部分为动态最小组策略中同伴波动的范围), 可得出如下结论: 三个同伴网络可以进一步提升性能. 从图5中可以看出, 相对于2个同伴网络, 3个同伴网络在ML-1m数据集上的性能提升了1.36%. 实验结果表明, 刻意训练可以充分利用多个同伴网络之间的知识差异, 互相提升性能.

    图 5  不同同伴网络数量的性能对比
    Fig. 5  The evaluation on different number of peers

    多个同伴网络(3个及以上)提升效果有限. 从图5中可以看出, 在相同的参数设置下, 随着同伴网络数量增多, 模型性能逐渐上升, 而后平稳变化. 这说明采用2个或3个同伴网络时, 模型性能提升的效果就足以饱和, 并不是同伴网络的数量越多, 模型的性能越好.

    相比于损失平均的同伴融合方式, 第2阶段的刻意训练采用动态最小组策略, 可以取得更佳的性能. 这主要是因为通过同伴选择策略可以有效避免均值计算带来的同伴多样性丢失问题.

    不同于现有基线模型采用的单模型结构, PeerRec模型利用多同伴网络互相学习的方式建模动态兴趣, 且在第4.7节中验证了2个或3个同伴网络就足以获得较好的性能. 因此, 本节进一步评估采用2个同伴网络的PeerRec模型和基线模型的运行效率. 如图6所示, 本文列出了样本批量为256时模型的迭代速率(iter/s), 并标出了PeerRec模型在训练和测试阶段的速率差异. 可以发现, PeerRec模型在ML-1m和LastFM数据集上超过目前最新的STOSA模型, 并在Toys数据集上保持相当的速率. 这主要是因为PeerRec模型在测试阶段只保留1个同伴网络, 模型的参数数量减少到与BERT4Rec模型一致, 可以显著提升在线推荐速率, 而STOSA模型概率分布的参数(如均值和方差)进一步增加了模型的参数量.

    图 6  Batch大小设置为256时, 模型的迭代速率
    Fig. 6  The running speed of different models with batch size 256

    在训练阶段, 由于PeerRec模型采用了多个同伴网络, 迭代速率低于基于固定向量表示的基线模型, 但与基于分布函数的STOSA模型相当. 从图6可以看出, STOSA模型迭代速率在Toys数据集上增大, 原因在于STOSA模型采用的贝叶斯个性化排序(Bayesian personalized ranking, BPR)损失在候选集较大时的计算代价更小. 值得注意的是, 在工业部署和实际应用中, 训练过程以较高的计算代价换取精度的提升通常是可以接受的, 而测试阶段的在线推荐通常对模型的效率有较高的要求. 因此, 本文提出的PeerRec模型的优势在于, 通过多个同伴间的互相学习不仅使模型精度获得提升, 而且可以保持良好的在线推荐效率.

    本文在第4.2节给出了通过网格搜索[9, 14]获得的最佳参数组合. 为了单独研究不同参数对第2阶段刻意训练的影响, 本节分别调节最佳参数组合下超参数$ \alpha $, $ \beta $, $ \gamma $的大小, 同时保持其他参数值不变, 并观察模型在测试集上的性能变化, 可以观察到如下现象: 1) 关于损失平衡因子$ \alpha $的影响. 以图7(a)中阴影区域为界, 可以看出随着损失平衡因子$ \alpha $由小变大, 模型会分别进入3种不同的学习状态, 即基于刻意训练的主导状态、刻意训练与交叉熵学习的平衡状态、基于交叉熵学习的主导状态. 在前两个状态中(基于刻意训练的主导状态和平衡状态), 可以观察到两个同伴网络的性能差异较小, 而基于交叉熵学习的主导状态中两个模型的性能差异逐渐拉大, 表明本文提出的基于刻意训练的互相学习, 可以拉近两个同伴的距离. 此外, 相对于知识蒸馏, 交叉熵中对硬标签的训练, 同样可以关注到一部分潜在样本, 只是增强的效果有限. 从图7(a)中可以看出, 对于不同的学习状态, 曲线都会出现下降或先上升再下降的趋势, 这是因为在学习状态的切换过程中, 非主导作用的学习起到正则项的作用, 可以给模型提供关于参数学习的额外信息, 避免模型陷入欠拟合或过拟合. 2) 关于过滤噪音比例$ \beta $的影响. 从图7(b)中可以看出, 在ML-1m数据集上, 随着过滤比例$ \beta $增大, 模型性能下降. 这表明简单地将包含动态兴趣的序列当作噪音处理, 会损失一部分有用的信息. 3) 关于调节刻意训练强度的超参数$ \gamma $的影响. 从图7(c)中可以看出, 随着$ \gamma $增大, 模型性能整体呈现上升趋势, 说明较大的$ \gamma $值会使模型对同伴传递的知识更加敏感, 一定程度上有利于模型对序列中的动态兴趣建模.

    图 7  超参数敏感性分析
    Fig. 7  Sensitivity analysis of hyper-parameters

    本文主要采用截断正态分布(Truncated normal distribution, TND)随机初始化同伴网络, 使模型获得多样性[20, 39]. 为了分析不同初始化方式对模型稳定性的影响, 本文在两个同伴网络的基础上, 进一步对比另外两种主流的初始化方式, 即Xavier[44]和Kaiming[45], 并观察模型在各个指标上均值的差异.

    表4中可以看出, 本文提出的PeerRec模型受初始化方式的影响较小, 在3个数据集上都表现出良好的性能. 该实验结果与本文在第3.2节中的分析一致. 这主要是因为多个同伴网络从不同的初始点开始互相学习, 弱化了初始化对同伴网络的影响, 并且多个网络组成一个学习共同体, 可以从全局的角度探索更大的解空间, 寻找到比单个模型更佳的局部最优解, 获得较好的泛化性能.

    表 4  PeerRec模型采用不同初始化的性能对比
    Table 4  The performance comparison between different initializations of our PeerRec
    数据集初始化方式HR@1NDCG@5MRR
    ML-1mTND0.42510.58520.5605
    Xavier0.42630.58520.5600
    Kaiming0.42780.59110.5652
    LastFMTND0.12710.23290.2360
    Xavier0.12940.23970.2424
    Kaiming0.12470.22570.2342
    ToysTND0.17880.27830.2807
    Xavier0.17750.27940.2811
    Kaiming0.18060.27760.2804
    下载: 导出CSV 
    | 显示表格

    本文针对序列推荐任务中, 由用户动态兴趣导致的行为序列建模不确定性问题进行研究, 提出了一种同伴知识互增强下的序列推荐方法(PeerRec). 该方法结合多个同伴网络和同伴知识互增强的训练, 允许多个同伴在同一框架下互相学习, 通过交换不同用户兴趣表示预测的概率分布, 优化自身对用户动态兴趣的建模. 通过同伴知识互增强的训练, 所有同伴网络的推荐性能可以得到共同提升, 且在测试阶段仅保留任意一个同伴网络, 可以获得良好的在线推荐效率. 3个公开数据集上的实验结果表明了本文提出的PeerRec方法的优越性.

    本文的后续工作将从两方面展开. 一方面, PeerRec模型主要关注序列的下一个行为. 然而, 实际场景需要考虑更多的状况, 如多个用户之间的关联、连续行为的预测. 如何扩展PeerRec模型到多模态序列推荐、序列到序列(Seq2Seq)推荐等复杂的序列任务依然存在挑战. 另一方面, 第2阶段刻意训练虽然可以有效弥补第1阶段知识蒸馏的不足, 但这种分开训练的方式粒度较粗, 为进一步研究知识蒸馏内部机制留下了空间.


  • 11 一种基于最优传输理论衡量两个分布间距离的度量方式, 目前只在一维分布、高斯分布等少数几种分布上存在闭式解.
  • 图  1  用户动态兴趣在潜在空间中的表示与推断

    Fig.  1  The representation and inference of dynamic interests in latent representation spaces

    图  2  PeerRec模型的网络结构

    Fig.  2  The architecture of our proposed PeerRec

    图  3  基于刻意训练的互相学习

    Fig.  3  An illustration of deliberate practice based mutual learning

    图  4  PeerRec变体在HR@1指标上的对比

    Fig.  4  The comparison between the variants of PeerRec in terms of HR@1

    图  5  不同同伴网络数量的性能对比

    Fig.  5  The evaluation on different number of peers

    图  6  Batch大小设置为256时, 模型的迭代速率

    Fig.  6  The running speed of different models with batch size 256

    图  7  超参数敏感性分析

    Fig.  7  Sensitivity analysis of hyper-parameters

    表  1  实验集数据统计表

    Table  1  Statistics of dataset

    ML-1mLastFMToys
    用户数量6 0401 09019 412
    行为类别数量3 4163 64611 924
    最长序列的行为数量2 275897548
    最短序列的行为数量1633
    序列的平均行为数量163.5046.216.63
    序列行为数量的方差192.53 77.698.50
    下载: 导出CSV

    表  2  与基线模型在精度指标上的对比

    Table  2  The comparison with baselines in terms of accuracy based metrics

    数据集模型HR@1HR@5HR@10NDCG@5NDCG@10MRR
    ML-1mPOP0.04070.16030.27750.10080.13830.1233
    BERT4Rec[17]0.36950.68510.78230.53750.56900.5108
    S3-Rec[1]0.28970.65750.79110.45570.52660.4535
    HyperRec[9]0.31800.66310.77380.50140.53750.4731
    R-CE[11]0.39880.64780.74040.53270.56270.5179
    STOSA[14]0.32220.65460.78440.49670.53890.4716
    PeerRec (同伴1)0.42500.71970.81410.58430.61500.5600
    PeerRec (同伴2)0.42520.72250.81410.58600.61570.5610
    LastFMPOP0.02020.09080.17800.05440.08250.0771
    BERT4Rec[17]0.10910.32940.46140.22270.26480.2266
    S3-Rec[1]0.11560.28440.42290.20030.24520.2148
    HyperRec[9]0.11460.31470.46880.21500.26460.2241
    R-CE[11]0.06510.18350.28620.12430.15700.1397
    STOSA[14]0.07520.21650.34120.14580.18600.1556
    PeerRec (同伴1)0.12940.34950.47890.23390.27550.2341
    PeerRec (同伴2)0.12480.33580.48350.23180.27960.2378
    ToysPOP0.02600.10460.18480.06520.09090.0861
    BERT4Rec[17]0.13900.33790.45960.24090.28020.2444
    S3-Rec[1]0.09900.30230.43930.20210.24630.2081
    HyperRec[9]0.11470.28750.39090.20310.23650.2087
    R-CE[11]0.11300.31890.45290.21790.26110.2233
    STOSA[14]0.18380.35870.45500.27490.30590.2732
    PeerRec (同伴 1)0.17940.37030.47850.27850.31340.2810
    PeerRec (同伴 2)0.17820.37060.47780.27810.31270.2803
    下载: 导出CSV

    表  3  知识蒸馏与刻意训练对比

    Table  3  The comparison between knowledge distillation and deliberate practice

    数据集HR@1NDCG@5MRR
    知识蒸馏[39]ML-1m0.39520.56560.5386
    LastFM0.11190.23010.2314
    Toys0.16930.27610.2767
    刻意训练 PeerRecML-1m0.42510.58520.5605
    LastFM0.12710.23290.2360
    Toys0.17880.27830.2807
    下载: 导出CSV

    表  4  PeerRec模型采用不同初始化的性能对比

    Table  4  The performance comparison between different initializations of our PeerRec

    数据集初始化方式HR@1NDCG@5MRR
    ML-1mTND0.42510.58520.5605
    Xavier0.42630.58520.5600
    Kaiming0.42780.59110.5652
    LastFMTND0.12710.23290.2360
    Xavier0.12940.23970.2424
    Kaiming0.12470.22570.2342
    ToysTND0.17880.27830.2807
    Xavier0.17750.27940.2811
    Kaiming0.18060.27760.2804
    下载: 导出CSV
  • [1] Zhou K, Wang H, Zhao W X, Zhu Y T, Wang S R, Zhang F Z, et al. S3-Rec: Self-supervised learning for sequential recommendation with mutual information maximization. In: Proceedings of the 29th ACM International Conference on Information & Knowledge Management. New York, USA: ACM, 2020. 1893−1902
    [2] 饶子昀, 张毅, 刘俊涛, 曹万华. 应用知识图谱的推荐方法与系统. 自动化学报, 2021, 47(9): 2061-2077

    Rao Zi-Yun, Zhang Yi, Liu Jun-Tao, Cao Wan-Hua. Recommendation methods and systems using knowledge graph. Acta Automatica Sinica, 2021, 47(9): 2061-2077
    [3] Li X C, Liang J, Liu X L, Zhang Y. Adversarial filtering modeling on long-term user behavior sequences for click-through rate prediction. In: Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval. Madrid, Spain: ACM, 2022. 1969−1973
    [4] 汤文兵, 任正云, 韩芳. 基于注意力机制的协同卷积动态推荐网络. 自动化学报, 2021, 47(10): 2438-2448

    Tang Wen-Bing, Ren Zheng-Yun, Han Fang. Attention-based collaborative convolutional dynamic network for recommendation. Acta Automatica Sinica, 2021, 47(10): 2438-2448
    [5] 郭磊, 李秋菊, 刘方爱, 王新华. 基于自注意力网络的共享账户跨域序列推荐. 计算机研究与发展, 2021, 58(11): 2524-2537

    Guo Lei, Li Qiu-Ju, Liu Fang-Ai, Wang Xin-Hua. Shared-account cross-domain sequential recommendation with self-attention network. Journal of Computer Research and Development, 2021, 58(11): 2524-2537
    [6] Rao X, Chen L S, Liu Y, Shang S, Yao B, Han P. Graph-flashback network for next location recommendation. In: Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. Washington, USA: ACM, 2022. 1463−1471
    [7] 孟祥武, 梁弼, 杜雨露, 张玉洁. 基于位置的移动推荐系统效用评价研究. 计算机学报, 2019, 42(12): 2695-2721

    Meng Xiang-Wu, Liang Bi, Du Yu-Lu, Zhang Yu-Jie. A survey of evaluation for location-based mobile recommender systems. Chinese Journal of Computers, 2019, 42(12): 2695-2721
    [8] Hu K X, Li L, Liu J Q, Sun D. DuroNet: A dual-robust enhanced spatial-temporal learning network for urban crime prediction. ACM Transactions on Internet Technology, 2021, 21(1): Article No. 24
    [9] Wang J L, Ding K Z, Hong L J, Liu H, Caverlee J. Next-item recommendation with sequential hypergraphs. In: Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval. New York, USA: ACM, 2020. 1101−1110
    [10] 陈聪, 张伟, 王骏. 带有时间预测辅助任务的会话式序列推荐. 计算机学报, 2021, 44(9): 1841-1853

    Chen Cong, Zhang Wei, Wang Jun. Session-based sequential recommendation with auxiliary time prediction. Chinese Journal of Computers, 2021, 44(9): 1841-1853
    [11] Wang W J, Feng F L, He X N, Nie L Q, Chua T S. Denoising implicit feedback for recommendation. In: Proceedings of the 14th ACM International Conference on Web Search and Data Mining. New York, USA: ACM, 2021. 373−381
    [12] Neupane K P, Zheng E, Yu Q. MetaEDL: Meta evidential learning for uncertainty-aware cold-start recommendations. In: Proceedings of the IEEE International Conference on Data Mining (ICDM). Auckland, New Zealand: IEEE, 2021. 1258−1263
    [13] Fan Z W, Liu Z W, Wang S, Zheng L, Yu P S. Modeling sequences as distributions with uncertainty for sequential recommendation. In: Proceedings of the 30th ACM International Conference on Information and Knowledge Management. Queensland, Australia: ACM, 2021. 3019−3023
    [14] Fan Z W, Liu Z W, Wang Y, Wang A, Nazari Z, Zheng L, et al. Sequential recommendation via stochastic self-attention. In: Proceedings of the ACM Web Conference. Lyon, France: ACM, 2022. 2036−2047
    [15] Jiang J Y, Yang D Q, Xiao Y H, Shen C L. Convolutional Gaussian embeddings for personalized recommendation with uncertainty. In: Proceedings of the 28th International Joint Conference on Artificial Intelligence. Macao, China: AAAI Press, 2019. 2642−2648
    [16] Zhou X L, Liu H, Pourpanah F, Zeng T Y, Wang X Z. A survey on epistemic (model) uncertainty in supervised learning: Recent advances and applications. Neurocomputing, 2022, 489: 449-465 doi: 10.1016/j.neucom.2021.10.119
    [17] Sun F, Liu J, Wu J, Pei C H, Lin X, Ou W W, et al. BERT4Rec: Sequential recommendation with bidirectional encoder representations from transformer. In: Proceedings of the 28th ACM International Conference on Information and Knowledge Management. Beijing, China: ACM, 2019. 1441−1450
    [18] Ovadia Y, Fertig E, Ren J, Nado Z, Sculley D, Nowozin S, et al. Can you trust your model's uncertainty? Evaluating predictive uncertainty under dataset shift. In: Proceedings of the 33rd International Conference on Neural Information Processing Systems. Vancouver, Canada: Curran Associates Inc., 2019. Article No. 1254
    [19] Fort S, Hu H Y, Lakshminarayanan B. Deep ensembles: A loss landscape perspective. arXiv preprint arXiv: 1912.02757, 2019.
    [20] Lakshminarayanan B, Pritzel A, Blundell C. Simple and scalable predictive uncertainty estimation using deep ensembles. In: Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA: Curran Associates Inc., 2017. 6405−6416
    [21] Renda A, Barsacchi M, Bechini A, Marcelloni F. Comparing ensemble strategies for deep learning: An application to facial expression recognition. Expert Systems With Applications, 2019, 136: 1-11 doi: 10.1016/j.eswa.2019.06.025
    [22] Deng D D, Wu L, Shi B E. Iterative distillation for better uncertainty estimates in multitask emotion recognition. In: Proceedings of the IEEE/CVF International Conference on Computer Vision Workshops (ICCVW). Montreal, Canada: IEEE, 2021. 3550−3559
    [23] Reich S, Mueller D, Andrews N. Ensemble distillation for structured prediction: Calibrated, accurate, fast —— Choose three. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP). Stroudsburg, USA: ACL, 2020. 5583−5595
    [24] Jiao X Q, Yin Y C, Shang L F, Jiang X, Chen X, Li L L, et al. TinyBERT: Distilling BERT for natural language understanding. In: Proceedings of the Findings of the Association for Computational Linguistics: EMNLP 2020. Stroudsburg, USA: ACL, 2020. 4163−4174
    [25] Zhu J M, Liu J Y, Li W Q, Lai J C, He X Q, Chen L, et al. Ensembled CTR prediction via knowledge distillation. In: Proceedings of the 29th ACM International Conference on Information and Knowledge Management. New York, USA: ACM, 2020. 2941−2958
    [26] Kang S K, Hwang J, Kweon W, Yu H. DE-RRD: A knowledge distillation framework for recommender system. In: Proceedings of the 29th ACM International Conference on Information and Knowledge Management. New York, USA: ACM, 2020. 605−614
    [27] Hinton G, Vinyals O, Dean J. Distilling the knowledge in a neural network. In: Proceedings of the 28th Conference on Neural Information Processing Systems. Montreal, Canada: Curran Associates, 2014. 1−9
    [28] Shen Z Q, Liu Z C, Xu D J, Chen Z T, Cheng K T, Savvides M. Is label smoothing truly incompatible with knowledge distillation: An empirical study. In: Proceedings of the 9th International Conference on Learning Representations. Virtual Event, Austria: ICLR, 2020. 1−17
    [29] Furlanello T, Lipton Z C, Tschannen M, Itti L, Anandkumar A. Born-again neural networks. In: Proceedings of the 35th International Conference on Machine Learning. Stockholm, Sweden: PMLR, 2018. 1602−1611
    [30] Romero A, Ballas N, Kahou S E, Chassang A, Gatta C, Bengio Y. FitNets: Hints for thin deep nets. In: Proceedings of the 3rd International Conference on Learning Representations. San Diego, USA: ICLR, 2015. 1−13
    [31] Lin T Y, Goyal P, Girshick R, He K M, Dollár P. Focal loss for dense object detection. In: Proceedings of the IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE, 2017. 2999−3007
    [32] Bengio Y, Louradour J, Collobert R, Weston J. Curriculum learning. In: Proceedings of the 26th Annual International Conference on Machine Learning. Montreal, Canada: ACM, 2009. 41−48
    [33] Ericsson K A. Deliberate practice and acquisition of expert performance: A general overview. Academic Emergency Medicine, 2008, 15(11): 988-994 doi: 10.1111/j.1553-2712.2008.00227.x
    [34] Song W P, Shi C C, Xiao Z P, Duan Z J, Xu Y W, Zhang M, et al. Autoint: Automatic feature interaction learning via self-attentive neural networks. In: Proceedings of the 28th ACM International Conference on Information and Knowledge Management. Beijing, China: ACM, 2019. 1161−1170
    [35] Qin Y Q, Wang P F, Li C L. The world is binary: Contrastive learning for denoising next basket recommendation. In: Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York, USA: ACM, 2021. 859−868
    [36] 黄震华, 杨顺志, 林威, 倪娟, 孙圣力, 陈运文, 等. 知识蒸馏研究综述. 计算计学报, 2022, 45(3): 624-653

    Hung Zhen-Hua, Yang Shun-Zhi, Lin Wei, Ni Juan, Sun Sheng-Li, Chen Yun-Wen, et al. Knowledge distillation: A survey. Chinese Journal of Computers, 2022, 45(3): 624-653
    [37] 潘瑞东, 孔维健, 齐洁. 基于预训练模型与知识蒸馏的法律判决预测算法. 控制与决策, 2022, 37(1): 67-76

    Pan Rui-Dong, Kong Wei-Jian, Qi Jie. Legal judgment prediction based on pre-training model and knowledge distillation. Control and Decision, 2022, 37(1): 67-76
    [38] Zhao B R, Cui Q, Song R J, Qiu Y Y, Liang J J. Decoupled knowledge distillation. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, USA: IEEE, 2022. 11943−11952
    [39] Zhang Y, Xiang T, Hospedales T M, Lu H C. Deep mutual learning. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 4320−4328
    [40] Zhao H J, Yang G, Wang D, Lu H C. Deep mutual learning for visual object tracking. Pattern Recognition, 2021, 112: Article No. 107796 doi: 10.1016/j.patcog.2020.107796
    [41] Chen D F, Mei J P, Wang C, Feng Y, Chen C. Online knowledge distillation with diverse peers. In: Proceedings of the 34th AAAI Conference on Artificial Intelligence. New York, USA: AAAI, 2020. 3430−3437
    [42] Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez A N, et al. Attention is all you need. In: Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA: Curran Associates Inc., 2017. 6000−6010
    [43] Toneva M, Sordoni A, des Combes R T, Trischler A, Bengio Y, Gordon G J. An empirical study of example forgetting during deep neural network learning. In: Proceedings of the 7th International Conference on Learning Representations. New Orleans, USA: ICLR, 2019. 1−19
    [44] Glorot X, Bengio Y. Understanding the difficulty of training deep feedforward neural networks. In: Proceedings of the 13th International Conference on Artificial Intelligence and Statistics. Sardinia, Italy: JMLR, 2010. 249−256
    [45] He K M, Zhang X Y, Ren S Q, Sun J. Delving deep into rectifiers: Surpassing human-level performance on imagenet classification. In: Proceedings of the IEEE International Conference on Computer Vision (ICCV). Santiago, Chile: IEEE, 2015. 1026−1034
  • 期刊类型引用(1)

    1. 闫小如. 基于多标签集成学习的螺旋CT机故障诊断研究. 计算机测量与控制. 2024(11): 48-55 . 百度学术

    其他类型引用(3)

  • 加载中
  • 图(7) / 表(4)
    计量
    • 文章访问数:  756
    • HTML全文浏览量:  618
    • PDF下载量:  174
    • 被引次数: 4
    出版历程
    • 收稿日期:  2022-04-28
    • 录用日期:  2022-09-13
    • 网络出版日期:  2022-10-26
    • 刊出日期:  2023-07-20

    目录

    /

    返回文章
    返回