2.793

2018影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于注意力机制的协同卷积动态推荐网络

汤文兵 任正云 韩芳

汤文兵, 任正云, 韩芳. 基于注意力机制的协同卷积动态推荐网络. 自动化学报, 2020, 41(x): 1−11. doi: 10.16383/j.aas.c190820
引用本文: 汤文兵, 任正云, 韩芳. 基于注意力机制的协同卷积动态推荐网络. 自动化学报, 2020, 41(x): 1−11. doi: 10.16383/j.aas.c190820
Tang Wen-Bing, Ren Zheng-Yun, Han Fang. Attention-based collaborative convolutional dynamic network for recommendation. Acta Automatica Sinica, 2020, 41(x): 1−11. doi: 10.16383/j.aas.c190820
Citation: Tang Wen-Bing, Ren Zheng-Yun, Han Fang. Attention-based collaborative convolutional dynamic network for recommendation. Acta Automatica Sinica, 2020, 41(x): 1−11. doi: 10.16383/j.aas.c190820

基于注意力机制的协同卷积动态推荐网络


DOI: 10.16383/j.aas.c190820
详细信息
    作者简介:

    东华大学信息科学与技术学院硕士研究生. 主要研究方向为深度学习, 数据挖掘与分析. E-mail: wenbing_tang@hotmail.com

    东华大学信息科学与技术学院教授. 主要研究方向为流程工业先进控制及应用, 系统建模与优化. 本文通讯作者. E-mail: renzhengyun@dhu.edu.cn

    东华大学信息科学与技术学院教授. 主要研究方向为神经动力学和智能系统. E-mail: yadiahan@dhu.edu.cn

  • 基金项目:  国家自然科学基金(11572084, 11972115)资助

Attention-based Collaborative Convolutional Dynamic Network for Recommendation

More Information
  • Fund Project:  Supported by National Natural Science Foundation of P. R. China (11572084, 11972115)
  • 摘要: 一直以来, 各种推荐系统关注于如何挖掘用户与物品特征间的潜在关联, 特征信息的充分利用有利于用户到物品的精准匹配. 基于矩阵分解和分解机的推荐算法是该领域的主流, 前者学习用户历史行为而后者分析对象特征关系, 但都难以兼顾用户行为与个体特征. 而近年来, 深度神经网络凭借其强大的特征学习能力和灵活可变的结构被应用到了推荐系统领域. 鉴于此, 本文提出了一种基于注意力机制的协同卷积动态推荐网络, 它通过注意力机制实现用户历史行为、用户画像与物品属性的多重交互, 再通过卷积网络逐层捕捉更高阶的特征交互. 网络同时接受不同组块输出的低阶至高阶信息, 最后给出用户对指定物品青睐评分概率的预估. 而且本文还提出了一种基于无参时间衰减的用户兴趣标签来量化用户关注的变化. 通过比较若干先进模型在两个现实数据集的表现, 本文设计的动态推荐模型不但能够缓解推荐时滞性, 还能明显提高推荐质量, 为用户带来更好的个性化服务体验.
  • 图  1  用户兴趣和物品(如电影)分类向量空间共享示意图

    Fig.  1  The demonstration of shared vector space between user’s interests and item’s types (e.g. movies)

    图  2  稀疏特征字段示例

    Fig.  2  The example of sparse feature fields

    图  3  基于注意力机制的用户-物品属性交互

    Fig.  3  Attentive interactions between the user’s profile and item’s attribute

    图  4  基于注意力机制的协同卷积动态推荐网络(ACCDN)

    Fig.  4  Attention-based Collaborative Convolutional Dynamic Network (ACCDN)

    图  5  卷积层示意图

    Fig.  5  The demonstration of the convolutional layer

    图  6  模型训练时间比较以及ACCDN各模块对推荐的影响

    Fig.  6  The comparison of the training costs among models and the impacts of the modules in ACCDN

    表  1  数据集概述表

    Table  1  Statistics of the evaluation datasets

    数据集 #用户 #物品 #字段 #样本 #稀疏度
    MovieLens-1M 6040 3883 5 1000 K 95.74%
    Niconico 20566 13195 7 1045 K 99.62%
    下载: 导出CSV

    表  2  null(Niconico数据集)

    Table  2  ACCDN’s hyper-parameters’ infulence on the Top-30 recommendation for Niconico

    固定参数 调节参数 预测准确率(%) HR@30 NDCG@30
    K=16
    T=32
    L=1 71.85 0.1659 0.0685
    L=2 82.54 0.2545 0.0872
    L=3 88.67 0.3001 0.0971
    L=3
    T=32
    K=8 84.91 0.2683 0.0905
    K=16 88.67 0.3001 0.0971
    K= 24 89.02 0.3089 0.0972
    L=3
    K=16
    T=8 80.22 0.2244 0.0868
    T=16 84.58 0.2696 0.0919
    T=32 88.67 0.3001 0.0971
    下载: 导出CSV

    表  3  推荐列表评析结果

    Table  3  The evaluation results of recommendation lists between baselines and ACCDN

    HR MovieLens-1 M Niconico
    HR@5 HR@10 HR@20 HR@30 HR@5 HR@10 HR@20 HR@30
    CFN 0.0395 0.0788 0.1480 0.1923 0.0358 0.0676 0.1205 0.1747
    FM 0.0498 0.0953 0.1899 0.2785 0.0471 0.0902 0.1659 0.2580
    DeepFM 0.0577 0.1168 0.2101 0.3043 0.0543 0.1013 0.1928 0.2773
    NCF 0.0543 0.1175 0.2081 0.2976 0.0485 0.0964 0.1799 0.2618
    xDeepFM 0.0584 0.1250 0.2113 0.3109 0.0594 0.1032 0.2038 0.2843
    CFM 0.0612 0.1233 0.2198 0.3177 0.0589 0.1054 0.2077 0.2917
    ACCDN 0.0593 0.1237 0.2254 0.3253 0.0590 0.1069 0.2136 0.3001
    NDCG MovieLens-1 MM Niconico
    NG@5 NG@10 NG@20 NG@30 NG@5 NG@10 NG@20 NG@30
    CFN 0.0326 0.0475 0.0610 0.0738 0.0308 0.0425 0.0535 0.0694
    FM 0.0382 0.0504 0.0658 0.0790 0.0339 0.0492 0.0617 0.0760
    DeepFM 0.0415 0.0549 0.0720 0.0853 0.0403 0.0544 0.0689 0.0832
    NCF 0.0444 0.0612 0.0779 0.0901 0.0420 0.0535 0.0712 0.0859
    xDeepFM 0.0493 0.0684 0.0852 0.0940 0.0448 0.0565 0.0723 0.0901
    CFM 0.0470 0.0649 0.0815 0.0921 0.0487 0.0566 0.0728 0.0914
    ACCDN 0.0524 0.0697 0.0862 0.1027 0.0463 0.0583 0.0750 0.0971
    下载: 导出CSV

    表  4  Top-5动态推荐对比示例

    Table  4  The examples of the dynamic Top-5 recommendation

    用户1 喜欢类型 1) 动作 2) 冒险 3) 超凡 4) 运动
    原Top-5推荐
    xDeepFM 1. Tengen Toppa Gurren Lagann 动作/冒险/机甲 2. Mononoke Hime 动作/冒险/魔幻 3.Fate/Zero2 动作/超凡/魔幻
    4. Fullmetal Alchemis 动作/冒险/魔幻 5. Hunter x Hunter 动作/冒险/超凡
    CFM 1. One Piece 动作/冒险/超凡/喜剧 2.Fate/Zero2 动作/超凡/魔幻 3. JoJo no Kimyou na Bouken 动作/超凡/冒险/青春
    4. Kizumonogatari II 动作/悬疑/超凡 5. Hellsing Ultimate 动作/惊悚/超凡
    本文模型 1. Hunter x Hunter 动作/冒险/超凡 2. JoJo no Kimyou na Bouken 动作/超凡/冒险/青春 3. Fate/Zero 动作/超凡/魔幻
    4. Fate/Zero2 动作/超凡/魔幻 5. One Piece 动作/冒险/超凡/喜剧
    增加三次用户行为: 1. Tonari no Totoro 动作/喜剧/超凡 2. Kuroko no Basket 校园/运动/青春 3. Redline 动作/赛车/科幻/运动
    新Top-5推荐
    xDeepFM 无变化 CFM 无变化
    本文模型 1. JoJo no Kimyou na Bouken 动作/超凡/冒险/青春 2. One Piece 动作/冒险/超凡/喜剧 3. Fate/Zero 动作/超凡/魔幻
    4. Fairy Tail 动作/冒险/喜剧/青春 5. Hunter x Hunter 动作/冒险/超凡
    用户2 喜欢类型 1) 惊悚 2) 超凡 3) 动作
    原Top-5推荐
    xDeepFM 1. Hellsing Ultimate 动作/惊悚/超凡 2. Akira 冒险/惊悚/超凡/科幻 3. Paprika 魔幻/惊悚/神秘
    4. Vampire Hunter D 动作/魔幻/惊悚 5. Another 惊悚/恐怖/超凡
    CFM 1. Hellsing Ultimate 动作/惊悚/超凡 2. Ajin Part 1: Shoudou 动作/惊悚/神秘 3. Ajin 动作/惊悚/神秘
    4. Change!! Getter Robo 动作/冒险/惊悚/科幻 5. Memories 惊悚/科幻
    本文模型 1. Higurashi no Naku Koro ni 惊悚/神秘/恐怖 2.Tokyo Ghoul 惊悚/超凡/动作/青春 3. Change!! Getter Robo 动作/冒险/
    惊悚/科幻 4. Jigoku Shoujo 惊悚/神秘/超凡 5. Gakkou no Kaidan 惊悚/超凡
    增加三次用户行为: 1. Ano Natsu de Matteru 喜剧/生活 2. Ling Qi 动作/喜剧/超凡 3. One Piece 动作/冒险/超凡/喜剧
    新Top-5推荐
    xDeepFM 无变化 CFM 无变化
    本文模型 1.Tokyo Ghoul 惊悚/超凡/动作/青春 2. Change!! Getter Robo 动作/冒险/惊悚/科幻 3. One Piece 动作/冒险/超凡/喜剧
    4. Sankarea 喜剧/超凡/生活 5. Kemonozume 动作/惊悚/超凡
    下载: 导出CSV
  • [1] Adomavicius G, Tuzhilin A. Toward the next generation of recommender systems: a survey of the state-of-the-art and possible extensions. IEEE Transactions on Knowledge and Data Engineering, 2015, 17(6): 734−749
    [2] Zhang S, Yao L, Sun A, Tay Y. Deep learning based recommender system: a survey and new perspectives. ACM Computing Surveys, 2017.
    [3] Rendle S. Factorization machines. In: Proceedings of the IEEE International Conference on Data Mining. Sydney, Australia: IEEE, 2011.995−1000.
    [4] Blondel M, Fujino A, Ueda N, Ishihata M. Higher-order factorization machines. In: Proceedings of Advances in Neural Information Processing Systems. New York, USA: Curran Associates Inc, 2016.3359−367.
    [5] Koren Y. Factorization meets the neighborhood: a multifaceted collaborative fifiltering model. In: Proceedings of 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Las Vegas Nevada, USA: SIGKDD, 2008.426-434.
    [6] Koren Y, Bell R, Volinsky C. Matrix factorization techniques for recommender systems. Computer, 2009, 42(8): 30−37 doi:  10.1109/MC.2009.263
    [7] Bharat K, Kamba T, Albers M. Personalized, interactive news on the Web. Multimedia Systems, 1998, 6(5): 349−358 doi:  10.1007/s005300050098
    [8] Herlocker J L, Konstan J A, Borchers A, Riedl J. An algorithmic framework for performing collaborative filtering. In: Proceedings of the 22nd International ACM SIGIR Conference on Research and Development in Information Retrieval. New York, USA: ACM, 1999.230−237.
    [9] Salakhutdinov R, Mnih A. Probabilistic matrix factorization. In: Proceedings of Advances in Neural Information Processing Systems. New York, USA: NIPS, 2008.1257–1264.
    [10] Lee J, Kim S, Lebanon G, Singer Y. Local low-rank matrix: approximation. In: Proceedings of 30th International Conference on Machine Learning. Atlanta, USA: ICML, 2013.741−749.
    [11] Sedhain S, Menon A K, Sanner S, Xie L. Autorec: autoencoders meet collaborative filtering. In: Proceedings of the 24th International Conference on World Wide Web. Florence, Italy: WWW, 2015.111−112.
    [12] Strub F, Mary J. Collaborative filtering with stacked denoising autoencoders and sparse inputs. NIPS Workshop, 2015.
    [13] Wu Y, DuBois C, Zheng A X, Ester M. Collaborative denoising auto-encoders for top-n recommender systems. In: Proceedings of the 9th ACM International Conference on Web Search and Data Mining. San Francisco, USA: WSDM, 2016.153−162.
    [14] Salakhutdinov R, Mnih A, Hinton G. Restricted Boltzmann machines for collaborativeffltering. In: Proceedings of 24th International Conference on Machine Learning. Corvallis, USA: ICML, 2007.791−798.
    [15] Jia X, Li X, Li K, Gopalakrishnan V, et al. Collaborative restricted Boltzmann machine for social event recommendation. In: Proceedings of International Conference on Advances in Social Networks Analysis and Mining. San Francisco, USA: IEEE, 2016.402−405.
    [16] 李金忠, 刘关俊, 闫春钢, 蒋昌俊. 排序学习研究进展与展望. 自动化学报, 2018, 44(8): 1345−1369

    Li Jin-Zhong, Liu Guan-Jun, Yan Chun-Gang, Jiang Chang-Jun. Research advances and prospects of learning to rank. Acta Automatica Sinica, 2018, 44(8): 1345−1369
    [17] Strub F, Gaudel R, Mary J. Hybrid recommender system based on autoencoders. In: Proceedings of the 1st Workshop on Deep Learning for Recommender Systems. Boston, USA: ICPS, 2016.11−16.
    [18] Dong X, Yu L, Wu Z, et al. A hybrid Collaborative filtering model with deep structure for recommender systems. In: Proceeding of 31st AAAI Conference on Artificial Intelligence. San Francisco, USA: AAAI, 2017.1309−1315.
    [19] He X, Liao L, Zhang H, Nie L, Hu X, Chua T. Neural collaborative filtering. In: Proceedings of the 26th International Conference on World Wide Web. Perth, Australia: ACM, 2017.173−182.
    [20] Liang D, Krishnan R G, Hoffman M D, Jebara T. Variational autoencoders for collaborative filtering. In: Proceedings of the 2018 Web Conference. Lyon, France: IEEE, 2018.
    [21] Cheng H T, Koc L, Harmsen J, et al. Wide & deep learning for recommender systems. In: Proceedings of the 1st Workshop on the Deep Learning for Recommender Systems. Boston, USA: ICPS, 2016.7−10.
    [22] Guo H, Tang R, Ye Y, Li Z, He X. A factorization-machine based neural network for CTR prediction. arXiv preprint, arXiv: 1703.04247, 2017.
    [23] Lian J, Zhou X, Zhang F, Chen Z, Xie X, Sun G. xDeepFM: combining explicit and implicit feature interactions for recommender systems. In: Proceedings of 24th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. London, UK: SIGKDD, 2018.
    [24] Zheng L, Noroozi V, Yu P S. Joint deep modeling of users and items using reviews for recommendation. In: Proceedings of the 10th ACM International Conference on Web Search and Data Mining. Cambridge, UK: ACM WSDM, 2017.425−434.
    [25] Kim D, Park C, Oh J, Lee S, Yu H. Convolutional matrix factorization for document context-aware recommendation. In: Proceedings of the 10th ACM Conference on Recommender Systems. Boston, USA: RecSys, 2016.233−240.
    [26] Covington P, Adams J, Sargin E. Deep neural networks for YouTube recommendations. In: Proceedings of the 10th ACM Conference on Recommender Systems. Boston, USA: RecSys, 2016.191−198.
    [27] Soh H, Sanner S, White M, Jamieson G. Deep sequential recommendation for personalized adaptive user interfaces. In: Proceedings of the 22nd International Conference on Intelligent User Interfaces. Limassol, Cyprus: ACM, 2017.589–593.
    [28] Suglia A, Greco C, Musto C, Gemmis M, Lops P, Semeraro G. A deep architecture for content-based recommendations exploiting recurrent neural networks. In: Proceedings of the 25th Conference on User Modeling Adaptation and Personalization. Bratislava, Slovakia: UMAP, 2017.202−211.
    [29] Li Z, Zhao H, Liu Q, Huang Z, Mei T, Chen E. Learning from history and present: next-item recommendation via discriminatively exploiting user behaviors. arXiv, preprint, arXiv: 1808.01075, 2018.
    [30] Xin X, Chen B, He X, Wang D, Ding Y, Jose H M. CFM: convolutional factorization machines for context-aware recommendation. In: Proceedings of the International Joint Conference on Artificial Intelligence. Macao, China: IJCAI, 2019.3926−3932.
    [31] Jiang J, Yang D, Xiao Y, Shen C. Convolutional Gaussian embeddings for personalized recommendation with uncertainty. In: Proceedings of the International Joint Conference on Artificial Intelligence. Macao, China: IJCAI, 2019.2642−2648.
    [32] Christakopoulou E, Karypis G. Local latent space models for top-n recommendation. In: Proceedings of 24th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. London, UK: SIGKDD, 2018.1235−1243.
    [33] Zhou X, Liu D, Lian J, Xie X. Collaborative metric learning with memory network for multi-relational recommender systems. In: Proceedings of the International Joint Conference on Artificial Intelligence. Macao, China: IJCAI, 2019.
    [34] Chae D, Kang J, Kim S, Lee J. CFGAN: a generic collaborative filtering framework based on generative adversarial networks. In: Proceedings of the 27th ACM International Conference on Information and Knowledge Management. Torino, Italy: CIKM, 2018.137−146.
    [35] Xu Z, Chen C, Lukasiewicz O, Miao Y, Meng X. Tag-aware personalized recommendation using a deep-semantic similarity model with negative sampling. In: Proceedings of the 25th ACM International Conference on Information and Knowledge Management. Indianapolis, USA: CIKM, 2016.1921–1924.
    [36] Rawat Y S, Kankanhalli M S. ConTagNet: exploiting user context for image tag recommendation. In: Proceedings of the 2016 ACM on Multimedia Conference. Amsterdam, Netherland: ACM, 2016.1102−1106.
    [37] Luong M, Pham H, Manning C D. Effective approaches to attention-based neural machine translation. arXiv preprint, arXiv: 1508.04025v5, 2015.
    [38] Vaswani A, Shazeer N, Parmar N, et al. Attention Is All You Need. arXiv preprint, arXiv: 1706.03762v5, 2017.
    [39] 李慧, 马小平, 施珺, 李存华, 仲兆满, 蔡虹. 复杂网络环境下基于信任传递的推荐模型研究. 自动化学报, 2018, 44(2): 363−376

    Li Hui, Ma Xiao-Ping, Shi Jun, Li Cun-Hua, Zhong Zhao-Man, Cai Hong. A recommendation model by means of trust transition in complex network environment. ACTA AUTOMATICA SINICA, 2018, 44(2): 363−376
    [40] Chen J, Zhang H, He X, Nie L, Liu W, Chua T. Attentive collaborative filtering: multimedia recommendation with item- and component-level attention. In: Proceedings of the 40th International ACM SIGIR Conference. Tokyo, Japan: SIGIR, 2017.335-344.
    [41] 冯永, 陈以刚, 强保华. 融合社交因素和评论文本卷积网络模型的汽车推荐研究. 自动化学报, 2019, 45(3): 518−529

    Feng Yong, Chen Yi-Gang, Qiang Bao-Hua. Social and comment text CNN model based automobile recommendation. ACTA AUTOMATICA SINICA, 2019, 45(3): 518−529
    [42] Jarvelin K, Kekalainen J. Cumulated gain-based evaluation of IR techniques. ACM Transactions on Information Systems, 2002, 20(4): 422−446 doi:  10.1145/582415.582418
  • [1] 尹明, 吴浩杨, 谢胜利, 杨其宇. 基于自注意力对抗的深度子空间聚类[J]. 自动化学报, doi: 10.16383/j.aas.c200302
    [2] 冯建周, 马祥聪. 基于迁移学习的细粒度实体分类方法的研究[J]. 自动化学报, doi: 10.16383/j.aas.c190041
    [3] 周勇, 王瀚正, 赵佳琦, 陈莹, 姚睿, 陈思霖. 基于可解释注意力部件模型的行人重识别方法[J]. 自动化学报, doi: 10.16383/j.aas.c200493
    [4] 肖进胜, 申梦瑶, 江明俊, 雷俊峰, 包振宇. 融合包注意力机制的监控视频异常行为检测[J]. 自动化学报, doi: 10.16383/j.aas.c190805
    [5] 王亚珅, 黄河燕, 冯冲, 周强. 基于注意力机制的概念化句嵌入研究[J]. 自动化学报, doi: 10.16383/j.aas.2018.c170295
    [6] 陈一鸣, 周登文. 基于自适应级联的注意力网络的超分辨重建[J]. 自动化学报, doi: 10.16383/j.aas.c200035
    [7] 冯永, 陈以刚, 强保华. 融合社交因素和评论文本卷积网络模型的汽车推荐研究[J]. 自动化学报, doi: 10.16383/j.aas.2018.c170245
    [8] 王金甲, 纪绍男, 崔琳, 夏静, 杨倩. 基于注意力胶囊网络的家庭活动识别[J]. 自动化学报, doi: 10.16383/j.aas.c180721
    [9] 金侠挺, 王耀南, 张辉, 刘理, 钟杭, 贺振东. 基于贝叶斯CNN和注意力网络的钢轨表面缺陷检测系统[J]. 自动化学报, doi: 10.16383/j.aas.c190143
    [10] 李慧, 马小平, 施珺, 李存华, 仲兆满, 蔡虹. 复杂网络环境下基于信任传递的推荐模型研究[J]. 自动化学报, doi: 10.16383/j.aas.2018.c160395
    [11] 陈智强, 王作伟, 方龙伟, 菅凤增, 吴毅红, 李硕, 何晖光. 基于机器学习和几何变换的实时2D/3D脊椎配准[J]. 自动化学报, doi: 10.16383/j.aas.2017.c160711
    [12] 冯冲, 康丽琪, 石戈, 黄河燕. 融合对抗学习的因果关系抽取[J]. 自动化学报, doi: 10.16383/j.aas.2018.c170481
    [13] 徐德, 卢金燕. 直线特征的交互矩阵求取[J]. 自动化学报, doi: 10.16383/j.aas.2015.c150097
    [14] 王晓红, 赵于前, 廖苗, 邹北骥. 基于多尺度2D Gabor小波的视网膜血管自动分割[J]. 自动化学报, doi: 10.16383/j.aas.2015.c140185
    [15] 李宝全, 方勇纯, 张雪波. 基于2D三焦点张量的移动机器人视觉伺服镇定控制[J]. 自动化学报, doi: 10.3724/SP.J.1004.2014.02706
    [16] 李聪, 骆志刚. 基于数据非随机缺失机制的推荐系统托攻击探测[J]. 自动化学报, doi: 10.3724/SP.J.1004.2013.01681
    [17] 高晓光, 陈海洋, 史建国. 变结构动态贝叶斯网络的机制研究[J]. 自动化学报, doi: 10.3724/SP.J.1004.2011.01435
    [18] 冯欣, 杨丹, 张凌. 基于视觉注意力变化的网络丢包视频质量评估[J]. 自动化学报, doi: 10.3724/SP.J.1004.2011.01322
    [19] 谷军霞, 丁晓青, 王生进. 基于人体行为3D模型的2D行为识别[J]. 自动化学报, doi: 10.3724/SP.J.1004.2010.00046
    [20] 谢胜利, 谢振东. 多输入-多输出2D离散系统的变结构控制[J]. 自动化学报
  • 加载中
计量
  • 文章访问数:  10
  • HTML全文浏览量:  10
  • 被引次数: 0
出版历程
  • 收稿日期:  2019-12-03
  • 录用日期:  2020-03-25

基于注意力机制的协同卷积动态推荐网络

doi: 10.16383/j.aas.c190820
    基金项目:  国家自然科学基金(11572084, 11972115)资助
    作者简介:

    东华大学信息科学与技术学院硕士研究生. 主要研究方向为深度学习, 数据挖掘与分析. E-mail: wenbing_tang@hotmail.com

    东华大学信息科学与技术学院教授. 主要研究方向为流程工业先进控制及应用, 系统建模与优化. 本文通讯作者. E-mail: renzhengyun@dhu.edu.cn

    东华大学信息科学与技术学院教授. 主要研究方向为神经动力学和智能系统. E-mail: yadiahan@dhu.edu.cn

摘要: 一直以来, 各种推荐系统关注于如何挖掘用户与物品特征间的潜在关联, 特征信息的充分利用有利于用户到物品的精准匹配. 基于矩阵分解和分解机的推荐算法是该领域的主流, 前者学习用户历史行为而后者分析对象特征关系, 但都难以兼顾用户行为与个体特征. 而近年来, 深度神经网络凭借其强大的特征学习能力和灵活可变的结构被应用到了推荐系统领域. 鉴于此, 本文提出了一种基于注意力机制的协同卷积动态推荐网络, 它通过注意力机制实现用户历史行为、用户画像与物品属性的多重交互, 再通过卷积网络逐层捕捉更高阶的特征交互. 网络同时接受不同组块输出的低阶至高阶信息, 最后给出用户对指定物品青睐评分概率的预估. 而且本文还提出了一种基于无参时间衰减的用户兴趣标签来量化用户关注的变化. 通过比较若干先进模型在两个现实数据集的表现, 本文设计的动态推荐模型不但能够缓解推荐时滞性, 还能明显提高推荐质量, 为用户带来更好的个性化服务体验.

English Abstract

汤文兵, 任正云, 韩芳. 基于注意力机制的协同卷积动态推荐网络. 自动化学报, 2020, 41(x): 1−11. doi: 10.16383/j.aas.c190820
引用本文: 汤文兵, 任正云, 韩芳. 基于注意力机制的协同卷积动态推荐网络. 自动化学报, 2020, 41(x): 1−11. doi: 10.16383/j.aas.c190820
Tang Wen-Bing, Ren Zheng-Yun, Han Fang. Attention-based collaborative convolutional dynamic network for recommendation. Acta Automatica Sinica, 2020, 41(x): 1−11. doi: 10.16383/j.aas.c190820
Citation: Tang Wen-Bing, Ren Zheng-Yun, Han Fang. Attention-based collaborative convolutional dynamic network for recommendation. Acta Automatica Sinica, 2020, 41(x): 1−11. doi: 10.16383/j.aas.c190820
  • 信息时代下的数据量快速膨胀, 高渗透、高过载海量信息的冲击过渡稀释了用户注意力, 导致用户们在琳琅满目的产品面前难以抉择. 因此推荐系统作用日趋凸显, 它准确而高效地跨接关系紧密的用户群和物品集, 放大长尾效应来维持供需平衡, 增大经济效益的同时提供智能化、专属化的用户服务体验, 实现从企业到客户的双赢.

    特征的选择和处理方式在整个推荐过程中扮演着极其重要的角色. 根据特征处理方式的不同, 可分为基于内容、协同过滤和混合模型推荐系统[1-2]. 狭义的特征一般指能够勾勒出用户或物品个体的定量描述, 是客观存在的, 多见于基于分解机[3-4]的推荐模型; 而本文认为特征在广义上还应包含用户主观对物品产生的历史交互信息, 这也是矩阵分解类模型[6]的主要处理对象. 推荐系统在掌握这些特征规律后, 预测用户行为, 提前替他们在众多候选物中筛选出“心仪”的产品. 因而若能够提取用户 − 物品对的特征关系, 并实时跟踪用户行为, 丰富信息的结合无疑会使推荐结果更加准确、更加个性化.

    • 早期多是基于内容的推荐系统, 它根据用户频繁浏览的物品类型给出推荐, 推荐方式简便直接但推荐内容单调乏味, 常见于广告和新闻平台[7]. 而热门至今的协同过滤算法思想大为不同. 以基于用户推荐为例[8], 先圈定行为近似的用户群, 再将他们关注过的物品推荐给彼此. 不少协同过滤模型通过用户显式反馈, 如收藏、转发和评价等, 来决定物品是否值得推荐. 而后更多平台提供了评分系统, 便于用户量化表达自己的喜好程度, 推荐过程因而变成了回归问题, 根据用户历史反馈预测评分, 并将可能得到高分的物品推荐出去. 于是矩阵近似盛行起来, 将高度稀疏的用户 − 物品评分矩阵分解为若干低阶矩阵的联合表示, 实现基于少数观测行为的评分预测. 其中以Koren等人[5-6]先后提出的SVD++ (Singular Value Decomposition ++)、矩阵分解, Salakhutdinov等人[9]基于极大似然估计的PMF (Probabilistic Matrix Factorization) 和Lee等人[10]的局部低秩矩阵近似 (Local Low-Rank Matrix Approximation, LLORMA) 最为经典. 后来多用于图像处理的自编码器也能实现近似矩阵分解的功能[20], AutoRec[11]通过编码层获得低维向量, 解码层借此还原出原有评分的同时“填补”未知评分. Strub等人[12]和Wu等人[13]对输入添加掩膜、高斯等噪声, 得到了系统鲁棒性更好的降噪自编码器. 这是自受限玻尔兹曼机[14-15]后多层感知器(Multi-layer Perceptron, MLP)在该领域的又一应用突破.

      以矩阵近似为代表的回归类推荐模型虽能在较准确还原观测数据的同时实现评分预测, 但往往因为缺乏利用甚至摒弃用户和物品特征而缺乏解释性, 且该类模型面对高稀疏性数据时通常表现不佳. 而Rendle提出的分解机(Factorization Machine, FM)[3]着力分析不同特征间的关联度, 为指定用户推荐更贴切的物品, 同时还能缓解用户冷启动. 近年来, 深度神经网络(Deep Neural Networks, DNNs)在自然语言处理和计算机视觉的广泛应用也推动了推荐模型向深层结构的方向发展, 结合了上述方法与DNNs的混合模型在性能上表现更好. 先有Strub等人于各层注入辅助特征优化CDAE (Collaborative Denoising AutoEncoders) 网络[12,17], 后有携程团队结合用户和物品双自编码器支线实现矩阵分解[18]. He等人认为低维向量级联的效果比做内积更好, 并让网络学习不同维度的隐因子向量组合, 提出了NCF[19] (Neural Collaborative Filtering) 混合模型. 特征处理方面, Google团队认为DNNs特征学习能力很强但是特征记忆力较差, 提出了综合能力更优的深宽网络[21]; 近年出现的DeepFM (Deep Factorization Machine) 能比传统分解机学习更高阶的特征交互[3,22]. 而随着用户和物品特征字段的增多, DNNs会学习更多无意义的特征交互信息, Lian等人就该问题提出了xDeepFM[23].

      此外卷积神经网络 (Convolutional Neural Networks, CNNs) 和循环神经网络 (Recurrent Neural Networks, RNNs) 等深层架构被移用到了各自擅长的推荐应用中. Kim等人将CNNs嵌入PMF中实现基于评论文档分析的推荐[9,25], Paul等人将DNNs用于Youtobe视频推荐, 成功接受千万级特征和千亿级训练样本[26]. 而擅长处理时序任务的RNNs多用于音乐、新闻等推荐情景[27-29]. 还不断涌现出特征处理巧妙、性能优良的模型变体, 比如协同过滤生成式对抗网络, 3D卷积分解机 (Convolutional Factorization Machines, CFM), 协同记忆网络和处理特征不确定性的卷积网络等[16,30-31,33-34,39-41].

      然而相关研究工作中鲜有模型同时关注用户个体特征、行为习惯和物品属性特点三方面实现推荐工作. 因此本文提出了一种模型解释性更强、信息综合更多的基于注意力机制的协同卷积动态推荐网络, 具体工作和优势概括如下:

      · 提出了一种无参时间衰减的用户兴趣标签来量化用户关注角度随时间的变化, 给推荐候选物加入与推荐时间节点相关的奖惩机制, 加强推荐动态性;

      · 通过注意力机制实现用户行为、用户画像和物品属性的多重交互, 分析不同特征组间相关性, 更有效地捕捉有价值的高阶交互信息;

      · 引入卷积网络同时处理低阶原始特征信息和高阶特征交互信息, 让模型在尽可能多保留低阶信息的同时学习更高阶特征, 加速训练收敛;

      · 使用两个现实数据集来测试本文模型的推荐效果, 并与其他性能优良的推荐系统做横向比较, 结果显示本文模型在推荐质量和个性化上表现得更好.

    • 物品类型越符合用户的口味, 用户就越容易对其产生兴趣. 而物品往往会被贴上若干标签, 一类是本文关注的物品分类标签; 另一类是用户们评价留下的标签, 并衍生出了基于标签的推荐系统[35-36]. 如今电商、视频、新闻资讯等平台都建议用户在注册时选择偏好类型以供推荐参考, 这能有效地解决用户冷启动.

      但值得注意的是, 用户的兴趣会转移、关注的内容会变化, 或快或慢, 取决于情感、心理等主观因素, 也与时事热点、亲朋好友等客观环境有关. 于是结合用户注册的偏好类型和他们历史浏览的物品类型, 本文提出了一种可行的时间衰减算法来跟踪用户兴趣的变化. 首先, 规定用户兴趣和物品类别共享标签, 圈定有限的标签集合记 $\mathbb{C} = \left\{ {{c_1},\;{c_2},\; \ldots \;,\;{c_n}} \right\}$ . 标签分类可借助聚类、关联度分析等机器学习算法, 而有的数据集直接给出了分类标签.

      假定用户u关于物品集的第一条历史操作(评价、转发、收藏等)的时间记为 ${t_{u1}}$ , 最新的一条历史操作时间记为 ${t_{u2}}$ , 则他的活跃时间跨度为 $\Delta {T_u} = {t_{u2}} - {t_{u1}}$ . 推荐节点按月计整数更新, 更新速率可按照具体推荐情景调整. 接下来, 指定用户u遍历物品集 $\Im $ , $\kappa (u)$ 记录用户u留下历史痕迹的物品索引, $\overline \kappa (u)$ 则记录用户u从未接触过的物品, 有 $\kappa (u) \cup \overline \kappa (u) = \Im $ . 而后记用户兴趣标签向量为 ${{{p}}_u} = \left[ {{p_{u,\;1}},\;{p_{u,\;2}},\; \ldots \;,\;{p_{u,\;n}}} \right]$ , 而物品的分类标签向量记为 ${{{c}}_i} = \left[ {{c_1},\;{c_2},\; \ldots \;,\;{c_n}} \right]$ , 且 ${{{p}}_u},\;{{{c}}_i} \in {\mathbb{R}^n}$ . 则在用户历史行为遍历过程中 ${{{p}}_u}$ 更新方法如下:

      $$\begin{array}{*{20}{l}}{{{p}}_u} = {{{p}}_{u,0}} + \sum\limits_i^{\kappa (u)} {{{{c}}_i} \cdot {{\rm{e}}^{−\;\dfrac{{{t_{u2}}\;−\;{t_{u1}}}}{{\Delta {T_u}}}}}} ,\;\;\;{t_{u,\;{\rm{i}}}} \in [{t_{u1}},\;{t_{u2}}],\\ \;\;\;\;\;\;\;\;\; i \in \kappa (u)\end{array}$$ (1)
      $${\rm{Norm(}}{{{p}}_u}) = \frac{{{{{p}}_u}}}{{{{\left\| {{{{p}}_u}} \right\|}_1}}}$$ (2)

      其中 ${t_{u,\;{\rm{i}}}}$ 表示用户u对物品i产生操作的时间. 若用户于注册时提供了偏好信息则 ${{{p}}_{u,0}}$ 为非零向量, 为初期推荐提供了引导和基准, 缓解了用户冷启动问题; 反之, 若用户不提供任何先验兴趣信息时 ${{{p}}_{u,0}} = {{0}}$ , 则 ${{{p}}_u}$ 的更新将完全取决于注册后的用户行为. 最后, 在每个推荐节点按式(12)对 ${{{p}}_u}$ 元素归一化到[0,1]区间, 如此每个元素值就量化表示用户对各类物品喜爱的热度和概率, 作为用户画像的一部分输入网络.

      图1为例, 用雷达图可视化某月某位用户的兴趣向量, 通过 ${\rm{Norm(}}{{{p}}_u}{\rm{)}} \cdot \;{{{c}}_i}\;,\;i = 1,2,3,4$ 计算用户与四部电影的向量内积值, 依次为0.37, 0.45, 0.58, 0.33, 显然电影3可能更符合用户的口味.

      图  1  用户兴趣和物品(如电影)分类向量空间共享示意图

      Figure 1.  The demonstration of shared vector space between user’s interests and item’s types (e.g. movies)

      本节提出的用户兴趣标签更新法节省了传统时间衰减法需要的超参调试, 让推荐系统考虑用户兴趣动态变化的同时缓解冷启动: 若用户不对新类别产生行为, 则衰减不起效, 维持原有爱好热度; 若用户关注了不同以往的新类别, 则增加新兴趣的热度, 此增彼减. 式(1)中的累加使 ${{{p}}_u}$ 记忆用户兴趣史, 基于自然常数的平滑衰减使得推荐更具平稳的动态性.

    • 图  2  稀疏特征字段示例

      Figure 2.  The example of sparse feature fields

      分解机类的推荐模型[3-4,19,22-23,30-31]专注于处理用户和物品特征的交互: 这些特征以one-hot或multi-hot字段的形式输入模型(示例见上), 并通过嵌入层索引到各自对应的稠密嵌入向量, 它们才是分解机处理的真实对象. 典型的分解机[3,22]逐对处理输入特征, 分析特征对 ${x_i}$ ${x_j}$ 的关系, 得到推荐依据:

      $${{\rm{y}}_{{\rm{FM}}}} = {\omega _0} + \sum\limits_{i = 1}^n {{\omega _1}{x_i} + \sum\limits_{i = 1}^{n - 1} {\sum\limits_{j = i + 1}^n {{x_i}{x_j} \cdot {\rm{dot(}}{{{e}}_i},\;{{{e}}_j}{\rm{)}}} } } $$ (3)

      其中, $ < {{{e}}_i},\;{{{e}}_j} > $ 是特征对<i, j>对应的嵌入向量对, 而 ${\omega _0}$ ${\omega _1}$ 分别是全局偏置和一阶权重.

      本文中注意力机制实现特征嵌入向量间的交互, 注意力机制是机器翻译的主要工具[37,38], 它通过分析当前单词与上下文内容的关联程度, 将当前单词的注意力以不同的权重分配到上下文词句. Christakopoulou等人在[32]中提及同一件物品对于不同用户意义不同, 不同背景(职业、收入、学历等)、人口统计信息(年龄、性别等)和心理(爱好、性格等). 因此, 本文认为注意力机制的思想同样适用于分析物品任一属性与用户个体的关系.

      图3假设用户u对应M个字段的特征嵌入向量, 而物品i对应N个, 可构建用户画像矩阵 $E_M^u = {[{{e}}_1^u;\;{{e}}_2^u;\; \ldots \;;\;{{e}}_M^u]^{\rm{T}}}$ 和物品属性矩阵 $E_N^i = {[{{e}}_1^i;\;{{e}}_2^i;\; \ldots \;;\;{{e}}_N^i]^{\rm{T}}}$ , 其中 $E_M^u \in {\mathbb{R}^{M{\rm{ \times }}K}}$ , $E_N^i \in {\mathbb{R}^{N \times K}}$ , K是特征嵌入向量的维度. 则嵌入向量对 $ < {{e}}_m^u,\;{{e}}_n^i > $ 的注意力系数计算如下:

      图  3  基于注意力机制的用户-物品属性交互

      Figure 3.  Attentive interactions between the user’s profile and item’s attribute

      $$\alpha _{m,\,n}^{u,\,i} = {{e}}_m^u \cdot \;{{e}}_n^i,\quad m \in [1,\;M],\;n \in [1,\;N],\;m,n \in {{\rm{N}}^*}$$ (4)

      而物品第n个属性 ${{e}}_n^i$ 关于用户u的注意力向量为:

      $${{a}}_n^{i,\,u} = \sum\limits_{m = 1}^M {\frac{{{{\rm{e}}^{\alpha _{m,\,n}^{u,\,i}}}}}{{\displaystyle\sum\limits_{m = 1}^M {{{\rm{e}}^{\alpha _{m,\,n}^{u,\,i}}}} }} \cdot {{e}}_m^u} ,\quad {{a}}_n^{i,\,u} \in {\mathbb{R}^K}$$ (5)
    • 介绍完本文模型所需的动态用户兴趣标签更新法和注意力机制特征交互后, 下文将按照网络输入、注意力模块、卷积层和用户推荐等模块顺序介绍本文ACCDN模型框架.

    • 模型输入由用户、物品特征和用户行为值(历史评分)三部分组成. 不同数据集支持的评分选项不统一, 以本文实验所用数据集为例, MovieLens评分 ${r_{u,\;i}} \in [1,\;2,\;3,4\;,\;5]$ , 而Niconico评分项多达10个, 更有推荐数据集支持小数评分, 这不利于模型学习用户在不同评分系统中的习惯. 因此评分需按式(6)做均值归一化, 作为用户u对物品i历史行为的量化值 $h_{u,\;i}^* \in [ - 1,\;1]$ .

      $$h_{u,\;i}^* = \frac{{{r_{u,\;i}} - {\rm{mean(}}{r_u}{\rm{)}}}}{{{\rm{std(}}{r_u}{\rm{)}}}}$$ (6)

      之所以这么做是考虑了不同用户给分的严苛度是不一样的, 以两种给分极端的人为例(评分范围1-5分): 第一种人给分严苛且平均评分为2.3, 那么预测得到4分的物品很可能被列入推荐列表内; 第二种人给分很宽松且平均评分为4.2, 而这时4分的物品就不建议纳入推荐范畴, 模型需要寻找更多能够得到5分的物品作为推荐. 而这正是那些依赖于特征做预测的分解机类推荐系统所忽视的重要的个性化问题, 毕竟起初符合口味的物品在用户体验了解后也不一定能获得好评.

    • 本文设计的注意力层重在实现用户历史行为(如评分)、用户画像和物品属性的交互融合. 由于one-hot特征与嵌入向量是一对一的关系, 而multi-hot特征与嵌入向量是一对多的关系, 因而对于不确定的一对多关系按式(7)加权融合为一个向量, 这种情况多出现于影视作品的主演、配音和风格等字段的特征.

      图  4  基于注意力机制的协同卷积动态推荐网络(ACCDN)

      Figure 4.  Attention-based Collaborative Convolutional Dynamic Network (ACCDN)

      $${{{e}}_n} = {\omega _{n,\,1}}{{{e}}_{n,\,1}} + {\omega _{n,\,2}}{{{e}}_{n,\,2}} + \; \cdots + {\omega _{n,\,k}}{{{e}}_{n,\,k}}$$ (7)

      这样能保证N个特征字段在通过嵌入层后仍对应到N个嵌入向量, 式(7)中的权重 ${\omega _{n,\,k}}$ 将由网络学习. $h_{u,\;i}^*$ 会在特征交互中起到辅助作用, 因 $h_{u,\;i}^* \in [ - 1,\;1]$ , 当 $h_{u,\;i}^*$ 为正值时将增大用户、物品特征对之间的注意力系数, 反之将反向削弱, 于是式(4)和式(5)改写如下:

      $${{a}}_n^{i,\,u} = \sum\limits_{m = 1}^M {\frac{{{{\rm{e}}^{{\rm{dot(}}h_{u,\;i}^* \cdot {{e}}_m^u,\;{{e}}_n^i)}}}}{{\displaystyle\sum\limits_{m = 1}^M {{{\rm{e}}^{{\rm{dot(}}h_{u,\;i}^* \cdot {{e}}_m^u,\;{{e}}_n^i)}}} }} \cdot {{e}}_m^u} ,\quad {{a}}_n^{i,\,u} \in {\mathbb{R}^K}$$ (8)
      $${A^{u,\;i}} = {[{{a}}_1^{i,\;u};\;{{a}}_2^{i,\;u};\; \ldots \;;\;{{a}}_N^{i,\;u}]^{\rm{T}}},\quad {A^{u,\;i}} \in {\mathbb{R}^{N \times K}}$$ (9)

      其中, ${{a}}_n^{i,\,u}$ ${A^{u,\;i}}$ 分别是第n个物品属性对应的注意力向量和用户 − 物品注意力交互矩阵. 注意力机制为用户个体分配了推荐候选物品各个属性的关注度.

    • 通过3.2节式(9)得到的注意力交互矩阵记录了用户物品特征组间关系的高阶信息, 同时也是卷积层的输入. 考虑到式(8)是对用户特征向量分配注意力系数后融合的结果, 在一定程度上会丢失关于物品属性的原始信息, 因此最直接有效的做法就是将物品属性矩阵也作为卷积层输入的一部分. 这能让卷积提取高阶特征的同时考虑低阶信息.

      相对高阶的特征矩阵 ${A^{u,\;i}}$ 和低阶特征 $E_N^i$ 因维度相同, 可叠成卷积层的输入交互块, 而二维卷积层的输入和输出可抽象为:

      $${I^{{\rm{CNN}}}}{\rm{ = stack(}}{A^{u,\;i}},\;E_N^i{\rm{),}}\quad {I^{{\rm{CNN}}}} \in {\mathbb{R}^{N \times K \times 2}}$$ (10)
      $${O^{{\rm{CNN}}}}{\rm{ = ReLU(2D\_CNN(}}{I^{{\rm{CNN}}}}{\rm{)),}}\quad {I^{{\rm{CNN}}}} \in {\mathbb{R}^{N \times K}}$$ (11)

      本文构造了类似于传统卷积层处理的图像特征图, 但图5中使用的是1×K×2的行卷积核, 这不同于感知野中常见的矩形块状卷积核, 行卷积适合

      图  5  卷积层示意图

      Figure 5.  The demonstration of the convolutional layer

      理解类似文本形式的特征并提取精简且有效的信息, 文献[9,25]也提及了相关性质的分析. 行卷积核将低阶和高阶信息联系起来并减少冗余信息, 卷积层的输出将进入下一个注意力模块与用户画像交互, 输输出的副本直接级联到全连接层, 避免相对低阶的信息随着网络的加深而丢失.

    • 本文模型最后一个模块是由多层全连接层组成的MLP, 它的输入层是一个由原始用户画像、物品属性和每个卷积层输出平铺级联而成的全连接层[22-23,25,30-31]. 这借鉴了NCF[19]中向量级联比内积效果更好, 将不同嵌入向量间的高阶关系交予多层隐藏神经元来处理. 而且将最低阶的特征嵌入向量直接跨接至最后网络部分, 有利于加快卷积层数增多时整个网络的训练收敛速度.

      模型通过Softmax层输出用户对指定物品给出不同评分的概率, 相当于多分类问题, 但不同于直接预测评分的回归模型和推荐与否的二分类模型. 假设评分选项为 ${r_{u,\;i}} \in \left\{ {{r_1},\;{r_2},\; \ldots \;,\;{r_n}} \right\}$ , 模型预测概率结果为 ${{{y}}_{u,\;i}} = \left[ {{y_1},\;{y_2},\; \ldots \;,\;{y_n}} \right]$ , 且满足 $\sum\nolimits_{i = 1}^n {{y_i}} = 1$ . 值最大的 ${y_i}$ 对应的 ${r_i}$ 项就是用户最有可能给出的评分. 在最后的推荐表排名中, 可按下式计算用户u对于物品i的评分期望值:

      $${\widehat r_{u,\,i}} = {{{r}}_{u,\;i}} \otimes {{{y}}_{u,\;i}} = \sum\limits_{i = 1}^n {{y_i}} {r_i}$$ (12)
    • 按照以下规定评测本文模型的推荐准确率和质量: (1)遍历每一位用户的所有历史行为按照8∶1∶1随机抽样添加到训练集、验证集和测试集中; (2)在训练和测试模型时使用均值归一化后的评分作为u-i行为值, 而在推荐阶段会涉及到用户从未接触过的物品故不存在对应评分, 使用 $h_{u,\;i}^* = {\rm{Norm(}}{{{p}}_u} \cdot {{{c}}_i}{\rm{)}}$ 作为u-i行为值, 依旧满足 $h_{u,\;i}^* \in [ − 1,\;1]$ 的要求; (3)对于multi-hot字段特征按照30%比例随机掩膜去特征, 加入噪声来提高训练后推荐系统的鲁棒性; (4)实验使用了两种数据集MovieLens-1M和Niconico, 前者学习率设定为0.01, MLP各层隐藏神经元数为[128,64,32,5], 后者学习率设定为0.1, MLP各层隐藏神经元数为[256,128,64,10]; (5)整个模型基于深度学习框架Tensorflow实现, 使用Adagrad优化器, MLP使用tanh激活函数, 交叉熵式(13)作为损失函数.

      $$J({{{r}}_{u,i}},\;{{{y}}_{u,i}}|\theta)= - \sum\limits_{j = 1}^n {y_{u,\,i}^j\log (\widehat r_{u,\,i}^j)} $$ (13)
    • 本文使用两个现实数据集来评估模型, 主要信息概述下表1.

      表 1  数据集概述表

      Table 1.  Statistics of the evaluation datasets

      数据集 #用户 #物品 #字段 #样本 #稀疏度
      MovieLens-1M 6040 3883 5 1000 K 95.74%
      Niconico 20566 13195 7 1045 K 99.62%

      1. MovieLens-1M: 这是推荐系统领域非常经典的一个开源电影评分数据集, 现已由推荐系统概念的提出团队GroupLens汇总整理. 它提供了有关用户的人口统计数据和电影名称、风格等信息, 其中有177部电影无人评价.

      链接: https://grouplens.org/datasets/movielens/

      2. Niconico: 这是在日本一个热门的日漫网络通过爬虫后整理得到的数据集. 它让推荐种类扩展到电影、电视剧、动漫连载等, 有着更为充足的用户样本和丰富的物品列表, 以及更高的稀疏度, 共3784部作品无人评价. 由于许多用户观看过后未留下评价信息, 本文过滤掉数据损失率达97%以上的用户, 剩余用户的缺失值用随机方法填补, 作为适量的数据噪声. 链接: https://sp.nicovideo.jp/

    • 基于矩阵分解的模型:

      · CFN[17]: 为降噪自编码器网络的每一个隐藏层注入用户或物品的特征辅助信息.

      基于分解机的模型:

      · FM[3]: 最经典的分解机推荐模型, 分析特征组间的关系.

      · DeepFM[22]: 提取多阶特征信息, 用更深的网络学习特征组对间的高阶关系.

      混合模型:

      · NCF[19]: 基于DNNs实现的协同过滤模型, 通过多组不同纬度的用户 − 物品隐因子向量丰富信息融合的方式.

      · xDeepFM[23]: 独特的压缩交互网络结构来学习显隐式输入的高阶关系, 并能有效剔除冗余信息.

      · CFM[30]: 通过3D卷积处理特征交互块, 以外积形式提取向量二阶信息.

    • 评分预测准确率可分析注意力−卷积层层数L、特征嵌入向量维度K和每层卷积核个数T三个超参对本文模型性能的影响. 实验着重于比较Top-N推荐列表的质量, 以HR和NDCG[42]作为评价标准来比较ACCDN与上述模型的系统召回率和推荐列表正则化排名累积增益. 用每个用户推荐列表分析后的均值来分析模型, HR和NDCG的值越高说明推荐质量越好, 此处N取5,10,20,30.

    • 本文的ACCDN推荐模型涉及三个关键的超参: 注意力-卷积层层数L、特征嵌入向量维度K和每层卷积核个数T. 其中K是4.3节中每个基准模型所需的超参, 而T也是CFM的参数. 由于三个超参值的组合很多, 为了更好地体现单个超参对模型推荐的影响, 本文在固定两个超参为最佳值的情况下调节另一个参数, 以Niconico数据集为例见表2. L的增加能够让模型提取用户和物品特征交互的更高阶信息; K的增大能够将特征映射到更高维的稠密向量来丰富信息传输, 同时提高全连接层的宽度; 而T的增大可以让卷积层提炼更多模式的信息. 权衡模型性能和训练代价后选择L=3, K=16, T=32作为Niconico推荐时的最佳参数组合.

      表 2  null(Niconico数据集)

      Table 2.  ACCDN’s hyper-parameters’ infulence on the Top-30 recommendation for Niconico

      固定参数 调节参数 预测准确率(%) HR@30 NDCG@30
      K=16
      T=32
      L=1 71.85 0.1659 0.0685
      L=2 82.54 0.2545 0.0872
      L=3 88.67 0.3001 0.0971
      L=3
      T=32
      K=8 84.91 0.2683 0.0905
      K=16 88.67 0.3001 0.0971
      K= 24 89.02 0.3089 0.0972
      L=3
      K=16
      T=8 80.22 0.2244 0.0868
      T=16 84.58 0.2696 0.0919
      T=32 88.67 0.3001 0.0971
    • 使用GPU训练所有模型, 考虑到模型在不同硬件条件下具体的收敛时间存在明显变化, 但是它们收敛的先后顺序是基本不变的, 故给出图6 (a)作为训练时间参考, 其中以ACCDN收敛时间作为基准值1.0. CFN因其隐藏层众多的神经单元明显收敛得最慢, FM因只分析低阶特征收敛得最快, 而DeepFM则次之. ACCDN的收敛速度与NCF、xDeepFM相当, 处于中等水平. 基于3D卷积网络的CFM运算过程最为复杂, 它在两个数据集上的训练代价是最高的, 所需时间比ACCDN多了约19%.

      图  6  模型训练时间比较以及ACCDN各模块对推荐的影响

      Figure 6.  The comparison of the training costs among models and the impacts of the modules in ACCDN

      关于图6 (b-d)中模型标记的说明: ACCDN(--h)是在ACCDN的基础上不再输入用户历史行为值 $h_{u,\;i}^*$ ; ACCDN(--f)是指不在全连接层额外输入原始的用户/物品特征向量信息; ACCDN(--c)则是直接去除卷积层的模型. 通过分析图5 (b-d)可知, $h_{u,\;i}^*$ 记录了用户最主观的评分习惯, 屏蔽它对削弱推荐质量的影响最大, 准确率损失了约11%, $h_{u,\;i}^*$ 有利于提高推荐的个性化和准确性. 而移除卷积层虽可以简化模型结构, 让模型训练收敛大幅加速, 但是卷积层是提炼压缩和提取高阶信息的关键模块, 缺少它会使推荐效果(质量以及准确率等)出现显著下降. 虽然不为全连接层输入原始特征信息不会明显影响模型的推荐性能, 但是显然没有原始数据的跨接不利于网络训练的收敛, 导致所需时间提高了27%. 所以各个模块的协同工作才能综合优化模型的运作性能.

      表3展示了ACCDN与基准模型在两个实验数据集上推荐质量的表现. 其中CFN在样本量极大且高度稀疏的Niconico数据集面前表现较差, 即使它额外接受了特征辅助信息. FM、DeepFM和NCF的推荐表现处于相近的中等水平, 而xDeepFM、CFM和本文模型ACCDN的推荐质量更好. 当N∈[5,10]较小时, xDeepFM和CFM在Top-N推荐列表上的整体召回率HR@N比ACCDN略高, 而推荐排名质量NDCG@N旗鼓相当. 但随着推荐列表内容的丰富, 本文模型在指标上与其他基准模型的差距逐渐扩大, 意味着注意力机制与卷积层的组合能够高效处理特征关系, 即使在高稀疏度数据集下依旧能提供质量较好的推荐. 而就推荐排名质量而言, ACCDN在Top-N推荐中是全体表现最佳的.

      表 3  推荐列表评析结果

      Table 3.  The evaluation results of recommendation lists between baselines and ACCDN

      HR MovieLens-1 M Niconico
      HR@5 HR@10 HR@20 HR@30 HR@5 HR@10 HR@20 HR@30
      CFN 0.0395 0.0788 0.1480 0.1923 0.0358 0.0676 0.1205 0.1747
      FM 0.0498 0.0953 0.1899 0.2785 0.0471 0.0902 0.1659 0.2580
      DeepFM 0.0577 0.1168 0.2101 0.3043 0.0543 0.1013 0.1928 0.2773
      NCF 0.0543 0.1175 0.2081 0.2976 0.0485 0.0964 0.1799 0.2618
      xDeepFM 0.0584 0.1250 0.2113 0.3109 0.0594 0.1032 0.2038 0.2843
      CFM 0.0612 0.1233 0.2198 0.3177 0.0589 0.1054 0.2077 0.2917
      ACCDN 0.0593 0.1237 0.2254 0.3253 0.0590 0.1069 0.2136 0.3001
      NDCG MovieLens-1 MM Niconico
      NG@5 NG@10 NG@20 NG@30 NG@5 NG@10 NG@20 NG@30
      CFN 0.0326 0.0475 0.0610 0.0738 0.0308 0.0425 0.0535 0.0694
      FM 0.0382 0.0504 0.0658 0.0790 0.0339 0.0492 0.0617 0.0760
      DeepFM 0.0415 0.0549 0.0720 0.0853 0.0403 0.0544 0.0689 0.0832
      NCF 0.0444 0.0612 0.0779 0.0901 0.0420 0.0535 0.0712 0.0859
      xDeepFM 0.0493 0.0684 0.0852 0.0940 0.0448 0.0565 0.0723 0.0901
      CFM 0.0470 0.0649 0.0815 0.0921 0.0487 0.0566 0.0728 0.0914
      ACCDN 0.0524 0.0697 0.0862 0.1027 0.0463 0.0583 0.0750 0.0971

      此外, ACCDN由于基于时间用户兴趣标签的输入而善于跟踪用户兴趣的变化, 能在少量用户行为后快速响应出动态推荐, 以3次用户行为前后的Top-5推荐列表变化为例, 与同样性能优良的xDeepFM和CFM模型作比较的结果见下表.

      表 4  Top-5动态推荐对比示例

      Table 4.  The examples of the dynamic Top-5 recommendation

      用户1 喜欢类型 1) 动作 2) 冒险 3) 超凡 4) 运动
      原Top-5推荐
      xDeepFM 1. Tengen Toppa Gurren Lagann 动作/冒险/机甲 2. Mononoke Hime 动作/冒险/魔幻 3.Fate/Zero2 动作/超凡/魔幻
      4. Fullmetal Alchemis 动作/冒险/魔幻 5. Hunter x Hunter 动作/冒险/超凡
      CFM 1. One Piece 动作/冒险/超凡/喜剧 2.Fate/Zero2 动作/超凡/魔幻 3. JoJo no Kimyou na Bouken 动作/超凡/冒险/青春
      4. Kizumonogatari II 动作/悬疑/超凡 5. Hellsing Ultimate 动作/惊悚/超凡
      本文模型 1. Hunter x Hunter 动作/冒险/超凡 2. JoJo no Kimyou na Bouken 动作/超凡/冒险/青春 3. Fate/Zero 动作/超凡/魔幻
      4. Fate/Zero2 动作/超凡/魔幻 5. One Piece 动作/冒险/超凡/喜剧
      增加三次用户行为: 1. Tonari no Totoro 动作/喜剧/超凡 2. Kuroko no Basket 校园/运动/青春 3. Redline 动作/赛车/科幻/运动
      新Top-5推荐
      xDeepFM 无变化 CFM 无变化
      本文模型 1. JoJo no Kimyou na Bouken 动作/超凡/冒险/青春 2. One Piece 动作/冒险/超凡/喜剧 3. Fate/Zero 动作/超凡/魔幻
      4. Fairy Tail 动作/冒险/喜剧/青春 5. Hunter x Hunter 动作/冒险/超凡
      用户2 喜欢类型 1) 惊悚 2) 超凡 3) 动作
      原Top-5推荐
      xDeepFM 1. Hellsing Ultimate 动作/惊悚/超凡 2. Akira 冒险/惊悚/超凡/科幻 3. Paprika 魔幻/惊悚/神秘
      4. Vampire Hunter D 动作/魔幻/惊悚 5. Another 惊悚/恐怖/超凡
      CFM 1. Hellsing Ultimate 动作/惊悚/超凡 2. Ajin Part 1: Shoudou 动作/惊悚/神秘 3. Ajin 动作/惊悚/神秘
      4. Change!! Getter Robo 动作/冒险/惊悚/科幻 5. Memories 惊悚/科幻
      本文模型 1. Higurashi no Naku Koro ni 惊悚/神秘/恐怖 2.Tokyo Ghoul 惊悚/超凡/动作/青春 3. Change!! Getter Robo 动作/冒险/
      惊悚/科幻 4. Jigoku Shoujo 惊悚/神秘/超凡 5. Gakkou no Kaidan 惊悚/超凡
      增加三次用户行为: 1. Ano Natsu de Matteru 喜剧/生活 2. Ling Qi 动作/喜剧/超凡 3. One Piece 动作/冒险/超凡/喜剧
      新Top-5推荐
      xDeepFM 无变化 CFM 无变化
      本文模型 1.Tokyo Ghoul 惊悚/超凡/动作/青春 2. Change!! Getter Robo 动作/冒险/惊悚/科幻 3. One Piece 动作/冒险/超凡/喜剧
      4. Sankarea 喜剧/超凡/生活 5. Kemonozume 动作/惊悚/超凡
    • 本文提出了一种新式的推荐模型, 它通过注意力机制将用户行为值评分、用户画像和物品属性在特征向量空间中交互融合, 并借助2D卷积信息提炼和特征提取的能力逐层挖掘交互信息与特征向量的更高阶信息. 此外为了提高推荐动态性, 本文还提出了一种无参时间衰减用户兴趣标签赋予模型动态跟踪用户兴趣变化的能力. ACCDN还将初始特征、低阶到高阶交互信息级联在一起实现用户青睐评分的预测, 丰富模型输入信息的同时有效降低模型训练成本. 最后通过两个现实数据集将它与性能先进且具有代表性的模型做比较实验, 本文的ACCDN表现出更好的Top-N推荐质量. 之后我们还将继续研究学习先进的推荐算法和网络结构, 进一步提高本文推荐模型的性能和推荐的可解释性.

WeChat 关注分享

返回顶部

目录

    /

    返回文章
    返回