2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于深度学习的群组推荐方法研究综述

郑楠 章颂 刘玉桥 王雨桐 王飞跃

王平, 何卫隆, 张爱华, 姚鹏鹏, 徐贵力. EPnL: 一种高效且精确的PnL问题求解算法. 自动化学报, 2022, 48(10): 2600−2610 doi: 10.16383/j.aas.c200927
引用本文: 郑楠, 章颂, 刘玉桥, 王雨桐, 王飞跃. 基于深度学习的群组推荐方法研究综述. 自动化学报, 2024, 50(12): 2301−2324 doi: 10.16383/j.aas.c230781
Wang Ping, He Wei-Long, Zhang Ai-Hua, Yao Peng-Peng, Xu Gui-Li. EPnL: An efficient and accurate algorithm to the PnL problem. Acta Automatica Sinica, 2022, 48(10): 2600−2610 doi: 10.16383/j.aas.c200927
Citation: Zheng Nan, Zhang Song, Liu Yu-Qiao, Wang Yu-Tong, Wang Fei-Yue. A comprehensive review of group recommendation methods based on deep learning. Acta Automatica Sinica, 2024, 50(12): 2301−2324 doi: 10.16383/j.aas.c230781

基于深度学习的群组推荐方法研究综述

doi: 10.16383/j.aas.c230781 cstr: 32138.14.j.aas.c230781
基金项目: 国家重点研发计划 (2023YFC3304104), 国家自然科学基金 (U1811463) 资助
详细信息
    作者简介:

    郑楠:中国科学院自动化研究所多模态人工智能系统全国重点实验室副研究员. 主要研究方向为复杂系统, 综合集成, 数据挖掘, 个性化推荐. E-mail: nan.zheng@ia.ac.cn

    章颂:中国科学院自动化研究所多模态人工智能系统全国重点实验室博士研究生. 主要研究方向为复杂系统, 综合集成, 自然语言推理, 推荐系统.E-mail: zhangsong2022@ia.ac.cn

    刘玉桥:中国科学院自动化研究所多模态人工智能系统全国重点实验室硕士研究生. 主要研究方向为数据挖掘, 推荐系统, 自然语言处理. E-mail: liuyuqiao2022@ia.ac.cn

    王雨桐:中国科学院自动化研究所复杂系统管理与控制国家重点实验室助理研究员. 2021 年获得中国科学院大学控制理论与控制工程专业博士学位. 主要研究方向为计算机视觉.E-mail: yutong.wang@ia.ac.cn

    王飞跃:中国科学院自动化研究所复杂系统管理与控制国家重点实验室研究员. 主要研究方向为智能系统和复杂系统的建模、分析与控制. 本文通信作者. E-mail: feiyue.wang@ia.ac.cn

A Comprehensive Review of Group Recommendation Methods Based on Deep Learning

Funds: Supported by National Key Research and Development Program of China (2023YFC3304104) and National Natural Science Foundation of China (U1811463)
More Information
    Author Bio:

    ZHENG Nan Associate professor at the State Key Laboratory of Multimodal Artificial Intelligence Systems, Institute of Automation, Chinese Academy of Sciences. Her research interest covers complex systems, metasynthesis, data mining, and personalized recommendations

    ZHANG Song Ph.D. candidate at the State Key Laboratory of Multimodal Artificial Intelligence Systems, Institute of Automation, Chinese Academy of Sciences. His research interest covers complex systems, metasynthesis, natural language reasoning, and recommender system

    LIU Yu-Qiao Master student at the State Key Laboratory of Multimodal Artificial Intelligence Systems, Institute of Automation, Chinese Academy of Sciences. His research interest covers data mining, recommendation system, and natural language processing

    WANG Yu-Tong Assistant professor at the State Key Laboratory for Management and Control of Complex Systems, Institute of Automation, Chinese Academy of Sciences. She received her Ph.D. degree in control theory and control engineering from University of Chinese Academy of Sciences in 2021. Her main research interest is computer vision

    WANG Fei-Yue Professor at the State Key Laboratory for Management and Control of Complex Systems, Institute of Automation, Chinese Academy of Sciences. His research interest covers modeling, analysis, and control of intelligent systems and complex systems. Corresponding author of this paper

  • 摘要: 群组推荐在信息检索与数据挖掘领域近年来备受关注, 其旨在从海量候选集中挑选出一组用户可能感兴趣的项目. 随着深度学习技术的不断发展, 基于深度学习的群组推荐方法大量涌现. 鉴于此, 首先介绍群组推荐问题的背景知识, 然后系统综述数据获取方法, 全面评述近年来基于深度学习的群组推荐算法, 并进行系统分类与深入分析. 此外, 还归纳了适用于深度学习方法的群组推荐数据集和评价方法, 对各类推荐算法进行对比实验分析与讨论. 最后, 针对本领域的研究难点进行深入探讨, 并提出未来有待深入研究的方向.
  • 基于直线特征的摄像机绝对位姿估计问题在计算机视觉领域称之为Perspective-n-line (PnL)问题, 目的是通过目标物体上的n条已知直线和其所对应的图像投影来计算相机和目标之间的相对位置和姿态关系. PnL问题是视觉导航[1-2]、机器人视觉定位[3]、传感器标定[4]、现实增强[5] 等领域中的关键核心问题之一. 到目前为止, 现有解决PnL问题的方法可以粗略分为迭代法和非迭代法:

    迭代法将PnL求解问题转换为非线性最优化问题, 并利用Gauss-Newton法或Levenberg-Mar-quardt法[6]迭代求解这个非线性最优化问题. 然而, 迭代法对初值的选取比较敏感, 初值选择不合理将导致迭代法收敛速度较慢, 影响算法的实时性. 除此之外, 当使用特征直线较少的时候, 迭代法容易陷入局部最优, 影响PnL问题求解的精度和可靠性.

    在非迭代法中, 最直接的当属直接线性变换(Direct linear transformation, DLT)方法[7]. DLT方法简单高效, 但抗噪能力不强, 在空间参考直线较少的情况下求解精度不高. Přibyl等[8]通过将直线在欧氏空间的坐标表示转换到普吕克(Plücker)空间, 提出了解决PnL问题的DLT-Plücker-lines方法. 相比于DLT算法, DLT-Plücker-lines算法具有更好的抗噪能力和求解精度, 但其求解时需要至少9条以上的空间参考直线. 随后, Xu等[9]通过借鉴Perspective-n-point (PnP)算法原理, 提出了一系列线性求解PnL的方法, 但这些方法仍需要6条以上的空间参考直线才可以求解. 最近, Přibyl等[10]基于DLT的方法, 提出了DLT-combined-lines的方法, 该方法将线性求解PnL问题的直线数目缩减到了5条. DLT-combined-lines方法求解效率高, 在直线数目较多的时候, 具有很高的求解精度, 但是在直线数目较少的情况下, 求解精度较差.

    虽然直接线性求解PnL的方法具有简单、效率高的特点. 但是由于其抗噪能力差、不适合参考直线较少的情况(尤其不适合参考直线少于6条以下的情况). 为了克服这些问题, Ansar等[11]将PnL问题转换为非迭代优化 开发了一种通用的PnL求解算法, 该算法能够处理从4到n条所有的空间参考直线. 然而, 文献[11]算法在空间直线较少的时候求解精度不高, 这主要是因为其最优化求解过程中采用了线性化的策略. 为了提高PnL算法的求解精度, Mirzaei等[12]提出了一种直接求解PnL问题全局最优解的方法, 通过Cayley参数的方式参数化旋转矩阵, 然后通过矩阵分解和合成的方式, 将PnL位姿测量问题转换为最优化问题, 最后通过矩阵合成技术求解这个最优化问题, 得到PnL问题的解. 然而, 文献[12]的方法由于使用了Cayley参数表示旋转矩阵, 求解过程中容易出现矩阵奇异值, 导致求解稳定性不好. 为了克服这个问题, Zhang等[13]提出了RPnL方法求解PnL问题, 该方法将空间参考直线三条线为一组, 然后利用Perspective-3-line (P3L)约束构建多项式方程组来求解PnL问题. 然而, RPnL是一种次优化的方法, 其求解精度还有提升的空间. 2017年, Xu等[9]改进了RPnL方法, 提出了ASPnL算法. 到目前为止, ASPnL是求解精度最高, 最稳定的PnL算法之一. 然而, ASPnL随着直线数量的增加, 其求解消耗时间将快速增长, 不利于其应用在实时性较高的任务中. 2019年, Wang等[14]对RPnL算法增加优化步骤, 并且使用矩阵化的方式替代RPnL算法中的循环步骤, 提出了改进的SRPnL算法, 该算法求解精度和可靠性类似于ASPnL算法, 但效率远高于ASPnL算法.

    从以上文献分析可以看出, 线性求解PnL问题的方法效率高, 但精度低, 通常无法适用于直线数量小于6的情况. 非线性求解PnL的方法适应性较广(适应4 ~ n条直线求解), 求解精度高, 但是求解过程复杂, 效率低下. 针对以上问题, 本文提出了一种同时兼具求解效率和求解精度的方法(命名为EPnL方法). 本文的主要贡献有:

    1)提出了分类表示旋转的方法: 最近的PnL问题求解中多使用Cayley参数[13-15]和四元数表示[16]旋转, 然而利用Cayley参数求解PnL问题容易出现奇异值, 导致求解结果不稳定. 利用四元数表示旋转则存在解的符号模糊问题, 会增加PnL问题求解的复杂性, 降低求解效率. 针对以上缺点, 本文基于四元数参数中变量不同时为零的特性, 提出了分类表示旋转的方法, 在保证不损失旋转正交约束信息的前提下, 避免了Cayley参数求解奇异性和四元数参数对解符号模糊的问题, 提升了求解PnL问题的可靠性和效率.

    2)将PnL问题转换为了二次曲面(曲线)方程组求交点的问题: 本文首先通过矩阵变化的方式统一求解参数的度量空间, 消除求解参数度量空间不同可能引起的算法不稳定因素. 然后, 不同于现有文献[12-14]直接最优化求解PnL问题的方式, 本文基于1)中分类表示旋转的方法, 将PnL问题转换为二次曲面(或曲线)求交点的问题来解决, 有效地降低了PnL问题求解的复杂度.

    3)利用方程组低次项参数化高次项的方式将复杂二次曲面(曲线)方程组求交点问题转换为单变量多项式求解问题: 针对迭代法求解耗时且容易陷入局部最优, 而Gröbner基方法[17]求解复杂, 无法保障可靠性的问题. 本文利用二次曲面方程组自身的结构信息, 将方程组划分为高次项和低次项部分, 并通过引入恒等式的方式将高次项用低次项表示, 最终将复杂的多变量二次曲面求解问题转换为简单的单变量多项式(最高为8次)求解问题来解决. 同时, 本文利用少量Gauss-Newton法对结果进行精定位, 以进一步提升最终的求解精度.

    4)本文提出的算法实现了求解精度和效率的统一. 实验部分选择和主流及最新的PnL算法对比, 结果表明, EPnL适用于3 ~ n条直线的位姿求解, 具有通用性. 在所有对比算法中, EPnL算法求解精度最高, 效率仅次于线性DLT的方法(排名第2). 本文中所有方法的源代码已公布1, 读者可以下载验证.

    基于相机的透视成像模型, PnL问题如图1表示, 其中${L_i} = ({{{v}}_i},{P_i})$表示3D空间中的某条已知直线, ${{{v}}_i} \in {{\bf{R}}^3}$${L_i}$的方向向量, ${P_i} \in {{\bf{R}}^3}$${L_i}$上的任意一点. ${l_i} = ({s_i},{p_i})$${L_i}$在图像平面上的投影直线, ${s_i}$${p_i}$分别为${l_i}$的两个端点. 直线${L_i}$, ${l_i}$和相机光心$O$共同形成平面${\pi _i}$, 且${{{n}}_i}$为平面${\pi _i}$的法向量. 当相机内参数标定的情况下, ${{{n}}_i}$很容易由光心和投影直线两个端点所形成向量的外积得到, 即:

    图 1  PnL问题
    Fig. 1  PnL problem
    $$\begin{array}{*{20}{c}} {{{{n}}_i} = O{s_i} \times O{p_i},}&{i = 1,2,\cdots,n} \end{array}$$ (1)

    由于直线${L_i}$在平面${\pi _i}$内, 因此其和平面法向量${{{n}}_i}$满足垂直的关系, 即:

    $$\begin{array}{*{20}{c}} {{{{ n}}_i} = \left( {{{R}}{P_i} + {{t}}} \right) \times \left( {{{R}}{{{v}}_i}} \right),}&{i = 1,2,\cdots,n} \end{array}$$ (2)

    式中, ${{R}} \in SO(3)$为3 × 3矩阵, 表示相机坐标系和空间直线所在坐标系(世界坐标系)之间的旋转关系; ${{t}} \in {{\bf{R}}^3}$为3 × 1向量, 表示相机坐标系和世界坐标系之间的平移关系. 式(2)可进一步展开为:

    $$\begin{array}{*{20}{c}} {{{n}}_i^{\rm{T}} {{ R{ v}}_i} = 0,}&{i = 1,2,\cdots,n} \end{array}$$ (3)
    $$\begin{array}{*{20}{c}} {{{n}}_i^{\rm{T}} \left( {{{R}}{P_i} + {{t}}} \right) = 0,}&{i = 1,2,\cdots,n} \end{array}$$ (4)

    PnL问题的目标就是在空中直线${L_i}$和其投影${l_i}$已知的情况下, 利用式(3)和式(4)计算${{R}}$${{t}}$.

    PnL问题中旋转矩阵${{R}}$和平移向量${{t}}$的度量空间是不同的, 这在优化求解过程中容易导致系数矩阵中元素数值的差异过大, 最终影响PnL问题的求解精度. 由式(4)可以看出, 平移${{t}}$和旋转${{R}}$之间呈现线性关系. 因此, 本文采用矩阵变化的方式, 基于空间所有的直线信息, 利用旋转${{R}}$参数化平移${{t}}$, 进而统一PnL问题中待求解参数变量的度量空间, 以最终提升求解PnL问题的可靠性和精度. 式(3)进一步可以表示为:

    $$\begin{array}{*{20}{c}} {{{n}}_i^{\rm{T}} {{{R}{ v}}_i} - 0 \cdot {{t}} = 0,}&{i = 1,2,\cdots,n} \end{array}$$ (5)

    综合式(4)和式(5), 将其写为矩阵形式:

    $$\begin{array}{l} \underbrace {\left[ {\begin{array}{*{20}{c}} {{{n}}_i^{\rm{T}} }&0 \\ 0&{{{n}}_i^{\rm{T}} } \end{array}} \right]}_{{{{A}}_i}}\underbrace {\left[ {\begin{array}{*{20}{c}} {{R}}&0 \\ 0&{{R}} \end{array}} \right]}_{{C}}\underbrace {\left[ {\begin{array}{*{20}{c}} {{{{v}}_i}} \\ {{P_i}} \end{array}} \right]}_{{{{D}}_i}} = \underbrace {\left[ {\begin{array}{*{20}{c}} 0 \\ { - {{n}}_i^{\rm{T}}} \end{array}} \right]}_{{{{B}}_i}}{{t}} \\ \begin{array}{*{20}{c}} { \Leftrightarrow {{{A}}_i}{{{CD}}_i} = {{{B}}_i}{{t}},}&{i = 1,2,\cdots,n} \end{array} \end{array} $$ (6)

    式(6)对空间中的每一条参考直线都满足, 因此有:

    $$ \begin{array}{l} \underbrace {\left[ {\begin{array}{*{20}{c}} {{{{A}}_1}}&{}&{} \\ {}& \ddots &{} \\ {}&{}&{{{{A}}_n}} \end{array}} \right]}_A\underbrace {\left[ {\begin{array}{*{20}{c}} {{C}}&{}&{} \\ {}& \ddots &{} \\ {}&{}&{{C}} \end{array}} \right]}_{{W}}\underbrace {\left[ {\begin{array}{*{20}{c}} {{{{D}}_1}} \\ \vdots \\ {{{{D}}_n}} \end{array}} \right]}_{{D}} = \underbrace {\left[ {\begin{array}{*{20}{c}} {{{{B}}_1}} \\ \vdots \\ {{{{B}}_n}} \end{array}} \right]}_{{B}}{{t}} \\ \Leftrightarrow {{AWD}} = {{Bt}} \end{array} $$ (7)

    基于式(7), ${{t}}$可以表示为:

    $${{t}} = {{{B}}^ + }{{AWD}}$$ (8)

    式中, ${{{B}}^ + } = {\left( {{{{B}}^{\rm{T}}}{{B}}} \right)^{ - 1}}{{{B}}^{\rm{T}}}$${{B}}$的广义逆. 由式(8)中可以看出, ${{{B}}^ + }$, ${{A}}$${{D}}$中包含空间所有直线提供的已知信息, ${{W}}$由旋转${{R}}$构成. 因此基于式(8), 平移向量${{t}}$可以表示为旋转${{R}}$的参数化形式. 进一步将式(8)代入式(6)得到:

    $$\begin{array}{*{20}{c}} {{{{A}}_i}{{{CD}}_i} = {{{B}}_i}{{{B}}^ + }{{AWD}},}&{i = 1,2,\cdots,n} \end{array}$$ (9)

    式(9)依旧对空间的$n$条直线都满足, 将式(9)变为矩阵形式得到:

    $$\left[ {\begin{array}{*{20}{c}} {{{{A}}_1}{{{CD}}_1} - {{{B}}_1}{{{B}}^ + }{{AWD}}} \\ {{{{A}}_2}{{{CD}}_2} - {{{B}}_2}{{{B}}^ + }{{AWD}}} \\ \vdots \\ {{{{A}}_n}{{{CD}}_n} - {{{B}}_n}{{{B}}^ + }{{AWD}}} \end{array}} \right] = 0$$ (10)

    由式(10)可以看出, ${{A}}$${{D}}$${{{B}}^ + }$${{{A}}_i}$${{{D}}_i}$${{{B}}_i}\;(i = 1,2,\cdots,n)$均可以由已知的${{{n}}_i}$${{{v}}_i}$${P_i}$提前计算得到. 式(10)中的未知数仅由${{C}}$${{W}}$提供, 而${{C}}$${{W}}$由旋转未知变量${{R}}$构成. 此时, 如果能够利用式(10)求解得到旋转变量${{R}}$, 则平移向量${{t}}$可以由式(8)给出, 即PnL问题得到求解. ${{R}}$${{t}}$的具体求解方法, 本文将在第4节重点展开研究.

    由式(10)可以看出, ${{R}}$的表示形式直接影响着式(10)的复杂程度和求解系数矩阵的奇异性, 进而间接影响优化求解PnL算法的精度、可靠性和效率. ${{R}}$的表示形式通常包括: 欧拉角表示形式、旋转矩阵表示形式、Cayley参数表示形式、四元数表示形式、对偶四元数表示形式、角轴参数表示形式. 其中四元数表示含有正交约束信息, 且其形式不具有奇异性, 因此利用四元数解决PnL问题具有精度和可靠性高的特点. 四元数表示${{R}}$的形式如下:

    $${{ R}} = \left[ {\begin{array}{*{20}{c}} {{a^2} + {b^2} - {c^2} - {d^2},2bc - 2ad,2bd + 2ac} \\ {2bc + 2ad,{a^2} - {b^2} + {c^2} - {d^2},2cd - 2ab} \\ {2bd - 2ac,2cd + 2ab,{a^2} - {b^2} - {c^2} + {d^2}} \end{array}} \right]$$ (11)

    式中, $a$$b$$c$$d$为变量且满足约束条件${a^2} + {b^2} + {c^2} + {d^2} = 1$. 由式(11)可以看出, 利用四元数求解旋转时, ${[a,b,c,d]^{\rm{T}}}$${[ - a, - b, - c, - d]^{\rm{T}}}$表示相同的旋转, 这说明四元数对变量的正、负号无法分辨, 这无疑将扩大求解PnL问题时解的搜索空间, 增加求解问题时的复杂性, 降低求解问题的效率.

    由四元数约束${a^2} + {b^2} + {c^2} + {d^2} = 1$可以看出, 四元数在表示旋转时, 参数$a$$b$$c$$d$是不同时为0的. 基于这个特点, 根据$a$$b$$c$$d$的取值, 本文提出基于四元数的旋转${{R}}$分类表示方法:

    1)形式1. 当$a$$b$$c$$d$都不为0, 任选一个变量(如$a$), 在${{R}}$右端提取出${1 / {{a^2}}}$且令${s_1} = {b / a}$, ${s_2} = {c / d}$${s_3} = {d / a}$, 则${{R}}$变为:

    $${{R}} = \frac{1}{H} \left[ {\begin{array}{*{20}{c}} {1 + s_1^2 - s_2^2 - s_3^2,2{s_1}{s_2} - 2{s_3},2{s_1}{s_3} + 2{s_2}} \\ {2{s_1}{s_2} + 2{s_3},1 - s_1^2 + s_2^2 - s_3^2,2{s_2}{s_3} - 2{s_1}} \\ {2{s_1}{s_3} - 2{s_2},2{s_2}{s_3} + 2{s_1},1 - s_1^2 - s_2^2 + s_3^2} \end{array}} \right]$$ (12)

    式中, $H = 1 + s_1^2 + s_2^2 + s_3^2$. 式(12)本质上就是旋转的Cayley参数表示形式, 可以看出, 当变量$a$的值为零的时候, Cayley参数表示矩阵没有意义, 这将导致位姿求解出现奇异性.

    2)形式2. 当$a$$b$$c$$d$中有一个变量为0, 例如$a = 0$, $b \ne 0$, $c \ne 0$$d \ne 0$. 则任选一个不为0的变量, 例如用$b$来化简${{R}}$, 则可得:

    $${{R}} = \frac{1}{H}\left[ {\begin{array}{*{20}{c}} {1{\rm{ - s}}_2^2 - s_3^2}&{2{s_2}}&{2{s_3}} \\ {2{s_2}}&{ - 1 + s_2^2 - s_3^2}&{2{s_2}{s_3}} \\ {2{s_3}}&{2{s_2}{s_3}}&{ - 1 - s_2^2 + s_3^2} \end{array}} \right]$$ (13)

    式中, ${s_2} = {c / b}$, ${s_3} = {d / b}$, 且$H = 1 + s_2^2 + s_3^2$.

    3)形式3. 当$a$$b$$c$$d$中有两个变量为0, 例如$a = 0$, $b = 0$, $c \ne 0$$d \ne 0$. 任选$c$$d$中的一个变量, 如$c$化简${{R}}$得到:

    $${{R}} = \frac{1}{H}\left[ {\begin{array}{*{20}{c}} {{\rm{ - }}1{\rm{ - }}s_3^2}&0&0 \\ 0&{1 - s_3^2}&{2{s_3}} \\ 0&{2{s_3}}&{ - 1 + s_3^2} \end{array}} \right]$$ (14)

    式中, ${s_3} = {d / c}$, 并且有$H = 1 + s_3^2$.

    4)形式4. 当$a$$b$$c$$d$中仅有一个变量不为0, 例如$a = 0$, $b = 0$, $c = 0$$d \ne 0$, 则${{R}}$直接表示为:

    $${{R}} = \left[ {\begin{array}{*{20}{c}} { - 1}&0&0 \\ 0&{ - 1}&0 \\ 0&0&1 \end{array}} \right]$$ (15)

    通过以上分类表示${{R}}$的方式, 在保证不损失四元数正交约束信息的前提下, 避免了四元数对解符号模糊的问题, 有效降低了求解PnL问题时未知变量的个数和解空间的维度, 在理论层面保障了求解PnL问题的可靠性和效率.

    本节将旋转${{R}}$的4种形式分别代入式(10)进行求解.

    1)对于形式1. 将式(12)代入式(10), 进一步展开, 合并同类项得到:

    $${{{E}}_1}{{{\beta}}_1} = 0$$ (16)

    式中, ${{{E}}_1}$为已知的$2n \times 10$矩阵, 可以由${{A}}$${{D}}$${{{B}}^ + }$${{{A}}_i}$${{{D}}_i}$${{{B}}_i}\;(i = 1,2,\cdots,n)$计算得到. ${{{\beta}}_1} = [1,{s_1}, {s_2},{s_3}, s_1^2,{s_1}{s_2},{s_1}{s_3},s_2^2,{s_2}{s_3},s_3^2]^{\rm{T}}$为式(12)的向量形式. 对于式(16), 可以采用Newton法和Gauss-Newton法[6]等迭代法求解. 然而, 迭代法对初值的选择敏感, 初值选取不好的时候容易导致迭代陷入局部最优. 此外, 迭代法求解过程中需要耗费较多的时间. 为克服此问题, 最近的研究[15-16]中将类似式(16)的等式转换为无约束最优化问题, 通过Gröbner基方法[17]构建矩阵消去模板来求解. 然而, Gröbner基方法求解式(16)时需要对其两端取平方, 这将引入较多高次未知数, 导致Gröbner基方法构建的矩阵消去模板过于复杂, 无法保证求解的可靠性. 除此之外, 矩阵消去模板越复杂, 算法的计算效率也越低, 并且复杂的矩阵消去模版更不利于算法的工程实现.

    由式(16)可以看出, ${{{\beta}}_1}$中含有3个未知数, 且所含未知数的最高次数为2. 因此式(16)中每一行都代表着一个二次曲面, 可以将求解式(16)看作为求解一组二次曲面交点的问题. 观察式(16)结构可以发现, 将变量${s_1}$看作为常量, ${s_2}$${s_3}$为变量, 则${{{E}}_1}$可以被${\left[ {s_2^2,s_3^2,{s_2}{s_3}} \right]^{\rm{T}} }$${\left[ {{s_2},{s_3},1} \right]^{\rm{T}} }$划分为两部分:

    $$\begin{split} & \left[ {{{{E}}_1}(8),{{{E}}_1}(10),{{{E}}_1}(9)} \right]\left[ {\begin{array}{*{20}{c}} {s_2^2} \\ {s_3^2} \\ {{s_2}{s_3}} \end{array}} \right] = - [ {{{E}}_1}(3) +\\ &\qquad{{{E}}_1}(6){s_1}, {{{E}}_1}(4) + {{{E}}_1}(7){s_1},{{{E}}_1}(1) + {{{E}}_1}(2){s_1} + \\ &\qquad{{{E}}_1}(5)s_1^2 ]\left[ {\begin{array}{*{20}{c}} {{s_2}} \\ {{s_3}} \\ 1 \end{array}} \right] \Leftrightarrow {{{F}}_1}\left[ {\begin{array}{*{20}{c}} {s_2^2} \\ {s_3^2} \\ {{s_2}{s_3}} \end{array}} \right] = \\ &\qquad{{{G}}_1}({s_1})\left[ {\begin{array}{*{20}{c}} {{s_2}} \\ {{s_3}} \\ 1 \end{array}} \right] \\[-25pt] \end{split} $$ (17)

    式中, ${{{E}}_1}(i),i = 1,2,\cdots,10$表示${{{E}}_1}$i列, ${{{G}}_1}(s)$中的每一个元素都是变量${s_1}$的多项式. 式(17)进一步可变为:

    $$\left[ {\begin{array}{*{20}{c}} {s_2^2} \\ {s_3^2} \\ {{s_2}{s_3}} \end{array}} \right] = {{{H}}_1}({s_1})\left[ {\begin{array}{*{20}{c}} {{s_2}} \\ {{s_3}} \\ 1 \end{array}} \right]$$ (18)

    式中, ${{{H}}_1}({s_1}) = {\left( {{{F}}_1^{\rm{T}} {{{F}}_1}} \right)^{ - 1}}{{F}}_1^{\rm{T}} {{{G}}_1}({s_1})$$3 \times 3$的矩阵, 其中的每一分量都是${s_1}$的函数, 可以表示为:

    $${{{H}}_1}({s_1}) = \left[ {\begin{aligned} {{H_{11}}({s_1})}\;\;\;{{H_{12}}({s_1})}\;\;\;{{H_{13}}({s_1})} \\ {{H_{21}}({s_1})}\;\;\;{{H_{22}}({s_1})}\;\;\;{{H_{23}}({s_1})} \\ {{H_{31}}({s_1})}\;\;\;{{H_{32}}({s_1})}\;\;\;{{H_{33}}({s_1})} \end{aligned}} \right]$$

    通过以上划分方式, 可以将式(16)中的高次项部分通过低次项部分来表示. 利用式(16)中高次项和低次项之间的关系引入以下恒等式:

    $$\begin{split} &\left( {s_2^2} \right){s_3} = \left( {{s_2}{s_3}} \right){s_2} \\ &\left( {{s_2}{s_3}} \right){s_3} = \left( {s_3^2} \right){s_2} \\ &\left( {{s_2}{s_3}} \right)\left( {{s_2}{s_3}} \right) = \left( {s_2^2} \right)\left( {s_3^2} \right) \end{split} $$ (19)

    通过式(19)的恒等式, 可以建立起式(16)中高次项之间的联系. 将式(18)再次代入式(19), 展开可得:

    $$\begin{split} &\left( {{H_{11}}({s_1}){s_2} + {H_{12}}({s_1}){s_3} + {H_{13}}({s_1})} \right){s_3} = \\ &\qquad\left( {{H_{31}}({s_1}){s_2} + {H_{32}}({s_1}){s_3} + {H_{33}}({s_1})} \right){s_2} \end{split} $$ (20)
    $$\begin{split} &\left( {{H_{31}}({s_1}){s_2} + {H_{32}}({s_1}){s_3} + {H_{33}}({s_1})} \right){s_3} = \\ &\qquad\left( {{H_{21}}({s_1}){s_2} + {H_{22}}({s_1}){s_3} + {H_{23}}({s_1})} \right){s_2} \end{split} $$ (21)
    $$\begin{split} &{\left( {{H_{31}}({s_1}){s_2} + {H_{32}}({s_1}){s_3} + {H_{33}}({s_1})} \right)^2} = \\ & \qquad\left( {{H_{11}}({s_1}){s_2} + {H_{12}}({s_1}){s_3} + {H_{13}}({s_1})} \right) \cdot \\ & \qquad\left( {{H_{31}}({s_1}){s_2} + {H_{32}}({s_1}){s_3} + {H_{33}}({s_1})} \right) \end{split} $$ (22)

    将式(20)、式(21)和式(22)展开为:

    $$\begin{split} &{e_{11}}s_2^2 + {e_{12}}{s_2}{s_3} + {e_{13}}{s_2} + {e_{14}}s_3^2 + {e_{15}}{s_3} = 0 \\ &{e_{21}}s_2^2 + {e_{22}}{s_2}{s_3} + {e_{23}}{s_2} + {e_{24}}s_3^2 + {e_{25}}{s_3} = 0 \\ &{e_{31}}s_2^2 + {e_{32}}{s_2}{s_3} + {e_{33}}{s_2} + {e_{34}}s_3^2 + {e_{35}}{s_3} + {e_{36}} = 0 \end{split} $$ (23)

    式中, ${e_{ij}},i,j \in \{ 1,2,\cdots,6\}$${s_1}$的多项式. 式(23)中再次包含$s_2^2$$s_3^2$${s_2}{s_3}$项, 将式(18)再次代入式(23), 整理可得:

    $$\left[ {\begin{array}{*{20}{c}} {{k_{11}}}&{{k_{12}}}&{{k_{13}}} \\ {{k_{21}}}&{{k_{22}}}&{{k_{23}}} \\ {{k_{31}}}&{{k_{32}}}&{{k_{33}}} \end{array}} \right] \left[ {\begin{array}{*{20}{c}} {{s_2}} \\ {{s_3}} \\ 1 \end{array}} \right] = 0 \Leftrightarrow {{{K}}_1}({s_1})\left[ {\begin{array}{*{20}{c}} {{s_2}} \\ {{s_3}} \\ 1 \end{array}} \right] = 0$$ (24)

    ${{{K}}_1}({s_1})$$3 \times 3$的矩阵, 其中每一项是${s_1}$的多项式. 由式(24)可以看出, 要使式(24)存在非零解, ${{{K}}_1}({s_1})$ 的行列式 $\left| {{{{K}}_1}({s_1})} \right|$必须为零. 将$| {{{{K}}_1}({s_1})}|= 0$进一步展开可得一个${s_1}$的单变量多项式:

    $$\begin{split} &{U_8}s_1^8 + {U_7}s_1^7 + {U_6}s_1^6 + {U_5}s_1^5 + {U_4}s_1^4 + \\ &\qquad{U_3}s_1^3 + {U_2}s_1^2 + {U_1}{s_1} + {U_0} = 0 \end{split} $$ (25)

    式中, ${U_i},i = 1,2,\cdots,8$为已知的系数. 采用特征值分解[18]方法, ${s_1}$可以很容易由式(25)求解得到. 将${s_1}$代入式(24), 求解其形成的线性方程组, 可得${s_2}$${s_3}$.

    实际上, 由于噪声的影响, 式(16)的关系不能完全满足, 因此通过以上方式求解得到的${s_1}$${s_2}$${s_3}$还不是最优解. 为进一步提升${s_1}$${s_2}$${s_3}$的求解精度, 将式(16)转换为不带约束的最优化形式:

    $$\left\{ {{s_1},{s_2},{s_3}} \right\} = \arg \min \left( {{{\beta}}_1^{\rm{T}} {{E}}_1^{\rm{T}} {{{E}}_1}{{{\beta}}_1}} \right)$$ (26)

    式中, ${{E}}_1^{\rm{T}} {{{E}}_1}$$10 \times 10$的已知对称矩阵. 由于${s_1}$${s_2}$${s_3}$已经和全局最优值非常接近了, 因此通过单步Gauss-Newton法依照如下规则进行精定位:

    $${\left[ {{s_1},{s_2},{s_3}} \right]^{\rm{T}} } = {\left[ {{s_1},{s_2},{s_3}} \right]^{\rm{T}} } + \Delta s$$ (27)

    式中, $\Delta s = - {[{{{J}}^{\rm{T}} }{{J}} + \lambda {{{I}}_{3 \times 3}}]^{ - 1}}{{{J}}^{\rm{T}} }{{{E}}_1}{{{\beta}}_1}$表示增量, ${{J}}$${{{E}}_1}$的雅克比矩阵, $\lambda $为更新时的下降因子, ${{{I}}_{3 \times 3}}$$3 \times 3$的单位矩阵. 得到最优的${s_1}$, ${s_2}$${s_3}$后, 将其代回式(12)和式(8), 则可得最终需要的${{R}}$${{t}}$.

    2)对于形式2. 类似于步骤1), 将式(13)代入式(10), 整理可得:

    $${{{E}}_2}{{{\beta}}_2} = 0$$ (28)

    式中, ${{{E}}_2}$$2n \times 6$的对称矩阵, 且${{{\beta}}_2} = [1,{s_2},$ ${s_3},s_2^2, {s_2}{s_3},s_3^2{]^{\rm{T}} }$. 同样, ${{{\beta}}_2}$中含有2个未知数, 且所含未知数的最高次数为2. 因此式(28)中每一行都代表着一个二次曲线, 可以将式(28)的求解看作是二次曲线交点的求解. 式(28)同样可以表示为两部分:

    $$\begin{split} & \left[ {{{{E}}_2}(4),{{{E}}_2}(6),{{{E}}_2}(5)} \right]\left[ {\begin{array}{*{20}{c}} {s_2^2} \\ {s_3^2} \\ {{s_2}{s_3}} \end{array}} \right] = \\ &\quad - [ {{{{E}}_2}(2)} ,{{{E}}_2}(3),{{{E}}_2}(1) ]\left[ {\begin{array}{*{20}{c}} {{s_2}} \\ {{s_3}} \\ 1 \end{array}} \right] \Leftrightarrow {{{F}}_1}\left[ {\begin{array}{*{20}{c}} {s_2^2} \\ {s_3^2} \\ {{s_2}{s_3}} \end{array}} \right] =\\ &\quad{{{G}}_2}\left[ {\begin{array}{*{20}{c}} {{s_2}} \\ {{s_3}} \\ 1 \end{array}} \right] \Leftrightarrow \left[ {\begin{array}{*{20}{c}} {s_2^2} \\ {s_3^2} \\ {{s_2}{s_3}} \end{array}} \right] = {{{H}}_2}\left[ {\begin{array}{*{20}{c}} {{s_2}} \\ {{s_3}} \\ 1 \end{array}} \right] \\[-15pt] \end{split} $$ (29)

    式中, ${{{H}}_2} = {\left( {{{F}}_2^{\rm{T}} {{{F}}_2}} \right)^{ - 1}}{{F}}_2^{\rm{T}} {{{G}}_2}$是一个3 × 3的系数矩阵. 将式(29)再次代入恒等式, 即式(19)可得:

    $$\begin{split} &{m_{11}}s_2^2 + {m_{12}}{s_2}{s_3} + {m_{13}}{s_2} + {m_{14}}s_3^2 + {m_{15}}{s_3} = 0 \\ & {m_{21}}s_2^2 + {m_{22}}{s_2}{s_3} + {m_{23}}{s_2} + {m_{24}}s_3^2 + {m_{25}}{s_3} = 0 \\ & {m_{31}}s_2^2 + {m_{32}}{s_2}{s_3} + {m_{33}}{s_2} + {m_{34}}s_3^2 + {m_{35}}{s_3} + \\ &\qquad {m_{36}} = 0 \\[-10pt] \end{split} $$ (30)

    式中, ${m_{ij}},i,j \in \{ 1,2,\cdots,6\}$为已知系数. 可以发现, 式(30)的形式和式(23)的形式相同, 但其中${m_{ij}}$${e_{ij}}$所表示的具体意义不同. 式(30)中同样包含$s_2^2$$s_3^2$${s_2}{s_3}$项, 将式(29)再次代入式(30)可得:

    $$\left[ {\begin{array}{*{20}{c}} {{q_{11}}}&{{q_{12}}}&{{q_{13}}} \\ {{q_{21}}}&{{q_{22}}}&{{q_{23}}} \\ {{q_{31}}}&{{q_{32}}}&{{q_{33}}} \end{array}} \right]\left[ {\begin{array}{*{20}{c}} {{s_2}} \\ {{s_3}} \\ 1 \end{array}} \right] = 0$$ (31)

    式中, ${q_{ij}},i,j \in \{ 1,2,3\} $为常系数, 可以由${{{H}}_2}$${m_{ij}}$计算得到, 求解式(31)容易得到${s_2}$${s_3}$. 同样, 为进一步提升${s_2}$${s_3}$的求解精度, 首先将式(28)转换为无约束优化形式:

    $$\left\{ {{s_2},{s_3}} \right\} = \arg \min \left( {{{\beta}}_2^{\rm{T}} {{E}}_2^{\rm{T}} {{{E}}_2}{{{\beta}}_2}} \right)$$ (32)

    式中, ${{E}}_2^{\rm{T}} {{{E}}_2}$$6 \times 6$的已知对称矩阵. 此时${s_2}$${s_3}$可以按照如下式子进行精定位:

    $${\left[ {{s_2},{s_3}} \right]^{\rm{T}} } = {\left[ {{s_2},{s_3}} \right]^{\rm{T}} } + \Delta s$$ (33)

    式中, $\Delta s = - {[{{{J}}^{\rm{T}} }{{J}} + \lambda {{{I}}_{2 \times 2}}]^{ - 1}}{{{J}}^{\rm{T}} }{{{E}}_2}{{{\beta}}_2}$, 各变量的定义类似于式(27). 得到最优的${s_2}$${s_3}$以后, 将其代入式(13)和式(8)则可得需要求解的${{R}}$${{t}}$.

    3)对于形式3. 式(14)中仅含有一个变量${s_3}$, 将式(14)代入式(10), 最终得到一个${s_3}$的多项式:

    $${U_4}s_3^4 + {U_3}s_3^3 + {U_2}s_3^2 + {U_1}{s_3} + {U_0} = 0$$ (34)

    式中, ${U_i},i = 0,1,\cdots,4$为系数. 采用特征值分解的方法, 式(34)很容易求解, 一旦得到${s_3}$, 将其代入式(14)和式(8)可得完整的${{R}}$${{t}}$.

    4)对于形式4. 式(15)中${{R}}$的值已知, 将其直接代入式(8)可得${{t}}$.

    由以上求解可以看出, 式(25)有8个解, 式(31)有1个解, 式(34)有4个解, 求解形式4有1个解. 因此, 求解以上形式最多得到14个解, 其分别对应着14组${{R}}$${{t}}$. 将每组${{R}}$${{t}}$分别代入式(10), 选择其误差最小的那组${{R}}$${{t}}$作为最终结果输出. 表1列出了文献中各非线性求解PnL问题算法解的个数. 从表1可以看出, 本文提出方法解的个数最少, 有利于提升算法的求解效率和求解可靠性.

    表 1  解的个数对比
    Table 1  Comparison of the number of solutions
    文献 [9]文献 [12]文献 [13]文献 [14]本文方法
    1527156014
    下载: 导出CSV 
    | 显示表格

    本节通过实验验证本文提出的EPnL算法性能, 并与现有主流算法进行对比. 对比算法主要分为线性算法和非线性算法两类, 其中线性算法有DLT-Lines[7]和LPnL-Bar-LS[9]算法; 非线性算法有 Lift[11]、AlgLS[12]、RPnL[13]、ASPnL[9]和SRPnL[14]算法.

    实验中的源代码可以从作者个人网站https://sites.google.com/view/ping-wang-homepage下载.

    合成分辨率为640 × 480像素, 焦距为800像素的虚拟相机. 在相机坐标系下产生空间3D直线: 在普通情况下, 空间直线随机分布在$[ - 2,2]$ × $[ - 2,2]$ × $[4,8]$的范围内; 在共面情况下, 空间3D直线随机分布在$[ - 2,2]$ × $[ - 2,2]$ × $[0,0]$内. 利用随机产生的旋转矩阵${{{R}}_{true}}$和平移向量${{{t}}_{true}}$将相机坐标系下的3D直线转换到世界坐标系. 利用合成的虚拟相机, 将相机坐标系下的3D直线投影到图像平面上, 并根据仿真实验参数的不同, 给投影直线增加不同等级的噪声$\delta $. 为了误差评估的一致性, 本文使用文献[9-15]的误差定义形式:

    $$\left\{\begin{aligned} & {e_{rot}}(degrees) = \mathop {\max }\limits_{k \in \{ 1,2,3\} } {{\rm{arccos}} }(r_{k,true}^{\rm{T}} {r_k}) \times \frac{{180}}{\pi } \\ &{e_{trans}} = \frac{{\left\| {{{t}} - {{{t}}_{true}}} \right\|}}{{\left\| {{{{t}}_{true}}} \right\|}} \times 100{\text{%}} \end{aligned} \right.$$ (35)

    式中, ${r_{k,true}}$${r_k}$分别表示${{{R}}_{true}}$${{R}}$的第$k$列.

    1)直线数量对算法精度的影响. 首先设置仿真噪声$\delta = 5$, 通过改变输入参考直线数量4 ~ 20来验证各PnL算法的求解精度, 结果如图2所示 (部分算法共面情况下幅度超出显示范围). 由图2可以看出, 线性的DLT-Lines和LPnL-Bar-LS方法在普通和共面情况下求解精度都不高, 且在直线数量少于6时无法正常求解. Lift是一种非迭代的方法, 但由于其求解过程中使用了线性化的策略, 因此在普通情况(共面情况下无法求解)下求解精度不高. AlgLS的中值求解精度很高, 但是其平均求解精度反而较低, 原因是AlgLS方法采用了Cayley参数表示旋转矩阵, 导致计算的时候容易出现奇异性, 影响算法的整体计算精度. RPnL是一种次优化方法, 在普通情况下求解精度较高, 在共面情况下求解精度较差. ASPnL算法作为RPnL算法的改进版本, 在普通情况下能取得很高的求解精度, 但在共面情况下平均求解精度较低. SRPnL方法作为RPnL方法的另一种改进版本, 在普通和共面情况下都能取得较高的求解精度. 相比之下, 本文的EPnL采用了全局优化的方式求解, 并且在求解过程中分类考虑了旋转的情况, 避免了求解过程中的奇异性, 因此在普通和共面情况下都能保证最好的求解精度.

    图 2  当直线数目变化时旋转和平移误差的均值和中值
    Fig. 2  The mean and median of rotation and translation errors when the number of lines varies

    2)噪声对算法精度的影响. 固定空间直线数量为10, 改变噪声等级$\delta $为1 ~ 15来验证各PnL算法的求解精度, 结果如图3所示. 可以看出, 随着噪声等级的增加, 各算法的求解精度都在下降, 且噪声等级和求解误差的增加近似符合线性关系. 由图2 ~ 3可以看出, 本文PnL算法在普通情况和共面情况下都能取得最好的求解精度.

    图 3  当噪声等级变化时旋转和平移误差的均值和中值
    Fig. 3  The mean and median of rotation and translation errors when the noise level varies

    3)对比P3L算法. 本文算法虽然不是为求解P3L问题设计的, 但是可以处理P3L问题. 图4为本文算法和现有最新P3L算法[13, 19]的对比结果. 由图4可以看出, 本文EPnL算法不仅能够处理P3L问题, 而且还具有较高的求解精度.

    图 4  最小情况下(n = 3)旋转和平移误差的均值和中值
    Fig. 4  The mean and median of rotation and translation errors in the minimal case (n = 3)

    4)对比运行效率. 图5为各PnL算法的运行效率曲线图. 测试直线的数量从4到2000条, 足够覆盖大多数的实际应用场合. 测试时每种算法分别执行500次, 并统计其平均运行时间. 由图5可以看出, RPnL和ASPnL算法初期运行效率高于AlgLS的方法, 但是随着直线数目增加, 其消耗的时间呈指数状增加, 效率反倒低于AlgLS方法. DLT-Lines和LPnL-Bar-LS由于是线性求解的方法, 因此求解效率很高. SRPnL方法相比于RPnL和ASPnL方法具有较高的求解效率, 但是随着直线数量的增加, 其时间消耗也急剧增加. 相比之下, 本文提出的EPnL方法具有很高的求解效率, 当直线数量超过300条的时候, 求解效率甚至高于线性的DLT-Lines的方法, 仅次于LPnL-Bar-LS方法. 综合考虑EPnL算法的求解精度、求解效率和求解通用性, 其在所有对比方法中综合性能更优, 非常适合于实际项目应用.

    图 5  对比算法的计算效率
    Fig. 5  The computational efficiency of compared the methods

    牛津大学视觉测量组(Visual Geometry Group)建立了以其团队命名的(VGG)图像数据集2. VGG数据集中包含7组图像数据, 每组数据中包含若干张采集的建筑物图像, 图像中建筑物边缘直线的图像坐标及其对应世界坐标系中的位置、相机相对于世界坐标系之间的位姿关系都是已知的. 因此可以使用VGG数据集来测试各PnL算法的求解精度. 测试过程中各算法的求解误差定义如下:

    $$\left\{\begin{aligned} &\Delta \theta = \left| {Angle({R_{estimation}}) - Angle({R_{true}})} \right|\\ &\Delta T = \left| {{t_{estimation}} - {t_{true}}} \right| \end{aligned} \right.$$ (36)

    式中, $Angle( \cdot ) $表示将旋转矩阵转换为欧拉角, ${R_{estimation}} $${t_{estimation}} $表示各算法计算得到的旋转矩阵和平移向量, ${R_{true}} $${t_{true}} $为数据集中真实的旋转矩阵和平移向量. 分别利用各PnL算法按式(36)计算每组图像数据的误差平均值, 结果如表2所示, 每组中平均误差最小的值加粗表示. 由表2可以看出, 本文提出的EPnL算法在能够在4组测试集上同时获得最高的角度(旋转)和位置(平移)求解精度, 并且能够在6组测试集上获得最高的位置求解精度, 其整体求解精度最好. 为进一步验证EPnL算法的求解精度, 利用EPnL算法求解的位姿信息将世界坐标系下建筑物的边缘投影到图像上, 结果如图6所示, 其中青色直线为投影直线. 由图6可见, EPnL算法能够准确的恢复位姿信息.

    表 2  各算法在VGG数据集上的旋转和平移误差均值
    Table 2  The mean of rotation and translation errors for each method on the VGG dataset
    数据集名称Model-HouseCorridorMerton-College- ⅠMerton-College- ⅡMerton-College-ⅢUniversity-LibraryWadham-College
    图像数量101133335
    AlgLS$\Delta \theta [ \circ ]$0.42200.19833.620055.80373.74951.883860.0517
    $\Delta T[m]$0.03840.08881.150414.18791.36830.95199.8801
    DLT-Lines$\Delta \theta [ \circ ]$0.86510.11040.08690.21170.17510.17360.1343
    $\Delta T[m]$0.08340.04150.02740.12240.06250.07510.0809
    LPnL-Bar-LS$\Delta \theta [ \circ ]$0.41350.11780.02410.02610.06520.36420.1526
    $\Delta T[m]$0.04030.04400.00990.01490.02330.16320.0909
    RPnL$\Delta \theta [ \circ ]$0.55210.36521.08700.32491.75282.97310.4200
    $\Delta T[m]$0.06310.11500.32150.16600.91211.56130.1909
    ASPnL$\Delta \theta [ \circ ]$0.22650.09110.11410.15151.55843.66620.4227
    $\Delta T[m]$0.01620.02980.03140.06000.55711.66830.1955
    SRPnL$\Delta \theta [ \circ ]$0.2258158.9520.43810.115136.40344.18480.0880
    $\Delta T[m]$0.016017.5570.10640.04953.93982.06320.0407
    EPnL$\Delta \theta [ \circ ]$0.22650.09690.03060.01700.05040.08710.0808
    $\Delta T[m]$0.01620.02520.00970.01230.01470.03430.0375
    下载: 导出CSV 
    | 显示表格
    图 6  VGG数据集中的图片
    Fig. 6  Images from the VGG dataset

    本文提出了一种精确且高效的PnL问题求解算法(EPnL算法). EPnL首先通过矩阵变化的方式统一PnL问题的度量空间, 并将PnL求解问题转换为求二次曲面(曲线)交点的问题. 然后, 针对现有Cayley参数和四元数参数表示旋转时存在的问题, 本文提出了基于四元数的旋转分类表示方法, 该表示法在不损失旋转正交约束的前提下, 能够有效提升求解PnL问题的可靠性和效率. 最后, 针对现有迭代法和Gröbner基法求解问题效率不高且无法保障可靠性的问题. 本文提出利用二次项曲面方程组低次项参数化高次项的方法, 将二次项曲面方程组求交点问题转换为单变量多项式求解问题解决. 仿真和实际实验表明, 相比于现有的PnL算法, 本文算法在具有高求解精度的同时兼具高求解效率.


  • 11 豆瓣小组 (https://www.douban.com/group/explore) 是信息获取和分享平台豆瓣网的重要组成部分, 用户可以根据个人兴趣、剧名、电影、宠物、化妆品、摄影、旅行等主题创建或加入各种小组, 与其他成员讨论和分享相关话题. 每个小组都有自己的规则和特色, 成员可以发布帖子、参与讨论、分享观点和经验等.2 Meetup是美国在线社交平台, 通过收集并分析人们的兴趣爱好和住址等信息, 帮助具有共同兴趣的人组成群组并安排线下聚会.3 Weeplaces是一种基于位置的可视化地图服务, 记录了用户在基于地理位置的社交网络中的签到历史. Yelp是美国最大的点评网站, 用户可以在网站中对商户进行评分、提交评论, 以及分享购物体验等.
  • 24 Flickr是一个提供图片存储和分享服务的网站, 用户可以上传、存储和分享自己的照片和视频, 用户还可以在这里浏览他人的作品、参与讨论和互相交流.
  • 35 元路径是一种定义在异构图上的路径模式, 形式化表示为$ {\mathrm{A}}_{1}\stackrel{{\mathrm{R}}_{1}}{\to }{\mathrm{A}}_{2}\stackrel{{\mathrm{R}}_{2}}{\to }\cdots \stackrel{{\mathrm{R}}_{\mathrm{l}}}{\to }{\mathrm{A}}_{l+1} $ (简写为$ {\mathrm{A}}_{1}{\mathrm{A}}_{2}\cdots {\mathrm{A}}_{l+1} $), 可以理解为在$ {\mathrm{A}}_{1} $和$ {\mathrm{A}}_{l+1} $之间是一种混合的链接关系, 该关系可以形式化地表示为$ \mathrm{R}={\mathrm{R}}_{1}\diamond {\mathrm{R}}_{2}\cdots \diamond {\mathrm{R}}_{\mathrm{l}} $.
  • 图  1  群组推荐示意图

    Fig.  1  Diagram of group recommendation

    图  2  群组交互关系图

    Fig.  2  Diagram of group interaction

    图  3  基于深度学习的群组推荐系统框架

    Fig.  3  Framework of a deep learning based group recommendation system

    图  4  偏好聚合策略与评分聚合策略的过程对比

    Fig.  4  Comparison of the process of preference aggregation strategy and rating aggregation strategy

    图  5  AGREE模型结构图

    Fig.  5  Diagram of AGREE model structure

    图  6  MoSAN算法结构图

    Fig.  6  Diagram of MoSAN algorithm structure

    图  7  GRADI算法结构图

    Fig.  7  Diagram of GRADI algorithm structure

    图  8  GLIF算法框图

    Fig.  8  Block diagram of GLIF algorithm

    图  9  KGAG模型示意图

    Fig.  9  Schematic diagram of KGAG model

    图  10  HetGRec算法结构图

    Fig.  10  Diagram of HetGRec algorithm structure

    图  11  GBERT算法预训练阶段流程框图

    Fig.  11  GBERT algorithm pre-training phase flowchart

    图  12  群组偏好表示方法分类总结

    Fig.  12  Classification summary of group preference representation methods

    表  1  数学符号说明

    Table  1  Explanation of mathematical symbols

    符号 说明
    $ U=\left\{{u}_{1},\;{u}_{2},\;{\cdots ,\;u}_{n}\right\} $ 用户集合
    $ V=\left\{{v}_{1},\;{v}_{2},\;{\cdots ,\;v}_{m}\right\} $ 项目集合
    $ G=\left\{{g}_{1},\;{g}_{2},\;{\cdots ,\;g}_{s}\right\} $ 群组集合
    $ \mathit{A}={\left[{a}_{li}\right]}_{s\times m} $ $ \langle $群组−项目$\rangle $交互矩阵
    $ \mathit{B}={\left[{b}_{ij}\right]}_{n\times m} $ $ \langle $用户−项目$\rangle $交互矩阵
    $ \mathit{C}={\left[{c}_{lj}\right]}_{s\times n} $ $ \langle $群组−用户$\rangle $交互矩阵
    $ {\mathcal{G}}_{UV} $ $\langle $用户−项目$\rangle $交互图
    $ {R}_{V}\left(u\right) $ 与用户$ u $有过交互的所有项目集合
    $ \mathscr{p} $ 元路径
    $ {\mathcal{N}}^{\mathscr{p}}\left(u\right) $ 节点$ u $基于元路径$ \mathscr{p} $找到的近邻集合
    $ {u}_{t}^{g} $ 群组$ g $中的第$ t $个成员, $ {u}_{t}^{g}\in U $
    $ f:V\to \mathbf{R} $ 由项目集到实数域的函数 (映射) $ f $
    $ {\boldsymbol{e}}_{u},\;{\boldsymbol{e}}_{v},\;{\boldsymbol{e}}_{g} $ 用户$ u $, 项目$ v $和群组$ g $的ID嵌入向量
    $ {\boldsymbol{h}}_{u},\;{\boldsymbol{h}}_{v},\;{\boldsymbol{h}}_{g} $ $ {\boldsymbol{e}}_{u},\;{\boldsymbol{e}}_{v},\;{\boldsymbol{e}}_{g} $ 经过编码后的向量表示
    下载: 导出CSV

    表  2  群组偏好表示学习方法对比

    Table  2  Comparison of learning methods for group preference representation

    表示学习层技术 特点 不足
    基于启发式聚合策略的群组偏好表示方法 结合个性化推荐方法和预定义的聚合策略完成群组推荐任务, 方法简单高效 无法根据交互数据自身的模式来学习成员之间、成员与群组之间的影响力
    基于概率模型的群组偏好表示方法 建模群组的生成过程, 采用潜变量表示用户对群组或其他成员的影响力 较依赖于先验分布的假设, 无法动态地建模成员用户的影响力
    基于注意力机制的群组偏好表示方法 采用注意力机制主动从用户交互记录等信息中学习成员的影响力 数据稀疏性可能导致模型训练低效, 使得学习到的影响力不准确
    基于图神经网络的群组偏好表示方法 采用图神经网络建模用户、群组和项目之间的高阶交互关系, 并结合注意力算子计算信息沿着关系传播的权重, 有效缓解因数据稀疏导致推荐效果不佳的问题 可能需要用户的社交信息来构建网络, 较难实现; 针对冷启动群组, 需要重新训练网络
    增加约束类的群组偏好表示方法 采用增加约束的方式降低解空间的规模, 基于多任务之间的共性特征, 提升模型优化的效果 较依赖于预训练数据集的质量; 较依赖于任务之间的关联强度
    引入外部信息的群组偏好表示方法 通过引入外部信息的方式, 增强群组偏好的表示学习, 如社交网络信息、项目描述信息和用户评论信息等 外部信息较难获取等问题
    下载: 导出CSV

    表  3  群组推荐数据集信息

    Table  3  Information of group recommendation dataset

    数据集 类别 内容
    CAMRa2011[46, 4849, 54, 62, 66] 电影 包含602个用户组成的290个群组对7 710部电影的评分.
    MovieLens 1M[31, 47, 49, 5354, 67] 电影 包含上百万评分记录的电影数据集, 由于该数据集不存在显式的群组, 通常根据用户相似度构建群组.
    Weeplaces[55, 60] 签到 由于该数据集中不存在显式的群组, 通常将15 min以内在同一地点签到且存在朋友关系的用户视为一个群组, 形成包含8 643个用户打卡25 081个商户的22 733个群组.
    Yelp[32, 53, 55, 60, 6869] 点评 包含34 504个用户对22 611个餐厅的点评. 由于该数据集不存在显式的群组, 将在同一时间段内打卡同一个餐厅且存在社交关系的用户视为一个群组, 形成24 103个群组.
    Douban[32, 55, 60, 63, 6869] 活动 包含70 743个用户对60 028个活动的评分. 由于该数据集不存在显式的群组, 将参加同一活动的用户视为一个群组, 形成109 538个群组.
    Meetup[31, 4748, 52, 63, 70] 活动 按照事件的地点, 该数据集分为Meetup-NYC (纽约市) 和Meetup-Cal (加利福尼亚). 这两个数据集均没有显式的群组, 通常将参加同一个事件的人视为一个群组. 其中, Meetup-NYC包含46 619个用户、9428个群组、2 326个项目. Meetup-Cal包含59 486个用户、15 207个群组、4 472个项目.
    BookCrossing[67] 书籍 包含 278 858个用户, 提供271 379本书的1 149 780个评分. 该数据集不包含显式的群组, 通常通过寻找相似用户构建群组.
    Jester Joke[71] 笑话 包含73 421个用户对 100 个笑话进行的 410 万次评分, 评分范围是 −10 ~ 10 的连续实数. 不包含分组信息, 通过计算用户相似度来进行分组.
    Netflix[72] 电影 包含480 507个用户对17 770部电影的100 480 507条评价数据, 其中评分以5分制为基准. 不包含分组信息, 利用用户的偏好相似信息构造群组.
    下载: 导出CSV

    表  4  不同表示层算法在三个常见的持续性群组数据集上的推荐效果 (%)

    Table  4  The recommendation performance of different presentation layer algorithms on three common persistent group datasets (%)

    方法 数据集
    CAMRa2011 MS MR
    H@5 H@10 N@5 N@10 H@5 H@10 N@5 N@10 H@5 H@10 N@5 N@10
    NCF-AVG 58.33 77.65 39.69 46.25 59.19 83.15 47.35 52.21 63.52 78.42 45.32 50.29
    NCF-LM 57.14 77.13 39.63 45.81 63.31 81.07 45.92 51.19 63.32 78.46 45.18 50.03
    NCF-MS 57.19 75.12 38.50 44.41 64.43 82.25 46.62 51.98 62.35 77.85 44.43 49.02
    AGREE 58.50 77.93 40.25 46.62 65.96 83.23 47.33 52.94 64.10 79.01 45.76 50.69
    MoSAN 58.73 77.51 40.24 46.31 66.41 81.77 47.02 51.63 65.21 79.75 45.23 50.54
    GAME 59.09 78.64 40.23 46.70 65.97 83.22 48.38 53.25 65.55 79.32 46.41 50.10
    GLIF 59.18 78.93 40.30 46.73 66.43 83.55 48.20 53.44 65.61 79.93 46.43 51.07
    KGAG 59.83 79.83 40.35 47.01 66.41 83.55 49.03 54.01 65.80 79.99 46.63 51.39
    HetGRec 62.31 81.95 42.33 48.90 68.32 86.15 50.24 55.39 68.01 82.20 48.32 53.39
    下载: 导出CSV

    表  5  不同算法在三个常见的临时性群组数据集上的推荐效果 (%)

    Table  5  The recommendation performance of different algorithms on three common temporary group datasets (%)

    方法 数据集
    Weeplaces Yelp Douban
    R@5 R@10 N@5 N@10 R@5 R@10 N@5 N@10 R@5 R@10 N@5 N@10
    NCF-AVG 20.91 29.56 11.06 12.90 21.84 29.14 15.08 16.43 35.33 43.23 22.98 24.70
    NCF-LM 20.32 28.33 10.49 12.19 23.22 31.44 16.04 17.20 44.29 49.56 31.91 33.10
    NCF-MS 19.75 28.72 10.74 12.65 21.38 28.22 14.50 15.08 35.36 42.10 23.04 24.51
    AGREE 20.53 29.09 11.40 13.22 24.16 30.98 16.80 17.63 45.95 51.22 33.39 34.57
    MoSAN 31.81 37.71 26.25 28.15 46.57 50.61 34.66 36.18 47.10 52.22 36.12 37.24
    GAME 41.97 48.53 28.90 30.35 46.44 51.94 35.32 36.52 58.76 77.52 40.29 46.33
    KGAG 41.50 48.42 28.96 30.54 46.35 51.87 35.23 36.47 58.64 77.49 40.25 46.29
    GroupIM 41.98 48.53 30.35 31.31 48.40 52.39 35.78 36.39 63.54 78.44 45.93 52.19
    GBERT 49.43 52.82 35.31 36.43 48.67 53.14 37.46 38.11 65.20 79.90 47.22 54.58
    下载: 导出CSV
  • [1] 唐佳睿, 田然, 梁丹辉. 电商行业深度报告: 线上消费心智加深, 积极探索新消费场景 [Online], available: https://baijiahao.baidu.com/s?id=1760070652649669963&wfr=spider&for=pc, 2023-03-11

    Tang Jia-Rui, Tian Ran, Liang Dan-Hui. In-depth report on the E-commerce industry: Deepening online consumption mindset and actively exploring new consumption scenarios [Online], available: https://baijiahao.baidu.com/s?id=1760070652649669963&wfr=spider&for=pc, March 11, 2023
    [2] 张洪磊, 李浥东, 邬俊, 陈乃月, 董海荣. 基于隐私保护的联邦推荐算法综述. 自动化学报, 2022, 48(9): 2142−2163

    Zhang Hong-Lei, Li Yi-Dong, Wu Jun, Chen Nai-Yue, Dong Hai-Rong. A survey on privacy-preserving federated recommender systems. Acta Automatica Sinica, 2022, 48(9): 2142−2163
    [3] Yang Y, Zhang C B, Song X, Dong Z, Zhu H S, Li W J. Contextualized knowledge graph embedding for explainable talent training course recommendation. ACM Transactions on Information Systems, 2024, 42(2): Article No. 33
    [4] Cheng M Y, Liu Q, Zhang W Y, Liu Z D, Zhao H K, Chen E H. A general tail item representation enhancement framework for sequential recommendation. Frontiers of Computer Science, 2024, 18(6): Article No. 186333 doi: 10.1007/s11704-023-3112-y
    [5] Hao B W, Yin H Z, Li C P, Chen H. Self-supervised graph learning for occasional group recommendation. International Journal of Intelligent Systems, 2022, 37(12): 10880−10902 doi: 10.1002/int.23011
    [6] McCarthy J F, Anagnost T D. MusicFX: An arbiter of group preferences for computer supported collaborative workouts. In: Proceedings of the ACM Conference on Computer Supported Cooperative Work. Seattle Washington, USA: ACM, 1998. 363−372
    [7] 许晓明, 梅红岩, 于恒, 李晓会. 基于偏好融合的群组推荐方法研究综述. 小型微型计算机系统, 2020, 41(12): 2500−2508 doi: 10.3969/j.issn.1000-1220.2020.12.008

    Xu Xiao-Ming, Mei Hong-Yan, Yu Heng, Li Xiao-Hui. Review of group recommendation methods based on preference fusion. Journal of Chinese Computer Systems, 2020, 41(12): 2500−2508 doi: 10.3969/j.issn.1000-1220.2020.12.008
    [8] 张玉洁, 杜雨露, 孟祥武. 组推荐系统及其应用研究. 计算机学报, 2016, 39(4): 745−764 doi: 10.11897/SP.J.1016.2016.00745

    Zhang Yu-Jie, Du Yu-Lu, Meng Xiang-Wu. Research on group recommender systems and their applications. Chinese Journal of Computers, 2016, 39(4): 745−764 doi: 10.11897/SP.J.1016.2016.00745
    [9] 赵海燕, 成若瑶, 陈庆奎, 曹健. 群组推荐系统: 现状与展望. 小型微型计算机系统, 2021, 42(6): 1144−1151 doi: 10.3969/j.issn.1000-1220.2021.06.004

    Zhao Hai-Yan, Cheng Ruo-Yao, Chen Qing-Kui, Cao Jian. Group recommender system: Current status and future trends. Journal of Chinese Computer Systems, 2021, 42(6): 1144−1151 doi: 10.3969/j.issn.1000-1220.2021.06.004
    [10] Dara S, Chowdary C R, Kumar C. A survey on group recommender systems. Journal of Intelligent Information Systems, 2020, 54(2): 271−295 doi: 10.1007/s10844-018-0542-3
    [11] Kompan M, Bielikova M. Group recommendations: Survey and perspectives. Computing and Informatics, 2014, 33(2): 446−476
    [12] O'Connor M, Cosley D, Konstan J A, Riedl J. PolyLens: A recommender system for groups of users. ECSCW 2001. Dordrecht: Springer, 2001. 199−218
    [13] Wu X X, Xiong Y, Zhang Y, Jiao Y Z, Zhang J W, Zhu Y Y, et al. ConsRec: Learning consensus behind interactions for group recommendation. In: Proceedings of the ACM Web Conference. Austin, USA: ACM, 2023. 240−250
    [14] Zhu R T, Lv D T, Yu Y, Zhu R H, Zheng Z Z, Bu K, et al. LINet: A location and intention-aware neural network for hotel group recommendation. In: Proceedings of the ACM Web Conference. Austin, USA: ACM, 2023. 779−789
    [15] Crossen A, Budzik J, Hammond K J. Flytrap: Intelligent group music recommendation. In: Proceedings of the 7th International Conference on Intelligent User Interfaces. San Francisco, USA: ACM, 2002. 184−185
    [16] Carroll J M, Rosson M B. Paradox of the active user. In: Proceedings of the Interfacing Thought: Cognitive Aspects of Human-computer Interaction. Cambridge, USA: MIT Press, 1987. 80−111
    [17] Zheng N, Li Q D, Liao S C, Zhang L M. Which photo groups should I choose? A comparative study of recommendation algorithms in Flickr. Journal of Information Science, 2010, 36(6): 733−750 doi: 10.1177/0165551510386164
    [18] Liu X J, Tian Y, Ye M, Lee W C. Exploring personal impact for group recommendation. In: Proceedings of the 21st ACM International Conference on Information and Knowledge Management. Maui, USA: ACM, 2012. 674−683
    [19] Yuan Q, Cong G, Lin C Y. COM: A generative model for group recommendation. In: Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, USA: ACM, 2014. 163−172
    [20] Wang Q, Mao Z D, Wang B, Guo L. Knowledge graph embedding: A survey of approaches and applications. IEEE Transactions on Knowledge and Data Engineering, 2017, 29(12): 2724−2743 doi: 10.1109/TKDE.2017.2754499
    [21] Chen J W, Wu J K, Wu J C, Cao X Z, Zhou S, He X N. Adap-τ: Adaptively modulating embedding magnitude for recommendation. In: Proceedings of the ACM Web Conference. Austin, USA: ACM, 2023. 1085−1096
    [22] Dyer J S, Sarin R K. Group preference aggregation rules based on strength of preference. Management Science, 1979, 25(9): 822−832 doi: 10.1287/mnsc.25.9.822
    [23] 吴云昌, 刘柏嵩, 王洋洋, 费晨杰. 群组推荐分析与研究综述. 电信科学, 2018, 34(12): 71−83

    Wu Yun-Chang, Liu Bai-Song, Wang Yang-Yang, Fei Chen-Jie. Review of group recommendation analysis and research. Telecommunications Science, 2018, 34(12): 71−83
    [24] Garcia I, Pajares S, Sebastia L, Onaindia E. Preference elicitation techniques for group recommender systems. Information Sciences, 2012, 189: 155−175 doi: 10.1016/j.ins.2011.11.037
    [25] Masthoff J. Group recommender systems: Combining individual models. Recommender Systems Handbook. New York: Springer, 2010. 677−702
    [26] Agarwal A, Chakraborty M, Chowdary C R. Does order matter? Effect of order in group recommendation. Expert Systems With Applications, 2017, 82: 115−127 doi: 10.1016/j.eswa.2017.03.069
    [27] Baltrunas L, Makcinskas T, Ricci F. Group recommendations with rank aggregation and collaborative filtering. In: Proceedings of the 4th ACM Conference on Recommender Systems. Barcelona, Spain: ACM, 2010. 119−126
    [28] Yu Z W, Zhou X S, Hao Y B, Gu J H. TV program recommendation for multiple viewers based on user profile merging. User Modeling and User-Adapted Interaction, 2006, 16(1): 63−82 doi: 10.1007/s11257-006-9005-6
    [29] Xuan P C, Tang Y, Wang W S. Group recommendation method based on item type proportion factor. In: Proceedings of the IEEE/ACM International Conference on Utility and Cloud Computing Companion. Zurich, Switzerland: IEEE, 2018. 376−381
    [30] 毛宇佳, 刘学军, 徐新艳, 张欣. 基于子组与社会行为的缩小群组推荐列表方法. 计算机科学, 2019, 46(2): 202−209 doi: 10.11896/j.issn.1002-137X.2019.02.031

    Mao Yu-Jia, Liu Xue-Jun, Xu Xin-Yan, Zhang Xin. Method based on sub-group and social behavior for narrowing recommended list for groups. Computer Science, 2019, 46(2): 202−209 doi: 10.11896/j.issn.1002-137X.2019.02.031
    [31] Huang Z H, Xu X, Zhu H H, Zhou M C. An efficient group recommendation model with multiattention-based neural networks. IEEE Transactions on Neural Networks and Learning Systems, 2020, 31(11): 4461−4474 doi: 10.1109/TNNLS.2019.2955567
    [32] Yin H Z, Wang Q Y, Zheng K, Li Z X, Yang J L, Zhou X F. Social influence-based group representation learning for group recommendation. In: Proceedings of the 35th International Conference on Data Engineering. Macao, China: IEEE, 2019. 566−577
    [33] Jameson A. More than the sum of its members: Challenges for group recommender systems. In: Proceedings of the Working Conference on Advanced Visual Interfaces. Gallipoli, Italy: ACM, 2004. 48−54
    [34] Du J, Li L, Gu P, Xie Q. A group recommendation approach based on neural network collaborative filtering. In: Proceedings of the 35th International Conference on Data Engineering Workshops. Macao, China: IEEE, 2019. 148−154
    [35] Quintarelli E, Rabosio E, Tanca L. Recommending new items to ephemeral groups using contextual user influence. In: Proceedings of the 10th ACM Conference on Recommender Systems. Boston, USA: USA, 2016. 285−292
    [36] Quijano-Sanchez L, Recio-Garcia J A, Diaz-Agudo B. Happymovie: A facebook application for recommending movies to groups. In: Proceedings of the 23rd International Conference on Tools with Artificial Intelligence. Boca Raton, USA: IEEE, 2011. 239−244
    [37] Quijano-Sánchez L, Recio-García J A, Díaz-Agudo B. Personality and social trust in group recommendations. In: Proceedings of the 22nd IEEE International Conference on Tools With Artificial Intelligence. Arras, France: IEEE, 2010. 121−126
    [38] Quijano-Sanchez L, Recio-Garcia J A, Diaz-Agudo B, Jimenez-Diaz G. Social factors in group recommender systems. ACM Transactions on Intelligent Systems and Technology (TIST), 2013, 4(1): Article No. 8
    [39] Hu L, Cao J, Xu G D, Cao L B, Gu Z P, Cao W. Deep modeling of group preferences for group-based recommendation. In: Proceedings of the 28th AAAI Conference on Artificial Intelligence. Québec City, Canada: AAAI, 2014. 1861−1867
    [40] Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate. In: Proceedings of the 3rd International Conference on Learning Representations. San Diego, USA: ICLR, 2015. 1−15
    [41] Pan X R, Ge C J, Lu R, Song S J, Chen G F, Huang Z Y, et al. On the integration of self-attention and convolution. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans, USA: IEEE, 2022. 805−815
    [42] Xu H T, Zhang J, Dai L R. Differential time-frequency log-mel spectrogram features for vision transformer based infant cry recognition. In: Proceedings of the Interspeech. Incheon, South Korea: ISCA, 2022. 1963−1967
    [43] Ma Z Y, Li J J, Li G H, Cheng Y J. UniTranSeR: A unified transformer semantic representation framework for multimodal task-oriented dialog system. In: Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics. Dublin, Ireland: Association for Computational Linguistics, 2022. 103−114
    [44] 郑建兴, 李沁文, 王素格, 李德玉. 融合属性偏好和多阶交互信息的可解释评分预测研究. 自动化学报, 2024, 50 (11): 2231−2244

    Zheng Jian-Xing, Li Qin-Wen, Wang Su-Ge, Li De-Yu. Research on explainable rating prediction by fusing attribute preference and multi-order interaction information. Acta Automatica Sinica, 2024, 50 (11): 2231−2244
    [45] 汤文兵, 任正云, 韩芳. 基于注意力机制的协同卷积动态推荐网络. 自动化学报, 2021, 47(10): 2438−2448

    Tang Wen-Bing, Ren Zheng-Yun, Han Fang. Attention-based collaborative convolutional dynamic network for recommendation. Acta Automatica Sinica, 2021, 47(10): 2438−2448
    [46] Cao D, He X N, Miao L H, An Y H, Yang C, Hong R C. Attentive group recommendation. In: Proceedings of the 41st International ACM SIGIR Conference on Research and Development in Information Retrieval. Ann Arbor, USA: ACM, 2018. 645−654
    [47] Tran L V, Pham T A N, Tay Y, Liu Y D, Cong G, Li X L. Interact and decide: Medley of sub-attention networks for effective group recommendation. In: Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval. Paris, France: ACM, 2019. 255−264
    [48] He Z X, Chow C Y, Zhang J D, Li N. GRADI: Towards group recommendation using attentive dual top-down and bottom-up influences. In: Proceedings of the IEEE International Conference on Big Data. Los Angeles, USA: IEEE, 2019. 631−636
    [49] Zhang S, Zheng N, Wang D L. A novel attention-based global and local information fusion neural network for group recommendation. Machine Intelligence Research, 2022, 19(4): 331−346 doi: 10.1007/s11633-022-1336-1
    [50] McPherson M, Smith-Lovin L, Cook J M. Birds of a feather: Homophily in social networks. Annual Review of Sociology, 2001, 27: 415−444 doi: 10.1146/annurev.soc.27.1.415
    [51] Liang R X, Zhang Q, Wang J Q, Lu J. A hierarchical attention network for cross-domain group recommendation. IEEE Transactions on Neural Networks and Learning Systems, 2024, 35(3): 3859−3873 doi: 10.1109/TNNLS.2022.3200480
    [52] He Z X, Chow C Y, Zhang J D. GAME: Learning graphical and attentive multi-view embeddings for occasional group recommendation. In: Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 2020. 649−658

    He Z X, Chow C Y, Zhang J D. GAME: Learning graphical and attentive multi-view embeddings for occasional group recommendation. In: Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 2020. 649−658
    [53] Deng Z Y, Li C Y, Liu S J, Ali W, Shao J. Knowledge-aware group representation learning for group recommendation. In: Proceedings of the 37th International Conference on Data Engineering. Chania, Greece: IEEE, 2021. 1571−1582
    [54] Zhang S, Zheng N, Wang D L. HetGRec: Heterogeneous graph attention network for group recommendation. IEEE Intelligent Systems, 2023, 38(1): 9−18 doi: 10.1109/MIS.2022.3211074
    [55] Sankar A, Wu Y H, Wu Y H, Zhang W, Yang H, Sundaram H. Groupim: A mutual information maximization framework for neural group recommendation. In: Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 2020. 1279−1288

    Sankar A, Wu Y H, Wu Y H, Zhang W, Yang H, Sundaram H. Groupim: A mutual information maximization framework for neural group recommendation. In: Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 2020. 1279−1288
    [56] Veličković P, Fedus W, Hamilton W L, Liò P, Bengio Y, Hjelm R D. Deep graph infomax. In: Proceedings of the 7th International Conference on Learning Representations. New Orleans, USA: OpenReview.net, 2019. 1−17
    [57] Devlin J, Chang M W, Lee K, Toutanova K. BERT: Pre-training of deep bidirectional transformers for language understanding. In: Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Minneapolis, Minnesota: Association for Computational Linguistics, 2019. 4171−4186
    [58] Radford A, Narasimhan K, Salimans T, Sutskever H. Improving language understanding by generative pre-training [Online], available: https://api.semanticscholar.org/CorpusID:49313245, December 18, 2023

    Radford A, Narasimhan K, Salimans T, Sutskever H. Improving language understanding by generative pre-training [Online], available: https://api.semanticscholar.org/CorpusID:49313245, December 18, 2023
    [59] Radford A, Wu J, Child R, Luan D, Amodei D, Sutskever I. Language models are unsupervised multitask learners. OpenAI Blog, 2019, 1(8): Article No. 9
    [60] Zhang S, Zheng N, Wang D L. GBERT: Pre-training user representations for ephemeral group recommendation. In: Proceedings of the 31st ACM International Conference on Information and Knowledge Management. Atlanta, USA: ACM, 2022. 2631−2639
    [61] Zhang Y Y, Wu X, Fang Q, Qian S S, Xu C S. Knowledge-enhanced attributed multi-task learning for medicine recommendation. ACM Transactions on Information Systems, 2023, 41(1): Article No. 17
    [62] Cao D, He X N, Miao L H, Xiao G Y, Chen H, Xu J. Social-enhanced attentive group recommendation. IEEE Transactions on Knowledge and Data Engineering, 2021, 33(3): 1195−1209 doi: 10.1109/TKDE.2019.2936475
    [63] Yin H Z, Wang Q Y, Zheng K, Li Z X, Zhou X F. Overcoming data sparsity in group recommendation. IEEE Transactions on Knowledge and Data Engineering, 2022, 34(7): 3447−3460
    [64] Chen H X, Yin H Z, Chen T, Nguyen Q V H, Peng W C, Li X. Exploiting centrality information with graph convolutions for network representation learning. In: Proceedings of the 35th International Conference on Data Engineering. Macao, China: IEEE, 2019. 590−601
    [65] He X N, Liao L Z, Zhang H W, Nie L Q, Hu X, Chua T S. Neural collaborative filtering. In: Proceedings of the 26th International Conference on World Wide Web. Perth, Australia: International World Wide Web Conferences Steering Committee, 2017. 173−182
    [66] Feng S S, Zhang H X, Wang L, Liu L, Xu Y C. Detecting the latent associations hidden in multi-source information for better group recommendation. Knowledge-Based Systems, 2019, 171: 56−68 doi: 10.1016/j.knosys.2019.02.002
    [67] Choudhary N, Minz S, Bharadwaj K K. Negotiation framework for group recommendation based on fuzzy computational model of trust and distrust. Multimedia Tools and Applications, 2020, 79(37−38): 27337−27364 doi: 10.1007/s11042-020-09339-x
    [68] Guo L, Yin H Z, Wang Q Y, Cui B, Huang Z, Cui L Z. Group recommendation with latent voting mechanism. In: Proceedings of the 36th International Conference on Data Engineering. Dallas, USA: IEEE, 2020. 121−132
    [69] Guo L, Yin H Z, Chen T, Zhang X L, Zheng K. Hierarchical hyperedge embedding-based representation learning for group recommendation. ACM Transactions on Information Systems (TOIS), 2021, 40(1): Article No. 3
    [70] Seo Y D, Kim Y G, Lee E, Seol K S, Baik D K. An enhanced aggregation method considering deviations for a group recommendation. Expert Systems With Applications, 2018, 93: 299−312 doi: 10.1016/j.eswa.2017.10.027
    [71] Loveymi S, Hamzeh A. Proposing an evolutionary method based on maximization precision of group recommender systems. In: Proceedings of the 7th Conference on Information and Knowledge Technology. Urmia, Iran: IEEE, 2015. 1−6
    [72] Guo Z W, Tang C W, Tang H, Fu Y Q, Niu W J. A novel group recommendation mechanism from the perspective of preference distribution. IEEE Access, 2018, 6: 5865−5878 doi: 10.1109/ACCESS.2018.2792427
    [73] Sun Y Z, Han J W, Yan X F, Yu P S, Wu T Y. PathSim: Meta path-based top-k similarity search in heterogeneous information networks. Proceedings of the VLDB Endowment, 2011, 4(11): 992−1003 doi: 10.14778/3402707.3402736
    [74] Zeng Z N, Xiao C J, Yao Y, Xie R B, Liu Z Y, Lin F, et al. Knowledge transfer via pre-training for recommendation: A review and prospect. Frontiers in Big Data, 2021, 4: Article No. 602071 doi: 10.3389/fdata.2021.602071
    [75] Jafri S I H, Ghazali R, Javid I, Mahmood Z, Hassan A A A. Deep transfer learning with multimodal embedding to tackle cold-start and sparsity issues in recommendation system. PLoS One, 2022, 17(8): 1−24
    [76] Gan M X, Ma Y X. Knowledge transfer learning from multiple user activities to improve personalized recommendation. Soft Computing, 2022, 26(14): 6547−6566 doi: 10.1007/s00500-022-07178-6
    [77] Chen J W, Dong H D, Qiu Y, He X N, Xin X, Chen L, et al. AutoDebias: Learning to debias for recommendation. In: Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 2021. 21−30

    Chen J W, Dong H D, Qiu Y, He X N, Xin X, Chen L, et al. AutoDebias: Learning to debias for recommendation. In: Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 2021. 21−30
    [78] Chen J W, Dong H D, Wang X, Feng F L, Wang M, He X N. Bias and debias in recommender system: A survey and future directions. ACM Transactions on Information Systems, 2023, 41(3): Article No. 67
    [79] Chawla N V, Bowyer K W, Hall L O, Kegelmeyer W P. SMOTE: Synthetic minority over-sampling technique. Journal of Artificial Intelligence Research, 2002, 16(1): 321−357
    [80] Mandal P, Samanta S, Pal M, Ranadive A S. Pythagorean linguistic preference relations and their applications to group decision making using group recommendations based on consistency matrices and feedback mechanism. International Journal of Intelligent Systems, 2020, 35(5): 826−849 doi: 10.1002/int.22226
    [81] Castro J, Quesada F J, Palomares I, Martínez L. A consensus-driven group recommender system. International Journal of Intelligent Systems, 2015, 30(8): 887−906 doi: 10.1002/int.21730
    [82] Garcia I, Sebastia L. A negotiation framework for heterogeneous group recommendation. Expert Systems With Applications, 2014, 41(4): 1245−1261 doi: 10.1016/j.eswa.2013.07.111
    [83] Xu Y S, Zhang Y X, Guo W, Guo H F, Tang R M, Coates M. GraphSAIL: Graph structure aware incremental learning for recommender systems. In: Proceedings of the 29th ACM International Conference on Information and Knowledge Management. ACM, 2020. 2861−2868

    Xu Y S, Zhang Y X, Guo W, Guo H F, Tang R M, Coates M. GraphSAIL: Graph structure aware incremental learning for recommender systems. In: Proceedings of the 29th ACM International Conference on Information and Knowledge Management. ACM, 2020. 2861−2868
    [84] Song L Q, Tekin C, van der Schaar M. Online learning in large-scale contextual recommender systems. IEEE Transactions on Services Computing, 2016, 9(3): 433−445 doi: 10.1109/TSC.2014.2365795
    [85] Zheng N, Li Q D. A recommender system based on tag and time information for social tagging systems. Expert Systems With Applications, 2011, 38(4): 4575−4587 doi: 10.1016/j.eswa.2010.09.131
    [86] Lin J H, Dai X Y, Xi Y J, Liu W W, Chen B, Li X Y, et al. How can recommender systems benefit from large language models: A survey. ACM Transactions on Information Systems, DOI: 10.1145/3678004
    [87] Wu L K, Zheng Z, Qiu Z P, Wang H, Gu H C, Shen T J, et al. A survey on large language models for recommendation. World Wide Web, 2024, 27(5): Article No. 60 doi: 10.1007/s11280-024-01291-2
    [88] Li L, Zhang Y F, Liu D G, Chen L. Large language models for generative recommendation: A survey and visionary discussions. In: Proceedings of the Joint International Conference on Computational Linguistics, Language Resources and Evaluation. Torino, Italia: ELRA and ICCL, 2023. 10146−10159
    [89] Qiu Z P, Wu X, Gao J Y, Fan W. U-BERT: Pre-training user representations for improved recommendation. In: Proceedings of the 35th AAAI Conference on Artificial Intelligence. AAAI, 2021. 4320−4327

    Qiu Z P, Wu X, Gao J Y, Fan W. U-BERT: Pre-training user representations for improved recommendation. In: Proceedings of the 35th AAAI Conference on Artificial Intelligence. AAAI, 2021. 4320−4327
  • 加载中
  • 图(12) / 表(5)
    计量
    • 文章访问数:  907
    • HTML全文浏览量:  289
    • PDF下载量:  405
    • 被引次数: 0
    出版历程
    • 收稿日期:  2023-12-18
    • 录用日期:  2023-05-12
    • 网络出版日期:  2024-09-27
    • 刊出日期:  2024-12-20

    目录

    /

    返回文章
    返回