Research on Fault Diagnosis of Improved Kernel Fisher Based on Mahalanobis Distance in the Field of Chemical Industry
-
摘要: 针对化工故障诊断数据存在非线性分布、 数据类别复杂、数据量大且故障特征不易区分等问题, 本文提出一种基于马氏距离的改进核Fisher故障诊断方法(Mahalanobis distance-based kernel Fisher discrimination, MKFD). 首先, 针对数据非线性分布的特点, 本文将核Fisher判别分析算法改进, 改进后的算法可以有效解决原始样本在投影后出现的因类间距离差异过大、类内距离不够紧凑造成的样本混叠现象. 除此之外, 利用Euclidean距离对类间距做加权处理时, 用组平均距离取代质心距离, 提升了运算效率, 降低了时间复杂度; 其次, 根据高斯径向基核函数(Radial basis function, RBF)在MKFD中所呈现出的诊断精度的规律, 本文采用一种新的核参数选择方法: 区间三分法, 用以取代在实际应用中依靠经验的交叉验证法; 最后, 本文采用马氏距离对故障进行分类, 基于田纳西伊—斯特曼过程(Tennessee-Eastman, TE)数据将本方法与其他改进核Fisher算法进行仿真验证对比. 结果表明新提出MKFD算法不仅可以提高故障诊断的运算效率, 也能有效提高诊断的精度.Abstract: Aiming at the problems of the non-linear distribution, complex category, large amount of fault diagnosis data in chemical industry and the difficulty of distinguishing fault features, a improved kernel Fisher fault diagnosis method based on Mahalanobis distance is proposed in this paper. Firstly, due to the data with non-linear property, a new improved kernel Fisher discriminant analysis method is proposed, which can effectively solve the sample aliasing phenomenon caused by large difference between classes and insufficient compact distance between classes after projection of original samples. In addition, using the Euclidean distance in class spacing, the group average distance is used to replace the center of mass distance, which improves the efficiency of operation and reduces the time complexity. Secondly, according to the rule of diagnostic accuracy presented by the (RBF) in Fisher discriminant analysis (MKFD), a new method, interval “three-point method”, of selecting nuclear parameters is proposed in this paper, which is used to replace the cross-validation method relying on experience in practical application. Finally, faults are classified based on Mahalanobis distance using Tennessee-Sterman process. The proposed method is compared with other improved kernel Fisher algorithm. The results show that (MKFD) can not only improve the calculation efficiency of fault diagnosis, but also improve the accuracy of diagnosis.
-
Key words:
- Kernel Fisher /
- fault diagnosis /
- interval three-point method /
- Tennessee-Sterman process /
- optimization
-
近年来, 随着大数据、云计算等技术的迅猛发展, 信息呈现爆炸式增长, 给用户带来新资讯的同时, 也增加了用户筛选有用信息并最终做出决策的难度. 个性化搜索和推荐算法深度而准确挖掘用户潜在需求和兴趣偏好, 向用户推荐其可能感兴趣且满足用户需求的项目, 进而提供高质量的个性化服务[1-2]. 然而, 互联网技术的发展以及互联网参与人数的激增, 使得各类互联网应用中聚集了大量用户生成内容(User generated content, UGC), 如: 用户评分、商品类别标签、用户文本评论、社交网络信息、地理位置信息、图像或视频等各种各样的复杂数据, 这些信息具有多源异构异质特性. 在个性化搜索过程中充分利用多源异构UGC数据, 势必将在很大程度上提高个性化搜索和推荐的综合性能[3-4]. 其中, 构建精确描述用户个性化偏好的用户兴趣模型是个性化搜索问题的关键. 目前常用的构建用户兴趣模型的方法包括贝叶斯模型[5]、多层感知机[6]、自编码器[7]、受限玻尔兹曼机(Restricted Boltzmann machine, RBM)[8]、卷积神经网络(Convolutional neural network, CNN)[9]等. Kim等[9]整合了CNN和概率矩阵分解, 提出了卷积矩阵分解(Convolutional matrix factorization, ConvMF) 模型. Jin等[10]通过元路径引导邻域捕获节点间的交互模式, 提出了高效的端到端基于邻域的交互模型, 用于基于异构信息网络的推荐. 这些方法的成功应用展示了综合考虑多源异构信息对于提高推荐系统和个性化搜索性能是十分有利的. 另外, 受到人类视觉机理的启发, 基于注意力机制(Attention mechanism, AM)的神经网络已成功应用于图像处理、自然语言理解、语音识别、模式生成等领域[11-12]. 融合AM的神经网络充分利用特征及其重要性程度, 使得神经网络在处理数据时加强重要特征, 有利于更有效地进行特征提取. Zhou等[12]提出了基于AM用户行为模型处理推荐问题. 汤文兵等[13]提出了基于注意力机制的协同卷积动态推荐网络, 捕捉高阶特征交互. Li等[14]提出了基于时间间隔感知的自注意力序列推荐算法. 这些方法证明了融合AM神经网络的有效性, 加强了重要特征对应用领域的贡献. 然而, 现有大部分研究工作均假设所有数据已知且充足, 模型训练复杂度较大, 且考虑的数据类型较单一, 面对高稀疏性数据时通常表现不佳, 同时, 未考虑用户兴趣偏好的动态变化特性, 模型难以随新增UGC及时更新, 不适用于实际应用场景中个性化搜索.
个性化搜索本质上是一类复杂的定性指标优化问题, 也是目前人工智能领域亟待解决的难题. 用户参与进化搜索的交互式进化计算(Interactive evolutionary computations, IECs) 能够有效利用用户对优化问题的主观评价和决策, 将人类智能评价信息与传统进化优化算法相结合, 是处理个性化搜索这类复杂定性指标优化问题的可行途径[15-17]. Sun等[15]考虑区间适应值的不确定性, 提出了基于代理模型的交互式遗传算法(Interactive genetic algorithm, IGA), 处理复杂设计问题. Chen等[17]利用基于语言模型的编码, 结合基于Dirichlet多项式复合分布的用户偏好表示和贝叶斯推理机制, 提出了改进IEDA算法. Bao等[8] 充分挖掘用户隐式偏好信息, 构建基于RBM的用户偏好模型, 提出了RBM模型驱动的交互式分布估计算法(Interactive estimation of distribution algorithms, IEDA). 这些方法从构建用户偏好代理模型设计进化优化策略的角度处理个性化搜索问题, 为进化计算在个性化搜索和推荐中的应用进行了尝试, 取得了良好效果. 但是, 融合多源异构UGC和基于偏好代理模型进化计算(Evolutionary computations, ECs)的相关研究较少, 已有研究也仅仅利用了单一类型UGC信息, 此外, 没有考虑UGC不同特征信息对用户认知偏好和ECs算子的影响.
基于代理模型的进化算法在复杂工程和函数优化中已有较多研究成果, 主要利用进化过程中产生的数据或者生产实践中获得的数据, 采用机器学习方法等构建模型, 在进化过程中, 利用该模型代替复杂适应度评价函数, 实现对进化个体的适应值估计, 进而提高进化优化的效率. 常用代理模型包括: 多项式回归模型[18]、支持向量机[19]、神经网络[20]和克里金模型[21]等. Min等[22]提出了基于多问题代理模型的迁移进化多目标优化算法. Wang等[23]结合基于代理模型的低代价鲁棒估计和时间消耗的实际鲁棒性测量, 提出了基于图嵌入的大规模网络代理模型辅助鲁棒优化算法. Cai等[24]提出了一种广义代理模型辅助的进化算法处理高维高代价优化问题. 显然, 已有代理模型均基于数值型描述的优化问题, 而本文研究面向UGC的个性化搜索, 需要构建用户偏好代理模型, 其处理对象为文本、类别标签、打分数据甚至图像等, 传统代理模型不再适用.
本文考虑深入理解和充分挖掘多源异构UGC数据, 利用无监督学习RBM模型强大的表示学习能力和AM在特征选择方面的突出表现, 设计融合多源异构数据和AM的RBM用户偏好代理模型, 并结合IECs进化优化框架, 提出增强RBM驱动的IEDA, 应用于个性化搜索中. 充分利用多源异构UGC数据包含的文本类信息, 包括用户评价和项目类别两类连续、离散混合数据, 提取与用户认知偏好高度相关的特征, 获取表示用户偏好的注意力权重, 构建精准拟合用户搜索偏好的基于注意力机制和RBM的用户认知偏好模型, 实现多重特征交互, 同时捕捉低阶至高阶的基于多源异构数据的用户偏好特征; 在IEDA框架下, 设计基于RBM用户偏好的概率模型, 生成含用户偏好的可行解, 同时, 设计基于RBM用户偏好代理模型的进化个体适应度估计函数, 为搜索对象提供量化的评价值, 部分代替用户评价选择优良个体, 生成用户可能感兴趣的项目推荐列表; 考虑用户偏好的动态演化特性, 根据新增UGC数据和模型管理机制, 动态更新融合多源异构数据和AM的RBM用户偏好模型, 引导个性化进化搜索过程, 以期快速准确地搜索用户满意解, 提高个性化搜索算法的评分预测准确性和推荐效果.
本文贡献主要包括3个方面: 1)针对含用户生成内容的个性化搜索问题, 充分挖掘用户生成内容中的连续语义特征和离散类别特征, 给出基于RBM的特征融合方法和注意力权重确定策略, 以及融合注意力权重的RBM用户偏好模型构建机制, 以拟合用户兴趣偏好的动态变化过程; 2) 基于所构建RBM偏好模型, 通过计算当前用户偏好个体中决策变量属性值为1的概率, 建模用户的兴趣选择倾向, 形成IEDA进化个体生成的采样概率模型; 3) 基于RBM模型参数确定法则是最小化能量函数的原则, 利用能量函数构建了分布估计算法(Estimation of distribution algorithm, EDA)进化个体适应值评价代理模型, 进而实现了面向含用户生成内容个性化进化搜索的高效IEDA算法.
本文后续内容组织如下: 第1节给出所提算法框架; 第2节详细描述基于注意力机制和RBM的用户认知偏好模型构建; 第3节提出基于偏好模型的交互式分布估计算法; 第4节给出实例分析; 最后总结本文工作.
1. 算法框架
本文旨在利用UGC和RBM建模用户偏好特征及其动态变化过程, 以交互式进化优化的方式, 准确刻画用户实时兴趣, 抽取用户行为规律和发展动态, 可望从海量数据构成的动态演化空间中引导用户尽快搜索到满意解, 提高面向多源异构UGC的个性化搜索的综合性能.
所提融合注意力机制的增强受限玻尔兹曼机驱动的交互式分布估计算法(Enhanced restricted Boltzmann machine-driven interactive estimation of distribution algorithms with attention mechanism, AM-ERBM-IEDA)的基本框架如图1所示. 首先根据用户查询信息, 获得初始物品集合及其UGC数据, 作为EDA初始化搜索空间; 分别将UGC的评价文本和类别标签送入doc2vec和multi-hot编码模块, 获得UGC数据的向量化表示; 将量化表示的UGC作为RBM偏好模型的输入, 训练该模型; 计算RBM偏好模型的输入层分布概率, 将其作为EDA种群再生的采样概率模型; 基于RBM能量函数定义, 构建EDA进化个体(搜索物品)适应值代理模型, 以估计个体适应值, 实现选择操作, 将$TopN $列表提交给用户评价, 实现交互过程; 在进化过程中, 根据用户交互信息和代理模型估计值管理RBM模型更新过程, 以跟踪用户兴趣变化, 从而更新采样概率模型和适应值代理模型. 循环上述过程, 直至用户找到满意物品.
图1中, “$\star $”标记模块为核心部分, 包括: 基于注意力机制和RBM的用户认知偏好模型构建、基于RBM用户偏好的交互式分布估计算法, 特别是EDA采样概率模型计算, 以及EDA用户评价代理模型和管理.
2. 基于注意力机制和RBM的用户认知偏好模型构建
2.1 面向评价和类别UGC的用户偏好特征提取
多源异构UGC数据中包含丰富的用户历史交互行为数据(如: 用户对项目的评分数据、用户对项目的文本评论等)、项目内容信息(如: 项目类别标签等)、用户之间的社交网络关系等, 这些数据含有大量用户显式和隐式的兴趣偏好信息, 充分探索和挖掘这些有用信息, 建模基于注意力机制和RBM的用户认知偏好模型, 能够有效提高个性化搜索算法的性能. 该模型包含3个模块: 融合多源异构数据的RBM注意力权重生成模块、注意力层和基于注意力机制的RBM模块, 其结构示意图如图2所示.
融合多源异构数据的RBM注意力权重生成模型具有两层网络结构: ${{\boldsymbol{v}}_{11}}$为第1组可见层, 有${n_1}$个可见单元, 表示项目的类别特征; ${{\boldsymbol{v}}_{12}}$为第2组可见层, 有${n_2}$个可见单元, 表示用户对项目评论的文本特征; ${{\boldsymbol{h}}_1}$为隐层, 有${m_1}$个隐单元, 表示用户偏好特征. 其中, 层间全连接, 层内无连接, 可见单元和隐单元均为实数. 该模型的输入数据由用户评分数据、项目类别标签和用户文本评论构成, 具体如下:
1) 用户评分${\boldsymbol{R}} = {\left[ {{r_{ij}}} \right]_{\left| U \right| \times \left| X \right|}}$, ${r_{ij}}$表示用户${u_i}$对于项目${{\boldsymbol{x}}_j}$的评分, 显式表达了用户偏好. 根据当前用户$u$的历史评分数据, 设置评分阈值$\delta $, 筛选出高于$\delta $的用户喜欢的项目集合, 构成含用户$u$偏好的优势项目群体${D_u}\left( {{D_u} \in X} \right)$, 规模记为 $\left| {{D_u}} \right|$.
2) 项目类别标签${\boldsymbol{c}} = {\left[ {{c_{ij}}} \right]_{\left| X \right| \times {n_1}}}$, 其中, ${c_{ij}}$表示项目${{\boldsymbol{x}}_i}$的第$j$个类别标签, 若${c_{ij}} = 1$, 表示项目${{\boldsymbol{x}}_i}$包含第$j$个类别标签, 否则${c_{ij}} = 0$; ${n_1}$表示所有项目的类别总数. 将优势群体${D_u}$中的第$i$个项目${{\boldsymbol{x}}_i}$(个体)表示为向量${\boldsymbol{c}}_i^u = \left[ {{c_{i1}},{c_{i2}}, \cdots ,{c_{ij}}, \cdots ,{c_{i{n_1}}}} \right]$, ${D_u}$中, $\left| {{D_u}} \right|$个个体可表示为一个$\left| {{D_u}} \right| \times {n_1}$的特征向量矩阵${{\boldsymbol{C}}^u}$, 即
$${{\boldsymbol{C}}^u} = {\left[ {{\boldsymbol{c}}_1^u,{\boldsymbol{c}}_2^u, \cdots ,{\boldsymbol{c}}_i^u, \cdots ,{\boldsymbol{c}}_{\left| {{D_u}} \right|}^u} \right]^{\rm{T}}}, \;\; {\boldsymbol{C}}^u \in {{\bf{R}}^{\left| {{D_u}} \right| \times {n_1}}}$$ (1) 其中, ${\boldsymbol{c}}_i^u\;\left( {i = 1,2, \cdots ,\left| {{D_u}} \right|} \right)$表示${D_u}$中的第 $i$个项目${{\boldsymbol{x}}_i}$的类别特征向量化表示.
3) 将用户对项目的文本评论进行数据预处理, 基于数据集的语料库训练doc2vec文本向量化表示模型[25], 生成用户文本评论的向量化表示${\boldsymbol{T}} = {\left[ {{{\boldsymbol{t}}_{ij}}} \right]_{\left| U \right| \times \left| X \right|}}$, 其中, ${{\boldsymbol{t}}_{ij}}$表示用户${u_i}$对于项目${{\boldsymbol{x}}_j}$的文本评论的向量化表示. ${D_u}$中各项目的文本评论向量化表示${{\boldsymbol{T}}^u}$, 即
$${{\boldsymbol{T}}^u} = {\left[ {{\boldsymbol{t}}_1^u,{\boldsymbol{t}}_2^u, \cdots ,{\boldsymbol{t}}_i^u, \cdots ,{\boldsymbol{t}}_{\left| {{D_u}} \right|}^u} \right]^{\rm{T}}}, \;\; {{\boldsymbol{{ T}}}^u} \in {{\bf{R}}^{\left| {{D_u}} \right| \times {n_2}}}$$ (2) 其中, ${\boldsymbol{t}}_i^u = [{t_{i1}},{t_{i2}}, \cdots ,{t_{i{n_2}}}]$表示用户$u$对于项目${{\boldsymbol{x}}_i}$的文本评论向量化表示, ${n_2}$为文本评论向量的长度.
由多源异构UGC数据整合模型训练数据, 表示为 $\left| {{D_u}} \right| \times n$特征向量矩阵${{\boldsymbol{V}}^u}$, 即
$${{\boldsymbol{V}}^u} = {\left[ {{\boldsymbol{v}}_1^u,{\boldsymbol{v}}_2^u, \cdots ,{\boldsymbol{v}}_i^u, \cdots ,{\boldsymbol{v}}_{\left| {{D_u}} \right|}^u} \right]^{\rm{T}}}, \;\; {{\boldsymbol{V}}^u} \in {{\bf{R}}^{\left| {{D_u}} \right| \times n}}$$ (3) 其中, ${\boldsymbol{v}}_i^u = \left[ {{\boldsymbol{c}}_i^u,{\boldsymbol{t}}_i^u} \right] = [ {c_{i1}},{c_{i2}}, \cdots ,{c_{i{n_1}}},{t_{i1}},{t_{i2}}, \cdots , {t_{i{n_2}}} ]$, $n = {n_1} + {n_2}$.
根据训练数据集${{\boldsymbol{V}}^u}$和对比散度(Contrastive divergence, CD)学习算法[26], 训练融合多源异构数据的RBM注意力权重生成模型, 获得包含用户$u$偏好特征的模型参数${\theta _1} = \left\{ {{{\boldsymbol{W}}^1},{{\boldsymbol{a}}^1},{{\boldsymbol{b}}^1}} \right\}$, 均为实数.
当给定可见单元状态时, 各隐单元的激活状态条件独立, 第$j$个隐单元的激活概率为
$${P_{{\theta _1}}}( {h_j^1 = 1|{{\boldsymbol{c}}^u},{{\boldsymbol{t}}^u}} ) = \sigma \left( {b_j^1 + \sum\limits_{i = 1}^{{n_1}} {{c_i}w_{ij}^1} + \sum\limits_{i = 1}^{{n_2}} {{t_i}w_{ij}^1} } \right)$$ (4) 其中, ${c_i}$表示第1组可见层${{\boldsymbol{v}}_{11}}$中第$i$个可见单元的状态; ${t_i}$表示第2组可见层${{\boldsymbol{v}}_{12}}$中第$i$个可见单元的状态; $h_j^1$表示隐层${{\boldsymbol{h}}_1}$中第$j$个隐单元的状态; $w_{ij}^1$表示可见单元$i$与隐单元$j$之间的连接权重; $b_j^1$表示第$j$个隐单元的偏置; $\sigma \left( x \right) = 1/\left( {1 + \exp \left( { - x} \right)} \right)$是sigmoid激活函数.
当给定隐单元状态时, 各可见单元的激活状态亦条件独立, 第1组和第2组可见层第$i$个可见单元的激活概率分别为
$${P_{{\theta _1}}}( {{c_i} = 1|{{\boldsymbol{h}}^1}}) = \sigma \left( {a_{1i}^1 + \sum\limits_{j = 1}^{{m_1}} {w_{ij}^1h_j^1} } \right)$$ (5) $${P_{{\theta _1}}}( {{t_i} = 1|{{\boldsymbol{h}}^1}} ) = \sigma \left( {a_{2i}^1 + \sum\limits_{j = 1}^{{m_1}} {w_{ij}^1h_j^1} } \right)$$ (6) 其中, $a_{1i}^1$和$a_{2i}^1$分别表示第1组和第2组可见层中第$i$个可见单元的偏置.
模型训练完成后可同时获得两类信息: 用户$u$对当前待搜索对象的偏好特征, 即隐层输出; 用户$u$对于项目中各决策变量的偏好程度, 即输入层最终获得的${P_{{\theta _1}}}( {{c_i}|{{\boldsymbol{h}}^1}} )$和${P_{{\theta _1}}}( {{t_i}|{{\boldsymbol{h}}^1}} )$.
2.2 基于注意力机制的偏好特征集成
考虑用户历史行为中不同项目的属性特征对评分预测的贡献的差异性, 增加了注意力层, 对用户的个性化偏好特征赋予不同权重, 着力分析不同特征间的关联度, 以加强重要特征对评分预测的贡献.
计算用户$u$的注意力权重${\boldsymbol{a}}{{\boldsymbol{t}}^u}$, 即
$${\boldsymbol{a}}{{\boldsymbol{t}}^u} = \left[ {a{t_1},a{t_2}, \cdots ,a{t_{{n_1}}},a{t_{{n_1} + 1}}, \cdots ,a{t_{{n_1} + {n_2}}}} \right]$$ (7) 其中, 注意力权重系数$a{t_i} = \sigma ( {a_i^1 + \sum\nolimits_{j = 1}^{{m_1}} {w_{ij}^1h_j^1} } )$表示用户$u$对项目个体的第$i$个决策变量的偏好程度. $w_{ij}^1$和$a_i^1$分别表示已训练好的融合多源异构数据的RBM注意力权重生成模型中可见单元与隐单元之间的连接权重和可见单元的偏置, $h_j^1$是已训练好的含用户$u$偏好特征的模型中第$j$个隐单元的值.
用户$u$偏好的注意力权重${\boldsymbol{a}}{{\boldsymbol{t}}^u}$刻画了项目中各决策变量对于用户$u$偏好特征的重要性程度, 由此得到优势群体${D_u}$中第$i$个项目个体的编码表示${\boldsymbol{x}}_i^u$, 即
$${\boldsymbol{x}}_i^u = {\boldsymbol{a}}{{\boldsymbol{t}}^u} \odot {\boldsymbol{v}}_i^u = \left[ {a{t_1} \cdot {v_{i1}},a{t_2} \cdot {v_{i2}}, \cdots ,a{t_n} \cdot {v_{in}}} \right]$$ (8) 则${D_u}$中所有项目个体的融合多源异构数据的基于AM的向量表示为${{\boldsymbol{X}}^u} \in {{\bf{R}}^{\left| {{D_u}} \right| \times n}}$, 即
$$\begin{split} &{{\boldsymbol{X}}^u} = \left[ {\begin{array}{*{20}{c}} {{\boldsymbol{x}}_1^u} \\ {{\boldsymbol{x}}_2^u} \\ \vdots \\ {{\boldsymbol{x}}_{\left| {{D_u}} \right|}^u} \end{array}} \right] =\\ &\qquad\left[ {\begin{array}{*{20}{c}} {a{t_1} \cdot {v_{11}}}&{a{t_2} \cdot {v_{12}}}& \cdots &{a{t_n} \cdot {v_{1n}}} \\ {a{t_1} \cdot {v_{21}}}&{a{t_2} \cdot {v_{22}}}& \cdots &{a{t_n} \cdot {v_{2n}}} \\ \vdots & \vdots & \ddots & \vdots \\ {a{t_1} \cdot {v_{\left| {{D_u}} \right|1}}}&{a{t_2} \cdot {v_{\left| {{D_u}} \right|2}}}& \cdots &{a{t_n} \cdot {v_{\left| {{D_u}} \right|n}}} \end{array}} \right] \end{split}$$ (9) 将${D_u}$中的个体${{\boldsymbol{x}}^u}$再次输入已训练好的融合多源异构数据的RBM注意力权重生成模型, 帮助融合多源异构数据的基于AM的RBM用户偏好模型将注意力集中于重要的特征, 更精细地表达当前用户$u$的偏好特征. 由此得到可见单元的输出${{{V}} _{{\rm{rb}}{{\rm{m}}_1}}}( {{{\boldsymbol{x}}^u}} )$, 即
$${{{V}} _{{\rm{rb}}{{\rm{m}}_1}}}( {{{\boldsymbol{x}}^u}} ) = \sigma \left( {a_i^1 + \sum\limits_{j = 1}^{{m_1}} {w_{ij}^1\sigma \left( {b_j^1 + \sum\limits_{i = 1}^n {{x_i}w_{ij}^1} } \right)} } \right)$$ (10) 其中, $w_{ij}^1$和$a_i^1$分别是已训练好的融合多源异构数据的RBM注意力权重生成模型中可见单元$i$与隐单元$j$之间的连接权重和可见单元$i$的偏置.
由可见层输出${{{V}} _{{\rm{rb}}{{\rm{m}}_1}}}( {{{\boldsymbol{x}}^u}})$进行自注意力机制运算[14], 动态地学习项目个体${{\boldsymbol{x}}^u}$的用户偏好注意力权重向量${\boldsymbol{A}} \left( {{{\boldsymbol{x}}^u}} \right)$, 即
$${\boldsymbol{A}} \left( {{{\boldsymbol{x}}^u}} \right) = {\rm{softmax}} \left( {{\rm{a}} \left( {{V_{{\rm{rb}}{{\rm{m}}_1}}}\left( {{{\boldsymbol{x}}^u}} \right),{{\boldsymbol{w}}^1}} \right)} \right)$$ (11) 其中, ${\rm{softmax}} \left( \cdot \right)$函数保证所有权重系数之和为1. 函数${\rm{a}} \left( {{{{V}} _{{\rm{rb}}{{\rm{m}}_1}}}\left( {{{\boldsymbol{x}}^u}} \right),{{\boldsymbol{w}}^1}} \right)$衡量了项目个体${{\boldsymbol{x}}^u}$相对于用户偏好特征的注意力权重系数, 计算式为
$${\rm{a}} \left( {{{{V}} _{{\rm{rb}}{{\rm{m}}_1}}}\left( {{{\boldsymbol{x}}^u}} \right),{{\boldsymbol{w}}^1}} \right) = {{{V}} _{{\rm{rb}}{{\rm{m}}_1}}}\left( {{{\boldsymbol{x}}^u}} \right) \cdot {\left( {{{\boldsymbol{w}}^1}} \right)^{\rm{T}}}$$ (12) 进一步获得训练数据集${{\boldsymbol{X}}^u}$中个体${{\boldsymbol{x}}^u}$的基于AM的用户偏好注意力权重${{{\boldsymbol{At}}}} \left( {{{\boldsymbol{x}}^u}} \right)$, 即
$${{{\boldsymbol{At}}}} \left( {{{\boldsymbol{x}}^u}} \right) = {\left[ {{{at}} \left( {{{\boldsymbol{x}}_1}} \right),{{at}} \left( {{{\boldsymbol{x}}_2}} \right), \cdots ,{{at}} \left( {{{\boldsymbol{x}}_{\left| D \right|}}} \right)} \right]^{\rm{T}}}$$ (13) 其中, ${{at}} \left( {{{\boldsymbol{x}}_i}} \right)$ 表示 ${D_u}$ 中项目个体 ${{\boldsymbol{x}}_i}\;( i = 1,2, \cdots , | {{D}} | )$ 融合AM的注意力权重系数, 即
$${{at}} \left( {{{\boldsymbol{x}}_i}} \right) = {{\boldsymbol{x}}_i} + {\boldsymbol{A}} \left( {{\boldsymbol{x}}_i^u} \right) \times {{\boldsymbol{x}}_i}$$ (14) 注意力层抽取并融合了用户对于个体决策变量的注意力权重系数${\boldsymbol{A}} \left( {{{\boldsymbol{x}}^u}} \right)$, 从全局的角度考虑项目各属性特征对于用户偏好的影响, 加权求和获得融合AM的注意力权重系数的用户偏好特征向量${\boldsymbol{At}} \left( {{{\boldsymbol{x}}^u}} \right)$, 更加关注对用户偏好贡献大的属性特征.
2.3 融合高度相关特征的用户认知偏好模型构建
各项目个体基于AM的向量表示为${\boldsymbol{At}} \left( {{{\boldsymbol{X}}^u}} \right)$, 由此训练基于AM的RBM用户偏好模型, 获取用户偏好特征的高阶关系. 当给定可见单元状态时, 第$j$个隐单元的激活概率为
$${P_{{\theta _2}}}\left( {h_j^2 = 1|{{\boldsymbol{x}}^u}} \right) = \sigma \left( {b_j^2 + \sum\limits_{i = 1}^n {{x_i}w_{ij}^2} } \right)$$ (15) 当给定隐单元状态时, 第$i$个可见单元的激活概率为
$${P_{{\theta _2}}}\left( {{x_i}|{{\boldsymbol{h}}^2}} \right) = {\rm{N}} \left( {a_i^2 + \sum\limits_{j = 1}^{{m_2}} {w_{ij}^2h_j^2} ,1} \right)$$ (16) ${\rm{N}} ( {a_i^2\, +\, \sum\nolimits_{j = 1}^{{m_2}} {w_{ij}^2h_j^2} ,1} )$ 是均值为 $a_i^2 \,+\, \sum\nolimits_{j = 1}^{{m_2}} {w_{ij}^2h_j^2}$、标准方差为1的高斯正态分布的概率密度函数.
训练完成后, 基于AM的RBM用户偏好模型参数为${\theta _2} = \left\{ {{{\boldsymbol{W}}^2},{{\boldsymbol{a}}^2},{{\boldsymbol{b}}^2}} \right\}$, 其包含了当前用户$u$的偏好特征, 同时, ${P_{{\theta _2}}}( {{x_i}|{{\boldsymbol{h}}^2}} )$表示用户$u$对于项目中各属性信息的偏好程度.
3. 基于偏好模型的交互式分布估计算法
3.1 分布估计算法概率更新模型
在IEDA进化优化框架下, 设计基于RBM用户偏好的概率模型${{{P}} _u}\left( {\boldsymbol{x}} \right)$, 即
$${{{P}} _u} \left( {\boldsymbol{x}} \right)=\sigma \left( {\sum\limits_{i = 1}^{\left| {{D_u}} \right|} {\left( {{{{V}} _{{\rm{rb}}{{\rm{m}}_2}}}\left( {{{\boldsymbol{x}}_i}} \right) + {\rm{softmax}} \left( {{{\boldsymbol{x}}_i} \cdot {{\left( {{{\boldsymbol{w}}^2}} \right)}^{\rm{T}}}} \right)} \right)} } \right)$$ (17) 其中, ${{{V}} _{{\rm{rb}}{{\rm{m}}_2}}}\left( {\boldsymbol{x}} \right)$为
$${{{V}} _{{\rm{rb}}{{\rm{m}}_2}}}\left( {\boldsymbol{x}} \right) = \sigma \left( {a_i^2 + \sum\limits_{j = 1}^{{m_2}} {w_{ij}^2\sigma \left( {b_j^2 + \sum\limits_{i = 1}^n {{x_i}w_{ij}^2} } \right)} } \right)$$ (18) 基于RBM用户偏好的概率模型${{{P}} _u}\left( {\boldsymbol{x}} \right)$通过计算当前用户偏好的项目中决策变量属性值为1的概率${{p}} \left( {{x_i} = 1} \right)$, 以概率生成的角度表示用户对于项目的偏好, 建模用户兴趣选择倾向. 在IEDA进化优化过程中, 随机采样概率模型${{{P}} _u}\left( {\boldsymbol{x}} \right)$, 生成包含当前用户偏好的$Pop$个新个体. 根据相似性准则, 将生成的新个体与搜索空间中的项目进行相似性匹配, 选择出相同的项目或者最相似的项目作为可行解, 构成待推荐项目集合${S^u}$.
3.2 基于偏好模型的物品适应度函数
由第2节已训练好的融合多源异构数据的基于AM的RBM用户偏好模型的能量函数${{{F}} _{{\theta _2}}}( {{\boldsymbol{x}},{{\boldsymbol{h}}^2}} )$[27], 项目${\boldsymbol{x}}$在$\left( {{\boldsymbol{x}},{{\boldsymbol{h}}^2}} \right)$状态下的能量函数${{{F}} _{{\theta _2}}}( {{\boldsymbol{x}},{{\boldsymbol{h}}^2}} )$隐式表达了用户$u$对于项目${\boldsymbol{x}}$的偏好程度, 即
$$\begin{split} & {{{F}} _{{\theta _2}}}\left( {{\boldsymbol{x}},{{\boldsymbol{h}}^2}} \right) = {{{F}} _{{\theta _2}}}\left( {{\boldsymbol{c}},{\boldsymbol{t}},{{\boldsymbol{h}}^2}} \right) = \\ &\;\;\;\;\;\;-\sum\limits_{i = 1}^{{n_1} + {n_2}} {a_i^2{v_i}} - \sum\limits_{j = 1}^{{m_2}} {\ln \left( {1 + {{\rm{e}}^{{ {{b_j} + \sum\limits_{i = 1}^{{n_1}} {w_{ij}^2{c_i} + \sum\limits_{i = 1}^{{n_2}} {w_{ij}^2{t_i}} } } }}}} \right)} \end{split} $$ (19) 由此设计基于RBM用户偏好特征的代理模型${\hat f_u}({\boldsymbol{x}})$, 表示用户$u$对于个体${\boldsymbol{x}}$的估计评分, 即
$${\hat f_u}({\boldsymbol{x}}) = \sigma \left( {\frac{{\max \left( {{{{F}} _{{\theta _2}}}} \right) - {{{F}} _{{\theta _2}}}( {{\boldsymbol{x}},{{\boldsymbol{h}}^2}} )}}{{\max \left( {{{{F}} _{{\theta _2}}}} \right) - \min \left( {{{{F}} _{{\theta _2}}}} \right)}}} \right)$$ (20) 其中, $\max \left( {{{{F}} _{{\theta _2}}}} \right)$和$\min \left( {{{{F}} _{{\theta _2}}}} \right)$分别表示在当前进化种群中个体能量函数的最大值和最小值.
根据基于RBM用户偏好的代理模型, 估计个性适应值${\hat f_u}({\boldsymbol{x}})$表示用户$u$对于个体${\boldsymbol{x}}$的相对偏好程度, 精确区分和比较用户$u$对于各项目个体的偏好程度. 对于第3.1节生成包含用户$u$偏好的待推荐项目集合${S^u}$, 利用${\hat f_u}({\boldsymbol{x}})$估计${S^u}$中项目个体的适应值, 预测用户$u$对新的未评分项目的评分值, 代替用户真实评价, 减轻用户评价负担. 依据精英选择策略选择优良个体, 生成用户$u$可能感兴趣的个性化$TopN$项目推荐列表, 提交给用户进行评价, 完成一次个性化搜索任务, 若用户未搜寻到满意解, 则进入下一次交互式搜索过程, 最终完成面向当前用户的个性化搜索.
3.3 计算复杂性分析
本文所提算法的计算复杂性由训练用户文本评论的doc2vec向量化表示模型、训练用户偏好模型和筛选可行解所决定. 其中, 用户文本评论的doc2vec向量化表示模型的训练是离线计算. 训练用户偏好模型的计算复杂性为${\rm{O}} \left( {\left| {{D_u}} \right| \times \left( {{n_1} + {n_2}} \right) \times m} \right)$; 选择${S^u}$个可行解的时间花费是${\rm{O}} \left( {{S^u} \times D} \right)$, $D$是搜索空间中的项目数量; 计算${S^u}$个候选项目的个体适应值的时间花费为${\rm{O}} \left( {{S^u}} \right)$. 因此, 本文所提算法每代总的计算复杂性为${\rm{O}} ( \left| {{D_u}} \right|\, \times \, \left( {{n_1} + {n_2}} \right)\,\times \, m \;+ {S^u} \times D )$.
4. 实验结果与分析
为了验证所提算法的综合性能, 将其应用于Amazon[14]的6个数据集和Yelp数据集, 这些数据集包括丰富的多源异构数据, 如: 用户ID、项目ID、用户对项目的1 ~ 5整数值评分、项目类别、用户文本评论、用户评论时间等信息. 数据集的统计信息描述如表1所示.
表 1 数据集统计信息Table 1 Statistical information of datasets数据集 # 用户 # 项目 # 评分 Digital_Music (Music) 478235 266414 836006 Video_Games (Games) 826767 50210 1324753 Apps_for_Android (Apps) 1323884 61275 2638173 Kindle_Store (Kindle) 1406890 430530 3205467 CDs_and_Vinyl (CDs) 1578597 486360 3749004 Movies_and_TV (Movies) 2088620 200941 4607047 Yelp 1912494 180347 7778794 实验环境是Intel Core i5-4590 CPU 3.30 GHz和4 GB RAM, 实验平台使用Python 3.6开发. 为了客观比较本文所提算法的性能, 选择Random、Popularity、BPRMF[5]、ConvMF[9]、ATRank[12]、RBMAEDA[20]、DRBM[8]算法进行对比实验和分析. BPRMF、ConvMF和ATRank都是有监督学习的推荐算法, BPRMF隐因子数目为20. RBMAEDA是一种基于无监督学习的个性化搜索算法. 实验中采用以下评价指标: 均方根误差(Root mean square error, RMSE)、命中率(Hit ratio, HR)、平均准确率(Average precision, AP)、平均准确率均值(Mean average precision, mAP)[8]和运行时间.
4.1 用户偏好认知模型的可靠性
在数据集中随机选取10个测试用户, 按用户评论时间顺序排列, 分别以70%和30%的比例划分训练数据集和测试数据集, 使用各种推荐算法为测试用户进行个性化搜索实验, 各种推荐算法分别独立运行10次, 记录相应的平均实验结果. 本文所提算法的实验参数如表2所示.
表 2 算法的实验参数Table 2 Experimental parameters of our algorithm参数 数值 ${n_1}$ 类别标签数量 ${n_2}$ 200 $m$ 0.8 ~ 1.2倍类别标签数量 学习率 0.1 动量 0.5 ~ 0.9 训练次数 20 $Pop$ 0.3倍测试数据集规模 $k$ 10 $\alpha $ 0.3 $\beta $ 0.2 $N$ 10 为了证明本文所提融合多源异构数据的RBM用户偏好模型及基于RBM用户偏好的代理模型的可行性和有效性, 在各种不同领域的数据集中进行了大量实验. RBM-MsH算法考虑了各项用户评分数据、类别标签和文本评论, 是没有融合AM的RBM用户偏好模型算法. 融合了AM和多源异构UGC数据的增强RBM的个性化搜索算法(Integrating attention mechanism into RBM for multi-source heterogeneous UGC), 记为AtRBM-MsH. 表3中展示了各算法实验结果, 最优结果用粗体标注.
表 3 对比实验结果Table 3 Experiments compared with popular recommendation algorithms算法 评价指标 Random Popularity BPRMF ConvMF ATRank RBMAEDA DRBM RBM-MsH AtRBM-MsH Music RMSE — 3.144 1.898 3.130 2.198 1.298 1.264 1.297 1.221* HR 0.0765 0.0793 0.0764 0.0742 0.0778 0.0784 0.0924 0.0906 0.0951* mAP 0.761 0.723 0.811 0.728 0.778 0.811 0.887 0.880 0.879* 运行时间(s) 0.020 0.182 0.494 276.716 2.900 0.221 1.599 0.672 1.766* Games RMSE — 3.516 1.973 3.497 2.482 1.285 1.332 1.271 1.242* HR 0.0810 0.0930 0.0753 0.0945 0.0869 0.0804 0.0815 0.0809 0.0985* mAP 0.747 0.873 0.707 0.915 0.785 0.736 0.760 0.777 0.827* 运行时间(s) 0.014 0.196 0.402 131.716 3.095 0.151 2.346 0.719 2.785* Apps RMSE — 3.164 2.146 3.119 2.699 1.523 1.543 1.507 1.486* HR 0.0799 0.0795 0.0852 0.0701 0.0887 0.0759 0.0746 0.0760 0.0818* mAP 0.736 0.714 0.736 0.688 0.759 0.718 0.712 0.748 0.771* 运行时间(s) 0.014 0.170 0.344 90.489 2.573 0.103 0.646 0.388 1.476* Kindle RMSE — 4.319 2.284 4.317 2.213 1.437 1.549 1.445 1.168* HR 0.0298 0.0222 0.0278 0.0221 0.0301 0.0286 0.0295 0.0297 0.0308* mAP 0.914 0.920 0.857 0.833 0.900 0.894 0.867 0.875 0.926* 运行时间(s) 0.014 0.761 1.205 416.532 8.745 10.060 26.223 7.224 23.478* CDs RMSE — 4.218 2.182 4.217 2.694 1.482 1.534 1.432 1.241* HR 0.0119 0.0136 0.0101 0.0107 0.0108 0.0110 0.0110 0.0105 0.0147* mAP 0.847 0.825 0.826 0.817 0.844 0.845 0.852 0.838 0.921* 运行时间(s) 0.016 3.833 5.406 884.519 32.307 5.345 31.382 28.111 35.836* Movies RMSE — 3.068 1.960 3.029 2.271 1.191 1.185 1.167 1.176* HR 0.0134 0.0153 0.0144 0.0183 0.0166 0.0138 0.0154 0.0171 0.0173* mAP 0.668 0.769 0.702 0.838 0.682 0.672 0.766 0.800 0.770* 运行时间(s) 0.014 2.186 3.261 506.125 18.341 0.465 9.468 1.815 10.978* Yelp RMSE — 3.132 1.709 3.194 2.195 0.998 1.025 0.989 0.967* HR 0.0185 0.0228 0.0196 0.0259 0.0210 0.0208 0.0232 0.0233 0.0268* mAP 0.671 0.775 0.735 0.871 0.783 0.735 0.812 0.886 0.912* 运行时间(s) 0.017 65.504 27.729 4824.915 159.446 23.325 26.669 11.326 20.551 实验中, 置信水平0.95的Mann-Whitney U 是一种非参数检验, 用来展示本文所提算法的显著性不同, 带有标记“*”的数据表示该算法与其他算法有显著性不同.
由表3可得出以下结论:
1) 在大部分数据集中, AtRBM-MsH都取得了最优的结果, 如: 在Kindle数据集中RMSE值取得了最优1.168, 低于ATRank算法47.22%, 而HR和mAP值取得了0.0308和0.926, 分别高于次优ATRank算法2.33%和2.89%, 展示了本文所提算法模型比其他模型具备更强的特征提取能力和表示学习能力, 进行更准确的评分预测和有效的项目推荐. 同样地, 在Yelp数据集中也取得了优良的预测准确性和推荐效果.
2) 在各数据集中, AtRBM-MsH总体上优于BPRMF、ConvMF和ATRank这些有监督学习算法, 其中, ConvMF算法的时间花费巨大, 是因为CNN深度学习网络的运算过程复杂、训练时间较长, 使得这类基于深度学习的推荐算法在所有数据集上计算代价最高. Random和Popularity算法无法有效获取用户的偏好特征, 在进行推荐时不具备个性化特性, 总体上的推荐效果不如个性化搜索算法. Random算法的时间花费获得最小值, 这是容易理解的. 在保证预测精度和推荐准确性的情况下, AtRBM-MsH利用基于RBM的个性化搜索方法极大缩短了构建用户偏好模型的训练时间, 在推荐效果和时间花费上取得了较好的折中效果.
3) 在各数据集对比实验中, AtRBM-MsH全部优于RBMAEDA, 这是因为RBMAEDA只考虑了用户评分数据和项目类别标签进行个性化搜索, 而AtRBM-MsH算法综合考虑了UGC中的多源异构数据和影响用户偏好的决策变量的重要程度, 构建基于AM的RBM用户偏好模型, 更加有利于抽取用户偏好特征, 取得了最优的预测精度、推荐效果和用户满意度. 另外, RBM-MsH虽然考虑了多源异构UGC数据, 但没有引入AM, 综合推荐效果优于RBMAEDA, 但是不如AtRBM-MsH, 进一步说明了融合AM的有效性.
因此, 本文所提算法联合多源异构UGC数据和AM, 深入理解项目类别标签和用户文本评论, 加强重要特征对于构建用户偏好模型的贡献, 同时, 减轻数据稀疏对评分预测的影响, 进行有效的项目推荐, 具备良好的评分预测精确性和项目推荐准确率.
4.2 基于偏好模型的个性化搜索有效性
为了充分展示本文所提算法的个性化搜索和推荐性能, 以Kindle_Store数据集中用户“A13QTZ8CIMHHG4”为例, 筛选当前用户评分数据和用户文本评论, 按时间顺序排列截取前 #%为训练数据集, 后(100 − #)%为测试数据集, 测试在不同的数据集稀疏度情况下用户进行个性化搜索. 表4是测试用户的个性化搜索实验结果.
表 4 测试用户个性化搜索实验结果Table 4 Experimental results of a test user百分比 (%) 测试用户 RMSE HR AP 10 0.874 0.00455 0.876 20 0.766 0.00459 0.947 30 0.725 0.00700 0.977 40 0.692 0.00944 1.000 50 0.680 0.01168 1.000 60 0.679 0.01020 0.895 70 0.678 0.01426 0.924 80 0.644 0.01961 0.721 90 0.620 0.04068 0.812 实验结果表明, 在数据稠密度只有30%时, AtRBM-MsH也达到了很好的预测精度和推荐准确性, 几乎是把用户喜欢的项目都排在了TopN项目推荐列表的前面, 具备更好的用户满意度和用户体验. 随着数据集中稠密度的逐渐增大, AtRBM-MsH的预测精度和推荐准确性也在不断提高, 说明当数据稠密时有用信息逐渐增加, 有利于融合多源异构数据的RBM用户偏好模型抽取当前用户偏好特征, 为个性化搜索算法提供了有效的用户偏好策略引导.
图3是以图形形式展示测试用户分别利用RBMAEDA、DRBM、RBM-MsH和AtRBM-MsH算法进行个性化搜索的实验结果.
从图3可以看出, 用户对于项目的文本评论包含了较多的用户偏好信息, 融合多源异构数据的RBM-MsH优于只考虑项目类别标签的RBMAEDA和DRBM, 而AtRBM-MsH能够充分整合多源异构UGC数据和AM, 有效抽取用户偏好, 获得了优良的综合性能.
为了进一步展示本文提出的AtRBM-MsH辅助的IEDA (AtRBM-MsH assisted IEDA, AtRIEDA-MsH)算法的综合性能, 在CDs_and_Vinyl数据集随机选择某用户, 将未结合IEDA框架的AtRBM-MsH算法与AtRIEDA-MsH算法进行了对比实验, 实验结果如图4所示.
从图4中可以看出, AtRIEDA-MsH优于AtRBM-MsH, 其RMSE值降低了4.35%, HR和AP分别提高了108.94%和32.66%, 展示了在IEDA框架下充分利用多源异构UGC数据, 融合AM构建增强的基于RBM用户偏好模型, 抽取用户偏好特征, 引导用户进行个性化搜索是可行且有效的.
4.3 基于交互式分布估计算法的UGC搜索的有效性
在实验中, 随机选择某用户参与交互式个性化搜索过程, 前50%作为训练数据集, 其中, 前20%作为初始的历史交互数据, 后30%数据分割为10份, 作为每次迭代的新增UGC, 剩余50%作为个性化搜索的可行解搜索空间, 模拟用户的交互式个性化搜索的动态过程, 展示本文所提算法的可行性、有效性和适应能力. 将本文所提算法与5种IECs: 传统IEDA、RBM辅助的IGA (RBM assisted IGA, RBMIGA)、RBMAEDA[20]、DRBMIEDA[8]、RBM-MsH辅助的IEDA (RBM-MsH assisted IEDA, RIEDA-MsH)算法进行对比实验, 其中, IEDA作为基线算法, RBMIGA是IGA框架下的基于RBM个性化搜索算法. 各算法进行10代优化搜索, 给出10次评分预测和项目推荐, 同时, 各算法独立运行10次, 计算平均评价指标评估算法的综合性能. 实验结果如表5所示, 其中最优解用粗体表示.
表 5 对比实验结果Table 5 Comparison of experimental results算法 评价指标 IEDA RBMIGA RBMAEDA DRBMIEDA RIEDA-MsH AtRIEDA-MsH Music RMSE — 1.160 1.204 1.480 0.955 0.955 HR 0.0184 0.0222 0.0236 0.0230 0.0286 0.0305* AP 0.601 0.815 0.897 0.914 0.931 0.956* Games RMSE — 1.331 1.351 1.560 1.187 1.176* HR 0.0231 0.0205 0.0201 0.0238 0.0245 0.0246 AP 0.710 0.764 0.787 0.870 0.879 0.928* Apps RMSE — 1.537 1.534 1.630 1.574 1.572* HR 0.0330 0.0325 0.0324 0.0350 0.0351 0.0354* AP 0.639 0.657 0.638 0.751 0.736 0.779* Kindle RMSE — 0.908 0.900 1.064 0.700 0.711* HR 0.00756 0.00758 0.00770 0.00760 0.00874 0.00888* AP 0.752 0.783 0.740 0.733 0.834 0.853* CDs RMSE — 1.406 1.405 1.589 1.388 1.386 HR 0.00396 0.00426 0.00452 0.00480 0.00480 0.00486* AP 0.818 0.849 0.890 0.931 0.929 0.923* Movies RMSE — 1.275 1.276 1.210 1.188 1.132* HR 0.00690 0.00738 0.00696 0.00742 0.00840 0.00851* AP 0.485 0.539 0.499 0.526 0.630 0.642* Yelp RMSE — 0.752 0.749 0.896 0.723 0.746* HR 0.00469 0.00469 0.00590 0.00646 0.00698 0.00970* AP 0.516 0.582 0.637 0.702 0.754 0.924* 在表5中, 标记“*”表示根据置信水平0.95的Mann-Whitney U 非参数检验算法显著区别于其他算法. 另外, 由于在IEDA算法中没有构造代理模型预测用户对于项目的评分, 所以IEDA算法没有RMSE值. 由表5可得出以下结论:
1) 在各数据集中, AtRIEDA-MsH取得了最优效果, 如: 在Music数据集中AtRIEDA-MsH平均RMSE值获得了最优值0.955, HR和AP值分别为0.0305和0.956, 高于次优RIEDA-MsH算法6.64%和2.69%. 在Yelp数据集中也获得了类似的实验结果. 虽然在部分数据集中一些评价指标没有取得最优值, 但是综合比较获得了最优综合性能. AtRIEDA-MsH是在RBMAEDA中融合了用户文本评论和AM, 更有利于构建高效的用户偏好模型、EDA概率模型和用户评价代理模型, 提高了评分预测能力和推荐准确性.
2) 在各数据集对比实验中, RBMAEDA优于RBMIGA, RBMIGA优于IEDA, RIEDA-MsH优于RBMAEDA, 说明用户文本评论相比较项目类别标签包含了更多的用户偏好信息, 帮助RIEDA-MsH算法提高了评分预测能力和推荐准确性. 更进一步, AtRIEDA-MsH算法考虑多源异构UGC数据, 利用基于注意力机制RBM模型构建用户偏好模型, 引导个性化搜索, 取得了最优的预测准确性和综合搜索效果.
为了进一步展示本文所提算法的优越性能, 以图形的形式动态展示Music和Games数据集中用户的个性化搜索过程, 如图5和图6所示.
从图中可以看出, 大部分情况下蓝色线代表AtRIEDA-MsH和红色线代表的RIEDA-MsH算法的RMSE值低于其他对比算法, 而HR和AP优于其他算法, 说明本文所提出的算法能够较好地抽取用户偏好特征, 动态跟踪用户偏好, 为当前用户进行有效的个性化推荐, 取得了较好的预测精确性和推荐准确率, 改善了用户体验和满意度.
5. 结束语
针对如何在大数据环境下充分有效利用多源异构UGC数据, 本文提出了融合多源异构数据的增强RBM驱动的IEDA, 并将其应用于个性化搜索这类复杂定性指标优化问题中. 利用多源异构UGC数据, 构建融合多源异构数据的基于注意力机制的RBM用户偏好模型, 帮助用户偏好模型将关注点聚焦于属性信息的重要特征, 有效抽取用户偏好特征, 动态跟踪用户兴趣和偏好. 同时, 以创造良好的用户体验和平台效益为目标, 在IEDA框架下构建用户与个性化搜索算法的交互式过程, 设计了相应的进化优化策略, 通过用户偏好模型所获得的用户认知经验和兴趣偏好动态引导当前用户逐渐搜寻到满意解, 从而有效解决了个性化搜索问题. 在今后的研究工作中, 拟将进一步有效利用图像、视频等信息, 研究融合动态群体智能IECs的个性化搜索算法及其应用, 提供智能化、专属化的用户服务体验.
-
表 1 故障类型描述
Table 1 Description of the selected fault sample sets
Fault Number Fault description Fault type 3 物料 D 的温度的异变 阶跃 4 反应器冷却水入口温度的异变 阶跃 5 泠凝器冷却水入口温度的异变 阶跃 7 物料 C 压力下降 阶跃 表 2 选取不同核参数σ下故障诊断的准确率 (KFD)
Table 2 The fault diagnosis accuracy based on different kernel parameter σ(KFD)
The value of the parameter σ Test accuracy (%) The value of the parameter σ Test accuracy (%) 0.1 25 30 81.25 0.2 30.31 40 80.94 0.8 50 70 53.13 2 66.88 90 51.56 4 75.63 100 45 8 78.44 160 43.75 10 79.38 180 33.44 表 3 利用区间三分法求解最优核参数σ对应的故障诊断的准确率 (KFD)
Table 3 The accuracy of fault diagnosis of optimal kernel parameter by using the interval three-part method (KFD)
迭代次数 对应区间 三分点 1 三分点 2 三分点 3 三分点 4 ${X_1}$ $D({X_1})$ ${X_2}$ $D({X_2})$ ${X_3}$ $D({X_3})$ ${X_3}$ $D({X_4})$ 1 [1, 100] 1 50 % 34 79 % 67 51 % 100 45 % 2 [1, 67] 1 50 % 23 80 % 45 73.8 % 67 51 % 3 [1, 45] 1 50 % 15.7 79.4 % 30.3 81.25 % 45 73.8 % 4 [15.7, 45] 15.7 79.4 % 25.5 80 % 35.2 78.8 % 45 73.8 % 5 [15.7, 35.2] 15.7 79.4 % 22.2 80.3 % 28.7 80.4 % 35.2 78.8 % 6 [22.2, 35.2] 22.2 80.3 % 26.5 80 % 30.9 81.25 % 35.2 78.8 % 表 4 KFD算法和MKFD算法中不同核参数的故障诊断结果
Table 4 The fault diagnosis with different kernel parameters in KFD algorithm and MKFD algorithm
The value of the
parameter σ in KFDTrain
accuracy (%)Test
accuracy (%)The value of the
parameter σ in MKFDTrain
accuracy (%)Test
accuracy (%)0.1 100 25 0.1 100 25 1 100 50 1 100 50 10 99.8 79.4 4 100 76.9 30 99.8 81.3 8 100 99.69 60 70.5 44.7 12 99.9 92.5 90 27.7 25.3 16 99.9 80.6 表 5 选取不同核参数σ下故障诊断的准确率(按照区间三分法做纵向表)
Table 5 The fault diagnosis accuracy based on different kernel parameters σ (Make the longitudinal table according to the interval three-part method)
Ionosphere Breast cancer The value of the parameter σ Test accuracy (%) The value of the parameter σ Test accuracy (%) 1 78.9 1 31.7 34 91.6 149 95.1 49 92 223 94.9 56 92.4 248 95.4 59 92.8 297 95.4 63 92.8 334 95.4 67 92.4 346 95.4 68 92 445 94.6 78 90.8 667 94 100 86.1 1000 93.2 表 6 区间三分法迭代求解最优核参数σ (MKFD)
Table 6 The iterative solution of the optimal kernel parameters σ using interval partition method
迭代次数 对应区间 三分点 1 三分点 2 三分点 3 三分点 4 ${X_1}$ $D({X_1})$ ${X_2}$ $D({X_2})$ ${X_3}$ $D({X_3})$ ${X_3}$ $D({X_4})$ 1 [1, 100] 1 50.9 % 34 60.6 % 67 57.5 % 100 58.1 % 2 [1, 67] 1 50.9 % 23 76.6 % 45 58.1 % 67 57.5 % 3 [1, 45] 1 50 % 15.7 96.3 % 30.3 63.8 % 45 58.1 % 4 [1, 30.3] 1 50 % 10.8 99.69 % 20.5 84.69 % 30.3 63.8 % 5 [1, 20.5] 1 50 % 7.5 99.38 % 14 97.81 % 20.5 84.69 % 6 [1, 14] 1 50 % 5.3 81.56 % 9.7 99.69 % 14 97.81 % 表 7 交叉验证法选取不同核参数σ下故障诊断的准确率(FDGLPP)
Table 7 The fault diagnosis accuracy based on different kernel parameters σ by cross validation method
The value of the
parameter σTest
accuracy (%)The value of the
parameter σTest
accuracy (%)The value of the
parameter σTest
accuracy (%)0.1 25 0.5 68.13 3 55.31 1 52.19 5 75.31 6 79.38 50 28.44 25 25.0 9 99.69 100 41.25 50 28.44 12 25.0 500 39.06 75 34.69 15 55.94 1000 38.75 95 40.0 18 25.0 表 8 四种模型的故障诊断结果与运行时间
Table 8 Fault diagnosis results and running time of the four models
Model Optimal value of parameter σ Test accuracy (%) Test time (s) KFD 30 81.25 3.90072 CKFD 8 97.81 4.14769 FDGLPP 10 99.69 9.30612 MKFD 9 99.69 3.86806 -
[1] 张妮, 车立志, 吴小进. 基于数据驱动的故障诊断技术研究现状及展望. 计算机科学, 2017, 44(S1): 47−52Zhang Ni, Che Li-Zhi, Wu Xiao-Jin. Present situation and prospect of data-driven based fault diagnosis technique. Computer Science, 2017, 44(S1): 47−52 [2] 郭一帆, 唐家银. 基于机器学习算法的寿命预测与故障诊断技术的发展综述. 计算机测量与控制, 2019, 27(3): 13−19Guo Yi-Fan, Tang Jia-Yin. A review of the development of life prediction and fault diagnosis technology based on machine learning algorithm. Computer Measurement & Control, 2019, 27(3): 13−19 [3] Zhang Y, Zhang Y, Zhang J, et al. Collaborative representation cascade for single-image super-resolution. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2017: 1−16 [4] Kock N, Hadaya P. Minimum sample size estimation in PLS‐SEM: The inverse square root and gamma‐exponential methods. Information Systems Journal, 2018, 28(1): 227−261 doi: 10.1111/isj.12131 [5] Maisinger K, Hobson M P, Lasenby A N. A maximum entropy method for reconstructing interferometer maps of fluctuations in the cosmic microwave background radiation. Monthly Notices of the Royal Astronomical Society, 2018, 290(2): 313−326 [6] Hwang J S, Noh J T, Lee S H, et al. Experimental verification of modal identification of a high-rise building using independent component analysis. International Journal of Concrete Structures and Materials, 2019, 13(1): 4 doi: 10.1186/s40069-018-0319-7 [7] 胡志新. 基于深度学习的化工故障诊断方法研究. 杭州电子科技大学, 中国, 2018Hu Zhi-Xin. Research on Chemical Fault Diagnosis Methods Based on Deep Learning [Master thesis], Hangzhou Dianzi University, China 2018 [8] Mika S, Ratsch G, Weston J, et al. Fisher discriminant analysis with kernel. In: Proceedings of the Neural Networks for Signal Processing IX, the 1999 IEEE Signal Processing Society Workshop. Madison, WI, USA: IEEE, 1999: 41−48 [9] 张曦, 赵旭, 刘振亚, 等. 基于核Fisher子空间特征提取的汽轮发电机组过程监控与故障诊断. 中国电机工程学报, 2007, (20): 1−6 doi: 10.3321/j.issn:0258-8013.2007.20.001Zhang Xi, Zhao Xu, Liu Zhen-Ya, et al. Process monitoring and fault diagnosis of turbine generator unit based on feature extraction in kernel Fisher subspace. Proceedings of the CSEE, 2007, (20): 1−6 doi: 10.3321/j.issn:0258-8013.2007.20.001 [10] 马立玲, 徐发富, 王军政. 一种基于改进核Fisher的故障诊断方法. 化工学报, 2017, 68(3): 1041−1048Ma Li-Ling, Xu Fa-Fu, Wang Jun-Zheng. A fault diagnosis method based on improved kernel Fisher. CIESC Journal, 2017, 68(3): 1041−1048 [11] Chikr-Elmezouar Z, Almanjahie I M, Laksaci A, et al. FDA: strong consistency of the kNN local linear estimation of the functional conditional density and mode. Journal of Nonparametric Statistics, 2019, 31(1): 175−195 doi: 10.1080/10485252.2018.1538450 [12] 李普煌, 李敏, 范新南, 等. 迭代分析相对密度的高光谱异常检测. 中国图象图形学报, 2018, 23(2): 219−228 doi: 10.11834/jig.170243Li Pu-Huang, Li Min, Fan Xin-Nan, et al. Hyperspectral anomaly detection algorithm based on iterative analysis with relative density. Journal of Image and Graphics, 2018, 23(2): 219−228 doi: 10.11834/jig.170243 [13] 赵忠盖, 刘飞. 基于马氏距离统计监控指标的应用研究. 自动化学报, 2008, 34(4): 493−495Zhao Zhong-Gai, Liu Fei. Application research of statistical monitoring index based on Mahalanobis distance. Acta Automatica Sinica, 2008, 34(4): 493−495 [14] 卫芬. 旋转机械多传感器信息融合智能故障诊断关键技术研究. 哈尔滨工业大学, 中国, 2018Wei Fen. Research on Key Technologies of Intelligent Fault Diagnosis Based on Multi-sensor Information Fusion for Rotating machinery [Ph. D. dissertation]. Harbin Institute of Technology, China, 2018 [15] 杜伟, 房立清, 齐子元. 一种邻域自适应半监督局部Fisher判别分析算法. 计算机应用研究, 2019, 36(1): 105−108Du Wei, Fang Li-Qing, Qi Zi-Yuan. Neighborhood adaptive semi-supervised local Fisher discriminant analysis algorithm. Application Research of Computers, 2019, 36(1): 105−108 [16] 杨武夷, 梁伟, 辛乐, 等. 子空间半监督Fisher判别分析. 自动化学报, 2009, 35(12): 1513−1519 doi: 10.1016/S1874-1029(08)60120-2Yang Wu-Yi, Liang Wei, Xin Le, et al. Subspace semi-supervised Fisher discriminant analysis. Acta Automatica Sinica, 2009, 35(12): 1513−1519 doi: 10.1016/S1874-1029(08)60120-2 [17] 郑建炜, 王万良, 姚晓敏, 等. 张量局部Fisher判别分析的人脸识别. 自动化学报, 2012, 38(9): 1485−1495 doi: 10.3724/SP.J.1004.2012.01485Zheng Jian-Wei, Wang Wan-Liang, Yao Xiao-Min, et al. Face recognition using tensor local Fisher discriminant analysis. Acta Automatica Sinica, 2012, 38(9): 1485−1495 doi: 10.3724/SP.J.1004.2012.01485 [18] 温廷新, 于凤俄. 基于KPCA-Fisher判别分析的煤炭自燃预测研究. 矿业安全与环保, 2018, 45(2): 49−53 doi: 10.3969/j.issn.1008-4495.2018.02.011Wen Ting-Xin, Yu Feng-E. Research on prediction of coal spontaneous combustion based on KPCA-Fisher discriminant analysis. Mining Safety & Environmental Protection, 2018, 45(2): 49−53 doi: 10.3969/j.issn.1008-4495.2018.02.011 [19] Wen T, Jia Y, Huang D, et al. Feature extraction of electronic nose signals using QPSO-based multiple KFDA signal processing. Sensors, 2018, 18(2): 388 doi: 10.3390/s18020388 [20] 刘廷瑞, 常林. 弯扭耦合风力机叶片的准稳态响应及LLTR控制. 振动与冲击, 2018, 37(13): 123−129Liu Ting-Rui, Chang Lin. Quasi-steady response and LLTR control of a wind turbine blade with bending-torsion coupled. Journal of Vibration and Shock, 2018, 37(13): 123−129 [21] Shi H, Liu J, Wu Y, et al. Fault diagnosis of nonlinear and large-scale processes using novel modified kernel Fisher discriminant analysis approach. International Journal of Systems Science, 2016, 47(5): 1−15 [22] 郭金玉, 韩建斌, 李元, 等. 基于局部Fisher判别分析的复杂化工过程故障诊断. 计算机应用研究, 2018, 35(4): 1122−1125 doi: 10.3969/j.issn.1001-3695.2018.04.035Guo Jin-Yu, Han Jian-Bin, Li Yuan, et al. Fault diagnosis of complex chemical process based on local Fisher discriminant analysis. Application Research of Computers, 2018, 35(4): 1122−1125 doi: 10.3969/j.issn.1001-3695.2018.04.035 [23] 林信川, 游贵荣. 基于iBeacon的室内定位算法优化研究. 陕西理工大学学报(自然科学版), 2017, 33(3): 67−73Lin Xin-Chuan, You Gui-Rong. Study on optimization of indoor location algorithm based on iBeacon. Journal of Shanxi University of Technology (Natural Science Edition), 2017, 33(3): 67−73 [24] Liu C, Sun Y. The research and application of learning program in adaptive learning system. Applied Mechanics & Materials, 2014, 347-350: 3109−3113 [25] 孟亚辉. 基于最优特征集和马氏距离KNN分类的机械故障分类方法研究. 机械设计与制造, 2017, (7): 104−108Meng Ya-Hui. A method of mechanical fault classification based on optimal feature subset and K-nearest neighbor using mahalanobis distance. Machinery Design & Manufacture, 2017, (7): 104−108 [26] 林升梁, 刘志. 基于RBF核函数的支持向量机参数选择. 浙江工业大学学报, 2007, 35(2): 163−167 doi: 10.3969/j.issn.1006-4303.2007.02.010Lin Sheng-Liang, Liu Zhi. Parameter selection in SVM with RBF kernel function. Journal of Zhejiang University of Technology, 2007, 35(2): 163−167 doi: 10.3969/j.issn.1006-4303.2007.02.010 [27] 魏国, 刘剑, 孙金玮, 等. 基于LS-SVM的非线性多功能传感器信号重构方法研究. 自动化学报, 2008, 34(8): 869−875Wei Guo, Liu Jian, Sun Jin-Wei, et al. Study on nonlinear multifunctional sensor signal reconstruction method based on LS-SVM. Acta Automatica Sinica, 2008, 34(8): 869−875 [28] 黄心汉, 杜克林, 王敏, 等. 基于阻抗控制的动态装配过程仿真研究. 自动化学报, 2000, 26(2): 169−175Huang Xin-Han, Du Ke-Lin, Wang Min, et al. A simulation investigation on dynamic assembly process based on impedance control. Acta Automatica Sinica, 2000, 26(2): 169−175 [29] 张小云, 刘允才. 高斯核支撑向量机的性能分析. 计算机工程, 2003, 29(8): 22−25 doi: 10.3969/j.issn.1000-3428.2003.08.009Zhang Xiao-Yun, Liu Yun-Cai. Performance analysis of support vector machines with Gauss kernel. Computer Engineering, 2003, 29(8): 22−25 doi: 10.3969/j.issn.1000-3428.2003.08.009 [30] Lawn S D, Kerkhoff A D, Burton R, et al. Diagnostic accuracy, incremental yield and prognostic value of determine TB-LAM for routine diagnostic testing for tuberculosis in HIV-infected patients requiring acute hospital admission in South Africa: A prospective cohort. Bmc Medicine, 2017, 15(1): 67 doi: 10.1186/s12916-017-0822-8 [31] 彭泽栋, 冯毅萍, 杨胜蓝, 等. 基于多智能体的TE过程扩展仿真系统设计与实现. 高校化学工程学报, 2019, 33(5): 1195−1205 doi: 10.3969/j.issn.1003-9015.2019.05.022Peng Ze-Dong, Feng Yi-Ping, Yang Sheng-Lan, et al. Design and implementation of extended TE process simulation system based on multi-agent. Journal of Chemical Engineering of Chinese Universities, 2019, 33(5): 1195−1205 doi: 10.3969/j.issn.1003-9015.2019.05.022 [32] Tang Q, Chai Y, Xu J, Fang X. Tang Q, Chai Y, Qu J, et al. Industrial process monitoring based on Fisher discriminant global-local preserving projection. Journal of Process Control, 2019, 81: 76−86 doi: 10.1016/j.jprocont.2019.05.010 期刊类型引用(9)
1. 赵文虎,蔡生宏,王文. 基于KPCA融合Ada Boost-IBOA-ELM模型的TE过程故障诊断. 工业仪表与自动化装置. 2024(04): 102-109 . 百度学术
2. 陈浩田,冯立伟,李元. 基于DLNS-LLE和LSSVM参数优化的工业过程故障诊断. 化工自动化及仪表. 2024(06): 1045-1052+1090 . 百度学术
3. 谢刚,韩秦,聂晓音,石慧,张晓红,田娟. 基于两阶段域泛化学习框架的轴承故障诊断方法. 自动化学报. 2024(11): 2271-2285 . 本站查看
4. 杨璟,郑启明,姚新文,陈光武,王小敏. 基于深度网络的轨道电路暂态特征多补偿电容故障定位. 铁道科学与工程学报. 2023(07): 2653-2663 . 百度学术
5. 李琳琳,李莎莎,DING Steven Xianchun,彭鑫,彭开香. 基于黎曼度量的一类反馈控制系统性能监测与诊断. 自动化学报. 2023(09): 1928-1940 . 本站查看
6. 张敬川,田慧欣. 基于LSTM-DAE的化工故障诊断方法研究. 北京化工大学学报(自然科学版). 2021(02): 108-116 . 百度学术
7. 王璇,王衍学. 修正的潜在结构正交投影的过程监控. 电子测量与仪器学报. 2021(07): 90-97 . 百度学术
8. 邓鑫,王岩松,杨超,郭辉. 基于融合特征的汽车鸣笛声识别方法. 智能计算机与应用. 2021(12): 197-200+19 . 百度学术
9. 施珮,匡亮,唐玥,袁永明,余晓栋. 基于改进SVDD算法的池塘水质数据流异常检测. 农业工程学报. 2021(24): 249-256 . 百度学术
其他类型引用(14)
-