2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于双尺度约束模型的BN结构自适应学习算法

戴晶帼 任佳 董超 杜文才

戴晶帼, 任佳, 董超, 杜文才. 基于双尺度约束模型的BN结构自适应学习算法. 自动化学报, 2021, 47(8): 1988-2001 doi: 10.16383/j.aas.c180226
引用本文: 戴晶帼, 任佳, 董超, 杜文才. 基于双尺度约束模型的BN结构自适应学习算法. 自动化学报, 2021, 47(8): 1988-2001 doi: 10.16383/j.aas.c180226
Dai Jing-Guo, Ren Jia, Dong Chao, Du Wen-Cai. BN structure adaptive learning algorithm based on dual-scale constraint model. Acta Automatica Sinica, 2021, 47(8): 1988-2001 doi: 10.16383/j.aas.c180226
Citation: Dai Jing-Guo, Ren Jia, Dong Chao, Du Wen-Cai. BN structure adaptive learning algorithm based on dual-scale constraint model. Acta Automatica Sinica, 2021, 47(8): 1988-2001 doi: 10.16383/j.aas.c180226

基于双尺度约束模型的BN结构自适应学习算法

doi: 10.16383/j.aas.c180226
基金项目: 

国家国际科技合作专项 2015DFR10510

国家自然科学基金 61562018

国家海洋局南海维权技术与重点实验室开放基金 1704

海口市重点科技计划项目 2017041

详细信息
    作者简介:

    戴晶帼    海南大学信息科学技术学院博士研究生. 主要研究方向为贝叶斯网络, 智能优化.E-mail: djgolivia_edu@126.com

    董超    国家海洋局南海调查技术中心副研究员. 主要研究方向为智能控制.E-mail: dongchaoxj888@126.com

    杜文才    中国澳门城市大学数据科学研究院教授, 海南大学信息科学技术学院教授. 主要研究方向为数据挖掘, 物联网技术. E-mail: wencai@hainu.edu.cn

    通讯作者:

    任佳    海南大学信息科学技术学院教授. 主要研究方向为智能控制, 机器学习. 本文通信作者.E-mail: renjia@hainu.edu.cn

BN Structure Adaptive Learning Algorithm Based on Dual-scale Constraint Model

Funds: 

International Science and Technology Cooperation Projects of China 2015DFR10510

National Natural Science Foundation of China 61562018

Open Foundation of Key Laboratory of Technology and Application for Safeguarding of Marine Rights and Interests 1704

Key Science and Technology Projects of Haikou, Hainan Province 2017041

More Information
    Author Bio:

    DAI Jing-Guo    Ph. D. candidate at the College of Infomation and Technology, Hainan University. Her research interest covers Bayesian network and intelligent optimization

    DONG Chao    Associate professor at South China Sea Marine Engineering surveying Center of State Oceanic Administrtion. His main research interest is intelligent control

    DU Wen-Cai    Professor at the Institute of Data Science, City University of Macau, China and the College of Infomation and Technology, Hainan University. His research interest covers data mining and internet of things

    Corresponding author: REN Jia    Professor at the College of Infomation and Technology, Hainan University. His research interest covers intelligent control and machine learning. Corresponding author of this paper
  • 摘要: 在无先验信息的情况下, 贝叶斯网络(Bayesian network, BN)结构搜索空间的规模随节点数目增加呈指数级增长, 造成BN结构学习难度急剧增加. 针对该问题, 提出基于双尺度约束模型的BN结构自适应学习算法. 该算法利用最大互信息和条件独立性测试构建大尺度约束模型, 完成BN结构搜索空间的初始化. 在此基础上设计改进遗传算法, 在结构迭代优化过程中引入小尺度约束模型, 实现结构搜索空间小尺度动态缩放. 同时, 在改进遗传算法中构建变异概率自适应调节函数, 以降低结构学习过程陷入局部最优解的概率. 仿真结果表明, 提出的基于双尺度约束模型的BN结构自适应学习算法能够在无先验信息的情况下保证BN结构学习的精度和迭代寻优的收敛速度.
    Recommended by Associate Editor ZHU Jun
  • 多模态命名实体识别(Multimodal named entity recognition, MNER)通过挖掘文本、图片、音频和视频等多模态数据中的语义特征, 用于辅助多模态信息抽取.

    自2018年Moon等[1]首次提出多模态命名实体识别方法后, MNER研究备受关注, 如基于视觉注意力方法[2]、字符−单词−图像特征融合方法[3]等. 这些方法通过注意力机制和门控机制挖掘图文特征中的语义互补关系, 增强文本特征语义. 但由于文本特征语义层次较低, 挖掘语义互补关系较为困难, 致使多模态命名实体识别效果不佳. 为了提升文本特征语义, 基于共注意力方法[4]、基于双线性注意力对抗网络方法[5]和基于密集共注意力方法[6]等使用双向长短期记忆递归神经网络, 挖掘文本特征中上下文语义, 实现对文本语义的增强后再进行多模态特征融合. 但由于上述方法使用的均是静态文本特征, 无法有效解决图文语义鸿沟问题. 为此, Yu等[7]使用双向编码器表征法(Bidirectional encoder representations from transformers, BERT)提取动态文本特征, 将其与图像特征进行融合, 从而得到较高质量的多模态文本表示. 目前, 多模态命名实体识别方法研究大多聚焦于多模态特征的深度融合和多模态语义偏差校正2个方面.

    为实现多模态特征的深度融合, 一些研究者认为挖掘多模态特征间关系对多模态特征的对齐和充分融合是关键点. 如Xu等[8]通过跨模态匹配计算图文相似度, 以确定保留的图像信息, 再进行特征融合来获得最终的跨模态表示; Wang等[9]为进一步对齐图文特征, 提出一种挖掘图文特征间的精细化语义关系方法. 此外, 还有一些方法(如基于统一多模态图融合(Unified multimodal graph fusion, UMGF)方法[10]、图文联合命名实体识别方法[11]和基于分层自适应网络方法[12]等)调用多个跨模态注意力机制, 来挖掘模态内部语义关系和模态间语义关系. 以上方法实现了图文特征的充分融合, 但生成的多模态表示中包含了视觉特征中的增益信息, 同时也引入了部分视觉语义噪声, 这导致了多模态语义偏差问题.

    为了校正多模态语义偏差, 一些研究者基于多任务学习方法, 提出联合解码策略, 典型的有基于图像−文本对齐的多模态命名实体识别(Image-text alignments for multimodal named entity recognition, ITA)方法[13]、具有不确定性感知的多模态命名实体识别方法(Uncertainty aware multimodal named entity recognition, UAMNer)[14]、基于多任务学习的多模态命名实体识别方法[15]、场景图驱动的多粒度多任务学习的多模态命名实体识别方法(Scene graph driven multi-granularity multi-task learning for multimodal named entity recognition, M3S)[16]等. 这类方法通过消除多模态特征和文本特征的预测结果差异, 来解决图文语义冲突等因素导致的视觉偏差问题, 但是没有直接对视觉特征进行优化. 为此, Chen等[17]使用动态门控机制优化视觉特征, 并与多模态关系抽取任务联合训练, 从而得到通用性较强的多模态特征; Jia等[18]构建了细粒度视觉特征查询任务来增强图像语义理解; Sun等[19-20]相继提出全局级、特征级的图文关系预测方法, 对视觉特征过滤和筛选后, 与文本特征进行融合; Xu等[21]将图文关系表示为二进制, 当图文关系表示为0, 则丢弃图像, 仅使用文本数据进行信息抽取; Zhao等[22]通过图文对间的语义关系, 收集与当前图文对最相关的图像信息, 来丰富图像语义; Zhou等[23]采用变分自编码器(Variational auto-encoders, VAE), 对图文数据进行统一表示, 以消除图文特征间的语义鸿沟, 并促进多模态特征语义融合.

    综上所述, 现有MNER方法基本实现图文特征融合, 但仍然存在以下2个问题: 1)主要关注单尺度视觉特征与文本特征间语义交互, 而较少关注单尺度视觉特征中存在的语义缺失问题, 也较少关注多尺度视觉特征与文本特征的语义交互关系的挖掘方法研究. 受数据集规模、领域以及训练目标任务的影响, 当在社交领域MNER数据集中使用视觉模型来表示视觉特征时, 视觉语义将被进一步削弱. 2)仅在图文关系和文本特征上约束语义表示, 而未对视觉特征进行语义约束, 会带来语义约束较弱问题.

    为此, 本文提出一种多尺度视觉语义增强的多模态命名实体识别方法(Multi-scale visual seman-tic enhancement for multimodal named entity recognition method, MSVSE). 该方法通过挖掘文本特征和多种视觉特征间的多尺度语义交互关系, 以补全图像语义, 得到多尺度视觉语义特征, 并深度融合图文特征, 得到多尺度视觉语义增强的多模态表示. 多模态表示由多模态视觉表示和多模态文本表示组成. 该方法使用视觉实体分类器对多尺度视觉语义特征进行监督学习, 实现对视觉特征的语义一致性约束; 调用多任务标签解码器挖掘多模态文本表示和文本特征的细粒度语义表示, 通过联合解码来解决语义偏差问题, 进而增强多模态文本表示的通用性, 从而进一步提高命名实体识别准确度.

    MSVSE方法调用多种视觉模型提取多尺度视觉特征, 协同表示图像语义; 通过多模态特征融合模块挖掘文本特征和多尺度视觉特征的语义交互关系, 生成多尺度视觉语义特征, 进行特征融合后, 得到多尺度视觉语义增强的多模态文本表示.

    该方法使用视觉实体分类器对多尺度视觉语义特征进行解码, 以实现多尺度视觉语义特征的语义一致性约束, 从而过滤视觉语义噪声, 并消除图文语义冲突. 使用聚合命名实体识别、实体边界检测、实体类别检测和实体存在性检测4个任务来挖掘多模态文本表示中的细粒度语义, 从而提高预测特征的语义准确性, 便于条件随机场解码. 进一步使用多任务标签解码器, 对多模态文本表示和文本特征进行联合解码, 以解决语义偏差问题, 从而提高命名实体识别准确性. MSVSE模型框架如图1所示.

    图 1  MSVSE模型框架
    Fig. 1  The framework of MSVSE model

    对于输入的图文数据, MSVSE方法的首要工作是使用语言或视觉预训练模型, 提取文本特征和多尺度视觉特征, 得到完备的图文语义表示, 主要包含文本特征提取和多尺度视觉特征提取2个模块.

    对输入句子进行转换, 得到单词嵌入$S = \{[\text{CLS}],\; {{S}_{1}},\; {{S}_{2}},\; \cdots ,\; {{S}_{n-1}},\;[\text{SEP}]\}$, 调用BERT, 提取文本特征${{H}^{ {s}}} = \{H_{\text{0}}^{ {s}},\; H_{\text{1}}^{ {s}},\; \cdots ,\; H_{n-1}^{ {s}}\}$, 可表示为:

    $$ \begin{equation} {{H}^{ {s}}} = \text{BERT}\left( S \right),\;{{H}^{ {s}}}\in {{\bf{R}}^{{n}\times d}} \end{equation} $$ (1)

    式中, $ n $为句子长度, $ d $为特征编码维度.

    分别调用预训练视觉模型Mask-RCNN[24]、图像−字幕(Image-caption, IC)模型[25]、残差神经网络(Residual neural network, ResNet)模型[26], 提取视觉标签、图像描述和区域视觉特征, 协同表示图像语义, 进而解决单尺度视觉特征中图像语义的缺失问题. 多尺度视觉特征分别表示为:

    $$ \begin{equation} G = \text{ResNet}(I) \end{equation} $$ (2)
    $$ \begin{equation} C = \text{Mask-RCNN}(I) \end{equation} $$ (3)
    $$ \begin{equation} D = \text{IC}(I) \end{equation} $$ (4)

    式中, $ I $是图像向量, 区域视觉特征$ {G} $包含$ \tilde{g} $个区域特征的集合, 视觉标签$ C $包含$ \tilde{o} $个单词的集合, 图像描述$ D $是一个包含$ \tilde{d} $个单词的句子.

    多模态特征融合模块依次对多尺度视觉特征进行表示、过滤和动态映射等操作, 以生成多尺度视觉语义特征、多尺度视觉语义前缀. 调用BERT模型, 对文本特征、图像描述和多尺度视觉语义前缀进行联合编码, 得到多尺度视觉语义增强的多模态文本表示和多模态视觉表示. 多模态特征融合过程如图2所示.

    图 2  多模态特征融合模块
    Fig. 2  The multimodal feature fusion module

    通过线性层对区域视觉特征进行投影, 使其与文本特征的特征维度一致, 并使用BERT分别对视觉标签和图像描述进行特征表示. 多尺度视觉特征表示如下:

    $$ \begin{equation} {{V}_{{ {g}^{\prime} }}} = {{W}_{g}}G+{{b}_{g}},\; {{V}_{{ {g}^{\prime} }}}\in {{\bf{R}}^{\tilde{g}\times d}} \end{equation} $$ (5)
    $$ \begin{equation} {{V}_{{ {o}^{\prime} }}}^{{}} = \text{BERT}(C),\; {{V}_{{ {o}^{\prime} }}}^{{}}\in {{\bf{R}}^{\tilde{o}\times d}} \end{equation} $$ (6)
    $$ \begin{equation} {{V}_{{ {d}^{\prime} }}}^{{}} = \text{BERT}(D),\; {{V}_{{ {d}^{\prime} }}}^{{}}\in {{\bf{R}}^{\tilde{d}\times d}} \end{equation} $$ (7)

    式中, $ {{W}_{ {g}}} $和$ {{b}_{ {g}}} $分别表示线性投影层的权重矩阵和偏置参数, $ d $为视觉特征维度. 多尺度视觉特征集合记为$ \{ {{V}_{{ {g}^{\prime} }}} ,\;{{V}_{{ {o}^{\prime} }}}^{{}} ,\; {{V}_{{ {d}^{\prime} }}}^{{}} \} $.

    多尺度视觉特征相较于单尺度视觉特征具有更丰富的潜在语义信息, 但也包含更多的视觉噪声. 因此, 有必要使用自注意力机制和相似度模型来挖掘多尺度视觉特征中的显著对象, 并过滤视觉噪声, 从而得到多尺度视觉语义特征.

    当使用$ {{V}_{i}} $表示多尺度视觉特征集合中的一种单尺度视觉特征, 过滤计算如下:

    $$ \begin{equation} V_{i}^{ {a}} = \text{softmax}\left( \frac{{{[{{W}_{1}}{{V}_{i}}]}^{\text{T}}}[{{W}_{2}}{{V}_{i}}]}{\sqrt{d}} \right){{[{{W}_{3}}{{V}_{i}}]}^{\text{T}}} \end{equation} $$ (8)
    $$ \begin{equation} V_{i}^{ {s}} = \frac{{{H}^{ {s}}}\cdot V_{i}^{ {a}}}{\parallel {{H}^{ {s}}} \parallel \cdot \parallel V_{i}^{ {a}} \parallel} \end{equation} $$ (9)
    $$ \begin{equation} V_{i}^{ {m}} = {{w}_{i}}(V_{i}^{ {s}}\otimes V_{i}^{ {a}})+{{b}_{i}} \end{equation} $$ (10)

    式中, $ {{V}_{i}}\in \{ {{V}_{{ {g}^{\prime} }}},\;{{V}_{{ {o}^{\prime} }}}^{{}} ,\; {{V}_{{ {d}^{\prime} }}}^{{}} \} $, $ {{W}_{1}} $、$ {{W}_{2}} $、$ {{W}_{3}} $分别为自注意力机制的内部query、key、value向量投影层的权重矩阵, $ {{w}_{i}} $、$ {{b}_{i}} $分别表示用于多尺度视觉特征压缩的全连接网络的权重矩阵、偏置参数.

    此外, 本文还调用视觉实体分类器进行语义约束, 以增强多尺度视觉语义特征$ V_{{}}^{{ {m} }} $的语义准确性和约束视觉模态语义的一致性(详见第4.1节).

    过滤后生成的多尺度视觉语义特征$ {{V}^{ {m}}} = \{V_{{ {g}^{\prime}}}^{ {m}}, V_{{ {o}^{\prime}}}^{ {m}},\;V_{{ {d}^{\prime}}}^{ {m}}\} $, $ V_{i}^{ {m}}\in {{\bf{R}}^{z\times d}} $, $ i \in \{ { {g}^{\prime},\; {o}^{\prime},\; {d}^{\prime}} \} $, $ z $表示压缩后的特征数量.

    构建动态映射网络, 针对12个Transformer编码层中注意力的不同语义需求, 动态地对多尺度视觉语义特征进行映射和过滤, 以便生成Transformer各编码层所需的多尺度视觉语义特征, 进而辅助多模态特征的语义融合.

    将全连接神经网络多尺度视觉语义特征$ V_{}^{ {m}} $中的每一个特征$ V_{i}^{ {m}} $投影到视觉前缀空间, 计算公式如下:

    $$ \begin{equation} E_{i}^{ {p}} = W_{i}^{ {p}}V_{i}^{ {m}}+b_{i}^{ {p}} \end{equation} $$ (11)

    式中, $ {W_{i}^{ {p}}} $和$ {b_{i}^{ {p}}} $分别为3个全连接神经网络的权重参数和偏置参数, ${E_{i}^{ {p}}\in {{\bf{R}}^{z\times 2\times h\times {{d}_{u}}}}}$, $2\times h\times {{d}_{u}}$为视觉前缀空间的特征维度, $ h $为多头注意力机制中的注意力头数量, $ {{d}_{u}} $为多头注意力机制的key和value的编码维度.

    使用12层门控网络组成的动态映射网络对多尺度视觉语义特征进行融合, 将$ E_{ }^{ {p}} $映射为多尺度视觉语义前缀. 第$ j $层门控网络表示为:

    $$ \begin{equation} {{\text{gate}}_{j}}(\cdot) = \text{softmax}(\text{ReLU}({{w_{j}^{\prime}}}(\cdot )+{{b_{j}^{\prime}}})) \end{equation} $$ (12)

    式中, $ {w_{j}^{\prime}} $和$ {b_{j}^{\prime}} $为第$ j $个门控网络中全连接神经网络的权重矩阵和偏置参数.

    依次将$ E_{i}^{ {p}} $输入第$ j $层门控网络, 为Transformer编码层中每个注意力头生成门控信号后, 将该门控信号与$ E_{i}^{ {p}} $进行向量乘法运算, 得到$ E_{i}^{ {p}} $的视觉前缀特征. 对第$ j $层的所有视觉前缀特征进行求和, 得到第$ j $层中语义聚合的视觉前缀$ E_{j}^{{kv}} $, 调用$\text{split}$函数切分$ E_{j}^{{kv}} $, 得到第$ j $个视觉前缀的2个值, 分别对应于多头注意力中的key和value, 计算如下:

    $$ \begin{equation} E_{j}^{{kv}} = \sum\limits_{i = \{ {g}^{\prime},\; {o}^{\prime},\; {d}^{\prime} \} }{E_{i}^{{p}}\cdot {{\text{gate}}_{j}}(E_{i}^{{p}})} \end{equation} $$ (13)
    $$ \begin{equation} \left( E_{j}^{k},\;E_{j}^{v} \right) = \text{split}(E_{j}^{kv}) \end{equation} $$ (14)

    式中, $ E_{j}^{{kv}}\in {{\bf{R}}^{{z}\times \text{2}\times {{d}_{{u}}}\times h}} $, $ E_{j}^{k}\in {{\bf{R}}^{h\times {z}\times {{d}_{{u}}}}} $, $ E_{j}^{{v}}\in $ ${{\bf{R}}^{h\times {z}\times {{d}_{{u}}}}} $, $ E_{{}}^{{kv}}\in {{\bf{R}}^{l\times {z}\times {2}\times {{d}_{{u}}}\times h}} $, $ E_{{}}^{k}\in {{\bf{R}}^{l\times h\times {z}\times {{d}_{{u}}}}} $, $ E_{{}}^{{v}}\in {{\bf{R}}^{l\times h\times {z}\times {{d}_{{u}}}}} $. 其中 $ l $为Transformer编码层数.

    为引导文本特征−多尺度视觉特征语义融合, 将多尺度视觉语义前缀作为线索, 使用BERT对视觉描述和文本进行联合编码, 得到多尺度视觉语义增强的多模态视觉特征和多模态文本特征, 表示如下:

    $$ \begin{equation} \left( {{H}^{{v}}},\;{{H}^{{m}}} \right) = \text{BERT}([D; S],\;({{E}^{{k}}},\;{{E}^{{v}}})) \end{equation} $$ (15)

    式中, BERT由12个Transformer编码层组成, 多尺度视觉语义前缀$ ({{E}^{{k}}} $, $ {{E}^{{v}}}) $将按层更新Transfor-mer编码层中的多头注意力权重. 具有多尺度视觉前缀的多头注意力计算公式如下:

    $$ \begin{equation} {{\text{MHA}}_{j}} = \text{softmax}\left( \frac{{{Q}_{j}}[E_{j}^{ {k}}; {{K}_{j}}]}{\sqrt{d}} \right)[E_{j}^{ {v}}; {{V}_{j}}] \end{equation} $$ (16)

    式中, $ {{\text{MHA}}_{j}} $为第$ j $个编码层的多头注意力机制, $ {{Q}_{j}} $、$ {{K}_{j}} $、$ {{V}_{j}} $分别为多头注意力的query、key和value向量. $ [E_{j}^{ {k}}; {{K}_{j}}] $表示将多尺度视觉语义前缀中第$ j $个key与第$ j $个编码层中多头注意力机制key进行拼接, 作为新的key; $ [E_{j}^{{v}}; {{V}_{j}}] $表示将多尺度视觉语义前缀中第$ j $个value与第$ j $个编码层中多头注意力机制value进行拼接, 作为新的value, 用于更新多头注意力机制的权重, 促进多模态语义关系挖掘和特征融合.

    多任务协同处理由视觉实体分类器和多任务标签解码器2个部分组成, 该算法通过视觉实体分类器对多尺度视觉语义特征进行解码, 实现视觉语义一致性表示. 通过多任务标签解码器对多模态文本表示和文本特征进行细粒度语义挖掘和解码, 以获得最优标签.

    本文使用BIO (Begin, inside, outside)实体标注法定义实体标签, 包括人名实体(Person, PER)的开始字符(Begin person, B-PER), 人名实体的内部字符(Inside person, I-PER); 地名实体(Location, LOC)的开始字符(Begin location, B-LOC), 地名实体的内部字符; 机构名实体(Organization, ORG)的开始字符, 机构名实体的内部字符; 非实体(Out-side, O); 杂项(Miscellaneous, MISC). 基于图像语义和文本语义的全局一致性, 将命名实体标签转化为多尺度视觉语义特征的全局视觉实体软标签, 转换规则为设视觉实体集合为$NE\;= {\rm[PER,\; \; LOC},\; {\rm{ORG}},\; {\mathrm{MISC}}]$, 分别对应人名实体识别的F1值、地名实体识别的F1值、机构名实体识别的F1值和MISC识别的F1值. 视觉标签序列$L^{ {E}}\in {{\bf{R}}^{\text{4}\times \text{1}}}$, $L^{ {E}}[i]\;\in [0,\; 1]$, 其中每个值分别表示$ NE $中的对应实体是否存在, 如对于PER, 当文本命名实体标签$ Y $中包含B-PER或I-PER时, $L^{ {E}}[0] = 1$; 否则, $L^{ {E}}[0] = 0$. 视觉标签序列可表示为:

    $$ \begin{equation} {{L}^{E}}[i] = \left\{ \begin{matrix} 1,\;\\ 0,\;\\ \end{matrix} \right.\begin{matrix} NE[i]\in {Y} \\ NE[i]\notin Y \\ \end{matrix}\text{ }\;\;\;i\in \left[ 0,\;1,\;2,\;3 \right] \end{equation} $$ (17)

    使用共享的多层感知机(Multi-layer percep-tron, MLP)对视觉特征进行分类, 调用交叉熵函数$\text{CE}({p},\;{q}) = -\sum\nolimits_{i = 1}^{n}{({p}({{x}_{i}})\ln {q}({{x}_{i}}))}$, 其中${p}$和${q}$为概率分布函数, 计算损失如下:

    $$ \begin{equation} {{\cal{L}}_{\text{VE}}} = \sum\limits_{v\in \{V_{{ {g}^{\prime}}}^{ {m}},\;V_{{ {o}^{\prime}}}^{ {m}},\;V_{{ {d}^{\prime}}}^{ {m}} ,\;{{H}^{ {v}} }\} }{\text{CE}(\text{MLP}(v),\;{{L}^{ {E}}})} \end{equation} $$ (18)

    当$ {{\cal{L}}_{\text{VE}}} $取得最小值时, 说明多尺度视觉语义特征$ \{V_{{ {g}^{\prime}}}^{ {m}},\;V_{{ {o}^{\prime}}}^{ {m}},\;V_{{ {d}^{\prime}}}^{ {m}} ,\;{{H}^{ {v}}}\} $中的每个值均表示与视觉标签序列最相似的标签语义, 即各个视觉特征间具有语义一致性.

    根据实体边界检测、实体类别检测、实体存在性检测任务与命名实体任务间的标签语义转换关系, 构建了$ {{T}_{2}} $、$ {{T}_{5}} $、$ {{T}_{7}} $和$ {{T}_{11}} $四个投影矩阵, 将这四个子任务的预测特征投影到命名实体识别任务预测向量空间, 共同挖掘特征中的细粒度语义, 进而增强预测特征语义的准确度, 便于调用条件随机场进行解码. 多任务标签解码器如图3所示.

    图 3  多任务标签解码器
    Fig. 3  The multi-task label decoder

    调用线性层对输入特征进行预测, 得到四个子任务的预测向量:

    $$ \begin{equation} {{H}_{p}} = {{W}_{p}}H+{{b}_{p}} \end{equation} $$ (19)

    式中, $ H\in {{\bf{R}}^{n \times d}} $为输入特征, $ {{H}_{p}}\in {{\bf{R}}^{n \times p}} $, $p\in [2,\; 5,\; 7,\; 11]$, $ {{W}_{p}} $为线性层的权重矩阵, $ {{b}_{p}} $为线性层的偏置参数.

    通过投影矩阵$ {{T}_{2}} $、$ {{T}_{5}} $、$ {{T}_{7}} $和$ {{T}_{11}} $, 将对应的$ {{H}_{2}} $、$ {{H}_{5}} $、$ {{H}_{7}} $和$ {{H}_{11}} $转换到命名实体识别任务的预测空间, 使用向量加法运算得到最终的预测向量:

    $$ \begin{equation} {{Y}^{ {H}}} = {{H}_{\text{2}}}\otimes {{T}_{\text{2}}}+{{H}_{\text{5}}}\otimes {{T}_{5}}+{{H}_{7}}\otimes {{T}_{7}}+{{H}_{\text{11}}} \otimes {{T}_{\text{11}}} \end{equation} $$ (20)

    考虑到标签间的依赖关系, 利用条件随机场(Conditional random field, CRF)来标记$ {{Y}^{ {H}}} $. 损失表示如下:

    $$ \begin{equation} {\cal{L}}_{ \text {MTD}}^{ {H}} = \text{CRF}({{Y}^{ {H}}},\;Y) \end{equation} $$ (21)

    式中, $ {{Y}^{ {H}}} $为预测标签, $ Y $为真实标签.

    调用多任务解码对多模态文本表示$ {{H}^{ {m}}} $和文本特征$ {{H}^{ {s}}} $进行联合解码, 得到预测标签和损失表示如下:

    $$ \begin{equation} {\cal{L}}_{\text {MTD}}^{ {m}},\;{{Y}^{ {m}}} = \text{MTD}\left( {{H}^{ {m}}},\;Y \right) \end{equation} $$ (22)
    $$ \begin{equation} {\cal{L}}_{\text {MTD}}^{ {s }},\;{{Y}^{ {s}}} = \text{MTD}\left( {{H}^{ {s}}},\;Y \right) \end{equation} $$ (23)

    式中, $\text{MTD}(\cdot)$表示式(19) ~ (21)的运算集合, 代表多任务标签解码器.

    通过最小化预测标签序列$ {{Y}^{ {m}}} $和$ {{Y}^{ {s}}} $的结果差异, 学习文本特征和多模态文本表示的语义一致性, 以解决语义偏差的问题. 计算如下:

    $$ \begin{equation} {{\cal{L}}_{ \text{KL}}} = \sum\limits_{y\in \left[ {{Y}^{\text{s}}},\;{{Y}^{ {m}}} \right]}{{p}(y|{{Y}^{\text{s}}})} \text{ln} {p}(y|{{Y}^{ {m}}}) \end{equation} $$ (24)

    MSVSE方法的预测标签为$ {{Y}^{ {m}}} $, MSVSE方法的最终损失函数为:

    $$ \begin{equation} {\cal{L}} = {\cal{L}}_{ \text{MTD}}^{ {s}}+{\cal{L}}_{ \text{MTD}}^{ {m}}+{{\cal{L}}_{\text {KL}}}+{{\cal{L}}_{\text {VE}}} \end{equation} $$ (25)

    式中, $ {\cal{L}}_{ \text{MTD}}^{ {s}} $和$ {\cal{L}}_{ \text{MTD}}^{ {m}} $分别表示文本特征和多模态文本表示的预测情况, $ {{\cal{L}}_{ \text{KL}}} $和$ {{\cal{L}}_{ \text{VE}}} $分别表示文本模态和视觉模态中特征语义的一致性情况.

    为了验证MSVSE方法的有效性, 使用pytorch技术搭建实验环境, 在Twitter-2015、Twitter-2017公共多模态命名实体识别数据集上进行实验, 使用评价指标F1值对MSVSE方法进行性能评估. 使用AdamW优化器调整模型参数. 训练轮数设置为30, 批次大小设置为32, 学习率设置为$ 3\times {{10}^{-5}} $.

    为了评估本文方法的有效性, 选择文本特征使用BERT提取的10种MNER模型作为基线模型.

    1)基于多模态小双向编码器表征法(Multimod-al small bidirectional encoder representations from transformers, MSB)的多模态命名实体识别方法[3]模型采用小BERT语言模型对图文特征进行联合编码, 以生成多模态文本表示. 图像特征是包含5个单词的图像分类标签.

    2)基于统一多模态Transformer和实体跨度检测改进的多模态命名实体识别方法 (Improving multimodal named entity recognition via entity span detection with unified multimodal transformer, UMT)[7]模型采用3个跨模态注意力机制挖掘多模态特征间交互作用, 生成多模态文本表示. 引入边界检测任务识别文本特征中的边界语义, 辅助多模态命名实体识别.

    3)基于通用匹配与对齐框架的多模态命名实体识别方法 (A general matching and alignment framework for multimodal named entity recognition, MAF)[8]模型采用跨模态注意力机制来挖掘图文特征的一一对应关系, 实现特征对齐后再生成多模态文本表示.

    4) UMGF模型构建了区域视觉特征和文本特征的图结构表示, 通过多层具有注意力机制的跨模态门控机制来聚合图文语义, 生成多模态文本表示. MAF和UMGF均采用区域视觉特征.

    5) UAMNer模型在文本特征和多模态文本表示上分别构建命名实体识别任务. 引入贝叶斯神经网络计算文本特征中预测标签的不确定性. 使用不确定性较高的文本特征命名实体识别标签替换多模态文本表示的标签, 以得到更为准确的预测标签.

    6) M3S模型提取图像中的场景图特征, 使用图神经网络来聚合图文语义, 生成多模态文本表示.

    7)基于分层视觉前缀融合网络的多模态命名实体识别 (Hierarchical visual prefix fusion network for multimodal entity extraction, HvpNet)[17]模型将层次视觉特征映射为前缀, 调用BERT对文本进行编码, 以生成多模态文本表示.

    8)基于查询的多模态命名实体识别 (Multimod-al named entity recognition with query grounding, MNER-QG)方法[18]通过人工标注视觉特征的细粒度标签, 利用视觉查询任务来优化层次视觉特征, 使其语义表述更为准确; 再采用机器阅读理解的方法融合图文特征.

    9)基于关系增强图卷积网络的多模态命名实体识别(Relation-enhanced graph convolutional network for multimodal named entity recognition, RGCN)[22]模型通过检索得到数据集中与当前图文对相关的多张图片, 以补充视觉语义, 并利用图神经网络和跨模态注意力机制来融合图文特征.

    10) VAE模型使用文本VAE和图像VAE构建多模态变分自动编码器, 以提取图文特征. 基于图文特征的均值和高斯分布等信息引导图文特征语义的融合, 得到多模态文本表示.

    与10种MNER模型进行对比分析, 实验结果如表1所示. 表1中, HvpNet仅包含多模态命名实体识别的实验复现结果, –HvpNet为MSVSE与HvpNet的性能差值.

    表 1  数据集上方法性能比较(%)
    Table 1  Performance comparison of method on dataset (%)
    方法 Twitter-2015 Twitter-2017
    PER LOC ORG MISC F1 PER LOC ORG MISC F1
    MSB 86.44 77.16 52.91 36.05 73.47 84.32
    MAF 84.67 81.18 63.35 41.82 73.42 91.51 85.80 85.10 68.79 86.25
    UMGF 84.26 83.17 62.45 42.42 74.85 91.92 85.22 83.13 69.83 85.51
    M3S 86.05 81.32 62.97 41.36 75.03 92.73 84.81 82.49 69.53 86.06
    UMT 85.24 81.58 63.03 39.45 73.41 91.56 84.73 82.24 70.10 85.31
    UAMNer 84.95 81.28 61.41 38.34 73.10 90.49 81.52 82.09 64.32 84.90
    VAE 85.82 81.56 63.20 43.67 75.07 91.96 81.89 84.13 74.07 86.37
    MNER-QG 85.68 81.42 63.62 41.53 74.94 93.17 86.02 84.64 71.83 87.25
    RGCN 86.36 82.08 60.78 41.56 75.00 92.86 86.10 84.05 72.38 87.11
    HvpNet 85.74 81.78 61.92 40.81 74.33 92.28 84.81 84.37 65.20 85.80
    MSVSE 86.72 81.63 64.08 38.91 75.11 93.24 85.96 85.22 70.00 87.34
    –HvpNet 0.98 –0.15 2.16 –1.90 0.78 0.96 1.15 0.85 4.80 1.54
    下载: 导出CSV 
    | 显示表格

    表1可知, 与使用图文联合编码实现图文特征融合的MSB模型相比, MSVSE在2个数据集上的F1值分别提升了1.64%、3.02%, 可能的原因是MSB仅使用了一种视觉特征, 而MSVSE既调用了多尺度视觉特征协同表示图像语义, 也利用视觉实体分类器对多尺度视觉特征进行监督学习, 进而得到了更为丰富和准确的视觉语义, 解决了视觉语义缺失问题.

    与使用跨模态注意力机制实现图文特征融合的MAF、UMGF等模型相比, MSVSE在2个数据集上的F1值分别平均提升了0.96%、1.46%, 表明相比于堆叠多个跨模态注意力的多模态特征融合模型, 使用多尺度视觉语义前缀优化BERT语言模型能更充分融合图文特征, 从而得到高质量的多模态表示. 此外, 与使用图神经网络的M3S相比, MS-VSE在2个数据集上均取得了良好效果, 再次验证了MSVSE中多模态特征融合方法的高效性.

    与使用视觉前缀进行图文特征融合的基准模型HvpNet相比, 如表1最后一行所示, MSVSE在2个数据集上的多个指标取得了较好性能, 其原因在于多尺度视觉语义前缀相比单一的层次视觉特征含有更为准确和丰富的视觉语义.

    由对比实验可知, 多任务模型(如UMT、UAMNer、MNER-QG和VAE)性能优于单任务模型(如MSB、MAF和UMGF), 这是因为多任务模型解决了视觉偏差问题. 本文方法通过标签对比损失整合了这种能力, 并且通过多任务标签解码器来增强CRF的解码能力. 相比于简单调用CRF或softmax作为解码器的多任务模型, 在2个数据集上, MSVSE的F1值分别平均提升了0.98%、1.38%.

    直接增强或衰减视觉特征对优化视觉语义是有效的, 如MNER-QG和RGCN. MNER-QG方法通过人工标注视觉特征的细粒度视觉语义标签, 以确保层次视觉特征的语义更为准确, 但人工成本较高. RGCN方法通过检索得到数据集上与图文对相关的多张图片, 以补充视觉语义, 但在图片检索和图像特征融合过程中可能存在级联误差. 与RGCN相比, MSVSE在2个数据集上的F1值分别提升了0.11%、0.23%. 这是因为MSVSE方法中构建了视觉实体分类器, 它基于图文对全局语义一致性的假设, 将文本标签迁移转化为图像特征软标签, 减少了人力成本, 避免了语义传递误差, 从而学习了多尺度视觉特征中的模态不变性.

    为了验证MSVSE模型中各组件的有效性, 在Twitter-2015、Twitter-2017数据集上进行消融实验, 以评估自注意力机制、相似度、多任务标签解码器和视觉实体分类器对模型性能的影响. 实验结果如表2所示, 其中“w/o”表示从MSVSE网络中去除对应的模型结构.

    表 2  模型结构消融实验(%)
    Table 2  Structural ablation experiments for the model (%)
    方法Twitter-2015Twitter-2017
    PERLOCORGMISCF1PERLOCORGMISCF1
    MSVSE86.7281.6364.0838.9175.1193.2485.9685.2270.0087.34
    w/o自注意力机制86.4981.2063.2141.5674.8393.0586.5284.3767.3486.79
    w/o相似度86.3381.5963.1540.8474.9192.9486.5984.0768.2486.75
    w/o自注意力机制加相似度86.8081.3863.3239.6274.6792.9785.8784.4167.9686.67
    w/o多任务标签解码器86.4981.7862.6837.6074.6992.9884.8385.0271.6687.14
    w/o视觉实体分类器86.5281.6463.0639.8974.7993.3784.8385.8266.2486.92
    下载: 导出CSV 
    | 显示表格

    表2可知, w/o自注意力机制、w/o相似度模型的性能远低于MSVSE, 表明自注意力机制挖掘到了视觉特征中的显著对象, 并通过视觉特征与文本特征的语义相似关系, 过滤了无关视觉特征或视觉噪声, 从而增强了视觉语义的准确性.

    在2个数据集上, w/o多任务标签解码器的F1值分别下降了0.42%、0.20%, 表明多任务标签解码器能挖掘多模态表征中的实体存在性、实体边界、实体类属等细粒度语义来帮助实体识别. w/o视觉实体分类器的F1值分别下降了0.32%、0.42%, 可能的原因是通过约束多尺度视觉语义特征语义一致性, 有益于增强多模态表示的通用性, 进而提升实体识别性能.

    为了探究联合编码时视觉特征对模型性能的影响, 设置了4组对照实验, 分别是文本、视觉标签加文本、视觉标签加图像描述加文本、图像描述加文本(MSVSE), 在2个数据集上的实验结果如表3所示. 其中“$ \checkmark$”表示MSVSE使用了对应的文本特征或视觉特征, “—”表示MSVSE没有使用对应的特征.

    表 3  联合编码器中视觉特征消融实验(%)
    Table 3  Visual feature ablation experiments in the joint encoder (%)
    文本视觉标签图像描述Twitter-2015Twitter-2017
    PERLOCORGMISCF1PERLOCORGMISCF1
    $ \checkmark$$ \checkmark$86.7281.6364.0838.9175.1193.2485.9685.2270.0087.34
    $ \checkmark$86.7681.6861.2139.4674.7392.9586.2084.6070.8287.11
    $ \checkmark$$ \checkmark$86.8781.7463.7237.8074.8793.0385.7184.4371.7187.16
    $ \checkmark$$ \checkmark$$ \checkmark$86.5181.8562.2038.3674.7293.7385.9684.6270.9787.38
    下载: 导出CSV 
    | 显示表格

    表3可知, 融合了图像描述或视觉标签后, 模型性能有了进一步提升.

    为了探究多尺度视觉语义前缀中不同视觉特征的重要性, 在2个数据集上进行了区域视觉特征、区域视觉特征加视觉标签、区域视觉特征加图像描述、区域视觉特征加图像描述加视觉标签(MS-VSE)四组对比实验, 实验结果如表4所示. 其中“$ \checkmark$”表示MSVSE使用了对应的视觉特征, “—”表示MSVSE没有使用对应特征.

    表 4  多尺度视觉语义前缀中视觉特征消融实验(%)
    Table 4  Visual feature ablation experiments in multi-scale visual semantic prefixes (%)
    区域视觉特征视觉标签图像描述Twitter-2015Twitter-2017
    PERLOCORGMISCF1PERLOCORGMISCF1
    $ \checkmark$$ \checkmark$$ \checkmark$86.7281.6364.0838.9175.1193.2485.9685.2270.0087.34
    $ \checkmark$86.2581.9363.9938.2374.7693.1684.8385.4769.1087.13
    $ \checkmark$$ \checkmark$86.5681.6064.0138.5974.9393.0285.7985.9768.6787.28
    $ \checkmark$$ \checkmark$86.8781.7963.3638.6874.9892.9486.5285.1468.9487.14
    下载: 导出CSV 
    | 显示表格

    表4可知, 不同视觉特征均有不同程度的语义丢失. 因此, 融合了多种视觉特征的语义信息能得到更为准确和更全面的视觉语义, 以生成更高质量的多尺度视觉语义前缀, 从而提升模型性能.

    为了验证不同尺度视觉特征对MNER效果的影响, 使用评价指标F1值作为视觉实体分类任务的评估指标, 分别在Twitter-2015、Twitter-2017数据集上进行了视觉实体分类任务的实验, 用以验证本文采用多尺度视觉特征协同表示的积极作用. 2个数据集上的实验结果分别如图4图5所示.

    图 4  在Twitter-2015上的视觉实体分类性能比较
    Fig. 4  Performance comparison of visual entity classification on Twitter-2015
    图 5  在Twitter-2017上的视觉实体分类性能比较
    Fig. 5  Performance comparison of visual entity classification on Twitter-2017

    图4图5中横坐标表示3种单尺度视觉特征和多尺度视觉特征, 纵坐标表示5个评价指标, 用来评价特定视觉特征下视觉实体语义表示的性能.

    图4图5可以看出, 多尺度视觉特征在5个评价指标上均表现最佳, 说明MSVSE采用的融合多视觉特征协同表示方法可有效地生成语义准确的多模态文本表示.

    多尺度视觉特征协同表示方法在MISC类实体上的识别效果不佳, 其主要原因是多尺度视觉语义前缀传递的是全局视觉语义, 但处理时仅对图像描述和文本进行了联合编码, 而由于视觉描述中MISC类实体的语义评价值为0, 导致MSVSE方法没有融合到细粒度的MISC类实体的语义. 这也进一步解释了表1中本文方法的MISC识别结果比VAE低的原因. 虽然VAE方法通过视觉自编码器或图片检索来丰富视觉信息, 使得MISC类实体的效果较好, 但也带来了PER、LOC和ORG类实体识别效果不佳问题.

    MSVSE对单尺度视觉特征提取中语义丢失问题的解决方法不仅在多尺度特征提取中是有效的, 而且在仅采用单尺度视觉特征提取的场景中也是有效的. 为验证本文模型在单尺度视觉特征提取效果, 在Twitter-2015、Twitter-2017数据集上, 与MSB、MAF和ITA进行对比, 实验结果如表5所示.

    表 5  单尺度视觉特征下方法性能对比(%)
    Table 5  Performance comparison of methods under single scale visual feature (%)
    方法单尺度视觉特征Twitter-2015
    F1
    Twitter-2017
    F1
    MAF区域视觉特征73.4286.25
    MSB图像标签73.4784.32
    ITA视觉标签75.1885.67
    ITA5个视觉描述75.1785.75
    ITA光学字符识别75.0185.64
    MSVSEonly区域视觉特征74.8486.75
    MSVSEonly视觉标签74.6687.17
    MSVSEonly视觉描述74.5687.23
    MSVSEw/o视觉前缀74.8987.08
    MSVSE (本文方法)75.1187.34
    下载: 导出CSV 
    | 显示表格

    表5中, “only视觉标签”表示MSVSE模型仅使用一种视觉特征即视觉标签, 但将其投影为视觉前缀, 以补充图像的全局语义; “w/o视觉前缀”表示仅使用视觉描述这一种视觉特征, 并且不将其投影为视觉前缀.

    表1表5可知, 在仅采用单尺度视觉特征时, 本文MSVSE方法性能超过使用同样特征的MSB、MAF、UMGF、M3S、UMT、UAMNer、VAE和ITA. 但在表5的Twitter-2015数据集上, F1值略低的原因可能是这些方法将视觉特征模型加入训练过程中, 并对视觉特征进行了优化, 从而达到更好结果. 如MNER-QG对局部视觉特征进行了细粒度标注, 用来获取更有效的视觉语义; M3S提取的视觉场景图特征相比图像标签、视觉描述, 包含了更为全面的视觉实体信息和视觉实体间关系信息; VAE通过编码器来优化视觉特征; RGCN利用多模态图文检索方法获取6个图像数据来表示视觉语义; ITA采用5个图像描述表示图像语义.

    由“w/o视觉前缀”实验结果可知, 当去除MS-VSE的视觉前缀时, 在2个数据集上的性能均下降. 其原因在于视觉前缀聚合了多尺度视觉特征中的全局语义, 这有利于辅助引导BERT模型在联合编码中生成高质量的多模态文本表示; 融合了多种视觉特征的语义信息, 能得到更为准确和全面的视觉语义, 进而生成高质量的多尺度视觉语义前缀, 进一步提升了模型性能.

    在Twitter-2015、Twitter-2017数据集上进行实验, 通过F1值评估不同学习率对MSVSE模型性能的影响, 实验结果如表6所示.

    表 6  不同学习率的方法性能对比(%)
    Table 6  Performance comparison of methods under different learning rates (%)
    数据集 学习率($\times\; { {10}^{-5} }$)
    1 2 3 4 5 6
    Twitter-2015 73.4 75.0 75.1 74.8 74.6 74.5
    Twitter-2017 87.1 86.8 87.3 87.5 87.2 87.3
    下载: 导出CSV 
    | 显示表格

    表6可知, 在2个数据集上, 当学习率分别为$ 3\times {{10}^{-5}} $和$ 4\times {{10}^{-5}} $时, F1值取得最优值.

    为了进一步验证模型的复杂性, 进行了模型参数量、单轮训练时间和单轮验证时间对比, 实验结果如表7所示. 表7中除本文MSVSE方法外, 其他方法数据来自文献[27].

    表 7  参数量及时间效率对比
    Table 7  Comparison of parameter number and time efficiency
    方法参数量(MB)训练时间(s)验证时间(s)
    MSB122.9745.803.31
    UMGF191.32314.4218.73
    MAF136.09103.396.37
    ITA122.9765.404.69
    UMT148.10156.738.59
    HvpNet143.3470.369.34
    MSVSE (本文方法)119.2775.817.03
    下载: 导出CSV 
    | 显示表格

    表7可以看出, 本文MSVSE方法的参数量没有增加, 这是因为本文方法中的多尺度视觉特征提取是独立的, 其与BERT共享参数, 而且视觉实体分类器和多任务标签解码器的参数也共享; 与仅使用CRF作为解码器的方法相比, 本文MSVSE方法仅增加了4个线性层用来提取细粒度语义. 与其他方法相比, 本文MSVSE方法的参数量最少, 时间效率也优良.

    文献[27]研究发现, 采用不同预训练语言模型表示文本语义对多模态命名实体识别方法性能有不同影响. 因此, 本文分别选取Glove (Global vector)、BERT、BERT-large、XLMR (Cross-lingual language model and robustly optimized bert pretraining approach)、ChatGPT (Chat generative pre-trained transformer)五种预训练语言模型表示文本特征, 用于评估其所对应的多模态命名实体识别方法Glove-BiLSTM-CRF[7]、BERT-CRF[7]、BERT-large-CRF、XLMR-CRF[13]和Prompting ChatGPT[28]性能, 实验结果如表8所示.

    表 8  基于预训练语言模型的MNER方法性能对比(%)
    Table 8  Performance comparison of MNER method based on pre-trained language model (%)
    方法Twitter-2015Twitter-2017
    Glove-BiLSTM-CRF69.1579.37
    BERT-CRF71.8183.44
    BERT-large-CRF73.5386.81
    XLMR-CRF77.3789.39
    Prompting ChatGPT79.3391.43
    MSVSE75.1187.34
    下载: 导出CSV 
    | 显示表格

    表8可以看出, 随着预训练语言模型的演进, 文本语义表示越来越准确, 促使命名实体识别方法性能随之提升. 然而, 针对多模态命名实体识别方法, 使用的预训练语言模型表示文本语义可能产生歧义, 因此, 可以通过多模态特征融合来校正文本特征语义, 进而提升命名实体识别的准确性. 例如, 相比于BERT或BERT-large预训练语言模型, 本文MSVSE方法表现出了较好性能, 但低于采用XL-MR和ChatGPT方法. 其原因是XLMR和Chat-GPT预训练语言模型具有复杂的神经网络结构并使用了超大规模的数据进行预训练, 能得到更加准确的文本语义, 因此使用该模型的多模态命名实体识别方法的性能较为突出. 相比采用XLMR和ChatGPT方法, 本文方法采用BERT模型, 存在文本语义误差.

    针对现有MNER方法存在图像特征语义缺失和多模态表示语义弱约束问题, 提出多尺度视觉语义增强的多模态命名实体识别方法. 该方法通过挖掘文本特征与多尺度视觉特征间的语义交互关系, 以解决图像特征语义缺失的问题. 利用视觉实体分类器监督多尺度视觉语义特征的生成, 实现视觉特征的实体语义一致性约束. 调用多任务标签解码器对多模态文本表示和文本特征进行预测, 以挖掘特征中的细粒度的实体语义, 来增强预测特征的语义准确性, 从而解决多模态语义偏差问题. 在Twitter-2015、Twitter-2017数据集上, 将该方法与其他10种方法进行对比实验, 实验结果表明, 该方法能较好地识别多模态数据中的命名实体.

    本文通过多尺度视觉特征, 获得了较为全面的视觉语义, 但图像描述等视觉特征仍存在视觉噪声或语义描述错误问题. 在未来研究中, 考虑借助多模态预训练模型来增强文本语义理解, 同时尝试调用视觉大模型BLIP (Bootstrapping language-image pre-training for unified vision-language understanding and generation)、CogView (Cross-modal general view)表示图像语义, 以便得到更为全面、准确的视觉特征, 进而增强视觉语义理解, 提升多模态文本表示质量. 此外, 考虑结合图文特征对齐技术和标签迁移技术, 实现对视觉特征的多粒度监督学习, 以获取视觉特征中的有益信息.


  • 本文责任编委 朱军
  • 图  1  DSC-AL算法框架示意图

    Fig.  1  The framework of DSC-AL algorithm

    图  2  小尺度约束模型工作原理

    Fig.  2  The working principle of small-scale constraint model

    图  3  DSC-AL算法流程图

    Fig.  3  The flowchart of DSC-AL algorithm

    图  4  节点顺序交叉方法

    Fig.  4  The crossover of node order

    图  5  三种标准BN结构示意

    Fig.  5  Three benchmark BNs

    图  6  6种算法在ASIA-1000数据集下的3种性能指标的误差条形图

    Fig.  6  Error bar graph of 3 measures for 6 algorithms on ASIA-1000 data set

    图  7  ASIA-1000下最优结构BIC评分平均值变化曲线

    Fig.  7  The curves of BIC scores for optimal structures on ASIA-1000 data set

    图  8  ASIA-1000下优于上一代种群的个体数平均值变化曲线

    Fig.  8  The curves of number of better individuals on ASIA-1000 data set

    图  9  6种算法在CAR_DIAGNOSIS2-2000数据集下的3种性能指标的误差条形图

    Fig.  9  Error bar graph of 3 measures for 6 algorithms on CAR_DIAGNOSIS2-2000 data set

    图  10  CAR_DIAGNOSIS2-2000下最优结构BIC评分平均值变化曲线

    Fig.  10  The curves of BIC scores for optimal structures on CAR_DIAGNOSIS2-2000 data set

    图  11  CAR_DIAGNOSIS2-2000下优于上一代种群的个体数平均值变化曲线

    Fig.  11  The curves of number of better individuals on CAR_DIAGNOSIS2-2000 data set

    图  12  ALARM-2000下最优结构BIC评分平均值变化曲线

    Fig.  12  The curves of BIC scores for optimal structures on ALARM-2000 data set

    图  13  ALARM-5000下最优结构BIC评分平均值变化曲线

    Fig.  13  The curves of BIC scores for optimal structures on ALARM-5000 data set

    表  1  ASIA模型下不同算法结果对比

    Table  1  Comparisons of different methods on ASIA network

    数据集 算法 IBIC BIC SHD RT BG
    ASIA-1 000 (−2 325.3) DSC-AL −2 375.1 (3.6570) −2 320.5 (2.1782) 1.3667 (0.7184) 103.4270 (17.5317) 29.6667 (25.1812)
    DGA −2 406.9 (15.1353) −2 329.5 (6.8571) 4.9333 (1.2576) 173.9571 (7.9109) 47.2333 (42.1775)
    K2 / −2 342.1 (14.0940) 7.5667 (2.1284) / /
    DSC-AL + RdInit −2 421.9 (19.5248) −2 324.7 (4.7155) 3.8333 (2.0186) 104.3722 (23.3174) 44.7000 (49.7165)
    DSC-AL + FixAlp −2 372.3 (0.2821) −2 320.2 (1.7524) 1.4333 (0.9353) 62.6387 (9.6306) 28.6333 (20.8450)
    DSC-AL + RdAlp −2 374.4 (2.7308) −2 321.7 (3.3730) 2.1667 (1.7237) 85.2060 (7.6515) 39.1000 (28.7250)
    DSC-AL + FixP −2 374.8 (2.9988) −2 322.0 (3.2387) 2.4000 (1.7927) 68.6206 (12.4026) 47.2667 (51.1205)
    下载: 导出CSV

    表  2  CAR DIAGNOSIS2模型下不同算法结果对比

    Table  2  Comparisons of different methods on CAR DIAGNOSIS2 network

    数据集 算法 IBIC BIC SHD RT BG
    CAR DIAGNOSIS2-2000 (−11 922) DSC-AL −13 865 (186.3612) −11 774 (43.2254) 6.8000 (1.1861) 520.6599 (74.8401) 144.0667 (45.2601)
    DGA −15 546 (271.5482) −11 795 (51.1551) 13.2000 (1.7301) 856.7351 (85.2662) 222.7667 (21.2630)
    K2 / −12 111 (198.0365) 23.5667 (5.4752) / /
    DSC-AL + RdInit −15 661 (415.5809) −12 034 (181.5865) 13.8333 (3.0181) 508.8949 (67.7425) 194.5000 (67.9111)
    DSC-AL + FixAlp −13 557 (87.5065) −11 745 (22.6139) 10.7000 (3.0867) 583.9935 (9.6306) 226.6667 (33.6988)
    DSC-AL + RdAlp −13 883 (177.8057) −11 820 (37.1534) 9.9000 (2.0060) 426.4885 (63.1594) 172.5667 (57.0485)
    DSC-AL + FixP −13 860 (143.4086) −11 825 (41.7158) 9.8667 (2.2242) 364.3424 (90.1956) 159.2667 (42.1303)
    下载: 导出CSV

    表  3  ALARM模型下不同算法结果对比

    Table  3  Comparisons of different methods on ALARM network

    数据集 算法 SHD RT BG
    ALARM-2000 (−20 294) DSC-AL 15.1000 (2.7669) 2 898.8 (267.3125) 225.8000 (95.5671)
    DGA 33.5000 (3.5071) 2 910.5 (122.4261) 498.1667 (1.4720)
    BNC-PSO 25.3333 (5.5000) 2 689.1 (153.1974) 267.7778 (63.5227)
    ALARM-5000 (−48 724) DSC-AL 13.5000 (0.9718) 2 322.7 (106.2002) 203.4000 (85.6364)
    DGA 28.6667 (1.2111) 2 435.5 (239.3540) 498.3333 (3.1411)
    BNC-PSO 16.3000 (3.6833) 1616.3 (473.0926) 315.9000 (98.0583)
    下载: 导出CSV
  • [1] Mohammadfam I, Ghasemi F, Kalatpour O, Moghimbeigi A. Constructing a Bayesian network model for improving safety behavior of employees at workplaces. Applied Ergonomics, 2017, 58: 35-47 doi: 10.1016/j.apergo.2016.05.006
    [2] Zarei E, Azadeh A, Khakzad N, Aliabadi M M, Mohammadfam I. Dynamic safety assessment of natural gas stations using Bayesian network. Journal of Hazardous Materials, 2017, 321: 830-840 doi: 10.1016/j.jhazmat.2016.09.074
    [3] Landis W G, Ayre K K, Johns A F, Summers H M, Stinson J, Harris M J, et al. The multiple stressor ecological risk assessment for the mercury-contaminated South River and upper Shenandoah River using the Bayesian network-relative risk model. Integrated Environmental Assessment and Management, 2017, 13(1): 85-99 doi: 10.1002/ieam.1758
    [4] 王静云, 刘三阳, 朱明敏. 基于条件独立测试的链图结构学习算法. 电子学报, 2017, 45(10): 2443-2448 doi: 10.3969/j.issn.0372-2112.2017.10.019

    Wang Jing-Yun, Liu San-Yang, Zhu Ming-Min. Structure learning of chain graphs using the conditional independence tests. Acta Electronica Sinica, 2017, 45(10): 2443-2448 doi: 10.3969/j.issn.0372-2112.2017.10.019
    [5] Madsen A L, Jensen F, Salmerón A, Langseth H, Nielsen T D. A parallel algorithm for Bayesian network structure learning from large data sets. Knowledge-Based Systems, 2017, 117: 46-55 doi: 10.1016/j.knosys.2016.07.031
    [6] Villanueva E, Maciel C D. Efficient methods for learning Bayesian network super-structures. Neurocomputing, 2014, 123: 3-12 doi: 10.1016/j.neucom.2012.10.035
    [7] 邸若海, 高晓光, 郭志高. 小数据集BN建模方法及其在威胁评估中的应用. 电子学报, 2016, 44(6): 1504-1511 doi: 10.3969/j.issn.0372-2112.2016.06.035

    Di Ruo-Hai, Gao Xiao-Guang, Guo Zhi-Gao. The modeling method with Bayesian networks and its application in the threat assessment under small data sets. Acta Electronica Sinica, 2016, 44(6): 1504-1511 doi: 10.3969/j.issn.0372-2112.2016.06.035
    [8] 邸若海, 高晓光, 郭志高. 基于改进BIC评分的贝叶斯网络结构学习. 系统工程与电子技术, 2017, 39(2): 437-444 https://www.cnki.com.cn/Article/CJFDTOTAL-XTYD201702031.htm

    Di Ruo-Hai, Gao Xiao-Guang, Guo Zhi-Gao. Bayesian networks structure learning based on improved BIC scoring. System Engineering and Electronics, 2017, 39(2): 437-444 https://www.cnki.com.cn/Article/CJFDTOTAL-XTYD201702031.htm
    [9] Adabor E S, Acquaah-Mensah G K, Oduro F T. SAGA: a hybrid search algorithm for Bayesian network structure learning of transcriptional regulatory networks. Journal of Biomedical Informatics, 2015, 53: 27-35 doi: 10.1016/j.jbi.2014.08.010
    [10] Masegosa A R, Moral S. An interactive approach for Bayesian network learning using domain/expert knowledge. International Journal of Approximate Reasoning, 2013, 54(8): 1168-1181 doi: 10.1016/j.ijar.2013.03.009
    [11] 高晓光, 叶思懋, 邸若海, 寇振超. 基于融合先验方法的贝叶斯网络结构学习. 系统工程与电子技术, 2018, 40(4): 790-796 https://www.cnki.com.cn/Article/CJFDTOTAL-XTYD201804012.htm

    Gao Xiao-Guang, Ye Si-Mao, Di Ruo-Hai, Kou Zhen-Chao. Bayesian network structures learning based on approach using incoporate priors method. System Engineering and Electronics, 2018, 40(4): 790-796 https://www.cnki.com.cn/Article/CJFDTOTAL-XTYD201804012.htm
    [12] Gasse M, Aussem A, Elghazel H. A hybrid algorithm for Bayesian network structure learning with application to multi-label learning. Expert Systems with Applications, 2014, 41(15): 6755-6772 doi: 10.1016/j.eswa.2014.04.032
    [13] 李明, 张韧, 洪梅, 白成祖. 基于信息流改进的贝叶斯网络结构学习算法. 系统工程与电子技术, 2018, 40(6): 1385-1390 https://www.cnki.com.cn/Article/CJFDTOTAL-XTYD201806028.htm

    Li Ming, Zhang Ren, Hong Mei, Bai Cheng-Zu. Improved structure learning algorithm of Bayesian network based on information flow. System Engineering and Electronics, 2018, 40(6): 1385-1390 https://www.cnki.com.cn/Article/CJFDTOTAL-XTYD201806028.htm
    [14] 刘彬, 王海羽, 孙美婷, 刘浩然, 刘永记, 张春兰. 一种通过节点序寻优进行贝叶斯网络结构学习的算法. 电子与信息学报, 2018, 40(5): 1234-1241 https://www.cnki.com.cn/Article/CJFDTOTAL-DZYX201805031.htm

    Liu Bin, Wang Hai-Yu, Sun Mei-Ting, Liu Hao-Ran, Liu Yong-Ji, Zhang Chun-Lan. Learning Bayesian network structure from node ordering searching optimal. Journal of Electronics and Information Technology, 2018, 40(5): 1234-1241 https://www.cnki.com.cn/Article/CJFDTOTAL-DZYX201805031.htm
    [15] Wong M L, Leung K S. An efficient data mining method for learning Bayesian networks using an evolutionary algorithm-based hybrid approach. IEEE Transactions on Evolutionary Computation, 2004, 8(4): 378-404 doi: 10.1109/TEVC.2004.830334
    [16] 冀俊忠, 张鸿勋, 胡仁兵, 刘椿年. 一种基于独立性测试和蚁群优化的贝叶斯网学习算法. 自动化学报, 2009, 35(3): 281-288 doi: 10.3724/SP.J.1004.2009.00281

    Ji Jun-Zhong, Zhang Hong-Xun, Hu Ren-Bing, Liu Chun-Nian. A Bayesian network learning algorithm based on independence test and ant colony optimization. Acta Automatica Sinica, 2009, 35(3): 281-288 doi: 10.3724/SP.J.1004.2009.00281
    [17] Li B H, Liu S Y, Li Z G. Improved algorithm based on mutual information for learning Bayesian network structures in the space of equivalence classes. Multimedia Tools and Applications, 2012, 60(1): 129-137 doi: 10.1007/s11042-011-0801-6
    [18] Lee J, Chung W, Kim E. Structure learning of Bayesian networks using dual genetic algorithm. IEICE Transactions on Information and Systems, 2008, 91(1): 32-43 http://dl.acm.org/citation.cfm?id=1522665
    [19] Gheisari S, Meybodi M R. BNC-PSO: Structure learning of Bayesian networks by particle swarm optimization. Information Sciences, 2016, 348: 272-289 doi: 10.1016/j.ins.2016.01.090
    [20] Cooper G F, Herskovits E. A Bayesian method for the induction of probabilistic networks from data. Machine Learning, 1992, 9(4): 309-347 http://dl.acm.org/citation.cfm?id=145259
    [21] Robinson, R W. Counting unlabeled acyclic digraphs. In Proceedings of the 5th Australian Conference on Combinatorial Mathematics, Melbourne, Australia: Springer, 1976. 28-43
    [22] de Campos L M, Castellano J G. Bayesian network learning algorithms using structural restrictions. International Journal of Approximate Reasoning, 2007, 45(2): 233-254 doi: 10.1016/j.ijar.2006.06.009
    [23] 刘建伟, 黎海恩, 罗雄麟. 概率图模型学习技术研究进展. 自动化学报, 2014, 40(6): 1025-1044 doi: 10.3724/SP.J.1004.2014.01025

    Liu Jian-Wei, Li Hai-En, Luo Xiong-Lin. Learning technique of probabilistic graphical models: a review. Acta Automatica Sinica, 2014, 40(6): 1025-1044 doi: 10.3724/SP.J.1004.2014.01025
    [24] 汪春峰, 张永红. 基于无约束优化和遗传算法的贝叶斯网络结构学习方法. 控制与决策, 2013, 28(4): 618-622 https://www.cnki.com.cn/Article/CJFDTOTAL-KZYC201304027.htm

    Wang Chun-Feng, Zhang Yong-Hong. Bayesian network structure learning based on unconstrained optimization and genetic algorithm. Control and Decision, 2013, 28(4): 618-622 https://www.cnki.com.cn/Article/CJFDTOTAL-KZYC201304027.htm
    [25] Larrañaga P, Karshenas H, Bielza C, et al. A review on evolutionary algorithms in Bayesian network learning and inference tasks. Information Sciences, 2013, 233: 109-125 doi: 10.1016/j.ins.2012.12.051
    [26] Omara F A, Arafa M M. Genetic algorithms for task scheduling problem. Journal of Parallel and Distributed Computing, 2010, 70(1): 13-22 doi: 10.1016/j.jpdc.2009.09.009
  • 期刊类型引用(4)

    1. 徐艳召,郭靳时. 基于风险传导BN模型的建筑施工安全预警仿真. 计算机仿真. 2024(01): 527-531 . 百度学术
    2. 陈海洋,刘静,刘喜庆,张静. 小数据集下基于DRKDE-ICSO的BN结构学习. 空军工程大学学报. 2024(02): 100-109 . 百度学术
    3. 王杰,周志杰,胡昌华,张朋,赵导. 不确定性信息表示及推理. 控制与决策. 2023(10): 2749-2763 . 百度学术
    4. 吕志刚,李叶,王洪喜,邸若海. 贝叶斯网络的结构学习综述. 西安工业大学学报. 2021(01): 1-17 . 百度学术

    其他类型引用(6)

  • 加载中
  • 图(13) / 表(3)
    计量
    • 文章访问数:  696
    • HTML全文浏览量:  281
    • PDF下载量:  138
    • 被引次数: 10
    出版历程
    • 收稿日期:  2018-04-17
    • 录用日期:  2019-02-25
    • 刊出日期:  2021-08-20

    目录

    /

    返回文章
    返回