2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于自适应LASSO先验的稀疏贝叶斯学习算法

白宗龙 师黎明 孙金玮

刘广灿, 曹宇, 许家铭, 徐波. 基于对抗正则化的自然语言推理. 自动化学报, 2019, 45(8): 1455-1463. doi: 10.16383/j.aas.c190076
引用本文: 白宗龙, 师黎明, 孙金玮. 基于自适应LASSO先验的稀疏贝叶斯学习算法. 自动化学报, 2022, 48(5): 1193−1208 doi: 10.16383/j.aas.c210022
LIU Guang-Can, CAO Yu, XU Jia-Ming, XU Bo. Natural Language Inference Based on Adversarial Regularization. ACTA AUTOMATICA SINICA, 2019, 45(8): 1455-1463. doi: 10.16383/j.aas.c190076
Citation: Bai Zong-Long, Shi Li-Ming, Sun Jin-Wei. Sparse Bayesian learning using adaptive LASSO priors. Acta Automatica Sinica, 2022, 48(5): 1193−1208 doi: 10.16383/j.aas.c210022

基于自适应LASSO先验的稀疏贝叶斯学习算法

doi: 10.16383/j.aas.c210022
基金项目: 中央高校基本科研业务费项目 (IR2021222) 资助
详细信息
    作者简介:

    白宗龙:哈尔滨工业大学仪器科学与工程学院博士研究生. 主要研究方向为稀疏信号恢复, 麦克风阵列信号处理. E-mail: baizongyao@163.com

    师黎明:奥尔堡大学建筑设计与媒体艺术系博士后. 主要研究方向为稀疏信号处理, 语音信号处理. E-mail: ls@create.aau.dk

    孙金玮:哈尔滨工业大学仪器科学与工程学院教授. 主要研究方向为生物信号处理, 主动噪声控制. 本文通信作者. E-mail: jwsun@hit.edu.cn

Sparse Bayesian Learning Using Adaptive LASSO Priors

Funds: Supported by the Fundamental Research Funds for the Central Universities (IR2021222)
More Information
    Author Bio:

    BAI Zong-Long Ph.D. candidate at the School of Instrument Science and Engineering, Harbin Institute of Technology. His research interest covers sparse signal recovery technology, microphone array signal processing

    SHI Li-Ming Postdoctoral at the Create, Aalborg University. His research interest covers sparse signal recovery technology, speech signal processing

    SUN Jin-Wei Professor at the School of Instrument Science and Engineering, Harbin Institute of Technology. His research interest covers biomedical signal processing, active noise control. Corresponding author of this paper

  • 摘要: 为了提高稀疏信号恢复的准确性, 开展了基于自适应套索算子(Least absolute shrinkage and selection operator, LASSO)先验的稀疏贝叶斯学习(Sparse Bayesian learning, SBL)算法研究. 1) 在稀疏贝叶斯模型构建阶段, 构造了一种新的多层贝叶斯框架, 赋予信号中元素独立的LASSO先验. 该先验比现有稀疏先验更有效地鼓励稀疏并且该模型中所有参数更新存在闭合解. 然后在该多层贝叶斯框架的基础上提出了一种基于自适应LASSO先验的SBL算法. 2) 为降低提出的算法的计算复杂度, 在贝叶斯推断阶段利用空间轮换变元方法对提出的算法进行改进, 避免了矩阵求逆运算, 使参数更新快速高效, 从而提出了一种基于自适应LASSO先验的快速SBL算法. 本文提出的算法的稀疏恢复性能通过实验进行了验证, 分别针对不同大小测量矩阵的稀疏信号恢复以及单快拍波达方向(Direction of arrival, DOA)估计开展了实验. 实验结果表明: 提出基于自适应LASSO先验的SBL算法比现有算法具有更高的稀疏恢复准确度; 提出的快速算法的准确度略低于提出的基于自适应LASSO先验的SBL算法, 但计算复杂度明显降低.
  • 自然语言推理(Natural language inference, NLI)又称为文本蕴含识别(Recognizing textual entailment, RTE)[1-2], 是自然语言处理(Natural language processing, NLP)中一个重要的研究问题.自然语言推理是一个确定两个或多个句子之间逻辑关系的任务, 例如:给定一个前提(Premise)和一个假设(Hypothesis), 目标是确定它们之间的逻辑关系是蕴涵、中立还是矛盾. SNLI[3]和Breaking-NLI[4]等一系列高质量、大规模标准数据集的发布推动了自然语言推理的发展, 促进了大量相关研究[5-11], 表 1展示了几个SNLI数据集中的例子.目前基于神经网络的推理模型主要有两类:一类侧重前提和假设分别进行句子嵌入, 然后使用分类器将其组合起来; 另一类不是分别处理两个句子, 而是使用交互注意力机制进行句子之间的交互.本文关注基于句子嵌入的方法, 因为该方法没有限定要求两个句子, 可以延展到更多任务上.

    表 1  SNLI数据集上的三个例子
    Table 1  Three examples from the SNLI dataset
    Premise (前提) Hypothesis (假设) Label (标签)
    A soccer game with multiple males playing. Some men are playing a sport. Entailment
    (译文) 一场有多名男子参加的足球比赛. 有些男人在做运动. 蕴涵
    A person on a horse jumps over a broken down airplane. A person is training his horse for a competition. Neutral
    (译文) 一个人骑着马跳过了一架坏掉的飞机. 为了参加比赛, 一个人正在训练他的马. 中立
    A black race car starts up in front of a crowd of people. A man is driving down a lonely road. Contradiction
    (译文) 一辆黑色赛车在一群人面前启动. 一个男人开着车行驶在荒凉的路上. 矛盾
    下载: 导出CSV 
    | 显示表格

    对自然语言推理广泛的研究使得很多复杂模型在基准数据集上取得了越来越高的表现, 但是最近的研究[11]表明多数模型很少关注前提和假设的句义关系, 而是大量利用句子中个别词之间对立或相似等浅显关系进行推理作答, 更有甚者只是根据假设就可以进行推理.可想而知这些推理模型很难应用到复杂的现实场景中, 它们根据句子中特定词之间的关系进行盲目推理, 比如根据前提中的"expensive"词和假设中的"cheap"词, 简单推理出两个句子是对立关系, 而实际上两句话描述的不是同一件事情, 正确的逻辑关系应该是中立.推理模型过度依赖特定词, 说明模型只是抓住数据集中的语言偏置, 而不是依据前提和假设所表达的句义关系进行逻辑推理.

    一种检测语言偏置对推理模型影响的方式是设计一个仅依赖词编码表示进行推理的模型(为了方便描述, 本文使用WIM (Word inference model)表示仅依赖词编码表示进行推理的模型), 事实上WIM也可以作为一个标准的基线模型.本文提出使用对抗正则化方法来降低语言偏置的影响, 具体方法是让一个标准的推理模型和这个只依赖词编码表示进行推理的对手进行博弈, 以减少语言偏置的影响.在对抗机制下, 一方面训练WIM, 使得该模型尽可能推理正确, 其中WIM模型的词编码表示是由标准推理模型提供; 另一方面训练标准推理模型, 调整它的词编码和句编码部分, 目的是在提高自身推理准确率的同时, 尽量降低WIM模型的性能.在这种新颖的对抗正则化机制下, 优化自然语言推理模型.

    本文提出的模型可以端到端训练, 而且扩展和延伸性比较强.在SNLI和Breaking-NLI数据集上的实验结果表明了该方法的有效性:本文提出的方法在SNLI数据集基于句子嵌入的推理模型中取得了最好的结果, 而且在Breaking-NLI数据集中也取得了领先的表现.

    本文的主要贡献如下: 1)通过多样信息整合, 多层级句子编码, 增强自然语言推理模型对句子的表示能力, 以探索更多语义信息. 2)关注自然语言推理中的语言偏置现象, 并使用对抗正则化方法来解决这个问题, 此外该方法没有增加模型的参数, 不会增加模型测试时的复杂度. 3)通过在SNLI和Breaking-NLI数据集上的实验表明本文提出方法的有效性, 模型推理表现取得了有效的提升.

    目前句子嵌入在自然语言推理的众多方法中得到了广泛的应用, 这些方法背后的基本思想是分别对前提语句和假设语句进行编码, 然后将它们的句子表示结合起来使用神经网络进行分类, 具体结构如图 1所示.在已有的工作中, 很多研究工作使用卷积神经网络(Convolution neural network, CNN)和长短时记忆网络(Long short-time memory, LSTM)作为构建模块, 如Liu等[12]提出基于双向长短时记忆网络(Bidirectional LSTM, BiLSTM)的句子编码结构, Mou等[13]提出基于树的CNN句子编码结构.也有很多使用更加复杂的神经网络进行句子嵌入的研究工作, 如Munkhdalai等[14]提出NSE (Neural semantic encoder)的记忆增强神经网络, 用于自然语言推理任务.最近一些研究者开始探索应用于句子嵌入表示的自注意力机制. Shen等[6]提出DiSAN模型, 该模型没有使用CNN和循环神经网络(Recurrent neural network, RNN), 而是完全依赖于研究者提出的多维注意力和双向自注意力机制. Shen等[15]提出ReSAN (Reinforced self-attention network)模型, 该模型使用强化学习将软注意力和硬注意力融合在一起. Im等[16]提出基于距离的自注意力网络模型, 该模型利用距离掩蔽来关注单词之间的距离, 从而对局部依赖关系进行建模.此外, 还有研究者将胶囊网络中的动态路由机制应用到自然语言推理任务中[17], 并且取得了不错的效果.虽然在自然语言推理中, 句子嵌入方法已经显示出其有效性, 但是也有多项研究表明, 将前提和假设句子对在句子编码期间联合处理, 关注它们之间的复杂交互, 模型会得到更好的结果.然而, 这些交互式的方法不能在很多单个句子处理的任务上直接使用, 也不能像句子嵌入一样直接提供关于句子的语义理解.本文选择基于句子嵌入的体系结构, 以便应用于更多NLP任务.

    图 1  自然语言推理(NLI)整体结构框图
    Fig. 1  The structure of natural language inference (NLI)

    Goodfellow等[18]提出生成对抗网络(Generative adversarial network, GAN)作为一种学习数据分布的新方式.生成对抗网络包含一个生成器$G$和一个判别器$D$, $G$和$D$在一个极小极大的博弈中被同步训练, 优化目标是达到纳什均衡

    $ \begin{align}\label{eq1} &\mathop {\min }\limits_G \mathop {\max }\limits_D V(D, G) = {{\rm E}_{x \sim {p_{\rm data}}}}\left[ {\log D(x)} \right] +\notag\\ &\qquad {{\rm E}_{z \sim {p_z}}}\left[ {\log (1 - D(G(z)))} \right] \end{align} $

    (1)

    其中, 生成器$G$根据从先验分布${p_z}$中采样的隐含输入变量$z$来产生真实的数据, 以愚弄判别器$D$.另一方面, 判别器$D$是一个典型的二元分类器, 它试图去辨别它的输入数据是来自训练集还是来自生成器生成的集合.生成对抗网络通过判别器为生成器提供损失梯度进行训练, 目的是学习一个生成模型, 使该模型的输出满足特定的分布${p_{\rm data}}$.

    生成对抗网络具有强大的模拟复杂分布的能力, 已受到广泛关注, 并且在图像和文本生成等领域演化出很多变体, 取得了大量令人瞩目的效果.如针对对抗网络自身的改进LSGAN[19]和WGAN[20], 对抗网络在图像生成上的应用BicycleGAN[21]和DualGAN[22], 在文本生成上的应用SeqGAN[23]和RankGAN[24]等.最近, 研究人员提出了其他对抗训练的策略[25-26], 以鼓励中间模型表示各种形式的不变性.

    图 2是本文提出的基于对抗正则化的自然语言推理模型框图, 图中上半部分的标准NLI模型对应本文提出的增强的多层级表示推理模型(Enhanced multi-level representations inference model, EMRIM), 下半部分的针对词编码的NLI对手对应前面提到的WIM模型.其中EMRIM模型主要包括词编码器、句编码器、分类器三部分, 该模型通过增强的多层级编码结构探索丰富语言信息.并且本文提出使用对抗正则化方法降低语言偏置的影响, 从而进一步提升模型的推理能力.本文从以下几个方面对提出的方法进行具体描述.

    图 2  基于对抗正则化的自然语言推理模型结构框图
    Fig. 2  The structure of natural language inference model based on adversarial regularization

    丰富的表示信息在自然语言推理中扮演着重要的角色.在我们的模型中, 我们将统筹多种类型的表示, 以更好地挖掘前提和假设句义信息, 这也是这项任务的基本组成部分.首先将前提和假设中的每个单词转换成连续的表示形式, 对词信息进行融合和提取.图 3中展示了词编码的处理方式, 具体包含以下部分:

    图 3  词编码器和句子编码器网络结构
    Fig. 3  Word encoder and sentence encoder network structure

    1) 词嵌入:与之前方法的设置相似, 使用预训练的词向量GloVe[27]将每一个单词映射到向量空间.

    2) 字符嵌入:将卷积神经网络(CNN)应用到每个单词的字符上.实践证明, 该方法对处理集外词(Out of vocabulary, OOV)有一定的帮助[28].

    3) POS和NER标签:使用词性标注(Part-of-speech, POS)和命名实体识别(Named-entity recognition, NER)来获得单词的词性信息和实体信息, 然后每一个单词可以通过查表获得对应的POS嵌入表示和NER嵌入表示.这种方法比常用的独热码包含更多信息.

    4) 精确匹配(Exact match, EM):受机器阅读理解的启发, 使用3个二进制特征来表示这个词是否能与任何词准确匹配, 分别表示原始形式、小写形式和词干形式.

    5) CoVe:通过机器翻译[29]得到词的上下文向量表示, 本文的模型对其进行降维处理, 以减少模型的参数量.

    本文将前面提到的多种词信息串联起来使用, 这样不仅可以从更多角度获得词相关的表示信息, 而且为后续句子编码提供良好的基础表征, 以更准确地理解句子上下文含义, 从而做出合理的推理.

    为了获得句子的语义信息, 将所有向量序列传递给使用BiLSTM和最大池化(Max pooling)的句子编码器.输入一个长度为$T$的序列$({w_1}, {w_2}, {w_3}$, $\cdots $, ${w_T})$, 双向长短时记忆网络的输出是, $\cdots $, ${h_T})$, 序列输出中的每一项计算如下:

    $ \overrightarrow {{h_t}} = \overrightarrow {LST{M_t}} ({w_1}, {w_2}, \cdots , {w_T}) $

    (2)

    $ \overleftarrow {{h_t}} = \overleftarrow {LST{M_t}} ({w_1}, {w_2}, \cdots , {w_T}) $

    (3)

    $ {h_t} = \left[ {\overrightarrow {{h_t}} , \overleftarrow {{h_t}} } \right] $

    (4)

    接下来为了学习每个句子的整体表示, 对序列编码器隐藏层的输出应用最大池化处理, 得到与${h_t}$同维度大小的向量

    $ \begin{align}\label{eq5} x = MaxPooling({h_1}, {h_2}, {h_3}, \cdots , {h_T}) \end{align} $

    (5)

    先进的自然语言推理模型通常将句子编码器实现为多层结构, 鼓励模型模拟复杂函数, 同时捕获复杂的语言结构.此外, 一些研究人员已经证实, 不同层能够提取不同类型的语法和语义信息[30].本文通过设置多层级结构, 探索每一层潜在的语义信息.在推理模型中, 使用基于BiLSTM和Max Pooling的层次化句子编码器, 句子编码器包括三层, 每一层BiLSTM都是将原始输入语句序列作为输入; 而且, 除了第一层BiLSTM之外的其他BiLSTM层, 均使用前一层网络的最终状态来初始化其隐层状态.对每一层BiLSTM的输出进行最大池化, 句子编码的最终输出是每一个最大池化层输出的串联拼接.图 3显示了具体的网络结构.

    句子编码器的输出是前提和假设的固定维度的向量表示$u$和$v$, 然后将它们传递给顶层分类器.在自然语言推理任务中, 顶层分类器一般使用多层感知机(Multilayer perceptron, MLP)和Softmax函数来预测每个类别的概率.本文以多种方式将这两个句子的表示聚合在一起, 并作为多层感知机的输入, 然后把多层感知机的输出传递给Softmax函数, 公式表示如下所示:

    $ x = [u;v;u \odot v;|u - v|] $

    (6)

    $ Output ={\rm Softmax} (MLP(x)) $

    (7)

    其中, $ \odot$表示逐个对应元素相乘, 多层感知机包含两个带有修正线性单元(Rectified linear unit, ReLU)激活函数的隐层.最后通过最小化带有L2正则项的多类交叉熵损失函数, 对整个模型进行端到端训练.

    1) 标准推理模型:给定数据集$D = \{{p_i}, {q_i}, {a_i}\}$, 其中包含前提句${p_i} \in {\cal P}$、假设句${q_i} \in {\cal Q}$、推理标签${a_i}$ $\in$ ${\cal A}$三部分, 自然语言推理任务就是从前提和假设句子中推理出它们的逻辑关系.为了描述方便, 定义词编码器的操作为$G$, 定义句子编码器为$H$, 最后的分类层为$F$, $p$和$q$为数据集$D$中某样本的两个句子, 所以我们的推理模型可以表示为, 首先这两个句子通过词编码器分别得到表示${g_u}$和${g_v}$

    $ {g_u} = G(p) $

    (8)

    $ {g_v} = G(q) $

    (9)

    然后输出的结果经过句编码器的处理得到句子表示$u$和$v$

    $ u = H({g_u}) $

    (10)

    $ v = H({g_v}) $

    (11)

    最后将两者的句子表示传递给顶层分类器预测逻辑关系

    $ \begin{align}\label{eq12} P({\cal A}|p, q) = F(u, v) \end{align} $

    (12)

    现有的自然语言推理模型一般都遵循类似的模式, 通过标准的交叉熵函数进行训练, 通过优化参数最小化损失函数

    $ \begin{align}\label{eq13} {{\cal L}_{NLI}}(G, H, F) = {{\mathbb{E}}_{{\cal P}, {\cal Q}, {\cal A}}}[ - \log (P({a_i}|{p_i}, {q_i}))] \end{align} $

    (13)

    2) WIM:对NLI中关于词的语言偏置强弱直观的度量是模型仅从词编码就可以预测答案的能力.我们将这个模型形式化为一个映射${F_G}$, 如上所述, 我们假设${F_G}$是可微的, 并把从标准推理模型获得的词编码作为输入, 以便${F_G}$可以进行预测

    $ \begin{align}\label{eq14} {P_{{F_G}}}({\cal A}|p, q) = {F_G}({g_u}, {g_v}) \end{align} $

    (14)

    将这个模型参数化为与顶层分类器相似的结构, 只是为了便于后续处理.在其基础上加入了最大池化层.如上所述, 该模型可以用交叉熵函数进行训练

    $ \begin{align}\label{eq15} {{\cal L}_G}(G, {F_G}) = {{\mathbb{E}}_{{\cal P}, {\cal Q}, {\cal A}}}[ - \log ({P_{{F_G}}}({a_i}|{p_i}, {q_i}))] \end{align} $

    (15)

    3) 对抗正则化减少语言偏置:如图 2所示, 本文将标准推理模型和只依赖词编码的推理模型设置为对抗状态, 引入对抗正则化的方法优化自然语言推理模型.其中只依赖词编码的推理模型为了推理成功, 需要学习训练数据集中的语言偏置, 但是因为这种语言偏置忽略了句义信息, 导致标准推理模型推理错误.为了减少语言偏置, 将两个模型设置为对抗状态, 通过修改词编码部分来降低只依赖词编码模型的表现; 同时强化句子编码部分, 以捕获更多上下文信息和语义信息, 从而达到在提升标准推理模型推理表现的同时减少对语言偏置的依赖的目的.可以将这两个模型的对立关系描述为

    $ \begin{align}\label{eq16} \mathop {\min }\limits_{G, H, F} \mathop {\max }\limits_{{F_G}} ({{\cal L}_{NLI}}(G, H, F) - \lambda {{\cal L}_G}(G, {F_G})) \end{align} $

    (16)

    基于对抗正则化的自然语言推理模型的训练过程如下, 首先训练只依赖词编码的推理模型, 该模型的训练目标是最小化其对应的交叉熵损失函数, 但是词编码器$G(\cdot)$不会根据这个梯度信息更新, 这个操作对应了图 2中的梯度拒绝部分.潜在地, 这迫使分类器${F_G}$要基于标准推理模型给出的词编码表示尽可能好地进行推理.然后训练更新标准推理模型, 该模型的梯度信息来自于两部分:一部分是标准推理模型本身对应的交叉熵损失函数; 另一部分来自于只依赖词编码的推理模型负的加权的交叉熵损失函数, 其中分类器${F_G}$的参数是不更新的, 分类器只是起到梯度传递的作用.最后这两个训练过程进行交替训练更新, 通过不断对抗博弈, 以到达理想的纳什均衡状态.

    我们使用正则化系数$\lambda $来调控推理模型的性能和语言偏置的权衡. $\lambda $取值较小表明较少的正则化发生, 标准推理模型继续学习语言偏置.另一方面, 当$\lambda $取值较大时, 表示去除较多语言偏置, 可能导致标准推理模型和只依赖词编码的模型的表现都不好; 此外权重过大会加重对词编码的影响, 以至于词编码器没有能力学习合理的词表示, 从而进一步影响句子表征等高层表示.所以要设置合适的权重来权衡两者之间的重要性.

    我们在SNLI和Breaking-NLI数据集上验证本文的方法.

    SNLI (Stanford natural language inference)[3]数据集大约有57万人工标注的句子对, 该数据集比其他同类数据集大两个数量级.其中前提数据来源于Flickr30k语料库中的字幕, 而假设句数据和标签是人工合成的.数据集提供的标签分别是"entailment", "neutral", "contradiction", "-".其中"-"表示注释者之间无法达成共识.遵照Bowman等[3]提出的方式删除标签为"-"的句子对, 然后生成训练集、验证集和测试集.

    Breaking-NLI[4]数据集是一个自然语言推理的测试集, 包括8 193个前提和假设句子对, 其中前提和假设只是有一个词或短语被替换了, 其他成分是相同的.该数据集被用来测试自然语言推理模型, 推理模型需要一定的词汇和世界知识才能实现合理的表现.

    本文在实验中使用预先训练好的300维的GloVe 840B词向量来初始化词嵌入向量, 词嵌入中的集外词使用[-0.1, 0.1]随机初始化, 在模型训练期间词嵌入向量被不断更新, 以学习适合NLI任务的更有效的表示.我们使用Spacy对单词进行标记并生成POS和NER标签, POS和NER的嵌入维度分别是26和20.所有BiLSTM的隐层大小设置为250, 为了避免过拟合, 在层间使用dropout[31]和层归一化(Layer normalization)[32]处理方法.使用Adam[33]算法优化模型参数, 并设置学习率为0.0001, 权重衰减为$1\times 10^{-8}$.设置批次大小为32, 以进行更多探索.在对抗训练过程中, 两个模型交替训练的频率为$1$ : $1$.在所有方法中都是使用500维的BiLSTM (250维前向LSTM + 250维后向LSTM).

    表 2显示了使用句子嵌入方法的不同模型在SNLI训练集和测试集的结果.我们使用以下几种方法进行实验对比:

    表 2  不同方法在SNLI上的实验结果(%)
    Table 2  Experimental results for different methods on SNLI (%)
    对比方法 模型 训练准确率 测试准确率
    Mou等[13] (2015) 300D Tree-based CNN encoders 83.3 82.1
    Liu等[12] (2016) 600D (300 + 300) BiLSTM encoders 86.4 83.3
    Liu等[12] (2016) 600D BiLSTM encoders with intra-attention 84.5 84.2
    Conneau等[34] (2017) 4096D BiLSTM with max-pooling 85.6 84.5
    Shen等[6] (2017) Directional self-attention network encoders 91.1 85.6
    Yi等[7] (2018) 300D CAFE (no cross-sentence attention) 87.3 85.9
    Im等[16] (2017) Distance-based Self-Attention Network 89.6 86.3
    Kim等[35] (2018) DRCN (-Attn, -Flag) 91.4 86.5
    Talman等[36] (2018) 600D HBMP 89.9 86.6
    Chen等[37] (2018) 600D BiLSTM with generalized pooling 94.9 86.6
    Kiela等[38] (2018) 512D Dynamic Meta-Embeddings 91.6 86.7
    Yoon等[17] (2018) 600D Dynamic Self-Attention Model 87.3 86.8
    Yoon等[17] (2018) Multiple-Dynamic Self-Attention Model 89.0 87.4
    本文方法 BiLSTM_MP 89.46 86.51
    本文方法 EMRIM 92.71 87.36
    本文方法 BiLSTM_MP + AR 89.02 86.73
    本文方法 EMRIM + AR 93.26 $\textbf{87.60}$
    下载: 导出CSV 
    | 显示表格

    1) BiLSTM_MP:该模型的词编码器使用本文提出的多信息融合编码方式, 但是句编码器使用了简单堆叠的三层BiLSTM网络, 并根据最后一层BiLSTM的输出进行最大池化处理, 最后经过顶层分类器得到推理结果.

    2) BiLSTM_MP + AR:该方法是在BiLSTM_ MP基础上使用对抗正则化.

    3) EMRIM:该方法是第2节提出的增强的多层级表示推理模型.

    4) EMRIM + AR:在EMRIM中加入对抗正则化方法.

    表 2显示了本文实验结果与SNLI官方排行榜结果, 根据实验对比, 本文提出的EMRIM方法达到了87.36 %的准确率, 已经接近排行榜中的最好结果87.4 %, 这说明在推理模型中使用多种类型信息增强的词编码器和多层级的句编码器, 确实可以提取更丰富更准确的语义表示, 从而利于模型推理.当分别为标准推理模型BiLSTM_MP和EMRIM增加只依赖词编码进行推理的对抗模型之后, 在不断博弈的进化过程中, 两个标准模型的推理性能进一步提升, BiLSTM_MP + AR比BiLSTM_MP高出约0.22 %的准确率, EMRIM + AR比EMRIM高出约0.24 %的准确率.这表明了本文提出的对抗正则化方法的有效性:该方法可以减少标准推理模型对语言偏置的依赖, 避免依据词间浅显的关系进行盲目推理; 而是强调语义理解, 通过对句义的整体把握做出选择.需要注意的是对抗正则方法没有增加标准推理模型的参数量, 并且不会增加模型测试时的复杂度.

    表 3是不同方法在Breaking-NLI测试集上的实验结果[4], 这些模型都是在SNLI数据集上训练, 然后在Breaking-NLI数据集上测试.实验发现在SNLI测试集上表现不错的ESIM模型, 在这个测试集上的性能急剧下降.本文提出的EMRIM + AR模型在该测试集上取得了目前公开的最高准确率, 这说明本文提出的模型具有良好的词汇知识和世界知识; 通过应用对抗正则化方法, 推理模型在理解词汇的同时, 关注句义表达, 整体把握推理需求, 做出合理推理.

    表 3  不同方法在Breaking-NLI上的测试结果
    Table 3  Experimental results for different methods on Breaking-NLI
    模型 测试准确率(%)
    Decomposable Attention[39] 51.9
    Residual-Stacked-Encoder[40] 62.2
    ESIM[8] 65.6
    KIM[41] 83.5
    EMRIM 88.37
    EMRIM + AR $\textbf{89.96}$
    下载: 导出CSV 
    | 显示表格

    注意到在对抗训练过程中, 随着标准推理模型在SNLI测试集上的表现提升, 只依赖词编码进行推理的模型的性能上升到一定程度之后不再增加, 而且有稍微下降的趋势.这表明对抗优化策略执行得很好, 这也是和我们的直觉是一致的.

    表 4是权重$\lambda$对SNLI测试集推理准确率的影响.根据权重和准确率的变化趋势, 可以得到以下分析.在较高的权值下, 基于词编码的大部分判别信息都已经丢失, 即标准推理模型是通过牺牲自己的性能, 从而降低了只作用于词编码模型的性能, 但是事实上在推理中根据词信息进行判别还是占有一定重要地位的, 不应完全忽略; 另外, 权重过大也导致模型底层学习不到合理的词向量表示, 继而影响模型高层网络对句子编码能力和推理能力.在权值较小时, 标准推理模型的性能相较之前也没有明显提升, 毕竟完全根据词中的判别信息进行推理是片面的, 因为忽略了对句子内容的整体理解和把握, 会导致模型的推理脱离了对应的描述场景, 从而难于做出正确抉择.只有兼顾词中表达的判别信息和句义分析这两方面, 自然语言推理模型才会做出正确的推理.

    表 4  权重$\lambda$对NLI准确率的影响
    Table 4  Impact of weight $\lambda$ on NLI accuracy
    权重值 测试准确率(%)
    0.5 86.90
    0.25 87.14
    0.10 87.60
    0.05 87.35
    0.01 87.39
    下载: 导出CSV 
    | 显示表格

    本文提出增强的多层级表示推理模型, 通过多样信息整合和多层级句子编码, 增强模型对句子的表示能力, 探索更多语义信息.在标准推理模型中引入对抗正则化方法, 通过标准推理模型和只依赖词编码进行推理的模型进行博弈训练, 以减少语言偏置对推理模型的影响, 使模型能够基于上下文进行有效推理.在SNLI和Breaking-NLI数据集上的实验结果验证了本文方法的有效性.在未来的研究工作中, 我们希望将该方法应用到更多任务中去.


  • 1 Oracle特性具体包括模型选择相和性和参数估计渐进正态性. 其含义为, 在一些变量不是提前已知的情况下, 如果算法具有Oracle特性, 那么它能够筛选出正确的预测的概率为1而且能够有效而正确地估计非零估计量.
  • 图  1  基于自适应LASSO先验的SBL框架的因子图

    Fig.  1  The factor graph of the proposed SBL framework using adaptive LASSO priors

    图  2  四种算法的稀疏先验代价函数二维等高线图

    Fig.  2  Two dimensional contour plots of cost functions of different sparse priors

    图  3  本算法在不同参数下稀疏先验代价函数二维等高线图

    Fig.  3  Two dimensional contour plots of cost functions of the proposed sparse priors versus hyperparameters

    图  4  一维信号稀疏恢复图

    Fig.  4  Results for one-dimensional signal recovery

    图  5  实值模型下各算法稀疏恢复准确度与测量数的关系

    Fig.  5  RMSE of different algorithms with the real-value signal model versus length of measurements

    图  6  复值模型下各算法稀疏恢复准确度与测量数的关系

    Fig.  6  RMSE of different algorithms with the complex-value signal model versus length of measurements

    图  7  高维实值信号模型下各算法稀疏恢复准确度与测量数的关系

    Fig.  7  RMSE of different algorithms with the high-dimensional real-value signal model versus length of measurements

    图  8  高维复值信号模型下各算法稀疏恢复准确度与测量数的关系

    Fig.  8  RMSE of different algorithms with the high-dimensional complex-value signal model versus length of measurements

    图  9  实值模型下各算法稀疏恢复准确度与稀疏度的关系

    Fig.  9  RMSE of different algorithms with the real-value signal model versus number of non-zero elements

    图  10  复值模型下各算法稀疏恢复准确度与稀疏度的关系

    Fig.  10  RMSE of different algorithms with the complex-value signal model versus number of non-zero elements

    图  11  高维实值信号模型下各算法稀疏恢复准确度与稀疏度的关系

    Fig.  11  RMSE of different algorithms with the high-dimensional real-value signal model versus number of non-zero elements

    图  12  高维复值信号模型下各算法稀疏恢复准确度与稀疏度的关系

    Fig.  12  RMSE of different algorithms with the high-dimensional complex-value signal model versus number of non-zero elements

    图  13  实值模型下各算法稀疏恢复准确度与信噪比的关系

    Fig.  13  RMSE of different algorithms versus SNR with the real-value signal model

    图  14  复值模型下各算法稀疏恢复准确度与信噪比的关系

    Fig.  14  RMSE of different algorithms versus SNR with the complex-value signal model

    图  15  高维实值信号模型下各算法稀疏恢复准确度与信噪比的关系

    Fig.  15  RMSE of different algorithms versus SNR with the high-dimensional real-value signal model

    图  16  高维复值信号模型下各算法稀疏恢复准确度与信噪比的关系

    Fig.  16  RMSE of different algorithms versus SNR with the high-dimensional complex-value signal model

    图  17  DOA估计的准确度与测量数的关系

    Fig.  17  RMSE of DOA estimation using different algorithms versus number of measurements

    图  18  DOA估计准确度与信噪比的关系

    Fig.  18  RMSE of DOA estimation using different algorithms versus SNR

    表  1  各算法单次运行时间

    Table  1  Time consumptions of different algorithms

    实值信号模型 复值信号模型
    算法 用时(s) 算法 用时(s)
    FastLaplace 0.11 FastSBL 1.54
    aLASSO 1.94 GAMP-SBL 0.51
    FastSBL 0.40 MFOCUSS 0.21
    GAMP-SBL 0.07 HSL-SBL 3.16
    FaLASSO-SBL 0.26 FaLASSO-SBL 0.74
    aLASSO-SBL 0.98 aLASSO-SBL 2.33
    下载: 导出CSV

    表  2  恢复高维信号时各算法单次运行时间

    Table  2  Time consumptions of different algorithms when the dimension of signal is high

    实值信号模型 复值信号模型
    算法 用时(s) 算法 用时(s)
    FastLaplace 0.83 FastSBL 6.95
    aLASSO 5.71 GAMP-SBL 2.17
    FastSBL 3.40 MFOCUSS 2.86
    GAMP-SBL 0.69 HSL-SBL 15.73
    FaLASSO-SBL 1.06 FaLASSO-SBL 4.61
    aLASSO-SBL 8.38 aLASSO-SBL 17.41
    下载: 导出CSV

    表  3  单快拍DOA估计实验各算法单次运行时间

    Table  3  Time consumptions of different algorithms for single snapshot DOA estimation

    算法 用时(s) 算法 用时(s)
    SS-ESPRIT 0.37 HSL-SBL 0.85
    SURE-IR 1.64 FaLASSO-SBL 0.47
    L1-SR 0.91 aLASSO-SBL 0.83
    OGSBL 0.69
    下载: 导出CSV
  • [1] Wang L, Zhao L F, Bi G A,, Wan C R, Zhang L R, Zhang H J. Novel wideband DOA estimation based on sparse Bayesian learning with dirichlet process priors. IEEE Transactions on Signal Processing. 2016, 64(2): 275-289. doi: 10.1109/TSP.2015.2481790
    [2] Xenaki A, Boldt J B, Christensen M G. Sound source localization and speech enhancement with sparse Bayesian learning beamforming. The Journal of the Acoustical Society of America. 2018, 143(6): 3912-3921 doi: 10.1121/1.5042222
    [3] Bai Z L, Sun J W, Jensen J R, Christensen M G. Indoor sound source localization based on sparse Bayesian learning and compressed data. In: Proceedings of the 27th European Signal Processing Conference. A Coruna, Spain: IEEE, 2019. 1−5
    [4] Zheng Y L, Fraysse A, Rodet T. Efficient variational Bayesian approximation method based on subspace optimization. IEEE Transactions on Image Processing. 2015, 24(2): 681-693 doi: 10.1109/TIP.2014.2383321
    [5] 兰诚栋, 林宇鹏, 方大锐, 陈建. 多视点稀疏测量的图像绘制方法. 自动化学报, 2021, 47(4): 882-890

    Lan Cheng-Dong, Lin Yu-Peng, Fang Da-Rui, Chen Jian. Multi-view sparse measurement for image-based rendering method. Acta Automatica Sinica. 2021, 47(4): 882-890
    [6] Zhang M C, Yuan X J, He Z Q. Variance state propagation for structured sparse Bayesian learning. IEEE Transactions on Signal Processing. 2020, 68: 2386-2400 doi: 10.1109/TSP.2020.2983827
    [7] Liu S H, Huang Y M, Wu H, Tan C, Jia J B. Efficient multitask structure-aware sparse Bayesian learning for frequency-difference electrical impedance tomography. IEEE Transactions on Industrial Informatics. 2021, 17(1): 463-472 doi: 10.1109/TII.2020.2965202
    [8] 郭俊锋, 李育亮. 基于学习字典的机器人图像稀疏表示方法. 自动化学报, 2020, 46(4): 820-830

    Guo Jun-Feng, Li Yu-Liang. Sparse representation of robot image based on dictionary learning algorithm. Acta Automatica Sinica. 2020, 46(4): 820-830
    [9] 张芳, 王萌, 肖志涛, 吴骏, 耿磊, 童军, 王雯. 基于全卷积神经网络与低秩稀疏分解的显著性检测. 自动化学报, 2019, 45(11): 2148-2158

    Zhang Fang, Wang Meng, Xiao Zhi-Tao, Wu Jun, Geng Lei, Tong Jun, Wang Wen. Saliency detection via full convolution neural network and low rank sparse decomposition. Acta Automatica Sinica. 2019, 45(11): 2148-2158
    [10] Ojeda A, Kenneth K D, Mullen T. Fast and robust block-sparse Bayesian learning for EEG source imaging. NeuroImage. 2018, 174: 449-462 doi: 10.1016/j.neuroimage.2018.03.048
    [11] Jiao Y, Zhang Y, Chen X, Yin E W, Jin J, Wang X Y, Cichocki A. Sparse group representation model for motor imagery EEG classification. IEEE Journal of Biomedical and Health Informatics. 2019, 23(2): 631-641 doi: 10.1109/JBHI.2018.2832538
    [12] Niu H Q, Gerstoft P, Ozanich E, Li Z L, Zhang R H, Gong Z X, Wang H B. Block sparse Bayesian learning for broadband mode extraction in shallow water from a vertical array. The Journal of the Acoustical Society of America 2020, 147(6): 3729-3739 doi: 10.1121/10.0001322
    [13] Zheng R, Xu X, Ye Z F, Dai J S. Robust sparse Bayesian learning for DOA estimation in impulsive noise environments. Signal Processing. 2020, 171(107500): 1-6
    [14] 曹娜, 王永利, 孙建红, 赵宁, 宫小泽. 基于字典学习和拓展联合动态稀疏表示的SAR目标识别. 自动化学报, 2020, 46(12): 2638-2646

    CAO Na, WANG Yong-Li, SUN Jian-Hong, ZHAO Ning, GONG Xiao-Ze. SAR target recognition based on dictionary learning and extended joint dynamic sparse representation. Acta Automatica Sinica. 2020, 46(12): 2638-2646
    [15] Yang Z, Li J, Stoica P, Xie L H. Sparse methods for direction-of-arrival estimation. Academic Press Library in Signal Processing. London: Academic Press, 2018. 509-581
    [16] Tipping M E, Smola A. Sparse Bayesian learning and the relevance vector machine. The Journal of Machine Learning Research. 2001, 59(1): 211-244
    [17] Babacan S D, Molina R, Katsaggelos A K. Bayesian compressive sensing using laplace priors. IEEE Transactions on Image Processing. 2010, 19(1): 53-63 doi: 10.1109/TIP.2009.2032894
    [18] Zhao L F, Wang L, Bi G A, Yang L. An autofocus technique for high-resolution inverse synthetic aperture radar imagery. IEEE Transactions on Geoscience and Remote Sensing. 2014, 52(10): 6392-6403 doi: 10.1109/TGRS.2013.2296497
    [19] Yang J, Yang Y. Sparse Bayesian DOA estimation using hierarchical synthesis lasso priors for off-grid signals. IEEE Transactions on Signal Processing. 2020, 68: 872-884 doi: 10.1109/TSP.2020.2967665
    [20] Zou H. The adaptive lasso and its oracle properties. Journal of the American Statistical Association. 2006, 101(476): 1418-1429 doi: 10.1198/016214506000000735
    [21] Tipping M E, Faul A C. Fast marginal likelihood maximisation for sparse Bayesian models. In: Proceedings of the Ninth International Workshop on Artificial Intelligence and Statistics. Florida, USA: Springer, 2003. 3−6
    [22] Duan H, Yang L, Fang J, Li H. Fast inverse-free sparse Bayesian learning via relaxed evidence lower bound maximization. IEEE Signal Processing Letters. 2017, 24(6): 774-778 doi: 10.1109/LSP.2017.2692217
    [23] Shoukairi M A, Rao B D. Sparse Bayesian learning using approximate message passing. In: Proceedings of the 48th Asilomar Conference on Signals, Systems and Computers. Pacific Grove, USA: IEEE, 2014. 1957−1961
    [24] Shoukairi M A, Schniter P, Rao B D. A gamp-based low complexity sparse Bayesian learning algorithm. IEEE Transactions on Signal Processing. 2018, 66(2): 294-308 doi: 10.1109/TSP.2017.2764855
    [25] Thomas C K, Slock D. Save - space alternating variational estimation for sparse Bayesian learning. In: Proceedings of IEEE Data Science Workshop. Lausanne, Switzerland: IEEE, 2018. 11−15
    [26] Worley B. Scalable mean-field sparse Bayesian learning. IEEE Transactions on Signal Processing. 2019, 67(24): 6314-6326 doi: 10.1109/TSP.2019.2954504
    [27] Candes E J, Romberg J, Tao T. Robust uncertainty principles: exact signal reconstruction from highly incomplete frequency information. IEEE Transactions on Information Theory. 2006, 52(2): 489-509 doi: 10.1109/TIT.2005.862083
    [28] Wipf D P, Rao B D, Nagarajan S. Latent variable Bayesian models for promoting sparsity. IEEE Transactions on Information Theory. 2011, 57(9): 6236-6255 doi: 10.1109/TIT.2011.2162174
    [29] Figueiredo M A T, Nowak R D, Wright S J. Gradient projection for sparse reconstruction: Application to compressed sensing and other inverse problems. IEEE Journal of Selected Topics in Signal Processing. 2007, 1(4): 586-597 doi: 10.1109/JSTSP.2007.910281
    [30] Xenaki A, Gerstoft P, Mosegaard K. Compressive beamforming. Journal of the Acoustical Society of America. 2014, 136(1): 260-271 doi: 10.1121/1.4883360
    [31] Bishop C M. Pattern recognition and machine learning. New York, USA: Springer-Verlag, 2006. 152−169
    [32] Tzikas D G, Likas A C, Galatsanos N P. The variational approximation for Bayesian inference. IEEE Signal Processing Magazine. 2008, 25(6): 131-146 doi: 10.1109/MSP.2008.929620
    [33] Higham N J. Accuracy and stability of numerical algorithms. Society for Industrial and Applied Mathematics. Philadelphia, USA: Springer, 2002. 67−93
    [34] Pati Y C, Rezaiifar R, Krishnaprasad P S. Orthogonal matching pursuit: recursive function approximation with applications to wavelet decomposition. In: Proceesdings of the Conference on Signals, Systems and Computers. Pacific Grove, USA: IEEE, 2002. 1−5
    [35] Cotter S F, Rao B D, Engan K, Delgado K K. Sparse solutions to linear inverse problems with multiple measurement vectors. IEEE Transactions on Signal Processing. 2005, 53(7): 2477-2488 doi: 10.1109/TSP.2005.849172
    [36] Thakre A, Haardt M, Giridhar K. Single snapshot spatial smoothing with improved effective array aperture. IEEE Signal Processing Letters. 2009, 16(6): 505-508 doi: 10.1109/LSP.2009.2017573
    [37] Raj A G, Mcclellan J H. Single snapshot super-resolution DOA estimation for arbitrary array geometries. IEEE Signal Processing Letters. 2019, 26(1): 119-123 doi: 10.1109/LSP.2018.2881927
    [38] Fang J, Wang F, Shen Y, Li H, Blum R S. Super-resolution compressed sensing for line spectral estimation: An iterative reweighted approach. IEEE Transactions on Signal Processing. 2016, 64(18): 4649-4662 doi: 10.1109/TSP.2016.2572041
    [39] Yang Z, Xie L H, Zhang C. Off-grid direction of arrival estimation using sparse Bayesian inference. IEEE Transactions on Signal Processing. 2013, 61(1): 38-43 doi: 10.1109/TSP.2012.2222378
  • 期刊类型引用(3)

    1. 郑文康,魏志晴,白艳萍,黄嘉俊,禹秀梅,谭秀辉,王鹏. 基于可分离替代函数算法的DOA估计方法. 陕西科技大学学报. 2024(01): 197-205 . 百度学术
    2. 罗军,张顺生. 联合自适应LASSO与块稀疏贝叶斯直接定位方法. 雷达科学与技术. 2024(03): 265-274 . 百度学术
    3. 杨静,韩丽东. 基于改进SSD算法的城市轨道交通多通道闸机控制研究. 计算机测量与控制. 2023(12): 160-166 . 百度学术

    其他类型引用(6)

  • 加载中
  • 图(18) / 表(3)
    计量
    • 文章访问数:  1981
    • HTML全文浏览量:  1099
    • PDF下载量:  400
    • 被引次数: 9
    出版历程
    • 收稿日期:  2021-01-12
    • 录用日期:  2021-04-29
    • 网络出版日期:  2021-06-16
    • 刊出日期:  2022-05-13

    目录

    /

    返回文章
    返回