2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于多注意力机制的维吾尔语人称代词指代消解

杨启萌 禹龙 田生伟 艾山·吾买尔

杨启萌, 禹龙, 田生伟, 艾山·吾买尔.基于多注意力机制的维吾尔语人称代词指代消解.自动化学报, 2020, 47(6): 1412-1421 doi: 10.16383/j.aas.c180678
引用本文: 杨启萌, 禹龙, 田生伟, 艾山·吾买尔.基于多注意力机制的维吾尔语人称代词指代消解.自动化学报, 2020, 47(6): 1412-1421 doi: 10.16383/j.aas.c180678
Yang Qi-Meng, Yu Long, Tian Sheng-Wei, Aishan Wumaier. Anaphora resolution of Uyghur personal pronouns based on multi-attention mechanism. Acta Automatica Sinica, 2021, 47(6): 1412-1421 doi: 10.16383/j.aas.c180678
Citation: Yang Qi-Meng, Yu Long, Tian Sheng-Wei, Aishan Wumaier. Anaphora resolution of Uyghur personal pronouns based on multi-attention mechanism. Acta Automatica Sinica, 2021, 47(6): 1412-1421 doi: 10.16383/j.aas.c180678

基于多注意力机制的维吾尔语人称代词指代消解

doi: 10.16383/j.aas.c180678
基金项目: 

国家自然科学基金 61563051

国家自然科学基金 61662074

国家自然科学基金 61962057

国家自然科学基金重点项目 U2003208

自治区重大科技项目 2020A03004-4

新疆自治区科技人才培养项目 QN2016YX0051

详细信息
    作者简介:

    杨启萌  新疆大学博士研究生. 主要研究方向为自然语言处理.E-mail: yqm_xju@163.com

    田生伟  新疆大学教授. 主要研究方向为自然语言处理和计算机智能技术.E-mail: tianshengwei@163.com

    艾山·吾买尔  新疆大学副教授. 主要研究方向为自然语言处理及机器翻译.E-mail: Hasan1479@xju.edu.cn

    通讯作者:

    禹龙  新疆大学教授. 主要研究方向为计算机智能技术与计算机网络. 本文通信作者. E-mail: yul_xju@163.com

Anaphora Resolution of Uyghur Personal Pronouns Based on Multi-attention Mechanism

Funds: 

National Natural Science Foundation of China 61563051

National Natural Science Foundation of China 61662074

National Natural Science Foundation of China 61962057

Key Program of National Natural Science Foundation of China U2003208

Major Science and Technology Projects in the Autonomous Region 2020A03004-4

Xinjiang Uygur Autonomous Region Scientiflc and Technological Personnel Training Project QN2016YX0051

More Information
    Author Bio:

    YANG Qi-Meng  Ph. D. candidate at Xinjiang University. His main research interest is natural language processing

    TIAN Sheng-Wei  Professor at Xinjiang University. His research interest covers natural language processing and computer intelligence technology

    AISHAN Wumaier  Associate professor at Xinjiang University. His research interest covers natural language processing and machine translation

    Corresponding author: YU Long  Professor at Xinjiang University. Her research interest covers computer intelligence technology and computer networks. Corresponding author of this paper
  • 摘要:

    针对深度神经网络模型学习照应语和候选先行语的语义信息忽略了每一个词在句中重要程度, 且无法关注词序列连续性关联和依赖关系等问题, 提出一种结合语境多注意力独立循环神经网络(Contextual multi-attention independently recurrent neural network, CMAIR) 的维吾尔语人称代词指代消解方法. 相比于仅依赖照应语和候选先行语语义信息的深度神经网络, 该方法可以分析上下文语境, 挖掘词序列依赖关系, 提高特征表达能力. 同时, 该方法结合多注意力机制, 关注待消解对多层面语义特征, 弥补了仅依赖内容层面特征的不足, 有效识别人称代词与实体指代关系. 该模型在维吾尔语人称代词指代消解任务中的准确率为90.79 %, 召回率为83.25 %, F值为86.86 %. 实验结果表明, CMAIR模型能显著提升维吾尔语指代消解性能.

    Recommended by Associate Editor ZHANG Min
  • 指代(Anaphora)作为一种常见的语言现象, 广泛存在于自然语言的表达之中. 它对语言的简化表达、主题的突出性描述和语言表达连贯性起着重要的作用. 对指代成分准确无歧义的消解有助于机器分析和语篇理解[1]. 在语言学中, 指代词称为照应语(Anaphor), 用于指向另一个语言单位, 被指代词称为先行语(Antecedent), 用于被指向的语言单位, 指代消解(Anaphora Resolution)就是确定照应语所指代的先行语的过程[2]. 维吾尔语人称代词指代消解是研究人称代词与句中名词和名词性短语的指代关系, 图 1给出维吾尔语人称代词指代消解例句.

    图 1  维吾尔语人称代词指代消解例句
    Fig. 1  The example of Uyghur personal pronoun anaphora resolution

    如果一个人称代词存在指代关系, 那么它与相关文本中的一个或多个提及的名词或名词性短语关联. 本句中"(吾斯英)" 和"(他)" 存在指代关系, "(布葛热汗)" 和"(他)" 不存在指代关系.

    近年来, 随着深度学习技术在语音识别、计算机视觉、图像识别等领域的重大突破, 学者们尝试将深度学习模型应用于自然语言处理任务中. 例如Kim使用卷积神经网络(Convolutional neural network, CNN)进行句子建模, 解决情感分类任务[3], Irsoy等使用循环神经网络(Recurrent neural network, RNN)进行意见分析[4], Tai等使用长短时记忆网络(Long short term memory network, LSTM)解决情感分类问题[5], 这些基于深度学习的方法在自然语言处理任务中取得了比以往研究更好的分类效果.

    指代消解作为自然语言处理一个重要子任务, 深度学习模型在指代消解中得到广泛的研究. 这些研究关注照应语和候选先行语的语义信息, 应用大量的神经网络模型进行候选先行语预测[6-8]. 目前的研究主要针对中文和英文等具有充足语料库的语种, 对维吾尔语等小语种的研究不够深入, 针对小语种的研究无论是语料标注还是实体识别都需要掌握多级语法知识、语义知识, 甚至相应语言领域知识, 在当前自然语言处理的研究阶段, 要获取和学习研究中所需知识仍比较困难. 人称代词指代消解作为指代消解任务更细粒度的一个分支, 不仅依赖照应语和候选先行语特征信息, 还要关注距离特征和上下文语境信息. 例如句子:

    (因为吾斯英是当代的大学者之一, 所以布葛热汗尊敬他)

    我们普遍认为与照应语距离越近的候选先行语存在指代关系概率越大, 根据候选先行语"(吾斯英)"、"(学者)"和"(布葛热汗)", 很难推断"(吾斯英)" 是否为照应语"(他)"正确的先行语, 在这种情况下, 研究者会错误地判断"(布葛热汗)"为"(他)"的先行语, 因为文本中"(布葛热汗)"与"(他)"距离更近. 但是, 候选先行语"(吾斯英)" 才是照应语"(他)" 正确的先行语. 所以, 人称代词指代消解应该充分考虑候选先行语距离特征和更深层次的语境信息.

    针对以上问题, 本文提出基于多注意力机制的深度学习模型应用于维吾尔语人称代词指代消解任务. 注意力机制最早应用于视觉图像领域, 目的是在神经网络训练过程中将注意力集中到图像的特定部分. Mnih等首次提出在RNN模型上使用注意力机制进行图像分类[9], 验证了注意力机制在图像处理领域的有效性. 随后Bahdanau等将注意力机制应用于机器翻译任务[10], 模型取得了显著的效果并使注意力机制成功应用于自然语言处理领域. 随着研究不断深入, Yin等提出基于注意力机制的卷积神经网络进行句子建模[11], Wang等使用基于注意力机制的LSTM解决细粒度的情感分析问题[12], 这些方法的提出验证了注意力机制结合深度学习模型的有效性.

    本文结合三种注意力机制来构造CMAIR模型: 1)词向量注意力机制: 突出照应语和候选先行语的重要程度, 2)距离注意力机制: 有效表达不同词语对消解结果的贡献度, 3)词性注意力机制: 是句中词和词性的关联. 同时, 本文结合IndRNN构造语境特征, 并将这4种特征作为模型的输入, 可以从多个层面学习词语级和句子级特征信息, 提高指代消解性能.

    本文提出的CMAIR模型使用3种注意力机制和语境特征构建模型, 使模型关注多种特征信息. 最后, 将CMAIR模型在维吾尔语数据集进行实验, 实验结果表明, 本方法取得了比以往研究更好的分类效果. 本文的主要贡献有5方面:

    1) 提出一种结合语境的多注意力独立循环网络(CMAIR)应用在维吾尔语人称代词指代消解任务中, 实验取得了当前研究最好效果;

    2) 本文首次考虑结合语境的深度学习模型, 学习词序关联和依赖关系, 结合语境信息增强了特征表达力;

    3) 本文提出的词向量、词性、距离注意力机制能从三方面获取更深层次的特征信息, 弥补了单注意力机制仅关注内容层面信息的不足;

    4) CMAIR模型结构简单, 具有很强的鲁棒性和泛化能力, 无需额外的句法分析和语义依存分析相关知识;

    5) 提出一种距离识别算法, 能准确计算待消解对距离, 识别不同词在句中重要程度, 使CMAIR可以充分利用距离信息.

    指代消解作为自然语言处理重要子任务, 是细粒度的文本分类任务, 更加关注照应语和候选先行语深层次语义特征, 一直以来都得到众多学者的研究和关注. Soon等首次给出利用机器学习的方法进行指代消解基本步骤, 其思想是把指代消解任务看作二分类问题, 从已标注好的语料库中提取语料的各类词法、语法、语义特征作为消解框架的输入并利用分类器完成指代消解任务[13]; Ng等对Soon等研究进行了改进, 抽取53个特征, 指代消解的效果有显著地改善[14]; Yang等提出将特征方法和聚类相结合, 模型消解性能有较大的提高[15]; 这些方法通过传统的机器学习构造文本语法、句法等特征, 能充分利用文本内容层面特征, 有效进行指代关系识别. 此外, 指代消解在多种语言已得到广泛的研究.

    近年来, 随着深度学习在自然语言处理领域的广泛应用, 许多研究者也利用深度学习方法解决指代消解任务. Chen等针对此问题提出一种深度神经网络模型, 在他们的工作中, 照应语和候选先行语用前馈神经网络编码[16]. Clark等尝试对指代消解的一种神经网络Mention Rank模型的启发式损失函数中的超参数利用强化学习方式进行优化, 提出一种奖励衡量机制, 跟其他方式相比结果突出[17]. Iida等提出一种句内主题指代关系并利用多列卷积神经网络(Multi-column CNN)来预测指代关系, 在多个基准测试中取得了很好的结果[8]. Yin等建立一个深度记忆网络获取零代词和先行语语义关联信息[18]. 这些方法使用深度学习技术来解决指代消解问题, 可以在不需要依存树、句法关系的情况下通过深度神经网络更好地学习文本的深层次特征信息, 取得了比传统机器学习方法更好的分类效果.

    针对维吾尔语指代消解问题, 目前已有学者进行研究. 李敏等提出一种基于栈式自编码深度学习的算法进行维吾尔语名词短语指代消解[19]. 田生伟等挖掘维吾尔语隐含的上下文语义层面特征, 提出利用BiLSTM的深度学习机制进行基于深层语义信息的维吾尔语人称代词指代消解, 维吾尔语人称代词指代消解的F值达到76.86%, 证明了该方法的有效性[20]. 李冬白等通过堆叠多层RBM网络和一层BP网络构建DBN深度网络学习模型, 经过维吾尔语语料库测试, F值达到83.81%, 该方法能有效提升维吾尔语人称代词指代消解性能, 推动了维吾尔语指代消解的研究[21].

    本文提出的CMAIR模型与现有技术的主要区别在于多注意力机制和IndRNN的应用, 我们将指代消解作为多注意力机制和IndRNN环境下关注词语重要程度和学习文本深层次语境特征的过程. 在IndRNN模型的帮助下, CMAIR模型学习以顺序的方式对候选先行语进行分类, 从而做出全局最优的决策.

    独立循环神经网络(IndRNN)是由Li等提出的一种新型网络结构, 不仅可以解决传统RNN所存在的梯度消失和梯度爆炸问题, 还学习长期依赖关系; 此外, 借助ReLU等非饱和激活函数, 训练之后IndRNN更具鲁棒性, 并且通过堆叠多层IndRNN还可以构建比现有RNN更深的网络[22]. 实验结果表明, 与传统的CNN和LSTM相比, 使用IndRNN可以在各种任务中取得更好的结果. IndRNN基本结构如图 2所示.

    图 2  IndRNN结构图
    Fig. 2  The structure diagram of IndRNN

    其中weight和Recurrent + ReLU表示每一时间步对输入的处理步骤, ReLU是激活函数, 为了加速训练, 每层之后插入了批标准化(Batch normalization, BN), 通过堆叠这种基础架构, 可以建立一个深度IndRNN网络. 其用公式可以表示为:

    $$ \begin{equation} h_t = \sigma \left(Wx_{t} + \mu\odot h_{t-1} + b \right) \end{equation} $$ (1)

    其中循环权重$ {\pmb \mu} $是一个向量, $ \odot $表示Hadamard积(对应元素相乘). 同一图层中的每个神经元都与其他神经元不相连, 通过叠加两层或更多层的IndRNN, 可以将神经元连接. 对于第$ n $个神经元, 隐藏层$ h_{n, t} $可以通过以下公式得到:

    $$ \begin{equation} h_{n, t} = \sigma \left(w_{n}x_{t} + u_{n}h_{n, t-1} + b_{n} \right) \end{equation} $$ (2)

    其中$ w_{n} $和$ u_{n} $分别表示第$ n $行的输入权重和当前权重, 每个神经元只接收当前状态隐藏层和输入信息. IndRNN中的每个神经元都有独立的时空特征, 随着参数被共享, RNN被视为多层感知器. 与传统的RNN不同, IndRNN将随时间独立地聚合空间模式.

    由于权重层用来处理输入, 可以将其自然地扩展到其他多个图层中加深处理过程. IndRNN结构简单, 也可以很容易地添加到不同的网络结构中.

    对于分词后长度为$ n $的句子, 保留句中名词、名词短语和人称代词, 去除其他词语, 得到$ s = \{w_{1}, w_{2}, \cdots, w_{i}, \cdots, a_{i}, \cdots, w_{n}\} $, 其中$ w_{i} $为第$ i $个分词, $ a_{i} $为人称代词. 分别把$ s $中词语逐个向前匹配得到待消解对, 例如$ a_{i} $逐个向前匹配得到$ \{a_{i}w_{i-1}, a_{i}w_{i-2}, a_{i}w_{i-3}, \cdots, a_{i}w_{1}, \} $, 本文的任务是针对$ a_{i} $确定其正确对应的先行语, 完成维吾尔语指代消解, 例如句子:

    (因为吾斯英是当代的大学者之一, 所以布葛热汗尊敬他)

    其中"(他)"为人称代词, 充当句中照应语成分, " (吾斯英)"、"(学者)"和" (布葛热汗)"为名词或名词短语, 充当句中候选先行语成分. 本文将分词后的词语映射为一个连续值多维词向量矩阵$ {\bf R}^{K \times V} $, 其中$ K $为词典大小, 即数据集中所有分词的数量, $ V $为每个词向量的维度, 即把一个词映射为$ V $维的词向量$ x^{i} \in {\bf R}^{V} $. 对于上述例句, 本文将照应语分别与句中候选先行语逐个匹配获得指代链{< (吾斯英), (他)>, < (学者), (他)>, < (布葛热汗), (他)>}, 对于长度为$ n $的句子, 本文通过词典$ \{x_{1}, x_{2}, x_{3}, \cdots, x_{n}\} $提取指代链中候选先行语和照应语之间的特征信息来判断指代链指代关系.

    本文通过三种注意力机制充分利用文本语义信息, 输入CNN进行卷积核池化操作提取文本局部特征, 并结合IndRNN挖掘深层次语境信息从而有效完成指代消解任务. 如图 3所示, CMAIR模型主要由5部分组成:

    图 3  多注意力机制IndRNN模型框架图
    Fig. 3  IndRNN model framework with multiple attention mechanisms

    1) 注意力矩阵输入层: 存储三种注意力机制的注意力特征向量信息.

    2) CNN层: 将3种注意力特征向量和hand-crafted特征向量合并为输入特征矩阵, 依次进行卷积和池化操作, 为了使网络模型结构简单化, 本文选用一层卷积的方式进行输入数据提取局部特征, 并使用最大池化进一步降低数据计算复杂度, CNN层可以保留文本丰富的重要局部特征.

    3) IndRNN层: 将长度为$ n $的句子$ s = \{w_{1} $, $ w_{2} $, $ w_{3}, \cdots, $ $ w_{i}, \cdots, w_{n}\} $的词向量依次输入IndRNN中, 其中$ w_{i} $为第$ i $个分词, IndRNN可以学习文本长期依赖关系, 挖掘更深层次语境特征, 用于后续的处理过程.

    4) 全连接层: 用于结合模型中CNN层提取的局部特征和IndRNN提取的语境特征, 形成输入特征向量的综合表示, 并作为输出层的输入.

    5) 输出层: 本文选用$ Softmax $分类器进行分类, 从而确定照应语和候选先行语指代关系. 分类结果中, 对于一个照应语$ Anaphor $和$ n $个候选先行语$ Antecedent $, $ Antecedent_{k}\; (k = 1, 2, \cdots, $ $ n $)为照应语$ Anaphor $正确对应的先行语.

    为了更好地识别候选先行语和人称代词指代关系, 本文使用3种注意力机制使模型从不同层面关注实体重要信息, 并加入IndRNN学习文本长期依赖关系, 挖掘文本语境信息, 获取语境特征, 结合3种注意力机制作为模型的输入, 并在全连接层加入语境特征能有效减少模型复杂度提高指代消解性能.

    表 1所示, 对于长度为$ n $的句子$ s = \{w_{1} $, $ w_{2} $, $ w_{3}, \cdots, w_{i}, \cdots, w_{n} $}, 其中$ w_{i} $为第$ i $个分词, 分别对$ w_{i} $标注句中成分, 并将每个词语映射为$ k $维向量, 对于句子$ s $依次按时序把$ w_{i} $输入IndRNN学习词语长期依赖关系并获取语境特征, 取指代链中候选先行语和照应语两两匹配形成待消解对, 再从词典提取待消解对中候选先行语和照应语词向量、词性向量和距离向量构建3种注意力机制.

    表 1  词语句中成分标注
    Table 1  Component labeling of words in sentences
    下载: 导出CSV 
    | 显示表格

    1) 词向量注意力机制: 提取待消解对中候选先行语、照应语词向量, 并分别与其他词向量矩阵做运算操作得到词向量注意力特征矩阵, 这是待消解对中对于文本内容层面的注意力.

    2) 词性注意力机制: 是词和词性关联的属性, 是对词向量注意力的进一步补充, 可以让模型从另一方面关注待消解对, 从而学到更多隐藏信息.

    3) 距离注意力机制: 该方法是融合待消解对中候选先行语与照应语间隔词语词向量的方式作为待消解对距离表示. 结合其他两种注意力机制可以充分表述句中每个词语的重要程度.

    4) 语境特征: 是句子级的特征表达和注意力机制的补充, 可以学习句中词连续性和长期依赖关系.

    融合3种注意力机制作为模型的输入, 可以从不同角度关注待消解对特征信息, 在全连接层加入语境特征可以更准确表达待消解对关系, 并减小网络复杂度, 从而可以有效识别指代关系, 提高指代消解性能.

    注意力机制是使模型在训练过程中高度关注特定信息, 以达到更好的分类效果. 对于人称代词指代消解任务, 文本内容层面信息最为重要, 多方面关注分析照应语和候选先行语语义信息可提高指代消解性能.

    本文提出词向量注意力机制用于维吾尔语人称代词指代消解任务. 对于完整句子$ s = \{w_{1} $, $ w_{2} $, $ w_{3}, \cdots, w_{i}, \cdots, w_{n} $}, $ w_{i} $为第$ i $个分词, 提取词典中$ w_{i} $词向量矩阵, 再根据式(3)、(4)和其他词向量矩阵做运算操作获取词向量注意力特征矩阵$ C^{\rm T} $.

    $$ \begin{align} &e^{t}_{i} = f_{ATT}\left(Z_{t-1}, v_{i}\right) \end{align} $$ (3)
    $$ \begin{align} & C^{\rm T}_{i, i} = \frac{\exp(e^{t}_{i})}{\sum^{M}_{j = 1}\exp(e^{t}_{j})} \end{align} $$ (4)

    其中$ {\pmb v_{i}} $为分词$ w_{i} $词向量, $ Z_{t-1} $为分词$ w_{i} $在上一时刻$ t-1 $的上下文信息, $ f_{ATT} $为$ softmax $打分函数, 矩阵$ C^{\rm T} $表示每一个词语的重要程度(即概率), 注意力特征矩阵$ C^{\rm T} $可以改写成下式:

    $$ \begin{equation} C^{\rm T}_{i, i} = \alpha \times \frac{\exp(e^{t}_{i})}{\sum^{M}_{j = 1}\exp(e^{t}_{j})} \end{equation} $$ (5)

    其中$ \alpha $为可调参数, 表示每一个词重要程度. 利用得到的注意力特征矩阵和$ w_{i} $词向量矩阵运算即可得到模型输入矩阵:

    $$ \begin{equation} Input^{t}_{i} = x_{i} \oplus C^{\rm T}_{i, i} \end{equation} $$ (6)

    其中$ \oplus $表示拼接操作, 本文采用注意力特征矩阵和原词向量简单拼接操作构建模型输入矩阵.

    照应语和候选先行语内容层面分析是指代消解的关键, 对于候选先行语和照应语在词典中出现频率较低的情况下仅使用词向量注意力机制会降低指代消解准确率. 针对此问题提出一种基于词性注意力机制用于弥补仅关注文本内容层面信息的不足.

    针对句子$ s = \{w_{1} $, $ w_{2} $, $ w_{3}, \cdots, w_{i}, \cdots, w_{n} $}, 本文对句中每个分词词性进行重新标注, 标注结果如表 2所示.

    表 2  词性标注
    Table 2  Part of speech tagger
    下载: 导出CSV 
    | 显示表格

    标注结果是标注词语和词性的组合, 是标注词语和词性的关联, 对于长度为$ n $的句子, 可以将标注结果表示为式(7)的形式, 其中$ w_{i} $是第$ i $个词, $ c_{i} $是词性, $ \oplus $为拼接操作.

    $$ \begin{equation} Z_{1, n} = w_{1} \oplus c_{1}, w_{2} \oplus c_{2}, w_{3} \oplus c_{3}, \cdots, w_{n} \oplus c_{n} \end{equation} $$ (7)

    对于候选先行语是名词短语情况, 由于名词短语包含多个词语, 处理方式和以上不同. 针对这种情况, 本文提取名词短语中所有词语的词向量注意力矩阵, 并按照式(8)的方式获取名词短语词性注意力特征矩阵:

    $$ \begin{equation} Z = \alpha \times \frac{\sum^{n}_{i = 1}f_{ATT}\; (w_{i}\oplus c_{i}) }{n} \end{equation} $$ (8)

    $ \alpha $是名词短语重要程度, 可以手动设置也可以在模型训练过程中自动学习.

    和词向量处理方式一样, 提取所有句中标注结果映射为词性向量矩阵$ {\bf R}^{K \times V} $, 其中$ K $为词典大小, $ V $为每一个词性标注结果映射的词向量维度, 即为词性注意力矩阵. 指代消解对中提取候选先行语和照应语词性注意力矩阵并按照式(3)、(4)获取词性特征注意力矩阵.

    先行语和照应语的距离隐藏着重要信息, 对提高指代消解性能起着关键作用. 本文提出两种距离计算方式, 第一种方式为对于候选先行语$ w_{i} $和照应语$ w_{n} $提取所有间隔词语$ w_{i+1, n-1} $, 提取方式如图 4所示, 并从词典提取$ W $中所有词向量并通过算法1中式(9)运算作为$ w_{i} $与$ w_{n} $距离表示, 其中$ \alpha $为每个词的重要程度.

    图 4  距离计算方式举例
    Fig. 4  Example of distance calculation

    第二种方式为直接计算待消解对词语间隔个数并映射为$ K $维词向量并结合词向量、词性注意力特征矩阵和语境特征作为模型的输入, 本文使用算法1计算不同情况下待消解对距离表示.

    我们普遍认为待消解对中候选先行语和照应语距离越近存在指代关系的概率越大. 对于图 4中的例子, 我们认为" (他)"和"(布葛热汗)"存在指代关系的概率大于" (吾斯英)", 因为" (布葛热汗)"在句中距离"(他)"最近, 但是" (吾斯英)"才是" (他)"正确的先行语. 针对此问题, 本文提出一种距离识别算法用来准确识别待消解对中候选先行语和照应语的距离. 其计算过程如算法1所示.

    算法1. 距离识别算法.

    输入. 长度为$ n $的句子$ s $

    输出. 所有指代消解对距离$ L $

    步骤1. 将照应语的位置的值置为0, 所有候选先行语的位置置为$ n $, $ n $为句子的长度;

    步骤2. 定义工作指针$ p $从照应语的位置向前扫描;

    步骤3. 若扫描对象是词语$ w_{i} $ (非候选先行语), 则将$ w_{i} $加入集合$ L $, 若扫描对象是标点符号, 加入集合$ L $, 执行步骤4继续扫描;

    步骤4. 若扫描对象是候选先行语, 按照式$ \varphi_{1} $计算距离, 其中$ len(L) $为集合$ L $的长度, $ f_{ATT} $为词典中词语$ L_{i} $的词向量, $ \alpha $为$ L $中每一个词语$ L_{i} $的重要程度, $ num(punc) $为集合$ L $中包含标点符号的数量;

    $$ \begin{equation} \varphi_{1} = \frac{\sum^{len(L)}_{i = 1}\alpha \times f_{ATT}L_{i}}{len(L)}\times \min\{5, num(punc)\} \end{equation} $$ (9)

    步骤5. 将集合$ L $置空并执行步骤2继续扫描, 若照应语和句中所有候选先行语匹配完成, 停止扫描.

    句子级的特征隐藏着重要信息, 对指代消解性能的提升有重要的作用. 本文从句子层面关注文本深层次信息获取语境特征. 对于长度为$ n $的句子$ s = \{w_{1} $, $ w_{2} $, $ w_{3}, \cdots, w_{i}, \cdots, w_{n} $}, 把每一个分词$ w_{i} $映射为$ k $维向量$ w_{i}\in {\bf R}^{K} $作为独立循环神经网络的输入, 相比于传统的RNN和LSTM网络IndRNN可以保留长期记忆, 处理长序列, 训练得到的模型具有鲁棒性, 在处理长序列依赖问题方面的性能优于传统的RNN和LSTM模型.

    针对维吾尔语人称代词指代消解, 本文结合维吾尔语语言现象和语法特征, 如表 3所示选择7个hand-crafted特征用于消解任务.

    表 3  hand-crafted特征
    Table 3  The feature of hand-crafted
    照应语词性 词性一致 单复数一致 性别一致 先行语语义角色 照应语语义角色 存在嵌套
    人称代词 非人称代词 未知 施事者 受事者 施事者 受事者
    1 0 1 0 1 0 1 0 0.5 1 0.5 0 1 0.5 0 0 1
    下载: 导出CSV 
    | 显示表格

    卷积神经网络可以提取文本局部特征, 获取输入向量更多的隐藏信息, 从而更好地识别指代关系. 卷积层可以利用多卷积核获取输入结构化特征, 卷积操作得到特征向量图:

    $$ \begin{equation} F = f(w\cdot x+b) \end{equation} $$ (10)

    上式中$ x $为3种注意力特征矩阵, $ w $为对应权重矩阵, $ b $为偏置项. 对于有$ m $个卷积核的卷积操作其得到的特征图表示如下:

    $$ \begin{equation} A = [c_{1}, c_{2}, c_{3}, \cdots, c_{m}] \end{equation} $$ (11)

    池化操作可以进一步处理特征图, 保留重要特征, 减少模型复杂度. 对于有$ n $个窗口的池化层下采样后的结果表示如下:

    $$ \begin{equation} \tilde{A} = [\tilde{a}_{1}, \tilde{a}_{2}, \tilde{a}_{3}, \cdots, \tilde{a}_{n}] \end{equation} $$ (12)

    模型采用$ sigmoid $激活函数, 如式(13)所示, 其中$ z $为卷积层或池化层的输出.

    $$ \begin{equation} f(z) = \frac{1}{1+\exp(-z)} \end{equation} $$ (13)

    本文中池化层和IndRNN层的输出作为全连接层的输入, 并使用$ softmax $分类器得到分类结果, CNN和IndRNN的特征合并与分类如式(14)、(15)所示.

    $$ \begin{equation} A^{c} = Merge(O_{cnn}, O_{IndRNN}) \end{equation} $$ (14)
    $$ \begin{equation} y = softmax(W_{a}A^{c}+b) \end{equation} $$ (15)

    其中$ W_{a} $为全连接层权重矩阵, $ A^{c} $为合并特征矩阵, 本文使用反向传播进行模型训练并使用最小化交叉熵来优化模型, 交叉熵函数为:

    $$ \begin{equation} loss = \frac{1}{N}\sum\limits ^{N}_{i = 1} y^{(i)}\log_2\hat{y}^{(i)}+(1-y^{(i)})\log_2(1-\hat{y}^{(i)}) \end{equation} $$ (16)

    其中, $ N $为输入样本数, $ y^{(i)} $为第$ i $个样本实际类别, $ \hat{y}^{(i)} $则为模型预测类别.

    将本文提出的方法在维吾尔语数据集上进行实验, 解决维吾尔语人称代词指代消解任务. 通过在不同神经网络进行对比实验, 证明了CMAIR模型的有效性. 在实验过程中, 本文使用Word2Vec的Skip-Gram算法训练生成词典[23]. 每一个词对应词向量维度为150维. 在词典处理中使用均匀分布U$ (-0.01, 0.01) $的方式随机初始化词典中未登陆词, 并采用去停用词的方式进行词典优化, 提高词向量搜索效率. 由于维吾尔语语法特征无需对其进行分词操作, 词性信息在数据集中进行标注. 对于名词短语本文采用标注关键词的方式, 例如名词短语 (当代大学者之一), 其中(学者)为短语关键词, 在提取词向量时给予关键词较大的权重, 并采用短语中每一个词向量累加求均值的方式表示名词短语词向量矩阵和词性向量矩阵.

    目前, 中文和英文指代消解任务已经非常成熟, 标注语料完善. 维吾尔语作为小语种, 指代消解相关研究正在起步阶段, 还未见有标注数据集相关报道. 因此, 本文针对维吾尔语人称代词指代消解任务进行了数据采集和标注.

    本文数据集均摘自新华网维吾尔文频道和天山网, 筛选出含有人称代词相关数据, 在维吾尔语专家的指导下完成语料标注工作. 在本次实验中, 采用427篇标注语料. 共包含数据实例44571条, 其中存在指代关系的正例为11831条, 不存在指代关系的负例为32740条.

    本文使用3种注意力机制结合语境特征完成实验. 实验中注意力特征向量经CNN提取更高层次语义特征, 词序列输入IndRNN获取语境特征, 再由$ Softmax $分类器得到最终分类结果. 实验结果显示, 在表 4所示参数设置时, 分类效果最佳. 本文采用随机初始化参数并使用梯度下降最小化目标函数[24]. 另外, 应用Dropout在CNN和IndRNN的输出层以减少模型参数, 加速模型训练和防止过拟合[25].

    表 4  实验参数设置
    Table 4  Hyper parameters of experiment
    Parameter Parameter description Value
    t Training epochs 50
    b Batch 100
    d Dropout rate 0.5
    l IndRNN layers 3
    k Kernel Size 3
    下载: 导出CSV 
    | 显示表格

    为了衡量指代消解结果的质量, 本文选用准确率(P)、召回率(R)、F值(F)三种重要指标评测指代消解实验结果, 准确率为正确消解的个数与实际消解个数的比率, 反应模型的准确程度, 召回率是正确消解的对象数与应消解对象数的比率, 反应模型的完备性, F值是准确率和召回率的调和平均值, 计算方式为$ F = 2\times P\times R/(P+R) $.

    为了验证CMAIR模型的有效性, 本文将模型实验结果与以往学者的研究结果做比较. 实验结果如表 5所示, 从表中可以看出, 本文提出的CMAIR模型取得了最好的分类效果(F值为86.86%), 其中相比于田生伟等实验结果, F值提高10%, 相比于李冬白等的实验结果F值提高3.61%, 说明该方法能有效提高维吾尔语人称代词指代消解性能, 证明了CMAIR模型的有效性.

    表 5  与以往研究对比(%)
    Table 5  Compared with previous studies (%)
    Model P R F
    Tian 82.33 72.07 76.86
    Li 88 80 83.81
    CMAIR 90.79 83.25 86.86
    下载: 导出CSV 
    | 显示表格

    为了研究和对比指代消解在不同模型和CMAIR在不同情况下的性能, 提出如下3种对比实验: 1) 3种注意力机制的有效性; 2)词向量和词性向量维度对CMAIR性能影响; 3) hand-crafted特征与语境特征对CMAIR性能影响.

    将本文提出的3种注意力机制使用以下模型在相同的数据集上进行实验:

    1) CNN: 基本的卷积神经网络结构, 输入为hand-crafted特征;

    2) ATT-CNN-1: 单注意力的卷积神经网络结构, 将词向量注意力特征矩阵与hand-crafted特征作为模型输入, 形成单注意力机制;

    3) ATT-CNN-2: 两种注意力的卷积神经网络结构, 输入为词向量注意力特征矩阵、词性注意力特征矩阵和hand-crafted特征;

    4) ATT-CNN-3: 多注意力机制的卷积神经网络模型, 输入为3种注意力特征矩阵与hand-crafted特征;

    本文将提出的4组实验在维吾尔语数据集上进行对比, 分析维吾尔语人称代词指代消解性能. 表 6给出4组实验在不同模型下的实验结果.

    表 6  不同模型消解性能对比(%)
    Table 6  Comparison of different model anaphora resolution performance (%)
    Model P R F
    CNN 75.47 74.16 74.81
    ATT-CNN-1 80.14 77.46 78.78
    ATT-CNN-2 82.37 78.80 80.55
    ATT-CNN-3 83.02 79.61 81.27
    下载: 导出CSV 
    | 显示表格

    表 6结果可以看出, 本文提出的3种注意力机制在维吾尔语数据集上实验都取得了不错的分类结果. 其中ATT-CNN-3在维吾尔语人称代词指代消解任务中性能达到最优. 分析结果可知, 加入词向量注意力机制的ATT-CNN-1比只加入hand-crafted特征的CNN模型F值提升3.97%, 这说明普通的CNN没有针对待消解对提取更多的特征信息, 所以无法准确识别照应语和候选先行语指代关系. 证明了词向量注意力特征矩阵含有丰富的语义信息, 可以准确表达上下文关系, 在模型训练过程中突出待消解对词语重要性, 从而提高指代消解性能.

    加入词向量、词性注意力机制的ATT-CNN-2相比于单注意力机制的ATT-CNN-1模型F值提高1.77%, 这说明加入词性注意力特征能在模型训练过程中高度关注照应语和候选先行语词和词性关联信息, 弥补了仅依赖文本内容信息的不足, 从而提高指代消解性能, 这也说明了词性注意力机制在维吾尔语人称代词指代消解的有效性.

    对比ATT-CNN-3和其他三种模型实验结果可以看出, 加入3种注意力机制的ATT-CNN-3模型的三类评测指标都达到最优, 相比于CNN、ATT-CNN-1和ATT-CNN-2, 其F值分别提高6.46%、2.49%和0.72%, 说明加入多注意力机制的模型能从不同层面关注待消解对信息, 从而能更好地识别指代关系, 验证了多注意力机制在维吾尔语人称代词指代消解任务中的有效性.

    为了进一步对比本文提出的CMAIR模型在维吾尔语人称代词指代消解任务中的分类效果, 训练不同维度词向量分析词向量维度对分类结果影响. 分别使用10维、50维、100维、150维和200维训练生成词向量矩阵和词性向量矩阵, 实验结果如图 5所示.

    图 5  不同维度词向量分类F-score比较
    Fig. 5  Comparison of difierent dimension word vector classiflcation F-score

    使用不同维度词向量和词性向量构造三种注意力特征并在CMAIR模型进行5倍交叉验证实验, 从图 5结果可以看出, 在向量维度为0时, 即模型中不使用注意力机制, 其F值最低, 加入10维向量后分类效果有小幅度提升, 可以看出低维度向量不能充分表达文本语义信息, 使模型在训练过程中没有学习待消解对高维特征. 在加入50维向量构建注意力特征作为模型输入时, 模型性能有大幅度提升, 可以说明高维向量可以表达文本深层次语义信息, 提高模型学习能力. 当向量维度在50到150时, 模型F值仍有提升, 但提升效果不是很显著, 并在150维时达到最优. 当向量维度达到200维时, 分类效果有所下降, 这说明当向量维度达到一定阈值时, 会产生不能充分表达待消解对信息和过拟合现象, 导致分类结果产生波动. 合理的选用向量维度对分类结果有重要的影响, 所以本文选取150维作为词向量和词性向量的维度.

    hand-crafted作为指代消解分类重要信息, 对分类结果起着重要作用, 本文在以往研究的基础上添加了语境特征, 为了探究hand-crafted和语境特征的有效性, 分别移除hand-crafted和语境特征实验, 实验结果如表 7所示, 从表中可以看出, 去除hand-crafted, 仅包含注意力特征和语境特征的情况下$ \; (V_{attention}+V_{context}) $其F值相比于CMAIR模型降低了5.55%, 本文选用的hand-crafted是结合维吾尔语语言现象和语法特征提出的反应待消解对在规则和知识方面的表示与联系.

    表 7  不同特征类型对指代消解性能影响(%)
    Table 7  The effect of different feature types on the anaphora resolution (%)
    特征类型 P R F
    Vattention + Vcontext 83.29 79.43 81.31
    Vhand-crafted + Vattention 86.81 80.24 83.40
    CMAIR 90.79 83.25 86.86
    下载: 导出CSV 
    | 显示表格

    分析实验结果可知, 去除hand-crafted的指代消解性能明显下降, 证明了hand-crafted的引入对提高指代消解性能起着关键作用. 分析表 7中去除语境特征的实验结果$ V_{hand{ \rm -}crafted}+V_{attention} $可以看出相比于去除hand-crafted的实验F值提升了2.09%, 这是由于相比于hand-crafted特征, 语境特征含有丰富的上下文语境信息, 能在模型训练过程中学习词序关系和词依赖关系, 是句子连续分布式向量表示, 另外, IndRNN可以保留长期记忆, 处理长序列, 对模型性能提升有关键性作用. 相比于CMAIR实验结果, 去除语境特征的F值降低3.46%, 这说明多注意力机制虽能从不同层面关注文本特征, 但缺少文本连续性的表述, 输入词序列的连续性和依赖性也对模型性能的提升有较大的作用. 本文通过引入hand-crafted信息充分体现了维吾尔语语言和语法特征, 语境特征的引入能关注句子级的特征信息, 确认了待消解对中照应语和候选先行语的联系, 从而取得了更好的分类效果.

    在维吾尔语人称代词指代消解任务中, 如今大部分的研究都是结合hand-crafted和深度学习的方式进行, 这种方式仅依赖原始输入特征, 不能突出每个词在句中的重要程度和关注词语多层面特征. 本文基于注意力机制和语境特征的研究, 提出一种多注意力机制的维吾尔语人称代词指代消解方法, 该模型结合3种注意力机制, 从待消解对中候选先行语和照应语不同层面分析语义信息. 同时, 提出一种距离识别算法, 能有效识别待消解对距离, 使模型能充分学习距离信息. 此外, 本文在以往的研究基础上加入语境特征, 用于输入词序列并学习句中每一个词的词序关联和依赖关系. 实验结果表明, 加入多注意力机制和语境特征的CMAIR模型能显著提升维吾尔语人称代词指代消解性能.

    致谢: 感谢王县县、王欢欢、牛苗、祁青山等同学在本文提供帮忙和支持, 在此谨向他们致以诚挚的谢意.
  • 本文责任编委 张民
  • 图  1  维吾尔语人称代词指代消解例句

    Fig.  1  The example of Uyghur personal pronoun anaphora resolution

    图  2  IndRNN结构图

    Fig.  2  The structure diagram of IndRNN

    图  3  多注意力机制IndRNN模型框架图

    Fig.  3  IndRNN model framework with multiple attention mechanisms

    图  4  距离计算方式举例

    Fig.  4  Example of distance calculation

    图  5  不同维度词向量分类F-score比较

    Fig.  5  Comparison of difierent dimension word vector classiflcation F-score

    表  1  词语句中成分标注

    Table  1  Component labeling of words in sentences

    表  2  词性标注

    Table  2  Part of speech tagger

    表  3  hand-crafted特征

    Table  3  The feature of hand-crafted

    照应语词性 词性一致 单复数一致 性别一致 先行语语义角色 照应语语义角色 存在嵌套
    人称代词 非人称代词 未知 施事者 受事者 施事者 受事者
    1 0 1 0 1 0 1 0 0.5 1 0.5 0 1 0.5 0 0 1
    下载: 导出CSV

    表  4  实验参数设置

    Table  4  Hyper parameters of experiment

    Parameter Parameter description Value
    t Training epochs 50
    b Batch 100
    d Dropout rate 0.5
    l IndRNN layers 3
    k Kernel Size 3
    下载: 导出CSV

    表  5  与以往研究对比(%)

    Table  5  Compared with previous studies (%)

    Model P R F
    Tian 82.33 72.07 76.86
    Li 88 80 83.81
    CMAIR 90.79 83.25 86.86
    下载: 导出CSV

    表  6  不同模型消解性能对比(%)

    Table  6  Comparison of different model anaphora resolution performance (%)

    Model P R F
    CNN 75.47 74.16 74.81
    ATT-CNN-1 80.14 77.46 78.78
    ATT-CNN-2 82.37 78.80 80.55
    ATT-CNN-3 83.02 79.61 81.27
    下载: 导出CSV

    表  7  不同特征类型对指代消解性能影响(%)

    Table  7  The effect of different feature types on the anaphora resolution (%)

    特征类型 P R F
    Vattention + Vcontext 83.29 79.43 81.31
    Vhand-crafted + Vattention 86.81 80.24 83.40
    CMAIR 90.79 83.25 86.86
    下载: 导出CSV
  • [1] Zelenko D, Aone C, Tibbetts J. Coreference resolution for information extraction. In: Proceedings of the 2004 ACL Workshop on Reference Resolution and its Applications. Barcelona, Spain: ACL, 2004. 9-16
    [2] Deemter K V, Kibble R. On coreferring: Coreference in muc and related annotation schemes. Computational Linguistics, 2000, 26(4): 629-637 doi: 10.1162/089120100750105966
    [3] Kim Y. Convolutional neural networks for sentence classification. In: Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Doha, Qatar: ACL, 2014. 1746-1751
    [4] Irsoy O, Cardie C. Opinion mining with deep recurrent neural networks. In: Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Doha, Qatar: ACL, 2014. 720-728
    [5] Tai K S, Socher R, Manning C D. Improved semantic representations from tree-structured long short-term memory networks. In: Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Beijing, China: ACL, 2015. 1556-1566
    [6] Chen C, Ng V. Chinese zero pronoun resolution with deep neural networks. In: Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Berlin, Germany: ACL, 2016. 778-788
    [7] Chen C, Ng V. Deep reinforcement learning for mention-ranking coreference models. In: Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. Texas, USA: ACL, 2016. 2256-2262
    [8] Iida R, Torisawa K, Oh J H. Intra-sentential subject zero anaphora resolution using multi-column convolutional neural network. In: Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. Texas, USA: ACL, 2016. 1244-1254
    [9] Mnih V, Heess N, Graves A. Recurrent models of visual attention. In: Proceedings of the Advances in Neural Information Processing Systems. Montreal, Canada: NIPS, 2014. 2204-2212
    [10] Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate[Online], available: https://arxiv.org/pdf/1409.0473v6.pdf, December 27, 2018
    [11] Yin W, Sch\"{u}tze H, Xiang B, Zhou B. Abcnn: Attention-based convolutional neural network for modeling sentence pairs. In: Proceedings of the 2016 Transactions of the Association for Computational Linguistics. Texas, USA: ACL, 2016. 259-272
    [12] Wang Y, Huang M, Zhao L. Attention-based lstm for aspect-level sentiment classification. In: Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. Texas, USA: ACL, 2016. 606-615
    [13] Soon W M, Ng H T, Lim D C Y. On coreferring: A machine learning approach to coreference resolution of noun phrases. Computational Linguistics, 2001, 27(4): 521-544 doi: 10.1162/089120101753342653
    [14] Ng V, Cardie C. Improving machine learning approaches to coreference resolution. In: Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Pennsylvania, USA: ACL, 2002. 104-111
    [15] Yang X, Zhou G, Su J, Tan C L. Coreference resolution using competition learning approach. In: Proceedings of the 41th Annual Meeting on Association for Computational Linguistics. Sapporo, Japan: ACL, 2003. 176-183
    [16] Chen C, Ng V. Chinese zero pronoun resolution: an unsupervised approach combining ranking and integer linear programming. Springer Verlag, 2014, 36(5): 823-834 doi: 10.5555/2892753.2892778
    [17] Clark K, Manning C D. Deep reinforcement learning for mention-ranking coreference models[Online], available: https://arxiv.org/pdf/1609.08667.pdf, December 27, 2018
    [18] Yin Q, Zhang Y, Zhang W, Liu T. Chinese zero pronoun resolution with deep memory network. In: Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. Texas, USA: ACL, 2016. 606-615
    [19] 李敏, 禹龙, 田生伟, 吐尔根·依布拉音, 赵建国. 基于深度学习的维吾尔语名词短语指代消解. 自动化学报, 2017, 43(11): 1984-1992 doi: 10.16383/j.aas.2017.c160330

    Li Min, Yu Long, Tian Sheng-Wei, Turglm Ibrahim, Zhao Jian-Guo. Coreference resolution of uyghur noun phrases based on deep learning. Acta Automatica Sinica, 2017, 43(11): 1984-1992 doi: 10.16383/j.aas.2017.c160330
    [20] 田生伟, 秦越, 禹龙, 吐尔根·依布拉音, 冯冠军. 基于Bi-LSTM的维吾尔语人称代词指代消解. 电子学报, 2018, 46(7): 1691-1699 doi: 10.3969/j.issn.0372-2112.2018.07.022

    Tian Sheng-Wei, Qin Yue, Yu Long, Turglm Ibrahim, Feng Guan-Jun. Anaphora resolution of uyghur personal pronouns based on Bi-LSTM. Acta Electronica Sinica, 2018, 46(7): 1691-1699 doi: 10.3969/j.issn.0372-2112.2018.07.022
    [21] 李冬白, 田生伟, 禹龙, 吐尔根·依布拉音, 冯冠军. 基于深度学习的维吾尔语人称代词指代消解. 中文信息学报, 2017, 31(4): 80-88 https://www.cnki.com.cn/Article/CJFDTOTAL-MESS201704012.htm

    Li Dong-Bai, Tian Sheng-Wei, Yu Long, Turglm Ibrahim, Feng Guan-Jun. Deep learning for pronominal anaphora resolution in uyghur. Journal of Chinese Information Processing, 2017, 31(4): 80-88 https://www.cnki.com.cn/Article/CJFDTOTAL-MESS201704012.htm
    [22] Li S, Li W, Cook C, Zhu C, Gao Y. Independently recurrent neural network (indrnn): Building A longer and deeper rnn. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Utah, USA: IEEE, 2018. 5457-5466
    [23] Mikolov T, Chen K, Corrado G, Dean J. Efficient estimation of word representations in vector space[Online], available: https://arxiv.org/pdf/1301.3781.pdf, December 27, 2018
    [24] Duchi J, Hazan E, Singer Y. Adaptive subgradient methods for online learning and stochastic optimization. Journal of Machine Learning Research, 2011, 12(7): 2121-2159 http://web.stanford.edu/~jduchi/projects/DuchiHaSi10.html
    [25] Hinton G E, Srivastava N, Krizhevsky A, Sutskever I, Salakhutdinov R R. Improving neural networks by preventing co-adaptation of feature detectors[Online], available: https://arxiv.org/pdf/1207.0580.pdf, December 27, 2018
  • 期刊类型引用(0)

    其他类型引用(3)

  • 加载中
  • 图(5) / 表(7)
    计量
    • 文章访问数:  1066
    • HTML全文浏览量:  258
    • PDF下载量:  140
    • 被引次数: 3
    出版历程
    • 收稿日期:  2018-10-18
    • 录用日期:  2018-12-24
    • 刊出日期:  2021-06-10

    目录

    /

    返回文章
    返回