2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于MHSA和句法关系增强的机器阅读理解方法研究

张虎 王宇杰 谭红叶 李茹

张虎, 王宇杰, 谭红叶, 李茹. 基于MHSA和句法关系增强的机器阅读理解方法研究. 自动化学报, 2022, 48(11): 2718−2728 doi: 10.16383/j.aas.c200951
引用本文: 张虎, 王宇杰, 谭红叶, 李茹. 基于MHSA和句法关系增强的机器阅读理解方法研究. 自动化学报, 2022, 48(11): 2718−2728 doi: 10.16383/j.aas.c200951
Zhang Hu, Wang Yu-Jie, Tan Hong-Ye, Li Ru. Research on machine reading comprehension method based on MHSA and syntactic relations enhancement. Acta Automatica Sinica, 2022, 48(11): 2718−2728 doi: 10.16383/j.aas.c200951
Citation: Zhang Hu, Wang Yu-Jie, Tan Hong-Ye, Li Ru. Research on machine reading comprehension method based on MHSA and syntactic relations enhancement. Acta Automatica Sinica, 2022, 48(11): 2718−2728 doi: 10.16383/j.aas.c200951

基于MHSA和句法关系增强的机器阅读理解方法研究

doi: 10.16383/j.aas.c200951
基金项目: 国家重点研发计划(2018YFB1005103), 国家自然科学基金(62176145), 山西省自然科学基金(201901D111028)资助
详细信息
    作者简介:

    张虎:山西大学计算机与信息技术学院副教授. 2014 年于山西大学计算机与信息技术学院获得工学博士学位. 主要研究方向为人工智能与自然语言处理. 本文通信作者. E-mail: zhanghu@sxu.edu.cn

    王宇杰:山西大学计算机与信息技术学院博士研究生. 主要研究方向为自然语言处理. E-mail: init_wang@foxmail.com

    谭红叶:山西大学计算机与信息技术学院教授. 2008年于哈尔滨工业大学计算机学院获得博士学位. 主要研究方向为人工智能, 自然语言处理. E-mail: tanhongye@sxu.edu.cn

    李茹:山西大学计算机与信息技术学院教授. 2011年于山西大学计算机与信息技术学院获得工学博士学位. 主要研究方向为人工智能与自然语言处理. E-mail: liru@sxu.edu.cn

Research on Machine Reading Comprehension Method Based on MHSA and Syntactic Relations Enhancement

Funds: Supported by National Key Research and Development Program of China (2018YFB1005103), National Natural Science Foundation of China (62176145), and Natural Science Foundation of Shanxi Province (201901D111028)
More Information
    Author Bio:

    ZHANG Hu Associate professor at the School of Computer and Information Technology, Shanxi University. He received his Ph.D. degree from the School of Computer and Information Technology, Shanxi University in 2014. His research interest covers artificial intelligence and natural language processing. Corresponding author of this paper

    WANG Yu-Jie Ph.D. candidate at the School of Computer and Information Technology, Shanxi University. His main research interest is natural language processing

    TAN Hong-Ye Professor at the School of Computer and Information Technology, Shanxi University. She received her Ph.D. degree from the School of Computer, Harbin Institute of Technology in 2008. Her research interest covers artificial intelligence and natural language processing

    LI Ru Professor at the School of Computer and Information Technology, Shanxi University. She received her Ph.D. degree from the School of Computer and Information Technology, Shanxi University in 2011. Her research interest covers artificial intelligence and natural language processing

  • 摘要: 机器阅读理解 (Machine reading comprehension, MRC)是自然语言处理领域中一项重要研究任务, 其目标是通过机器理解给定的阅读材料和问题, 最终实现自动答题. 目前联合观点类问题解答和答案依据挖掘的多任务联合学习研究在机器阅读理解应用中受到广泛关注, 它可以同时给出问题答案和支撑答案的相关证据, 然而现有观点类问题的答题方法在答案线索识别上表现还不是太好, 已有答案依据挖掘方法仍不能较好捕获段落中词语之间的依存关系. 基于此, 引入多头自注意力(Multi-head self-attention, MHSA)进一步挖掘阅读材料中观点类问题的文字线索, 改进了观点类问题的自动解答方法; 将句法关系融入到图构建过程中, 提出了基于关联要素关系图的多跳推理方法, 实现了答案支撑句挖掘; 通过联合优化两个子任务, 构建了基于多任务联合学习的阅读理解模型. 在2020中国“法研杯”司法人工智能挑战赛(China AI Law Challenge 2020, CAIL2020)和HotpotQA数据集上的实验结果表明, 本文提出的方法比已有基线模型的效果更好.
  • 机器阅读理解(Machine reading comprehension, MRC)是通过计算机理解文章语义并回答相关问题的一项重要研究任务. MRC研究对提升机器的自然语言理解能力具有重要促进作用, 已受到学术界和工业界的广泛关注. 早期的MRC研究主要采用基于人工规则库的方法, 规则库的建立和维护通常需要耗费大量人力, 且难以回答规则以外的问题[1]. 近年来, 随着机器学习, 特别是深度学习的快速发展[2], MRC的自动答题效果有了明显提升, 在一些特定任务中MRC模型的回答甚至可以媲美人类水平.

    随着BERT (Bidirectional encoder representations from transformers)[3]等预训练语言模型的出现, 片段抽取式MRC任务的实验结果得到了较大提升, 很多模型在SQuAD (Stanford question answering dataset)[4]等数据集上已经超越了人类水平. 为了进一步检验模型的推理能力, 现有很多MRC数据集加入了观点类问题, 包括“是/否”和“不可回答”问题. SQuAD2.0[5]在SQuAD的基础上增加了不可回答问题; CoQA (Conversational question answering)[6]是一个多轮对话MRC数据集, 它的答案形式涉及片段抽取、是/否、不可回答以及自由回答; CJRC (Chinese judicial reading comprehension)[7]是首个中文法律MRC数据集, 问题类型包括片段抽取、是/否与不可回答问题. 然而, 针对观点类问题的MRC任务, 现有阅读理解模型仍然不能得到令人满意的结果. 观点类问题的答案往往不在文章中直接出现, 一般需要通过多个句子推理得出. 因此, 对于此类问题, 模型需要综合理解阅读材料后给出观点, 并且如果根据材料语义无法作答, 模型应该将该问题判定为不可回答.

    人类在回答阅读理解问题时, 不仅可以给出问题答案, 而且也可以给出支撑答案的依据. 然而, 现有大多数MRC模型仅可以给出问题的答案, 无法给出支撑该答案的答案依据, 得到的答案通常缺乏可解释性. 为提高MRC模型的可解释性, 美国卡耐基梅隆大学、美国斯坦福大学等机构联合推出了多文档多跳推理数据集HotpotQA[8], 要求模型在多个文档里寻找答案线索, 给出答案依据, 并通过推理得到答案; 中国“法研杯”司法人工智能挑战赛(China AI Law Challenge 2020, CAIL2020)阅读理解数据集提出了多跳推理任务, 要求MRC模型在回答问题的同时给出答案依据, 即参与推理的句子编号. CAIL2020阅读理解数据集的样例如图1所示.

    图 1  CAIL2020阅读理解数据集样例
    Fig. 1  Sample of CAIL2020 MRC dataset

    为了同时实现观点类问题作答和答案依据挖掘, 本文提出了一种多任务联合学习模型(Multi-task joint learning model, MJL-model). 该模型的主要思想是: 首先, 针对观点类问题, 引入多头自注意力(Multi-head self-attention, MHSA)机制挖掘文章中观点类问题的文字线索, 然后利用循环卷积神经网络(Recurrent convolutional neural network, RCNN)[9]对观点类问题进行分类求解; 其次, 针对答案依据挖掘任务, 利用词法与句法分析工具识别文章中各句子中的关键要素以及句法关系, 利用要素间的依存句法关系以及其他关联关系构建关联要素关系图, 并利用动态融合图网络(Dynamically fused graph network, DFGN)[10]在关系图上挖掘当前问题的答案依据, 增强答案的可解释性; 最后, 通过参数共享与联合损失优化, 将两个任务进行联合优化学习, 实现观点类问题的解答以及答案依据的挖掘. 本文在CAIL2020与HotpotQA阅读理解数据集上进行了实验, 分析了中英文数据集的差异, 证明了该方法的有效性.

    本文的主要贡献有以下几点:

    1) 提出句法关系增强的关联要素关系图构建方法, 建立基于DFGN的答案依据挖掘模型;

    2) 针对观点类问题解答和答案依据挖掘任务, 提出多任务联合学习的阅读理解模型;

    3) 同时在CAIL2020与HotpotQA阅读理解数据集上进行了多项对比实验, 验证了所提模型的有效性和通用性.

    近几年, 学术界和工业界提出了多个大规模MRC数据集, 促进了MRC的发展. RACE (Reading comprehension dataset from examinations)[11]是美国卡耐基梅隆大学在2017年推出的大规模MRC数据集, 数据来源为中国中学生的英语考试, 包含了28000篇文章和近10万个多项选择题. SQuAD数据集由斯坦福大学于2016年推出, 主要来源于536篇维基百科文章, 包含了10万多个片段抽取式问题. 2018年推出的SQuAD2.0进一步加入了大量“无法回答”类问题, 问题数量达到了15万个, 答题难度相比SQuAD有了明显提升. 2017年, 百度公司基于百度搜索和百度知道数据开放了中文MRC数据集DuReader[12], 该数据集共包含20万个问题和100万篇相关文档, 问题类型包括自由回答类与“是/否”类. 2018年美国卡耐基梅隆大学、美国斯坦福大学等机构基于维基百科数据共同推出了多文档多跳推理MRC数据集HotpotQA, 共包含11万个问题, 要求模型答题时能够同时给出答案和答案依据.

    受到大规模开放阅读理解数据集的驱动, 相关学者对阅读理解模型开展了广泛研究, 在模型设计和训练方法等方面进行了深入探索.

    在BERT等预训练语言模型提出之前, 最优的MRC模型主要探索不同注意力机制的应用. Attentive Reader[13]首次将注意力机制应用到阅读理解任务中, 它使用双向长短时记忆网络(Bi-directional long short-term memory, BiLSTM)对文章和问题进行编码, 计算从问题到文章的注意力. BiDAF (Bidirectional attention flow)[14]将MRC模型划分为编码层、交互层和输出层, 建立了文章和问题的交互注意力机制. R-NET[15]改进了循环神经网络(Recurrent neural networks, RNN)在阅读理解任务中的应用, 将注意力机制融入到RNN, 并通过门控机制动态控制信息的取舍. QANet[16]摒弃了RNN复杂的递归结构, 只使用卷积神经网络和自注意力机制完成编码工作, 提高了模型的速度和准确率.

    目前, 预训练语言模型已成为一种新的自然语言处理(Natural language processing, NLP)范式, 其主要使用大规模文本语料库进行预训练, 并用特定任务的小数据对模型进行微调, 推动了MRC研究的快速发展. Google于2018年推出了BERT预训练语言模型, 该模型基于Transformer编码器, 引入掩码语言模型(Masked language model, MLM)和下一句预测(Next sentence prediction, NSP)任务. 随后, 2019年Facebook在BERT的基础上提出了RoBERTa (Robustly optimized BERT approach)[17]模型, 在预处理阶段采用动态掩码取代了静态掩码, 同时还去掉了NSP任务. 显然, 预训练语言模型在提高NLP相关任务效果的同时, 也增加了模型参数和训练时长. 针对这些问题, Google又在BERT的基础上提出了ALBERT (A lite BERT)[18]模型, 其使用词向量因式分解和跨层参数共享的方法减少了模型的参数量, 同时通过引入句子顺序预测(Sentence order prediction, SOP)任务进一步改进了BERT模型. 2019年, 百度推出了中文预训练语言模型ERNIE (Enhanced representation through knowledge integration)[19], 它通过对词语、实体等语义单元进行掩码(MASK), 使得模型可以学习到潜在的知识和语义依赖关系, 提高了模型的泛化能力, ERNIE在中文任务中全面超越了BERT模型. 随后, 哈尔滨工业大学讯飞联合实验室发布了中文RoBERTa_wwm_ext[20]模型, 它将整词掩码(Whole word masking, WWM)应用到中文BERT模型中, 在多个中文任务中得到了更好的实验结果.

    多跳推理要求模型在多个文档中寻找线索并推理出答案, 已成为MRC任务中的研究热点, 相关研究人员针对该任务已开展了大量深入研究. CogQA (Cognitive graph question answering)[21] 建立了一种认知图谱问答模型, 它设计了两个系统来维护一张认知图谱, 系统1遍历文档, 抽取与问题相关的实体来扩展认知图谱, 系统2利用图注意力网络(Graph attention network, GAT)在构建的认知图谱上进行推理, 并回答问题. DFGN构造了一个动态实体图并通过GAT在实体图上进行推理. 同时, 设计了一个融合模块来提高实体图和文章之间的交互性. HDE (Heterogeneous document-entity)[22]通过互注意力机制学习候选答案、问题、文档以及实体之间的关系, 同时利用这些关系构建了一个异构图, 并通过图卷积神经网络(Graph convolutional network, GCN)在异构图上进行推理, 寻找答案证据. QFE (Query focused extractor)[23]将片段抽取任务与多跳推理任务进行联合学习, 使用RNN来依次提取答案支撑句. SAE (Select, answer and explain)[24]设计了一个筛选模块来过滤文档中与问题无关的句子, 并将片段抽取与多跳推理两个任务进行联合优化, 在多跳推理任务中利用文档句子之间的关系构造关系图, 进而利用GCN在关系图上进行推理.

    本文提出的MJL-model模型将阅读理解中的片段抽取问题、观点类问题以及答案依据挖掘任务进行联合优化学习, 形成了一个端到端的多任务阅读理解模型. 模型结构如图2所示, 主要包括编码层、问题解答层、多跳推理层、预测层. 在问题解答层, 基于MHSA及RCNN实现了对观点类问题的分类解答; 在多跳推理层, 利用词法和句法分析工具识别文章各句子中的人名、地点、时间、组织机构、名词等关键要素以及要素间的依存句法关系, 利用要素之间的关联关系以及句法关系建立关联要素关系图, 并基于关联要素关系图在DFGN模型上进行答案依据挖掘.

    图 2  MJL-model模型结构
    Fig. 2  Model architecture of MJL-model

    编码层将文章和问题的每个字或词映射到一个高维的向量空间, 获得每个字或者词的向量表示. 本文使用RoBERTa_wwm_ext(l = 12,d = 768)模型来获得文章P和问题O的向量化表示, l代表隐藏层数, d代表隐藏层大小. 具体如式(1)和式(2)所示

    $$input = [{\rm{CLS}}] + P + [{\rm{SEP}}] + O + [{\rm{SEP}}]$$ (1)
    $${\boldsymbol{x}} = {\rm{RoBERTa}}\_{\rm{wwm}}\_{\rm{ext}}\left( {input} \right)\;\;\;\;\qquad$$ (2)

    其中, input表示RoBERTa_wwm_ext模型的输入, x表示文章和问题的12层向量表示, 本文使用最后4层作为文章和问题的向量表示u, 如式(3)和式(4)所示

    $$\quad\qquad {{\boldsymbol{x}} = \left\{ {{{\boldsymbol{x}}^1},{{\boldsymbol{x}}^2}, \cdots ,{{\boldsymbol{x}}^l}} \right\},\;\;\;l = 12} $$ (3)
    $$\quad\qquad{\boldsymbol{u}} = {\rm{Concat}}\left( {\left[ {\boldsymbol{x}} \right]_{l - 3}^l} \right)$$ (4)

    本文将问题类型分为片段抽取(Span)类和观点类问题, 其中观点类问题分为是/否(Yes/No)类、不可回答(Unknown)类. Span类问题的答案为文章中的一个片段, Yes/No类问题的答案是yes或no, Unknown类问题的答案是unknown. 针对各个类型的问题, 本文采用了不同的处理方法.

    1) Yes/No类

    针对Yes/No类问题, 模型需要根据文章来回答问题的是否观点, 它的答案不在文章中直接出现, 而需要通过多个句子推理得到. 本文通过引入MHSA进一步挖掘文章中Yes/No类问题的文字线索, 然后利用RCNN实现对该类型问题的分类解答. MHSA定义为

    $$\quad {{\rm{Attention}}\left( {{\boldsymbol{Q}},{\boldsymbol{K}},{\boldsymbol{V}}} \right) = {\rm{softmax}}\left( {\frac{{{\boldsymbol{Q}}{{\boldsymbol{K}}^{\rm{T}}}}}{{\sqrt {{d_k}} }}} \right){\boldsymbol{V}}} $$ (5)
    $$\quad {hea{d_i} ={\rm{Attention}}\left( {{\boldsymbol{QW}}_i^Q,{\boldsymbol{KW}}_i^K,{\boldsymbol{VW}}_i^V} \right)} $$ (6)
    $$\quad {Multihead = {\rm{Concat}}\left( {hea{d_1}, \cdots ,hea{d_h}} \right)} $$ (7)

    其中, ${\boldsymbol{Q}} \in {{\bf{R}}^{n \times {d_k}}}$, ${\boldsymbol{K}} \in {{\bf{R}}^{n \times {d_k}}}$, $ {\boldsymbol{V}}\in {{\bf{R}}}^{n\times {d}_{k}}$, Q, K, Vu分别通过${\boldsymbol{W}}_i^Q,{\rm{ }}{\boldsymbol{W}}_i^K,{\rm{ }}{\boldsymbol{W}}_i^V$经过线性变化得到, ${\boldsymbol{W}}_i^Q \in {{\bf{R}}^{4d \times {d_k}}}$, ${\boldsymbol{W}}_i^K \in {{\bf{R}}^{4d \times {d_k}}}$, ${\boldsymbol{W}}_i^V \in {{\bf{R}}^{4d \times {d_k}}}$.

    具体而言, 本文将编码层得到的问题与文章的字符向量u输入MHSA得到新的字符向量表示u'

    $$\begin{array}{*{20}{c}} {{\boldsymbol{u}}' = {\rm{MHSA}}\left( {\boldsymbol{u}} \right)} \end{array}$$ (8)

    然后通过RCNN和全连接(Dense)层进行二分类, 得到问题答案是yes/no的概率${p^{{\rm{yes}}}}/{p^{{\rm{no}}}}$, 具体计算如式(9) ~ (13)所示

    $$ \qquad\qquad {{\boldsymbol{u}}'' = {\rm{BiLSTM}}\left( {{\boldsymbol{u}}'} \right)} $$ (9)
    $$ \qquad\qquad{{\boldsymbol{y}} = \tanh \left( {{\rm{Concat}}\left[ {{\boldsymbol{u}}'',{\boldsymbol{u}}'} \right]} \right)} $$ (10)
    $$ \qquad\qquad {\tilde {\boldsymbol{y}} = {\rm{MaxPooling}}\left( {\boldsymbol{y}} \right)} $$ (11)
    $$ \qquad\qquad p^{\rm{yn}} = {\rm{Dense}}\left( {\tilde {\boldsymbol{y}}} \right) $$ (12)
    $$ \qquad\qquad{\left\{ {{p^{{\rm{yes}}}},{p^{{\rm{no}}}}} \right\} = {p^{{\rm{yn}}}}} $$ (13)

    2) Unknown类

    在观点类问题中, 有些问题仅仅根据文章是无法得到答案的. 对于此类问题, 模型应该拒绝回答. 针对此类问题, 本文用[CLS]位置在编码层中得到的向量c来表示当前输入的文章和问题, 然后输入一个${{\boldsymbol{W}}^c} \in {{\bf{R}}^{4d \times 1}}$的Dense层, 得到答案是unknown的概率${p^{{\rm{unknown}}}}$, 具体计算如(14)和式(15)所示

    $$\begin{array}{*{20}{c}} {{p^{c}} = {\rm{Dense}}\left( {\boldsymbol{c}} \right)} \end{array}$$ (14)
    $$\begin{array}{*{20}{c}} {\left\{ {{p^{{\rm{unknown}}}}} \right\} = {p^c}} \end{array}$$ (15)

    3) Span类

    针对Span类问题, 由于它的答案是文章中的一个片段, 模型需要根据问题在文章中标注出正确答案的开始位置和结束位置. 本文通过编码层得到问题及文章每个字符的向量化表示u, 其中文章$P$$n$个字符的编码为$[{{\boldsymbol{u}}_1},{{\boldsymbol{u}}_2},\cdots,{{\boldsymbol{u}}_n}],{{\boldsymbol{u}}_i} \in {{\bf{R}}^{4d}}$, 然后在编码层后添加一个${{\boldsymbol{W}}^s} \in {{\bf{R}}^{4d \times 1}}$的Dense层, 获得分数s, 使用分数s来表示每个位置的开始概率${p^s}$, 具体计算如式(16)和式(17)所示

    $$\begin{array}{*{20}{c}} {s = {\rm{Dense}}\left( {\boldsymbol{u}} \right)} \qquad\qquad\;\;\;\; \end{array}$$ (16)
    $$\begin{array}{*{20}{c}} {{p^s} = s = \left[ {p_1^s,p_2^s, \cdots ,p_n^s} \right]} \end{array}$$ (17)

    同理, 加入另一个${{\boldsymbol{W}}^e} \in {{\bf{R}}^{4d \times 1}}$的Dense层, 获得分数e, 使用分数e来表示每个位置的结束概率${p^e}$, 如式(18)和式(19)所示

    $$e = {\rm{Dense}}({\boldsymbol{u}})\qquad\qquad\;\;\;\; $$ (18)
    $$\begin{array}{*{20}{c}} {{p^e} = e = \left[ {p_1^e,p_2^e, \cdots ,p_n^e} \right]} \end{array}$$ (19)

    本文在关联要素关系图上基于DFGN模型进行多跳推理, 检索答案依据. 多跳推理层结构如图3所示, 主要包括关联要素关系图构建和多跳推理两部分.

    图 3  多跳推理层结构图
    Fig. 3  Model architecture of multi-hop reasoning layer

    在关联要素关系图中, 颜色相同的要素代表它们位于同一句子, 左边关系图考虑了位于同一句子中的要素以及不同句子中的相同要素, 右边关系图考虑了存在句法关系的要素以及相似度大于$\eta $的要素, 其中$\eta =0.90$, 不同类型线条表示了构图过程中不同关系的连边.

    1)关联要素关系图构建

    对于CAIL2020中文数据集, 本文使用百度开源的LAC工具从文章中识别时间、地点、人名、组织、名词、专有名词、数量词等关键要素. 关联要素关系图利用各要素之间的关系进行连边, 在构造关系图时, 本文采用了以下规则: a) 同一句子中的所有要素进行连边; b) 不同句子中的相同要素进行连边; c) 为了增强不同句子之间的要素联系, 本文计算了不同句子中各要素之间的相似度. 首先, 利用BERT得到要素对应的词向量, 然后利用余弦相似度计算两个要素之间的相似度, 如果该相似度大于$\eta $, 则对两个要素连边; d) 若不同句子间的两个要素存在句法关系, 则连接两个要素. 首先, 将文章根据句号、问号、感叹号等标点符号进行分割得到片段, 然后使用DDParser得到该片段的依存句法关系, 如果两个要素之间存在句法关系, 则连接两个要素.

    对于HotpotQA数据集, 本文使用了spaCy从文章中识别时间、地点、人名、名词等关键要素及要素间的依存句法关系.

    2)多跳推理

    本文基于已构造的关联要素关系图和DFGN进行多跳推理, 具体过程如下:

    步骤 1. 本文在数据预处理阶段构建了要素位置矩阵M与句子位置矩阵B, M记录了每个要素在input中的相应位置, B记录了每个句子在input中的相应位置, MB中的元素为0或1.

    其中, M为一个w × g的矩阵, w表示文章中的要素个数, g表示input的长度, 对于任意要素iinput中的位置为${s_i}\sim {e_i}$, 则${{\boldsymbol{M}}_{i,{s_i}}}\sim {{\boldsymbol{M}}_{i,{e_i}}}$的值为1, ${{\boldsymbol{M}}_i}$中的其余值为0. B为一个r × g的矩阵, r表示文章中的句子个数, 对于任意句子kinput中的位置为${s_k}\sim {e_k}$, 则${{\boldsymbol{B}}_{k,{s_k}}}\sim {{\boldsymbol{B}}_{k,{e_k}}}$的值为1, ${{\boldsymbol{B}}_k}$中的其余值为0.

    步骤 2. 通过要素位置矩阵M得到任意要素iinput中的相应位置${s_i}\sim {e_i}$, 在编码层得到了input中每个字符的字向量表示u, 则要素i对应的字符字向量为${\boldsymbol{v}} = \left[ {{{\boldsymbol{u}}_{{s_i}}},{{\boldsymbol{u}}_{{s_i} + 1}}, \cdots ,{{\boldsymbol{u}}_{{e_i}}}} \right]$. 本文通过式(20)得到要素的词向量h, 初始化关联要素关系图中的要素特征表示.

    $$\begin{array}{*{20}{c}} {{\boldsymbol{h}} = {\rm{MeanPooling}}\left( {\boldsymbol{v}} \right)} \end{array}$$ (20)

    步骤 3. 通过MeanPooling得到问题句向量$\tilde {\boldsymbol{q}}$, 然后计算关系图中每个要素关于问题的相关度分数$m = \left[ {{m_1},{m_2}, \cdots ,{m_w}} \right]$, 然后通过式(23)得到各个要素关于问题的特征表示${\boldsymbol{h}}'$, 使模型在推理过程中更加关注与问题相关的要素.

    $$ \quad\qquad {\tilde {\boldsymbol{q}} = {\rm{MeanPooling}}\left( {\boldsymbol{q}} \right)} $$ (21)
    $$ \quad\qquad{m = {\rm{Sigmod}}\left( {\frac{{{\tilde {\boldsymbol{q}}}{\boldsymbol{Eh}}}}{{\sqrt {\tilde d} }}} \right)} $$ (22)
    $$\quad\qquad {{\boldsymbol{h}}' = \left[ {{m_1}{{\boldsymbol{h}}_1},{m_2}{{\boldsymbol{h}}_2}, \cdots ,{m_w}{{\boldsymbol{h}}_w}} \right]} $$ (23)

    其中, q表示通过编码层得到的问题字向量, E是一个线性变化矩阵.

    步骤 4. 基于关联要素关系图进行多跳推理. 首先, 从问题中的某个要素开始推理, 关注在关联要素关系图上与该要素有连边的其他要素. 然后通过计算它们之间的注意力分数, 更新要素的特征表示. 假设对于任意要素i, 其相邻要素为Ni, 则要素i的注意力权重由式(24)和式(25)得出

    $$ {{e_{ij}} = {{\boldsymbol{A}}^{\rm{T}}}[{\boldsymbol{Wh}}_i'||{\boldsymbol{Wh}}_j'],\;\;\;\;j \in {N_i}} $$ (24)
    $$ {{a_{ij}} = \frac{{\exp \left( {{\rm{LeakyReLU}}\left( {{e_{ij}}} \right)} \right)}}{{\mathop \sum \limits_{k \in {N_i}} \exp \left( {{\rm{LeakyReLu}}\left( {{e_{ik}}} \right)} \right)}}} $$ (25)

    其中, ${\boldsymbol{W}} \in {{\boldsymbol{{\rm{R}}}}^{F' \times F}}$, ${\boldsymbol{A}}\in {{\boldsymbol{{\rm{R}}}}}^{2F\times 1}$, W, A为两个可训练的线性变换矩阵, ${e_{ij}}$表示两个要素之间的相关度分数, ${a_{ij}}$表示要素i相对于其相邻要素的注意力权重系数.

    最后, 通过式(26)计算出要素i最终的特征表示${\tilde {\boldsymbol{h}}_i}$

    $$ {{{\tilde {\boldsymbol{h}}}_i} = {\rm{ReLU}}\left( {\mathop \sum \limits_{j \in {N_i}} {a_{j,i}}{{\boldsymbol{W}}^h}{\boldsymbol{h}}_j'} \right)} $$ (26)

    步骤 5. 每完成一次推理, 使用Bi-Directional Attention更新问题的向量表示, 然后通过步骤3计算关联要素关系图每个要素关于当前问题向量的相关度分数m, 并根据m去更新关系图的要素特征表示.

    最后, 不断重复上述过程更新关联要素关系图各要素的特征表示.

    预测层基于编码层、问题解答层以及多跳推理层实现了对Span类、观点类问题以及答案依据挖掘任务的解答.

    1) Span及观点类问题解答

    本文在问题解答层得到了观点类问题的答案概率, 然后将这些答案概率作为Span类问题中的答案开始及结束位置概率加入到Span类问题中, 与Span类问题一起解答. 如式(27)和式(28)所示, 其中${p^{{\rm{start}}}}$, ${p^{{\rm{end}}}}$分别表示每个位置作为答案开始位置和结束位置的概率, n表示文章长度.

    $$ {{p^{{\rm{start}}}} = \left\{ {p^{{\rm{unknown}}},{p^{{\rm{yes}}},{p^{{\rm{no}}},p_1^s,\cdots,p_n^s}}} \right\}} $$ (27)
    $$ {{p^{{\rm{end}}}} = \left\{ {p^{{\rm{unknown}}},{p^{{\rm{yes}}},{p^{{\rm{no}}},p_1^e,\cdots,{p_n^e}}}} \right\}} $$ (28)

    对于Span类问题, 由于它的答案是文章中的一个片段, 答案位置需要满足$1 \leq b \leq f$$f \leq n$, 其中b表示答案的开始位置, f表示答案的结束位置, 本文将开始位置和结束位置的概率之和作为答案概率. 在Span类问题中, 符合上述条件的答案一般有多个, 本文从多个答案中选择概率最大的作为Span类问题的答案. 同理, 对于观点类问题也需要计算答案概率. 本文将观点类问题的概率的2倍作为答案概率. 最后从多个答案中选择答案概率最大的作为最终答案, 具体计算如式(29)~(33)所示

    $$\qquad\qquad\begin{split} p_{{\rm{Span}}}^{{\rm{Answer}}} =\;& {\rm{argmax}}\left( {p_b^{{\rm{start}}} + p_f^{{\rm{end}}}} \right), \\ &\qquad\qquad\qquad{1 \leq b \leq f,f \leq n} \end{split}$$ (29)
    $$ {p_{{\rm{Yes}}}^{{\rm{Answer}}} = {p^{{\rm{yes}}}} \times 2} $$ (30)
    $$ {p_{{\rm{No}}}^{{\rm{Answer}}} = {p^{{\rm{no}}}} \times 2} $$ (31)
    $$ {p_{{\rm{Unknown}}}^{{\rm{Answer}}} = {p^{{\rm{unknown}}}} \times 2} $$ (32)
    $$ {{p^{{\rm{Answer}}}} = {\rm{argmax}}\left( {\left[ \begin{array}{l} p_{{\rm{Span}}}^{{\rm{Answer}}},p_{{\rm{Yes}}}^{{\rm{Answer}}} \\ p_{{\rm{No}}}^{{\rm{Answer}}},p_{{\rm{Unknown}}}^{{\rm{Answer}}} \end{array} \right]} \right)} $$ (33)

    最后, 当${p^{{\rm{Answer}}}} = p_{{\rm{Span}}}^{{\rm{Answer}}}$, 则模型根据答案的起始位置在文章中截取某一连续片段作为问题答案; 当${p^{{\rm{Answer}}}} = p_{{\rm{Yes}}}^{{\rm{Answer}}}$, 答案为“yes”; 当${p^{{\rm{Answer}}}} = p_{{\rm{No}}}^{{\rm{Answer}}}$, 答案为“no”; 当${p^{{\rm{Answer}}}} = p_{{\rm{Unknown}}}^{{\rm{Answer}}}$, 答案为“unknown”.

    2)答案依据挖掘

    本文通过多跳推理得到了关联要素关系图中每个要素的特征表示$\tilde {\boldsymbol{h}}$, 结合要素位置矩阵M得到了要素对应字符的字向量表示, 并进一步通过长短期记忆网络(Long short-term memory, LSTM)得到文章P的特征表示z. 然后结合句子位置矩阵B, 通过Mean-Max Pooling得到文章$P$r个句子的特征表示$\tilde {\boldsymbol{z}}$, 具体计算如式(34)和式(35)所示

    $$ {{\boldsymbol{z}} = {\rm{LSTM}}\left( {\left[ {{\boldsymbol{u}},{\boldsymbol{M}}{{\tilde {\boldsymbol{h}}}^{\rm{T}}}} \right]} \right)} \quad\qquad $$ (34)
    $$ \begin{split} \tilde {\boldsymbol{z}} =\;&{\rm{Concat}}[{\rm{MeanPooling}}({\boldsymbol{B}}{{\boldsymbol{z}}^{\rm{T}}}),{\rm{ }} \\ &{\rm{ {\rm{MaxPooling}}}}({\boldsymbol{B}}{{\boldsymbol{z}}^{\rm{T}}})] \end{split} $$ (35)

    然后通过Dense层得到r个句子关于问题的相关度分数$t$, 使用$t$来表示每个句子对于文章问题的支持率${p^{{\rm{sup}}}}$, 具体如式(36)和式(37)所示

    $$ {t = {\rm{Dense}}\left( {\tilde {\boldsymbol{z}}} \right)} \qquad\qquad\qquad\;\;\;\;\; $$ (36)
    $$ {{p^{{\rm{sup}}}} = t = \left[ {p_1^{{\rm{sup}}},p_2^{{\rm{sup}}}, \cdots ,p_r^{{\rm{sup}}}} \right]} $$ (37)

    实验选择${p^{{\rm{sup}}}} > 0.53$的句子作为支撑问题答案的依据.

    本文分别在CAIL2020阅读理解数据集和HotpotQA数据集上进行了实验.

    CAIL2020阅读理解数据集包括民事、刑事和行政共3类中文裁判文书, 问题类型涉及Span类、Yes/No类以及Unknown类, 且每个问题都需要给出答案依据. 具体而言, 对于每个问题, 需要结合案情描述内容给出回答, 同时需要给出支撑答案的依据, 即所有支撑答案的句子编号. 由于目前CAIL2020只公布了训练集, 没有公布验证集与测试集, 在实验中, 本文根据各问题类型在整体数据中的比例按照4 : 1的比例划分了训练集与测试集.

    HotpotQA数据集与CAIL2020司法阅读理解数据集较为相似, 两个数据集的任务形式基本一致. HotpotQA数据集为每个问题提供了10篇文章, 问题类型包括Span类和Yes/No类, 要求对每个问题给出答案和答案依据. 本文在HotpotQA Distractor验证集上进行了实验.

    实验所用的评价指标包括3个部分, 分别是Span类和观点类问题的F1值(Ans_F1)、答案依据挖掘任务的F1值(Sup_F1)以及两部分的联合F1值(Joint_F1).

    Ans_F1计算过程如式(38) ~ (40)所示

    $$ {{Precision}{^{{\rm{Ans}}}} = \frac{{{w_c}}}{{{w_p}}}} $$ (38)
    $$ Recall{{\rm{}}^{{\rm{Ans}}}} = \frac{{{w_c}}}{{{w_g}}} $$ (39)
    $$ {Ans}\_F1 = \frac{{2 \times {Precision}{^{{\rm{Ans}}}} \times {Recall}{{\rm{}}^{{\rm{Ans}}}}}}{{{Precision}{^{{\rm{Ans}}}} + {Recall}{{\rm{}}^{{\rm{Ans}}}}}} \times100{\text{%}} $$ (40)

    其中, ${w_c}$表示预测答案与真实答案中相同的字符数, ${w_p}$表示预测答案所包含的字符数, ${w_g}$表示真实答案所包含的字符数.

    Sup_F1计算过程如式(41) ~ (43)所示

    $$ {{Precision}{^{{\rm{Sup}}}} = \frac{{TP}}{{TP + FP}}} $$ (41)
    $$ {Recall}{{\rm{}}^{{\rm{Sup}}}} = \frac{{TP}}{{TP + FN}} $$ (42)
    $$ {Sup}\_{F}1 = \frac{{2 \times {Precision}{^{{\rm{Sup}}}} \times {Recall}{{\rm{}}^{{\rm{Sup}}}}}}{{{Precision}{^{{\rm{Sup}}}} + {Recall}{{\rm{}}^{{\rm{Sup}}}}}} \times100{\text{%}} $$ (43)

    其中, TP表示预测答案与真实答案均为支撑句的句子数; FP表示预测答案是支撑句但真实答案不是支撑句的句子数; FN表示预测答案不是支撑句但真实答案是支撑句的句子数.

    Joint_F1的计算过程如式(44) ~ (46)所示

    $$ {Precision}{^{{\rm{Joint}}}} = {Precision}{^{{\rm{Ans}}}} \times {Precision}{^{{\rm{Sup}}}} $$ (44)
    $$ {{Recall}{^{{\rm{Joint}}}} = {Recall}{^{{\rm{Ans}}}} \times {Recall}{^{{\rm{Sup}}}}} $$ (45)
    $$ {{Joint}\_{F}1 = \frac{{2 \times {Precision}{^{{\rm{Joint}}}} \times {Recall}{^{{\rm{Joint}}}}}}{{{Precision}{^{{\rm{Joint}}}} + {Recall}{^{{\rm{Joint}}}}}}} \times100{\text{%}} $$ (46)

    实验中采用5个模型作为CAIL2020数据集的基线模型, 分别为:

    1) Baseline_BERT (RoBERTa): CAIL2020阅读理解任务提供的基于BERT的阅读理解模型;

    2) Baseline_DPCNN: 将MJL-model模型中的RCNN替换为深度金字塔卷积神经网络(Deep pyramid convolutional neural network, DPCNN)[25];

    3) Cola (Single model): CAIL2020阅读理解挑战赛第4名所用模型;

    4) DFGN_CAIL: 按照CAIL2020的数据格式, 修改了DFGN的数据处理部分.

    实验中采用4个模型作为HotpotQA数据集的基线模型, 分别为:

    1) Baseline: HotpotQA阅读理解任务提供的基于Glove (Global vectors)[26]的阅读理解模型;

    2) QFE: 通过注意力机制和RNN进行推理, 并将片段抽取与多跳推理任务进行联合优化;

    3) DFGN: 根据实体间的关系构造动态实体图, 通过GAT在实体图上进行多跳推理;

    4) SAE: 利用文档句子间的关系构造关系图, 通过GCN在关系图上进行多跳推理.

    1) CAIL2020数据集实验结果

    对于CAIL2020提供的基线模型, 本文分别采用了BERT_base和RoBERTa_wwm_ext作为模型的编码器. 各模型均采用了相同的参数设置, 具体为: lr = 0.00002, epoch = 10, dropout = 0.1, batch_size = 6, seq_length = 512, 实验结果如表1所示. 由表1可以看出, Baseline_RoBERTa模型的Ans_F1相比Baseline_BERT提高了1.41个百分点, Sup_F1提高了5.37个百分点, Joint_F1提高了6.49个百分点. 因此, 本文提出的方法和采用的基线模型均采用了RoBERTa_wwm_ext作为编码器. 不同模型的实验结果显示, 本文提出的MJL-model模型在3项评价指标上都优于所有基线模型.

    表 1  CAIL2020数据集实验结果(%)
    Table 1  Results on the CAIL2020 dataset (%)
    模型Ans_F1Sup_F1Joint_F1
    Baseline_BERT 70.40 65.74 49.25
    Baseline_RoBERTa 71.81 71.11 55.74
    Baseline_DPCNN 77.43 75.07 61.80
    Cola 74.63 73.68 59.62
    DFGN_CAIL 68.79 72.34 53.82
    MJL-model 78.83 75.51 62.72
    下载: 导出CSV 
    | 显示表格

    2) HotpotQA数据集实验结果

    同时, 本文在HotpotQA Distractor验证集上进一步验证了提出的方法, 且MJL-model模型采用与基线模型DFGN、SAE完全相同的BERT_base_uncase模型作为编码器.

    表2可以看出, 本文提出的MJL-model模型的Ans_F1相比Baseline模型提高了12.64个百分点, Sup_F1提高了19.30个百分点, Joint_F1提高了22.01个百分点. MJL-model 3项评价指标都优于Baseline、QFE、DFGN, 并且Sup_F1优于所有基线模型. 不同模型的实验结果表明了本文提出的MJL-model模型的有效性.

    表 2  HotpotQA实验结果(%)
    Table 2  Results on the HotpotQA dataset (%)
    模型Ans_F1Sup_F1Joint_F1
    Baseline 58.28 66.66 40.86
    QFE 68.70 84.70 60.60
    DFGN 69.34 82.24 59.86
    SAE 74.81 85.27 66.45
    MJL-Model 70.92 85.96 62.87
    下载: 导出CSV 
    | 显示表格

    3) 实验数据分析

    通过分析模型的实验结果和所用的两个数据集, 发现MJL-model模型在中、英文数据集上的表现存在一些差异, 具体原因包括以下3个方面:

    a) 数据集存在差异. CAIL2020数据集按照逗号、分号、句号等将一篇文章划分为不同的句子, 相邻句子存在较强的关联性, 但句子间包括的相同词汇较少; HotpotQA数据集中的每条句子相对独立, 相邻句子间关联性较弱, 且不同句子间存在较多的相同单词.

    b) 构图上存在差异. 由于CAIL2020数据集中不同句子间的相同词汇较少, 利用句法关系来增强不同句子间的词汇联系, 可以进一步帮助模型推理出答案句. HotpotQA数据集考虑了一般的命名实体和名词性单词, 不同句子间相同实体及单词出现的次数较多, 同时由于每条句子较为独立, 因此只有少数相邻句子间存在句法关系.

    c) 句法分析工具存在差异. 中文句法分析工具可以分析普通词汇、命名实体间的句法关系; 英文句法分析工具SpaCy、Stanford CoreNLP等在进行句法分析时是以单词粒度进行的, 不能将命名实体作为一个整体去考虑.

    因此, 本文提出的模型在中文数据集上能够扩充更多的节点关系, 实验结果也比英文数据集的结果更好.

    为了进一步评估模型各个模块的贡献, 本文进行了以下消融实验:

    1) Question_answering: 将片段抽取和观点类问题作为单任务进行实验;

    2) Answer_evidence: 将答案依据挖掘任务作为单任务进行实验;

    3) –MHSA: 去掉问题解答层中的多头自注意力;

    4) –RCNN: 去掉问题解答层中的循环卷积神经网络;

    5) –Syntax & Similarity: 在构建要素关系图时, 去掉要素之间的句法以及相似度关系.

    具体消融实验结果如表3所示.

    表 3  消融实验结果(%)
    Table 3  Results of ablation experiments (%)
    模型Ans_F1Sup_F1Joint_F1
    MJL-model78.8375.5162.72
    Question_answering76.36
    Answer_evidence73.42
    –MHSA 76.28 75.11 61.16
    –RCNN 75.96 75.05 60.96
    –Syntax & Similarity 77.61 74.39 60.80
    下载: 导出CSV 
    | 显示表格

    表3实验结果显示, Question_answering的Ans_F1与Answer_evidence的Sup_F1相比MJL-model都下降了2个多百分点, 证明了多任务联合优化的有效性; 针对观点问题解答层, 去掉MHSA后Ans_F1下降了2.55个百分点, 去掉RCNN后Ans_F1下降了2.87个百分点, Sup_F1及Joint_F1也都有明显下降; 针对关联要素关系图, 去掉要素之间的句法关系以及相似度关系, Sup_F1下降了1.12个百分点, Ans_F1下降了1.22个百分点, Joint_F1下降了1.92个百分点. 通过对消融实验结果的分析, 证明了本文所提方法的有效性.

    为了进一步验证MHSA机制和句法关系对模型结果的影响, 本文对两个样例的关键过程进行了可视化展示, 具体样例如图4 ~ 6所示.

    图 4  注意力可视化样例
    Fig. 4  Sample of attention visualization
    图 5  关联要素关系图样例
    Fig. 5  Sample of related element graph
    图 6  多跳推理注意力可视化样例图
    Fig. 6  Visible sample of multi-hop reasoning attention

    1) 图4呈现了实验数据中某问题对应语句片段的注意力可视化样例, 其中颜色越深, 代表它的注意力权重越高, 对于模型正确作答越重要. 图4(a)为引入MHSA机制的示例, 图4(b)为去掉MHSA机制的示例.

    显然, 引入MHSA机制后, 模型不仅关注问题中出现的词汇, 而且也能捕获带有观点类文字线索的词汇, 例如“逃匿”、“逃避”; 而去掉MHSA机制后, 模型仅关注“文x1”、“支付” 等在问题中出现的词汇, 对观点类文字线索的关注较少. 因此, 引入MHSA机制可以使模型更好地回答观点类问题.

    2) 图5展示出实验数据集中一个真实语句片段生成的关联要素关系图样例, 图5(a)为融入依存句法关系和要素相似度的示例, 图5(b)为DFGN生成的句子示例.

    图5(a)根据本文提出的关联规则将各要素进行连接, 可得到“15.2”、“14.9”、“12.8”在句法上存在并列关系, “近端”、“中端”和“末端”间的相似度大于$ \eta$, 根据关系图构建规则可将这3个要素连接. 基于该图, 模型可从问题要素“保修单”出发, 得到“保修单−末端−12.8”线索关系. 图5(b)仅考虑了同一句子中的所有要素以及不同句子中的相同要素, 缺乏能够支撑问题与答案的线索关系. 同时, 为了更直观地展示推理过程中要素之间的注意力关系, 进一步输出了上述样例的多跳推理注意力可视化, 如图6所示.

    图6可以看出, “保修单”与“近端”、“中端”、“15.2” 等要素具有较强的关联性, “近端”与“15.2”、“中端”、“末端” 等要素紧密关联, “中端”与“近端”、“15.2”、“末端” 等要素有紧密联系, “末端”与“中端”、“14.9”、“12.8” 等要素关联性较强. 显然, 可以进一步建立“保修单”与“末端”和“12.8” 的关联关系. 因此, 本文提出的关联要素关系图能得到更有效的实验结果.

    本文针对阅读理解任务中的观点类问题以及答案依据挖掘展开研究, 提出了一种基于MHSA与句法关系增强的多任务阅读理解模型. 通过引入MHSA和RCNN, 改进了观点类问题的解答方法; 利用句法关系与其他要素关系构建关联要素关系图, 并基于关联要素关系图进行多跳推理, 优化了答案依据挖掘模型; 最后将两个任务进行联合优化学习, 建立了基于多任务联合学习的阅读理解模型. 在CAIL2020阅读理解数据集和HotpotQA数据集上的成功应用, 验证了所提方法的有效性.

    在观点类问题中, 仅通过MHSA机制挖掘文章中观点类问题的文字线索可能还不够充分. 在未来工作中, 将尝试利用图神经网络来进一步挖掘文章中观点类文字线索; 答案依据挖掘对于阅读理解的可解释性具有重要意义, 下一步将引入一些外部知识库[27]和其他推理方法来探索更有效的答案依据挖掘方法.


  • 1 https://github.com/baidu/lac
  • 1 https://github.com/baidu/lac2 https://github.com/baidu/DDParser3 https://github.com/explosion/spaCy
  • 3 https://github.com/explosion/spaCy
  • 4 https://github.com/china-ai-law-challenge/CAIL2020/tree/master/ydlj5 https://github.com/neng245547874/cail2020-mrc6 https://github.com/hotpotqa/hotpot
  • 5 https://github.com/neng245547874/cail2020-mrc
  • 6 https://github.com/hotpotqa/hotpot
  • 图  1  CAIL2020阅读理解数据集样例

    Fig.  1  Sample of CAIL2020 MRC dataset

    图  2  MJL-model模型结构

    Fig.  2  Model architecture of MJL-model

    图  3  多跳推理层结构图

    Fig.  3  Model architecture of multi-hop reasoning layer

    图  4  注意力可视化样例

    Fig.  4  Sample of attention visualization

    图  5  关联要素关系图样例

    Fig.  5  Sample of related element graph

    图  6  多跳推理注意力可视化样例图

    Fig.  6  Visible sample of multi-hop reasoning attention

    表  1  CAIL2020数据集实验结果(%)

    Table  1  Results on the CAIL2020 dataset (%)

    模型Ans_F1Sup_F1Joint_F1
    Baseline_BERT 70.40 65.74 49.25
    Baseline_RoBERTa 71.81 71.11 55.74
    Baseline_DPCNN 77.43 75.07 61.80
    Cola 74.63 73.68 59.62
    DFGN_CAIL 68.79 72.34 53.82
    MJL-model 78.83 75.51 62.72
    下载: 导出CSV

    表  2  HotpotQA实验结果(%)

    Table  2  Results on the HotpotQA dataset (%)

    模型Ans_F1Sup_F1Joint_F1
    Baseline 58.28 66.66 40.86
    QFE 68.70 84.70 60.60
    DFGN 69.34 82.24 59.86
    SAE 74.81 85.27 66.45
    MJL-Model 70.92 85.96 62.87
    下载: 导出CSV

    表  3  消融实验结果(%)

    Table  3  Results of ablation experiments (%)

    模型Ans_F1Sup_F1Joint_F1
    MJL-model78.8375.5162.72
    Question_answering76.36
    Answer_evidence73.42
    –MHSA 76.28 75.11 61.16
    –RCNN 75.96 75.05 60.96
    –Syntax & Similarity 77.61 74.39 60.80
    下载: 导出CSV
  • [1] 曾帅, 王帅, 袁勇, 倪晓春, 欧阳永基. 面向知识自动化的自动问答研究进展. 自动化学报, 2017, 43(9): 1491-150.

    Zeng Shuai, Wang Shuai, Yuan Yong, Ni Xiao-Chun, Ouyang Yong-Ji. Towards knowledge automation: a survey on question answering systems. ACTA AUTOMATICA SINICA, 2017, 43(9): 1491-1508(in Chinese).
    [2] 奚雪峰, 周国栋. 面向自然语言处理的深度学习研究. 自动化学报, 2016, 42(10): 1445-1465.

    Xi Xue-Feng, Zhou Guo-Dong. A survey on deep learning for natural language processing. ACTA AUTOMATICA SINICA, 2016, 42(10): 1445-1465(in Chinese).
    [3] Devlin J, Chang M W, Lee K, Toutanova K. BERT: Pre-training of deep bidirectional transformers for language understanding. In: Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Minneapolis, USA: ACL, 2019. 4171−4186
    [4] Rajpurkar P, Zhang J, Lopyrev K, Liang P. SQUAD: 100 000+ questions for machine comprehension of text. In: Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. Austin, USA: ACL, 2016. 2383−2392
    [5] Rajpurkar P, Jia R, Liang P. Know what you don't know: Unanswerable questions for squad. In: Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. Melbourne, Australia: ACL, 2018.784−789
    [6] Reddy S, Chen D Q, Manning C D, CoQA: A conversational question answering challenge. Transactions of the Association for Computational Linguistics, 2019, 7: 249−266
    [7] Duan X Y, Wang B X, Wang Z Y, Ma W T, Cui Y M, Wu D Y, et al. CJRC: A reliable human-annotated benchmark dataset for Chinese judicial reading comprehension. In: Proceedings of the 2019 China National Conference on Chinese Computational Linguistics. Kunming, China: Springer, 2019. 439−451
    [8] Yang Z L, Qi P, Zhang S Z, Bengio Y, Cohen W W, Salakhutdinov R, et al. HotpotQA: A dataset for diverse, explainable multi-hop question answering. In: Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Brussels, Belgium: ACL, 2018. 2369−2380
    [9] Lai S W, Xu L H, Liu K, Zhao J. Recurrent convolutional neural networks for text classification. In: Proceedings of the 2015 AAAI Conference on Artificial Intelligence. Austin, USA: AAAI, 2015. 2267−2273
    [10] Xiao Y X, Qu Y R, Qiu L, Zhou H, Li L, Zhang W N, Yu Y. Dynamically fused graph network for multi-hop reasoning. In: Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence, Italy: ACL, 2019. 6140−6150
    [11] Lai G K, Xie Q Z, Liu H X, Yang Y M, Hovy E. RACE: Large-scale reading comprehension dataset from examinations. In: Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. Copenhagen, Denmark: ACL, 2017. 785−794
    [12] He W, Liu K, Liu J, Lv Y J, Zhao S Q, Xiao X Y, et al. Dureader: A Chinese machine reading comprehension dataset from real-world applications. In: Proceedings of the 2018 Workshop on Machine Reading for Question Answering. Melbourne, Australia: ACL, 2018. 37−46
    [13] Chen D Q, Bolton J, Manning C D. A thorough examination of the CNN/daily mail reading comprehension task. In: Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Berlin, Germany: ACL, 2016. 2358−2376
    [14] Seo M, Kembhavi A, Farhadi A, Hajishirzi H. Bidirectional attention flow for machine comprehension. In: Proceedings of the 5th International Conference on Learning Representations. Toulon, France: ICLR, 2017.
    [15] Wang W H, Yang N, Wei F R, Chang B B, Zhou M. Gated self-matching networks for reading comprehension and question answering. In: Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Vancouver, Canada: ACL, 2017. 189−198
    [16] Yu A W, Dohan D, Luong M T. QANet: Combining local convolution with global self-attention for reading comprehension. In: Proceedings of the 6th International Conference on Learning Representations. Vancouver, Canada: ICLR, 2018.
    [17] Liu Y H, Ott M, Goyal N, Du J F, Joshi M, Chen D Q, et al. RoBERTa: A robustly optimized BERT pretraining approach. arXiv: 1907.11692, 2019.
    [18] Lan Z Z, Chen M D, Goodman S, Gimpel K, Sharma P, Soricut R. ALBERT: A lite BERT for self-supervised learning of language representations. In: Proceedings of the 8th International Conference on Learning Representations. Addis Ababa, Ethiopia: ICLR, 2020.
    [19] Sun Y, Wang S H, Li Y K, Feng S K, Chen X Y, Zhang H, et al. ERNIE: Enhanced representation through knowledge integration. arXiv: 1904.09223, 2019.
    [20] Cui Y M, Che W X, Liu T, Qin B, Yang Z Q. Pre-training with whole word masking for Chinese BERT. IEEE Transactions on Audio, Speech, and Language Processing, 2021, 29: 3504−3514
    [21] Ding M, Zhou C, Chen Q B, Yang H X, Tang J. Cognitive graph for multi-hop reading comprehension at scale. In: Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence, Italy: ACL, 2019. 2694−2703
    [22] Tu M, Wang G T, Huang J, Tang Y, He X D, Zhou B W. Multi-hop reading comprehension across multiple documents by reasoning over heterogeneous graphs. In: Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence, Italy: ACL, 2019. 2704−2713
    [23] Nishida K, Nishida K, Nagata M, Otsuka A, Saito I, Asano H, et al. Answering while summarizing: multi-task learning for multi-hop QA with evidence extraction. In: Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence, Italy: ACL, 2019. 2335−2345
    [24] Tu M, Huang K, Wang G T, Huang J, He X D, Zhou B W. Select, answer and explain: Interpretable multi-hop reading comprehension over multiple documents. In: Proceedings of the 32nd Innovative Applications of Artificial Intelligence Conference. New York, USA: AAAI, 2020. 9073−9080
    [25] Johnson R, Zhang T. Deep pyramid convolutional neural networks for text categorization. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Vancouver, Canada: ACL, 2017. 562−570
    [26] Pennington J, Socher R, Manning C D. GloVe: Global vectors for word representation. In: Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Doha, Qatar: ACL, 2014. 1532−1543
    [27] 刘康, 张元哲, 纪国良, 来斯惟, 赵军. 基于表示学习的知识库问答研究进展与展望. 自动化学报, 2016, 42(6): 807-818.

    Liu Kang, Zhang Yuan-Zhe, Ji Guo-Liang, Lai Si-Wei, Zhao Jun. Representation learning for question answering over knowledge base: An Overview. ACTA AUTOMATICA SINICA, 2016, 42(6): 807-818(in Chinese).
  • 期刊类型引用(5)

    1. 刘青,陈艳平,邹安琪,黄瑞章,秦永彬. 面向机器阅读理解的边界感知方法. 计算机应用. 2024(07): 2004-2010 . 百度学术
    2. 张虎,范越,李茹. 基于多任务联合学习的多片段机器阅读理解方法研究. 中文信息学报. 2024(11): 79-90 . 百度学术
    3. 李瑾晨,李艳玲,葛凤培,林民. 面向法律领域的智能系统研究综述. 计算机工程与应用. 2023(07): 31-50 . 百度学术
    4. 杨建喜,向芳悦,李韧,李东,蒋仕新,张露伊,肖桥. 长短答案分类指导的机器阅读理解方法. 中文信息学报. 2023(05): 112-121 . 百度学术
    5. 丁美荣,刘鸿业,徐马一,龚思雨,陈晓敏,曾碧卿. 面向机器阅读理解的多任务层次微调模型. 计算机系统应用. 2022(03): 212-219 . 百度学术

    其他类型引用(7)

  • 加载中
  • 图(6) / 表(3)
    计量
    • 文章访问数:  1634
    • HTML全文浏览量:  363
    • PDF下载量:  187
    • 被引次数: 12
    出版历程
    • 收稿日期:  2020-11-16
    • 网络出版日期:  2021-05-25
    • 刊出日期:  2022-11-22

    目录

    /

    返回文章
    返回