2.793

2018影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

融合对抗学习的因果关系抽取

冯冲 康丽琪 石戈 黄河燕

冯冲, 康丽琪, 石戈, 黄河燕. 融合对抗学习的因果关系抽取. 自动化学报, 2018, 44(5): 811-818. doi: 10.16383/j.aas.2018.c170481
引用本文: 冯冲, 康丽琪, 石戈, 黄河燕. 融合对抗学习的因果关系抽取. 自动化学报, 2018, 44(5): 811-818. doi: 10.16383/j.aas.2018.c170481
FENG Chong, KANG Li-Qi, SHI Ge, HUANG He-Yan. Causality Extraction With GAN. ACTA AUTOMATICA SINICA, 2018, 44(5): 811-818. doi: 10.16383/j.aas.2018.c170481
Citation: FENG Chong, KANG Li-Qi, SHI Ge, HUANG He-Yan. Causality Extraction With GAN. ACTA AUTOMATICA SINICA, 2018, 44(5): 811-818. doi: 10.16383/j.aas.2018.c170481

融合对抗学习的因果关系抽取


DOI: 10.16383/j.aas.2018.c170481
详细信息
    作者简介:

    康丽琪  北京理工大学计算机学院硕士研究生.主要研究方向为信息抽取, 关系抽取.E-mail:klq207@126.com

    石戈  北京理工大学计算机学院博士研究生.主要研究方向为信息抽取, 事件抽取.E-mail:shige@bit.edu.cn

    黄河燕  北京理工大学计算机学院教授.1989年获中国科学院计算技术研究所计算机科学与技术博士学位.主要研究方向为自然语言处理和机器翻译社交网络与信息检索, 智能处理系统.E-mail:hhy63@bit.edu.cn

    通讯作者: 冯冲  北京理工大学计算机学院副研究员.2005年获中国科学技术大学计算机科学系博士学位.主要研究方向为自然语言处理, 信息抽取, 机器翻译.本文通信作者.E-mail:fengchong@bit.edu.cn
  • 本文责任编委 李力

Causality Extraction With GAN

More Information
    Author Bio:

     Master student at the College of Computer Science and Technology, Beijing Institute of Technology. Her research interest covers information extraction, relation extraction

     Ph. D. candidate at the College of Computer Science and Technology, Beijing Institute of Technology. His research interest covers information extraction, event extraction

     Professor at the College of Computer Science and Technology, Beijing Institute of Technology. She received her Ph. D. degree from the Institute of Computing Technology, Chinese Academy of Sciences. Her research interest covers natural language processing, machine translation, social network, information retrieval, and intelligent processing system

    Corresponding author: FENG Chong  Associate professor at the College of Computer Science and Technology, Beijing Institute of Technology. He received his Ph. D. degree from the Department of Computer Science, University of Science and Technology of China in 2005. His research interest covers natural language processing, information extraction, and machine translation. Corresponding author of this paper
  • 摘要: 因果关系抽取在事件预测、情景生成、问答以及文本蕴涵等任务上都有重要的应用价值.但多数现有的因果关系抽取方法都需要人工定义模式和约束,且严重依赖知识库.为此,本文利用生成式对抗网络(Generative adversarial networks,GAN)的对抗学习特性,将带注意力机制的双向门控循环单元神经网络(Bidirectional gated recurrent units networks,BGRU)与对抗学习相融合,通过重定义生成模型和判别模型,基本的因果关系抽取网络能够与判别网络形成对抗,进而从因果关系解释信息中获得高区分度的特征.实验结果表明,与当前用于因果关系抽取的方法相比较,该方法表现出更优的抽取效果.
    本文责任编委 李力
  • 图  1  GAN结构

    Fig.  1  The structure of GAN

    图  2  模型整体架构

    Fig.  2  The overall architecture of the model

    图  3  带注意力机制的双向门控循环单元神经网络

    Fig.  3  Bidirectional GRU model with attention

    图  4  不同模型的对比实验

    Fig.  4  Comparative experiment of different models

    表  1  数据集的构造说明

    Table  1  Description of the dataset

    关系类型 数据来源 数据条数
    因果关系 SemEval 1 331
    新闻语料人工标注 700
    非因果关系 SemEval 1 900
    下载: 导出CSV

    表  2  BGRU因果关系抽取结果(%)

    Table  2  Results of BGRU causality extraction (%)

    Model P R F1
    B-BGRU 92.93 85.98 89.32
    R-BGRU 93.74 94.39 94.06
    下载: 导出CSV

    表  3  GAN框架下的因果关系抽取(%)

    Table  3  Causality extraction under GAN framework (%)

    Model P R F1
    B-BGRU 92.93 85.98 89.32
    GAN-BGRU 93.75 87.62 90.58
    下载: 导出CSV

    表  4  带注意力机制的GAN框架下的因果关系抽取(%)

    Table  4  Causality extraction under GAN framework with attention (%)

    Model P R F1
    B-Att-BGRU 92.91 88.79 90.80
    R-Att-BGRU 94.63 94.63 94.63
    GAN-Att-BGRU 93.17 89.25 91.17
    下载: 导出CSV
  • [1] Radinsky K, Davidovich S, Markovitch S. Learning causality for news events prediction. In: Proceedings of the 21st International Conference on World Wide Web. Lyon, France: ACM, 2012. 909-918
    [2] Hashimoto C, Torisawa K, Kloetzer J, Sano M, Varga I, Oh J H, et al. Toward future scenario generation: extracting event causality exploiting semantic relation, context, and association features. In: Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. Baltimore, MD, USA: ACL, 2014. 987-997
    [3] Girju R. Automatic detection of causal relations for question answering. In: Proceedings of the 2003 ACL Workshop on Multilingual Summarization and Question Answering. Sapporo, Japan: ACL, 2003. 76-83
    [4] Oh J H, Torisawa K, Hashimoto C, Sano M, De Saeger S, Ohtake K. Why-question answering using intra-and inter-sentential causal relations. In: Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics. Sofia, Bulgaria: ACL, 2013. 1733-1743
    [5] Goodfellow I J, Pouget-Abadie J, Mirza M, Xu B, Warde-Farley D, Ozair S, et al. Generative adversarial nets. In: Proceedings of the 28th Annual Conference on Neural Information Processing Systems. Montreal, QC, Canada: NIPS, 2014. 2672-2680
    [6] Abe S, Inui K, Matsumoto Y. Two-phased event relation acquisition: coupling the relation-oriented and argument-oriented approaches. In: Proceedings of the 22nd International Conference on Computational Linguistics. Manchester, United Kingdom: ACM, 2008. 1-8
    [7] Do Q X, Chan Y S, Roth D. Minimally supervised event causality identification. In: Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing. Edinburgh, United Kingdom: ACM, 2011. 294-303
    [8] Hashimoto C, Torisawa K, De Saeger S, Oh J H, Kazama J. Excitatory or inhibitory: a new semantic orientation extracts contradiction and causality from the web. In: Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Jeju Island, Korea: ACM, 2012. 619-630
    [9] Rink B, Harabagiu S. UTD: classifying semantic relations by combining lexical and semantic resources. In: Proceedings of the 5th International Workshop on Semantic Evaluation. Los Angeles, California, USA: ACM, 2010. 256-259
    [10] Zeng D J, Liu K, Lai S W, Zhou G Y, Zhao J. Relation classification via convolutional deep neural network. In: Proceedings of the 25th International Conference on Computational Linguistics. Dublin, Ireland: ACL, 2014. 2335-2344
    [11] Mikolov T, Karafiát M, Burget L, Černocký J, Khudanpur S. Recurrent neural network based language model. In: Proceedings of the 11th Annual Conference of the International Speech Communication Association. Makuhari, Chiba, Japan: DBLP, 2010. 1045-1048
    [12] Zhang D X, Wang D. Relation classification via recurrent neural network. arXiv: 1508. 01006, 2015.
    [13] Zhang S, Zheng D Q, Hu X C, Yang M. Bidirectional long short-term memory networks for relation classification. In: Proceedings of the 29th Pacific Asia Conference on Language, Information and Computation. Shanghai, China: PACLIC, 2015. 73-78
    [14] Zhou P, Shi W, Tian J, Qi Z Y, Li B C, Hao H W, et al. Attention-based bidirectional long short-term memory networks for relation classification. In: Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Berlin, Germany: ACL, 2016. 207-212
    [15] Chung J Y, Gulcehre C, Cho K H, Bengio Y. Empirical evaluation of gated recurrent neural networks on sequence modeling. arXiv: 1412. 3555, 2014.
    [16] Zhang Y Z, Gan Z, Carin L. Generating text via adversarial training. In: Proceedings of the 2016 Workshop on Adversarial Training. Barcelona, Spain: NIPS, 2016.
    [17] Yu L T, Zhang W N, Wang J, Yu Y. SeqGAN: sequence generative adversarial nets with policy gradient. In: Proceedings of the 31st AAAI Conference on Artificial Intelligence. San Francisco, California, USA: AAAI, 2017. 2852-2858
    [18] Li J W, Monroe W, Shi T L, Jean S, Ritter A, Jurafsky D. Adversarial learning for neural dialogue generation. arXiv: 1701. 06547, 2017.
    [19] Arjovsky M, Chintala S, Bottou L. Wasserstein GAN. arXiv: 1701. 07875, 2017.
    [20] Gulrajani I, Ahmed F, Arjovsky M, Dumoulin V, Courville A. Improved training of Wasserstein GANs. In: Proceedings of the 31st Annual Conference on Neural Information Processing Systems. Long Beach, CA, USA: NIPS, 2017. 5769-5779
  • [1] 刘一敏, 蒋建国, 齐美彬, 刘皓, 周华捷. 融合生成对抗网络和姿态估计的视频行人再识别方法[J]. 自动化学报, 2020, 46(3): 576-584. doi: 10.16383/j.aas.c180054
    [2] 付晓, 沈远彤, 李宏伟, 程晓梅. 基于半监督编码生成对抗网络的图像分类模型[J]. 自动化学报, 2020, 46(3): 531-539. doi: 10.16383/j.aas.c180212
    [3] 孔锐, 黄钢. 基于条件约束的胶囊生成对抗网络[J]. 自动化学报, 2020, 46(1): 94-107. doi: 10.16383/j.aas.c180590
    [4] 王金甲, 纪绍男, 崔琳, 夏静, 杨倩. 基于注意力胶囊网络的家庭活动识别[J]. 自动化学报, 2019, 45(11): 2199-2204. doi: 10.16383/j.aas.c180721
    [5] 金侠挺, 王耀南, 张辉, 刘理, 钟杭, 贺振东. 基于贝叶斯CNN和注意力网络的钢轨表面缺陷检测系统[J]. 自动化学报, 2019, 45(12): 2312-2327. doi: 10.16383/j.aas.c190143
    [6] 郑文博, 王坤峰, 王飞跃. 基于贝叶斯生成对抗网络的背景消减算法[J]. 自动化学报, 2018, 44(5): 878-890. doi: 10.16383/j.aas.2018.c170562
    [7] 唐贤伦, 杜一铭, 刘雨微, 李佳歆, 马艺玮. 基于条件深度卷积生成对抗网络的图像识别方法[J]. 自动化学报, 2018, 44(5): 855-864. doi: 10.16383/j.aas.2018.c170470
    [8] 赵树阳, 李建武. 基于生成对抗网络的低秩图像生成方法[J]. 自动化学报, 2018, 44(5): 829-839. doi: 10.16383/j.aas.2018.c170473
    [9] 卢倩雯, 陶青川, 赵娅琳, 刘蔓霄. 基于生成对抗网络的漫画草稿图简化[J]. 自动化学报, 2018, 44(5): 840-854. doi: 10.16383/j.aas.2018.c170486
    [10] 孙亮, 韩毓璇, 康文婧, 葛宏伟. 基于生成对抗网络的多视图学习与重构算法[J]. 自动化学报, 2018, 44(5): 819-828. doi: 10.16383/j.aas.2018.c170496
    [11] 王坤峰, 左旺孟, 谭营, 秦涛, 李力, 王飞跃. 生成式对抗网络:从生成数据到创造智能[J]. 自动化学报, 2018, 44(5): 769-774. doi: 10.16383/j.aas.2018.y000001
    [12] 张龙, 赵杰煜, 叶绪伦, 董伟. 协作式生成对抗网络[J]. 自动化学报, 2018, 44(5): 804-810. doi: 10.16383/j.aas.2018.c170483
    [13] 孙秋野, 胡旌伟, 杨凌霄, 张化光. 基于GAN技术的自能源混合建模与参数辨识方法[J]. 自动化学报, 2018, 44(5): 901-914. doi: 10.16383/j.aas.2018.c170487
    [14] 姚乃明, 郭清沛, 乔逢春, 陈辉, 王宏安. 基于生成式对抗网络的鲁棒人脸表情识别[J]. 自动化学报, 2018, 44(5): 865-877. doi: 10.16383/j.aas.2018.c170477
    [15] 王功明, 乔俊飞, 王磊. 一种能量函数意义下的生成式对抗网络[J]. 自动化学报, 2018, 44(5): 793-803. doi: 10.16383/j.aas.2018.c170600
    [16] 林懿伦, 戴星原, 李力, 王晓, 王飞跃. 人工智能研究的新前线:生成式对抗网络[J]. 自动化学报, 2018, 44(5): 775-792. doi: 10.16383/j.aas.2018.y000002
    [17] 王坤峰, 苟超, 段艳杰, 林懿伦, 郑心湖, 王飞跃. 生成式对抗网络GAN的研究进展与展望[J]. 自动化学报, 2017, 43(3): 321-332. doi: 10.16383/j.aas.2017.y000003
    [18] 钟军, 禹龙, 田生伟, 吐尔根·依布拉音. 基于双层模型的维吾尔语突发事件因果关系抽取[J]. 自动化学报, 2014, 40(4): 771-779. doi: 10.3724/SP.J.1004.2013.00771
    [19] 冯欣, 杨丹, 张凌. 基于视觉注意力变化的网络丢包视频质量评估[J]. 自动化学报, 2011, 37(11): 1322-1331. doi: 10.3724/SP.J.1004.2011.01322
    [20] 刘志强. 因果关系,贝叶斯网络与认知图[J]. 自动化学报, 2001, 27(4): 552-566.
  • 加载中
图(4) / 表(4)
计量
  • 文章访问数:  927
  • HTML全文浏览量:  397
  • PDF下载量:  1502
  • 被引次数: 0
出版历程
  • 收稿日期:  2017-08-31
  • 录用日期:  2018-01-08
  • 刊出日期:  2018-05-20

融合对抗学习的因果关系抽取

doi: 10.16383/j.aas.2018.c170481
    作者简介:

    康丽琪  北京理工大学计算机学院硕士研究生.主要研究方向为信息抽取, 关系抽取.E-mail:klq207@126.com

    石戈  北京理工大学计算机学院博士研究生.主要研究方向为信息抽取, 事件抽取.E-mail:shige@bit.edu.cn

    黄河燕  北京理工大学计算机学院教授.1989年获中国科学院计算技术研究所计算机科学与技术博士学位.主要研究方向为自然语言处理和机器翻译社交网络与信息检索, 智能处理系统.E-mail:hhy63@bit.edu.cn

    通讯作者: 冯冲  北京理工大学计算机学院副研究员.2005年获中国科学技术大学计算机科学系博士学位.主要研究方向为自然语言处理, 信息抽取, 机器翻译.本文通信作者.E-mail:fengchong@bit.edu.cn
  • 本文责任编委 李力

摘要: 因果关系抽取在事件预测、情景生成、问答以及文本蕴涵等任务上都有重要的应用价值.但多数现有的因果关系抽取方法都需要人工定义模式和约束,且严重依赖知识库.为此,本文利用生成式对抗网络(Generative adversarial networks,GAN)的对抗学习特性,将带注意力机制的双向门控循环单元神经网络(Bidirectional gated recurrent units networks,BGRU)与对抗学习相融合,通过重定义生成模型和判别模型,基本的因果关系抽取网络能够与判别网络形成对抗,进而从因果关系解释信息中获得高区分度的特征.实验结果表明,与当前用于因果关系抽取的方法相比较,该方法表现出更优的抽取效果.

本文责任编委 李力

English Abstract

冯冲, 康丽琪, 石戈, 黄河燕. 融合对抗学习的因果关系抽取. 自动化学报, 2018, 44(5): 811-818. doi: 10.16383/j.aas.2018.c170481
引用本文: 冯冲, 康丽琪, 石戈, 黄河燕. 融合对抗学习的因果关系抽取. 自动化学报, 2018, 44(5): 811-818. doi: 10.16383/j.aas.2018.c170481
FENG Chong, KANG Li-Qi, SHI Ge, HUANG He-Yan. Causality Extraction With GAN. ACTA AUTOMATICA SINICA, 2018, 44(5): 811-818. doi: 10.16383/j.aas.2018.c170481
Citation: FENG Chong, KANG Li-Qi, SHI Ge, HUANG He-Yan. Causality Extraction With GAN. ACTA AUTOMATICA SINICA, 2018, 44(5): 811-818. doi: 10.16383/j.aas.2018.c170481
  • 因果关系是"原因"和"结果"之间的关系, 是引起和被引起的关系.因果关系作为一种重要的关系类型, 在许多任务(例如事件预测[1]、情景生成[2]、问答[3]、文本蕴涵等)中起着重要作用.自然语言文本中存在大量的因果关系.例如, 新闻文本中经常报道事故及其造成的后果: The $\langle$e1$\rangle$ arrest$\langle$/e1$\rangle$ has caused an $\langle$e2$\rangle$ outcry$\langle$/e2$\rangle$ of indignation among some industrial and political circles in France.该例包含了arrest (逮捕)和outcry (强烈抗议)之间的因果关系.其中, $\langle$e1$\rangle$、$\langle$/e1$\rangle$、$\langle$e2$\rangle$和$\langle$/e2$\rangle$是用来标识两个实体名词性词的位置指示标签[4].

    因果关系的抽取方法主要分为两类:基于模式匹配的方法和基于机器学习的方法.基于模式匹配的方法包括词典语法模式、语义关系模式等.基于机器学习的方法包括支持向量机(Support vector machine, SVM)、决策树(Decision tree)等.这些方法主要依赖特征工程, 但是特征工程涵盖了繁琐的特征选择和不准确的特征提取, 计算开销大且存在错误传播的问题.以往的方法利用WordNet、NomLex-Plus以及VerbNet等知识库抽取特征, 对知识库依赖性强.

    为避免特征工程的一系列问题, 本文在因果关系抽取任务上探索新的方法.自2014年以来, Goodfellow等[5]提出的生成式对抗网络(Generative adversarial networks, GAN)在生成式任务上取得巨大进展. GAN在结构上受到博弈论的启发, 系统由一个生成模型和一个判别模型构成, 如图 1所示.生成模型捕捉真实数据样本的潜在分布, 并生成新的数据样本; 判别模型是一个二分类器, 判别输入是真实数据还是生成的样本.判别模型的存在使得GAN中的生成模型能够学习去逼近真实数据, 最终让其生成的数据达到以假乱真的地步.与传统基于模式匹配和机器学习的抽取方法相比, GAN能够利用生成模型和判别模型之间的对抗, 获取逼近训练目标的生成模型.

    图  1  GAN结构

    Figure 1.  The structure of GAN

    针对已有因果关系抽取方法在特征工程中存在的问题, 本文提出了一个包含因果关系解释信息的对抗学习框架, 分别将原始语句和包含因果关系解释信息的语句输入到基本模型和因果关系增强模型, 利用两个相同结构的神经网络模型进行因果关系分类.通过基本模型与判别模型的对抗训练, 基本模型能模仿和学习因果关系增强模型生成的特征向量, 进而捕获模型间共同特征, 提升因果关系抽取效果.

    本文的主要贡献包括: 1)提出一种融合对抗学习的因果关系抽取方法, 避免因采用特征工程而引起的一系列问题; 2)针对因果关系抽取任务的特点, 提出"因果关系解释语句"的概念, 尝试将句子级别的信息作为关系抽取的先验知识.通过糅合原句和因果关系解释语句, 借助生成对抗网络的对抗学习方法, 得到更加有效的因果关系抽取模型; 3)为了让因果关系解释信息发挥更大的效用, 提出在融合对抗学习的基础上加入注意力机制, 充分发挥关键信息在最终分类中的作用.

    本文内容安排如下:第1节介绍相关工作; 第2节给出模型的具体架构; 第3节进行实验分析; 第4节总结全文.

    • 因果关系是关系类型中的一种, 对预测未来事件有重要作用. Radinsky等[1]通过从大型新闻语料库中提取因果关系, 预测未来事件; Hashimoto等[2]提出了一种从网络中提取因果关系的监督方法, 产生未来情景.因果关系在问答系统的研究中也有重要地位, Oh等[4]等针对问答系统中询问原因的一类问题, 探究词或子句之间的因果关系.因果关系抽取是关系抽取中备受关注的一部分.以往的方法多采用基于模式匹配或机器学习的方法, 利用词典语法模式[6]、上下文中的单词[4]、单词之间的关联关系[7]以及谓词和名词的语义[8]进行因果关系抽取.相对于因果关系抽取, 关系抽取是一个更加广泛的概念, 通常关注的是多种关系类型的总体抽取效果, 没有针对因果关系类型进行深入研究.

      多年来, 关系抽取任务中的方法层出不穷. Rink和Harabagiu[9]利用外部语料库生成特征, 在SVM分类器上进行研究. Zeng等[10]提出用卷积神经网络(Convolutional neural networks, CNN)进行关系抽取, 采用词汇向量和词的位置向量作为卷积神经网络的输入, 通过卷积层、池化层和非线性层得到句子表示.实体的位置向量和其他相关的词汇特征使得句子中的实体信息能够被较好地考虑到关系抽取中.但是由于CNN不适合学习长距离的语义信息[11], 所以很多学者尝试在循环神经网络(Recurrent neural networks, RNN)上进行关系抽取. Zhang和Wang[12]使用双向循环神经网络抽取文本中的关系, 虽然该模型能利用上下文信息, 但是上下文的范围受限于梯度消散问题.为此, Zhang等[13]提出双向长短期记忆网络(Bidirectional long short-term memory networks, BLSTM), 该模型利用自然语言处理工具和词汇资源来获取特征, 利用LSTM单元实现了较为理想的结果. Zhou等[14]提出了基于注意力机制的双向长短期记忆网络(Bidirectional long short-term memory networks, BLSTM), 该模型仅将带有实体位置指示词的SemEval-2010-Task8数据集作为输入, 不依赖任何词汇资源或自然语言处理系统, 简化了关系抽取的过程, 并且取得了可观的结果.因果关系抽取任务关注的是长序列中两个实体名词性词之间的关系.考虑到上下文信息以及训练速度, 本文采用构造更简单且训练更快的BGRU[15]网络.

    • 自从2014年Goodfellow等[5]提出GAN以来, GAN在图像领域和自然语言处理领域展现了极大潜力.在自然语言处理领域, GAN的应用主要体现在文本生成任务上. Zhang等[16]以LSTM作为GAN的生成模型进行文本的生成. Yu等[17]将序列生成过程当作一个序列决策的过程, 将误差作为一种增强学习的奖励, 以一种前馈的方式训练, 并采用增强学习的探索模式更新生成模型. Li等[18]利用对抗性训练进行开放式对话生成, 将对话生成任务看作强化学习的问题, 联合训练生成模型和判别模型.虽然GAN被应用到了诸多领域, 但在我们掌握的文献范围内本文是第一个将其应用于因果关系抽取任务的尝试与研究.

      GAN从出现以来就存在训练困难、生成样本缺乏多样性等问题.近日, Facebook人工智能研究中心(Facebook Artificial Intelligence Research Center, FAIR)提出Wasserstein GAN (WGAN)[19], 引入Wasserstein距离, 既解决了训练不稳定的问题, 也提供了一个可靠的训练进程指标.而WGAN仍旧存在训练困难和收敛速度慢等问题.因此, Gulrajani等[20]提出了相应的改进方案, 修改了原设计中Lipschitz的施加方式, 将权重剪裁(Weight clipping)改为梯度惩罚(Gradient penalty).实验表明WGAN-GP能够显著提高训练速度, 解决了原始WGAN收敛缓慢的问题.鉴于WGAN-GP的明显优势, 本文采用WGAN-GP的训练方法.

    • 针对因果关系抽取任务, 引入外部资源解释补充因果关系有助于提升模型在因果关系分类上的效果.通过利用WGAN-GP能够让两个数据分布靠近的特性, 本文尝试在另一数据分布中引入外部资源, 使得关系分类模型能够在对抗学习中学习到外部资源提供的高区分度的分类特征, 从而提高关系分类效果.

      在本文提出的模型中, 两个数据分布均为通过BGRU抽取后得到的特征向量表示.由于因果关系解释语句能提供更有区分度的特征, 因而在本文的方法中, 除了需要与GAN判别模型对抗的关系分类模型(基本模型), 还需设计一个包含因果关系解释信息的增强模型(因果关系增强模型).因果关系增强模型相当于人工注释器, 为每个输入的句子添加关系解释语句, 使得句子的分类特征更加明显.因果关系增强模型拥有和基本模型相同的网络结构, 经过对其输入的额外处理, 该模型得到的特征向量会包含更多利于分类的信息.基本模型会向因果关系增强模型学习句子的特征向量表示, 尤其是特征向量中具有高区分度的部分, 使得两个模型抽取的潜在特征尽可能地接近, 从而获得更好的分类结果.

      该学习过程由基本模型与判别模型通过对抗的方式推动进行.在对抗学习中, 判别模型试图增大基本模型与因果关系增强模型所得特征向量的差异, 而基本模型希望两个模型得到的特征向量越来越接近.最终, 在优化基本模型和判别模型的过程中, 两个数据分布会逐渐靠近, 即基本模型的特征向量会尽量趋近于关系增强模型的特征向量, 使最终分类器的关系抽取结果得到提升.本文模型的整体架构见图 2.

      图  2  模型整体架构

      Figure 2.  The overall architecture of the model

    • 关系抽取网络由基本模型、因果关系增强模型以及分类器组成.基本模型的输入是带有实体名词性词标签的句子, 因果关系增强模型的输入要在此基础上加入因果关系解释语句.因果关系解释语句是依据因果关系的相关定义及解释, 预先准备的多种解释语句模板.使用模板时需要依据原句将两个实体名词性词填充其中, 从而显式表达出原句的因果关系.在因果关系增强模型的输入部分, 针对每条待抽取关系的句子, 每次随机选择一个解释说明语句加入到原句之后, 组成新的句子.例如:

      原句: The $\langle$e1$\rangle$ arrest $\langle$/e1$\rangle$ has caused an $\langle$e2$\rangle$ outcry $\langle$/e2$\rangle$ of indignation among some industrial and political circles in France.

      因果关系解释语句: Arrest makes outcry take place.

      新句: The $\langle$e1$\rangle$ arrest $\langle$/e1$\rangle$ has caused an $\langle$e2$\rangle$ outcry $\langle$/e2$\rangle$ of indignation among some industrial and political circles in France. Arrest makes outcry take place.

      关系: Cause-Effect (e1, e2).

      根据关系的方向性, 因果关系类型又可以分为Cause-Effect (e1, e2)和Cause-Effect (e2, e1)两种, 括号内前者为原因, 后者为结果.本文的因果关系抽取网络中能够同时对关系及其方向性作出判断.

      基本模型和因果关系增强模型均采用双向门控循环单元神经网络, 整个关系抽取网络的架构见图 3.网络由输入层、词向量层、BGRU层、注意力层以及输出分类层构成.其中, 最后一层分类层被两个模型共享, 又称分类器.输入层将句子