2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

面向研究问题的深度学习事件抽取综述

万齐智 万常选 胡蓉 刘德喜 刘喜平 廖国琼

万齐智, 万常选, 胡蓉, 刘德喜, 刘喜平, 廖国琼. 面向研究问题的深度学习事件抽取综述. 自动化学报, 2024, 50(11): 2079−2101 doi: 10.16383/j.aas.c230184
引用本文: 万齐智, 万常选, 胡蓉, 刘德喜, 刘喜平, 廖国琼. 面向研究问题的深度学习事件抽取综述. 自动化学报, 2024, 50(11): 2079−2101 doi: 10.16383/j.aas.c230184
Wan Qi-Zhi, Wan Chang-Xuan, Hu Rong, Liu De-Xi, Liu Xi-Ping, Liao Guo-Qiong. Event extraction based on deep learning: A survey of research issue. Acta Automatica Sinica, 2024, 50(11): 2079−2101 doi: 10.16383/j.aas.c230184
Citation: Wan Qi-Zhi, Wan Chang-Xuan, Hu Rong, Liu De-Xi, Liu Xi-Ping, Liao Guo-Qiong. Event extraction based on deep learning: A survey of research issue. Acta Automatica Sinica, 2024, 50(11): 2079−2101 doi: 10.16383/j.aas.c230184

面向研究问题的深度学习事件抽取综述

doi: 10.16383/j.aas.c230184 cstr: 32138.14.j.aas.c230184
基金项目: 国家自然科学基金(62272205, 619721184, 62272206, 62076112), 江西省教育厅科学技术项目(GJJ2400411), 江西省自然科学基金(20242BAB25119, 20232ACB202008), 江西省主要学科学术和技术带头人培养计划领军人才项目(20213BCJL22041)资助
详细信息
    作者简介:

    万齐智:江西财经大学计算机与人工智能学院讲师. 主要研究方向为人工智能, 深度学习, 信息抽取, 自然语言处理和文本数据挖掘. E-mail: wanqizhi1006@163.com

    万常选:江西财经大学计算机与人工智能学院教授. 主要研究方向为Web数据管理, 情感分析, 数据挖掘和信息检索. 本文通信作者. E-mail: wanchangxuan@263.net

    胡蓉:江西财经大学计算机与人工智能学院博士研究生. 主要研究方向为信息抽取, 自然语言处理和大数据分析. E-mail: hurong2014@126.com

    刘德喜:江西财经大学计算机与人工智能学院教授. 主要研究方向为自然语言处理, 信息检索. E-mail: dexi.liu@163.com

    刘喜平:江西财经大学计算机与人工智能学院教授. 主要研究方向为信息检索, 数据挖掘. E-mail: liuxiping@jxufe.edu.cn

    廖国琼:江西财经大学虚拟现实现代产业学院教授. 主要研究方向为数据库和数据挖掘. E-mail: liaoguoqiong@163.com

Event Extraction Based on Deep Learning: A Survey of Research Issue

Funds: Supported by National Natural Science Foundation of China (62272205, 619721184, 62272206, 62076112), Science & Technology Project of the Department of Education of Jiangxi Province (GJJ2400411), Natural Science and Foundation of Jiangxi Province (20242BAB25119, 20232ACB202008), and Fundation Programme for Academic and Technical Leaders in Major Disciplines of Jiangxi Province (20213BCJL22041)
More Information
    Author Bio:

    WAN Qi-Zhi Lecturer at the School of Computing and Artificial Intelligence, Jiangxi University of Finance and Economics. His research interest covers artificial intelligence, deep learning, information extraction, natural language processing, and text data mining

    WAN Chang-Xuan Professor at the School of Computing and Artificial Intelligence, Jiangxi University of Finance and Economics. His research interest covers Web data management, sentiment analysis, data mining, and information retrieval. Corresponding author of this paper

    HU Rong Ph.D. candidate at the School of Computing and Artificial Intelligence, Jiangxi University of Finance and Economics. Her research interest covers information extraction, natural language processing, and big data analysis

    LIU De-Xi Professor at the School of Computing and Artificial Intelligence, Jiangxi University of Finance and Economics. His research interest covers natural language processing and information retrieval

    LIU Xi-Ping Professor at the School of Computing and Artificial Intelligence, Jiangxi University of Finance and Economics. His research interest covers information retrieval and data mining

    LIAO Guo-Qiong Professor at the Virtual Reality Modern Industrial Institute, Jiangxi University of Finance and Economics. His research interest covers database and data mining

  • 摘要: 事件抽取是一个历史悠久且极具挑战的研究任务, 近年来取得了大量优异成果. 由于事件抽取涉及的研究内容较多, 它们的目标和重心各不相同, 使得读者难以全面地了解事件抽取包含的研究任务、研究问题和未来热点趋势. 为此, 面向研究问题, 对基于深度学习的事件抽取研究成果进行整理. 首先, 界定事件相关概念, 论述事件抽取的研究任务, 明确各研究任务的目标, 再总结各任务上的代表性研究成果; 接着, 总结现有事件抽取成果主要致力于解决哪些方面研究问题, 分析为什么会存在这些问题, 分析为什么需要解决这些问题; 然后, 对各方面研究问题进行技术总结, 分析各自研究方案和研究推进过程; 最后, 讨论事件抽取的发展趋势.
  • 随着互联网技术的快速发展, 文本数据无处不在且来源非常广泛, 如微博、新闻、公告、评论等. 在数以亿计的数据中有效挖掘有价值知识, 显得十分关键. 事件作为知识表示的一种具体形式, 是某些事情在一定时间和地点的具体发生[1], 主要涵盖人物/组织、行为、时间和地点等信息, 能有效地反映真实社会的状况, 具有重要的意义, 目前在较多特定领域(如财经、生物、医疗、网络安全、图像、地理和法律等领域)均有研究[24].

    根据事件类型是否给定, 可分为封闭域和开放域事件抽取2类. 对于事件抽取范围, 学者们着重解决语句级事件抽取[527], 也有旨在获取文档级事件的研究[2836]. 为了解决标注数据不足问题, 学者们提出各种解决途径[11, 13, 2224, 33, 3745]. 此外, 由于不同领域和语言的特点存在差异, 也有相关研究[4647] 致力于解决这些问题.

    针对不同研究问题, 研究的着力点和对应贡献的侧重点不尽相同. 例如, 对领域问题, 学者们着重挖掘和利用不同领域数据的特点; 对训练语料不足问题, 学者们致力于开发自动增加数据或迁移学习方法. 因此, 不能简单地根据文献采用的模型方法, 将各种研究问题进行比较[4850].

    本文重点从事件抽取的研究任务及其发展、涉及的研究问题及解决方案出发, 对事件抽取进行回顾和总结, 主要贡献如下:

    1)系统阐述了事件抽取包含的研究任务, 调查了各研究任务上现有的代表性研究成果, 并宏观分析了各任务的研究进展情况.

    2)总结了事件抽取研究成果主要关注的研究问题, 并分析了为什么会存在这些问题, 以及为什么需要解决这些问题; 同时针对每个研究问题, 分类总结了解决该问题的研究方案和研究推进过程.

    3)讨论了事件抽取的未来发展趋势, 并分析了成为趋势的原因.

    本文结构如下: 第1节阐述事件抽取的研究任务及成果; 第2节总结归纳现有文献涉及的研究进展及解决方案; 第3节分析事件抽取未来发展趋势; 第4节为结束语.

    本节首先总结事件抽取的研究任务, 给出事件抽取的任务框架; 然后基于现有文献, 统计近几年各研究任务被关注程度; 最后, 分析导致这种结果的原因, 同时论述各研究任务的大体进展情况.

    为了较为清楚地描述事件抽取的研究任务, 本文先讨论事件的定义. 目前, 对事件的定义没有达成共识, 不同应用和任务的含义有所不同. 现有研究大多遵循ACE2005给出的事件定义, 即事件指涉及参与者的某个具体发生[1]. 除了该定义外, 还存在其他定义, 如文献[51-52]关注与人类自身有关的事件, 如个人的健康、生活等, 称为个人事件; 文献[53]考虑能反映社会现象的具体发生, 称为社会事件; 文献[54-55]从语句的结构和表达含义出发, 将能独立表达语句某个主干含义的三元组(主语、谓语、宾语)称为事件.

    事件抽取相关任务最早可追溯到1998年的MUE-7会议. 目前, 主要包括事件本体归纳、事件抽取、话题检测和跟踪任务. 考虑到话题的内涵比较宏大和泛化, 话题检测和跟踪任务与事件抽取存在较大差异, 因此本文只总结前2个任务. 由于它们都涉及事件的识别和事件相关要素及内容的抽取, 本文统称为事件识别及其要素抽取任务.

    1.1.1   事件本体归纳

    事件本体归纳, 也称为事件模板/模式归纳, 指从语料中学习归纳出其包含的事件本体, 最终需要明确事件的类型、每种类型大概包含哪些事件触发词、事件有哪些论元角色以及通常包含哪些词语等. 该任务由事件类型归纳和事件论元角色归纳2部分组成. 其中, 事件类型归纳只需从语料中归纳存在的事件类型; 事件论元角色归纳不仅需要归纳事件类型, 还需要为每种事件类型归纳相应的论元角色(即槽). 根据事件类型是否指定, 该类任务分为2种情形:

    1)封闭域. 模型从对应的语料中学习指定类型的事件本体. 由于事件类型指定, 在一定程度上限制了模型的灵活性, 所以在封闭域情形下训练的模型对新的事件类型的本体归纳有局限性.

    2)开放域. 由模型根据输入的数据, 学习归纳出所有事件类型及其本体. 对于开放域情形, 只需输入不同场景的数据, 模型即可获取对应的事件类型及其本体, 因此对模型的学习归纳能力要求较高.

    1.1.2   事件抽取

    事件抽取是指在确定事件本体或结构下, 从文档/语句中识别出符合本体或结构要求的事件, 然后选择相关词语填充本体中的论元角色. 根据是否抽取事件论元, 该任务分为事件检测和事件论元抽取2个子任务:

    1)事件检测是指针对给定文档/语句, 判定其是否包含事件, 识别事件的类型或识别出事件的触发词和事件类型.

    2)事件论元抽取简称论元抽取, 是指根据给定事件, 抽取事件相关的论元信息.

    根据事件类型是否指定, 事件抽取及其相关子任务可分为封闭域和开放域2种情形. 事件抽取的封闭域是指只抽取指定类型及其本体事件, 开放域是指不限定事件具体类型, 抽取语料中所有满足定义的事件. 对于开放域, 因为没有确定的事件类型, 每个事件需要抽取的触发词类型和论元角色不清, 所以通常需要事先确定事件结构, 即明确抽取具有什么特征事件要素, 如文献[54-55]指定的(主语、谓语、宾语)三元组结构.

    需要注意的是, 事件结构和事件本体存在一定区别, 事件本体中的论元角色强调论元相对触发词扮演的角色, 而事件结构特征通常是从角色含义或句法结构上进行界定. 例如, 抽取扮演施事者或受事者角色含义的词语作为事件论元, 但无法建立论元与事件(触发词)间的关联, 即不知道施事者和受事者对应哪个事件(触发词); 再如, 抽取(主语、谓语、宾语)三元组结构事件, 其中谓语对应事件触发词, 主语和宾语分别表示句法结构上的事件论元, 但主语和宾语并不一定都真实扮演谓语的施事者和受事者角色. 因此, 通常将开放域事件称为开放事件.

    图1为事件识别及其要素抽取的任务框架. 其中事件本体归纳任务面向文档级, 即不存在语句级. 为了揭示事件抽取范围, 文档级用虚线框表示.

    图 1  事件识别及其要素抽取的任务框架
    Fig. 1  Task framework of event recognition and event element extraction

    为了展示事件检测、论元抽取和事件抽取间的关系, 新增事件抽取的虚线框, 其任务与原始事件抽取一样, 采用双向虚线. 为了揭示事件抽取实现的不同模式, 为事件检测和论元抽取增加了包含的虚线框. 事件检测→论元抽取→事件抽取的过程为流水模式, 由整个虚线框流向事件抽取为联合模式. 其中事件检测→论元抽取表示论元抽取执行基于事件检测任务提供的事件信息, 实线框的事件抽取→论元抽取反映事件由语料标注信息确定. 综上所述, 事件本体归纳与事件抽取存在较大区别. 事件本体归纳旨在从语料中学习其中蕴含的事件类型及其本体, 而后者关注事件信息的抽取.

    本文主要总结事件抽取任务的研究进展, 各任务上已取得的代表性研究成果如图2所示. 其中, 文献按时间顺序排列; 文献[41, 51-53, 56-58]代表涉及事件新概念的相关研究成果, 如个人事件[51-52]、社会事件[59]等. 图2不仅展示了各任务下的研究成果数量、每个成果所属的研究任务, 通过各个任务下不同年度的研究成果数量, 还揭示了研究热点的变化情况, 可以看出事件抽取研究的整体发展趋势.

    图 2  各任务上的代表性研究成果
    Fig. 2  Representative research results for each task

    图2可以看出, 在研究成果数量上, 由于事件检测是基础任务, 所以其对应的研究成果多于论元抽取. 对于事件检测和论元抽取, 封闭域语句级研究成果集中在2020年左右. 这是因为该期间深度学习技术的快速发展, 大量模型被提出且用于解决各种问题. 随着大语言模型的兴起和小样本技术的成熟, 2022—2023 年出现了许多利用大语言模型探讨封闭域语句级事件检测和论元抽取的研究. 相比之下, 面向文档级事件检测和论元抽取、开放域事件检测和论元抽取的研究成果则较少. 由于面向封闭域研究成果、语句级研究成果大量涌现, 使其局限被关注, 从而提出相应的研究问题和解决办法, 如文档级事件论元抽取的提出是为了克服语句级论元跨句、上下文信息不充足、多个语句级事件信息需要合并为1个事件等局限. 开放域旨在解决面向封闭域的抽取模型在未见事件类型和特定领域上的不足(事先不清楚包含哪些事件类型). 伴随2018—2021年支持文档级事件抽取语料的公布, 面向封闭域文档级的事件抽取和论元抽取也逐渐增多.

    从各种事件新概念出现的时间看, 随着事件抽取研究的不断发展, 人们开始关注比较具体且有意义的事件, 这体现了事件抽取逐渐与实际应用相结合的发展趋势. 此外, 对事件检测和论元抽取进行分类可以发现, 即使是同一子任务, 其关注的研究问题也并不完全相同. 例如面向封闭域语句级事件检测子任务, 其包含的研究涉及多个研究问题, 包括训练语料不足问题、不同领域和语言差异问题等.

    综上所述, 基于封闭域语句级的事件抽取研究成果较多, 且集中于2018—2021年, 而面向文档级、开放域以及文档级和开放域含义的抽取任务正逐渐被关注.

    现有事件抽取任务的研究成果主要是解决训练语料不足, 特定领域、不同语言和不同事件定义等方面的问题. 由于不同事件定义问题涉及的对象较杂, 本文暂不作总结. 因此, 结合事件是在语句级还是文档级上抽取(即抽取范围)、在封闭域还是开放域上抽取(即事件类型), 本节将从抽取范围、事件类型、训练语料、领域和语言5个方面对事件抽取的研究进展和技术演化进行总结.

    事件由自然语言中相关词语构成, 词语的选择包括语句级和文档级2种. 根据词语选择范围不同, 可分为事件触发词选择和论元选择2个方面. 语句级和文档级的区别在于: 虽然文档级在最后处理时, 也会细化至语句级, 但在词语选择上会联合多个语句共同参考决策; 而语句级则不会.

    对于事件触发词的选择, 假设某文档中有3个语句(包含2个事件), 语句级会抽取到2个事件, 而文档级可能只抽取出1个事件. 这是因为文档级通过联合3个语句共同分析, 认为语句级中的1个事件只是对另外1个事件的补充, 不能单独列为事件[60], 以文档级视角实现事件抽取; 而语句级只聚焦于本句, 不考虑语句间情况.

    对于论元选择, 文档级主要考虑事件某些论元不在当前语句中的情况, 如事件施事者在前句给出而后句省略或事件的时间和地点位于后句等情况; 语句级只从当前语句中选择词语作为论元, 所以语句级的事件抽取会丢失信息, 使得抽取的事件不完整, 在一定程度上降低了事件的使用价值. 正是因为这个原因, 才触发学者们研究面向文档级的事件抽取.

    此外, 部分研究[3031, 34]从处理对象角度认为, 只要是以文档为处理单位, 均可称为文档级. 由于语句上下文信息有限而文档级相关信息丰富, 这类研究主要是为了借助文档级的上下文信息来增强事件识别的效果, 不考虑论元跨句问题, 其本质还是面向语句级. 基于这个目的, 也促使学者们考虑文档级的事件抽取.

    综上所述, 基于文档级抽取事件的原因有以下2点: 1)语句级无法处理跨句问题, 降低了抽取事件的质量; 2)文档级拥有更多上下文信息, 有利于提升事件抽取效果. 高质量事件是很多下游任务的基础, 提高事件抽取质量非常必要. 事件抽取范围问题是一个关键科学问题, 被学者们广泛关注.

    下面从语句级和文档级2个方面对现有研究提出的抽取方案进行总结. 其中, 涉及的研究都是单纯讨论不同范围的事件抽取, 对借助不同领域或多语言等特性实现语句级事件抽取的研究在第2.4节和第2.5节讨论.

    2.1.1   语句级

    语句级事件抽取较早就吸引了学者们关注. 几乎所有基于ACE2005语料的事件抽取方法都采用监督模式. 2015—2017年, 许多简单深度学习方法(如卷积神经网络(Convolutional neural networks, CNN)、循环神经网络(Recurrent neural networks, RNN)和双向长短期记忆(Long short term memory, LSTM)网络等)被直接用于事件抽取. 同时, 外部知识库、跨语言以及抽象语义表示等信息也融入这些模型, 以提升抽取效果. 此外, 事件抽取的模式也由流水线逐渐转变为联合.

    2018—2022年, 图神经网络[12, 15, 53, 6166]、门控注意力[40]、对抗学习[6768]、小样本学习[14, 4344, 69-70]、弱监督[39, 68]和无监督[70]等成为抽取语句级事件的主流方法, 并取得了丰富成果. 2020年和2022年, 由于主流的深度学习方法大部分已被使用, 所以学者们开始探寻一些其他模式和策略, 包括问答/阅读理解模式[22-24]、图解析模式[71]、预训练模型[72]、分层策略[21]、比较学习[73]和强化学习[27]等. 基于这些技术, 语句级事件抽取得到了进一步的发展.

    下面对基于深度学习的典型成果进行具体介绍.2015年, 文献[74]采用卷积神经网络解决复杂的特征工程和特征生成错误的传播问题; 文献[75]设计了一个动态多池化CNN, 不仅考虑了文献[74]的问题, 还兼顾了处理多事件语句时可能会遗漏有价值信息的情况. 2016年, 文献[76]基于CNN建模跳字模型(Skip-Grams CNN), 解决只采用连续k-grams的局限, 推动了CNN在事件抽取任务上的进一步发展. 文献[9]结合联合模式和CNN的优点, 引入一个基于RNN的联合抽取方法. 文献[77]为解决前期触发词只能为单个字的局限, 提出一种基于前向和后向循环神经网络的事件结块检测方法. 文献[6]发现现有研究未考虑论元间的关联, 提出一个基于正则化的模式平衡方法, 充分利用论元间的关系. 2017年, 文献[78]也从论元出发, 发现在事件检测时论元信息没有被显式应用, 从而提出一个基于注意力机制的论元利用策略实现事件检测.

    发展至此, 由于句法依存在许多其他任务中取得了较好的效果, 学者们开始意识到可以引入句法依存信息, 以提高事件抽取效果. 文献[12]将句法依存结构信息添加至双向LSTM神经网络, 通过混合语句的序列和句法依存2种结构信息, 提升LSTM网络的编码能力, 进一步推动基于RNN的事件抽取. 伴随2017年图卷积网络(Graph convolutional network, GCN)[79]的提出和兴起, 文献[61]利用句法依存中的树结构信息, 设计了以论元为中心的图卷积池化网络. 这属于对上述基于CNN相关研究的另一种推进.

    同样, 随着生成对抗技术的不断成熟, 该技术逐渐被用于解决自然语言处理问题. 文献[67]利用生成对抗网络生成虚假特征, 并采用LSTM消除虚假特征, 以解决语义映射的高维空间中存在虚假特征污染问题. 文献[80]从论元及上下文信息可以被多次使用角度, 设计了触发词检测的动态记忆网络, 增强对这些信息的利用.

    对于注意力机制, 文献[15]将注意力机制应用于图信息汇聚中, 提出一个联合多事件抽取模型; 文献[81]针对不同方面特征, 使用多个注意力进行编码; 文献[62]在GCN中融入注意力机制, 并将图中多阶(多跳)节点纳入汇聚范围, 提出多阶图注意力网络. 这是对文献[61]和文献[15]等利用图结构抽取事件的一个较大推进. 接着, 文献[63]进一步考虑了图结构中的边类型信息, 设计了边增强的GCN; 文献[65]采用图转换网络同时编码语句的句法和语义结构, 开发了图编码器网络. 此外, 考虑到预训练模型具有强大的语义表达能力, 文献[72]借助它们提高事件抽取的性能.

    2021—2023年, 学者们找到其他可以提升事件抽取效果的方法. 如文献[73]认为包含触发词的语句跨度检测是影响触发词能否被正确识别的关键, 而文本的理解来源于具有鉴别力的嵌入表示, 提出一套可以从文本中学习到具有区分力的神经网络表示的策略; 文献[27]发现现有研究忽略了多个论元间的关系和交互, 提出一个基于强化学习对话引导的事件论元抽取模型. 考虑到现有方法利用固定依存树结构且只根据依存边执行节点嵌入表示, 文献[82]提出一种基于自适应图生成和通道选择的事件检测策略. 文献[83]利用触发词显著性线索提升事件检测效果. 文献[84-88]借助大语言模型设计了不同的提示模板, 取得了较好的抽取效果. 文献[89]通过检索最相似的问答对, 并将其作为当前处理对象的上下文信息, 解决论元间独立预测的问题. 文献[90-92]利用生成式的预训练语言模型, 提出了不同基于生成式的事件抽取模型.

    图3从采用的特征、技术、解决问题等方面对上述文献进行比较和总结. 其中, 不同颜色的虚线框表示不同时段各研究关注的重点; 实线框中不同颜色的词语标示采用的不同特征, 不同文献中的相同颜色标示在抽取事件时, 编码了相同特征. 其进展演化情况分析如下.

    图 3  语句级事件抽取的主要发展历程
    Fig. 3  Main development of sentence-level event extraction

    1)特征. 常用特征主要包括词法、句法、词语位置和实体类型等, 2015—2020年就有学者采用, 但使用的模型不同. 然后, 借助句法依存结构及相关信息变得普遍, 包括使用图神经网络模型直接编码该结构、将该结构添加至序列结构中、利用论元间的依存关系或者论元与触发词间的关系、依存关系的边类型等, 即使部分研究[78, 81]没有直接使用依存结构信息, 但模型还是以该结构为基础发展. 因此, 句法依存信息是事件抽取的一个核心特征.

    2)技术. 在模型优化的过程中, 加入了深层的有效特征信息, 而不再采用常见特征. 整个发展是技术和特征配合使用的结果. 随着新技术和特征线索的不断使用, 目前的主要模型和线索已较难提升抽取效果, 所以学者们开始关注如何借助预训练语言模型提升事件嵌入表示的质量, 从而推进事件抽取的发展.

    3)解决问题. 在已经细化的语句级事件抽取任务下, 解决的问题主要是为了克服现有模型的局限、某些线索未被考虑或未被充分利用. 在解决问题时, 逐渐偏向挖掘深层线索(如依存关系类型、论元彼此关系、更具区分能力的事件表示), 采用先进模型(如图神经网络、图转移网络、强化学习等).

    上述研究[6, 9, 12, 15, 63, 7475]都是基于ACE2005语料进行实验测评, 是在相同数据特点下考虑线索提取和模型设计. 然而, 不同来源的数据, 其特点有所不同, 从而导致设计模型时考虑的因素不同. 由于社交媒体和新闻数据是主要的数据来源, 下面首先分析这2类数据的特点, 然后分析基于这2类数据的事件抽取的研究进展.

    社交媒体数据具有以下特点: 1)全面地反映真实世界; 2)覆盖面广; 3)实时传播正在发生的事件, 且事件内容可以细至个人, 如个人房屋崩塌; 4)包括很多无意义事件(如个人生活信息、午餐内容等); 5)非正式用语、用词错误; 6)长度限制, 缺少重要的信息元素, 如时间、地点等. 新闻数据主要报道比较重要或有意义的重大事件, 很少涉及细至个人的事情, 且事件报道和传播存在一定滞后性, 尤其是突发事件, 一般在事件发生后1、2天才会报道. 此外, 新闻陈述较为规范, 由专业人员编写和检查, 无情感偏向, 无长度限制, 一般偏长. 总之, 社交媒体数据多包含个人兴趣、喜好、日常生活等反映真实社会中个人状态等信息; 新闻数据以较重大事件为主.

    下面从社交媒体数据特点和社交媒体内容主题2个方面总结相关研究情况.

    1)社交媒体数据特点. 文献[93]和文献[94]利用tweet流的时序性, 分别完成拒绝服务攻击事件和子事件的探测; 文献[95]对推特充满噪声和长度限制的数据, 设计一个特定的混合模型, 检测这些数据中的网络安全事件. 具有借助社交媒体信息的及时性、先于官方报道等特点, 许多救灾人员和公众经常使用推特进行实时事件感知. 为此, 文献[94]设计了一个事件实时探测系统, 较好地解决了实时探测中的高计算成本问题, 可用于灾难管理等应用中.

    2)社交媒体内容主题. 考虑到社交媒体内容富含个人习惯、喜好和情感等主题, 文献[56]研究从推特中探测个人健康事件; 文献[96]关注能影响人们心情状态的具有情感极性的事件; 文献[52]以丰富的个人事件(如结婚、旅游等)、对回忆生活有用为出发点, 采用多任务LSTM, 从推特中抽取个人生活事件. 此外, 考虑到社交媒体内容包含个人所观察的本地信息, 文献[97]通过添加与用户的交互, 抽取小范围的地域性事件; 文献[98]借助推特中用户的及时反馈或讨论, 利用在线动态tweet流, 从推特中挖掘网络安全事件.

    针对新闻数据, 文献[99]利用新闻文章内容较长、存在较多共指关系特点, 检测新闻数据中的显著事件. 文献[100]分析新闻的结构特点, 1篇新闻可由标题、导语和正文3个部分组成. 标题是对整个文章的总结和高度概括, 导语强调通过总结故事中发生的关键事件来吸引读者的注意力, 正文内容过多且常存在较多噪声. 因此, 选择使用新闻标题和导语从大量新闻数据中抽取业务事件.

    针对上述2类基于社交媒体和新闻数据的研究, 总结如下:

    1)基于社交媒体数据的研究关注与社会生活相关的事件, 主要包括社会类事件(指一群人进行的活动)和个人类事件(指由个人产生的活动, 如个人的结婚、旅行等); 基于新闻数据的研究则比较宽泛, 常用于抽取企业业务和市场经济等方面的事件;

    2)与前述基于ACE2005语料开展的语句级事件抽取研究不同, 基于社交媒体数据和内容的事件抽取主要以数据特点或内容主题为驱动, 关注的问题比较散, 没有形成一个可追溯的脉络, 都是根据发现的不同线索设计相应的解决方案;

    3)在采用技术上, 大部分研究聚焦于语义表示、模式匹配、半监督策略和无监督聚类等方法, 监督的方法较少, 这是由于这些研究[93-100]没有对应公开可用的语料;

    4)研究时间集中在2022年和2023年, 2015—2021年的研究较少.

    2.1.2   文档级

    由前文可知, 文档级事件抽取存在2个方向: 1)借助文档信息的语句级事件抽取, 目的是利用文档信息提高语句级事件抽取的效果, 如利用整个文档级嵌入表示帮助获取语句中词语的更多语义信息、利用语句的上下文信息消除语句中词语的歧义等; 2)基于文档的事件抽取, 目的是解决事件孤立导致事件语义不完整、事件论元跨句、论元指代等问题.

    1)借助文档信息的语句级事件抽取

    文献[32]对事件、实体及其关系的变量间的依赖关系进行建模, 并在整个文档中执行这些变量的联合推理, 实现借助文档信息提高语句级事件抽取效果的目的; 文献[31]考虑语句中的信息有限, 借助文档的嵌入表示, 增强RNN的抽取效果. 但只关注语句使用的部分词语(如事件触发词)会存在一定的歧义. 为了明确词语的涵义, 文献[101]借助语句的上下文信息, 消除词语歧义, 同时还设计一个门控多层级注意力模型, 捕获句子中不同事件间的依赖. 文献[30]认为文档级事件抽取的难度在于不仅需要理解语句本身, 还需要准确解读语句的上下文信息. 伴随端到端神经网络的兴起, 文献[30]采用适合处理语句序列的神经序列模型实现文档级事件的论元角色填充. 考虑到预训练模型的优秀性能, 文献[102]设计一个利用BERT (Bidirectional encoder representation from transformers)建模文档级上下文信息的事件检测模型. 文献[55]基于文档包含的共享论元信息, 通过构建文档级双向依存图, 实现语句级的事件抽取. 文献[34]从生物学角度, 分析了该领域语句级事件抽取不利于理解生物分子间的复杂交互, 需要考虑文档中全局的上下文信息, 提出一个两层级(局部和全局)的建模方法, 实现生物事件的联合抽取.

    2)基于文档的事件抽取

    文献[36]标注了多语句论元链接(Multi-sentence argument linking, RAMS)语料, 并开发了一个基于跨度的论元链接模型. 由于文献[36]只考虑标注的论元跨度, 文献[35]在其基础上, 扩展了对所有候选论元跨度的预测, 并提出一个2步执行策略, 来解决事件论元跨句问题. 文献[30]设计了一个多粒度阅读器, 通过编码语句级和段落级的文本信息, 学习得到更好的实体嵌入表示, 从而解决文档级论元填充问题. 文献[29]从人们获取知识的作用出发, 指出语句级事件抽取存在抽取信息不完整和部分信息无价值2个缺陷. 为了解决这些问题, 文献[29]利用条件文本生成技术设计了一个端到端事件论元抽取模型. 相较于基于问答形式的抽取[22-24], 文献[29]认为这种形式能较为容易地处理论元缺少和多个论元对应同一个角色的问题. 文献[29]在文献[30]基础上, 解决了事件成分的指代消解问题. 由于现有文档级事件抽取研究没有采用句法依存结构信息, 文献[103]通过优化语句级的句法依存结构, 构建了文档级依存结构, 并基于该结构实现事件论元的抽取.

    然而, 上述研究大多基于RAMS语料, 只关注文档级事件抽取的论元跨句问题, 忽略了对多事件、论元多角色的处理. 为了解决文档级事件抽取所面临的挑战, 学者们开始关注其他的文档级语料, 主要包括WIKIENENTS[29]、ChFinAnn[28]和DuEE-Fin[104].

    对于WIKIENENTS语料, 随着大语言模型的出现, 学者们利用其强大的语义功能研究事件抽取. 2022年, 文献[105]制定了捕获论元交互信息的提示模板; 文献[106]考虑到论元间长距离依赖的隐式关系没有得到很好的研究, 提出了一种基于提示优化的课程学习模型. 为了解决嵌套论元和多事件识别问题, 文献[107]提出一个论元角色交互的多事件头注意力网络. 由于文档中触发词和对应论元的距离较远, 一个事件的上下文信息比较分散, 为了得到高质量的语义表示, 文献[108]采用抽象语义表示技术, 设计一个双流的抽象语义表示增强模型, 从不同的方面编码文档的全局信息和局部信息, 同时降低事件无关上下文信息干扰. 2023年, 文献[109]同样聚焦于抽象语义表示技术, 考虑到该技术只被隐式利用, 发现所有的事件结构可以从抽象语义表示中推断出来, 从而设计了抽象语义表示图, 并将事件论元抽取任务转化为基于抽象语义表示图的链接预测问题.

    针对触发词和论元长距离问题, 文献[110]提出一种新链式推理范式, 实现了文档级事件抽取. 由于大多研究关注捕获触发词和论元间的关系, 忽略了非论元间的上下文信息和论元间的关联; 文献[111]提出了基于跨度触发词的上下文池化和隐藏角色引导的文档级事件论元抽取方法. 考虑到检索增强的方法可以以非参数方式显式获取外部先验知识, 并将检索到的参考实例作为增强文本生成的线索, 文献[112]首次探讨了以检索策略实现文档级事件抽取, 并提出了基于混合检索增强的文档级事件论元抽取模型.

    在金融领域ChFinAnn语料公布之前, 文献[33]标注了一个小规模的文档级事件抽取语料CFEE, 并提出一个2阶段模型. 首先确定关键事件语句, 并从其中抽取事件大部分信息; 然后在该语句的附近语句中抽取其他论元信息. 文献[28]标注了规模比较大的ChFinAnn语料. 文献[28]认为在上下文信息不明确情况下进行论元补充的效果不佳, 且语料还普遍存在一个文档包含多个类似事件的情况, 而文献[33]采用的序列标注方法难以处理该问题. 因此, 文献[28]设计了一个基于实体的有向无环图, 使得图中每条路径对应一个事件, 通过路径的数量即可解决多事件识别问题. 每条路径在生成过程中采用路径扩展的自回归策略, 完成了事件论元的识别. 但该方法需要事先指定论元角色顺序, 且抽取效果严重依赖顺序. 此外, 自回归策略使得模型训练耗时严重.

    在文献[28]基础上, 文献[113]设计了一个异构的交互图网络, 使得语句节点和实体节点的嵌入表示可以交互, 从而得到更好的节点嵌入表示; 文献[114]考虑同一个事件中实体间的关联, 并将该信息融入图结构中, 提出一个基于关系增强的注意力转换器的文档级事件抽取方案. 为了解决上述文献需要按照固定事件和论元顺序执行的问题, 文献[115]提出一个文档级事件并列抽取网络, 但该方法割裂了实体在不同事件中充当论元的语义关联, 同时需要事先指定语料包含的事件数.

    为了缩小每个事件的候选论元范围, 提升事件论元识别效果, 文献[116]提出语句社区概念, 将文档中的所有语句映射至社区, 使得每个社区对应一个事件, 事件涉及的论元都在对应的社区中, 然后针对每个社区进行事件论元识别. 整个策略形成语句社区的文档级事件抽取模型. 然而, 语句社区的粒度比较大, 导致一个社区可能包含多个事件的论元. 为此, 文献[117]利用团的概念, 通过确定由伪触发词组成的实体极大团, 纳入与团中所有伪触发词都有连边的其他实体, 使得扩展后的每个团对应一个事件, 得到伪触发词感知的剪枝完全图. 由于不同事件可能共享伪触发词, 基于该方法生成的黄金矩阵无法正确解码成事件记录.

    考虑到现有文档级事件抽取方法都是流水线模式, 文献[118-119]分别研制了一种词语–事件–论元角色的数据结构和一种词语–词语双向事件完全图, 并基于提出的结构, 设计了不同的文档级联合抽取框架. 其中文献[118]模型可以显式捕获词语与事件间的关联, 但由于采用多通道策略, 割裂了不同事件类型下事件论元间的关联语义, 同时需要事先指定语料包含的事件数; 文献[119]模型利用完全图策略自动识别文档包含的所有事件, 克服了文献[118]需要设置事件数超参数的局限, 同时将不同事件类型下事件论元间的关联语义融合在一个词语–词语矩阵中. 为了捕获文档中事件间的关联, 同时避免由迭代识别同一个事件中论元所带来的错误传播, 文献[120]提出一个基于事件代理节点和豪斯多夫距离最小化的文档级事件抽取模型.

    图4从采用的策略、技术、解决问题和贡献方面, 对基于ChFinAnn语料的文档级事件抽取相关文献进行了比较和总结. 其中, SEE和DEE分别指抽取句内论元和从关键事件语句附近抽取论元. 对应的模型分别是文档级中文金融事件抽取(Document Chinese financial event extraction, DCFEE)、文档转基于实体的有向无环图(Document to entity-based directed acyclic graph, Doc2EDAG )、具有追踪功能的图交互模型(Graph-based interaction model with a tracker, GIT)、文档到事件的并行预测网络(Document-level event extraction via parallel prediction petworks, DE-PPN)、基于语句社区的文档级事件抽取(Sentence community for document-level event extraction, SCDEE)、伪触发词的剪枝完全图(Pseudo-trigger-aware pruned complete graph, PTPCG)、关系增强的文档级事件抽取(Relation-augmented document-level event extraction, ReDEE)、基于词语–事件–角色的多通道事件抽取(Token-event-role multi-channel event extraction, TER-MCEE)、边增强的文档级事件抽取(Edge-enhanced document-level event extraction, EDEE)和代理节点集群网络(Proxy nodes clustering network, ProCNet). 不同颜色的虚线框表示不同系列(或目标)的研究. 文献[33]属于早期简单探讨文档级事件抽取的方法, 随着文献[28]释放ChFinAnn语料并提出Doc2EDAG框架, 该框架被后续一些研究作为基准, 文献[113-115]均基于该框架从不同方面进行推进, 包括嵌入表示质量、不依赖指定的论元角色顺序和论元间关系等, 如蓝色虚线框所示. 文献[116-117] 从缩小事件候选论元角度, 分别利用语句社区和团的概念提出了相应的抽取方法, 如粉色虚线框所示. 文献[118119]没有基于前期的研究框架, 旨在重新构建文档级事件抽取策略, 通过制定新的数据结构, 有效支持文档级事件的联合抽取, 如绿色虚线框所示.

    图 4  文档级事件抽取的主要发展历程
    Fig. 4  Main development of document-level event extraction

    表1为各模型在ChFinAnn语料上各事件类型下的F1值. 图5为各模型在DuEE-Fin语料上各事件类型下的F1值. 其中DCFEE-O和DCFEE-M为模型DCFEE的变体, 分别考虑只有一个事件和多个事件的情况; GreedyDec为Doc2EDAG的基础模型, 采用贪心策略实现Doc2EDAG. 由表1 可知, 各模型平均抽取效果在80% 左右, 由于TER-MCEE和EDEE提出了联合抽取策略, 避免了错误传播, 同时针对词语进行论元角色类型预测, 所以整体效果超过其他模型. 结合时间进展观察抽取效果发现, 尽管2021—2023年提出了一些优秀模型, 但整体效果提升幅度较为缓慢. 由表1图5可以看出, 由于DuEE-Fin语料包含的事件类型较多, 各模型的平均抽取效果均低于表1中对应模型的效果. 图5中排名前2名的是EDEE和Pro-CNet, 抽取效果分别为84.7%和70.9%

    表 1  各模型在ChFinAnn语料上各事件类型下的F1值 (%)
    Table 1  F1 scores of models under each event type on ChFinAnn corpus (%)
    模型 冻结 回购 减持 增持 质押 平均
    DCFEE-O 51.1 83.1 45.3 46.6 63.9 58.0
    DCFEE-M 45.6 80.8 44.2 44.9 62.9 55.7
    GreedyDec 58.9 78.9 51.2 51.3 62.1 60.5
    Doc2EDAG 70.2 87.3 71.8 75.0 77.3 76.3
    GIT 73.4 90.8 74.3 76.3 77.7 78.5
    DE-PPN 73.5 87.4 74.4 75.8 78.4 77.9
    SCDEE 80.4 90.5 75.1 70.1 78.1 78.8
    PTPCG 71.4 91.6 71.5 72.2 76.4 76.6
    ReDEE 74.1 90.7 75.3 78.1 80.1 79.7
    TER-MCEE 87.9 97.2 89.8 91.2 78.6 88.9
    EDEE 97.4 90.3 93.2 93.4 96.2 94.1
    ProCNet 75.7 93.7 76.0 72.0 81.3 79.7
    下载: 导出CSV 
    | 显示表格
    图 5  各模型在DuEE-Fin语料上各事件类型下的F1值
    Fig. 5  F1 scores of models under each event type on DuEE-Fin corpus

    综上所述, 本文归纳总结现有成果得到以下结论:

    1)借助文档信息的语句级事件抽取本质上还是语句级事件抽取, 只是借助文档中的信息提升事件触发词检测或事件论元抽取的效果. 其对应的模型还是遵循了语句级事件抽取的大体发展历程.

    2)借助文档中的什么信息要根据需求和发现的特点来确定, 目前主要包括文档中所有事件和实体的关系、文档级的嵌入表示、语句的上下文信息等.

    3)目前基于文档的事件抽取研究主要是解决跨句论元和多事件的抽取问题, 基于文档的事件抽取研究正在逐渐增多. 然而, 现有这些研究大多数都是采用流水线模式, 导致存在错误传播问题. 此外, 大部分方法还只在研究整体的抽取框架, 细节线索和特征以及新技术还未得到较好探索.

    事件类型问题主要探讨封闭域事件抽取或开放域事件抽取问题. 由图2可知, 目前大多研究是基于ACE2005定义的事件类型及其本体, 属于封闭域语句级事件抽取. 该类研究已经在第2.1.1节中讨论了, 本节仅讨论开放域事件抽取问题.

    ACE2005属于通用领域的语料. 对特定领域(如财经领域)的业务需求, 通常会存在很多新的事件类型, 无法归于通用的事件类型, 因此特定领域的事件抽取任务大多数属于开放域事件抽取的问题. 此类问题的解决有利于事件抽取在特定领域的发展, 具有重要意义.

    1)不限定类型的事件检测

    这类研究主要检测不限定事件类型的事件提及或事件触发词. 文献[121]旨在抽取不限定类型的事件, 从语义和句法2个方面给出了事件的定义. 由于不限定类型, 相关标注语料较少. 利用远程监督技术, 开发一种基于少量人工标注的开放域事件检测方法. 该方法不局限于任何特定的数据集, 为事件检测提供了一个通用的解决方案. 文献[122]为了使得监督模型在跨领域具有较好的泛化能力, 借助对抗技术引入领域不变性, 将词汇的领域不变性注入模型, 抽取所有能触发事件的词语, 从而达到不限领域的目的, 即不讨论具体的事件类型.

    2)基于事件本体归纳的事件抽取

    该类研究的重点是在开放域上如何获取事件的要素并归纳事件本体. 如果事件本体能获取, 则只需对获取的事件要素进行事件组装, 找出实体对应的论元槽和属于哪个事件(即与触发词对应). 这个组装过程通常比较简单, 常借助句法结构实现. 如文献[123]基于句法依存结构和词语词性设计了一定规则, 为每个实体的头词语抽取相应谓语, 最后组装成事件.

    3)给定事件结构的开放事件抽取

    由于有些场景不需要或很难考虑事件类型, 只需要抽取满足某种结构的事件, 文献[124]以前期研究局限于固定的事件类型为动力, 以预测股价波动为目标, 设计了一个4元组事件结构($O _{1} $、P、$O _{2} $、T), 采用开放信息抽取技术实现了该结构的事件抽取. 其中$O _{1} $、P、$O _{2} $ 和T 分别表示行动者、行为、对象和时间戳. 文献[54]聚焦于反映语句主干含义的事件, 借助领域和语言的特点抽取三元组(主语、谓语、宾语)结构的事件. 文献[55]通过调整句法依存结构、利用共享论元信息, 构建了文档级双向依存图, 并基于该图结构实现了上述三元组结构的开放事件抽取.

    总之: a)不限定类型的事件检测主要识别触发事件的词语, 目前包含2种实现策略: 一是扩大语料, 使得其覆盖符合事件定义要求的大部分情景(即各种词语触发事件的情况), 从而达到通用模型的效果; 二是引入领域不变性, 使得模型能不受领域影响, 实现不限定事件类型的效果. 就这些策略来看, 它们不属于优化现有框架, 都是重新设计可行框架. 这种方式的关键在于了解在没有事件类型情况下触发事件的词语具有哪些特征. b)开放域的事件结构通常根据需求设定, 目前的事件结构不丰富, 较少紧扣应用任务的需求确定的事件结构. 不同事件结构其抽取的目标不同, 所以通常只能借鉴相同模式任务的框架, 具体抽取策略还得重新制定.

    目前, 被广泛使用的事件抽取语料规模并不大, 不能较好地支持深度学习模型的训练, 严重影响事件抽取的效果. 训练语料不足问题主要讨论如何缓解该现象, 以提升事件抽取的效果. 数据是一切方案的来源, 是模型训练的基础, 丰富标注数据一直都被学术界和工业界视为宝贵财富, 如何有效地增加标注数据或者在少量标注数据情况下训练可靠模型是值得研究的问题.

    表2为处理训练语料不足问题的各方法比较. 由表2可以看出, 各方法存在一定交集, 如小样本学习的实现包括训练数据增加、元学习和迁移学习等, 与远程监督、半监督等存在重叠. 因此, 本文忽略方法本身, 从是否增加和如何增加标注数据的角度进行分类总结, 分成直接增加、间接增加、不增加、其他领域增加和不使用标注数据等5种情况. 表2中最后一列给出了各方法针对该分类的情况.

    表 2  处理训练语料不足问题的各方法比较
    Table 2  Comparison of methods that handling the problem of insufficient training corpus
    方法 本质 需要的数据 解决方式
    远程监督 利用外部知识库扩展数据 少量标注数据 直接增加
    半监督 少量标注训练模型预测大量无标签数据 少量标注数据加大量无标签数据 直接增加、不增加
    无监督 直接根据数据特点或性质判断 大量无标签数据 不使用标注数据
    自监督 从无标签数据中挖掘监督信息用于训练 大量无标签数据 不使用标注数据
    弱监督 针对数据集不可靠情况, 包含3种典型情况 少量标注数据加大量无标签数据 直接增加
    主动学习 通过机器学习挑选有用的样本给人工标注 少量标注数据加大量无标签数据 直接增加
    强化学习 中途告知学习情况 大量无标签数据 无标注数据
    元学习 通过多个任务的数据学习内涵/规律/学习的本领 其他任务或领域的数据 其他领域增加
    迁移学习 其他任务/领域下的模型用于目标任务/领域 其他领域的大量数据 其他领域增加
    小样本学习 一种任务, 小样本下学习本领 极少的标注数据 直接增加、间接增加、不增加、其他领域增加
    零样本学习 一种任务, 零样本下学习本领 给出代表某一类物体语义的嵌入向量 不使用标注数据
    下载: 导出CSV 
    | 显示表格
    2.3.1   直接增加

    直接增加旨在产生与原有标注数据相同结构的样本. 最原始的方法是人工标注数据. 另外较为常见途径为自动增加或标注训练数据. 直接增加训练数据(简称直接增加)采用一定技术, 借助外部知识库(如FrameNet、Freebase、Wikipedia、WordNet)或借助其他外部数据, 生成满足要求的训练数据.

    1)借助外部知识库

    文献[37]发现FrameNet中定义的框架与自动内容抽取(Automatic content extraction, ACE)中的事件有着高度相似的结构, 且许多框架还表达了一定的事件类型. 所以, 探索框架和事件间存在的映射关系, 并由此提出一个全局的推断方法. 该方法借助了原始标注的ACE数据, 利用其训练了一个简单的检测模型, 用于识别目标集FrameNet中的事件语句, 其思想类似半监督. 在此基础上, 文献[11]提出一个基于Freebase和FrameNet的自动标注方法. 首先将Freebase中包含的联合值类型实例、类型、值和角色分别对应到事件实例、事件类型、论元和论元角色; 然后, 讨论如何解决Freebase中无明确触发词标签以及事件论元可能存在于多个语句中的情况; 最后, 基于远程监督假设[125], 完成训练数据的扩展. 文献[11]与文献[37]的主要区别在于: a)实现Freebase知识库与事件的映射; b)基于远程监督常见的假设, 而非自定义假设; c)借助FrameNet的发现[37], 利用FrameNet过滤和扩充触发词.

    文献[13]考虑到文献[11]中关键论元的选择过于普通, 发现存在一些其他的因素和策略可提高选择关键论元的质量, 如时间相关的论元对于决定事件类型更有帮助、剔除了依存距离超过2的语句, 提出新关键论元选择标准. 在标注数据产生过程中, 首先, 利用Freebase知识库产生一组可用于数据标注的规则; 然后, 基于上述的规则对目标数据集的每个语句进行标注, 将包含所有关键论元的语句识别为事件实例, 反之为非事件实例.

    除了通用知识库, 也有学者关注特定领域知识库. 文献[33]利用财经领域知识库自动扩展训练数据, 实现自定义金融事件的抽取. 考虑到通用知识库对事件类型覆盖范围有限, 文献[121]设计一种不局限于特定数据集的数据扩展方法. 首先借助WordNet和规则的方法对文本进行消歧, 然后为解决规则方法覆盖度不高问题, 利用Wikipedia 对训练数据进行增强.

    2)借助其他外部数据

    文献[38]鉴于远程监督的部分局限(只记录静态关系, 无动态关系), 考虑到事件发生时可能存在不同描述来源, 引入了新闻流急增算法. 该算法采用概率图模型聚类描述相似事件的语句, 实现训练数据的增加. 文献[39]在文献[38]基础上做了一些优化. 首先, 用一个已定义的本体学习数据; 其次, 采用一个监督抽取器进行聚类簇的过滤, 而不是完全无监督, 使文献[38]中的部分假设更为宽泛.

    除了不同来源, 不同语言也是一个可以利用的对象. 文献[126]利用基于少量关键词的模型生成远程监督的数据; 文献[40]利用多语言的一致性提供更多的训练数据; 文献[127]设计了一个内容独立的翻译方法, 以构造不同语言间的词语映射; 文献[68]关注扩展训练数据的质量问题(低覆盖、主题偏倚和噪声); 文献[18]发现利用远程监督产生训练数据的局限(严重依赖源数据, 生成数据质量不高), 同时考虑到预训练模型拥有强大的语义知识, 选择预训练模型学习所需的知识, 通过编辑原型/雏形的方式自动生成标注样本, 并利用质量排序的方法对样本进行筛选.

    综上所述, 直接增加方法的思路是借助外部知识库和借助其他外部数据, 增加训练数据规模. 增加规模策略有以下3种: 1)利用知识库的结构与事件进行映射; 2)利用不同来源的多次描述; 3)借助不同语言版本的差异. 对于同一种外部数据对象, 通常是挖掘前期研究没有充分利用的线索信息, 如相关的结构、只考虑了一个外部知识库等, 实现效果的提升. 上述3种增加规模的策略一般不是为了增加更多训练数据, 而是借助增加的数据获取更多特征. 此外, 提高增加数据的质量, 也是一种提升抽取效果的途径.

    2.3.2   间接增加

    间接增加是指通过一定方法, 重复使用现有标注数据. 该方法的局限性是不能有效提升模型的泛化能力, 通常难以做到在多个数据集间的通用, 而且数据重复使用会加剧过拟合现象, 所以这种方法在研究中较少采用.

    2.3.3   不增加

    不增加是在不增加训练数据情况下, 从优化模型或提供更多信息/特征角度, 如何提升事件抽取效果. 文献[41]基于半监督CNN框架, 提出使用该框架抽取药品不良事件. 其核心是利用不同类型的无标签数据充分表示潜在高层级概念, 以学习区域嵌入向量. 此方法可归属于缩小模型搜索空间范畴, 但在过程中借助了无标签数据. 文献[14]受启发于本身的观察(触发词和事件类型存在一定的共享语义且结构相似)和前期理论(事件结构语义可以泛化并映射至事件提及结构, 事件提及指包含事件的本文区域/范围), 设计一个可转移的神经网络结构, 将事件提及和事件类型映射至一个共享语义空间, 取语义相似度最高类型作为未见的事件类型. 由于过程中没有利用未见事件类型的标注样本, 称之为零样本, 但实际上是需要已标注事件类型的数据, 所以本文将其归入不增加数据的类别. 文献[128]通过归纳事件类型, 完成了对未见类型的事件检测.

    对于小样本下的事件抽取问题, 文献[42]从自然语言理解的角度, 认为其基础是理解事件中各元素以及它们间的关系, 所以将这些任务转换为事件提及与类型本体间的语义相似问题, 使得可以利用大量领域外文本数据(并非领域外的标注数据), 实现以较少监督信息抽取事件. 文献[43]从小样本利用角度出发, 考虑如何充分利用已有的小样本数据. 文献[44]利用图学习正则化和迁移学习等技术, 将开放域的词义消歧信息嵌入小样本学习模型中, 从而提升了对新类型事件的泛化效果. 由于不充足的训练样本, 高质量的嵌入表示得不到充分学习, 同时触发词和非触发词的嵌入表示可能存在重叠, 导致触发词识别错误. 为此, 文献[129]提出一种混合比较学习方法, 旨在解决上述局限. 同样, 由于少量训练样本也导致了原型表示的学习不准确, 文献[130]探讨了一种知识增强的自监督原型网络, 使得学习得到较好质量的原型表示, 提升事件检测效果. 2023年, 文献[131]制定了一种面向文档级的小样本抽样策略, 文献[85]利用大语言模型的优势, 设计一种基于提示模板元学习的零样本和小样本事件检测模型.

    现有成果[61, 78]验证了上下文信息对事件检测的有效性, 但上下文信息都没有被充分利用. 为了实现上下文信息的多次使用, 文献[80]借助动态记忆网络技术提出了触发词检测的动态记忆网络. 文献[43]设计了一个基于动态记忆的原型网络. 具体地, 采用元学习思想, 不仅利用基于度量的方法(原型网络)解决小样本事件检测任务, 还利用基于模型的方法, 帮助元学习快速整合新信息并记忆.

    上述文献在不增加训练数据情况下提高效果的常见策略包括以下2个方面:

    1)添加更多信息, 得到更具有区分能力的嵌入表示, 如不同类型的无标签数据、事件提及、事件类型、上下文信息等;

    2)根据以往研究原理, 开发新技术, 从一个或几个方面进行模型优化, 从而提高事件识别能力.

    2.3.4   其他领域增加

    其他领域增加是借助迁移学习的思想, 实现问题或模型的迁移, 可分为2种情况: 1)在相似大规模标注数据集上训练模型, 然后将学习好的模型在目标数据集上进行适应性微调学习, 从而加快并优化模型的学习效率; 2)将原始问题进行转换, 使其变成另外问题(称为目标问题), 借助目标问题中可用的标注数据集训练模型, 解决原始问题训练样本不足的问题.

    文献[22-24]均属于第2)种方式(问题转换), 将事件抽取转换为问答形式, 解决提出的问题. 其中文献[22]以流水线模式存在错误传播为出发点, 分析了联合模型解决该问题的现状. 将该问题转换为问答形式, 提出了2个基于转换器的双向编码(Bidirectional encoder representations from transformers, BERT)的问答模型, 分别用于触发词检测和论元抽取. 其中触发词检测转换为在语句中识别行为或动词, 并判断事件类型; 论元抽取转换为一个请求序列以识别事件论元. 文献[23]将事件抽取分为3个子任务(触发词识别、触发词分类和论元抽取), 并分别映射至问答形式下的子任务中进行实现; 文献[24]以标注数据不足为导向, 借助阅读理解丰富的数据集, 提升事件抽取效果; 文献[132]基于问答模式缓解数据不足问题, 采用阅读理解模式共享更多参数并利用标签角色的语义. 相较于文献[22-24], 文献[132]在模型方面增加了标签语义, 在数据方面设计了对偶的训练方式. 这是文献[132]的主要贡献, 解决了采用问答模式解决事件抽取标注数据不足问题.

    比较上述研究发现, 文献[22-24, 132]都是借助问答形式的丰富数据, 加强模型的训练, 但彼此的视角(侧重点)不同, 因此设计模型的重点不一样. 文献[22]旨在解决线性方法中的错误传播问题; 文献[23]侧重未见事件类型、原始标注数据不能明确建模标签(触发词、事件类型和论元)间的语义以及无法捕获它们间交互的处理, 所以设计多向的问答策略; 文献[24]主要研究标注数据不足问题. 此外, 虽然文献[23-24]与文献[22]类似, 都是基于BERT的方式获取答案, 但没有采用人工设计问题的方式生成内容独立的问题, 而是设计了一个无监督的方法自动生成切题且内容相关的问题. 文献[132]则关注数据和模型参数共享不足等问题.

    2022年, 随着大语言模型的流行, 文献[133]利用一个特定的共享提示框架, 从现有不同格式的数据集中, 学习多种格式知识, 设计了一种多格式的迁移学习模型, 解决现有事件论元抽取方法较难适用于具有不同模式/格式的新数据集和新场景的问题. 考虑到语义角色标注任务和事件论元抽取任务的相似论元结构, 文献[134]将事件抽取任务转化为论元角色查询问题, 并制定了类似自然语言的查询解决标签不匹配问题, 设计了论元扩展策略识别远距离论元; 文献[135]发现不同数据集存在重叠的知识, 因此将事件论元抽取任务的知识拆分为跨数据集的重叠知识和目标数据集的特定知识, 并提出一个跨数据集的迁移学习模型来抽取事件论元. 由于跨语言模型在源语言数据上训练, 跨语言模型能在具体源任务中学习到句法特征和词标签关系信息, 文献[136]通过层次采用选择策略, 提出一种混合知识迁移方法, 提升事件检测效果.

    总之, 此类研究常用策略是将事件抽取任务进行转换, 这种模式的关键在于需要明确转换成何种问题、如何进行转换以及转换后数据该如何利用.

    2.3.5   不使用标注数据

    在不使用标注数据的情况下实现事件抽取, 主要是针对无标签数据的研究, 包括无监督和零样本学习等.

    由于人工定义的事件模式覆盖率低且在其他领域泛化性不好, 文献[137]旨在研究一个通用的事件抽取范式. 首先, 对事件触发词和论元进行聚类, 使得每个簇代表一个类型; 然后, 考虑到聚类后的触发词存在一词多义问题, 使用了WSD (Word sense disambiguation)进行消歧; 最后, 通过整合触发词上下文词语分布的表示丰富触发词本身.

    文献[45]开发了一个贝叶斯非参数模型, 通过利用新闻文章中对实体槽的描述检测事件和事件类型. 文献[69]将事件论元抽取转换为语言生成任务, 通过编码事件结构和论元间的依存关系, 实现了零样本跨语言的事件论元抽取.

    对于此类研究, 其实现途径主要包括2个方向: 1)采用一定的策略或度量方式对无标签数据进行聚类等操作, 使得相似数据形成簇, 再根据聚类情况实现事件抽取, 如文献[137]提出的基于聚类的算法; 2)采用统计学的方法(如词的分布)对无标签数据进行统计, 获取数据在统计上的特征, 完成事件抽取, 如文献[45]采用的概率生成模型方法.

    上述研究问题分布及进展情况可总结如下:

    1)研究问题分布大多集中于直接增加和不增加2类, 其他领域增加和不使用标注数据相对较少, 目前尚无间接增加的相关研究成果. 由于现有知识库和可用外部数据众多, 直接增加训练数据是最普遍的途径.

    2)研究进展情况. 早期基于远程监督技术直接增加数据的研究较多, 学者们采用聚类和统计方法避开需要大量标注数据(属于不使用标注数据类)的问题. 随着新技术(如元学习)的不断涌现, 直接在小样本下提升抽取效果成为可能(属于不增加类). 但作为数据驱动方法, 数据量少在一定程度上制约着模型性能. 因此, 2021—2023年在任务迁移和转换方面(属于其他领域增加类)出现了一些研究成果, 然而其在迁移过程中还存在一定的挑战, 如问题转换、相似任务/领域数据的存在和迁移的负影响等, 这使得此类研究的进展较为缓慢, 研究成果不多.

    每个类别研究的进展情况可总结如下:

    1)直接增加. 2015—2018年一般研究如何利用通用知识库, 接着发展至研究特定领域的知识库, 其中大部分研究都采用远程监督框架. 研究焦点逐渐转向其他外部数据, 同时考虑产生的训练数据质量. 这个过程伴随着许多新兴技术的使用, 如生成对抗网络、预训练模型等.

    2)不增加主要分为以下2个方向: a)同时利用标注数据和无标签数据, 该方向的研究偏少; b)提出适合小样本的抽取模型, 即克服小样本下过拟合问题. 解决途径趋向于采用语义信息, 且通常结合新技术实现. 采用语义信息是发展必然, 在自然语言领域, 语义表示和理解是处理的核心, 这是机器与人类在语言理解上所存在的差异. 此外, 学者们还考虑模型对未见类型的泛化能力, 这也是模型实用化的一个重要前提.

    3)其他领域增加. 虽然2020—2022年将非问答任务转换为问答形式成为一种趋势, 但用于解决事件抽取的并不多, 原因可能与问答相关研究进展有关.

    4)不使用标注数据技术主要采用无监督方法, 如聚类和概率分布等. 基于数据特征的聚类方法需要用户了解数据特点, 才能设计合适的度量标准. 基于统计的方法比较依赖于数据, 而当没有无标签的数据或无标签数据质量不高时, 会阻碍统计类方法的效果.

    每个特定领域都存在各自特点, 这些特点可被利用于事件抽取任务, 帮助提高抽取效果. 此外, 不同特定领域会产生不同问题, 如生物领域含有大量领域词汇, 相较于通用领域, 文档在语义理解上存在较大差异. 领域问题主要探讨如何利用领域特点来增强事件抽取效果或解决现有模型无法有效地迁移至特定领域的问题.

    文献[54, 138]验证了基于不同领域数据的特点能较好地提升事件抽取效果. 然而, 该问题一直延续至今还有学者研究的主要原因有以下3点: 1)数据中蕴含的知识没有被完全开发, 还有挖掘空间; 2)数据特点需结合事件抽取任务共同发挥作用, 同样的数据特点在不同任务上的表现效果可能不同; 3)不同领域数据会存在不同噪声, 模型对噪声的适应性不强. 致力于解决这些由领域差异带来的问题, 能丰富特定领域事件抽取的成果, 满足特定领域用户需求.

    尽管事件抽取涉及领域较多, 但大部分研究集中于财经领域和生物/医疗领域, 所以本文将不属于财经和生物/医疗领域的归为其他领域.

    1)财经领域

    财经领域的文章通常需要描述企业的经营状况和变化程度、经济和行业的走势及分析等. 所以数据常包含数值词、程度修饰词, 以反映相关指标上涨、下跌和同比、环比的具体情况[54].

    众所周知, 投资决策、风险评估、股价走势预测等问题是财经领域讨论且关注的话题. 考虑到ACE定义的事件类型不适合具体领域, 文献[33]根据股票相关业务, 定义了6 种事件类型, 并借助金融事件知识库实现了对这些类型事件的抽取; 文献[28]在文献[33]基础上, 设计一个端到端的模型, 克服了采用序列标注模型的缺陷; 文献[91]讨论了业务/商务事件的抽取情况, 设计了一个基于聚类的词表示方法, 从大量的新闻数据中抽取业务事件. 2020年, 文献[57]以检测经济事件为手段, 分析了支撑上市公司股价的几个关键因素, 包括销售额、季度/年度收入等, 以这些关键因素为中心, 探讨产生影响的潜在因素, 如政治、政策和宏观经济等. 这些潜在因素通常在正规文档(如新闻、政策声明等)中展示, 但呈现它们状态变化的是事件. 在实际应用场景下, 经济事件模式通常被展示为层级结构, 且一个事件可以属于某个层级中的一个类别. 因此, 该领域的事件检测可建模为层次多标签文本分类问题[139], 于是文献[57]提出一个基于神经层次多标签文本分类的事件检测机制. 文献[58]也以预测股票市场趋势为驱动, 采用多任务学习模型解决财经领域的事件分类、检测和摘要生成问题; 文献[54]利用财经领域部分特点(如领域词汇、新闻句式表达结构)设计句法语义依存图抽取开放金融事件.

    2)生物/医疗领域

    生物/医疗领域数据通常具有数据种类多和数据量大等特点. 随着高通量测序技术的大力发展, 各种数据组被测序和分析, 如基因组、代谢组、蛋白质组、转录组和表现组数据等. 此外, 人类的基因组有近30亿个碱基对, 个体差异的基因组也有几百万碱基对, 数据量巨大. 这些词汇都有较强的领域性, 所以需要更为广泛的领域知识和对复杂内容的深入理解.

    生物事件与常见事件的定义相同, 由一个触发词和多个论元构成, 但需要抽取与生物概念相关事件. 文献[20]聚焦可用的生物知识库, 借助其中丰富的生物概念, 提出一个知识库驱动的树结构LSTM框架; 文献[140]关注现有模型采用的方式, 认为线性模式存在较大弊端, 从而提出一个基于LSTM端到端联合抽取框架; 文献[141]基于文献[20]借助外部知识库模式, 但没有利用生物概念和语义间层次关系, 即忽略了彼此的结构化信息(图结构), 设计一个边条件的图注意力网络来编码层次知识图; 文献[142]将生物事件抽取任务重构为序列标注问题, 利用多标签感知编码策略, 通过多任务学习联合建模中间任务; 文献[143]受句法依存结构优秀成果的启发, 利用句法依存树结构, 设计了一个递归神经网络和条件随机场混合的触发词检测框架; 文献[34]提出现有生物事件抽取方法的3个不足: 采用线性模型、未考虑事件间生物分子的交互、未充分利用本地和全局内容间的交互, 引入一个文档级生物事件联合抽取框架, 充分地利用了局部和全局上下文信息且建模了全局和局部上下文间的交互.

    在医疗领域, 文献[8]开发了基于转移的前馈神经网络联合抽取医药不良事件; 文献[144]采用联合框架, 选择条件随机场处理该问题[145]; 与文献[140]相同, 文献[146]也聚焦于线性模型的缺陷, 结合现有联合模型不能有效地处理医药不良事件的多头问题(具有多种关系), 提出一个端到端的多任务迁移学习方法. 此外, 由于医药不良事件数据均来自临床文本数据, 数量有限, 文献[41]采用各种无标签数据建立多个半监督卷积神经网络模型; 文献[147]利用迁移学习技术解决训练数据不足的问题.

    3)其他领域

    在网络安全领域, 文献[95]利用多个深度学习模型检测了文本流中的DDoS (Distributed denial of service)事件; 文献[96]采用CNN和LSTM等方法, 结合特定领域的词嵌入和特定任务的特征进行网络安全检测. 尽管上述研究使用的方法相同, 但检测目标和借助的特征却存在区别. 文献[60]定义了5类网络安全事件和20个对应角色, 标注了新闻文章中的网络安全事件, 并搭建了网络安全事件的抽取系统. 鉴于可用数据不足, 文献[99]设计了一种模式聚类算法和基于非负矩阵分解的事件聚合算法.

    在法律领域, 文献[46]结合应用需求, 重塑了法律领域的事件定义和事件模式, 分别构建了具有层次的法律事件类型和论元类型结构, 并设计了基于踏板注意力的联合分层事件抽取模型.

    通过上述总结分析可知, 虽然都是针对具体领域, 但侧重点不同. 财经和法律领域通常以应用需求为驱动, 与应用结合得较为紧密; 生物/医疗领域偏向克服大量领域词汇概念问题, 由现有模型技术局限为驱动, 重在优化模型, 且大多集中于同一模型框架(联合抽取)下的优化. 从采用技术看, 研究提出的模型多为深度学习方法, 如LSTM、图注意力网络, 部分先进方法并未借鉴使用.

    语言方面的研究多为英语和汉语. 英语属于主从结构, 字面意思表达更强且词语拥有一些固定的变化形式, 如进行时(ing)、过去分词(ed), 它们都是可以利用的线索. 中文属于意合语言, 句子结构灵活, 语义衔接广泛, 如缺省、引用、指代、连接词等. 因此, 汉语比较依赖于论元的深度语义, 尤其是事件的连续性. 这些差异导致许多模型在不同语言数据下无法通用.

    与领域问题类似, 语言问题主要研究针对不同语言特点设计合适的模型, 以及利用不同语言间冗余信息提升抽取效果等. 在应用价值上, 可以丰富面向不同语言的事件抽取技术, 帮助针对某种语言抽取其中包含事件的下游应用. 本节对利用语言特性提升事件抽取效果的研究进行总结, 如不同语言的独有特点、多语言间数据关联等. 文献[148]考虑汉语中词的语义通常由组成词的字决定, 以及中文是一种篇章驱动的语言, 因而运用组合语义和篇章一致性, 识别中文未知事件触发词. 文献[149]借助汉语、日语中文字符号、偏旁部首和音节等特点, 利用语言翻译特性, 推进了英语事件检测的发展. 文献[149]在文献[148]基础上, 引入了偏旁部首等信息, 充分发挥了汉语语义组合的优势.

    由于中文不存在分隔符, 使得词语–触发词错误匹配问题更为凸显, 而且中文的词语经常需要组块结合才能表达其含义, 如并购. 因此, 文献[150]探讨以块结构实现词语–触发词匹配. 此外, 为了克服前期研究基于规则方法导致的覆盖性不高等问题, 文献[136]借助神经网络, 提出嵌套组块模型. 文献[40]利用多语言的互补性, 提出门控跨语言注意力, 有效地缓和了单语言中触发词一词多义情况, 提升了事件检测效果. 2019年, 文献[20]从数据出发, 重点分析了ACE2005中文语料, 发现约36.5%的事件中包含多个事件情况, 而英语语料下, 句式结构相对简单, 此情况较少. 为了解决这个问题, 文献[20]提出采用分类训练策略. 文献[151]考虑到中文语句结构灵活和句法成分多省略的特点, 针对中文事件触发词抽取中存在的事件论元语义信息难以获取问题, 提出基于模式匹配的核心论元和辅助论元抽取方法. 文献[54]针对汉语具有句式复杂、多样化, 且存在大量缺省等特点, 借助句法和语义2方面依存信息, 提出核心动词链和句法语义依存树机制, 解决中文事件漏抽和事件缺省成分补全问题. 文献[54]侧重于事件的漏抽和补全, 认为大量的事件成分缺省势必影响事件的使用价值, 从而制定了许多补全规则以提高抽取事件的质量. 文献[151]以中文句式结构灵活和缺省等特点为切入点, 分析由其导致的抽取难度, 为此设计适合的抽取方法. 文献[66]抓住相同事件在不同语言表达中的句法依存结构一致的特点, 借助图神经网络编码该结构信息, 同时采用自注意力机制解决依存结构中长距离依赖的问题, 提出一个图注意力编码器.

    总之, 语言方面的研究主要涉及汉语和英语2个语种, 且汉语偏多(指基于中文语言特点的研究, 并非指基于中文数据集), 其原因是汉语相较英语更为复杂, 特点更多, 如缺省、引用、词语结块等现象较为显著. 技术角度主要采用基于规则和神经网络方法. 规则方法主要依靠发现的语言特点设计抽取规则, 如形态、偏旁部首、句法依存结构和语义依存等; 神经网络方法包括门控注意力框架和图注意力模型等, 常用策略是将发现的特点灌入模型或者借助不同语言的固定结构, 如文献[104]采用的句法依存结构.

    1)文档级事件抽取可能成为热点. 目前, 语句级事件抽取取得了丰富的研究成果, 人们开始关注事件抽取的质量. 论元跨句可较好弥补事件信息丢失, 是一种提高事件质量的有效手段. 此外, 语句级事件数量太多, 多个语句级的事件可能实际上是同一个事件, 每个事件只是捕获了该事件的部分论元信息. 基于文档级事件, 合并相同事件、完善事件论元信息、过滤无价值事件也是提高事件质量的途径. 文档级事件抽取主要考虑实体充当事件的论元角色, 且论元角色不复杂. 对于不是实体的论元(称为复杂论元), 如一个事件或一个稍长词语片段作为其他事件论元, 现有的抽取模型效果可能较差, 而这种现象和需求是普遍的. 此外, 现有事件本体比较简单, 即使完全、准确地抽取了事件论元信息, 但对全面理解事件语义涵义还是相差较多. 例如, 经济评论的文本描述十分复杂, 很多揭示语句重要涵义的信息在状语和副词中, 而对这些成分的抽取非常困难. 因此, 对文档级事件抽取研究还有待进一步推进, 是未来的一个发展方向.

    2)构建事件主题是一个新开辟的研究问题. 人们习惯以主题形式理解文档, 可以帮助快速了解文档内容覆盖的话题. 目前, 文档主题都是由词语构建, 而单个词语无法反映文档中事件发生的行为信息, 所以构建既能反映主题语义涵义, 又能体现事件行为的事件主题是重要的, 也是未来的一个研究问题.

    3)事件关系抽取将成为未来关注的话题. 事件并不是孤立的, 它们彼此间蕴含着丰富的关系. 单纯考虑事件抽取很难将抽取的事件运用到实际应用中, 即无法发挥其价值. 因此, 如何围绕事件主题抽取事件间的关系, 将抽取的事件进行关联, 形成一个事件网络, 将成为未来一个热点话题.

    4)开放域事件抽取将是未来关注的焦点. 随着抽取任务的领域化和研究问题的具体化, 人们对事件的需求越来越多. 现有的事件类型难以满足应用需求, 而完全由人工定义事件本体的难度和要求较高. 此外, 有些任务事先无法明确或不确定事件类型, 所以能根据输入语料自动抽取其中蕴含事件将会备受关注.

    5)解决事件抽取训练语料不足的技术会增多. 现有研究大多以数据为驱动, 数据包含了模型识别事件的所有有用特征, 然而标注数据成本巨大, 尤其是在研究任务不断变化情况下, 大部分需要重新标注. 根据对文档级分析结果可知, 相关语料缺少使文档级研究推进缓慢. 所以, 解决训练数据不足也是未来发展的一个趋势.

    本文对事件抽取的研究现状进行了较为全面的回顾和分析, 主要包括研究任务、研究问题和解决方案. 首先, 对事件抽取相关研究任务进行了详细阐述, 明确了每种任务的目标和常用的实现策略; 然后, 对各任务上的代表性研究成果进行了总结; 接着, 重点对近5年的研究问题和解决方案进展进行了分析, 通过比较同类研究问题下各研究间的关系, 展示了事件抽取的整体发展脉络; 最后, 对事件抽取未来的发展趋势进行了总结.

  • 图  1  事件识别及其要素抽取的任务框架

    Fig.  1  Task framework of event recognition and event element extraction

    图  2  各任务上的代表性研究成果

    Fig.  2  Representative research results for each task

    图  3  语句级事件抽取的主要发展历程

    Fig.  3  Main development of sentence-level event extraction

    图  4  文档级事件抽取的主要发展历程

    Fig.  4  Main development of document-level event extraction

    图  5  各模型在DuEE-Fin语料上各事件类型下的F1值

    Fig.  5  F1 scores of models under each event type on DuEE-Fin corpus

    表  1  各模型在ChFinAnn语料上各事件类型下的F1值 (%)

    Table  1  F1 scores of models under each event type on ChFinAnn corpus (%)

    模型 冻结 回购 减持 增持 质押 平均
    DCFEE-O 51.1 83.1 45.3 46.6 63.9 58.0
    DCFEE-M 45.6 80.8 44.2 44.9 62.9 55.7
    GreedyDec 58.9 78.9 51.2 51.3 62.1 60.5
    Doc2EDAG 70.2 87.3 71.8 75.0 77.3 76.3
    GIT 73.4 90.8 74.3 76.3 77.7 78.5
    DE-PPN 73.5 87.4 74.4 75.8 78.4 77.9
    SCDEE 80.4 90.5 75.1 70.1 78.1 78.8
    PTPCG 71.4 91.6 71.5 72.2 76.4 76.6
    ReDEE 74.1 90.7 75.3 78.1 80.1 79.7
    TER-MCEE 87.9 97.2 89.8 91.2 78.6 88.9
    EDEE 97.4 90.3 93.2 93.4 96.2 94.1
    ProCNet 75.7 93.7 76.0 72.0 81.3 79.7
    下载: 导出CSV

    表  2  处理训练语料不足问题的各方法比较

    Table  2  Comparison of methods that handling the problem of insufficient training corpus

    方法 本质 需要的数据 解决方式
    远程监督 利用外部知识库扩展数据 少量标注数据 直接增加
    半监督 少量标注训练模型预测大量无标签数据 少量标注数据加大量无标签数据 直接增加、不增加
    无监督 直接根据数据特点或性质判断 大量无标签数据 不使用标注数据
    自监督 从无标签数据中挖掘监督信息用于训练 大量无标签数据 不使用标注数据
    弱监督 针对数据集不可靠情况, 包含3种典型情况 少量标注数据加大量无标签数据 直接增加
    主动学习 通过机器学习挑选有用的样本给人工标注 少量标注数据加大量无标签数据 直接增加
    强化学习 中途告知学习情况 大量无标签数据 无标注数据
    元学习 通过多个任务的数据学习内涵/规律/学习的本领 其他任务或领域的数据 其他领域增加
    迁移学习 其他任务/领域下的模型用于目标任务/领域 其他领域的大量数据 其他领域增加
    小样本学习 一种任务, 小样本下学习本领 极少的标注数据 直接增加、间接增加、不增加、其他领域增加
    零样本学习 一种任务, 零样本下学习本领 给出代表某一类物体语义的嵌入向量 不使用标注数据
    下载: 导出CSV
  • [1] Liu K, Chen Y B, Liu J, Zuo X Y, Zhao J. Extracting events and their relations from texts: A survey on recent research progress and challenges. AI Open, 2020, 1: 22−39 doi: 10.1016/j.aiopen.2021.02.004
    [2] 王县县, 禹龙, 田生伟, 王瑞锦. 独立RNN 和胶囊网络的维吾尔语事件缺失元素填充. 自动化学报, 2021, 47(4): 903−912

    Wang Xian-Xian, Yu Long, Tian Sheng-Wei, Wang Rui-Jin. Missing argument fllling of uyghur event based on independent recurrent neural network and capsule network. Acta Automatica Sinica, 2021, 47(4): 903−912
    [3] 王梦来, 李想, 陈奇, 李澜博, 赵衍运. 基于CNN的监控视频事件检测. 自动化学报, 2016, 42(6): 892−903 doi: 10.16383/j.aas.2016.c150729

    Wang Meng-Lai, Li Xiang, Chen Qi, Li Lan-Bo, Zhao Yan-Yun. Surveillance event detection based on CNN. Acta Automatica Sinica, 2016, 42(6): 892−903 doi: 10.16383/j.aas.2016.c150729
    [4] 介飞, 谢飞, 李磊, 吴信东. 社交网络中隐式事件突发性检测. 自动化学报, 2018, 44(4): 730−742 doi: 10.16383/j.aas.2017.c160564

    Jie Fei, Xie Fei, Li Lei, Wu Xin-Dong. Latent event-related burst detection in social networks. Acta Automatica Sinica, 2018, 44(4): 730−742 doi: 10.16383/j.aas.2017.c160564
    [5] Valenzuela-Escarcega M A, Hahn-Powell G, Surdeanu M, Hicks T. A domain-independent rule-based framework for event extraction. In: Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing of the Asian Federation of Natural Language Processing. Beijing, China: Association for Computational Linguistics, 2015. 127–132
    [6] Sha L, Liu J, Lin C Y, Li S J, Chang B B, Sui Z F. RBPB: Regularization-based pattern balancing method for event extraction. In: Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Berlin, Germany: Association for Computational Linguistics, 2016. 1224–1234
    [7] Hsi A, Yang Y M, Carbonell J, Xu R C. Leveraging multilingual training for limited resource event extraction. In: Proceedings of the 26th International Conference on Computational Linguistics: Technical Papers. Osaka, Japan: Association for Computational Linguistics, 2016. 1201–1210
    [8] Li F, Zhang Y, Zhang M S, Ji D H. Joint models for extracting adverse drug events from biomedical text. In: Proceedings of the 25th International Joint Conference on Artificial Intelligence. New York, USA: Springer, 2016. 2838–2844
    [9] Nguyen T H, Cho K, Grishman R. Joint event extraction via recurrent neural networks. In: Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. San Diego, USA: Association for Computational Linguistics, 2016. 300–309
    [10] Badgett A, Huang R H. Extracting subevents via an effective two-phase approach. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing. Austin, USA: Association for Computational Linguistics, 2016. 906–911
    [11] Chen Y B, Liu S L, Zhang X, Liu K, Zhao J. Automatically labeled data generation for large scale event extraction. In: Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Vancouver, Canada: Association for Computational Linguistics, 2017. 409–419
    [12] Sha L, Qian F, Chang B B, Sui Z F. Jointly extracting event triggers and arguments by dependency-bridge RNN and tensor-based argument interaction. In: Proceedings of the 32nd AAAI Conference on Artificial Intelligence. New Orleans, USA: AAAI, 2018. 5916–5923
    [13] Zeng Y, Feng Y S, Ma R, Wang Z, Yan R, Shi C D, et al. Scale up event extraction learning via automatic training data generation. In: Proceedings of the 32nd AAAI Conference on Artificial Intelligence. New Orleans, USA: AAAI, 2018. 6045– 6052
    [14] Huang L F, Ji H, Cho K, Dagan I, Riedel S, Voss C R. Zero-shot transfer learning for event extraction. In: Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. Melbourne, Australia: Association for Computational Linguistics, 2018. 2160–2170
    [15] Liu X, Luo Z C, Huang H Y. Jointly multiple events extraction via attention-based graph information aggregation. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing. Brussels, Belgium: Association for Computational Linguistics, 2018. 1247–1256
    [16] Subburathinam A, Lu D, Ji H, May J, Chang S F, Sil A, et al. Cross-lingual structure transfer for relation and event extraction. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Hong Kong, China: Association for Computational Linguistics, 2019. 313–325
    [17] Zhang J C, Qin Y X, Zhang Y, Liu M C, Ji D H. Extracting entities and events as a single task using a transition-based neural model. In: Proceedings of the 28th International Joint Conference on Artificial Intelligence. Macao, China: Springer, 2019. 5422–5428
    [18] Yang S, Feng D W, Qiao L B, Kan Z G, Li D S. Exploring pre-trained language models for event extraction and generation. In: Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence, Italy: Association for Computational Linguistics, 2019. 5284–5294
    [19] 贺瑞芳, 段邵杨. 基于多任务学习的中文事件抽取联合模型. 软件学报, 2019, 30(4): 1015−1030 doi: 10.13328/j.cnki.jos.005380

    He Rui-Fang, Duan Shao-Yang. Joint Chinese event extraction based multi-task learning. Journal of Software, 2019, 30(4): 1015−1030 doi: 10.13328/j.cnki.jos.005380
    [20] Li D Y, Huang L F, Ji H, Han J W. Biomedical event extraction based on knowledge-driven tree-LSTM. In: Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Minneapolis, USA: Association for Computational Linguistics, 2019. 1421–1430
    [21] Huang P X, Zhao X, Takanobu R, Zhen T, Xiao W D. Joint event extraction with hierarchical policy network. In: Proceedings of the 28th International Conference on Computational Linguistics. Barcelona, Spain: Association for Computational Linguistics, 2020. 2653–2664
    [22] Du X Y, Cardie C. Event extraction by answering (almost) natural questions. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing. Virtual Event: Association for Computational Linguistics, 2020. 671–683
    [23] Li F Y, Peng W H, Chen Y G, Wang Q, Pan L, Lyu Y J, et al. Event extraction as multi-turn question answering. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing. Virtual Event: Association for Computational Linguistics, 2020. 829–838
    [24] Liu J, Chen Y B, Liu K, Bi W, Liu X J. Event extraction as machine reading comprehension. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing. Virtual Event: Association for Computational Linguistics, 2020. 1641–1651
    [25] Ma J, Wang S, Anubhat R, Ballesteros M, Al-Onaizan Y. Resource-enhanced neural model for event argument extraction. In: Proceedings of the Association for Computational Linguistics: EMNLP. Virtual Event: Association for Computational Linguistics, 2020. 3554–3559
    [26] Abdulkadhar S, Bhasuran B, Natarajan J. Multiscale Laplacian graph kernel combined with lexico-syntactic patterns for biomedical event extraction from literature. Knowledge and Information Systems, 2021, 63: 143−173 doi: 10.1007/s10115-020-01514-8
    [27] Li Q, Peng H, Li J X, Wu J, Ning Y X, Wang L H, et al. Reinforcement learning-based dialogue guided event extraction to exploit argument relations. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2022, 30: 520−533 doi: 10.1109/TASLP.2021.3138670
    [28] Zheng S, Cao W, Xu W, Bian J. Doc2EDAG: An end-to-end document-level framework for Chinese financial event extraction. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Hong Kong, China: Association for Computational Linguistics, 2019. 337– 346
    [29] Li S, Ji H, Han J W. Document-level event argument extraction by conditional generation. In: Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Virtual Event: Association for Computational Linguistics, 2021. 894–908
    [30] Du X Y, Cardie C. Document-level event role filler extraction using multi-granularity contextualized encoding. In: Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Virtual Event: Association for Computational Linguistics, 2020. 8010–8020
    [31] Zhao Y, Jin X L, Wang Y Z, Cheng X Q. Document embedding enhanced event detection with hierarchical and supervis-ed attention. In: Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. Melbourne, Australia: Association for Computational Linguistics, 2018. 414– 419
    [32] Yang B S, Mitchell T. Joint extraction of events and entities within a document context. In: Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. San Diego, USA: Association for Computational Linguistics, 2016. 289–299
    [33] Yang H, Chen Y B, Liu K, Xiao Y, Zhao J. DCFEE: A document-level Chinese financial event extraction system based on automatically labeled training data. In: Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics-System Demonstrations. Melbourne, Australia: Association for Computational Linguistics, 2018. 1–6
    [34] Zhao W Z, Zhang J Y, Yang J C, He T T, Ma H F, Li Z X. A novel joint biomedical event extraction framework via two-level modeling of documents. Information Sciences, 2021, 550: 27−40 doi: 10.1016/j.ins.2020.10.047
    [35] Zhang Z S, Kong X, Liu Z Z, Ma X Z, Hovy E. A two-step approach for implicit event argument detection. In: Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Virtual Event: Association for Computational Linguistics, 2020. 7479–7485
    [36] Ebner S, Xia P, Culkin R, Rawlins K, Durme B V. Multi-sentence argument linking. In: Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Virtual Event: Association for Computational Linguistics, 2020. 8057–8077
    [37] Liu S L, Chen Y B, He S Z, Liu K, Zhao J. Leveraging framenet to improve automatic event detection. In: Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Berlin, Germany: Association for Computational Linguistics, 2016. 2134–2143
    [38] Zhang C, Soderland S, Weld D S. Exploiting parallel news streams for unsupervised event extraction. Transactions of the Association for Computational Linguistics, 2015, 3: 117−129 doi: 10.1162/tacl_a_00127
    [39] Ferguson J, Lockard C, Weld D S, Hajishirzi H. Semi-supervised event extraction with paraphrase clusters. In: Proceedin-gs of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. New Orleans, USA: Association for Computation-al Linguistics, 2018. 359–364
    [40] Liu J, Chen Y B, Liu K, Zhao J. Event detection via gated multilingual attention mechanism. In: Proceedings of the 32nd AAAI Conference on Artificial Intelligence. New Orleans, USA: AAAI, 2018. 4865–4872
    [41] Lee K, Qadir A, Hasan S A, Datla V, Prakash A, Liu J, et al. Adverse drug event detection in tweets with semi-supervised convolutional neural networks. In: Proceedings of the Web Conference. Perth, Australia: ACM, 2017. 705–714
    [42] Peng H R, Song Y Q, Roth D. Event detection and co-reference with minimal supervision. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing. Austin, USA: Association for Computational Linguistics, 2016. 392–402
    [43] Deng S M, Zhang N Y, Kang J J, Zhang Y C, Zhang W, Chen H J. Meta-learning with dynamic-memory-based prototypical network for few-shot event detection. In: Proceedings of the 13th International Conference on Web Search and Data Mining. Houston, USA: ACM, 2020. 151–159
    [44] Lai V D, Nguyen M V, Nguyen T H, Dernoncourt F. Graph learning regularization and transfer learning for few-shot event detection. In: Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval. Virtual Event: ACM, 2021. 2172–2176
    [45] Yuan Q, Ren X, He W Q, Zhang C, Geng X H, Huang L F, et al. Open-schema event profiling for massive news corpora. In: Proceedings of the 27th ACM International Conference on Information and Knowledge Management. Torino, Italy: ACM, 2018. 587–596
    [46] Shen S R, Qi G L, Li Z, Bi S, Wang L S. Hierarchical Chinese legal event extraction via pedal attention mechanism. In: Proceedings of the 28th International Conference on Computational Linguistics. Barcelona, Spain: Association for Computational Linguistics, 2020. 100–113
    [47] Bhardwaj A, Yang J, Cudre-Mauroux P. A human-AI loop approach for joint keyword discovery and expectation estimation in micropost event detection. In: Proceedings of the 34th AAAI Conference on Artificial Intelligence. New York, USA: AAAI, 2020. 2451–2458
    [48] Hogemnoom F, Frasincar F, Kaymak U, Jong F D, Caron E. A survey of event extraction methods from text for decision support systems. Decision Support Systems, 2016, 85: 12−22 doi: 10.1016/j.dss.2016.02.006
    [49] Li Q, Li J X, Sheng J W, Cui S Y, Wu J, Hei Y M, et al. A survey on deep learning event extraction: Approaches and applications. IEEE Transactions on Neural Networks and Learning Systems, 2023, 34: 1−21 doi: 10.1109/TNNLS.2023.3305210
    [50] 黄河燕, 刘啸. 面向新领域的事件抽取研究综述. 智能系统学报, 2022, 17(1): 201−212

    Huang He-Yan, Liu Xiao. A survey on event extraction in new domains. CAAI Transactions on Intelligent Systems, 2022, 17(1): 201−212
    [51] Karisani P, Ho J C, Agichtein E. Domain-guided task decomposition with self-training for detecting personal events in social media. In: Proceedings of the Web Conference. Taipei, China: ACM, 2020. 2411–2420
    [52] Yen A Z, Huang H H, Chen H H. Detecting personal life events from Twitter by multi-task LSTM. In: Proceedings of the Web Conference. Lyon, France: ACM, 2018. 21–22
    [53] Cao Y W, Peng H, Wu J, Dou Y T, Li J X, Yu P S. Knowledge-preserving incremental social event detection via heterogeneous GNNs. In: Proceedings of the Web Conference. Lju-bljana, Slovenia: ACM, 2021. 3383–3395
    [54] 万齐智, 万常选, 胡蓉, 刘德喜. 基于句法语义依存分析的中文金融事件抽取. 计算机学报, 2021, 44(3): 508−530 doi: 10.11897/SP.J.1016.2021.00508

    Wan Qi-Zhi, Wan Chang-Xuan, Hu Rong, Liu De-Xi. Chinese financial event extraction based on syntactic and semantic dependency parsing. Chinese Journal of Computers, 2021, 44(3): 508−530 doi: 10.11897/SP.J.1016.2021.00508
    [55] Wan Q Z, Wan C X, Xiao K L, Hu R, Liu D X. A multi-channel hierarchical graph attention network for open event extraction. ACM Transactions on Information Systems, 2023, 41(1): 1−27
    [56] Akbari M, Hu X, Nie L Q, Chua T S. From tweets to wellness: Wellness event detection from Twitter streams. In: Proceedings of the 30th AAAI Conference on Artificial Intelligence. Phoe-nix, USA: AAAI, 2016. 87–93
    [57] Liang X, Cheng D W, Yang F Z, Luo Y F, Qian W N, Zhou A Y. F-HMTC: Detecting financial events for investment decisions based on neural hierarchical multi-label text classification. In: Proceedings of the 29th International Joint Conference on Artificial Intelligence. Yokohama, Japan: Springer, 2020. 4490–4496
    [58] Li Q Z, Zhang Q. A unified model for financial event classification, detection and summarization. In: Proceedings of the 29th International Joint Conference on Artificial Intelligence. Yokohama, Japan: Springer, 2020. 4668–4674
    [59] Wakamiya S, Jatowt A, Kawat Y, Akiyama T. Analyzing global and pairwise collective spatial attention for geo-social event detection in microblogs. In: Proceedings of the Web Conference. Montreal, Canada: ACM, 2016. 263–266
    [60] Satyapanich T, Ferraro F, Finin T. CASIE: Extracting cybersecurity event information from text. In: Proceedings of the 34th AAAI Conference on Artificial Intelligence. New York, USA: AAAI, 2020. 8749–8757
    [61] Nguyen T H, Grishman R. Graph convolutional networks with argument-aware pooling for event detection. In: Proceedings of the 32nd AAAI Conference on Artificial Intelligence. New Orl-eans, USA: AAAI, 2018. 5900–5907
    [62] Yan H R, Jin X L, Meng X B, Guo J F, Cheng X Q. Event detection with multi-order graph convolution and aggregated attention. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Hong Kong, China: Association for Computational Linguistics, 2019. 5766– 5770
    [63] Cui S Y, Yu B W, Liu T W, Zhang Z Y, Wang X B, Shi J Q. Edge-enhanced graph convolution networks for event detection with syntactic relation. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing: Findings. Virtual Event: Association for Computational Linguistics, 2020. 2329–2339
    [64] Lai V D, Nguyen T N, Nguyen T H. Event detection: Gate diversity and syntactic importance scores for graph convolution neural networks. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing. Virtual Event: Association for Computational Linguistics, 2020. 5405–5411
    [65] Veyseh A P B, Nguyen T N, Nguyen T H. Graph transformer networks with syntactic and semantic structures for event argument extraction. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing: Findings. Virtual Event: Association for Computational Linguistics, 2020. 3651–3661
    [66] Ahmad W U, Peng N Y, Chang K. GATE: Graph attention transformer encoder for cross-lingual relation and event extraction. In: Proceedings of the 35th AAAI Conference on Artificial Intelligence. Virtual Event: AAAI, 2021. 12462–12470
    [67] Hong Y, Zhou W X, Zhang J L, Zhu Q M, Zhou G D. Self-regulation: Employing a generative adversarial network to improve event detection. In: Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. Melbourne, Australia: Association for Computational Linguistics, 2018. 515–526
    [68] Wang X Z, Han X, Liu Z Y, Sun M S, Li P. Adversarial training for weakly supervised event detection. In: Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Minneapolis, USA: Association for Computational Linguistics, 2019. 998–1008
    [69] Huang K H, Hsu I H, Natarajan P, Chang K W, Peng N Y. Multilingual generative language models for zero-shot cross-lingual event argument extraction. In: Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics. Dublin, Ireland: Association for Computational Linguistics, 2022. 4633–4646
    [70] Arachie C, Gaur M, Aazaroot S, Groves W, Zhang K, Jaimes A. Unsupervised detection of sub-events in large scale disasters. In: Proceedings of the 34th AAAI Conference on Artificial Intelligence. New York, USA: AAAI, 2020. 354–361
    [71] Xie J Y, Sun H T, Zhou J S, Qu W G, Dai X Y. Event detection as graph parsing. In: Proceedings of the Association for Computational Linguistics: ACL-IJCNLP. Virtual Event: Association for Computational Linguistics, 2021. 1630–1640
    [72] Veyseh A P B, Lai V D, Dernoncourt F, Nguyen T H. Unleash GPT-2 power for event detection. In: Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. Virtual Event: Association for Computational Linguistics, 2021. 6271–6282
    [73] Liao J Z, Zhao X, Li X Y, Zhang L L, Tang J Y. Learning discriminative neural representations for event detection. In: Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval. Virtual Event: ACM, 2021. 644–653
    [74] Nguyen T H, Grishman R. Event detection and domain adaptation with convolutional neural networks. In: Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Beijing, China: Association for Computational Linguistics, 2015. 365–371
    [75] Chen Y B, Xu L H, Liu K, Zeng D J, Zhao J. Event extraction via dynamic multi-pooling convolutional neural networks. In: Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Beijing, China: Association for Computational Linguistics, 2015. 167–176
    [76] Nguyen T H, Grishman R. Modeling Skip-Grams for event detection with convolutional neural networks. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing. Austin, USA: Association for Computational Linguistics, 2016. 886–891
    [77] Ghaeini R, Fern X Z, Huang L, Tadepalli P. Event nugget detection with forward-backward recurrent neural networks. In: Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Berlin, Germany: Association for Computational Linguistics, 2016. 369–373
    [78] Liu S L, Chen Y B, Liu K, Zhao J. Exploiting argument information to improve event detection via supervised attention mechanisms. In: Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Vancouver, Canada: Association for Computational Linguistics, 2017. 1789–1798
    [79] Kipf T N, Welling M. Semi-supervised classification with graph convolutional networks. In: Proceedings of 5th International Conference on Learning Representations. Toulon, France: Open-Review.net, 2017. 1–14
    [80] Liu S B, Cheng R, Yu X M, Cheng X Q. Exploiting contextual information via dynamic memory network for event detection. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing. Brussels, Belgium: Associat-ion for Computational Linguistics, 2018. 1030–1035
    [81] Mehta S, Islam M R, Rangwala H, Ramakrishnan N. Event detection using hierarchical multi-aspect attention. In: Proceedings of the Web Conference. San Francisco, USA: ACM, 2019. 3079–3084
    [82] Xie Z P, Tu Y M. A graph convolutional network with adaptive graph generation and channel selection for event detection. In: Proceedings of the 36th AAAI Conference on Artificial Intelligence. Virtual Event: AAAI, 2022. 11522–11529
    [83] Liu J, Chen Y F, Xu J A. Saliency as evidence: Event detection with trigger saliency attribution. In: Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics. Dublin, Ireland: Association for Computational Linguistics, 2022. 4573–4585
    [84] Li H C, Mo T, Fan H C, Wang J K, Wang J X, Zhang F H, et al. KiPT: Knowledge-injected prompt tuning for event detection. In: Proceedings of the 29th International Conference on Computational Linguistics. Gyeongju, South Korea: Association for Computational Linguistics, 2022. 1943–195
    [85] Yue Z R, Zeng H M, Lan M F, Ji H, Wang D. Zero-and few-shot event detection via prompt-based meta learning. In: Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics. Toronto, Canada: Association for Computational Linguistics, 2023. 7928–7943
    [86] Dai L, Wang B, Xiang W, Mo Y J. Bi-directional iterative prompt-tuning for event argument extraction. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing. Abu Dhabi, United Arab Emirates: Association for Computational Linguistics, 2022. 6251–6263
    [87] Nguyen C V, Man H, Nguyen T H. Contextualized soft prompts for extraction of event arguments. In: Proceedings of the Association for Computational Linguistics: ACL. Toronto, Canada: Association for Computational Linguistics, 2023. 4352–4361
    [88] Wang S J, Yu M, Huang L F. The art of prompting: Event detection based on type specific prompts. In: Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics. Toronto, Canada: Association for Computational Linguistics, 2023. 1286–1299
    [89] Du X Y, Ji H. Retrieval-augmented generative question answering for event argument extraction. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing. Abu Dhabi, United Arab Emirates: Association for Computational Linguistics, 2022. 4649–4666
    [90] Hsu I H, Xie Z Y, Huang K H, Natarajan P, Peng N Y. AMPERE: AMR-aware prefix for generation-based event argument extraction model. In: Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics. Toronto, Canada: Association for Computational Linguistics, 2023. 10976–10993
    [91] Lu D, Ran S H, Tetreault J, Jaimes A. Event extraction as question generation and answering. In: Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics. Toronto, Canada: Association for Computational Linguistics, 2023. 1666–1688
    [92] Ma M D, Taylor A K, Wang W, Peng N Y. DICE: Data-efficient clinical event extraction with generative models. In: Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics. Toronto, Canada: Association for Computational Linguistics, 2023. 15898–15917
    [93] Wang Z Q, Zhang Y. DDoS event forecasting using Twitter data. In: Proceedings of the 26th International Joint Conference on Artificial Intelligence. Melbourne, Australia: Springer, 2017. 4151–4157
    [94] Bekoulis G, Deleu J, Demeester T, Develder C. Sub-event detection from twitter streams as a sequence labeling problem. In: Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Minneapolis, USA: Association for Computational Linguistics, 2019. 745–750
    [95] Yagcioglu S, Seyfioglu M S, Citamak B, Bardak B, Guldamlasioglu S, Yuksel A, et al. Detecting cybersecurity events from noisy short text. In: Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Minneapolis, USA: Association for Computational Linguistics, 2019. 1366–1372
    [96] Ding H B, Riloff E. Acquiring knowledge of affective events from blogs using label propagation. In: Proceedings of the 30th AAAI Conference on Artificial Intelligence. Phoenix, USA: AAAI, 2016. 2935–2942
    [97] Bendimerad A, Plantevit M, Robardet C, Amer-Yahia S. User-driven geolocated event detection in social media. IEEE Transactions on Knowledge and Data Engineering, 2021, 33(2): 796–809
    [98] Liu X W, Fu J M, Chen Y J. Event evolution model for cybersecurity event mining in tweet streams. Information Sciences, 2020, 524: 254–276
    [99] Choubey P K, Raju K, Huang R H. Identifying the most dominant event in a news article by mining event coreference relations. In: Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. New Orleans, USA: Associat-ion for Computational Linguistics, 2018. 340–345
    [100] Qian Y, Deng X W, Ye Q W, Ma B J, Yuan H. On detecting business event from the headlines and leads of massive online news articles. Information Processing and Management, 2019, 56(6): Article No. 102086 doi: 10.1016/j.ipm.2019.102086
    [101] Chen Y B, Yang H, Liu K, Zhao J, Jia Y T. Collective event detection via a hierarchical and bias tagging networks with gated multi-level attention mechanisms. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing. Brussels, Belgium: Association for Computational Linguistics, 2018. 1267–1276
    [102] Veyseh A P B, Nguyen M V, Trung N N, Min B N, Nguyen H. Modeling document-level context for event detection via important context selection. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing. Punta Cana, Dominican Republic: Association for Computational Linguistics, 2021. 5403–5413
    [103] Veyseh A P, Nguyen M V, Dernoncourt F, Min B N, Nguyen T H. Document-level event argument extraction via optimal transport. In: Proceedings of the Association for Computational Linguistics: ACL. Dublin, Ireland: Association for Computational Linguistics, 2022. 1648–1658
    [104] Han C Y, Zhang J C, Li X Y, Xu G J, Peng W H, Zeng Z F. DuEE-Fin: A large-scale dataset for document-level event extraction. In: Proceedings of the CCF International Conference on Natural Language Processing and Chinese Computing. Guilin, China: Springer, 2022. 172–183
    [105] Ma Y B, Wang Z H, Cao Y X, Li M K, Chen M Q, Wang K, et al. Prompt for extraction? PAIE: Prompting argument interaction for event argument extraction. In: Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics. Dublin, Ireland: Association for Computational Linguistics, 2022. 6759–6774
    [106] Lin J J, Chen Q, Zhou J, Jin J, He L. CUP: Curriculum learning based prompt tuning for implicit event argument extraction. In: Proceedings of the 31st International Joint Conference on Artificial Intelligence. Vienna, Austria: Springer, 2022. 4245–4251
    [107] Ren Y B, Cao Y N, Fang F, Guo P, Lin Z, Ma W, et al. CLIO: Role-interactive multi-event head attention network for document-level event extraction. In: Proceedings of the 29th International Conference on Computational Linguistics. Gyeongju, South Korea: Association for Computational Linguistics, 2022. 2504–2514
    [108] Xu R X, Wang P Y, Liu T Y, Zeng S, Chang B B, Sui Z F. A two-stream AMR-enhanced model for document-level event argument extraction. In: Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Seattle, USA: Association for Computational Linguistics, 2022. 5025–5036
    [109] Yang Y Q, Guo Q P, Hu X K, Zhang Y, Qiu X P, Zhang Z. An AMR-based link prediction approach for document-level event argument extraction. In: Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics. Toronto, Canada: Association for Computational Linguistics, 2023. 12876–12889
    [110] Liu J, Liang C, Xu J N, Liu H Y, Zhao Z. Document-level event argument extraction with a chain reasoning paradigm. In: Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics. Toronto, Canada: Association for Computational Linguistics, 2023. 9570–9583
    [111] Liu W L, Cheng S H, Zeng D Y, Qu H. Enhancing document-level event argument extraction with contextual clues and role relevance. In: Proceedings of the Association for Computational Linguistics: ACL. Toronto, Canada: Association for Computational Linguistics, 2023. 12908–12922
    [112] Ren Y B, Cao Y N, Guo P, Fang F, Ma W, Lin Z. Retrieve-and-sample: Document-level event argument extraction via hybrid retrieval augmentation. In: Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics. Toronto, Canada: Association for Computational Linguistics, 2023. 293–306
    [113] Xu R X, Liu T Y, Li L, Chang B B. Document-level event extraction via heterogeneous graph-based interaction model with a tracker. In: Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. Virtual Event: Association for Computational Linguistics, 2021. 3533–3546
    [114] Liang Y, Jiang Z X, Yin D, Ren B. RAAT: Relation-augmented attention transformer for relation modeling in document-level event extraction. In: Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Seattle, USA: Association for Computational Linguistics, 2022. 4985–4997
    [115] Yang H, Sui D B, Chen Y B, Liu K, Zhao J, Wang T F. Document-level event extraction via parallel prediction networks. In: Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. Virtual Event: Association for Computational Linguistics, 2021. 6298–6308
    [116] Huang Y S, Jia W J. Exploring sentence community for document-level event extraction. In: Proceedings of the Association for Computational Linguistics: EMNLP. Punta Cana, Dominican Republic: Association for Computational Linguistics, 2021. 340–351
    [117] Zhu T, Qu X Y, Chen W L, Wang Z F, Huai B X, Yuan N, et al. Efficient document-level event extraction via pseudo-trigger-aware pruned complete graph. In: Proceedings of the 31st International Joint Conference on Artificial Intelligence. Vienna, Austria: Springer, 2022. 4552–4558
    [118] Wan Q Z, Wan C X, Xiao K L, Xiong H, Liu D X, Liu X P. Token-event-role structure-based multi-channel document-level event extraction. arXiv preprint arXiv: 2306.17733, 2023.
    [119] Wan Q Z, Wan C X, Xiao K L, Liu D X, Li C L, Zheng B L, et al. Joint document-level event extraction via token-token bidirectional event completed graph. In: Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics. Toronto, Canada: Association for Computational Linguistics, 2023. 10481–10492
    [120] Wang X Y, Gui L, He Y L. Document-level multi-event extraction with event proxy nodes and hausdorff distance minimization. In: Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics. Toronto, Canada: Association for Computational Linguistics, 2023. 10118–10133
    [121] Araki J, Mitamura T. Open-domain event detection using distant supervision. In: Proceedings of the 27th International Conference on Computational Linguistics. Santa Fe, USA: Association for Computational Linguistics, 2018. 878–891
    [122] Naik A, Rose C. Towards open domain event trigger identification using adversarial domain adaptation. In: Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Virtual Event: Association for Computational Linguistics, 2020. 7618–7624
    [123] Liu X, Huang H Y, Zhang Y. Open domain event extraction using neural latent variable models. In: Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence, Italy: Association for Computational Linguistics, 2019. 2860–2871
    [124] Ding X, Zhang Y, Liu T, Duan J W. Using structured events to predict stock price movement: An empirical investigation. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing. Doha, Qatar: Association for Computational Linguistics, 2014. 1415–1425
    [125] Mintz M, Bills S, Snow R, Jurafsky D. Distant supervision for relation extraction without labeled data. In: Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. Singapore: Association for Computational Linguistics, 2009. 1003–1011
    [126] Muis A O, Otant N, Vyas N, Xu R C, Yang Y M, Mitamura T, et al. Low-resource cross-lingual event type detection via distant supervision with minimal effort. In: Proceedings of the 27th International Conference on Computational Linguistics. Santa Fe, USA: Association for Computational Linguistics, 2018. 70–82
    [127] Liu J, Chen Y B, Liu K, Zhao J. Neural cross-lingual event detection with minimal parallel resources. In: Proceedings of the Conference on Empirical Methods in Natural Language Proce-ssing and the 9th International Joint Conference on Natural Language Processing. Hong Kong, China: Association for Computational Linguistics, 2019. 738–748
    [128] Huang L F, Ji H. Semi-supervised new event type induction and event detection. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing. Virtual Event: Association for Computational Linguistics, 2020. 718– 724
    [129] Zhang R H, Wei W, Mao X L, Fang R, Chen D Y. HCL-TAT: A hybrid contrastive learning method for few-shot event detection with task-adaptive threshold. In: Proceedings of the Association for Computational Linguistics: EMNLP. Abu Dhabi, United Arab Emirates: Association for Computational Linguistics, 2022. 1808–1819
    [130] Zhao K L, Jin X L, Bai L, Guo J F, Cheng X Q. Knowledge-enhanced self-supervised prototypical network for few-shot event detection. In: Proceedings of the Association for Computational Linguistics: EMNLP. Abu Dhabi, United Arab Emirates: Association for Computational Linguistics, 2022. 6295– 6304
    [131] Yang X J, Lu Y J, Petzold L. Few-shot document-level event argument extraction. In: Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics. Toronto, Canada: Association for Computational Linguistics, 2023. 8029–8046
    [132] Zhou Y, Chen Y B, Zhao J, Wu J, Xu J X, Li J L. What the role is vs. What plays the role: Semi-supervised event argument extraction via dual question answering. In: Proceedings of the 35th AAAI Conference on Artificial Intelligence. Virtual Event: AAAI, 2021. 14638–14646
    [133] Zhou J, Zhang Q, Chen Q, Zhang Q, He L, Huang X J. A multi-format transfer learning model for event argument extr-action via variational information bottleneck. In: Proceedings of the 29th International Conference on Computational Linguistics. Gyeongju, South Korea: Association for Computational Linguistics, 2022. 1990–2000
    [134] Zhang Z S, Strubell E, Hovy E. Transfer learning from semantic role labeling to event argument extraction with template-based slot querying. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing. Abu Dhabi, United Arab Emirates: Association for Computational Linguistics, 2022. 2627–2647
    [135] Zhang K H, Shuang K, Yang X Y, Yao X Y, Guo J Y. What is overlap knowledge in event argument extraction? APE: A cross-datasets transfer learning model for EAE. In: Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics. Toronto, Canada: Association for Computational Linguistics, 2023. 393–409
    [136] Guzman-Nateras L F, Dernoncourt F, Nguyen T H. Hybrid knowledge transfer for improved cross-lingual event detection via hierarchical sample selection. In: Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics. Toronto, Canada: Association for Computational Linguistics, 2023. 5414–5427
    [137] Huang L F, Cassidy T, Feng X C, Ji H, Voss C R, Han J W, et al. Liberal event extraction and event schema induction. In: Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Berlin, Germany: Association for Computational Linguistics, 2016. 258–268
    [138] Espinosa K, Miwa M, Ananisdou S. A search-based neural model for biomedical nested and overlapping event detection. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Hong Kong, China: Association for Computational Linguistics, 2019. 3679–3686
    [139] Wu Q Y, Tan M K, Song H J, Chen J, Ng M K. ML-FOREST: A multi-label tree ensemble method for multi-label classification. IEEE Transactions on Knowledge and Data Engineering, 2016, 28(10): 2665−2680 doi: 10.1109/TKDE.2016.2581161
    [140] Yu X Y, Rong W G, Liu J S, Zhou D Y, Ouyang Y X, Xiong Z. LSTM-based end-to-end framework for biomedical event extraction. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2019, 17(6): 2029−2039
    [141] Huang K H, Yang M, Peng N Y. Biomedical event extraction with hierarchical knowledge graphs. In: Proceedings of the Conference on Empirical Methods in Natural Language Proce-ssing: Findings. Virtual Event: Association for Computational Linguistics, 2020. 1277–1285
    [142] Ramponi A, Goot R V D, Lombardo R, Plank B. Biomedical event extraction as sequence labeling. In: Proceedings of the Conference on Empirical Methods in Natural Language Proce-ssing. Virtual Event: Association for Computational Linguistics, 2020. 5357–5367
    [143] Fei H, Ren Y F, Ji D H. A tree-based neural network model for biomedical event trigger detection. Information Sciences, 2020, 512: 175−185 doi: 10.1016/j.ins.2019.09.075
    [144] Bekoulis G, Deleu J, Demeeester T, Develder C. Joint entity recognition and relation extraction as a multi-head selection problem. Expert Systems With Applications, 2018, 114: 34−45 doi: 10.1016/j.eswa.2018.07.032
    [145] 陈亦琦, 钱铁云, 李万理, 梁贻乐. 基于复合关系图卷积的属性网络嵌入方法. 计算机研究与发展, 2020, 57(8): 1674−1682 doi: 10.7544/issn1000-1239.2020.20200206

    Chen Yi-Qi, Qian Tie-Yun, Li Wan-Li, Liang Yi-Le. Exploiting composite relation graph convolution for attributed network embedding. Journal of Computer Research and Development, 2020, 57(8): 1674−1682 doi: 10.7544/issn1000-1239.2020.20200206
    [146] El-allaly E D, Sarrouti M, En-Nahnahi N, Alaoui S O E. MTTLADE: A multi-task transfer learning-based method for adverse drug events extraction. Information Processing and Management, 2021, 58(3): Article No. 102473 doi: 10.1016/j.ipm.2020.102473
    [147] Fan B, Fan W G, Smith C, Garner H S. Adverse drug event detection and extraction from open data: A deep learning approach. Information Processing and Management, 2020, 57(1): Article No. 102131 doi: 10.1016/j.ipm.2019.102131
    [148] Li P F, Zhou G D, Zhu Q M, Hou L B. Employing compositional semantics and discourse consistency in Chinese event extraction. In: Proceedings of the Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Jeju Island, South Korea: Association for Computational Linguistics, 2012. 1006–1016
    [149] Wei S, Korostl I, Nothman J, Hachey B. English event detection with translated language features. In: Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Vancouver, Canada: Association for Computational Linguistics, 2017. 293–298
    [150] Lin H Y, Lu Y J, Han X P, Le S. Nugget proposal networks for Chinese event detection. In: Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. Melbourne, Australia: Association for Computational Linguistics, 2018. 1565–1574
    [151] 李培峰, 周国栋, 朱巧明. 基于语义的中文事件触发词抽取联合模型. 软件学报, 2016, 27(2): 280−294 doi: 10.13328/j.cnki.jos.004833

    Li Pei-Feng, Zhou Guo-Dong, Zhu Qiao-Ming. Semantics-based joint model for Chinese event trigger extraction. Journal of Software, 2016, 27(2): 280−294 doi: 10.13328/j.cnki.jos.004833
  • 加载中
图(5) / 表(2)
计量
  • 文章访问数:  1353
  • HTML全文浏览量:  706
  • PDF下载量:  301
  • 被引次数: 0
出版历程
  • 收稿日期:  2023-04-06
  • 录用日期:  2023-09-08
  • 网络出版日期:  2023-10-07
  • 刊出日期:  2024-11-26

目录

/

返回文章
返回