侯丽微 胡珀 曹雯琳

侯丽微, 胡珀, 曹雯琳. 主题关键词信息融合的中文生成式自动摘要研究. 自动化学报, 2019, 45(3): 530-539. doi: 10.16383/j.aas.c170617
HOU Li-Wei, HU Po, CAO Wen-Lin. Automatic Chinese Abstractive Summarization With Topical Keywords Fusion. ACTA AUTOMATICA SINICA, 2019, 45(3): 530-539. doi: 10.16383/j.aas.c170617


中央高校基本科研业务费项目 CCNU18TS044

国家自然科学基金 61402191

中央高校基本科研业务费项目 CCNU16JYKX15

国家语委“十三五”科研规划项目 WT135-11


    侯丽微  华中师范大学计算机学院硕士研究生.主要研究方向为自然语言处理.E-mail:houliwei@mails.ccnu.edu.cn

    曹雯琳  华中师范大学计算机学院硕士研究生.主要研究方向为自然语言处理.E-mail:caowenlin@mails.ccnu.edu.cn


    胡珀  华中师范大学计算机学院副教授.主要研究方向为自然语言处理, 机器学习, 本文通信作者.E-mail:phu@mail.ccnu.edu.cn

Automatic Chinese Abstractive Summarization With Topical Keywords Fusion


Fundamental Research Funds for the Central Universities CCNU18TS044

Supported by National Natural Science Foundation of China 61402191

Fundamental Research Funds for the Central Universities CCNU16JYKX15

Thirteen Five-year Research Planning Project of National Language Committee WT135-11

    Master student at the School of Computer Science, Central China Normal University. Her main research interest is natural language processing

    Master student at the School of Computer Science, Central China Normal University. Her main research interest is natural language processing

    Corresponding author: HU Po Associate professor at the School of Computer Science, Central China Normal University. His research interest covers natural language processing and machine learning. Corresponding author of this paper
  • 摘要: 随着大数据和人工智能技术的迅猛发展,传统自动文摘研究正朝着从抽取式摘要到生成式摘要的方向演化,从中达到生成更高质量的自然流畅的文摘的目的.近年来,深度学习技术逐渐被应用于生成式摘要研究中,其中基于注意力机制的序列到序列模型已成为应用最广泛的模型之一,尤其在句子级摘要生成任务(如新闻标题生成、句子压缩等)中取得了显著的效果.然而,现有基于神经网络的生成式摘要模型绝大多数将注意力均匀分配到文本的所有内容中,而对其中蕴含的重要主题信息并没有细致区分.鉴于此,本文提出了一种新的融入主题关键词信息的多注意力序列到序列模型,通过联合注意力机制将文本中主题下重要的一些关键词语的信息与文本语义信息综合起来实现对摘要的引导生成.在NLPCC 2017的中文单文档摘要评测数据集上的实验结果验证了所提方法的有效性和先进性.
  • 图  1  序列到序列模型

    Fig.  1  The sequence-to-sequence model

    图  2  注意力机制

    Fig.  2  The attention mechanism

    图  3  主题关键词信息融合的多注意力序列到序列模型

    Fig.  3  The multi-attention sequence-to-sequence model based on keywords information

    表  1  摘要评价结果

    Table  1  The results of summaries

    本文模型 0.37667 0.24077 0.16665 0.12914 0.32886
    表  2  生成摘要对比示例

    Table  2  The examples of the generative summaries

    标准摘要:昨天下午, 山西平遥县6名儿童结伴滑冰玩耍时, 不慎溺水身亡, 其中年龄最大的11岁, 最小的为5岁.
    UniAttention:今日下午, 山西平遥县发生一起溺水事件, 6名儿童玩耍不慎溺水身亡.
    NLP_ONE:今晨, 山西平遥县发生意外溺水身亡, 最小为5岁, 最小为5岁, 最小为5岁.
    pointer-generator:快讯:平遥县发生一起意外溺水事件, 已致1死1伤, [UNK]最小的岁, 最小为5岁(图)
    本文模型:组图: 平遥县6名儿童结伴滑冰玩耍不慎落水, 其中年龄最大的11岁, 最小的为5岁, 最小的为5岁.
    标准摘要:石嘴山市发布雷电黄色预警:预计未来6小时, 石嘴山市有雷阵雨, 并伴有雷电和短时强降水.提请相关部门和人员做好防范工作$\cdots$
    UniAttention:石嘴山市发布雷电黄色预警:预计未来6小时, 石嘴山市有雷阵雨, 并伴有雷电和短时强降水, $\cdots$
    NLP_ONE:石嘴山市发布雷电黄色预警:预计未来6小时, 石嘴山市有雷阵雨, 并伴有雷电和短时强降水.提请相关部门和人员做好防范工作
    pointer-generator:石嘴山市发布雷电黄色预警:预计未来6小时石嘴山市有雷阵雨, 并伴有雷电和短时强降水.提请相关部门和人员做好防范工作. $\cdots$ ($\cdots$)
    本文模型: 石嘴山市发布雷电黄色预警:预计未来6小时, 石嘴山市有雷电和短时强降水.提请相关部门和人员做好防范工作$\cdots$
    标准摘要:今日上午10时, 郑州一个汽车销售点停车场发生火灾, 70余辆新车被烧毁. (图)
    UniAttention:郑州: 70余辆汽车结算着火, 70余辆汽车被烧毁, 70余辆汽车被烧毁.
    NLP_ONE:组图:郑州一汽车购点停车场起火, 包括名媛43辆, 包括名媛43辆, 或因电线破损打火, 火星沉地面干草中所致.
    pointer-generator:组图:郑州一汽车销售点停车场失火, 70余辆汽车被烧毁, 70余辆汽车被烧毁, 郑州一汽车销售点停车场失火(图)
    本文模型:组图:今日10时许, 郑州一汽车销售时停车场失火, 70余辆汽车被烧毁.
    标准摘要:呼和浩特原市委副书记, 市长汤爱军涉嫌受贿犯罪被立案侦查, 案件侦查工作正在进行中.
    UniAttention:滁州市原市委书记汤爱军涉嫌受贿, 受贿犯罪被立案侦查, 并采取强制措施.
    NLP_ONE:原海东工业园区原市委书记江山涉嫌受贿犯罪被立案侦查, 并采取强制措施.
    pointer-generator:中纪委网站消息, 呼和浩特原市委副书记, 管委会常务副主任, 管委会市长张丽菊等四名厅级干部受贿犯罪立案侦查, 被证监会涉嫌滥用职权, 受贿犯罪被逮捕.
    本文模型: 呼和浩特原市委书记江山涉嫌受贿犯罪, 已被立案侦查 案件侦查正在进行中.
    标准摘要:今日6时50分许, 西宁城北区一12岁男孩坠楼身亡; 3小时后, 城中区一46岁男子坠楼身亡.
    UniAttention:西宁: 12岁男孩从21层楼坠下身亡, 警方正在对两人死因展开调查.
    NLP_ONE:今晨6时50分, 城北区一12岁男孩坠楼身亡(图).
    pointer-generator:西宁一12岁男孩坠楼身亡, 一名12岁男孩城中区小区14号楼坠楼者死因展开调查; 此前12岁男孩20岁男生是从20层的家中坠落.
    本文模型:组图: 今晨6时50分许, 城北区民惠城内12岁男孩坠楼身亡, 仅3小时后, 其车速3小时后坠楼身亡.
    标准摘要:达州一煤矿发生瓦斯爆炸事故4人被困井下, 1人受伤, 相关部门正在全力救援被困人员.
    UniAttention:组图:达州茶园煤矿发生爆炸事故, 造成4人被困井下, 伤者已送救援人员.
    NLP_ONE:今日下午发生瓦斯爆炸事故, 致4人被困井下, 1人被困井下, 无生命危险.
    pointer-generator:成都:境内境内境内茶园煤矿生产系统工程瓦斯爆炸事故, 造成4人被困井下, 1人被困井下, 1人受伤, 1人受伤(图)
    本文模型:组图: 达川发生瓦斯爆炸事故, 4人被困井下, 1人受伤, 伤者已送达州医院救治.
