于志强 余正涛 黄于欣 郭军军 高盛祥

doi: 10.16383/j.aas.c190477
基金项目: 国家重点研发计划(2019QY1800), 国家自然科学基金(61732005, 61672271, 61761026, 61762056, 61866020), 云南省高新技术产业专项基金(201606), 云南省自然科学基金(2018FB104)资助

    于志强:昆明理工大学信息工程与自动化学院博士研究生. 主要研究方向为自然语言处理.E-mail: yzqyt@hotmail.com

    余正涛:昆明理工大学信息工程与自动化学院教授. 主要研究方向为自然语言处理. 本文通信作者.E-mail: ztyu@hotmail.com

    黄于欣:昆明理工大学信息工程与自动化学院博士研究生. 主要研究方向为自然语言处理.E-mail: huangyuxin2004@163.com

    郭军军:昆明理工大学信息工程与自动化学院讲师. 主要研究方向为自然语言处理.E-mail: guojjgb@163.com

    高盛祥:昆明理工大学信息工程与自动化学院副教授. 主要研究方向为自然语言处理.E-mail: gaoshengxiang.yn@foxmail.com

Improving Semi-supervised Neural Machine Translation With Variational Information Bottleneck

Funds: Supported by National Key Research and Development Program of China (2019QY1800), National Natural Science Foundation of China (61732005, 61672271, 61761026, 61762056, 61866020), Yunnan High-Tech Industry Development Project (201606), and Natural Science Foundation of Yunnan Province (2018FB104)
    Author Bio:

    YU Zhi-Qiang Ph.D. candidate at the Faculty of Information Engineering and Automation, Kunming University of Science and Technology. His main research interest is natural language processing

    YU Zheng-Tao Professor at the Faculty of Information Engineering and Automation, Kunming University of Science and Technology. His main research interest is natural language processing. Corresponding author of this paper

    HUANG Yu-Xin Ph.D. candidate at the Faculty of Information Engineering and Automation, Kunming University of Science and Technology. His main research interest is natural language processing

    GUO Jun-Jun Lecturer at the Faculty of Information Engineering and Automation, Kunming University of Science and Technology. His main research interest is natural language processing

    GAO Sheng-Xiang Associate professor at the Faculty of Information Engineering and Automation, Kunming University of Science and Technology. Her main research interest is natural language processing

  • 摘要: 变分方法是机器翻译领域的有效方法, 其性能较依赖于数据量规模. 然而在低资源环境下, 平行语料资源匮乏, 不能满足变分方法对数据量的需求, 因此导致基于变分的模型翻译效果并不理想. 针对该问题, 本文提出基于变分信息瓶颈的半监督神经机器翻译方法, 所提方法的具体思路为: 首先在小规模平行语料的基础上, 通过引入跨层注意力机制充分利用神经网络各层特征信息, 训练得到基础翻译模型; 随后, 利用基础翻译模型, 使用回译方法从单语语料生成含噪声的大规模伪平行语料, 对两种平行语料进行合并形成组合语料, 使其在规模上能够满足变分方法对数据量的需求; 最后, 为了减少组合语料中的噪声, 利用变分信息瓶颈方法在源与目标之间添加中间表征, 通过训练使该表征具有放行重要信息、阻止非重要信息流过的能力, 从而达到去除噪声的效果. 多个数据集上的实验结果表明, 本文所提方法能够显著地提高译文质量, 是一种适用于低资源场景的半监督神经机器翻译方法.
  • 图  1  传统作用于最高层网络的注意力机制融入

    Fig.  1  Model with traditional attention mechanism based on top-layer merge

    图  2  层内融合方式的层级注意力机制融入

    Fig.  2  Model with hierarchical attention mechanism based on inner-layer merge

    图  3  跨层融合方式的层级注意力机制融入

    Fig.  3  Model with hierarchical attention mechanism based on cross-layer merge

    图  4  融入变分信息瓶颈后的神经机器翻译模型

    Fig.  4  NMT model after integrating variational information bottleneck

    图  5  翻译效果可视化

    Fig.  5  Example of translation effects

    图  6  英−越翻译任务的译文长度评测

    Fig.  6  Translation length evaluation of English-Vietnamese translation task

    图  7  $ \lambda $参数对模型的影响

    Fig.  7  Influence of $ \lambda $ parameter on the model

    表  1  语料组合结构示例

    Table  1  Examples of the combined corpus structure

    原始语料$ {D}_{a} $$ {D}_{b} $
    单语语料$ {D}_{x} $
    伪平行语料$ {D}_{x} $$ {D}_{y} $
    组合语料$ {D}_{b}+{D}_{y} $$ {D}_{a}+{D}_{x} $
    表  2  平行语料的构成

    Table  2  The composition of parallel corpus

    小规模平行语料IWSLT15${\rm{en} }\leftrightarrow {\rm{vi} }$133 K15531268
    IWSLT15${\rm{en}}\leftrightarrow {\rm{zh}} $209 K8871261
    IWSLT15${\rm{en}}\leftrightarrow {\rm{de}} $172 K8871565
    大规模平行语料WMT14${\rm{en}}\leftrightarrow {\rm{de}} $4.5 M30033000
    注: en: 英语, vi: 越南语, zh: 中文, de: 德语.
    表  3  实验使用的单语语料的构成, 其中越南语使用本文构建的单语语料

    Table  3  The composition of monolingual corpus, in which Vietnamese was collected by ourselves

    翻译任务语言数据集句数 (M)
    单语语料$ {\rm{en} }\leftrightarrow {\rm{vi} } $enGIGAWORD22.3
    $ {\rm{en} }\leftrightarrow {\rm{zh} } $enGIGAWORD22.3
    ${\rm{en} }\leftrightarrow {\rm{de}}\;{\rm{(IWSLT15)} }$enWMT1418
    ${\rm{en} }\leftrightarrow {\rm{de}}\;{\rm{(WMT14)} }$enWMT1418
    表  4  BLEU值评测结果(%)

    Table  4  Evaluation results of BLEU (%)

    $\triangle $+1.28+1.14+1.21+1.12+1.11+1.15+0.99+1.02
    $\triangle $+0.97+0.83+0.74+0.71+0.63+0.69+0.51+0.60
    注: $\triangle $表示融入CA+VIB后相较基准系统的BLEU值提升, * 表示利用bootstrap resampling[37] 进行了显著性检验 ($ p<0.05 $)
    表  6  RIBES值评测结果(%)

    Table  6  Evaluation results of RIBES (%)

    表  5  与其他半监督方法的比较(en-de)

    Table  5  Comparison between our work and different semi-supervised NMT approach (en-de)

    Zhang et al. (2018)en→dede→ende23.60
    this worken→dede→ende24.73
    表  7  中−英翻译实例

    Table  7  Chinese-English translation examples

    It was found that the train had already left[TA] Found that the
    the train had gone
    [CA] It was found that the the train had left away
    [CA+VIB] It was found that the train had left
  • 收稿日期:  2019-06-24
  • 录用日期:  2020-01-17
  • 网络出版日期:  2021-01-12
  • 刊出日期:  2022-07-01


