黄鑫 张家俊 宗成庆

黄鑫, 张家俊, 宗成庆. 基于跨模态实体信息融合的神经机器翻译方法. 自动化学报, 2023, 49(6): 1170−1180 doi: 10.16383/j.aas.c220230
Huang Xin, Zhang Jia-Jun, Zong Cheng-Qing. Neural machine translation method based on cross-modal entity information fusion. Acta Automatica Sinica, 2023, 49(6): 1170−1180 doi: 10.16383/j.aas.c220230
基金项目: 国家自然科学基金(U1836221)资助

    黄鑫:中国科学院自动化研究所模式识别国家重点实验室博士研究生. 主要研究方向为多模态机器翻译. E-mail: xin.huang@nlpr.ia.ac.cn

    张家俊:中国科学院自动化研究所研究员, 中国科学院大学岗位教授. 主要研究方向为机器翻译和自然语言处理. E-mail: jjzhang@nlpr.ia.ac.cn

    宗成庆:中国科学院自动化研究所研究员, 中国科学院大学岗位教授, 中国计算机学会会士, 中国人工智能学会会士. 主要研究方向为自然语言处理, 机器翻译. 本文通信作者. E-mail: cqzong@nlpr.ia.ac.cn

Neural Machine Translation Method Based on Cross-modal Entity Information Fusion

Funds: Supported by National Natural Science Foundation of China (U1836221)
    HUANG Xin Ph.D. candidate at the National Laboratory of Pattern Recognition, Institute of Automation, Chinese Academy of Sciences. His main research interest is multi-modal machine translation

    ZHANG Jia-Jun Professor at the Institute of Automation, Chinese Academy of Sciences, and professor at University of Chinese Academy of Sciences. His research interest covers machine translation and natural language processing

    ZONG Cheng-Qing Professor at the Institute of Automation, Chinese Academy of Sciences, and an adjunct professor at University of Chinese Academy of Sciences. He is CCF Fellow and CAAI Fellow. His research interest covers natural language processing and machine translation. Corresponding author of this paper

  • 摘要: 现有多模态机器翻译(Multi-modal machine translation, MMT)方法将图片与待翻译文本进行句子级别的语义融合. 这些方法存在视觉信息作用不明确和模型对视觉信息不敏感等问题, 并进一步造成了视觉信息与文本信息无法在翻译模型中充分融合语义的问题. 针对这些问题, 提出了一种跨模态实体重构(Cross-modal entity reconstruction, CER)方法. 区别于将完整的图片输入到翻译模型中, 该方法显式对齐文本与图像中的实体, 通过文本上下文与一种模态的实体的组合来重构另一种模态的实体, 最终达到实体级的跨模态语义融合的目的, 通过多任务学习方法将CER模型与翻译模型结合, 达到提升翻译质量的目的. 该方法在多模态翻译数据集的两个语言对上取得了最佳的翻译准确率. 进一步的分析实验表明, 该方法能够有效提升模型在翻译过程中对源端文本实体的忠实度.
  • 图  1  显式实体对齐示例

    Fig.  1  An example of the explicit way to align cross-modal entities

    图  2  结合跨模态实体重构方法的神经机器翻译模型图

    Fig.  2  NMT model framework combined with CER

    图  3  超参数$\omega $对CER-NMT翻译性能的影响

    Fig.  3  Effect of hyperparameter $\omega $ on translation performance of CER-NMT

    图  4  文本实体在不同模型下的忠实度

    Fig.  4  The fidelity of textual entities on different models

    表  1  MMT模型在Multi30K以及Ambiguous MSCOCO上的英译德和英译法的翻译结果

    Table  1  Results of MMT models on the English-German Multi30K and English-French Ambiguous MSCOCO

    Test2016Test2017MSCOCO Test2016
    Parallel RCNNs36.554.1
    增强 NMT 方法
    表  2  在Multi30K Test2016英译德翻译任务上的消融实验

    Table  2  Ablation study on the English-German Multi30K Test2016

    $\omega$$(1-\omega )\times \alpha$$(1-\omega) \times \beta$$(1-\omega) \times \gamma$
