李洪政 冯冲 黄河燕

李洪政, 冯冲, 黄河燕. 稀缺资源语言神经网络机器翻译研究综述. 自动化学报, 2021, 47(6): 1217−1231 doi: 10.16383/j.aas.c200103
Li Hong-Zheng, Feng Chong, Huang He-Yan. A survey on low-resource neural machine translation. Acta Automatica Sinica, 2021, 47(6): 1217−1231 doi: 10.16383/j.aas.c200103
doi: 10.16383/j.aas.c200103
基金项目: 中国博士后科学基金(2018M640069), 国家自然科学基金(61902024, 61732005), 国家重点研发计划(2018YFC0832104)资助

    李洪政:北京理工大学外国语学院助理教授(特别副研究员). 2018~2020年在北京理工大学计算机学院从事博士后研究工作, 2018年获北京师范大学中文信息处理研究所博士学位. 主要研究方向为自然语言处理, 机器翻译, 语料库语言学. E-mail: lihongzheng@bit.edu.cn

    冯冲:北京理工大学计算机学院教授. 2005年获中国科学技术大学计算机科学系博士学位. 主要研究方向为自然语言处理, 信息抽取, 机器翻译. E-mail: fengchong@bit.edu.cn

    黄河燕:北京理工大学计算机学院教授. 1989年获中国科学院计算技术研究所计算机科学与技术博士学位. 主要研究方向为自然语言处理, 机器翻译, 社交网络, 信息检索, 智能处理系统. 本文通信作者. E-mail: hhy63@bit.edu.cn

A Survey on Low-resource Neural Machine Translation

Funds: Supported by China Postdoctoral Science Foundation (2018M640069), National Natural Science Foundation of China (61902024, 61732005), and National Key R&D Program of China (2018YFC0832104)
    LI Hong-Zheng Assistant professor (special associate research fellow) at the School of Foreign Languages, Beijing Institute of Technology (BIT). He was a postdoctoral researcher at the School of Computer Science and Technology, BIT from 2018 to 2020. He received his Ph. D. degree from the Institute of Chinese Information and Processing, Beijing Normal University in 2018. His research interest covers natural language processing, machine translation and corpus linguistics

    FENG Chong Professor at the School of Computer Science and Technology, Beijing Institute of Technology. He received his Ph. D. degree from the Department of Computer Science, University of Science and Technology of China in 2005. His research interest covers natural language processing, information extraction, and machine translation

    HUANG He-Yan Professor at the School of Computer Science and Technology, Beijing Institute of Technology. She received her Ph. D. degree from the Institute of Computing Technology, Chinese Academy of Sciences in 1989. Her research interest covers natural language processing, machine translation, social network, information retrieval, and intelligent processing system. Corresponding author of this paper

  • 摘要: 作为目前主流翻译方法的神经网络机器翻译已经取得了很大突破, 在很多具有丰富数据资源的语言上的翻译质量也不断得到改善, 但对于稀缺资源语言的翻译效果却仍然并不理想. 稀缺资源语言机器翻译是目前机器翻译领域的重要研究热点之一, 近几年来吸引了国内外的广泛关注. 本文对稀缺资源语言机器翻译的研究进行比较全面的回顾, 首先简要介绍了与稀缺资源语言翻译相关的学术活动和数据集, 然后重点梳理了目前主要的研究方法和一些研究结论, 总结了每类方法的特点, 在此基础上总结了不同方法之间的关系并分析了目前的研究现状. 最后, 对稀缺资源语言机器翻译未来可能的研究趋势和发展方向进行了展望,并给出了相关建议.
  • 图  1  基于枢轴语言的方法(a)和MELE方法(b)

    Fig.  1  Pivot-based method (a) and MELE method (b)

    图  2  基于枢轴语言的方法(a)和“老师−学生”方法(b)

    Fig.  2  Pivot-based method (a) and “Teacher-student” method (b)

    图  3  迁移学习, 多语言迁移学习与元学习

    Fig.  3  Transfer learning, multilingual transfer learning and meta learning

    图  4  无监督翻译方法

    Fig.  4  Unsupervised NMT

    图  5  数据增强框架. 其中, (i)和(ii)是传统数据增强方法, (iii)和(iv)是新提出的方法

    Fig.  5  Data augmentation method, where (i) and (ii) are traditional methods, while (iii) and (iv) are new ones

    图  8  各类翻译方法的优势与局限

    Fig.  8  Advantages and limits of translation methods

    图  6  几类翻译方法之间的关系

    Fig.  6  Relations between the translation methods

    图  7  WMT2019中涉及的主要方法和技术

    Fig.  7  Main methods in WMT2019

    表  1  低资源语言翻译相关的数据资源

    Table  1  Data for low-resource MT

    WMT data WMT 提供的英语−低资源语言的数据集. 这也是目前研究中使用最多的数据集.
    IWSLT data 面向口语翻译的 IWSLT 比赛也提供了一些低资源翻译数据集.
    WAT data WAT 提供亚洲低资源语言的翻译数
    LORELEI data7 由 DARPA 开发的低资源单语−英语双语数据集.
    JW300[13] 该语料库涵盖了超过 300 种语言的双语数据.
    WikiMatrix[14] 该语料库由 Facebook 开发构建, 包含 85 种语言的维基百科平行语料.
    FLORES8 由 Facebook 开发的英语−尼泊尔语和僧伽罗语的双语数据集.
    Indian Language Corpora Initiative (ILCI) corpus[15] 该语料库包括 11 种印度语言与英语的平行语料.
    Asian Language Treebank[16] 该亚洲语言树库项目包括印尼语、老挝语等 9 种东南亚语言与英语的平行语料.
    表  2  使用多种翻译方法的一些文献

    Table  2  Literatures with more than one MT method

    [84-87]多语言, 迁移学习
    [89]多语言, 反向翻译, 领域迁移
    [18], [23], [49]多语言, 枢轴语言方法
    [102]多语言, 无监督方法
    [41-45], [58]反向翻译, 半监督方法
    [68], [71]数据增强, 枢轴语言方法
    [56]数据增强, 多任务方法
    表  3  几类方法在WMT2019中的使用情况

    Table  3  The methods in WMT2019

