奚雪峰 周国栋

奚雪峰, 周国栋. 面向自然语言处理的深度学习研究. 自动化学报, 2016, 42(10): 1445-1465. doi: 10.16383/j.aas.2016.c150682
引用本文: 奚雪峰, 周国栋. 面向自然语言处理的深度学习研究. 自动化学报, 2016, 42(10): 1445-1465. doi: 10.16383/j.aas.2016.c150682
XI Xue-Feng, ZHOU Guo-Dong. A Survey on Deep Learning for Natural Language Processing. ACTA AUTOMATICA SINICA, 2016, 42(10): 1445-1465. doi: 10.16383/j.aas.2016.c150682
Citation: XI Xue-Feng, ZHOU Guo-Dong. A Survey on Deep Learning for Natural Language Processing. ACTA AUTOMATICA SINICA, 2016, 42(10): 1445-1465. doi: 10.16383/j.aas.2016.c150682


国家自然科学基金 61331011

国家自然科学基金 61472264


    奚雪峰, 苏州大学计算机科学与技术学院博士研究生.主要研究方向为自然语言理解, 篇章分析, 自动问答.E-mail:xfxi@mail.usts.edu.cn


    周国栋, 苏州大学特聘教授.主要研究方向为自然语言理解, 中文信息处理, 信息抽取.本文通信作者.E-mail:gdzhou@suda.edu.cn

A Survey on Deep Learning for Natural Language Processing


    Author Bio:

    Ph. D. candidate at the School of Computer Science and Technology, Soochow University. His research interest covers natural language understanding, discourse analysis and questionanswering.E-mail:

    Corresponding author: ZHOU Guo-Dong Distinguished professor at the School of Computer Science and Technology, Soochow University. His research interest covers natural language understanding, Chinese computing, and information extraction. Corresponding author of this paper.E-mail:gdzhou@suda.edu.cn
  • 摘要: 近年来,深度学习在图像和语音处理领域已经取得显著进展,但是在同属人类认知范畴的自然语言处理任务中,研究还未取得重大突破.本文首先从深度学习的应用动机、首要任务及基本框架等角度介绍了深度学习的基本概念;其次,围绕数据表示和学习模型两方面,重点分析讨论了当前面向自然语言处理的深度学习研究进展及其应用策略;并进一步介绍了已有的深度学习平台和工具;最后,对深度学习在自然语言处理领域的发展趋势和有待深入研究的难点进行了展望.
  • 图  1  深度的概念示例图

    Fig.  1  Concept example of depth

    图  2  深度学习基本模型

    Fig.  2  Basic model of deep learning

    图  3  深度学习基本框架

    Fig.  3  Basic framework of deep learning

    图  4  逐层预训练模型

    Fig.  4  Layer-wise pre-training model

    图  5  三层神经网络构建的n-gram模型[36]

    Fig.  5  n-gram model constructed by three layer of neural networks[36]

    图  6  循环神经网络结构图

    Fig.  6  Structure diagram of recurrent neural network

    图  7  词向量word2vec的模型结构图

    Fig.  7  Model structure diagram of word2vec

    图  8  面向自然语言处理的深度学习应用架构图

    Fig.  8  Deep learning application architecture for NLP

    图  9  几种常用的非线性化函数可视化表示

    Fig.  9  Visual representation of several commonly used nonlinear functions

    表  1  语音、图像、文本领域的特征层次结构[32]

    Table  1  Feature hierarchy of speech, image and text[32]

    任务领域 原始输入 浅层特征 中间特征 高层特征 训练目标
    语音 样本 频段 声音 音调 音素 单词 语音识别
    图像 像素 线条 纹理 图案 局部 物体 图像识别
    文本 字母 单词 词组 短语 句子 段落 文章 语义理解
    表  2  浅层和深层模型比对分析[32]

    Table  2  Comparison and analysis of shallow model and deep model[32]

    模型 浅层模型 深层模型
    理论 有成熟的理论基础 理论分析困难
    模型层数 1~2层 5~10层
    训练难度 容易 复杂, 需要较多技巧
    数据需求 仅需要简单特征的任务, 如发电机故障诊断、时间序列处理等 需要高度抽象特征的任务, 如语音识别、图像处理等
    模型表达能力 有限 强大
    特征提取方式 特征工程 特征自动抽取
    代价函数凸性 凸代价函数; 没有局部最优点; 可以收敛到全局最优 高度非凸的代价函数; 存在大量的局部最优点; 容易收敛到局部最优
    先验知识依赖度 依赖更多先验知识 依赖较少先验知识
图(9) / 表(2)
