尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!



张浩宇 王戟

张浩宇, 王戟. 一种基于成对字向量和噪声鲁棒学习的同义词挖掘算法. 自动化学报, 2023, 49(6): 1181−1194 doi: 10.16383/j.aas.c210004
Zhang Hao-Yu, Wang Ji. A synonym mining algorithm based on pair-wise character embedding and noisy learning. Acta Automatica Sinica, 2023, 49(6): 1181−1194 doi: 10.16383/j.aas.c210004
doi: 10.16383/j.aas.c210004
基金项目: 国家重点研发计划(2017YFB1001802), 国家自然科学基金(91948303, 62032024)资助

    张浩宇:军事科学院国防科技创新研究院人工智能研究中心助理研究员. 2020年获得国防科技大学博士学位. 主要研究方向为自然语言处理, 知识图谱. E-mail: zhanghaoyu10@nudt.edu.cn

    王戟:国防科技大学计算机学院教授. 1995年获得国防科技大学博士学位. 主要研究方向为软件方法学, 高可信与智能软件技术. 本文通信作者. E-mail: wj@nudt.edu.cn

A Synonym Mining Algorithm Based on Pair-wise Character Embedding andNoisy Robust Learning

Funds: Supported by National Key R & D Program (2017YFB1001802) and National Natural Science Foundation of China (91948303, 62032024)
    ZHANG Hao-Yu Lecturer at the Artificial Intelligence Research Center, Defense Innovation Institute. He received his Ph.D. degree from National University of Defense Technology in 2020. His research interest covers natural language processing and knowledge graph

    WANG Ji Professor at the College of Computer, National University of Defense Technology. He received his Ph.D. degree from National University of Defense Technology in 1995. His research interest covers software methodology, high confidence and intelligent software technologies. Corresponding author of this paper

  • 摘要: 同义词挖掘是自然语言处理中一项重要任务. 为了构建大规模训练语料, 现有研究利用远程监督、点击图筛选等方式抽取同义词种子, 而这几种方式都不可避免地引入了噪声标签, 从而影响高质量同义词挖掘模型的训练. 此外, 由于大量实体词所具有的少样本特性、领域分布差异性和预训练词向量训练目标与同义词挖掘任务的不一致性, 在同义词挖掘任务中, 词级别的预训练词向量很难产生高质量的实体语义表示. 为解决这两个问题, 提出了一种利用成对字向量和噪声鲁棒学习框架的同义词挖掘模型. 模型利用预训练的成对字向量增强实体语义表示, 并利用自动标注的噪声标签通过交替优化的方式, 估计真实标签的分布并产生伪标签, 希望通过这些改进提升模型的表示能力和鲁棒性. 最后, 使用WordNet分析和过滤带噪声数据集, 并在不同规模、不同领域的同义词数据集上进行了实验验证. 实验结果和分析表明, 该同义词挖掘模型在各种数据分布和噪声比例下, 与有竞争力的基准方法相比, 均提升了同义词判别和同义词集合生成的效果.
    1)  11 数据集下载URL: http://bit.ly/SynSetMine-dataset2 同义词词林语料URL: http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm
    2)  22 同义词词林语料URL: http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm
    3)  33 WordNet下载URL: https://wordnet.princeton.edu/
    4)  44 源代码开放于: https://github.com/mickeystroller/SynSetMine-pytorch
  • 图  1  模型结构图

    Fig.  1  The model architecture

    图  2  不同集合大小下模型性能对比

    Fig.  2  Model performances on samples with different set size

    图  3  不同集合大小的中、英文数据性能效果对比

    Fig.  3  Comparison of performance enhancement in Chinese and English data with different set sizes

    图  4  超参数以及训练集噪声比例的影响分析

    Fig.  4  Analysis of the impact on hyper-parameters and training set noise percentage

    图  5  不同优化器和生成策略下集合生成效果

    Fig.  5  Model performances with different optimizers and set generation policy

    图  6  加入成对字向量之前和之后词表示可视化对比

    Fig.  6  Visualization of word distributed representations with or without pair-wise character vector embeddings

    表  1  数据集统计信息

    Table  1  Dataset statistics

    数据集 Wiki NYT PubMed CILIN
    文档 100000 118664 1554433
    句子 6839331 3002123 15051203
    训练集单词 8731 2600 72627 75614
    训练集同义词集合 4359 1273 28600 17317
    测试集单词 891 389 1743 2237
    测试集同义词集合 256 117 250 500
    表  2  超参数设置

    Table  2  Hyper-parameter settings

    数据集 Wiki NYT PubMed CILIN
    词向量维度$d_w$ 50 50 50 300
    词级别表示维度$d_p$ 250 250 250 250
    集合表示隐单元维度$d'_s$ 500 500 500 500
    学习率 0.0001 0.0001 0.0003 0.0003
    训练轮数 800 500 50 50
    负样本采样数量$K$ 50 20 50 70
    批大小 64 32 32 32
    随机失活比例 0.5 0.3 0.3 0.3
    字向量维度$d_c$ 50 50 50 150
    卷积窗口大小$w_c$ 5 5 5 5
    字级别表示维度$d_v$ 24 24 24 50
    辅助判别器损失比率$\alpha$ 0.15 0.15 0.15 0.15
    表  3  数据集噪声比例

    Table  3  Noise data percentage on datasets

    统计类别 Wiki PubMed
    训练集 测试集 训练集 测试集
    原始词对 4372 635 44027 1493
    噪声样本对 875 169 2740 70
    遗漏样本对 380 182 12851 331
    干净词对 3877 648 54138 1754
    原始集合数量 4359 256 28600 250
    干净集合数量 3327 228 25761 259
    表  4  实验结果(%)

    Table  4  Main experimental results (%)

    方法 Wiki NYT PubMed
    ARI (± std) FMI (± std) NMI (± std) ARI (± std) FMI (± std) NMI (± std) ARI (± std) FMI (± std) NMI (± std)
    K-means* 34.35
    (± 1.06)
    (± 0.96)
    (± 0.27)
    (± 1.98)
    (± 1.76)
    (± 0.57)
    (± 1.93)
    (± 1.79)
    (± 0.45)
    Louvain* 42.25 (± 0) 46.48 (± 0) 92.58 (± 0) 21.83 (± 0) 30.58 (± 0) 90.13 (± 0) 46.58 (± 0) 52.76 (± 0) 90.46 (± 0)
    SetExpan + Louvain* 44.78
    (± 0.28)
    (± 0.28)
    (± 0.02)
    (± 0.90)
    (± 0.93)
    (± 0.11)
    (± 0.08)
    (± 0.07)
    (± 0.15)
    约束K-means* 38.80
    (± 0.51)
    (± 0.49)
    (± 0.15)
    (± 1.94)
    (± 2.06)
    (± 0.30)
    (± 0.85)
    (± 0.83)
    (± 0.15)
    SVM + Louvain* 6.03
    (± 0.81)
    (± 0.13)
    (± 0.42)
    (± 0.39)
    (± 0.27)
    (± 0.96)
    (± 1.03)
    (± 0.34)
    L2C* 12.87
    (± 0.22)
    (± 0.24)
    (± 0.29)
    (± 0.89)
    (± 0.68)
    (± 1.20)
    SynSetMine* 56.43
    (± 1.31)
    (± 1.17)
    (± 0.23)
    (± 2.16)
    (± 1.92)
    (± 1.53)
    (± 0.66)
    (± 0.64)
    (± 0.97)
    SynSetMine 54.52
    (± 1.23)
    (± 1.08)
    (± 0.20)
    (± 1.84)
    (± 2.07)
    (± 1.29)
    (± 0.66)
    (± 0.60)
    (± 0.60)
    NL-P2V 63.01
    (± 1.06)
    (± 0.98)
    (± 0.12)
    (± 1.63)
    (± 2.10)
    (± 1.02)
    (± 0.88)
    (± 0.56)
    (± 0.49)
    NL-Word-P2V 61.31
    (± 0.94)
    (± 0.76)
    (± 0.41)
    (± 1.07)
    (± 1.71)
    (± 0.45)
    (± 0.96)
    (± 0.50)
    (± 0.46)
    NL-P2V w/o P2V 56.09
    (± 1.01)
    (± 0.83)
    (± 0.31)
    (± 1.43)
    (± 1.79)
    (± 0.57)
    (± 0.92)
    (± 0.47)
    (± 0.56)
    表  5  CILIN实验结果(%)

    Table  5  Experimental results on CILIN (%)

    方法 训练噪声比例 ARI FMI NMI
    SynSetMine 0 17.07 17.97 71.94
    NL-P2V 1 20.26 20.73 73.97
    SynSetMine 2 17.02 17.57 73.34
    NL-P2V 3 17.01 17.96 73.36
    SynSetMine 3 14.28 15.80 75.00
    NL-P2V 5 16.24 16.91 74.01
    表  6  效率对比

    Table  6  Efficiency comparison

    方法 训练 集合预测
    NYT PubMed
    K-means 1.82 0.88 2.95
    Louvain 3.94 20.59 74.60
    SynSetMine 7.7 77 min 3.6 3.57 1.24 19.11
    NL-P2V w/o P2V 8.2 80 min 4.9 3.60 1.18 20.58
    NL-P2V 18.1 2.9 h 7.1 6.47 2.69 27.04
