王俊华 左祥麟 左万利

熊一枫, 卢继华, 何梓珮, 曹晨曦. 阴影模型的正则化无设备重建与实时定位. 自动化学报, 2015, 41(6): 1159-1165. doi: 10.16383/j.aas.2015.c130441
引用本文: 王俊华, 左祥麟, 左万利. 基于证据理论的单词语义相似度度量. 自动化学报, 2015, 41(6): 1173-1186. doi: 10.16383/j.aas.2015.c131141
doi: 10.16383/j.aas.2015.c131141

国家自然科学基金(60903098, 60973040, 61300148, 61472049), 吉林省重点科技攻关项目(20130206051GX),吉林省科技计划青年基金项目(20130522112JH)资助


    王俊华 吉林大学计算机科学与技术学院博士研究生. 2005 年获得东北师范大学传媒科学学院学士学位. 主要研究方向为自然语言处理与Web 数据挖掘.E-mail: wangjunhua1982@126.com


    左万利 吉林大学计算机科学与技术学院教授. 1982 年获得吉林大学计算机科学与技术学院学士学位. 主要研究方向为信息检索, 自然语言处理, 本体工程与Web 数据挖掘. E-mail: zuowl@jlu.edu.cn

Word Semantic Similarity Measurement Based on Evidence Theory


Supported by National Natural Science Foundation of China (60903098, 60973040, 61300148, 61472049), Key Scientific and Technological Break-through Program of Jilin Province (20130206051GX), and Science and Technology Planning Youth Fund Project of Jilin Province (20130522112JH)

  • 摘要: 单词语义相似度度量一直是自然语言处理领域的经典和热点问题, 其成果可对词义消歧、机器翻译、本体映射、计算语言学等应用具有重要影响. 本文通过结合证据理论和知识库,提出一个新颖的度量单词语义相似度度量途径. 首先,借助通用本体WordNet获取证据;其次,利用散点图分析证据的合理性; 然后,使用统计和分段线性插值生成基本信任分配函数;最后,结合证据冲突处理、 重要度分配和D-S合成规则实现信息融合获得全局基本信任分配函数, 并在此基础上量化单词语义相似度.在数据集RG(65)上, 对比本文算法评判结果与人类评判结果的相关度,采用5折交叉验证对算法进行分析, 相关度达到0.912,比当前最优方法PS高出0.4个百分点, 比经典算法reLHS、distJC、simLC、simL和simR高出7%~13%; 在数据集MC(30)和WordSim353上也取得了比较好的实验结果, 相关度分别为0.915和0.941;且算法的运行效率和经典算法相当. 实验结果显示使用证据理论解决单词语义相似度问题是合理有效的.
