王科 夏睿

WANG Ke, XIA Rui. A Survey on Automatical Construction Methods of Sentiment Lexicons. ACTA AUTOMATICA SINICA, 2016, 42(4): 495-511. doi: 10.16383/j.aas.2016.c150585
doi: 10.16383/j.aas.2016.c150585

国家自然科学基金 61305090

江苏省自然科学基金 BK2012396


    王科, 南京理工大学计算机学院硕士研究生. 主要研究方向为自然语言处理和文本挖掘.E-mail:wangkk998@gmail.com


    夏睿, 南京理工大学计算机学院副教授.2011年获得中国科学院自动化研究所博士学位. 主要研究方向为自然语言处理, 机器学习, 文本挖掘.E-mail:rxia@njust.edu.cn

A Survey on Automatical Construction Methods of Sentiment Lexicons


National Natural Science Foundation of China 61305090

Jiangsu Provincial Natural Science Foundation of China BK2012396

More Information
    Author Bio:

    Master student at the School of Computer Science and Engi-neering, Nanjing University of Science and Technology. His research interest covers natural language processing and text mining.

    Corresponding author: XIA Rui Associate professor at the School of Computer Science and Engi- neering, Nanjing University of Science and Technology. He received his Ph. D. degree from the Institute of Automation, Chinese Academy of Sciences in 2011. His research interest covers natural language pro- cessing, machine learning, and text mining. Corresponding author of this paper.
  • 摘要: 情感词典作为判断词语和文本情感倾向的重要工具, 其自动构建方法已成为情感分析和观点挖掘领域的一项重要研究内容. 本文整理了现有的中、英文情感词典资源, 同时分别从知识库、语料库、以及两者结合的角度, 归纳现有英文和中文情感词典的构建方法, 分析了各种方法的优缺点, 并总结了情感词典构建中的若干难点问题. 之后, 我们回顾了情感词典性能评估方法及相关评测竞赛. 最后总结了情感词典构建任务的发展前景以及一些亟需解决的问题.
  • 表  1  常见的通用情感词典简介

    Table  1  Common sentiment lexicon introduction

    英文SentiWordNet英文中最为著名的一款情感词典, 它基于WordNet, 为WordNet 中每一个同义词集分别给出正、负和客观情感得分.
    General InquirerGeneral Inquirer 被认为是最早的一款情感词库兼计算机情感分析程序, 其情绪词来源于《哈佛词典(第4版)》和《拉斯韦尔词典》, 按照情感正负性对词汇进行分类.
    Opinion LexiconBing Liu 发布的一款英文情感词典, 不仅包含情感词, 还包含了拼写错误、语法变形, 俚语以及社交媒体标记等信息.
    中文HowNet 情感词典董振东和董强建立的以汉语和英语的词语所代表的概念为描述对象, 以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库, 其中包括情感分析用词语集.
    DUTIR 情感词汇本体库大连理工大学信息检索研究室整理和标注的一个中文本体资源. 该资源从不同角度描述一个中文词汇或者短语, 包括词语词性种类、情感类别、情感强度及极性等信息.
    NTUSD 来源于台湾大学自然语言处理实验室的中文情感极性词典.
    表  2  基于知识库的构建方法概述

    Table  2  Summary of the lexicon-based approach

    词关系扩展法利用已知褒贬的种子词集, 在语义知识库中寻找同义词、反义词等词间关系, 进行扩展, 去噪后得到一份通用情感词典(Hu 等, 2004)[1], (Strapparava 等, 2004)[4], (Neviarouskaya 等, 2011)[5], (Kim 等, 2004)[6], (Blair-Goldensohn 等, 2008)[7]
    迭代路径法计算知识库中两个词通过同义词(或其他关系) 迭代到彼此需要的次数, 判断两个词极性的相似性, 从而确定未知词的极性(Kamps 等, 2004)[8], (Hassan 等, 2011)[9], (柳位平等, 2009)[2]
    释义扩展法将同义词的释义也作为训练语料, 或寻找词和释义中词的关系(Andreevskaia 等, 2006)[10], (Baccianella 等, 2010)[11], (Esuli 等, 2007)[12]
    表  3  基于语料库的情感词典方法概述

    Table  3  Summary of the corpus-based approach

    词关系扩展法利用已知褒贬的种子词集, 在语义知识库中寻找同义词、反义词等词间关系, 进行扩展, 去噪后得到一份通用情感词典(Hu 等, 2004)[1], (Strapparava 等, 2004)[4], (Neviarouskaya 等, 2011)[5], (Kim 等, 2004)[6], (Blair-Goldensohn 等, 2008)[7]
    迭代路径法计算知识库中两个词通过同义词(或其他关系) 迭代到彼此需要的次数, 判断两个词极性的相似性, 从而确定未知词的极性(Kamps 等, 2004)[8], (Hassan 等, 2011)[9], (柳位平等, 2009)[2]
    释义扩展法将同义词的释义也作为训练语料, 或寻找词和释义中词的关系(Andreevskaia 等, 2006)[10], (Baccianella 等, 2010)[11], (Esuli 等, 2007)[12]
    表  4  知识库与语料库结合的构建方法

    Table  4  Summary of the combined approach of lexicon and corpus

    关系图半监督法以词与词之间的相似关系构建词间关系图, 利用已知极性的情感词, 结合图算法, 如标签传播算法, 推测其他情感词的极性(Esuli 等, 2007)[12], (Huang 等, 2014a)[15], (Tai 等, 2013)[23], (Glava·s 等, 2012)[25], (Peng 等, 2011)[31], (Rao 等, 2009)[32], (Xu 等, 2010)[33], (李荣军等, 2010)[34], (李寿山等, 2013)[35]
    自举半监督法为克服标注语料不足的问题, 先利用少量标注词确定文本片段的极性, 再结合抽取结果, 继续判断未知情感的文本片段(Volkova 等, 2013)[36], (Zhang 等, 2014)[37], (Weichselbraun等, 2011)[38], (Gao 等, 2013)[39]
    深度表示法根据上下文, 训练词向量, 使得语义相近的词在向量空间上距离较近, 以此来判断词的情感极性(Tang 等, 2014a)[40], (梁军等, 2014)[41], (杨阳等, 2014)[42], (Tang 等, 2014b)[43]
    表  5  情感词典构建中的难点问题

    Table  5  Di±cult problems in the construction of sentiment lexicon

    情感词典领域适应问题领域A 的语料结合通用词典, 构建领域A 的情感词典;或领域A 的语料结合领域B 的语料与领域B 的词典, 构建领域A 的词典(Huang 等, 2014a)[15], (Choi 等, 2009)[52], (Du 等, 2010)[53], (Li 等, 2012)[54]
    属性-情感词对构建问题一般情感词和属性词都是成对出现的, 利用这一点, 我们能够找出情感词 有些情感词针对不同的属性, 其情感极性不一定相同, 结合属性词能克服这一点(Ding 等, 2008)[55], (Lek 等, 2012)[56], (Qiu 等, 2009)[57], (Balahur 等, 2010)[58]
    情感词消歧问题一些情感词包含多种释义, 在判断这些情感词的极性时, 需要先确定其含义, 才能确定其极性(Dragut 等, 2010)[59], (Wu 等, 2010)[60], (谢松县等, 2014)[61]
    含蓄情感词问题部分词不直接带有情感色彩, 但是在表达时, 结合上下文便会表现出一定的情感色彩, 比如\山", 在描述床板时, 可能是在表达床板有凸起而显得凹凸不平(Feng 等, 2011)[62], (Zhang 等, 2011)[63], (Balahur 等, 2011)[64]
    新情感词问题所谓新情感词, 主要针对网络上时常会出现的一些新兴词, 这些新词可能是现有词的另类含义, 也可能是由网友自己创造. 发现并识别其情感加入情感词典中(Brody 等, 2011)[65], (Huang 等, 2014b)[66], (张清亮等, 2011)[67]
    情感词情感强度问题情感强度是情感词在其所在极性上变现出的程度值, 是情感词的一个重要属性, 利用情感强度, 能较为精确地衡量句子或文章的情感极性(Kim 等)[6], (Williams 等, 2009)[68], (Esuli 等, 2006)[69], (Kumar 等, 2012)[70], (Lu 等, 2010)[71], (柳位平等, 2009)[2], (Gatti 等, 2012)[72]
    表  6  相关测评竞赛

    Table  6  Related evaluation contest

    TREC 2008 3观点词的识别和极性判断.
    SemEval 2010 18对语料中部分极性依赖上下文的形容词进行消歧.
    SemEval 2014 4.2判断属性词对应的情感(褒义、贬义、中性、褒贬兼具).
    SemEval 2015 12.1提取领域情感词并判断极性.
    COAE 2008 1、2 分别是情感词的识别和褒贬分析.
    COAE 2009 1情感词的识别及分类.
    COAE 2011 1领域观点词的抽取与极性判别.
    COAE 2014 3给定大规模的微博句子集, 要求自动发现新的词语, 以及每个词语的情感倾向性.
  收稿日期:  2015-09-14
  录用日期:  2016-01-23
  刊出日期:  2016-04-01



