-
摘要: 情感词典作为判断词语和文本情感倾向的重要工具, 其自动构建方法已成为情感分析和观点挖掘领域的一项重要研究内容. 本文整理了现有的中、英文情感词典资源, 同时分别从知识库、语料库、以及两者结合的角度, 归纳现有英文和中文情感词典的构建方法, 分析了各种方法的优缺点, 并总结了情感词典构建中的若干难点问题. 之后, 我们回顾了情感词典性能评估方法及相关评测竞赛. 最后总结了情感词典构建任务的发展前景以及一些亟需解决的问题.Abstract: Sentiment lexicon is an important tool of identifying the sentiment polarity of words and texts. How to automatically construct sentiment lexicons has become a research topic in the field of sentiment analysis and opinion mining. We review the existing sentiment lexicon construction methods, for both English and Chinese languages, from the perspectives of lexicons, corpus, and the combination of the two. We analyze the advantages and disadvantages of each method and point out some special problems in sentiment lexicon construction. We furthermore summarize the evaluation methods and review several competitions related to sentiment lexicon construction. Finally, we discuss the prospect of sentiment lexicon construction, and present some problems that remain to be solved.
-
随着工业技术的发展和工控系统应用的普及,工业生产控制正逐步改变着社会生产方式.工控系统的普及必然带来更高标准的工业安全需求[1],而对工控系统进行科学合理的脆弱性评估是工控系统安全运行的重要前提保障.近年来相继出现的毒区病毒、火焰病毒[2]和震网事件[3]等,充分暴露了工控系统安全性差的缺点,对其进行安全评估已经成为国际性难题.工控系统一般划分为三层架构:计划管理层、制造执行层和工业控制层,图 1显示了一个简单的工控系统图.
计划管理层主要用于底层信息的汇总和分析,其与制造执行层之间主要进行的安全防护包括身份鉴别、访问控制、检测审计、链路冗余和内容检测等;制造执行层主要包括MES (Manufacturing execution system)服务器或MES数据库等,其与工业控制层之间的防护主要是避免管理层直接对工控层的访问,保证制造执行层对工业控制层的操作唯一性;工业控制层主要由OPC (OLE for process control)服务器、管理终端、PLC (Programmable logic controller)、监控终端等组成.
目前国内外针对工控系统安全的脆弱性评估研究还处于起步阶段,由于工业系统具有复杂度高、灵活性差等特点,使得目前仍然缺少一种成熟的工控系统安全评估方法.从数学建模的角度,刘芳[4]提出了一种ISSUE (Information system security evaluation)安全评估方法,并结合安全风险概率预测技术,基于模糊多属性群体决策,将模糊数学、多属性决策和群体决策的理论运用在安全评估中.但该方法需要大量的历史数据作为理论支撑,且评估结果存在不合理的情况;周小锋等[5]提出针对ICS (Industrial control system)安全指标的分层计算模型,使用灰色数学模糊聚类方法,增加了评估准确性.但是模糊聚类方法在样本量比较大时,得到聚类结果有一定困难;从网络模型的角度,Vintr等[6]基于攻击树模型来评估防护系统的脆弱性,分析了工控系统的网络攻击空间,使用FTA (Fault tree analysis)和ATA (Accident tree analysis)来识别潜在的攻击场景,但该方法不能独立用于识别全部攻击目标; Jha等[7]对工控系统进行攻击图建模,为每个原子攻击指派成功发生的概率,利用马尔科夫模型计算攻击者达到攻击目标的可能性.但这个概率值容易受到人为因素的干扰,且该方式实现起来较复杂,使得评估结果缺乏科学性和合理性.从脆弱性指标的评价方法的角度,Sener等[8]采用层次分析法来进行地下水系统的脆弱性评估,但该方法的缺点就是评估指标过多时权重无法确定,并且使用特征值和特征向量的计算相对复杂; Stewart等[9]采用主成分分析法对多个脆弱性指标进行综合决策,但需要大量样本的支持;从国际标准的角度,美国国家标准与技术研究院 (National Institute of Standards and Technology,NIST)[10]发布了一系列指南,重点研究带有复杂网络类型的大型控制系统的深度防御架构及配置方法,包括SP800-82、NIST 7176等.美国国家标准学会 (American National Standards Institute,ANSI)制定了ISA99标准[11],从工业自动化控制系统的安全要求、编程要求、系统级技术要求和组件级技术要求四方面进行安全评估.但这些标准和指南只是提出了一些理论性的概念和知识,缺乏实际的现场可操作性.
结合工控系统的特征和上述脆弱性研究方法的不足,本文提出了一种基于攻击图的工控系统脆弱性量化评估方法.首先,提出了两个量化评估指标:漏洞利用难度和漏洞危害性,结合实际工控系统的安全属性,如防御强度、攻击强度、物理损失、信息损失等,制定出一套比较全面的工控系统脆弱性量化指标等级划分标准.其次,利用攻击图来对工控系统的拓扑结构进行建模分析,以研究每条攻击路径的脆弱性为目标,计算攻击过程中每一步的原子攻击期望 (该值与漏洞利用难度和漏洞危害性相关) ,从而得到每条路径的总攻击期望.最后,以锅炉控制系统作为实验对象进行仿真来验证该方法的可行性.相比于刘芳[4]的评估方法,本方法更贴近实际的工业环境,将工艺方面考虑进去,而不是只分析信息安全;相比于周小锋等[5]的模糊聚类,本方法对原始数据的依赖性低,且无需大量样本数据的支撑;相比于国内外标准[10-11],本方法具有一定的可操作性;相比于Jha等[7]的方法,本方法与脆弱性标准相结合,因此得到的结果更加科学合理.
1. 脆弱性评估指标
为了对工控系统的脆弱性进行全面的量化评估,本文提出两个脆弱性量化指标:漏洞利用难度和漏洞危害性,并进行以下定义.
定义 1. 攻击期望 (${Att_{\exp}}$):漏洞利用难度 (${Vul_{\exp}}$)和漏洞危害性 (${Vul_{\rm haz}}$)的乘积,记为
$ Att_{\exp}=Vul_{\exp}\times Vul_{\rm haz} $
(1) 基于此,对不同攻击路径的攻击期望损失进行综合评价,并用最大的期望损失作为衡量整个工控系统的脆弱性参考指标.
1.1 漏洞利用难度
漏洞利用难度${Vul_{\exp}}$指利用某一漏洞来实现一次成功攻击的可能性.该指标不仅与防御强度有关,也与攻击强度相关.防御越弱,攻击越强,则漏洞被利用的难度越小.基于工控系统的层次性特点以及其中组件的特点,防御强度主要包括加密、认证、信息屏障、物理屏障,攻击强度主要包括攻击者数量、攻击者的知识水平和威胁频率.
1.1.1 防御强度
1) 加密:工控系统中传输数据的方式主要有明文传输和密文传输,其中密文传输又包括AES (Advanced encryption standard)加密[12]和DES (Data encryption standard)加密.加密的强度主要可以由密钥长度、破解难度和加减密时间来确定.
2) 认证:工控系统中的组件需要经过认证来鉴别数据的安全性,主要包括数字摘要、数字签名、数字信封和数字证书四种认证方式,若在某个组件中部署的认证方式越多,则其越安全.其中数字信封由于采用双重加密技术来保证只有规定的接受者才能阅读数据,其安全性最高.
3) 信息屏障:主要的防护技术包括防火墙、入侵检测技术和访问控制.其中防火墙又可根据防御能力分为工业防火墙和商业防火墙;入侵检测技术[13]的关键是如何从已知的数据中获得系统的正常行为或有关入侵行为的知识,可以分成模式匹配、神经网络、数据挖掘和数据融合;访问控制[14]根据管理性质和安全级别又可分为基于授权规则的自主管理访问控制 (Discretionary access control,DAC)、基于安全级的集中管理强制访问控制 (Mandatory access control,MAC)和基于授权规则的集中管理角色访问控制 (Role-based access control,RBAC).
4) 物理屏障:主要指采取的物理防御手段,包括对外接口数量、组件所处位置、防静电、防火、防雷等.
1.1.2 攻击强度
1) 攻击者数量:对某一漏洞利用的人越多,则脆弱性越高.本文参考NIST 7176标准,将攻击者数量分为三个等级:小于100、100~300和大于300.
2) 攻击者知识水平:经验丰富的攻击者显然比首次参与攻击的初学者具有更高的攻击成功概率,据此将知识水平按表 1进行分级.
表 1 攻击者知识水平Table 1 Knowledge of attackers标识 定义 低 攻击者对工控系统的运行方式、安全策略和网络拓扑不太熟悉 中 攻击者对工控系统的运行方式、安全策略和网络拓扑比较熟悉 高 攻击者对工控系统的运行方式、安全策略和网络拓扑非常熟悉 3) 威胁频率:参考《集散控制系统安全评估指南》中对威胁频率的赋值,如表 2所示.
表 2 威胁分级Table 2 Classification of threats标识 定义 低 威胁几乎不可能发生 中 出现的频率中等 (或${\geq}$ 1次/半年) 高 出现的频率较高 (或${\geq}$ 1次/月) 很高 出现的频率很高 (或${\geq}$ 1次/周) 1.2 漏洞危害性
漏洞危害性${Vul_{\rm haz}}$指攻击者利用漏洞对工控系统造成的损失,包括物理损失和信息损失两方面.物理损失与组件相关,组件在整个工控系统中所占的比例或者重要度越大,则可能的物理损失越高;信息损失参考CVSS (Common vulnerability scoring system)标准[15],从信息机密性、信息完整性和信息可用性来衡量一个漏洞的危害性.
1.2.1 物理损失
工控系统中每个组件根据其扮演的角色不同,具有不同的价值量.例如,一台数据库服务器具有的价值量要比一般的主机具有的价值量高,因为一旦数据库服务器被攻击者控制,许多重要信息将会被泄露、修改或删除.在工控系统中根据组件所处的位置分为上位机和下位机,其中上位机包括用户机、SCADA (Supervisory control and data acquisition)服务器、工程师站、操作员站、WWW (World wide web)服务站、 MES服务器/数据库和OPC服务器/数据库;下位机分为远程终端单元RTU (Remote terminal unit)、可编程逻辑控制器PLC和可编程自动化控制器PAC (Programmable automation controller).各个组件价值量的分级参考《集散控制系统安全评估指南》,如表 3所示.
表 3 组件价值量分级Table 3 Classification of component value标识 定义 小 如果被利用, 对工控系统产生较小影响 中 如果被利用, 对工控系统产生一般影响 大 如果被利用, 对工控系统产生严重影响 1.2.2 信息损失
工控系统组件之间传输的数据或指令的正确性对于整个系统的正常运行起着十分重要的作用,因此利用漏洞来对这些重要信息进行攻击便成为攻击者的一大目标.信息的损失主要体现在机密性、完整性和可用性上.
1) 机密性:要求信息免受非授权的披露,不被泄露和窃取,涉及到对数据和程序文件读取的控制;
2) 完整性:要求信息必须是正确和完全的,而且能够免受非授权、意料之外或无意的更改,还要求程序的更改要在特定或授权状态下进行;
3) 可用性:要求信息在需要时能够及时获得以满足需求,确保用户不受干扰的获得相关系统信息和资源.
漏洞被利用后对信息的三种属性的影响分级,如表 4所示.
表 4 三种属性影响分级Table 4 Classification of three properties标识 定义 小 漏洞被利用后最多一种属性被破坏 中 漏洞被利用后两种属性被破坏 大 漏洞被利用全部属性都被破坏 1.3 等级划分标准打分
综合漏洞利用难度和漏洞危害性中对各个因素的分级,参考国内外脆弱性标准来对所有因素进行赋值打分,如表 5和表 6所示 (假定各影响因素都采用一种等级).
表 5 漏洞利用难度打分Table 5 Scoring of ${Vul_{\exp}}$影响因素 等价细分 打分 说明 加密 无/DES/AES 1/2/3 AES密钥更长且破解更困难,因此安全性最高 认证 数字摘要/数字证书/数字签名/数字信封 1/2/3/4 数字签名采用双重加密技术,安全性最高; 数字摘要实现最简单, 安全性最低 防火墙 商业防火墙/工业防火墙 1/2 工业防火墙设置的过滤规则更多更复杂, 故安全性更高 入侵检测技术 模式匹配/神经网络/数据挖掘/数据融合 1/2/3/4 模式匹配只能检测已知攻击,而数据融合不仅可以检测已知攻击,还可以预估未知攻击 访问控制 DAC/MAC/RBAC 1/2/3 RBAC 在灵活性和控制细节上更有优势 对外接口数量 >5 个/< 5 个 1/2 接口数量越多, 为攻击者提供的攻击入口就越多 防静电、防火、防雷 最多采用一种/采用两种/采用三种 1/2/3 采用的物理防护措施越多, 攻击者越难进行攻击 攻击者数量 > 300=100»300= < 100 1/2/3 攻击者数量越多, 系统安全性越低 攻击者知识水平 高/中/低 1/2/3 见表 1 威胁频率 很高/高/中/低 1/2/3/4 见表 2 表 6 漏洞危害性打分Table 6 Scoring of ${Vul_{\rm haz}}$影响因素 等价细分 打分 说明 SCADA 服务器 大 3 使整个控制系统和管理者的台式机能随时使用来自SCADA 远程终端的重要信息 工程师站 中 2 既安装STEP 7 编程组态软件, 又安装WinCC 监控操作组态软件 操作员站 小 1 仅需安装WinCC 监控操作组态软件 用户机 小 1 存放传输给管理层的数据 WEB 服务站 小 1 提供WEB 服务的功能, 在某些工控系统中不是必需的 MES 服务器/数据库 大 3 存放制造执行层的重要数据 OPC 服务器/数据库 大 3 存放下位机采集的原始现场数据和上位机传来的指令 RTU 大 3 主要进行数据采集和本地控制, 与传输可靠性、主机负担等相关 PLC 大 3 主要进行过程控制、信息控制和远程控制, 是重要的下位机 PAC 小 1 作为开放型的自动化控制设备, 其应用在工控系统中并不常见 信息属性 小/中/大 1/2/3 见表 4 2. 多指标归一与攻击图生成
2.1 灰色关联度分析法
对某对象进行评价时,如果仅从单一指标的角度,评价结果存在片面性,因此往往需要将反映被评价对象的多项指标加以汇聚,得到一个综合指标来从整体上反映被评价对象的整体情况,即多指标综合评价方法.
目前存在的综合评价方法包括层次分析法、主成分分析法、TOPSIS (Technique for order preference by similarity to ideal solution)法[16]和灰色关联度分析法[17]等.其中灰色关联度分析法具有计算简单、数据不必进行归一化、无需大量样本和无需经典的分布规律等特点,因此本文采用该方法来对多指标进行综合评价.
灰色关联度分析法的基本原理为:从样本中确定一个理想化的最优样本,以此为参考数列,通过计算各样本序列与参考序列的关联度,对被评价对象做出综合比较和排序.
设有$n$个被评价对象,每个被评价对象有$p$个评价指标,则第$i$个对象描述为
$ {x_i} = {({x_{i1},x_{i2},\cdots,x_{ip}})} $
具体步骤如下:
1) 确定参考序列.在$n$个被评价对象中选出各项指标的最优值组成参考序列${x_{0}}$
$ {x_0} = {({x_{01},x_{02},\cdots,x_{0p}})} $
2) 计算两极最大差${\triangle _{\rm max}}$和最小差${\triangle _{\rm min}}$.计算被评价对象序列与最优参考序列间的绝对差列${\triangle _{ij}}$
$ {{\vartriangle }_{ij}}=|{{x}_{ij}}-{{x}_{0j}}|,i=1,2,\cdots ,n,\ j=1,2,\cdots ,p $
(2) 在此基础上,根据
$ {{\vartriangle }_{\max }}=\underset{1\le i\le n}{\mathop{\max }}\,\underset{1\le j\le p}{\mathop{\max }}\,({{\vartriangle }_{ij}}) $
(3) $ {{\vartriangle }_{\min }}=\underset{1\le i\le n}{\mathop{\min }}\,\underset{1\le j\le p}{\mathop{\min }}\,({{\vartriangle }_{ij}}) $
(4) 3) 计算关联系数.计算第$i$个评价对象的第$j$个指标与最优参考序列间的关联系数${\delta _{ij}}$
$ {\delta _{ij}} = \frac{{\triangle _{\min}+\rho\triangle _{\max}}}{{\triangle _{ij}+\rho\triangle _{\max}}} $
(5) 其中,${\rho}$为分辨系数,用以削弱${\triangle _{\max}}$过大而使关联系数失真的影响.
4) 计算关联度.各评价对象与参考序列间的关联关系用关联度${\Upsilon_{0i}}$表示
$ {\Upsilon_{0i}} = \frac{{1}}{{p}}\sum\limits_{k= 1}^p{\delta _{ij},\quad i = 1,2,\cdots,n} $
(6) 若各指标权重不同,则式 (6)表示为
$ {\Upsilon_{0i}} = \frac{{1}}{{p}}\sum\limits_{k= 1}^p{W_k\times\delta _{ij},\quad i = 1,2,\cdots,n} $
(7) 其中,${W_k}$为权重,${W_k}\in (0,1)$.
关联系数和关联度能够把影响工控系统脆弱性的各个指标进行多属性决策,采用一个综合量化值来替代多个指标量化值,使得量化结果没有片面性,同时能够从整体上反映脆弱性的大小,关联度越大,则对应的系统脆弱性也越大.
2.2 攻击图生成算法
攻击图作为一种描述攻击者从攻击起点到攻击目标的所有可视化路径的方法,已经成为分析系统脆弱性的主流评估模型.攻击图$G$可以表示为$G=\langle V,E\rangle$,其中$V$为图中节点的集合,$E$为节点之间链路的集合.透过攻击图可以很明确的得到从某一节点到目标节点的所有潜在攻击路径.
本文采用广度优先算法[18]来生成攻击图,并将该算法与量化指标相结合,生成攻击图的同时计算每一步的原子攻击期望.广度优先算法一般用于求解最优值的问题,而且相比于深度优先算法,它可以控制队列的长度,不容易产生堆栈溢出等问题.算法基本步骤为:
步骤1. 根据工控系统的拓扑和组件相关信息建立参数向量;
步骤2. 确定工控系统的初始状态,加入状态队列;
步骤3. 执行循环:当状态队列不为空,则从队列中取出一个节点作为当前节点,并生成该节点可能进行的所有状态转移,得到新的状态节点,如果该节点为新,则加入队列,并计算实现状态转移时的攻击期望,更新攻击图节点和边的信息;
步骤4. 重复执行步骤3,直到队列为空.
在生成攻击图前,需要收集系统的拓扑信息以及其中组件的相关脆弱性信息,以此作为该算法的输入,输出为潜在的攻击路径和每条攻击路径的原子攻击期望.
3. 案例分析
以真实的锅炉控制系统[19]作为实验背景,参考锅炉工艺流程和SCADA系统的一般架构,模拟攻击者通过外网攻击用户并逐步入侵工控系统的过程.实验拓扑如图 2.
由图 2可知,该系统一共包含6个组件,每个组件上的漏洞信息如表 7所示.
表 7 组件漏洞信息Table 7 Information of component vulnerability编号 组件 漏洞 IP0 用户机 CVE-1999-0917 IP1 工程师站 CVE-2013-5056 IP2 SCADA服务器 CVE-2013-3175 IP3 操作员站 CVE-2013-3957 IP4 某品牌PLC CVE-2013-0659 IP5 某品牌PLC CVE-2013-0675 3.1 漏洞利用难度量化
参考表 5,对各个漏洞的利用难度进行具体的赋值打分,结果如表 8所示.
表 8 漏洞利用难度量化值Table 8 Values of ${Vul_{\exp}}$编号 漏洞 加密 认证 防火墙 入侵检测 访问控制 接口数量 防静电、雷、火 攻击者数量 知识水平 威胁频率 1 CVE-1999-0917 1 2 1 1 2 2 1 1 1 1 2 CVE-2013-5056 1 3 2 3 2 1 2 1 1 1 3 CVE-2013-3175 3 4 2 4 3 1 3 2 2 2 4 CVE-2013-3957 1 3 2 4 3 2 2 1 2 1 5 CVE-2013-0659 2 2 2 3 3 1 2 2 3 3 6 CVE-2013-0675 2 3 2 2 2 2 3 2 3 4 之后根据灰色关联度分析法对上述指标进行综合评价,其中$n$为6,$p$为10.参考序列${x_0}$为
$ {{x}_{0}}=(3,4,2,4,3,2,3,2,3,4) $
最大差${\triangle _{\rm max}}$和最小差${\triangle _{\rm min}}$分别为
$ {\triangle _{\rm max}} = {3} $
$ {\triangle _{\rm min}} = {0} $
根据式 (5) ,并取${\rho}=0.5$,则漏洞CVE-1999-0917加密的关联系数为 ${\delta _{1j}} = {0.6}$.
同理可以得到其他漏洞的关联系数.根据各个指标的不同取不同的权重系数,表 8中的各个指标依次对应权重为(0.2,0.05,0.1,0.05,0.15,0.2,0.05,0.05,0.05,0.1).之后根据式 (7)可以求得各个漏洞的利用难度关联度,如表 9所示.
表 9 各个漏洞的利用难度关联度Table 9 Degree of ${Vul_{\exp}}$ for various vulnerabilities编号 1 2 3 4 5 6 $\Upsilon $ 0.053 0.052 0.041 0.046 0.043 0.039 3.2 漏洞危害性量化
表 10 漏洞危害性量化值Table 10 Values of ${Vul_{\rm haz}}$漏洞 物理损失 信息损失 CVE-1999-0917 1 1 CVE-2013-5056 2 2 CVE-2013-3175 3 3 CVE-2013-3957 1 2 CVE-2013-0659 3 2 CVE-2013-0675 3 3 同样采用灰色关联度分析法,取对应权重分别为0.7和0.3,可以得到漏洞危害性的关联度,如表 11所示.
表 11 漏洞危害性关联度Table 11 Degree of ${Vul_{\rm haz}}$ for various vulnerabilities编号 1 2 3 4 5 6 $\Upsilon $ 0.25 0.165 0.125 0.225 0.137 0.125 3.3 攻击图生成
在计算得到漏洞利用难度和漏洞危害性的量化值后,根据式 (1)可以计算每个漏洞的攻击期望,如表 12所示.
表 12 漏洞攻击期望Table 12 ${Att_{\exp}}$ for various vulnerabilities编号 1 2 3 4 5 6 ${Att_{\exp}}$ 0.013 0.009 0.005 0.010 0.006 0.005 之后结合图 2的拓扑结构和攻击图生成算法,采用Graphviz软件对攻击图进行输出,如图 3所示.
图 3中,深色椭圆表示攻击者,椭圆内的数字表示漏洞编号,边上的信息包括可利用的漏洞以及对应的漏洞攻击期望.由此可以计算出每条攻击路径的总攻击期望,定义为攻击路径上各个漏洞攻击期望之和,结果如表 13所示.
表 13 各条路径的总攻击期望Table 13 ${Att_{\rm exp}}$ for various paths序号 路径 总攻击期望 1 IP0 ${\rightarrow}$ IP1 ${\rightarrow}$ IP2 ${\rightarrow}$ IP4 0.033 2 IP0 ${\rightarrow}$ IP1 ${\rightarrow}$ IP2 ${\rightarrow}$ IP5 0.032 3 IP0 ${\rightarrow}$ IP3 ${\rightarrow}$ IP2 ${\rightarrow}$ IP4 0.034 4 IP0 ${\rightarrow}$ IP3 ${\rightarrow}$ IP2 ${\rightarrow}$ IP5 0.033 由表 13可知,同处于下位机的PLC (IP4)比IP5的重要性更高,攻击IP4能获得更大的收益,虽然IP4的利用难度大于IP5,但其被利用后的危害性更大,这也证明单凭一个指标不能对各个组件的脆弱性进行比较,否则得到的结果正确性不高;操作员站和工程师站的重要性不同,在本案例中操作员站IP3比工程师站IP1重要,主要的影响因素是利用的危害性 (利用难度相差不多);此外漏洞CVE-1999-0917的利用价值最大,为0.013,漏洞CVE-2013-0675和CVE-2013-3175的利用价值最小,为0.005,这表明越上层的组件越重要,因为底层的组件被利用后仅仅这一个组件被控制,造成的损失可能是一台PLC的爆炸或崩溃,但若上层的组件被控制,再加上工控系统的组件采用分布控制、集中管理,则可以通过一台上位机向多个底层组件发送错误指令或数据,导致大量的组件爆炸或崩溃,造成的危害更大.
4. 总结
工控系统的安全问题正受到越来越多人的关注,对其进行安全评估刻不容缓.本文在系统地研究工控系统存在的各类脆弱性后,提出了漏洞利用难度和漏洞危害性两个量化评估指标.根据实际工控系统中的工艺流程,结合攻防强度、物理损失和信息损失等方面制定出一套较全面的漏洞等级划分标准,使该标准更贴近工业环境.同时,根据广度优先算法生成攻击图来对工控系统进行建模,最后以实际的锅炉控制系统为背景进行了实验模拟和仿真分析,得到了总攻击期望最大的路径.实验结果表明,该方法综合了工控系统中潜在的安全威胁,考虑了影响脆弱性的各个方面,由此得到的评估结果更加科学合理.
-
表 1 常见的通用情感词典简介
Table 1 Common sentiment lexicon introduction
语言 词典名 说明 英文 SentiWordNet 英文中最为著名的一款情感词典, 它基于WordNet, 为WordNet 中每一个同义词集分别给出正、负和客观情感得分. General Inquirer General Inquirer 被认为是最早的一款情感词库兼计算机情感分析程序, 其情绪词来源于《哈佛词典(第4版)》和《拉斯韦尔词典》, 按照情感正负性对词汇进行分类. Opinion Lexicon Bing Liu 发布的一款英文情感词典, 不仅包含情感词, 还包含了拼写错误、语法变形, 俚语以及社交媒体标记等信息. 中文 HowNet 情感词典 董振东和董强建立的以汉语和英语的词语所代表的概念为描述对象, 以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库, 其中包括情感分析用词语集. DUTIR 情感词汇本体库 大连理工大学信息检索研究室整理和标注的一个中文本体资源. 该资源从不同角度描述一个中文词汇或者短语, 包括词语词性种类、情感类别、情感强度及极性等信息. NTUSD 来源于台湾大学自然语言处理实验室的中文情感极性词典. 表 2 基于知识库的构建方法概述
Table 2 Summary of the lexicon-based approach
方法 概述 参考文献 词关系扩展法 利用已知褒贬的种子词集, 在语义知识库中寻找同义词、反义词等词间关系, 进行扩展, 去噪后得到一份通用情感词典 (Hu 等, 2004)[1], (Strapparava 等, 2004)[4], (Neviarouskaya 等, 2011)[5], (Kim 等, 2004)[6], (Blair-Goldensohn 等, 2008)[7] 迭代路径法 计算知识库中两个词通过同义词(或其他关系) 迭代到彼此需要的次数, 判断两个词极性的相似性, 从而确定未知词的极性 (Kamps 等, 2004)[8], (Hassan 等, 2011)[9], (柳位平等, 2009)[2] 释义扩展法 将同义词的释义也作为训练语料, 或寻找词和释义中词的关系 (Andreevskaia 等, 2006)[10], (Baccianella 等, 2010)[11], (Esuli 等, 2007)[12] 表 3 基于语料库的情感词典方法概述
Table 3 Summary of the corpus-based approach
方法 概述 参考文献 词关系扩展法 利用已知褒贬的种子词集, 在语义知识库中寻找同义词、反义词等词间关系, 进行扩展, 去噪后得到一份通用情感词典 (Hu 等, 2004)[1], (Strapparava 等, 2004)[4], (Neviarouskaya 等, 2011)[5], (Kim 等, 2004)[6], (Blair-Goldensohn 等, 2008)[7] 迭代路径法 计算知识库中两个词通过同义词(或其他关系) 迭代到彼此需要的次数, 判断两个词极性的相似性, 从而确定未知词的极性 (Kamps 等, 2004)[8], (Hassan 等, 2011)[9], (柳位平等, 2009)[2] 释义扩展法 将同义词的释义也作为训练语料, 或寻找词和释义中词的关系 (Andreevskaia 等, 2006)[10], (Baccianella 等, 2010)[11], (Esuli 等, 2007)[12] 表 4 知识库与语料库结合的构建方法
Table 4 Summary of the combined approach of lexicon and corpus
方法 概述 参考文献 关系图半监督法 以词与词之间的相似关系构建词间关系图, 利用已知极性的情感词, 结合图算法, 如标签传播算法, 推测其他情感词的极性 (Esuli 等, 2007)[12], (Huang 等, 2014a)[15], (Tai 等, 2013)[23], (Glava·s 等, 2012)[25], (Peng 等, 2011)[31], (Rao 等, 2009)[32], (Xu 等, 2010)[33], (李荣军等, 2010)[34], (李寿山等, 2013)[35] 自举半监督法 为克服标注语料不足的问题, 先利用少量标注词确定文本片段的极性, 再结合抽取结果, 继续判断未知情感的文本片段 (Volkova 等, 2013)[36], (Zhang 等, 2014)[37], (Weichselbraun等, 2011)[38], (Gao 等, 2013)[39] 深度表示法 根据上下文, 训练词向量, 使得语义相近的词在向量空间上距离较近, 以此来判断词的情感极性 (Tang 等, 2014a)[40], (梁军等, 2014)[41], (杨阳等, 2014)[42], (Tang 等, 2014b)[43] 表 5 情感词典构建中的难点问题
Table 5 Di±cult problems in the construction of sentiment lexicon
方法 概述 参考文献 情感词典领域适应问题 领域A 的语料结合通用词典, 构建领域A 的情感词典;或领域A 的语料结合领域B 的语料与领域B 的词典, 构建领域A 的词典 (Huang 等, 2014a)[15], (Choi 等, 2009)[52], (Du 等, 2010)[53], (Li 等, 2012)[54] 属性-情感词对构建问题 一般情感词和属性词都是成对出现的, 利用这一点, 我们能够找出情感词 有些情感词针对不同的属性, 其情感极性不一定相同, 结合属性词能克服这一点 (Ding 等, 2008)[55], (Lek 等, 2012)[56], (Qiu 等, 2009)[57], (Balahur 等, 2010)[58] 情感词消歧问题 一些情感词包含多种释义, 在判断这些情感词的极性时, 需要先确定其含义, 才能确定其极性 (Dragut 等, 2010)[59], (Wu 等, 2010)[60], (谢松县等, 2014)[61] 含蓄情感词问题 部分词不直接带有情感色彩, 但是在表达时, 结合上下文便会表现出一定的情感色彩, 比如\山", 在描述床板时, 可能是在表达床板有凸起而显得凹凸不平 (Feng 等, 2011)[62], (Zhang 等, 2011)[63], (Balahur 等, 2011)[64] 新情感词问题 所谓新情感词, 主要针对网络上时常会出现的一些新兴词, 这些新词可能是现有词的另类含义, 也可能是由网友自己创造. 发现并识别其情感加入情感词典中 (Brody 等, 2011)[65], (Huang 等, 2014b)[66], (张清亮等, 2011)[67] 情感词情感强度问题 情感强度是情感词在其所在极性上变现出的程度值, 是情感词的一个重要属性, 利用情感强度, 能较为精确地衡量句子或文章的情感极性 (Kim 等)[6], (Williams 等, 2009)[68], (Esuli 等, 2006)[69], (Kumar 等, 2012)[70], (Lu 等, 2010)[71], (柳位平等, 2009)[2], (Gatti 等, 2012)[72] 表 6 相关测评竞赛
Table 6 Related evaluation contest
评测名称 任务编号 评测内容 TREC 2008 3 观点词的识别和极性判断. SemEval 2010 18 对语料中部分极性依赖上下文的形容词进行消歧. SemEval 2014 4.2 判断属性词对应的情感(褒义、贬义、中性、褒贬兼具). SemEval 2015 12.1 提取领域情感词并判断极性. COAE 2008 1、2 分别是情感词的识别和褒贬分析. COAE 2009 1 情感词的识别及分类. COAE 2011 1 领域观点词的抽取与极性判别. COAE 2014 3 给定大规模的微博句子集, 要求自动发现新的词语, 以及每个词语的情感倾向性. -
[1] Hu M Q, Liu B. Mining and summarizing customer reviews. In: Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2004. 168-177 [2] 柳位平, 朱艳辉, 栗春亮, 向华政, 文志强. 中文基础情感词词典构建方法研究. 计算机应用, 2009, 29(10): 2875-2877 doi: 10.3724/SP.J.1087.2009.02875Liu Wei-Ping, Zhu Yan-Hui, Li Chun-Liang, Xiang Hua-Zheng, Wen Zhi-Qiang. Research on building Chinese basic semantic lexicon. Journal of Computer Applications, 2009, 29(10): 2875-2877 doi: 10.3724/SP.J.1087.2009.02875 [3] Liu B. Sentiment Analysis and Opinion Mining. San Rafael, CA: Morgan & Claypool Publishers, 2012. doi: 10.1007/978-1-4899-7502-7_907-1 [4] Strapparava C, Valitutti A. WordNet-affect: an affective extension of wordNet. In: Proceedings of the 2004 International Conference on Language Resources and Evaluation. Lisbon: LREC, 2004. 1083-1086 http://www.oalib.com/references/13143558 [5] Neviarouskaya A, Prendinger H, Ishizuka M. SentiFul: a lexicon for sentiment analysis. IEEE Transactions on Affective Computing, 2011, 2(1): 22-36 doi: 10.1109/T-AFFC.2011.1 [6] Kim S M, Hovy E. Determining the sentiment of opinions. In: Proceedings of the 20th International Conference on Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics, 2004. 1367-1377 http://cn.bing.com/academic/profile?id=2112422413&encoded=0&v=paper_preview&mkt=zh-cn [7] Blair-Goldensohn S, Hannan K, McDonald R, Neylon T, Reis G, Reynar J. Building a sentiment summarizer for local service reviews. In: Proceedings of the WWW2008 Workshop: NLP in the Information Explosion Era. Beijing, China: NLPIX, 2008. 200-207 [8] Kamps J, Marx M, Mokken R J, De Rijke M. Using wordnet to measure semantic orientations of adjectives. In: Proceedings of the 4th International Conference on Language Resources and Evaluation. Paris: European Language Resources Association, 2004. 1115-1118 http://cn.bing.com/academic/profile?id=1951269370&encoded=0&v=paper_preview&mkt=zh-cn [9] Hassan A, Abu-Jbara A, Jha R, Radev D. Identifying the semantic orientation of foreign words. In: Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics, 2011. 592-597 http://cn.bing.com/academic/profile?id=2344367074&encoded=0&v=paper_preview&mkt=zh-cn [10] Andreevskaia A, Bergler S. Mining WordNet for a fuzzy sentiment: sentiment tag extraction from wordNet glosses. In: Proceedings of the 2006 Conference of the European Chapter of the Association for Computational Linguistics. Budapest: EACL, 2006. 209-216 [11] Baccianella S, Esuli A, Sebastiani F. Sentiwordnet 3.0: an enhanced lexical resource for sentiment analysis and opinion mining. In: Proceedings of the 2010 International Conference on Language Resources and Evaluation. Malta: LREC, 2010. 2200-2204 https://www.researchgate.net/publication/220746537_SentiWordNet_30_An_Enhanced_Lexical_Resource_for_Sentiment_Analysis_and_Opinion_Mining [12] Esuli A, Sebastiani F. PageRanking wordNet synsets: an application to opinion mining. In: Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics. Prague: Association for Computational Linguistics, 2007. 424-431 http://cn.bing.com/academic/profile?id=2163941230&encoded=0&v=paper_preview&mkt=zh-cn [13] Hatzivassiloglou V, McKeown K R. Predicting the semantic orientation of adjectives. In: Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics and Eighth Conference of the European Chapter of the Association for Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics, 1997. 174-181 http://cn.bing.com/academic/profile?id=2199803028&encoded=0&v=paper_preview&mkt=zh-cn [14] Kanayama H, Nasukawa T. Fully automatic lexicon expansion for domain-oriented sentiment analysis. In: Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA: Association for Computational Linguistics, 2006. 355-363 [15] Huang S, Niu Z D, Shi C Y. Automatic construction of domain-specific sentiment lexicon based on constrained label propagation. Knowledge-Based Systems, 2014, 56: 191-200 doi: 10.1016/j.knosys.2013.11.009 [16] 王科, 夏睿. 一种基于连接关系的情感词典构建方法. 见: 第十四届全国计算语言学学术会议. 广州: 中国中文信息学会, 2015.Wang Ke, Xia Rui. An approach to Chinese sentiment lexicon construction based on conjunction relation. In: Proceedings of the 14th China National Conference on Computational Linguistics. Guangzhou, China: CCL, 2015. [17] Xia Y Q, Cambria E, Hussain A, Zhao H. Word polarity disambiguation using Bayesian model and opinion-level features. Cognitive Computation, 2014, 7(3): 369-380 [18] Church K W, Hanks P. Word association norms, mutual information, and lexicography. Computational Linguistics, 1990, 16(1): 22-29 http://cn.bing.com/academic/profile?id=1593045043&encoded=0&v=paper_preview&mkt=zh-cn [19] Turney P D. Mining the web for synonyms: PMI-IR versus LSA on TOEFL. In: Proceedings of the 12th European Conference on Machine Learning. Berlin Heidelberg: Springer, 2001. 491-502 http://cn.bing.com/academic/profile?id=1567365482&encoded=0&v=paper_preview&mkt=zh-cn [20] Turney P D. Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews. In: Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics, 2002. 417-424 http://cn.bing.com/academic/profile?id=2155328222&encoded=0&v=paper_preview&mkt=zh-cn [21] Turney P D, Littman M L. Measuring praise and criticism: inference of semantic orientation from association. ACM Transactions on Information Systems, 2003, 21(4): 315-346 doi: 10.1145/944012 [22] Krestel R, Siersdorfer S. Generating contextualized sentiment lexica based on latent topics and user ratings. In: Proceedings of the 24th ACM Conference on Hypertext and Social Media. New York, NY: ACM, 2013. 129-138 http://cn.bing.com/academic/profile?id=1972846540&encoded=0&v=paper_preview&mkt=zh-cn [23] Tai Y J, Kao H Y. Automatic domain-specific sentiment lexicon generation with label propagation. In: Proceedings of the 2013 International Conference on Information Integration and Web-based Applications & Services. New York, NY: ACM, 2013. 191-200 [24] Wawer A. Mining co-occurrence matrices for SO-PMI paradigm word candidates. In: Proceedings of the Student Research Workshop at the 13th Conference of the European Chapter of the Association for Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics, 2012. 74-80 http://cn.bing.com/academic/profile?id=2159990968&encoded=0&v=paper_preview&mkt=zh-cn [25] Glavaš G, Šnajder J, Bašić B D. Experiments on hybrid corpus-based sentiment lexicon acquisitionIn: Proceedings of the 2012 Workshop on Innovative Hybrid Approaches to the Processing of Textual Data. Stroudsburg, PA, USA: Association for Computational Linguistics, 2012. 1-9 [26] Bollegala D, Weir D, Carroll J. Using multiple sources to construct a sentiment sensitive thesaurus for cross-domain sentiment classification. In: Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA, USA: Association for Computational Linguistics, 2011. 132-141 [27] Velikovich L, Blair-Goldensohn S, Hannan K, McDonald R. The viability of web-derived polarity lexicons. In: Proceedings of the 2010 North American Chapter of the Association for Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics, 2010. 777-785 [28] 阳爱民, 林江豪, 周咏梅. 中文文本情感词典构建方法. 计算机科学与探索, 2013, 7(11): 1033-1039 http://www.cnki.com.cn/Article/CJFDTOTAL-KXTS201311009.htmYang Ai-Ming, Lin Jiang-Hao, Zhou Yong-Mei. Method on building Chinese text sentiment lexicon. Journal of Frontiers of Computer Science and Technology, 2013, 7(11): 1033-1039 http://www.cnki.com.cn/Article/CJFDTOTAL-KXTS201311009.htm [29] 魏志生, 吉阳生, 罗春勇, 陈家骏. 加入领域先验知识的产生式情感分类模型. 计算机科学与探索, 2011, 5(12): 1105-1113 http://www.cnki.com.cn/Article/CJFDTOTAL-KXTS201112006.htmWei Zhi-Sheng, Ji Yang-Sheng, Luo Chun-Yong, Chen Jia-Jun. Generative sentiment classification model affiliating domain-specific sentiment lexicons. Journal of Frontiers of Computer Science and Technology, 2011, 5(12): 1105-1113 http://www.cnki.com.cn/Article/CJFDTOTAL-KXTS201112006.htm [30] Kaji N, Kitsuregawa M. Building lexicon for sentiment analysis from massive collection of HTML documents. In: Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Prague: Association for Computational Linguistics, 2007. 1075-1083 [31] Peng W, Park D H. Generate adjective sentiment dictionary for social media sentiment analysis using constrained nonnegative matrix factorization. In: Proceedings of the 15th International AAAI Conference on Weblogs and Social Media. Menlo Park, CA: AAAI Press, 2011. 273-280 [32] Rao D, Ravichandran D. Semi-supervised polarity lexicon induction. In: Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics, 2009. 675-682 http://cn.bing.com/academic/profile?id=2089173648&encoded=0&v=paper_preview&mkt=zh-cn [33] Xu G, Meng X F, Wang H F. Build Chinese emotion lexicons using a graph-based algorithm and multiple resources. In: Proceedings of the 23rd International Conference on Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics, 2010. 1209-1217 [34] 李荣军, 王小捷, 周延泉. PageRank模型在中文情感词极性判别中的应用. 北京邮电大学学报, 2010, 33(5): 141-144 http://www.cnki.com.cn/Article/CJFDTOTAL-BJYD201005031.htmLi Rong-Jun, Wang Xiao-Jie, Zhou Yan-Quan. Semantic orientation computing using PageRank model. Journal of Beijing University of Posts and Telecommunications, 2010, 33(5): 141-144 http://www.cnki.com.cn/Article/CJFDTOTAL-BJYD201005031.htm [35] 李寿山, 李逸薇, 黄居仁, 苏艳. 基于双语信息和标签传播算法的中文情感词典构建方法. 中文信息学报, 2013, 27(6): 75-81 http://www.cnki.com.cn/Article/CJFDTOTAL-MESS201306011.htmLi Shou-Shan, Li Yi-Wei, Huang Ju-Ren, Su Yan. Construction of Chinese sentiment lexicon using bilingual information and label propagation algorithm. Journal of Chinese Information Processing, 2013, 27(6): 75-81 http://www.cnki.com.cn/Article/CJFDTOTAL-MESS201306011.htm [36] Volkova S, Wilson T, Yarowsky D. Exploring sentiment in social media: bootstrapping subjectivity clues from multilingual twitter streams. In: Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics. Sofia, Bulgaria: Association for Computational Linguistics, 2013. 505-510 http://cn.bing.com/academic/profile?id=2251535218&encoded=0&v=paper_preview&mkt=zh-cn [37] Zhang Z, Singh M P. ReNew: a semi-supervised framework for generating domain-specific lexicons and sentiment analysis. In: Proceedings of the 52nd Annual Meeting on Association for Computational Linguistics. Baltimore, Maryland, USA: Association for Computational Linguistics, 2014. 542-551 http://cn.bing.com/academic/profile?id=2251198526&encoded=0&v=paper_preview&mkt=zh-cn [38] Weichselbraun A, Gindl S, Scharl A. Using games with a purpose and bootstrapping to create domain-specific sentiment lexicons. In: Proceedings of the 20th ACM international conference on Information and knowledge management. New York, NY, USA: ACM, 2011. 1053-1060 http://cn.bing.com/academic/profile?id=2048008937&encoded=0&v=paper_preview&mkt=zh-cn [39] Gao D H, Wei F R, Li W J, Liu X H, Zhou M. Co-training based bilingual sentiment lexicon learning. In: Proceedings of the Twenty-Seventh AAAI Conference on Artificial Intelligence. Menlo Park, CA: AAAI Press, 2013. 26-28 [40] Tang D Y, Wei F R, Qin B, Zhou M, Liu T. Building large-scale twitter-specific sentiment lexicon: a representation learning approach. In: Proceedings of the 25th International Conference on Computational Linguistics. Dublin, Ireland: COLING, 2014. 172-182 http://aclweb.org/anthology/C14-1018 [41] 梁军, 柴玉梅, 原慧斌, 昝红英, 刘铭. 基于深度学习的微博情感分析. 中文信息学报, 2014, 28(5): 155-61 http://www.cnki.com.cn/Article/CJFDTOTAL-MESS201405021.htmLiang Jun, Chai Yu-Mei, Yuan Hui-Bin, Zan Hong-Ying, Liu Min. Deep learning for Chinese micro-blog sentiment analysis. Journal of Chinese Information Processing, 2014, 28(5): 155-61 http://www.cnki.com.cn/Article/CJFDTOTAL-MESS201405021.htm [42] 杨阳, 刘龙飞, 魏现辉, 林鸿飞. 基于词向量的情感新词发现方法. 山东大学学报(理学版), 2014, 49(11): 51-58 http://www.cnki.com.cn/Article/CJFDTOTAL-SDDX201411008.htmYang Yang, Liu Long-Fei, Wei Xian-Hui, Lin Hong-Fei. New methods for extracting emotional words based on distributed representations of words. Journal of Shandong University (Natural Science), 2014, 49(11): 51-58 http://www.cnki.com.cn/Article/CJFDTOTAL-SDDX201411008.htm [43] Tang D Y, Wei F R, Yang N, Zhou M, Liu T, Qin B. Learning sentiment-specific word embedding for twitter sentiment classification. In: Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. Baltimore, Maryland, USA: Association for Computational Linguistics, 2014. 1555-1565 http://cn.bing.com/academic/profile?id=2250879510&encoded=0&v=paper_preview&mkt=zh-cn [44] Collobret R, Weston J, Bottou L, Karlen M, Kavukcuoglu K, Kuksa P. Natural language processing (almost) from scratch. The Journal of Machine Learning Research, 2011, 12(1): 2493-2537 http://cn.bing.com/academic/profile?id=2158899491&encoded=0&v=paper_preview&mkt=zh-cn [45] Mikolov T, Sutskever I, Chen K, Corrado G S, Dean J. Distributed representations of words and phrases and their compositionality. In: Proceedings of the 2013 Advances in Neural Information Processing Systems. Nanjing: NIPS, 2013: 3111-3119 [46] 杨超, 冯时, 王大玲, 杨楠, 于戈. 基于情感词典扩展技术的网络舆情倾向性分析. 小型微型计算机系统, 2010, 31(4): 691-695 http://cdmd.cnki.com.cn/Article/CDMD-10145-1013109396.htmYang Chao, Feng Shi, Wang Da-Ling, Yang Nan, Yu Ge. Analysis on web public opinion orientation based on extending sentiment lexicon. Journal of Chinese Computer Systems, 2010, 31(4): 691-695 http://cdmd.cnki.com.cn/Article/CDMD-10145-1013109396.htm [47] 周咏梅, 杨佳能, 阳爱民. 面向文本情感分析的中文情感词典构建方法. 山东大学学报(工学版), 2013, 43(6): 27-33 http://www.cnki.com.cn/Article/CJFDTOTAL-SDGY201306006.htmZhou Yong-Mei, Yang Jia-Neng, Yang Ai-Ming. A method on building Chinese sentiment lexicon for text sentiment analysis. Journal of Shandong University (Engineering Science), 2013, 43(6): 27-33 http://www.cnki.com.cn/Article/CJFDTOTAL-SDGY201306006.htm [48] 李勇敢, 周学广, 孙艳, 张焕国. 结合依存关联分析和规则统计分析的情感词库构建方法. 武汉大学学报(理学版), 2013, 59(5): 491-498 http://www.cnki.com.cn/Article/CJFDTOTAL-WHDY201305016.htmLi Yong-Gan, Zhou Xue-Guang, Sun Yan, Zhang Huan-Guo. The study of construction for emotion thesaurus based on dependency parsing combined with rules and statistics methods. Journal of Wuhan University (Natural Science Edition), 2013, 59(5): 491-498 http://www.cnki.com.cn/Article/CJFDTOTAL-WHDY201305016.htm [49] 殷春霞, 彭勤科. 利用复杂网络为自由评论鉴定词汇情感倾向性. 自动化学报, 2012, 38(3): 389-398 doi: 10.3724/SP.J.1004.2012.00389Yin Chun-Xia, Peng Qin-Ke. Identifying word sentiment orientation for free comments via complex network. Acta Automatica Sinica, 2012, 38(3): 389-398 doi: 10.3724/SP.J.1004.2012.00389 [50] He Y L, Alani H, Zhou D Y. Exploring English lexicon knowledge for Chinese sentiment analysis. In: Proceedings of CIPS-SIGHAN Joint Conference on Chinese Language Processing. Beijing, China: ORO, 2010. 91-104 [51] 王昌厚, 王菲. 使用基于模式的Bootstrapping方法抽取情感词. 计算机工程与应用, 2014, 50 (1): 127-129 http://www.cnki.com.cn/Article/CJFDTOTAL-JSGG201401028.htmWang Chang-Hou, Wang Fei. Extracting sentiment words using pattern based Bootstrapping method. Computer Engineering and Applications, 2014, 50(1): 127-129 http://www.cnki.com.cn/Article/CJFDTOTAL-JSGG201401028.htm [52] Choi Y, Cardie C. Adapting a polarity lexicon using integer linear programming for domain-specific sentiment classification. In: Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA: Association for Computational Linguistics, 2009. 590-598 http://cn.bing.com/academic/profile?id=2136680862&encoded=0&v=paper_preview&mkt=zh-cn [53] Du W F, Tan S B, Cheng X Q, Yun X C. Adapting information bottleneck method for automatic construction of domain-oriented sentiment lexicon. In: Proceedings of the 3rd ACM International Conference on Web Search and Data Mining. New York, NY, USA: ACM, 2010. 111-120 http://www.oalib.com/references/16891436 [54] Li F T, Pan S J, Jin O, Yang Q, Zhu X Y. Cross-domain co-extraction of sentiment and topic lexicons. In: Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics, 2012. 410-419 http://cn.bing.com/academic/profile?id=2148966043&encoded=0&v=paper_preview&mkt=zh-cn [55] Ding X, Liu B, Yu P S. A holistic lexicon-based approach to opinion mining. In: Proceedings of the 2008 International Conference on Web Search and Data Mining. New York, NY, USA: ACM, 2008. 231-240 http://cn.bing.com/academic/profile?id=1964613733&encoded=0&v=paper_preview&mkt=zh-cn [56] Lek H H, Poo D C C. Sentix: an aspect and domain sensitive sentiment lexicon. In: Proceedings of the 2012 IEEE 24th International Conference on Tools with Artificial Intelligence. Washington, DC, USA: IEEE Computer Society, 2012. 261-268 [57] Qiu G, Liu B, Bu J J, Chen C. Expanding domain sentiment lexicon through double propagation. In: Proceedings of the 21st International Joint Conference on Artificial Intelligence. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 2009. 1199-1204 [58] Balahur A, Montoyo A. OpAL: applying opinion mining techniques for the disambiguation of sentiment ambiguous adjectives in SemEval-2 task 18. In: Proceedings of the 5th International Workshop on Semantic Evaluation. Stroudsburg, PA, USA: Association for Computational Linguistics, 2010. 444-447 http://dl.acm.org/citation.cfm?id=1859763 [59] Dragut E C, Yu C, Sistla P, Meng W Y. Construction of a sentimental word dictionary. In: Proceedings of the 19th ACM International Conference on Information and Knowledge Management. New York, NY, USA: ACM, 2010. 1761-1764 [60] Wu Y F, Wen M M. Disambiguating dynamic sentiment ambiguous adjectives. In: Proceedings of the 23rd International Conference on Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics, 2010. 1191-1199 [61] 谢松县, 刘博, 王挺. 应用语义关系自动构建情感词典. 国防科技大学学报, 2014, 36(3): 111-115 http://www.cnki.com.cn/Article/CJFDTOTAL-GFKJ201403020.htmXie Song-Xian, Liu Bo, Wang Ting. Applying semantic relations to construct construct sentiment lexicon automaticlly. Journal of National University of Defense Technology, 2014, 36(3): 111-115 http://www.cnki.com.cn/Article/CJFDTOTAL-GFKJ201403020.htm [62] Feng S, Bose R, Choi Y. Learning general connotation of words using graph-based algorithms. In: Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing. Edinburgh, Scotland, UK: Association for Computational Linguistics, 2011. 1092-1103 http://cn.bing.com/academic/profile?id=2180724871&encoded=0&v=paper_preview&mkt=zh-cn [63] Zhang L, Liu B. Identifying noun product features that imply opinions. In: Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA, USA: Association for Computational Linguistics, 2011. 575-580 http://cn.bing.com/academic/profile?id=2165379166&encoded=0&v=paper_preview&mkt=zh-cn [64] Balahur A, Hermida J M, Montoyo A. Detecting implicit expressions of sentiment in text based on commonsense knowledge. In: Proceedings of the 2nd Workshop on Computational Approaches to Subjectivity and Sentiment Analysis. Stroudsburg, PA, USA: Association for Computational Linguistics, 2011. 53-60 [65] Brody S, Diakopoulos N. Cooooooooooooooollllllllllllll!!!!!!!!!!!!!!: using word lengthening to detect sentiment in microblogs. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA: Association for Computational Linguistics, 2011. 562-570 http://cn.bing.com/academic/profile?id=2152815769&encoded=0&v=paper_preview&mkt=zh-cn [66] Huang M L, Ye B R, Wang Y C, Chen H Q, Cheng J J, Zhu X Y. New word detection for sentiment analysis. In: Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. Baltimore, Maryland, USA: Association for Computational Linguistics, 2014. 531-541 http://www.aclweb.org/anthology/P14-1050 [67] 张清亮, 徐健. 网络情感词自动识别方法研究. 现代图书情报技术, 2011, 27(10): 24-28 http://www.cnki.com.cn/Article/CJFDTOTAL-XDTQ201110007.htmZhang Qing-Liang, Xu Jian. Research on automatic extraction of web sentiment words. Journal of Library and Information Technology, 2011, 27(10): 24-28 http://www.cnki.com.cn/Article/CJFDTOTAL-XDTQ201110007.htm [68] Williams G K, Anand S S. Predicting the polarity strength of adjectives using wordnet. In: Proceedings of the Third International ICWSM Conference. Menlo Park, CA: AAAI Press, 2009. 346-349 [69] Esuli A, Sebastiani F. Sentiwordnet: a publicly available lexical resource for opinion mining. In: Proceedings of the 2006 Language Resources and Evaluation. Genoa, Italy: LREC, 2006. 417-422 http://www.oalib.com/references/16886054 [70] Kumar A, Sebastian T M. Sentiment analysis on twitter. International Journal of Computer Science Issues, 2012, 9(4): 372-378 http://cn.bing.com/academic/profile?id=2160969591&encoded=0&v=paper_preview&mkt=zh-cn [71] Lu Y, Kong X F, Quan X J, Liu W Y, Xu Y L. Exploring the sentiment strength of user reviews. Web-Age Information Management. Berlin Heidelberg: Springer, 2010. 471-482 http://cn.bing.com/academic/profile?id=1599391609&encoded=0&v=paper_preview&mkt=zh-cn [72] Gatti L, Guerini M. Assessing sentiment strength in words prior polarities. In: Proceedings of the 23th International Conference on Computational Linguistics. Mumbai: CSCL, 2012. 361-370 [73] Schneider A, Dragut E. Towards debugging sentiment lexicons. In: Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Beijing, China: Association for Computational Linguistics, 2015. 1024-1034 http://www.aclweb.org/anthology/P/P15/P15-1099.pdf [74] Mohammad S, Dunne C, Dorr B. Generating high-coverage semantic orientation lexicons from overtly marked words and a thesaurus. In: Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA: Association for Computational Linguistics, 2009. 599-608 http://cn.bing.com/academic/profile?id=2160250477&encoded=0&v=paper_preview&mkt=zh-cn [75] Wilson T, Wiebe J, Hoffmann P. Recognizing contextual polarity in phrase-level sentiment analysis. In: Proceedings of the 2005 Conference on Human Language Technology and Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA: Association for Computational Linguistics, 2005. 347-354 http://cn.bing.com/academic/profile?id=2022204871&encoded=0&v=paper_preview&mkt=zh-cn [76] 杨鼎, 阳爱民. 一种基于情感词典和朴素贝叶斯的中文文本情感分类方法. 计算机应用研究, 2010, 27(10): 3737-3739 http://www.cnki.com.cn/Article/CJFDTOTAL-JSYJ201010037.htmYang Ding, Yang Ai-Min. Classification approach of Chinese texts sentiment based onsemantic lexicon and naive Bayesian. Application Research of Computers, 2010, 27(10): 3737-3739 http://www.cnki.com.cn/Article/CJFDTOTAL-JSYJ201010037.htm [77] 赵妍妍, 秦兵, 刘挺. 文本情感分析. 软件学报, 2010, 21(8): 1834-1848 doi: 10.3724/SP.J.1001.2010.03832Zhao Yan-Yan, Qin Bing, Liu Ting. Sentiment analysis. Journal of Software, 2010, 21(8): 1834-1848 doi: 10.3724/SP.J.1001.2010.03832 [78] Lee Y, Na S H, Kim J, Nam S H, Jng H Y, Lee J H. KLE at TREC 2008 blog track: blog post and feed retrieval. In: Proceedings of 2008 Text REtrieval Conference. Pohang, South Korea: Pohang University of Science and Technology (South Korea), 2008. [79] Xu R F, Xu J, Kit C. HITSZ_CITYU: Combine collocation, context words and neighboring sentence sentiment in sentiment adjectives disambiguation. In: Proceedings of the 5th International Workshop on Semantic Evaluation. Stroudsburg, PA, USA: Association for Computational Linguistics, 2010. 448-451 http://cn.bing.com/academic/profile?id=1735306610&encoded=0&v=paper_preview&mkt=zh-cn [80] Toh Z Q, Wang W T. DLIREC: aspect term extraction and term polarity classification system. In: Proceedings of the 8th International Workshop on Semantic Evaluation. Dublin, Ireland: IWSE, 2014. 235-240 [81] Saias J, Ramalho R R. Sentiue: target and aspect based sentiment analysis in SemEval-2015 task 12. In: Proceedings of the 9th International Workshop on Semantic Evaluation. Denver, Colorado: Association for Computational Linguistics, 2015. 767-771 [82] 刘军, 刘全升, 陈漠沙, 宋鸿彦, 黄高辉, 张潇君, 姚天昉. 第一届中文倾向性分析评测结果浅析. 见: 第一届中文倾向性分析评测研讨会论文集. 北京: 中国中文信息学会, 2008. 125-141Liu Jun, Liu Quan-Sheng, Chen Mo-Sha, Song Hong-Yan, Huang Gao-Hui, Zhang Xiao-Jun, Yao Tian-Fang. Analysis on the evaluation results of the first Chinese orientation analysis evaluation. In: Proceedings of the 1st Conference on Chinese Opinion Analysis Evaluation. Beijing, China: COAE, 2008. 125-141 [83] 徐戈, 蒙新泛, 王厚峰. 基于多模态学习的情感评级. 见: 第二届中文倾向性分析评测研讨会论文集. 上海: 中国中文信息学会, 2009. 24-29Xu Ge, Meng Xin-Fan, Wang Hou-Feng. Emotion ranking based on multi-modality learning. In: Proceedings of the 2nd Conference on Chinese Opinion Analysis Evaluation. Shanghai, China: COAE, 2009. 24-29 [84] 徐睿峰, 王亚伟, 徐军, 张玥, 郑海清, 桂林, 叶璐. 基于多知识源融合和多分类器表决的中文观点分析. 见: 第三届中文倾向性分析评测会议 (COAE 2011)论文集. 济南: 中国中文信息学会, 2011. 77-87Xu Rui-Feng, Wang Ya-Wei, Xu Jun, Zhang Yue, Zheng Hai-Qing, Gui Lin, Ye Lu. Chinese opinion analysis based on multi knowledge integration and multi classifier voting. In: Proceedings of the 3rd Conference on Chinese Opinion Analysis Evaluation. Ji'nan, China: COAE, 2011. 77-87 [85] 廖健, 王素格, 李德玉, 陈鑫. 基于构词规则与互信息的微博情感新词发现与判定. 见: 第六届中文倾向性分析评测会议论文集. 昆明: 中国中文信息学会, 2014. 90-96Liao Jian, Wang Su-Ge, Li De-Yu, Chen Xin. Using word-formation rules and mutual information for new sentiment word identification in microblogs. In: Proceedings of the 6th Conference on Chinese Opinion Analysis Evaluation. Kunming, China: COAE, 2014. 90-96 -