Observer-based Networked H∞ Control for Dualrate Sampling Systems
-
摘要: 研究一类带有网络传输时滞和丢包的双率采样系统的网络化H∞控制问题. 假设对象状态变量被分成两个分向量, 同一分向量的状态变量由同一类传感器以相同周期采样, 且两类传感器的采样频率不同. 采样后的分向量分别通过非理想网络传输到控制器端. 考虑到双率采样、网络传输时滞和丢包现象, 引入同步观测器来估计对象状态并设计基于估计状态的控制器来镇定双率采样系统. 基于这个思路, 将双率采样的网络化控制系统建模为带有两个时变时滞的连续系统. 利用Lyapunov-Krasovskii泛函方法, 以矩阵不等式形式给出该系统的稳定性判据和控制器设计方法. 最后, 通过数值例子验证所提方法的有效性.Abstract: The networked H∞ control for a class of dualrate sampling systems with network transmission delays and packet losses is investigated. State variables of the plant are assumed to be split into two sub-vectors. All state variables of the two sub-vectors are periodically sampled by two types of sensors, respectively, which each type of sensors has a different sampling rate. The two sampled sub-vectors are separately transmitted to the controller node over an imperfect network. Considering the dualrate sampling, network transmission delays and packet losses, a synchronized observer is introduced to estimate the state variables of the plant, and a controller based on the estimation is designed to stabilize the dualrate sampling system. Based on the above idea, a networked control system with dualrate sampling is modeled as a continuous-time system with two time-varying delays. By Lyapunov-Krasovskii functional method, some results of stability criterion and controller design for the system are obtained in terms of matrix inequalities (MIs). At last, some numerical examples are given to illustrate the effectiveness of the proposed method.
-
随着人们对于信息精准化的需求越来越高,传统以关键词匹配和文档排序为基本特点的搜索引擎急需一场革命. 2011年,美国华盛顿大学图灵实验室的 Etzioni教授在Nature上发表题为"Search needs a shake-up"[1]一文指出,问答系统是下一代搜索引擎的基本形态.区别于传统基于关键词匹配的搜索模式,问答系统最主要的特点在于:1) 用户输入是自然语言的问句; 2) 返回答案不再是文档排序的形态,而是直接给出用户所需要的答案. 这需要对用户自然语言问句进行深度理解,同时对网页中的目标文本进行细致的语义分析,从中抽取出知识,并根据用户的问题准确匹配、推理相对应的答案.
为了达到这一目标,近些年,无论是学术界或工业界,研究者们逐步把注意力投向知识图谱或知识库.其目标是把互联网文本内容组织成为以实体为基本语义单元(节点)的图结构,其中图上的边表示实体之间语义关系. 通过构建知识库,可以从源头上分析网络文本中所蕴含的语义知识. 目前,互联网中已经有一些可以获取的大规模知识库,例如DBpedia[2]、Freebase[3]、YAGO[4]等.这些知识库多是以“实体-关系-实体”三元组((实体1,关系,实体2) ,简称为三元组)为基本单元所组成的图结构.基于这样的结构化的知识,问答系统的任务就是要根据用户问题的语义直接在知识库上查找、推理出相匹配的答案,这一任务也称之为面向知识库的问答系统或知识库问答(Question answering over knowledge base,KBQA).
要完成在结构化数据上的查询、匹配、推理等操作,最有效的方式是利用结构化的查询语句,例如: SQL、SPARQL等. 然而,这些语句通常是由专家编写,普通用户很难掌握并正确运用. 对其来说,自然语言仍然是最自然的交互方式. 因此,如何把用户的自然语言问句转化为结构化的查询语句便是知识库问答的核心所在,其关键是对于自然语言问句进行语义理解(如图 1所示). 目前,主流方法是通过语义分析,将用户的自然语言问句转化成结构化的语义表示,例如λ范式[5]和DCS-Tree[6].
但是,这一处理范式仍然是基于符号逻辑的,缺乏灵活性,在分析问句语义过程中,易受到符号间语义鸿沟影响.同时从自然语言问句到结构化语义表达需要多步操作,多步间的误差传递对于问答的准确度也有很大的影响. 近年来,深度学习技术以及相关研究飞速发展,在很多领域都取得了突破,例如图像、视频、语音. 在自然语言处理领域也逐步开始具有广泛的应用.其优势在于通过学习能够捕获文本(词、短语、句子、段落以及篇章)的语义信息,把目标文本投射到低维的语义空间中,这使得传统自然语言处理过程中很多语义鸿沟的现象通过低维空间中向量间数值计算得以一定程度的改善或解决.因此越来越多的研究者开始研究深度学习技术在自然语言处理问题中的应用,例如情感分析[7]、机器翻译[8]、句法分析[9]等.知识库问答系统也不例外,已有相关的研究工作包括文献[10-12].与传统基于符号的知识库问答方法相比,基于表示学习的知识库问答方法更具鲁棒性,其在效果上已经逐步甚至超过传统方法,如图 2所示.这些方法的基本假设是把知识库问答看作是一个语义匹配的过程.通过表示学习,我们能够将用户的自然语言问题转换为一个低维空间中的数值向量(分布式语义表示),同时知识库中的实体、概念、类别以及关系也能够表示成为同一语义空间的数值向量.那么传统知识库问答任务就可以看成问句语义向量与知识库中实体、边的语义向量相似度计算的过程.图 3给出基于表示学习的知识库问答示意图,其中方格表示学习到的语义表示.
然而,构建一个基于表示学习的知识库问答系统并不是一件容易的事情,要完成这一目标,我们首先要回答三方面问题:
1) 如何学习知识库的分布式表示?如何将知识库中的语义单元,包括节点(实体、类别)、边(关系),表示成为语义空间中的数值向量.
2) 针对用户的问句,我们应该如何通过深度学习学习问句的语义表示.
3) 基于学习到的问句和知识库的语义表示,如何自动学习知识库语义表示和问句语义表示之间的关联,学习它们间的映射关系,从而构建基于表示学习的知识库问答系统.
本文将围绕这三个问题,对于现有成果进行综述,介绍其中的代表性方法,同时探讨针对这一问题未来可能存在的研究问题与热点. 具体章节安排如下:第1节介绍知识库表示学习的主要方法;第2节介绍问句(文本)表示学习的常用模型和方法;第3节介绍基于表示学习的知识库问答现有工作以及性能比较;第4节可能存在的研究问题和未来的研究热点; 最后是结论.
1. 知识库的表示学习
知识库表示学习的目标是通过对知识库建模,将知识库中的实体、类别以及关系等语义单元表示成为数值空间中的向量或矩阵.向量中的每一维的数值表示该语义单元在某一语义维度上的投影.由于实体和关系的数值表示是根据整个知识库得到,因此这种数值表示方法包含更加全面的信息,使得知识库能够很方便地应用到其他学习任务中. 根据学习方法,已有知识库表示学习的方法主要分为两大类: 1) 基于张量分解的方法;2) 基于映射的方法. 下面进行详细介绍.
1.1 基于张量分解的知识库表示学习
张量分解的方法以RESCAL系统[13-17]为主要代表.图 4是RESCAL的原理图.它的核心思想是将整个知识图谱编码为一个三维张量(其中知识库包含的三元组对应值为1,其他为0) ,由这个张量分解出一个核心张量和一个因子矩阵,核心张量中每个二维矩阵切片代表一种关系,因子矩阵中每一行代表一个实体.由核心张量和因子矩阵还原的结果被看作对应三元组成立的概率,如果概率大于某个阈值,则对应三元组正确; 否则,不正确.
RESCAL的目标函数为: ${{X}_{k}}\approx A{{R}_{k}}{{A}^{T}}$ ,这里A是一个n × r矩阵,其行向量是对于每一个实体的表示,Rk是r × r矩阵,表示知识库中第k个语义关系所定义的映射矩阵,Xk表示在知识库中的实际观测. RESCAL通过张量分解,能够在编码实体和关系过程中综合整个知识库的信息,它的主要缺点是当关系数目较多时,张量的维度很高,分解过程计算量较大. 因此,对于Freebase这类关系数目众多而又非常稀疏的大规模知识库效果不佳.
1.2 基于映射的知识库表示学习
为了解决上述张量分解方法在大规模知识库表示学习过程中学习效率低的问题,很多研究者转向对于知识库中的基本语义单元: 三元组进行独立建模.这类方法通常将知识库中的三元组表示为(h,r,t),h表示头实体,r表示关系,t表示尾实体,它们的向量分别表示为h,r,t.其假设h和t经过某种与r相关的映射后得到向量应该相似或者相等的.为了刻画这一过程,通常定义基于三元组的能量函数为fr(h,t),则学习的目标函数为
$L=\sum\limits_{h,t}{\sum\limits_{h',t'}{\max \left( 0,{{f}_{r}}\left( h,t \right) \right)}}+\gamma -{{f}_{r}}\left( h',t' \right)$
(1) 其中,h´,t´表示随机产生的三元组(错误的或不存在的三元组)中头实体和尾实体对应向量.其学习过程是保证知识库里出现的三元组获得较高的目标函数值,同时,对于未出现的三元组进行惩罚. 根据对语义关系r的表示方式,已有方法大致可以分为映射矩阵和映射向量两类,我们分别对其进行介绍.
1.2.1 关系r表示为矩阵
Structured 模型[18]为每种关系定义两个矩阵Mr1和Mr2,其能量函数为 ${{f}_{r}}\left( h,t \right)={{\left| {{M}_{r1}}h-{{M}_{r12}}h \right|}_{1}}.$ 该模型用两个分离的矩阵表示关系,不能很好地捕获关系与实体之间的联系. Unstructured 模型[19]是Structured 模型的特例,它令r=0,能量函数为 ${{f}_{r}}\left( h,t \right)=\left\| h-t \right\|_{2}^{2}.$ .模型的缺点是没有考虑不同关系的影响.
Semantic matching energy (SME)模型[20]为了克服参数过多的问题,该模型将实体和关系都用向量表示,所有三元组共享SME中的参数.SME使用多维矩阵运算捕获实体和关系之间的联系,它首先对h,r进行线性运算得到向量vh,r,然后再对r,t做线性运算得到向量vr,t,能量函数为 ${{f}_{r}}\left( h,t \right)=v_{hr}^{T}{{v}_{rt}}$ ,其中线性运算的权重可以是矩阵,也可以是三维张量. SME具有很强的学习能力,参数较少,但是由于需要对h,r和r,t分别进行线性运算,因此计算量大.
Latent factor (LF)模型[21-22]将实体用向量表示,关系用矩阵Mr表示. LF把关系看作实体间的二阶关联,定义能量函数 ${{f}_{r}}\left( h,t \right)={{h}^{T}}{{M}_{r}}t$ .这个模型使得实体和关系之间产生了很好的交互,实体和关系之间的联系得到充分的体现.
Single layer (SL)模型[23]用神经网络刻画映射过程,其为每个三元组定义一个单层非线性神经网络作为能量函数,以实体向量为输入层,关系矩阵为网络的权重参数. 同样,Socher等[23]对于SL模型进行改进,提出Neural tensor network(NTN)模型. 其在SL中加入关系与实体的二阶非线性操作,增强实体与关系的交互性. SL 模型是NTN模型的特例,当NTN中三维张量均为0时,NTN退化为SL. NTN 是目前表达能力最强的模型,适合学习稠密的知识库. 它的主要缺点是参数太多,计算量大,不适合比较稀疏的知识库.
1.2.2 关系r表示为向量
这一类方法通常将关系r表示成向量,对于三元组的建模看作从头部实体到尾部实体的翻译.最早提出的模型是TransE[24],其势能函数定义为
${{f}_{r}}\left( h,t \right)=\left\| h+r-t \right\|_{2}^{2}$
(2) 如图 5所示,三元组中的实体和关系在同一语义空间内成加性关系.
1) 1-to-N,N-to-1和N-to-N的语义关系
TransE是一种计算效率很高、 预测性能非常好的模型.对于“1-to-1”关系类型,这一模型通常能够很好的建模.但是对于“1-to-N”、“N-to-1”和“N-to-N”等关系类型存在不足. 例如,我们用 r 表示“性别”这一语义关系. 在知识库中,我们可以有(张三,性别,女)、(王五,性别,男),也可以有(李四,性别,女). 因此,“性别”是“N-to-N”关系类型的. 基于TransE模型,在学习知识库的表示时,会得到:
$\begin{matrix} {{h}_{1}}+r={{t}_{1}} \\ {{h}_{2}}+r={{t}_{1}} \\ \end{matrix}\Rightarrow {{h}_{1}}={{h}_{2}}$
(3) 得到的学习结果h1=h2表示两个不同的实体的语义表示是相同的,这显然是错误的.为了解决这一问题,许多研究者提出了一系列改进方法[25-28].其核心思想是根据语义关系类型,设定映射函数,将三元组的头实体和尾实体映射到与目标关系相关的语义空间中,在这一空间中再利用TransE中的加性模型学习知识库的表示.
TransH模型[25]认为TransE中的翻译过程应当在关系所属的超平面上进行.如图 5所示,它首先将头部、尾部实体向量投影到关系所在超平面,然后在超平面上完成翻译过程.该模型能够使同一个实体在不同的关系中扮演不同的角色,并且在1-to-N,N-to-1和N-to-N的关系类型上较TrasnE有较好的预测效果.
TransR模型[26]也基于TrasnE,它在不同维度的空间中对于实体和关系建模. 因此,如图 5 所示,TransR为每个关系定义一个矩阵Mr,用于将实体向量转换到关系所属空间中,然后在关系向量空间中完成翻译.TransR较TransE和TrasnH有较好的推广性能.但是由于为每种关系定义了一个矩阵,因此它有更多的参数和更大的计算量,给扩展到大规模知识库的运用带来了困难.CTransR[26]是根据关系在不同实体对中表现出不同含义的现象,对TransR的一种改进. 它将同一个关系的实体对聚类成若干类别,在每一个类别中,单独学习一个关系的向量表示,这样可以大大减小检索学习的参数规模.
TransD 模型[27]是对TransR的一种改进,其认为TransR中固定大小的转换矩阵Mr应由实体-关系对动态确定. 同时,该模型考虑实体和关系的多类别性.除此之外,在计算过程中,TransD用向量运算代替了TransR中的矩阵运算,大大减少了计算量.
除此之外,还有一些模型在TransE的基础上进行了改进PTransE模型[28] 在TransE 的基础上增加实体之间的路径信息,显式地增加了推理知识,相对TransE模型,在效果上有较大提升. SSE(Semantically smooth knowledge graph embedding)模型[29]在TransE 的基础上增加了语义平滑的约束,认为同类型的实体的向量表示应该在空间中位置更加靠近.该模型有较好的学习效果,但是时间复杂度较高,不易扩展到大规模知识库.
2) 基于分布的知识库表示学习
KG2E (Knowledge graphs with Gaussian embedding)模型[30]在TransE的基础上提出一种基于分布的表示学习方法,使用基于高斯嵌入的方法在多维高斯分布空间中学习知识库中实体和关系的表示.不同于TransE以及其改进模型,KG2E将知识库中的实体、类别、关系都约定服从高斯分布. 如 ${{P}_{h}}=N({{\mu }_{h}},{{\Sigma }_{h}})$ 以及 ${{P}_{r}}=N({{\mu }_{r}},{{\Sigma }_{r}})$ ,这里h表示实体,r表示关系,N表示高斯分布,µ是高斯分布的均值,表示学习到的表示向量,Σ协方差矩阵,表示该实体或关系的不确定性. 学习的过程如同TransE一样采用加性模型,其设定三元组中头实体和尾实体之间的差h-t同样服从高斯分布 ${{P}_{h-t}}=N({{\mu }_{h}}-{{\mu }_{t}},{{\Sigma }_{h}}+{{\Sigma }_{t}})$ ,则目标势能函数通过KL 距离KL(Ph-t,Pr)来衡量h-t和r之间的距离,保证在知识库中出现的三元组中h-t和r的KL(Ph-t,Pr)越小越好. 同时,其假设知识库中的实体、关系均有不确定性(频率、不同类型的关系均会引发不确定性).通过引入协方差矩阵,该模型能够对于知识库中实体和关系的不确定性进行建模,尤其对于1-to-N和N-to-1的关系具有很好的学习效果.
2. 问句表示学习
问句的表示学习是通过统计学习自动获取问句(文本)的语义表示.德国数学家弗雷格(Gottlob Frege)在1892年就曾提出:一段话的语义由其各组成部分的语义以及它们之间的组合方法所确定[31].现有的问句语义表示也通常以该思路为基础,通过语义组合的方式获得.常用的组合语义组合函数,如线性加权、矩阵乘法、张量乘法等,在文献[32]中有详细的总结.近年来基于神经网络的语义组合技术为文档表示带来了新的思路.从神经网络的结构上看,主要可以分为三种方式:递归神经网络、循环神经网络和卷积神经网络.
2.1 递归神经网络
递归神经网络(Recursive neural network)的结构如图 6,其核心为通过一个树形结构,从词开始逐步合成各短语的语义,最后得到整句话的语义.
递归神经网络使用的树形结构一般为二叉树,在某些特殊情况下(如依存句法分析树[33])也使用多叉树.本文主要从树的构建方式和子节点到父节点的组合函数,这两方面介绍递归神经网络.
树形结构有两种方式生成: 1) 使用句法分析器构建句法树[7, 34];2) 使用贪心方法选择重建误差最小的相邻子树,逐层合并[35].这两种方法各有优劣,使用句法分析器的方法可以保证生成的树形结构是一棵句法树,树中各个节点均对应句子中的短语,通过网络合并生成的各个节点的语义表示也对应各短语的语义.使用贪心方法构建树形结构则可以通过自动挖掘大量数据中的规律,无监督地完成这一过程,但是树中的各个节点不能保证有实际的句法成分.
子节点到父节点的组合函数y=f(a,b) 主要有三种:
1) 句法组合. 这种方式下,子节点的表示为向量a,b,父节点可以通过矩阵运算得到:
$\text{y=}\phi \left( H\left[a;b \right] \right)$
(4) 其中,φ为非线性的激活函数,权重矩阵H可能固定[36],也可能根据子树对应的句法结构不同,而选用不同的矩阵[37].该方法一般用于句法分析中.
2) 矩阵向量法[38]. 在这种表示下,每个节点由两部分表示组成,一个矩阵和一个向量,对于A,a子节点和B,b子节点,其组合函数为
$\begin{align} & \text{y=}\phi \left( H\left[Ba;Ab \right] \right) \\ & Y={{W}_{M}}\left[\begin{matrix} A \\ B \\ \end{matrix} \right] \\ \end{align}$
(5) 其中, ${{W}_{M}}\in {{R}^{\left| a \right|\times \left| 2a \right|}}$ ,保证父节点对应的语义变换矩阵 $Y\in {{R}^{\left| a \right|\times \left| a \right|}}$ ,与子节点的A、B 矩阵维度一致. 使用这种方法,每个词均有一个语义变换矩阵,对于否定词等对句法结构另一部分有类似影响的词而言,普通的句法组合方式没法很好地对其建模,而这种矩阵向量表示则可以解决这一问题.Socher等将该方法用于关系分类中[39].
3) 张量组合. 张量组合方式使用张量中的每一个矩阵,将子节点组合生成父节点表示中的一维.
$y=\phi ({{[a;b]}^{T}}{{W}^{[1:d]}}[a;b]+H[a;b])$
(6) 其中,W[1:d] 表示张量W中的第1~d个切片矩阵.不同的切片用于生成父节点y中不同的维度.该方法是句法组合方法的泛化形式,有更强的语义组合能力,Socher等将其用于情感分析任务中[23].
递归神经网络在构建文本表示时,其精度依赖于文本树的精度.无论使用哪种构建方式,哪种组合函数,构建文本树均需要至少O(n2)的时间复杂度,其中,n表示句子的长度. 当模型在处理长句子或者文档时,所花费的时间往往是不可接受的. 更进一步地,在做文档表示时,两个句子之间的关系不一定能构成树形结构.因此递归神经网络在大量句子级任务中表现出色,但可能不适合构建长句子或者文档级别的语义.
2.2 循环神经网络
循环神经网络(Recurrent neural network)由Elman 在1990年首次提出[40].该模型的核心是通过循环方式逐个输入文本中的各个词,并维护一个隐藏层,保留所有的上文信息.
循环神经网络是递归神经网络的一个特例,可以认为它对应的是一棵任何一个非叶结点的右子树均为叶结点的树.这种特殊结构使得循环神经网络具有两个特点: 1) 由于固定了网络结构,模型只需在O(n) 时间内即可构建文本的语义.这使得循环神经网络可以更高效地对文本的语义进行建模. 2) 从网络结构上看,循环神经网络的层数非常深,句子中有几个词,网络就有几层. 因此,使用传统方法训练循环神经网络时,会遇到梯度衰减或梯度爆炸的问题,这需要模型使用更特别的方法来实现优化过程[41-42].
在循环神经网络中,当模型输入所有的词之后,最后一个词对应的隐藏层代表了整个文本的语义.
$h(i)=f(e({{w}_{i}})+Wh(i-1) )$
(7) 优化方式上,循环神经网络与其他网络结构也略有差异.在普通的神经网络中,反向传播算法可以利用导数的链式法则直接推算得到.但是在循环神经网络中,由于其隐藏层到下一个隐藏层的权重矩阵W是复用的,直接对W 矩阵求导非常困难.循环神经网络最朴素的优化方式为沿时间反向传播技术(Back propagation through time,BPTT). 该方法首先将网络展开成图 7的形式,对于每一个标注样本,模型通过普通网络的反向传播技术对隐藏层逐个更新,并反复更新其中的权重矩阵W. 由于梯度衰减的问题,使用BPTT优化循环神经网络时,只传播固定的层数(比如5层).为了解决梯度衰减问题,Hochreiter等在1997 年提出了LSTM (Long short-term memory)模型[43]. 该模型引入了记忆单元,可以保存长距离信息,是循环神经网络的一种常用的优化方案. LSTM模型在传统循环网络的一个隐藏层节点上加入了三个门,分别为输入门、输出门和遗忘门,这三个门可以有选择地将远距离信息无衰减地传递下去. LSTM的具体实现公式如下:
$\begin{align} & {{i}_{t}}=\sigma ({{W}_{xi}}{{x}_{t}}+{{W}_{hi}}{{h}_{t-1}}+{{W}_{ci}}{{c}_{t-1}}+{{b}_{i}}) \\ & {{f}_{t}}=\sigma ({{W}_{xf}}{{x}_{t}}+{{W}_{hf}}{{h}_{t-1}}+{{W}_{cf}}{{c}_{t-1}}+{{b}_{f}}) \\ & {{c}_{t}}={{f}_{t}}\odot {{c}_{t-1}}+{{i}_{t}}\odot \tanh ({{W}_{xc}}{{x}_{t}}+{{W}_{hc}}{{h}_{t-1}}+{{b}_{c}}) \\ & {{o}_{t}}=\sigma ({{W}_{xo}}{{x}_{t}}+{{W}_{ho}}{{h}_{t-1}}+{{W}_{co}}{{c}_{t-1}}+{{b}_{o}}) \\ & {{h}_{t}}={{o}_{t}}\odot \tanh ({{c}_{t}}) \\ \end{align}$
(8) 无论采用哪种优化方式,循环神经网络的语义都会偏向文本中靠后的词.因此,循环神经网络很少直接用来表示整个文本的语义.但由于其能有效表示上下文信息,因此被广泛用于序列标注任务.
2.3 卷积神经网络
卷积神经网络(Convolutional neural network,CNN)最早由Fukushima在1980年提出[44],此后,LeCun等对其做了重要改进[45].
卷积神经网络的结构如图 8,其核心是局部感知和权值共享.在一般的前馈神经网络中,隐藏层的每个节点都与输入层的各个节点有全连接; 而在卷积神经网络中,隐藏层的每个节点只与输入层的一个固定大小的区域(win个词)有连接.从固定区域到隐藏层的这个子网络,对于输入层的所有区域是权值共享的.输入层到隐藏层的公式,形式化为
$\begin{align} & {{x}_{i}}=[e({{w}_{i-\left\lfloor win/2 \right\rfloor }});\cdots ;e({{w}_{i}});\cdots ;e({{w}_{i-\left\lfloor win/2 \right\rfloor }})] \\ & h_{i}^{(1) }=\tanh (w{{x}_{i}}+b) \\ \end{align}$
(9) 在得到若干个隐藏层之后,卷积神经网络通常会采用池化(Pooling)技术,将不定长度的隐藏层压缩到固定长度的隐藏层中. 常用的有均值池化(Average pooling)和最大池化(Max pooling)[46]. 最大池化的公式为
$h_{i}^{(2) }=\underset{1\le i\le n}{\mathop{\max }}h_{i}^{(1) }$
(10) 卷积神经网络通过其卷积核,可以对文本中的每个部分的局部信息进行建模; 通过其池化层,可以从各个局部信息中整合出全文语义,模型的整体复杂度为O(n).
卷积神经网络应用非常广泛. 在自然语言领域,Collobert等首次将其用于处理语义角色标注任务,有效提升了系统的性能[46]. 2014 年,Kalchbrenner等与Kim分别发表了利用卷积神经网络做文本分类的论文[47-48].Zeng等提出使用卷积神经网络做关系分类任务,取得了一定的成功[49].
3. 基于表示学习的知识库问答
针对知识库问答,近年来已经有一些研究者利用深度学习,将表示学习应用其中.这些方法的核心是把自然语言问句和知识库中的资源都映射到同一个低维向量空间中,这样就可以将问句和答案(三元组)都用一个向量来表示,知识库问答问题就被转化为求解向量相似度的问题.
Bordes等[10]首先将基于词向量(Word embedding)的表示学习方法应用于知识库问答.他将问句以及知识库中的三元组都转换为低维空间中的向量,然后计算余弦相似度找出问句最有可能对应的答案三元组.更具体地分为三个步骤:
1) 问句的向量表示为 $f(q)={{V}^{T}}\phi (q),V$ 是词向量表示矩阵, $\phi (q)$ 表示哪些词在问句中出现过,即问句中所有的词的向量直接相加.
2) 三元组的实体和关系的向量相加得到一个答案向量表示 $g(t)={{W}^{T}}\psi (t)$ ,其中W为知识库中实体和关系的向量表示矩阵, $\psi (t)$ 表示哪些实体和关系在三元组中出现了.
3) 最后计算这两个向量的相似度 $S(q,t)=f{{(q)}^{T}}g(t)$ .
这种方法需要获得大量的问句-答案三元组对来训练,以得到向量词典V和W. 为了获得充足的训练语料,其利用一系列人工设定的模板对已有的Reberb[50]三元组进行扩展,生成自然语言问句,以弱监督的方式获取大量的训练数据. 例如,已有三元组(s,p,o),可以将o设为答案,得到问句"What does s p?".而获取负样本的方法是随机破坏已有问句-答案三元组对中的三元组的元素.训练目标是使得正样本的相似度得分大于负样本的得分加上一个间隔0.1. 即:
$\forall i,\forall {t}'\ne {{t}_{i}},f{{({{q}_{i}})}^{T}}g({{t}_{i}})>0.1+f{{({{q}_{i}})}^{T}}g({t}')$
(11) 所以训练的损失函数如下:
$L={{[0.1-f{{({{q}_{i}})}^{T}}g({{t}_{i}})+f{{({{q}_{i}})}^{T}}g({t}')]}_{+}}$
(12) 该方法采用随机梯度下降法进行训练,每一步更新V和W. 与此同时,利用Paraphrasing的语料进行多任务训练,使得相似问句的向量更加相似,以达到更好的训练效果. 这项工作在Reverb数据集上取得了不错的效果,F1值达到73%.
然而,这一方法对于问句和知识库的语义分析十分粗糙,仅仅是基于词、实体、关系的语义表示的简单求和.Bordes等在文献[11]中对其进行了改进,其基本假设是:在答案端加入更多信息,会提升问答的效果. 答案的表示可以分成三种:1) 答案实体的向量表示;2) 答案的路径(Path)的向量表示(和前面的工作用三元组表示的方法一样,直接相加); 3) 和答案直接相关的实体和关系的向量表示,这被称为子图向量表示(Subgraph embedding),如图 9所示.
同样地,问句和答案的相似度表示如下:
$S(q,a)=f{{(q)}^{T}}g(a)$
(13) 其中,问句的表示为 $f(q)={{W}^{T}}\phi (q)$ ,和前面的工作一样;答案的表示为 $g(a)={{W}^{T}}\varphi (a).\varphi (a)$ 可以为上述的三种不同的表示方式.W是向量表示矩阵,自然语言的词汇以及知识库中的实体和关系都在这个表中.这项工作的训练数据获取方式以及训练方法和文献[10]一样,不同的是三元组是从Freebase中得到的. 在WebQuestions上的实验结果表明,这种Subgraph embedding的方法是有效的,其性能超过文献[10].
Yih等[51]把知识库问答转换成两个问题,一个是找到问句中的实体和知识库中实体的对应;另一个是问句中自然语言描述和知识库中语义关系的对应.找到实体和关系后,就可以从知识库中找到其指向的答案实体.和已有基于表示学习的知识库问答方法不同之处在于,Yih在进行上述两种匹配时都采用CNN来处理自然语言问句.
图 10是基于CNN模型的知识库问答具体细节.问句中的词经过一个哈希、卷积、最大池化和语义映射后成为一个向量表示.相应的知识库中实体和关系用一个向量表示.该工作的训练数据来自Paralex[52],训练的目标是最大化后验概率(此处仅给出Relation pattern匹配的目标函数,实体匹配的类似):
$P({{R}^{+}}|Q)=\frac{\exp (\gamma \cdot \cos ({{y}_{{{R}^{+}}}},{{y}_{Q}}))}{\sum\nolimits_{{{R}'}}{\exp (\gamma \cdot \cos ({{y}_{{{R}'}}},{{y}_{Q}}))}}$
(14) 在Reverb数据集上,这项工作取得了比Paralex[52]更好的效果,F值为0.57,但是不如Bordes等[10].
Dong等[12]的思想和Bordes等[11]的Subgraph embedding相似,同样是考虑了答案的更多信息. 具体地,答案类型、得到答案的路径以及答案周围的实体和关系这三种特征向量分别和问句向量做相似度计算,最终的相似度为这三种相似度之和.该方法在问句端的处理上使用了三个不同参数的CNN模型,称为Multi-column CNN,图 11为模型的具体细节.
$S(q,a)={{f}_{1}}{{(q)}^{T}}{{g}_{1}}(a)+{{f}_{2}}{{(q)}^{T}}{{g}_{2}}(a)+{{f}_{2}}{{(q)}^{T}}{{g}_{3}}(a)$
(15) 其中 ${{f}_{1}}{{(q)}^{T}}{{g}_{1}}(a)$ 表示基于得到答案路径的相似度, ${{f}_{2}}{{(q)}^{T}}{{g}_{2}}(a)$ 示基于答案周围实体和关系的相似度, ${{f}_{2}}{{(q)}^{T}}{{g}_{3}}(a)$ 表示基于答案类型的相似度.
训练方面,仍然采用基于排序的方法,损失函数为
$l(q,a,{a}')={{[m-S(q,a)+S(q,{a}')]}_{+}}$
(16) 这项工作在WebQuestions上取得了比文献[11, 53-54]更好的效果,F值为40.8%.
从上面的几个代表性的工作来看,基于表示学习的知识库问答并不能简单采用通用的表示学习方法对于文本和知识库的语义表示进行学习,这样往往得不到好的效果,需要对于问句的语义进行细致化的分析,从多个角度考虑问句语义与知识库中实体、关系的匹配度,例如答案类型、上下文相关度、语义关系匹配度等.
4. 难点与挑战
由以上章节我们可以看出,基于表示学习的知识库问答主要涉及知识库表示学习、文本表示学习以及基于表示学习的问答系统构建三方面任务.这一类方法试图将传统基于符号的语义分析的知识库问答看做基于语义表示的语义匹配任务,利用端到端的思路解决问答问题,从而省略中间步骤,完全从数据中学习文本到知识之间的映射关系.由于其采用基于学习到的语义向量进行语义匹配,缺乏显式的问句语义解析,相对于传统基于符号的问答方法,能够有效地提高问答结果的召回率,然而其准确率较以往方法存在不足. 在这三方面还存在如下难点和挑战,亟待解决.
4.1 知识库表示学习的难点与挑战
目前,知识库的表示学习方法主要有张量分解,基于映射的模型等,这些方法均具有较强的学习能力. 但是,1) 在知识库中,语义关系之间通常有一定的关联关系,这种关系常常用于知识的推理或隐含知识的挖掘. 例如:“父亲”的“父亲”是“祖父”.目前的知识库表示学习方法主要针对知识库中单个三元组进行建模,对语义关系之间的关联关系考虑较少.Lin等[26]已经将关系间的关系约束加入知识库的表示学习当中,取得一定的效果.但是如何将已有的常识知识(如推理规则)加入知识库表示学习过程中,仍然是一个难点问题. 2) 当前的知识库表示学习方法主要集中在知识库内部的实体、关系的表示学习,对于知识库未包含的实体、关系等语义单元,不具有学习能力.一个可能的解决途径是建立知识库和文本的联合表示学习模型.这样可以从文本中挖掘知识库中尚不存在的实体和关系,对知识库中的知识进行补充. 3) 知识库通常包含有噪声,但是当前的方法均不考虑噪声的影响. 4) 在实际问答场景下,单一知识库很难覆盖用户的问题,在很多情况下,需要综合多个异构知识库的知识回答当前问题. 然而,目前的知识库表示学习方法都集中在单个知识库上,对于多知识库的表示学习的研究较少. 在学习过程中,如何建立异构知识库间的实体对齐、关系对齐是一个尚待研究的问题.
4.1 文本表示学习的难点与挑战
现阶段文本表示学习主要有两个难点:组合语义通用性和文本表示的时间效率.
1) 组合语义的通用性. 现有组合语义的方式,无论是递归、循环还是卷积网络,都采用一致的策略对文本元素进行组合.比如递归神经网络会将句法结构上的左右两部分组合成一个整体,对于所有的句法结构都采取同样的策略; 循环网络中,对文本中的每一个词,都会采用相同的策略对该词与其上下文进行语义组合; 卷积网络中,对于每一段连续的短语片段,也均采用同样的方式组合.然而在一般的文本中,这类简单的组合方式并不能完全表达语义. 例如,句子中的不同成分的语素需要不同的组合方式,比如形容词+名词合成的语义可能与两个名词合成名词短语的方式差异较大.在这方面,Socher等[7]在递归神经网络中尝试了对不同句法结构采用不同的组合函数;Zhao等基于LSTM的思想提出了AdaSent模型[55],对不同语素的多样化组合进行了尝试.Luong等[56]已经把Attention-based neural network应用于机器翻译,并且取得了不错的效果.其核心目标也是为了解决文本语义的组合问题.
2) 时间效率问题. 比如谷歌在网页去重时,使用的是非常简单的SimHash,然而SimHash对同义词的建模较弱,在短文本时,对语义的建模并不理想.但是这种方法运行效率比此前提到的递归、循环、卷积网络要高.特别是递归神经网络,时间复杂度与文本长度的平方呈正比,无法投入到问答系统等大规模数据的使用场景下.因此寻找一种高效且有效的文本表示方法也是研究人员关注的难点和热点之一.
总体来看,文本表示目前处于简单模型不能很好地捕获各种语义,而复杂模型在提升语义捕获能力的同时,往往使模型变得非常复杂,难以实用. 因此,无论是寻找有效的语义组合方式,更精确地捕获语义,还是寻找高效可用的文本表示方法,都将是下一步研究方向与热点.
4.3 基于表示学习的问答系统构建的难点与挑战
目前,基于表示学习的问答系统都是通过高质量已标注的问题-答案建立联合学习模型,同时训练知识库和文本的语义表示. 但是仍然存在一些问题. 1) 资源问题.表示学习的方法依赖大量的训练语料,而目前获取高质量的问题-答案对仍然是个瓶颈,如果进行人工标注代价昂贵.Bordes等[11]提出了一些模板利用已有三元组来生成问句,用较小的代价生成了大量的问题-答案对,但是相应的问句质量并不能保证,而且问句同质化严重.在训练资源上的提高空间仍然很大. 2) 已有的基于表示学习的知识库问答方法多是针对简单问题,例如单关系问题设计的,对于复杂问题的回答能力尚且不足,例如有限制条件的问题(What did Obama do before he was elected president?)和聚合问题(When's the last time the steelers won the superbowl?). 如何利用表示学习的方法解决复杂问题值得继续关注. 3) 目前,大部分工作中所使用的知识库通常包含两类,一类是高质量的人工知识库,例如Freebase; 一类是通过自动抽取技术得到的开放知识库,例如Reverb.后者尽管不如前者精准,但是知识覆盖程度更大.同时每一类中知识库的结构也存在差异性.综合不同知识库一起回答问题能够发挥各自知识库的优势.已经有传统的方法对此作出研究[57],尚缺乏从表示学习的思路研究多领域异构知识库的问答方法. 4) 在知识库问答过程中需要知识推理技术对于知识库中的未知知识进行预测与推理.传统推理方法基于谓词逻辑的推理策略,存在覆盖度低、推理速度慢的问题.如何利用表示学习自动学习推理规则,使其使用大规模知识库问答场景是一个值得研究的难点问题.
5. 结论
本文对于基于表示学习的知识库问答方法进行详细的综述.特别是在知识库的表示学习、问句(文本)的表示学习以及基于表示学习的知识库问答系统构建等三方面介绍了目前主流的方法及其特点.同时,本文对于这三方面的主流方法存在的不足以及今后可能的研究难点和热点问题进行讨论.知识库问答本身就是一个十分具有挑战性的问题,如今在深度学习的研究热潮中,如何利用基于深度学习的表示学习技术,构建面向知识库的深度问答系统,是一个极具挑战的研究课题.希望本文能够为这一领域的研究者提供一定的参考和启发.
-
[1] Zhang L X, Gao H J, Kaynak O. Network-induced constraints in networked control systems-a survey. IEEE Transactions on Industrial Informatics, 2013, 9(1): 403-416 [2] You Ke-You, Xie Li-Hua. Survey of recent progress in networked control systems. Acta Automatica Sinica, 2013, 39(2): 101-118(游科友, 谢立华. 网络控制系统的最新研究综述. 自动化学报, 2013, 39(2): 101-118) [3] Yang Yuan-Hua, Fu Min-Yue, Zhang Huan-Shui. State estimation subject to random communication delays. Acta Automatica Sinica, 2013, 39(3): 237-243(杨园华, 付敏跃, 张焕水. 带有随机通信时滞的状态估计. 自动化学报, 2013, 39(3): 237-243) [4] Bamieh B, Pearson J B, Francis B A, Tannenbaum A. A lifting technique for linear periodic systems with applications to sampled-data control. Systems and Control Letters, 1991, 17(2): 79-88 [5] Fridman E, Seuret A, Richard J P. Robust sampled-data stabilization of linear systems: an input delay approach. Automatica, 2004, 40(8): 1441-1446 [6] Fridman E. A refined input delay approach to sampled-data control. Automatica, 2010, 46(2): 421-427 [7] Fridman E, Shaked U, Suplin V. Input/output delay approach to robust sampled-data control. Systems and Control Letters, 2005, 54(3): 271-282 [8] Wu Yao, Luo Xiong-Lin. Robustness analysis of Kalman filtering algorithm for multirate systems. Acta Automatica Sinica, 2012, 38(2): 156-174(吴瑶, 罗雄麟. 多率系统Kalman滤波算法的鲁棒性分析. 自动化学报, 2012, 38(2): 156-174) [9] Nemani M, Tsao T C, Hutchinson S. Multi-rate analysis and design of visual feedback digital servo-control system. Journal of Dynamic Systems, Measurement, and Control, 1994, 116(1): 45-55 [10] Kranc G. Input-output analysis of multirate feedback systems. IRE Transactions on Automatic Control, 1957, 3(1): 21-28 [11] Kalman R E, Bertram J E. A unified approach to the theory of sampling systems. Journal of the Franklin Institute, 1959, 267(5): 405-436 [12] Zamani M, Bottegal G, Anderson B D O. On the properties of linear multirate systems with coprime output rates. In: Proceedings of the 52nd Annual Conference on Decision and Control (CDC). Firenze, Italy, USA: IEEE, 2013. 2734 -2739 [13] Yu B, Shi Y, Huang H M. l2-l∞ filtering for multirate systems based on lifted models. Circuits, Systems and Signal Processing, 2008, 27(5): 699-711 [14] Jia X C, Li L, Zhang D W, Chi X B, Fan X. Exponential stabilization of dual-rate control system: a switched system approach. In: Proceedings of the 2013 American Control Conference (ACC). Washington, DC, USA: IEEE, 2013. 48 -53 [15] Moarref M, Rodrigues L. Observer design for linear multi-rate sampled-data systems. In: Proceedings of the 2014 American Control Conference (ACC). Portland, Oregon, USA: IEEE, 2014. 5319-5324 [16] Jin J, Wang Z W, Luo D S. Model-based control scheme for networked multi-rate sampling systems. In: Proceedings of the 2009 6th International Conference on Measuring Technology and Mechatronics Automation. Zhangjiajie, China: IEEE, 2009. 812-815 [17] Glasson D. Development and applications of multirate digital control. IEEE Control Systems Magazine, 1983, 3(4): 2 -8 [18] Mizuochi M, Tsuji T, Ohnishi K. Multirate sampling method for acceleration control system. IEEE Transactions on Industrial Electronics, 2007, 54(3): 1462-1471 [19] El Ghaoui L, Oustry F, AitRami M. A cone complementarity linearization algorithm for static output-feedback and related problems. IEEE Transactions on Automatic Control, 1997, 42(8): 1171-1176 [20] Hu S L, Yue D. L2-gain analysis of event-triggered networked control systems: a discontinuous Lyapunov functional approach. International Journal of Robust and Nonlinear Control, 2013, 23(11): 1277-1300 期刊类型引用(9)
1. 王冠正 ,赵峰 ,陈向勇 ,邱建龙 . 一类随机非线性系统的有限时间H_∞控制. 控制理论与应用. 2023(02): 291-296 . 百度学术
2. 刘建华,李佳慧,刘小斌,穆树娟,董宏丽. 事件触发机制下的多速率多智能体系统非脆弱一致性控制. 广东工业大学学报. 2022(05): 102-111 . 百度学术
3. 王悦,贾新春,游秀,吕腾. DoS攻击下基于多率采样的多智能体系统安全一致性. 控制理论与应用. 2022(10): 1890-1897 . 百度学术
4. 贺彦君,马伟伟,池小波. 网络化非周期采样控制系统的主动时间滞后控制:随机脉冲切换系统方法. 应用数学和力学. 2021(04): 422-430 . 百度学术
5. 孙娜. 基于双率采样的一类线性时不变系统的H_∞控制. 中央民族大学学报(自然科学版). 2020(03): 46-52 . 百度学术
6. 唐晓铭,邓梨,虞继敏,屈洪春. 基于区间二型T-S模糊模型的网络控制系统的输出反馈预测控制. 自动化学报. 2019(03): 604-616 . 本站查看
7. 贾新春,李雷,马伟伟. 采样系统的一类脉冲观测器的设计. 山西大学学报(自然科学版). 2018(01): 70-75 . 百度学术
8. 杨蒙蒙,钱伟. 基于神经网络预测的网络化控制系统故障检测. 信息与控制. 2018(01): 36-40+47 . 百度学术
9. 冯宗英,邵汉永,邵林. 变周期采样系统的采样区间依赖稳定性分析新方法. 系统科学与数学. 2018(11): 1267-1281 . 百度学术
其他类型引用(15)
-
计量
- 文章访问数: 1595
- HTML全文浏览量: 86
- PDF下载量: 1034
- 被引次数: 24