Signal Priority Control for Trams Using Deep Reinforcement Learning
-
摘要: 现有的有轨电车信号优先控制系统存在诸多问题, 如无法适应实时交通变化、优化求解较为复杂等. 本文提出了一种基于深度强化学习的有轨电车信号优先控制策略. 不依赖于交叉口复杂交通建模, 采用实时交通信息作为输入, 在有轨电车整个通行过程中连续动态调整交通信号. 协同考虑有轨电车与社会车辆的通行需求, 在尽量保证有轨电车无需停车的同时, 降低社会车辆的通行延误. 采用深度Q网络算法进行问题求解, 并利用竞争架构、双Q网络和加权样本池改善学习性能. 基于SUMO的实验表明, 该模型能够有效地协同提高有轨电车与社会车辆的通行效率.Abstract: Current trams-priority signal control systems have many problems, such as low adaptability to real-time traffic changes and high complexity in optimization solutions, etc. In this paper, an active signal priority control model is proposed for the trams based on deep reinforcement learning. Considering the traffic demands from tram and general vehicles, it can reduce the traffic delay of general vehicles while minimizing the need for trams to stop at the intersection. Real-time traffic information is used to dynamically adjust the sequence of traffic signals throughout the whole passing process of the tram, without relying on the complex traffic modeling. We use deep Q-network algorithm for problem-solving, and adopt dueling network, double Q network, and prioritized experience replay to improve the learning performance. Experiments based on SUMO have demonstrated that the proposed model can excellently improve the efficiency of trams and general vehicles simultaneously.
-
Key words:
- Trams /
- signal priority /
- Markov decision process /
- deep reinforcement learning
-
1. 背景知识
本节将对宽度学习系统(Broad learning system, BLS)和孪生网络的有关背景知识进行简要的介绍. 我们将分别从方法介绍和应用研究两个角度展开描述, 对算法的有关设计思路以及实际应用进行介绍.
1.1 宽度学习系统
不同于深度学习方法, 宽度学习系统[1]提供了一种新的学习架构. 它不是通过增加网络深度的方式来进行学习, 而是以随机的方式将输入样本特征横向扩展到宽度空间. 宽度学习系统网络主要包括两类结点, 即特征节点和增强节点. 输入宽度学习系统网络的样本数据需要进行处理转化为特征结点和增强结点才可以进行进一步的学习. 其中, 特征节点由输入样本特征以随机的方式映射产生, 增强节点则是从特征节点以随机方式扩展得到. 随后系统将特征节点和增强节点拼接在一起, 通过联合求解得到最终的输出. 不同于以往的深度学习方法, 宽度学习系统需要学习的参数相对较少. 因为特征节点和增强节点的有关参数, 如结点权重和偏差只初始化一次, 在训练过程中只需学习由特征结点和增强结点连接到输出层的权值. 因此, 与深层网络方法相比, 宽度学习系统网络结构相对简单, 所需要学习的参数相对较少, 可以更加快速地对研究内容进行建模, 缩短了响应处理的时间. 图1给出了一种典型的宽度学习系统的网络结构.
1.1.1 方法介绍
宽度学习系统是在随机向量函数链接神经网络(Random vector functional-link neural network, RVFLNN)的基础上构建起来的. 传统的随机向量函数链接神经网络(RVFLNN)直接采用样本数据和生成的增强结点作为网络的输入信息. 而宽度学习系统则是先将输入样本特征映射为特征结点, 由特征结点生成增强结点, 再将特征结点和增强结点一起作为网络的输入信息. 宽度学习系统的构建可以大致分为三个步骤. 首先, 通过预先随机设定的映射矩阵将输入样本特征映射为特征结点. 随后, 生成的特征结点采用随机设定的权重和偏差进一步映射为增强结点. 值得注意的是, 生成特征结点和增强结点的权重和偏差值都是随机初始化的, 在后续的训练过程中不需要做进一步的学习调整. 同时特征结点和增强结点位于网络的同一层次, 这样就从宽度的层面拓展了网络的结构. 最后, 我们将特征结点和增强结点与输出结点连接起来, 并且采用求解伪逆的方法来求解连接的权重. 在这个过程中, 我们规定特征结点以及增强结点与输出结点之间的连接只设置权重, 没有偏差值. 由于不需要像深度学习方法一样通过逐轮的迭代来训练相关的参数, 并且所需要的学习训练的参数相对较少, 宽度学习系统的训练过程相对较快, 从而减少了时间开销.
以分类任务为例子, 宽度学习系统的步骤介绍如下. 我们首先假设输入的样本数据为
${\{} X, Y{\}} \in {\bf{R}}^{N\times(M+C) }$ . 其中X是样本特征数据, Y为样本标签, N代表样本的数量, M表示输入样本特征的维度, C表示类别的数量. 在将输入样本特征转化为特征结点之前, 我们还需要定义参数n和参数p. 其中n表示特征结点的组数, p表示每组特征结点有p个结点. 将输入样本特征转化为特征结点的过程如式(1)所示.$$ {Z_i} = {\varphi _i}(X{W_{zi}} + {\beta _{zi}}),\quad {\rm{ }}i{\rm{ }} = {\rm{ }}1, \cdots ,n $$ (1) 其中,
$X \in {\bf{R}}^{N\times M }$ ,$W_{zi} \in {\bf{R}}^{M\times p }$ ,$\beta_{zi} \in {\bf{R}}^{1\times p }$ . 并且$W_{zi}, \beta_{zi}$ 以随机的方式生成, 分别代表用于产生第i组特征结点的权重和偏差. Zi表示第i组生成的特征结点. 我们将所有的n组特征结点拼接在一起得到最终的特征结点集合$Z^n$ , 其中$Z^n=[{{Z}}_1,\cdots,{{Z}}_n]$ .类似地我们可以规定增强结点的组数为m, 每一组增强结点的个数为q. 则由特征结点生成增强结点的过程如式(2)所示.
$$ {H_j} = {\xi _j}({Z^n}{W_{hj}} + {\beta _{hj}}),\quad{\rm{ }}j{\rm{ }} = {\rm{ }}1, \cdots ,m $$ (2) 其中,
$Z_n \in {\bf{R}}^{N\times np }$ ,$W_{hj} \in {\bf{R}}^{np\times q }$ ,$\beta_{hj} \in {\bf{R}}^{1\times q }$ . 并且$W_{hj}, \beta_{hj}$ 以随机的方式生成, 分别代表用于产生第j组特征结点的权重和偏差. Hj表示第j组生成的特征结点. 我们将所有的m组特征结点拼接在一起得到最终的特征结点集合Hm, 其中$H_m=[{{H}}_1,\cdots, {{H}}_m]$ .在生成增强节点之后, 我们还需要将特征结点和增强结点拼接在一起作为输入层, 经过进一步计算得到输出的结果. 我们设连接输入层与输出层之间的权重为Wnm. 由输入层映射到输出层的过程如式(3)所示.
$$ Y = \left[ {{{{Z}}^{{n}}},{{{H}}^{{m}}}} \right]W_n^m $$ (3) $$ W_n^m = {\left[ {{{{Z}}^{{n}}},{{{H}}^{{m}}}} \right]^ + }Y $$ (4) 其中,
$W_n^m \in {\bf{R}}^{ (np+mq)\times C }$ . 我们可以根据式(4)来计算权重$W_n^m.\ [{{Z}}^n,{{H}}^m]$ 的伪逆$[{{Z}}^n,{{H}}^m]^+$ 可以通过岭回归算法计算得到.1.1.2 应用研究
自从宽度学习系统被提出来以后, 人们又进一步做了许多相关的研究. 宽度学习系统和深度学习方法相比需要训练的参数较少, 网络结构相对简单, 所需要的的时间开销也相对较小, 能够更好地适应实际应用的需求. 近年来在宽度学习系统的应用研究领域, 人们也取得了许多新的成果.
Peng等[2]提出将宽度学习网络应用于网络流量分析领域. 他们设计了一种基于雾计算的架构并在树莓派上进行了实验. 实验结果表明采用宽度学习能够在准确识别网络流量数据的情况下进一步提高训练速度. Zhang等[3]将宽度学习方法应用于人脸面部表情识别领域. 他们在拓展Cohn-Kanad (CK+)数据集上进行了实验, 证明了宽度学习方法在面部表情识别领域的有效性. Gao等[4]提出了一种基于事件的目标检测方法. 他们将宽度学习网络应用于提高事件摄像机的在线训练及推理能力, 并设计了一个梯度下降方法来训练相关的网络参数. Liu等[5]将宽度学习方法应用于半监督分类问题领域. 他们设计了一种流形正则化方法来探索潜在的数据分布, 从而协助提高分类准确度. 这种方法适合于样本数据随时间动态更新的应用领域. 与相关方法的对比实验结果表明Liu等提出的方法能够有效提高分类精度, 同时减少学习时间开销和存储空间消耗. Wang等[6]将宽度学习系统应用于脑电图情绪识别领域. 他们将宽度学习系统与图卷积神经网络结合起来, 提出了一种新的脑电信号处理系统, 即宽度动态图学习系统. 实验结果表明该方法能够有效提高情绪识别的准确度. Chu等[7]提出了一种加权宽度学习网络, 用于处理工业过程中的噪声和异常值. 他们对正常样本和异常样本分别赋予不同的权重来调整不同样本对建模的影响. 来自公共数据集和实际应用的实验结果表明这种方法具有较好的泛化性和鲁棒性.
1.2 孪生网络
孪生网络的概念由Bromley等[8]提出, 并被使用于签名验证领域, 用来验证两个签名笔迹是不是同一个人所书写的. 随着人们研究的深入, 孪生网络的应用范围也得到了进一步的拓广. 例如, 人们可以使用孪生网络来比较文本之间的语义相似度, 或者进行视觉跟踪任务. 虽然孪生网络的应用越来越多样化, 但是这些应用的基本思想是一致的. 那就是通过子网络将输入样本的特征信息映射为新的输出向量, 并且通过比较输出向量之间的相似程度来判断输入样本之间的近似程度. 在构建孪生网络的时候, 人们可以使用相同类型的子网络, 也可以根据实际应用的需求使用不同类型的子网络来构建孪生网络. 子网络之间可以共享权重, 也可以根据实际情况采用不同的权重. 这些子网络可以被视为是用于处理输入样本信息的映射模型, 负责将样本特征映射为指定维度的输出向量. 而训练的目标则是希望同类型样本的输出向量差异尽可能小, 不同类型样本的输出向量差异尽可能大. 近年来人们又对孪生网络的方法做了进一步的研究, 例如通过采用新的距离度量方法来比较输出向量之间的相似性, 或者将正负样本与基准样本同时输入来提高识别的效果. 为了更好地介绍孪生网络, 在方法介绍部分, 我们选择了其中一种典型的孪生网络结构来进行介绍.
1.2.1 方法介绍
我们选择了Nair等[9]提出的网络结构来进行介绍. 他们将孪生网络应用于人脸验证领域, 为后续人们将孪生网络应用于解决实际问题提供了更多的参考. 同时他们提出的孪生网络结构也具有一定的代表性, 能够反映孪生网络方法的基本思想. 在本节内容中, 我们将孪生网络分为特征提取, 相似度度量, 决策判别三个部分进行介绍.
在特征提取过程中, 人们需要将输入样本特征映射为指定的输出向量. 这个过程可以视为是一个降维过程, 将相对复杂的样本数据进行简化, 从而有利于后续对样本信息进行进一步处理. 特征提取过程的另一个作用在于抽取有效的样本信息, 通过训练使得输出向量能够更好地反映样本的类别信息, 从而提高最终识别的准确程度. 为了完成特征提取的任务, 人们可以采用卷积神经网络, 长短时记忆网络作为子网络来进行训练. 在原始版本的孪生网络结构中, 人们倾向于使用两个相同类型的网络作为子网络来进行训练. 子网络之间通常共享权重信息, 这样能够使得同一类别的样本生成的输出向量尽可能接近, 而不同类别样本生成的输出向量尽可能有所差异. 当然, 在实际应用中, 人们根据实际情况的需要也可以采用不同类型的网络作为子网络来进行训练. 同时人们也对共享权值的策略进行了研究, 在一些特殊情况下不共享权重, 而是为不同子网络赋予不同的权重, 可以进一步提高算法的性能[10].
相似度度量用于比较不同样本输出向量之间的相似程度, 从而为最终的决策判别提供依据. 由于输入样本特征已经被转化为指定维度的输出向量, 我们可以根据实际情况的需要采用不同的度量方法来进行衡量, 例如采用欧几里得距离或者余弦距离. 相似度度量的结果也将作为子网络进一步训练的依据, 用于进一步优化网络的结构.
决策判别则是根据相似度度量的结构生成最后的结论. 我们可以通过设置阈值的方式来对相似度度量的结果来进行划分, 也可以将相似度度量的结果转化为判别概率, 代表判别结果属于某一个类别的概率. 图2展示了一种典型的孪生网络结构, 其中的子网络采用相同的网络结构, 并且共享了权重信息.
1.2.2 应用研究
孪生网络在自然语言处理和图像视觉领域都有着广泛的应用, 一些典型的例子列举如下. Baraldi等[11]设计了一种应用于广播视频自动场景分割的深度孪生网络算法. 他们提出了一个新的性能度量方法来进一步提高场景分割的准确程度. 作者同时将视觉与文本数据进行了融合. 与该领域域相关算法的对比实验进一步证明了这种算法的有效性. Melekhov等[12]将孪生网络应用于图像匹配领域. 他们的成果可以被进一步应用于图像检索、三维重建等计算机视觉应用领域. Bertinetto等[13]提出了一种全卷积孪生网络算法用来进行视频目标追踪. 他们将全卷积神经网络用于构建孪生网络. 并且提出了一种新的离线学习策略. 实验结果表明新提出的方法能够有效地提高目标追踪的准确率. Zeghidour等[14]将孪生网络应用于比较说话人和语音之间的相似性. 他们设计了一种联合嵌入架构来提高将说话人身份信息从语音数据中提取出来的准确度. 实验结果表明这种方法在类似的弱监督方法的基础上有了进一步的提高. Neculoiu等[15]研究了如何比较文本内容相似性的问题. 他们采用长短时记忆神经网络来搭建孪生网络. 实验结果表明这种方法能够有效地识别可变长字符串之间的相似性. Rahul 等[16]将孪生网络应用于水下环境的目标追踪问题. 他们考虑了了水下环境光照变化、背景干扰对目标追踪的影响. 有关的实验结果表明作者提出的方法能够更好地克服周围环境的干扰, 进一步提高目标追踪的准确性.
2. 宽度孪生网络
在本节的内容中, 我们将对本文提出的宽度孪生网络算法进行介绍. 我们展示了算法的设计思路, 并将有关的内容将分为特征映射, 相似度度量和决策判别三个部分展开描述.
2.1 特征映射
传统的孪生网络算法在训练的时候需要构造成对的相似数据和不相似数据进行训练, 使得相似样本的输出向量尽可能接近, 不相似样本的输出向量差异尽可能明显. 当训练样本规模增大的时候, 所需要构造的相似对和非相似对数据规模也会显著增大. 如式(5)所示, 在完全图中(即任意两个样本之间都用一条边来描述它们之间的相似关系), 样本数量nSam和构造所有相似对信息的时间复杂度T(nSam)之间满足以下关系:
$$ T\left( {nSam} \right){\rm{ }} = {\rm{ }}nSam\left( {nSam - 1} \right)/2{\rm{ }} = {\rm{ O}}\left( {nSa{m^2}} \right) $$ (5) 其中, 样本数量nSam和构造所有相似对的时间复杂度T(nSam)之间近似满足平方关系. 由于实际应用中的样本数据通常没有直接标注相似对信息, 因此我们往往在训练之前需要人为先构造相似对信息用于训练. 当样本数量nSam较大的时候, 如果为任意两个样本数据构造相似对信息进行训练, 所需要的时间开销和计算资源开销将会明显增加. 这与边缘计算应用要求降低处理延迟, 并且满足终端设备资源受限情况的要求是不相匹配的. 虽然可以通过采样的方式, 只选取部分样本来构造相似对信息进行训练. 但这种方法在训练的时候会丢失部分样本信息, 从而影响最终训练的效果. 显然, 选择怎样的采样策略进行训练将会影响算法最终的性能表现. 人们需要在面对实际问题的时候额外考虑选取合适的采样策略来进行训练. 为了解决这一问题, 我们提出了一种特征映射策略来进行训练.
我们首先分析了传统孪生网络方法在训练的时候需要加入相似对信息进行训练的原因. 通常用孪生网络进行训练的时候, 子网络只是提取了样本数据的一些特征用于进一步的处理判断. 这些特征并不直接与类别信息相关. 以面部表情识别为例, 子网络所提取的特征可能只是面部某个器官的相关数据, 需要我们借助相似对信息来辅助调整子网络的有关参数, 使得同类别样本数据提取的特征差异尽可能小, 不同类别样本数据提取的特征差异尽可能明显.
为了减少对相似对信息的依赖, 使得在没有构造相似对信息的情况下也能够对孪生网络进行训练. 我们提出在映射特征的时候加入类别信息, 通过采用适当的特征映射策略, 使得同一类别样本映射得到的特征尽可能接近, 而不同类别样本映射得到的特征差异尽可能明显.
例如, 我们可以采用独热(One-hot)编码的方式来构造映射后的输出特征向量. 在独热编码中, 假设样本数据的类别数量为C, 则每一个样本在编码后将会得到一个长度为C的输出向量T, T中的每一位代表样本属于对应类别的概率. 在理想情况下, 我们在训练的时候希望向量T只有一位的数值为1, 代表样本属于对应类别的概率为1; 向量T中其他位置的数值为0, 代表样本属于其他类别的概率为0. 如图3(a)所示, 假设两个样本为T1和 T2, 它们之间的欧几里得距离为Eu, T1和 T2的长度为tn, 并且用T1(i)表示T1中的第i个元素
$i=1,2,\cdots,tn$ . 通过计算我们可以得到, 当两个样本属于同个类别的时候, Eu=0, 当两个样本不属于同个类别的时候, Eu=1, 满足孪生网络希望能类别样本的输出向量之间差异尽可能小, 不同样本输出向量之间差异尽可能大的要求. 如果在相似度度量阶段我们采用其他的度量指标, 例如曼哈顿距离, 我们依然能够得到相似的结论, 我们用Ma来表示两个样本T1和 T2之间的曼哈顿距离. 有关的说明过程如图3(b)所示.上述特征映射的过程虽然直观上来看是包含了样本的类别信息, 但其实这些类别信息也是在样本特征向量的基础上经过模型处理才得出的, 因此特征映射的结果也能够在一定程度上反映样本特征信息的特点. 如图4所示, 在图4中, 样本1和样本2的独热编码中数值最高位是不相同的, 但是它们在不同位置上的总体数值分布却有相似的地方, 这说明样本1和样本2的特征分布有相似的地方, 在一定程度上也反映出了样本的特征信息. 在进行相似度计算的时候, 我们不仅仅只比较数值最高位的情况, 还应该考虑其他位置上的数值. 在本文中, 为了简化相似度计算过程以及方便说明, 我们只考虑了映射结果取值最高两位的情况, 具体的相似度计算过程在下一节中将进行计算. 未来我们还可以对上述相似度计算方案做进一步的改进, 例如综合地考虑更多位置上的数值, 以进一步提高分类的准确度. 当然在特征映射的时候, 我们可以对映射的策略做进一步的改进. 例如在独热编码的基础上加入更多的特征信息, 包括与表情相关的人脸活动单元特征, 以进一步丰富输出向量所代表的内容. 一种可能的结合独热编码与额外样本特征信息的混合特征映射方案如图5所示.
在图4中, 我们可以为不同位的编码赋予不同的权重, 以进一步提高混合映射编码对样本信息的表达能力. 在本文的实验中, 为了方便进行说明展示, 我们采用了最简明的独热编码方案作为输出向量的映射策略. 我们将在后续的实验研究内容中, 进一步介绍有关的实验结果.
在对输出向量的映射策略进行介绍之后, 如图6所示, 我们展示了宽度孪生网络的特征映射过程. 我们采用宽度学习系统来构建孪生网络算法中的子网络, 并且采用了共享权重的策略来调整来调整子网络的权重信息. 采用共享权重的策略可以进一步降低训练时所需要的时间和存储空间开销, 从而进一步满足边缘计算应用的需求.
在图5中, X表示样本特征数据, Y为样本标签. 参数n表示特征结点的组数, p表示每组特征结点有p个结点, e表示增强节点的数量. 在生成特征结点的时候, 由输入样本特征根据随机设定的权重和偏差值进行映射, 得到n组特征结点
$Z_1,\cdots, Z_n .$ 将所有特征结点拼接在一起得到最终的特征结点$Z^n,Z^n=[{{Z}}_1,\cdots,{{Z}}_n]$ . 在生成增强结点的时候, 我们将Zn作为一个整体, 同样通过随机设定的权重和偏差值进行映射, 得到增强加点集合H. 我们将特征结点和增强结点拼接在一起作为输入层$[{{Z}}^n,{{H}}]$ . 随后我们定义连接输出向量Y和输入层$[{{Z}}^n,{{H}}]$ 之间的权重矩阵为Wmn, 其中Y采用独热编码方式进行编码. 值得注意的是, 连接输入样本与特征结点之间的系数矩阵是随机设定的. 而连接特征结点和增强结点之间的系数矩阵是正交规范化后生成的随机矩阵. 连接输入层和输出向量之间的只有权重矩阵Wmn, 不设置偏差值. 在训练的时候, 我们可以通过求伪逆的方法来求解Wmn. 已知$Y= [{{Z}}^n,{{H}}^m]W_{mn}$ , 可得$W_{mn}=[{{Z}}^n, {{H}}^m]^+{Y}$ . 其中,$[{{Z}}^n, {{H}}^m]^+$ 是输入层$[{{Z}}^n, {{H}}^m]$ 的伪逆, 可以通过岭回归的方法得到[9].2.2 相似度度量
在相似度量阶段, 我们需要对特征映射阶段得到的输出向量进行度量, 以进一步得到它们之间的相似程度. 我们首先对输出向量的结构进行分析, 以进一步确定适合的相似度度量方案. 如图7所示, 在独热编码中, 输出向量T中的每一位可以代表样本属于该类别的概率. 在通常情况下, 我们只用取值最高的一位来代表样本的类别信息. 然而如图1所描述, 编码中其他位置上的数值也在一定程度上包含了样本的信息. 在进行相似度计算的时候我们应该适当考虑其他位置上的数值, 以便得到更加准确的结果. 在常用的欧几里得距离公式中, 我们需要考虑每一位的数值对相似度度量结果的影响, 这在一定程度上影响了最终相似度的判定结果. 但这种做法容易受到极端值的影响. 考虑到编码中数值较高的几位往往与样本的关系更加密切, 我们设计了一种新的相似度度量方法. 在这种方法中, 我们只比较输出向量T中取值较高的几位数值来得到最终的相似度度量结果. 我们首先假设需要比较相似度的两个输出向量分别为输出向量T1
和 T2, 并且假设输出向量T1和 T2中取值最大的位置分别为第M1和M2位, 对应位置的取值分别为T1(M1), T2(M2). 如果M1 = M2, 我们规定最终的相似度度量结果 $$ D{\rm{ }} = \sqrt{\left( {{T_1}\left( {{M_1}} \right){\rm{ }} - {\rm{ }}{T_2}\left( {{M_2}} \right)} \right)^2} $$ (6) 如果M1 ≠ M2, 我们规定
$$ D{\rm{ }} \!=\! \sqrt{ {\rm{ }}{\left( {{T_1}\left( {{M_1}} \right){\rm{ }} \!-\! {\rm{ }}{T_2}\left( {{M_1}} \right)} \right)^2} \!+\! {\rm{ }}{\left( {{T_1}\left( {{M_2}} \right){\rm{ }} \!-\! {\rm{ }}{T_2}\left( {{M_2}} \right)} \right)^2}} $$ (7) 得到的D即是输出向量T1和 T2之间的相似度, 用于决策判别阶段得到最终的判别结果.
2.3 决策判别
在决策判别阶段, 我们采用设定阈值的方式来得到最终的判别结果. 对于输出向量T1和 T2之间的相似度D, 我们设定判别阈值为φ. 如果D > φ, 我们认为输出向T1和 T2对应的样本属于不同的类别. 如果D ≤ φ, 我们认为输出向量T1和 T2对应的样本属于相同的类别. 我们研究了阈值φ的设置对最终判别结果准确度的影响, 并绘制了相应的ROC曲线图像. 有关的实验结果将在实验研究部分进行进一步的说明.
3. 实验研究
在本节中, 我们将对有关实验研究的内容进行介绍. 我们将首先介绍实验的总体情况, 随后展示对比实验的结果. 与此同时, 我们也研究了相似性度量指标对宽度孪生网络算法识别准确度的影响. 最后, 我们对实验结果进行了总结分析.
3.1 实验介绍
在本次实验中, 我们采用了CK+、 MNIST等常见分类数据集来进行有关的实验. 有关数据集信息如表1所示. 其中, CK+、 JAFFE数据集是常见的人脸表情分类数据集. MNIST、 USPS是有关于手写体数字识别的数据集. 我们在不同的数据集中采用了不同的参数设置. 宽度孪生网络算法在不同数据集上的参数设置信息如表2所示. 为了证明我们提出的宽度孪生网络算法能够在保证分类准确度的同时降低训练时间, 减少内存等计算资源开销. 我们在对比实验中将宽度孪生网络算法与基于深度学习的孪生网络算法进行了比较, 比较的指标包括了分类准确度, 训练时间和内存开销. 与此同时, 我们也研究了相似度度量指标对宽度孪生网络算法性能的影响. 我们在一台配置了16 GB内存以及Intel i7 1.61 GHz中央处理器的笔记本电脑上进行了上述的实验内容. 最后, 我们对有关的实验内容进行了分析总结.
表 1 实验数据集信息表Table 1 Table of data set for experiments数据集 样本
规模类别
数量各类别样本数量 特征
维度CK+ 5876 7 (1022, 233, 868, 546, 1331, 547, 1329) 14400 MNIST 70000 10 每个类别近似 7000 样本 784 JAFFE 213 7 (30, 29, 32, 31, 30, 31, 30) 14 400 USPS 20000 10 每个类别 2 000 样本 784 表 2 宽度孪生网络参数设置信息Table 2 Table of parameters for broad Siamese network数据集 n p e CK+ 8 10 9000 MNIST 10 10 500 JAFFE 8 10 9000 USPS 10 10 1500 3.2 对比实验结果
我们在CK+、 JAFFE、 MNIST、 USPS等分类数据集上进行了对比实验, 比较的指标包括了分类准确度, 训练时间和内存开销. 考虑到在基于深度学习的孪生网络算法中, 随着网络结构复杂度的加深, 算法的训练时间和内存开销会明显增加. 为了更好地证明我们提出的宽度孪生网络算法能够有效地减少训练时间和内存开销, 我们使用结构相对简单的三层全连接神经网络来构建孪生网络, 并进行了有关的对比实验. 这个全连接网络每一层结点个数的设置如表3所示.
表 3 对比算法中全连接神经网络结点个数设置信息Table 3 Table of number about nodes in the fully connected network for comparison数据集 第一层结点数 第二层结点数 第三层结点数 CK+ 512 128 512 MNIST 16 16 16 JAFFE 1024 128 1024 USPS 128 128 128 在准确度方面, 我们比较了算法最终得到的准确率(如表4所示), 并绘制比较了算法准确度随阈值变化的曲线(图8)以及受试者工作特征(ROC)曲线(图9). 有关训练时间和内存开销的实验结果如表5和 表6所示.
表 4 准确率实验结果Table 4 Table of experiment results about accuracy数据集 宽度孪生网络 基于全连接神经网络的孪生网络 CK+ 0.9788738 0.9287094 MNIST 0.9798112 0.9777414 JAFFE 0.9217687 0.9206349 USPS 0.9536075 0.9505025 表 5 训练时间实验结果Table 5 Table of experiment results about training time数据集 宽度孪生网络 基于全连接神经网络的孪生网络 CK+ 94.140997 567.9896214 MNIST 5.6314652 60.0518959 JAFFE 58.4795067 1105.1385579 USPS 3.0834677 29.8392925 表 6 内存开销实验结果Table 6 Table of experiment results about memory overhead数据集 宽度孪生网络 基于全连接神经网络的孪生网络 CK+ 3.3491211 6.0307884 MNIST 2.4598732 2.0554810 JAFFE 0.2893066 5.6162262 USPS 1.2569504 0.8804893 为了进一步地探索相似性度量指标对宽度孪生网络算法性能的影响, 我们在接下来的内容中进一步设计了有关的研究实验, 并给出了相应的实验结果.
3.3 相似性度量指标分析
在相似性度量指标的有关研究实验中, 我们比较了欧几里得距离、曼哈顿距离等度量指标与本文提出的相似度度量方法对宽度孪生网络性能的影响. 我们按照实验结果绘制了准确率随阈值变化的曲线(如图10所示)以及受试者工作特征曲线(如图11所示).
通过观察图10和图11中的实验结果, 我们可以看到本文新提出的度量方法与传统的欧几里得距离、曼哈顿距离等度量方法相比, 能够有效地进一步提高宽度孪生网络的分类准确度, 具有进一步应用于解决实际问题的潜力.
3.4 结果分析
通过前面的实验内容, 我们可以看到宽度孪生网络算法相比于基于传统深度学习方法的孪生网络方法, 能够在保证分类准确度的前提下降低训练时间和内存资源开销, 具有进一步应用于边缘计算应用的潜力. 与此同时, 我们研究了相似性度量指标对宽度孪生网络算法分类准确度的影响, 并且证明了我们提出的相似性度量方法能够进一步提高宽度孪生网络算法的分类准确度, 未来可以再做进一步改进以提高算法的分类准确度. 由于大多数的边缘计算应用要求减少相应延迟, 降低计算资源开销, 我们提出未来可以进一步研究以将基于浅层网络的方法应用于提高边缘计算应用的性能.
4. 结论
在本文中, 我们提出了一种面向边缘计算应用的宽度孪生网络算法. 我们考虑了边缘计算应用要求降低处理延迟, 满足边缘设备资源受限的情况, 提出可以将宽度学习系统应用于边缘计算应用之中. 为了验证本文观点, 我们将宽度学习系统与孪生网络相结合, 提出了宽度孪生网络算法, 并应用于解决分类问题. 与传统基于深度学习的孪生网络方法相比, 宽度孪生网络算法能够在满足分类准确度要求的情况下, 进一步降低训练时间以及内存资源开销. 这说明借助宽度学习系统能够有效降低处理延迟, 减少计算资源消耗, 从而更好地满足边缘计算应用的要求. 在文章的最后, 我们对未来的研究方向进行了展望. 我们可以进一步改进宽度孪生网络方法, 用于解决更多的实际分类问题, 并应用到边缘计算应用之中. 例如, 自动驾驶车辆上的交通标识识别以及监控视频中的对象追踪应用. 本文算法可以做进一步的改进, 以适应这些应用要求低延迟、低资源开销的特点. 与此同时, 我们也可以进一步探索浅层网络方法如宽度学习系统在边缘计算领域的应用. 借助宽度学习系统等浅层网络方法进一步提高边缘计算应用的性能.
-
表 1 模型参数
Table 1 Model parameters
参数 取值 $N$ 20 000 $m$ 32 $\Delta \varepsilon$ −0.001 $\gamma$ 0.99 $\alpha$ 0.001 -
[1] Ministry of tranport of China. Statistical bulletin on transportation industry development in 2018. [Online], available: http://xxgk.mot.gov.cn/jigou/zhghs/201904/t20190412_3186720.html, September 5, 2019 [2] 2 Shi J G, Sun Y S, Schonfeld P, Qi J. Joint optimization of tram timetables and signal timing adjustments at intersections. Transportation Research Part C: Emerging Technologies, 2017, 83(6): 104−119 [3] 3 Ji Y X, Tang Y, Du Y C, Zhang X. Coordinated optimization of tram trajectories with arterial signal timing resynchronization. Transportation Research Part C: Emerging Technologies, 2019, 99(4): 53−66 [4] Little J D C, Kelson M D, Gartner N M. Maxband: a program for setting signals on arteries and triangular networks. In: Proceedings of the 60th Annual Meeting of the Transportation Research Board. Washington, USA: Transportation Research Board, 1981. 40−46 [5] 5 Jeong Y J, Kim Y C. Tram passive signal priority strategy based on the maxband model. KSCE Journal of Civil Engineering, 2014, 18(5): 1518−1527 doi: 10.1007/s12205-014-0159-1 [6] 6 Ma W, Zou L, An K, Gartner N H, Wang M. A partition-enabled multi-mode band approach to arterial traffic signal optimization. IEEE Transactions on Intelligent Transportation Systems, 2019, 20(1): 313−322 doi: 10.1109/TITS.2018.2815520 [7] 7 Kim H, Cheng Y, Chang G. Variable signal progression bands for transit vehicles under dwell time uncertainty and traffic queues. IEEE Transactions on Intelligent Transportation Systems, 2019, 20(1): 109−122 doi: 10.1109/TITS.2018.2801567 [8] 8 Ji Y X, Tang Y, Wang W, Du Y C. Tram-oriented traffic signal timing resynchronization. Journal of Advanced Transportation, 2018, 2018(1): 1−13 [9] 9 Jacobson J, Sheffi Y. Analytical model of traffic delays under bus signal preemption: theory and application. Transportation Research Part B: Methodological, 1981, 15(2): 127−138 doi: 10.1016/0191-2615(81)90039-4 [10] 10 Yang M, Ding J, Wang W, Ma Y Y. A coordinated signal priority strategy for modern trams on arterial streets by predicting the tram dwell time. KSCE Journal of Civil Engineering, 2018, 22(2): 823−836 doi: 10.1007/s12205-017-1187-4 [11] 高阳, 陈世福, 陆鑫. 强化学习研究综述. 自动化学报, 2004, 30(1): 1−15 doi: 10.3969/j.issn.1003-8930.2004.01.00111 Gao Yang, Chen Shi-Fu, Lu Xin. Reseacrh on reinforcement learning technology: a review. Acta Automatica Sinica, 2004, 30(1): 1−15 doi: 10.3969/j.issn.1003-8930.2004.01.001 [12] 12 Bertsekas D P. Feature-based aggregation and deep reinforcement learning: a survey and some new implementations. IEEE/CAA Journal of Automatica Sinica, 2019, 6(1): 1−31 [13] 13 Samah E T, Abdulhai B, Abdelgawad H. Design of reinforcement learning parameters for seamless application of adaptive traffic signal control. Journal of Intelligent Transportation Systems, 2014, 18(3): 227−245 doi: 10.1080/15472450.2013.810991 [14] 段艳杰, 吕宜生, 张杰, 赵学亮, 王飞跃. 深度学习在控制领域的研究现状与展望. 自动化学报, 2016, 42(5): 643−65414 Duan Yan-Jie, Lv Yi-Sheng, Zhang Jie, Zhao Xue-Liang, Wang Fei-Yue. Deep learning for control: the state of the art and prospects. Acta Automatica Sinica, 2016, 42(5): 643−654 [15] 15 Li L, Lv Y, Wang F-Y. Traffic signal timing via deep reinforcement learning. IEEE/CAA Journal of Automatica Sinica, 2016, 3(3): 247−254 [16] 16 Liang X, Du X, Wang G, Han Z. A deep reinforcement learning network for traffic light cycle control. IEEE Transactions on Vehicular Technology, 2019, 68(2): 1243−1253 doi: 10.1109/TVT.2018.2890726 [17] 17 Ling K, Shalaby A. Automated transit headway control via adaptive signal priority. Journal of Advanced Transportation, 2004, 38(4): 45−67 [18] 舒波, 李大铭, 赵新良. 基于强化学习算法的公交信号优先策略. 东北大学学报(自然科学版), 2012, 33(10): 1513−1516 doi: 10.12068/j.issn.1005-3026.2012.10.03518 Shu Bo, Li Da-Ming, Zhao Xin-Liang. Transit signal priority strategy based on reinforcement learning algorithm. Journal of Northeastern University (Natural Science), 2012, 33(10): 1513−1516 doi: 10.12068/j.issn.1005-3026.2012.10.035 [19] 梁星星, 冯旸赫, 马扬, 程光权, 黄金才, 王琦等. 多agent深度强化学习综述. 自动化学报, 2019. DOI: 10.16383/j.aas.c180372Liang Xing-Xing, Feng Yang-He, Ma Yang, Cheng Guang-Quan, Huang Jin-Cai, Wang Qi, et al. Deep multi-agent reinforcement learning: a survey. Acta Automatica Sinica, 2019. DOI: 10.16383/j.aas.c180372 [20] 赵英男, 刘鹏, 赵巍, 唐降龙. 深度q学习的二次主动采样方法. 自动化学报, 2019, 45(10): 1870−1882 doi: 10.3969/j.issn.1003-8930.2019.01.00120 Zhao Ying-Nan, Liu Peng, Zhao Wei, Tang Xiang-Long. Twice sampling method in deep Q-network. Acta Automatica Sinica, 2019, 45(10): 1870−1882 doi: 10.3969/j.issn.1003-8930.2019.01.001 [21] Wang Z Y, Schaul T, Hessel M, Hasselt H, Lanctot M, Freitas N. Dueling network architectures for deep reinforcement learning. In: Proceedings of the 33rd International Conference on Machine Learning. New York, USA: PMLR, 2016. 1995−2003 [22] Hasselt H V, Guez A, Silver D. Deep reinforcement learning with double Q-learning. In: Proceedings of the 30th AAAI Conference on Artificial Intelligence, Phoenix, USA: MIT, 2015. 2094−2100 [23] Schaul T, Quan J, Antonoglou I, Silver D. Prioritized experience replay. In: Proceedings of the 2016 International Conference on Learning Representations 2016, San Juan, Puerto Rico: arXiv, 2016. 1−21 [24] Lopez P A, Behrisch M, Walz L B, Erdmann J, Flotterod Y, Hilbrich R, et al. Microscopic traffic simulation using sumo. In: Proceedings of the 21st IEEE International Conference on Intelligent Transportation Systems. Hawaii, USA: IEEE, 2018. 2575−2582 [25] 25 Islam M T, Tiwana J, Bhowmick A, Qiu T Z. Design of LRT signal priority to improve arterial traffic mobility. Journal of Transportation Engineering, 2016, 142(9): 04016034 doi: 10.1061/(ASCE)TE.1943-5436.0000831 期刊类型引用(16)
1. 叶宝林,陈栋,刘春元,陈滨,吴维敏. 基于Dueling Double DQN的交通信号控制方法. 计算机测量与控制. 2024(07): 154-161 . 百度学术
2. 王君逸,王志,李华雄,陈春林. 基于自适应噪声的最大熵进化强化学习方法. 自动化学报. 2023(01): 54-66 . 本站查看
3. 陶鑫钰,王艳,纪志成. 基于深度强化学习的节能工艺路线发现方法. 智能系统学报. 2023(01): 23-35 . 百度学术
4. 曾斌,樊旭,李厚朴. 支持重规划的战时保障动态调度研究. 自动化学报. 2023(07): 1519-1529 . 本站查看
5. 刘宇,张聪,李涛. 强化学习A3C算法在电梯调度中的建模及应用. 计算机工程与设计. 2022(01): 196-202 . 百度学术
6. 贺俊杰,张洁,张朋,汪俊亮,郑鹏,王明. 基于长短期记忆近端策略优化强化学习的等效并行机在线调度方法. 中国机械工程. 2022(03): 329-338 . 百度学术
7. 徐建闽,周湘鹏,首艳芳. 基于深度强化学习的自适应交通信号控制研究. 重庆交通大学学报(自然科学版). 2022(08): 24-29 . 百度学术
8. 殷耀文. 深度强化学习在物联网边缘计算中的应用研究. 信息技术. 2021(01): 121-125 . 百度学术
9. 郑忠斌,宋青青,熊增薪. 基于雾计算的NB-IoT资源优化模型及仿真. 粘接. 2021(04): 87-90+95 . 百度学术
10. 尚春琳,刘小明,田玉林,董路熙. 基于深度强化学习的综合干线协调控制方法. 交通运输系统工程与信息. 2021(03): 64-70 . 百度学术
11. 吴晓光,刘绍维,杨磊,邓文强,贾哲恒. 基于深度强化学习的双足机器人斜坡步态控制方法. 自动化学报. 2021(08): 1976-1987 . 本站查看
12. 陈满,李茂军,李宜伟,赖志强. 基于深度强化学习和人工势场法的移动机器人导航. 云南大学学报(自然科学版). 2021(06): 1125-1133 . 百度学术
13. 刘翔,李艾,成卫. 基于深度强化学习的多应急车辆信号优先控制. 武汉理工大学学报(交通科学与工程版). 2021(06): 1056-1061 . 百度学术
14. 王鹏勇,陈龚涛,赵江烁. 基于深度强化学习的机场出租车司机决策方法. 计算机与现代化. 2020(08): 94-99+104 . 百度学术
15. 孙长银,穆朝絮. 多智能体深度强化学习的若干关键科学问题. 自动化学报. 2020(07): 1301-1312 . 本站查看
16. 南英,蒋亮. 基于深度强化学习的弹道导弹中段突防控制. 指挥信息系统与技术. 2020(04): 1-9+27 . 百度学术
其他类型引用(22)
-