2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于深度强化学习的有轨电车信号优先控制

王云鹏 郭戈

李逸楷, 张通, 陈俊龙. 面向边缘计算应用的宽度孪生网络. 自动化学报, 2020, 46(10): 2060−2071 doi: 10.16383/j.aas.c200555
引用本文: 王云鹏, 郭戈. 基于深度强化学习的有轨电车信号优先控制. 自动化学报, 2019, 45(12): 2366−2377 doi: 10.16383/j.aas.c190164
Li Yi-Kai, Zhang Tong, Chen Jun-Long. Broad Siamese network for edge computing applications. Acta Automatica Sinica, 2020, 46(10): 2060−2071 doi: 10.16383/j.aas.c200555
Citation: Wang Yun-Peng, Guo Ge. Signal priority control for trams using deep reinforcement learning. Acta Automatica Sinica, 2019, 45(12): 2366−2377 doi: 10.16383/j.aas.c190164

基于深度强化学习的有轨电车信号优先控制

doi: 10.16383/j.aas.c190164
基金项目: 国家自然科学基金(61573077, U1808205)资助
详细信息
    作者简介:

    王云鹏:大连理工大学控制理论与控制工程专业博士研究生. 主要研究方向为智能车路协同系统. E-mail: yunpengwang0306@163.com

    郭戈:东北大学教授. 1998年获得东北大学控制理论与控制工程专业博士学位. 主要研究方向为智能交通系统, 运动目标检测跟踪网络. 本文通信作者. E-mail: geguo@yeah.net

Signal Priority Control for Trams Using Deep Reinforcement Learning

Funds: Supported by National Natural Science Foundation of China (61573077, U1808205)
  • 摘要: 现有的有轨电车信号优先控制系统存在诸多问题, 如无法适应实时交通变化、优化求解较为复杂等. 本文提出了一种基于深度强化学习的有轨电车信号优先控制策略. 不依赖于交叉口复杂交通建模, 采用实时交通信息作为输入, 在有轨电车整个通行过程中连续动态调整交通信号. 协同考虑有轨电车与社会车辆的通行需求, 在尽量保证有轨电车无需停车的同时, 降低社会车辆的通行延误. 采用深度Q网络算法进行问题求解, 并利用竞争架构、双Q网络和加权样本池改善学习性能. 基于SUMO的实验表明, 该模型能够有效地协同提高有轨电车与社会车辆的通行效率.
  • 本节将对宽度学习系统(Broad learning system, BLS)和孪生网络的有关背景知识进行简要的介绍. 我们将分别从方法介绍和应用研究两个角度展开描述, 对算法的有关设计思路以及实际应用进行介绍.

    不同于深度学习方法, 宽度学习系统[1]提供了一种新的学习架构. 它不是通过增加网络深度的方式来进行学习, 而是以随机的方式将输入样本特征横向扩展到宽度空间. 宽度学习系统网络主要包括两类结点, 即特征节点和增强节点. 输入宽度学习系统网络的样本数据需要进行处理转化为特征结点和增强结点才可以进行进一步的学习. 其中, 特征节点由输入样本特征以随机的方式映射产生, 增强节点则是从特征节点以随机方式扩展得到. 随后系统将特征节点和增强节点拼接在一起, 通过联合求解得到最终的输出. 不同于以往的深度学习方法, 宽度学习系统需要学习的参数相对较少. 因为特征节点和增强节点的有关参数, 如结点权重和偏差只初始化一次, 在训练过程中只需学习由特征结点和增强结点连接到输出层的权值. 因此, 与深层网络方法相比, 宽度学习系统网络结构相对简单, 所需要学习的参数相对较少, 可以更加快速地对研究内容进行建模, 缩短了响应处理的时间. 图1给出了一种典型的宽度学习系统的网络结构.

    图 1  一种典型的宽度学习系统网络结构
    Fig. 1  A typical network structure of broad learning system (BLS)
    1.1.1   方法介绍

    宽度学习系统是在随机向量函数链接神经网络(Random vector functional-link neural network, RVFLNN)的基础上构建起来的. 传统的随机向量函数链接神经网络(RVFLNN)直接采用样本数据和生成的增强结点作为网络的输入信息. 而宽度学习系统则是先将输入样本特征映射为特征结点, 由特征结点生成增强结点, 再将特征结点和增强结点一起作为网络的输入信息. 宽度学习系统的构建可以大致分为三个步骤. 首先, 通过预先随机设定的映射矩阵将输入样本特征映射为特征结点. 随后, 生成的特征结点采用随机设定的权重和偏差进一步映射为增强结点. 值得注意的是, 生成特征结点和增强结点的权重和偏差值都是随机初始化的, 在后续的训练过程中不需要做进一步的学习调整. 同时特征结点和增强结点位于网络的同一层次, 这样就从宽度的层面拓展了网络的结构. 最后, 我们将特征结点和增强结点与输出结点连接起来, 并且采用求解伪逆的方法来求解连接的权重. 在这个过程中, 我们规定特征结点以及增强结点与输出结点之间的连接只设置权重, 没有偏差值. 由于不需要像深度学习方法一样通过逐轮的迭代来训练相关的参数, 并且所需要的学习训练的参数相对较少, 宽度学习系统的训练过程相对较快, 从而减少了时间开销.

    以分类任务为例子, 宽度学习系统的步骤介绍如下. 我们首先假设输入的样本数据为${\{} X, Y{\}} \in {\bf{R}}^{N\times(M+C) }$. 其中X是样本特征数据, Y为样本标签, N代表样本的数量, M表示输入样本特征的维度, C表示类别的数量. 在将输入样本特征转化为特征结点之前, 我们还需要定义参数n和参数p. 其中n表示特征结点的组数, p表示每组特征结点有p个结点. 将输入样本特征转化为特征结点的过程如式(1)所示.

    $$ {Z_i} = {\varphi _i}(X{W_{zi}} + {\beta _{zi}}),\quad {\rm{ }}i{\rm{ }} = {\rm{ }}1, \cdots ,n $$ (1)

    其中,$X \in {\bf{R}}^{N\times M }$,$W_{zi} \in {\bf{R}}^{M\times p }$,$\beta_{zi} \in {\bf{R}}^{1\times p }$. 并且$W_{zi}, \beta_{zi}$以随机的方式生成, 分别代表用于产生第i组特征结点的权重和偏差. Zi表示第i组生成的特征结点. 我们将所有的n组特征结点拼接在一起得到最终的特征结点集合$Z^n$, 其中$Z^n=[{{Z}}_1,\cdots,{{Z}}_n]$.

    类似地我们可以规定增强结点的组数为m, 每一组增强结点的个数为q. 则由特征结点生成增强结点的过程如式(2)所示.

    $$ {H_j} = {\xi _j}({Z^n}{W_{hj}} + {\beta _{hj}}),\quad{\rm{ }}j{\rm{ }} = {\rm{ }}1, \cdots ,m $$ (2)

    其中,$Z_n \in {\bf{R}}^{N\times np }$, $W_{hj} \in {\bf{R}}^{np\times q }$, $\beta_{hj} \in {\bf{R}}^{1\times q }$. 并且$W_{hj}, \beta_{hj}$以随机的方式生成, 分别代表用于产生第j组特征结点的权重和偏差. Hj表示第j组生成的特征结点. 我们将所有的m组特征结点拼接在一起得到最终的特征结点集合Hm, 其中$H_m=[{{H}}_1,\cdots, {{H}}_m]$.

    在生成增强节点之后, 我们还需要将特征结点和增强结点拼接在一起作为输入层, 经过进一步计算得到输出的结果. 我们设连接输入层与输出层之间的权重为Wnm. 由输入层映射到输出层的过程如式(3)所示.

    $$ Y = \left[ {{{{Z}}^{{n}}},{{{H}}^{{m}}}} \right]W_n^m $$ (3)
    $$ W_n^m = {\left[ {{{{Z}}^{{n}}},{{{H}}^{{m}}}} \right]^ + }Y $$ (4)

    其中,$W_n^m \in {\bf{R}}^{ (np+mq)\times C }$. 我们可以根据式(4)来计算权重$W_n^m.\ [{{Z}}^n,{{H}}^m]$的伪逆$[{{Z}}^n,{{H}}^m]^+$可以通过岭回归算法计算得到.

    1.1.2   应用研究

    自从宽度学习系统被提出来以后, 人们又进一步做了许多相关的研究. 宽度学习系统和深度学习方法相比需要训练的参数较少, 网络结构相对简单, 所需要的的时间开销也相对较小, 能够更好地适应实际应用的需求. 近年来在宽度学习系统的应用研究领域, 人们也取得了许多新的成果.

    Peng等[2]提出将宽度学习网络应用于网络流量分析领域. 他们设计了一种基于雾计算的架构并在树莓派上进行了实验. 实验结果表明采用宽度学习能够在准确识别网络流量数据的情况下进一步提高训练速度. Zhang等[3]将宽度学习方法应用于人脸面部表情识别领域. 他们在拓展Cohn-Kanad (CK+)数据集上进行了实验, 证明了宽度学习方法在面部表情识别领域的有效性. Gao等[4]提出了一种基于事件的目标检测方法. 他们将宽度学习网络应用于提高事件摄像机的在线训练及推理能力, 并设计了一个梯度下降方法来训练相关的网络参数. Liu等[5]将宽度学习方法应用于半监督分类问题领域. 他们设计了一种流形正则化方法来探索潜在的数据分布, 从而协助提高分类准确度. 这种方法适合于样本数据随时间动态更新的应用领域. 与相关方法的对比实验结果表明Liu等提出的方法能够有效提高分类精度, 同时减少学习时间开销和存储空间消耗. Wang等[6]将宽度学习系统应用于脑电图情绪识别领域. 他们将宽度学习系统与图卷积神经网络结合起来, 提出了一种新的脑电信号处理系统, 即宽度动态图学习系统. 实验结果表明该方法能够有效提高情绪识别的准确度. Chu等[7]提出了一种加权宽度学习网络, 用于处理工业过程中的噪声和异常值. 他们对正常样本和异常样本分别赋予不同的权重来调整不同样本对建模的影响. 来自公共数据集和实际应用的实验结果表明这种方法具有较好的泛化性和鲁棒性.

    孪生网络的概念由Bromley等[8]提出, 并被使用于签名验证领域, 用来验证两个签名笔迹是不是同一个人所书写的. 随着人们研究的深入, 孪生网络的应用范围也得到了进一步的拓广. 例如, 人们可以使用孪生网络来比较文本之间的语义相似度, 或者进行视觉跟踪任务. 虽然孪生网络的应用越来越多样化, 但是这些应用的基本思想是一致的. 那就是通过子网络将输入样本的特征信息映射为新的输出向量, 并且通过比较输出向量之间的相似程度来判断输入样本之间的近似程度. 在构建孪生网络的时候, 人们可以使用相同类型的子网络, 也可以根据实际应用的需求使用不同类型的子网络来构建孪生网络. 子网络之间可以共享权重, 也可以根据实际情况采用不同的权重. 这些子网络可以被视为是用于处理输入样本信息的映射模型, 负责将样本特征映射为指定维度的输出向量. 而训练的目标则是希望同类型样本的输出向量差异尽可能小, 不同类型样本的输出向量差异尽可能大. 近年来人们又对孪生网络的方法做了进一步的研究, 例如通过采用新的距离度量方法来比较输出向量之间的相似性, 或者将正负样本与基准样本同时输入来提高识别的效果. 为了更好地介绍孪生网络, 在方法介绍部分, 我们选择了其中一种典型的孪生网络结构来进行介绍.

    1.2.1   方法介绍

    我们选择了Nair等[9]提出的网络结构来进行介绍. 他们将孪生网络应用于人脸验证领域, 为后续人们将孪生网络应用于解决实际问题提供了更多的参考. 同时他们提出的孪生网络结构也具有一定的代表性, 能够反映孪生网络方法的基本思想. 在本节内容中, 我们将孪生网络分为特征提取, 相似度度量, 决策判别三个部分进行介绍.

    在特征提取过程中, 人们需要将输入样本特征映射为指定的输出向量. 这个过程可以视为是一个降维过程, 将相对复杂的样本数据进行简化, 从而有利于后续对样本信息进行进一步处理. 特征提取过程的另一个作用在于抽取有效的样本信息, 通过训练使得输出向量能够更好地反映样本的类别信息, 从而提高最终识别的准确程度. 为了完成特征提取的任务, 人们可以采用卷积神经网络, 长短时记忆网络作为子网络来进行训练. 在原始版本的孪生网络结构中, 人们倾向于使用两个相同类型的网络作为子网络来进行训练. 子网络之间通常共享权重信息, 这样能够使得同一类别的样本生成的输出向量尽可能接近, 而不同类别样本生成的输出向量尽可能有所差异. 当然, 在实际应用中, 人们根据实际情况的需要也可以采用不同类型的网络作为子网络来进行训练. 同时人们也对共享权值的策略进行了研究, 在一些特殊情况下不共享权重, 而是为不同子网络赋予不同的权重, 可以进一步提高算法的性能[10].

    相似度度量用于比较不同样本输出向量之间的相似程度, 从而为最终的决策判别提供依据. 由于输入样本特征已经被转化为指定维度的输出向量, 我们可以根据实际情况的需要采用不同的度量方法来进行衡量, 例如采用欧几里得距离或者余弦距离. 相似度度量的结果也将作为子网络进一步训练的依据, 用于进一步优化网络的结构.

    决策判别则是根据相似度度量的结构生成最后的结论. 我们可以通过设置阈值的方式来对相似度度量的结果来进行划分, 也可以将相似度度量的结果转化为判别概率, 代表判别结果属于某一个类别的概率. 图2展示了一种典型的孪生网络结构, 其中的子网络采用相同的网络结构, 并且共享了权重信息.

    图 2  一种典型的孪生网络结构
    Fig. 2  A typical network structure of Siamese network
    1.2.2   应用研究

    孪生网络在自然语言处理和图像视觉领域都有着广泛的应用, 一些典型的例子列举如下. Baraldi等[11]设计了一种应用于广播视频自动场景分割的深度孪生网络算法. 他们提出了一个新的性能度量方法来进一步提高场景分割的准确程度. 作者同时将视觉与文本数据进行了融合. 与该领域域相关算法的对比实验进一步证明了这种算法的有效性. Melekhov等[12]将孪生网络应用于图像匹配领域. 他们的成果可以被进一步应用于图像检索、三维重建等计算机视觉应用领域. Bertinetto等[13]提出了一种全卷积孪生网络算法用来进行视频目标追踪. 他们将全卷积神经网络用于构建孪生网络. 并且提出了一种新的离线学习策略. 实验结果表明新提出的方法能够有效地提高目标追踪的准确率. Zeghidour等[14]将孪生网络应用于比较说话人和语音之间的相似性. 他们设计了一种联合嵌入架构来提高将说话人身份信息从语音数据中提取出来的准确度. 实验结果表明这种方法在类似的弱监督方法的基础上有了进一步的提高. Neculoiu等[15]研究了如何比较文本内容相似性的问题. 他们采用长短时记忆神经网络来搭建孪生网络. 实验结果表明这种方法能够有效地识别可变长字符串之间的相似性. Rahul 等[16]将孪生网络应用于水下环境的目标追踪问题. 他们考虑了了水下环境光照变化、背景干扰对目标追踪的影响. 有关的实验结果表明作者提出的方法能够更好地克服周围环境的干扰, 进一步提高目标追踪的准确性.

    在本节的内容中, 我们将对本文提出的宽度孪生网络算法进行介绍. 我们展示了算法的设计思路, 并将有关的内容将分为特征映射, 相似度度量和决策判别三个部分展开描述.

    传统的孪生网络算法在训练的时候需要构造成对的相似数据和不相似数据进行训练, 使得相似样本的输出向量尽可能接近, 不相似样本的输出向量差异尽可能明显. 当训练样本规模增大的时候, 所需要构造的相似对和非相似对数据规模也会显著增大. 如式(5)所示, 在完全图中(即任意两个样本之间都用一条边来描述它们之间的相似关系), 样本数量nSam和构造所有相似对信息的时间复杂度T(nSam)之间满足以下关系:

    $$ T\left( {nSam} \right){\rm{ }} = {\rm{ }}nSam\left( {nSam - 1} \right)/2{\rm{ }} = {\rm{ O}}\left( {nSa{m^2}} \right) $$ (5)

    其中, 样本数量nSam和构造所有相似对的时间复杂度T(nSam)之间近似满足平方关系. 由于实际应用中的样本数据通常没有直接标注相似对信息, 因此我们往往在训练之前需要人为先构造相似对信息用于训练. 当样本数量nSam较大的时候, 如果为任意两个样本数据构造相似对信息进行训练, 所需要的时间开销和计算资源开销将会明显增加. 这与边缘计算应用要求降低处理延迟, 并且满足终端设备资源受限情况的要求是不相匹配的. 虽然可以通过采样的方式, 只选取部分样本来构造相似对信息进行训练. 但这种方法在训练的时候会丢失部分样本信息, 从而影响最终训练的效果. 显然, 选择怎样的采样策略进行训练将会影响算法最终的性能表现. 人们需要在面对实际问题的时候额外考虑选取合适的采样策略来进行训练. 为了解决这一问题, 我们提出了一种特征映射策略来进行训练.

    我们首先分析了传统孪生网络方法在训练的时候需要加入相似对信息进行训练的原因. 通常用孪生网络进行训练的时候, 子网络只是提取了样本数据的一些特征用于进一步的处理判断. 这些特征并不直接与类别信息相关. 以面部表情识别为例, 子网络所提取的特征可能只是面部某个器官的相关数据, 需要我们借助相似对信息来辅助调整子网络的有关参数, 使得同类别样本数据提取的特征差异尽可能小, 不同类别样本数据提取的特征差异尽可能明显.

    为了减少对相似对信息的依赖, 使得在没有构造相似对信息的情况下也能够对孪生网络进行训练. 我们提出在映射特征的时候加入类别信息, 通过采用适当的特征映射策略, 使得同一类别样本映射得到的特征尽可能接近, 而不同类别样本映射得到的特征差异尽可能明显.

    例如, 我们可以采用独热(One-hot)编码的方式来构造映射后的输出特征向量. 在独热编码中, 假设样本数据的类别数量为C, 则每一个样本在编码后将会得到一个长度为C的输出向量T, T中的每一位代表样本属于对应类别的概率. 在理想情况下, 我们在训练的时候希望向量T只有一位的数值为1, 代表样本属于对应类别的概率为1; 向量T中其他位置的数值为0, 代表样本属于其他类别的概率为0. 如图3(a)所示, 假设两个样本为T1T2, 它们之间的欧几里得距离为Eu, T1T2的长度为tn, 并且用T1(i)表示T1中的第i个元素$i=1,2,\cdots,tn$. 通过计算我们可以得到, 当两个样本属于同个类别的时候, Eu=0, 当两个样本不属于同个类别的时候, Eu=1, 满足孪生网络希望能类别样本的输出向量之间差异尽可能小, 不同样本输出向量之间差异尽可能大的要求. 如果在相似度度量阶段我们采用其他的度量指标, 例如曼哈顿距离, 我们依然能够得到相似的结论, 我们用Ma来表示两个样本T1T2之间的曼哈顿距离. 有关的说明过程如图3(b)所示.

    图 3  采用独热编码的相似性度量
    Fig. 3  Similarity metrics of one-hot coding

    上述特征映射的过程虽然直观上来看是包含了样本的类别信息, 但其实这些类别信息也是在样本特征向量的基础上经过模型处理才得出的, 因此特征映射的结果也能够在一定程度上反映样本特征信息的特点. 如图4所示, 在图4中, 样本1和样本2的独热编码中数值最高位是不相同的, 但是它们在不同位置上的总体数值分布却有相似的地方, 这说明样本1和样本2的特征分布有相似的地方, 在一定程度上也反映出了样本的特征信息. 在进行相似度计算的时候, 我们不仅仅只比较数值最高位的情况, 还应该考虑其他位置上的数值. 在本文中, 为了简化相似度计算过程以及方便说明, 我们只考虑了映射结果取值最高两位的情况, 具体的相似度计算过程在下一节中将进行计算. 未来我们还可以对上述相似度计算方案做进一步的改进, 例如综合地考虑更多位置上的数值, 以进一步提高分类的准确度. 当然在特征映射的时候, 我们可以对映射的策略做进一步的改进. 例如在独热编码的基础上加入更多的特征信息, 包括与表情相关的人脸活动单元特征, 以进一步丰富输出向量所代表的内容. 一种可能的结合独热编码与额外样本特征信息的混合特征映射方案如图5所示.

    图 4  特征映射结果分析
    Fig. 4  An analysis of feature mapping results
    图 5  一种可能的混合特征映射方案
    Fig. 5  A possible hybrid feature mapping scheme

    图4中, 我们可以为不同位的编码赋予不同的权重, 以进一步提高混合映射编码对样本信息的表达能力. 在本文的实验中, 为了方便进行说明展示, 我们采用了最简明的独热编码方案作为输出向量的映射策略. 我们将在后续的实验研究内容中, 进一步介绍有关的实验结果.

    在对输出向量的映射策略进行介绍之后, 如图6所示, 我们展示了宽度孪生网络的特征映射过程. 我们采用宽度学习系统来构建孪生网络算法中的子网络, 并且采用了共享权重的策略来调整来调整子网络的权重信息. 采用共享权重的策略可以进一步降低训练时所需要的时间和存储空间开销, 从而进一步满足边缘计算应用的需求.

    图 6  宽度孪生网络特征映射过程
    Fig. 6  Feature mapping of broad Siamese network

    图5中, X表示样本特征数据, Y为样本标签. 参数n表示特征结点的组数, p表示每组特征结点有p个结点, e表示增强节点的数量. 在生成特征结点的时候, 由输入样本特征根据随机设定的权重和偏差值进行映射, 得到n组特征结点$Z_1,\cdots, Z_n .$将所有特征结点拼接在一起得到最终的特征结点$Z^n,Z^n=[{{Z}}_1,\cdots,{{Z}}_n]$. 在生成增强结点的时候, 我们将Zn作为一个整体, 同样通过随机设定的权重和偏差值进行映射, 得到增强加点集合H. 我们将特征结点和增强结点拼接在一起作为输入层$[{{Z}}^n,{{H}}]$. 随后我们定义连接输出向量Y和输入层$[{{Z}}^n,{{H}}]$之间的权重矩阵为Wmn, 其中Y采用独热编码方式进行编码. 值得注意的是, 连接输入样本与特征结点之间的系数矩阵是随机设定的. 而连接特征结点和增强结点之间的系数矩阵是正交规范化后生成的随机矩阵. 连接输入层和输出向量之间的只有权重矩阵Wmn, 不设置偏差值. 在训练的时候, 我们可以通过求伪逆的方法来求解Wmn. 已知$Y= [{{Z}}^n,{{H}}^m]W_{mn}$, 可得$W_{mn}=[{{Z}}^n, {{H}}^m]^+{Y}$. 其中, $[{{Z}}^n, {{H}}^m]^+$是输入层$[{{Z}}^n, {{H}}^m]$的伪逆, 可以通过岭回归的方法得到[9].

    在相似度量阶段, 我们需要对特征映射阶段得到的输出向量进行度量, 以进一步得到它们之间的相似程度. 我们首先对输出向量的结构进行分析, 以进一步确定适合的相似度度量方案. 如图7所示, 在独热编码中, 输出向量T中的每一位可以代表样本属于该类别的概率. 在通常情况下, 我们只用取值最高的一位来代表样本的类别信息. 然而如图1所描述, 编码中其他位置上的数值也在一定程度上包含了样本的信息. 在进行相似度计算的时候我们应该适当考虑其他位置上的数值, 以便得到更加准确的结果. 在常用的欧几里得距离公式中, 我们需要考虑每一位的数值对相似度度量结果的影响, 这在一定程度上影响了最终相似度的判定结果. 但这种做法容易受到极端值的影响. 考虑到编码中数值较高的几位往往与样本的关系更加密切, 我们设计了一种新的相似度度量方法. 在这种方法中, 我们只比较输出向量T中取值较高的几位数值来得到最终的相似度度量结果. 我们首先假设需要比较相似度的两个输出向量分别为输出向量T1T2, 并且假设输出向量T1T2中取值最大的位置分别为第M1M2位, 对应位置的取值分别为T1(M1), T2(M2). 如果M1 = M2, 我们规定最终的相似度度量结果

    图 7  一种基于独热编码的相似度度量方案
    Fig. 7  An one-hot based similarity metric
    $$ D{\rm{ }} = \sqrt{\left( {{T_1}\left( {{M_1}} \right){\rm{ }} - {\rm{ }}{T_2}\left( {{M_2}} \right)} \right)^2} $$ (6)

    如果M1 M2, 我们规定

    $$ D{\rm{ }} \!=\! \sqrt{ {\rm{ }}{\left( {{T_1}\left( {{M_1}} \right){\rm{ }} \!-\! {\rm{ }}{T_2}\left( {{M_1}} \right)} \right)^2} \!+\! {\rm{ }}{\left( {{T_1}\left( {{M_2}} \right){\rm{ }} \!-\! {\rm{ }}{T_2}\left( {{M_2}} \right)} \right)^2}} $$ (7)

    得到的D即是输出向量T1T2之间的相似度, 用于决策判别阶段得到最终的判别结果.

    在决策判别阶段, 我们采用设定阈值的方式来得到最终的判别结果. 对于输出向量T1T2之间的相似度D, 我们设定判别阈值为φ. 如果D > φ, 我们认为输出向T1T2对应的样本属于不同的类别. 如果D φ, 我们认为输出向量T1T2对应的样本属于相同的类别. 我们研究了阈值φ的设置对最终判别结果准确度的影响, 并绘制了相应的ROC曲线图像. 有关的实验结果将在实验研究部分进行进一步的说明.

    在本节中, 我们将对有关实验研究的内容进行介绍. 我们将首先介绍实验的总体情况, 随后展示对比实验的结果. 与此同时, 我们也研究了相似性度量指标对宽度孪生网络算法识别准确度的影响. 最后, 我们对实验结果进行了总结分析.

    在本次实验中, 我们采用了CK+、 MNIST等常见分类数据集来进行有关的实验. 有关数据集信息如表1所示. 其中, CK+、 JAFFE数据集是常见的人脸表情分类数据集. MNIST、 USPS是有关于手写体数字识别的数据集. 我们在不同的数据集中采用了不同的参数设置. 宽度孪生网络算法在不同数据集上的参数设置信息如表2所示. 为了证明我们提出的宽度孪生网络算法能够在保证分类准确度的同时降低训练时间, 减少内存等计算资源开销. 我们在对比实验中将宽度孪生网络算法与基于深度学习的孪生网络算法进行了比较, 比较的指标包括了分类准确度, 训练时间和内存开销. 与此同时, 我们也研究了相似度度量指标对宽度孪生网络算法性能的影响. 我们在一台配置了16 GB内存以及Intel i7 1.61 GHz中央处理器的笔记本电脑上进行了上述的实验内容. 最后, 我们对有关的实验内容进行了分析总结.

    表 1  实验数据集信息表
    Table 1  Table of data set for experiments
    数据集样本
    规模
    类别
    数量
    各类别样本数量特征
    维度
    CK+58767(1022, 233, 868, 546, 1331, 547, 1329)14400
    MNIST7000010每个类别近似 7000 样本784
    JAFFE2137(30, 29, 32, 31, 30, 31, 30)14 400
    USPS2000010每个类别 2 000 样本784
    下载: 导出CSV 
    | 显示表格
    表 2  宽度孪生网络参数设置信息
    Table 2  Table of parameters for broad Siamese network
    数据集npe
    CK+8109000
    MNIST1010 500
    JAFFE810 9000
    USPS1010 1500
    下载: 导出CSV 
    | 显示表格

    我们在CK+、 JAFFE、 MNIST、 USPS等分类数据集上进行了对比实验, 比较的指标包括了分类准确度, 训练时间和内存开销. 考虑到在基于深度学习的孪生网络算法中, 随着网络结构复杂度的加深, 算法的训练时间和内存开销会明显增加. 为了更好地证明我们提出的宽度孪生网络算法能够有效地减少训练时间和内存开销, 我们使用结构相对简单的三层全连接神经网络来构建孪生网络, 并进行了有关的对比实验. 这个全连接网络每一层结点个数的设置如表3所示.

    表 3  对比算法中全连接神经网络结点个数设置信息
    Table 3  Table of number about nodes in the fully connected network for comparison
    数据集第一层结点数第二层结点数第三层结点数
    CK+512128512
    MNIST1616 16
    JAFFE1024128 1024
    USPS128128 128
    下载: 导出CSV 
    | 显示表格

    在准确度方面, 我们比较了算法最终得到的准确率(如表4所示), 并绘制比较了算法准确度随阈值变化的曲线(图8)以及受试者工作特征(ROC)曲线(图9). 有关训练时间和内存开销的实验结果如表5表6所示.

    表 4  准确率实验结果
    Table 4  Table of experiment results about accuracy
    数据集宽度孪生网络基于全连接神经网络的孪生网络
    CK+0.97887380.9287094
    MNIST0.97981120.9777414
    JAFFE0.92176870.9206349
    USPS0.95360750.9505025
    下载: 导出CSV 
    | 显示表格
    表 5  训练时间实验结果
    Table 5  Table of experiment results about training time
    数据集宽度孪生网络基于全连接神经网络的孪生网络
    CK+94.140997567.9896214
    MNIST5.6314652 60.0518959
    JAFFE58.4795067 1105.1385579
    USPS3.0834677 29.8392925
    下载: 导出CSV 
    | 显示表格
    表 6  内存开销实验结果
    Table 6  Table of experiment results about memory overhead
    数据集宽度孪生网络基于全连接神经网络的孪生网络
    CK+3.34912116.0307884
    MNIST2.4598732 2.0554810
    JAFFE0.2893066 5.6162262
    USPS1.2569504 0.8804893
    下载: 导出CSV 
    | 显示表格
    图 8  算法准确度随阈值变化的曲线
    Fig. 8  Threshold curves of algorithms
    图 9  受试者工作特征(ROC)曲线
    Fig. 9  Receiver operating characteristic (ROC) curves of algorithms

    为了进一步地探索相似性度量指标对宽度孪生网络算法性能的影响, 我们在接下来的内容中进一步设计了有关的研究实验, 并给出了相应的实验结果.

    在相似性度量指标的有关研究实验中, 我们比较了欧几里得距离、曼哈顿距离等度量指标与本文提出的相似度度量方法对宽度孪生网络性能的影响. 我们按照实验结果绘制了准确率随阈值变化的曲线(如图10所示)以及受试者工作特征曲线(如图11所示).

    图 10  采用不同相似性度量指标宽度孪生网络算法准确度随阈值变化的曲线
    Fig. 10  Threshold curves of broad Siamese network with different similarity metrics
    图 11  采用不同相似性度量指标宽度孪生王洛算法的受试者工作特征(ROC)曲线
    Fig. 11  Receiver operating characteristic (ROC) curves of broad Siamese network with different similarity metrics

    通过观察图10图11中的实验结果, 我们可以看到本文新提出的度量方法与传统的欧几里得距离、曼哈顿距离等度量方法相比, 能够有效地进一步提高宽度孪生网络的分类准确度, 具有进一步应用于解决实际问题的潜力.

    通过前面的实验内容, 我们可以看到宽度孪生网络算法相比于基于传统深度学习方法的孪生网络方法, 能够在保证分类准确度的前提下降低训练时间和内存资源开销, 具有进一步应用于边缘计算应用的潜力. 与此同时, 我们研究了相似性度量指标对宽度孪生网络算法分类准确度的影响, 并且证明了我们提出的相似性度量方法能够进一步提高宽度孪生网络算法的分类准确度, 未来可以再做进一步改进以提高算法的分类准确度. 由于大多数的边缘计算应用要求减少相应延迟, 降低计算资源开销, 我们提出未来可以进一步研究以将基于浅层网络的方法应用于提高边缘计算应用的性能.

    在本文中, 我们提出了一种面向边缘计算应用的宽度孪生网络算法. 我们考虑了边缘计算应用要求降低处理延迟, 满足边缘设备资源受限的情况, 提出可以将宽度学习系统应用于边缘计算应用之中. 为了验证本文观点, 我们将宽度学习系统与孪生网络相结合, 提出了宽度孪生网络算法, 并应用于解决分类问题. 与传统基于深度学习的孪生网络方法相比, 宽度孪生网络算法能够在满足分类准确度要求的情况下, 进一步降低训练时间以及内存资源开销. 这说明借助宽度学习系统能够有效降低处理延迟, 减少计算资源消耗, 从而更好地满足边缘计算应用的要求. 在文章的最后, 我们对未来的研究方向进行了展望. 我们可以进一步改进宽度孪生网络方法, 用于解决更多的实际分类问题, 并应用到边缘计算应用之中. 例如, 自动驾驶车辆上的交通标识识别以及监控视频中的对象追踪应用. 本文算法可以做进一步的改进, 以适应这些应用要求低延迟、低资源开销的特点. 与此同时, 我们也可以进一步探索浅层网络方法如宽度学习系统在边缘计算领域的应用. 借助宽度学习系统等浅层网络方法进一步提高边缘计算应用的性能.

  • 图  1  路口示意图

    Fig.  1  Intersection diagram

    图  2  深度神经网络结构图

    Fig.  2  The structure of DNN

    图  3  有轨电车平均停车次数对比

    Fig.  3  Comparison of tram mean stops

    图  4  平均累积奖励对比

    Fig.  4  Comparison of cumulative reward

    图  5  各直行/右转车道平均停车等待时间对比

    Fig.  5  Comparison of waiting time in direct/right turn lanes

    图  6  各左转车道平均停车等待时间对比

    Fig.  6  Comparison of waiting time in left turn lanes

    图  7  两种深度强化学习模型下有轨电车平均停车次数对比

    Fig.  7  Comparison of tram mean stops under two deep reinforcement learning models

    图  8  两种深度强化学习模型下累积奖励对比

    Fig.  8  Comparison of cumulative reward under two deep reinforcement learning models

    图  9  两种深度强化学习模型下各直行/右转车道平均停车等待时间对比

    Fig.  9  Comparison of waiting time in direct/right turn lanes under two deep reinforcement learning models

    图  10  两种深度强化学习模型下各左转车道平均停车等待时间对比

    Fig.  10  Comparison of waiting time in left turn lanes under two deep reinforcement learning models

    表  1  模型参数

    Table  1  Model parameters

    参数 取值
    $N$ 20 000
    $m$ 32
    $\Delta \varepsilon$ −0.001
    $\gamma$ 0.99
    $\alpha$ 0.001
    下载: 导出CSV
  • [1] Ministry of tranport of China. Statistical bulletin on transportation industry development in 2018. [Online], available: http://xxgk.mot.gov.cn/jigou/zhghs/201904/t20190412_3186720.html, September 5, 2019
    [2] 2 Shi J G, Sun Y S, Schonfeld P, Qi J. Joint optimization of tram timetables and signal timing adjustments at intersections. Transportation Research Part C: Emerging Technologies, 2017, 83(6): 104−119
    [3] 3 Ji Y X, Tang Y, Du Y C, Zhang X. Coordinated optimization of tram trajectories with arterial signal timing resynchronization. Transportation Research Part C: Emerging Technologies, 2019, 99(4): 53−66
    [4] Little J D C, Kelson M D, Gartner N M. Maxband: a program for setting signals on arteries and triangular networks. In: Proceedings of the 60th Annual Meeting of the Transportation Research Board. Washington, USA: Transportation Research Board, 1981. 40−46
    [5] 5 Jeong Y J, Kim Y C. Tram passive signal priority strategy based on the maxband model. KSCE Journal of Civil Engineering, 2014, 18(5): 1518−1527 doi: 10.1007/s12205-014-0159-1
    [6] 6 Ma W, Zou L, An K, Gartner N H, Wang M. A partition-enabled multi-mode band approach to arterial traffic signal optimization. IEEE Transactions on Intelligent Transportation Systems, 2019, 20(1): 313−322 doi: 10.1109/TITS.2018.2815520
    [7] 7 Kim H, Cheng Y, Chang G. Variable signal progression bands for transit vehicles under dwell time uncertainty and traffic queues. IEEE Transactions on Intelligent Transportation Systems, 2019, 20(1): 109−122 doi: 10.1109/TITS.2018.2801567
    [8] 8 Ji Y X, Tang Y, Wang W, Du Y C. Tram-oriented traffic signal timing resynchronization. Journal of Advanced Transportation, 2018, 2018(1): 1−13
    [9] 9 Jacobson J, Sheffi Y. Analytical model of traffic delays under bus signal preemption: theory and application. Transportation Research Part B: Methodological, 1981, 15(2): 127−138 doi: 10.1016/0191-2615(81)90039-4
    [10] 10 Yang M, Ding J, Wang W, Ma Y Y. A coordinated signal priority strategy for modern trams on arterial streets by predicting the tram dwell time. KSCE Journal of Civil Engineering, 2018, 22(2): 823−836 doi: 10.1007/s12205-017-1187-4
    [11] 高阳, 陈世福, 陆鑫. 强化学习研究综述. 自动化学报, 2004, 30(1): 1−15 doi: 10.3969/j.issn.1003-8930.2004.01.001

    11 Gao Yang, Chen Shi-Fu, Lu Xin. Reseacrh on reinforcement learning technology: a review. Acta Automatica Sinica, 2004, 30(1): 1−15 doi: 10.3969/j.issn.1003-8930.2004.01.001
    [12] 12 Bertsekas D P. Feature-based aggregation and deep reinforcement learning: a survey and some new implementations. IEEE/CAA Journal of Automatica Sinica, 2019, 6(1): 1−31
    [13] 13 Samah E T, Abdulhai B, Abdelgawad H. Design of reinforcement learning parameters for seamless application of adaptive traffic signal control. Journal of Intelligent Transportation Systems, 2014, 18(3): 227−245 doi: 10.1080/15472450.2013.810991
    [14] 段艳杰, 吕宜生, 张杰, 赵学亮, 王飞跃. 深度学习在控制领域的研究现状与展望. 自动化学报, 2016, 42(5): 643−654

    14 Duan Yan-Jie, Lv Yi-Sheng, Zhang Jie, Zhao Xue-Liang, Wang Fei-Yue. Deep learning for control: the state of the art and prospects. Acta Automatica Sinica, 2016, 42(5): 643−654
    [15] 15 Li L, Lv Y, Wang F-Y. Traffic signal timing via deep reinforcement learning. IEEE/CAA Journal of Automatica Sinica, 2016, 3(3): 247−254
    [16] 16 Liang X, Du X, Wang G, Han Z. A deep reinforcement learning network for traffic light cycle control. IEEE Transactions on Vehicular Technology, 2019, 68(2): 1243−1253 doi: 10.1109/TVT.2018.2890726
    [17] 17 Ling K, Shalaby A. Automated transit headway control via adaptive signal priority. Journal of Advanced Transportation, 2004, 38(4): 45−67
    [18] 舒波, 李大铭, 赵新良. 基于强化学习算法的公交信号优先策略. 东北大学学报(自然科学版), 2012, 33(10): 1513−1516 doi: 10.12068/j.issn.1005-3026.2012.10.035

    18 Shu Bo, Li Da-Ming, Zhao Xin-Liang. Transit signal priority strategy based on reinforcement learning algorithm. Journal of Northeastern University (Natural Science), 2012, 33(10): 1513−1516 doi: 10.12068/j.issn.1005-3026.2012.10.035
    [19] 梁星星, 冯旸赫, 马扬, 程光权, 黄金才, 王琦等. 多agent深度强化学习综述. 自动化学报, 2019. DOI: 10.16383/j.aas.c180372

    Liang Xing-Xing, Feng Yang-He, Ma Yang, Cheng Guang-Quan, Huang Jin-Cai, Wang Qi, et al. Deep multi-agent reinforcement learning: a survey. Acta Automatica Sinica, 2019. DOI: 10.16383/j.aas.c180372
    [20] 赵英男, 刘鹏, 赵巍, 唐降龙. 深度q学习的二次主动采样方法. 自动化学报, 2019, 45(10): 1870−1882 doi: 10.3969/j.issn.1003-8930.2019.01.001

    20 Zhao Ying-Nan, Liu Peng, Zhao Wei, Tang Xiang-Long. Twice sampling method in deep Q-network. Acta Automatica Sinica, 2019, 45(10): 1870−1882 doi: 10.3969/j.issn.1003-8930.2019.01.001
    [21] Wang Z Y, Schaul T, Hessel M, Hasselt H, Lanctot M, Freitas N. Dueling network architectures for deep reinforcement learning. In: Proceedings of the 33rd International Conference on Machine Learning. New York, USA: PMLR, 2016. 1995−2003
    [22] Hasselt H V, Guez A, Silver D. Deep reinforcement learning with double Q-learning. In: Proceedings of the 30th AAAI Conference on Artificial Intelligence, Phoenix, USA: MIT, 2015. 2094−2100
    [23] Schaul T, Quan J, Antonoglou I, Silver D. Prioritized experience replay. In: Proceedings of the 2016 International Conference on Learning Representations 2016, San Juan, Puerto Rico: arXiv, 2016. 1−21
    [24] Lopez P A, Behrisch M, Walz L B, Erdmann J, Flotterod Y, Hilbrich R, et al. Microscopic traffic simulation using sumo. In: Proceedings of the 21st IEEE International Conference on Intelligent Transportation Systems. Hawaii, USA: IEEE, 2018. 2575−2582
    [25] 25 Islam M T, Tiwana J, Bhowmick A, Qiu T Z. Design of LRT signal priority to improve arterial traffic mobility. Journal of Transportation Engineering, 2016, 142(9): 04016034 doi: 10.1061/(ASCE)TE.1943-5436.0000831
  • 期刊类型引用(16)

    1. 叶宝林,陈栋,刘春元,陈滨,吴维敏. 基于Dueling Double DQN的交通信号控制方法. 计算机测量与控制. 2024(07): 154-161 . 百度学术
    2. 王君逸,王志,李华雄,陈春林. 基于自适应噪声的最大熵进化强化学习方法. 自动化学报. 2023(01): 54-66 . 本站查看
    3. 陶鑫钰,王艳,纪志成. 基于深度强化学习的节能工艺路线发现方法. 智能系统学报. 2023(01): 23-35 . 百度学术
    4. 曾斌,樊旭,李厚朴. 支持重规划的战时保障动态调度研究. 自动化学报. 2023(07): 1519-1529 . 本站查看
    5. 刘宇,张聪,李涛. 强化学习A3C算法在电梯调度中的建模及应用. 计算机工程与设计. 2022(01): 196-202 . 百度学术
    6. 贺俊杰,张洁,张朋,汪俊亮,郑鹏,王明. 基于长短期记忆近端策略优化强化学习的等效并行机在线调度方法. 中国机械工程. 2022(03): 329-338 . 百度学术
    7. 徐建闽,周湘鹏,首艳芳. 基于深度强化学习的自适应交通信号控制研究. 重庆交通大学学报(自然科学版). 2022(08): 24-29 . 百度学术
    8. 殷耀文. 深度强化学习在物联网边缘计算中的应用研究. 信息技术. 2021(01): 121-125 . 百度学术
    9. 郑忠斌,宋青青,熊增薪. 基于雾计算的NB-IoT资源优化模型及仿真. 粘接. 2021(04): 87-90+95 . 百度学术
    10. 尚春琳,刘小明,田玉林,董路熙. 基于深度强化学习的综合干线协调控制方法. 交通运输系统工程与信息. 2021(03): 64-70 . 百度学术
    11. 吴晓光,刘绍维,杨磊,邓文强,贾哲恒. 基于深度强化学习的双足机器人斜坡步态控制方法. 自动化学报. 2021(08): 1976-1987 . 本站查看
    12. 陈满,李茂军,李宜伟,赖志强. 基于深度强化学习和人工势场法的移动机器人导航. 云南大学学报(自然科学版). 2021(06): 1125-1133 . 百度学术
    13. 刘翔,李艾,成卫. 基于深度强化学习的多应急车辆信号优先控制. 武汉理工大学学报(交通科学与工程版). 2021(06): 1056-1061 . 百度学术
    14. 王鹏勇,陈龚涛,赵江烁. 基于深度强化学习的机场出租车司机决策方法. 计算机与现代化. 2020(08): 94-99+104 . 百度学术
    15. 孙长银,穆朝絮. 多智能体深度强化学习的若干关键科学问题. 自动化学报. 2020(07): 1301-1312 . 本站查看
    16. 南英,蒋亮. 基于深度强化学习的弹道导弹中段突防控制. 指挥信息系统与技术. 2020(04): 1-9+27 . 百度学术

    其他类型引用(22)

  • 加载中
图(10) / 表(1)
计量
  • 文章访问数:  3122
  • HTML全文浏览量:  979
  • PDF下载量:  502
  • 被引次数: 38
出版历程
  • 收稿日期:  2019-03-15
  • 录用日期:  2019-09-02
  • 刊出日期:  2019-12-01

目录

/

返回文章
返回