2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于深度强化学习的有轨电车信号优先控制

王云鹏 郭戈

付雅婷, 原俊荣, 李中奇, 杨辉. 基于钩缓约束的重载列车驾驶过程优化. 自动化学报, 2019, 45(12): 2355−2365 doi: 10.16383/j.aas.c190223
引用本文: 王云鹏, 郭戈. 基于深度强化学习的有轨电车信号优先控制. 自动化学报, 2019, 45(12): 2366−2377 doi: 10.16383/j.aas.c190164
Fu Ya-Ting, Yuan Jun-Rong, Li Zhong-Qi, Yang Hui. Optimization of heavy haul train operation process based on coupler constraints. Acta Automatica Sinica, 2019, 45(12): 2355−2365 doi: 10.16383/j.aas.c190223
Citation: Wang Yun-Peng, Guo Ge. Signal priority control for trams using deep reinforcement learning. Acta Automatica Sinica, 2019, 45(12): 2366−2377 doi: 10.16383/j.aas.c190164

基于深度强化学习的有轨电车信号优先控制

doi: 10.16383/j.aas.c190164
基金项目: 国家自然科学基金(61573077, U1808205)资助
详细信息
    作者简介:

    王云鹏:大连理工大学控制理论与控制工程专业博士研究生. 主要研究方向为智能车路协同系统. E-mail: yunpengwang0306@163.com

    郭戈:东北大学教授. 1998年获得东北大学控制理论与控制工程专业博士学位. 主要研究方向为智能交通系统, 运动目标检测跟踪网络. 本文通信作者. E-mail: geguo@yeah.net

Signal Priority Control for Trams Using Deep Reinforcement Learning

Funds: Supported by National Natural Science Foundation of China (61573077, U1808205)
  • 摘要: 现有的有轨电车信号优先控制系统存在诸多问题, 如无法适应实时交通变化、优化求解较为复杂等. 本文提出了一种基于深度强化学习的有轨电车信号优先控制策略. 不依赖于交叉口复杂交通建模, 采用实时交通信息作为输入, 在有轨电车整个通行过程中连续动态调整交通信号. 协同考虑有轨电车与社会车辆的通行需求, 在尽量保证有轨电车无需停车的同时, 降低社会车辆的通行延误. 采用深度Q网络算法进行问题求解, 并利用竞争架构、双Q网络和加权样本池改善学习性能. 基于SUMO的实验表明, 该模型能够有效地协同提高有轨电车与社会车辆的通行效率.
  • 重载列车是采用单机或多机牵引开行的一种轴重大、运量大(高于 8 000 吨甚至几万吨)、编组超 长(上百乃至几百节车厢)的货运列车. 重载铁路以其运量大、速度快、能耗小、成本低、全天候的优势, 在一些煤炭和矿石等大型原材料货物运量较多的国家, 如美国、巴西、澳大利亚、南非等发展迅速, 目前已被国际公认为铁路货运发展的方向, 成为世界铁路发展的重要方向之一[1-2]. 然而随着牵引重量的不断增加, 现有的人工操纵模式问题逐渐凸显, 车辆断钩、脱轨等现象时有发生; 列车经常无法按照运行图正点运行; 对电能的需求非常庞大等, 这些问题都严重制约着重载铁路运输的发展[3-5]. 为了解决这些问题, 重载列车的自动驾驶成为重载铁路的发展趋势. 列车的自动驾驶需要解决的核心问题是优化设定理想的运行速度目标曲线, 并设计相应的跟踪控制器对列车运行过程进行优化控制, 实现重载列车安全、正点、节能运行[6].

    针对列车运行过程优化问题, 从上世纪60年代众多学者就开始研究. Erofeyev[7]最早开始以动态规划法优化列车在平直道运行的速度曲线, Howlett等[8-9]将列车运行优化问题转化成工况变换点优化问题, 研究了列车在平直道与坡道上节能运行时的工况转换点, 建立了节能驾驶模型. Wang等[10-11]将目标曲线优化问题描述成一个多相位的最优控制模型, 并采用伪谱法进行求解, 以正点、节能为设计目标, 优化获得一条满足约束条件的目标曲线, Scown等[12]对货物列车在起伏线路上列车的运行状态进行了研究, 并根据研究结果进行了驾驶策略的动态研究. Zhang等[13]以优化空电联合制动重载列车的运行为目标, 考虑列车安全、速率和节能因素, 建立并优化了列车多质点模型, 提出了长远距离运输的预测控制模型. 陈荣武等[14]以降低能耗为目标, 对列车在区间的运行控制进行优化组合, 提出了基于遗传算法的能耗优化算法. 上述研究从诸多角度研究了重载列车的运行优化控制, 但列车运行的安全性均只考虑了速度的限制, 没有研究车钩缓冲装置是否超过受力限制. 车钩缓冲装置作为传递和缓和列车运行过程中或在调车时所产生的纵向力和冲击力的装置, 在列车的运行过程中发挥着极其重要的作用[15-16], 车钩力超限易造成断钩脱轨等安全事故, 无法保障列车运行安全. 同时已有研究也没有结合实际运行线路中存在的分相点问题, 其获得的列车运行速度目标曲线对于列车的实际运行缺少指导性.

    本文针对上述问题, 研究重载列车钩缓装置特性并构建列车纵向动力学模型; 考虑钩缓约束和实际操作等限制, 基于重载列车实际运行线路条件, 采用多目标自适应遗传算法研究运行最优工况序列, 优化获得列车理想运行速度目标曲线. 并据此设计相应的重载列车运行跟踪控制策略, 保障列车跟踪理想速度目标曲线安全、正点、节能运行.

    重载列车多质点纵向动力学建模是针对列车由多个车厢链接的特点, 将每一节车辆都看作是一个刚性质点, 整列列车视为由钩缓装置将多个质点链接而成的“质点链”来研究分析, 其每节车辆在运行过程受到前后车辆的车钩力, 基本阻力, 附加阻力等多种力的作用, 如图1所示.

    图 1  重载列车纵向动力学模型
    Fig. 1  Longitudinal dynamic model of heavy haul train

    以第$ i $节车辆为例, 其纵向动力学受力方程可以写为

    $ {m_i}{\ddot x_i} = {F_T} + {F_{CL}} - {F_{CR}} - {F_D} - {F_W} - {F_{Wc}} - {F_{Wr}} $

    (1)

    其中, $ m_i $为车辆的质量; $ {\ddot x_i} $为车辆的加速度; $ {F_T} $为牵引力, $ {F_D} $为制动力; $ {F_{CL}} $为前车钩力; $ {F_{CR}} $为后车钩力; $ {F_W} $为车辆运行基本阻力; $ {F_{Wc}} $为曲线阻力; $ {F_{Wr}} $为坡道阻力.

    车钩缓冲器连接着相邻的列车车辆, 是列车的重要组成部分, 起到传递并缓和纵向力的作用, 钩缓结构建模的准确程度对于列车纵向动力学的仿真结果有着决定性的作用.

    缓冲器在不同工况下有着不同的特性曲线, 各种工况下的车钩缓冲器模型无法精确获得. 在动力学仿真中常用缓冲器落锤与冲车实验所得特性曲线来进行计算. 将试验过程中所采集的同一时刻缓冲器的位移与车钩力的数值绘制在一张图表上, 即得到钩缓装置的特性曲线如图2所示.

    图 2  弹性胶泥缓冲器特性曲线
    Fig. 2  Elastic clay buffer characteristic curves

    利用特性曲线, 同时通过研究QKX100缓冲器的结构特性, 发现QKX100缓冲器的车钩力计算不仅与缓冲器的位移有关, 还受到缓冲器的切换速度的影响, 因此车钩力可以描述为

    $ \begin{split} & {F_C} \! = \! \left\{ {\begin{aligned} & {{f_u},\qquad\qquad\quad\;{\rm{(}}\Delta x \times \Delta v \ge 0) \cap (\left| {\Delta v} \right| \ge {v_e}{\rm{)}}}\\ & {{f_3}+({f_u}-{f_3}) \frac{{\Delta v}}{{{v_e}}}{\rm sign}(\Delta v),\quad -{v_e}< \Delta v< {v_e}}\\ & {{f_l},\qquad\quad\qquad\;\;{\rm{(}}\Delta x \times \Delta v < 0) \cap (\left| {\Delta v} \right| \ge {v_e}{\rm{)}}} \end{aligned}} \right. \\ & {f_3} = \frac{{f_u} + {f_l}}{2} \end{split} $

    (2)

    其中, $ {F_C} $为车钩力; $ {f_u} $为加载时缓冲器的阻抗力; $ {f_l} $为卸载时缓冲器的阻抗力; $ {f_3} $为缓冲器阻抗力的均值; $ \Delta v $为相邻两车的速度之差; $ \Delta x $为相邻两车的运行距离之差; $ {v_e} $为缓冲器转换速度.

    列车的运行状态由其运行的加速度、速度以及所处的路况决定. 建立好列车纵向动力学方程, 通过对非线性动力学方程的进行数值积分求解, 可以求得列车的加速度、速度、位移等状态量. 本文采用数值积分翟方法对每节车辆的状态量进行迭代求解, 构建纵向动力学模型, 其流程如图3所示.

    图 3  重载列车多质点模型运行计算流程图
    Fig. 3  Flow charts of multi-particle model operation calculation for heavy haul train

    每个质点的翟方法积分格式可表示为[17]

    $ \left\{\!\!\begin{aligned} & {X_n \!+\! 1} = {X_n} \!+\! {V_n}\Delta t + \!\left(\! { \frac{1}{2}+\psi} \!\!\right)\!{A_n}\Delta {t^2} - \psi {A_{n -1}}\Delta {t^2}\\ & {V_{n + 1}} = {V_n} + \left( {1 + \varphi } \right){A_n}\Delta t - \varphi {A_{n - 1}}\Delta t \end{aligned} \right. $

    (3)

    其中, $ {X_{n+ 1}} $为车辆下一时刻位移量, $ {X_n} $为车辆当前时刻位移量, $ {V_{n + 1}} $为车辆下一时刻速度量, $ {V_n} $为车辆当前时刻速度量, $ {A_n} $为车辆当前时刻加速度量, $ {A_{n - 1}} $为车辆上一时刻加速度量, $ \Delta t $为时间积分步长; 下标 $ n - 1 $, $ n $, $ n + 1 $分别代表上一步 $ t = \left( {n - 1} \right)\Delta t $时刻、当前步 $ t = n\Delta t $时刻、下一步 $ t = \left( {n + 1} \right)\Delta t $ 时刻; $ \psi $$ \varphi $ 是控制积分方法特性的独立参数, 本文取其为0.5.

    在大秦线运行列车平稳操纵难度很大, 运行过程较为复杂, 多工况间的转换也较为频繁. 频繁的工况转化, 既增加了列车运行的能量消耗, 且对列车运行的平稳与安全性有较大影响.

    重载列车的运行操纵是一个多目标、有约束、非线性的复杂时变控制过程, 重载列车在运行过程中主要存在车钩断钩、列车运行时间与列车运行图不一致, 列车运行过程中牵引/制动工况之间频繁转换引起的能量消耗较多等问题, 对于重载列车运行速度曲线的优化也主要从以上几个问题展开, 其优化目标主要为安全、正点与节能.

    列车的安全运行评价指标主要是由列车的运行速度与车钩力值来评价, 列车的运行速度应小于线路限速. 重载列车运行过程中的车钩力分为拉钩力与压钩力两种, 当前车的速度大于后车的速度, 缓冲器处于拉伸状态, 此时两车之间就存在拉钩力; 当前车的速度小于后车的速度, 缓冲器处于压缩状态, 此时两车之间就存在压钩力. 列车运行过程中的车钩力值应小于铁道科学研究院建议值: 最大车钩力$ \le$1 000 kN (列车正常运行工况), 最大车钩力$\le $2 250 kN (列车紧急制动工况). 列车的安全运行评价模型为

    $ {F_{{{\rm NUM}}}} = \displaystyle\sum\limits_{i = 1}^m(\beta i);\;{\beta i}=\left\{\begin{aligned}&1,\qquad {\frac{F{i_{\rm {coupler}}}}{{{F_{\rm {UMAX}}}}}} > \gamma \\&0,\qquad{\frac{F{i_{\rm {coupler}}}}{{{F_{\rm {UMAX}}}}}} \le \gamma \end{aligned}\right. $

    (4)

    $ {\bar F_{{\rm{NUM}}}} = \frac{{\displaystyle\sum\limits_{j = 1}^N {{F_{{\rm{NUM}}}}_j} }}{N} \hspace{125pt} $

    (5)

    $ {\bar F_{{\rm{ MAX}}}} = \frac{{\displaystyle\sum\limits_{j = 1}^N {{F_{{\rm{MAX}}}}_j} }}{N} \hspace{125pt}$

    (6)

    $ {\bar F_{{\rm{MIN}}}} = \frac{{\displaystyle\sum\limits_{j = 1}^N {{F_{{\rm{MIN}}}}_j} }}{N} \hspace{130pt}$

    (7)

    $ {f_s} = {k_1}\times\left(\frac{{{F_{{\rm{MAX}}}}}}{{{{\bar F}_{{\rm{MAX}}}}}}\right) + {k_2}\times\left(\frac{{{F_{{\rm{MIN}}}}}}{{{{\bar F}_{{\rm{MIN}}}}}}\right) + {k_3}\times\left(\frac{{{F_{{\rm{NUM}}}}}}{{{{\bar F}_{{\rm{NUM}}}}}}\right) $

    (8)

    其中, $ F{i_{\rm coupler}} $为列车第$ i $ 时刻运行的车钩力值, $ {F_{\rm UMAX}} $为列车运行时车钩力额定最大值, $ \gamma $为比例系数, 取值范围为0.75$\sim $1; 列车第j次运行过程中一共有m个时刻, 若第$i $时刻$Fi_{\rm{coupler}} $$Fi_{\rm{UMAX}} $的比值大于$ \gamma $, 则第$i $时刻$\beta_i $值为1, 否则值为0. $ {F_{{\rm{NUM}}}} $为列车第$ j $次运行过程中车钩力值大于车钩力额定最大值$ \gamma $系数的次数, $ {F_{{\rm{MAX}}}} $为列车第$ j $次运行过程中出现的最大拉钩力值, $ {F_{{\rm{MIN}}}} $为列车第$ j $次运行过程中出现的最大压钩力值的绝对值, $ {\bar F_{{\rm{MAX}}}} $为种群中列车运行最大拉钩力的平均值, $ {\bar F_{{\rm{MIN}}}} $为种群中列车运行最大压钩力的平均值, $ {\bar F_{{\rm{NUM}}}} $为种群中列车运行过程中车钩力值较大次数的平均值, $ N $为种群规模, $ {k_1},\;{k_2},\;{k_3} $是权重系数, 满足$ {k_1} + {k_2} + {k_3} = 1 $.

    列车的节能运行评价指标要求列车在安全运行、正点的情况下, 以能耗最少或较少的操纵方法运行. 参照《列车牵引计算规程》, 建立列车的节能运行评价模型为[16]

    $ {Q} = {Q_y} + {Q_0} $

    (9)

    其中, 牵引运行耗电量 按式 (10) 计算

    $ {Q_y} = \frac{{{U_w}\displaystyle\sum {({I_p} \times {t_y})} }}{{60}} $

    (10)

    惰行、制动及停站耗电量 按式 (11) 计算

    $ {Q_0} = \frac{{{U_w}\displaystyle\sum {({I_{p0}} \times {t_0})} }}{{60}} $

    (11)

    其中, $ {U_w} $为机车受电弓处网压, $ {t_y} $为机车牵引运行时间, $ {t_0} $为机车惰行、空气制动及停站时间, $ {I_p} $为机车牵引用电有功电流, $ {I_{p0}} $为机车惰行、制动及停站时用电有功电流.

    列车的正点运行评价指标是指列车的运行时间与列车运行图规定的时间之差, 在一定范围内越小越好. 列车的正点运行评价模型为

    $ T = \sum\limits_{i = 1}^n {{T_i}} - {T_U} $

    (12)

    其中, $ {T_U} $为列车运行图的规定时间, $ {T_i} $为列车每个区间的运行时间, 一共有$ n $个区间.

    在列车的运行过程中, 列车的安全优化目标要求列车运行速度小于线路限制速度, 同时要求列车运行过程中工况变化少, 保证列车的车钩力处于较稳定状态; 列车的正点优化目标则是要求列车的运行时间与列车运行图规定的时间保存一致, 在此情况下, 列车运行过程中可能会出现较为频繁的工况变化; 列车的节能优化目标则是要求列车运行过程中工况变化少, 较少的使用牵引与制动工况, 让列车多处于惰行状态运行. 在这三个优化目标中, 正点与安全, 正点与节能之间均存在一定的冲突, 难以保证这些目标同时达到最优实现.

    根据以上分析, 考虑安全、正点与节能对列车运行过程重要性的占比, 设计列车多目标优化模型为

    $ f = {w_1}\times{f_s} + {w_2}\times\frac{{{Q_{\rm{j}}}}}{{\bar Q}} + {w_3}\times\frac{{{T_j}}}{{\bar T}} $

    (13)

    其中, $ \bar Q = {{\displaystyle\sum\nolimits_{j = 1}^N {{Q_j}} }}\Bigr/{N} $, $ \bar T = {{\displaystyle\sum\nolimits_{j = 1}^N {{T_j}} }}\Bigr/{N} $, $ N $为种群规模, $ {w_1}, {w_2}, {w_3} $是权重系数, 满足${w_1} + {w_2} + {w_3} = $$ 1 $, 安全权值系数$ {w_1} $取值0.5, 正点权值系数$ {w_2} $取值0.3, 节能权值系数$ {w_{\rm{3}}} $取值0.2.

    遗传算法实质上是一种搜索寻优算法, 在种群中进行大规模进化寻优. 它是从某一问题随机产生的可能解中, 随机地选取一定数量的种群, 借助于自然遗传学的选择、交叉和变异等, 逐渐迭代产生出越来越好的近似解. 在每一次迭代中, 根据个体的适应度的大小, 自适应地调整遗传算法的选择、交叉和变异参数, 保留最优解淘汰最差解, 最终产生出最优解[18-19].

    列车运行过程的多目标自适应遗传算法计算流程图如图4 所示, 具体步骤如下:

    图 4  多目标自适应遗传算法计算流程图
    Fig. 4  Computational flow chart of multi-objective adaptive genetic algorithms

    1)定义列车运行速度曲线的编码与染色体, 将列车的运行线路按照线路坡道变化, 分为N个区间, 这N个区间就是列车运行速度曲线的N个染色体. 每个染色体中都有牵引、惰行与制动等几种工况可以选择, 同时每次染色体每次只对应一种工况, 这N个染色体对应的N个工况共同组成了列车运行速度曲线的编码; 根据列车运行优化模型定义适应度函数.

    2)随机生成 $ N $个满足目标适应度函数的初始种群.

    3)将初始种群代入目标函数中, 根据适应度函数计算当前群体中各个种群的适应度.

    4)按照遗传策略, 运用选择、交叉和变异算子作用于群体, 形成下一代种群.

    a)选择运算: 对初始群体执行选择操作, 优良的个体被大量复制, 劣质的个体少量复制甚至将其淘汰;

    b)交叉运算: 种群中的两个个体以一定的概率随机的在某些基因位中进行基因交换;

    c)变异运算: 某一染色体上的基因一定的概率随机地进行突变.

    5) 不断地寻优进化, 根据每一次迭代中所有个体的适应度的大小, 自适应地调整交叉和变异参数, 自适应调整公式如式(14)和式(15), 最终得到目标函数中适应度最高的一个个体, 将其作为问题的最优解或满意解并输出, 终止计算.

    $ {p_c} = \left\{ {\begin{aligned} & { \frac{{{k_1}({f_{\max }} - f')}}{{{f_{\max }} - {f_{\min }}}}, \quad\; f' \ge {f_{{\rm{avg}}}}}\\ & {{k_2}, \quad\quad\quad\quad\quad\;\;\;\; f' < {f_{{\rm{avg}}}}} \end{aligned}} \right. $

    (14)

    $ {p_m} = \left\{ {\begin{aligned} & { \frac{{{k_3}({f_{\max }} - f)}}{{{f_{\max }} - {f_{{\rm{avg}}}}}}, \quad f \ge {f_{{\rm{avg}}}}}\\ & {{k_4}, \quad\quad\quad\quad\quad\;\; f < {f_{{\rm{avg}}}}} \end{aligned}} \right. $

    (15)

    其中, $ {f_{\max }} $为群体中最大的适应值, $ {f_{{\rm{avg}}}} $为每代群体的平均适应值, $ {f'} $为要交叉的两个个体中较大的适应值, $ f $为要变异个体的适应值, $ {k_1} $, $ {k_2} $, $ {k_3} $$ {k_4} $为区间(0, 1)中某个值.

    广义预测控制算法具有良好的控制性能, 但由于其引入丢番图方程, 加大了求解计算量, 本文建立的纵向动力学模型每一个时刻点需要计算所有车厢所受的各项阻力, 一定程度上增加了计算量, 为加快求解速度, 本文采用一种改进的广义预测控制算法[20-22], 既具有广义预测控制的基本特征和优点, 又舍弃了丢番图方程, 提高了计算速度. 本文基于上述建立的纵向动力学模型, 采用改进预测控制算法设计运行速度跟踪控制器, 控制重载列车跟踪获得的理想运行速度目标曲线安全、正点、节能运行.

    列车纵向动力学模型可描述为受控自回归积分滑动平均过程模型(Controlled autoregressive integral moving average model, CARIMA)形式

    $ a\left( {{z^{ - 1}}} \right)y\left( t \right) = {z^{ - d}}b\left( {{z^{ - 1}}} \right)u\left( t \right) + c\left( {{z^{ - 1}}} \right)\xi \left( t \right) $

    (16)

    式中,

    $ \left\{ \begin{aligned} & a\left( {{z^{ - 1}}} \right) = 1+{a_{1, 1}}{z^{ - 1}}+{a_{1, 2}}{z^{ - 2}}+\cdots + {a_{1, {n_a}}}{z^{ - {n_a}}}\\ & b\left( {{z^{ - 1}}} \right) = {b_{1, 0}} + {b_{1, 1}}{z^{ - 1}} + {b_{1, 2}}{z^{ - 2}} + \cdots+\\ & \quad\quad\quad\;\;\;\;\; {b_{1, {n_b}}}{z^{ - {n_b}}}, \; {b_{1, 0}} \ne 0\\ & c\left( {{z^{ - 1}}} \right) = 1 \end{aligned} \right. $

    其中, $ y( \cdot ) $, $ u( \cdot ) $$ \xi \left( \cdot \right) $分别为模型输出、模型输入和白噪声, $ {\rm{ }}d = 1 $为时滞系数. $ {n_a}, {\rm{ }}{n_b} $分别为模型输出、输入的阶次.

    为了得到控制律, 构造以下性能指标函数

    $ J = {\rm E}\left\{ {{{\left( {{{Y}} - {{Y}}_r} \right)}^{\rm T}}\left( {{{Y}} - {{Y}}_r} \right) + {{\Delta}} {{{U}}^{\rm T}}{R}{{\Delta}} {{U}}} \right\} $

    (17)

    式中,

    $ \begin{aligned}& {{Y}} = {\left[ {y\left( {t+d\left| t \right. } \right), y\left( {t+d + 1\left| t \right. } \right), \cdots, y\left( {t+N\left| t \right. } \right)} \right]^{\rm T}}\\ & {{\Delta}} {{U}} = {\left[ {\Delta u\left( t \right), \Delta u\left( {t + 1} \right), \cdots, \Delta u\left( {t + N - d} \right)} \right]^{\rm T}} \end{aligned} $

    其中, $ {{Y}} _r$为预测输出, 本文通过理想目标曲线获得; $ N $为预测长度; $ R $为控制加权矩阵, $ \Delta = 1 - {z^{ - 1}} $.

    定义$ {y_m}\left( {t + j|t} \right) $$ t $时刻预测 $ {t + j} $时刻的输出, 有

    $ \begin{split} {y_m}(t + j) =\! & \sum\limits_{i = 1}^{{n_a}} {{a_{j, i}}} y\left( {t+1-i} \right)+\!\!\sum\limits_{i = 0}^{{n_b}} {{b_{j, i}}} u\left( {t-d-i} \right) +\!\\ & \sum\limits_{i = 0}^{j - 1} {{b_{j - i, 0}}} u\left( {t - d + i\left| k \right. } \right)+\xi \left( t \right)\end{split} $

    (18)

    由式 (18) 可知, $ {y_m}\left( {t + j} \right) $完全由过去已知的输入和输出量确定, 递推式(18)可获得

    $ \begin{split} &y(t + j\left| t \right. ) = \\ &\quad \left\{ \begin{aligned} & {y_m}\left( {t + j} \right), \quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\;\; j< d+1\\ & {y_m}\left( {t + j} \right)+\sum\limits_{i = 0}^{j - 1} {{b_{j - i, 0}}\Delta } u\left( {t - d + i} \right), \; j\ge d+1 \end{aligned} \right. \end{split} $

    (19)

    从而

    $ {{Y}} = {{Y}}_m + {G}{{\Delta}}{{ U}} $

    (20)

    式中,

    $ {{Y}}_m= {\left[ {{y_m}(k+d), {y_m}(k+d+1), \cdots, {y_m}(k+N)} \right]^{\rm T}} $

    $ {G}\! = \!{\left[ \! {\begin{array}{*{20}{c}} \!{{b_{1, 0}}}\!& \! 0 \!& \!\cdots \!& \!0\\ \!{{b_{2, 0}}}\!& \!{{b_{1, 0}}} \!& \!\cdots \!& \! 0\\ \vdots \!& \!\vdots \!& \!{\ddots} \!& \!\vdots \\ \!{{b_{N - d + 1, 0}}}\!& \!{{b_{N - d, 0}}} \!& \! \cdots \!& \!{{b_{1, 0}}} \end{array}} \!\right]_{(N-d+1) \times (N-d+1)}} $

    (21)

    矩阵中的元素$ {b_{j, 0}} $由下式递推获得

    $ {b_{j, 0}} = {b_{1, j - 1}} + \sum\limits_{i = 1}^{{j_1}} {{a_{1, i}}} {b_{j - i, 0}}, \;j= 2, 3, \cdots, N-d+1 $

    (22)

    式中, 当$ j> {n_b}+1 $时, $ {j_1} = \min \left\{ {j - 1, {n_a}} \right\} $; $ {b_{1, j - 1}} = $$ 0 $.

    将式(20)代入性能指标函数(17), 对性能指标函数进行极小化处理, 可得系统的最优控制增量为

    ${\Delta}{{{U}}} = {\left( {{{G}^{\rm T}}{G} + {R}} \right)^{ - 1}}{{G}^{\rm T}}\left( {{{Y}}_r - {{Y}}}_m \right) $

    (23)

    从而获得当前$ t $时刻的最优控制律

    $ \begin{split} u\left( t \right) = \;& u\left( {t - 1} \right) + \Delta u\left( t \right)=u\left( {t-1} \right) +\\ & [1, 0, \cdots, 0]{\left( {{{G}^{\rm T}}{G}+{R}} \right)^{-1}}{{G}^{\rm T}}\left({{{Y}}_r-{{Y}}}_m\right) \end{split} $

    (24)

    为了验证本文所提出的钩缓建模, 理想速度目标曲线优化和跟踪控制方法的有效性, 选用大秦线上HXD1型万吨重载列车为实验验证对象. 首先, 采集该重载列车在大秦线上的湖东二场 — 阳原的所有线路、限速和过分相等数据, 该区段部分线路数据如图5所示, 图5中, R表示线路的弯道半径(m), L表示线路的弯道长度(m); 其次基于数值积分翟方法和钩缓特性曲线, 建立列车钩缓模型, 并与国际上权威机构的实验结果进行对比; 接着以列车运行安全、正点、节能为目标, 基于钩缓约束采用自适应遗传算法优化获得理想运行速度目标曲线; 最后以该优化曲线为跟踪目标, 采用改进预测控制设计相应速度跟踪控制策略对重载列车进行优化控制.

    图 5  湖东二场 — 阳原区段部分线路数据
    Fig. 5  Partial line data of Hudongerchang — Yangyuan section

    在建立了列车运行过程动态纵向动力学模型与钩缓装置模型后, 为了验证本文所建立模型的准确性, 按照澳大利亚中央昆士兰大学Spiryagin等[23-24]整理的9个国际权威机构的重载列车纵向动力学模拟器的国际基准测试的线路条件与控制要求, 本文进行了相应的仿真测试. 文献[24]9个机构的最大车钩力结果如图6所示, 文献[24]选取了第10号车钩的车钩力变化趋势的仿真结果进行比对, 本文仿真的最大车钩力的结果如图7所示, 其他各软件的仿真结果如图8所示, 第10号车钩的车钩力变化趋势如图9所示.

    图 6  文献[24]中9个机构仿真的最大车钩力
    Fig. 6  Maximum coupler force of nine mechanisms simulated in [24]
    图 8  文献[24]中第10号车钩车钩力变化趋势
    Fig. 8  Tendency of coupler force change of coupler No.10 in [24]
    图 9  本文仿真的第10号车钩车钩力变化趋势
    Fig. 9  Tendency of coupler force change of coupler No. 10 simulated in this paper

    图6中可以看到, 9个机构中效果较好的几种动力学模拟器的实验结果, 它们的最大压钩力大多集中在350 kN, 拉钩力都为540 kN 左右. 而本文方法的仿真结果(图7)中同样显示最大压钩力为350 kN, 拉钩力则为530 kN, 与文献[23]中效果较好的实验结果非常相近. 图8最底部的列车空气制动和纵向动力学联合仿真系统(Train air brake and longitudinal dynamics simulation system, TABLDSS)仿真曲线为TABLDSS机构实际仿真曲线, TABLDSS曲线上面的几条车钩力变化曲线为不同软件仿真的真实车钩力变化曲线加了200, 400, $\cdots $, 1 600 kN的效果, 是为了方便对不同软件的仿真结果进行比对. 图8表明, 前7种软件的仿真效果较好, 趋势与具体数值都大体一致. 通过对比图8 和本文仿真结果图9, 可以发现不论是车钩力变化趋势还是具体的车钩力数值, 本文仿真的效果与9种软件中效果较好的7种软件的实验结果极为相近.

    图 7  本文仿真的最大车钩力
    Fig. 7  Maximum coupler force simulated in this paper

    通过仿真重载列车纵向列车动力学模拟器的国际基准测试, 与国内外多家机构的仿真结果进行比对, 本文仿真的效果与国内外多家机构的优秀仿真结果一样, 验证了本文所建立的动态纵向动力学模型及钩缓装置模型的准确性.

    4.2.1   实际线路多目标遗传算法策略分析

    重载列车在运行过程中还需注意一些驾驶约束条件, 重载列车在长距离行驶过程中, 接触网供电会来自不同的变电所. 两变电所接触网供电交接处会有一段分相区. 机车在通过分相区时, 需断电后通过, 此时机车的牵引力与电制动力都为0. 同时重载列车运行过程中存在三种工况: 牵引工况、制动工况与惰行工况. 重载列车运行时工况转换有一定的规则限制, 运行时牵引工况与制动工况间不能直接切换, 需要通过惰行工况进行过渡. 本文均考虑了这些约束条件, 并基于钩缓受力约束, 采用自适应遗传算法优化获得理想运行速度目标曲线.

    多目标优化策略即是在列车运行时, 综合考虑安全、正点与节能运行优化目标的目标函数的适应度达到最高. 其中, 安全最优策略需要综合考虑以下三个因素: 最大拉钩力、最大压钩力以及列车每次运行过程中车钩力值较大的次数, 这三个因素在列车的安全运行评价指标各有一定的权重系数. 节能最优策略即是在列车运行速度在限制速度、最大车钩力在额定最大值范围内、运行时间在列车运行图规定范围内, 列车的节能运行评价模型达到最优的策略. 正点最优策略即是在列车运行速度在限制速度、最大车钩力在额定最大值范围内, 列车的正点运行评价模型达到最优的策略.

    4.2.2   多目标优化结果

    基于上述设计的多目标优化策略, 将湖东二场到阳原区段 (公里标为25$\sim $83 km, 运行图规定运行时间3 360 s) 作为实验线路, 按照实际线路坡道、曲线等变化, 将其划分为0.5$\sim $0.6 km长度不一的110个区段, 列车在每一区段运行的时候只存在一个运行工况. 将工况转换点的位置和相应的工况作为一个染色体, 采用实数编码方式, 染色体长度为110, 种群规模为50组. 再根据实际线路情况与列车运行操纵约束条件选取50 × 110组满足约束条件运行速度曲线分别进行100代进化, 并根据式(13)设定的目标函数选出最优的一条. 为了体现所设计方法的优越性, 本文与文献[14]的目标曲线优化方法, 实际司机驾驶的速度曲线进行对比, 速度目标曲线、最大车钩力对比和相关数据的比较如图10图11表1所示; 本文方法的遗传算法适应度曲线如图12所示.

    表 1  本文方法、文献[14]方法优化后多目标数据与实际驾驶数据对比
    Table 1  Data comparison among multiple target optimal policy in this paper, [14] and actual operation
    时间 (s)能耗 (kW)安全系数最大拉钩 (kN)最大压钩 (kN)
    本文3 383.13 505.3−821.91 160.7
    司机驾驶3 5104 200−1 347.71 787.6
    文献 [14]3 3793 929−1 170.32 009
    下载: 导出CSV 
    | 显示表格
    图 10  重载列车理想运行目标曲线
    Fig. 10  Ideal train operation curve of heavy haul train
    图 11  本文方法、文献[14]方法优化后运行与实际驾驶最大车钩力
    Fig. 11  Maximum coupler forces of optimized operation in this paper, [14] and actual operation
    图 12  多目标优化策略遗传算法适应度
    Fig. 12  Multiple target optimal policy genetic algorithm fitness

    图10中可以看出, 多目标优化的驾驶策略是在公里标25$\sim $28 km的上坡阶段, 采用牵引工况将列车速度提升到60 km/h; 在31$\sim $40 km的上坡阶段, 采用牵引与惰行工况交替, 牵引工况为主的操纵方式, 使列车的运行速度保持在60$\sim $70 km/h之间; 而在40$\sim $43 km的上坡阶段, 采用牵引与惰行工况交替, 惰行工况为主的操纵方式, 降低列车运行速度到50 km/h; 在43$\sim $53 km的下坡阶段(此阶段的43.3 km处有一个过分相, 经过时需要转换为惰行工况), 此时坡道较多, 采用牵引、制动与惰行工况交替的操纵方式缓慢提升列车运行速度到78 km/h左右; 在67$\sim $75 km的下坡与上坡交替出现阶段(此阶段的67.7 km处有一个过分相, 经过时需要转换为惰行工况), 采用牵引、制动与惰行工况交替的操纵方式维持列车运行速度到70 km/h以上; 在75$\sim $81 km的上坡阶段, 采用牵引与惰行工况交替的操纵方式逐渐降低列车的运行速度, 准备停车; 在81 km 后采用制动工况降低列车的速度, 进行停车. 经过多次的列车操纵方式转化, 使得列车运行速度曲线达到多目标优化目标, 目标函数的适应度达到最高. 图12表明, 经过100 代的进化次数, 多目标优化策略遗传算法的适应度从0.941进化到了0.844.

    而对于实际司机驾驶, 启动牵引力较小, 在25$\sim $40 km的上坡阶段, 一直采用牵引为主的操纵方式, 在这一区间运行时间较长, 消耗的能量也较多. 之后在70 km处就开始以惰行工况为主的方式运行, 虽然降低了能量消耗, 但运行的时间也较长, 最终导致列车司机在实验线路全程驾驶的时间超出运行图规定时间150 s. 对于文献[14]方法优化的目标速度曲线, 则在33$\sim $43 km 阶段, 以较低的速度运行, 在此区间运行的时间较长, 且速度变化较频繁致, 使列车在43$\sim $50 km的下坡阶段进行牵引加速行驶, 消耗过多的能量, 导致其能耗比本文多出424 kW.

    进一步, 从图11表1中可以看出, 本文方法优化获得的目标曲线在安全系数、正点率、节能方面均优于实际司机驾驶与已有文献[14]的目标速度曲线优化方法, 表明本文方法的优越性与有效性.

    基于所建立的重载列车纵向动力学模型, 利用改进预测控制方法, 设计重载列车速度跟踪控制器对重载列车在大秦线上湖东二场 — 阳原站区间的运行进行控制, 使其跟踪前述获得的理想运行速度目标曲线精确运行. 速度跟踪曲线、牵引力/制动力曲线如图13图14所示(图中, yr-DV (Desired value)表示理想速度目标曲线; y-IGPC (Improved generalized predictive control) 表示改进广义预测控制方法下的速度曲线; u-IGPC表示改进广义预测控制方法下的牵引/制动力曲线).

    图 13  改进广义预测控制速度跟踪曲线
    Fig. 13  Speed tracking of IGPC
    图 14  改进广义预测控制牵引/制动力曲线
    Fig. 14  Control force of IGPC

    图13中可以看出, 我们采用改进广义预测控制方法设计的重载列车速度跟踪控制器在整个列车运行过程跟踪效果良好, 理想运行速度目标曲线是通过前述多目标优化获得, 其满足该列车的安全、正点和节能要求, 对其高精度跟踪表明所设计控制器的有效性和准确性. 图14 的牵引/制动曲线在启动阶段基本保持恒牵引力, 在中途运行阶段能够通过调节牵引/制动力适应多变的线路条件; 且整个运行过程变化平缓, 工况转换平滑, 无超调现象, 满足HXD1型机车的牵引/制动力特性.

    本文结合大秦线实际运行线路情况以及钩缓系统受力约束, 设计了列车动态纵向动力学模型与车钩力约束模型, 考虑钩缓受力约束, 以安全性、节能性与正点性等多项运行优化指标为目标, 通过自适应遗传算法获得重载列车理想运行速度目标曲线. 与实际运行速度曲线的性能进行对比, 结果表明, 多目标优化运行速度曲线在保障列车运行安全性的同时, 在节能性与正点性两种指标的评价都好于实际司机驾驶结果. 基于所建立的纵向动力学模型, 采用改进广义预测控制方法设计的运行优化控制器能够控制重载列车精确跟踪理想运行速度目标曲线, 从而优化列车驾驶过程.

  • 图  1  路口示意图

    Fig.  1  Intersection diagram

    图  2  深度神经网络结构图

    Fig.  2  The structure of DNN

    图  3  有轨电车平均停车次数对比

    Fig.  3  Comparison of tram mean stops

    图  4  平均累积奖励对比

    Fig.  4  Comparison of cumulative reward

    图  5  各直行/右转车道平均停车等待时间对比

    Fig.  5  Comparison of waiting time in direct/right turn lanes

    图  6  各左转车道平均停车等待时间对比

    Fig.  6  Comparison of waiting time in left turn lanes

    图  7  两种深度强化学习模型下有轨电车平均停车次数对比

    Fig.  7  Comparison of tram mean stops under two deep reinforcement learning models

    图  8  两种深度强化学习模型下累积奖励对比

    Fig.  8  Comparison of cumulative reward under two deep reinforcement learning models

    图  9  两种深度强化学习模型下各直行/右转车道平均停车等待时间对比

    Fig.  9  Comparison of waiting time in direct/right turn lanes under two deep reinforcement learning models

    图  10  两种深度强化学习模型下各左转车道平均停车等待时间对比

    Fig.  10  Comparison of waiting time in left turn lanes under two deep reinforcement learning models

    表  1  模型参数

    Table  1  Model parameters

    参数 取值
    $N$ 20 000
    $m$ 32
    $\Delta \varepsilon$ −0.001
    $\gamma$ 0.99
    $\alpha$ 0.001
    下载: 导出CSV
  • [1] Ministry of tranport of China. Statistical bulletin on transportation industry development in 2018. [Online], available: http://xxgk.mot.gov.cn/jigou/zhghs/201904/t20190412_3186720.html, September 5, 2019
    [2] 2 Shi J G, Sun Y S, Schonfeld P, Qi J. Joint optimization of tram timetables and signal timing adjustments at intersections. Transportation Research Part C: Emerging Technologies, 2017, 83(6): 104−119
    [3] 3 Ji Y X, Tang Y, Du Y C, Zhang X. Coordinated optimization of tram trajectories with arterial signal timing resynchronization. Transportation Research Part C: Emerging Technologies, 2019, 99(4): 53−66
    [4] Little J D C, Kelson M D, Gartner N M. Maxband: a program for setting signals on arteries and triangular networks. In: Proceedings of the 60th Annual Meeting of the Transportation Research Board. Washington, USA: Transportation Research Board, 1981. 40−46
    [5] 5 Jeong Y J, Kim Y C. Tram passive signal priority strategy based on the maxband model. KSCE Journal of Civil Engineering, 2014, 18(5): 1518−1527 doi: 10.1007/s12205-014-0159-1
    [6] 6 Ma W, Zou L, An K, Gartner N H, Wang M. A partition-enabled multi-mode band approach to arterial traffic signal optimization. IEEE Transactions on Intelligent Transportation Systems, 2019, 20(1): 313−322 doi: 10.1109/TITS.2018.2815520
    [7] 7 Kim H, Cheng Y, Chang G. Variable signal progression bands for transit vehicles under dwell time uncertainty and traffic queues. IEEE Transactions on Intelligent Transportation Systems, 2019, 20(1): 109−122 doi: 10.1109/TITS.2018.2801567
    [8] 8 Ji Y X, Tang Y, Wang W, Du Y C. Tram-oriented traffic signal timing resynchronization. Journal of Advanced Transportation, 2018, 2018(1): 1−13
    [9] 9 Jacobson J, Sheffi Y. Analytical model of traffic delays under bus signal preemption: theory and application. Transportation Research Part B: Methodological, 1981, 15(2): 127−138 doi: 10.1016/0191-2615(81)90039-4
    [10] 10 Yang M, Ding J, Wang W, Ma Y Y. A coordinated signal priority strategy for modern trams on arterial streets by predicting the tram dwell time. KSCE Journal of Civil Engineering, 2018, 22(2): 823−836 doi: 10.1007/s12205-017-1187-4
    [11] 高阳, 陈世福, 陆鑫. 强化学习研究综述. 自动化学报, 2004, 30(1): 1−15 doi: 10.3969/j.issn.1003-8930.2004.01.001

    11 Gao Yang, Chen Shi-Fu, Lu Xin. Reseacrh on reinforcement learning technology: a review. Acta Automatica Sinica, 2004, 30(1): 1−15 doi: 10.3969/j.issn.1003-8930.2004.01.001
    [12] 12 Bertsekas D P. Feature-based aggregation and deep reinforcement learning: a survey and some new implementations. IEEE/CAA Journal of Automatica Sinica, 2019, 6(1): 1−31
    [13] 13 Samah E T, Abdulhai B, Abdelgawad H. Design of reinforcement learning parameters for seamless application of adaptive traffic signal control. Journal of Intelligent Transportation Systems, 2014, 18(3): 227−245 doi: 10.1080/15472450.2013.810991
    [14] 段艳杰, 吕宜生, 张杰, 赵学亮, 王飞跃. 深度学习在控制领域的研究现状与展望. 自动化学报, 2016, 42(5): 643−654

    14 Duan Yan-Jie, Lv Yi-Sheng, Zhang Jie, Zhao Xue-Liang, Wang Fei-Yue. Deep learning for control: the state of the art and prospects. Acta Automatica Sinica, 2016, 42(5): 643−654
    [15] 15 Li L, Lv Y, Wang F-Y. Traffic signal timing via deep reinforcement learning. IEEE/CAA Journal of Automatica Sinica, 2016, 3(3): 247−254
    [16] 16 Liang X, Du X, Wang G, Han Z. A deep reinforcement learning network for traffic light cycle control. IEEE Transactions on Vehicular Technology, 2019, 68(2): 1243−1253 doi: 10.1109/TVT.2018.2890726
    [17] 17 Ling K, Shalaby A. Automated transit headway control via adaptive signal priority. Journal of Advanced Transportation, 2004, 38(4): 45−67
    [18] 舒波, 李大铭, 赵新良. 基于强化学习算法的公交信号优先策略. 东北大学学报(自然科学版), 2012, 33(10): 1513−1516 doi: 10.12068/j.issn.1005-3026.2012.10.035

    18 Shu Bo, Li Da-Ming, Zhao Xin-Liang. Transit signal priority strategy based on reinforcement learning algorithm. Journal of Northeastern University (Natural Science), 2012, 33(10): 1513−1516 doi: 10.12068/j.issn.1005-3026.2012.10.035
    [19] 梁星星, 冯旸赫, 马扬, 程光权, 黄金才, 王琦等. 多agent深度强化学习综述. 自动化学报, 2019. DOI: 10.16383/j.aas.c180372

    Liang Xing-Xing, Feng Yang-He, Ma Yang, Cheng Guang-Quan, Huang Jin-Cai, Wang Qi, et al. Deep multi-agent reinforcement learning: a survey. Acta Automatica Sinica, 2019. DOI: 10.16383/j.aas.c180372
    [20] 赵英男, 刘鹏, 赵巍, 唐降龙. 深度q学习的二次主动采样方法. 自动化学报, 2019, 45(10): 1870−1882 doi: 10.3969/j.issn.1003-8930.2019.01.001

    20 Zhao Ying-Nan, Liu Peng, Zhao Wei, Tang Xiang-Long. Twice sampling method in deep Q-network. Acta Automatica Sinica, 2019, 45(10): 1870−1882 doi: 10.3969/j.issn.1003-8930.2019.01.001
    [21] Wang Z Y, Schaul T, Hessel M, Hasselt H, Lanctot M, Freitas N. Dueling network architectures for deep reinforcement learning. In: Proceedings of the 33rd International Conference on Machine Learning. New York, USA: PMLR, 2016. 1995−2003
    [22] Hasselt H V, Guez A, Silver D. Deep reinforcement learning with double Q-learning. In: Proceedings of the 30th AAAI Conference on Artificial Intelligence, Phoenix, USA: MIT, 2015. 2094−2100
    [23] Schaul T, Quan J, Antonoglou I, Silver D. Prioritized experience replay. In: Proceedings of the 2016 International Conference on Learning Representations 2016, San Juan, Puerto Rico: arXiv, 2016. 1−21
    [24] Lopez P A, Behrisch M, Walz L B, Erdmann J, Flotterod Y, Hilbrich R, et al. Microscopic traffic simulation using sumo. In: Proceedings of the 21st IEEE International Conference on Intelligent Transportation Systems. Hawaii, USA: IEEE, 2018. 2575−2582
    [25] 25 Islam M T, Tiwana J, Bhowmick A, Qiu T Z. Design of LRT signal priority to improve arterial traffic mobility. Journal of Transportation Engineering, 2016, 142(9): 04016034 doi: 10.1061/(ASCE)TE.1943-5436.0000831
  • 期刊类型引用(16)

    1. 叶宝林,陈栋,刘春元,陈滨,吴维敏. 基于Dueling Double DQN的交通信号控制方法. 计算机测量与控制. 2024(07): 154-161 . 百度学术
    2. 王君逸,王志,李华雄,陈春林. 基于自适应噪声的最大熵进化强化学习方法. 自动化学报. 2023(01): 54-66 . 本站查看
    3. 陶鑫钰,王艳,纪志成. 基于深度强化学习的节能工艺路线发现方法. 智能系统学报. 2023(01): 23-35 . 百度学术
    4. 曾斌,樊旭,李厚朴. 支持重规划的战时保障动态调度研究. 自动化学报. 2023(07): 1519-1529 . 本站查看
    5. 刘宇,张聪,李涛. 强化学习A3C算法在电梯调度中的建模及应用. 计算机工程与设计. 2022(01): 196-202 . 百度学术
    6. 贺俊杰,张洁,张朋,汪俊亮,郑鹏,王明. 基于长短期记忆近端策略优化强化学习的等效并行机在线调度方法. 中国机械工程. 2022(03): 329-338 . 百度学术
    7. 徐建闽,周湘鹏,首艳芳. 基于深度强化学习的自适应交通信号控制研究. 重庆交通大学学报(自然科学版). 2022(08): 24-29 . 百度学术
    8. 殷耀文. 深度强化学习在物联网边缘计算中的应用研究. 信息技术. 2021(01): 121-125 . 百度学术
    9. 郑忠斌,宋青青,熊增薪. 基于雾计算的NB-IoT资源优化模型及仿真. 粘接. 2021(04): 87-90+95 . 百度学术
    10. 尚春琳,刘小明,田玉林,董路熙. 基于深度强化学习的综合干线协调控制方法. 交通运输系统工程与信息. 2021(03): 64-70 . 百度学术
    11. 吴晓光,刘绍维,杨磊,邓文强,贾哲恒. 基于深度强化学习的双足机器人斜坡步态控制方法. 自动化学报. 2021(08): 1976-1987 . 本站查看
    12. 陈满,李茂军,李宜伟,赖志强. 基于深度强化学习和人工势场法的移动机器人导航. 云南大学学报(自然科学版). 2021(06): 1125-1133 . 百度学术
    13. 刘翔,李艾,成卫. 基于深度强化学习的多应急车辆信号优先控制. 武汉理工大学学报(交通科学与工程版). 2021(06): 1056-1061 . 百度学术
    14. 王鹏勇,陈龚涛,赵江烁. 基于深度强化学习的机场出租车司机决策方法. 计算机与现代化. 2020(08): 94-99+104 . 百度学术
    15. 孙长银,穆朝絮. 多智能体深度强化学习的若干关键科学问题. 自动化学报. 2020(07): 1301-1312 . 本站查看
    16. 南英,蒋亮. 基于深度强化学习的弹道导弹中段突防控制. 指挥信息系统与技术. 2020(04): 1-9+27 . 百度学术

    其他类型引用(22)

  • 加载中
图(10) / 表(1)
计量
  • 文章访问数:  3123
  • HTML全文浏览量:  979
  • PDF下载量:  502
  • 被引次数: 38
出版历程
  • 收稿日期:  2019-03-15
  • 录用日期:  2019-09-02
  • 刊出日期:  2019-12-01

目录

/

返回文章
返回