2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

支持重规划的战时保障动态调度研究

曾斌 樊旭 李厚朴

曾斌, 樊旭, 李厚朴. 支持重规划的战时保障动态调度研究. 自动化学报, 2023, 49(7): 1519−1529 doi: 10.16383/j.aas.c200416
引用本文: 曾斌, 樊旭, 李厚朴. 支持重规划的战时保障动态调度研究. 自动化学报, 2023, 49(7): 1519−1529 doi: 10.16383/j.aas.c200416
Zeng Bin, Fan Xu, Li Hou-Pu. Research of dynamic scheduling with re-planning for wartime logistics support. Acta Automatica Sinica, 2023, 49(7): 1519−1529 doi: 10.16383/j.aas.c200416
Citation: Zeng Bin, Fan Xu, Li Hou-Pu. Research of dynamic scheduling with re-planning for wartime logistics support. Acta Automatica Sinica, 2023, 49(7): 1519−1529 doi: 10.16383/j.aas.c200416

支持重规划的战时保障动态调度研究

doi: 10.16383/j.aas.c200416
基金项目: 国家优秀青年科学基金 (42122025), 湖北省杰出青年科学基金(2019CFA086)资助
详细信息
    作者简介:

    曾斌:海军工程大学教授. 2006年获得华中科技大学博士学位. 主要研究方向为信息管理和装备保障. 本文通信作者.E-mail: zbtrueice@126.com

    樊旭:海军工程大学硕士研究生.主要研究方向为信息管理. E-mail: fanxu926@163.com

    李厚朴:海军工程大学教授. 2010年获得海军工程大学博士学位. 主要研究方向为导航技术和计算机代数分析. E-mail: lihoupu1985@126.com

Research of Dynamic Scheduling With Re-planning for Wartime Logistics Support

Funds: Supported by National Science Foundation for Outstanding Young Scholars (42122025) and Hubei Science Foundation for Distinguished Young Scholars (2019CFA086)
More Information
    Author Bio:

    ZENG Bin Professor at Naval University of Engineering. He received his Ph.D. degree from Huazhong University of Science and Technology in 2006. His research interest covers information management and equipment maintenance. Corresponding author of this paper

    FAN Xu Master student at Naval University of Engineering. His main research interest is information management

    LI Hou-Pu Professor at Naval University of Engineering. He received his Ph.D. degree from Naval University of Engineering in 2010. His research interest covers navigation and computer algebra analysis

  • 摘要: 复杂多变的战场环境要求后装保障能够根据战场环境变化, 预见性地做出决策. 为此, 提出基于强化学习的动态调度方法. 为准确描述保障调度问题, 提出支持抢占调度、重分配及重部署决策的马尔科夫决策过程(Markov decision process, MDP)模型, 模型中综合考量了任务排队、保障优先级以及油料约束等诸多问题的影响; 随后设计改进策略迭代算法, 训练基于神经网络的保障调度模型; 训练后的神经网络模型能够近似计算状态价值函数, 从而求解出产生最大期望价值的优化调度策略. 最后设计一个分布式战场保障仿真实验, 通过与常规调度策略的对比, 验证了动态调度算法具有良好的自适应性和自主学习能力, 能够根据历史数据和当前态势预判后续变化, 并重新规划和配置保障资源的调度方案.
  • 作为作战力量的倍增器, 后装保障系统在现代战场上扮演着非常重要的角色. 它的主要功能是利用有限的保障资源, 在最短时间内及时高效地为前线部队提供急需的作战物质. 在海上分布式杀伤和大规模登陆作战等战场背景下, 由于远离本土作战, 前进基地或预置基地保障资源有限, 在分布式协同作战模式下, 保障需求点增多, 而且保障需求频率也大幅提高. 这种情况下, 一个高效的战时后装保障系统需要解决的问题包括:

    1)当作战部队发出保障需求时, 如何选择合适的保障分队处理该需求;

    2)每一个保障基地需要分配多少保障分队(负责投送作战物质或维修作战装备);

    3)当作战部队发出保障需求时, 如何选择合适的保障分队处理该需求;

    4)当保障分队不够时, 如果出现优先级高的保障需求, 能否中断当前保障任务重新规划;

    5)当保障分队完成任务后, 如何根据当前战场态势部署至更为优化的地址.

    以上问题中, 前3个问题已经有较多研究并得到较好解决, 例如, 昝翔等[1]和何岩等[2]分别利用遗传算法解决了维修任务−维修单元的指派, 曹继平等[3]给出了资源冲突时的优化调度方案; 曾斌等[4]利用混合Petri网建立了流程模型并提出了基于退火进化的保障单元调度算法, 任帆等[5]指出巡回维修中“预测性”策略要优于“最近修理组”策略, 但没有给出具体的预测算法.

    而后2个问题可以看作前3个问题的延伸, 即在给定一定数量预置保障基地及每个保障基地预分配了一定数量的保障分队情况下, 当出现新的保障申请时, 如果当前没有空闲的保障分队, 如何重分配保障任务及重部署保障分队. 这一直以来也是后装保障的一个老大难问题, 陈春良等[6]在研究展望中专门指出目前关于装备维修任务调度的研究大多将其视为非抢占调度, 易导致维修任务调度不合理、维修资源利用不充分等问题, 急需开展抢占调度方向研究.

    由于允许抢占拓展了解空间, 所以需要寻优, 而常规方法难以优化装备的抢占调度及重规划, 因此需要从智能化保障技术入手, 只有能够对后装保障与配属情况进行合理性预测, 才能制定鲁棒性强的保障计划与投送方案[7], 从而能够根据战场环境变化, 预见性地做出重规划决策.

    作为预测决策的关键技术之一, 以马尔科夫决策过程(Markov decision process, MDP)为基础结构的强化学习逐渐在智能化应急服务中得到了应用并取得显著成果[8-9], 包括: 救护车的调度[10]、医疗资源的分配[11-12]、灾后救援优化策略[13-14]、战场伤员的疏散方案[15]以及应急电力系统的自适应控制[16-17]等, 这些研究给予本文以智能决策技术上的启发, 但同样也没有解决重规划问题.

    本文的思路如下: 首先建立战时保障动态调度问题的MDP模型; 其次提出了该MDP模型的求解方法. 基于强化学习的试探−奖励−修正(策略迭代)自学习方式, 生成不同保障需求事件下的状态−动作序列, 以此作为样本数据来训练保障调度神经网络模型. 这样在实战过程中, 当战场环境发生变化引发新的保障需求时, 不同的保障决策动作将导致系统状态发生改变, 通过训练好的保障调度神经网络可以快速计算改变后状态的价值, 其中导致状态价值最大的决策即为最优决策.

    本文主要贡献包括:

    1)定义了支持重规划的后装保障动态调度问题, 建立了支持重规划(抢占调度、重分配及重部署)决策的MDP模型和求解算法;

    2)在重规划MDP模型中综合考量了任务排队、保障优先级以及油料约束等问题的影响;

    3)为了解决重规划MDP模型状态动作空间过大引起的“维度灾”问题, 借鉴了深度学习思想[18], 提出利用神经网络对基函数进行非线性组合, 从而逼近MDP值函数, 降低了计算复杂度;

    4)采用决策后状态思想[19]降低了随机事件引起的计算复杂度.

    MDP的状态设计非常重要, 如果维度过大会影响求解算法的收敛, 过小则可能不足以用来描述系统的决策函数、状态转移函数以及奖励函数. 本文设计保障系统的状态$S = (t,e,M,R)$, 其中, $t$为当前时间, $e$表示当前事件类型, $M$为列表类型, 表示各个保障分队的所处状态, $R$为列表类型, 表示当前待处理的各个保障需求的状况.

    1.1.1   事件类型

    系统状态随着事件的产生而变化, 为此本文定义7种事件类型, 即$e(S) \in \left\{ {1,2,\cdots,7} \right\}$. $e(S) = 1$表示产生了保障需求需要处理; $e(S) = 2$表示保障分队到达保障仓库 (如果保障仓库与保障分队处于同一保障基地, 则不用产生此事件); $e(S) = 3$表示保障分队在保障仓库领取到本次任务需要的物质或备品备件; $e(S) = 4$表示保障分队到达需求点; $e(S) = 5$表示保障分队完成当前保障任务; $e(S) = 6$表示保障分队返回保障基地; $e(S) = 7$表示有保障分队处于待命状态.

    1.1.2   保障分队状态

    保障分队状态列表表示为: $M = {[{M_m}]_{m \in M'}} = [{M_1},{M_2}, \cdots]$, 其中, $M' = \{ 1, 2, \cdots \}$, 表示系统中所有保障分队集合, 列表中每个组成元素都为一个数组, 可表示为

    $$ {M_m} = (M_m^s,\,M_m^l,\,M_m^\mu ,\,M_m^d,\,M_m^p,\,M_m^c) $$

    式中, $ M_m^s $表示第$ m $个分队的当前状态; $ M_m^l $表示第$ m $个分队当前的位置; $ M_m^\mu $表示第$ m $个分队完成当前分配任务所需花费的时间, 它与保障分队和任务申请点之间距离有关; $ M_m^d $表示第$ m $个分队在剩余油料支持范围内能够运输的距离; $ M_m^p $表示第$ m $个分队当前被分配任务的优先级; $ M_m^c $表示第$ m $个分队上一个未完成任务的奖励值, 因为中断所以没有得到该奖励. 本文将分队所处状态细分为8级, 即$ M_m^s \in \left\{ {1,2,\cdots,8} \right\} $, $ M_m^s = 1 $表示第$ m $个分队处于待命状态; $ M_m^s = 2 $表示第$ m $个分队前往保障仓库领取物质或备品备件; $ M_m^s = 3 $表示第$ m $个分队完成物质领取等准备工作, 准备出发; $ M_m^s = 4 $表示第$ m $个分队在前往需求点途中; $ M_m^s = 5 $表示第$ m $个分队正在保障之中 (装卸物质、更换配件或维修装备等) ; $ M_m^s = 6 $表示第$ m $个分队完成任务准备返回; $ M_m^s = 7 $表示第$ m $个分队在返航途中; $ M_m^s = 8 $表示第$ m $个分队在保障基地进行加油和保障装备维修维护工作. 其中第2级状态为可选状态, 当待申领物质的仓库与保障分队当前所处基地不在一起时才发生.

    以上状态存在约束关系. 当$ M_m^s = \left\{ {1,6,7,8} \right\} $时, 表示第$ m $个分队没有分配任务或已完成任务, 所以此时$ M_m^\mu = M_m^p = 0 $.

    当$ M_m^s = \{ 2,3,4,5\} $时, $ M_m^p = 1 $表示第$ m $个分队正在执行较低优先级的保障任务, $ M_m^p = 2 $表示第$ m $个分队正在执行较高优先级的保障任务.

    $ M_m^s = 2 $时, 如果$ M_m^c >0 $, 表示第$ m $个分队当前任务被中断, 转而执行新的保障需求; 否则$ M_m^c=0 $.

    1.1.3   保障需求状态

    保障需求状态列表可表示为: $R = {[{R_r}]_{r \in R'}} = [{R_1},{R_2}, \cdots ]$, 其中, $ R' = \{ 1,2, \cdots\} $, 表示保障需求队列中待处理的所有保障需求集合, 列表中每个组成元素都为一个数组, 可表示为

    $$ {R_r} = (R_r^s,\;R_r^l,\;R_r^t,\;R_r^p,\;R_r^n) $$

    式中, $ R_r^s $表示第$ r $个需求的状态, $ R_r^s{\text{ = }}0 $表示第$ r $个需求排队等待处理, $ R_r^s=m $表示第$ r $个需求被分配给第$ m $个保障分队处理, $ R_r^l $表示第$ r $个需求的保障申请点位置, $ R_r^t $表示第$ r $个需求的发出时间, $ R_r^p $表示第$ r $个需求的优先级, $ R_r^n $表示第$ r $个需求的工作量 (所需物质数量或损伤装备数量等).

    如果当前没有保障需求, $ {R_r} = (0,0,0,0,0) $; 如果某个保障需求已被完成, 则该需求将会移出队列. 另外保障队列中等待的需求有一个最大阈值$ {r^{\max }} = \left| {R'} \right| $, 它表示保障系统能够支持的保障需求最大数量.

    以上状态相对独立, 可以假设其满足马尔科夫过程无后效性性质. 其中时间状态即指当前的时刻, 因为较简单, 可以忽略.

    1.2.1   决策变量

    为了描述决策空间, 首先定义如下集合.

    1) $ B = \{ 1,2,\cdots,\left| B \right|\} $表示保障基地集合;

    2) $ Q(S) = \{ r:r \in R',R_r^s = 0\} $表示当系统状态为$ S $时, 在队列中等待分派保障分队处理的保障需求集合;

    3) $ {A_1}\left( S \right) \;=\; \{ m:m \in M',M_m^s \;\in\; \left\{ {1,6,7,8} \right\}\} $表示当系统状态为S时, 可以分派执行保障任务的保障分队集合;

    4) $ {A_2}\left( S \right) = \{ m:m \in M',M_m^s \in \left\{ {2,3} \right\}\} $表示当系统状态为S时, 可以重规划保障任务的保障分队集合;

    5) ${A_3}\left( S \right) = \{ m:m \in M',M_m^s = 6\} $表示当系统状态为S时, 可以重部署的保障分队集合.

    本文中决策变量设计为3个布尔变量, 定义如下:

    1) $ {X_{mr}} = 1 $表示第$ m $支保障分队被分派执行保障需求$ r $, 否则为0;

    2) $ {Y_{mr}} = 1 $表示第$ m $支保障分队被命令中断当前保障任务, 重规划执行新的保障任务$ r $, 否则为0;

    3) $ {Z_{mb}} = 1 $表示第$ m $支保障分队被重部署至保障基地$ b $, 否则为0.

    1.2.2   决策约束

    决策约束分以下4种情况讨论.

    情况 1. 当$ Q(S) \ne \emptyset $ (存在待处理保障需求) 且发生事件类型为$ e(S) \in \left\{ {1,2,3,4,6,7} \right\} $时, 保障指挥人员需要执行2个决策: 分派任务和重规划任务. 其中, 分派任务负责分派哪一个保障分队执行队列中等待处理的保障任务; 当没有可用保障分队且出现高优先级任务时, 由重规划任务决定中断哪一个保障分队的当前任务, 转去执行新的保障任务.

    这种情况下存在如下5种决策约束:

    1)约束一个任务只需要一支分队处理, 如果需要多支分队处理一个任务, 可以组合成一个分队, 或放松此约束, 即

    $$\sum\limits_{m \in {A_1}(S)} {{X_{mr}}} + \sum\limits_{m \in {A_2}(S)} {{Y_{mr}}} \leq 1,\;\;\forall r \in Q(S)$$ (1)

    2)约束一支保障分队一次只能分派执行一个保障任务, 如果需要一支分队一次执行多个保障任务时, 可以把一个保障分队分解为多支分队, 或放松此约束, 即

    $$\sum\limits_{r \in Q(S)} {{X_{mr}}} \leq 1,\;\;\forall m \in {A_1}(S)$$ (2)

    3)约束一支保障分队一次只能重规划执行一个保障任务, 即

    $$\sum\limits_{r \in Q(S)} {{Y_{mr}}} \leq 1,\;\;\forall m \in {A_2}(S)$$ (3)

    4)约束保障分队一次只能分派执行或重规划执行剩余油料距离之内的保障任务, 设dmr表示保障支队m与需求点r之间的距离, 即

    $${X_{mr}}{d_{mr}} \leq M_m^d,\;\;\forall m \in {A_1}(S),\forall r \in Q(S)$$ (4)
    $${Y_{mr}}{d_{mr}} \leq M_m^d,\;\;\forall m \in {A_1}(S),\forall r \in Q(S)$$ (5)

    设分派调度决策列表为

    $$ \begin{split} X =\;& {[{X_{mr}}]_{m \in {A_1}(S),r \in Q(S)}} = \\ \;& [{X_{11}},{X_{12}}, \cdots ,{X_{1|Q(S)|}},{X_{21}}, \cdots ,{X_{|{A_1}(S)||Q(S)|}}] \end{split} $$

    设重规划决策列表为

    $$\begin{split} Y =\;& {[{Y_{mr}}]_{m \in {A_2}(S),r \in Q(S)}} =\\ \;& [{Y_{11}},{Y_{12}}, \cdots ,{Y_{1|Q(S)|}},{Y_{21}}, \cdots ,{Y_{|{A_2}(S)||Q(S)|}}] \end{split} $$

    情况1下的决策空间表述为

    $$ {D}_{1}=\{(X,Y) \;\; {\rm{s.t}}.\;\;(1)\sim (5)\} $$

    情况 2. 当$ Q(S) = \emptyset $ (不存在待处理保障需求) 且发生事件类型为$ e(S) = 5 $(有保障分队完成当前保障任务) 时, 保障指挥人员需要决策保障分队$ m $的重部署地点. 注意此时$ {A_3}(S) = \left\{ m \right\} $. 设$ {d_{mb}} $为保障分队$ m $到基地$ b $的距离, $ {I_{mb}} $为指示函数, 如果保障分队$ m $剩余油料可以到达某基地$ b $, 则为1, 否则为0, 其表达式为

    $${I_{mb}} = \left\{ {\begin{aligned} &1, \;\;\;{d_{mb}} \leq M_m^d \\ &0,\;\;\;其他 \end{aligned}} \right.$$

    因此, 有决策约束式为

    $$\sum\limits_{b \in B} {{I_{mb}}{Z_{mb}} = 1} ,\;\forall m \in {A_3}(S)$$ (6)

    该约束表示每一个保障分队只能部署到一个保障基地. 设该情况下重部署决策列表为

    $$\begin{split} Z =\;& {[{Z_{mb}}]_{m \in {A_3}(S),b \in B}} =\\ \;& [{Z_{11}},{Z_{12}}, \cdots ,{Z_{1|B|}},{X_{21}}, \cdots ,{X_{|{A_3}(S)||B|}}] \end{split} $$

    情况2下的决策空间表述为

    $$ {D}_{2}=\{ Z \;\; {\rm{s.t}}.\;\; (6)\} $$

    情况 3. 当$ Q(S) \ne \emptyset$ (存在待处理保障需求) 且发生事件类型为$ e(S) = 5 $ (有保障分队完成当前保障任务) 时, 保障指挥人员可以选择以下3种决策:

    1)分派任务: 分派哪一个保障分队执行队列中等待处理的保障任务;

    2)重规划任务: 中断哪一个保障分队的当前任务, 重安排其执行新的保障任务;

    3)重部署保障分队: 如果保障分队m没有分派执行队列中等待处理的保障需求, 重部署m到哪一个基地.

    注意此时有$ {A_3}(S) = \left\{ m \right\} $. 约束表示为

    $$\sum\limits_{r \in Q(S)} {{X_{mr}}} + \sum\limits_{b \in B} {{I_{mb}}{Z_{mb}} = 1} ,\;\forall m \in {A_3}(S)$$ (7)

    约束(7)表示如果存在可重部署的保障分队, 且其没有分派执行队列中的保障需求, 则只能将它重部署到最多一个保障基地. 此时决策空间表示为

    $$ {D}_{3}=\{\left\{X,Y,Z\right\} \;\; {\rm{s.t}}.\;\;(1)\sim (5),\;(7)\} $$

    情况 4. 如果没有出现以上事件, 也没有发生以上3种情况, 则约束空间${D_4} \ne \emptyset $.

    设第$ k $个事件发生时保障系统所处状态为$ {S_k} $, 保障系统通过决策动作dk使得系统状态从$ {S_k} $演进到${S_{k + 1}}$, 并设随机元素$ W({S}_{k}, {d}_{k}) $表示系统处于${S_{k + 1}}$时发生的随机事件信息, 整个保障系统的演进动力模型可以表示为

    $$ {S_{k +1 }} = {S^T}( {{S_k},{d_k},w\left( {{S_k},{d_k}} \right)} ) $$ (8)

    式中, $ {S^T} $表示状态迁移函数.

    按照MDP模型, 当有保障分队调度 (分派或重规划) 执行保障任务时, 该决策行为将会获得奖励. 奖励值的设计也是影响强化学习能力的重要因素, 本文保障系统中需求优先级、期望保障时间以及需求产生时刻等因素都会影响决策动作的奖励值. 设$ C({S_k},{d_k}) $表示在系统处于状态$ {S_k} $时, 如果采取决策$ {d_k} $将会获得的立即奖励值, 它的计算式设计为

    $$\begin{split} C({S_k},{d_k}) =\;& \sum\limits_{m \in {A_1}({S_k})} {\sum\limits_{r \in R} {{\omega _r}\mu(M_m^s - R_r^t){X_{mr}}} }\; + \\ &\sum\limits_{m \in {A_2}({S_k})} {\sum\limits_{r \in R} {({\omega _r}\mu(M_m^s - R_r^t) - M_m^c){Y_{mr}}} } \end{split} $$ (9)

    式中, $ {\omega _r} $为权重参数, 用需求优先级加权系统奖励; $ \mu (M_m^s - R_r^t) $为效用函数, 随着需求$ r $的保障时间 (期望服务时间减去发出申请的时间)递减, $ M_m^c $为保障分队$ m $中断执行的保障需求的奖励, 所以式(9)第2项表示重调度保障分队能够获取的奖励 (包括放弃原任务的代价).

    基于给定策略$ \pi $ (一系列决策的组合) , $ {D^\pi }({S_k}) \in D({S_k}) $为从状态空间到决策空间的决策函数, 用以指导在状态$ {S_k} $下采取策略$ {d_k} $. MDP模型的目的也就是从所有可行策略中计算得到优化策略$ {\pi ^{\text{*}}} $, 从而最大化系统的长远回报. 因此, 系统目标函数为

    $$\mathop {\max }\limits_{\pi \in \prod } {{\rm{E}}^\pi }\left[\sum\limits_{k = 1}^\infty {\gamma C({S_k},{D^\pi }({S_k}))} \right]$$ (10)

    式中, $ \gamma $为一个固定的折扣因子, 为了便于计算, Bellman优化方程利用迭代方式计算目标函数, 其表达式为

    $$V({S_k}) = \mathop {\max }\limits_{{d_k} \in D({S_k})} (C({S_k},{d_k}) + \gamma {\rm{E}}[V({S_{k + 1}})|{S_k},{d_k}])$$ (11)

    式中, $ V({S_k}) $为状态$ {S_k} $的值函数.

    由于维度灾(式(11)的状态空间维度过大)的影响, 利用常规动态规划方法无法取得式(11)的精确解. 为此, 本文采用近似动态规划[20]的方法逼近式(11)的值函数.

    另外, 式(11)中还需要对期望值$ {\rm{E}}[V({S_{k + 1}})|{S_k}, {d_k}] $求极值, 不仅计算量巨大而且会带来较大的统计误差, 为此本文采用决策后状态思想[21-22], 将先求期望值后求极值问题转换为先求极值后求期望值问题, 从而降低了计算量和误差. 该思想在前后两个状态之间 $ ({S_k} $和$ {S_{k{\text{ + }}1}} )$引入了一个中间状态, 即决策后状态$ S_k^x $, 该状态在决策发生后事件发生前出现, 属于确定性状态, 因此, 原来式(8)的一步状态转移转换为两步, 即

    $$ \begin{array}{l} S_k^x = {S^{T,x}}\left( {{S_k},{d_k}} \right)\\ {S_{k +1 }} = {S^{T,w}}\left( {S_k^x,w\left( {{S_k},{d_k}} \right)} \right) \end{array} $$

    其中, ${S^{T,x} }$为确定性函数, ${S^{T,x}}$和${S^{T,w}}$组合后与式(8)的$ {S^T} $等价. 设决策后状态$ S_k^x $的价值为

    $$ V(S_k^x) = {\rm{E}}\left( {V\left( {{S_{k +1 }} } \right)|S_k^x} \right) $$ (12)

    将式(12)代入式(11), 优化方程修改为

    $$V({S_k}) = \mathop {\max }\limits_{{d_k} \in D({S_k})} (C({S_k},{d_k}) + \gamma V(S_{_k}^x))$$ (13)

    下面进一步讨论式(13)决策后状态价值的计算, 由于式(12)为迭代过程, 可以有

    $$ V(S_{k - 1}^x) ={\rm{ E}}\left( {V\left( {{S_k}} \right)|S_{k - 1}^x} \right) $$ (14)

    式(13)代入式(14)右边, 引入决策后状态价值的优化方程可表示为

    $$V(S_{_{k{\rm{ - 1}}}}^x) = {\rm{E}}\left[ {\mathop {\max }\limits_{{d_k} \in D({S_k})} (C({S_k},{d_k}) + \gamma V(S_{_k}^x))|S_{_{k - 1}}^x} \right]$$ (15)

    尽管式(15)通过引入决策后状态变量减小了随机事件带来的计算复杂性和统计误差, 但是对于式(15)而言, 复杂的状态空间导致的维度灾问题仍然存在. 为此, 本文通过构造基函数捕捉决策后状态的特征, 再以基函数为基础来设计近似函数以便逼近式(15)表示的价值函数. 这里基函数的设计尤为重要[23-24], 关系到最后近似价值函数的求解质量. 为此本文设计了6种基函数, 通过它们的非线性组合(参见第2.3节的神经网络)来表示价值函数. 设$ \varphi f(S_k^x) $表示基函数, $ f $为基函数特征, $ f \in F $.

    1)第1种基函数直接表示保障分队状态, 数量为 $ \left| {M'} \right| $, 计算式为

    $$ {\varphi _1}(S_k^x) = M_m^s $$

    2)第2种基函数捕捉保障分队执行保障任务(服务−客户对)的期望服务时间, 数量为 $ \left| {M'} \right| $. 设$ {I_{mr}} $为指示函数, 如果保障分队$ m $当前执行的保障任务为$ r $, 则为1, 否则为0, 计算式为

    $$ {\varphi _2}(S_k^x) = {I_{mr}}(M_m^\mu - t(S_k^x)) $$

    3)第3种基函数捕捉保障分队执行保障任务的优先级, 数量为 $\left| {M'} \right| $, 计算式为

    $$ {\varphi _3}(S_k^x) = {I_{mr}}(M_m^p) $$

    4)第4种基函数捕捉当前在队列中等待处理的保障需求优先级, 数量为 $\left| {R'} \right| $, 计算式为

    $$ {\varphi _4}(S_k^x) = R_r^p,\;\;R_r^s = 0 $$

    5)第5种基函数捕捉每一个需求在系统中的逗留时间, 数量为 $\left| {R'} \right| $, 计算式为

    $$ {\varphi _5}(S_k^x) = t(S_k^x) - R_r^t $$

    6)第6种基函数捕捉每一个保障分队与保障申请点的距离, 数量为 $ \left| {M'} \right| \times \left| {R'} \right| $, 该基函数结合保障分队的状态$ M_m^d $, 可以知道哪一个保障分队有足够油料分派或重规划到某需求点, 其计算式为

    $$ {\varphi _6}(S_k^x) = {d_{mr}} $$

    由于保障系统状态空间和决策空间较为复杂, 常规线性基函数组合的效果将会因此受到较大影响. 所以本文以基函数的输出结果作为神经网络输入, 即利用神经网络对基函数进行非线性组合[25], 从而达到逼近式(15)值函数的目的.

    为了使学习后的神经网络能够近似表达值函数, 本文设计了3层神经网络结构: 输入层、隐藏层和输出层. 如图1所示, 输入层包含$ \left| F \right| $个输入, 它的值为基函数的输出, 如图1中${\phi _{1,1}}$表示第1类基函数的第1个函数输出值, 输入节点个数为6类基函数的总个数, 输入层没有激活单元. 为了减小基函数评估值的波动, 帮助神经网络反向传播算法能够快速找到权重矩阵, 在输入到输入层之前, 本文对基函数评估值进行了均值归一化.

    图 1  神经网络结构示例
    Fig. 1  Illustration of neural network structure

    隐藏层包括$ H = \{ 1,2,\cdots,\left| H \right|\} $个神经元, 其个数$ \left| H \right| $为超参数, 所以隐藏层的输入表达式为

    $${I_h}(S_k^x) = \sum\limits_{f \in F} {{{\boldsymbol{\theta }}_{{{f,h}}}}{\varphi _f}(S_k^x),\;\;\forall h \in H} $$ (16)

    式中, $ {I_h} $表示隐藏层中第$ h $个神经元的输入, ${{\boldsymbol{\theta}} _{f,h}}$为$ \left| F \right| \times \left| H \right| $的权重矩阵, 控制输入层到隐藏层的映射关系, 隐藏层神经元的激活函数为sigmoid函数, 表示为

    $$\sigma (i) = \frac{1}{{1 - {{\rm{e}}^{ - i}}}}$$

    因此, 隐藏层的输出表达式为

    $$ {O_h}(S_k^x) = \sigma ({I_h}(S_k^x)) $$ (17)

    其中, $ {O_h} $为第$ h $个神经元的输出, $ \left| H \right| $个隐藏层神经元输出与输出层权重组合生成输出层的输入, 其表达式为

    $${I_o}(S_k^x) = \sum\limits_{h \in H} {{{\boldsymbol{\theta }}_{h}}{O_h}(S_k^x)} $$ (18)

    式中, ${{\boldsymbol{\theta}} _h}$为$ \left| H \right| \times 1 $的权重矩阵, 控制隐藏层到输出层的映射关系, 输出层只有一个神经元, 激活函数与隐藏层的相同, 也为sigmoid函数, 其表达式为

    $$ V(S_k^x|{\boldsymbol{\theta}} ) = \sigma ({I_o}(S_k^x)) $$ (19)

    式中, ${\boldsymbol{\theta }}= ({{\boldsymbol{\theta}} _{f,h}},{{\boldsymbol{\theta}} _h})$为神经网络中需要学习的权重参数.

    本文设计了基于强化学习策略迭代[26]的神经网络学习算法, 如图2所示, 算法分为2层循环, 第1层循环(内层循环)为策略评估, 利用给定策略(上一次循环更新的神经网络), 在模拟产生的事件驱动下, 生成动态演进的状态价值并作为样本点保存; 第2层循环(外层循环)为策略改进, 利用内层循环保存的样本点改进神经网络的权重矩阵.

    图 2  策略迭代算法流程
    Fig. 2  Workflow of policy iteration algorithm

    策略迭代算法外循环每次进行策略改进时都需要调用神经网络反向传播算法对权重参数进行训练, 为了防止出现过拟合和泛化误差, 本文在神经网络代价函数中加入了惩罚项, 即

    $$\begin{split} L( {\boldsymbol{\theta }}) =\;& \frac{1}{{2K}}{\left( {{V_k} - V(S_{k - 1}^x| {\boldsymbol{\theta }})} \right)^2} + \\ &\frac{\eta }{{2K}}\left( {\sum\limits_{f \in F} {\sum\limits_{h \in H} {{{({\theta _{f,h}})}^2} + \sum\limits_{h \in H} {{{({{\boldsymbol{\theta}} _h})}^2}} } } } \right) \\ \end{split} $$

    其中, $ K $个样本点中, $ V(S_{{{k - 1}}}^x|{\boldsymbol{\theta }}) $在步骤2.4中存储, 为神经网络估算值; $ {V_k} $在步骤2.7中存储, 为标签值; 正则化参数$ \eta $用于平衡模型复杂度和边际误差. 本文采用了自适应预估方法来计算合适的$ \eta $值, 计算式为

    $$ \eta = \max \{ |v + 3{\sigma _v}\left| , \right|v - 3{\sigma _v}|\} $$

    式中, $ v $为样本数据的均值, $ {\sigma _v} $为样本数据的标准差.

    需要计算得到$ {\boldsymbol{\theta}} {\text{*}} $值, 使得代价函数最小, 即${\boldsymbol{ \theta}} {\text{*}} = {\rm{ argmin}}\{ L({\boldsymbol{\theta}} )\}$. 为了提高计算速度, 本文采用拟牛顿法求解, 拟牛顿法需要的梯度信息可以利用神经网络的反向传播算法计算得到.

    为了平滑${\boldsymbol{ \theta }}$权重矩阵, 本文采用式(20)来更新$ {\boldsymbol{\theta}} $:

    $$ {\boldsymbol{\theta}} = {a_n}{\boldsymbol{\theta}} {\text{*}} + \left( {1 - {a_n}} \right){\boldsymbol{\theta}} $$ (20)

    其中, ${a_n}=1/{n^\beta }$, $ \beta \in (0.3,1] $, $a_n $的下标值$ n $与策略改进外循环次数$ n $一致, 通过$ {a_n} $控制$ {\boldsymbol{\theta }}$值, 在历史值 $( {\boldsymbol{\theta}}) $ 与新估计值 $({\boldsymbol{ \theta }}{\text{*}}) $ 之间取得平衡. 随着策略改进迭代次数$ n $的增加, 本算法越来越偏重于过去$ n-1 $次迭代得到的历史值.

    在策略迭代算法的每一次外循环 (策略改进) 中, 都会按式(18)对神经网络的权重进行更新, 如果$ n < N $, 则算法开始下一轮循环. 算法中可调节参数包括$ N $、$ K $、$ \left| H \right| $、$ \eta $和$ \beta $, 其中, $ N $为策略改进的迭代次数, $ K $为策略评估的迭代次数, $ \left| H \right| $为隐藏层节点的个数, $ \eta $是样本估计的正则化项, $ \beta $是步长参数.

    建立的神经网络模型可以看作一个具有预测能力的调度机. 其使用时机为: 当战场态势变化, 例如出现新的保障申请, 如第1.1节描述的当前系统状态随之改变. 使用步骤如下:

    1)在第1.2.2节描述的决策约束下, 生成各种可能的决策动作;

    2)按第1.3节状态转移矩阵, 基于当前状态, 采取步骤1)生成的各种可能的决策动作, 形成下一步状态集合$S; $

    3)将下一步状态集合中的每一个状态作为第2.2节叙述的基函数输入, 基函数的输出为第1阶段的线性预测值, 用于降低计算复杂性;

    4)为了具有非线性预测能力, 如图1所示, 基函数的输出作为神经网络模型的输入, 此时神经网络的输出为下一步状态的价值$V(S) $, 该价值为第2.4节Bellman方程迭代计算的 “期望” 价值;

    5)当状态集合S中的每一个状态都经过步骤3)和步骤4), 计算出相应期望价值后(该过程可以并行执行), 导致下一步状态价值最大的决策可看作当前最优决策.

    本节通过一个分布式战场保障场景来验证动态调度算法的适用性. 由于MDP求解算法超参数较多, 通过实验设计测试了不同参数设置对动态算法的影响, 并比较了动态算法与两个比对策略的性能差异.

    本文以图3所示的一个典型的分布式作战行动为背景, 当交战区域中我方部队发出保障申请后, 使用上文提出的数学模型及逼近算法计算调度结果, 即决定是否接受该申请, 如果接受该申请, 分派哪一支分队处理. 出于安全考虑, 删除了图3的背景地图, 图3中有2个保障基地和2个前进基地, 与保障基地相比, 前进基地较小, 当没有申请所需物资装备时, 需要从保障基地补充. 图3中还包括54个交战地点, 即保障申请点, 分属12个区域, 由其发出保障申请.

    图 3  实验案例
    Fig. 3  Experiment case

    本文使用泊松分布生成保障需求的产生概率, 为了能够接近实战背景, 泊松分布的到达率参数由式(21)生成, 即

    $$ {\lambda _{kz}} = \lambda {p_z}{p_{kz}} $$ (21)

    式中, $\lambda $为保障申请发生率; $ {p_z} $为条件概率, 表示当发生保障申请时, 该申请是从交战区域$ z $发出的概率; $ {p_{kz}} $为条件概率, 表示当出现保障申请且该申请从交战区域$ z $发出时, 该申请优先级为$ k $的概率. 实验中保障申请发生率$\lambda $设为1/45, 即平均每隔45 min发出一个保障申请, 请求保障分队执行任务. 为了集中反映系统的调度能力, 条件概率$ {p_{kz}} $中紧急保障和一般保障的比例为0.8和0.2. 式(9)中紧急保障的优先级权重为0.9, 一般保障的权重为0.1, 式(10)中折扣因子$ \gamma $在实验中设为0.99, 该设置使得系统重视未来事件的影响.

    为了检验动态算法的性能, 实验设计了2个比对策略. 比对策略A采用常规的最近分配原则, 该策略认为当前没有执行任务的保障分队为可用资源, 当出现保障申请时, 分配离该申请点(交战区域)最近的可用分队执行此项保障任务, 比对策略A不具备抢占调度能力. 比对策略B将比对策略A进行了扩展, 当出现优先级更高的保障申请时, 允许其抢占其他保障分队当前执行的低优先级任务. 两个比对策略使用的都是最近分配原则, 该原则实际上只考虑当前的立即奖励进行决策(与式(9)相似), 没有用到预测的未来信息(式(10)). 另外, 由于立即奖励没有考虑重部署决策, 所以这两个比对策略都不具备重部署能力.

    本文采用了全因子实验设计来检验不同的超参数对算法性能的影响, 主要超参数设置如下: 策略改进迭代次数$ N = \{ 1,2,\cdots,40\} $, 策略评估迭代次数$ K = \{ 500,1\,000,2\,000,4\,000\} $, 步长参数$\beta = \{ 0.3, 0.5, 0.7, 0.9\}$, 隐藏层节点数$ \left| H \right| = 7 $, 正则化项$ \eta $采用自适应预估方法计算. 为了能够得到合理的置信度, 每一个组合运行100遍仿真, 每次仿真时长为1000 min以上. 仿真实验结果如表1所示, 其中, 性能相对改进量计算式为

    表 1  仿真实验结果
    Table 1  Simulation results
    N K β Impr1,A Impr1,B Impr2,A Impr2,B
    30 500 0.3 8.2±0.2 5.3±0.2 6.9±0.2 3.1±0.1
    35 1000 0.3 8.6±0.2 5.6±0.1 7.8±0.1 3.2±0.2
    25 2000 0.3 9.5±0.2 6.5±0.2 7.2±0.2 4.2±0.1
    18 4000 0.3 9.3±0.2 6.4±0.2 5.1±0.1 2.9±0.1
    10 500 0.5 8.3±0.2 5.3±0.1 6.9±0.2 2.7±0.2
    9 1000 0.5 8.3±0.2 5.3±0.1 7.4±0.2 2.3±0.2
    28 2000 0.5 9.6±0.2 6.6±0.2 6.8±0.1 2.7±0.1
    12 4000 0.5 8.2±0.2 5.2±0.1 7.1±0.1 4.2±0.1
    10 500 0.7 8.4±0.2 5.4±0.1 5.9±0.2 4.1±0.2
    6 1000 0.7 8.0±0.1 5.1±0.1 7.8±0.1 4.5±0.1
    25 2000 0.7 9.0±0.2 6.0±0.2 8.1±0.2 4.4±0.2
    4 4000 0.7 8.4±0.2 5.4±0.1 6.4±0.2 4.3±0.2
    30 500 0.9 8.1±0.2 5.2±0.1 5.9±0.1 2.1±0.1
    7 1000 0.9 7.8±0.1 4.9±0.1 7.2±0.1 4.9±0.2
    33 2000 0.9 9.4±0.2 6.4±0.2 5.7±0.2 3.4±0.1
    25 4000 0.9 8.4±0.1 5.4±0.1 5.3±0.2 2.9±0.2
    下载: 导出CSV 
    | 显示表格
    $$ {{Imp}}{{{r}}_i}_{,j} = \frac{{V_i} - {V_j}}{V_j} $$ (22)

    其中, $ {V_i} $为采用$ i $算法计算得到的价值, $ {V_j} $为采用$ j $算法计算得到的价值, 表1中${{Imp{r}}_{1,A}}$和${{Imp{r}}_{1,B}}$分别为本文基于神经网络的动态算法相较于比对策略A和策略B得到的性能相对改进量.

    另外, 为了考量神经网络模型的性能, 设计了基函数的线性回归模型作为比较算法, Impr2,AImpr2,B分别为线性回归模型相较于比对策略A和策略B得到的性能相对改进量. 表1中仿真结果数据的置信度都为95%.

    表1中左边3列为仿真实验中设置的算法参数组合, 为了节省篇幅, 其中$ N $值只取$ (K,\beta ) $因子组合中算法性能最大的取值, 其他4列表示动态算法相较于两个比对策略的总奖励回报 (式(15)) 的提高率, 取置信度为95%的置信区间. 从表1中可以看出, 当$ \lambda = 1/45 $时, 无论哪一种参数组合, 重规划动态调度算法生成的方案都要优于比对策略, 特别是当$ N = 28 $, $ K = 2\;000 $, $ \beta = 0.5 $时 (表1中粗体字所示) 效果最好. 另外, 近似函数为神经网络模型时, 调度性能要明显超过基于线性回归模型的近似函数, 这主要是因为调度算法中用基函数表示的影响因素相互交织, 呈非线性关系, 所以用神经网络拟合效果较好.

    图4显示了策略评估迭代次数$ K = 2\;000 $时, 无论步长参数$ \beta $取何值, 相较于比对策略A, 动态调度算法的性能都为最佳值. 当$ K $在增加到2000前, 动态算法的性能逐渐提高; 当大于2000后, 性能开始下降; 在4000次迭代时性能明显下降. 主要原因是在$ K = 4\;000 $时, 本仿真实验的样本数据集增加到一定阈值, 导致神经网络模型过拟合, 从而产生低效率的调度结果. 另外, 从表1图4都可以看出, $\beta $取较小值 (0.3或0.5) 时, 算法收敛速度较慢, 能够增加算法的调度效果.

    图 4  相较于比对策略A的性能改进
    Fig. 4  Improvement compared to policy A

    表2的第1列为调度策略; 第2列和第3列分别为当$ N = 28 $, $ K = 2\;000 $, $ \beta = 0.5 $时, 不同优先级的保障申请响应时间 (从发出申请至保障分队到达的时间间隔) 的置信区间 (置信度为95%); 第4列为调度方案$ V $值提高百分比的置信区间. 从表2可以看出, 具备抢占调度能力的策略B和动态调度算法都比不具备抢占能力的策略A性能好, 另外还有一个现象也需要引起注意, 随着第4列显示的性能提高, 在紧急保障申请的响应时间减少的同时, 一般保障申请的响应时间却在增加. 估计这与抢占调度特性有关, 它抢占低优先级保障任务转而去执行高优先级任务, 导致低优先级任务服务时间延长.

    表 2  动态算法和比对策略的性能比较
    Table 2  Comparison of the algorithms and policies
    调度策略响应时间(min)性能相对改进量(%)
    紧急申请一般申请
    比对策略A56.3±0.256.8±0.2
    比对策略B53.4±0.157.7±0.22.9±0.1
    动态调度48.1±0.157.9±0.19.6±0.2
    下载: 导出CSV 
    | 显示表格

    为了进一步检验算法的鲁棒性, 在模拟一天24小时的保障仿真中, 对保障申请发生率$\lambda $和交战区域位置进行了数次改变. 从图5中可以看出, 响应时间也相应发生了较大波动, 但是动态调度算法性能还是明显好于比对策略.

    图 5  响应时间变化情况
    Fig. 5  Response delay with time

    保障申请率的变化对调度系统也有较大影响, 为此, 设置保障申请发生率$\lambda $从1/25减小到1/65, 图6反映了动态调度算法和比对策略B相较于策略A的性能相对改进量变化情况. $\lambda $减小意味着保障申请发生率减小, 动态调度算法和策略B的性能相对改进量也逐渐减小, 表示抢占调度和重部署带来的性能优势也在减小, 因此在低强度战场上动态调度算法性能优势不明显, 在保障申请率较高的高强度战场上抢占调度和重部署能力才能取得较明显的效果.

    图 6  保障申请发生率的敏感性分析
    Fig. 6  Sensitivity analysis of maintenance request occurrence rate

    最后通过4个场景来定性分析重规划能力的优势. 第1个场景状态中, 假设某作战部队申请后装保障, 此时只有离它较远的保障分队空闲, 离它较近的保障分队预测能在较短时间内完成正在执行的任务. 由于比对策略A和B缺乏预测能力, 会把较远的空闲保障分队分派出去, 而动态调度算法需要最大化基于长期回报的奖励函数, 所以先把该次申请放入队列, 等候较近的保障分队空闲后再分派.

    在第2个场景的系统状态中, 某保障分队刚被分派执行某高烈度区域的一个低优先级保障任务, 这时同样区域发出了一个高优先级保障申请, 此状态下, 除非指挥员发出新的分派指令, 否则策略A将保持该保障分队的任务不变. 很明显此时好的调度算法应该主动中断保障分队的当前任务, 重新分派它执行高优先级的紧急任务, 从而取得更高的回报价值.

    考虑第3个场景的系统状态, 某保障分队刚被分派执行某高烈度区域的一个低优先级保障任务, 这时另一个较远距离的低烈度区域发出高优先级保障申请, 此状态下动态调度算法需要根据神经网络模型的预测结果权衡, 如果 “重规划” 动作产生的状态价值较小, 则不应该实施抢占.

    考虑第4个场景的系统状态, 某保障分队快要完成当前任务准备返回基地, 这时一个离它较远(超过剩余油料支持路程)的区域发出保障申请. 该状态下, 比对策略的调度方案是要求该保障分队返回原基地补充后再执行新任务. 而具有重部署能力的动态调度算法会指示保障分队前往距离申请点近的地方补充油料, 从而更快地执行新任务.

    综上所述, 与比对策略不同, 动态调度算法的决策基础是通过基函数组合的神经网络模型, 它能够捕捉当前事件和可预测的未来事件带来的影响, 因此能够产生更优的调度结果.

    本文主要研究了战时后装保障中重规划(抢占调度、重分配及重部署)问题, 以便生成高质量的保障资源调度策略, 提高后装保障智能化水平. 针对重规划问题设计了一个无限时域马尔科夫决策过程模型, 其目标是最大化保障调度系统的长期折扣奖励. 为了解决重规划模型的维度灾问题, 利用神经网络对基函数进行非线性组合, 从而达到逼近值函数的目的, 并提出了基于强化学习策略迭代的神经网络学习算法. 最后设计了一个高强度分布作战仿真场景, 检验了不同问题特征及算法参数对调度性能的影响, 验证了动态调度算法的适用性.

    本文中MDP模型的描述是对保障调度适用的对象或场景的限制条件, 对于超出该模型描述的保障调度, 也具有一定的借鉴意义. 另外, 如果调度场景与对象变化较大, 如作战规模过大, 保障基地数量位置动态变化时, 由于机器学习能力限制, 逼近函数(本文采用基函数+神经网络)也需要相应调整.

    下一步工作需要改进当前研究的一些不足之处, 例如在高强度作战中, 可能某次保障申请需要的资源较大, 超过了一个保障分队或基地的能力, 需要调度多个分队协同保障. 协同保障方面已经有一些相关研究成果, 正在考虑如何与之结合. 另一个重要研究方向是进一步扩展保障分队的类型及相应特性, 这样可以比较不同保障分队的调度性能. 另外, 错误定义的保障需求优先级会影响保障分队的调度, 这也是下一步需要解决的难点.

  • 图  1  神经网络结构示例

    Fig.  1  Illustration of neural network structure

    图  2  策略迭代算法流程

    Fig.  2  Workflow of policy iteration algorithm

    图  3  实验案例

    Fig.  3  Experiment case

    图  4  相较于比对策略A的性能改进

    Fig.  4  Improvement compared to policy A

    图  5  响应时间变化情况

    Fig.  5  Response delay with time

    图  6  保障申请发生率的敏感性分析

    Fig.  6  Sensitivity analysis of maintenance request occurrence rate

    表  1  仿真实验结果

    Table  1  Simulation results

    N K β Impr1,A Impr1,B Impr2,A Impr2,B
    30 500 0.3 8.2±0.2 5.3±0.2 6.9±0.2 3.1±0.1
    35 1000 0.3 8.6±0.2 5.6±0.1 7.8±0.1 3.2±0.2
    25 2000 0.3 9.5±0.2 6.5±0.2 7.2±0.2 4.2±0.1
    18 4000 0.3 9.3±0.2 6.4±0.2 5.1±0.1 2.9±0.1
    10 500 0.5 8.3±0.2 5.3±0.1 6.9±0.2 2.7±0.2
    9 1000 0.5 8.3±0.2 5.3±0.1 7.4±0.2 2.3±0.2
    28 2000 0.5 9.6±0.2 6.6±0.2 6.8±0.1 2.7±0.1
    12 4000 0.5 8.2±0.2 5.2±0.1 7.1±0.1 4.2±0.1
    10 500 0.7 8.4±0.2 5.4±0.1 5.9±0.2 4.1±0.2
    6 1000 0.7 8.0±0.1 5.1±0.1 7.8±0.1 4.5±0.1
    25 2000 0.7 9.0±0.2 6.0±0.2 8.1±0.2 4.4±0.2
    4 4000 0.7 8.4±0.2 5.4±0.1 6.4±0.2 4.3±0.2
    30 500 0.9 8.1±0.2 5.2±0.1 5.9±0.1 2.1±0.1
    7 1000 0.9 7.8±0.1 4.9±0.1 7.2±0.1 4.9±0.2
    33 2000 0.9 9.4±0.2 6.4±0.2 5.7±0.2 3.4±0.1
    25 4000 0.9 8.4±0.1 5.4±0.1 5.3±0.2 2.9±0.2
    下载: 导出CSV

    表  2  动态算法和比对策略的性能比较

    Table  2  Comparison of the algorithms and policies

    调度策略响应时间(min)性能相对改进量(%)
    紧急申请一般申请
    比对策略A56.3±0.256.8±0.2
    比对策略B53.4±0.157.7±0.22.9±0.1
    动态调度48.1±0.157.9±0.19.6±0.2
    下载: 导出CSV
  • [1] 昝翔, 陈春良, 张仕新, 王铮, 刘彦. 多约束条件下战时装备维修任务分配方法. 兵工学报, 2017, 38(8): 1603-1609 doi: 10.3969/j.issn.1000-1093.2017.08.019

    Zan X, Chen C L, Zhang S X, Wang Z, Liu Y. Task Allocation Method for Wartime Equipment Maintenance under Multiple Constraint Conditions. Acta Armamentarii, 2017, 38(8): 1603-1609 doi: 10.3969/j.issn.1000-1093.2017.08.019
    [2] 何岩, 赵劲松, 王少聪, 刘亚东, 周玄. 基于维修优先级的战时装备维修保障力量优化调度. 军事交通学院学报, 2019, 21(5): 42-46

    He Y, Zhao J S, Wang S C, Liu Y D, Zhou X. Maintenance Priority-Based Optimization and Scheduling of Equipment Maintenance Support Strength in Wartime. Journal of Military Transportation University, 2019, 21(5): 42-46
    [3] 曹继平, 宋建社, 王正元, 黄超. 战时装备维修保障资源优化调度方法研究. 系统工程与电子技术, 2007, 29(6): 915-919 doi: 10.3321/j.issn:1001-506X.2007.06.019

    Chao J P, Song J S, Wang Z Y, Huang C. Study on optimization dispatching method of the equipment maintenance support resources in wartime. Systems Engineering and Electronics, 2007, 29(6): 915-919 doi: 10.3321/j.issn:1001-506X.2007.06.019
    [4] 曾斌, 姚路, 胡炜. 考虑不确定因素影响的保障任务调度算法. 系统工程与电子技术, 2016, 38(3): 595-601

    Zeng B, Yao L, Hu W. Scheduling Algorithm for Maintenance Tasks under uncertainty. Systems Engineering and Electronics, 2016, 38(3): 595-601
    [5] 任帆, 吕学志, 王宪文, 曲长征. 巡回修理中的维修任务调度策略. 火力与指挥控制, 2013, 38(12): 171-175 doi: 10.3969/j.issn.1002-0640.2013.12.045

    Ren F, Lv X Z, Wang X W, Qu C Z. Research on Maintenance Task Scheduling Strategies in Contact Repairing. Fire Control & Command Control, 2013, 38(12): 171-175 doi: 10.3969/j.issn.1002-0640.2013.12.045
    [6] 陈春良, 刘彦, 王生凤, 陈伟龙, 等. 装备维修任务调度研究综述. 装甲兵工程学院学报. 2018, 32(1): 2-11

    Chen C L, Liu Y, Wang S F, Chen W L. Summary of Research on Equipment Maintenance Task Scheduling. Journal of Academy of Armored Force Engineering, 2018, 32(1): 2-11
    [7] 师娇, 刘宸宁, 冷德新, 郑鑫, 李宝玉. 面向未来作战的装备智能化保障模式研究. 兵器装备工程学报, 2019, 29(10): 226-229

    Shi J, Liu C N, Leng D X, Li B Y. Weapon Intelligent Support Mode of Future War. Journal of Ordnance Equipment Engineering, 2019, 29(10): 226-229
    [8] 梁星星, 冯旸赫, 马扬, 程光权, 黄金才, 王琦, 等. 多Agent深度强化学习综述. 自动化学报, 2020, 46(12): 2537−2557

    Liang X X, Feng Y H, Ma Y, Cheng G Q, Huang J C, Wang Q, et al. Deep multi-agent reinforcement learning: a survey. Acta Automatica Sinica, 2020, 46(12): 2537−2557
    [9] 孙长银, 穆朝絮. 多智能体深度强化学习的若干关键科学问题. 自动化学报, 2020, 46(7): 1301−1312

    Sun C Y, Mu C X. Important scientific problems of multi-agent deep reinforcement learning. Acta Automatica Sinica, 2020, 46(7): 1301−1312
    [10] Ji S, Zheng Y, Wang Z, Li T. A deep reinforcement learning-enabled dynamic redeployment system for mobile ambulances. In: Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies. Washington, USA: IEEE Press, 2019. 1−20
    [11] Hamasha M M, Rumbe G. Determining optimal policy for emergency department using Markov decision process, World Journal of Engineering, 2017, 14(5): 467-472 doi: 10.1108/WJE-12-2016-0148
    [12] Ni Y, Wang K, Zhao L. A Markov decision process model of allocating emergency medical resource among multi-priority injuries. International Journal of Mathematics in Operational Research, 2017, 10(1): 1-17 doi: 10.1504/IJMOR.2017.080738
    [13] Lee E K, Viswanathan H, Pompili D. RescueNet: Reinforcement-learning-based communication framework for emergency networking. Computer Networks, 2016, 98(5), 14-28
    [14] Nadi A, Edrisi A. Adaptive multi-agent relief assessment and emergency response. International journal of disaster risk reduction, 2017, 24(6): 12-23
    [15] Keneally S K, Robbin M J, Lunday B J. A markov decision process model for the optimal dispatch of military medical evacuation assets. Health care management science, 2016, 19(2): 111-129 doi: 10.1007/s10729-014-9297-8
    [16] Huang Q, Huang R, Hao W, et al. Adaptive Power System Emergency Control Using Deep Reinforcement Learning. IEEE Transactions on Smart Grid, 2020, 11(2): 1171-1182 doi: 10.1109/TSG.2019.2933191
    [17] 王云鹏, 郭戈. 基于深度强化学习的有轨电车信号优先控制. 自动化学报, 2019, 45(12): 2366−2377

    Wang Y P, Guo G. Signal priority control for trams using deep reinforcement learning. Acta Automatica Sinica, 2019, 45(12): 2366−2377
    [18] Wang C, Ju P, Lei S, et al. Markov Decision Process-based Resilience Enhancement for Distribution Systems: An Approximate Dynamic Programming Approach. IEEE Transactions on Smart Grid, 2020, 11(3): 2498 – 2510 doi: 10.1109/TSG.2019.2956740
    [19] Senn M, Link N, Pollak J, et al. Reducing the computational effort of optimal process controllers for continuous state spaces by using incremental learning and post-decision state formulations. Journal of Process Control, 2014, 24(3): 133-143 doi: 10.1016/j.jprocont.2014.01.002
    [20] Berthier E, Bach F. Max-plus linear approximations for deterministic continuous-state markov decision processes. IEEE Control Systems Letters, 2020, 4(3): 767-772 doi: 10.1109/LCSYS.2020.2973199
    [21] Li J, Zhou Y, Chen H, Shi Y M. Age of aggregated information: Timely status update with over-the-air computation. In: Proceedings of GLOBECOM IEEE Global Communications Conference. Washington, USA: IEEE Press, 2020. 1−6
    [22] Wang C, Lei S, Ju P, et al. MDP-based distribution network reconfiguration with renewable distributed generation: Approximate dynamic programming approach. IEEE Transactions on Smart Grid, 2020, 11(4): 3620-3631 doi: 10.1109/TSG.2019.2963696
    [23] Sharma H, Jain R, Gupta A. An empirical relative value learning algorithm for non-parametric mdps with continuous state space. In: Proceedings of the 18th European Control Conference (ECC). Washington, USA: IEEE Press, 2019. 1368−1373
    [24] Madjiheurem S, Toni L. Representation learning on graphs: A reinforcement learning application. In: Proceedings of the 22nd International Conference on Artificial Intelligence and Statistics. Okinawa, Japan: PMLR, 2019. 3391−3399
    [25] Bai W, Zhou Q, Li T, et al. Adaptive reinforcement learning neural network control for uncertain nonlinear system with input saturation. IEEE transactions on cybernetics, 2019, 50(8): 3433-3443
    [26] Bertsekas D. Multiagent reinforcement learning: Rollout and policy iteration. IEEE/CAA Journal of Automatica Sinica, 2021, 8(2): 249-272 doi: 10.1109/JAS.2021.1003814
  • 期刊类型引用(1)

    1. 马晓毓,臧绍飞,马建伟,张淼. 基于蚁群决策与滚动控制的多目的地航迹规划. 电光与控制. 2023(08): 26-32 . 百度学术

    其他类型引用(3)

  • 加载中
图(6) / 表(2)
计量
  • 文章访问数:  1000
  • HTML全文浏览量:  263
  • PDF下载量:  153
  • 被引次数: 4
出版历程
  • 收稿日期:  2020-06-14
  • 网络出版日期:  2021-03-11
  • 刊出日期:  2023-07-20

目录

/

返回文章
返回