2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

结合聚类分解的增强蚁群算法求解复杂绿色车辆路径问题

胡蓉 李洋 钱斌 金怀平 向凤红

李繁飙, 黄培铭, 阳春华, 廖力清, 桂卫华. 基于非线性干扰观测器的飞机全电刹车系统滑模控制设计. 自动化学报, 2021, 47(11): 2557−2569 doi: 10.16383/j.aas.c201041
引用本文: 胡蓉, 李洋, 钱斌, 金怀平, 向凤红. 结合聚类分解的增强蚁群算法求解复杂绿色车辆路径问题. 自动化学报, 2022, 48(12): 3006−3023 doi: 10.16383/j.aas.c190872
Li Fan-Biao, Huang Pei-Ming, Yang Chun-Hua, Liao Li-Qing, Gui Wei-Hua. Sliding mode control design of aircraft electric brake system based on nonlinear disturbance observer. Acta Automatica Sinica, 2021, 47(11): 2557−2569 doi: 10.16383/j.aas.c201041
Citation: Hu Rong, Li Yang, Qian Bin, Jin Huai-Ping, Xiang Feng-Hong. An enhanced ant colony optimization combined with clustering decomposition for solving complex green vehicle routing problem. Acta Automatica Sinica, 2022, 48(12): 3006−3023 doi: 10.16383/j.aas.c190872

结合聚类分解的增强蚁群算法求解复杂绿色车辆路径问题

doi: 10.16383/j.aas.c190872
基金项目: 国家自然科学基金(61963022, 51665025), 云南省应用基础研究计划重点项目(202201AS070030)资助
详细信息
    作者简介:

    胡蓉:昆明理工大学信息工程与自动化学院副教授. 2004年获得清华大学自动化系硕士学位. 主要研究方向为调度理论与方法, 智能计算, 决策支持系统. E-mail: ronghu@vip.163.com

    李洋:昆明理工大学信息工程与自动化学院硕士研究生. 2009年获得昆明理工大学电力工程学院学士学位. 主要研究方向为调度理论与智能优化算法. E-mail: yang.l.liam@hotmail.com

    钱斌:昆明理工大学信息工程与自动化学院教授. 2009年获得清华大学自动化系博士学位. 主要研究方向为调度理论与方法, 智能优化. 本文通信作者.E-mail: bin.qian@vip.163.com

    金怀平:昆明理工大学信息工程与自动化学院副教授. 2016年获得北京理工大学博士学位. 主要研究方向为智能计算和软测量方法.E-mail: jinhuaiping@gmail.com

    向凤红:昆明理工大学信息工程与自动化学院教授. 2002年获得昆明理工大学博士学位. 主要研究方向为智能优化与控制. E-mail: xiangfh5447@sina .com.cn

  • 中图分类号: TP399

An Enhanced Ant Colony Optimization Combined With Clustering Decomposition for Solving Complex Green Vehicle Routing Problem

Funds: Supported by National Natural Science Foundation of China (61963022, 51665025) and Applied Basic Research Key Project of Yunnan Province (202201AS070030)
More Information
    Author Bio:

    HU Rong Associate professor at the School of Information Engineering and Automation, Kunming University of Science and Technology. She received her master degree from Tsinghua University in 2004. Her research interest covers scheduling theory and method, intelligent computation, and decision support system

    LI Yang Master student at the School of Information Engineering and Automation, Kunming University of Science and Technology. He received his bachelor degree from Kunming University of Science and Technology in 2009. His research interest covers scheduling methods and intelligent optimization algorithms

    QIAN Bin Professor at the School of Information Engineering and Automation, Kunming University of Science and Technology. He received his Ph.D. degree from Tsinghua University in 2009. His research interest covers scheduling theory and method, and intelligent optimization. Corresponding author of this paper

    JIN Huai-Ping Associate professor at the School of Information Engineering and Automation, Kunming University of Science and Technology. He received his Ph.D. degree from Beijing Institute of Technology in 2016. His research interest covers intelligent computation and soft sensor methods

    XIANG Feng-Huang Professor at the School of Information Engineering and Automation, Kunming University of Science and Technology. He received his Ph.D. degree from Kunming University of Science and Technology in 2002. His research interest covers intelligent optimization and control

  • 摘要: 针对带时间窗的低能耗多车场多车型车辆路径问题(Low-energy-consumption multi-depots heterogeneous-fleet vehicle routing problem with time windows, LMHFVPR_TW), 提出一种结合聚类分解策略的增强蚁群算法(Enhanced ant colony optimization based on clustering decomposition, EACO_CD)进行求解. 首先, 由于该问题具有强约束、大规模和NP-Hard等复杂性, 为有效控制问题的求解规模并合理引导算法在优质解区域搜索, 根据问题特点设计两种基于K-means的聚类策略, 将LMHFVPR_TW合理分解为一系列带时间窗的低能耗单车场单车型车辆路径子问题(Low-energy-consumption vehicle routing problem with time windows, LVRP_TW); 其次, 本文提出一种增强蚁群算法(Enhanced ant colony optimization, EACO)求解分解后的各子问题(LVRP_TW), 进而获得原问题的解. EACO不仅引入信息素挥发系数控制因子进一步动态调节信息素挥发系数, 从而有效控制信息素的挥发以提高算法的全局搜索能力, 而且设计基于4种变邻域操作的两阶段变邻域局部搜索(Two-stage variable neighborhood search, TVNS)来增强算法的局部搜索能力. 最后, 在不同规模问题上的仿真和对比实验验证了所提EACO_CD的有效性.
  • 近年来, 多智能体系统(Multi-agent systems, MASs)分布式协同控制问题的研究取得了显著进展, 引发各个领域的广泛关注. 该研究范畴涵盖生物系统中的群体行为[1]、分布式传感器网络技术[2]和智能电网管理[3]等多个方面. 一致性问题作为支撑MASs分布式协同控制的基础问题, 不仅在理论层面具有深远的意义, 而且在实际应用中展现出巨大的价值. 一致性控制的根本挑战在于设计高效的一致性算法或协议, 旨在确保MASs的所有智能体能够逐步调整其状态或输出, 最终达到相同, 即实现智能体的一致性.

    目前, MASs一致性控制的研究可以根据系统中领航者的数量划分为三种类别: 无领航者的一致性控制、领导−跟随一致性控制(一个领航者)以及包含多个领航者的一致性控制[46]. 到目前为止, MASs一致性控制的研究涵盖越来越复杂的智能体动态特性和通信网络拓扑, 包括但不限于线性[7]或非线性MASs[8]、整数阶[9]或分数阶模型[10]、固定[11]或时变拓扑[12]、输入延迟[13]、输入饱和[14]等. 在上述复杂情况下, 各种适当的控制算法被提出以实现一致性控制. 此外, 由于智能体的通信和计算资源有限, 基于事件触发的控制策略[1516]被用于实现一致性控制, 有效减少了不必要的能源消耗. 然而, 这些研究成果只能实现渐近一致性控制, 即在理论上调节时间趋于无穷. 在实际应用中, 由于渐近一致性的收敛时间较长, 难以满足任务的时效性需求.

    相比之下, 有限时域一致性被认为是一种更为理想的控制策略. 有限时域控制不仅能够缩短闭环系统的收敛时间, 还具备更好的鲁棒性和抗干扰能力[17]. 文献[18]提出一种分散模型预测控制方案, 实现了一阶MASs的有限时域状态一致性控制. 文献[19]采用分布式线性二次型博弈方法, 实现了离散时间二阶MASs的有限时域状态一致性控制. 此外, 文献[2023]研究离散时变MASs的$ H_\infty $有限时域状态一致性控制问题. 上述有限时域状态一致性协议的设计通常假设智能体动力学模型已知[2023], 或仅考虑简单的一阶[18]、二阶[19]系统. 然而, 一阶和二阶系统无法充分描述实际系统的动态特性, 而且在实际应用中, 系统模型信息通常是未知的或难以获取的. 传统的有限时域一致性协议在系统模型未知的情况下并不适用, 难以满足实际应用的需求.

    自适应动态规划(Adaptive dynamic programming, ADP)[24]或强化学习(Reinforcement learning, RL)[25]能够利用仿生学习机制解决系统模型未知情况下的优化控制问题[26]. 其中, 学习状态−动作值函数的Q学习算法[27]为实现无模型最优控制提供了一种有效的解决方案. 近年来, 学者们利用ADP或RL算法, 通过逼近求解耦合的哈密顿−雅可比−贝尔曼(Hamilton-Jacobi-Bellman, HJB)方程, 以实现MASs的最优渐近一致性控制[78, 2831]. 例如, 基于Q学习的算法已经应用于异构MASs[78, 2829]和同构MASs[3031]中, 用以实现模型无关的最优一致性控制. 然而, 这些文献主要关注无限时域一致性控制问题. 相比之下, 模型无关的有限时域一致性控制问题更具挑战性, 因为它需要在满足值函数终端约束条件的同时求解耦合的时变HJB方程.

    为解决上述问题, 学者们开始研究基于ADP或RL的算法, 以逼近耦合的时变HJB方程的近似解, 从而实现MASs的有限时域最优一致性控制. 文献[32]提出一种基于局部动力学的离策略(Off-policy) RL算法, 实现线性MASs的有限时域最优状态一致性控制. 此外, 文献[33]针对非线性MASs提出基于ADP的有限时域鲁棒事件触发最优状态一致性控制方法. 然而, 上述一致性控制器的设计[3233]仍然依赖于MASs的部分模型信息, 而在实际情况下, 这些系统模型信息通常难以获得.

    为克服系统模型必须已知的问题, 文献[34]采用神经网络逼近每个智能体的动态特性, 然后在神经网络模型的基础上基于ADP设计有限时域最优编队控制方法. 然而, 这种方式会产生额外的计算开销, 并引入逼近误差, 从而影响ADP方法的有效性. 文献[35]提出一种基于积分RL算法和零和博弈理论的模型无关有限时域鲁棒最优编队包含控制方法.

    由于在实际的MASs中普遍存在执行器饱和的问题, 如无人车电机的输出转矩受最大功率限制, 无人机的舵面受物理结构限制等, 饱和的非线性特性通常会导致系统性能下降, 甚至可能导致系统不稳定, 使得执行器饱和问题在理论和实践上都极具挑战性. 上述研究结果[3235]无法确保在模型未知的情况下实现具有执行器饱和约束的MASs一致性控制.

    为解决这一问题, 学者们提出基于RL或ADP的方法来处理执行器饱和的MASs模型无关一致性控制问题. 例如, 文献[36]提出一种新型的辨识−评价−执行结构, 结合粘性消失法, 解决了有输入约束MASs的领导−跟随最优一致性控制问题. 文献[37]提出一种离策略RL算法, 通过逼近求解具有非二次型代价函数的耦合HJB方程, 以实现一致性控制. 文献[31, 3840]使用低增益反馈(Low gain feedback, LGF)方法[41]处理执行器饱和问题, 并结合ADP方法实现执行器饱和的MASs最优一致性控制. 然而, 这些基于ADP或RL的模型无关一致性控制方法主要解决的是存在执行器饱和的MASs无限时域一致性控制问题, 只能实现渐近一致性控制, 即理论调控时间趋于无穷. 文献[42]基于ADP研究具有对称或不对称输入约束条件的MASs事件驱动有限时域最优状态一致性控制问题, 但其控制器的设计要求已知系统的模型信息.

    受上述分析的启发, 本文将LGF方法与Q学习相结合, 用以解决执行器饱和的离散时间线性MASs模型无关有限时域一致性控制问题. 首先, 根据LGF方法的思想, 推导得到修正的时变黎卡提方程(Modified time-varying Riccati equation, MTVRE). 求解MTVRE可以得到时变的低增益反馈律, 同时可以通过调整低增益参数来避免执行器饱和. 然后, 参考文献[4344], 设计依赖于系统状态、控制输入和低增益参数的时变参数化Q函数(Time-varying parameterized Q-function, TVPQF). 在TVPQF的基础上, 提出一种基于Q学习后向时间迭代模型无关一致性控制方法, 该方法在不需要已知系统动力学模型的前提下, 能够逼近求解MTVRE, 从而实现离散时间MASs的有限时域一致性控制.

    本文将LGF方法与Q学习相结合, 提出一种针对执行器饱和的模型无关有限时域一致性控制方法. 主要贡献如下: 设计一种依赖于智能体状态、控制输入和低增益参数的TVPQF. 基于TVPQF, LGF控制器的设计减少了对系统动力学模型的依赖; 提出一种可以迭代更新低增益参数的后向时间模型无关控制算法, 并证明所提算法得到的时变LGF控制增益矩阵收敛于MTVRE的解; 另外, 证明所提算法不仅可以实现半全局一致性, 而且可以保证执行器饱和条件下的全局一致性控制, 并通过仿真实验进行论证.

    本文的结构安排如下: 第1节首先介绍代数图论的相关知识, 并结合LGF方法介绍执行器饱和的离散时间MASs有限时域一致性控制问题的基于模型的求解方案. 第2节首先证明可以将执行器饱和的离散时间MASs有限时域一致性控制问题转化为执行器饱和的单智能体的最优控制问题, 接着提出基于TVPQF的后向时间迭代算法以逼近求解最优控制问题对应的MTVRE. 第3节提供仿真结果验证本文方法的有效性, 并进行对比实验, 比较性能指标突显本文方法的优越性. 第4节为结束语.

    符号说明: $ {\bf{R}} $表示实数集, $ {\bf{R}}^{n \times m} $表示$ n\times m $维矩阵. $ I $表示具有兼容维数的单位矩阵. $ {\bf{0}} $表示具有兼容维数的全零向量或矩阵. $ \lambda_i(A) $表示矩阵$ A $的第$ i $个特征值. $ \text{Re} $表示实部. $ \text{rank}(A) $表示矩阵$ A $的秩. $ \text{argmax} $表示最大值索引. $ \text{argmin} $表示最小值索引. $ \text{vec} $为矩阵的拉直运算, 把矩阵按照列的顺序一列接一列的组成一个长向量. $ x^\text{T} $表示向量$ x $的转置.

    有$ N $个节点的加权图可记为$ G = (V,\; E,\; D) $, 其中节点和边的集合记为$ V = \{v_1,\;v_2,\;\cdots,\; v_N \} $和$ E = \{(v_i,\; v_j): v_i,\; v_j\in V\} $. 节点之间的连接关系由行随机矩阵$ D = [d_{ij}]\in {\bf{R}}^{N \times N} $决定, 其中$ d_{ii} > 0 $, $ \sum_{j = 1}^{N}d_{ij} = 1 $. 如果$ (v_i,\; v_j)\in E $, $ d_{ij}> 0 $; 否则$ d_{ij} = 0 $. 对于无向图$ G $, 行随机矩阵$ D $是对称的, 如果在任何一对不同的节点之间存在一条路径, 则称无向图$ G $是连通的. $ I-D $可看作是一种特殊的拉普拉斯矩阵, 满足$ \text{Re}(\lambda_1(I-D))< \text{Re}(\lambda_2(I-D))\le \cdots \le \text{Re}(\lambda_N(I-D)) $. 此外, 当且仅当有向图$ G $包含一个有向生成树, 或无向图$ G $连通时, 1是$ D $的一个单特征值. 令$ r\in {\bf{R}}^N $表示与$ I-D $的零特征值相关的左特征向量, 其满足$ r^\text{T} {\bf 1} = 1 $.

    考虑由$ N $个执行器饱和的智能体组成的离散时间MASs:

    $$ \begin{equation} x_i(k+1) = Ax_i(k)+B\varrho (u_i(k)),\; i = 1,\;2,\;\cdots,\;N \end{equation} $$ (1)

    式中, $ x_i(k) \in {\bf{R}}^n $, $ u_i(k) \in {\bf{R}}^m $分别表示智能体$ i $的状态向量以及输入向量; $ \varrho (\cdot):{\bf{R}}^m\rightarrow {\bf{R}}^m $表示饱和函数, 对于$ j = 1,\;2,\;\cdots,\;m $满足:

    $$ \varrho (u_i^j(k)) = \left\{ \begin{aligned} & -c, & & \,u_i^j(k)<-c\\ & \, u_i^j(k), & &-c\leq u_i^j(k)\leq c\\ &\, c, & &\,u_i^j(k) > c \end{aligned} \right. $$ (2)

    式中, $ c $表示饱和极限.

    假设 1. 本文中, 智能体的系统模型是确定且未知的, 即$ A \in {\bf{R}}^{n \times n} $, $ B \in {\bf{R}}^{n \times m} $表示确定性的未知系统矩阵.

    假设 2. 系统矩阵$ \left(A,\; B\right) $为输入有界下渐近零可控(Asymptotically null controllable with bounded controls, ANCBC), 即系统$ \left(A,\; B\right) $是可控的, 且$ A $的所有特征值都在单位圆上或单位圆内[41].

    假设 3. 本文所考虑的用以描述离散时间MASs (1)拓扑结构的无向图$ G $是连通的.

    假设 4. 本文所考虑的离散时间MASs (1)的阶次已知, 即$ n $是已知的.

    本文研究的是具有执行器饱和的离散时间MASs的有限时域一致性控制问题. 所考虑的具体问题是: 在有限的时间区间内, 通过适当的控制策略设计, 使得所有智能体的状态在终端时刻达到一致, 即$ \lim _{k \rightarrow \tau}\left\|x_i(k)-x_j(k)\right\| = 0 $. 这种有限时域一致性控制要求在给定的时间范围$ \tau $内, 使所有智能体的状态在终端时刻达到某个共同的期望状态, 而不是在无限时域上渐近趋于一致.

    参考文献[31], 针对离散时间MASs (1)可以设计如下状态反馈控制律:

    $$ \begin{equation} u_i(k) = K(k) \sum\limits_{j = 1}^N d_{i j}\left(x_i\left(k\right)-x_j\left(k\right)\right) \end{equation} $$ (3)

    其中, $ K(k) $为待设计的反馈控制增益矩阵.

    引理 1. 对于具有$ N $个节点的离散时间MASs (1), 如果其对应的无向图$ G $是联通的, 则有$ \mu = 4 / (N(N - 1)) \leq \lambda_2 \left(I-D\right) $[45].

    引理 2. 如果假设2和假设3成立, 则对于给定的有界集$ {\cal{X}} \in {\bf{R}}^n $, $ \forall x_i(0)\in {\cal{X}},\; i = 1,\;2,\; \cdots,\; N $, 存在最优低增益参数$ \varepsilon ^*\in (0,\;1] $, 对于任意$ \varepsilon \in (0, \varepsilon ^*] $, 离散时间MASs (1)可以在控制协议(3)下实现半全局一致性, 其中最优反馈控制增益矩阵满足:

    $$ \begin{equation} K_{\varepsilon}^*(k) = -\left(B^{\mathrm{T}}P^*_{\varepsilon}(k+1)B+I\right)^{-1}B^{\mathrm{T}}P^*_{\varepsilon}(k+1)A \end{equation} $$ (4)

    式中, $ P^*_{\varepsilon}(k) $满足如下MTVRE:

    $$ \begin{split} P^*_{\varepsilon}(k) =\;& A^{\mathrm{T}} P^*_{\varepsilon}(k+1) A+\varepsilon I-\left(2 \mu-\mu^2\right) \;\times\\ & A^{\mathrm{T}}P^*_{\varepsilon}(k+1) B(B^{\mathrm{T}} P^*_{\varepsilon}(k+1) B+I)^{-1} \;\times \\ & B^{\mathrm{T}} P^*_{\varepsilon}(k+1) A\\[-1pt] \end{split} $$ (5)

    同时, $ \lim _{\varepsilon \rightarrow 0}P^*_{\varepsilon}(k) = 0 $是单调的[38].

    注1. 文献[38]考虑的是无限时域MASs一致性控制问题, 需求解修正的时变黎卡提方程. 而本文考虑的是有限时域一致性控制问题, 需求解MTVRE (5), 得到的正定矩阵$ P^*_{\varepsilon}(k) $以及LGF矩阵$ K_{\varepsilon}^*(k) $是时变的. 同时, 结合文献[38]中的引理2以及文献[46], 容易推导得到引理2.

    注2. 相比于式(3), 式(4)中$ K_{\varepsilon}^*(k) $加下标$ \varepsilon $的原因在于, 根据LGF方法的思想, 反馈控制增益矩阵$ K_{\varepsilon}^*(k) $可以通过$ \varepsilon $进行调整, 从而使控制输入满足执行器饱和约束.

    由引理2可知, 求解MTVRE (5)需要已知系统的模型参数$ \left(A,\; B\right) $. 然而, 在实际应用中, 系统的精确模型信息往往难以获取, 即便通过系统辨识可以获得模型信息, 但不可避免地会引入辨识误差. 同时, 引理2中给出的求解MTVRE (5)的方法只能实现半全局一致性. 为了解决这一问题, 本文首先将MASs的有限时域一致性控制问题转化为单智能体的有限时域最优控制问题, 并在无需系统模型信息且不依赖系统辨识的前提下, 提出一种结合低增益反馈与Q学习的模型无关数据驱动控制方法. 该方法能够在面对执行器饱和的情况下, 动态调整低增益参数, 从而在任意给定的智能体初始状态下, 实现离散时间MASs (1)的有限时域全局一致性控制.

    在本节中, 将首先介绍使用LGF方法求解执行器饱和的单个智能体的优化控制问题, 进而推导得到MTVRE (5). 然后, 将介绍如何利用数据驱动方法, 通过单个智能体的可测量数据, 在系统模型信息未知的情况下, 逼近LGF控制增益矩阵$ K_{\varepsilon}^*(k) $, 从而实现离散时间执行器饱和MASs (1)的有限时域一致性控制.

    考虑如下执行器饱和的离散时间系统:

    $$ \begin{equation} x_i(k+1) = Ax_i(k)+B\varrho (\zeta _i(k)) \end{equation} $$ (6)

    其中, $ \zeta _i(k) $表示新的控制输入. 在接下来的基于Q学习的算法中, 将使用它来学习LGF矩阵 $ K_{\varepsilon}(k) $.

    定义如下有限时域性能指标:

    $$ \begin{equation} \begin{aligned} J_i = \sum\limits_{k = 0}^{\tau -1}r_{i}\left(x_{i}(k),\;\zeta _{i}(k),\;\varepsilon\right)+\varepsilon x_{i}^{\mathrm{T}}(\tau)x_{i}(\tau) \end{aligned} \end{equation} $$ (7)

    式中, 最后一项$ \varepsilon x_{i}^{\mathrm{T}}(\tau)x_{i}(\tau) $代表终端约束条件; $ r_{i}\left(x_{i}(k),\;\zeta _{i}(k),\;\varepsilon\right) $表示智能体 $ i $的效用函数:

    $$ \begin{equation} r_{i}\left(x_{i}(k),\;\zeta _{i}(k),\;\varepsilon\right) = \varepsilon x^{\mathrm{T}}_{i}(k)x_{i}(k)+\zeta^{\mathrm{T}}_{i}(k)\zeta_{i}(k) \end{equation} $$ (8)

    根据有限时域性能指标 (7), 每个智能体$ i $的值函数可以表示为:

    $$ \begin{equation} V_i(x_{i}(k)) = \sum\limits_{j = k}^{\tau-1} r_{i}\left(x_{i}(j),\;\zeta _{i}(j),\;\varepsilon\right)+\varepsilon x_{i}^{\mathrm{T}}(\tau)x_{i}(\tau) \end{equation} $$ (9)

    下面引理证明, 当控制输入$ \zeta _i(k) = \mu K_{\varepsilon}(k)\;\times x_i(k) $时, 值函数(9)可以表示为二次型形式.

    引理3. 如果离散时间系统(6)的控制输入可以表示为$ \zeta _i(k) = \mu K_{\varepsilon}(k)x_i(k) $, 则智能体$ i $的值函数$ V_i(x_{i}(k)) $可以表示为如下二次型形式:

    $$ \begin{equation} V_i(x_{i}(k)) = x_{i}^{\mathrm{T}}(k) P_\varepsilon(k) x_{i}(k) \end{equation} $$ (10)

    式中, $ P_\varepsilon(k) = P^{\mathrm{T}}_\varepsilon(k)>0 $. $ P_\varepsilon(\tau) = \varepsilon I $.

    证明. 本部分将基于最优性原理, 利用终端约束条件采用后向时间的方式进行证明.

    当$ k = \tau $时, 可以很容易地从式(9)得到:

    $$ \begin{equation} V_i(x_{i}(\tau)) = \varepsilon x_{i}^{\mathrm{T}}(\tau)x_{i}(\tau) \end{equation} $$ (11)

    因此, 可以得到$ P_\varepsilon (\tau) = P^{\mathrm{T}}_\varepsilon (\tau) = \varepsilon I $.

    当$ k = \tau -1 $时, 结合式(8)和(9)可以得到:

    $$ \begin{split} V_i(x_{i}(\tau -1)) =\; &\varepsilon x^{\mathrm{T}}_{i}(\tau -1)x_{i}(\tau -1)\;+\\ &\zeta^{\mathrm{T}}_{i}(\tau -1)\zeta_{i}(\tau -1) +\varepsilon x_{i}^{\mathrm{T}}(\tau)x_{i}(\tau) \end{split} $$ (12)

    将式(6)代入式(12)中, 得到:

    $$ \begin{split} V_i(x_{i}(\tau -1)) =\; &\varepsilon x^{\mathrm{T}}_{i}(\tau -1)x_{i}(\tau -1)\;+\\ &\zeta^{\mathrm{T}}_{i}(\tau -1)\zeta_{i}(\tau -1)\;+\\ &\varepsilon(Ax_i(\tau -1)+B\zeta _i(\tau -1))^{\mathrm{T}}\;\times \\ &(Ax_i(\tau -1)+B\zeta _i(\tau -1))\\[-1pt] \end{split} $$ (13)

    然后, 将$ \zeta _i(\tau -1) = \mu K_{\varepsilon}(\tau -1)x_i(\tau -1) $代入式(13)中, 可以得到:

    $$ \begin{split} V_i(x_{i}(\tau -1)) = \; &x^{\mathrm{T}}_{i}(\tau -1)[\varepsilon I + \mu^2 K_{\varepsilon}^{\mathrm{T}}(\tau -1)K_{\varepsilon}(\tau \;-\\ &1) +\varepsilon\left(A + \mu BK_{\varepsilon}(\tau -1)\right)^{\mathrm{T}}\;\times\\ &(A + \mu BK_{\varepsilon}(\tau -1))]x_{i}(\tau -1) \\[-1pt]\end{split} $$ (14)

    当$ k = \tau -1 $时, 从式(14)可以得到:

    $$ \begin{split} P_\varepsilon (\tau -1) = \; &\varepsilon I + \mu^2 K_{\varepsilon}^{\mathrm{T}}(\tau -1)K_{\varepsilon}(\tau -1)\;+ \\ &\varepsilon\left(A + \mu BK_{\varepsilon}(\tau -1)\right)^{\mathrm{T}}\;\times\\ &(A + \mu BK_{\varepsilon}(\tau -1)) \end{split} $$ (15)

    从上式可以得到 $ P_\varepsilon (\tau -1) = P^{\mathrm{T}}_\varepsilon (\tau -1)>0 $.

    采用与$ P_\varepsilon (\tau -1) $相同的方式, 可以类似地确定, 对于$ k = 0,\;1,\; \cdots,\; \tau-2 $, 矩阵$ P_\varepsilon(k) $也符合$ P_\varepsilon(k) = P^{\mathrm{T}}_\varepsilon (k)>0 $.  

    下面定理将证明, 针对执行器饱和的离散时间系统(6)以及对应的有限时域性能指标(7), 存在最优的LGF控制增益矩阵$ K_{\varepsilon}(k) $, 使得智能体$ i $的值函数$ V_i(x_{i}(k)) $可以表示为式(10).

    定理1. 考虑执行器饱和离散时间系统(6)以及对应的有限时域性能指标(7), 其最优控制律满足:

    $$ \begin{equation} {\zeta}^*_i(k) = K^*_{\varepsilon}(k)x_i(k) \end{equation} $$ (16)

    其中, $ K^*_{\varepsilon}(k) $满足式(4). 如果令$ {\zeta}^*_i(k) = \mu K^*_{\varepsilon}(k)x_i(k) $, 则$ P^*_{\varepsilon}(k) $满足式(5).

    证明. 根据值函数的定义(9)可知, 值函数满足如下贝尔曼方程:

    $$ \begin{equation} \begin{aligned} V_i(x_{i}(k)) = \varepsilon x^{\mathrm{T}}_{i}(k)x_{i}(k)+{\zeta}^{\mathrm{T}}_{i}(k){\zeta}_{i}(k)+V_i(x_{i}(k+1)) \end{aligned} \end{equation} $$ (17)

    同时, 最优值函数满足:

    $$ \begin{split} V_i^*(x_i(k)) =\;&\min_{{\zeta}_i(k)} \sum\limits_{j = k}^{\tau-1}(\varepsilon x^{\mathrm{T}}_{i}(j)x_{i}(j)+{\zeta}^{\mathrm{T}}_{i}(j){\zeta}_{i}(j)\;+\\ &\varepsilon x_{i}^{\mathrm{T}}(\tau )x_{i}(\tau)) \\[-1pt]\end{split} $$ (18)

    结合式(17)和式(18), 可以得到如下的贝尔曼最优方程:

    $$ \begin{split} V^*_i(x_{i}(k)) =\; &\min_{{\zeta}_i(k)}\left(\varepsilon x_{i}^{\mathrm{T}}(k)x_{i}(k)+{\zeta}_i^{\mathrm{T}}(k){\zeta}_i(k)\right.+\\ &\left.V^*_i(x_{i}(k+1))\right) \end{split} $$ (19)

    当$ k = \tau-1 $时, 由式(18)可知:

    $$ \begin{split} V^*_i(x_{i}(\tau-1)) = \;&\min_{{\zeta}_i(\tau-1)} \left(\varepsilon x^{\mathrm{T}}_{i}(\tau-1)x_{i}(\tau-1)\right.+\\ &\left.{\zeta}^{\mathrm{T}}_{i}(\tau-1){\zeta}_{i}(\tau-1)+\varepsilon x_{i}^{\mathrm{T}}(\tau )x_{i}(\tau)\right) \end{split} $$ (20)

    将式(6)代入式(20)中, 得到:

    $$ \begin{split} V^*_i(x_{i}(\tau-1)) = \; &\min_{{\zeta}_i(\tau-1)}(\varepsilon x_{i}^{\mathrm{T}}(\tau-1)x_{i}(\tau-1)\;+\\ &{\zeta}_i^{\mathrm{T}}(\tau-1){\zeta}_i(\tau-1)\;+\\ &\varepsilon(Ax_{i}(\tau-1)+B{\zeta}_i(\tau-1))^{\mathrm{T}}\;\times\\ &(Ax_{i}(\tau-1)+B{\zeta}_i(\tau-1))) \\[-1pt] \end{split} $$ (21)

    从式(21)可以得到最优控制策略满足:

    $$ \begin{split} {\zeta}^*_i(\tau-1) = \;&\arg\min_{{\zeta}_i(\tau-1)}(\varepsilon x_{i}^{\mathrm{T}}(\tau-1)x_{i}(\tau-1)\;+\\ &{\zeta}_i^{\mathrm{T}}(\tau-1){\zeta}_i(\tau-1)\;+\\ &\varepsilon(Ax_{i}(\tau-1)+B{\zeta}_i(\tau-1))^{\mathrm{T}}\;\times\\ & (Ax_{i}(\tau-1)+B{\zeta}_i(\tau-1))) \end{split} $$ (22)

    为了得到最优控制策略, 可以通过上式右半部分对$ {\zeta}_i(\tau-1) $求导, 并令导数为零. 则有:

    $$ \begin{equation} 2{\zeta}^{\mathrm{T}}_i(\tau-1)+2\varepsilon\left(Ax_{i}(\tau-1)+B{\zeta}_i(\tau-1)\right)^{\mathrm{T}}B = 0 \end{equation} $$ (23)

    因此, 可以得到最优控制策略:

    $$ {\zeta}^*_i(\tau-1) = -\varepsilon\left(\varepsilon B^{\mathrm{T}}B+I\right)^{-1}B^{\mathrm{T}}Ax_i(\tau-1) $$ (24)

    结合值函数的终端约束条件可知$ P^*_{\varepsilon}(\tau) = \varepsilon I $, 则式(24)可以重写为:

    $$ \begin{split} {\zeta}^*_i(\tau-1) = \; &\left(B^{\mathrm{T}} P^*_{\varepsilon}(\tau) B+I\right)^{-1}\times\\ &B^{\mathrm{T}}P^*_{\varepsilon}(\tau) Ax_i(\tau-1) = \\ &K^*_{\varepsilon}(\tau-1)x_i(\tau-1) \end{split} $$ (25)

    比较式(4)和式(25), 可知$ K^*_{\varepsilon}(\tau-1) $满足式(4).

    结合文献[46]以及引理3, 可以得到最优值函数$ V^*_i(x_{i}(\tau-1)) $可以写成如下形式:

    $$ \begin{equation} V^*_i(x_{i}(\tau-1)) = x_{i}^{\mathrm{T}}(\tau-1) P^*_\varepsilon(\tau-1) x_{i}(\tau-1) \end{equation} $$ (26)

    同时, 将$ {\zeta}^*_i(\tau-1) = \mu K^*_{\varepsilon}(\tau-1)x_i(\tau-1) $代入式(20)中, 很容易得到$ P^*_{\varepsilon}(\tau-1) $满足式(15).

    采用与$ k = \tau -1 $相同的方式, 可以依次得到$ K^*_{\varepsilon}(k),\; k = \tau -2,\; \cdots,\; 1,\; 0 $满足式(4), 并且值函数满足:

    $$ \begin{equation} V^*_i(x_{i}(k)) = x_{i}^{\mathrm{T}}(k) P^*_\varepsilon(k) x_{i}(k) \end{equation} $$ (27)

    此外, 将$ {\zeta}^*_i(k) = \mu K^*_{\varepsilon}(k)x_i(k) $代入式(19)中, 并结合式(27), 很容易得到$ P^*_{\varepsilon}(k) $满足式(15).

    注3. 与有限/固定时间控制不同, 本文所考虑的有限时域一致性控制是指控制器在一个预算的时间段内进行设计. 在这个时间段结束时, 控制器的目标是使系统状态达到某个期望的状态或者满足特定的性能指标. 有限时域控制问题通常涉及优化一个性能指标函数, 该函数定义在从初始时刻到终止时刻的时间区间上, 如本文所考虑的有限时域性能指标函数(7), 并且需要考虑在此期间系统的动态行为和可能存在的约束条件, 如本文所考虑的执行器饱和约束. 而有限时间控制强调的是收敛时间$ t $趋于一个固定值$ T $达到稳定, 该$ T $是根据初值和控制参数计算出来的. 固定时间控制是一种特殊的有限时间控制, 也是$ t $趋于一个固定值$ T $达到稳定, 该$ T $的计算和初值无关, 但是计算的$ T $有保守性. 有限时域控制可以看作有限时间控制的一种特殊情况, 其侧重点在于需要在固定时间范围内优化一个性能指标函数.

    注4. 根据低增益反馈控制方法[41], 可以对低增益参数进行动态调整, 逐步将控制输入限制在饱和值范围内, 从而避免执行器饱和现象. 在引理3以及定理1的证明过程中, 由于低增益参数的存在, 在证明过程中假定通过调整低增益参数得到满足执行器饱和约束的控制输入. 因此, 在涉及控制输入的证明过程中, 饱和函数$ \rho ( \cdot ) $没有显示地出现.

    从以上分析可知, 可以将针对执行器饱和的离散时间MASs (1)的有限时域一致性控制问题转化为针对执行器饱和的离散时间系统(6)以及有限时域性能指标(7)的最优控制问题. 不同之处在于, 为了实现有限时域一致性控制, 需要改变由最优控制问题求得的控制策略. 同时, 依据LGF方法的特点, 可以通过调整低增益参数$ \varepsilon $实现避免执行器饱和的目标.

    在这一部分, 首先, 结合Q学习的思想定义TVPQF; 然后, 提出一种数据驱动的后向时间迭代方法, 在仅需要单个智能体可测量数据的前提下, 逼近求解MTVRE (5), 以实现有限时域一致性控制.

    依据文献[27], 定义如下TVPQF:

    $$ \begin{split} &Q_{\varepsilon}\left(x_{i}(k),\;\zeta _{i}(k),\;\tau-k\right) = \\ &\qquad r_{i}\left(x_{i}(k),\;\zeta _{i}(k),\;\varepsilon\right)+V_{i}^*\left(x_{i}(k+1)\right) \end{split} $$ (28)

    其中, $ Q_{\varepsilon}(x_{i}(\tau)) = \varepsilon x^{\mathrm{T}}_{i }(\tau)x_{i}(\tau) $.

    定义变量$ \xi_{i}(k) = \left[x_{i}^{\mathrm{T}}(k),\; \zeta_{i}^{\mathrm{T}}(k)\right]^{\mathrm{T}} $. 同时, 将式(6)和(19)代入式(28)中, 可以得到:

    $$ \begin{equation} \begin{aligned} Q_{\varepsilon}\left(x_{i}(k),\;\zeta _{i}(k),\;\tau-k\right) = \xi^{\mathrm{T}}_{i}(k){\cal{H}}_{\varepsilon}(k)\xi_{i}(k) \end{aligned} \end{equation} $$ (29)

    式中, $ {\cal{H}}_{\varepsilon}(k) $表示TVPQF的核函数, 定义如下:

    $$ \begin{split} &{{\cal{H}}_\varepsilon }(k): = \left[ {\begin{array}{*{20}{l}} {{{\cal{H}}_{xx}}(k)}&{{{\cal{H}}_{x\zeta }}(k)}\\ {{{\cal{H}}_{\zeta x}}(k)}&{{{\cal{H}}_{\zeta \zeta }}(k)} \end{array}} \right] = \\ &\;\;\;\;\left[ {\begin{array}{*{20}{c}} {\varepsilon I + {A^{\rm{T}}}{P_\varepsilon }(k + 1)A}&{{A^{\rm{T}}}{P_\varepsilon }(k + 1)B}\\ {{B^{\rm{T}}}{P_\varepsilon }(k + 1)A}&{{B^{\mathrm{T}}}{P_\varepsilon }(k + 1)B + I} \end{array}} \right] \end{split} $$ (30)

    同时, 通过TVPQF的定义 (28)可以得到最优值函数与最优TVPQF的关系如下:

    $$ \begin{split} V^*_i(x_i(k))=\; & \min_{{\zeta}_i(k)}Q_{\varepsilon}\left(x_{i}(k),\;\zeta _{i}(k),\;\tau-k\right) = \\ &Q^*_{\varepsilon}\left(x_{i}(k),\;\zeta^* _{i}(k),\;\tau-k\right) \end{split} $$ (31)

    根据TVPQF的定义可知, 最优LGF控制律满足:

    $$ \begin{equation} \zeta^*_i(k) = \arg\min\limits_{\zeta_i(k)}Q_{\varepsilon}\left(x_{i}(k),\;\zeta _{i}(k),\;\tau-k\right) \end{equation} $$ (32)

    求解$ \frac{{\partial Q_{\varepsilon}(x_{i}(k),\;\zeta _{i}(k),\;\tau-k)} }{ {\partial \zeta_i(k)}} = 0 $, 可以得到:

    $$ \begin{equation} K_{\varepsilon}^*(k) = -{\cal{H}}_{\zeta \zeta}^{*}{}^{-1}(k){\cal{H}}_{\zeta x}^*(k) \end{equation} $$ (33)

    另外, 将$ {\zeta}^*_i(k) = \mu {K}^*_{\varepsilon}(k)x_i(k) $、式(33)代入式(31), 同时结合式(29), 得到:

    $$ \begin{split} P^*_{\varepsilon}(k) =\; &{\cal{H}}^*_{x x}(k)-\mu{K}^*_{\varepsilon}(k){\cal{H}}^*_{\zeta x}(k)+\mu{\cal{H}}^*_{x \zeta}(k)\;\times\\ & {K}^{*,\;\mathrm{T}}_{\varepsilon}(k)+\mu^2{K}^*_{\varepsilon}(k){\cal{H}}^*_{\zeta \zeta}(k){K}^{*,\;\mathrm{T}}_{\varepsilon}(k)\\[-1pt] \end{split} $$ (34)

    根据式(33)和(34)可知, 通过设计的TVPQF, 可以将计算$ P^*_{\varepsilon}(k) $转变为计算$ {\cal{H}}_{\varepsilon}^*(k) $, 以获取最优LGF控制增益矩阵$ K_{\varepsilon}^*(k) $, 并且避免对系统模型信息的依赖. 下面将介绍如何采用后向时间的方式逼近求解$ {\cal{H}}_{\varepsilon}^*(k) $.

    假设通过$ \eta $次实验, 收集到$ \eta $组样本数据$ \{x^j_{i}(k), \zeta^j _{i}(k),\;x^j_{i}(k+1)\} $, 其中$ j = 1,\;2,\;\cdots,\;\eta $.

    当$ k = \tau -1 $时, 定义:

    $$ \begin{split} {\cal{Q}}^j_{\varepsilon}(\tau - 1) = \;& \varepsilon x^{j,\;\mathrm{T}}_{i}(\tau - 1)x^j_{i}(\tau - 1)+\zeta^{j,\;\mathrm{T}}_{i}(\tau - 1)\;\times\\ & \zeta^j_{i}(\tau - 1)+x^{j,\; \mathrm{T}}_{i }(\tau)P^*_{\varepsilon}(\tau) x^j_{i}(\tau) \\[-1pt] \end{split} $$ (35)

    式中, $ P^*_{\varepsilon}(\tau) = \varepsilon I $.

    同时, 根据式(29), 可以得到$ {\cal{Q}}^j_{\varepsilon}(\tau - 1) $的另一种表达形式如下:

    $$ \begin{equation} \hat{{\cal{Q}}}^j_{\varepsilon}(\tau - 1) = \xi^{j,\; \mathrm{T}}_{i}(\tau - 1){\cal{H}}_{\varepsilon}(\tau - 1)\xi^j_{i}(\tau - 1) \end{equation} $$ (36)

    应用线性参数化方法, 式(36)可以重写成:

    $$ \begin{equation} \hat{{\cal{Q}}}^j_{\varepsilon}(\tau - 1) = \bar{\xi}^{j,\; \mathrm{T}}_{i}(\tau - 1)\text{vec}({\cal{H}}_{\varepsilon}(\tau - 1)) \end{equation} $$ (37)

    其中,

    $$ \begin{split} \bar{\xi}^{j}_{i}(\tau - 1) =\;& [({\xi}^{1,\;j}_{i})^2,\; 2{\xi}^{1,\;j}_{i}{\xi}^{2,\;j}_{i},\; \cdots,\; 2{\xi}^{1,\;j}_{i}{\xi}^{l,\;j}_{i},\\ & ({\xi}^{2,\;j}_{i})^2,\;2{\xi}^{2,\;j}_{i}{\xi}^{3,\;j}_{i},\; \cdots,\;\\ &2{\xi}^{2,\;j}_{i}{\xi}^{l,\;j}_{i},\; \cdots,\; ({\xi}^{l,\;j}_{i})^2]^{\mathrm{T}} \nonumber \end{split} $$

    上面变量的表达式中$ l = n+m $表示变量$ \bar{\xi}^{j}_{i}(\tau \;- 1) $的维数. 另外, 为方便, 省去了$ \tau - 1 $.

    结合式(35)和(37)可知, 可以通过求解如下优化方程用以获取TVPQF对应的最优核矩阵$ {\cal{H}}_{\varepsilon}^*(\tau - 1) $:

    $$ \begin{split} \text{vec}({\cal{H}}_{\varepsilon}^*(\tau - 1)) = \; & \arg\min\sum\limits_{j = 1}^\eta(\bar{\xi}^{j,\; \mathrm{T}}_{i}(\tau - 1)\;\times\\ &\text{vec}({\cal{H}}_{\varepsilon}(\tau - 1))-{\cal{Q}}^j_{\varepsilon}(\tau - 1))^2 \end{split} $$ (38)

    得到$ {\cal{H}}_{\varepsilon}^*(\tau - 1) $, 就可以通过式(33)求解最优LGF控制增益矩阵$ K_{\varepsilon}^*(\tau - 1) $, 以及通过式(34)获取最优值函数对应的核矩阵$ P_{\varepsilon}^*(\tau - 1) $.

    依据求解$ {\cal{H}}_{\varepsilon}^*(\tau - 1) $的思路, 可以通过后向时间求解的方式逼近求解$ {\cal{H}}_{\varepsilon}^*(k) $, $ K_{\varepsilon}^*(k) $, 以及$ P_{\varepsilon}^*(k) $, $ k = \tau-2,\; \cdots,\; 1,\; 0 $.

    当$ k = \tau-2,\; \cdots,\; 1,\; 0 $时, 定义:

    $$ \begin{split} {\cal{Q}}^j_{\varepsilon}(k) =\; & \varepsilon x^{j,\;\mathrm{T}}_{i}(k)x^j_{i}(k)+\zeta^{j,\;\mathrm{T}}_{i}(k)\zeta^j_{i}(k)\;+\\ &x^{j,\; \mathrm{T}}_{i }(k+1)P^*_{\varepsilon}(k+1) x^j_{i}(k+1) \end{split} $$ (39)

    同样地, 可以得到$ {\cal{Q}}^j_{\varepsilon}(k) $的另一种表达形式:

    $$ \begin{equation} \hat{{\cal{Q}}}^j_{\varepsilon}(k) = \xi^{j,\; \mathrm{T}}_{i}(k){\cal{H}}_{\varepsilon}(k)\xi^j_{i}(k) \end{equation} $$ (40)

    参照式(38), 可以得到如下优化问题:

    $$ \begin{split} &\text{vec}({\cal{H}}_{\varepsilon}^*(k)) = \\ &\qquad \arg\min\sum\limits_{j = 1}^\eta\left(\bar{\xi}^{j,\; \mathrm{T}}_{i}(k)\text{vec}({\cal{H}}_{\varepsilon}(k))-{\cal{Q}}^j_{\varepsilon}(k)\right)^2 \end{split} $$ (41)

    通过式(41)求解得到$ {\cal{H}}_{\varepsilon}^*(k) $, 就可以通过式(33)求解最优LGF控制增益矩阵$ K_{\varepsilon}^*(k) $, 以及通过式(34)获取最优值函数对应的核矩阵$ P_{\varepsilon}^*(k) $. 下面将介绍如何求解优化问题(38)和问题(41). 由于两者具有相似性, 下面将问题(38)和问题(41)归结为一类问题进行介绍.

    优化问题(38)和问题(41)可以写成如下形式:

    $$ \begin{split} &\text{vec}\left({\cal{H}}_{\varepsilon}^*(k)\right) = \\ & \qquad\arg\min\sum\left(\bar{{\xi}}^{\,\mathrm{T}}_{i}(k)\text{vec}({\cal{H}}_{\varepsilon}(k))-{\cal{Q}}_{\varepsilon}(k)\right)^2 \end{split} $$ (42)

    式中, $ \bar{{\xi}}_{i}(k) = \left[\bar{{\xi}}^{1}_{i}(k),\;\bar{{\xi}}^{2}_{i}(k),\;\cdots,\;\bar{{\xi}}^{\eta}_{i}(k)\right]^{\mathrm{T}} $; $ {\cal{Q}}_{\varepsilon}(k) = \left[{\cal{Q}}_{\varepsilon}^{1}(k),\; {\cal{Q}}_{\varepsilon}^{2}(k),\; \cdots,\; {\cal{Q}}_{\varepsilon}^{\eta}(k)\right]^{\mathrm{T}} $, $ k = 0,\;1,\;\cdots,\;\tau-1 $.

    应用最小二乘法, 可以得到优化问题 (42)的解如下:

    $$ \begin{equation} \text{vec}({\cal{H}}_{\varepsilon}^*(k)) = \left(\bar{{\xi}}_{i}(k)\bar{{\xi}}^{\,\mathrm{T}}_{i}(k)\right)^{-1}\bar{{\xi}}_{i}(k){\cal{Q}}_{\varepsilon}(k) \end{equation} $$ (43)

    为确保优化问题(42)的解(43)的唯一性, 需要满足如下条件:

    $$ \begin{equation} \text{rank}(\bar{{\xi}}_{i}(k)) = \frac{l(l+1)}{2} \end{equation} $$ (44)

    即矩阵$ \bar{{\xi}}_{i}(k) $满秩.

    如果搜集到的样本$ \{x^j_{i}(k),\;\zeta^j _{i}(k),\;x^j_{i}(k+1)\} $的数量$ \eta\ge {{l(l + 1)} / 2} $, 且每次实验收集到的数据之间服从高斯分布, 那么条件(44)成立[46].

    由以上分析可知, 采用后向时间求解的方式可以得到最优TVPQF对应的核矩阵$ {\cal{H}}_{\varepsilon}^*(k) $. 同时, 由式(35)和(39)可知, TVPQF会受到低增益参数$ \varepsilon $的影响. 因此, 可以通过调整低增益参数$ \varepsilon $用以更新LGF控制增益矩阵$ K_{\varepsilon}^*(k) $, 从而使控制器$ u_i(k) $避免输入饱和. 算法1对上面的论述进行了总结.

      算法 1. 执行器饱和约束下模型无关有限时域一致性控制

    输入. 实验次数$ \eta $, 低增益参数$ \varepsilon $, 有限时域$ \tau $.

    输出. 最优LGF控制增益矩阵$ K_{\varepsilon}^*(k) $, 以及最优TVPQF对应的核矩阵$ {\cal{H}}_{\varepsilon}^*(k) $, $ k = 0,\;1,\; \cdots,\; \tau -1 $.

    1) 数据收集: 生成符合高斯分布的随机控制输入$ \{\zeta^j_{i}(0),\; \zeta^j_{i}(1),\; \cdots,\; \zeta^j_{i}(\tau-1)\} $, 以及随机初始状态变量$ x^j_{i}(0) $, $ j = 1,\;2,\;\cdots,\;\eta $, 应用于系统(6), 从而收集产生的样本数据$ \{x^j_{i}(k),\;\zeta^j _{i}(k),\;x^j_{i}(k+1)\} $, 其中$ j = 1,\;2,\;\cdots,\;\eta $; $ k = 0,\;1,\;\cdots,\;\tau-1 $.

    2) 计算$ K_{\varepsilon}^*(\tau -1) $: 通过式(43)求解优化问题(38), 得到$ {\cal{H}}_{\varepsilon}^*(\tau -1) $. 结合式(33)推导得到最优LGF控制增益矩阵$ K_{\varepsilon}^*(\tau -1) $, 并将其存储.

    3) 计算$ K_{\varepsilon}^*(k) $: 从$ k = \tau -2 $到$ k = 0 $, 依次通过式(43)求解优化问题(42), 迭代计算$ {\cal{H}}_{\varepsilon}^*(k) $. 结合式(33)推导得到最优LGF控制增益矩阵$ K_{\varepsilon}^*(k) $, $ k = \tau\;- 2,\; \cdots,\; 1,\; 0 $, 并将其存储.

    4) 饱和度检查: 对于每一个$ k = 0,\;1,\;\cdots,\;\tau-1 $, 验证

    $$ \qquad\left\lVert u_i(k) \right\rVert_\infty = \left\lVert K_{\varepsilon}^*(k) \sum\limits_{j = 1}^N d_{i j}\left(x_i(k)-x_j(k)\right)\right\rVert_\infty \le c $$

     其中, $ i = 1,\;2,\;\cdots,\;N $. 如果不满足, 则减小$ \varepsilon $并重复步骤2)和步骤3).

    5) 停止迭代: 当控制输入不再饱和时, 停止迭代过程.

    注5. 算法1中, 低增益参数$ \varepsilon $可以通过比例规则进行调整: $ \varepsilon_{j+1} = \alpha \varepsilon_j $, 其中$ 0<\alpha<1 $. 另外需要强调的是, 控制输入的饱和度评估发生在其应用到MASs (1)之前. 因此, MASs在实际执行的过程中不会超过其执行器饱和约束.

    注6. 算法1中的饱和度检查环节必然会受到智能体初始状态的影响, 不同的初始状态可能会最终得到不同的低增益参数$ \varepsilon $. 另外, 算法1的目的并不是寻找最优低增益参数$ \varepsilon^* $, 而是对于不同的初始状态寻找$ \varepsilon \in (0,\;\varepsilon^*] $, 从而得到对应的最优LGF控制增益矩阵$ K_{\varepsilon}^*(k) $, 达到避免执行器饱和的目标.

    下面定理将证明通过算法1得到的最优LGF控制增益矩阵是最优的.

    定理2. 如果进行收集样本数据的实验次数$ \eta \ge {{l(l + 1)} / 2} $, 且收集得到的样本数据$ \{x^j_{i}(k),\, \zeta^j _{i}(k), x^j_{i}(k+1)\} $服从高斯分布, 则算法1得到的LGF控制增益矩阵$ K_{\varepsilon}^*(k) $是最优的, 也就是MTVRE (5)对应的解.

    证明. 根据LGF方法的思想, 针对执行器饱和约束问题, 存在最优低增益参数$ \varepsilon^* $ [42]. 同时, 注意到算法1中关于低增益参数$ \varepsilon $的调整处于估计$ {\cal{H}}_{\varepsilon}(k) $的外循环. 因此, 低增益参数$ \varepsilon $不会影响TVPQF核矩阵$ {\cal{H}}_{\varepsilon}(k) $的收敛性. 假设低增益参数$ \varepsilon $在算法1中是固定的, 即考虑MTVRE (5)和TVPQF (23)中包含相同的低增益参数$ \varepsilon $的情况.

    当初始样本数据$ x^j_{i}(0),\; j = 1,\;2,\;\cdots,\;\eta $, 以及$ \zeta^j _{i}(k),\; k = 0,\;1,\;\cdots,\;\tau-1 $服从高斯分布时, 很容易得到每次收集样本数据的实验是线性独立的. 此外, 如果实验次数$ \eta\ge {{l(l + 1)} / 2} $, 则式(43)中构造得到的数据矩阵$ \bar{{\xi}}_{i}(k) $, $ k = 0,\;1,\;\cdots,\;\tau-1 $满秩. 需要注意的是, 结合$ \text{vec}({\cal{H}}_{\varepsilon}^*(k)) $的定义以及式(30)可知,$ \text{vec}({\cal{H}}_{\varepsilon}^*(k)) $, $ k = 0,\;1,\;\cdots,\;\tau-1 $拥有$ {{l(l + 1)} / 2} $个独立元素. 结合矩阵$ \bar{{\xi}}_{i}(k) $满秩的结论, 可知优化问题(42)有唯一解, 即为式(43). 值得注意的是, 所设计的算法1以离线后向时间迭代的方式运行, 即利用终端约束条件$ P_{\varepsilon}(\tau) $从$ k = \tau -1 $开始依次向后计算$ \text{vec}({\cal{H}}_{\varepsilon}^*(k)) $. 同时, 式(43)构成了优化问题(42)的唯一解. 可以得出结论: 通过执行算法1得到的$ \text{vec}({\cal{H}}_{\varepsilon}^*(k)) $是最优的.

    值得注意的是, 矩阵$ {\cal{H}}_{\varepsilon}^*(k) $是由$ {{l(l + 1)} / 2} $个元素组成的对称矩阵, $ \text{vec}({\cal{H}}_{\varepsilon}^*(k)) $表示矩阵$ {\cal{H}}_{\varepsilon}^*(k) $经过列排列之后组成的长向量. 由于算法1得到的$ \text{vec}({\cal{H}}_{\varepsilon}^*(k)) $是最优的. 因此, 算法1得到的结果$ {\cal{H}}_{\varepsilon}^*(k) $即为所定义的TVPQF的最优核矩阵. 结合式(33)以及引理2可知, 算法1得出的LGF控制增益矩阵$ K_{\varepsilon}^*(k) $也是最优的. 同时, 结合定理1以及式(31)可知, 通过算法1得到LGF控制增益矩阵$ K_{\varepsilon}^*(k) $等价于求解MTVRE (5).  

    下面定理将证明算法1可以实现离散时间MASs (1)的全局有限时域一致性控制而不仅仅是半全局有限时域一致性控制.

    定理3. 如果假设2和假设3成立, 通过算法1得到的LGF控制增益矩阵$ K_{\varepsilon}^*(k) $, 离散时间MASs (1)可以实现全局有限时域一致性控制.

    证明. 如果假设2和假设3成立, 由引理2以及定理2可知, 算法1得到的LGF控制增益矩阵$ K_{\varepsilon}^*(k) $可以实现半全局有限时域一致性控制. 在算法1中, 如果控制输入违反执行器饱和, 则在下次迭代时会减小低增益参数$ \varepsilon $, 因此必然可以找到一个足够小的$ \varepsilon \in (0,\;\varepsilon^*] $满足执行器饱和. 另外, 从定理2的证明过程可知, 如果$ \varepsilon $固定, 由算法1得到的TVPQF核矩阵以及LGF控制增益矩阵均是最优的, 且可以实现有限时域最优一致性控制. 如果智能体的初始状态不同, 必然会迭代得到一个固定的低增益参数$ \varepsilon $, 对应地, 即可通过算法1得到LGF控制增益矩阵. 因此, 算法1可以实现离散时间MASs (1)的全局有限时域一致性控制.  

    本节首先建立一个仿真实验, 来说明本文方法的有效性; 然后进行对比实验, 用本文方法与对比方法进行仿真实验, 用评价指标结果说明本文方法的优越性.

    考虑一个由6个智能体组成的离散时间MASs, 其动力学方程为(1), 相关的矩阵为:

    $$ \begin{equation} A = \begin{bmatrix} 0 & 1\\ -1 & 1 \\ \end{bmatrix},\;\quad B = \begin{bmatrix} -1 \\ 0 \end{bmatrix} \end{equation} $$ (45)

    矩阵$ A $的特征值$ 0.5\pm0.866\mathrm{i} $都在单位圆内, 且$ (A,\; B) $是可控的. 因此, 假设2成立. 在本节仿真中, 执行器饱和函数的饱和阈值设为$ c = 1 $. 离散时间MASs的通信拓扑可以用图1所示的无向图表示. 从图中可以得到, 所对应的无向图是连通的. 因此, 假设3成立.

    图 1  仿真1中MASs的通信拓扑
    Fig. 1  MASs communication topology in simulation 1

    下面将使用三个实例来说明本文所提方法的有效性. 在所有的三个实例中, 算法1中具体的参数设置如下: 收集样本数据的实验次数$ \eta = 100>(3\;\times 4) / 2 = 6 $, 初始低增益参数$ \varepsilon = 1 $. 同时, 使用注5中的方法对$ \varepsilon $进行更新, 选择$ \alpha = 0.5 $. 后续将通过改变不同的初始状态来说明算法1的有效性.

    例1. 在本例中, 将所有智能体的初始状态设置为$ [-1,\;1]\times [-1,\;1] $, 有限时域设置为$ \tau = 100 $, 然后将算法1应用于MASs (45)中, 最终得到低增益参数$ \varepsilon = 0.5 $. 同时, 将对应的最优LGF控制增益矩阵$ K_{\varepsilon}^*(k) $应用于系统中, 得到的6个智能体的系统状态如图2所示, 系统控制输入如图3所示. 从图2图3可知, 通过算法1得到的控制输入可以实现有限时域一致性控制, 并且避免输入饱和.

    图 2  例1中智能体的状态
    Fig. 2  The states of agents in example 1
    图 3  例1中智能体的控制输入
    Fig. 3  The control inputs of agents in example 1

    例2. 在本例中, 将所有智能体的初始状态设置为$ [-10,\;10]\times [-10,\;10] $, 有限时域设置为$ \tau = 300 $, 然后将算法1应用于MASs (45)中, 最终得到低增益参数$ \varepsilon = 0.002 $. 同时, 将对应的最优LGF控制增益矩阵$ K_{\varepsilon}^*(k) $应用于系统中, 得到的6个智能体的系统状态如图4所示, 系统控制输入如图5所示. 不同于例1, 例2中智能体的初始状态的范围变大, 必然会影响MASs的一致性控制效果. 相比而言, 例2中智能体实现一致性控制的时间更长, 得到的低增益参数更小. 然而, 从图4图5可知, 通过算法1得到的控制输入仍然可以实现有限时域一致性控制, 并避免输入饱和.

    图 4  例2中智能体的状态
    Fig. 4  The states of agents in example 2
    图 5  例2中智能体的控制输入
    Fig. 5  The control inputs of agents in example 2

    例3. 在本例中, 进一步加大了智能体初始状态的范围, 设置为$ [-100,\;100]\times [-100,\;100] $, 有限时域设置为$ \tau = 1\; 500 $, 然后将算法1应用于MASs (45)中, 最终得到低增益参数$ \varepsilon = 1.220\; 7\times 10^{-4} $. 同时, 将对应的最优LGF控制增益矩阵$ K_{\varepsilon}^*(k) $应用于系统中, 得到的6个智能体的系统状态如图6所示, 系统控制输入如图7所示. 从所得结果可知, 所提方法可以在有限时域内实现一致性控制, 并避免输入饱和.

    图 6  例3中智能体的状态
    Fig. 6  The states of agents in example 3
    图 7  例3中智能体的控制输入
    Fig. 7  The control inputs of agents in example 3

    以上三个例子证明了本文所提算法的有效性, 同时说明了如果智能体的初始状态越大, 控制输入需要配合越小的LGF控制增益矩阵$ K_{\varepsilon}(k) $以避免输入饱和, 因此低增益参数$ \varepsilon $将会迭代更多的次数, 从而得到更小的输入值. 此外, 在输入饱和度相等的情况下($ c = 1 $), 初始状态越大, 智能体实现一致性的速度越慢, 如图2图4图6所示. 通过以上三个例子, 也对定理3进行了验证.

    在本节将所提模型无关有限时域一致性控制算法与文献[38]针对执行器饱和的模型无关无限时域一致性控制方法进行对比.

    考虑一个由5个智能体组成的离散时间MASs, 其动力学方程为(1), 相关的矩阵为:

    $$ \begin{equation} A = \begin{bmatrix} 0.995 & -0.194\\ 0.194 & 0.995 \end{bmatrix},\;\quad B = \begin{bmatrix} 1 \\ 1 \end{bmatrix} \end{equation} $$ (46)

    矩阵$ A $的特征值$ 0.980\; 1\pm0.198\; 7\mathrm{i} $都在单位圆上, 且$ (A,\; B) $是可控的. 因此, 假设2成立. 在本节仿真中, 执行器饱和函数的饱和阈值设为$ c = 1 $. 离散时间MASs的通信拓扑用图8所示的无向图表示. 从图8中可以得到, 所对应的无向图是连通的. 因此, 假设3成立.

    图 11  例2中有限时域方法获得的一致性误差
    Fig. 11  Consensus errors obtained by finite-horizon method in example 2
    图 8  仿真2中MASs的通信拓扑
    Fig. 8  MASs communication topology in simulation 2

    针对本文所提算法1的相关参数设置如下: 有限时域$ \tau = 120 $, 收集样本数据的实验次数$ \eta = 100 $, 初始低增益参数$ \varepsilon = 1 $, 低增益参数$ \varepsilon $调节参数$ \alpha = 0.9 $. 参考文献[38]所提无限时域算法的相关参数设置, 初始低增益参数$ \varepsilon = 1 $, $ M^0 = I $, $ K^0 = [0,\;0] $, 收集样本数据数量$ H = 100 $, 算法收敛参数设置为$ 0.000\; 01 $. 低增益参数$ \varepsilon $的更新规则和本文所提算法1一致.

    例1. 在本例中, 首先设定5个智能体的初始状态为$ x_1(0) = [2.5,\, -2.5]^{\mathrm{T}} $, $ x_2(0) = [-1.5,\, 2]^{\mathrm{T}} $, $ x_3(0) = [-2,\; -3]^{\mathrm{T}} $, $ x_4(0) = [-2,\; -2]^{\mathrm{T}} $, $ x_5(0) = [1.5,\; 1.5]^{\mathrm{T}} $. 两种算法得到的最终低增益参数均为$ \varepsilon = 3.4\;\times 10^{-3} $. 采用文献[38]中所提算法得到的最优LGF控制增益矩阵$ K^*_{\varepsilon} = [-0.093\; 7,\; -0.073\; 0]^{\mathrm{T}} $. 将两种算法得到的最优LGF控制增益矩阵$ K_{\varepsilon}^*(k) $和$ K^*_{\varepsilon} $应用于MASs (23)中. 为了对比两种算法的一致性控制效果, 引入一致性控制误差$ \varepsilon_i(k) = \sum_{j = 1}^N d_{i j}(x_i(k)\;- x_j(k)) $. 仿真结果见图9图10.

    图 9  例1中有限时域方法获得的一致性误差
    Fig. 9  Consensus errors obtained by finite-horizon method in example 1
    图 10  例1中无限时域方法获得的一致性误差
    Fig. 10  Consensus errors obtained by infinite-horizon method in example 1

    例2. 在本例中, 改变5个智能体的初始状态为$ x_1(0) = [1,\; 2]^{\mathrm{T}} $, $ x_2(0) = [-0.5,\; -0.1]^{\mathrm{T}} $, $ x_3(0) = [0.3, 2]^{\mathrm{T}} $, $ x_4(0) = [0.8,\; 0.2]^{\mathrm{T}} $, $ x_5(0) = [-3,\; -2]^{\mathrm{T}} $. 两种算法得到的最终低增益参数均为$ \varepsilon = 7.1\times 10^{-3} $. 文献[38]所提算法得到的最优LGF控制增益矩阵为$ K_{\varepsilon} = [-0.132\; 4,\; -0.110\; 6]^{\mathrm{T}} $. 最终得到的仿真结果见图11图12.

    图 12  例2中无限时域方法获得的一致性误差
    Fig. 12  Consensus errors obtained by infinite-horizon method in example 2

    另外, 本文用每个智能体对应一致性误差的绝对误差积分(Integral absolute error, IAE)的平均值和均方误差(Mean square error, MSE)的和两个指标[4748]来评价本仿真实验的控制效果, 结果见表1.

    表 1  对比实验评价指标
    Table 1  Evaluation indices of comparison experiments
    $100\le k \le 120$ ${\mathrm{IAE}}$ ${\mathrm{MSE}}$
    例1−有限时域方法 0.637 7 0.005 4
    例1−无限时域方法 10.264 9 2.116 9
    例2−有限时域方法 1.074 8 0.014 7
    例2−无限时域方法 5.186 9 0.510 9
    下载: 导出CSV 
    | 显示表格
    $$ \begin{equation} {\mathrm{IAE}} = \frac{\sum\limits_{i = 1}^N\sum\limits_{k = 0}^{k^*}|\varepsilon_i(k)|}{N} \nonumber \end{equation} $$
    $$ \begin{equation} {\mathrm{MSE}} = \sum\limits_{i = 1}^N\frac{1}{k^*} \sum\limits_{k = 0}^{k^*}|\varepsilon_i(k)|^2\nonumber \end{equation} $$

    同时, 为了对比两种算法的一致性控制效果, 统计了智能体一致性误差对应的调节时间指标(以一致性误差范围的$ \pm\ 2\% $进行计算), 在不同初始状态下, 将时域参数均设置为200, 每个智能体对应的调节时间如表2表3所示.

    表 2  例1中一致性误差调节时间
    Table 2  Consensus error setting time in example 1
    例1−调节时间 有限时域方法 无限时域方法
    智能体1 109 137
    智能体2 119 161
    智能体3 104 127
    智能体4 109 137
    智能体5 90 110
    下载: 导出CSV 
    | 显示表格
    表 3  例2中一致性误差调节时间
    Table 3  Consensus error setting time in example 2
    例2−调节时间 有限时域方法 无限时域方法
    智能体1 108 131
    智能体2 116 158
    智能体3 120 183
    智能体4 108 131
    智能体5 84 93
    下载: 导出CSV 
    | 显示表格

    图9 ~ 图12以及表1可知, 本文所提算法能够更快地实现一致性控制, 一致性误差较小. 同时由表2表3可知, 在一定的时间范围内, 本文所提的有限时域一致性控制算法得到的一致性性能指标较文献[38]所提无限时域一致性控制算法要好, 这也说明了本文提出算法的优越性.

    本文提出一种基于Q学习的数据驱动算法, 用于求解具有未知模型参数、执行器饱和的离散时间MASs的有限时域一致性控制问题. 首先结合LGF方法, 将执行器饱和的有限时域一致性控制问题转化为执行器饱和的单智能体最优控制问题, 给出原问题的控制器设计方案. 然后在未知系统模型参数的条件下, 设计基于Q学习的数据驱动后向时间算法逼近求解MTVRE, 用以获取LGF控制增益矩阵, 并给出该算法的收敛性说明. 最后, 给出仿真结果来验证基于Q学习的有限时域一致性控制算法的有效性, 并证明智能体的初始状态会影响收敛速度的问题. 同时, 还给出对比实验来评价有限时域一致性控制算法与无限时域一致性控制算法的控制效果.

    在本文提出的方法中, 有限时域参数 $ \tau $ 作为算法1的输入参数, 其在参数选择过程中需凭借经验来进行设定. 在未来的研究中, 将探讨更为精确的有限时域参数设置方法, 以确定 $ \tau $ 的边界条件, 从而设定合理的有限时域参数 $ \tau $.


  • 1 表7 ~ 表9的完整测试结果可在: https://pan.baidu.com/s/19sqBboZHLCgFqtiZS7Id-Q 提取码3cv6下载.
  • 图  1  EACO_CD (EACO_IBKA_HKMA)结构

    Fig.  1  Framework of EACO_CD (EACO_IBKA_HKMA)

    图  2  4类客户平衡移动示意图

    Fig.  2  Diagram of balanced movement for four customer groups

    图  3  3车场K-means未平衡聚类与平衡聚类比较

    Fig.  3  Comparison of unbalanced K-means cluster and balanced K-means cluster of three depots

    图  4  HKMA工作机制

    Fig.  4  Running mechanism of HKMA

    图  5  HKMA三维聚类效果

    Fig.  5  The 3D clustering results of HKMA

    图  6  HKMA二维结果

    Fig.  6  The 2D results of HKMA

    图  7  局部搜索策略

    Fig.  7  Local search strategy

    表  1  符号及定义

    Table  1  Symbols and definitions

    符号 释义 符号 释义
    $F_1$ 运输距离费用 $H_{PM}$ 车场P 中有$H_{PM}$辆$M$类型的车辆
    $F_2$ 车辆固定成本 $r(A)$ 完成客户子集$A$中所有客户的配送需要的最少车辆数
    $F_3$ 燃油消耗费用 $N$ 总共有$N$个客户
    $F_4$ 时间窗惩罚费用 $V$ 客户编号集合$\{1,2,\cdots,\ N\} $ (0 表示车场)
    $C_{M1}$ 第$M$种类型车辆的距离费用系数 $M_t$ 共有$M_t$种类型的车辆
    $C_{M2}$ 第$M$种类型车辆的固定发车费用系数 $k$ 车辆编号
    $C_{M3}$ 第$M$种类型车辆的燃油费用系数 $x_{PMijk}$ 车场$P$车型$M$的第$k$辆车从客户$i$到客户$j$的决策变量
    $C_1$ 配送车辆提前到达的单位惩罚费用 $d_{ij}$ 客户$i$到客户$j$的距离
    $C_2$ 配送车辆迟到的单位惩罚费用 ${ET}_i$ 客户$i$要求的最早到达时间
    $i$ 客户点$i$ ${LT}_i$ 客户$i$要求的最晚到达时间
    $j$ 客户点$j$ $S_i$ 客户$i$要求的卸货时间
    $P$ $\{1,2,\cdots,\ P_t\} $ 车场编号$q_i$ 客户i 要求的货物需求量
    $P_s$ 全部车场集合 $t_i$ 车辆到达客户$i$的时间
    $P_t$ 总共有$P_t$个车场$P$ $M$ 车型编号
    $M_s$ 全部车型集合$\{1,2,\cdots,\ M_t\}$ $Q_M$ 第$M$种车型的最大载重量
    $H_{PMS}$ 车场$P$中车型$M$的全部车辆集合$\{1,2,\cdots,\ H_{PM}\}$ ${FU}_{Mij}$ 车型为$M$的车辆从客户$i$到客户$j$之间的耗油量
    注: 综合燃油消耗模型中的其他相关参数设定参考文献 [25].
    下载: 导出CSV

    表  2  目标函数中的相关系数

    Table  2  Coefficients in the object function

    符号 数值
    $C_{M1}$ 1.5 (元/km)
    $C_{M2}$ 300 ~ 800 (元/辆)
    $C_{M3}$ 7.6 (元/l)
    $C_{1}$ 15 (元/h)
    $C_{2}$ 20 (元/h)
    下载: 导出CSV

    表  3  主要参数与水平

    Table  3  Main parameters and level

    主要参数 水平设置
    1 2 3 4
    $\alpha$ 1.25 1.5 1.75 2.0
    $\beta$ 10 1.5 2.0 2.5
    $P_m$ 1.1 1.2 1.3 1.4
    $W$ 500 1000 1500 2000
    下载: 导出CSV

    表  4  参数设置的正交表

    Table  4  Orthogonal table of parameter settings

    组合编号 水平设置 AVR (元)
    $\alpha$ $\beta$ $P_m$ $W$
    1 1 1 1 1 9677
    2 1 2 2 2 9625
    3 1 3 3 3 9613
    4 1 4 4 4 9541
    5 2 1 2 3 9745
    6 2 2 1 4 9624
    7 2 3 4 1 9602
    8 2 4 3 2 9593
    9 3 1 3 4 9836
    10 3 2 4 3 9703
    11 3 3 1 2 9654
    12 3 4 2 1 9612
    13 4 1 4 2 9865
    14 4 2 3 1 9689
    15 4 3 2 4 9656
    16 4 4 1 3 9672
    下载: 导出CSV

    表  5  各参数不同水平下的平均响应值和影响力

    Table  5  Average response values and influences table at different levels of each parameter

    水平 水平设置
    $\alpha$ $\beta$ $P_m$ $W$
    1 9614 9780 9656 9645
    2 9641 9660 9659 9684
    3 9701 9631 9683 9683
    4 9720 9604 9677 9664
    极差 106 176 27 39
    影响力排名 2 1 4 3
    下载: 导出CSV

    表  6  4种不同车型相关参数设置

    Table  6  Related parameter settings for four different vehicle types

    车型
    列表
    车型参数
    载重量 (kg) 空车重量(kg) 平均速度(km/h) 固定费用(元) 最大承载货物数 (件)
    Type 1 200 1600 60 ~ 80 300 ~ 400 20
    Type 2 500 2700 50 ~ 70 400 ~ 500 30
    Type 3 600 3500 40 ~ 60 500 ~ 600 40
    Type 4 800 5000 30 ~ 50 600 ~ 800 50
    下载: 导出CSV

    表  7  EACO_IBKA与其他算法对比结果

    Table  7  Comparison results of EACO_IBKA with other algorithms

    N_Pt EACO_IBKA EACO_KM EACO_NNA EACO1 DHACO ${ {T} }({{\rm{s}}} )$
    最优平均最差标准差最优平均最差标准差最优平均最差标准差最优平均最差标准差最优平均最差标准差
    48_211118118001216395107451118111579971155812080125399996501039011026871025511068116639010
    96_217483181551854918318037183791914618716768176751822919015371170091777116916011175591816117419
    144_224628254352698330824880253692720131425435267102770232024366259692741931824475268842835632829
    192_227522285462964941128457294823026141928758295603101942828379298383061843228524308633166544538
    240_231505326993416650832517336773523551832676337233517952932722347693590653433643364753748755048
    288_239217410284332659240412423634416260441179421424469661641283431644432562242606439304513764158
    360_253748562685854484754672574026019986455251578475961988156276586536193889056965594096292991672
    48_3107671103511572831022110827111158410995114921192993917898831048981975410529110958314
    96_316638172781765417417066174911822218215957168211734918014627165821791219115236171861814118429
    144_323443242112568529323659241492589329024211254262637130223194247202610129623297255922699330543
    192_326199271752822539227090280662882639927376281402952940327016284052914740727153293813014542058
    240_329992311303252748430956320613354549431108321053349149931151331013418450432029347263569051972
    288_337337390624125156438476403334204757539205411234255558139305410964220258740565418264297560486
    360_3511765357655744806520565465657320823526085508056768831535845584858976839542405656859920864108
    48_41023910617113138299431041810886841080711144116718689399615988378954510051105398019
    96_416062169431725716616810171461748117515871164251743416016012169071733617916391169911749617738
    144_422700237232548827923650242422518729123765249902594529622747242732560228822841251142650629458
    192_425690266122773737326528272352793838326846276202898839126443278962862840326623288502961441177
    240_429375304473187746130317314013287447330447314113286348330545324843350251131411344013499752196
    288_4365193826640433537376243949341240549383653933841737560384424027841339583396924097442135595115
    360_4504805290455056768513445396056608786519045439256088802520885518458312833535845590459216850144
    平均值281832937730724400288312996831284409291003025031510416286343028931553421292783115632422431
    下载: 导出CSV

    表  8  HKMA与其他划分算法的对比结果

    Table  8  Comparison results of HKMA and the other dividing algorithms

    $ {{N}}\_ {{M}}_{{t}}$ EACO_HKMA EACO_RDA EACO_RAA EACO_KEW EACO2 TSA_RDA $ {T}({{{\rm{s}}}})$
    最优平均最差最优平均最差最优平均最差最优平均最差最优平均最差最优平均最差
    48_212801136121390113220146461512812467132931399812607133171392212218137981420213352147921527915
    96_216299167591734217570194612010616238176611859116754177041810116543178381877717746196562030729
    144_222061232652408923361258602671722390236652472122266235332459022838239342521523595261192698444
    192_224847259982693325983269052822826000272012837226039269182823826520277452893926243271742851057
    240_225958271242879726951280022972629253301303075329409300763087830131310343197627221282823002372
    288_232225333563383833783347133629032740352423718932540351563717534050366523867734121350603665387
    360_2483445005051763506955208854440491295287455793488285274353780510945498958025512025260954984108
    48_311896124001311112574139191438611755119991331211995126581323611520122401399912700140581453021
    96_315777159291699716704184941912216011167921768015932168391759416171169601785716871186791931344
    144_320965211712266122207245872539421291223122349021170223662338021717227582396022429248332564865
    192_323624247182559724704255702682324714258502697424748255882683625455266262778324951258262709187
    240_3246802577627367256202661628248278042863429235279482858229351289162977930404258762688228530108
    288_3306213170032158321063298434483311113349335335309293341435335326673516837102324273331434828129
    360_3459334755448245481724950251726466915023753019474015011851004490265274955670486544999752243162
    48_410755109981225711330125331295610700113931198510800114021192710999117661199911443126581308629
    96_414214143491467215047166551722114422151181592714346151711584314566152691608615197168221739357
    144_418878190572050619998220392286519165200852114819057201402104819548204872157120198223602309487
    192_4212732225123043222372301824145222572326824281222822303424158229252396625009224592324824386116
    240_4222152320924642230732396625438250352577826316251612573526431260362680927369233042420625692144
    288_4275632854229950289022968931040280123014931812278423008831815294133165633403291912998631350173
    360_4413504280944034433604455846561420284521847722417764311145711441294747950108437944500447027216
    平均值244072519725970256002694828145252012665927983252302665227636260232760528944258562721728426
    下载: 导出CSV

    表  9  EACO_CD性能验证

    Table  9  Performance verification of EACO_CD

    $ {{N}}\_{{ P}}_{{t}}\_{{M}}_{{t}}$ EACO_CD (EACO_IBKA_HKMA) IACO_CD (IACO_NNA_SWA) IHGA ${ {T} }({ {{\rm{s}}} })$
    最优值 平均值 最差值 标准差 最优值 平均值 最差值 标准差 最优值 平均值 最差值 标准差
    48_2_212145124781285923212880132121350924111632119671222722015
    96_2_216370165261690429517800180711838127215852160111637628531
    144_2_221010213052170432424589248252540633621049216402215434851
    192_2_223664247602565055626040272502821857624863260102694859071
    240_2_224722258322742658826707279032964064127444287202994769296
    288_2_2306903176832227724337723496235457803353113655037076824123
    360_2_239903413034190695143907454484611110594550746098477811197162
    48_3_212999140641442529313656147871537233612742138021433730421
    96_3_216883178691899335818568201152099934316800182831901136348
    144_3_221916237282466845625647277742887453923029249212590649176
    192_3_2242572549226408668266922805929065671266882805229053746109
    240_3_2246722655828026792278843002131675740283823055432236787144
    288_3_230258315723286090734814363193779710173541436956384501092183
    360_3_2393474106142734114143291451874702012634722849291512971389243
    48_3_312284132251375528012830139061444632212123132531379728729
    96_3_315867170821786038817470189111966436816514178741858447862
    144_3_3206202232123193438224882433625294490241282613627154522102
    192_3_3228162397724832631251082638327320708262422758828567743145
    240_3_3242092598227348655266932873130318770278592999531632803192
    288_3_32845829693308928283274234157355309573558237120386221048245
    360_3_3370063861040166107940722424744418611984708149427515231399288
    平均值238142501025945599263952775428775650267372810729175696
    下载: 导出CSV
  • [1] Dantzig G B, Ramser J H. The truck dispatching problem. Management Science, 1959, 6(1): 80−91 doi: 10.1287/mnsc.6.1.80
    [2] Anbuudayasankar S P, Ganesh K, Mohapatra S. Models for Practical Routing Problems in Logistics. Cham: Springer, 2014.
    [3] Li H Q, Yuan J L, Lv T, Chang X Y. The two-echelon time-constrained vehicle routing problem in linehaul-delivery systems considering carbon dioxide emissions. Transportation Research Part D: Transport and Environment, 2016, 49: 231−245 doi: 10.1016/j.trd.2016.10.002
    [4] 赵燕伟, 张景玲, 王万良. 物流配送的车辆路径优化方法. 北京: 科学出版社, 2014.

    Zhao Yan-Wei, Zhang Jing-Ling, Wang Wan-Liang. Vehicle Routing Optimization Methods for Logistics Distribution. Beijing: Science Press, 2014.
    [5] Sbihi A, Eglese R W. Combinatorial optimization and green logistics. 4OR, 2007, 5(2): 99−116 doi: 10.1007/s10288-007-0047-3
    [6] Chen D S, Batson R G, Dang Y. Applied Integer Programming. Hoboken: John Wiley & Sons, 2010.
    [7] Jabir E, Panicker V V, Sridharan R. Design and development of a hybrid ant colony-variable neighbourhood search algorithm for a multi-depot green vehicle routing problem. Transportation Research Part D: Transport and Environment, 2017, 57: 422−457 doi: 10.1016/j.trd.2017.09.003
    [8] Kaabachi I, Jriji D, Krichen S. An improved ant colony optimization for green multi-depot vehicle routing problem with time windows. In: Proceedings of the 18th IEEE/ACIS International Conference on Software Engineering, Artificial Intelligence, Networking and Parallel/Distributed Computing (SNPD). Kanazawa, Japan: IEEE, 2017.
    [9] Xiao Y Y, Konak A. The heterogeneous green vehicle routing and scheduling problem with time-varying traffic congestion. Transportation Research Part E: Logistics and Transportation Review, 2016, 88: 146−166 doi: 10.1016/j.tre.2016.01.011
    [10] Kwon Y J, Choi Y J, Lee D H. Heterogeneous fixed fleet vehicle routing considering carbon emission. Transportation Research Part D: Transport and Environment, 2013, 23: 81−89 doi: 10.1016/j.trd.2013.04.001
    [11] Geetha S, Vanathi P T, Poonthalir G. Metaheuristic approach for the multi-depot vehicle routing problem. Applied Artificial Intelligence, 2012, 26(9): 878−901 doi: 10.1080/08839514.2012.727344
    [12] Geetha S, Poonthalir G, Vanathi P T. Nested particle swarm optimisation for multi-depot vehicle routing problem. International Journal of Operational Research, 2013, 16(3): 329−348 doi: 10.1504/IJOR.2013.052336
    [13] Ho W, Ho G T S, Ji P, Lau H C W. A hybrid genetic algorithm for the multi-depot vehicle routing problem. Engineering Applications of Artificial Intelligence, 2008, 21(4): 548−557 doi: 10.1016/j.engappai.2007.06.001
    [14] Wang Y, Assogba K, Liu Y, Ma X L, Xu M Z, Wang Y H. Two-echelon location-routing optimization with time windows based on customer clustering. Expert Systems With Applications, 2018, 104: 244−260 doi: 10.1016/j.eswa.2018.03.018
    [15] Dondo R, Cerdá J. A cluster-based optimization approach for the multi-depot heterogeneous fleet vehicle routing problem with time windows. European Journal of Operational Research, 2007, 176(3): 1478−1507 doi: 10.1016/j.ejor.2004.07.077
    [16] Tang Y L, Cai Y G, Yang Q J. Improved ant colony optimization for multi-depot heterogeneous vehicle routing problem with soft time windows. Journal of Southeast University (English Edition), 2015, 31(1): 94−99
    [17] Dorigo M, Maniezzo V, Colorni A. Ant system: Optimization by a colony of cooperating agents. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 1996, 26(1): 29−41 doi: 10.1109/3477.484436
    [18] 王素欣, 高利, 崔小光, 曹宏美. 多需求点车辆调度模型及其群体智能混合求解. 自动化学报, 2008, 34(1): 102−104

    Wang Su-Xin, Gao Li, Cui Xiao-Guang, Cao Hong-Mei. Study on multi-requirement points vehicle scheduling model and its swarm mix algorithm. Acta Automatica Sinica, 2008, 34(1): 102−104
    [19] Lee C Y, Lee Z J, Lin S W, Ying K C. An enhanced ant colony optimization (EACO) applied to capacitated vehicle routing problem. Applied Intelligence, 2010, 32(1): 88−95 doi: 10.1007/s10489-008-0136-9
    [20] Yu B, Yang Z Z. An ant colony optimization model: The period vehicle routing problem with time windows. Transportation Research Part E: Logistics and Transportation Review, 2011, 47(2): 166−181 doi: 10.1016/j.tre.2010.09.010
    [21] Ding Q L, Hu X P, Sun L J, Wang Y Z. An improved ant colony optimization and its application to vehicle routing problem with time windows. Neurocomputing, 2012, 98: 101−107 doi: 10.1016/j.neucom.2011.09.040
    [22] Yan F L. Autonomous vehicle routing problem solution based on artificial potential field with parallel ant colony optimization (ACO) algorithm. Pattern Recognition Letters, 2018, 116: 195−199 doi: 10.1016/j.patrec.2018.10.015
    [23] 陈希琼, 胡大伟, 杨倩倩, 胡卉, 高扬. 多目标同时取送货车辆路径问题的改进蚁群算法. 控制理论与应用, 2018, 35(9): 1347−1356 doi: 10.7641/CTA.2018.80085

    Chen Xi-Qiong, Hu Da-Wei, Yang Qian-Qian, Hu Hui, Gao Yang. An improved ant colony algorithm for multi-objective vehicle routing problem with simultaneous pickup and delivery. Control Theory & Applications, 2018, 35(9): 1347−1356 doi: 10.7641/CTA.2018.80085
    [24] Xu H T, Pu P, Duan F. Dynamic vehicle routing problems with enhanced ant colony optimization. Discrete Dynamics in Nature and Society, 2018, 2018: Article No. 1295485
    [25] Demir E, Bektaš T, Laporte G. An adaptive large neighborhood search heuristic for the pollution-routing problem. European Journal of Operational Research, 2012, 223(2): 346−359 doi: 10.1016/j.ejor.2012.06.044
    [26] Bektaš T, Gouveia L. Requiem for the Miller-Tucker-Zemlin subtour elimination constraints. European Journal of Operational Research, 2014, 236(3): 820−832 doi: 10.1016/j.ejor.2013.07.038
    [27] Toth P, Vigo D. 车辆路径问题. 北京: 清华大学出版社, 2011.

    Toth P, Vigo D. The Vehicle Routing Problem. Beijing: Tsinghua University Press, 2011.
    [28] Wolsey L A. Integer Programming. New York: Wiley, 1998.
    [29] Schneider M, Stenger A, Goeke D. The electric vehicle-routing problem with time windows and recharging stations. Transportation Science, 2014, 48(4): 500−520 doi: 10.1287/trsc.2013.0490
    [30] Gu S S. A polynomial time solvable algorithm to linearly constrained binary quadratic programming problems with Q being a tri-diagonal matrix. In: Proceedings of the 5th International Conference on Intelligent Control and Information Processing (ICCIP). Dalian, China: IEEE, 2011.
    [31] Meng X H, Li J, Zhou M C, Dai X Z, Dou J P. Population-based incremental learning algorithm for a serial colored traveling salesman problem. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2018, 48(2): 277−288 doi: 10.1109/TSMC.2016.2591267
    [32] Wang Y, Ma X L, Lao Y T, Wang Y H. A fuzzy-based customer clustering approach with hierarchical structure for logistics network optimization. Expert Systems With Applications, 2014, 41(2): 521−534 doi: 10.1016/j.eswa.2013.07.078
    [33] Wang Y, Zhang J, Assogba K, Liu Y, Xu M Z, Wang Y H. Collaboration and transportation resource sharing in multiple centers vehicle routing optimization with delivery and pickup. Knowledge-Based Systems, 2018, 160: 296−310 doi: 10.1016/j.knosys.2018.07.024
    [34] Wang B D, Miao Y W, Zhao H Y, Jin J, Chen Y Z. A biclustering-based method for market segmentation using customer pain points. Engineering Applications of Artificial Intelligence, 2016, 47: 101−109 doi: 10.1016/j.engappai.2015.06.005
    [35] Ji J C, Pang W, Zhou C G, Han X, Wang Z. A fuzzy k-prototype clustering algorithm for mixed numeric and categorical data. Knowledge-Based Systems, 2012, 30: 129−135 doi: 10.1016/j.knosys.2012.01.006
    [36] Wang Y, Ma X L, Liu M W, Gong K, Liu Y, Xu M Z, et al. Cooperation and profit allocation in two-echelon logistics joint distribution network optimization. Applied Soft Computing, 2017, 56: 143−157 doi: 10.1016/j.asoc.2017.02.025
    [37] He R H, Xu W B, Sun J X, Zu B Q. Balanced k-means algorithm for partitioning areas in large-scale vehicle routing problem. In: Proceedings of the 3rd International Symposium on Intelligent Information Technology Application. Nanchang, China: IEEE, 2009.
    [38] 王东风, 孟丽. 粒子群优化算法的性能分析和参数选择. 自动化学报, 2016, 42(10): 1552−1561 doi: 10.16383/j.aas.2016.c150774

    Wang Dong-Feng, Meng Li. Performance analysis and parameter selection of PSO algorithms. Acta Automatica Sinica, 2016, 42(10): 1552−1561 doi: 10.16383/j.aas.2016.c150774
    [39] Beasley J E. Route first―Cluster second methods for vehicle routing. Omega, 1983, 11(4): 403−408 doi: 10.1016/0305-0483(83)90033-6
    [40] Gillett B E, Miller L R. A heuristic algorithm for the vehicle-dispatch problem. Operations Research, 1974, 22(2): 340−349 doi: 10.1287/opre.22.2.340
    [41] Yu B, Yang Z Z, Yao B Z. An improved ant colony optimization for vehicle routing problem. European Journal of Operational Research, 2009, 196(1): 171−176 doi: 10.1016/j.ejor.2008.02.028
    [42] Mladenović N, Hansen P. Variable neighborhood search. Computers & Operations Research, 1997, 24(11): 1097−1100
    [43] 李进, 傅培华. 具有固定车辆数的多车型低碳路径问题及算法. 计算机集成制造系统, 2013, 19(6): 1351−1362 doi: 10.13196/j.cims.2013.06.189.lij.007

    Li Jin, Fu Pei-Hua. Heterogeneous fixed fleet low-carbon routing problem and algorithm. Computer Integrated Manufacturing Systems, 2013, 19(6): 1351−1362 doi: 10.13196/j.cims.2013.06.189.lij.007
  • 期刊类型引用(2)

    1. 谭福容,孙绍伦,张森,陈先中,赵宝永. 基于泊松算法和多尺度特征编码网络的三维料面重构及修复. 冶金自动化. 2024(02): 94-102 . 百度学术
    2. 赵炯. 高炉炉顶气密箱布料溜槽不同工况下的使用特性分析及优化. 山西冶金. 2024(09): 124-125+128 . 百度学术

    其他类型引用(2)

  • 加载中
  • 图(7) / 表(9)
    计量
    • 文章访问数:  2510
    • HTML全文浏览量:  281
    • PDF下载量:  249
    • 被引次数: 4
    出版历程
    • 收稿日期:  2019-12-22
    • 录用日期:  2020-05-03
    • 网络出版日期:  2022-10-24
    • 刊出日期:  2022-12-23

    目录

    /

    返回文章
    返回