Design of Optimal Strategies for the Pursuit-evasion Problem Based on Differential Game
-
摘要:
本文设计了基于线性二次型微分博弈的多个攻击者、多个防御者和单个目标的追逃问题最优策略. 首先, 针对攻防双方保持聚合状态的情形, 基于攻击方内部、防御方内部以及双方之间的通信拓扑, 分别给出了目标沿固定轨迹运动和目标采取逃跑时攻防双方的最优策略. 其次, 针对攻防双方保持分散状态的情形, 利用二分图最大匹配算法分配相应的防御者与攻击者, 将多攻击者、多防御者追逃问题转化为多组两人零和微分博弈, 并求解出了攻防双方的最优策略. 最后, 数值仿真验证了所提策略的有效性.
-
关键词:
- 微分博弈 /
- 追逃问题 /
- 团队聚合 /
- 线性二次型博弈 /
- 目标–攻击者–防御者
Abstract:This paper is concerned with the design of optimal strategies for the pursuit-evasion problem with multi-attacker, multi-defender and single target based on the linear quadratic differential game. Firstly, for the case that attackers and defenders maintain their group cohesion, strategies of attackers and defenders are proposed when the target moves with a certain trajectory or the target adopts evasion policy respectively, based on communication graphs among attackers, among defenders, and between attackers and defenders. Secondly, for the case that attackers and defenders stay distributed, the maximum matching algorithm of bipartite graph is used to match attackers for defenders and the multi-attacker multi-defender pursuit-evasion problem is transformed into multi two-person zero-sum differential games, and then optimal strategies of attackers and defenders are proposed. Finally, simulation examples are provided to verify the effectiveness of the proposed strategies.
-
在追逃问题中, 智能体需要完成追击或防御任务, 如多无人机对抗[1]、飞行器轨迹规划[2]、无人机打击[3]等. 近年来, 追逃问题受到了广泛的关注, Zhou等利用维诺图分割区域的方法研究了有限区域内多个追捕者对单个逃跑者的抓捕[4], De Simone等利用模型预测控制方法研究了存在障碍物的追逃问题[5]. 博弈论易于建立不同博弈者之间的策略交互模型, 且博弈者的策略选择过程即是系统内部的合作或竞争过程. 因此, 利用博弈论的方法研究追逃问题逐渐成为热点[6-8].
在经典的追逃问题中, 系统包含两组对立的博弈者, 一组博弈者作为追捕者, 另一组博弈者作为逃跑者. Isaacs利用微分博弈方法研究了单个追捕者、单个逃跑者的追逃问题, 通过定性微分博弈方法获得了追逃双方的胜利区域, 并求解出了追逃双方的最优策略[6]. 进一步, Fang等研究了单个逃跑者和多个追捕者的追逃博弈问题[7], Lin等研究了有限观测信息下的追逃微分博弈问题[8].
在导弹打击、无人机对抗等实际场景中, 通常要考虑存在目标的追逃问题. 此时, 攻击者相对于目标扮演追捕者的角色, 相对于防御者扮演逃跑者的角色. 因此, 攻击者在抓捕目标的同时需要避免被防御者拦截, 防御者在保护目标的同时力图捕获攻击者. 当目标为静态时, 该问题转化为两人博弈问题. Pachter等研究了相同速度下攻击者和防御者的追逃问题[9]. Venkatesan等给出了不同速度下攻击者和防御者的最优策略, 并分析了防御者捕获半径非零的情形[10]. 当目标为动态时, Li等基于线性二次型微分博弈, 获得了目标固定、目标以任意轨迹运动及目标采取逃跑策略时攻击者与防御者的最优策略[11]. Garcia等采用零和博弈的框架处理主动目标防御问题, 以攻击者和目标的终端距离作为性能函数, 给出了各智能体的闭环最优状态反馈策略并得到了博弈的值函数[12]. Liang等采用定性微分博弈方法, 以胜利时间作为性能函数, 获得了基于界栅的双方最优策略和最优轨迹[13]. 以上结果仅仅考虑了单个攻击者、单个防御者的情形.
针对多个攻击者或防御者, Casbeer等讨论了两个防御者、一个攻击者的情形, 给出了双方的最优策略和安全区域[14]. Chen等考虑了数量相同的攻击者和防御者在有障碍物的二维区域内进行博弈, 将目标分配算法与经典的Hamilton-Jacobi-Isaacs方法相结合, 获得了每个攻击者和防御者相应的最优状态反馈策略[15]. Coon等考虑了任意数量攻击者和防御者的场景, 通过等时线的交点确定防御者是否可以成功拦截攻击者, 最后给出了攻击者在偏离预定轨迹时仍能被捕获的充分条件[16]. Chipade等结合估计函数方法优化目标函数, 利用Lyapunov方法获得了攻击者、防御者的最优策略[17]. Yan等通过构建界栅划分多个追捕者、单个逃跑者的胜利区域, 并结合任务分配和整数规划算法, 最大化追捕者捕获逃跑者的数量[18]. Garcia等将微分博弈理论与任务分配算法相结合来研究多个追捕者、多个逃跑者的边界防御问题, 求解出了追逃双方的最优策略[19]. Sin等考虑了多个防御者合作拦截多个攻击者的目标防御问题, 给出了目标沿固定轨迹运动时攻防双方的最优策略, 但未考虑攻击者、防御者各自内部的通信问题[20]. 以上研究通常涉及任务分配, 在智能体规模较大时, 求解较为困难.
为了便于求解大规模问题, Li等考虑了追逃双方之间的通信, 将基于图论的控制律引入追逃问题, 但仅获得了追逃双方的局部最优策略[21]. 在有些实际场景中, 要求博弈的某一方内部的所有智能体在保持聚合状态的同时完成一定的任务, 即保持较近的距离, 从而保证彼此的通信连接. Mejia等讨论了一组追捕者追捕一组逃跑者的情形, 基于通信拓扑图考虑了有限时间捕获和渐近会合情况, 给出了追逃双方在各自聚合状态下的纳什均衡策略和最大最小策略, 但仅考虑了追逃两方之间的博弈[22].
基于以上的分析讨论, 本文主要研究基于线性二次型微分博弈的多个攻击者、多个防御者和单个目标的追逃问题. 首先, 针对攻击者、防御者保持聚合状态的情形, 分别给出了目标按固定轨迹运动和目标采取逃跑运动时攻防双方的最优策略. 然后, 针对攻击者、防御者保持分散状态的情形, 采用二分图最大匹配算法为防御者匹配攻击者, 将多个攻击者、多个防御者的追逃问题转化为多组两人零和微分博弈, 求解出了攻防双方的最优策略. 最后, 数值仿真验证了所提策略的有效性.
符号说明.
$ {\bf{R}} $ 表示实数域;$ {\bf{R}}^{n} $ 表示$ n $ 维实数列向量组成的集合;$ {\bf{R}}^{n\times m} $ 表示$ n\times m $ 维实数矩阵组成的集合;$ I_{n} $ 表示$ n\times n $ 维的单位矩阵;$ 0_{m\times n} $ 表示$ m\times n $ 维的零矩阵;$ A^{\rm{T}} $ 表示矩阵$ A $ 的转置;$ A^{-1} $ 表示矩阵$ A $ 的逆;$ M $ 表示邻接矩阵;$A\succ0\;(A\succcurlyeq0)$ 表示矩阵$ A $ 是实对称正定(半正定)矩阵;$A\prec0 $ $ (A\preccurlyeq0)$ 表示矩阵$ A $ 是实对称负定(半负定)矩阵;$ \star $ 表示对称矩阵中的对称块;${\rm{blkdiag}}\{A_{1},\cdots,A_{n}\}$ 表示分块对角矩阵, 其主对角线上为方块矩阵$A_{1} ,\cdots,A_{n}$ ;$ \|{\boldsymbol{x}} \| $ 表示向量$ {\boldsymbol{x}} $ 的欧几里得范数,$ \| {\boldsymbol{x}} \| = \sqrt{{\boldsymbol{x}}^{\rm{T}}{\boldsymbol{x}}} $ ,$ {\boldsymbol{x}}\in {\bf{R}}^{n} $ ;$ A\otimes B $ 表示矩阵$ A $ 和矩阵$ B $ 的Kronecker积.1. 问题描述
本文中, 追逃博弈问题考虑存在目标、攻击者和防御者三方, 攻击者试图攻击目标, 而防御者试图拦截攻击者以阻止其攻击目标. 当攻击者捕获目标或者防御者成功拦截攻击者时, 博弈结束. 攻击方的任务是在保持聚合状态的同时攻击目标, 而防御方的任务在保持聚合状态的同时保护目标, 拦截攻击方.
1.1 系统通信拓扑的图描述
定义 1. 有向图
$ {\cal{G}}_{d} = ({\cal{V}}_{d},{\cal{E}}_{d}) $ 表示防御方的通信拓扑, 其中,${\cal{V}}_{d} = \{1,2,\cdots,m\}$ 表示$ m $ 个防御者的集合,$ {\cal{E}}_{d} \subseteq {\cal{V}}_{d} \times {\cal{V}}_{d} $ 表示防御方内部边的集合. 对于边$ (i, p) $ , 其权重为$ \alpha_{ip}\geq 0 $ . 防御者$ i $ 在图$ {\cal{G}}_{d} $ 中的邻居集合用${{N}}_{d}(i)$ 来表示. 定义$ D_{d} $ 为关联矩阵,$ W_{d} $ 为权重矩阵, 那么图$ {\cal{G}}_{d} $ 的Laplacian矩阵为$L_{d} = $ $ D_{d}W_{d}D_{d}^{\rm{T}}$ .定义 2. 有向图
$ {\cal{G}}_{a} = ({\cal{V}}_{a},{\cal{E}}_{a}) $ 表示攻击方的通信拓扑, 其中,${\cal{V}}_{a} = \{1,2,\cdots,l\}$ 表示$ l $ 个攻击者的集合.$ {\cal{E}}_{a} \subseteq {\cal{V}}_{a} \times {\cal{V}}_{a} $ 表示攻击者内部边的集合. 赋予边$ (j, q) $ 权重值$ \beta_{jq}\geq 0 $ . 攻击者$ j $ 在图$ {\cal{G}}_{a} $ 中的邻居集合用${{N}}_{a}(j)$ 来表示. 定义$ D_{a} $ 为关联矩阵,$ W_{a} $ 为权重矩阵, 那么图$ {\cal{G}}_{a} $ 的Laplacian矩阵为$L_{a} = $ $ D_{a}W_{a}D_{a}^{\rm{T}}$ .定义 3. 二分图
$ {\cal{G}} = ({\cal{V}},{\cal{E}}) $ 为有向图, 表示攻击方和防御方之间的通信拓扑, 其中,${\cal{V}} = {\cal{V}}_{d} \cup {\cal{V}}_{a} = $ $ \{1, 2,\cdots,m,m+1,\cdots,m+l\}$ 表示$ m $ 个防御者和$ l $ 个攻击者的集合,$ {\cal{E}} \subseteq {\cal{V}} \times {\cal{V}} $ 表示双方之间边的集合. 图$ {\cal{G}} = ({\cal{V}},{\cal{E}}) $ 只包含攻防双方之间的通信而不包含各自内部的通信. 边$ (p, q) $ 表示防御者$ p $ 可以获取攻击者$ q $ 的信息, 赋予其权重$ \gamma_{pq}\geq 0 $ ; 反之, 边$ (q, p) $ 表示攻击者$ q $ 可以获取防御者$ p $ 的信息. 智能体$ r $ 在图$ {\cal{G}} $ 中的全部邻居用集合${{N}}(r)$ 来表示. 定义$ D $ 为关联矩阵,$ W $ 为权重矩阵, 那么图$ {\cal{G}} $ 的Laplacian矩阵为$ L = DWD^{\rm{T}} $ .假设 1. 对于追逃博弈问题, 假设攻击方、防御方都能获取目标的状态信息, 且能够获取邻居的状态信息. 图
$ {\cal{G}}_{d} = ({\cal{V}}_{d},{\cal{E}}_{d}) $ 和$ {\cal{G}}_{a} = ({\cal{V}}_{a},{\cal{E}}_{a}) $ 都是连通图.1.2 目标沿固定轨迹运动时的攻防博弈建模
下面对攻防双方在保持各自聚合状态, 目标沿固定轨迹运动时的追逃博弈问题进行建模.
防御方具有
$ m $ 个防御者, 其状态方程如下:$$ {\dot {\boldsymbol{x}}_{i}} = A_{di}{\boldsymbol{x}}_{i}+b_{di}{\boldsymbol{u}}_{i},\quad i = 1,2,\cdots,m $$ (1) 其中,
$ {\boldsymbol{x}}_{i}(t)\in {\bf{R}}^{2n} $ 表示防御者$ i $ 的状态,$ {\boldsymbol{u}}_{i}(t)\in {\bf{R}}^{n} $ 表示防御者$ i $ 的控制输入,${A_{di}} = \left[ {\begin{aligned} {{0_{n \times n}}}\;\;\;\;{{I_n}}\;\;\\ {{0_{n \times n}}}\;\;{{0_{n \times n}}} \end{aligned}} \right]$ ,$b_{di} = $ $ \left[ \begin{aligned} 0_{n\times n} \\ I_{n} \;\;\end{aligned} \right]$ .类似地, 攻击方具有
$ l $ 个攻击者, 其状态方程如下:$$ {\dot {\boldsymbol{y}}_{j}} = A_{aj}{\boldsymbol{y}}_{j}+b_{aj}{\boldsymbol{v}}_{j},\quad j = 1,2,\cdots,l $$ (2) 其中,
$ {\boldsymbol{y}}_{j}(t)\in {\bf{R}}^{2n} $ 表示攻击者$ j $ 的状态,$ {\boldsymbol{v}}_{j}(t)\in {\bf{R}}^{n} $ 表示攻击者$ j $ 的控制输入,${A_{aj}}\! =\! \left[ {\begin{aligned} {{0_{n \times n}}}\;\;\;\;{{I_n}}\;\;\\ {{0_{n \times n}}}\;\;{{0_{n \times n}}} \end{aligned}} \right]$ ,$b_{aj} = $ $ \left[ \begin{aligned} 0_{n\times n} \\ I_{n}\;\; \end{aligned} \right]$ .定义向量
$$ {\boldsymbol{z}} = [{\boldsymbol{x}}_{1}^{\rm{T}},{\boldsymbol{x}}_{2}^{\rm{T}},\cdots,{\boldsymbol{x}}_{m}^{\rm{T}},{\boldsymbol{y}}_{1}^{\rm{T}},{\boldsymbol{y}}_{2}^{\rm{T}},\cdots,{\boldsymbol{y}}_{l}^{\rm{T}}]^{\rm{T}} \in{\bf{R}}^{2n(m+l)} , $$ 由式(1)和式(2), 有:
$$ {\dot {\boldsymbol{z}}} = A{\boldsymbol{z}}+\sum\limits_{i = 1}^{m}B_{di}{\boldsymbol{u}}_{i}+\sum\limits_{j = 1}^{l}B_{aj}{\boldsymbol{v}}_{j} $$ (3) 其中,
$$ \begin{split} &A = {\rm{blkdiag}}\left\lbrace A_{d1},\cdots,A_{dm},A_{a(m+1)},\cdots,A_{a(m+l)}\right\rbrace \\ &B_{di} = [0_{1\times(i-1)},1,0_{1\times(m-i+l)}]^{\rm{T}}\otimes b_{di}\in {\bf{R}}^{2n(m+l)\times n} \\ &B_{aj} = [0_{1\times(m+j-1)},1,0_{1\times(l-j)}]^{\rm{T}}\otimes b_{aj}\in {\bf{R}}^{2n(m+l)\times n} \end{split} $$ 目标沿固定轨迹运动的状态方程如下:
$$ {\dot {\boldsymbol{x}}_{T}} = A_{T}{\boldsymbol{x}}_{T} $$ (4) 其中,
$ {\boldsymbol{x}}_{T}(t)\in {\bf{R}}^{2n} $ 表示目标$ T $ 的状态,${A_T} = $ $ \left[ {\begin{aligned} {{0_{n \times n}}}\;\;\;\;{{I_n}}\;\;\\ {{0_{n \times n}}}\;\;{{0_{n \times n}}} \end{aligned}} \right]$ .定义向量
$$\begin{split} \bar {\boldsymbol{z}} =\;& [{\boldsymbol{x}}_{1}^{\rm{T}},{\boldsymbol{x}}_{2}^{\rm{T}},\cdots,{\boldsymbol{x}}_{m}^{\rm{T}},{\boldsymbol{y}}_{1}^{\rm{T}},{\boldsymbol{y}}_{2}^{\rm{T}},\cdots,{\boldsymbol{y}}_{l}^{\rm{T}},{\boldsymbol{x}}_{T}^{\rm{T}}]^{\rm{T}} \in\\ &{\bf{R}}^{2n(m+l+1)} \end{split}$$ 由式(1)、式(2)和式(4), 有:
$$ {\dot{\bar {\boldsymbol{z}}}} = \bar A\bar {\boldsymbol{z}}+\sum\limits_{i = 1}^{m}\bar B_{di}{\boldsymbol{u}}_{i}+\sum\limits_{j = 1}^{l}\bar B_{aj}{\boldsymbol{v}}_{j} $$ (5) 其中,
$$\begin{split} &{\bar A = \left[ {\begin{array}{*{20}{c}} A&{{0_{2n(m + l) \times 2n}}}\\ {{0_{2n \times 2n(m + l)}}}&{{A_T}} \end{array}} \right]}\\ &{{{\bar B}_{di}} = \left[ {\begin{array}{*{20}{c}} {{B_{di}}}\\ {{0_{2n \times n}}} \end{array}} \right]}\\ &{{{\bar B}_{aj}} = \left[ {\begin{array}{*{20}{c}} {{B_{aj}}}\\ {{0_{2n \times n}}} \end{array}} \right]} \end{split} $$ 防御方需要在保持聚合状态的同时保护目标, 并拦截攻击方. 因此, 防御者
$ i $ 需要优化的加权距离可以表示为:$$\begin{split} &\sum\limits_{p\in {{N}}_{d}(i)}\alpha_{ip}\|{\boldsymbol{x}}_{i}-{\boldsymbol{x}}_{p}\|^{2}+\sum\limits_{j\in {{N}}(i)}\gamma_{ij}\|{\boldsymbol{x}}_{i}-{\boldsymbol{y}}_{j}\|^{2}-\\ &\qquad\sum\limits_{q\in {{N}}(i)}\|{\boldsymbol{y}}_{q}-{\boldsymbol{x}}_{T}\|^{2} \end{split}$$ (6) 其中, 第一项是防御者
$ i $ 与其邻居${{N}}_{d}(i)$ 的距离加权和, 为防御者聚合项, 第二项是防御者$ i $ 与其可以观测到的攻击者$ {{N}}(i) $ 的距离加权和, 第三项为防御者$ i $ 可以观测到的攻击者${{N}}(i)$ 和目标$ T $ 的距离之和.加权距离式(6)可以转化为如下形式:
$$ \bar {\boldsymbol{z}}^{\rm{T}}\bar L_{di}\bar {\boldsymbol{z}}+\bar {\boldsymbol{z}}^{\rm{T}}\bar L_{i}\bar {\boldsymbol{z}}-\sum\limits_{q\in {{N}}(i)}\bar {\boldsymbol{z}}^{\rm{T}}\bar K_{q}\bar {\boldsymbol{z}} $$ (7) 式(7)中,
$$ \begin{split} &{{{\bar L}_{di}} = \left[ {\begin{array}{*{20}{c}} {{{\hat L}_{di}}}&{{0_{2n(m + l) \times 2n}}}\\ {{0_{2n \times 2n(m + l)}}}&{{0_{2n \times 2n}}} \end{array}} \right]}\\ &{{{\hat L}_{di}} = \left[ {\begin{array}{*{20}{c}} {{L_{di}} \otimes {I_{2n}}}&{{0_{2nm \times 2nl}}}\\ {{0_{2nl \times 2nm}}}&{{0_{2nl \times 2nl}}} \end{array}} \right]}\\ &{{L_{di}} = {D_d}{W_{di}}D_d^{\rm{T}}}\\ &{{{\bar L}_i} = \left[ {\begin{array}{*{20}{c}} {{{\hat L}_i}}&{{0_{2n(m + l) \times 2n}}}\\ {{0_{2n \times 2n(m + l)}}}&{{0_{2n \times 2n}}} \end{array}} \right]} \end{split} $$ $$ \begin{split} &{{{\hat L}_i} = {L_i} \otimes {I_{2n}}}\\ &{{L_i} = D{W_i}{D^{\rm{T}}}}\\ &{{{\bar K}_q} = {{\tilde K}_q} \otimes {I_{2n}}} \end{split} $$ 其中,
$ W_{di} $ 和$ W_{i} $ 分别是防御者$ i $ 在图$ {\cal{G}}_{d} $ 和图$ {\cal{G}} $ 中的权重矩阵,$\tilde K_{q}\in {\bf{R}}^{(m+l+1)\times (m+l+1)},$ $\tilde K_{q}(m+q,m+ $ $ q) = 1,$ $\tilde K_{q}(m+q,m+l+1) = -1,$ $\tilde K_{q}(m+l+1, $ $ m+ q) = -1,$ $ \tilde K_{q}(m+l+1,m+l+1) = 1 $ , 其余元素为0.类似地, 攻击方的任务是在保持聚合状态的同时捕获目标. 因此, 攻击者
$ j $ 需要优化的加权距离可以表示为:$$ \begin{split} &\sum\limits_{q\in {{N}}_{a}(j)}\beta_{jq}\|{\boldsymbol{y}}_{j}-{\boldsymbol{y}}_{q}\|^{2}-\\ &\qquad\sum\limits_{i\in {{N}}(j)}\gamma_{ji}\|{\boldsymbol{y}}_{j}-{\boldsymbol{x}}_{i}\|^{2}+ \|{\boldsymbol{y}}_{j}-{\boldsymbol{x}}_{T}\|^{2} \end{split} $$ (8) 其中, 第一项是攻击者
$ j $ 与其邻居${{N}}_{a}(j)$ 的距离加权和, 为攻击者聚合项, 第二项是攻击者$ j $ 与其可以观测到的防御者${{N}}(j)$ 的距离加权和, 第三项为攻击者$ j $ 与目标$ T $ 的距离.加权距离式(8)可以转化为如下形式:
$$ {\bar {\boldsymbol{z}}}^{\rm{T}}\bar L_{aj}{\bar {\boldsymbol{z}}}-{\bar {\boldsymbol{z}}}^{\rm{T}}\bar L_{j}{\bar {\boldsymbol{z}}}+{\bar {\boldsymbol{z}}}^{\rm{T}}\bar K_{j}{\bar {\boldsymbol{z}}} $$ (9) 式(9)中,
$$ \begin{split} &{{{\bar L}_{aj}} = \left[ {\begin{array}{*{20}{c}} {{{\hat L}_{aj}}}&{{0_{2n(m + l) \times 2n}}}\\ {{0_{2n \times 2n(m + l)}}}&{{0_{2n \times 2n}}} \end{array}} \right]}\\ &{{{\hat L}_{aj}} = \left[ {\begin{array}{*{20}{c}} {{0_{2nm \times 2nm}}}&{{0_{2nm \times 2nl}}}\\ {{0_{2nl \times 2nm}}}&{{L_{aj}} \otimes {I_{2n}}} \end{array}} \right]}\\ &{{L_{aj}} = {D_a}{W_{aj}}D_a^{\rm{T}}}\\ &{{{\bar L}_j} = \left[ {\begin{array}{*{20}{c}} {{{\hat L}_j}}&{{0_{2n(m + l) \times 2n}}}\\ {{0_{2n \times 2n(m + l)}}}&{{0_{2n \times 2n}}} \end{array}} \right]}\\ &{{{\hat L}_j} = {L_j} \otimes {I_{2n}}}\\ &{{L_j} = D{W_j}{D^{\rm{T}}}}\\ &{{{\bar K}_j} = {{\tilde K}_j} \otimes {I_{2n}}} \end{split} $$ 其中,
$ W_{aj} $ 和$ W_{j} $ 分别是攻击者$ j $ 在图$ {\cal{G}}_{a} $ 和图$ {\cal{G}} $ 中的权重矩阵.$ \tilde K_{j} \in {\bf{R}}^{(m+l+1)\times (m+l+1)}, $ $\tilde K_{j}(m+j,m+ $ $ j) = 1,$ $ \tilde K_{j}(m+j,m+l+1) = -1 ,$ $\tilde K_{j}(m+l+1, $ $ m+j) = -1,$ $ \tilde K_{j}(m+l+1,m+l+1) = 1 ,$ 其余元素为0.在博弈过程中, 每个智能体需要最小化自己的成本函数, 用
$ {\boldsymbol{v}}_{-i} $ 表示防御者$ i $ 可观测到的所有攻击者策略的加权和, 即:$$ {\boldsymbol{v}}_{-i} = \sum\limits_{j\in {{N}}(i)}\gamma_{ij}{\boldsymbol{v}}_{j} $$ 对防御者
$ i $ , 定义$$ \begin{split} &\bar B_{-di} = \sum\limits_{j\in {{N}}(i)}\gamma_{ij}\bar B_{aj} \\ &\bar Q_{di} = \bar\tau_{di1}\bar L_{di}+\bar\tau_{di2}\bar L_{i}-\bar\tau_{di3} \sum\limits_{q\in {{N}}(i)}\bar K_{q} \\ &\bar Q_{dif} = \bar\tau_{di1f}\bar L_{di}+\bar\tau_{di2f}\bar L_{i}-\bar\tau_{di3f} \sum\limits_{q\in {{N}}(i)}\bar K_{q} \end{split} $$ 其中,
$ \bar \tau_{di1} $ ,$ \bar \tau_{di2} $ ,$ \bar \tau_{di3} $ ,$ \bar \tau_{di1f} $ ,$ \bar \tau_{di2f} $ ,$ \bar \tau_{di3f} $ 为权重系数.$ \bar \tau_{di1} $ 表示防御者$ i $ 对实现聚合状态的重视程度,$ \bar \tau_{di2} $ 为防御者$ i $ 对实现防御攻击者任务的重视程度,$ \bar \tau_{di3} $ 为防御者$ i $ 阻止其可观测到的攻击者攻击目标的重视程度. 同理,$ \bar \tau_{di1f} $ ,$ \bar \tau_{di2f} $ ,$ \bar \tau_{di3f} $ 为对应的终端时刻的权重系数. 对每个防御者$ i $ , 设计如下成本函数:$$ \begin{split} \bar J_{i} =\;& \int_{0}^{t_{f}}(\bar {\boldsymbol{z}}^{\rm{T}}\bar Q_{di}\bar {\boldsymbol{z}}+{\boldsymbol{u}}_{i}^{\rm{T}}R_{i}{\boldsymbol{u}}_{i}-{\boldsymbol{v}}_{-i}^{\rm{T}}R_{-i}{\boldsymbol{v}}_{-i})\,{\rm{d}}t +\\ &\bar {\boldsymbol{z}}^{T}(t_{f})\bar Q_{dif}\bar {\boldsymbol{z}}(t_{f}),\quad i = 1,2,\cdots,m \\[-10pt] \end{split} $$ (10) 其中,
$ t_{f} $ 为终端时刻,$ \bar Q_{di}\succ0 $ ,$ \bar Q_{dif}\succ0 $ ,$ R_{i}\succ0 $ ,$ R_{-i}\succ0 $ .攻击者
$ j $ 则需要根据可观测到的防御者的策略做出最佳响应, 用$ u_{-j} $ 表示攻击者$ j $ 可观测到的所有防御者策略的加权和, 即:$$ {\boldsymbol{u}}_{-j} = \sum\limits_{i\in {{N}}(j)}\gamma_{ji}{\boldsymbol{u}}_{i} $$ 对攻击者
$ j $ , 定义$$ \begin{split} &\bar B_{-aj} = \sum\limits_{i\in {{N}}(j)}\gamma_{ji}\bar B_{di} \\ &\bar Q_{aj} = \bar \tau_{aj1}\bar L_{aj}-\bar \tau_{aj2}\bar L_{j}+\bar\tau_{aj3}\bar K_{j} \\ &\bar Q_{ajf} = \bar\tau_{aj1f}\bar L_{aj}-\bar\tau_{aj2f}\bar L_{j}+\bar\tau_{aj3f}\bar K_{j} \end{split}$$ 其中,
$ \bar \tau_{aj1} $ ,$ \bar \tau_{aj2} $ ,$ \bar \tau_{aj3} $ ,$ \bar \tau_{aj1f} $ ,$ \bar \tau_{aj2f} $ ,$ \bar \tau_{aj3f} $ 为权重系数.$ \bar \tau_{aj1} $ 表示攻击者$ j $ 对实现聚合状态的重视程度,$ \bar \tau_{aj2} $ 为攻击者$ j $ 对躲避防御者的重视程度,$ \bar \tau_{aj3} $ 为攻击者$ j $ 对攻击目标的重视程度. 同理,$ \bar \tau_{aj1f} $ ,$ \bar \tau_{aj2f} $ ,$ \bar \tau_{aj3f} $ 为对应的终端时刻的权重系数. 对每个攻击者$ j $ , 设计如下成本函数:$$ \begin{split} \bar J_{j} = \;&\int_{0}^{t_{f}}(\bar {\boldsymbol{z}}^{\rm{T}}\bar Q_{aj}\bar {\boldsymbol{z}}+{\boldsymbol{v}}_{j}^{\rm{T}}R_{j}{\boldsymbol{v}}_{j}-{\boldsymbol{u}}_{-j}^{\rm{T}}R_{-j}{\boldsymbol{u}}_{-j})\,{\rm{d}}t +\\ &\bar {\boldsymbol{z}}^{T}(t_{f})\bar Q_{ajf}\bar {\boldsymbol{z}}(t_{f}),\quad j = 1,2,\cdots,l \\[-10pt] \end{split} $$ (11) 其中,
$ t_{f} $ 为终端时刻,$ \bar Q_{aj}\succ0 $ ,$ \bar Q_{ajf}\succ0 $ ,$ R_{j}\succ0 $ ,$ R_{-j}\succ0 $ .本文的目的是求解防御者
$ i $ 与攻击者$ j $ 最优策略$ {\boldsymbol{u}}_{i}^{*} $ ,$ {\boldsymbol{v}}_{j}^{*} $ , 使其满足条件$$ \bar J_{i}({\boldsymbol{u}}_{i}^{*},{\boldsymbol{v}}_{-i}^{*})\leq \bar J_{i}({\boldsymbol{u}}_{i},{\boldsymbol{v}}_{-i}^{*}) $$ (12) $$ \bar J_{j}({\boldsymbol{v}}_{j}^{*},{\boldsymbol{u}}_{-j}^{*})\leq \bar J_{j}({\boldsymbol{v}}_{j},{\boldsymbol{u}}_{-j}^{*}) $$ (13) 其中,
$i\in {\cal{V}}_{d} = \{1,2,\cdots,m\}$ ,$j\in{\cal{V}}_{a} = \{1,2,\cdots,l\}$ .2. 主要结果
本节首先给出目标按固定轨迹运动时的攻防双方的最优策略, 并进一步设计目标采取逃跑运动时的攻防双方的最优策略. 然后, 针对攻防双方保持分散状态的情形, 采用二分图最大匹配算法为防御者匹配攻击者, 将多个攻击者、多个防御者的追逃问题转化为多组两人零和微分博弈进行求解.
2.1 目标沿固定轨迹运动时的攻防双方的最优策略
根据式(5)、式(10)和式(11)博弈模型, 下面定理给出攻击者、防御者双方在保持各自聚合状态下的最优状态反馈策略.
定理 1. 考虑系统(5), 防御者
$ i $ 和攻击者$ j $ 的成本函数分别为式(10)和式(11), 那么, 防御者$ i $ 的最优策略$$ {\boldsymbol{u}}^{*}_{i} = -R_{i}^{-1}B_{di}^{\rm{T}}\bar P_{i11}{\boldsymbol{z}}- R_{i}^{-1}B_{di}^{\rm{T}}{\boldsymbol{c}}_{i} $$ (14) 攻击者
$ j $ 的最优策略$$ {\boldsymbol{v}}^{*}_{j} = -R_{j}^{-1}B_{aj}^{\rm{T}}\bar P_{j11}{\boldsymbol{z}} -R_{j}^{-1}B_{aj}^{\rm{T}}{\boldsymbol{c}}_{j} $$ (15) 满足式(12)和式(13).
在式(14)和式(15)中,
$ \bar P_{i11}\succ0 $ ,$ \bar P_{j11}\succ0 $ 及$ {\boldsymbol{c}}_{i} $ ,$ {\boldsymbol{c}}_{j} $ , 为下述微分方程组在区间$ [0,t_{f}] $ 内的解:$$ \begin{split} -{\dot {\bar P}_{i11}} =\;& \bar P_{i11}\left(A-\sum\limits_{p = 1,p\neq i}^{m}S_{p}\bar P_{p11}-\sum\limits_{q = 1}^{l}S_{q}\bar P_{q11}\right)+\\ &\left(A-\sum\limits_{p = 1,p\neq i}^{m}S_{p}\bar P_{p11}-\sum\limits_{q = 1}^{l}S_{q}\bar P_{q11}\right)^{\rm{T}}\bar P_{i11}-\\ &\bar P_{i11}S_{i}\bar P_{i11}+\bar P_{i11}S_{-i}\bar P_{i11}+Q_{di} \\[-10pt] \end{split} $$ (16) $$ \bar P_{i11}(t_{f}) = Q_{dif}$$ (17) $$ \begin{split} -{\dot {\bar P}_{j11}} =\;& \bar P_{j11}\left(A-\sum\limits_{q = 1,q\neq j}^{l}S_{q}\bar P_{q11}-\sum\limits_{p = 1}^{m}S_{p}\bar P_{p11}\right)+\\ & \left(A-\sum\limits_{q = 1,q\neq j}^{l}S_{q}\bar P_{q11}-\sum\limits_{p = 1}^{m}S_{p}\bar P_{p11}\right)^{\rm{T}}\bar P_{j11}-\\ & \bar P_{j11}S_{j}\bar P_{j11}+\bar P_{j11}S_{-j}\bar P_{j11}+Q_{aj} \\[-10pt] \end{split} $$ (18) $$ \bar P_{j11}(t_{f}) = Q_{ajf} $$ (19) $$ \begin{split} {\dot {\boldsymbol{c}}_{i}} =\;& \Bigg (-A^{\rm{T}}+\bar P_{i11}S_{i}-\bar P_{i11}S_{-i}+\\ &\sum\limits_{p = 1,p\neq i}^{m}\bar P_{p11}S_{p}+\sum\limits_{q = 1}^{l}\bar P_{q11}S_{q}\Bigg ){\boldsymbol{c}}_{i}-\bar Q_{di12}{\boldsymbol{x}}_{T}\;+\\ &\bar P_{i11}\sum\limits_{q = 1}^{l}S_{q}{\boldsymbol{c}}_{q}+\bar P_{i11}\sum\limits_{p = 1,p\neq i}^{m}S_{p}{\boldsymbol{c}}_{p} \\[-15pt] \end{split} $$ (20) $$ {\boldsymbol{c}}_{i}(t_{f}) = \bar Q_{di12f}{\boldsymbol{x}}_{T}(t_{f}) $$ (21) $$ \begin{split} {\dot {\boldsymbol{c}}_{j}} =\;& \Bigg (-A^{\rm{T}}+\bar P_{j11}S_{j}-\bar P_{j11}S_{-j}+\\ &\sum\limits_{q = 1,q\neq j}^{l}\bar P_{q11}S_{q}+\sum\limits_{p = 1}^{m}\bar P_{p11}S_{p}\Bigg ){\boldsymbol{c}}_{j}-\bar Q_{aj12}{\boldsymbol{x}}_{T}\;+\\ &\bar P_{j11}\sum\limits_{p = 1}^{m}S_{p}{\boldsymbol{c}}_{p}+\bar P_{j11}\sum\limits_{q = 1,q\neq i}^{l}S_{q}{\boldsymbol{c}}_{q} \\[-15pt] \end{split} $$ (22) $$ {\boldsymbol{c}}_{j}(t_{f}) = \bar Q_{aj12f}{\boldsymbol{x}}_{T}(t_{f}) $$ (23) 其中,
$S_{i} \!=\! B_{di}R_{i}^{-1}B_{di}^{\rm{T}}$ ,$S_{j} \!=\! B_{aj}R_{j}^{-1}B_{aj}^{\rm{T}}$ ,$\bar S_{-i} \!=\! \bar B_{-di}\times $ $ R_{-i}^{-1}\bar B_{-di}^{\rm{T}}$ ,$ \bar S_{-j} = \bar B_{-aj}R_{-j}^{-1}\bar B_{-aj}^{\rm{T}} $ .证明. 为证明控制策略
${\boldsymbol{u}}^{*}_{i}$ 最小化防御者$ i $ 的成本函数, 控制策略${\boldsymbol{v}}^{*}_{j}$ 最小化攻击者$ j $ 的成本函数, 定义$ V_{i}(t,{\bar {\boldsymbol{z}}}) = \bar J^{*}_{i} $ ,$ V_{j}(t,{\bar {\boldsymbol{z}}}) = \bar J^{*}_{j} $ . 根据文献[23], 有$$ \begin{split} -\dfrac{ \partial V_{i}(t,{\bar {\boldsymbol{z}}})}{ \partial t} =\;& \min\limits_{{\boldsymbol{u}}_{i}}\max\limits_{{\boldsymbol{v}}_{-i}} \Bigg \lbrace \left(\dfrac{ \partial V_{i}(t,\bar {\boldsymbol{z}})}{ \partial \bar {\boldsymbol{z}}}\right)^{\rm{T}}\times\\ &({\dot {\bar {\boldsymbol{z}}}}+\bar B_{-di}{\boldsymbol{v}}_{-i}) +\bar {\boldsymbol{z}}^{\rm{T}}\bar Q_{di}\bar {\boldsymbol{z}}+\\ &{\boldsymbol{u}}_{i}^{\rm{T}}R_{i}{\boldsymbol{u}}_{i}-{\boldsymbol{v}}_{-i}^{\rm{T}}R_{-i}{\boldsymbol{v}}_{-i}\Bigg \rbrace \end{split} $$ (24) $$ V_{i}(t_{f},\bar {\boldsymbol{z}}) = {\bar {\boldsymbol{z}}}^{\rm{T}}(t_{f})\bar Q_{dif}{\bar {\boldsymbol{z}}}(t_{f}) $$ (25) $$ \begin{split} -\dfrac{ \partial V_{j}(t,\bar {\boldsymbol{z}})}{ \partial t} =\;& \min\limits_{{\boldsymbol{v}}_{j}}\max\limits_{{\boldsymbol{u}}_{-j}} \Bigg \lbrace \left(\dfrac{ \partial V_{j}(t,\bar {\boldsymbol{z}})}{ \partial \bar {\boldsymbol{z}}}\right)^{\rm{T}}\times\\ &({\dot {\bar {\boldsymbol{z}}}} +\bar B_{-aj}{\boldsymbol{u}}_{-j}) +\bar {\boldsymbol{z}}^{\rm{T}}\bar Q_{aj}\bar {\boldsymbol{z}}+\\ &{\boldsymbol{u}}_{j}^{\rm{T}}R_{j}{\boldsymbol{v}}_{j}-{\boldsymbol{u}}_{-j}^{\rm{T}}R_{-j}{\boldsymbol{u}}_{-j}\Bigg \rbrace \end{split} $$ (26) $$ V_{j}(t_{f},\bar {\boldsymbol{z}}) = \bar {\boldsymbol{z}}^{\rm{T}}(t_{f})\bar Q_{ajf}\bar {\boldsymbol{z}}(t_{f}) $$ (27) 最小化式(24), 得
$$ \left(\dfrac{ \partial V_{i}(t,\bar {\boldsymbol{z}})}{ \partial \bar {\boldsymbol{z}}}\right)^{\rm{T}}\bar B_{di}+2R_{i}{\boldsymbol{u}}^{*}_{i} = 0 $$ 从而
$$ {\boldsymbol{u}}^{*}_{i} = -\dfrac{1}{2}R_{i}^{-1}\bar B_{di}^{\rm{T}}\dfrac{ \partial V_{i}(t,\bar {\boldsymbol{z}})}{ \partial \bar {\boldsymbol{z}}} $$ (28) 最大化式(24), 可得
$$ {\boldsymbol{v}}^{*}_{-i} = \dfrac{1}{2}R_{-i}^{-1}\bar B_{-di}^{\rm{T}}\dfrac{ \partial V_{i}(t,\bar {\boldsymbol{z}})}{ \partial \bar {\boldsymbol{z}}} $$ (29) 同理可得
$$ \begin{split} &{\boldsymbol{v}}^{*}_{j} = -\dfrac{1}{2}R_{j}^{-1}\bar B_{aj}^{\rm{T}}\dfrac{ \partial V_{j}(t,\bar {\boldsymbol{z}})}{ \partial \bar {\boldsymbol{z}}}\\ &{\boldsymbol{u}}^{*}_{-j} = \dfrac{1}{2}R_{-j}^{-1}\bar B_{-aj}^{\rm{T}}\dfrac{ \partial V_{j}(t,\bar {\boldsymbol{z}})}{ \partial \bar {\boldsymbol{z}}} \end{split} $$ 令
$\bar S_{i} \!=\! \bar B_{di}R_{i}^{-1}\bar B_{di}^{\rm{T}}$ ,$\bar S_{j} \!=\! \bar B_{aj}R_{j}^{-1}\bar B_{aj}^{\rm{T}},\; \bar S_{-i}\! = \!\bar B_{-di} $ $ R_{-i}^{-1}\bar B_{-di}^{\rm{T}}$ ,$ \bar S_{-j} = \bar B_{-aj}R_{-j}^{-1}\bar B_{-aj}^{\rm{T}} $ . 将式(28)、式(29)代入式(24), 得$$ \begin{split} &-\dfrac{ \partial V_{i}(t,\bar {\boldsymbol{z}})}{ \partial t} = \left(\dfrac{ \partial V_{i}(t,\bar {\boldsymbol{z}})}{ \partial \bar {\boldsymbol{z}}}\right)^{\rm{T}}\Bigg [ A\bar {\boldsymbol{z}}-\dfrac{1}{2}\bar S_{i}\dfrac{ \partial V_{i}(t,\bar {\boldsymbol{z}})}{ \partial \bar {\boldsymbol{z}}}+\\ &\qquad\dfrac{1}{2}\bar S_{-i}\dfrac{ \partial V_{i}(t,\bar {\boldsymbol{z}})}{ \partial \bar {\boldsymbol{z}}}+\sum\limits_{p = 1,p\neq i}^{m}\bar B_{dp}{\boldsymbol{u}}_{p}+ \sum\limits_{q = 1}^{l}\bar B_{aq}{\boldsymbol{v}}_{q}\Bigg ]+\\ &\qquad\bar {\boldsymbol{z}}^{\rm{T}}\bar Q_{di}\bar {\boldsymbol{z}}+\dfrac{1}{4}\left(\dfrac{ \partial V_{i}(t,\bar {\boldsymbol{z}})}{ \partial \bar {\boldsymbol{z}}}\right)^{\rm{T}}\bar S_{i}\dfrac{ \partial V_{i}(t,\bar {\boldsymbol{z}})}{ \partial \bar {\boldsymbol{z}}} - \\ &\qquad\dfrac{1}{4}\left(\dfrac{ \partial V_{i}(t,\bar {\boldsymbol{z}})}{ \partial \bar {\boldsymbol{z}}}\right)^{\rm{T}}\bar S_{-i}\dfrac{ \partial V_{i}(t,\bar {\boldsymbol{z}})}{ \partial \bar {\boldsymbol{z}}} \\[-15pt] \end{split} $$ (30) 为了求解上述偏微分方程, 令
$ V_{i}(t,\bar {\boldsymbol{z}}) = \bar {\boldsymbol{z}}^{\rm{T}} \bar P_{i}\bar {\boldsymbol{z}} $ , 则$$ \dfrac{ \partial V_{i}(t,\bar {\boldsymbol{z}})}{ \partial \bar {\boldsymbol{z}}} = 2\bar P_{i}\bar {\boldsymbol{z}} $$ (31) $$ \dfrac{ \partial V_{i}(t,\bar {\boldsymbol{z}})}{ \partial t} = \bar {\boldsymbol{z}}^{\rm{T}} {\dot {\bar P}_{i}}\bar {\boldsymbol{z}} $$ (32) 将式(31)代入式(28)得到
$ {\boldsymbol{u}}_{i} = -R_{i}^{-1}\bar B_{di}^{\rm{T}}\bar P_{i}\bar {\boldsymbol{z}} $ , 同理可得$ {\boldsymbol{v}}_{j} = -R_{j}^{-1}\bar B_{aj}^{\rm{T}}\bar P_{j}\bar {\boldsymbol{z}} $ , 将其与式(31)、式(32) 代入式(30), 得$$ \begin{split} &-\bar {\boldsymbol{z}}^{\rm{T}}{\dot {\bar P}_{i}}\bar {\boldsymbol{z}} = 2\bar {\boldsymbol{z}}^{\rm{T}}\bar P_{i}\Bigg(A\bar {\boldsymbol{z}}-\bar S_{i}\bar P_{i}\bar {\boldsymbol{z}}+\bar S_{-i}\bar P_{i}\bar {\boldsymbol{z}}-\\ &\quad\sum\limits_{p = 1,p\neq i}^{m}\bar S_{p}\bar P_{p}\bar {\boldsymbol{z}}-\sum\limits_{q = 1}^{l}\bar S_{q}\bar P_{q}\bar {\boldsymbol{z}} \Bigg )+\bar {\boldsymbol{z}}^{\rm{T}}\bar Q_{di}\bar {\boldsymbol{z}} +\\ &\quad\bar {\boldsymbol{z}}^{\rm{T}}\bar P_{i}\bar S_{i}\bar P_{i}\bar {\boldsymbol{z}}-\bar {\boldsymbol{z}}^{\rm{T}}\bar P_{i}\bar S_{-i}\bar P_{i}\bar {\boldsymbol{z}}. \end{split} $$ (33) 式(33)可化为
$$ \begin{split} 0 =\;& \bar {\boldsymbol{z}}^{\rm{T}}\Bigg [{\dot {\bar P}_{i}}+\bar Q_{di}-\bar P_{i}\bar S_{i}\bar P_{i}+\bar P_{i}\bar S_{-i}\bar P_{i}+ \\ &\bar P_{i}\left(A-\sum\limits_{p = 1,p\neq i}^{m}\bar S_{p}\bar P_{p} -\sum\limits_{q = 1}^{l}\bar S_{q}\bar P_{q}\right)+ \\ &\left(A-\sum\limits_{p = 1,p\neq i}^{m}\bar S_{p}\bar P_{p}-\sum\limits_{q = 1}^{l}\bar S_{q}\bar P_{q}\right)^{\rm{T}}\bar P_{i}\Bigg ] \bar {\boldsymbol{z}} \end{split} $$ 即有下式成立:
$$ \begin{split} -{\dot {\bar P}_{i}} =\;& \bar Q_{di}+\bar P_{i}\left(\bar A-\sum\limits_{p = 1,p\neq i}^{m}\bar S_{p}\bar P_{p}-\sum\limits_{q = 1}^{l}\bar S_{q}\bar P_{q}\right)+\\ &\left(\bar A-\sum\limits_{p = 1,p\neq i}^{m}\bar S_{p}\bar P_{p}-\sum\limits_{q = 1}^{l}\bar S_{q}\bar P_{q}\right)^{\rm{T}}\bar P_{i}-\\ &\bar P_{i}\bar S_{i}\bar P_{i}+\bar P_{i}\bar S_{-i}\bar P_{i} \\[-10pt] \end{split} $$ (34) $$ \bar P_{i}(t_{f}) = \bar Q_{dif} $$ (35) 同理, 可以推导出下式成立:
$$ \begin{split} &-{\dot {\bar P}_{j}} = \bar Q_{aj}+\bar P_{j}\left(\bar A-\sum\limits_{q = 1,q\neq j}^{l}\bar S_{q}\bar P_{q}-\sum\limits_{p = 1}^{m}\bar S_{p}\bar P_{p}\right)+\\ &\qquad\quad\left(\bar A-\sum\limits_{q = 1,q\neq j}^{l}\bar S_{q}\bar P_{q}-\sum\limits_{p = 1}^{m}\bar S_{p}\bar P_{p}\right)^{\rm{T}}\bar P_{j}- \\ &\qquad\quad\bar P_{j}\bar S_{j}\bar P_{j}+\bar P_{j}\bar S_{-j}\bar P_{j} \\ &\bar P_{j}(t_{f}) = \bar Q_{ajf} \end{split} $$ 最后, 对
$ V_{i}(t,\bar {\boldsymbol{z}}) $ 求导, 并将式(34)代入, 得$$ \begin{split} {\dot V_{i}} = \;&-\bar {\boldsymbol{z}}^{\rm{T}}\bar Q_{di}\bar {\boldsymbol{z}}-{\boldsymbol{u}}_{i}^{\rm{T}}R_{i}{\boldsymbol{u}}_{i}+({\boldsymbol{u}}_{i}-{\boldsymbol{u}}^{*}_{i})^{\rm{T}}R_{i}({\boldsymbol{u}}_{i}-{\boldsymbol{u}}^{*}_{i})+ \\ &{\boldsymbol{v}}_{-i}^{\rm{T}}R_{-i}{\boldsymbol{v}}_{-i}-({\boldsymbol{v}}_{-i}-{\boldsymbol{v}}^{*}_{-i})^{\rm{T}}R_{-i}({\boldsymbol{v}}_{-i}-{\boldsymbol{v}}^{*}_{-i}) \end{split} $$ 对上式等号两边在区间
$ [0,t_{f}] $ 上积分, 可得$$ \begin{split} \bar J_{i} = \;&\int_{0}^{t_{f}}( ({\boldsymbol{u}}_{i}-{\boldsymbol{u}}^{*}_{i})^{\rm{T}}R_{i}({\boldsymbol{u}}_{i}-{\boldsymbol{u}}^{*}_{i})- \\ & ({\boldsymbol{v}}_{-i}-{\boldsymbol{v}}^{*}_{-i})^{\rm{T}}R_{-i}({\boldsymbol{v}}_{-i}-{\boldsymbol{v}}^{*}_{-i})) \,{\rm{d}}t + \\ & V_{i}(\bar {\boldsymbol{z}}(0)) \end{split} $$ 该式表明控制策略
$ {\boldsymbol{u}}^{*}_{i} = -R_{i}^{-1}\bar B_{di}^{\rm{T}}\bar P_{i}\bar {\boldsymbol{z}} $ 最小化防御者$ i $ 的成本函数. 同理可得, 控制策略${\boldsymbol{v}}^{*}_{j} = $ $ -R_{j}^{-1}\bar B_{aj}^{\rm{T}}\bar P_{j}\bar {\boldsymbol{z}}$ 最小化攻击者$ j $ 的成本函数.接下来, 对矩阵
$ \bar P_{i}\in {\bf{R}}^{2n(m+l+1)\times2n(m+l+1)} $ 进行分块, 得$$ {\bar P_i} = \left[ {\begin{array}{*{20}{c}} {{{\bar P}_{i11}}}&{{{\bar P}_{i12}}}\\ \star &{{{\bar P}_{i22}}} \end{array}} \right] $$ 其中,
$ \bar P_{i11}\in {\bf{R}}^{2n(m+l)\times2n(m+l)} $ ,$ \bar P_{i12} \in {\bf{R}}^{2n(m+l)\times2n} $ ,$ \bar P_{i22} \in {\bf{R}}^{2n\times2n} $ .定义如下矩阵
$$ \begin{split} &Q_{di} = \tau_{di1}\hat L_{di}+\tau_{di2}\hat L_{i}-\tau_{di3} \sum\limits_{q\in {{N}}(i)}\hat K_{q} \\ &Q_{dif} = \tau_{di1f}\hat L_{di}+\tau_{di2f}\hat L_{i}-\tau_{di3f} \sum\limits_{q\in {{N}}(i)}\hat K_{q} \end{split} $$ 其中,
$ \tau_{di1} $ ,$ \tau_{di2} $ ,$ \tau_{di3} $ ,$ \tau_{di1f} $ ,$ \tau_{di2f} $ ,$ \tau_{di3f} $ 为权重系数,$ \hat K_{q} = K_{q}\bigotimes I_{2n} $ ,$ K_{q} $ 是一个$ (m+l)\times (m+l) $ 矩阵,$ K_{q}(m+q,m+q) = 1 $ , 其余元素为0.从而, 矩阵
$ \bar Q_{di} $ ,$ \bar Q_{dif} $ 和$ \bar S_{i} $ 也可以按此规则进行分块, 于是有$$ \begin{split} &\bar Q_{di11} = Q_{di}, \quad\bar Q_{di11f} = Q_{dif}, \quad\bar S_{i11} = S_{i} \\ &\bar Q_{aj12} = \bar\tau_{aj3}\bar K_{j}, \bar A_{i11} = A_{i}, \quad\bar A_{i22} = A_{T}\\ &\bar Q_{di12} = -\bar\tau_{di3}\sum\limits_{q\in {{N}}(i)}\bar K_{q} \end{split} $$ 根据上述分块矩阵的定义, Riccati方程式(34)及式(35) 可以表示为三个独立的方程
$$ \begin{split} &-{\dot {\bar P}_{i11}} = \bar P_{i11}\left(A-\sum\limits_{p = 1,p\neq i}^{m}S_{p}\bar P_{p11}-\sum\limits_{q = 1}^{l}S_{q}\bar P_{q11}\right)+ \\ &\qquad\quad\left(A-\sum\limits_{p = 1,p\neq i}^{m}S_{p}\bar P_{p11}-\sum\limits_{q = 1}^{l}S_{q}\bar P_{q11}\right)^{\rm{T}}\bar P_{i11}- \\ &\qquad\quad\bar P_{i11}S_{i}\bar P_{i11}+Q_{di} +\bar P_{i11}S_{-i}\bar P_{i11} \\ & \bar P_{i11}(t_{f}) = Q_{dif} \end{split} $$ $$ \begin{split} &-{\dot {\bar P}_{i22}} = \bar P_{i22}\!\!\left(A_{T}\!-\!\!\sum\limits_{p = 1,p\neq i}^{m}\!\!\bar S_{p22}\bar P_{p22}\!-\!\sum\limits_{q = 1}^{l}\!\bar S_{q22}\bar P_{q22}\!\right)+ \\ &\qquad\quad\left(A_{T}\!-\!\!\sum\limits_{p = 1,p\neq i}^{m}\bar S_{p22}\bar P_{p22}\!-\!\!\sum\limits_{q = 1}^{l}\bar S_{q22}\bar P_{q22}\right)^{\rm{T}}\bar P_{i22}-\\ &\qquad\quad\bar P_{i22}\bar S_{i22}\bar P_{i22}+Q_{di22} +\bar P_{i22}\bar S_{-i22}\bar P_{i22} \\ &\bar P_{i22}(t_{f}) = \bar Q_{di22f} \end{split} $$ $$ \begin{split} &-{\dot {\bar P}_{i12}} \!=\! \bar P_{i12}A_{T}\!-\!\bar P_{i11}\!\!\left(\!\sum\limits_{p = 1,p\neq i}^{m}\!S_{p}\bar P_{p12}\!+\!\sum\limits_{q = 1}^{l}S_{q}\bar P_{q12}\!\right)\!\!- \\ &\qquad\quad\left(\sum\limits_{p = 1,p\neq i}^{m}S_{p}\bar P_{p11}+\sum\limits_{q = 1}^{l}S_{q}\bar P_{q11}\right)^{\rm{T}}\bar P_{i12}+ \\ &\qquad\quad A^{\rm{T}}\bar P_{i12}+\bar P_{i11}S_{-i}\bar P_{i12}-\bar P_{i11}S_{i}\bar P_{i12} +\bar Q_{di12} \\ & P_{i12}(t_{f}) = \bar Q_{di12f} \end{split} $$ 又
$\bar {\boldsymbol{z}} \!=\! [{\boldsymbol{z}}^{\rm{T}},{\boldsymbol{x}}_{T}^{\rm{T}}]^{\rm{T}}$ , 从而控制策略${\boldsymbol{u}}^{*}_{i} \!=\! -R_{i}^{-1}\bar B_{di}^{\rm{T}}\bar P_{i}\bar {\boldsymbol{z}}$ 可以表示为$$ {\boldsymbol{u}}^{*}_{i} = -R_{i}^{-1}B_{di}^{\rm{T}}\bar P_{i11}{\boldsymbol{z}}-R_{i}^{-1}B_{di}^{\rm{T}}\bar P_{i12}{\boldsymbol{x}}_{T} $$ (36) 其中, 等号右边第一项
$ -R_{i}^{-1}B_{di}^{\rm{T}}\bar P_{i11}{\boldsymbol{z}} $ 与攻击方和防御方的状态$ {\boldsymbol{z}} $ 相关, 第二项$ -R_{i}^{-1}B_{di}^{\rm{T}}\bar P_{i12}{\boldsymbol{x}}_{T} $ 与目标的状态$ {\boldsymbol{x}}_{T} $ 相关.令
$ {\boldsymbol{c}}_{i} = \bar P_{i12}{\boldsymbol{x}}_{T}, $ $i = 1,2,\cdots, m,$ $ {\boldsymbol{c}}_{j} = \bar P_{j12}{\boldsymbol{x}}_{T}, $ $j = 1,2,\cdots,l$ , 对$ {\boldsymbol{c}}_{i} $ 求导, 有$$ \begin{split} \dot {\boldsymbol{c}}_{i} =\;& \dot{\bar P}_{i12}{\boldsymbol{x}}_{T}+\bar P_{i12}\dot {\boldsymbol{x}}_{T} =\\ & {\bar P}_{i12}A_{T}{\boldsymbol{x}}_{T}-(\bar Q_{di12}-\bar P_{i11}S_{i}\bar P_{i12}+ \\ &\bar P_{i11}S_{-i}\bar P_{i12}+\bar P_{i12}A_{T}+A^{\rm{T}}\bar P_{i12}){\boldsymbol{x}}_{T}+ \\ &\left(\sum\limits_{p = 1,p\neq i}^{m}S_{p}\bar P_{p11}+\sum\limits_{q = 1}^{l}S_{q}\bar P_{q11}\right)^{\rm{T}}\bar P_{i12}{\boldsymbol{x}}_{T}+ \\ &\bar P_{i11}\left(\sum\limits_{p = 1,p\neq i}^{m}S_{p}\bar P_{p12}+\sum\limits_{q = 1}^{l}S_{q}\bar P_{q12}\right){\boldsymbol{x}}_{T} =\\ & \Bigg (-A^{\rm{T}}+\bar P_{i11}S_{i}-\bar P_{i11}S_{-i} +\sum\limits_{p = 1,p\neq i}^{m}\bar P_{p11}S_{p}+ \\ & \sum\limits_{q = 1}^{l}\bar P_{q11}S_{q}\Bigg ){\boldsymbol{c}}_{i}-\bar Q_{di12}{\boldsymbol{x}}_{T}+\bar P_{i11}\sum\limits_{p = 1,p\neq i}^{m}S_{p}{\boldsymbol{c}}_{p}+ \\ & \bar P_{i11}\sum\limits_{q = 1}^{l}S_{q}{\boldsymbol{c}}_{q} \end{split} $$ 且
$ {\boldsymbol{c}}_{i}(t_{f}) = \bar P_{i12}(t_{f}) {\boldsymbol{x}}_{T}(t_{f}) = \bar Q_{di12f}{\boldsymbol{x}}_{T}(t_{f}) $ , 所以式(20)及式(21)成立. 同理可证明式(22)及式(23)成立. □注 1. 在给定攻击者、防御者和目标的初始状态、通信拓扑和权重系数后, 通过对Riccati微分方程组式(16)、式(18)、式(20)、式(22) 的终端值进行反向迭代, 可以计算出不同时刻的
$ {\bar P}_{i11}, {\bar P}_{j11}, {\boldsymbol{c}}_{i}, {\boldsymbol{c}}_{j} $ , 将其分别代入式(14)及(15), 可以求出防御者$ i $ 的最优策略$ {\boldsymbol{u}}^{*}_{i} $ 及攻击者$ j $ 的最优策略$ {\boldsymbol{v}}^{*}_{j} $ . 进一步, 将$ {\boldsymbol{u}}^{*}_{i} $ 及$ {\boldsymbol{v}}^{*}_{j} $ 分别代入式(1)及(2), 可以求出防御者$ i $ 及攻击者$ j $ 的最优轨迹.注 2. 本文考虑了多个攻击者、多个防御者、单个目标的追逃问题. 当防御方与攻击方分别只包含一个防御者和一个攻击者, 此时攻防双方的代价函数式(6)不包含聚合项
$\sum\nolimits_{p\in {{N}}_{d}(i)}\alpha_{ip}\|{\boldsymbol{x}}_{i}-{\boldsymbol{x}}_{p}\|^{2}$ , 式(8)不包含聚合项$\sum\nolimits_{q\in {{N}}_{a}(j)}\beta_{jq}\|{\boldsymbol{y}}_{j}-{\boldsymbol{y}}_{q}\|^{2}$ . 此时, 可以得到文献[11]中单个攻击者、单个防御者的攻防双方类似的最优策略, 且问题求解更为简单.注 3. 目标静止时, 不失一般性, 假设目标状态
$ {\boldsymbol{x}}_{T} $ 表示为${\boldsymbol{x}}_{T} = [0,\cdots,0]^{\rm{T}}\in {\bf{R}}^{2n},$ 则式(36)中$ -R_{i}^{-1}B_{di}^{\rm{T}}\bar P_{i12}{\boldsymbol{x}}_{T} $ 为零. 因而, 最优策略$ {\boldsymbol{u}}^{*}_{i} $ 仅包含$ -R_{i}^{-1}B_{di}^{\rm{T}}\bar P_{i11}{\boldsymbol{z}} $ . 同理, 可以得到最优策略$ {\boldsymbol{v}}^{*}_{j} $ 仅包含$ -R_{j}^{-1}\bar B_{aj}^{\rm{T}}\bar P_{j}\bar {\boldsymbol{z}} $ .注 4. 文献[22]给出了不包含目标时追逃双方在各自聚合状态下的纳什均衡策略和最大最小策略. 在本文中, 当不存在目标时, 仅考虑追逃双方在各自聚合状态下的博弈问题. 相应地, 式(6)转化为
$\sum\nolimits_{p\in {{N}}_{d}(i)}\alpha_{ip}\|{\boldsymbol{x}}_{i}-{\boldsymbol{x}}_{p}\|^{2}+\sum\nolimits_{j\in {N}(i)}\gamma_{ij}\|{\boldsymbol{x}}_{i}-{\boldsymbol{y}}_{j}\|^{2}$ , 式(8)转化为$\sum\nolimits_{q\in {{N}}_{a}(j)}\beta_{jq}\|{\boldsymbol{y}}_{j}-{\boldsymbol{y}}_{q}\|^{2}- \sum\nolimits_{i\in {{N}}(j)}\gamma_{ji}\|{\boldsymbol{y}}_{j}- $ $ {\boldsymbol{x}}_{i}\|^{2}$ , 通过类似地分析, 即可得到文献[22]中关于追逃双方聚合状态下的纳什均衡策略.2.2 目标采取逃跑运动时的博弈
下面考虑目标可以控制自身状态来躲避攻击者的攻击, 即目标也参与博弈, 选择自己的策略, 其状态方程如下:
$$ {\dot {\boldsymbol{x}}_{T}} = A_{T}{\boldsymbol{x}}_{T}+b_{T}{\boldsymbol{u}}_{T} $$ 其中,
$ {\boldsymbol{u}}_{T}(t)\in {\bf{R}}^{n} $ 表示目标$ T $ 的控制输入,$b_{T} = $ $ [ 0_{n\times n},\; I_{n} ]^{\rm{T}}$ .定义向量
$$ \begin{split} \tilde {\boldsymbol{z}} =\;& [{\boldsymbol{x}}_{1}^{\rm{T}},{\boldsymbol{x}}_{2}^{\rm{T}},\cdots,{\boldsymbol{x}}_{m}^{\rm{T}},{\boldsymbol{y}}_{1}^{\rm{T}},{\boldsymbol{y}}_{2}^{\rm{T}},\cdots,{\boldsymbol{y}}_{l}^{\rm{T}},{\boldsymbol{x}}_{T}^{\rm{T}}]^{\rm{T}} \in\\ &{\bf{R}}^{2n(m+l+1)} \end{split} $$ 则有
$$ {\dot{\tilde {\boldsymbol{z}}}} = \tilde A\tilde {\boldsymbol{z}}+\sum\limits_{i = 1}^{m}\tilde B_{di}{\boldsymbol{u}}_{i}+\sum\limits_{j = 1}^{l}\tilde B_{aj}{\boldsymbol{v}}_{j}+\tilde B_{T}{\boldsymbol{u}}_{T} $$ 其中,
$$ \begin{split} &\tilde A = \bar A , \tilde B_{di} = \bar B_{di}, \tilde B_{aj} = \bar B_{aj}\\ &\tilde B_{T} = [ \begin{array}{c} 0^{T}_{2n(m+l)\times n}, b^{\rm{T}}_{T} \end{array} ]^{\rm{T}} \end{split} $$ 攻击者
$ j $ 和防御者$ i $ 的成本函数分别为:$$ \begin{split} \tilde J_{j} = \;&\int_{0}^{t_{f}}(\tilde {\boldsymbol{z}}^{\rm{T}}\tilde Q_{aj}\tilde {\boldsymbol{z}}+{\boldsymbol{v}}_{j}^{\rm{T}}R_{j}{\boldsymbol{v}}_{j}-{\boldsymbol{u}}_{-j}^{\rm{T}}R_{-j}{\boldsymbol{u}}_{-j})\,{\rm{d}}t\; + \\ &\tilde {\boldsymbol{z}}^{\rm{T}}(t_{f})\tilde Q_{ajf}\tilde {\boldsymbol{z}}(t_{f}),\quad j = 1,2,\cdots,l \\ \tilde J_{i} =\;& \int_{0}^{t_{f}}(\tilde {\boldsymbol{z}}^{\rm{T}}\tilde Q_{di}\tilde {\boldsymbol{z}}+{\boldsymbol{u}}_{i}^{\rm{T}}R_{i}{\boldsymbol{u}}_{i}-{\boldsymbol{v}}_{-i}^{\rm{T}}R_{-i}{\boldsymbol{v}}_{-i})\,{\rm{d}}t \;+ \\ &\tilde {\boldsymbol{z}}^{\rm{T}}(t_{f})\tilde Q_{dif}\tilde {\boldsymbol{z}}(t_{f}),\quad i = 1,2,\cdots,m \end{split} $$ 其中,
$ \tilde Q_{aj}\succ0 ,$ $ \tilde Q_{ajf}\succ0, $ $ \tilde Q_{di}\succ0, $ $ \tilde Q_{dif}\succ0, $ $R_{j}\succ $ $ 0,$ $ R_{-j}\succ0 ,$ $ R_{i}\succ0, $ $ R_{-i}\succ0 .$ 目标要选择合适的策略来最大化与攻击者的距离, 所以目标
$ T $ 需要优化的加权距离可转化为如下形式:$$ -\sum\limits_{j = 1}^{l}\|{\boldsymbol{y}}_{j}-{\boldsymbol{x}}_{T}\|^{2} = -\sum\limits_{j = 1}^{l} \tilde {\boldsymbol{z}}^{\rm{T}} \tilde K_{Tj} \tilde {\boldsymbol{z}} $$ 其中,
$$ \tilde K_{Tj} = \tilde K_{j}\otimes I_{2n} $$ $ \tilde K_{j}\in {\bf{R}}^{(m+l+1)\times (m+l+1)} $ ,$ \tilde K_{j}(m+j,m+j) = 1 $ ,$\tilde K_{j}(m+j,m+l+1) = -1 ,$ $\tilde K_{j}(m+l+1,m+ j) = $ $ -1$ ,$ \tilde K_{j}(m+l+1,m+l+1) = 1 $ , 其余元素为0.令
$ \tilde Q_{T} = -\tilde\tau\tilde K_{Tj} $ ,$ \tilde Q_{Tf} = -\tilde\tau_{f}\tilde K_{Tj} $ ,$ \tilde\tau $ 和$ \tilde\tau_{f} $ 的取值需满足$\tilde Q_{T}\preccurlyeq0 ,$ $ \tilde Q_{Tf} \preccurlyeq0 $ . 对目标$ T $ 设计如下成本函数:$$ \begin{split} \tilde J_{t} =\;& \int_{0}^{t_{f}}(\tilde {\boldsymbol{z}}^{\rm{T}}\tilde Q_{T}\tilde {\boldsymbol{z}}+{\boldsymbol{u}}_{T}^{\rm{T}}R_{T}{\boldsymbol{u}}_{T})\,{\rm{d}}t\;+ \\ &\tilde {\boldsymbol{z}}^{\rm{T}}(t_{f})\tilde Q_{Tf}\tilde {\boldsymbol{z}}(t_{f}) \end{split} $$ 其中,
$ R_{T}\succ0 $ . 根据上一小节的分析, 可以得出防御者、攻击者和目标的策略分别为:$$ \begin{split} &{\boldsymbol{u}}^{*}_{i} = -R_{i}^{-1}\tilde B_{di}^{\rm{T}}\tilde P_{i}\tilde {\boldsymbol{z}}, \quad i = 1,2,\cdots,m \\ &{\boldsymbol{v}}^{*}_{j} = -R_{j}^{-1}\tilde B_{aj}^{\rm{T}}\tilde P_{j}\tilde {\boldsymbol{z}}, \quad j = 1,2,\cdots,l\\ &{\boldsymbol{u}}^{*}_{T} = -R_{T}^{-1}\tilde B_{T}^{\rm{T}}\tilde P_{T}\tilde {\boldsymbol{z}} \end{split} $$ 其中,
$ \tilde P_{i} $ ,$ \tilde P_{j} $ 和$ \tilde P_{T} $ 分别是对应Riccati方程的解.2.3 攻击者、防御者分散状态下的追逃策略
当攻击方没有保持聚合状态, 而是选择分散状态进行攻击时, 相应地, 防御方也采取分散状态对攻击者进行拦截. 此时, 每个防御者需要提前选择自己的拦截对象. 本节研究攻击者、防御者分散状态下各自的最优策略, 设计的策略适用于攻击者数量小于等于防御者数量(
$ l\leq m $ )的情形, 为简单起见, 只考虑目标静止时的博弈.在本节中, 用二分图
$ {\cal{G}} $ 来描述攻击者与防御者之间的通信拓扑, 假设个体间通信是双向的, 那么, 防御者可以采用二分图的最大匹配算法[24]为自己选定拦截对象, 防御者只能拦截自己可以观测到的攻击者.当防御者选定自己的拦截对象后, 多攻击者、多防御者追逃问题转化为多组两人零和博弈的情形. 对于防御者
$ i $ , 假设匹配的攻击者为$ j $ , 定义${\boldsymbol{z}}_{s} = $ $ [{\boldsymbol{x}}_{i}^{\rm{T}},{\boldsymbol{y}}_{j}^{\rm{T}}]^{\rm{T}}$ , 则有:$$ {\dot {\boldsymbol{z}}_{s}} = A_{s}{\boldsymbol{z}}_{s}+B_{sdi}{\boldsymbol{u}}_{i}+B_{saj}{\boldsymbol{v}}_{j} $$ 其中,
$$ \begin{split} &{{A_s} = \left[ {\begin{array}{*{20}{c}} {{A_i}}&{{0_{2n \times 2n}}}\\ {{0_{2n \times 2n}}}&{{A_j}} \end{array}} \right],\;\;{B_{sdi}} = \left[ {\begin{array}{*{20}{c}} {{b_i}}\\ {{0_{2n \times n}}} \end{array}} \right]}\\ &{{B_{saj}} = \left[ {\begin{array}{*{20}{c}} {{0_{2n \times n}}}\\ {{b_j}} \end{array}} \right]} \end{split} $$ 不失一般性, 假设目标点在原点, 即
${\boldsymbol{x}}_{T} = [0,\cdots, $ $ 0]^{\rm{T}}\in {\bf{R}}^{2n}$ , 那么, 防御者需要优化的加权距离可以表示为:$$ \|{\boldsymbol{x}}_{i}-{\boldsymbol{y}}_{j}\|^{2}-\|{\boldsymbol{y}}_{j}\|^{2} = {\boldsymbol{z}}_{s}^{\rm{T}}Q_{s1}{\boldsymbol{z}}_{s}-{\boldsymbol{z}}_{s}^{\rm{T}}Q_{s2}{\boldsymbol{z}}_{s} $$ 其中,
${Q_{s1}} = \left[ {\begin{aligned} \;\;1\;\;{ - 1}\\ { - 1}\;\;\;\;1 \end{aligned}} \right] \otimes {I_{2n}}$ ,${Q_{s2}} = \left[ {\begin{aligned} 0\;\;0\\ 0\;\;1 \end{aligned}} \right] \otimes {I_{2n}}$ .攻击者的目的是最大化与防御者的距离, 最小化与目标的距离. 令
$ Q_{s} = \tau_{s1}Q_{s1}-\tau_{s2}Q_{s2} $ ,$Q_{sf} = $ $ \tau_{sf1}Q_{s1}-\tau_{sf2}Q_{s2}$ , 其中,$ \tau_{s1} $ ,$ \tau_{s2} $ ,$ \tau_{sf1} $ 和$ \tau_{sf2} $ 需根据对任务的重视程度选取. 系统的成本函数为:$$ \begin{split} J_{s} = \;&\int_{0}^{t_{f}}({\boldsymbol{z}}_{s}^{\rm{T}}Q_{s}{\boldsymbol{z}}_{s}+{\boldsymbol{u}}_{i}^{\rm{T}}R_{i}{\boldsymbol{u}}_{i}-{\boldsymbol{v}}_{j}^{\rm{T}}R_{j}{\boldsymbol{v}}_{j})\,{\rm{d}}t\;+ \\ & {\boldsymbol{z}}_{s}^{\rm{T}}(t_{f})Q_{sf}{\boldsymbol{z}}_{s}(t_{f}) \end{split} $$ 其中,
$ Q_{s}\succ0 $ ,$ Q_{sf}\succ0 $ ,$ R_{i}\succ0 $ 且$ R_{j}\succ0 $ ,$ \tau_{s1} $ 和$ \tau_{s2} $ 取值的大小分别反映防御者和攻击者对任务的重视程度.上述问题构成标准的两人零和博弈, 根据文献[25], 防御者与攻击者的最优策略分别为:
$$ \begin{split}& {\boldsymbol{u}}^{*}_{i} = -R_{i}^{-1}B_{sdi}^{\rm{T}}P_{s}{\boldsymbol{z}}_{s} \\ &{\boldsymbol{v}}^{*}_{j} = R_{j}^{-1}B_{saj}^{\rm{T}}P_{s}{\boldsymbol{z}}_{s} \end{split} $$ 其中,
$ P_{s} $ 是下述Riccati方程的解:$$ \begin{split} &-{\dot P_{s}} = Q_{s}+A_{s}^{\rm{T}}P_{s}+P_{s}A_{s}- \\ &\;\;\quad\qquad P_{s}(B_{sdi}R_{i}B_{sdi}^{\rm{T}}-B_{saj}R_{j}B_{saj}^{\rm{T}})P_{s} \\ &P_{s}(t_{f}) = Q_{sf} \end{split} $$ 3. 仿真
在本节中, 首先选取防御者和攻击者数量为
$m = $ $ 3$ ,$ l = 3 $ , 分别给出聚合状态下防御者胜利和攻击者胜利两种情况下双方及目标的运动轨迹, 并分析成本函数中权重系数的影响. 进一步, 分别考虑防御者和攻击者数量为$ m = 5 $ ,$ l = 3 $ 和$ m = 3 $ ,$ l = 5 $ 的情形. 同时, 给出目标采取逃跑运动时的博弈结果. 最后, 考虑防御者、攻击者分散状态下的追逃策略. 每个智能体均采用双积分动力学模型. 此外为了便于计算, 成本函数中的$ R_{-i},R_{i},R_{-j},R_{j} $ 均取对应维数的单位矩阵.3.1 防御者、攻击者聚合状态下的追逃问题策略仿真
3.1.1 目标沿固定轨迹运动
考虑防御者数量
$ m = 3 $ , 攻击者数量$ l = 3 $ . 图1 ~ 3分别给出了防御者、攻击者内部和两方之间的通信拓扑关系, 相应的邻接矩阵分别为:$$ \begin{split} &{M_d} = \left[ {\begin{array}{*{20}{c}} 0&1&0\\ 1&0&1\\ 1&0&0 \end{array}} \right],\quad {M_a} = \left[ {\begin{array}{*{20}{c}} 0&1&1\\ 0&0&0\\ 1&1&0 \end{array}} \right]\\ &M = \left[ {\begin{array}{*{20}{c}} 0&0&0&0&1&0\\ 0&0&0&0&1&1\\ 0&0&0&1&0&0\\ 1&1&0&0&0&0\\ 0&0&1&0&0&0\\ 0&1&0&0&0&0 \end{array}} \right] \end{split} $$ 假设目标沿固定轨迹做正弦运动, 目标状态为
$$ {\boldsymbol{x}}_{T} = [t, \sin (0.8t), 1,0.8\cos(0.8t) ]^{\rm{T}} $$ 当目标被捕获或所有攻击者被拦截, 提前终止博弈. 设置防御者拦截半径和攻击者捕获半径都为0.2 m, 采样时间为0.05 s, 终端时间
$ t_f $ 为10 s, 权重系数为:$$ \begin{split} &\alpha_{ip} = 1, \;\beta_{jq} = 1,\; \gamma_{ij} = 1\\ &\bar \tau_{di1} = 50, \;\bar \tau_{di2} = 4, \;\bar \tau_{di3} = 1 \\ &\bar \tau_{di1f} = 5, \;\bar \tau_{di2f} = 1, \;\bar \tau_{di3f} = 1\\ &\bar \tau_{aj1} = 50 ,\;\bar \tau_{aj2} = 2,\; \bar \tau_{aj3} = 0.5\\ &\bar \tau_{aj1f} = 5, \;\bar \tau_{aj2f} = 1, \;\bar \tau_{aj3f} = 0.5 \end{split} $$ (37) 其中,
$ i\in {\cal{V}}_{d} = \{1,2,3\} $ ,$ j\in {\cal{V}}_{a} = \{1,2,3\} $ .设置防御者的初始状态为:
$$ \begin{split} &{\boldsymbol{x}}_{1}(0) = [-2,-2,0,0]^{\rm{T}}\\ &{\boldsymbol{x}}_{2}(0) = [0,4,0,0]^{\rm{T}}\\ &{\boldsymbol{x}}_{3}(0) = [4,-2,0.,0]^{\rm{T}} \end{split} $$ 攻击者的初始状态为:
$$ \begin{split} &{\boldsymbol{y}}_{1}(0) = [4,2,0,0]^{\rm{T}}\\ &{\boldsymbol{y}}_{2}(0) = [1,4,0,0]^{\rm{T}}\\ &{\boldsymbol{y}}_{3}(0) = [-1,2,0,0]^{\rm{T}} \end{split}$$ 根据定理1中的最优策略式(14)和式(15), 以及注1中的求解过程, 可以得到如图4所示防御者、攻击者和目标的运动轨迹. 博弈结果为攻击者3在未被防御者拦截的前提下成功捕获目标, 攻击者取得胜利.
在保持式(37)中权重系数不变的情况下, 改变防御者和攻击者的初始状态, 设置防御者初始状态为:
$$ \begin{split} &{\boldsymbol{x}}_{1}(0) = [0,-2,0,0]^{\rm{T}}\\ &{\boldsymbol{x}}_{2}(0) = [0,-1,0,0]^{\rm{T}}\\ &{\boldsymbol{x}}_{3}(0) = [1,-1,0,0]^{\rm{T}} \end{split} $$ 攻击者初始状态为:
$$ \begin{split} &{\boldsymbol{y}}_{1}(0) = [4,4,0,0]^{\rm{T}}\\ &{\boldsymbol{y}}_{2}(0) = [4.5,2,0,0]^{\rm{T}}\\ &{\boldsymbol{y}}_{3}(0) = [5,3,0,0]^{\rm{T}} \end{split} $$ 根据定理1中的式(14)和式(15)得到防御者胜利的博弈结果, 三方的运动轨迹如图5 (a)所示.
进一步, 研究式(37)中防御者和攻击者的权重系数变化对仿真结果的影响, 分别调整权重系数
$ \bar\tau_{di1} = 1 $ ,$ \bar\tau_{di2} = 2 $ ,$ \bar\tau_{di3} = 2 $ ,$ \bar\tau_{aj2} = 4 $ ,$ \bar\tau_{aj3} = 5 $ (参数$ \bar\tau_{aj1} $ 与$ \bar\tau_{di1} $ 分别表示攻击者和防御者的聚合程度, 效果相似, 此处省略分析), 得到防御者、攻击者和目标的运动轨迹图5 (b) ~ 5 (f), 以及攻防双方的成本函数图6 (b) ~ 6 (f). 通过图5 (a)和5 (b)、图6 (a)和6 (b)可以看出, 减小权重系数$ \bar\tau_{di1} $ , 即防御者聚合程度降低, 相应地防御者拦截攻击者的重视程度相对提高, 使得防御者拦截时间缩短, 攻击者成本函数增大. 通过图5 (a)和5 (c)、图6 (a)和6 (c)可以看出, 减小权重系数$ \bar\tau_{di2} $ , 即防御者对拦截攻击者的重视程度降低, 使得防御者拦截时间明显增加, 攻击者与目标间距离增大, 相应地攻击者成本函数增大. 通过图5 (a)和5 (d)、图6 (a)和6 (d)可以看出, 增大权重系数$ \bar\tau_{di3} $ , 即防御者对阻止攻击者攻击目标的重视程度提高, 使得防御者在拦截攻击者的同时让攻击者远离目标, 拦截时间增加, 攻击者成本函数增大.通过图5 (a)和5 (e)、图6 (a)和6 (e)可以看出, 增大权重系数
$ \bar\tau_{aj2} $ , 即攻击者对躲避防御者的重视程度提高, 攻击者与防御者之间的距离增大, 使得防御者拦截时间明显增加, 防御者的成本函数快速增大. 由于攻击者与目标之间的距离增大, 防御者成本函数相应地减小. 最后, 通过图5 (a)和5 (f)、图6 (a)和6 (f)可以看出, 增大权重系数$ \bar\tau_{ai3} $ , 即攻击者对攻击目标的重视程度提高, 使得攻击者成功地在防御者拦截前捕获目标. 由于攻击者在接近目标的同时减小了与防御者之间的距离, 防御者成本函数相应地减小.上述考虑的是防御者和攻击者数量相等, 进一步讨论数量不等时的情形. 在不改变双方权重系数式(37)的前提下, 考虑
$ m = 3 $ ,$ l = 5 $ 的情形, 此时通信拓扑图的邻接矩阵分别为:$$ \begin{split} &{M_d} = \left[ {\begin{array}{*{20}{c}} 0&1&0\\ 1&0&1\\ 1&0&0 \end{array}} \right],\quad {M_a} = \left[ {\begin{array}{*{20}{c}} 0&1&1&0&0\\ 0&0&1&1&0\\ 1&0&0&1&1\\ 0&0&1&0&1\\ 1&0&0&0&0 \end{array}} \right]\\ &M = \left[ {\begin{array}{*{20}{c}} 0&0&0&1&0&1&0&1\\ 0&0&0&1&1&0&1&0\\ 0&0&0&0&0&1&1&0\\ 1&1&1&0&0&0&0&0\\ 0&1&0&0&0&0&0&0\\ 1&0&1&0&0&0&0&0\\ 1&0&0&0&0&0&0&0\\ 0&1&1&0&0&0&0&0 \end{array}} \right] \end{split} $$ 设置防御者的初始状态为:
$$ \begin{split} &{\boldsymbol{x}}_{1}(0) = [0,-2,0,0]^{\rm{T}}\\ &{\boldsymbol{x}}_{2}(0) = [0,4,0,0]^{\rm{T}}\\ &{\boldsymbol{x}}_{3}(0) = [1,-3,0,0]^{\rm{T}} \end{split} $$ 攻击者的初始状态为:
$$ \begin{split} &{\boldsymbol{y}}_{1}(0) = [1,3,0,0]^{\rm{T}}\\ &{\boldsymbol{y}}_{2}(0) = [0,2,0,0]^{\rm{T}} \end{split} $$ $$ \begin{split} &{\boldsymbol{y}}_{3}(0) = [2,1,0,0]^{\rm{T}}\\ &{\boldsymbol{y}}_{4}(0) = [3,1,0,0]^{\rm{T}}\\ &{\boldsymbol{y}}_{5}(0) = [3,-1,0,0]^{\rm{T}} \end{split} $$ 如图7所示, 由于攻击者数量的增加, 防御者无暇顾及拦截所有的攻击者, 最终攻击者3顺利捕获目标. 类似地, 考虑
$ m = 5 $ ,$ l = 3 $ 即防御者数量多于攻击者的情况. 如图8所示, 防御者在保持聚合的基础上, 在距离目标较远的位置拦截所有攻击者.3.1.2 目标采取逃跑运动
考虑
$ m = 3 $ ,$ l = 3 $ 的防御者和攻击者数量, 当目标采取逃跑策略时, 选取式(37) 中的权重系数, 防御者的初始状态为:$$ \begin{split} &{\boldsymbol{x}}_{1}(0) = [0,0,0,0]^{\rm{T}}\\ &{\boldsymbol{x}}_{2}(0) = [1,2,0,0]^{\rm{T}}\\ &{\boldsymbol{x}}_{3}(0) = [2,0,0,0]^{\rm{T}} \end{split} $$ 攻击者的初始状态为:
$$ \begin{split} &{\boldsymbol{y}}_{1}(0) = [2,2,0,0]^{\rm{T}}\\ &{\boldsymbol{y}}_{2}(0) = [2,3,0,0]^{\rm{T}}\\ &{\boldsymbol{y}}_{3}(0) = [3,2,0,0]^{\rm{T}} \end{split} $$ 逃跑者的初始状态为:
$$ {\boldsymbol{x}}_{T}(0) = [3,3,0,0]^{\rm{T}} $$ 目标采取逃跑行动的博弈结果如图9所示, 在初始时刻攻击者处于目标和防御者之间的位置. 在运动过程中, 目标朝着三个攻击者聚合的反方向逃跑, 使得防御者顺利地实现对攻击者的拦截.
3.2 防御者、攻击者分散状态下的追逃问题策略仿真
当攻击者采取分散状态进行攻击时, 参数设置如下: 博弈时域选择
$t_{f} = 3\;{\rm{s}}$ , 权重系数为:$$ \begin{split} &\tau_{11} = 1, \tau_{s2} = 0.1, \tau_{sf1} = 1\\ &\tau_{sf2} = 1, \tau_{21} = 10 ,\tau_{31} = 10 \end{split} $$ 其中,
$ s = \{1,2,3\} $ . 系统初始状态为:$$ \begin{split} &{\boldsymbol{z}}_{1}(0) = [-2,-1,0.1,0.5, -3.5,-0.5,0.5,0.1]^{\rm{T}}\\ &{\boldsymbol{z}}_{2}(0) = [2,1,0.1,0.5, 3,0.5,0.5,0.1]^{\rm{T}}\\ &{\boldsymbol{z}}_{3}(0) = [2,-1,0.1,0.5, 0.5,-1.5,0.5,0.1]^{\rm{T}} \end{split} $$ 目标状态为
$$ {\boldsymbol{x}}_{T} = [0,0,0,0]^{\rm{T}} $$ 首先, 采用二分图的最大匹配算法为每个防御者匹配拦截对象此时, 最优分配方案为防御者1拦截攻击者1, 防御者2拦截攻击者3, 防御者3拦截攻击者2. 通过终端值
$ P_{s}(t_{f}) $ 进行反向迭代, 可以得到对应Riccati方程的解. 最后, 可以得到最优策略下智能体的运动轨迹如图10所示. 此时, 防御者1在坐标点$ (-0.3, -0.1) $ 成功拦截了攻击者1, 防御者2在坐标点$ (0.5, -0.3) $ 成功拦截了攻击者3, 防御者3在坐标点$ (-0.2, 0.4) $ 成功拦截了攻击者2, 三个防御者分别成功拦截了自己匹配到的攻击者, 攻击方胜利.4. 结论
本文采用线性二次型微分博弈的方法研究了追逃博弈问题. 首先, 当攻防双方保持各自聚合状态, 分别设计了目标按固定轨迹运动和目标采取逃跑行动时攻防双方的最优策略. 其次, 当攻防双方保持分散状态, 采用二分图最大匹配算法为防御者匹配攻击者, 将多个攻击者、多个防御者的追逃问题题转化为多组两人零和微分博弈, 求解出了攻防双方的最优策略. 最后, 数值仿真验证了所提方法的有效性. 在追逃问题中, 随着攻防双方个体增多, 拓扑结构更加复杂, 大规模数据将会增加网络的通信负担和系统的计算负担. 而云控制系统[26]利用云计算高效的运算能力, 具有实时性强、可靠性高等优点. 因此, 未来可以考虑将上述算法扩展到云控制系统. 本文在分析攻防双方分散状态下的追逃博弈问题时, 只考虑了防御者数量大于或等于攻击者的场景. 未来可以研究当攻击者数量大于防御者时, 具有一定优势的防御者需要连续拦截多个攻击者的情形.
-
-
[1] 杜永浩, 邢立宁, 蔡昭权. 无人飞行器集群智能调度技术综述. 自动化学报, 2020, 46(2): 222-241.DU Yong-Hao, XING Li-Ning, CAI Zhao-Quan. Survey on intelligent scheduling technologies for unmanned flying craft clusters. Acta Automatica Sinica, 2020, 46(2): 222-241. [2] 周宏宇, 王小刚, 单永志, 赵亚丽, 崔乃刚. 基于改进粒子群算法的飞行器协同轨迹规划. 自动化学报, DOI: 10.16383/j.aas.c190865Zhou Hong-Yu, Wang Xiao-Gang, Shan Yong-Zhi, Zhao Ya-Li, Cui Nai-Gang. Synergistic path planning for multiple vehicles based on an improved particle swarm optimization method. Acta Automatica Sinica, DOI: 10.16383/j.aas.c190865 [3] Azam M A, Ragi S. Decentralized formation shape control of UAV swarm using dynamic programming. In: Proceedings of Signal Processing, Sensor/Information Fusion, and Target Recognition XXIX. California, USA, 2020. 11423: 114230I [4] Zhou Z, Zhang W, Ding J, Huang, H, Stipanovic D M, Tomlin C J. Cooperative pursuit with voronoi partitions. Automatica, 2016, 72: 64-72. doi: 10.1016/j.automatica.2016.05.007 [5] De Simone D, Scianca N, Ferrari P, Lanari L, Oriolo G. MPC-based humanoid pursuit-evasion in the presence of obstacles. In: Proceedings of IEEE/RSJ International Conference on Intelligent Robots and Systems. 2017. 5245−5250 [6] Isaacs R. Differential Games: A Mathematical Theory With Applications to Warfare and Pursuit, Control and Optimization. Courier Corporation, 1999. [7] Fang B, Pan Q, Hong B, Lei D, Zhong Q B, Zhang Z. Research on high speed evader vs. multi lower speed pursuers in multi pursuit-evasion games. Information Technology Journal, 2012, 11(8): 989-997. doi: 10.3923/itj.2012.989.997 [8] Lin W, Qu Z, Simaan M A. Nash strategies for pursuit-evasion differential games involving limited observations. IEEE Transactions on Aerospace and Electronic Systems, 2015, 51(2): 1347-1356. doi: 10.1109/TAES.2014.130569 [9] Pachter M, Garcia E, Casbeer D W. Differential game of guarding a target. Journal of Guidance, Control, and Dynamics, 2017, 40(11): 2991-2998. doi: 10.2514/1.G002652 [10] Venkatesan R H, Sinha N K. The target guarding problem revisited: Some interesting revelations. In: Proceedings of IFAC World Congress. Cape Town, South Africa, 2014. 1556−1561 [11] Li D, Cruz J B. Defending an asset: A linear quadratic game approach. IEEE Transactions on Aerospace and Electronic Systems, 2011, 47(2): 1026-1044. doi: 10.1109/TAES.2011.5751240 [12] Garcia E, Casbeer D W, Pachter M. Design and analysis of state-feedback optimal strategies for the differential game of active defense. IEEE Transactions on Automatic Control, 2018, 64(2): 553-568. [13] Liang L, Deng F, Peng Z, Li X, Zha W. A differential game for cooperative target defense. Automatica, 2019, 102: 58-71. doi: 10.1016/j.automatica.2018.12.034 [14] Casbeer D W, Garcia E, Pachter M. The target differential game with two defenders. Journal of Intelligent & Robotic Systems, 2018, 89(1-2): 87-106. [15] Chen M, Zhou Z, Tomlin C J. Multiplayer reach-avoid games via low dimensional solutions and maximum matching. In: Proceedings of American Control Conference. Portland, USA, 2014. 1444−1449 [16] Coon M, Panagou D. Control strategies for multiplayer target-attacker-defender differential games with double integrator dynamics. In: Proceedings of IEEE Conference on Decision and Control. Melbourne, Australia, 2017. 1496−1502 [17] Chipade V S, Panagou D. Multiplayer target-attacker-defender differential game: pairing allocations and control strategies for guaranteed intercept. In: Proceedings of AIAA Scitech 2019 Forum. California, USA, 2019. 658−678 [18] Yan R, Shi Z, Zhong Y. Task assignment for multiplayer reach-avoid games in convex domains via analytical barriers. IEEE Transactions on Robotics, 2019, 36(1): 107-124. [19] Garcia E, Casbeer D W, Von Moll A, Pachter M. Multiple Pursuer Multiple Evader Differential Games. IEEE Transactions on Automatic Control, arxiv: 1911. 03806 [20] Sin E, Arcak M, Packard A, Philbrick D, Seiler P. Optimal assignment of collaborating agents in multi-body asset-guarding games. In: Proceedings of the 2020 American Control Conference (ACC). Denver, Colorado, USA, 2020. 858−864 [21] Li D X, Cruz J B. Graph-Based Strategies for Multi-Player Pursuit Evasion Games. In: Proceedings of IEEE Conference on Decision and Control. New Orleans, LA, USA, 2007. 4063−4068 [22] Mejia V G L, Lewis F L, Wan Y, Sanchez E N, Fan L. Solutions for multiagent pursuit-evasion games on communication graphs: Finite-time capture and asymptotic behaviors. IEEE Transactions on Automatic Control, 2019, 65(5): 1911-1923. [23] Engwerda J. LQ dynamic optimization and differential games. John Wiley & Sons, 2005. [24] Kuhn H. The Hungarian method for the assignment problem. Naval Research Logistics Quarterly, 1955, 2(1-2): 83-97. doi: 10.1002/nav.3800020109 [25] Amato F, Pironti A. A note on singular zero-sum linear quadratic differential games. In: Proceedings of IEEE Conference on Decision and Control. Lake Buena Vista, USA, 1994. 1533−1535 [26] 夏元清. 云控制系统及其面临的挑战. 自动化学报, 2016, 42(01): 1-12.Xia Yuan-Qing. Cloud control systems and their challenges. Acta Automatica Sinica, 2016, 42(1): 1-12. 期刊类型引用(6)
1. 陈灵敏,冯宇,李永强. 基于距离信息的追逃策略:信念状态连续随机博弈. 自动化学报. 2024(04): 828-840 . 本站查看
2. 仝秉达,段海滨,魏晨. 仿鹰鸽捕食逃逸行为的多无人机分组对抗博弈方法. 控制理论与应用. 2024(05): 855-865 . 百度学术
3. 衣鹏,潘越,王文远,刘政钦,洪奕光. 基于博弈论的多车智能驾驶交互决策综述. 控制与决策. 2023(05): 1159-1175 . 百度学术
4. 耿远卓,袁利,黄煌,汤亮. 基于终端诱导强化学习的航天器轨道追逃博弈. 自动化学报. 2023(05): 974-984 . 本站查看
5. 薛雅丽,叶金泽,李寒雁. 基于改进强化学习的多智能体追逃对抗. 浙江大学学报(工学版). 2023(08): 1479-1486+1515 . 百度学术
6. 鞠锴,冒泽慧,姜斌,马亚杰. 基于势博弈的异构多智能体系统任务分配和重分配. 自动化学报. 2022(10): 2416-2428 . 本站查看
其他类型引用(7)
-