Research on Multi-aircraft Cooperative Air Combat Method Based on Deep Reinforcement Learning
-
摘要:
多机协同是空中作战的关键环节, 如何处理多实体间复杂的协作关系、实现多机协同空战的智能决策是亟待解决的问题. 为此, 提出基于深度强化学习的多机协同空战决策流程框架(Deep-reinforcement-learning-based multi-aircraft cooperative air combat decision framework, DRL-MACACDF), 并针对近端策略优化(Proximal policy optimization, PPO)算法, 设计4种算法增强机制, 提高多机协同对抗场景下智能体间的协同程度. 在兵棋推演平台上进行的仿真实验, 验证了该方法的可行性和实用性, 并对对抗过程数据进行了可解释性复盘分析, 研讨了强化学习与传统兵棋推演结合的交叉研究方向.
Abstract:Multi-aircraft cooperation is the key part of air combat, and how to deal with the complex cooperation relationship between multi-entities is the essential problem to be solved urgently. In order to solve the problem of intelligent decision-making in multi-aircraft cooperative air combat, a deep-reinforcement-learning-based multi-aircraft cooperative air combat decision framework (DRL-MACACDF) is proposed in this paper. Based on proximal policy optimization (PPO), four algorithm enhancement mechanisms are designed to improve the synergistic degree of agents in multi-aircraft cooperative confrontation scenarios. The feasibility and practicability of the method are verified by the simulation on the wargame platform, and the interpretable review analysis of the antagonistic process data is carried out, and the cross research direction of the combination of reinforcement learning and traditional wargame deduction is discussed.
-
光流(Optical flow, OF)估计一直是图像处理与计算机视觉领域中一个核心的研究课题. 近年来, 随着计算机软硬件水平的提高, 各类光流估计算法层出不穷, 光流技术在跟踪[1-2]、运动分割[3-4]、导航[5-6]和图像配准[7-8]等应用领域凸显出了越来越重要的作用. 特别是在高速运动场景中, 由于空间物体运动位置的快速变化, 对运动数据的获取和光流的计算提出了更高要求, 连续且高精度的光流估计算法[9]更是被国内外学者广泛研究, 其获得的光流估计结果也能为后续各类视觉任务打下良好基础.
然而, 由于相机自身较低的时间分辨率, 传统光学相机在高速运动场景下, 难以连续捕捉到物体在成像平面中位置的快速变化, 导致输出图像帧存在运动模糊, 因此低帧率的数据使得基于传统相机的光流估计算法无法有效地进行连续的光流估计. 如图1(a)所示, 向右做高速运动的棋盘格由传统光学相机成像, 由于传统相机曝光时间较长, 棋盘格在亮度图像帧中出现了运动模糊. 通过传统Horn-Schunck算法[10]获得的光流结果如图1(b)所示, 随着棋盘格运动速度加快, 受到亮度图像运动模糊的影响, 传统算法所估计的光流精度逐渐降低, 甚至输出与实际运动反向的光流结果.
图 1 基于传统相机和基于事件相机的光流估计效果对比 ((a)传统相机输出图像帧序列; (b)传统Horn-Schunck 算法的光流估计结果; (c)事件相机输出事件流; (d)本文EDI-CLG算法光流估计结果)Fig. 1 Comparison of traditional camera and event camera based optical flow ((a) The samples of images acquired by traditional camera; (b) The results using Horn-Schunck algorithm; (c) The event data generated by event camera; (d) The results using the proposed EDI-CLG algorithm)近年来, 针对基于传统光学相机的光流估计算法易受运动模糊影响的问题, 基于事件相机[11-12]的光流估计算法受到了广泛关注. 事件相机是一种新型的仿生传感器, 不同于传统相机通过固定时间间隔采样获取图像帧, 该相机具有独立的像素, 这些像素只在场景的亮度变化超过一定阈值时异步地进行成像. 此外, 事件相机具有高时间分辨率的特性, 受运动模糊问题影响较少[13], 因此能够对空间物体的运动进行连续捕捉, 获取瞬时的运动数据有利于进行连续的光流估计. 图1(c)展示了棋盘格高速运动生成的事件点, 红色表示亮度增强, 蓝色表示亮度减弱. 可以看出, 事件相机捕捉到的运动信息在时间上具有连续性, 基于此估计出的如图1(d)所示的光流结果, 不仅在时间上具有连续性特征, 而且更加精确.
目前, 基于事件相机的光流估计算法主要分为单纯基于事件流算法和联合事件流与亮度图像算法两种. 由于事件流数据不能如图像帧一样完整地反映场景的纹理信息, 因此单纯基于事件流的光流估计算法[14-16]仅能反映事件点触发位置的光流信息, 无法得到完整的场景运动信息. 此外, 由于事件数据存在大量噪声[17], 也降低了光流估计的准确性. 动态和主动像素视觉传感器(Dynamic and active-pixel vision sensor, DAVIS)相机由Berner等[18]开发. 该传感器结合了动态视觉传感器(Dynamic vision sensor, DVS)[19-20] 和传统的主动像素传感器(Active pixel sensor, APS), 不仅输出异步事件流, 还可以输出固定帧率的亮度图像. 基于此, Almatrafi等[21]提出了联合DVS和APS数据的光流估计方法, 提高了事件相机光流估计的准确性和鲁棒性. 然而, 由于APS传感器输出的亮度图像依然不可避免地受到运动模糊影响且该算法由于依赖亮度图像获取空间梯度, 只能估计出建帧时刻的非连续光流, 因此并不能保证高速运动场景下光流的精度和连续性.
针对上述问题, 本文基于亮度恒定假设和事件产生模型利用事件相机输出事件流的低延时性质, 融合存在运动模糊的亮度图像帧, 提出基于事件相机的连续光流估计算法. 通过研究模糊图像帧与曝光时间内生成事件点之间的关系, 可以重建出连续的清晰亮度图像, 从而使算法受运动模糊的影响较少. 最后在计算光流时, 添加平滑约束获得更具鲁棒性的稠密光流, 最终实现高速运动场景下受运动模糊影响较小的连续光流估计.
本文的主要贡献如下:
1)针对基于传统光学相机的光流估计算法易受运动模糊影响问题, 本文通过研究模糊图像帧与曝光时间内生成事件点之间的关系, 理论上推导了联合事件和图像的连续光流模型, 建立了任意时刻光流、图像和事件之间的关系.
2)基于联合事件和图像的连续光流模型, 提出HS (Horn-Schunck)和结合局部与全局(Combining local and global, CLG)平滑约束的光流估计方法, 提升了重建光流的精度和平滑性.
3)通过实验表明, 本文方法不仅能够较大提升基于事件相机光流估计的精度, 同时还能解决目标高速运动条件下如何进行连续且稳定的光流估计问题. 因此, 对于高速运动的极端场景, 本文方法具有一定优势.
1. 相关算法概述
1.1 基于传统相机的光流估计
在基于传统相机的光流估计方法中, 光流可以通过连续图像帧间的相关性以及图像上特定像素在空间和时间上的变化得到. 一般地, 坐标$ (x,y) $上的像素在$ t $时刻的亮度值可以表示为${\boldsymbol{I}}(x,y,t)$, 为简便起见, 有时将$\boldsymbol I $的坐标变量默认省略. 在环境不变时, 用同一相机拍摄的图像序列之间有很强关联性, 因此可以引入光流的“亮度恒定”假设[10, 22]即随着时间的变化, 在图像平面移动的像素点亮度值不变. 对于$ t $时刻在坐标$ (x,y) $上的像素点, 经过$ \Delta t $时间, 移动到$ (x+\Delta x,y+\Delta y) $, 则:
$$ {\boldsymbol{I}}(x+\Delta x,y+\Delta y,t+\Delta t) = {\boldsymbol{I}}(x,y,t) $$ (1) 基于这一假设, 将式(1)按一阶泰勒展开后, 再忽略高阶项, 可以得到光流约束方程:
$$ \frac{\partial {\boldsymbol{I}}}{\partial x}\frac{\Delta x}{\Delta t} + \frac{\partial {\boldsymbol{I}}}{\partial y}\frac{\Delta y}{\Delta t} = -\frac{\partial {\boldsymbol{I}}}{\partial t} $$ (2) 令光流矢量$ {\boldsymbol{v}} = (v_1,v_2) $, 其中$v_1 = {\Delta x}/{\Delta t}$, $v_2 = {\Delta y}/{\Delta t}$分别表示像素在$ x $和$ y $轴上的运动速度即光流. 再令图像的空间梯度$ \nabla {\boldsymbol{I}} = (I_x,I_y) $, 其中$I_x =\frac {\partial {\boldsymbol{I}}}{\partial x}$, $I_y =\frac {\partial {\boldsymbol{I}}}{\partial y}$分别表示图像在$ x $和$ y $方向上的梯度. 则可以得到式(2)的矩阵形式:
$$ -\frac{{\rm{d}}{\boldsymbol{I}}}{{\rm{d}}t} = \nabla {\boldsymbol{I}}\cdot {\boldsymbol{v}} $$ (3) 但仅有光流约束方程不足以估计出二维运动场. 因此, Horn等[10]通过正则化方式提高全局空间的一致性, 提出速度平滑假设, 将问题转化为可求解的凸函数, 也就是HS光流法. Lucas等[22]提出基于光流场局部空间一致性的Lucas-Kanade光流, 提高算法的准确性和鲁棒性. 随后, Black等[23]提出分段平滑的假设来改进全局平滑, 黄波等[24]通过引入二维标号场改进了HS光流. Fortun等[25]则通过最小化光流的大小来引入额外的约束, 进一步提升了算法的精度.
然而, 由于传统相机的时间分辨率较低, 在某些高速运动的极端场景下, 容易出现运动模糊, 导致光流估计算法的性能急剧下降. 因此基于传统相机的光流估计算法无法有效地保证高速运动场景下光流估计的准确性和稳定性. 针对运动模糊问题, 现有方法大多数基于线性运动的假设, 在此基础上, 通过求解模糊问题得到相应的光流估计[26-27]. 但是, 由于场景运动较为复杂, 无法满足线性运动假设, 从而影响光流估计的精度[28].
1.2 事件相机成像原理
事件相机是受生物视觉系统启发的一类新型视觉传感器, 与传统相机存在一定区别. 传统相机基于帧进行成像, 输出同步图像帧, 像素点代表场景的绝对亮度; 事件相机基于像素点独立成像, 输出包含大量事件点的异步事件流, 事件流表示场景在对数域的亮度变化. 事件点数据包含了亮度变化事件的像素坐标、触发时间和极性三类信息. 在像素平面上, 若像素${\boldsymbol{u}} = (x,y)^{\rm{T}}$在$ t $时刻上的对数光强值与上一时刻的对数光强值之差超过一定的阈值$ C $, 则激发事件${\boldsymbol{e}}:=\left\langle {\boldsymbol{u}},t,p\right\rangle$:
$$ {\boldsymbol{V}}({\boldsymbol{u}},t)-{\boldsymbol{V}}({\boldsymbol{u}},t-\Delta t) = p \cdot C $$ (4) 式中, ${\boldsymbol{V}}:= \lg{\boldsymbol{I}}$表示图像对数域的亮度值; 阈值$ C>0 $; $ \Delta t $是距离该像素上一次激发事件经过的时间; $p\in{\left\{1,-1\right\}}$表示事件的极性, $ p $为正表示光强增强, 为负表示光强减弱.
与逐帧成像的传统相机相比, 逐像素点独立成像的事件相机延时极低, 能够及时响应像素的亮度变化并输出事件流, 从而记录任意时刻的亮度变化情况. 事件相机的低延时性质, 使其特别适用于高速和高动态范围场景的视觉任务, 例如自动驾驶[29]、高速同时定位与地图构建[30]、光流估计等.
1.3 基于事件相机的光流估计
针对基于事件相机的光流估计问题, 目前常见方法是将恢复图像像素强度作为预处理步骤, 以适应传统算法. 如Benosman等[14]利用短时间内事件的逐像素直方图来代替像素值, Bodo等[31]使用中心差分来改善空间梯度的质量, Tobias等[32]则利用空间梯度和时间梯度之间的耦合来提高鲁棒性. 但由于从事件到强度转换过程中信息的丢失, 这些算法与基于帧的光流估计算法相比, 精度较差.
另一种常见方法是利用事件相机的特性来估计光流. Gallego等[15]通过图像对比度最大化, 以产生运动补偿的图像来同时估计光流和深度. Lagorce等[16]开发算法来拟合时空流形以估计平滑的边缘运动. Liu等[33]提出一种基于事件的块匹配算法来估计光流的方向, 并在文献[34]中融合了速度的计算. Barranco等[35]提出一种基于相位的方法来计算高频纹理区域的光流, 并尝试重建强度信号, 以避免纹理边缘处可能存在的问题. Bardow等[36]通过建立窗口, 将亮度恒定和平滑先验组合为代价函数, 并通过变分法进行优化, 实现光流和亮度的估计. 这些算法在一定程度上提高了光流估计的精度, 但由于事件流数据不能如图像帧一样完整地反映场景的纹理信息, 因此基于事件相机的光流估计算法仅能反映事件点触发位置的光流信息, 无法得到完整的场景运动信息.
近年来, 联合事件生成模型和“亮度恒定”假设进行光流估计的方法[37]得到了广泛关注. 其中, 部分方法基于事件的二重积分(Event-based dou-ble integral, EDI)模型[38], 如Pan等[39]利用该模型提出了联合光流估计和亮度图像去模糊算法, 实验结果表明, 利用EDI模型可以降低运动模糊的影响, 有利于提升光流估计的精度. 因此, 本文算法同样基于EDI模型, 并通过结合事件流和亮度图像各自的优势, 提出基于事件相机的连续光流估计算法, 以解决现有的传统光流估计算法易受运动模糊的影响, 以及单纯基于事件流的光流估计算法空间信息不足的问题.
2. 基于事件相机的连续光流估计
本节研究基于事件相机的连续光流估计方法, 结构安排如下: 第2.1节简要介绍EDI模型, 第2.2节推导联合EDI模型和“亮度恒定”假设的连续稀疏光流估计方法, 第2.3节分别添加两种平滑约束, 最终求得对噪声具有鲁棒性的连续稠密光流场.
2.1 EDI模型
EDI模型[38]利用事件点的高时间分辨率优势, 可以重建出受运动模糊影响较少的连续清晰亮度图像. 相机APS模块具有曝光时间, 因此其输出的亮度图像在相机或场景内运动目标做高速运动的情况下, 会产生运动模糊. 假定第$ i $帧亮度图像为${\boldsymbol{Y}}[i] \in {\bf R}^{M \times N}$, 曝光时间为$ T $, 曝光起始时刻用$ t_i $表示, 则图像生成模型可以表示为:
$$ {\boldsymbol{Y}}[i] = \frac{1}{T}\int_{t_i}^{t_i+T}{\boldsymbol{I}}(t){\rm{d}}t $$ (5) 式中, $ {\boldsymbol{I}}(t) $表示在$t \in {\bf{R}}$时刻的瞬时清晰亮度图像, 这个生成模型可以解释为由于亮度图像$ {\boldsymbol{I}}(t) $在$ T $时间内的快速变化, 导致输出图像$ {\boldsymbol{Y}}[i] $模糊. 为了更直观地表示事件, 用连续时间信号来定义离散事件序列, 对于像素平面上的每一个像素$ (x,y) $, 定义$ {\boldsymbol{e}}_{xy}(t) $为连续时间$ t $的函数:
$$ {\boldsymbol{e}}_{xy}(t) = p\delta(t-t_{e}) $$ (6) 式中, $ \delta(\cdot) $表示狄拉克函数, $ t_e $表示事件被激发的时刻. 定义$ {\boldsymbol{I}}(f) $是$ f $时刻的瞬时清晰亮度图像, 结合式(4)和式(6), 可得:
$$ {\boldsymbol{I}}(t) = {\boldsymbol{I}}(f)\exp\left\{\int_{f}^{t}C\cdot {\boldsymbol{e}}_{xy}(\tau){\rm{d}}\tau\right\} $$ (7) 将式(7)代入亮度图像生成模型式(5), 可以得到曝光时间内的模糊图像与事件点, 以及时刻$ f $的瞬时清晰亮度图像之间的关系:
$$ \begin{split} {\boldsymbol{Y}}[i] =\;& \frac{1}{T}\int_{t_i}^{t_i+T}{\boldsymbol{I}}(f)\exp\left\{\int_{f}^{t}C\cdot {\boldsymbol{e}}_{xy}(\tau){\rm{d}}\tau\right\}{\rm{d}}t =\\ &{\boldsymbol{I}}(f)\cdot\frac{1}{T}\int_{t_i}^{t_i+T}\exp\left\{\int_{f}^{t}C\cdot {\boldsymbol{e}}_{xy}(\tau){\rm{d}}\tau\right\}{\rm{d}}t \end{split} $$ (8) 然后, 可以定义:
$$ {\boldsymbol{E}}_{i}(f) = \frac{1}{T}\int_{t_i}^{t_i+T}\exp\left\{\int_{f}^{t}C\cdot {\boldsymbol{e}}_{xy}(\tau){\rm{d}}\tau\right\}{\rm{d}}t $$ (9) 最终, 可将式(8)写为:
$$ {\boldsymbol{Y}}[i] = {\boldsymbol{I}}(f)\cdot {\boldsymbol{E}}_{i}(f) $$ (10) 式中, $ {\boldsymbol{E}}_{i}(f) $表示第$ i $帧亮度图像曝光时间内生成事件点的二重积分, $ {\boldsymbol{I}}(f) $表示任意时刻$ f $的瞬时清晰亮度图像, 两者均在时间上具有连续性特征. 式(10)将模糊图像、瞬时清晰亮度图像和事件点之间建立了联系. 而模糊图像和事件点是已知的, 就可以通过式(10)计算出任意时刻的瞬时清晰亮度图像.
2.2 基于EDI模型的连续光流估计
EDI模型仅仅考虑了模糊图像的去模糊问题, 本节进一步结合光流约束方程研究基于EDI模型的连续光流估计问题.
若将EDI模型重建出的瞬时清晰亮度图像看作式(3)中的亮度图像$ {\boldsymbol{I}} $, 即:
$$ {\boldsymbol{I}} = \frac{{\boldsymbol{Y}}[i]}{{\boldsymbol{E}}_{i}(f)} $$ (11) 则亮度图像$ {\boldsymbol{I}} $对时间$ f $求导得:
$$ {\boldsymbol{I}}_f = \frac{{\rm{d}}\left\{\frac{{\boldsymbol{Y}}[i]}{{\boldsymbol{E}}_{i}(f)}\right\}}{{\rm{d}}f} = \frac{-{\boldsymbol{Y}}[i]\cdot \frac{{\rm{d}}{\boldsymbol{E}}_i}{{\rm{d}}f}}{{\boldsymbol{E}}_{i}^{2}(f)} = -\frac{{\boldsymbol{Y}}[i]}{{\boldsymbol{E}}_{i}^{2}(f)}\cdot \frac{{\rm{d}}{\boldsymbol{E}}_i}{{\rm{d}}f} $$ (12) 可以结合式(3)和式(10), 推导出联合事件流和亮度图像的连续光流估计方法:
$$ \frac{{\boldsymbol{Y}}[i]}{{\boldsymbol{E}}_{i}^{2}(f)}\cdot \frac{{\rm{d}}{\boldsymbol{E}}_i}{{\rm{d}}f} = \nabla\left\{\frac{{\boldsymbol{Y}}[i]}{{\boldsymbol{E}}_{i}(f)}\right\}\cdot {\boldsymbol{v}}(f) $$ (13) 式中, $ {\boldsymbol{v}}(f) $表示$ f $时刻的光流场, 且关于$ f $连续. 另外, 根据式(9)可以求出导数$\frac{{\rm{d}}{\boldsymbol{E}}_i}{{\rm{d}}f}$:
$$ \begin{split} \frac{{\rm{d}}{\boldsymbol{E}}_i}{{\rm{d}}f} = \;& \frac{1}{T}\int_{t_i}^{t_i+T}\exp\left(\int_{f}^{t}C\cdot {\boldsymbol{e}}_{xy}(\tau){\rm{d}}\tau\right) \cdot \\ &\left(-C\cdot {\boldsymbol{e}}_{xy}(f)\right){\rm{d}}t =\\ &\frac{1}{T}\int_{t_i}^{t_i+T}\exp\left(\int_{f}^{t}C\cdot {\boldsymbol{e}}_{xy}(\tau){\rm{d}}\tau\right) \cdot \\ &\left(-C\cdot p\delta(f-t_{e})\right){\rm{d}}t =-Cp{\boldsymbol{E}}_{i}(f) \delta(f-t_e) \end{split} $$ (14) 则式(12)可更新为:
$$ {\boldsymbol{I}}_f = Cp\frac{{\boldsymbol{Y}}[i]}{{\boldsymbol{E}}_{i}(f)}\delta(f-t_{e}) $$ (15) 最终, 将式(14)代入式(13), 求得基于连续清晰亮度图像重建的光流计算公式:
$$ -Cp\frac{{\boldsymbol{Y}}[i]}{{\boldsymbol{E}}_{i}(f)}\delta(f-t_{e}) = \nabla\left\{\frac{{\boldsymbol{Y}}[i]}{{\boldsymbol{E}}_{i}(f)}\right\}\cdot {\boldsymbol{v}}(f) $$ (16) 上式给出了任意时刻$ f $的连续光流$ {\boldsymbol{v}}(f) $与模糊图像$ {\boldsymbol{Y}}[i] $和事件流数据$ {\boldsymbol{E}}_{i}(f) $之间的关系. 第2.3节中, 将利用这个关系并结合平滑约束, 进一步得到优化的光流估计.
2.3 平滑约束的连续光流估计
2.3.1 HS平滑约束的连续光流估计
HS光流法是一种基于全局的方法[40], 它除了需要满足Lucas-Kanade光流法的亮度恒定、时间连续和运动位移小的假设外, 还需要满足图像光流场全局平滑的假设. 使用$ {\boldsymbol{I}} $简化表示$ {\boldsymbol{I}}(f) $, 令光流矢量$ {\boldsymbol{v}} = (v_1,v_2) $, 定义一个能量函数:
$$\begin{split} {\boldsymbol{H}}(v_1,v_2) =\;& \iint[(I_x v_1+I_y v_2+I_f)^2\;+\\ &\alpha(\vert\nabla v_1 \vert^2+\vert\nabla v_2 \vert^2)]{\rm{d}}x{\rm{d}}y \end{split} $$ (17) 式中, $ I_x $、$ I_y $和$ I_f $分别表示图像$ {\boldsymbol{I}} $在$ x $、$ y $方向上的导数和对时间的导数, $ \nabla $表示求梯度, 该能量函数的$ (I_x v_1+I_y v_2+I_f)^2 $是灰度变化因子, $\alpha(\vert\nabla v_1 \vert^2\;+ \vert\nabla v_2 \vert^2)$是平滑因子, $ \alpha $为正则化参数, 调节光流场的平滑程度, 理想的光流场应该使得灰度变化因子和平滑因子之和最小, 即亮度恒定且运动平滑. 为了便于推导, 令:
$$ L = (I_x v_1+I_y v_2+I_f)^2+\alpha(\vert\nabla v_1 \vert^2+\vert\nabla v_2 \vert^2) $$ (18) 将$ L $对$ v_1 $和$ v_2 $分别进行求导, 得:
$$ \left\{\begin{aligned} &\Delta v_1-\frac{1}{\alpha}(I_x^2 v_1+I_x I_y v_2+I_x I_f) = 0 \\ &\Delta v_2-\frac{1}{\alpha}(I_x I_y v_1+I_y^2 v_2+I_y I_f) = 0 \end{aligned}\right.$$ (19) 式中, $ \Delta $是拉普拉斯算子操作, 可表示为:
$$ \Delta: = \partial_{xx}+\partial_{yy} $$ (20) 本文用以下公式代替:
$$ \Delta {\boldsymbol{m}}(x,y) = \bar{{\boldsymbol{m}}}(x,y)-{\boldsymbol{m}}(x,y) $$ (21) 式中, $ \bar{{\boldsymbol{m}}}(x,y) $为$ {\boldsymbol{m}}(x,y) $的拉普拉斯估计值:
$$ \begin{split} \bar{{\boldsymbol{m}}}(x,y) =\;& \frac{1}{6}[{\boldsymbol{m}}(x-1,y)+{\boldsymbol{m}}(x,y+1)\;+ \\ &{\boldsymbol{m}}(x+1,y)+{\boldsymbol{m}}(x,y-1)] \;+\\ &\frac{1}{12}[{\boldsymbol{m}}(x-1,y-1)+{\boldsymbol{m}}(x-1,y+1)]\; +\\ &\frac{1}{12}[{\boldsymbol{m}}(x+1,y+1)+{\boldsymbol{m}}(x+1,y-1)] \end{split}$$ (22) 进行拉普拉斯操作替换后, 将式(19)更新为:
$$\left\{ \begin{aligned} &(I_x^2+\alpha)v_1+I_x I_y v_2 = \alpha\bar{v}_1-I_x I_f \\ &(I_y^2+\alpha)v_2+I_x I_y v_1 = \alpha\bar{v}_2-I_y I_f \end{aligned}\right.$$ (23) 使用Gauss-Seidel迭代方法[40], 利用估计的空间梯度、时间导数和上一次迭代的速度估计结果来计算一组新的速度估计值, 得到迭代式:
$$ \left\{\begin{aligned} &v_1^{k+1} = \bar{v}_1^k-\frac{I_x(I_x\bar{v}_1^k+I_y\bar{v}_2^k+I_f)}{\alpha+I_x^2+I_y^2} \\ &v_2^{k+1} = \bar{v}_2^k-\frac{I_y(I_x\bar{v}_1^k+I_y\bar{v}_2^k+I_f)}{\alpha+I_x^2+I_y^2} \end{aligned}\right. $$ (24) 式中, $ \bar{v}_1^k $和$ \bar{v}_2^k $表示上一次迭代结果的拉普拉斯估计值. 将式(11)和式(15)代入迭代式(24), 计算$ v_1 $和$ v_2 $在第$ k $步迭代的估计值. 通过多次迭代收敛, 最终得到光流的估计结果. 本文设定迭代终止条件为光度一致性误差$\lambda_k := I_xv_1^k+I_yv_2^k+I_f$的变化小于某个阈值$ \lambda^{\theta} $:
$$ \vert \lambda_k-\lambda_{k-1} \vert < \lambda^{\theta} $$ (25) 本文实验中选取$ \lambda^{\theta} = 1\times10^{-6} $. 具体算法见算法1. 其中, 时间间隔$ \Delta f $将每一帧亮度图像的曝光时间$ T $进行${T}/{\Delta f}$等分, 决定了$ T $时间内的连续光流估计次数.
2.3.2 CLG平滑约束的连续光流估计
通常情况下, 基于局部的光流估计方法对噪声更具鲁棒性, 而基于全局的光流估计方法则产生更加精确的稠密光流场. CLG光流法[41]结合了局部方法和全局方法各自的优势, 产生对噪声具有鲁棒性的稠密光流场, 其最小化能量函数可以表示为:
$$ {\boldsymbol{H}}_{CLG}({\boldsymbol{\omega}}) = \iint({\boldsymbol{\omega}}^{\rm{T}}J_\rho(\nabla_3{\boldsymbol{I}}){\boldsymbol{\omega}}+\alpha\vert{\nabla{\boldsymbol{\omega}}}\vert^2){\rm{d}}x{\rm{d}}y $$ (26) 式(26)中各个参数的定义如下:
$$ {\boldsymbol{\omega}}:= (v_1,v_2,1)^{\rm{T}} $$ (27) $$ \vert{\nabla{\boldsymbol{\omega}}}\vert^2 := \vert{\nabla v_1}\vert^2+\vert{\nabla v_2}\vert^2 $$ (28) $$ \nabla_3{\boldsymbol{I}} := (I_x,I_y,I_f)^{\rm{T}} $$ (29) $$ J_\rho(\nabla_3{\boldsymbol{I}}) := K_\rho*(\nabla_3{\boldsymbol{I}}\nabla_3{\boldsymbol{I}}^{\rm{T}}) $$ (30) 式中, $ K_\rho $是高斯核, $ \rho $表示高斯核的邻域窗口大小, “$*$”表示卷积操作, 参数$ \alpha $调节平滑程度. 使用类似第2.3.1节中HS平滑约束迭代公式的推导过程, 可得CLG平滑约束的光流迭代公式:
$$ \left\{\begin{aligned} &v_1^{k+1} = \bar{v}_1^k\;-\\ &\;\;\;\;\qquad\frac{K_\rho*(I_x^2)\bar{v}_1^k+K_\rho*(I_xI_y)\bar{v}_2^k+K_\rho*(I_xI_f)}{\alpha+K_\rho*I_x^2+K_\rho*I_y^2} \\ &v_2^{k+1} = \bar{v}_2^k\;-\\ &\;\;\;\;\qquad\frac{K_\rho*(I_y^2)\bar{v}_2^k+K_\rho*(I_xI_y)\bar{v}_1^k+K_\rho*(I_yI_f)}{\alpha+K_\rho*I_x^2+K_\rho*I_y^2} \end{aligned}\right. $$ (31) 将式(11)和(15)代入迭代式(31), 计算$ v_1 $和$ v_2 $在第$ k $步迭代的估计值. 迭代收敛条件与第2.3.1节相同, 经过多次迭代, 最终得到连续稠密光流的估计结果. 与Pan等[39]方法不同的是, 本文方法利用EDI模型重建连续清晰亮度图像的优势, 推导出同样在时间上具有连续性的光流估计方法, 因此在高速运动的极端场景下具有一定的优势, 而文献[39]则基于曝光时间内光流恒定的假设, 对亮度图像进行去模糊操作.
算法1. 基于事件相机的连续光流估计算法
输入. 亮度图像序列 $ \{{\boldsymbol{Y}}[i]\}_{i=1}^l $, 事件流数据$ \{{\boldsymbol{e}}_{k}\}_{k=1}^m $, 时间间隔$ \Delta f $, 迭代初始值$ v_1=0 $、$ v_2=0 $, 参数$ \alpha $、$ \lambda^\theta $.
输出. 连续光流估计结果$ {\boldsymbol{v}}(f) $.
1) for 每一帧亮度图像$ {\boldsymbol{Y}}[i] $ do;
2)提取时间$ [t_i,t_i+T] $内对应的事件流;
3) for $f=t_i:\Delta f:(t_i+T)$ do;
4)根据式(9)计算$ f $时刻的事件点二重积分$ {\boldsymbol{E}}_i(f) $;
5)根据式(11)重建$ f $时刻的清晰亮度图像$ {\boldsymbol{I}} ;$
6)根据式(15)计算$ f $时刻的清晰亮度图像时间导数$ {\boldsymbol{I}}_f $;
7) while $ \vert \lambda_k-\lambda_{k-1} \vert > \lambda^{\theta} $ do;
8)根据式(24) (HS)或式(31) (CLG)计算连续光流$ {\boldsymbol{v}}(f) $;
9) end while;
10) end for;
11) end for.
3. 实验结果及分析
本文使用两组数据集对算法进行测试. 第1组来自Bodo等[31]提供的数据集, 由DAVIS240相机[18]录制且带有光流真实值. 该数据集场景简单, 所有事件点均由相机低速运动生成. 图2展示了该数据集中TranslBoxes、RotDisk和TranslSin三个数据的亮度图像和对应事件帧, 对应结果如图3、图4所示. 第2组是运动模糊数据集, 图5(a)展示了该数据集中三个数据的亮度图像, 前两行数据来自Pan等[38]提供的真实模糊事件数据集, 第3行数据为使用DAVIS346相机录制的真实模糊事件数据. 第2组数据集包含高速运动导致亮度图像模糊的更具挑战性的情况, 可以用于验证本文算法在极端场景下的鲁棒性, 但不带有光流真实值. 在实验中, 将本文提出的引入HS约束和CLG约束的连续光流估计模型分别命名为EDI-HS和EDI-CLG.
3.1 参数选取
算法1中待设定的参数为平滑约束的正则化参数$ \alpha $. 本文主要通过实验方式对该参数进行设置, 选择带有标准偏差的平均端点误差(Average end point error, AEE)和平均角度误差(Average angular error, AAE)以及均方误差(Mean square error, MSE)来作为光流精度的衡量指标. AEE表示光流大小与真实值的误差, 单位为%:
$$ {\rm{AEE}} = \frac{1}{N}\sum\limits_{i = 1}^{N}\sqrt{({\boldsymbol{v}}_{x,i}-{\boldsymbol{u}}_{x,i})^2+({\boldsymbol{v}}_{y,i}-{\boldsymbol{u}}_{y,i})^2}\frac{1}{|{\boldsymbol{u}}_i|} $$ (32) AAE表示光流方向与真实值的误差, 单位为(°):
$$ {\rm{AAE}} = \frac{1}{N}\sum\limits_{i = 1}^{N}\arccos \frac{{\boldsymbol{v}}_{x,i} {\boldsymbol{u}}_{x,i}+{\boldsymbol{v}}_{y,i} {\boldsymbol{u}}_{y,i}}{|{\boldsymbol{v}}_i||{\boldsymbol{u}}_i|} $$ (33) MSE可用如下公式表示:
$$ {\rm{MSE}}=\frac{1}{N}\sum\limits_{i = 1}^{N}[({\boldsymbol{v}}_{x,i}-{\boldsymbol{u}}_{x,i})^2+({\boldsymbol{v}}_{y,i}-{\boldsymbol{u}}_{y,i})^2] $$ (34) 式中, $ {\boldsymbol{v}}_i = (v_x,v_y)_i $表示第$ i $个光流测量值, ${\boldsymbol{u}}_i = (u_x,u_y)_i$表示相应的光流真实值.
采用第1组DAVIS240数据集进行实验, 通过观察不同的正则化参数对所计算光流的平均端点误差和平均角度误差的影响, 对参数进行选取. 在$ \alpha $取值为[0, 3000]范围内进行了大量实验, 通过实验发现, 在各数据集上, 当$\alpha > 2$时, 两种误差都随$ \alpha $的增大而升高, 光流质量变差. 因此, 图3展示了$ \alpha $取值在区间[0, 2]上对所得光流的平均端点误差和平均角度误差的影响曲线. 可以发现, 相较于平均角度误差, 平均端点误差受参数$ \alpha $的影响更小且平均端点误差随$ \alpha $的增大而缓慢升高, 平均角度误差随$ \alpha $的增大呈现先降低后升高趋势. 当$ \alpha = 0.75 $左右时, 可以同时保证两种误差均为较低, 因此在后续实验中设置$ \alpha = 0.75 $.
3.2 连续光流估计结果
为验证本文算法的精度, 将它们与现有的基于事件相机的光流估计算法进行比较, 分别为Almatrafi等[21]提出的联合DVS和APS数据的光流估计方法、图像对比度最大化光流估计法[15]和局部平面拟合光流估计法[16]. 将它们分别命名为DAVIS-OF、DVS-CM 和DVS-LP. 其中, DAVIS-OF光流估计算法在添加CLG平滑约束时取得了最好的效果, 因此本文在进行对比实验时, 也对其添加了CLG平滑约束.
首先, 使用第1组DAVIS240数据集对算法进行实验测试. 表1展示了各个算法在这3个数据上的光流估计结果与真实值之间的误差, 精度排名第1和第2的算法分别使用加粗和下划线标注. 总体上, EDI-CLG的结果最好, 在3个数据上的误差都比较小, EDI-HS在TranslBoxes和TranslSin两个数据上的结果比另外3种现有算法更优, 且EDI-CLG光流结果的标准差在3个数据上都较小, 说明EDI-CLG的光流结果较为稳定, 很少有异常值, 具有良好的抗噪性能. 实验结果表明, 在DAVIS-240数据集上, 本文算法相比于其他3种对比算法, 在精度和稳定性上具有一定优势.
表 1 DAVIS240数据集光流误差表Table 1 Optical flow error on DAVIS240 datasets数据 算法 AEE ($\%$) AAE (°) MSE TranslBoxes DVS-CM 43.65 ± 27.15 21.46 ± 32.86 39.94 DVS-LP 124.78 ± 92.05 19.66 ± 13.71 81.03 DAVIS-OF 31.20 ± 3.18 17.29 ± 7.18 15.57 EDI-HS 18.65 ± 2.92 5.13 ± 4.72 17.86 EDI-CLG 18.01 ± 2.65 4.79 ± 3.05 16.77 RotDisk DVS-CM 54.26 ± 28.30 34.39 ± 25.88 40.75 DVS-LP 104.63 ± 97.15 20.76 ± 14.17 77.25 DAVIS-OF 33.94 ± 17.02 13.07 ± 8.58 14.30 EDI-HS 42.93 ± 20.91 14.87 ± 12.83 33.10 EDI-CLG 42.44 ± 20.86 13.79 ± 10.52 33.02 TranslSin DVS-CM 91.96 ± 9.95 43.16 ± 39.09 85.41 DVS-LP 107.68 ± 70.04 69.53 ± 30.82 94.53 DAVIS-OF 84.78 ± 61.22 56.75 ± 41.53 62.61 EDI-HS 75.74 ± 51.69 30.14 ± 9.98 72.96 EDI-CLG 72.45 ± 44.12 28.53 ± 4.97 35.28 表2展示了各个算法在3个数据上的运行时间对比, 其中运行速度排名第1和第2的算法分别使用加粗和下划线标注. 使用Matlab2014a进行光流估计的平均每帧运行时间作为衡量指标, 其中, DAVIS-OF的运行时间最短, EDI-HS的运行时间也相对较短, 而EDI-CLG的迭代过程相比于EDI-HS较为复杂, 因此运行时间略长, DVS-CM则由于逐像素迭代计算光流, 平均每帧运行时间为最长. 实验结果表明, 在DAVIS240数据集上, 本文算法的运行时间相比于现有算法具有一定的优势.
表 2 运行时间对比Table 2 Comparison of running time算法 平均每帧运行时间(s) DVS-CM 206.85 DVS-LP 5.29 DAVIS-OF 0.52 EDI-HS 0.61 EDI-CLG 0.63 图4为利用第1组数据集中TranslBoxes、Rot-Disk和TranslSin三个数据对本文的连续光流估计方法与其他3种光流估计算法进行测试的结果对比图. 为便于可视化, 对光流场进行了下采样. 图4包括光流真实值图像以及5种算法的光流结果图. 其中, 绿色的直线箭头表示光流, 所有光流估计结果都在事件帧图像上显示.
图 4 DAVIS240数据集光流结果对比图 ((a)光流真实值; (b)本文EDI-HS方法; (c)本文EDI-CLG方法; (d) DAVIS-OF方法; (e) DVS-CM方法; (f) DVS-LP方法)Fig. 4 Comparison of optical flow results on DAVIS240 datasets ((a) Ground truth; (b) The proposed EDI-HS method; (c) The proposed EDI-CLG method; (d) The DAVIS-OF method; (e) The DVS-CM method; (f) The DVS-LP method)在TranslBoxes数据中, 箱子在图像上表现为向右移动, 事件帧图像中噪声较少且边缘明确. 其中, EDI-CLG的光流结果较好, 大小和方向都最接近真实值; DAVIS-OF的光流方向总体较好, 但光流大小缺乏一致性. 而DVS-CM和DVS-LP个别事件点的光流发生了明显错误, 特别是DVS-LP有些光流值幅度很小, 增加了AEE误差, 结果见表1. 在RotDisk数据中, 分隔成不同颜色区域的圆盘顺时针转动, 从真实值上可以看出, 光流方向基本都垂直于区域边缘且光流大小与圆盘半径成正比. 其中, EDI-CLG的光流比较稳定, 并且光流大小基本符合与圆盘半径的正比关系, 这有效减少了光流误差. 而EDI-HS的光流方向较好, 但是某些边缘上的光流大小比例不正确. DAVIS-OF的光流大小最符合与圆盘半径的正比关系, 但有些地方输出的光流方向不够准确. DVS-CM由于只对局部区域做对比度最大化, 光流方向并不都垂直于边缘; DVS-LP则有许多错误的光流方向, 有些甚至与运动反向. 在TranslSin数据中, 图像表现为黑白正弦曲线向左移动, 由于黑白边界并不清晰, 事件帧图像上边缘不明确且有许多噪点. 其中, EDI-HS和 EDI-CLG估计的光流方向较为一致, 但有个别光流幅值较大. 而对比算法DAVIS-OF、DVS-CM和DVS-LP输出的光流方向不稳定, 且大小也比较杂乱.
为了验证本文算法在更具挑战性的场景下进行光流估计的准确性和稳定性, 下面使用第2组运动模糊数据集进行测试. 第2组数据集提供了高速运动导致亮度图像模糊的情况, 可以用于验证本文算法在极端场景下的鲁棒性.
图5展示了各种算法在第2组数据集上的测试结果, 包括数据集中的模糊亮度图像、使用EDI方法重建的清晰亮度图像和各个算法的光流结果图. 第1行展示的数据是人手臂挥动黑白格图像, 第2行数据是人在室内起跳后落下, 第3行数据是高速移动的相机拍摄的棋盘格. 由图5可以看出, 在目标高速运动且亮度图像存在运动模糊的情况下, 本文提出的两种连续光流估计算法都能稳定估计光流, 光流方向都较为准确且变化较为平滑, 其中EDI-CLG估计的光流视觉效果最好, DVS-CM和DVS-LP的光流则存在异常值, 方向准确度也不高.
图 5 运动模糊数据集光流结果对比图 ((a)运动模糊亮度图像; (b) 使用EDI方法重建的清晰亮度图像; (c)本文EDI-HS 方法; (d)本文EDI-CLG方法; (e) DVS-CM方法; (f) DVS-LP方法)Fig. 5 Comparison of optical flow results on motion blur datasets ((a) Brightness image with motion blur; (b) Reconstructed clear brightness image using EDI method; (c) The proposed EDI-HS method; (d) The proposed EDI-CLG method; (e) The DVS-CM method; (f) The DVS-LP method)3.3 连续光流的精度稳定性测试实验
通过与基于传统相机的光流估计算法对比可知, 本文算法可以在一帧亮度图像的曝光时间内进行多次光流的计算(见图1), 说明本文算法在时间上具有连续性. 然而, 当光流连续输出时, 仍需进一步测试其精度是否稳定. 因此, 将本文提出的EDI-CLG算法与 DAVIS-OF方法进行连续光流的稳定性对比实验.
利用第1组数据集中TranslBoxes数据进行测试. 最初使用算法1得到的连续光流误差表明, 本文算法在每一帧图像的曝光边界时刻, 光流质量会比曝光中间时刻明显变差(见图6(a)、图6(b)). 这是由于在亮度图像的曝光边界时刻, EDI模型对模糊图像的补偿效果比在曝光中间时刻差[38], 从而影响曝光边界时刻重建图像的质量, 进而影响到光流估计的精度. 因此, 采用Niklaus等[42]提出的亮度图像插帧算法, 将前面使用EDI模型进行重建的连续清晰亮度图像序列中每帧曝光边界时刻生成的图像, 通过前后两张图像的插帧, 替换为更高质量的重建图像, 使连续光流估计的精度得到了进一步提升.
图 6 连续光流误差对比折线图 ((a) EDI-CLG算法改进前的平均端点误差; (b) EDI-CLG算法改进前的平均角度误差;(c) EDI-CLG算法改进后与DAVIS-OF算法的平均端点误差对比; (d) EDI-CLG算法改进后与DAVIS-OF算法的平均角度误差对比)Fig. 6 Continuous optical flow error comparison ((a) The average endpoint error of EDI-CLG before improvement; (b) The average angular error of EDI-CLG before improvement; (c) Comparison of the average endpoint error between the improved EDI-CLG and DAVIS-OF; (d) Comparison of the average angular error between the improved EDI-CLG and DAVIS-OF)图6(c)、图6(d)展示了2种算法的光流估计结果与真实值之间的平均端点误差和平均角度误差对比折线图, 选择数据集中连续3帧图像进行实验, 对本文方法进行每帧图像曝光时间内连续4次光流计算. 由对比两组光流的平均端点误差和平均角度误差结果可以看出, 本文算法估计出的连续光流误差更小且在多帧曝光时间内, 可以保持精度的稳定性.
图7展示了单帧亮度图像曝光时间内进行连续光流的精度稳定性测试的结果对比图. 其中, DAVIS-OF算法只能估计建帧时刻的非连续光流, 因此输出单张光流结果(见图7(b)). 而本文提出的EDI-CLG算法可以在单帧亮度图像的曝光时间内多次计算光流(本文实验计算4次), 如图7(c)所示. 可以看出, 与对比算法相比, 本文算法获得的光流与真实值更加接近, 而对比算法输出的光流精度较低且有些事件点处没有输出光流.
图 7 EDI-CLG算法和DAVIS-OF算法连续光流结果对比图 ((a)光流真实值; (b) DAVIS-OF方法; (c)本文EDI-CLG方法在单帧图像曝光时间内连续4次进行光流计算的结果)Fig. 7 Comparison of continuous optical flow results between EDI-CLG algorithm and DAVIS-OF algorithm ((a) Ground truth; (b) The DAVIS-OF method; (c) The results of four continuous optical flow calculations within the exposure time of a frame using the proposed EDI-CLG method)4. 结束语
在相机或目标高速运动的极端场景下, 由于相机自身较低的时间分辨率等局限性, 基于传统光学相机的光流估计方法难以估计出连续的光流结果. 针对这一问题, 本文提出基于事件相机的连续光流估计算法, 该算法联合了事件相机输出的DVS数据和APS数据各自优势, 不仅能够重建出任意时刻的清晰亮度图像, 而且可以保证光流估计的连续性和稳定性, 解决了相机APS数据易受运动模糊影响的问题. 在计算光流时, 本文通过引入两种平滑约束来计算稠密光流, 进一步提升了算法的鲁棒性和准确性. 实验结果表明, 本文算法相较于现有的光流估计算法, 在平均端点误差、平均角度误差和均方误差指标上, 性能均有较大提升. 在目标高速运动的极端场景下, 也依然能够有效且鲁棒地估计连续光流.
-
表 1 算法有效性实验数据统计
Table 1 Experimental statistics of algorithm effectiveness
算法 平均得分 得分标准差 平均胜率 (%) DRL-MACACDF 18.929 10.835 91.472 PPO −21.179 1.698 0 表 2 消融实验设置
Table 2 The setting of ablation experiment
模型 嵌入式专家
经验奖励
机制经验共享
机制自适应权重及
优先采样机制鼓励
探索
机制DRL-MACACDF ● ● ● ● DRL-MACACDF-R ○ ● ● ● DRL-MACACDF-A ● ○ ● ● DRL-MACACDF-S ● ● ○ ● DRL-MACACDF-E ● ● ● ○ 注: ● 表示包含该机制, ○ 表示不包含 表 3 消融实验数据统计
Table 3 Statistics of ablation experimental results
模型 平均得分 平均得分比传统 PPO
提高百分比 (%)平均胜率
(%)RL-MACACDF-R −19.297130 8.327 0 RL-MACACDF-A 13.629237 154.019 86.774 RL-MACACDF-S 5.021890 115.934 66.673 RL-MACACDF-E 8.973194 133.417 82.361 A1 实验超参数设置
A1 Experimental hyperparameter setting
参数名 参数值 参数名 参数值 网络优化器 Adam 经验库容量 3000 (个) 学习率 5 × 10−5 批大小 200 (个) 折扣率 0.9 $ \tau $初始值 1.0 裁剪率 0.2 ${\tau _{{\rm{step}}} }$ 1 × 10−4 训练开始样本数 1400 (个) ${\tau _{{\rm{temp}}} }$ 50000 A2 想定实体类型
A2 Entity type of scenario
单元类型 数量 主要作战武器 F/A-18 型战斗机 2 4 × AIM-120D 空空导弹
2 × AGM-154C 空地导弹F-35C 型战斗机 1 6 × AGM-154C 空地导弹 基地 1 2 × F/A-18 型战斗机
1 × F-35C 型战斗机A3 推演事件得分
A3 The score of deduction events
推演事件 得分 击毁一架飞机 139 损失一架飞机 −139 击毁基地 1843 损失基地 −1843 A4 状态空间信息
A4 State space information
实体 信息 己方飞机 经度、纬度、速度、朝向、海拔、目标点经度、目标点纬度等 7 维信息 己方导弹 经度、纬度、速度、朝向、海拔、打击目标的经度、打击目标的纬度等 7 维信息 敌方飞机 经度、纬度、速度、朝向、海拔等 5 维信息 敌方导弹 经度、纬度、速度、朝向、海拔等 5 维信息 A5 动作空间信息
A5 Action space information
类别 取值范围 飞行航向 0°、60°、120°、180°、240°、300° 飞行高度 7620 米、10973 米、15240 米 飞行速度 低速、巡航、加力 自动开火距离 35 海里、40 海里、45 海里、
50 海里、60 海里、70 海里导弹齐射数量 1 枚、2 枚 -
[1] 李卿莹. 协同空战技术发展概况及作战模式. 科技与创新, 2020 (07): 124−126Li Qing-Ying. Overview of collaborative air combat technology development and operational mode. Science and Technology and Innovation, 2020 (07): 124−126 [2] Isaacs R. Differential Games: A Mathematical Theory With Applications to Warfare and Pursuit, Control and Optimization. North Chelmsford: Courier Dover Publications, 1999. [3] Yan T, Cai Y, Bin X U. Evasion guidance algorithms for air-breathing hypersonic vehicles in three-player pursuit-evasion games. Chinese Journal of Aeronautics, 2020, 33(12): 3423−3436 doi: 10.1016/j.cja.2020.03.026 [4] Karelahti J, Virtanen K, Raivio T. Near-optimal missile avoidance trajectories via receding horizon control. Journal of Guidance Control and Dynamics, 2015, 30(5): 1287−1298 [5] Oyler D W, Kabamba P T, Girard A R. Pursuit-evasion games in the presence of obstacles. Automatica, 2016, 65: 1−11 doi: 10.1016/j.automatica.2015.11.018 [6] Li W. The confinement-escape problem of a defender against an evader escaping from a circular region. IEEE Transactions on Cybernetics, 2016, 46(4): 1028−1039 doi: 10.1109/TCYB.2015.2503285 [7] Sun Q L, Shen M H, Gu X L, Hou K, Qi N M. Evasion-pursuit strategy against defended aircraft based on differential game theory. International Journal of Aerospace Engineering, 2019 (2019): 1−12 [8] Scott W L, Leonard N E. Optimal evasive strategies for multiple interacting agents with motion constraints. Automatica, 2018, 94: 26−34 doi: 10.1016/j.automatica.2018.04.008 [9] 邵将, 徐扬, 罗德林. 无人机多机协同对抗决策研究. 信息与控制, 2018, 47(03): 347−354Shao Jiang, Xu Yang, Luo De-Lin. Cooperative combat decision-making research for multi UAVs. Information and Control, 2018, 47(03): 347−354 [10] Virtanen K, Karelahti J, Raivio T. Modeling air combat by a moving horizon influence diagram game. Journal of Guidance Control and Dynamics, 2006, 29(5): 1080−1091 doi: 10.2514/1.17168 [11] Feng C, Yao P. On close-range air combat based on hidden markov model. In: Proceeding of the 2016 IEEE Chinese Guidance, Navigation and Control Conference. Piscataway, USA: IEEE, 2016. 687−694 [12] 冯超, 景小宁, 李秋妮, 姚鹏. 基于隐马尔科夫模型的空战决策点理论研究. 北京航空航天大学学报(自然科学版), 2017, 43(3): 615−626Feng Chao, Jing Xiao-Ning, Li Qiu-Ni, Yao Peng. Theoretical research of decision-making point in air combat based on hidden markov model. Journal of Beijing University of Aeronautics and Astronsutics (Natural Science Edition), 2017, 43(3): 615−626 [13] 何旭, 景小宁, 冯超. 基于蒙特卡洛树搜索方法的空战机动决策. 空军工程大学学报(自然科学版), 2017, 18(5): 36−41He Xu, Jing Xiao-Ning, Feng Chao. Air combat maneuver decision based on MCTS method. Journal of Air Force Engineering University (Natural Science Edition), 2017, 18(5): 36−41 [14] Nelson R L, Rafal Z. Effectiveness of autonomous decision making for unmanned combat aerial vehicles in dogfight engagements. Journal of Guidance Control and Dynamics, 2018, 41(4): 1021−1024 doi: 10.2514/1.G002937 [15] 徐光大, 吕超, 王光辉, 谢宇鹏. 基于双矩阵对策的UCAV空战自主机动决策研究. 舰船电子工程, 2017, 37(11): 24−28 doi: 10.3969/j.issn.1672-9730.2017.11.007Xu Guang-Da, Lv Chao, Wang Guang-Hui, Xie Yu-Peng. Research on UCAV autonomous air combat maneuvering decision-making based on bi-matrix game. Ship Electronic Engineering, 2017, 37(11): 24−28 doi: 10.3969/j.issn.1672-9730.2017.11.007 [16] Amnon K. Tree lookahead in air combat. Journal of Aircraft, 2015, 31(4): 970−973 [17] Ma Y F, Ma X L, Song X, Fei M R. A case study on air combat decision using approximated dynamic programming. Mathematical Problems in Engineering, 2014 (2014): 183401 [18] Chen M, Zhou Z Y, Tomlin C J. Multiplayer reach-avoid games via low dimensional solutions and maximum matching. In: Proceeding of the 2014 American Control Conference. Piscataway, USA: IEEE, 2014. 1443−1449 [19] 欧建军, 张安. 不确定环境下协同空战目标分配模型. 火力与指挥控制, 2020, 45(5): 115−118 doi: 10.3969/j.issn.1002-0640.2020.05.021Ou Jian-Jun, Zhang An. Target distribution model in cooperative air combat under uncertain environment. Fire Control and Command Control, 2020, 45(5): 115−118 doi: 10.3969/j.issn.1002-0640.2020.05.021 [20] 奚之飞, 徐安, 寇英信, 李战武, 杨爱武. 多机协同空战机动决策流程. 系统工程与电子技术, 2020, 42(2): 381−389 doi: 10.3969/j.issn.1001-506X.2020.02.17Xi Zhi-Fei, Xu An, Kou Ying-Xin, Li Zhan-Wu, Yang Ai-Wu. Decision process of multi-aircraft cooperative air combat maneuver. Systems Engineering and Electronics, 2020, 42(2): 381−389 doi: 10.3969/j.issn.1001-506X.2020.02.17 [21] 韩统, 崔明朗, 张伟, 陈国明, 王骁飞. 多无人机协同空战机动决策. 兵器装备工程学报, 2020, 41(04): 117−123 doi: 10.11809/bqzbgcxb2020.04.023Han Tong, Cui Ming-Lang, Zhang Wei, Chen Guo-Ming, Wang Xiao-Fei. Multi-UCAV cooperative air combat maneuvering decision. Journal of Ordnance Equipment Engineering, 2020, 41(04): 117−123 doi: 10.11809/bqzbgcxb2020.04.023 [22] 嵇慧明, 余敏建, 乔新航, 杨海燕, 张帅文. 改进BAS-TIMS算法在空战机动决策中的应用. 国防科技大学学报, 2020, 42(04): 123−133Ji Hui-Ming, Yu Min-Jian, Qiao Xin-Hang, Yang Hai-Yan, Zhang Shuai-Wen. Application of the improved BAS-TIMS algorithm in air combat maneuver decision. Journal of National University of Defense Technology, 2020, 42(04): 123−133 [23] 王炫, 王维嘉, 宋科璞, 王敏文. 基于进化式专家系统树的无人机空战决策技术. 兵工自动化, 2019, 38(01): 42−47Wang Xuan, Wang Wei-Jia, Song Ke-Pu, Wang Min-Wen. UAV air combat decision based on evolutionary expert system tree. Ordnance Industry Automation, 2019, 38(01): 42−47 [24] 周同乐, 陈谋, 朱荣刚, 贺建良. 基于狼群算法的多无人机协同多目标攻防满意决策方法. 指挥与控制学报, 2020, 6(03): 251−256 doi: 10.3969/j.issn.2096-0204.2020.03.0251Zhou Tong-Le, Chen Mou, Zhu Rong-Gang, He Jian-Liang. Attack-defense satisficing decision-making of multi-UAVs cooperative multiple targets based on WPS Algorithm. Journal of Command and Control, 2020, 6(03): 251−256 doi: 10.3969/j.issn.2096-0204.2020.03.0251 [25] 左家亮, 杨任农, 张滢, 李中林, 邬蒙. 基于启发式强化学习的空战机动智能决策. 航空学报, 2017, 38(10): 217−230Zuo Jia-Liang, Yang Ren-Nong, Zhang Ying, Li Zhong-Lin, Wu Meng. Intelligent decision-making in air combat maneuvering based on heuristic reinforcement learning. Acta Aeronautica et Astronautica Sinica, 2017, 38(10): 217−230 [26] 刘树林. 一种评价的新方法. 系统工程理论与实践, 1991, 11(4): 63−66Liu Shu-Lin. A new method of evaluation. Systems Engineering-Theory and Practice, 1991, 11(4): 63−66 [27] Zhang H P, Huang C Q, Zhang Z R, Wang X F, Han B, Wei Z L, et al. The trajectory generation of UCAV evading missiles based on neural networks. Journal of Physics Conference Series, 2020, 1486(2020): 022025 [28] Teng T H, Tan A H, Tan Y S, Yeo A. Self-organizing neural networks for learning air combat maneuvers. In: Proceeding of the 2012 International Joint Conference on Neural Networks. Piscataway, USA: IEEE, 2012. 2858−2866 [29] 孟光磊, 马晓玉, 刘昕, 徐一民. 基于混合动态贝叶斯网的无人机空战态势评估. 指挥控制与仿真, 2017, 39(04): 1−6, 39 doi: 10.3969/j.issn.1673-3819.2017.04.001Meng Guang-Lei, Ma Xiao-Yu, Liu Xin, Xu Yi-Min. Situation assessment for unmanned aerial vehicles air combat based on hybrid dynamic Bayesian network. Command Control and Simulation, 2017, 39(04): 1−6, 39 doi: 10.3969/j.issn.1673-3819.2017.04.001 [30] 杨爱武, 李战武, 徐安, 奚之飞, 常一哲. 基于加权动态云贝叶斯网络空战目标威胁评估. 飞行力学, 2020, 38(04): 87−94Yang Ai-Wu, Li Zhan-Wu, Xu An, Xi Zhi-Fei, Chang Yi-Zhe. Threat level assessment of the air combat target based on weighted cloud dynamic Bayesian network. Flight Dynamics, 2020, 38(04): 87−94 [31] Yang Q, Zhang J, Shi G, Wu Y. Maneuver decision of UAV in short-range air combat based on deep reinforcement learning. IEEE Access, 2019, PP(99): 1−1 [32] Liu P, Ma Y. A deep reinforcement learning based intelligent decision method for UCAV air combat. In: Proceeding of the 2017 Asian Simulation Conference. Berlin, Germany: Springer, 2017. 274−286 [33] Zhou Y N, Ma Y F, Song X, Gong G H. Hierarchical fuzzy ART for Q-learning and its application in air combat simulation. International Journal of Modeling Simulation and Scientific Computing, 2017, 8(04): 1750052 doi: 10.1142/S1793962317500520 [34] Schulman J, Wolski F, Dhariwal P, Radford A, Klimov O. Proximal policy optimization algorithms [Online], available: https://arxiv.org/abs/1707.06347v2, August 28, 2017 [35] Mnih V, Kavukcuoglu K, Silver D, Rusu A A, Veness J, Bellemare M G, et al. Human-level control through deep reinforcement learning. Nature, 2015, 518(7540): 529−533 doi: 10.1038/nature14236 [36] Silver D, Schrittwieser J, Simonyan K, Antonoglou I, Huang A, Guez A, et al. Mastering the game of go without human knowledge. Nature, 2017, 550(7676): 354−359 doi: 10.1038/nature24270 [37] Conde R, Llata J R, Torre-Ferrero C. Time-varying formation controllers for unmanned aerial vehicles using deep reinforcement learning [Online], available: https://arxiv.org/abs/1706.01384, June 5, 2017 [38] Shalev-Shwartz S, Shammah S, Shashua A. Safe, multi-agent, reinforcement learning for autonomous driving [Online], available: https://arxiv.org/abs/1610.03295, October 11, 2016 [39] Su P H, Gasic M, Mrksic N, Rojas-Barahona L, Ultes S, Vandyke D, et al. On-line active reward learning for policy optimization in spoken dialogue systems [Online], available: https://arxiv.org/abs/1605.07669v2, June 2, 2016 [40] Schulman J, Levine S, Abbeel P, Jordan M, Moritz P. Trust region policy optimization [Online], available: https://arxiv.org/abs/1502.05477, April 20, 2017 期刊类型引用(59)
1. 孙懿豪,闫超,相晓嘉,唐邓清,周晗,姜杰. 基于分层强化学习的多无人机协同围捕方法. 控制理论与应用. 2025(01): 96-108 . 百度学术
2. 张凯翔,毛剑琳,宣志玮,向凤红,付丽霞. 面向关隘地形的分层调度多机器人路径规划. 计算机集成制造系统. 2024(01): 172-183 . 百度学术
3. 王若冰,王晓芳. 一种结合MADDPG和对比学习的无人机追逃博弈方法. 宇航学报. 2024(02): 262-272 . 百度学术
4. 袁婷帅,冯宇,李永强. 结合先验知识的多智能体博弈对抗研究. 高技术通讯. 2024(03): 256-264 . 百度学术
5. 高敬鹏,王国轩,高路. 基于异步合作更新的LSTM-MADDPG多智能体协同决策算法. 吉林大学学报(工学版). 2024(03): 797-806 . 百度学术
6. 陈灵敏,冯宇,李永强. 基于距离信息的追逃策略:信念状态连续随机博弈. 自动化学报. 2024(04): 828-840 . 本站查看
7. Delin Luo,Zihao Fan,Ziyi Yang,Yang Xu. Multi-UAV cooperative maneuver decision-making for pursuitevasion using improved MADRL. Defence Technology. 2024(05): 187-197 . 必应学术
8. 祝靖宇,张宏立,匡敏驰,史恒,朱纪洪,乔直,周文卿. 稀疏奖励下基于课程学习的无人机空战仿真. 系统仿真学报. 2024(06): 1452-1467 . 百度学术
9. 彭莉莎,孙宇祥,薛宇凡,周献中. 融合三支多属性决策与SAC的兵棋推演智能决策技术. 系统工程与电子技术. 2024(07): 2310-2322 . 百度学术
10. 孙怡峰,李智,吴疆,王玉宾. 作战方案驱动的可学习兵棋推演智能体研究. 系统仿真学报. 2024(07): 1525-1535 . 百度学术
11. 杨洋,王烨,康大勇,陈嘉玉,李姜,赵华栋. 基于强化学习的多智能体协同电子对抗方法. 兵器装备工程学报. 2024(07): 1-10 . 百度学术
12. 张耐民,蔡秉辰,于浛,刘海阔. 基于多智能体强化学习的对抗博弈技术综述. 海军航空大学学报. 2024(04): 395-410 . 百度学术
13. Ershen WANG,Fan LIU,Chen HONG,Jing GUO,Lin ZHAO,Jian XUE,Ning HE. MADRL-based UAV swarm non-cooperative game under incomplete information. Chinese Journal of Aeronautics. 2024(06): 293-306 . 必应学术
14. 李文韬,方峰,王振亚,朱奕超,彭冬亮. 引入混合超网络改进MADDPG的双机编队空战自主机动决策. 航空学报. 2024(17): 221-235 . 百度学术
15. 赵静,裴子楠,姜斌,陆宁云,赵斐,陈树峰. 基于深度强化学习的无人机虚拟管道视觉避障. 自动化学报. 2024(11): 2245-2258 . 本站查看
16. 唐磊,冀春雷,苏航. 基于对比综合评价的预警探测效能评估方法. 计算机与数字工程. 2024(11): 3233-3236+3338 . 百度学术
17. 候磊,贾贝熙,杜子亮,张鹏,王田宇. 深度强化学习在无人机智能控制中的应用研究. 战术导弹技术. 2024(06): 107-117 . 百度学术
18. 周文卿,朱纪洪,匡敏驰,史恒. 基于预知博弈树的多无人机群智协同空战算法. 中国科学:技术科学. 2023(02): 187-199 . 百度学术
19. 陶鑫钰,王艳,纪志成. 基于深度强化学习的节能工艺路线发现方法. 智能系统学报. 2023(01): 23-35 . 百度学术
20. 杨静,王晓,王雨桐,刘忠民,李小双,王飞跃. 平行智能与CPSS:三十年发展的回顾与展望. 自动化学报. 2023(03): 614-634 . 本站查看
21. 包战,张驭龙,朱松岩,王春光,刘忠. 智能临机规划技术要点研究. 国防科技. 2023(01): 112-118 . 百度学术
22. 徐浩添,秦龙,曾俊杰,胡越,张琪. 基于深度强化学习的对手建模方法研究综述. 系统仿真学报. 2023(04): 671-694 . 百度学术
23. 张严心,孔涵,殷辰堃,王子豪,黄志清. 一类基于概率优先经验回放机制的分布式多智能体软行动-评论者算法. 北京工业大学学报. 2023(04): 459-466 . 百度学术
24. 周攀,黄江涛,章胜,刘刚,舒博文,唐骥罡. 基于深度强化学习的智能空战决策与仿真. 航空学报. 2023(04): 99-112 . 百度学术
25. 王雪柯,陈晋音,陆小松,张旭鸿. 结合模仿对抗策略的深度强化学习鲁棒性增强方法. 小型微型计算机系统. 2023(05): 930-938 . 百度学术
26. 尹奇跃,赵美静,倪晚成,张俊格,黄凯奇. 兵棋推演的智能决策技术与挑战. 自动化学报. 2023(05): 913-928 . 本站查看
27. 耿远卓,袁利,黄煌,汤亮. 基于终端诱导强化学习的航天器轨道追逃博弈. 自动化学报. 2023(05): 974-984 . 本站查看
28. 张磊,李姜,侯进永,高远,王烨. 基于改进强化学习的多无人机协同对抗算法研究. 兵器装备工程学报. 2023(05): 230-238 . 百度学术
29. 章胜,周攀,何扬,黄江涛,刘刚,唐骥罡,贾怀智,杜昕. 基于深度强化学习的空战机动决策试验. 航空学报. 2023(10): 122-135 . 百度学术
30. 黄旭,柳嘉润,贾晨辉,骆无意,巩庆海,冯明涛. 强化学习控制方法及在类火箭飞行器上的应用. 宇航学报. 2023(05): 708-718 . 百度学术
31. 李远征,郝国凯,杨东升,赵勇,周杰韩,曾志刚. 基于深度强化学习与演化计算的风-水-火混合增强智能调度. 中国科学:技术科学. 2023(07): 1097-1113 . 百度学术
32. 郭亚楠,曹小群,任燕,张源原,路欢,黄国辉,彭柯澄. 空战模拟训练智能化研究. 兵工自动化. 2023(07): 10-15 . 百度学术
33. 张凯翔,毛剑琳,向凤红,宣志玮. 基于讨价还价博弈机制的B-IHCA*多机器人路径规划算法. 自动化学报. 2023(07): 1483-1497 . 本站查看
34. 史洪岩,付国城,潘多涛. 基于近端策略优化和广义状态相关探索算法的双连续搅拌反应釜系统跟踪控制. 信息与控制. 2023(03): 343-351 . 百度学术
35. 叶海军,王国峰,冯志勇. 有人无人网络化信息系统动态协同技术研究. 通信学报. 2023(07): 185-196 . 百度学术
36. 罗俊仁,张万鹏,项凤涛,蒋超远,陈璟. 智能推演综述:博弈论视角下的战术战役兵棋与战略博弈. 系统仿真学报. 2023(09): 1871-1894 . 百度学术
37. 郭晓东,郝思达,王丽芳. 基于深度强化学习的车辆边缘计算任务卸载方法. 计算机应用研究. 2023(09): 2803-2807+2814 . 百度学术
38. 王国强,陈宇轩,马滢滢,蒋儒浩,王浩丞,罗贺. 多无人机协同空战任务规划仿真系统. 兵器装备工程学报. 2023(09): 1-10 . 百度学术
39. 胡易航,裘旭益,张彦,袁伟伟. 样本级实时空中格斗决策可解释模型研究. 小型微型计算机系统. 2023(11): 2591-2596 . 百度学术
40. 章乐贵,曹雷,陈希亮,汤伟,王军,张启阳. 智能蓝军作战行为决策模型优化技术研究. 火力与指挥控制. 2023(11): 17-24 . 百度学术
41. 李荣森,李志强,曹毅,司光亚. 基于总线的兵棋推演实时数据采集管理设计与实现. 指挥控制与仿真. 2023(06): 102-111 . 百度学术
42. 李亚飞,高磊,蒿宏杰,靳远远,王可,徐明亮. 舰载机保障作业人机协同决策方法. 中国科学:信息科学. 2023(12): 2493-2510 . 百度学术
43. 庄水管,庄哲明,翟远钊,戴建生. 多智能体通信中的消息聚合策略多样化研究. 实验室研究与探索. 2023(10): 136-139+195 . 百度学术
44. 徐佳,胡春鹤. 分布式多经验池的无人机自主避碰方法. 信息与控制. 2023(04): 432-443 . 百度学术
45. 曹子建,孙泽龙,闫国闯,傅妍芳,杨博,李秦洁,雷凯麟,高领航. 基于强化学习的无人机集群对抗策略推演仿真. 兵工学报. 2023(S2): 126-134 . 百度学术
46. 陈浩,黄健,刘权,周思航,张中杰. 自主空战机动决策技术研究进展与展望. 控制理论与应用. 2023(12): 2104-2129 . 百度学术
47. 王哲超,傅启明,陈建平,胡伏原,陆悠,吴宏杰. 小样本场景下的强化学习研究综述. 南京师范大学学报(工程技术版). 2022(01): 86-92 . 百度学术
48. 郭洪宇,初阳,刘志,周玉芳. 基于深度强化学习潜艇攻防对抗训练指挥决策研究. 指挥控制与仿真. 2022(01): 103-111 . 百度学术
49. 殷宇维,王凡,吴奎,胡剑秋. 基于改进DDPG的空战行为决策方法. 指挥控制与仿真. 2022(01): 97-102 . 百度学术
50. 齐一萌,金龙. 从集中式到分布式的赢者通吃网络:回顾与展望. 无线电通信技术. 2022(02): 203-212 . 百度学术
51. 邱潇颀,高长生,荆武兴. 拦截大气层内机动目标的深度强化学习制导律. 宇航学报. 2022(05): 685-695 . 百度学术
52. 刘健,顾扬,程玉虎,王雪松. 基于多智能体强化学习的乳腺癌致病基因预测. 自动化学报. 2022(05): 1246-1258 . 本站查看
53. 宋佰霖,许华,齐子森,饶宁,彭翔. 一种基于深度强化学习的协同通信干扰决策算法. 电子学报. 2022(06): 1301-1309 . 百度学术
54. 孙宇祥,彭益辉,李斌,周佳炜,张鑫磊,周献中. 智能博弈综述:游戏AI对作战推演的启示. 智能科学与技术学报. 2022(02): 157-173 . 百度学术
55. 牟轩庭,张宏军,廖湘琳,章乐贵. 规则引导的智能体决策框架. 计算机技术与发展. 2022(10): 156-163 . 百度学术
56. 单圣哲,杨孟超,张伟伟,高传强. 自主空战连续决策方法. 航空工程进展. 2022(05): 47-58 . 百度学术
57. 谢俊伟,方峰,彭冬亮,任金磊,王昌平. 融合多属性决策和深度Q值网络的反导火力分配方法. 电子与信息学报. 2022(11): 3833-3841 . 百度学术
58. 王尔申,刘帆,宏晨,郭靖,何宁,赵琳,薛健. 基于MASAC的无人机集群对抗博弈方法. 中国科学:信息科学. 2022(12): 2254-2269 . 百度学术
59. 王欢,周旭,邓亦敏,刘小峰. 分层决策多机空战对抗方法. 中国科学:信息科学. 2022(12): 2225-2238 . 百度学术
其他类型引用(34)
-