2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

异策略深度强化学习中的经验回放研究综述

胡子剑 高晓光 万开方 张乐天 汪强龙 NERETIN Evgeny

林圣琳, 李伟, 杨明, 马萍. 考虑相关性的多元输出仿真模型验证方法. 自动化学报, 2019, 45(9): 1666-1678. doi: 10.16383/j.aas.c180456
引用本文: 胡子剑, 高晓光, 万开方, 张乐天, 汪强龙, NERETIN Evgeny. 异策略深度强化学习中的经验回放研究综述. 自动化学报, 2023, 49(11): 2237−2256 doi: 10.16383/j.aas.c220648
LIN Sheng-Lin, LI Wei, YANG Ming, MA Ping. Multivariate Validation Method Under Correlation for Simulation Model. ACTA AUTOMATICA SINICA, 2019, 45(9): 1666-1678. doi: 10.16383/j.aas.c180456
Citation: Hu Zi-Jian, Gao Xiao-Guang, Wan Kai-Fang, Zhang Le-Tian, Wang Qiang-Long, Neretin Evgeny. Research on experience replay of off-policy deep reinforcement learning: A review. Acta Automatica Sinica, 2023, 49(11): 2237−2256 doi: 10.16383/j.aas.c220648

异策略深度强化学习中的经验回放研究综述

doi: 10.16383/j.aas.c220648
基金项目: 国家自然科学基金(62003267, 61573285), 中央高校基本科研业务费专项资金(G2022KY0602), 电磁空间作战与应用重点实验室(2022ZX0090), 西安市科技计划项目 —— 关键核心技术攻关工程项目计划(21RGZN0016), 陕西省重点研发计划项目(2023-GHZD-33)资助
详细信息
    作者简介:

    胡子剑:西北工业大学电子信息学院博士研究生. 2018 年获得西北工业大学探测制导与控制技术学士学位. 主要研究方向为强化学习理论与应用. E-mail: huzijian@mail.nwpu.edu.cn

    高晓光:西北工业大学电子信息学院教授. 1989 年获得西北工业大学系统工程博士学位. 主要研究方向为机器学习理论, 贝叶斯网络理论和多智能体控制应用. E-mail: cxg2012@nwpu.edu.cn

    万开方:西北工业大学电子信息学院副研究员. 2016 年获得西北工业大学系统工程博士学位. 主要研究方向为多智能体理论, 近似动态规划和强化学习. 本文通信作者. E-mail: wankaifang@nwpu.edu.cn

    张乐天:西安电子科技大学外国语学院硕士研究生. 主要研究方向为科技翻译, 翻译理论和机器翻译. E-mail: 22091213382@stu.xidian.edu.cn

    汪强龙:西北工业大学电子信息学院博士研究生. 主要研究方向为深度学习, 强化学习. E-mail: wql1995@mail.nwpu.edu.cn

    NERETIN Evgeny:莫斯科航空学院教授. 2011年获得莫斯科航空学院技术科学博士学位. 主要研究方向为航空电子, 智能决策. E-mail: evgeny.neretin@gmail.com

Research on Experience Replay of Off-policy Deep Reinforcement Learning: A Review

Funds: Supported by National Natural Science Foundation of China (62003267, 61573285), the Fundamental Research Funds for the Central Universities (G2022KY0602), the Technology on Electromagnetic Space Operations and Applications Laboratory (2022ZX0090), the Key Core Technology Research Plan of Xi'an (21RGZN0016), and the Key Research and Development Program of Shaanxi Province (2023-GHZD-33)
More Information
    Author Bio:

    HU Zi-Jian Ph.D. candidate at the School of Electronics and Information, Northwestern Polytechnical University. He received his bachelor degree in detection guidance and control technology from Northwestern Polytechnical University in 2018. His research interest covers reinforcement learning theory and applications

    GAO Xiao-Guang Professor at the School of Electronics and Information, Northwestern Polytechnical University. She received her Ph.D. degree in system engineering from Northwestern Polytechnical University in 1989. Her research interest covers machine learning theory, Bayesian network theory, and multi-agent control application

    WAN Kai-Fang Associate researcher at the School of Electronics and Information, Northwestern Polytechnical University. He received his Ph.D. degree in system engineering from Northwestern Polytechnical University in 2016. His research interest covers multi-agent theory, approximate dynamic programming, and reinforcement learning. Corresponding author of this paper

    ZHANG Le-Tian Master student at the School of Foreign Languages, Xidian University. Her research interest covers scientific translation, translation theory, and machine translation

    WANG Qiang-Long Ph.D. candidate at the School of Electronics and Information, Northwestern Polytechnical University. His research interest covers deep learning and reinforcement learning

    NERETIN Evgeny Professor of Moscow Aviation Institute. He received his Ph.D. degree in technical sciences from Moscow Aviation Institute in 2011. His research interest covers avionics and intelligent decision-making

  • 摘要: 作为一种不需要事先获得训练数据的机器学习方法, 强化学习(Reinforcement learning, RL)在智能体与环境的不断交互过程中寻找最优策略, 是解决序贯决策问题的一种重要方法. 通过与深度学习(Deep learning, DL)结合, 深度强化学习(Deep reinforcement learning, DRL)同时具备了强大的感知和决策能力, 被广泛应用于多个领域来解决复杂的决策问题. 异策略强化学习通过将交互经验进行存储和回放, 将探索和利用分离开来, 更易寻找到全局最优解. 如何对经验进行合理高效的利用是提升异策略强化学习方法效率的关键. 首先对强化学习的基本理论进行介绍; 随后对同策略和异策略强化学习算法进行简要介绍; 接着介绍经验回放(Experience replay, ER)问题的两种主流解决方案, 包括经验利用和经验增广; 最后对相关的研究工作进行总结和展望.
  • 目前建模与仿真技术已成为人们认识和改造现实世界的重要手段.由于仿真是一种基于模型的活动, 仿真模型是否可信成为用户十分关注的问题.验证是仿真模型可信度评估的重要步骤[1], 包含概念模型验证和结果验证.仿真结果验证最直接而有效的方法是, 在相同输入条件下度量仿真输出与参考输出数据之间的一致性程度.然而, 针对复杂系统建立的仿真模型往往具有不确定性、多元异类(动、静态)输出, 且各输出变量间可能存在相关性, 此时, 若仍采用传统仿真结果验证方法将导致验证结果不准确.因此, 考虑相关性及不确定性的多元输出仿真结果验证是需要重点研究的问题.

    由于仿真模型和参考系统的输入及模型参数通常含有不确定性, 加之仿真模型运行和实际实验过程中引入的不确定性因素和误差, 导致仿真模型和参考系统的输出为随机变量或不确定的时间序列[2].考虑不确定性的影响, 静态输出结果验证方法的研究多数集中在概率框架, 形成了以参数估计[3-5]、假设检验[6-7]、贝叶斯因子[8-10]、证据距离[11]、概率分布差异法[12-13]为代表的5种解决方案.其中, Oberkampf等针对参考数据稀疏的情况, 采用插值和回归分析的方法估计参考输出的均值和标准差, 并与仿真输出的相应统计量进行对比, 得到置信区间形式的验证结果[5]; 同时, 假设检验和贝叶斯因子方法在静态仿真输出结果验证中的应用日趋完善, Jiang等将贝叶斯区间假设检验应用于模型的分等级评估中[14]; 考虑到固有和认知不确定性的影响, 文献[11]采用证据理论对动静态输出进行描述, 并引入证据距离度量仿真和参考输出的一致性; Ferson等提出了概率分布差异与u-pooling相结合的方法, 用于处理稀疏参考数据情况下的单输出仿真结果验证问题[12], 该方法以其原理简单、可操作性强等优点得到了广泛应用.

    考虑不确定性的同时, 复杂仿真模型可能存在多个输出变量的情况, 且各变量间可能存在函数或相关关系.在单变量静态输出结果验证方法的基础上, 针对多元输出仿真结果验证方法的研究取得了一定的进展.例如, Rebba等最先提出了假设检验、贝叶斯因子与协方差相结合的多元输出结果验证方法, 并引入了非正态验证数据转化为正态数据的方法以满足假设检验的条件[15]; Jiang等将区间贝叶斯因子方法进行推广, 将其应用至多元静态输出结果验证问题中[16]; Zhan等提出了基于概率主成分分析(Probabilistic principal component analysis, PPCA)与贝叶斯因子相结合的方法, 用于解决带有不确定性和相关性的多元动态输出结果验证问题[17].同时, Li等将概率积分变换(Probability integral transformation, PIT)与概率分布差异法相结合, 将多变量累积概率分布转化为单变量概率分布的形式, 采用概率分布差异法计算仿真和参考输出累积概率分布的差异[18]; Zhao等分别计算仿真和参考输出与相应总体分布的马氏距离, 进而得到仿真和参考输出马氏距离的累积概率分布, 并应用概率分布差异法计算两者的差异[19].

    从单变量验证到多变量验证, 各变量间的关系是研究的重点, 现有验证方法存在验证结果不够准确和全面的问题.利用传统单变量验证(或结合多种预处理方法)对各变量进行分别验证再综合, 一是对带有相关性的多个验证结果进行加权综合导致最终验证结果不够准确; 二是未考虑多变量间相关性的验证将导致验证结果不全面.此外, 对复杂仿真模型进行结果验证, 其输出变量间的关系不够明确.此时需首先明确输出变量间的关系(独立/函数/相关关系)再进行验证, 现有的多变量验证方法仅适用于变量间关系已知的情况.同时, 多变量验证方法均利用协方差矩阵度量变量间的相关性, 这对非线性等其他相关关系将不再适用, 导致多变量间相关性度量不够准确.

    为解决上述问题, 提出基于变量选择和概率分布差异相结合的多元输出仿真结果验证方法, 对具有不确定性的多元异类输出进行联合验证.第1节对多元输出结果验证问题进行描述与分析, 指出现有方法存在的问题; 第2节给出多元静、动态输出的相关性分析及变量选择方法; 第3节提出基于数据特征提取和联合概率分布差异的多元输出仿真结果验证方法; 第4节给出应用实例与对比实验结果; 第5节给出本文结论.

    用$ {S} $表示系统, $ {S}_{{s}} $和$ {S}_{{r}} $分别表示仿真模型和参考系统, 用$ {\pmb{A}_{{s}}} = \{\pmb{{a}}_{{s1}} $, $ {\pmb{a}}_{{s2}}, \cdots, {\pmb{a}}_{{s}{p}}\} $和$ {\pmb{A}_{{r}}} = \{{\pmb{a}}_{{r1}} $, $ {\pmb{a}}_{{r2}}, \cdots, {\pmb{a}}_{{r}{p}}\} $分别表示仿真模型和参考系统的输入变量集, $ {p} $为输入变量个数, $ {\pmb{Y}\!_{{s}}} = \{{\pmb{y}}_{{s1}} $, $ {\pmb{y}}_{{s2}}, \cdots, {\pmb{y}}_{{s}{m}} $}和$ {\pmb{Y}\!_{{r}}} = \{{\pmb{y}}_{{r1}} $, $ {\pmb{y}}_{{r2}}, \cdots, {\pmb{y}}_{{r}{m}} $}分别表示仿真模型和参考系统的输出变量集, m为输出变量个数, 多元异类输出集$ {\pmb{Y}}\!_{{s}} $、$ {\pmb{Y}}\!_{{r}} $中的静态输出表示为随机变量, 动态输出表示为多个时间序列集合的形式.假设$ {\pmb{y}}_{{s}{i}} $、$ {\pmb{y}}_{{s}{j}} $分别为仿真模型的某一动态和静态输出, 则有

    $ \begin{align} & {{{\pmb{y}}}_{{s}i}} = \left[ \begin{array}{*{35}{l}} y_{{s}i}^{1}({{t}_{1}}) & y_{{s}i}^{1}({{t}_{2}}) & \cdots & y_{{s}i}^{1}({{t}_{N}}) \\ y_{{s}i}^{2}({{t}_{1}}) & y_{{s}i}^{2}({{t}_{2}}) & \cdots & y_{{s}i}^{2}({{t}_{N}}) \\ \ \vdots & \ \vdots & \ddots & \ \vdots \\ y_{{s}i}^{n}({{t}_{1}}) & y_{{s}i}^{n}({{t}_{2}}) & \cdots & y_{{s}i}^{n}({{t}_{N}}) \\ \end{array} \right] \\ & \ \ \ \ \ \ \ \ \ {{{\pmb{y}}}_{{s}j}} = {{\left[ y_{{s}j}^{1}, y_{{s}j}^{2}, \cdots , y_{{s}j}^{n} \right]}^{\rm T}} \end{align} $

    (1)

    式中, $ i, j\in [1, m] $, 且$ i\ne j $; $ \it N $为时间序列的长度; $ {{t}_{1}}, {{t}_{2}}, \cdots , {{t}_{N}} $表示时间序列的时刻点; 考虑不确定性的影响, 需要进行多次仿真和实际实验, $ \it n $为重复实验次数.用$ C\left( {{{\pmb{Y}}}\!_{{s}}}, {{{\pmb{Y}}}\!_{{r}}} \right) $表示在$ {{{\pmb{A}}}_{{s}}} = {{{\pmb{A}}}_{{r}}} $时, $ {{{\pmb{Y}}}\!_{{s}}} $相对于$ {{{\pmb{Y}}}\!_{{r}}} $的一致性程度, 且$ C\left( {{{\pmb{Y}}}\!_{{s}}}, {{{\pmb{Y}}}\!_{{r}}} \right)\in \left( 0, 1 \right] $.当$ {{{\pmb{Y}}}\!_{{s}}} $与$ {{{\pmb{Y}}}\!_{{r}}} $完全一致, 则有$ C\left( {{{\pmb{Y}}}\!_{{s}}}, {{{\pmb{Y}}}\!_{{r}}} \right) = 1 $; 当$ {{{\pmb{Y}}}\!_{{s}}} $相对于$ {{{\pmb{Y}}}\!_{{r}}} $的一致性程度越差, 表示仿真模型越不可信, 则有$ C\left( {{{\pmb{Y}}}\!_{{s}}}, {{{\pmb{Y}}}\!_{{r}}} \right)\to 0 $[1].

    假设$ {\pmb{Y}}\!_{{sJ}}^{{}}\in {{\bf {R}}^{{{n}_{{s}}}\times m}} $与$ {\pmb{Y}}\!_{{rJ}}^{{}}\in {{\bf {R}}^{{{n}_{{r}}}\times m}} $为多元仿真模型和参考系统的静态输出变量, $ {{n}_{{s}}} $、$ {{n}_{{r}}} $表示仿真和实际实验的重复运行次数.针对带有相关性的多元静态输出结果验证方法主要有:

    1) 基于假设检验和马氏距离相结合的方法.文献[16]给出基于似然比检验和马氏距离相结合的验证方法, 得到最终一致性结果.

    2) 基于主成分分析的方法[17].对$ {\pmb{Y}}\!_{{sJ}}^{{}} $和$ {\pmb{Y}}\!_{{rJ}}^{{}} $进行降维, 去除变量间相关性, 得到新的输出变量$ {\pmb{Y}}\!_{{sJ}}^{{new}} = \left[ y_{{sJ}1}^{{new}}, y_{{sJ2}}^{{new}}, \cdots, y_{{sJ}\eta }^{{new}} \right] $和$ {\pmb{Y}}\!_{{rJ}}^{{new}} = \left[ y_{{rJ}1}^{{new}}, y_{{rJ2}}^{{new}}, \cdots, y_{{rJ}\eta }^{{new}} \right] $, $ \eta \le m $为主成分的个数, 而后采用现有静态输出验证方法对若干主成分进行逐一验证并综合得到最终验证结果.

    3) 基于概率分布差异的方法[18].分别计算m维$ {\pmb{Y}}\!_{{sJ}}^{{}} $和$ {\pmb{Y}}\!_{{rJ}}^{{}} $的联合累积概率分布(Cumulative distribution function, CDF)函数并作差, 获得仿真和参考输出数据的差异, 得到$ \left[ 0, +\infty \right) $的误差度量结果.

    针对带有相关性的多元动态输出结果验证问题, 常用方法为基于数据特征和主成分分析相结合的方法[17].首先分别提取动态输出数据的特征矩阵, 而后采用基于主成分分析的多元静态输出验证方法获得最终验证结果.针对上述多元输出仿真结果验证方法进行分析, 存在以下问题需要进一步研究:

    1) 复杂仿真模型常存在多元输出变量间的相关或独立关系未知的情况, 目前方法均是在变量关系已知的前提下进行研究, 存在一定局限性;

    2) 利用主成分分析获取的多元输出变量的主成分是线性变换后的结果, 被提取主成分所代表的变量含义不够明确, 同时对多元输出变量进行降维将导致验证信息丢失, 使验证结果不够准确和全面;

    3) 采用协方差矩阵度量变量相关性, 需假设变量样本服从正态分布, 且仅能描述多元输出变量间的线性关系, 无法度量变量间非线性等其他相关关系, 进而导致变量间相关性度量不准确;

    4) 基于联合概率分布差异法可直接度量多元静态输出变量间的差异, 需要已知变量间的独立或相关关系, 同时, 处理多元动态输出存在局限, 得到的差异度量结果无法刻画仿真模型的可信度.

    为解决上述问题, 可采用基于变量选择和概率分布差异相结合的多元输出仿真结果验证方法, 考虑不确定性的影响, 对选取到具有相关性的多变量进行联合验证.首先, 引入变量选择方法分别对$ {{{\pmb{Y}}}\!_{{s}}} $、$ {{{\pmb{Y}}}\!_{{r}}} $进行相关性分析, 提取相关变量子集(又称相关变量组, 子集中各变量是相关的, 各子集中变量数的和为输出变量总数), 进而得到多个独立的变量子集; 同时, 提取相同变量子集中多变量的数据特征, 对于静态输出选取数据本身作为变量特征, 对于动态输出选取距离、形状以及频谱特征; 而后计算变量子集中多个变量关于某特征的联合CDF差异, 并将其转化为可信度; 最后将多个变量子集关于若干数据特征的一致性与多个动态输出均值曲线的一致性进行综合得到仿真模型可信度.

    为明确复杂仿真模型中多元输出变量间的独立或相关关系, 引入数据挖掘领域的相应方法对多变量进行相关性分析, 进而提取相关变量子集.本文仅考虑同种类型(静态或动态)输出变量间的相关性, 利用分形维数和互信息方法分别对静、动态输出变量进行相关性分析.

    对随机变量的相关性分析集中于Pearson相关系数, 它仅能度量变量的线性关系, 并对变量间强相关性较敏感, 其结果受奇异值的影响较大, 无法适应具有非线性、不确定性以及非正态分布的数据集.其他一些相关系数, 如Kendall系数、Spearman系数等虽可以描述非线性相关关系, 但却不能完整地刻画变量间的相关性结构.此外, 数据挖掘领域常用的变量选择方法, 如奇异值分解法(Singular value decomposition, SVD)、主成分分析法(Principal component analysis, PCA)、基于神经网络的方法(Neural networks, NN)、基于k-邻近方法(K-nearest neighbor, KNN)、基于决策树的方法(Decision tree, DT)、基于贝叶斯网络的方法(Bayesian network, BN)以及基于分形维数的方法(Fractal dimension, FD)等, 具有不同的特点, 对其进行对比分析如表 1所示.

    表 1  常用变量选择方法对比
    Table 1  Comparison of general variable selection methods
    变量选择方法 是否为原变量集的子集 是否支持非线性相关关系 个体决策所占比例 是否需要训练样本集 运行速度与变量个数的关系
    SVD 线性增长
    PCA 线性增长
    KNN 指数增长
    DT 指数增长
    BN 指数增长
    FD 线性增长
    下载: 导出CSV 
    | 显示表格

    表 1可知, SVD和PCA方法得到的变量子集失去了其原有的含义, 且只能对具有线性相关性的变量集进行分析; 而基于机器学习的方法需要训练样本集作为支撑, 其运行速度受到变量个数的影响较大, 导致变量个数较多时运行速度较慢; 而基于分形维数的方法不仅能够度量线性相关性, 还能度量非线性等其他相关关系, 具有不需要训练样本集和运行速度快等优点.因此, 本文引入基于分形维数[20]的方法对多元输出变量进行分析, 提取相关变量子集.假设$ {\pmb{Y}}\!_{{sJ}}^{{}} $、$ {\pmb{Y}}\!_{{rJ}}^{{}} $为仿真和参考多元静态输出变量集, 以$ y_{{sJ}}^{i} $, $ i\in \left[ 1, m \right] $为例给出$ {\pmb{Y}}\!_{{sJ}}^{{}} $的相关变量子集提取步骤如下.

    步骤1. 根据自相似性原理计算$ y_{{sJ}}^{i} $的局部固有维度$ pD\left( \cdot \right) $:

    $ \begin{equation} pD(y_{{sJ}}^{i})\equiv \frac{\partial \log \left( \sum\limits_{i}{C_{a, i}^{2}} \right)}{\partial \log \left( a \right)}, \ \ \ \ a\in \left[ {{a}_{1}}, {{a}_{2}} \right] \end{equation} $

    (2)

    式中, r表示将$ y_{{sJ}}^{i} $划分成$ {{2}^{\upsilon }} $个相等大小区间的长度, $ \upsilon $为划分深度, $ {{C}_{a, i}} $表示$ y_{{sJ}}^{i} $中落入第i个区间的样本个数;

    步骤2. 设$ c = 1 $, 移除$ {\pmb{Y}}\!_{{sJ}} $中$ pD(y_{{sJ}}^{i})<\xi $的变量$ y_{{sJ}}^{i} $, $ \xi $为预定义的固有维度阈值, 排除的变量为独立变量, 并按照$ pD\left(\cdot \right) $大小将$ y_{{sJ}}^{i} $进行降序排列, 形成新变量集$ {\pmb{Y}}\!_{{sJ}}^{\prime} $, 其变量个数为$ {m}' $;

    步骤3. 计算$ pD\left( \left\{ y_{{sJ}}^{1} \right\} \right), pD\left( \left\{ y_{{sJ}}^{1}, y_{{sJ}}^{2} \right\} \right), \cdots $, 直到$ \left| pD\left( \left\{ y_{{sJ}}^{1}\cdot y_{{sJ}}^{k} \right\} \right)-pD\left( \left\{ y_{{sJ}}^{1}\cdot y_{{sJ}}^{k-1} \right\} \right) \right|<\xi \cdot pD\left( y_{{sJ}}^{k} \right) $, $ k = 1, 2, \cdots, {m}' $;

    步骤4. 若$ k = {m}' $且$ \left| pD\left( \left\{ y_{{sJ}}^{1}\cdot y_{{sJ}}^{k} \right\} \right)- \right. $ $ \left.pD\left\{ \left( y_{{sJ}}^{1} \cdot y_{{sJ}}^{k-1} \right\} \right) \right|\ge \xi \cdot pD\left( y_{{sJ}}^{k} \right) $, 则算法结束;

    步骤5. 设相关性变量超集$ \xi S{{G}_{c}} = \left\{ y_{{sJ}}^{1}, \cdots , \right. $ $ \left. y_{{sJ}}^{k} \right\} $, 并提取$ \xi S{{G}_{c}} $中的相关变量子集$ \xi {{G}_{c}} $和相关变量基$ \xi {{B}_{c}} $, 具体算法见文献[20], 并设循环变量$ j = k+1 $;

    步骤6. 若$ \left| pD\left( \xi {{B}_{c}}\bigcup \left\{ y_{{sJ}}^{j} \right\} \right)- \right.\left. pD\left( \xi {{B}_{c}} \right) \right|<\xi \cdot pD\left( y_{{sJ}}^{j} \right) $, 则执行下一步, 否则转至步骤8;

    步骤7.        对于$ \xi {{B}_{c}} $中的每个变量$ y_{{sJ}}^{b} $, 若$ \Big| pD\left( \xi {{B}_{c}} \bigcup \left\{ y_{{sJ}}^{j} \right\} \right)-pD\Big( \left( \xi {{B}_{c}}-\left\{ y_{{sJ}}^{b} \right\} \right)\bigcup $ $ \left\{ y_{{sJ}}^{j} \right\} \Big) \Big|<\xi \cdot pD\left( y_{{sJ}}^{b} \right) $和$ \Big| pD\left( \xi {{B}_{c}}\bigcup \left\{ y_{{sJ}}^{b} \right\} \right)- $ $ pD\left( \left( \xi {{B}_{c}}-\left\{ y_{{sJ}}^{b} \right\} \right) \bigcup \left\{ y_{{sJ}}^{j} \right\} \right) \Big|\ge \xi \cdot pD\left( y_{{sJ}}^{j} \right) $同时成立, 则将$ y_{{sJ}}^{j} $加入$ \xi {{G}_{c}} $;

    步骤8. 执行$ j\leftarrow j+1 $, 若$ j>{m}' $, 则转至下一步, 否则转至步骤6;

    步骤9. 移除$ {\pmb{Y}}_{{sJ}}^{\prime} $中$ \xi {{G}_{c}}-\xi {{B}_{c}} $的变量, 并输出相关变量子集$ \xi {{G}_{c}} $和相关变量基$ \xi {{B}_{c}} $;

    步骤10. 执行$ c\leftarrow c+1 $, 并转至步骤3.

    通过上述步骤提取$ {\pmb{Y}}\!_{{sJ}} $和$ {\pmb{Y}}\!_{{rJ}} $的相关变量子集$ {\pmb{G}}_{{sJ}}^{i} $、$ {\pmb{G}}_{{rJ}}^{j} $如下.

    $ \begin{equation} \left\{ \begin{array}{*{35}{l}} {\pmb{G}}_{{sJ}}^{i} = \left[ y_{{sJ}}^{i1}, y_{{sJ}}^{i2}, \cdots , y_{{sJ}}^{i{{m}_{{s}i}}} \right], i = 1, 2, \cdots , {{\beta }_{{s}}} \\ {\pmb{G}}_{{rJ}}^{j} = \left[ y_{{rJ}}^{j1}, y_{{rJ}}^{j2}, \cdots , y_{{rJ}}^{j{{m}_{{r}j}}} \right], j = 1, 2, \cdots , {{\beta }_{{r}}} \\ \end{array} \right. \end{equation} $

    (3)

    式中, $ {{\beta }_{{s}}} $、$ {{\beta }_{{r}}} $分别为提取$ {\pmb{Y}}\!_{{sJ}}^{{}} $和$ {\pmb{Y}}\!_{{rJ}}^{{}} $相关变量子集的个数, $ {{m}_{{s}i}} $、$ {{m}_{{r}j}} $分别为$ {\pmb{G}}_{{sJ}}^{i} $、$ {\pmb{G}}_{{rJ}}^{j} $中变量的个数, 且有$ {{m}_{{s}1}}+{{m}_{{s}2}}+\cdots +{{m}_{{s}i}} = {{m}_{{r}1}}+{{m}_{{r}2}}+\cdots $ +$ {{m}_{{r}j}} = m $.

    与随机变量不同, 多元动态输出变量与时间有关, 其相关性分析与变量选择需从时间序列整体的角度进行分析.一些传统的随机变量相关性分析方法对于多元动态变量同样适用, 例如Pearson系数、Kendall系数、Spearman系数等, 但无法用于动态输出变量具有多个样本(时间序列)的情况.此外, 一些统计学分析方法, 如Granger因果关系分析[21]、典型相关分析[22]、Copula分析[23]、灰色关联分析[24]以及互信息分析[25]等同样能够用于多变量的相关性分析. Granger因果关系分析只能定性地分析变量间的因果关系, 而无法得到定量的结果; 典型相关分析对观测值的顺序不会做出响应, 因此无法解决时间序列问题; Copula分析需要建立在对边缘分布的合理假设之上, 使其应用受到限制; 灰色关联分析仅从形状相关性的角度对时间序列进行分析, 其相关性度量不够全面.

    基于互信息的相关性分析方法能够度量动态输出变量间任意类型的关系, 互信息以信息熵为理论基础, 它能够度量变量取值的不确定性程度, 进而描述变量的信息含量大小[26], 通常用于多种类型时间序列的特征提取和结构化预测[27].然而, 互信息同样存在不能完整刻画变量集相关性结构的缺点, 因此本文引入类可分性和变量可分性提取多元动态输出的相关变量子集[28].假设$ {\pmb{Y}}\!_{{sD}}^{{}} $、$ {\pmb{Y}}\!_{{rD}}^{{}} $为仿真和参考多元动态输出变量集, 同样以$ {\pmb{Y}}\!_{{sD}}^{{}} $为例, 给出变量选择步骤如下.

    步骤1. 计算$ {\pmb{Y}}\!_{{sD}}^{{}} $的$ m\times m $维互信息矩阵, 具体算法见文献[26];

    步骤2. 分别计算每一维变量的类间离散度$ {{\Omega }_{{b}i}} $和类内离散度$ {{\Omega }_{{w}i}} $:

    $ \begin{equation} \left\{\begin{array}{*{35}{l}} {{\Omega }_{{b}i}} = \sum\limits_{i = 1}^{{{C}_{{sam}}}}{{{q}_{i}}\left( {{\mu }_{i}}-\mu \right){{\left( {{\mu }_{i}}-\mu \right)}^{\rm T}}} \\ {{\Omega }_{{w}i}} = \sum\limits_{i = 1}^{{{C}_{{sam}}}}{\sum\limits_{j = 1}^{{{q}_{i}}}{\left( {{\mu }_{i}}-y_{{sD}}^{j} \right){{\left( {{\mu }_{i}}-y_{{sD}}^{j} \right)}^{\rm T}}}} \\ \end{array} \right. \end{equation} $

    (4)

    式中, $ {{C}_{{sam}}} $为样本类别总数, $ {{q}_{i}} $为属于第i类的样本个数, $ \mu = ({{1}}/{{{n}_{{s}}}})\;\sum\nolimits_{i = 1}^{{{n}_{{s}}}}{y_{{sD}}^{i}} $, $ {{\mu }_{i}} = ({{1}}/{{{q}_{i}}})\;\sum\nolimits_{i = 1}^{{{q}_{i}}}{y_{{sD}}^{i}} $.按照每个变量的类可分离性大小, 进行变量排序:

    $ \begin{equation} {{J}_{i}} = \frac{{{\Omega }_{{b}i}}}{{{\Omega }_{{w}i}}}, \quad i = 1, 2, \cdots, m \end{equation} $

    (5)

    步骤3.  取$ {{J}_{i}} $值最大的变量为变量子集$ {\pmb{G}}_{{sD}}^{i} $的第一个变量;

    步骤4.  选择使下式最大的变量为$ {\pmb{G}}_{{sD}}^{i} $的下一个变量:

    $ \begin{equation} \left\{\begin{array}{*{35}{l}} {{J}_{i}} = \frac{{{\Omega }_{{b}i}}+{{\Omega }_{{f}i}}}{{{\Omega }_{{w}i}}} \\ {{\Omega }_{{f}i}} = \frac{1}{\left| {\pmb{G}}_{{sD}}^{i} \right|}\sum\limits_{k = 1}^{\left| {\pmb{G}}_{{sD}}^{i} \right|}{\sum\limits_{o = 1}^{{{C}_{{sam}}}}{{{q}_{ko}}\left( {{\mu }_{o}}-{{\mu }_{ko}} \right)\cdot }} \\ \ \ \ \ \ \ \ \ {{\left( {{\mu }_{o}}-{{\mu }_{ko}} \right)}^{\rm T}} \\ \end{array} \right. \end{equation} $

    (6)

    式中, $ \left| {\pmb{G}}_{{sD}}^{i} \right| $为子集$ {\pmb{G}}_{{sD}}^{i} $的变量个数, $ {{\mu }_{ko}} $为子集$ {\pmb{G}}_{{sD}}^{i} $中属于第$ o $类的第$ k $个变量的均值;

    步骤5. 当$ \left| {\pmb{G}}_{{sD}}^{i} \right| = \varepsilon $, 则算法终止, 其中, $ \varepsilon $为预设值, 否则转至步骤4.通过上述步骤得到相关变量子集$ {\pmb{G}}_{{sD}}^{i} $、$ {\pmb{G}}_{{rD}}^{j} $如下:

    $ \begin{equation} \left\{\begin{array}{*{35}{l}} {\pmb{G}}_{{sD}}^{i} = \left[ y_{{sD}}^{i1}(t), y_{{sD}}^{i2}(t), \cdots , y_{{sD}}^{i{{m}_{{s}i}}}(t) \right] \\ {\pmb{G}}_{{rD}}^{j} = \left[ y_{{rD}}^{j1}(t), y_{{rD}}^{j2}(t), \cdots , y_{{rD}}^{j{{m}_{{r}j}}}(t) \right] \\ \end{array} \right. \end{equation} $

    (7)

    式中, $ i = 1, 2, \cdots , {{\beta }_{{s}}} $, $ j = 1, 2, \cdots , {{\beta }_{{r}}} $. $ {{\beta }_{{s}}} $、$ {{\beta }_{{r}}} $的含义与式(3)相同.

    考虑不确定的影响, 若对每一时刻的多元动态输出变量进行分析势必导致维数爆炸.为此提出基于特征的验证方法, 首先提取用户关注的输出数据特征, 而后计算每个特征下多变量联合概率分布的差异, 并将其转化为可信度结果, 最后综合多个验证结果得到模型可信度.

    针对于静态输出, 选取数据本身作为变量特征.假设$ {{{\pmb{Y}}}\!_{{s}}}\in {{\bf {R}}^{{{n}_{{s}}}\times m}} $与$ {{{\pmb{Y}}}\!_{{r}}}\in {{\bf {R}}^{{{n}_{{r}}}\times m}} $为多元仿真和参考静态输出变量, 其数据特征描述为

    $ \begin{align} \begin{cases} {{\pmb{e}}_{{s}ij}} = {{\left[ {{y}_{{s}ij}} \right]}_{{{n}_{{s}}}\times m}}, i = 1, 2, \cdots , {{n}_{{s}}}\!\!\!\!\\ {{\pmb{e}}_{{r}ij}} = {{\left[ {{y}_{{r}ij}} \right]}_{{{n}_{{r}}}\times m}}, i = 1, 2, \cdots , {{n}_{{r}}}\!\!\!\!\\ \end{cases}, \\j = 1, 2, \cdots, m \end{align} $

    (8)

    对于动态输出$ {{y}_{{s}ij}}(t) $、$ {{y}_{{r}ik}}(t) $, $ i = 1, 2, \cdots , m $, $ j = 1, 2, \cdots , {{n}_{{s}}} $, $ k = 1, 2, \cdots , {{n}_{{r}}} $则选取$ {{n}_{{s}}} $、$ {{n}_{{r}}} $次系统运行得到的输出均值曲线$ {{\bar{y}}_{{s}i}}(t) $、$ {{\bar{y}}_{{r}i}}(t) $作为基准, 与每次实验得到的输出曲线进行对比, 求取相应的均值曲线的第$ l $个特征$ e_{{s}ij}^{l} $、$ e_{{r}ik}^{l} $:

    $ \begin{equation} \left\{ \begin{split} & e_{{s}ij}^{l} = {{\Phi }_{l}}\left( {{{\bar{y}}}_{{s}i}}(t), {{y}_{{s}ij}}(t) \right) \\ & e_{{r}ik}^{l} = {{\Phi }_{l}}\left( {{{\bar{y}}}_{{r}i}}(t), {{y}_{{r}ik}}(t) \right) \\ \end{split} \right., \quad l = 1, 2, \cdots , {{L}_{i}} \end{equation} $

    (9)

    式中, $ {{L}_{i}} $为第i个输出的特征数, $ {{\Phi }_{l}}\left( \cdot \right) $为第l个特征度量模型.

    提取动态输出特征前, 需要先对动态输出进行归类[1].以第j个动态输出的第i次实现$ {{y}_{ij}}\left( t \right) $为例, 其对应的时间变化序列为$ \left[ {{t}_{1}}, {{t}_{2}}, \cdots , {{t}_{N}} \right] $.则定义$ {{y}_{ij}}\left( t \right) $随时间变化的频率为:

    $ \begin{equation} {{F}_{ij}} = \frac{\sum\limits_{k = 1}^{N-1}{\left| \frac{\Delta {{y}_{ij}}\left( {{t}_{k}} \right)}{\Delta {{t}_{k}}} \right|}}{\left| {{{\bar{y}}}_{ij}} \right|} \end{equation} $

    (10)

    式中, $ {{F}_{ij}}\ge 0 $为$ {{y}_{ij}}\left( t \right) $的变化频率; $ \Delta {{y}_{ij}}\left( {{t}_{k}} \right) = {{y}_{ij}}\left( {{t}_{k+1}} \right)-{{y}_{ij}}\left( {{t}_{k}} \right) $; $ \Delta {{t}_{k}} = {{t}_{k+1}}-{{t}_{k}} $; $ \left| {{{\bar{y}}}_{ij}} \right| = {\sum\nolimits_{k = 1}^{N}{\left| {{y}_{ij}}\left( {{t}_{k}} \right) \right|}}/{N}\;\ne 0 $.给定$ {{F}_{0}} $为判断时间序列变化快慢的临界值, 若$ {{F}_{ij}}\ge {{F}_{0}} $, 则认为$ {{y}_{ij}}\left( t \right) $为速变数据, 否则为缓变数据.

    为刻画不确定性对系统输出的影响, 从距离和形状两方面提取缓变数据的特征.在前期工作[29]的基础上, 给出第j个仿真输出的第i次实现$ {{y}_{{s}ij}}\left( t\right) $与其均值曲线$ {{\bar{y}}_{{s}j}}(t) $的距离和形状差异$ e_{{sd}}^{ij} $、$ e_{{sc}}^{ij} $的度量公式如下.

    $ \begin{equation} \left\{ \begin{split} & e_{{sd}}^{ij} = \frac{1}{N}\sqrt{\sum\limits_{t = {{t}_{1}}}^{{{t}_ {N}}}{z^{2}{{\left( t \right)}}}} \\ & e_{{sc}}^{ij} = \frac{1}{N}\sqrt{\sum\limits_{t = {{t}_{1}}}^{{{t}_{N}}}{{{\left( z\left( t \right)-\bar{z} \right)}^{2}}}} \\ \end{split} \right. \end{equation} $

    (11)

    式中, $ z\left( t \right) = y_{{s}ij}^{{}}\left( t \right)-\bar{y}_{{s}j}^{{}}\left( t \right) $, $ t = {{t}_{1}}, {{t}_{2}}, \cdots , {{t}_{N}} $, $ \bar{z} = {\sum\nolimits_{t = {{t}_{1}}}^{{{t}_{N}}}{z\left( t \right)}}/{N}\; $.另外, 选取谱密度特征度量速变数据$ {{y}_{{s}ij}}\left( t \right) $与相应均值曲线$ {{\bar{y}}_{{s}j}}(t) $的差异$ e_{{sh}}^{ij} $, 定义如下.

    $ \begin{equation} e_{{sh}}^{ij} = 1-\frac{\gamma }{{M}} \end{equation} $

    (12)

    式中, $ e_{{sh}}^{ij} $表示速变数据$ {{{\pmb{y}}}_{{s}ij}} $与$ {{\bar{{\pmb{y}}}}}_{{s}j} $的谱密度差异; M表示$ {{y}_{{s}ij}}\left( t \right) $和$ {{\bar{y}}_{{s}j}}(t) $转换至频域中的点数; $ \gamma $表示通过相容性检验的点数.根据式(2)$ \sim $(7)得到$ {{{\pmb{Y}}}\!_{{s}}} $的第i个相关变量子集$ {{{\pmb{G}}}_{{s}i}} $、$ {{{\pmb{Y}}}\!_{{r}}} $的第j个相关变量子集$ {{{\pmb{G}}}_{{r}j}} $关于第l个特征的差异度量矩阵分别为

    $ \begin{align} & {\pmb{E}}_{{s}i}^{l} = \left[ \begin{array}{*{35}{l}} e_{{s}i1}^{l1} & e_{{s}i2}^{l1} & \cdots & e_{{s}i{{m}_{{s}i}}}^{l1} \\ e_{{s}i1}^{l2} & e_{{s}i2}^{l2} & \cdots & e_{{s}i{{m}_{{s}i}}}^{l2} \\ \ \vdots & \ \vdots & \ddots & \ \vdots \\ e_{{s}i1}^{l{{n}_{{s}}}} & e_{{s}i2}^{l{{n}_{{s}}}} & \cdots & e_{{s}i{{m}_{{s}i}}}^{l{{n}_{{s}}}} \\ \end{array} \right] \\ & {\pmb{E}}_{{r}j}^{l} = \left[ \begin{array}{*{35}{l}} e_{{r}j1}^{l1} & e_{{r}j2}^{l1} & \cdots & e_{{r}j{{m}_{{r}j}}}^{l1} \\ e_{{r}j1}^{l2} & e_{{r}j2}^{l2} & \cdots & e_{{r}j{{m}_{{r}j}}}^{l2} \\ \ \vdots & \ \vdots & \ddots & \ \vdots \\ e_{{r}j1}^{l{{n}_{{r}}}} & e_{{r}j2}^{l{{n}_{{r}}}} & \cdots & e_{{r}j{{m}_{{r}j}}}^{l{{n}_{{r}}}} \\ \end{array} \right]\\ \end{align} $

    (13)

    式中, $ i = 1, 2, \cdots , \alpha $, $ j = 1, 2, \cdots , \beta $.若$ {{{\pmb{G}}}_{{s}i}} $和$ {{{\pmb{G}}}_{{r}j}} $均为静态输出变量子集, 则$ {{L}_{i}} = 1 $; 若$ {{{\pmb{G}}}_{{s}i}} $和$ {{{\pmb{G}}}_{{r}j}} $均为缓变输出变量子集, 则$ {{L}_{i}} = 2 $; 若$ {{{\pmb{G}}}_{{s}i}} $和$ {{{\pmb{G}}}_{{r}j}} $均为速变输出变量子集, 则$ {{L}_{i}} = 1 $.需要说明的是, 在某些特殊仿真应用中, 除了上述特征外, 通常还需关注数据本身的一些特征, 例如控制系统阶跃响应中的上升时间、超调量以及稳态误差, 位置数据中的变化趋势, 测量数据中的噪声等.在进行实际验证中, 特征矩阵包含两部分内容, 一部分为上文给出的数据特征, 另一部分为根据具体领域知识确定的数据特征.

    以$ {\pmb{E}}_{{s}i}^{l} $为例进行分析, 用$ \upsilon $维随机变量$ {{x}_{1}}, {{x}_{2}}, \cdots , {{x}_{\upsilon }} $代替其列向量$ \left[ {\pmb{e}}_{{s}i1}^{l}, {\pmb{e}}_{{s}i2}^{l}, \cdots , {\pmb{e}}_{{s}i{{m}_{{s}i}}}^{l} \right] $, $ \upsilon = {{m}_{{s}i}} $, 采用多维随机变量概率分布定义$ {{x}_{1}}, {{x}_{2}}, \cdots , {{x}_{\upsilon }} $的联合CDF:

    $ \begin{align} & F\left( {{x}_{1}}, {{x}_{2}}, \cdots , {{x}_{\upsilon }} \right) = P\Big\{ \left( {{X}_{1}}\le {{x}_{1}} \right) \cup \\ & \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \left( {{X}_{2}}\le {{x}_{2}} \right)\cup \cdots \cup \left( {{X}_{\upsilon }}\le {{x}_{\upsilon }} \right) \Big\} \end{align} $

    (14)

    将$ \upsilon $维空间划分为等尺寸的$ {{\rho }^{\upsilon }} $个区域, 遍历$ \upsilon $维变量的$ \rho $个取值区间, 若$ {{x}_{1}}<X_{1}^{0} $, $ {{x}_{2}}<X_{2}^{0}, \cdots, {{x}_{\upsilon }}<X_{\upsilon }^{0} $, 则$ F\left( {{x}_{1}}, {{x}_{2}}, \cdots, {{x}_{\upsilon }} \right) = 0 $; 若$ {{x}_{1}}<X_{1}^{k} $, $ {{x}_{2}}<X_{2}^{k}, \cdots, {{x}_{\upsilon }}<X_{\upsilon }^{k} $, 则$ F\left({{x}_{1}}, {{x}_{2}}, \cdots , {{x}_{\upsilon }} \right) = {k}/{{{\rho }^{\upsilon}}} $等.如果变量集$ {{x}_{1}}, {{x}_{2}}, \cdots , {{x}_{\upsilon }} $在第k个区间内的样本量为1, 则F在$ {{x}_{1}}, {{x}_{2}}, \cdots , {{x}_{\upsilon }} $点的跳跃度为$ {1}/{{{\rho }^{\upsilon }}} $, 如果变量集$ {{x}_{1}}, {{x}_{2}}, \cdots , {{x}_{\upsilon }} $在第k个区间内有$ \varepsilon $个样本, 则F在$ {{x}_{1}}, {{x}_{2}}, \cdots , {{x}_{\upsilon }} $点的跳跃度是$ {\varepsilon }/{{{\rho }^{\upsilon }}} $.给出$ {\pmb{E}}_{{s}i}^{l} $和$ {\pmb{E}}_{{r}j}^{l} $联合CDF间的差异如下.

    $ \begin{align} & D\left( {{F}_{{s}}}, {{F}_{{r}}} \right) = \int{\int{\cdots }}\int{\left| {{F}_{{s}}}\left( {{x}_{1}}, {{x}_{2}}, \cdots , {{x}_{\upsilon }} \right) \right.}- \\ & \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \left. {{F}_{{r}}}\left( {{x}_{1}}, {{x}_{2}}, \cdots , {{x}_{\upsilon }} \right) \right|\textrm{d}{{x}_{1}}\textrm{d}{{x}_{2}}\cdots \textrm{d}{{x}_{\upsilon }} \end{align} $

    (15)

    为计算联合CDF的差异$ D\left( {{F}_{{r}}}, {{F}_{{s}}} \right) $, 可将上式改写为下面积分之差的形式:

    $ \begin{equation} D = \int{{{F}_{{s}}}\left( {\pmb{x}} \right)\textrm{d}{\pmb{x}}}-\int{{{F}_{{r}}}\left( {\pmb{x}} \right)\textrm{d}{\pmb{x}}} = {{I}_{{s}}}-{{I}_{{r}}} \end{equation} $

    (16)

    式中$ {\pmb{x}} = \left[ {{x}_{1}}, {{x}_{2}}, \cdots , {{x}_{\upsilon }} \right] $.假设分别用$ {{\hat{I}}_{{s}}} $和$ {{\hat{I}}_{{r}}} $估计$ {{I}_{{s}}} $和$ {{I}_{{r}}} $, 并用$ \hat{D} = {{\hat{I}}_{{s}}}-{{\hat{I}}_{{r}}} $估计$ \hat{D} $, 则$ \hat{D} $的方差为:

    $ \begin{equation} {Var}\left( {\hat{D}} \right) = {Var}\left( {{{\hat{I}}}_{{s}}} \right)+{Var}\left( {{{\hat{I}}}_{{r}}} \right)-2{Cov}\left( {{{\hat{I}}}_{{s}}}, {{{\hat{I}}}_{{r}}} \right) \end{equation} $

    (17)

    显然, 在$ {Var}\left( {{{\hat{I}}}_{{s}}} \right) $和$ {Var}\left( {{{\hat{I}}}_{{r}}} \right) $确定后, $ {{\hat{I}}_{{s}}} $和$ {{\hat{I}}_{{r}}} $的正相关度越高, 则$ \hat{D} $的方差越小.本文采用重要性抽样法估计$ {{I}_{{s}}} $和$ {{I}_{{r}}} $, 即改写D

    $ \begin{equation} D = \int{{{H}_{{s}}}\left( {\pmb{x}} \right){{g}_{{s}}}\left( {\pmb{x}} \right)}\textrm{d}{\pmb{x}}-\int{{{H}_{{r}}}\left( {\pmb{x}} \right){{g}_{{r}}}\left( {\pmb{x}} \right)}\textrm{d}{\pmb{x}} \end{equation} $

    (18)

    其中, $ {\pmb{x}} = {{x}_{1}}, {{x}_{2}}, \cdots , {{x}_{\upsilon }} $, $ {{g}_{{s}}}\left( {\pmb{x}} \right) $、$ {{g}_{{r}}}\left( {\pmb{x}} \right) $是两个密度函数, $ {{H}_{{s}}}\left( {\pmb{x}} \right) = {{{F}_{{s}}}\left( {\pmb{x}} \right)}/{{{g}_{{s}}}\left( {\pmb{x}} \right)} $, $ {{H}_{{r}}}\left( {\pmb{x}} \right) = {{{F}_{{r}}}\left( {\pmb{x}} \right)}/{{{g}_{{r}}}\left( {\pmb{x}} \right)} $.首先, 由$ {{g}_{{s}}}\left( {\pmb{x}} \right) $、$ {{g}_{{r}}}\left( {\pmb{x}} \right) $各产生P个相互独立的$ \upsilon $维随机数$ {{{\pmb{T}}}_{{s}1}}, \cdots , {{{\pmb{T}}}_{{s}P}} $和$ {{{\pmb{T}}}_{{r}1}}, \cdots , {{{\pmb{T}}}_{{r}P}} $, 并计算

    $ \begin{equation} \hat{D} = \frac{1}{P}\sum\limits_{k = 1}^{P}{\left( {{H}_{{s}}}\left( {{{\pmb{T}}}_{{s}k}} \right)-{{H}_{{r}}}\left( {{{\pmb{T}}}_{{r}k}} \right) \right)} \end{equation} $

    (19)

    采用逆变换方法由同一个$ \upsilon $维联合均匀分布$ U\left( 0, 1 \right) $产生$ {{{\pmb{T}}}_{{s}1}}, \cdots , {{{\pmb{T}}}_{{s}P}} $和$ {{{\pmb{T}}}_{{r}1}}, \cdots , {{{\pmb{T}}}_{{r}P}} $, 能够保证两组随机数具有较高的正相关程度, 进而使$ {Var}( {\hat{D}} ) $较小, 对$ \hat{D} $的估计值趋于稳定.

    需要说明的是, $ D\left( {{F}_{{s}}}, {{F}_{{r}}} \right)\in \left[ 0, \infty \right) $仅是仿真和参考输出特征的联合CDF的差异(如图 1所示), 其取值范围为$ \left[ 0, \infty \right) $, 此时无法给出仿真和参考输出的一致性程度(即取值为$ \left[ 0, 1 \right] $的相对值).因此, 提出将$ D\left( {{F}_{{s}}}, {{F}_{{r}}} \right) $向可信度$ C\left( {{F}_{{s}}}, {{F}_{{r}}} \right) $转化的公式如下.

    图 1  参考与仿真输出的CDF对比
    Fig. 1  Comparing CDF curves of reference and simulation output

    $ \begin{equation} C\left( {{F}_{{s}}}, {{F}_{{r}}} \right) = \frac{\prod\limits_{i = 1}^{\upsilon }{\left( X_{i}^{\max }-X_{i}^{\min } \right)}-D\left( {{F}_{{s}}}, {{F}_{{r}}} \right)}{\prod\limits_{i = 1}^{\upsilon }{\left( X_{i}^{\max }-X_{i}^{\min } \right)}} \end{equation} $

    (20)

    式中, $ \prod\nolimits_{i = 1}^{\upsilon }{\left( X_{i}^{\max }-X_{i}^{\min } \right)} $表示$ \upsilon $维样本空间所占区域的大小; $ X_{i}^{\min } = \min \left( X_{{s}i}^{\min }, X_{{r}i}^{\min } \right) $, $ X_{i}^{\max } = \max \left( X_{{s}i}^{\max }, X_{{r}i}^{\max } \right) $表示第i维变量的样本极值.显然, $ C\left( {{F}_{{s}}}, {{F}_{{r}}} \right) $满足如下性质[13], 进而能够用于度量仿真模型可信度.

    性质1. 非负性: $ C\left( {{F}_{{s}}}, {{F}_{{r}}} \right)\ge 0 $;

    性质2. 交换性: $ C\left( {{F}_{{s}}}, {{F}_{{r}}} \right) = C\left( {{F}_{{r}}}, {{F}_{{s}}} \right) $;

    性质3. 有界性: $ C\left( {{F}_{{s}}}, {{F}_{{r}}} \right)\in \left[ 0, 1 \right] $;

    性质4. 同一性: $ C\left( {{F}_{{s}}}, {{F}_{{r}}} \right) = 1 $, 当且仅当$ {{F}_{{s}}} = {{F}_{{r}}} $.

    基于前文所述方法, 给出考虑相关性的多元输出仿真结果验证流程如图 2所示.

    图 2  考虑相关性的多元输出仿真结果验证方法流程
    Fig. 2  Procedures of multivariate simulation result validation under correlation

    1) 考虑不确定因素的影响, 分别进行n次仿真运行和实际试验, 获取多元仿真和参考输出$ {{{\pmb{Y}}}\!_{{s}}} = \left\{ {{{\pmb{Y}}}\!_{{s}1}}, {{{\pmb{Y}}}\!_{{s}2}}, \cdots, {{\bf{Y}}_{{s}m}} \right\} $, $ {{{\pmb{Y}}}\!_{{r}}} = \left\{ {{{\pmb{Y}}}\!_{{r}1}}, {{{\pmb{Y}}}\!_{{r}2}}, \cdots, {{{\pmb{Y}}}\!_{{r}m}} \right\} $;

    2) 利用多元输出变量选择方法提取$ {{{\pmb{Y}}}\!_{{s}}} $、$ {{{\pmb{Y}}}\!_{{r}}} $的相关变量子集$ {{{\pmb{G}}}_{{s}i}}, i = 1, \cdots, {{\beta }_{{s}}} $, $ {{{\pmb{G}}}_{{r}j}}, j = 1, \cdots , {{\beta }_{{r}}} $;

    3) 若$ {{\beta }_{{s}}} = {{\beta }_{{r}}} $且$ {{{\pmb{G}}}_{{s}i}} = {{{\pmb{G}}}_{{r}j}} $, 则依据式(8)$ \sim $(13)提取$ {{{\pmb{G}}}_{{s}i}} $、$ {{{\pmb{G}}}_{{r}j}} $中各变量的数据特征$ {\pmb{e}}_{{s}ik}^{l} $、$ {\pmb{e}}_{{r}ik}^{l} $; 反之, 若$ {{\beta }_{{s}}}\ne {{\beta }_{{r}}} $或$ {{{\pmb{G}}}_{{s}i}}\ne {{{\pmb{G}}}_{{r}j}} $的相关变量子集, 则认为该仿真模型不可信, 即C = 0, 算法结束;

    4) 依据式(14)分别计算数据特征变量集$ e_{{s}i1}^{l}, e_{{s}i2}^{l}, \cdots , e_{{s}i{{m}_{{s}i}}}^{l} $和$ e_{{r}j1}^{l}, e_{{r}j2}^{l}, \cdots , e_{{r}j{{m}_{{r}j}}}^{l} $的联合CDF: $ {{F}_{{s}il}} $、$ {{F}_{{r}jl}} $;

    5) 依据式(15)$ \sim $(19)计算特征变量集的联合CDF: $ {{F}_{{s}il}} $、$ {{F}_{{r}jl}} $的差异$ D_{i}^{l}\left( {{F}_{{s}il}}, {{F}_{{r}jl}} \right) $;

    6) 依据式(20)将$ D_{i}^{l}\left( {{F}_{{s}il}}, {{F}_{{r}jl}} \right) $转化为可信度结果$ C_{i}^{l}\left( {{F}_{{s}il}}, {{F}_{{r}jl}} \right) $;

    7) 通过2)可知, $ \alpha $个相关变量子集之间是相互独立的, 且用户关注的多个数据特征(包括位置、形状、频谱)间也可认为是独立的, 进而可采用加权方法综合多个可信度结果$ C_{i}^{l}\left( {{F}_{{s}il}}, {{F}_{{r}jl}} \right) $, $ l = 1, \cdots , {{L}_{i}} $; $ i = 1, \cdots , {{\beta }_{{s}}} $; $ j = 1, \cdots , {{\beta }_{{r}}} $. 图 2中“Integrate($ \cdot $)”表示加权综合算子.同时第$ \sigma $个动态输出的均值曲线$ {{\bar{y}}_{{s}\sigma }} $、$ {{\bar{y}}_{{r}\sigma }} $可认为是对系统输出的一次抽样, 不考虑不确定性影响时的多元输出数据是近似独立的, 进而综合得到最终验证结果如下所示.

    $ \begin{align} & C\left( {{{\pmb{Y}}}\!_{{s}}}, {{{\pmb{Y}}}\!_{{r}}} \right) = w_{1}^{-}\cdot \sum\limits_{i = 1}^{{{\beta }_{{s}}}}{{{w}_{i}}\cdot \left( \sum\limits_{l = 1}^{{{L}_{i}}}{{{w}_{l}}C_{i}^{l}\left( {{F}_{{s}il}}, {{F}_{{r}jl}} \right)} \right)}+ \\ & \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ w_{2}^{-}\cdot \sum\limits_{\zeta = 1}^{{{L}_{\sigma }}}{{{w}_{\zeta }}C_{\sigma }^{\zeta }\left( {{{\bar{y}}}_{{s}\sigma }}, {{{\bar{y}}}_{{r}\sigma }} \right)} \end{align} $

    (21)

    其中, $ \sigma = 1, \cdots , {{m}_{{dynamic}}} $表示第$ \sigma $个动态输出变量, $ \zeta = 1, \cdots , {{L}_{\sigma }} $表示动态输出均值曲线的第$ \zeta $个特征, $ {{w}_{l}} $、$ {{w}_{\zeta }} $代表第l、$ \zeta $个数据特征的可信度结果权重, $ {{w}_{i}} $代表第i个相关变量子集的一致性分析结果权重, $ w_{1}^{-} $、$ w_{2}^{-} $代表相关变量子集和动态输出均值曲线一致性的权重.

    为验证本文方法的有效性, 针对文献[2]中给出的某飞行器纵向平面内末制导阶段的仿真模型进行结果验证.该模型包括飞行器制导模型和目标运动模型. 图 3给出纵向平面内弹目相对运动几何关系.目标以恒定速度$ {{v}_{{T}}} $沿$ x $轴向右行驶.假设飞行器无动力飞行且航向已对准目标, 忽略地球自转, 给出以时间为自变量的飞行器纵向质心运动方程

    图 3  纵向平面内弹目相对运动几何关系
    Fig. 3  Geometrical relationship of relative missile-target movement in longitudinal plane

    $ \begin{equation} \left\{ \begin{split} & \dot{v} = -\frac{D}{M}-g\sin \theta \\ & \dot{\theta } = \frac{L}{Mv}-\frac{g\cos \theta }{v} \\ & \dot{h} = v\sin \theta \\ & \dot{d} = v\cos \theta \\ \end{split} \right. \end{equation} $

    (22)

    式中, v为速度, $ \theta $为弹道倾角, h为高度, d为水平距离.阻力$ D = 0.5\rho {{v}^{2}}S{{C}_{{D}}}\left( Ma, \alpha \right) $, 升力$ L = 0.5\rho {{v}^{2}}S{{C}_{{L}}}\left( Ma, \alpha \right) $. $ {{C}_{{D}}} $与$ {{C}_{{L}}} $分别为阻力系数与升力系数. $ \alpha $为攻角, 马赫数$ Ma = v/{{v}_{{s}}} $, S为参考面积, M为质量, $ {{\alpha }_{{M}}} $为法向加速度, $ \lambda $为视线角.声速$ {{v}_{s}} $与大气密度$ \rho $根据1976年美国标准大气计算.相应的制导律设计可见文献[30].根据上述信息建立该飞行器纵向平面内末制导仿真模型.

    利用此仿真模型精确研究此飞行器在末制导阶段的特性, 需要考虑其受到的不确定性因素.飞行器升力与阻力均存在不确定性, 引入升力系数扰动$ {{C}_{{LC}}} $, 与阻力系数扰动$ {{C}_{{DC}}} $模拟阻力系数与升力系数的不确定性, 因此有升力$ L = 0.5\rho {{v}^{2}}S{{C}_{{LC}}}{{C}_{{L}}}\left( Ma, \alpha \right) $, 阻力$ D = 0.5\rho {{v}^{2}}S{{C}_{{DC}}}{{C}_{{D}}}\left( Ma, \alpha \right) $, 分别采用不同分布对$ {{C}_{{LC}}} $和$ {{C}_{{DC}}} $进行描述.同时, 大气密度会影响升力和阻力, 因每次飞行环境不同需考虑其不确定性的影响, 采用大气密度系数$ {{C}_{{ }\!\!\rho\!\!{ }}} $表示.此外, 飞行器进入末制导阶段时的初始视线角$ {{\lambda }_{0}} $与弹道倾角$ {{\theta }_{0}} $亦具有不确定性.选取仿真模型和参考系统的不确定参数如表 2所示.

    表 2  飞行器末制导过程的不确定参数取值
    Table 2  Uncertainty parameters values in the terminal guidance process of flight vehicle
    变量名 仿真模型参数分布 参考系统参数分布
    大气密度系数${{C}_{{ }\!\!\rho\!\!{ }}}$ $N\left( 0, 0.033 \right)$ $N\left( 0, 0.033 \right)$
    升力系数${{C}_{{D}}}$ $N(0, 0.05)$ $N(0.02, 0.07)$
    阻力系数${{C}_{{L}}}$ $N(0, 0.033)$ $N(0.02, 0.033)$
    初始弹道倾角${{{\theta }_{0}}}~/{{\rm rad}}$ $N\left( 0.17, 0.09 \right)$ $N\left( 0.26, 0.07 \right)$
    初始视线角${{{\lambda }_{0}}}~/{{\rm rad}}$ $N\left( 0.17, 0.09 \right)$ $N\left( 0.17, 0.09 \right)$
    下载: 导出CSV 
    | 显示表格

    选取用户关注的多元输出变量如表 3所示.选取静态输出变量有飞行器的最终落点位置坐标$ \left( {{x}_{{f}}}, {{z}_{{f}}} \right) $和目标终点位置坐标$ \left( {{x}_{{Tf}}}, {{z}_{{Tf}}} \right) $, 同时选取待验证的动态输出变量有弹道倾角$ \theta $、攻角$ \alpha $、视线角$ \lambda $、弹目相对距离$ {{D}_{{MT}}} $、目标速度$ {{v}_{{T}}} $.利用拉丁超立方抽样法, 对模型不确定性参数进行抽样, 给定初始样本数为1 000, 运行仿真模型共得到1 000组输出.改变飞行器模型参数(见表 2), 采用拉丁超立方抽样获得的1 000组数据作为参考输出.系统输出数据的包络线如图 4$ \sim $10所示.其中目标速度$ {{v}_{{T}}} $、目标终点位置$ {{z}_{{Tf}}} $为恒定值, 未在图中标出.

    表 3  待验证的模型输出
    Table 3  Model outputs to be validated
    变量类型 变量名
    动态 弹道倾角${\theta }~$(rad)
    动态 攻角${\alpha }$ (rad)
    动态 视线角${\lambda }~$(rad)
    动态 弹目相对距离${{{D}_{{MT}}}}~$(m)
    动态 目标速度${{v}_{{T}}}~$(m/s)
    静态 飞行器落点X坐标${{{x}_{{f}}}}~$(m)
    静态 飞行器落点Z坐标${{{z}_{{f}}}}~$(m)
    静态 目标终点位置X坐标${{{x}_{{Tf}}}}~$(m)
    静态 目标终点位置Z坐标${{{z}_{{Tf}}}}~$(m)
    下载: 导出CSV 
    | 显示表格
    图 4  弹道倾角输出包络线
    Fig. 4  Envelope lines of launch angle
    图 5  攻角输出包络线
    Fig. 5  Envelope lines of angle of attack
    图 6  视线角输出包络线
    Fig. 6  Line-of-sight angle envelopes
    图 7  弹目相对距离输出包络线
    Fig. 7  Envelope lines of the missile-target relative distance
    图 8  飞行器落点X坐标输出散点图
    Fig. 8  Scatter diagram of X-direction drop point coordinates of the flight vehicle
    图 9  目标终点位置X坐标输出散点图
    Fig. 9  Scatter diagram of X-direction terminal point coordinates of the target vehicle
    图 10  飞行器落点Z坐标输出散点图
    Fig. 10  Scatter diagram of the terminal point of the target in the Z direction

    利用本文方法对该飞行器末制导仿真输出进行验证.首先利用多元输出变量选择方法分别对仿真和参考的动静态输出变量进行相关性分析及变量选择, 得到相关性分析结果如表 4所示.通过分析可知, 仿真和参考输出变量具有相同的变量子集, 动态输出变量$ \theta $、$ \alpha $、$ \lambda $、$ {{D}_{{MT}}} $具有相关性, 故将其归为一类. $ {{v}_{{T}}} $为定值(不随时间改变)并与变量子集Ⅰ相互独立; 静态输出$ {{x}_{{f}}} $、$ {{x}_{{Tf}}} $具有相关性, 通过验证可知两者满足线性关系(如图 11所示), 同时$ {{z}_{{f}}} $与$ {{x}_{{f}}} $相互独立(如图 12所示), 进而可得$ {{z}_{{f}}} $与$ {{x}_{{f}}} $相互独立, $ {{z}_{{Tf}}} $为定值0形成了变量子集Ⅲ.由上述分析结果验证了变量选择方法的有效性.

    表 4  多元输出变量选择结果
    Table 4  Variables selection results of multiple outputs
    输出类型 变量子集Ⅰ 变量子集Ⅱ 变量子集Ⅲ
    动态 $\theta $, $\alpha$, $\lambda$, ${{D}_{{MT}}}$ ${{v}_{{T}}}$ -
    静态 ${{x}_{{f}}}$, ${{x}_{{Tf}}}$ ${{z}_{{f}}}$ ${{z}_{{Tf}}}$
    下载: 导出CSV 
    | 显示表格
    图 11  飞行器落点X坐标与目标终点位置X坐标间的关系
    Fig. 11  Relationship of X-direction coordinates between drop point of flight vehicle and terminal point of target
    图 12  飞行器落点X方向坐标与Z方向坐标间的关系
    Fig. 12  Relationship between X-direction and Z-direction coordinates of the drop point of flight vehicle

    根据表 4的变量选择结果求取各变量子集关于某特征的联合CDF, 选取动态输出的位置和形状特征, 分别求取变量子集Ⅰ的联合CDF, 变量子集Ⅱ为恒定值在验证过程中直接采用相对误差方法进行一致性分析即可; 对于静态输出变量子集Ⅰ关于数据本身的联合CDF如图 13所示, 变量子集Ⅱ的CDF曲线如图 14所示.进而得到动态输出均值曲线的一致性结果(见表 5)以及多个变量组关于多个特征的CDF差异和可信度结果(见表 6).依据式(21)综合多个可信度结果得到最终验证结果为0.82, 由于仿真和参考输出变量$ {{v}_{{T}}} $、$ {{z}_{{Tf}}} $均相等且恒为0, 故在计算模型可信度时不予考虑, 为方便计算采用均权的方式进行综合.

    图 13  仿真和参考静态输出变量子集Ⅰ的联合CDF对比
    Fig. 13  JCDF comparison of variable subset I between static simulation and reference output
    图 14  仿真和参考静态输出变量子集Ⅱ的CDF对比
    Fig. 14  Comparison of variable subset Ⅱ between static simulation and reference output
    表 5  动态输出均值曲线的一致性分析结果
    Table 5  Consistency analysis results of the mean curves of dynamic outputs
    变量名 位置特征一致性 形状特征一致性
    $\theta $ 0.92 0.74
    $\alpha$ 0.63 0.60
    $\lambda$ 0.98 0.74
    ${{D}_{{MT}}}$ 0.97 0.61
    下载: 导出CSV 
    | 显示表格
    表 6  仿真和参考输出变量子集的一致性分析结果
    Table 6  Consistency analysis results of the variables subset of the simulation and reference outputs
    输出变量类型 变量子集标号 累积概率分布差异 可信度结果
    动态 变量子集Ⅰ 位置差异: $8.92\times {{10}^{{-8}}}$ 位置特征: 0.99
    动态 变量子集Ⅰ 形状差异: $1.1\times {{10}^{{-3}}}$ 形状特征: 0.94
    动态 变量子集Ⅱ 0 1
    静态 变量子集Ⅰ $1.6\times {{10}^{5}}$ 0.84
    静态 变量子集Ⅱ 0.5 0.9
    静态 变量子集Ⅲ 0 1
    下载: 导出CSV 
    | 显示表格

    此外, 为进一步验证本文方法对参数不确定性度量的有效性, 针对上述应用实例分别设计两组验证实验(不确定性参数取值见表 7).固定仿真模型和参考系统的不确定性参数大气密度系数$ C_ \rho $、升力系数$ {{C}_{{D}}} $、阻力系数$ {{C}_{{L}}} $和初始视线角$ {{\lambda }_{0}} $的取值.分别调节仿真模型初始弹道倾角$ {{\theta }_{0}} $的均值和方差, 得到最终验证结果如图 15$ \sim $16所示.通过实验可得, 该方法能够度量仿真模型不确定参数取值的离散程度对验证结果的影响, 证明过大或过小的参数不确定度均会降低模型的可信度; 同时该方法能够度量不确定性参数的均值差异对验证结果的影响.综上所述, 所提方法能够用于解决带有相关性的多元输出仿真结果验证问题.

    表 7  验证实验的不确定参数取值
    Table 7  Uncertainty parameters values for validation experiments
    试验编号 参考系统${{\theta }_{0}}$取值 实验组Ⅰ ${{\theta }_{0}}$取值 实验组Ⅱ ${{\theta }_{0}}$取值
    1 $N\left( 0.26, 0.07 \right)$ 0.26 $N\left( 0.15, 0.07 \right)$
    2 $N\left( 0.26, 0.07 \right)$ $N\left( 0.26, 0.04 \right)$ $N\left( 0.21, 0.07 \right)$
    3 $N\left( 0.26, 0.07 \right)$ $N\left( 0.26, 0.07 \right)$ $N\left( 0.26, 0.07 \right)$
    4 $N\left( 0.26, 0.07 \right)$ $N\left( 0.26, 0.1 \right)$ $N\left( 0.31, 0.07 \right)$
    5 $N\left( 0.26, 0.07 \right)$ $N\left( 0.26, 0.13 \right)$ $N\left( 0.37, 0.07 \right)$
    下载: 导出CSV 
    | 显示表格
    图 15  实验组Ⅰ验证结果
    Fig. 15  Validation result of experiment Ⅰ
    图 16  实验组Ⅱ验证结果
    Fig. 16  Validation result of experiment Ⅱ

    针对带有相关性的多元输出仿真模型验证问题, 提出了考虑不确定性的联合验证方法.首先对多变量输出提取相关变量子集, 并对各输出变量提取数据特征, 利用联合CDF差异法度量各相关变量子集的一致性程度, 进而综合得到模型可信度.利用单变量验证方法进行多变量验证时需要满足输出变量相互独立的条件.本文方法考虑了多变量间的相关关系, 基于相关变量子集进行联合验证, 较单变量验证方法应用更合理; 同时在验证前引入了变量相关性分析, 使其能够适应输出变量之间关系未知的情况, 使验证结果更准确, 但也增加了计算开销.此外, 该方法能够度量不确定性因素对模型可信度的影响.

    需要说明的是, 本文仅考虑同一类型输出(动态或静态)存在相关性的情况, 涉及的变量选择方法本质上属于数据挖掘方法, 为确保方法的准确性要求具备足够的样本容量, 对于参考数据缺乏的情况, 可采用专家给出参考数据的大致分布, 或可利用已有的历史数据、可信度较高且类似的半实物/纯数字仿真模型所产生的数据代替.此外, 刻画动态输出的数据特征不限于距离、形状及频谱, 可依据具体应用需求而定(例如, 超调量、相位误差等).后续将对动态、静态输出间的相关性分析及变量选择方法进行研究; 同时针对参考数据缺乏以及存在认知和固有混合不确定性时的多元输出仿真结果验证问题展开进一步研究.

  • 图  1  强化学习过程

    Fig.  1  The process of reinforcement learning

    图  2  强化学习算法分类

    Fig.  2  The classification of reinforcement learning algorithms

    图  3  DQN算法框架

    Fig.  3  The framework of DQN algorithm

    图  4  DDPG算法框架

    Fig.  4  The framework of DDPG algorithm

    图  5  异策略RL的经验回放流程

    Fig.  5  The experience replay process of off-policy RL

    图  6  经验回放分类

    Fig.  6  The classification of experience replay

    图  7  QER的算法框架

    Fig.  7  The framework of QER algorithm

    图  8  “sum-tree” 采样流程

    Fig.  8  The sampling process of “sum-tree”

    图  9  “double sum-tree” 数据结构

    Fig.  9  The data structure of “double sum-tree”

    图  10  模型经验增广算法的框架图

    Fig.  10  The framework of model experience augmentation algorithms

    表  1  同策略与异策略算法的优势对比

    Table  1  Comparison of advantages of on-policy and off-policy algorithms

    算法优势 同策略RL 异策略RL
    收敛速度更快
    训练过程更稳定
    超参数对算法影响更小
    可以平衡探索和利用的问题
    更易收敛到最优解
    经验来源更广
    经验的利用率更高
    算法的适用范围更广
    下载: 导出CSV

    表  2  经验优先回放算法对比

    Table  2  Comparison of prioritized experience replay algorithms

    算法 优先回放指标 采样轮次
    PER[43], PSER[44], PPER[45] TD error 单轮
    HVPER[46] Q值, TD error 单轮
    TASM[47] 序列累计奖励, TD error 多轮
    AER[48] 相似性 多轮
    REL[49] TD error, 相似性 多轮
    KLPER[50] 批量经验策略的相似性 单轮
    DCRL[51] 经验难度, 采样次数 单轮
    ACER[54] 经验难度 单轮
    下载: 导出CSV

    表  3  经验分类回放算法对比

    Table  3  Comparison of classification experience replay algorithms

    算法 分类标准 经验池形式 采样策略
    CER[59] 是否为当前经验 单经验池 + 临时存储 随机采样 + 当前经验
    ACER[54] 是否为最新经验 多经验池 优先采样 + 最新经验
    ReFER[60] 经验策略与当前策略的差异 单经验池 随机采样 + 经验过滤
    RC[61] 奖励 多经验池 静态采样
    TDC[61] TD error 多经验池 静态采样
    EPS[49] 基于场景的评价指标 多经验池 + 单经验池 静态采样
    CADP[62] TD error 多经验池 动态采样
    DDN-SDRL[63] 状态的危险程度 多经验池 静态采样
    下载: 导出CSV

    表  4  经验存储结构算法的优化途径

    Table  4  Optimization approaches of experience storage structure algorithms

    算法数据结构更新逻辑硬件架构
    PER[43]
    ACER[54]
    LSER[66]
    DER[67]
    AMPER[68]
    下载: 导出CSV

    表  5  专家示范经验算法对比

    Table  5  Comparison of expert demonstration experience algorithms

    算法专家经验来源专家经验作用方式经验池形式采样策略应用场景
    DQfD[71]人类示范预训练单经验池优先采样视频游戏
    DDPGfD[72]人类示范实际训练单经验池优先采样机械臂控制
    LfOD[73]仿真平台专家网络 + 实际训练多经验池动态采样 + 优先采样自动路口管理
    IEP[74]人类示范专家网络 + 实际训练单经验池随机采样自动驾驶
    MEP[75]模拟退火算法实际训练多经验池动态采样无人机运动控制
    ME[76]人工势场法实际训练多经验池动态采样多无人车运动规划
    VD4[78]人类示范预训练 + 实际训练多经验池优先采样自主水下航行器控制
    下载: 导出CSV
  • [1] 高阳, 陈世福, 陆鑫. 强化学习研究综述. 自动化学报, 2004, 30(1): 86-100

    Gao Yang, Chen Shi-Fu, Lu Xin. Research on reinforcement learning technology: A review. Acta Automatica Sinica, 2004, 30(1): 86-100
    [2] Sutton R S, Barto A G. Reinforcement Learning: An Introduction. Cambridge: MIT Press, 1998.
    [3] 李晨溪, 曹雷, 张永亮, 陈希亮, 周宇欢, 段理文. 基于知识的深度强化学习研究综述. 系统工程与电子技术, 2017, 39(11): 2603-2613 doi: 10.3969/j.issn.1001-506X.2017.11.30

    Li Chen-Xi, Cao Lei, Zhang Yong-Liang, Chen Xi-Liang, Zhou Yu-Huan, Duan Li-Wen. Knowledge-based deep reinforcement learning: A review. Systems Engineering and Electronics, 39(11): 2603-2613 doi: 10.3969/j.issn.1001-506X.2017.11.30
    [4] Bellman R. Dynamic Programming. Princeton: Princeton University Press, 1957.
    [5] Mnih V, Kavukcuoglu K, Silver D, Rusu A A, Veness J, Bellemare M G, et al. Human-level control through deep reinforcement learning. Nature, 2015, 518(7540): 529-533 doi: 10.1038/nature14236
    [6] 刘全, 翟建伟, 章宗长, 钟珊, 周倩, 章鹏, 等. 深度强化学习综述. 计算机学报, 2018, 48(1): 1-27 doi: 10.11897/SP.J.1016.2019.00001

    Liu Quan, Zhai Jian-Wei, Zhang Zong-Chang, Zhong Shan, Zhou Qian, Zhang Peng, et al. A survey on deep reinforcement learning. Chinese Journal of Computers, 2018, 48(1): 1-27 doi: 10.11897/SP.J.1016.2019.00001
    [7] Mnih V, Kavukcuoglu K, Silver D, Graves A, Antonoglou I, Wierstra D, et al. Playing Atari with deep reinforcement learning. arXiv preprint arXiv: 1312.5602, 2013.
    [8] Cheng Y H, Chen L, Chen C L P, Wang X S. Off-policy deep reinforcement learning based on Steffensen value iteration. IEEE Transactions on Cognitive and Developmental Systems, 2021, 13(4): 1023-1032 doi: 10.1109/TCDS.2020.3034452
    [9] Silver D, Huang A, Maddison C J, Guez A, Sifre L, Driessche G V D, et al. Mastering the game of Go with deep neural networks and tree search. Nature, 2016, 529(7587): 484-489 doi: 10.1038/nature16961
    [10] Chen P Z, Lu W Q. Deep reinforcement learning based moving object grasping. Information Sciences, 2021, 565: 62-76. doi: 10.1016/j.ins.2021.01.077
    [11] Jin Z H, Wu J H, Liu A D, Zhang W A, Yu L. Policy-based deep reinforcement learning for visual servoing control of mobile robots with visibility constraints. IEEE Transactions on Industrial Electronics, 2022, 69(2): 1898-1908 doi: 10.1109/TIE.2021.3057005
    [12] Li X J, Liu H S, Dong M H. A general framework of motion planning for redundant robot manipulator based on deep reinforcement learning. IEEE Transactions on Industrial Informatics, 2022, 18(8): 5253-5263 doi: 10.1109/TII.2021.3125447
    [13] Chen S Y, Wang M L, Song W J, Yang Y, Li Y J, Fu M Y. Stabilization approaches for reinforcement learning-based end-to-end autonomous driving. IEEE Transactions on Vehicular Technology, 2020, 69(5): 4740-4750 doi: 10.1109/TVT.2020.2979493
    [14] Qi Q, Zhang L X, Wang J Y, Sun H F, Zhuang Z R, Liao J X, et al. Scalable parallel task scheduling for autonomous driving using multi-task deep reinforcement learning. IEEE Transactions on Vehicular Technology, 2020, 69(11): 13861-13874 doi: 10.1109/TVT.2020.3029864
    [15] Kiran B R, Sobh I, Talpaert V, Mannion P, Sallab A A A, Yogamani S, et al. Deep reinforcement learning for autonomous driving: A survey. IEEE Transactions on Intelligent Transportation Systems, 2022, 23(6): 4909-4926 doi: 10.1109/TITS.2021.3054625
    [16] Taghian M, Asadi A, Safabakhsh R. Learning financial asset-specific trading rules via deep reinforcement learning. Expert Systems with Applications, 2022, 195: Article No. 116523 doi: 10.1016/j.eswa.2022.116523
    [17] Tsantekidis A, Passalis N, Tefas A. Diversity-driven knowledge distillation for financial trading using Deep Reinforcement Learning. Neural Networks, 2021, 140: 193-202 doi: 10.1016/j.neunet.2021.02.026
    [18] Park H, Sim M K, Choi D G. An intelligent financial portfolio trading strategy using deep Q-learning. Expert Systems with Applications, 2020, 158: Article No. 113573 doi: 10.1016/j.eswa.2020.113573
    [19] Tan W S, Ryan M L. A single site investigation of DRLs for CT head examinations based on indication-based protocols in Ireland. Journal of Medical Imaging and Radiation Sciences, DOI: 10.1016/j.jmir.2022.03.114
    [20] Allahham M S, Abdellatif A A, Mohamed A, Erbad A, Yaacoub E, Guizani M. I-SEE: Intelligent, secure, and energy-efficient techniques for medical data transmission using deep reinforcement learning. IEEE Internet of Things Journal, 2021, 8(8): 6454-6468 doi: 10.1109/JIOT.2020.3027048
    [21] Lin L J. Self-improving reactive agents based on reinforcement learning, planning and teaching. Machine Learning, 1992, 8: 293-321
    [22] Bellman R. A Markovian decision process. Indiana University Mathematics Journal, 1957, 6(4): 679-684 doi: 10.1512/iumj.1957.6.56038
    [23] Rummery G A, Niranjan M. On-line Q-learning Using Connectionist Systems, Technical Report GUED/F-INFENG/TR 166, Engineering Department, Cambridge University, England, 1994.
    [24] Sutton R, Mcallester D A, Singh S, Mansour Y. Policy gradient methods for reinforcement learning with function approximation. In: Proceedings of the Advances in Neural Information Processing Systems (NIPS). Denver, Colorado, USA: MIT Press, 1999. 1057−1063
    [25] Williams R J. Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine Learning, 1992, 8: 229-256
    [26] Mnih V, Badia A P, Mirza M, Graves A, Harley T, Lillicrap P T, et al. Asynchronous methods for deep reinforcement learning. In: Proceedings of the 33rd International Conference on Machine Learning (ICML). New York, USA: ACM, 2016. 1928−1937
    [27] Babaeizadeh M, Frosio I, Tyree S, Clemons J, Kautz J. Reinforcement learning through asynchronous advantage actor-critic on a GPU. arXiv preprint arXiv: 1611.06256, 2017.
    [28] Schulman J, Levine S, Moritz P, Jordan M I, Abbeel P. Trust region policy optimization. arXiv preprint arXiv: 1502.05477, 2015.
    [29] Schulman J, Wolski F, Dhariwal P, Radford A, Klimov O. Proximal policy optimization algorithms. arXiv preprint arXiv: 1707.06347, 2017.
    [30] Watkins C J C H, Dayan P. Q-learning. Machine Learning, 1992, 8(3): 279-292
    [31] Hasselt H V, Guez A, Silver D. Deep reinforcement learning with double Q-learning. arXiv preprint arXiv: 1509.06461, 2015.
    [32] Wang Z Y, Tom S, Matteo H, Hado V H, Marc L, Nando D F. Dueling network architectures for deep reinforcement learning. In: Proceedings of the 33rd International Conference on Machine Learning (ICML). New York, USA: ACM, 2016. 1995−2003
    [33] Lillicrap T P, Hunt J J, Pritzel A, Heess N, Erez T, Tassa Y, et al. Continuous control with deep reinforcement learning. arXiv preprint arXiv: 1509.02971, 2015.
    [34] Fujimoto S, Hoof V H, Meger D. Addressing function approximation error in actor-critic methods. arXiv preprint arXiv: 1802.09477, 2018.
    [35] Haarnoja T, Zhou A, Abbeel P, Levine S. Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor. arXiv preprint arXiv: 1801.01290, 2018.
    [36] Nair A, Srinivasan P, Blackwell S, Alcicek C, Fearon R, Maria A D, et al. Massively parallel methods for deep reinforcement learning. arXiv preprint arXiv: 1507.04296, 2015.
    [37] Hausknecht M, Stone P. Deep recurrent Q-learning for partially observable MDPs. arXiv preprint arXiv: 1507.06527, 2015.
    [38] Plappert M, Houthooft R, Dhariwal P, Sidor S, Chen R Y, Chen X, et al. Parameter space noise for exploration. arXiv preprint arXiv: 1706.01905, 2018.
    [39] Hessel M, Modayil J, Hasselt H V, Schaul T, Ostrovski G, Dabney W, et al. Rainbow: Combining improvements in deep reinforcement learning. arXiv preprint arXiv: 1710.02298, 2017.
    [40] 刘建伟, 高峰, 罗雄麟. 基于值函数和策略梯度的深度强化学习综述. 计算机学报, 2019, 42(6): 1406-1438 doi: 10.11897/SP.J.1016.2019.01406

    Liu Jian-Wei, Gao Feng, Luo Xiong-Lin. Survey of deep reinforcement learning based on value policy gradient. Chinese Journal of Computers, 2019, 42(6): 1406-1438 doi: 10.11897/SP.J.1016.2019.01406
    [41] Haarnoja T, Zhou A, Hartikainen K, Tucker G, Ha S, Tan J, et al. Soft actor-critic algorithms and applications. arXiv preprint arXiv: 1812.05905, 2018.
    [42] Jang E, Gu S X, Poole B. Categorical reparameterization with Gumbel-Softmax. arXiv preprint arXiv: 1611.01144, 2017.
    [43] Schaul T, Quan J, Antonoglou I, Silver D. Prioritized experience replay. arXiv preprint arXiv: 1511.05952, 2016.
    [44] Brittain M, Bertram J, Yang X X, Wei P. Prioritized sequence experience replay. arXiv preprint arXiv: 1905.12726, 2019.
    [45] Lee S, Lee J, Hasuo I. Predictive PER: Balancing priority and diversity towards stable deep reinforcement learning. arXiv preprint arXiv: 2011.13093, 2020.
    [46] Cao X, Wan H Y, Lin Y F, Han S. High-value prioritized experience replay for off-policy reinforcement learning. In: Proceedings of the IEEE 31st International Conference on Tools With Artificial Intelligence (ICTAI). Portland, OR, USA: IEEE, 2019. 1510−1514
    [47] 赵英男, 刘鹏, 赵巍, 唐降龙. 深度 Q 学习的二次主动采样方法. 自动化学报, 2019, 45(10): 1870-1882

    Zhao Ying-Nan, Liu Peng, Zhao Wei, Tang Jiang-Long. Twice sampling method in deep Q-network. Acta Automatica Sinica, 2019, 45(10): 1870-1882
    [48] Sun P Q, Zhou W G, Li H Q. Attentive experience replay. In: Proceedings of the 34th AAAI Conference on Artificial Intelligence. New York, USA: AAAI Press, 2020. 5900−5907
    [49] Hu Z J, Gao X G, Wan K F, Zhai Y W, Wang Q L. Relevant experience learning: A deep reinforcement learning method for UAV autonomous motion planning in complex unknown environments. Chinese Journal of Aeronautics, 2021, 34(12): 187-204 doi: 10.1016/j.cja.2020.12.027
    [50] Cicek D C, Duran E, Saglam B, Mutlu F B, Kozat S S. Off-policy correction for deep deterministic policy gradient algorithms via batch prioritized experience replay. In: Proceedings of the 33rd IEEE International Conference on Tools With Artificial Intelligence (ICTAI). Washington, DC, USA: IEEE, 2021. 1255−1262
    [51] Ren Z P, Dong D Y, Li H X, Chen C L. Self-paced prioritized curriculum learning with coverage penalty in deep reinforcement learning. IEEE Transactions on Neural Networks and Learning Systems, 2018, 29(6): 2216-2226 doi: 10.1109/TNNLS.2018.2790981
    [52] Bengio Y, Louradour J, Collobert R, Weston J. Curriculum learning. In: Proceedings of the 26th Annual International Conference on Machine Learning (ICML). Montreal, Quebec, Canada: ACM, 2009. 41−48
    [53] Wang X, Chen Y D, Zhu W W. A survey on curriculum learning. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(9): 4555-4576
    [54] Hu Z J, Gao X G, Wan K F, Wang Q L, Zhai Y W. Asynchronous curriculum experience replay: A deep reinforcement learning approach for UAV autonomous motion control in unknown dynamic environments. arXiv preprint arXiv: 2207.01251, 2022.
    [55] Kumar A, Gupta A, Levine S. DisCor: Corrective feedback in reinforcement learning via distribution correction. arXiv preprint arXiv: 2003.07305, 2020.
    [56] Lee K, Laskin M, Srinivas A, Abbeel P. SUNRISE: A simple unified framework for ensemble learning in deep reinforcement learning. arXiv preprint arXiv: 2007.04938, 2020.
    [57] Sinha S, Song J M, Garg A, Ermon S. Experience replay with likelihood-free importance weights. arXiv preprint arXiv: 2006.13169, 2020.
    [58] Liu X H, Xue Z H, Pang J C, Jiang S Y, Xu F, Yu Y. Regret minimization experience replay in off-policy reinforcement learning. arXiv preprint arXiv: 2105.07253, 2021.
    [59] Zhang S T, Sutton R S. A deeper look at experience replay. arXiv preprint arXiv: 1712.01275, 2018.
    [60] Novati G, Koumoutsakos P. Remember and forget for experience replay. arXiv preprint arXiv: 1807.05827, 2019.
    [61] 时圣苗, 刘全. 采用分类经验回放的深度确定性策略梯度方法. 自动化学报, 2022, 48(7): 1816-1823 doi: 10.16383/j.aas.c190406

    Shi Sheng-Miao, Liu Quan. Deep deterministic policy gradient with classified experience replay. Acta Automatica Sinica, 2022, 48(7): 1816-1823 doi: 10.16383/j.aas.c190406
    [62] 刘晓宇, 许驰, 曾鹏, 于海斌. 面向异构工业任务高并发计算卸载的深度强化学习方法. 计算机学报, 2021, 44(12): 2367-2380

    Liu Xiao-Yu, Xu Chi, Zeng Peng, Yu Hai-Bin. Deep reinforcement learning-based high concurrent computing offloading for heterogeneous industrial tasks. Chinese Journal of Computers, 2021, 44(12): 2367-2380
    [63] 朱斐, 吴文, 伏玉琛, 刘全. 基于双深度网络的安全深度强化学习方法. 计算机学报, 2019, 42(8): 1812-1826 doi: 10.11897/SP.J.1016.2019.01812

    Zhu Fei, Wu Wen, Fu Yu-Chen, Liu Quan. A dual deep network based secure deep reinforcement learning method. Chinese Journal of Computers, 2019, 42(8): 1812-1826 doi: 10.11897/SP.J.1016.2019.01812
    [64] Wei Q, Ma H L, Chen C L, Dong D Y. Deep reinforcement learning with quantum-inspired experience replay. IEEE Transactions on Cybernetics, 2022, 52(9): 9326-9338 doi: 10.1109/TCYB.2021.3053414
    [65] Li Y J, Aghvami A H, Dong D Y. Path planning for cellular-connected UAV: A DRL solution with quantum-inspired experience replay. IEEE Transactions on Wireless Communications, 2022, 21(10): 7897-7912 doi: 10.1109/TWC.2022.3162749
    [66] Chen X C, Yao L N, Wang X Z, McAuley J. Locality-sensitive experience replay for online recommendation. arXiv preprint arXiv: 2110.10850, 2021.
    [67] Bruin T D, Kober J, Tuyls K, Babuska R. Improved deep reinforcement learning for robotics through distribution-based experience retention. In: Proceedings of the IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Daejeon, South Korea: IEEE, 2016. 3947−3952
    [68] Li M Y, Kazemi A, Laguna A F, Hu X S. Associative memory based experience replay for deep reinforcement learning. arXiv preprint arXiv: 2207.07791, 2022.
    [69] Schaal S. Is imitation learning the route to humanoid robots? Trends in Cognitive Sciences, 1999, 3(6): 233-242 doi: 10.1016/S1364-6613(99)01327-3
    [70] Attia A, Dayan S. Global overview of imitation learning. arXiv preprint arXiv: 1801.06503, 2018.
    [71] Hester T, Vecerik M, Pietquin O, Lanctot M, Schaul T, Piot B, et al. Deep Q-learning from demonstrations. arXiv preprint arXiv: 1704.03732, 2017.
    [72] Vecerik M, Hester T, Scholz J, Wang F M, Pietquin O, Piot B, et al. Leveraging demonstrations for deep reinforcement learning on robotics problems with sparse rewards. arXiv preprint arXiv: 1707.08817, 2017.
    [73] Guillen-Perez A, Cano M. Learning from Oracle demonstrations — a new approach to develop autonomous intersection management control algorithms based on multiagent deep reinforcement learning. IEEE Access, 2022, 10: 53601-53613 doi: 10.1109/ACCESS.2022.3175493
    [74] Huang Z Y, Wu J D, Lv C. Efficient deep reinforcement learning with imitative expert priors for autonomous driving. IEEE Transactions on Neural Networks and Learning Systems, DOI: 10.1109/TNNLS.2022.3142822
    [75] Hu Z J, Wan K F, Gao X G, Zhai Y W, Wang Q L. Deep reinforcement learning approach with multiple experience pools for UAV's autonomous motion planning in complex unknown environments. Sensors, 2020, 20(7): Article No. 1890 doi: 10.3390/s20071890
    [76] Wan K F, Wu D W, Li B, Gao X G, Hu Z J, Chen D Q. ME-MADDPG: An efficient learning-based motion planning method for multiple agents in complex environments. International Journal of Intelligent Systems, 2022, 37(3): 2393-2427 doi: 10.1002/int.22778
    [77] Lowe R, Wu Y, Tamar A, Harb J, Abbeel P, Mordatch I. Multi-agent actor-critic for mixed cooperative-competitive environments. In: Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, CA, USA: Curran Associates Inc., 2017. 6382−6393
    [78] Zhang T Z, Miao X H, Li Y B, Jia L, Zhuang Y H. AUV surfacing control with adversarial attack against DLaaS framework. IEEE Transactions on Computers, DOI: 10.1109/TC.2021.3072072
    [79] Sutton R S. Integrated architectures for learning, planning, and reacting based on approximating dynamic programming. In: Proceedings of the 7th International Conference on Machine Learning (ICML). Austin, Texas, USA: ACM, 1990. 216−224
    [80] Silver D, Sutton R S, Müller M. Sample-based learning and search with permanent and transient memories. In: Proceedings of the 25th International Conference on Machine Learning (ICML). Helsinki, Finland: ACM, 2008. 968−975
    [81] Santos M, Jose A, Lopez V, Botella G. Dyna-H: A heuristic planning reinforcement learning algorithm applied to role-playing-game strategy decision systems. Knowledge-Based Systems, 2012, 32: 28-36 doi: 10.1016/j.knosys.2011.09.008
    [82] Pan Y C, Yao H S, Farahmand A, White M. Hill climbing on value estimates for search-control in Dyna. In: Proceedings of the 28th International Joint Conference on Artificial Intelligence (IJCAI). Macao, China: AAAI Press, 2019. 3209−3215
    [83] Pan Y C, Zaheer M, White A, Patterson A, White M. Organizing experience: A deeper look at replay mechanisms for sample-based planning in continuous state domains. In: Proceedings of the 27th International Joint Conference on Artificial Intelligence (IJCAI). Stockholm, Sweden: AAAI Press, 2018. 4794−4800
    [84] Andrychowicz M, Wolski F, Ray A, Schneider J, Fong R, Welinder P, et al. Hindsight experience replay. In: Proceedings of the 31st International Conference on Neural Information Processing Systems (NIPS). Long Beach, CA, USA: Curran Associates Inc., 2017. 5055–5065
    [85] Schaul T, Horgan D, Gregor K, Silver D. Universal value function approximators. In: Proceedings of the 32nd International Conference on Machine Learning (ICML). Lille, France: JMLR.org, 2015. 1312−1320
    [86] Luu T M, Yoo C D. Hindsight goal ranking on replay buffer for sparse reward environment. IEEE Access, 2021, 9: 51996-52007 doi: 10.1109/ACCESS.2021.3069975
    [87] Fang M, Zhou C, Shi B, Gong B Q, Xu J, Zhang T. DHER: Hindsight experience replay for dynamic goals. In: Proceedings of the 7th International Conference on Learning Representations (ICLR). New Orleans, LA, USA: OpenReview.net, 2019. 1−12
    [88] Hu Z J, Gao X G, Wan K F, Evgeny N, Li J L. Imaginary filtered hindsight experience replay for UAV tracking dynamic targets in large-scale unknown environments. Chinese Journal of Aeronautics, DOI: 10.1016/j.cja.2022.09.008
    [89] Fang M, Zhou T Y, Du Y L, Han L, Zhang Z Y. Curriculum-guided hindsight experience replay. In: Proceedings of the 33rd International Conference on Neural Information Processing Systems (NIPS). Vancouver, BC, Canada: MIT Press, 2019. 12623−12634
    [90] Yang R, Fang M, Han L, Du Y L, Luo F, Li X. MHER: Model-based hindsight experience replay. arXiv preprint arXiv: 2107.00306, 2021.
  • 期刊类型引用(11)

    1. 张月莹,殷其昊,荆根强,颜露新,王相勋. 非匀速条件下车辆底盘超近距成像测量方法. 计量学报. 2024(02): 178-185 . 百度学术
    2. 齐咏生,陈培亮,高学金,董朝轶,魏淑娟. 高精度实时语义分割算法框架:多通道深度加权聚合网络. 控制与决策. 2024(05): 1450-1460 . 百度学术
    3. 柳东威,王旭,廖佳妹. 基于卷积神经网络的汽车产品检测优化研究. 商用汽车. 2024(02): 82-87 . 百度学术
    4. 解丹,陈立潮,曹玲玲,张艳丽. 基于卷积神经网络的车辆分类与检测技术研究. 软件工程. 2023(04): 10-13 . 百度学术
    5. 王明明,孙寅静,孙晓云,龚芮,王佳浩. 基于深度残差网络与迁移学习的地形识别方法. 科学技术与工程. 2023(09): 3779-3786 . 百度学术
    6. 余烨,陈维笑,陈凤欣. 面向车型识别的夜间车辆图像增强网络RIC-NVNet. 中国图象图形学报. 2023(07): 2054-2067 . 百度学术
    7. 万淑慧. 基于深度强化学习的监控视频车辆型号精细识别研究. 传感器世界. 2023(12): 29-33 . 百度学术
    8. 赵腾飞,胡国玉,周建平,刘广,陈旭东,董娅兰. 卷积神经网络算法在核桃仁分类中的研究. 中国农机化学报. 2022(06): 181-189 . 百度学术
    9. 杨栋,李超,吴兴华,王椿钧,唐雯. 基于智能识别技术的铁路安检辅助分析装置研究. 计算机测量与控制. 2022(08): 25-30+49 . 百度学术
    10. 马永杰,马芸婷,程时升,马义德. 基于改进YOLO v3模型与Deep-SORT算法的道路车辆检测方法. 交通运输工程学报. 2021(02): 222-231 . 百度学术
    11. 马永杰,程时升,马芸婷,马义德. 卷积神经网络及其在智能交通系统中的应用综述. 交通运输工程学报. 2021(04): 48-71 . 百度学术

    其他类型引用(10)

  • 加载中
图(10) / 表(5)
计量
  • 文章访问数:  4001
  • HTML全文浏览量:  1150
  • PDF下载量:  743
  • 被引次数: 21
出版历程
  • 收稿日期:  2022-08-18
  • 录用日期:  2023-01-21
  • 网络出版日期:  2023-03-28
  • 刊出日期:  2023-11-22

目录

/

返回文章
返回