2.793

2018影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于迭代神经动态规划的数据驱动非线性近似最优调节

王鼎 穆朝絮 刘德荣

王鼎, 穆朝絮, 刘德荣. 基于迭代神经动态规划的数据驱动非线性近似最优调节. 自动化学报, 2017, 43(3): 366-375. doi: 10.16383/j.aas.2017.c160272
引用本文: 王鼎, 穆朝絮, 刘德荣. 基于迭代神经动态规划的数据驱动非线性近似最优调节. 自动化学报, 2017, 43(3): 366-375. doi: 10.16383/j.aas.2017.c160272
WANG Ding, MU Chao-Xu, LIU De-Rong. Data-driven Nonlinear Near-optimal Regulation Based on Iterative Neural Dynamic Programming. ACTA AUTOMATICA SINICA, 2017, 43(3): 366-375. doi: 10.16383/j.aas.2017.c160272
Citation: WANG Ding, MU Chao-Xu, LIU De-Rong. Data-driven Nonlinear Near-optimal Regulation Based on Iterative Neural Dynamic Programming. ACTA AUTOMATICA SINICA, 2017, 43(3): 366-375. doi: 10.16383/j.aas.2017.c160272

基于迭代神经动态规划的数据驱动非线性近似最优调节


DOI: 10.16383/j.aas.2017.c160272
详细信息
    作者简介:

    穆朝絮天津大学电气自动化与信息工程学院副教授.2012年获得东南大学工学博士学位.主要研究方向为非线性控制理论与应用, 智能控制与优化, 智能电网.E-mail:cxmu@tju.edu.cn

    刘德荣北京科技大学教授.主要研究方向为自适应动态规划, 计算智能, 智能控制与信息处理, 复杂工业系统建模与控制.E-mail:derong@ustb.edu.cn

    通讯作者: 王鼎中国科学院自动化研究所副研究员.2009年获得东北大学理学硕士学位, 2012年获得中国科学院自动化研究所工学博士学位.主要研究方向为自适应与学习系统, 智能控制, 神经网络.本文通信作者.E-mail:ding.wang@ia.ac.cn
  • 本文责任编委 侯忠生
  • 基金项目:

    国家自然科学基金 61304086

    国家自然科学基金 61533017

    天津市自然科学基金 14JCQNJC05400

    国家自然科学基金 61273140

    天津市过程检测与控制重点实验室开放课题基金 TKLPMC-201612

    国家自然科学基金 U1501251

    国家自然科学基金 61411130160

    国家自然科学基金 61304018

    国家自然科学基金 61233001

    北京市自然科学基金 4162065

Data-driven Nonlinear Near-optimal Regulation Based on Iterative Neural Dynamic Programming

More Information
    Author Bio:

    Associate professor at the School of Electrical and Information Engineering, Tianjin University. She received her Ph. D. degree in control science and engineering from Southeast University, Nanjing, China, in 2012. Her research interest covers nonlinear control and application, intelligent control and optimization, and smart grid

    Professor at University of Science and Technology Beijing. His research interest covers adaptive dynamic programming, computational intelligence, intelligent control and information processing, and modeling and control for complex industrial systems

    Corresponding author: WANG DingAssociate professor at the Institute of Automation, Chinese Academy of Sciences. He received his master degree in operations research and cybernetics from Northeastern University, Shenyang, China and his Ph. D. degree in control theory and control engineering from the Institute of Automation, Chinese Academy of Sciences, Beijing, China, in 2009 and 2012, respectively. His research interest covers adaptive and learning systems, intelligent control, and neural networks. Corresponding author of this paper
  • Fund Project:

    National Natural Science Foundation of China 61304086

    National Natural Science Foundation of China 61533017

    Tianjin Natural Science Foundation 14JCQNJC05400

    National Natural Science Foundation of China 61273140

    Research Fund of Tianjin Key Laboratory of Process Measurement and Control TKLPMC-201612

    National Natural Science Foundation of China U1501251

    National Natural Science Foundation of China 61411130160

    National Natural Science Foundation of China 61304018

    National Natural Science Foundation of China 61233001

    Beijing Natural Science Foundation 4162065

图(9)
计量
  • 文章访问数:  1416
  • HTML全文浏览量:  232
  • PDF下载量:  1669
  • 被引次数: 0
出版历程
  • 收稿日期:  2016-03-16
  • 录用日期:  2016-05-17
  • 刊出日期:  2017-03-20

基于迭代神经动态规划的数据驱动非线性近似最优调节

doi: 10.16383/j.aas.2017.c160272
    基金项目:

    国家自然科学基金 61304086

    国家自然科学基金 61533017

    天津市自然科学基金 14JCQNJC05400

    国家自然科学基金 61273140

    天津市过程检测与控制重点实验室开放课题基金 TKLPMC-201612

    国家自然科学基金 U1501251

    国家自然科学基金 61411130160

    国家自然科学基金 61304018

    国家自然科学基金 61233001

    北京市自然科学基金 4162065

    作者简介:

    穆朝絮天津大学电气自动化与信息工程学院副教授.2012年获得东南大学工学博士学位.主要研究方向为非线性控制理论与应用, 智能控制与优化, 智能电网.E-mail:cxmu@tju.edu.cn

    刘德荣北京科技大学教授.主要研究方向为自适应动态规划, 计算智能, 智能控制与信息处理, 复杂工业系统建模与控制.E-mail:derong@ustb.edu.cn

    通讯作者: 王鼎中国科学院自动化研究所副研究员.2009年获得东北大学理学硕士学位, 2012年获得中国科学院自动化研究所工学博士学位.主要研究方向为自适应与学习系统, 智能控制, 神经网络.本文通信作者.E-mail:ding.wang@ia.ac.cn
  • 本文责任编委 侯忠生

摘要: 利用数据驱动控制思想,建立一种设计离散时间非线性系统近似最优调节器的迭代神经动态规划方法.提出针对离散时间一般非线性系统的迭代自适应动态规划算法并且证明其收敛性与最优性.通过构建三种神经网络,给出全局二次启发式动态规划技术及其详细的实现过程,其中执行网络是在神经动态规划的框架下进行训练.这种新颖的结构可以近似代价函数及其导函数,同时在不依赖系统动态的情况下自适应地学习近似最优控制律.值得注意的是,这在降低对于控制矩阵或者其神经网络表示的要求方面,明显地改进了迭代自适应动态规划算法的现有结果,能够促进复杂非线性系统基于数据的优化与控制设计的发展.通过两个仿真实验,验证本文提出的数据驱动最优调节方法的有效性.

本文责任编委 侯忠生

English Abstract

王鼎, 穆朝絮, 刘德荣. 基于迭代神经动态规划的数据驱动非线性近似最优调节. 自动化学报, 2017, 43(3): 366-375. doi: 10.16383/j.aas.2017.c160272
引用本文: 王鼎, 穆朝絮, 刘德荣. 基于迭代神经动态规划的数据驱动非线性近似最优调节. 自动化学报, 2017, 43(3): 366-375. doi: 10.16383/j.aas.2017.c160272
WANG Ding, MU Chao-Xu, LIU De-Rong. Data-driven Nonlinear Near-optimal Regulation Based on Iterative Neural Dynamic Programming. ACTA AUTOMATICA SINICA, 2017, 43(3): 366-375. doi: 10.16383/j.aas.2017.c160272
Citation: WANG Ding, MU Chao-Xu, LIU De-Rong. Data-driven Nonlinear Near-optimal Regulation Based on Iterative Neural Dynamic Programming. ACTA AUTOMATICA SINICA, 2017, 43(3): 366-375. doi: 10.16383/j.aas.2017.c160272
  • 最优控制研究如何设计控制器使得系统的性能指标达到最优.它广泛存在于工程技术和社会生活中, 是现代控制理论的重要内容之一.与线性系统的最优控制问题需要求解Riccati方程不同, 研究非线性系统的最优控制通常需要求解非线性Hamilton-Jacobi-Bellman (HJB) 方程.例如, 对于离散时间非线性系统而言, 这一过程就包含求解非线性偏微分方程, 这在很多情况下是难以实现的.虽然动态规划是求解最优控制问题的经典方法, 但是其后向求解的特点往往导致“维数灾”现象的发生[1], 同时这种后向求解模式也不利于该方法的实际应用.于是, 基于人工神经网络良好的自适应、自学习等特性, 自适应 (或者近似) 动态规划 (Adaptive/approximate dynamic programming, ADP) 方法应运而生[2].文献[3-5]针对ADP方法的基本原理、实现结构和目前的发展状况, 给出了阶段性总结与研究展望, 并且指出ADP实际上是一种有效的数据驱动方法[5-6].根据文献[2]和文献[7], 可以将ADP方法划分为三种主要结构: 1) 启发式动态规划 (Heuristic dynamic programming, HDP); 2) 二次启发式动态规划 (Dual heuristic dynamic programming, DHP); 3) 全局二次启发式动态规划 (Globalized DHP, GDHP).在与上述内容相关的三种执行依赖结构 (Action-dependent) 中, 执行依赖HDP类似于机器学习领域的Q-学习 (Q-learning) [8].另外, Si和Wang [9]提出的神经动态规划也是一种类似于执行依赖HDP的在线学习控制方法, 具有容易实现、在线优化、不依赖被控对象模型等特点, 对于ADP结构的发展产生了很大的影响.但是, 值得注意的是, 上述神经动态规划方法的重点在于强调控制系统的在线学习与优化设计, 没有从理论上证明控制算法的收敛性, 因此可以看到, 实验结果的成功具有一定的概率.

    近年来, 正在兴起的许多社会和工程新技术的重要特点是拥有实时海量的大数据信息[10].在大数据技术快速发展的背景下, 随着对数据驱动思想和类脑学习理念的深入研究, ADP已经发展成为进行智能控制与优化设计的有效途径, 因此受到了许多学者的重视.针对离散时间系统[11-20]和连续时间系统[21-26], 这种基于数据的自学习控制都取得了丰硕的研究成果. Al-Tamimi等[11]针对离散时间仿射非线性系统$x_{k+1}=f (x_{k})+g (x_{k}) u_{k}$, 首次提出基于贪婪迭代的HDP算法研究无限时间最优控制设计, 创造性地将求解代数方程的迭代思想引入ADP方法的框架之中.这促进了迭代ADP算法的快速发展, 由此涌现出大量的研究成果[12-19].在基本的迭代ADP算法中, 一般需要构建两个神经网络, 即评判网络和执行网络, 分别用以近似代价函数和控制函数.然后利用特定的最优化算法, 通过在迭代过程中不断更新神经网络的权值矩阵, 从而自适应地学习最优权值.值得一提的是, Wang等[14]针对有限时间域上的非线性最优控制问题, 提出迭代$\varepsilon$-ADP算法, 得到和文献[11]不同的收敛性结论, 从全新的角度诠释迭代ADP算法的精髓.但是, 也应该注意到, 在现有的迭代ADP算法中, 针对执行网络的训练大多数依赖于控制矩阵$g (x_{k})$的直接信息或者其神经网络表示, 也就是在一定程度上依赖于系统动态.于是, Zhong等[19]提出一种新的目标导向型 (Goal representation) ADP结构求解非线性系统的在线优化控制, 以发展神经动态规划的结论, 放松对系统动态的要求, 但是基于HDP的实现结构导致评判网络不能直接输出代价函数的导函数信息, 而且HDP结构的控制效果也有待改进.实际上, 已有的研究表明, 在ADP方法的实现结构中, DHP和GDHP会在一定程度上得到比HDP更好的控制效果[12, 16].总的来说, 虽然基于ADP的非线性系统最优控制研究已经取得了很大的进展, 但是仍然缺少基于GDHP实现结构的迭代意义下神经动态规划的报道, 因此对于现有执行网络的更新方法也鲜有改进.基于此, 本文提出一种基于迭代神经动态规划的离散时间非线性系统数据驱动近似最优控制方法, 旨在改进执行网络的训练方法, 进一步降低迭代ADP算法对于控制系统动态模型的依赖, 促进基于数据的复杂非线性系统优化控制的发展.

    • 考虑离散时间非线性系统

      $$ \label{ch06001} x_{k+1}=F(x_k, u_k), \ \ k=0, 1, 2, \cdots $$ (1)

      其中, $k$是描述系统运行轨迹的时间步骤, $x_k=[x_{1k}$, $x_{2k}, \cdots, x_{nk}]^{{\rm T}}\in \Omega_{x} \subset { \bf \boldsymbol{R}}^n$为系统的状态向量, $u_k$ $=$ $[u_{1k}, u_{2k}, \cdots, u_{mk}]^{{\rm T}}\in \Omega_{u} \subset {\bf \boldsymbol{R}}^m$为系统的控制向量.我们设定时间步骤$k=0$时的状态$x_0=[x_{10}$, $x_{20}$, $\cdots$, $x_{n0}]^{{\rm T}}$为被控系统的初始状态向量.这里, 式 (1) 描述的是一般意义下的离散时间非线性系统.容易知道, 具有仿射形式的非线性系统, 即$x_{k+1}$ $=$ $f (x_{k})+g (x_{k}) u_{k}$, 其中, $g (x_{k})$为控制矩阵, 是系统 (1) 的一种特殊情况.这里给出下面两个基本假设[11-12, 16].

      假设1.动态函数$F (\cdot, \cdot)$在属于${\bf \boldsymbol{R}}^{n}$并且包含原点的集合$\Omega_{x}$上Lipschitz连续且有$F (0, 0)=0$, 因此, $x=0$是系统 (1) 在控制$u=0$时的一个平衡状态.

      假设2.动态系统 (1) 可控, 即在集合$\Omega_{u}$中存在一个能够渐近镇定被控系统的连续控制律, 使得在其作用下产生的控制输入序列能够将系统从初始状态转移到平衡状态.

      本文研究无限时间域上的最优调节器设计问题.这里, 最优调节的目标是设计一个状态反馈控制律$u (x)$, 将系统从初始状态$x_{0}$镇定到平衡状态, 同时使得在其作用下的 (无限时间) 代价函数

      $$ J({{x}_{k}})=\sum\limits_{p=k}^{\infty }{{{\gamma }^{p-k}}}U({{x}_{p}},{{u}_{p}}) $$ (2)

      达到最小, 其中, $U$是效用函数, $U (0, 0)=0$, 且对于任意的$x_p$, $u_p$, 有$U (x_p, u_p)\ge 0$, 折扣因子$\gamma$满足$0 < \gamma \leq 1$.方便讨论起见, 选取二次型形式的效用函数$ U (x_p, u_p)=x_{p}^{{\rm T}}Qx_{p}+u_{p}^{{\rm T}}Ru_{p}$, 其中, $Q$和$R$为正定矩阵.事实上, 对于最优控制问题, 待设计的反馈控制律不仅能够在$\Omega_{x}$上镇定被控系统, 而且使得相应的代价函数有限, 这就是容许控制的概念[11-12, 16].

      根据经典的最优控制理论, 最优代价函数

      $$ {J^*}({x_k}) = \mathop {\min }\limits_{_{{u_k},{u_{k + 1}}, \cdots ,{u_\infty }}} \sum\limits_{p = k}^\infty {{\gamma ^{p - k}}} U({x_p},{u_p}) $$

      可以写为

      $$ \begin{array}{*{20}{l}} {{J^*}({x_k}) = \mathop {\min }\limits_{{u_k}} {\mkern 1mu} \{ U({x_k},{u_k}) + }\\ {\;\;\;\;\;\;\;\;\;\;\;\;\;\gamma \mathop {\min }\limits_{{u_{k + 1}},{u_{k + 2}}, \cdots ,{u_\infty }} {\mkern 1mu} \sum\limits_{p = k + 1}^\infty {{\gamma ^{p - k - 1}}} U({x_p},{u_p})\} } \end{array} $$

      于是, $J^{\ast}(x_{k})$满足离散时间HJB方程

      $$ {J^*}({x_k}) = \mathop {\min }\limits_{{u_k}} \left\{ {U({x_k},{u_k}) + \gamma {J^*}({x_{k + 1}})} \right\} $$ (3)

      相应的最优控制为

      $$ u^{\ast}(x_{k})=\arg\mathop {\min }\limits_{{u_k}} \left\{U(x_{k}, u_{k})+\gamma J^{\ast}(x_{k+1})\right\} $$ (4)

      注1.通过式 (4) 发现, 求解当前时刻$k$的最优控制$u^{*}$, 需要得到最优代价$J^{*}$, 但是却与系统下一时刻的状态向量$x_{k+1}$有关, 这在当前时刻是不能做到的.因此, 在难以得到HJB方程解析解的情况下, 有必要研究如何获得其近似解. ADP以及随后出现的迭代ADP算法, 就是为了克服这些难题而提出的近似求解方法.

    • 根据迭代ADP算法的基本思想[11-13, 16], 需要构建两个序列, 即代价函数序列$\{V_{i}(x_{k})\}$和控制律序列$\{v_{i}(x_{k})\}$, 通过迭代运算得到收敛性结论.这里, 记$i$为迭代指标, 并初始化代价函数$ V_{0}(\cdot)=0$.对于$i=0, 1, \cdots$, 迭代过程包括不断计算控制律

      $$ \begin{array}{l} {v_i}({x_k}) = \arg \mathop {\min }\limits_{{u_k}} \{ U({x_k}, {u_k}) + \gamma {V_i}({x_{k + 1}})\} = \\ \;\;\;\;\;\;\;\;\;\;\;\;\arg \mathop {\min }\limits_{{u_k}} \{ U({x_k}, {u_k}) + \gamma {V_i}(F({x_k}, {u_k}))\} \end{array} $$ (5)

      和更新代价函数

      $$ \begin{array}{l} {V_{i + 1}}({x_k}) = \mathop {\min }\limits_{{u_k}} \{ U({x_k}, {u_k}) + \gamma {V_i}({x_{k + 1}})\} = \\ \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;U({x_k}, {v_i}({x_k})) + \gamma {V_i}(F({x_k}, {v_i}({x_k}))) \end{array} $$ (6)

      直到算法收敛 (当$i\rightarrow\infty$时, 有$V_{i}\rightarrow J^{*}$和$v_{i}$ $\rightarrow$ $u^{*}$).

      在证明上述迭代算法的收敛性与最优性之前, 首先给出下面两个引理[11-12, 16].

      引理1. (有界性)定义代价函数序列$\{V_{i}(x_{k})\}$如式 (6) 所示.如果系统可控, 则存在一个上界$Y$使得对于任意的$i$, 都有$0\leq V_{i}(x_{k}) \leq Y$成立.

      引理2. (单调性)定义代价函数序列$\{V_{i}(x_{k})\}$如式 (6) 所示且有$V_{0}(\cdot)=0$, 同时定义控制律序列$\{v_{i}(x_{k})\}$如式 5所示.那么, $\{V_{i}(x_{k})\}$是一个单调非减序列, 即$0 \leq V_{i}(x_{k})\leq V_{i+1}(x_{k})$, $\forall i$.

      定理1.定义代价函数序列$\{V_{i}(x_{k})\}$如式 (6) 所示, 且$V_{0}(\cdot)=0$, 控制律序列$\{v_{i}(x_{k})\}$如式 (5) 所示.执行迭代ADP算法, 代价函数序列$\{V_{i}(x_{k})\}$收敛于离散时间HJB方程中的最优代价函数$J^{*}(x_{k})$, 即当$i\rightarrow \infty$时, 有$V_{i}(x_{k}) \to J^{*}(x_{k})$.相应地, 当$i$ $\rightarrow$ $\infty$时, $\{v_{i}(x_{k})\}$收敛于最优控制律$u^{*}(x_{k})$, 即$ \lim_{i\rightarrow \infty}v_{i}(x_{k})$ $=$ $u^{*}(x_{k})$.

      证明.根据引理1和引理2, 代价函数序列$\{V_{i}(x_{k})\}$单调非减且有上界, 所以, 它的极限存在.定义$\lim_{i \to \infty} V_{i}(x_{k})=V_{\infty}(x_{k}) $为其极限.

      一方面, 对于任意的$u_{k}$和$i$, 根据式 (6), 可得

      $$ \label{ch03044} V_{i}(x_{k})\leq U(x_{k}, u_{k})+\gamma V_{i-1}(x_{k+1}) $$ (7)

      由引理2, 对于任意的$i$, 都有$ V_{i}(x_{k})\leq V_{\infty}(x_{k})$成立.因此, 式 (7) 变为

      $$ V_{i}(x_{k})\leq U(x_{k}, u_{k})+\gamma V_{\infty}(x_{k+1}), ~\forall i $$

      令$i \to \infty$, 则

      $$ \label{ch03047} V_{\infty}(x_{k})\leq U(x_{k}, u_{k})+\gamma V_{\infty}(x_{k+1}) $$ (8)

      考虑到式 (8) 中的控制向量$u_{k}$是任意的, 可以得到

      $$ \label{ch03048} V_{\infty}(x_{k})\leq\mathop {\min }\limits_{{u_k}} \left\{U(x_{k}, u_{k})+\gamma V_{\infty}(x_{k+1})\right\} $$ (9)

      另一方面, 由于对任意的$i$, 迭代过程中的代价函数满足

      $$ V_{i}(x_{k})=\mathop {\min }\limits_{{u_k}} \big\{U(x_{k}, u_{k})+\gamma V_{i-1}(x_{k+1})\big\} $$

      再次考虑$ V_{i}(x_{k})\leq V_{\infty}(x_{k})$, 我们有

      $$ V_{\infty}(x_{k})\geq\mathop {\min }\limits_{{u_k}} \big\{U(x_{k}, u_{k})+\gamma V_{i-1}(x_{k+1})\big\}, ~\forall i $$

      令$i \to \infty$, 则

      $$ V_{\infty}(x_{k})\geq\mathop {\min }\limits_{{u_k}} \big\{U(x_{k}, u_{k})+\gamma V_{\infty}(x_{k+1})\big\} $$ (10)

      结合式 (9) 和式 (10), 可以得到

      $$ V_{\infty}(x_{k})=\mathop {\min }\limits_{{u_k}} \left\{U(x_{k}, u_{k})+\gamma V_{\infty}(x_{k+1})\right\} $$

      同样地, 记$ \lim_{i \to \infty} v_{i}(x_{k})=v_{\infty}(x_{k})$为控制律序列$\{v_{i}(x_{k})\}$的极限.根据式 (5) 和式 (6), 有

      $$ \begin{array}{l} {V_\infty }({x_k}) = \mathop {\min }\limits_{{u_k}} \{ U({x_k}, {u_k}) + \gamma {V_\infty }({x_{k + 1}})\} = \\ \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;U({x_k}, {v_\infty }({x_k})) + \gamma {V_\infty }(F({x_k}, {v_\infty }({x_k}))) \end{array} $$ (11)

      其中,

      $$ {v_\infty }({x_k}) = \arg \mathop {\min }\limits_{{u_k}} \{ U({x_k},{u_k}) + \gamma {V_\infty }({x_{k + 1}})\} $$ (12)

      注意式 (11) 和式 (3), 同时注意式 (12) 和式 (4), 可以得到, $V_{\infty}(x_{k})=J^{*}(x_{k})$和$v_{\infty}(x_{k})=u^{*}(x_{k})$, 即, ${\lim _{i \to \infty }}V_{i}(x_{k})=J^*(x_k)$且${\lim _{i \to \infty }}v_{i}(x_{k})=$ $u^*(x_k)$.由此验证了迭代算法的收敛性和最终得到的控制律的最优性.

      注2.利用迭代代价函数的表达式 (6), 依据迭代指标$i$逐次进行递推, 我们有

      $$ \begin{array}{l} {V_{i + 1}}({x_k}) = U({x_k}, {v_i}({x_k})) + \gamma {V_i}({x_{k + 1}})\\ {V_i}({x_{k + 1}}) = U({x_{k + 1}}, {v_{i-1}}({x_{k + 1}})) + \gamma {V_{i-1}}({x_{k + 2}})\\ \;\;\;\;\;\;\;\;\;\;\;\; \vdots \\ {V_1}({x_{k + i}}) = U({x_{k + i}}, {v_0}({x_{k + i}})) + \gamma {V_0}({x_{k + i + 1}}) \end{array} $$

      进而, 考虑到$V_{0}(x_{k+i+1})=0$这一事实, 可以将迭代代价函数$V_{i+1}(x_{k})$写成关于效用函数加和的形式

      $$ {V_{i + 1}}({x_k}) = \sum\limits_{l = 0}^i {{\gamma ^l}} U({x_{k + l}}, {v_{i-l}}({x_{k + l}})) $$ (13)

      观察式 (13) 可以发现, 在迭代代价函数$ V_{i+1}(x_{k})$中, 构成效用函数的控制输入序列是由一个控制律组$(v_{i}, v_{i-1}, \cdots, v_{0})$产生的, 即其中的每一个控制输入都依赖于不同的控制律, 因此控制输入是$v_{i-l}(x_{k+l})$的形式, 其中, $l=0, 1, \cdots, i$.尽管如此, 最终作用到被控对象的控制律, 是经过上述迭代算法之后得到的收敛的 (状态反馈) 控制律.事实上, 根据定理1和容许控制的概念, 最终得到的$v_{\infty}$ $=$ $u^{*}$是一个可以镇定系统的稳定控制.在其作用下, 将会产生一个控制输入序列, 实现被控非线性系统的最优调节.

    • 由于这里研究的被控对象是一般的非线性系统, 难以直接求解HJB方程.虽然通过执行迭代ADP算法 (5) 和 (6), 可以从理论上得到最优控制律和最优代价函数, 但是迭代控制律和代价函数的信息是不能精确获得的, 而且进行迭代运算需要被控系统的近似动态信息.所以, 利用函数近似结构 (例如神经网络) 来重构系统动态以及$v_{i}(x_{k})$和$V_{i}(x_{k})$.这里, 将基于神经动态规划思想的迭代ADP算法称为迭代神经动态规划方法.本节给出基于GDHP技术的迭代神经动态规划实现方案, 包含构建三种神经网络, 即模型网络、评判网络和执行网络.

    • 为了不依赖被控系统的动态信息$F (x_{k}, u_{k})$, 在执行主要的迭代过程之前, 首先构建一个模型网络并记隐藏层神经元个数为$N_{m}$, 输入层到隐藏层的权值矩阵为$\nu_{m}\in \boldsymbol{R}^{ (n+m) \times N_{m}}$, 隐藏层到输出层的权值矩阵为$\omega_{m}\in \boldsymbol{R}^{N_{m} \times n }$.输入状态向量$x_{k}$和近似的控制向量$\hat{v}_{i}(x_{k})$如下文所示, 模型网络的输出为

      $$ \hat x_{k + 1} = \omega _m^{\rm{T}}\sigma \left( {\nu _m^{\rm{T}}{{[x_k^{\rm{T}}, \hat v_i^{\rm{T}}({x_k})]}^{\rm{T}}}} \right) $$

      其中, $ \sigma (\cdot) \in \boldsymbol{R}^{N_{m}}$为激活函数 (下同).模型网络的误差函数为$ e_{mk}=\hat{x}_{k+1}-x_{k+1} $, 训练目标函数为$ E_{mk}$ $=$ $(1/2) e^{{\rm T}}_{mk}e_{mk}.$利用梯度下降法更新模型网络的权值矩阵

      $$ \begin{array}{l} \omega _m^{(j + 1)} = \omega _m^{(j)}- {\alpha _m}\left[{\frac{{\partial {E_{mk}}}}{{\partial \omega _m^{(j)}}}} \right]\\ \nu _m^{(j + 1)} = \nu _m^{(j)} - {\alpha _m}\left[{\frac{{\partial {E_{mk}}}}{{\partial \nu _m^{(j)}}}} \right] \end{array} $$

      其中, $\alpha_{m}>0$是模型网络的学习率且$j$是训练权值参数的迭代指标.当模型网络经过充分学习之后, 保持其权值不再改变, 并开始执行迭代神经动态规划的主要步骤, 即训练评判网络和执行网络.

    • 评判网络的作用是近似代价函数$V_{i}(x_{k})$及其偏导数$\frac{\partial V_{i}(x_{k})}{\partial x_{k}}$ (称为协函数, 记为$\lambda_{i}(x_{k})$, 即$\lambda_{i}(x_{k})$ $:=$ $\frac{\partial V_{i}(x_{k})}{\partial x_{k}}$.根据定理1, 当$i \rightarrow \infty$时, $V_{i}(x_{k})$ $\rightarrow$ $J^{*}(x_{k})$.由于$\lambda_{i}(x_{k})=\frac{\partial V_{i}(x_{k}) }{ \partial x_{k}}$, 则相应的协函数序列$\{\lambda_{i}(x_{k})\}$在$i \rightarrow \infty$时也是收敛的, 即$\lambda_{i}(x_{k})$ $\rightarrow$ $\lambda^{*}(x_{k})$.这在仿真研究中也会得到验证.

      设评判网络的隐藏层神经元个数为$N_{c}$, 输入层到隐藏层的权值矩阵为$\nu_{c}\in \boldsymbol{R}^{ n \times N_{c}}$, 隐藏层到输出层的权值矩阵为$\omega_{c}\in \boldsymbol{R}^{N_{c} \times (n+m) }$.在进行第$i$次迭代时, 可以将权值矩阵写为$\nu_{ci}$和$\omega_{ci}$, 于是, 评判网络的输出为

      $$ \left[{\begin{array}{*{20}{c}} {{{\hat V}_i}({x_k})}\\ {{{\hat \lambda }_i}({x_k})} \end{array}} \right] = \left[{\begin{array}{*{20}{c}} {\omega _{ci}^{V{\rm{T}}}}\\ {\omega _{ci}^{\lambda {\rm{T}}}} \end{array}} \right]\sigma \left( {\nu _{ci}^{\rm{T}}{x_k}} \right) = \omega _{ci}^{\rm{T}}\sigma \left( {\nu _{ci}^{\rm{T}}{x_k}} \right) $$

      其中, $ \omega_{ci}=\big[\omega_{ci}^{V}, \omega_{ci}^{\lambda}\big]$.展开来写, 有

      $$ \begin{array}{*{20}{l}} {{{\hat V}_i}({x_k})}&{ = \omega _{ci}^{V{\rm{T}}}\sigma \left( {\nu _{ci}^{\rm{T}}{x_k}} \right)}\\ {{{\hat \lambda }_i}({x_k})}&{ = \omega _{ci}^{\lambda {\rm{T}}}\sigma \left( {\nu _{ci}^{\rm{T}}{x_k}} \right)} \end{array} $$

      这里, GDHP技术中评判网络的结构如图 1所示.可以看出, 它将HDP和DHP技术中的评判网络进行了融合.

      图  1  评判网络结构

      Figure 1.  The architecture of critic network

      在GDHP实现结构中, 评判网络的训练目标由代价函数和协函数两部分组成, 即

      $$ \begin{array}{l} {V_i}({x_k}) = U({x_k}, {{\hat v}_{i-1}}({x_k})) + \gamma {{\hat V}_{i-1}}({{\hat x}_{k + 1}})\\ {\lambda _i}({x_k}) = 2Q{x_k} + 2{(\frac{{\partial {{\hat v}_{i-1}}({x_k})}}{{\partial {x_k}}})^{\rm{T}}}R{{\hat v}_{i - 1}}({x_k}) + \\ \;\;\;\;\;\;\;\;\;\;\;\;\gamma {(\frac{{\partial {{\hat x}_{k + 1}}}}{{\partial {x_k}}} + \frac{{\partial {{\hat x}_{k + 1}}}}{{\partial {{\hat v}_{i - 1}}({x_k})}}\frac{{\partial {{\hat v}_{i - 1}}({x_k})}}{{\partial {x_k}}})^{\rm{T}}} \times \\ \;\;\;\;\;\;\;\;\;\;\;\;{{\hat \lambda }_{i - 1}}({{\hat x}_{k + 1}})\; \end{array} $$

      训练过程的误差函数包括两项, 即$ e_{cik}^{V}=$ $\hat{V}_{i}(x_{k})$ $-$ $V_{i}(x_{k})$, $e_{cik}^{\lambda}=\hat{\lambda}_{i}(x_{k})-\lambda_{i}(x_{k})$, 而需要最小化的目标函数为

      $$ {E_{cik}} = (1-\beta )E_{cik}^V + \beta E_{cik}^\lambda $$

      其中, $ E_{cik}^{V}=(1/2) e_{cik}^{V{\rm T}}e_{cik}^{V}$, $ E_{cik}^{\lambda}=(1/2) e_{cik}^{\lambda{\rm T}}e_{cik}^{\lambda}.$利用梯度下降法更新评判网络的权值矩阵, 即

      $$ \begin{array}{l} \omega _{ci}^{(j + 1)}{\rm{ = }}\omega _{ci}^{(j)}- {\alpha _c}\left[{(1-\beta )\frac{{\partial E_{cik}^V}}{{\partial \omega _{ci}^{(j)}}} + \beta \frac{{\partial E_{cik}^\lambda }}{{\partial \omega _{ci}^{(j)}}}} \right]\\ \nu _{ci}^{(j + 1)}{\rm{ = }}\nu _{ci}^{(j)} - {\alpha _c}\left[{(1-\beta )\frac{{\partial E_{cik}^V}}{{\partial \nu _{ci}^{(j)}}} + \beta \frac{{\partial E_{cik}^\lambda }}{{\partial \nu _{ci}^{(j)}}}} \right] \end{array} $$

      其中, $\alpha_{c}>0$为评判网络的学习率, $j$为更新权值参数的迭代指标, $0 \leq \beta \leq1$是一个常数, 反映HDP和DHP在GDHP技术中相结合的权重大小.

      注3.这里采用的GDHP技术综合了HDP能够直接输出代价函数和DHP控制效果好的优点.虽然引入协函数会在一定程度上增加计算复杂度, 但是可以获得比初等的ADP方法 (例如HDP) 更好的运行效果.

    • 构建执行网络的作用是近似控制律, 设其隐藏层神经元个数为$N_{a}$, 输入层到隐藏层的权值矩阵为$\nu_{a}$ $\in$ $\boldsymbol{R}^{ n \times N_{a}}$, 隐藏层到输出层的权值矩阵为$\omega_{a}\in$ $\boldsymbol{R}^{N_{a} \times m}$.在上述的迭代环境下, 我们将权值矩阵写成$\nu_{a (i-1)}$和$\omega_{a (i-1)}$的形式, 则执行网络的输出为

      $$ \hat{v}_{i-1}(x_{k})=\omega_{a(i-1)}^{{\rm T}}\sigma\left(\nu_{a(i-1)}^{{\rm T}}x_{k}\right) $$

      这里, 误差函数定义为$e_{a (i-1) k}=\hat{V}_{i-1}(x_{k+1})-S_{k}$, 其中, $S_{k}=0$是$\hat{V}_{i-1}(x_{k+1})$的目标值, 需要最小化的目标函数为$ E_{a (i-1) k}=(1/2) e_{a (i-1) k}^{{\rm T}}e_{a (i-1) k}. $在这种设置下, 执行网络输出合适的控制律, 使得系统的代价函数达到最小.执行网络的权值更新算法仍然为梯度下降法, 即

      $$ \begin{array}{l} \omega _{a(i- 1)}^{(j + 1)} = \omega _{a(i- 1)}^{(j)}- {\alpha _a}\left[{\frac{{\partial {E_{a(i-1)k}}}}{{\partial \omega _{a(i-1)}^{(j)}}}} \right]\\ \nu _{a(i - 1)}^{(j + 1)} = \nu _{a(i - 1)}^{(j)} - {\alpha _a}\left[{\frac{{\partial {E_{a(i-1)k}}}}{{\partial \nu _{a(i-1)}^{(j)}}}} \right] \end{array} $$

      其中, $\alpha_{a}>0$是执行网络的学习率, $j$是更新权值参数的迭代指标.

      总的来说, 本文提出的迭代神经动态规划的结构如图 2所示, 其中, 模块$\gamma\text{DX}$表示$\hat{x}_{k+1}$关于$x_{k}$的偏导数计算结果$n \times n$方阵的$\gamma$倍.

      图  2  迭代神经动态规划结构

      Figure 2.  The architecture of iterative neural dynamic programming

      注4.传统的迭代ADP算法, 例如文献[11-18], 在训练执行网络时需要利用控制矩阵的直接信息或者其神经网络表示.其中, 针对仿射系统[11-13, 15, 17], 需要系统控制矩阵的直接信息$g (x_{k})$ [11, 12, 17], 或者辨识控制矩阵得到其近似表示$\hat{g}(x_{k})$ [13, 15]; 针对非仿射系统[14, 16, 18], 也需要神经网络表示.那样, 执行网络的训练目标为

      $$ {v_{i-1}}({x_k}) =-\frac{\gamma }{2}{R^{-1}}{\hat g^{\rm{T}}}({x_k}){\hat \lambda _{i - 1}}({\hat x_{k + 1}}) $$

      误差函数定义为$ \bar{e}_{a (i-1) k}=\hat{v}_{i-1}(x_{k})-v_{i-1}(x_{k}), $在此基础上训练执行网络.这样的实现方法, 很大程度上依赖于控制系统的动态信息, 尤其是控制矩阵的信息.这里提出的迭代神经动态规划方法, 不仅沿用迭代ADP算法的基本框架, 能够保证迭代算法的收敛性; 而且引入神经动态规划的思想, 放松对系统动态的要求, 所以更利于达到数据驱动控制的目的.

    • 设$x_{k}$为任意可控状态, $J^{*}(x_{k})$为最优代价函数.根据定理1中的收敛性结论, 当迭代指标$i \rightarrow \infty$时, $V_{i}(x_{k}) \rightarrow J^{*}(x_{k})$.但是, 在计算机实现中, 不可能无限地执行迭代算法.从工程应用角度来看, 我们更关心是否存在一个有限的$i$, 使得

      $$ |{J^*}({x_k})-{V_i}({x_k})| \le \varepsilon $$

      成立.因此, 将$J^{*}(x_{k})$和$V_{i}(x_{k})$之间的误差$\varepsilon$引入迭代ADP算法, 使得代价函数序列$\{V_{i}(x_{k})\}$能够在经过有限次迭代之后收敛.从这个角度来看, 这里设计的控制器实现了对被控系统近似最优调节的目的.实际上, 这种近似意义上的收敛, 能够满足一般的设计需求; 也是ADP方法在无法精确求解HJB方程的背景下, 进行近似最优控制设计的体现.

      但是, 也应该看到, 在一般情况下, 最优代价函数$J^{*}(x_{k})$事先未知, 难以利用停止准则 (14) 来验证迭代算法是否达到要求.因此, 这里提出一种相对容易判定的算法停止准则, 即

      $$ |{V_{i + 1}}({x_k})-{V_i}({x_k})| \le \varepsilon $$ (15)

      定理2.对于非线性系统 (1) 和代价函数 (\ref{ch06002}), 在使用迭代神经动态规划方法时, 由式 (14) 和式 (15) 描述的两种收敛性准则是等价的.

      证明.一方面, 若$|J^{*}(x_{k})-V_{i}(x_{k})| \leq \varepsilon$成立, 则有$J^{*}(x_{k}) \leq V_{i}(x_{k})+\varepsilon$.根据引理2和定理1可知$ V_{i}(x_{k}) \leq V_{i+1}(x_{k})\leq J^{*}(x_{k})$成立.于是, 有$ V_{i}(x_{k})\leq V_{i+1}(x_{k}) \leq V_{i}(x_{k})+\varepsilon$.即, $0\leq V_{i+1}(x_{k})$ $-$ $V_{i}(x_{k})$ $\leq$ $\varepsilon$, 也即式 (15) 成立.

      另一方面, 根据定理1, $| V_{i+1}(x_{k})-V_{i}(x_{k})| \to 0$意味着$V_{i}(x_{k}) \to J^{*}(x_{k})$.这样, 如果对于任意小的$\varepsilon$都有$| V_{i+1}(x_{k})-V_{i}(x_{k})|\leq \varepsilon$成立, 则当$i$相当大时, $|J^{*}(x_{k})-V_{i}(x_{k})| \leq \varepsilon$成立.由此证明了两种准则的等价性.

      考虑到神经网络的近似作用, 在具体的实现过程中, 采用近似的代价函数构建停止准则, 即$|\hat{V}_{i+1}(x_{k})-\hat{V}_{i}(x_{k})| \leq \varepsilon$.这里给出利用迭代神经动态规划方法设计非线性系统近似最优调节器的具体步骤, 如算法1所示.

      算法1.迭代神经动态规划方法

      步骤1.设置算法的最大迭代次数$i_{\max}$和计算精度$\varepsilon$.选取被控系统的初始状态$x_{0}$和效用函数中的权值矩阵$Q$和$R$.初始化三种神经网络的权值矩阵.

      步骤2.基于系统输入/输出数据, 构建并训练模型网络, 充分学习系统动态, 固定并输出最终权值.

      步骤3.令$i=0$, 选取初始代价函数$\hat{V}_{0}(x_{k})=0$, 并直接计算初始控制律$\hat{v}_{0}(x_{k})$.

      步骤4.构建评判网络并更新其权值矩阵, 输出代价函数$\hat{V}_{1}(x_{k})$及其偏导数$\hat{\lambda}_{1}(x_{k})$.如果$|\hat{V}_{1}(x_{k})|\leq \varepsilon$, 停止迭代; 否则转到步骤5.

      步骤5.更新迭代指标, 令$i=i+1$.

      步骤6.构建并训练执行网络, 计算近似控制律$\hat{v}_{i}(x_{k})$.

      步骤7.进一步训练评判网络, 近似代价函数$\hat{V}_{i+1}(x_{k})$及其偏导数$\hat{\lambda}_{i+1}(x_{k})$.

      步骤8.如果$| \hat{V}_{i+1}(x_{k})-\hat{V}_{i}(x_{k})|\leq \varepsilon$, 停止迭代, 输出执行网络的最终权值, 转到步骤10;否则, 转到步骤9.

      步骤9.如果$i > i_{\max}$, 停止迭代, 输出执行网络的最终权值, 转到步骤10;否则, 转到步骤5.

      步骤10.利用执行网络的最终权值, 得到实现被控系统近似最优调节的反馈控制律.

      注5.定理2的重要作用在于, 它提供了利用迭代神经动态规划方法实现离散时间非线性系统近似最优调节的具有实用意义的设计准则.因此, 在实际应用中, 我们可以运行算法1得到合理可行的结果.

    • 本节开展两个仿真实验: 1) 针对仿射非线性系统; 2) 针对非仿射形式的一般非线性系统.

      例1.考虑离散时间 (仿射) 非线性系统

      $$ x_{k+1}=\left[\begin{array}{c} 0.2x_{1k}{\rm e}^{x^{2}_{2k}}\\0.3x^{3}_{2k} \end{array}\right]+\left[\begin{array}{c} 0\\1 \end{array}\right]u_{k} $$ (16)

      这是对文献[14]和文献[20]中仿真例子的修改, 其中, $x_{k}=[x_{1k}, x_{2k}]^{{\rm T}}\in \boldsymbol{R}^{2}$和$u_{k}\in {\bf \boldsymbol{R}}$分别是被控系统的状态向量和控制向量.选取二次型形式的效用函数$U (x_k, u_k)=x_{k}^{{\rm T}}x_{k}+u_{k}^{{\rm T}}u_{k}$.

      利用三层反向传播 (Back propagation) 神经网络来构建模型网络、评判网络和执行网络, 且三者的结构分别为3-8-2、2-8-3和2-8-1.激活函数通常选取为

      $$ {[\sigma (\xi )]_j} = \frac{{{{\rm{e}}^{{\xi _j}}} -{{\rm{e}}^{ -{\xi _j}}}}}{{{{\rm{e}}^{{\xi _j}}} + {{\rm{e}}^{ -{\xi _j}}}}} $$

      其中, $\xi$是一个列向量且维数与隐藏层神经元个数相同, $\xi_{j}$代表该向量的第$j$个分量.

      注6.这里对隐藏层神经元个数的设定主要是凭借工程经验, 同时在计算精度要求和计算复杂度之间取得一个折衷方案.

      利用迭代神经动态规划方法, 运行算法1, 首先需要训练模型网络:输入层和隐藏层、隐藏层和输出层之间的权值分别在区间$[-0.5, 0.5]$和$[-0.1, 0.1]$中随机初始化.参数设置 (如学习率) 会在一定程度上影响算法的收敛速度.我们通过实验选取合适的学习率$\alpha_{m}=0.1$, 采集$500$组数据进行学习, 并在训练结束之后保持其权值不再变化.其次, 评判网络和执行网络的初始权值都在区间$[-0.1, 0.1]$中随机选取.然后, 选取折扣因子$\gamma=1$, GDHP技术的调节参数$\beta=0.5$, 在$k=0$时刻执行神经动态规划方法完成59次迭代 (即$i=1, 2, \cdots, 59$), 使得计算误差达到预先定义的精度$10^{-6}$.在每次迭代中, 都对评判网络和执行网络分别进行2 000次训练, 并且学习率参数取为$\alpha_{c}=\alpha_{a}=0.05$.评判网络和执行网络的权值矩阵范数的收敛结果如图 3所示.这里, 我们对比两种不同的实现方法的收敛效果.这种不同主要体现在对执行网络的训练方法上 (如第3.3节和注4所述).对于$k=0$和$x_{0}=[0.5, -1]^{{\rm T}}$, 代价函数及其偏导数序列的收敛过程如图 4所示 (清楚起见, 只刻画前15次迭代的结果), 其中, 星线代表本文提出的迭代神经动态规划方法, 点线代表传统的迭代ADP算法[12-18] (下同).可以发现, 迭代神经动态规划方法在不利用系统动态信息的情况下, 也基本达到了和传统迭代ADP算法一样的收敛效果, 这验证了迭代神经动态规划方法的有效性.

      图  3  权值矩阵范数的收敛过程

      Figure 3.  The convergence process of the norm of weight matrices

      图  4  代价函数及其偏导数的收敛过程

      Figure 4.  The convergence process of the cost function and its derivative

      最后, 对于给定的初始状态$x_{0}=[0.5, -1]^{{\rm T}}$, 我们将基于两种不同实现方法的GDHP近似最优控制律运用于被控对象 (16).在运行15个时间步后得到的系统状态响应曲线及相应的控制曲线分别如图 5图 6所示.由此可以清楚地看到, 采用两种不同的实现方法得到的控制效果是很相近的.这再次验证了融合迭代ADP算法, 神经动态规划思想, 和GDHP技术的优点.

      图  5  系统状态轨迹x

      Figure 5.  The system state trajectory x

      图  6  控制输入轨迹u

      Figure 6.  The control input trajectory u

      例2.考虑离散时间 (非仿射) 非线性系统

      $$ x_{k+1}=-0.5x_{k}^2+\sin(x_{k}+\tanh(u_{k})) $$ (17)

      其中, $x_{k} \in \boldsymbol{R}$和$u_{k}\in \boldsymbol{R}$分别是被控系统的状态向量和控制向量.构建模型网络、评判网络和执行网络, 且三者的结构分别为2-6-1、1-6-2和1-6-1.首先训练模型网络, 得到的最终权值为

      $$ {\nu _m} = {\left[{\begin{array}{*{20}{r}} {-0.3190}&{0.0704}\\ {0.0644}&{0.0348}\\ {0.6628}&{0.5020}\\ {0.8737}&{1.1051}\\ {-0.6330}&{-0.4545}\\ { - 0.3225}&{ - 0.0963} \end{array}} \right]^{\rm{T}}}, {\omega _m} = \left[{\begin{array}{*{20}{r}} {0.2029}\\ {-0.0089}\\ {0.2647}\\ {0.8784}\\ {-0.2180}\\ {0.0828} \end{array}} \right] $$

      对于评判网络和执行网络, 选取初始的权值矩阵分别为

      $$ {\nu _c} = {\left[{\begin{array}{*{20}{r}} {0.0888}\\ {0.0646}\\ {0.0606}\\ {0.0653}\\ {-0.0849}\\ {0.0697} \end{array}} \right]^{\rm{T}}}, {\omega _c} = \left[{\begin{array}{*{20}{r}} {-0.0601}&{-0.0741}\\ {-0.0443}&{ - 0.0398}\\ {0.0768}&{0.0221}\\ {0.0806}&{0.0302}\\ { - 0.0395}&{ - 0.0133}\\ {0.0168}&{0.0798} \end{array}} \right] $$
      $$ {\nu _a} = {\left[{\begin{array}{*{20}{r}} {-0.0723}\\ {0.0565}\\ {-0.0909}\\ {-0.0311}\\ {0.0490}\\ {0.0734} \end{array}} \right]^{\rm{T}}}, {\omega _a} = \left[{\begin{array}{*{20}{r}} {0.0990}\\ {-0.0476}\\ {0.0479}\\ {-0.0581}\\ {0.0101}\\ {-0.0772} \end{array}} \right] $$

      其他参数设置同例1.在$k=0$时刻执行算法1并完成19次迭代, 使得计算误差达到预先定义的精度$10^{-5}$.评判网络和执行网络的权值矩阵范数的收敛结果如图 7所示.对于$k=0$和$x_{0}=0.8$, 代价函数及其偏导数序列的收敛过程如图 8所示.最后, 对于给定的初始状态$x_{0}=0.8$, 利用GDHP技术和迭代神经动态规划方法得到的最优控制律运用于被控对象 (17), 在运行60个时间步后得到的系统状态响应曲线及相应的控制曲线如图 9所示.这些仿真结果验证了迭代神经动态规划设计方法的有效性.

      图  7  权值矩阵范数的收敛过程

      Figure 7.  The convergence process of the norm of weight matrices

      图  8  代价函数及其偏导数的收敛过程

      Figure 8.  The convergence process of the cost function and its derivative

      图  9  系统状态轨迹x和控制输入轨迹u

      Figure 9.  The system state trajectory x and control input trajectory u

    • 本文利用基于数据的思想, 建立针对离散时间非线性系统近似最优调节的迭代神经动态规划方法.提出离散时间非仿射非线性系统的迭代ADP算法并且证明其满足收敛性与最优性.通过构建三种神经网络 (模型网络、评判网络和执行网络), 结合GDHP技术, 给出迭代算法的具体实现步骤.在这种新颖的迭代神经动态规划结构中, 训练执行网络不需要利用系统动态信息, 尤其是仿射非线性系统$x_{k+1}$ $=$ $f (x_{k})+g (x_{k}) u_{k}$中的控制矩阵$g (x_{k})$.这在很大程度上减少了迭代算法对系统动态的依赖, 改进了以往的实现结构.通过仿真研究, 验证了本文建立的数据驱动最优调节器设计策略的有效性.值得注意的是, 本文研究的是无限时间近似最优控制问题.如何将神经动态规划思想与有限时间迭代ADP算法[14]相结合, 改进执行网络的训练方法, 从而将迭代神经动态规划方法推广到有限时间近似最优调节器设计是值得深入研究的主题之一.另外, 本文目前的研究侧重于理论方面的收敛性分析和具体的算法实现,如何将提出的方法应用于实际系统也有待于进一步讨论.

参考文献 (26)

目录

    /

    返回文章
    返回