2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

数据驱动的保证收敛速率最优输出调节

姜艺 范家璐 柴天佑

姜艺, 范家璐, 柴天佑. 数据驱动的保证收敛速率最优输出调节. 自动化学报, 2022, 48(4): 980−991 doi: 10.16383/j.aas.c200932
引用本文: 姜艺, 范家璐, 柴天佑. 数据驱动的保证收敛速率最优输出调节. 自动化学报, 2022, 48(4): 980−991 doi: 10.16383/j.aas.c200932
Jiang Yi, Fan Jia-Lu, Chai Tian-You. Data-driven optimal output regulation with assured convergence rate. Acta Automatica Sinica, 2022, 48(4): 980−991 doi: 10.16383/j.aas.c200932
Citation: Jiang Yi, Fan Jia-Lu, Chai Tian-You. Data-driven optimal output regulation with assured convergence rate. Acta Automatica Sinica, 2022, 48(4): 980−991 doi: 10.16383/j.aas.c200932

数据驱动的保证收敛速率最优输出调节

doi: 10.16383/j.aas.c200932
基金项目: 国家自然科学基金 (61991404, 61991403, 61991400, 61533015), 中央高校基本科研专项资金 (N180804001), 2020年度辽宁省科技重大专项计划 (2020JH1/10100008)资助
详细信息
    作者简介:

    姜艺:2020年获东北大学控制理论与控制工程博士学位. 主要研究方向为工业过程运行控制,网络控制,自适应动制,网络控制,自适应动态规划和强化学习. E-mail: yjian22@cityu.edu.hk

    范家璐:东北大学流程工业综合自动化国家重点实验室副教授. 2011 年获浙江大学控制科学与工程系博士学位,2009至2010年美国宾夕法尼亚州立大学访问学者. 主要研究方向为工业过程运行控制,工业无线传感器网络与移动社会网络. E-mail: jlfan@mail.neu.edu.cn

    柴天佑:中国工程院院士, 东北大学教授.1985年获东北大学博士学位. 主要研究方向为自适应控制, 智能解耦控制, 流程工业综台自动化理论和方法与技术. 本文通信作者. E-mail: tychai@mail.neu.edu.cn

Data-driven Optimal Output Regulation With Assured Convergence Rate

Funds: Supported by National Natural Science Foundation of China (61991404, 61991403, 61991400, 61533015), the Fundamental Research Funds for the Central Universities (N180804001) and 2020 Science and Technology Major Project of Liaoning Province (2020JH1/10100008)
More Information
    Author Bio:

    JIANG Yi He received his Ph. D. degree in Control Theory and Engineering from Northeastern University in 2020. His research interest covers industrial process operational control, networked control, adaptive dynamic programming and reinforcement learning

    FAN Jia-Lu Associate professor at the State Key Laboratory of Synthetical Automation for Process Industries, Northeastern University. She received her Ph. D. degree from Zhejiang University in 2011. She was a visiting scholar at Pennsylvania State University during 2009 to 2010. Her research interest covers networked operational control, industrial wireless sensor networks and mobile social networks

    CHAI Tian-You Academician of Chinese Academy of Engineering, professor at Northeastern University. He received his Ph. D. degree from Northeastern University in 1985. His research interest covers adaptive control, intelligent decoupling control and integrated automation theory, method and technology of industrial process. Corresponding author of this paper

  • 摘要: 针对具有外部系统扰动的线性离散时间系统的输出调节问题, 提出了可保证收敛速率的数据驱动最优输出调节方法, 包括状态可在线测量系统的基于状态反馈的算法, 与状态不可在线测量系统的基于输出反馈的算法. 首先, 该问题被分解为输出调节方程求解问题与反馈控制律设计问题, 基于输出调节方程的解, 通过引入收敛速率参数, 建立了可保证收敛速率的最优控制问题, 通过求解该问题得到具有保证收敛速率的输出调节器. 之后, 利用强化学习的方法, 设计基于值迭代的数据驱动状态反馈控制器, 学习得到基于状态反馈的最优输出调节器. 对于状态无法在线测量的被控对象, 利用历史输入输出数据对状态进行重构, 并以此为基础设计基于值迭代的数据驱动输出反馈控制器. 仿真结果验证了所提方法的有效性.
  • 在实际的控制器设计问题中, 通常是希望将被控对象的输出跟踪给定的设定值或给定的期望轨迹, 即实现输出跟踪. 对于前者, PID控制器[1]、模型预测控制器[2]是一类经典的解决方案. 对于后者, 该问题通常可以建立成一类输出调节问题[3-6], 该问题的目标通常包括两部分, 设计稳定的控制器使得输出信号与给定参考轨迹的误差是渐近稳定的, 并且能够完全可以克服外部系统所产生扰动信号对系统所产生的影响. 然而, 解决输出调节问题通常依赖于已知的精确模型参数, 而在一些特殊情况下该要求是难以满足的.

    针对模型未知的被控对象的输出跟踪问题, 一些专家学者提出了基于自适应的控制方法, 如模型参考自适应控制[7]、无模型自适应控制[8]、神经网络自适应控制[9], 这些方法可以在部分模型知识未知的情况下, 很好的实现输出跟踪. 而在有些情况下, 控制器目标需要使得最小化给定的性能指标, 同时希望系统的动态性能满足一定要求, 这使得需要设计最优自适应控制器.

    为解决最小化给定的性能指标问题, 一些专家学者提出了基于强化学习的自适应控制方法, 该方法通过与未知被控对象的交互来更新控制策略, 使得控制器是最优的. 对于跟踪问题, 主要有两类基于强化学习的方法, 一类是将跟踪问题定义为一类最优二次型跟踪问题, 另一类是基于输出调节理论的最优输出调节问题. 利用前一类方法, 文献[10-11]与文献[12-15]分别解决了连续与离散线性系统的最优跟踪控制问题, 文献[16]与文献[17-19]分别解决了连续与离散非线性系统的最优跟踪控制问题. 利用后一类方法, 文献[20-23]与文献[24-26]分别解决了连续与离散线性系统的最优输出调节问题, 文献[27]与文献[28]分别解决了连续与离散非线性系统的最优输出调节问题. 上述方法是基于状态反馈与策略迭代的方法, 而对于系统状态难以在线测量的系统, 上述方法不能直接应用, 针对这个问题, 文献[29]与文献[30]分别设计了基于输出反馈的控制器解决了最优跟踪控制问题与最优输出调节问题. 对于动态性能要求, 文献[31]针对单无人机对单目标的环航跟踪问题, 设计了飞行轨迹快速收敛到期望航迹的控制器. 文献[32]通过设计状态反馈和动态输出反馈控制, 研究了机器人系统的有限时间控制问题. 然而, 上述文献需要利用系统的动态模型参数来设计合适的Lyapunov函数.

    为了使系统的动态特性满足预先给定的要求, 同时实现最优自适应控制, 本文提出保证收敛速率的数据驱动线性离散系统最优输出调节方法, 该方法不需要部分模型知识, 与文献[24-25]中的方法与被控对象相比, 该算法不需要稳定的初始控制律, 同时输出方程中输入到输出的前馈增益矩阵不等于0, 利用在线的状态数据、输入数据, 或者在线的输出、输入数据求解得到基于状态反馈与输出反馈最优的输出调节器, 并保证跟踪误差的收敛速率满足预先给定的要求.

    本文结构如下: 第1节给出离散线性系统的最优输出调节问题描述, 第2节与第3节分别进行基于状态反馈与输出反馈的自适应最优输出调节器设计, 第4节给出设计方法的收敛性与系统闭环稳定性分析, 第5节利用仿真实验验证本文设计方法的有效性, 第6节为结论.

    符号说明: ${\bf{R}}$${\bf{N}}$分别代表实数集与非0自然数集, 对于矩阵$X,Y \in {{\bf{R}}^{n \times n}},n \in {\bf{N}}$, $X > 0$ ($X \geq 0$)表示$X$是正定的(半正定的), $X > Y$($X \geq Y$)表示$X - Y$是正定的(半正定的), ${X^{ - 1}}$表示$X$的逆, $\sigma (X)$表示$X$的谱. $ \Vert \cdot \Vert $表示矩阵或向量范数, 对于矩阵$X \in {{\bf{R}}^{m \times n}}$, $m,n \in {\bf{N}}$, ${X^{\rm{T}}}$表示$X$的转置, ${\rm{vec}}(X) = {[x_1^{\rm{T}},x_2^{\rm{T}}, \cdots ,x_n^{\rm{T}}]^{\rm{T}}}$, 其中 ${x_i},\;i = $$ 1, \cdots ,n$为矩阵X的第i列, $ \otimes $表示Kronecker积, 对于对称矩阵$X \in {{\bf{R}}^{n \times n}}$, ${\rm{vecs}}(X) = [{x_{11}},{x_{12}}, \cdots , {x_{(n - 1)n}}, $$ {x_{nn}}]^{\rm{T}} \in {{\bf{R}}^{(1/2)n(n + 1)}}$, 对于向量 $v \in {{\bf{R}}^n},$ ${\rm{vecv}}(v) = [v_1^2, $$ 2{v_1}{v_2}, \cdots ,$ $2{v_1}{v_n},\;v_2^2,\;2{v_2}{v_3}, \cdots , 2{v_{n - 1}}{v_n},\; v_n^2{]^{\rm{T}}}\; \in $$ {{\bf{R}}^{(1/2)n(n + 1)}}$, 其中${v_i},i = 1, \cdots ,n$为向量v的第i个元素.

    考虑如下受扰动的线性离散系统

    $$x(k + 1) = Ax(k) + Bu(k) + Dw(k)$$ (1)
    $$y(k) = Cx(k) + Su(k)$$ (2)

    其中, $x \in {{\bf{R}}^{{n_x}}}$, $u \in {{\bf{R}}^{{n_u}}}$, $y \in {{\bf{R}}^{{n_y}}}$, $w \in {{\bf{R}}^{{n_w}}}$分别为系统的状态, 控制输入, 输出, 外部系统状态. $A \in $$ {{\bf{R}}^{{n_x} \times {n_x}}}$, $B \in {{\bf{R}}^{{n_x} \times {n_u}}}$, $D \in {{\bf{R}}^{{n_x} \times {n_w}}}$, $C \in {{\bf{R}}^{{n_y} \times {n_x}}}$, $S \in {{\bf{R}}^{{n_y} \times {n_u}}}$为常数矩阵. 外部系统动态及其所产生的设定值为:

    $$w(k + 1) = Ew(k)$$ (3)
    $${y_d}(k) = - Fw(k)$$ (4)

    其中, $E \in {{\bf{R}}^{{n_w} \times {n_w}}}$为常数矩阵, 且其特征值都在单位圆上. ${y_d} \in {{\bf{R}}^{{n_y}}}$为参考信号, $F \in {{\bf{R}}^{{n_y} \times {n_w}}}$为常数矩阵. 基于此, 跟踪误差可以表示为:

    $$\begin{split} e(k) =\;&y(k) - {y_d}(k) =\\ & Cx(k) + Su(k) + Fw(k) \end{split} $$ (5)

    针对此系统, 有如下假设:

    假设1. $\left( {A,B} \right)$是可控的, $\left( {A,C} \right)$ 是可观测的.

    假设2. ${\rm{rank}}\left( {\left[ \begin{aligned} {A - \lambda I}\;\;B \\ C\quad\;\; S \end{aligned} \right]} \right) = {n_x} + {n_y}$, $\forall \lambda \in $$ \sigma (E)$.

    假设3. 矩阵$E$的特征值都在单位圆上且互相不重复.

    假设4. $\left( {\left[ {\begin{aligned} A\;\;D \\ 0\;\;E \end{aligned}} \right],\left[ C\;\;F \right]} \right)$是可观测的.

    传统的输出调节问题的控制器设计目标为使得跟踪误差e(k)是渐近稳定的, 即${\lim _{k \to \infty }}e(k) = 0$. 本文目标为利用外部系统数据w(k), 系统输入u(k), 系统状态x(k)或系统输出y(k)设计最优输出调节器, 使得跟踪误差e(k)是渐近稳定的, 同时期望跟踪误差e(k)的收敛速率快于${\gamma ^{ - k}}$, 其中$\gamma > 1$. 该问题可以定义为求解如下问题.

    问题1. 针对被控对象(1) ~ (2), 对应的外部系统为(3) ~ (4), 设计控制器u(k)使得跟踪误差满足

    $$\mathop {\lim }\limits_{k \to \infty } {\gamma ^k}e(k) = 0$$ (6)

    为解决该问题, 根据输出调节理论[3, 33], 该问题的输出调节方程为

    $$XE = AX + BU + D$$ (7)
    $$0 = CX + SU + F$$ (8)

    其中, $X \in {{\bf{R}}^{{n_x} \times {n_w}}}$$U \in {{\bf{R}}^{{n_u} \times {n_w}}}$为输出调节方程的待求解未知数. 利用Kronecker积, 输出调节方程(7) ~ (8)可写为

    $$\Gamma \eta = \vartheta $$ (9)

    其中

    $$\begin{split} &\Gamma = {E^{\rm{T}}} \otimes \left[ {\begin{array}{*{20}{c}} {{I_{{n_x}}}}&{{0_{{n_x} \times {n_u}}}} \\ {{0_{{n_y} \times {n_x}}}}&{{0_{{n_y} \times {n_u}}}} \end{array}} \right] - {I_{{n_w}}} \otimes \left[ {\begin{array}{*{20}{c}} A&B \\ C&S \end{array}} \right]\\ &\eta = {\rm{vec}}\left( {\left[ {\begin{array}{*{20}{c}} X \\ U \end{array}} \right]} \right), \vartheta = {\rm{vec}}\left( {\left[ {\begin{array}{*{20}{c}} D \\ F \end{array}} \right]} \right) \end{split}$$

    基于假设2可知, $\Gamma $是行满秩的, 输出调节方程(7) ~ (8)是有解的[33]. 基于该解, 并同时考虑控制器设计要求为使得跟踪误差e(k)的收敛速率快于${\gamma ^{ - k}}$, 定义新系统为

    $$\bar x(k + 1) = \bar A\bar x(k) + \bar B\bar u(k)$$ (10)
    $$\bar e(k) = C\bar x(k) + S\bar u(k)$$ (11)

    其中, $\bar x(k) = {\gamma ^k}(x(k) - Xw(k))$, $\bar A = \gamma A$, $\bar B = \gamma B$, $\bar u(k) = {\gamma ^k}(u(k) - Uw(k))$, $\bar e(k) = {\gamma ^k}e(k)$.

    基于新系统(10) ~ (11), 建立如下最优控制问题与约束最优化问题. 通过求解该问题, 可以保证式(6)成立, 即跟踪误差e(k)的收敛速率快于${\gamma ^{ - k}}$, 该性质将会在闭环系统分析部分进行证明.

    问题2[34]. 针对系统(10) ~ (11), 给定$Q \ge 0$, $R \ge 0$, 设计基于状态反馈与输出反馈的最优控制输入$\bar u(k)$, 使得如下性能指标最小

    $$\begin{split} &{\mathop {\min }\limits_{\bar u} }\;\;{V(k) = \sum\limits_{i = k}^\infty {\left( {{{\bar e}^{\rm{T}}}(i)Q\bar e(i) + {{\bar u}^{\rm{T}}}(i)R\bar u(i)} \right)} } \\ & {{\rm{s}}{\rm{.t}}{\rm{.}}}\;\;\left\{\begin{array}{l} \bar x(k + 1) = \bar A\bar x(k) + \bar B\bar u(k) \\ \bar e(k) = C\bar x(k) + S\bar u(k) \end{array}\right. \end{split}$$ (12)

    问题3. 给定$M > 0$, 寻找出一组输出调节方程(7)~(8)的解XU使得如下性能指标最小

    $$\left\{\begin{array}{*{20}{c}} {\mathop {\min }\limits_\eta }&{J = {\eta ^{\rm{T}}}M\eta } \\ {{\rm{s}}{\rm{.t}}{\rm{.}}}&{\Gamma \eta = \vartheta } \end{array}\right.$$ (13)

    注1. 在问题2中, 选择QR使得如下的广义特征值问题的解不在单位圆上[35]

    $$\lambda \left[ {\begin{array}{*{20}{c}} I&0&0 \\ 0&{{{\bar A}^{\rm{T}}}}&0 \\ 0&{ - {{\bar B}^{\rm{T}}}}&0 \end{array}} \right] - \left[ {\begin{array}{*{20}{c}} {\bar A}&0&{\bar B} \\ { - {C^{\rm{T}}}QC}&I&{ - {C^{\rm{T}}}QS} \\ {{S^{\rm{T}}}QC}&0&R \end{array}} \right]$$

    本节在被控对象状态方程(1)中矩阵A、B、D、E未知、被控对象输出方程(2)中矩阵C、SF已知的情况下, 设计数据驱动的基于状态反馈的最优自适应输出调节器. 首先给出基于状态反馈的最优输出调节器的解, 之后利用该解的求解形式, 设计数据驱动的基于值迭代的自适应最优输出调节器. 值得注意的是, 由于本节所设计的是基于状态反馈的最优输出调节器, 因此需要利用状态计算跟踪误差, 故矩阵C、SF已知的假设是合理的.

    本小节首先求解输出调节方程(7) ~ (8), 引入两个Sylvester映射$\Omega :{{\bf{R}}^{{n_x} \times {n_w}}} \to {{\bf{R}}^{{n_x} \times {n_w}}}$, $\bar \Omega :{\bf{R}}^{{n_x} \times {n_w}} \times $$ {{\bf{R}}^{{n_x} \times {n_u}}} \to {{\bf{R}}^{{n_x} \times {n_w}}}$, 为

    $$\Omega (X) = XE - AX$$ (14)
    $$\bar \Omega (X,U) = XE - AX - BU$$ (15)

    基于Sylvester映射, 可以给出方程(8)的通解形式. 选择两个矩阵序列${X_i} \in {{\bf{R}}^{{n_x} \times {n_w}}}$${U_i} \in $$ {{\bf{R}}^{{n_u} \times {n_w}}}$, 其中$i = 0,\;1,\, \cdots ,\,m + 1$, m${I_{{n_w}}} \otimes \left[ {C,S} \right]$ 的零空间的维数. ${X_0} = {0_{{n_x} \times {n_w}}}$, ${U_0} = {0_{{n_u} \times {n_w}}}$, X1U1满足$ - F = C{X_1} + S{U_1}$, 当$i = 2,\;3,\; \cdots ,\;m + 1$时, ${\rm{vec}}\left( {{{\left[ {X_i^{\rm{T}},U_i^{\rm{T}}} \right]}^{\rm{T}}}} \right)$${I_{{n_w}}} \otimes \left[ {C,S} \right]$的基底, 即$C{X_i} + $$ S{U_i} = 0$. 则方程(8)的通解为

    $$(X,U) = ({X_1},{U_1}) + \sum\limits_{i = 2}^{m + 1} {{\alpha _i}({X_i},{U_i})} $$ (16)

    其中, ${\alpha _i} \in \bf{R}$. 由$\overline \Omega (X,U)$的定义与式(7)可知

    $$ \begin{split} &\overline \Omega (X,U) = D, \;\;\overline \Omega ({\alpha _i}X,{\alpha _i}U) = {\alpha _i}\overline \Omega (X,U)\\ &\;\;\;\;\;\overline \Omega ({X_i} + {X_j},{U_i} + {U_j}) =\\ &\;\;\;\;\; ({X_i} + {X_j})E - A({X_i} + {X_j}) - B({U_i} + {U_j})= \\ & \;\;\;\;\; \overline \Omega ({X_i},{U_i}) + \overline \Omega ({X_j},{U_j}) \end{split} $$

    基于式(16)可将式(15)写为

    $$ \overline \Omega (X,U) = \overline \Omega ({X_1},{U_1}) + \sum\limits_{i = 2}^{m + 1} {{\alpha _i}\overline \Omega ({X_i},{U_i})} = D $$ (17)

    至此, 输出调节方程(7) ~ (8)可以写为

    $$\Lambda \chi = \xi $$ (18)

    其中

    $$\begin{split} &\Lambda = \left[ {\begin{array}{*{20}{c}} {{\rm{vec}}(\overline \Omega ({X_2},{U_2}))}& \cdots \\ {{\rm{vec}}\left( {{{\left[ {X_2^{\rm{T}},U_2^{\rm{T}}} \right]}^{\rm{T}}}} \right)}& \cdots \end{array}} \right. \\ &\qquad\left. {\begin{array}{*{20}{c}} {{\rm{vec}}(\overline \Omega ({X_{m + 1}},{U_{m + 1}}))}&0 \\ {{\rm{vec}}\left( {{{\left[ {X_{m + 1}^{\rm{T}},U_{m + 1}^{\rm{T}}} \right]}^{\rm{T}}}} \right)}&{ - {I_{{n_w}({n_x} + {n_u})}}} \end{array}} \right]\\ &\chi = {\left[ {\begin{array}{*{20}{c}} {{\alpha _2}}& \cdots &{{\alpha _{m + 1}}}&{{\eta ^{\rm{T}}}} \end{array}} \right]^{\rm{T}}} \\ &\xi = \left[ {\begin{array}{*{20}{c}} {{\rm{vec}}( - \overline \Omega ({X_1},{U_1}) + D)} \\ { - {\rm{vec}}\left( {{{\left[ {X_1^{\rm{T}},U_1^{\rm{T}}} \right]}^{\rm{T}}}} \right)} \end{array}} \right] = \left[ {\begin{array}{*{20}{c}} {{\xi _1}} \\ {{\xi _2}} \end{array}} \right]\end{split} $$

    利用矩阵行变换, 可以将(18)重写为

    $$\left[ {\begin{array}{*{20}{c}} {{{\bar \Lambda }_{11}}}&{{{\bar \Lambda }_{12}}} \\ {{{\bar \Lambda }_{21}}}&{{{\bar \Lambda }_{22}}} \end{array}} \right]\chi = \left[ {\begin{array}{*{20}{c}} {{{\bar \xi }_1}} \\ {{{\bar \xi }_2}} \end{array}} \right]$$ (19)

    其中, ${\bar \Lambda _{21}} \in {{\bf{R}}^{m \times m}}$为非奇异矩阵, 则上式可以通过如下方程求解

    $$\Pi \eta = \Psi $$ (20)

    其中, $\Pi = - {\bar \Lambda _{11}}\bar \Lambda _{21}^{ - 1}{\bar \Lambda _{22}} + {\bar \Lambda _{12}}$, $\Psi = - {\bar \Lambda _{11}}\bar \Lambda _{21}^{ - 1}{\bar \xi _2} + {\bar \xi _1}$. 利用拉格朗日乘子法, 可以将问题3中的约束最优化问题(13)转化为

    $$\begin{array}{*{20}{c}} {\mathop {\min }\limits_\eta }&{J = {\eta ^{\rm{T}}}M\eta + {\lambda ^{\rm{T}}}(\Pi \eta - \Psi )} \end{array}$$ (21)

    对上述性能指标J求对于$\eta $${\lambda ^{\rm{T}}}$偏导, 可得

    $$\frac{\partial J}{\partial \eta } = 2M\eta + {\Pi {\rm{^T}}}\lambda $$ (22)
    $$\frac{\partial J}{\partial {{\lambda }^{\text{T}}}} = \Pi \eta - \Psi $$ (23)

    令式(22)和式(23)等于0, 可得

    $$\left[ {\begin{array}{*{20}{c}} {2M}&{{\Pi ^{\rm{T}}}} \\ \Pi &0 \end{array}} \right]\left[ {\begin{array}{*{20}{c}} \eta \\ \lambda \end{array}} \right] = \left[ {\begin{array}{*{20}{c}} 0 \\ \Psi \end{array}} \right]$$ (24)

    利用该式可以得到输出调节方程(7) ~ (8)的解XU.

    以上为基于模型的输出调节方程(7) ~ (8)的求解, 与文献[32]直接求解输出调节方程不同, 式(20)中的求解方法将会为第2.2节中自适应控制器设计提供指导.

    基于输出调节方程(7) ~ (8)的解XU, 则基于状态反馈的最优输出调节问题可以总结为问题2. 对于问题2, 该问题为标准的最优控制问题. 基于假设1, 可知${\rm{rank}}[A - \lambda I,B] = {n_x},\forall \lambda $, 那么显然有${\rm{rank}}[\bar A - \lambda I,\bar B] = {n_x},\forall \lambda $, 即$(\bar A,\bar B)$为可控的. 因此, 基于最优控制原理[36], 假设存在一个可控的矩阵K与控制输入$\bar u(k) = - K\bar x(k)$使得

    $$\begin{split} V(k) =\;& {{\bar e}^{\rm{T}}}(k)Q\bar e(k) + {{\bar u}^{\rm{T}}}(k)R\bar u(k) + V(k + 1) =\\ & {{\bar x}^{\rm{T}}}(k)P\bar x(k)\\[-10pt] \end{split} $$ (25)

    其中, $P \geq 0$. 上述贝尔曼方程可以写为

    $$\begin{split} P =\;& {(C - SK)^{\rm{T}}}Q(C - SK) + {K^{\rm{T}}}RK + \\ &{(\bar A - \bar BK)^{\rm{T}}}P(\bar A - \bar BK) \end{split} $$ (26)

    通过使得$\partial P/\partial K = 0$可得最优反馈增益为

    $$\begin{split} {K^*} =\;& {(R + {{\bar B}^{\rm{T}}}{P^*}\bar B + {S^{\rm{T}}}QS)^{ - 1}} \cdot \\ &({{\bar B}^{\rm{T}}}{P^*}\bar A + {S^{\rm{T}}}QC) \end{split} $$ (27)

    其中, P*为如下Riccati方程的解

    $$\begin{split} P =\;& {C^{\rm{T}}}QC + {{\bar A}^{\rm{T}}}P\bar A - \\ &({{\bar A}^{\rm{T}}}P\bar B + {C^{\rm{T}}}QS){(R + {{\bar B}^{\rm{T}}}P\bar B + {S^{\rm{T}}}QS)^{ - 1}} \cdot \\ & ({{\bar B}^{\rm{T}}}P\bar A + {S^{\rm{T}}}QC) \\[-10pt]\end{split} $$ (28)

    对应的最优控制输入为:

    $$\begin{split} u(k) =\;& - {K^*}x(k) + (U + {K^*}X)w(k):=\; \\ & - {K^*}x(k) + {L^*}w(k) \end{split} $$ (29)

    然而, 直接求解Riccati方程比较复杂, 针对此问题, 该小节利用基于值迭代的算法求解, 其收敛性性质见如下引理.

    算法1. 基于模型的值迭代状态反馈最优输出调节算法

    初始化: 选择任意的初始控制律K0, 终止条件常数$\varepsilon > 0$, 矩阵序列${X_i} \in {{\bf{R}}^{{n_x} \times {n_w}}}$${U_i} \in {{\bf{R}}^{{n_u} \times{n_w}}}$, 半正定矩阵P0, $j \leftarrow 0$;

    最优反馈增益计算: 利用如下迭代算法计算最优反馈增益;

    1) 计算Pj+1,

    $$ \begin{split} {P_{j + 1}} =\;& {(C - S{K_j})^{\rm{T}}}Q(C - S{K_j}) + K_j^{\rm{T}}R{K_j} + \\ &{(\bar A - \bar B{K_j})^{\rm{T}}}{P_j}(\bar A - \bar B{K_j}) \end{split} $$ (30)

    2) 计算Kj+1,

    $$ \begin{split} {K_{j + 1}} =\;& {(R + {{\bar B}^{\rm{T}}}{P_{j + 1}}\bar B + {S^{\rm{T}}}QS)^{ - 1}} \cdot \\ & ({{\bar B}^{\rm{T}}}{P_{j + 1}}\bar A + {S^{\rm{T}}}QC) \end{split} $$ (31)

    3) 判断$\left\| {{P_{j + 1}} - {P_j}} \right\| < \varepsilon $是否成立, 如果成立则停止迭代, 反之则继续重复计算上述两步, 并令$j \leftarrow j + 1$;

    最优前馈增益计算: 利用式(9)或式(24)求解输出调节方程(7) ~ (8)的解XU, 进而得到最优前馈增益${L^*}$.

    引理1. 在假设1成立的条件下, 通过算法1的式(30) ~ (31)计算得到的序列${\rm{\{ }}{P_j}{\rm{\} }}_{j = 0}^\infty $${\rm{\{ }}{K_j}{\rm{\} }}_{j = 0}^\infty $最终会收敛至其最优值, 即${\lim _{j \to \infty }}{P_j} = {P^*}$, ${\lim _{j \to \infty }}{K_j} = {K^*}$.

    证明. 文献[37]给出了当S = 0时的收敛性证明, 本文将简述$S \ne 0$时的收敛性证明. 首先将式(28)与式(26)定义为

    $$P = g(P)$$ (32)
    $$P = L(K,P)$$ (33)

    同时定义

    $$M(K,P) = {(\bar A - \bar BK)^{\rm{T}}}P(\bar A - \bar BK)$$ (34)

    由于在式(26)中PK的二次型, 可得

    $$g(P) = {\min _K}L(K,P) = L({K_P},P) \leq L(K,P)$$

    其中

    $${K_P} = {(R + {\bar B^{\rm{T}}}P\bar B + {S^{\rm{T}}}QS)^{ - 1}}({\bar B^{\rm{T}}}P\bar A + {S^{\rm{T}}}QC)$$

    根据上式可知, 对于任意的$X \leq Y$, 有

    $$g(X) = L({K_X},X) \leq L({K_Y},Y) = g(Y)$$

    考虑序列$\{ {Q_j}\} _{j = 0}^\infty $, 其中${Q_0} = {0}$, 可得

    $${Q_{j + 1}} = g({Q_j}) \leq g({Q_{j + 1}}) = {Q_{j + 2}}$$ (35)
    $$\begin{split} {Q_{j + 1}} \leq \;&M({K^*},{Q_j}) + {({K^*})^{\rm{T}}}R{K^*} + \\ &{(C - S{K^*})^{\rm{T}}}Q(C - S{K^*}) \end{split} $$ (36)

    根据上式可知, 由于$\bar A - \bar B{K^*}$的特征值都在单位圆内, 序列$\{ {Q_j}\} _{j = 0}^\infty $是单调递增且存在上界, 即${\lim _{j \to \infty }}{Q_j} = {P^*}$. 之后考虑序列$\{ {R_j}\} _{j\; = \;0}^\infty$, 其中${R_0} \geq {P^*}$${R_0} \geq {P_0}$, 可得

    $${R_{j + 1}} = g({R_j}) \ge g({P^*}) = {P^*}$$ (37)
    $${R_{j + 1}} - {P^*} \leq M({K^*},{R_j} - {P^*})$$ (38)

    同理可知, 序列$\{ {R_j}\} _{j = 0}^\infty $是单调递减且存在下界, 即${\lim _{j \to \infty }}{R_j} = {P^*}$. 综上所述, 可得

    $${P^*} = \mathop {\lim }\limits_{j \to \infty } {Q_j} \leq \mathop {\lim }\limits_{j \to \infty } {P_j} \leq \mathop {\lim }\limits_{j \to \infty } {R_j} = {P^*}$$ (39)

    根据夹逼定理, 可得${\lim _{j \to \infty }}{P_j} = {P^*}$, 进而可得${\lim _{j \to \infty }}{K_j} = {K^*}$. □

    注2. 在传统的基于输出调节原理的输出调节方法中, $\gamma = 1$, 对应的Riccati方程(28)可解条件为$\left( {A,B} \right)$是可镇定的. 当$\gamma > 1$$\left( {A,B} \right)$是可镇定时, 选择$\gamma < \bar \gamma $, 其中$1/\bar \gamma $大于A的最大不可控稳定特征值, 可以保证$\left( {\bar A,\bar B} \right)$是可镇定的.

    注3. 对于基于策略迭代的算法[24-25, 38], 其初始控制律K0要求矩阵$\bar A - \bar B{K_0}$是稳定的, 即$A - B{K_0}$的特征值在以原点为圆心, 半径为$1/\gamma $的圆内, 当矩阵A, B已知时, 选择满足该条件的初始控制律K0是很容易的, 然而, 当矩阵A、B未知时, 初始控制律的选择则更加严格. 因此, 本文使用基于值迭代的算法, 该算法的初始控制律K0可以是任意的, 同时该算法不用重复求解Lyapunov函数[24-25, 38].

    以上为基于模型的问题求解方法, 该求解方法将会为下一节中自适应控制器设计提供指导.

    本小节利用第2.1节给出的最优输出调节器的求解形式, 设计利用在线数据的基于状态反馈与强化学习的自适应最优输出调节器, 首先定义新状态${\bar x_i}(k) = {\hat x_i}(k) - {X_i}\hat w(k)$, 其中$\hat x(k) = {\gamma ^k}x(k)$, $\hat w(k) = $$ {\gamma ^k}w(k)$, 基于该状态, 可得

    $$\begin{split} {{\bar x}_i}(k + 1) =\;& \bar A{{\bar x}_i}(k) + \bar B\hat u(k) + \\ & \gamma (D - \Omega ({X_i}))\hat w(k) \end{split} $$ (40)

    基于以上动态方程, 可得

    $$\begin{split} \bar x_i^{\rm{T}}&(k + 1){P_j}{{\bar x}_i}(k + 1) =\\ & \bar x_i^{\rm{T}}(k){{\bar A}^{\rm{T}}}{P_j}\bar A{{\bar x}_i}(k) + {{\hat u}^{\rm{T}}}(k){{\bar B}^{\rm{T}}}{P_j}\bar B\hat u(k) + \\ &{\gamma ^2}{{\hat w}^{\rm{T}}}(k){(D - \Omega ({X_i}))^{\rm{T}}}{P_j}(D - \Omega ({X_i}))\hat w(k) + \\ &2\bar x_i^{\rm{T}}(k){{\bar A}^{\rm{T}}}{P_j}\bar B\hat u(k) + \\ & 2\gamma {{\hat u}^{\rm{T}}}(k){{\bar B}^{\rm{T}}}{P_j}(D - \Omega ({X_i}))\hat w(k) + \\ &2\gamma \bar x_i^{\rm{T}}(k){{\bar A}^{\rm{T}}}{P_j}(D - \Omega ({X_i}))\hat w(k) \end{split} $$ (41)

    通过定义

    $$ \begin{split} & {L_{1j}} = {{\bar A}^{\rm{T}}}{P_j}\bar A,{L_{2j}} = {{\bar B}^{\rm{T}}}{P_j}\bar B,{L_{3j}} = {{\bar A}^{\rm{T}}}{P_j}\bar B \\ & {L_{4ij}} = {{\bar A}^{\rm{T}}}{P_j}(D - \Omega ({X_i})),{L_{5ij}} = {{\bar B}^{\rm{T}}}{P_j}(D - \Omega ({X_i})) \\ & {L_{6ij}} = {(D - \Omega ({X_i}))^{\rm{T}}}{P_j}(D - \Omega ({X_i})) \\ &\varphi _j^i(k) = \left[ {\begin{array}{*{20}{c}} {{\gamma ^{ - 2k}}\bar x_i^{\rm{T}}(k + 1){P_j}{{\bar x}_i}(k + 1)} \\ {{\gamma ^{ - 2k - 2}}\bar x_i^{\rm{T}}(k + 2){P_j}{{\bar x}_i}(k + 2)} \\ \vdots \\ {{\gamma ^{ - 2k - 2s}}\bar x_i^{\rm{T}}(k + 1 + s){P_j}{{\bar x}_i}(k + 1 + s)} \end{array}} \right]\\ &\psi _j^i(k) = \left[ {\begin{array}{*{20}{c}} {{\Phi _{01}}}&{{\Phi _{02}}}& \cdots &{{\Phi _{06}}} \\ {{\Phi _{11}}}&{{\Phi _{12}}}& \cdots &{{\Phi _{16}}} \\ \vdots & \vdots & \ddots & \vdots \\ {{\Phi _{s1}}}&{{\Phi _{s2}}}& \cdots &{{\Phi _{s6}}} \end{array}} \right] \end{split} $$

    其中

    $$\begin{array}{l} {\Phi _{l1}} = {\gamma ^{ - 2k - 2l}}{\rm{vecv(}}{{\bar x}_i}(k + l){\rm{)}} \\ {\Phi _{l2}} = {\rm{vecv(}}u(k + l){\rm{)}} \\ {\Phi _{l3}} = 2{\gamma ^{ - k - l}}{u^{\rm{T}}}(k + l) \otimes \bar x_i^{\rm{T}}(k + l) \\ {\Phi _{l4}} = 2{\gamma ^{ - k - l + 1}}{w^{\rm{T}}}(k + l) \otimes \bar x_i^{\rm{T}}(k + l) \\ {\Phi _{l5}} = 2\gamma {w^{\rm{T}}}(k + l) \otimes {u^{\rm{T}}}(k + l) \\ {\Phi _{l6}} = {\gamma ^2}{\rm{vecv(}}w(k + l){\rm{)}} \end{array} $$

    可将式(41)转化为如下方程组

    $$\begin{split} \psi _j^i(k)[&{\rm{vecs}}({L_{1j}});{\rm{vecs}}({L_{2j}});{\rm{vec}}({L_{3j}}); \\ &{\rm{vec}}({L_{4ij}});{\rm{vec}}({L_{5ij}});{\rm{vecs}}({L_{6ij}})] = \varphi _j^i(k) \end{split} $$ (42)

    当在线数据满足一定要求时, 上述方程组可由最小二乘方法求解. 如下引理给出了方程组(42)具有唯一解的条件.

    引理 2. 方程组(42)可解并具有唯一解, 当且仅当

    $${\rm{rank}}(\psi _j^i(k)) = \frac{1}{2}({n_x} + {n_u} + {n_w})({n_x} + {n_u} + {n_w} + 1)$$

    当引理2成立时, 方程组可以由下式求解, 为

    $$\begin{split} &{[{\rm{vecs}}({L_{1j}});{\rm{vecs}}({L_{2j}});{\rm{vec}}({L_{3j}});{\rm{vec}}({L_{4ij}});}\\ &\qquad{{\rm{vec}}({L_{5ij}});{\rm{vecs}}({L_{6ij}})]}=\\ &\qquad{ {{(\psi _j^{i{\rm{T}}}(k)\psi _j^i(k))}^{ - 1}}\psi _j^{i{\rm{T}}}(k)\varphi _j^i(k)} \end{split}$$ (43)

    同时考虑式(30)与式(31)可得

    $$\begin{split} {P_{j + 1}} =\;& {L_{1j}} - ({L_{3j}} + {C^{\rm{T}}}QS){(R + {L_{2j}} + {S^{\rm{T}}}QS)^{ - 1}} \cdot \\ &(L_{3j}^{\rm{T}} + {S^{\rm{T}}}QC) + {C^{\rm{T}}}QC \\[-10pt]\end{split} $$ (44)

    计算得到${P_{j + 1}}$后, 将其代入$\varphi _j^i(k)$更新得到$\varphi _{j + 1}^i(k)$, 继而可以更新方程(43), 重复以上步骤可以得到序列${\rm{\{ }}{P_j}{\rm{\} }}_{j\; =\; 0}^\infty$直至收敛, 对应的序列${\rm{\{ }}{K_j}{\rm{\} }}_{j = 0}^\infty $

    $${K_j} = {(R + {L_{2j}} + {S^{\rm{T}}}QS)^{ - 1}}(L_{3j}^{\rm{T}} + {S^{\rm{T}}}QC)$$ (45)

    以上为反馈控制增益${K_j}$的在线计算过程, 该部分将介绍如何在线求解输出调节方程(7) ~ (8)的解XU, 基于式(17)可得

    $$\begin{split} & {{\bar A}^{\rm{T}}}{P_j}\overline \Omega ({X_1},{U_1}) + \sum\limits_{i\; =\; 2}^{m + 1} {{\alpha _i}{{\bar A}^{\rm{T}}}{P_j}\overline \Omega ({X_i},{U_i})}= \\ & \qquad{{\bar A}^{\rm{T}}}{P_j}\Omega ({X_1}) - {\gamma ^{ - 1}}{{\bar A}^{\rm{T}}}{P_j}\bar B{U_1} + \\ &\qquad \sum\limits_{i\; =\; 2}^{m + 1} {{\alpha _i}{{\bar A}^{\rm{T}}}{P_j}\Omega ({X_i})} - \sum\limits_{i\; =\; 2}^{m + 1} {{\alpha _i}} {\gamma ^{ - 1}}{{\bar A}^{\rm{T}}}{P_j}\bar B{U_i} =\\ &\qquad {L_{40j}} - {L_{41j}} - {\gamma ^{ - 1}}{L_{3j}}{U_1} + \\ &\qquad\sum\limits_{i\; =\; 2}^{m + 1} {{\alpha _i}} \left( {{L_{40j}} - {L_{4ij}} - {\gamma ^{ - 1}}{L_{3j}}{U_i}} \right) =\\ &\qquad{{\bar A}^{\rm{T}}}{P_j}D = {L_{40j}} \\[-15pt]\end{split} $$ (46)

    利用上式, 可将输出调节方程(7) ~ (8)写为

    $${\Lambda _j}\chi = {\xi _j}$$ (47)

    其中

    $$ \begin{split} &{\Lambda _j} = \left[ {\begin{array}{*{20}{c}} {{\rm{vec}}({L_{40j}} - {L_{42j}} - {\gamma ^{ - 1}}{L_{3j}}{U_2})}& \cdots \\ {{\rm{vec}}\left( {{{\left[ {X_2^{\rm{T}},U_2^{\rm{T}}} \right]}^{\rm{T}}}} \right)}& \cdots \end{array}} \right. \\ &\qquad\left. {\begin{array}{*{20}{c}} {{\rm{vec}}({L_{40j}} - {L_{4(m + 1)j}} - {\gamma ^{ - 1}}{L_{3j}}{U_{m + 1}})}&0 \\ {{\rm{vec}}\left( {{{\left[ {X_{m + 1}^{\rm{T}},U_{m + 1}^{\rm{T}}} \right]}^{\rm{T}}}} \right)}&{ - I} \end{array}} \right] \\ &{\xi _j} = \left[ {\begin{array}{*{20}{c}} {{\rm{vec}}({L_{41j}} + {\gamma ^{ - 1}}{L_{3j}}{U_1})} \\ { - {\rm{vec}}\left( {{{\left[ {X_1^{\rm{T}},U_1^{\rm{T}}} \right]}^{\rm{T}}}} \right)} \end{array}} \right] \end{split} $$

    利用矩阵行变换, 可以将式(47)重写为类似式(19)的形式, 进而可以利用式(20)进行求解得到输出调节方程(7) ~ (8)的解XU, 最后利用式(29)得到前馈增益. 至此, 基于状态反馈与强化学习的自适应最优输出调节算法如下.

    算法2. 基于状态反馈与强化学习的自适应最优输出调节算法

    初始化: 选择任意的初始控制律K0, 终止条件常数$\varepsilon > 0$, 半正定矩阵P0, 矩阵序列${X_i} \in {{\bf{R}}^{{{{{{n}}_x}}} \times {{{{{n}}_w}}}}}$${U_i} \in {{\bf{R}}^{{n_u} \times {n_w}}}$, $j \leftarrow 0$, $i \leftarrow 0$;

    最优反馈控制律在线计算: 利用如下迭代算法计算最优反馈增益, 在区间$[k,k + s]$利用控制输入为$u(k) = - {K_0}x(k) + n(k)$, 其中$n(k)$为控制输入中添加的探测噪声, s为使得引理2满足的数;

    1) 利用式(43)计算得到${L_{1j}}$, ${L_{2j}}$, ${L_{3j}}$, ${L_{4ij}}$, ${L_{5ij}}$, ${L_{6ij}}$;

    2) 利用式(44)计算Pj +1;

    3) 判断$\left\| {{P_{j + 1}} - {P_j}} \right\| < \varepsilon $是否成立, 如果成立则停止迭代, 并利用式(45)计算得到${K_j}$, 反之重复上述两步, 并令$j \leftarrow j + 1$;

    前馈增益在线计算: 令$i \leftarrow i + 1$, 重复计算得到所有${L_{4ij}}$直到$i = m + 1$, 进而利用式(24)进行求解得到输出调节方程(7) ~ (8)的解XU, 最后利用式(29)得到前馈增益.

    注4. 值得注意的是, ${(\psi _j^{i{\rm{T}}}(k)\psi _j^i(k))^{ - 1}}\psi _j^{i{\rm{T}}}(k)$中仅含有过程数据, 因此, 该值在迭代过程中对于固定i仅需要计算1次, 相较于基于策略迭代的方法, 本文方法虽然迭代步数多, 但每一步所需要的计算量却小一些.

    注5. 对于序列${\rm{\{ }}{K_j}{\rm{\} }}_{j = 0}^\infty $, 由于${\rm{\{ }}{K_j}{\rm{\} }}_{j = 0}^\infty $并不参与过程迭代, ${K_j}$仅需要在${P_j}$收敛后计算1次. 因此, 在该算法过程中u(k)并不需要进行在线更新, 因此该方法是一类离线策略, 相较于在线策略, 该方法可以保证计算结果是无偏的[39-40].

    注6. 探测噪声$n(k)$的加入是为了使得引理2的条件满足, 达到充分激励的效果. 通常选择为白噪声或者正弦函数等.

    本节在被控对象(1) ~ (2)中矩阵A、B、D、S、E、CF未知、在lU已知的情况下,设计基于输出反馈的最优自适应输出调节器, 首先利用历史的输入输出数据设计重构状态[29-30, 41], 之后设计基于值迭代的输出反馈自适应最优输出调节器.

    定义

    $$ \begin{split} &\hat A = \left[ {\begin{array}{*{20}{c}} {\bar A}&{\gamma D} \\ 0&{\gamma E} \end{array}} \right], \;\;\hat B = \left[ {\begin{array}{*{20}{c}} {\bar B} \\ 0 \end{array}} \right] \\ &\hat C = \left[ {\begin{array}{*{20}{c}} C&F \end{array}} \right],\;\; z(k) = \left[ {\begin{array}{*{20}{c}} {\hat x(k)} \\ {\hat w(k)} \end{array}} \right] \end{split} $$

    可得

    $$z(k + 1) = \hat Az(k) + \hat B\hat u(k)$$ (48)
    $$\bar e(k) = \hat Cz(k) + S\hat u(k)$$ (49)

    利用上式, 可得

    $$\begin{split} z(k) = \;&{{\hat A}^{{n_x} + {n_w}}}z(k - {n_x} - {n_w}) + \\ & \left[ {\begin{array}{*{20}{c}} {\hat B}&{\hat A\hat B}& \cdots &{{{\hat A}^{{n_x} + {n_w} - 1}}\hat B} \end{array}} \right] \cdot \\ & \left[ {\begin{array}{*{20}{c}} {\hat u(k - 1)} \\ {\hat u(k - 2)} \\ \vdots \\ {\hat u(k - {n_x} - {n_w})} \end{array}} \right]:=\; \\ & {{\hat A}^{{n_x} + {n_w}}}z(k - {n_x} - {n_w}) + {U_u}{\bar {\hat {u}}}(k) \end{split} $$ (50)
    $$\begin{split} \bar e(k) = \;&\hat C{{\hat A}^{{n_x} + {n_w}}}z(k - {n_x} - {n_w}) +\\ &\hat C{U_u}{\bar {\hat {u}}}(k) + S\hat u(k) \end{split} $$ (51)

    基于上式, 考虑$[k - 1,k - {n_x} - {n_w}]$的输出$\bar e(k)$, 可得

    $$\begin{split} \hat e(k) =\;& \left[ {\begin{array}{*{20}{c}} {\bar e(k - 1)} \\ {\bar e(k - 2)} \\ \vdots \\ {\bar e(k - {n_x} - {n_w})} \end{array}} \right]= \\ \;& \left[ {\begin{array}{*{20}{c}} {\hat C{{\hat A}^{{n_x} + {n_w} - 1}}} \\ \vdots \\ {\hat C\hat A} \\ {\hat C} \end{array}} \right]z(k - {n_x} - {n_w}) + \end{split} $$
    $$\begin{split} & \left[ {\begin{array}{*{20}{c}} S&{\hat C\hat B}&{\hat C\hat A\hat B}& \cdots &{\hat C{{\hat A}^{{n_x} + {n_w} - 2}}\hat B} \\ 0&S&{\hat C\hat B}& \cdots &{\hat C{{\hat A}^{{n_x} + {n_w} - 3}}\hat B} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 0&0&0& \cdots &S \end{array}} \right]{\bar {\hat {u}}}(k):=\; \\ &\;\;\;\;\;\;\;{{\bar M}_x}z(k - {n_x} - {n_w}) + {{\bar M}_u}{\bar {\hat {u}}}(k)\\[-15pt] \end{split} $$ (52)

    由假设4可知, ${\rm{rank(}}{\bar M_x}{\rm{)}} = {n_x} + {n_w}$, 则有$\bar M_x^{\rm{T}}{\bar M_x}$是可逆的, 通过定义$\bar M_x^ + = {(\bar M_x^{\rm{T}}{\bar M_x})^{ - 1}}\bar M_x^{\rm{T}}$, 可得

    $$\begin{split} z(k) =\;& {{\hat A}^{{n_x} + {n_w}}}z(k - {n_x} - {n_w}) + {U_u}{\bar {\hat {u}}}(k)= \\ & {{\hat A}^{{n_x} + {n_w}}}\bar M_x^ + \hat e(k) + \\ &({U_u} - {{\hat A}^{{n_x} + {n_w}}}\bar M_x^ + {{\bar M}_u}){\bar {\hat {u}}}(k) \end{split} $$ (53)

    定义

    $$ \begin{split} &\bar M = \left[ {\begin{array}{*{20}{c}} I{-X} \end{array}} \right]\left[ {\begin{array}{*{20}{c}} {{{\hat A}^{{n_x} + {n_w}}}\bar M_x^ + }&{{U_u} - {{\hat A}^{{n_x} + {n_w}}}\bar M_x^ + {{\bar M}_u}} \end{array}}\right] :=\;\\ &\qquad\left[ {\begin{array}{*{20}{c}} I{ - X} \end{array}} \right]\left[ {\begin{array}{*{20}{c}} {{{\bar M}_1}} \\ {{{\bar M}_2}} \end{array}} \right] \\ &\bar z(k) = \left[ {\begin{array}{*{20}{c}} {\hat e(k)} \\ {{\bar {\hat {u}}}(k)} \end{array}} \right] \end{split}$$

    可得

    $$z(k) = \left[ {\begin{array}{*{20}{c}} {{{\bar M}_1}} \\ {{{\bar M}_2}} \end{array}} \right]\bar z(k)$$ (54)
    $$\begin{array}{l} \;\;\;\;\; \bar x(k) = ({{\bar M}_1} - X{{\bar M}_2})\bar z(k) := \bar M\bar z(k) \end{array} $$ (55)

    由式(29) 可知,最优输出调节问题可由如下控制输入求解

    $$\begin{split} \hat u(k) =\;& - {K^*}\bar x(k) + U\hat w(k)= \\ \;& - ({K^*}\bar M - U{{\bar M}_2})\bar z(k) := \;\\ & - {{\bar K}^*}\bar z(k) \end{split} $$ (56)

    式(28)Riccati方程变为

    $$\begin{split} {{\bar M}^{\rm{T}}}P\bar M =\;& {{\bar M}^{\rm{T}}}{C^{\rm{T}}}QC\bar M + {{\bar M}^{\rm{T}}}{{\bar A}^{\rm{T}}}P\bar A\bar M - \\ & {{\bar M}^{\rm{T}}}({{\bar A}^{\rm{T}}}P\bar B + {C^{\rm{T}}}QS) \cdot \\ & {(R + {{\bar B}^{\rm{T}}}P\bar B + {S^{\rm{T}}}QS)^{ - 1}} \cdot \\ & ({{\bar B}^{\rm{T}}}P\bar A + {S^{\rm{T}}}QC)\bar M \end{split} $$ (57)

    上式的Riccati方程难以直接求解, 基于式(55)与动态方程

    $$\bar x(k + 1) = \bar A\bar x(k) + \bar B\hat u(k) - \bar BU\hat w(k)$$ (58)

    可得

    $$\begin{split} {{\bar x}^{\rm{T}}}(k& + 1){P_j}\bar x(k + 1) + {{\bar e}^{\rm{T}}}(k)Q\bar e(k) + \\ &{(\hat u(k) - U\hat w(k))^{\rm{T}}}R(\hat u(k) - U\hat w(k)) =\\ & {{\bar z}^{\rm{T}}}(k)({{\bar M}^{\rm{T}}}{{\bar A}^{\rm{T}}}{P_j}\bar A\bar M + {{\bar M}^{\rm{T}}}{C^{\rm{T}}}QC\bar M - \\ & {{\bar M}^{\rm{T}}}{{\bar A}^{\rm{T}}}{P_j}\bar BU{{\bar M}_2} - \bar M_2^{\rm{T}}{U^{\rm{T}}}{{\bar B}^{\rm{T}}}{P_j}\bar A\bar M - \\ &{{\bar M}^{\rm{T}}}{C^{\rm{T}}}QSU{{\bar M}_2} - \bar M_2^{\rm{T}}{U^{\rm{T}}}{S^{\rm{T}}}QC\bar M + \\ &\bar M_2^{\rm{T}}{U^{\rm{T}}}({{\bar B}^{\rm{T}}}{P_j}\bar B + R + {S^{\rm{T}}}QS)U{{\bar M}_2})\bar z(k) + \\ & {{\hat u}^{\rm{T}}}(k)({{\bar B}^{\rm{T}}}{P_j}\bar B + R + {S^{\rm{T}}}QS)\hat u(k) + \\ & 2{{\bar z}^{\rm{T}}}(k)({{\bar M}^{\rm{T}}}{{\bar A}^{\rm{T}}}{P_j}\bar B + {{\bar M}^{\rm{T}}}{C^{\rm{T}}}QS - \\ & \bar M_2^{\rm{T}}{U^{\rm{T}}}({{\bar B}^{\rm{T}}}{P_j}\bar B + R + {S^{\rm{T}}}QS))\hat u(k) \end{split} $$ (59)

    通过定义

    $$\begin{split} & {{\bar L}_{1j}} = {{\bar M}^{\rm{T}}}{{\bar A}^{\rm{T}}}{P_j}\bar A\bar M + {{\bar M}^{\rm{T}}}{C^{\rm{T}}}QC\bar M - \\ &\;\;\;\qquad{{\bar M}^{\rm{T}}}{{\bar A}^{\rm{T}}}{P_j}\bar BU{{\bar M}_2} - \bar M_2^{\rm{T}}{U^{\rm{T}}}{{\bar B}^{\rm{T}}}{P_j}\bar A\bar M - \\ &\;\;\;\qquad{{\bar M}^{\rm{T}}}{C^{\rm{T}}}QSU{{\bar M}_2} - \bar M_2^{\rm{T}}{U^{\rm{T}}}{S^{\rm{T}}}QC\bar M + \\ &\;\;\;\qquad\bar M_2^{\rm{T}}{U^{\rm{T}}}({{\bar B}^{\rm{T}}}{P_j}\bar B + R + {S^{\rm{T}}}QS)U{{\bar M}_2}\\ & {{\bar L}_{2j}} = {{\bar B}^{\rm{T}}}{P_j}\bar B + R + {S^{\rm{T}}}QS \\ & {{\bar L}_{3j}} ={{\bar M}^{\rm{T}}}{{\bar A}^{\rm{T}}}{P_j}\bar B + {{\bar M}^{\rm{T}}}{C^{\rm{T}}}QS - \\ &\;\;\;\qquad\bar M_2^{\rm{T}}{U^{\rm{T}}}({{\bar B}^{\rm{T}}}{P_j}\bar B + R + {S^{\rm{T}}}QS) \\ & {\bar \varphi _j}(k) = {\left[ {f(k),f(k + 1), \cdots ,f(k + s)} \right]^{\rm{T}}} \\ &{\bar \psi _j}(k) = \left[ {\begin{array}{*{20}{c}} {{{\bar \Phi }_{01}}}&{{{\bar \Phi }_{02}}}&{{{\bar \Phi }_{03}}} \\ {{{\bar \Phi }_{11}}}&{{{\bar \Phi }_{12}}}&{{{\bar \Phi }_{13}}} \\ \vdots & \vdots & \vdots \\ {{{\bar \Phi }_{s1}}}&{{{\bar \Phi }_{s2}}}&{{{\bar \Phi }_{s3}}} \end{array}} \right]\end{split} $$

    其中

    $$\begin{array}{l} f(k) = {\gamma ^{ - 2k}}{{\bar z}^{\rm{T}}}(k + 1){{\bar M}^{\rm{T}}}{P_j}\bar M\bar z(k + 1) + \\ \;\;\;\;\;\;\;\;\;\;\;{\gamma ^{ - 2k}}{{\bar e}^{\rm{T}}}(k)Q\bar e(k) + \\ \;\;\;\;\;\;\;\;\;\;\;{\gamma ^{ - 2k}}{(\hat u(k) - U\hat w(k))^{\rm{T}}}R(\hat u(k) - U\hat w(k)) \\ {{\bar \Phi }_{l1}} = {\gamma ^{ - 2k - 2l}}{\rm{vecv(}}z(k + l){\rm{)}} \\ {{\bar \Phi }_{l2}} = {\rm{vecv(}}u(k + l){\rm{)}} \\ {{\bar \Phi }_{l3}} = 2{\gamma ^{ - k - l}}{u^{\rm{T}}}(k + l) \otimes {z^{\rm{T}}}(k + l) \end{array} $$

    可将式(59)转化为如下方程组

    $${\bar \psi _j}(k)[{\rm{vecs}}({\bar L_{1j}});{\rm{vecs}}({\bar L_{2j}});{\rm{vec}}({\bar L_{3j}})] = {\bar \varphi _j}(k)$$ (60)

    当在线数据满足一定要求时, 上述方程组可由最小二乘方法求解. 如下引理给出了方程组(60)具有唯一解的条件.

    引理3. 方程组(60)可解并具有唯一解, 当且仅当

    $$\begin{split} {\rm{rank}}&({{\bar \psi }_j}(k)) =\; \frac{1}{2}(({n_y} + {n_u})({n_x} + {n_w}) + {n_u}) \times \\ &\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;(({n_y} + {n_u})({n_x} + {n_w}) + {n_u} + 1)\end{split} $$

    当引理3成立时, 方程组(60)可以由下式求解, 为

    $$\begin{split} &{[{\rm{vecs}}({{\bar L}_{1j}});{\rm{vecs}}({{\bar L}_{2j}});{\rm{vec}}({{\bar L}_{3j}})]}=\\ &\;\;\;\;\;\;\;{ {{(\bar \psi _j^{\rm{T}}(k){{\bar \psi }_j}(k))}^{ - 1}}\bar \psi _j^{\rm{T}}(k){{\bar \varphi }_j}(k)} \end{split}$$ (61)

    定义

    $${\bar P_{j + 1}} = {\bar M^{\rm{T}}}{P_{j + 1}}\bar M$$ (62)

    则Riccati方程(57)可由如下迭代公式求解

    $${\bar P_{j + 1}} = {\bar L_{1j}} - \bar L_{3j}^{}\bar L_{2j}^{ - 1}\bar L_{3j}^{\rm{T}}$$ (63)

    计算得到${\bar P_{j + 1}}$后, 将其代入$\bar \varphi _j^{}(k)$更新得到$\bar \varphi _{j + 1}^{}(k)$, 继而可以更新方程(60), 重复以上步骤可以得到序列${\rm{\{ }}{\bar P_j}{\rm{\} }}_{j = 0}^\infty $直至收敛, 对应的序列${\rm{\{ }}{\bar K_j}{\rm{\} }}_{j = 0}^\infty $

    $$\begin{array}{l} {{\bar K}_j} = {K_j}\bar M - U{{\bar M}_2} = \bar L_{2j}^{ - 1}L_{3j}^{\rm{T}} \end{array} $$ (64)

    至此, 基于输出反馈与强化学习的自适应最优输出调节算法如下.

    算法3. 基于输出反馈与强化学习的自适应最优输出调节算法

    初始化: 选择任意的初始控制律${\bar K_0}$, 终止条件常数$\varepsilon > 0$, 半正定矩阵${\bar P_0}$, $j \leftarrow 0$;

    最优输出调节律在线计算: 利用如下迭代算法计算最优反馈增益, 在区间$[k,k + s]$利用控制输入为$\hat u(k) = - {\bar K_0}\bar z(k) + n(k)$, 其中$n(k)$为控制输入中添加的探测噪声, s为使得引理3满足的数;

    1) 利用式(60)计算得到${\bar L_{1j}}$, ${\bar L_{2j}}$, ${\bar L_{3j}}$;

    2) 利用式(44)计算${\bar P_{j + 1}}$;

    3) 判断$\left\| {{{\bar P}_{j + 1}} - {{\bar P}_j}} \right\| < \varepsilon $是否成立, 如果成立则停止迭代, 并利用式(64)计算得到${\bar K_j}$,反之则重复上述两步, 并令: $ j\leftarrow j+1 $.

    注7. 算法3与算法2具有类似的特性, 其中${(\bar \psi _j^{\rm{T}}(k){\bar \psi _j}(k))^{ - 1}}\bar \psi _j^{\rm{T}}(k)$在迭代过程中仅需要计算一次. ${\bar K_j}$仅需要在${\bar M^{\rm{T}}}{P_{j + 1}}\bar M$收敛后计算一次. 该方法同样是一类off-policy方法,可以保证计算结果是无偏的.

    注8. 本小节假设U是已知的, 该假设只需要在学习最优输出调节律时成立.当${B^{\rm{T}}}B$${S^{\rm{T}}}S$为非奇异矩阵时, $({\bar B^{\rm{T}}}{P_j}\bar B + {S^{\rm{T}}}QS)$是可逆的, 该情况下如果注1满足, 可将R设置为0, 则${\bar \varphi _j}(k)$中的$(\hat u(i) - $$ U\hat w(i))^{\rm{T}}R(\hat u(i) - U\hat w(i)) ,$ $i=k,k+1,\cdots,k+s$变为0, 避免了U已知的要求.

    本节进行所设计的状态反馈与输出反馈自适应最优输出调节算法的收敛性分析与基于所设计的最优输出调节器的闭环系统稳定性分析, 如下两个定理分别给出了收敛性结论与稳定性结论.

    定理1. 当假设1 ~ 3成立, 引理2中条件满足时, 由算法2所得到的序列${\rm{\{ }}{P_j}{\rm{\} }}_{j = 0}^\infty $${\rm{\{ }}{K_j}{\rm{\} }}_{j = 0}^\infty $最终会收敛至其最优值, 即${\lim _{j \to \infty }}{P_j} = {P^*}$, ${\lim _{j \to \infty }}{K_j} = $$ {K^*}$. 另外, 当假设1 ~ 4成立, 引理3中条件满足时, 由算法3所得到的序列${\rm{\{ }}{\bar P_j}{\rm{\} }}_{j = 0}^\infty $${\rm{\{ }}{\bar K_j}{\rm{\} }}_{j = 0}^\infty $最终会收敛至其最优值, 即${\lim _{j \to \infty }}{\bar P_j} = {\bar M^{\rm{T}}}{P^*}\bar M$, ${\lim _{j \to \infty }}{\bar K_j} = $$ {K^*}\bar M - U{\bar M_2}$.

    证明. 当引理2条件满足时,式 (43)具有唯一解. 因此, 式(43)等价于算法1中的式(30)和 式(45)等价于算法1中的式(31), 这表明算法2的收敛性等价于算法1的收敛性. 基于引理1, ${\lim _{j \to \infty }}{P_j} = {P^*}$, ${\lim _{j \to \infty }}{K_j} = {K^*}$得证. 对于算法3, 当引理3条件满足时, 式(63)等价于算法1中的式(30)和式(64)等价于算法1中的式(31), 基于引理1, 可得${\lim _{j \to \infty }}\;{\bar P_j} = {\bar M^{\rm{T}}}\;{P^*}\;\bar M$, ${\lim _{j \to \infty }}{\bar K_j} = $$ {K^*}\bar M - U{\bar M_2}$.

    定理2. 考虑受扰动的线性离散系统(1) ~ (2), 外部系统(3) ~ (4), 当假设1 ~ 4成立时, 由算法2和算法3所得到的${K_j}$${\bar K_j}$将使得闭环系统是渐近稳定的, 且跟踪误差e(k)的收敛速率快于${\gamma ^{ - k}}$.

    证明. 基于定理1的结论, 由算法2与算法3所得到的${K_j}$${\bar K_j}$所控制的闭环对象为

    $$\bar x(k + 1) = (\bar A - \bar B{K^*})\bar x(k)$$ (65)
    $$\bar e(k) = C\bar x(k)$$ (66)

    由于${K^{\rm{*}}}$是利用Riccati方程(28)求解得到, 因此$\bar A - \bar B{K^*}$是Schur的, 所以有${\lim _{k \to \infty }}\bar e(k) = $$ {\lim _{k \to \infty }}{\gamma ^k}e(k) = 0$, 由此可得所计算的反馈控制增益${K_j}$${\bar K_j}$解决了问题1, 使得跟踪误差e(k)的收敛速率快于${\gamma ^{ - k}}$.

    本节进行所提算法的仿真实验研究, 首先介绍仿真实验对象与实验参数, 之后分别进行基于状态反馈的仿真实验与基于输出反馈的仿真实验.

    考虑如下受扰动的线性离散时间系统

    $$\begin{split} &x(k + 1) = \left[ {\begin{array}{*{20}{c}} 0&1 \\ { - 1}&{ - 3} \end{array}} \right]x(k) + \left[ {\begin{array}{*{20}{c}} 0 \\ {0.6} \end{array}} \right]u(k) + w(k) \\ & y(k) = \left[ {\begin{array}{*{20}{c}} 1&0 \end{array}} \right]x(k) + u(k) \end{split} $$

    对应的外部系统与参考信号为

    $$\begin{array}{l} w(k + 1) = \left[ {\begin{array}{*{20}{c}} {\cos (0.2)}&{\sin(0.2)} \\ { - \sin (0.2)}&{\cos (0.2)} \end{array}} \right]w(k) \\ {y_d}(k) = \left[ {\begin{array}{*{20}{c}} 1&0 \end{array}} \right]w(k) \end{array} $$

    问题1中的矩阵参数选择为$Q = R = 1$, 问题2中的矩阵参数选择为$M = I$, 收敛速率$\gamma = 1.2$, 利用式(9)求解输出调节方程(7)~(8)的解XU

    $$X = \left[ {\begin{array}{*{20}{c}} {0.8506}&{0.066} \\ { - 0.1795}&{0.2337} \end{array}} \right],U = \left[ {\begin{array}{*{20}{c}} {0.1494}&{ - 0.066} \end{array}} \right]$$

    则最优的P*, K*, L*${\bar K^*}$分别为

    $$\begin{split} &{P^*} = \left[ {\begin{array}{*{20}{c}} {8.8818}&{16.1083} \\ {16.1083}&{32.1106} \end{array}} \right] \\ & {K^*} = \left[ {\begin{array}{*{20}{c}} { - 1.4343}&{ - 3.7173} \end{array}} \right] \\ &{L^*} = \left[ {\begin{array}{*{20}{c}} { - 0.4032}&{ - 1.0293} \end{array}} \right] \\ & {{\bar K}^*} = \left[ {\begin{array}{*{20}{c}} { - 15.8383}&{31.2417}&{ - 6.3175}&{ - 10.985} \end{array}} \right. \\ & \;\;\;\;\;\;\;\;\left. {\begin{array}{*{20}{c}} {13.1619}&{ - 22.8457}&{ - 6.3697}&{17.5763} \end{array}} \right] \end{split} $$

    本小节进行基于状态反馈的仿真实验, 仿真实验中, 初始控制律${K_0} = \left[ { - 1}\;\;{ - 3} \right]^{\rm{T}}$, 终止条件常数$\varepsilon = 0.001$, 半正定矩阵P0=0, 矩阵序列

    $$\begin{split} & \left[ {\begin{array}{*{20}{c}} {{X_0}} \\ {{U_0}} \end{array}} \right]= \left[ {\begin{array}{*{20}{c}} 0&0 \\ 0&0 \\ 0&0 \end{array}} \right], \left[ {\begin{array}{*{20}{c}} {{X_1}} \\ {{U_1}} \end{array}} \right] = \left[ {\begin{array}{*{20}{c}} 1&0 \\ 0&0 \\ 0&0 \end{array}} \right],\\ &\left[ {\begin{array}{*{20}{c}} {{X_2}} \\ {{U_2}} \end{array}} \right]= \left[ {\begin{array}{*{20}{c}} { - \sqrt 2 }&0 \\ 0&0 \\ {\sqrt 2 }&0 \end{array}} \right],\left[ {\begin{array}{*{20}{c}} {{X_3}} \\ {{U_3}} \end{array}} \right] = \left[ {\begin{array}{*{20}{c}} 0&1 \\ { - \sqrt 2 }&2 \\ 0&{ - 1} \end{array}} \right], \\ & \left[ {\begin{array}{*{20}{c}} {{X_4}} \\ {{U_4}} \end{array}} \right] = \left[ {\begin{array}{*{20}{c}} 0&0 \\ 0&1 \\ 0&0 \end{array}} \right],\left[ {\begin{array}{*{20}{c}} {{X_5}} \\ {{U_5}} \end{array}} \right] = \left[ {\begin{array}{*{20}{c}} 0&{ - 1} \\ { - \sqrt 2 }&2 \\ 0&1 \end{array}} \right].\end{split} $$

    探测噪声$n(k)$为白噪声, 被控对象的初始状态为$x(1) = {\left[ 1\;\;2 \right]^{\rm{T}}}$$w(1) = {\left[ 2\;\;1\right]^{\rm{T}}}$. 由引理2可知, 求解公式(42)至少需要15组数据, 故s需大于14, 仿真实验中选择s = 17.

    仿真结果如图1 ~ 3所示, 图1表示基于状态反馈的输出y(k)与参考信号yd(k)的轨迹, 由该图可知本文所提方法能够在系统矩阵A, B, D, E未知时实现自适应输出调节, 图2表示基于状态反馈的$ \Vert {P}_{j}-{P}^{*}\Vert $$ \Vert {K}_{j}-{K}^{*}\Vert $的误差轨迹, 由图可知经过13步迭代算法收敛, 图3表示基于状态反馈的误差e(k)与${\gamma ^{ - k}}e({k_0})$的对比曲线, 实验结果表明所设计的控制器能够使得跟踪误差收敛快于${\gamma ^{ - k}}$.

    图 1  基于状态反馈的输出y(k)与参考信号yd(k)轨迹
    Fig. 1  Trajectories of the output y(k) and the reference signal yd(k) via state feedback
    图 3  基于状态反馈的误差e(k)与${\gamma ^{ - k}}e({k_0})$对比曲线
    Fig. 3  Comparison curve of e(k) and ${\gamma ^{ - k}}e({k_0})$ via state feedback
    图 2  基于状态反馈的$ \Vert {P}_{j}-{P}^{*}\Vert $$ \Vert {K}_{j}-{K}^{*}\Vert $误差轨迹
    Fig. 2  Trajectory of the error between $ \Vert {P}_{j}-{P}^{*}\Vert $ and $ \Vert {K}_{j}-{K}^{*}\Vert $ via state feedback

    本小节进行基于状态反馈的仿真实验, 仿真实验中, 初始控制律

    $$\begin{array}{l} {\kern 1pt} {{\bar K}_0} = \left[ {\begin{array}{*{20}{c}} { - 13.5899}&{24.4082}&{ - 4.4063}&{ - 8.4499} \end{array}} \right. \\ \;\;\;\;\;\;\;\;\;\;\;\;\;\;\left. {\begin{array}{*{20}{c}} {11.4299}&{ - 17.4962}&{ - 5.6248}&{13.5199} \end{array}} \right] \end{array} $$

    终止条件常数$\varepsilon = 80$, 半正定矩阵P0 = 0, 探测噪声$n(k)$为白噪声, 被控对象的初始状态为$x(1) = $$ {\left[ 1\;\;2 \right]^{\rm{T}}}$$w(1) = {\left[ 2\;\;1 \right]^{\rm{T}}}$. 由引理3可知, 求解式(60)至少需要45组数据, 故s需大于44, 仿真实验中选择s = 64.

    仿真结果如图4 ~ 6所示, 图4表示基于s输出反馈的输出y(k)与参考信号yd(k)的轨迹, 由该图可知本文所提方法能够实现自适应输出调节, 图5表示基于输出反馈的$ \Vert {\overline{P}}_{j}-{\overline{P}}^{*}\Vert $$ \Vert {\overline{K}}_{j}-{\overline{K}}^{*}\Vert $的误差轨迹, 图6表示基于输出反馈的误差e(k)与${\gamma ^{ - k}}e({k_0})$的对比曲线, 实验结果表明所设计的控制器能够使得跟踪误差收敛快于${\gamma ^{ - k}}$.

    图 4  基于输出反馈的输出y(k)与参考信号yd(k)轨迹
    Fig. 4  Trajectories of the output y(k) and the reference signal yd(k) via output feedback
    图 6  基于输出反馈的误差e(k)与${\gamma ^{ - k}}e({k_0})$对比曲线
    Fig. 6  Comparison curve of e(k) and ${\gamma ^{ - k}}e({k_0})$ via output feedback
    图 5  基于输出反馈的$ \Vert {\overline{P}}_{j}-{\overline{P}}^{*}\Vert $$ \Vert {\overline{K}}_{j}-{\overline{K}}^{*}\Vert $误差轨迹
    Fig. 5  Trajectory of the error between $ \Vert {\overline{P}}_{j}-{\overline{P}}^{*}\Vert $ and $ \Vert {\overline{K}}_{j}-{\overline{K}}^{*}\Vert $ via output feedback

    本小节进行对比仿真实验, 其中对比方法选用文献[24]方法, 对比实验的参数选择为$Q = 1$, $R = 30$, 收敛速率$\gamma = 3$. 由于文献[24]中的方法无法求解输出调节方程(7) ~ (8)的解XU, 对比实验中求解XU均使用本文的方法. 对比方法中的初始控制策略为稳定的. 对比仿真结果如图7表示, 实验结果表明, 与对比方法相比, 在相同的权重矩阵参数下, 本文所设计的控制器使得跟踪误差收敛快于${\gamma ^{ - k}}$, 而对比方法计算得到的控制器使得跟踪误差收敛慢于${\gamma ^{ - k}}$.

    图 7  对比仿真结果
    Fig. 7  Comparison of simulation results

    本文针对具有未知动态与收敛速率要求的受扰离散线性系统的输出调节问题, 提出了基于状态反馈与输出反馈的自适应最优输出调节算法, 该算法不需要稳定的初始控制律与部分模型知识, 利用在线算法求解得到最优的输出调节器, 同时还能够保证跟踪误差的收敛速率满足预先给定的要求. 本文的后续工作将着重于研究基于动态反馈的输出调节算法, 以克服对部分模型知识的要求.

  • 图  1  基于状态反馈的输出y(k)与参考信号yd(k)轨迹

    Fig.  1  Trajectories of the output y(k) and the reference signal yd(k) via state feedback

    图  3  基于状态反馈的误差e(k)与${\gamma ^{ - k}}e({k_0})$对比曲线

    Fig.  3  Comparison curve of e(k) and ${\gamma ^{ - k}}e({k_0})$ via state feedback

    图  2  基于状态反馈的$ \Vert {P}_{j}-{P}^{*}\Vert $$ \Vert {K}_{j}-{K}^{*}\Vert $误差轨迹

    Fig.  2  Trajectory of the error between $ \Vert {P}_{j}-{P}^{*}\Vert $ and $ \Vert {K}_{j}-{K}^{*}\Vert $ via state feedback

    图  4  基于输出反馈的输出y(k)与参考信号yd(k)轨迹

    Fig.  4  Trajectories of the output y(k) and the reference signal yd(k) via output feedback

    图  6  基于输出反馈的误差e(k)与${\gamma ^{ - k}}e({k_0})$对比曲线

    Fig.  6  Comparison curve of e(k) and ${\gamma ^{ - k}}e({k_0})$ via output feedback

    图  5  基于输出反馈的$ \Vert {\overline{P}}_{j}-{\overline{P}}^{*}\Vert $$ \Vert {\overline{K}}_{j}-{\overline{K}}^{*}\Vert $误差轨迹

    Fig.  5  Trajectory of the error between $ \Vert {\overline{P}}_{j}-{\overline{P}}^{*}\Vert $ and $ \Vert {\overline{K}}_{j}-{\overline{K}}^{*}\Vert $ via output feedback

    图  7  对比仿真结果

    Fig.  7  Comparison of simulation results

  • [1] Åström K J, Tore H. PID Controllers: Theory, Design, and Tuning. Research Triangle Park, NC: Instrument Society of America, 1995.
    [2] Garcia C E, Prett D M, Morari M. Model predictive control: theory and practice—a survey. Automatica, 1989, 25(3): 335-348. doi: 10.1016/0005-1098(89)90002-2
    [3] Francis B A. The Linear Multivariable Regulator Problem. SIAM Journal on Control and Optimization, 1977, 15(3): 486-505. doi: 10.1137/0315033
    [4] Isidori A, Byrnes C I. Output regulation of nonlinear systems. IEEE Transactions on Automatic Control, 1990, 35(2): 131-140. doi: 10.1109/9.45168
    [5] Ding Z T. Output regulation of uncertain nonlinear systems with nonlinear exosystems. IEEE Transactions on Automatic Control, 2006, 51(3): 498-503. doi: 10.1109/TAC.2005.864199
    [6] Huang J, Chen Z. A general framework for tackling the output regulation problem. IEEE Transactions on Automatic Control, 2004, 49(12): 2203-2218. doi: 10.1109/TAC.2004.839236
    [7] Parks P. Liapunov redesign of model reference adaptive control systems. IEEE Transactions on Automatic Control, 1966, 11(3): 362-367. doi: 10.1109/TAC.1966.1098361
    [8] 田涛涛, 侯忠生, 刘世达, 邓志东. 基于无模型自适应控制的无人驾驶汽车横向控制方法. 自动化学报, 2017, 43(11): 1931-1940.

    Tian Tao-Tao, Hou Zhong-Sheng, Liu Shi-Da, Deng Zhi-Dong. Model-free Adaptive Control Based Lateral Control of Self-driving Car. Acta Automatica Sinica, 2017, 43(11): 1931-1940.
    [9] 于欣波, 贺威, 薛程谦, 孙永坤, 孙长银. 基于扰动观测器的机器人自适应神经网络跟踪控制研究. 自动化学报, 2019, 45(7): 1307-1324.

    Yu Xin-Bo, He Wei, Xue Cheng-Qian, Sun Yong-Kun, Sun Chang-Yin. Disturbance Observer-based Adaptive Neural Network Tracking Control for Robots. Acta Automatica Sinica, 2019, 45(7): 1307-1324.
    [10] Modares H, Lewis F L. Linear Quadratic Tracking Control of Partially-Unknown Continuous-Time Systems Using Reinforcement Learning. IEEE Transactions on Automatic Control, 2014, 59(11): 3051-3056. doi: 10.1109/TAC.2014.2317301
    [11] Xue W Q, Fan J L, Lopez V G, Jiang Y, Chai T Y, Lewis F L. Off-policy reinforcement learning for tracking in continuous-time systems on two time-scales. IEEE Transactions on Neural Networks and Learning Systems, 2021, 32 (10), 4334−4346
    [12] Kiumarsi B, Lewis F L, Modares H, Karimpour A, Naghibisistani M B. Reinforcement Q-learning for optimal tracking control of linear discrete-time systems with unknown dynamics. Automatica, 2014, 50(4): 1167-1175. doi: 10.1016/j.automatica.2014.02.015
    [13] Jiang Y, Fan J, Chai T, Lewis F L, Li J N. Tracking Control for Linear Discrete-Time Networked Control Systems With Unknown Dynamics and Dropout. IEEE Transactions on Neural Networks and Learning System, 2018, 29(10): 4607-4620. doi: 10.1109/TNNLS.2017.2771459
    [14] 吴倩, 范家璐, 姜艺, 柴天佑. 无线网络环境下数据驱动混合选别浓密过程双率控制方法. 自动化学报, 2019, 45(6): 1122-1135.

    Wu Qian, Fan Jia-Lu, Jiang Yi, Chai Tian-You. Data-driven Dual-rate Control for Mixed Separation Thickening Process in a Wireless Network Environment. Acta Automatica Sinica, 2019, 45(6): 1122-1135.
    [15] Xue W Q, Fan J L, Lopez V G, Li J N, Jiang Y, Chai T Y, Lewis F L. New Methods for Optimal Operational Control of Industrial Processes Using Reinforcement Learning on Two Time Scales. IEEE Transactions on Industrial Informatics, 2020, 16(5): 3085-3099. doi: 10.1109/TII.2019.2912018
    [16] Modares H, Lewis F L. Optimal tracking control of nonlinear partially-unknown constrained-input systems using integral reinforcement learning. Automatica, 2014, 50(7): 1780-1792. doi: 10.1016/j.automatica.2014.05.011
    [17] Kiumarsi B, Lewis F L. Actor–critic-based optimal tracking for partially unknown nonlinear discrete-time systems. IEEE Transactions on Neural Networks and Learning Systems, 2014, 26(1): 140-151.
    [18] Jiang Y, Fan J L, Chai T Y, Li J N, Lewis F L. Data-driven flotation industrial process operational optimal control based on reinforcement learning. IEEE Transactions on Industrial Informatics, 2018, 14(5): 1974-1989. doi: 10.1109/TII.2017.2761852
    [19] Jiang Y, Fan J L, Chai T Y, Lewis F L. Dual-rate operational optimal control for flotation industrial process with unknown operational model. IEEE Transactions on Industrial Electronics, 2019, 66(6): 4587-4599. doi: 10.1109/TIE.2018.2856198
    [20] Gao W N, Jiang Z P. Adaptive Dynamic Programming and Adaptive Optimal Output Regulation of Linear Systems. IEEE Transactions on Automatic Control, 2016, 61(12): 4164-4169. doi: 10.1109/TAC.2016.2548662
    [21] Gao W N, Jiang Z P, Lewis F L, Wang Y B. Leader-to-Formation Stability of Multi-agent Systems: An Adaptive Optimal Control Approach. IEEE Transactions on Automatic Control, 2018, 63(10): 3581-3587. doi: 10.1109/TAC.2018.2799526
    [22] Chen C, Modares H, Xie K, Lewis F L, Wan Y, Xie S L. Reinforcement Learning-Based Adaptive Optimal Exponential Tracking Control of Linear Systems With Unknown Dynamics. IEEE Transactions on Automatic Control, 2019, 64(11): 4423-4438. doi: 10.1109/TAC.2019.2905215
    [23] Chen C, Lewis F L, Xie K, Xie S L, Liu Y L. Off-policy learning for adaptive optimal output synchronization of heterogeneous multi-agent systems. Automatica, 2020, 119: 109081. doi: 10.1016/j.automatica.2020.109081
    [24] Jiang Y, Kiumarsi B, Fan J L, Chai T Y, Li J N, Lewis. Optimal Output Regulation of Linear Discrete-Time Systems with Unknown Dynamics using Reinforcement Learning. IEEE Transactions on Cybernetics, 2020, 50(7): 3147-3156. doi: 10.1109/TCYB.2018.2890046
    [25] 庞文砚, 范家璐, 姜艺, 刘易斯·弗兰克. 基于强化学习的部分线性离散时间系统最优输出调节. 自动化学报, DOI: 10.16383/j.aas.c190853

    Pang Wen-Yan, Fan Jia-Lu, Jiang Yi, Lewis Frank Leroy. Optimal output regulation of partially linear discrete-time systems using reinforcement learning. Acta Automatica Sinica, DOI: 10.16383/j.aas.c190853
    [26] Fan J L, Wu Q, Jiang Y, Chai T Y, Lewis F L. Model-Free Optimal Output Regulation for Linear Discrete-Time Lossy Networked Control Systems. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2020, 50(11): 4033-4042. doi: 10.1109/TSMC.2019.2946382
    [27] Gao W N, Jiang Z P. Learning-Based Adaptive Optimal Tracking Control of Strict-Feedback Nonlinear Systems. IEEE Transactions on Neural Networks and Learning System, 2018, 29(6): 2614-2624. doi: 10.1109/TNNLS.2017.2761718
    [28] Jiang Y, Fan J L, Gao W N, Chai T Y, Lewis F L. Cooperative Adaptive Optimal Output Regulation of Discrete-Time Nonlinear Multi-Agent Systems. Automatica, 2020, 121: 109149. doi: 10.1016/j.automatica.2020.109149
    [29] Kiumarsi B, Lewis F L, Modares H, Karimpour A, Naghibisistani M B. Optimal Tracking Control of Unknown Discrete-Time Linear Systems Using Input-Output Measured Data. IEEE Transactions on Cybernetics, 2015, 45(12): 2770-2779. doi: 10.1109/TCYB.2014.2384016
    [30] Gao W N, Jiang Z P. Adaptive optimal output regulation of time-delay systems via measurement feedback. IEEE Transactions on Neural Networks and Learning System, 2018, 30(3): 938-945.
    [31] 张春燕, 戚国庆, 李银伢, 盛安冬. 一种基于有限时间稳定的环绕控制器设计. 自动化学报, 2018, 44(11): 2056-2067.

    Zhang Chun-Yan, Qi Guo-Qing, Li Yin-Ya, Sheng An-Dong. Standoff Tracking Control With Respect to Moving Target via Finite-time Stabilization. Acta Automatica Sinica, 2018, 44(11): 2056-2067.
    [32] Hong Y G, Xu Y S, Huang J. Finite-time control for robot manipulators. Systems and control letters, 2002, 46(4): 243-253. doi: 10.1016/S0167-6911(02)00130-5
    [33] Huang J. Nonlinear Output Regulation: Theory and Applications. SIAM, 2004.
    [34] Krener A J. The construction of optimal linear and nonlinear regulators. Systems, Models and Feedback: Theory and Applications. Springer, 1992.
    [35] Arnold W F, Laub A J. Generalized eigen problem algorithms and software for algebraic Riccati equations. Proceedings of the IEEE. 1984, 72(12): 1746-1754. doi: 10.1109/PROC.1984.13083
    [36] Lewis F L, Vrabie D, Syrmos V L. Optimal Control. John Wiley & Sons, 2012.
    [37] Lancaster P, Rodman L. Algebraic Riccati Equations. New York: Oxford University Press, 1995.
    [38] Hewer G. An iterative technique for the computation of the steady state gains for the discrete optimal regulator. IEEE Transactions on Automatic Control, 1971, 16(4): 382-384. doi: 10.1109/TAC.1971.1099755
    [39] Li J N, Chai T Y, Lewis F L, Ding Z T, Jiang Y. Off-Policy Interleaved Q-Learning: Optimal Control for Affine Nonlinear Discrete-Time Systems. IEEE Transactions on Neural Networks and Learning System, 2019, 30(5): 1308-1320. doi: 10.1109/TNNLS.2018.2861945
    [40] Kiumarsi B, Lewis F L, Jiang Z P. H control of linear discrete-time systems: Off-policy reinforcement learning. Automatica, 2017, 78: 144–152. doi: 10.1016/j.automatica.2016.12.009
    [41] 李臻, 范家璐, 姜艺, 柴天佑. 一种基于Off-policy的无模型输出数据反馈H控制方法. 自动化学报, 2021, 47(9), 2182-2193

    Li Zhen, Fan Jia-Lu, Jiang Yi, Chai Tian-You. A model-free H method based on off-policy with output data feedback. Acta Automatica Sinica, 2021, 47(9), 2182−21932
  • 期刊类型引用(5)

    1. QIN Yahang,ZHANG Chengye,CHEN Ci,XIE Shengli,LEWIS Frank L.. Control Policy Learning Design for Vehicle Urban Positioning via BeiDou Navigation. Journal of Systems Science & Complexity. 2024(01): 114-135 . 必应学术
    2. 金龙,张凡,刘佰阳,郑宇. 基于数据驱动的冗余机器人末端执行器位姿控制方案. 自动化学报. 2024(03): 518-526 . 本站查看
    3. 赵建国,杨春雨. 复杂工业过程非串级双速率组合分散运行优化控制. 自动化学报. 2023(01): 172-184 . 本站查看
    4. 阳春华,孙备,李勇刚,黄科科,桂卫华. 复杂生产流程协同优化与智能控制. 自动化学报. 2023(03): 528-539 . 本站查看
    5. 赵纯彦,徐磊,高伟男,杨涛. 基于自适应动态规划的时滞多智能体系统协同输出调节. 控制工程. 2023(08): 1477-1487 . 百度学术

    其他类型引用(3)

  • 加载中
图(7)
计量
  • 文章访问数:  2150
  • HTML全文浏览量:  411
  • PDF下载量:  525
  • 被引次数: 8
出版历程
  • 收稿日期:  2020-11-23
  • 录用日期:  2021-01-27
  • 网络出版日期:  2021-03-02
  • 刊出日期:  2022-04-13

目录

/

返回文章
返回