-
摘要: 针对具有外部系统扰动的线性离散时间系统的输出调节问题, 提出了可保证收敛速率的数据驱动最优输出调节方法, 包括状态可在线测量系统的基于状态反馈的算法, 与状态不可在线测量系统的基于输出反馈的算法. 首先, 该问题被分解为输出调节方程求解问题与反馈控制律设计问题, 基于输出调节方程的解, 通过引入收敛速率参数, 建立了可保证收敛速率的最优控制问题, 通过求解该问题得到具有保证收敛速率的输出调节器. 之后, 利用强化学习的方法, 设计基于值迭代的数据驱动状态反馈控制器, 学习得到基于状态反馈的最优输出调节器. 对于状态无法在线测量的被控对象, 利用历史输入输出数据对状态进行重构, 并以此为基础设计基于值迭代的数据驱动输出反馈控制器. 仿真结果验证了所提方法的有效性.Abstract: This paper investigates the output regulation problem for linear discrete-time systems with disturbances caused by exosystem and proposes data-driven optimal output regulation approaches with assured convergence rate, including the state feedback based algorithm for the system whose state can be measured online, and the output feedback based algorithm for the system whose state cannot be measured online. Firstly, this problem is decomposed into an output regulation equation solving problem and a feedback control law design problem. Based on the solutions of the output regulation equation, by introducing the convergence rate parameter, an optimal control problem with assured convergence rate is formulated and an assured convergence rate output regulator can be obtained by solving this problem. Then, by using the reinforcement learning approach, this paper designs a value iteration based data-driven state feedback controller which can learn the state feedback based optimal output regulator. For the systems whose states cannot be measured online, the state is reconstructed by using historical input and output data, and a data-driven output feedback controller based on value iteration is designed. Simulation results show the effectiveness of the proposed approaches.
-
在实际的控制器设计问题中, 通常是希望将被控对象的输出跟踪给定的设定值或给定的期望轨迹, 即实现输出跟踪. 对于前者, PID控制器[1]、模型预测控制器[2]是一类经典的解决方案. 对于后者, 该问题通常可以建立成一类输出调节问题[3-6], 该问题的目标通常包括两部分, 设计稳定的控制器使得输出信号与给定参考轨迹的误差是渐近稳定的, 并且能够完全可以克服外部系统所产生扰动信号对系统所产生的影响. 然而, 解决输出调节问题通常依赖于已知的精确模型参数, 而在一些特殊情况下该要求是难以满足的.
针对模型未知的被控对象的输出跟踪问题, 一些专家学者提出了基于自适应的控制方法, 如模型参考自适应控制[7]、无模型自适应控制[8]、神经网络自适应控制[9], 这些方法可以在部分模型知识未知的情况下, 很好的实现输出跟踪. 而在有些情况下, 控制器目标需要使得最小化给定的性能指标, 同时希望系统的动态性能满足一定要求, 这使得需要设计最优自适应控制器.
为解决最小化给定的性能指标问题, 一些专家学者提出了基于强化学习的自适应控制方法, 该方法通过与未知被控对象的交互来更新控制策略, 使得控制器是最优的. 对于跟踪问题, 主要有两类基于强化学习的方法, 一类是将跟踪问题定义为一类最优二次型跟踪问题, 另一类是基于输出调节理论的最优输出调节问题. 利用前一类方法, 文献[10-11]与文献[12-15]分别解决了连续与离散线性系统的最优跟踪控制问题, 文献[16]与文献[17-19]分别解决了连续与离散非线性系统的最优跟踪控制问题. 利用后一类方法, 文献[20-23]与文献[24-26]分别解决了连续与离散线性系统的最优输出调节问题, 文献[27]与文献[28]分别解决了连续与离散非线性系统的最优输出调节问题. 上述方法是基于状态反馈与策略迭代的方法, 而对于系统状态难以在线测量的系统, 上述方法不能直接应用, 针对这个问题, 文献[29]与文献[30]分别设计了基于输出反馈的控制器解决了最优跟踪控制问题与最优输出调节问题. 对于动态性能要求, 文献[31]针对单无人机对单目标的环航跟踪问题, 设计了飞行轨迹快速收敛到期望航迹的控制器. 文献[32]通过设计状态反馈和动态输出反馈控制, 研究了机器人系统的有限时间控制问题. 然而, 上述文献需要利用系统的动态模型参数来设计合适的Lyapunov函数.
为了使系统的动态特性满足预先给定的要求, 同时实现最优自适应控制, 本文提出保证收敛速率的数据驱动线性离散系统最优输出调节方法, 该方法不需要部分模型知识, 与文献[24-25]中的方法与被控对象相比, 该算法不需要稳定的初始控制律, 同时输出方程中输入到输出的前馈增益矩阵不等于0, 利用在线的状态数据、输入数据, 或者在线的输出、输入数据求解得到基于状态反馈与输出反馈最优的输出调节器, 并保证跟踪误差的收敛速率满足预先给定的要求.
本文结构如下: 第1节给出离散线性系统的最优输出调节问题描述, 第2节与第3节分别进行基于状态反馈与输出反馈的自适应最优输出调节器设计, 第4节给出设计方法的收敛性与系统闭环稳定性分析, 第5节利用仿真实验验证本文设计方法的有效性, 第6节为结论.
符号说明:
${\bf{R}}$ 与${\bf{N}}$ 分别代表实数集与非0自然数集, 对于矩阵$X,Y \in {{\bf{R}}^{n \times n}},n \in {\bf{N}}$ ,$X > 0$ ($X \geq 0$ )表示$X$ 是正定的(半正定的),$X > Y$ ($X \geq Y$ )表示$X - Y$ 是正定的(半正定的),${X^{ - 1}}$ 表示$X$ 的逆,$\sigma (X)$ 表示$X$ 的谱.$ \Vert \cdot \Vert $ 表示矩阵或向量范数, 对于矩阵$X \in {{\bf{R}}^{m \times n}}$ ,$m,n \in {\bf{N}}$ ,${X^{\rm{T}}}$ 表示$X$ 的转置,${\rm{vec}}(X) = {[x_1^{\rm{T}},x_2^{\rm{T}}, \cdots ,x_n^{\rm{T}}]^{\rm{T}}}$ , 其中${x_i},\;i = $ $ 1, \cdots ,n$ 为矩阵X的第i列,$ \otimes $ 表示Kronecker积, 对于对称矩阵$X \in {{\bf{R}}^{n \times n}}$ ,${\rm{vecs}}(X) = [{x_{11}},{x_{12}}, \cdots , {x_{(n - 1)n}}, $ $ {x_{nn}}]^{\rm{T}} \in {{\bf{R}}^{(1/2)n(n + 1)}}$ , 对于向量$v \in {{\bf{R}}^n},$ ${\rm{vecv}}(v) = [v_1^2, $ $ 2{v_1}{v_2}, \cdots ,$ $2{v_1}{v_n},\;v_2^2,\;2{v_2}{v_3}, \cdots , 2{v_{n - 1}}{v_n},\; v_n^2{]^{\rm{T}}}\; \in $ $ {{\bf{R}}^{(1/2)n(n + 1)}}$ , 其中${v_i},i = 1, \cdots ,n$ 为向量v的第i个元素.1. 控制问题描述
考虑如下受扰动的线性离散系统
$$x(k + 1) = Ax(k) + Bu(k) + Dw(k)$$ (1) $$y(k) = Cx(k) + Su(k)$$ (2) 其中,
$x \in {{\bf{R}}^{{n_x}}}$ ,$u \in {{\bf{R}}^{{n_u}}}$ ,$y \in {{\bf{R}}^{{n_y}}}$ ,$w \in {{\bf{R}}^{{n_w}}}$ 分别为系统的状态, 控制输入, 输出, 外部系统状态.$A \in $ $ {{\bf{R}}^{{n_x} \times {n_x}}}$ ,$B \in {{\bf{R}}^{{n_x} \times {n_u}}}$ ,$D \in {{\bf{R}}^{{n_x} \times {n_w}}}$ ,$C \in {{\bf{R}}^{{n_y} \times {n_x}}}$ ,$S \in {{\bf{R}}^{{n_y} \times {n_u}}}$ 为常数矩阵. 外部系统动态及其所产生的设定值为:$$w(k + 1) = Ew(k)$$ (3) $${y_d}(k) = - Fw(k)$$ (4) 其中,
$E \in {{\bf{R}}^{{n_w} \times {n_w}}}$ 为常数矩阵, 且其特征值都在单位圆上.${y_d} \in {{\bf{R}}^{{n_y}}}$ 为参考信号,$F \in {{\bf{R}}^{{n_y} \times {n_w}}}$ 为常数矩阵. 基于此, 跟踪误差可以表示为:$$\begin{split} e(k) =\;&y(k) - {y_d}(k) =\\ & Cx(k) + Su(k) + Fw(k) \end{split} $$ (5) 针对此系统, 有如下假设:
假设1.
$\left( {A,B} \right)$ 是可控的,$\left( {A,C} \right)$ 是可观测的.假设2.
${\rm{rank}}\left( {\left[ \begin{aligned} {A - \lambda I}\;\;B \\ C\quad\;\; S \end{aligned} \right]} \right) = {n_x} + {n_y}$ ,$\forall \lambda \in $ $ \sigma (E)$ .假设3. 矩阵
$E$ 的特征值都在单位圆上且互相不重复.假设4.
$\left( {\left[ {\begin{aligned} A\;\;D \\ 0\;\;E \end{aligned}} \right],\left[ C\;\;F \right]} \right)$ 是可观测的.传统的输出调节问题的控制器设计目标为使得跟踪误差e(k)是渐近稳定的, 即
${\lim _{k \to \infty }}e(k) = 0$ . 本文目标为利用外部系统数据w(k), 系统输入u(k), 系统状态x(k)或系统输出y(k)设计最优输出调节器, 使得跟踪误差e(k)是渐近稳定的, 同时期望跟踪误差e(k)的收敛速率快于${\gamma ^{ - k}}$ , 其中$\gamma > 1$ . 该问题可以定义为求解如下问题.问题1. 针对被控对象(1) ~ (2), 对应的外部系统为(3) ~ (4), 设计控制器u(k)使得跟踪误差满足
$$\mathop {\lim }\limits_{k \to \infty } {\gamma ^k}e(k) = 0$$ (6) 为解决该问题, 根据输出调节理论[3, 33], 该问题的输出调节方程为
$$XE = AX + BU + D$$ (7) $$0 = CX + SU + F$$ (8) 其中,
$X \in {{\bf{R}}^{{n_x} \times {n_w}}}$ 与$U \in {{\bf{R}}^{{n_u} \times {n_w}}}$ 为输出调节方程的待求解未知数. 利用Kronecker积, 输出调节方程(7) ~ (8)可写为$$\Gamma \eta = \vartheta $$ (9) 其中
$$\begin{split} &\Gamma = {E^{\rm{T}}} \otimes \left[ {\begin{array}{*{20}{c}} {{I_{{n_x}}}}&{{0_{{n_x} \times {n_u}}}} \\ {{0_{{n_y} \times {n_x}}}}&{{0_{{n_y} \times {n_u}}}} \end{array}} \right] - {I_{{n_w}}} \otimes \left[ {\begin{array}{*{20}{c}} A&B \\ C&S \end{array}} \right]\\ &\eta = {\rm{vec}}\left( {\left[ {\begin{array}{*{20}{c}} X \\ U \end{array}} \right]} \right), \vartheta = {\rm{vec}}\left( {\left[ {\begin{array}{*{20}{c}} D \\ F \end{array}} \right]} \right) \end{split}$$ 基于假设2可知,
$\Gamma $ 是行满秩的, 输出调节方程(7) ~ (8)是有解的[33]. 基于该解, 并同时考虑控制器设计要求为使得跟踪误差e(k)的收敛速率快于${\gamma ^{ - k}}$ , 定义新系统为$$\bar x(k + 1) = \bar A\bar x(k) + \bar B\bar u(k)$$ (10) $$\bar e(k) = C\bar x(k) + S\bar u(k)$$ (11) 其中,
$\bar x(k) = {\gamma ^k}(x(k) - Xw(k))$ ,$\bar A = \gamma A$ ,$\bar B = \gamma B$ ,$\bar u(k) = {\gamma ^k}(u(k) - Uw(k))$ ,$\bar e(k) = {\gamma ^k}e(k)$ .基于新系统(10) ~ (11), 建立如下最优控制问题与约束最优化问题. 通过求解该问题, 可以保证式(6)成立, 即跟踪误差e(k)的收敛速率快于
${\gamma ^{ - k}}$ , 该性质将会在闭环系统分析部分进行证明.问题2[34]. 针对系统(10) ~ (11), 给定
$Q \ge 0$ ,$R \ge 0$ , 设计基于状态反馈与输出反馈的最优控制输入$\bar u(k)$ , 使得如下性能指标最小$$\begin{split} &{\mathop {\min }\limits_{\bar u} }\;\;{V(k) = \sum\limits_{i = k}^\infty {\left( {{{\bar e}^{\rm{T}}}(i)Q\bar e(i) + {{\bar u}^{\rm{T}}}(i)R\bar u(i)} \right)} } \\ & {{\rm{s}}{\rm{.t}}{\rm{.}}}\;\;\left\{\begin{array}{l} \bar x(k + 1) = \bar A\bar x(k) + \bar B\bar u(k) \\ \bar e(k) = C\bar x(k) + S\bar u(k) \end{array}\right. \end{split}$$ (12) 问题3. 给定
$M > 0$ , 寻找出一组输出调节方程(7)~(8)的解X和U使得如下性能指标最小$$\left\{\begin{array}{*{20}{c}} {\mathop {\min }\limits_\eta }&{J = {\eta ^{\rm{T}}}M\eta } \\ {{\rm{s}}{\rm{.t}}{\rm{.}}}&{\Gamma \eta = \vartheta } \end{array}\right.$$ (13) 注1. 在问题2中, 选择Q与R使得如下的广义特征值问题的解不在单位圆上[35]
$$\lambda \left[ {\begin{array}{*{20}{c}} I&0&0 \\ 0&{{{\bar A}^{\rm{T}}}}&0 \\ 0&{ - {{\bar B}^{\rm{T}}}}&0 \end{array}} \right] - \left[ {\begin{array}{*{20}{c}} {\bar A}&0&{\bar B} \\ { - {C^{\rm{T}}}QC}&I&{ - {C^{\rm{T}}}QS} \\ {{S^{\rm{T}}}QC}&0&R \end{array}} \right]$$ 2. 基于状态反馈的自适应最优输出调节器设计
本节在被控对象状态方程(1)中矩阵A、B、D、E未知、被控对象输出方程(2)中矩阵C、S与F已知的情况下, 设计数据驱动的基于状态反馈的最优自适应输出调节器. 首先给出基于状态反馈的最优输出调节器的解, 之后利用该解的求解形式, 设计数据驱动的基于值迭代的自适应最优输出调节器. 值得注意的是, 由于本节所设计的是基于状态反馈的最优输出调节器, 因此需要利用状态计算跟踪误差, 故矩阵C、S与F已知的假设是合理的.
2.1 基于状态反馈与模型的最优输出调节器
本小节首先求解输出调节方程(7) ~ (8), 引入两个Sylvester映射
$\Omega :{{\bf{R}}^{{n_x} \times {n_w}}} \to {{\bf{R}}^{{n_x} \times {n_w}}}$ ,$\bar \Omega :{\bf{R}}^{{n_x} \times {n_w}} \times $ $ {{\bf{R}}^{{n_x} \times {n_u}}} \to {{\bf{R}}^{{n_x} \times {n_w}}}$ , 为$$\Omega (X) = XE - AX$$ (14) $$\bar \Omega (X,U) = XE - AX - BU$$ (15) 基于Sylvester映射, 可以给出方程(8)的通解形式. 选择两个矩阵序列
${X_i} \in {{\bf{R}}^{{n_x} \times {n_w}}}$ 与${U_i} \in $ $ {{\bf{R}}^{{n_u} \times {n_w}}}$ , 其中$i = 0,\;1,\, \cdots ,\,m + 1$ , m为${I_{{n_w}}} \otimes \left[ {C,S} \right]$ 的零空间的维数.${X_0} = {0_{{n_x} \times {n_w}}}$ ,${U_0} = {0_{{n_u} \times {n_w}}}$ , X1与U1满足$ - F = C{X_1} + S{U_1}$ , 当$i = 2,\;3,\; \cdots ,\;m + 1$ 时,${\rm{vec}}\left( {{{\left[ {X_i^{\rm{T}},U_i^{\rm{T}}} \right]}^{\rm{T}}}} \right)$ 为${I_{{n_w}}} \otimes \left[ {C,S} \right]$ 的基底, 即$C{X_i} + $ $ S{U_i} = 0$ . 则方程(8)的通解为$$(X,U) = ({X_1},{U_1}) + \sum\limits_{i = 2}^{m + 1} {{\alpha _i}({X_i},{U_i})} $$ (16) 其中,
${\alpha _i} \in \bf{R}$ . 由$\overline \Omega (X,U)$ 的定义与式(7)可知$$ \begin{split} &\overline \Omega (X,U) = D, \;\;\overline \Omega ({\alpha _i}X,{\alpha _i}U) = {\alpha _i}\overline \Omega (X,U)\\ &\;\;\;\;\;\overline \Omega ({X_i} + {X_j},{U_i} + {U_j}) =\\ &\;\;\;\;\; ({X_i} + {X_j})E - A({X_i} + {X_j}) - B({U_i} + {U_j})= \\ & \;\;\;\;\; \overline \Omega ({X_i},{U_i}) + \overline \Omega ({X_j},{U_j}) \end{split} $$ 基于式(16)可将式(15)写为
$$ \overline \Omega (X,U) = \overline \Omega ({X_1},{U_1}) + \sum\limits_{i = 2}^{m + 1} {{\alpha _i}\overline \Omega ({X_i},{U_i})} = D $$ (17) 至此, 输出调节方程(7) ~ (8)可以写为
$$\Lambda \chi = \xi $$ (18) 其中
$$\begin{split} &\Lambda = \left[ {\begin{array}{*{20}{c}} {{\rm{vec}}(\overline \Omega ({X_2},{U_2}))}& \cdots \\ {{\rm{vec}}\left( {{{\left[ {X_2^{\rm{T}},U_2^{\rm{T}}} \right]}^{\rm{T}}}} \right)}& \cdots \end{array}} \right. \\ &\qquad\left. {\begin{array}{*{20}{c}} {{\rm{vec}}(\overline \Omega ({X_{m + 1}},{U_{m + 1}}))}&0 \\ {{\rm{vec}}\left( {{{\left[ {X_{m + 1}^{\rm{T}},U_{m + 1}^{\rm{T}}} \right]}^{\rm{T}}}} \right)}&{ - {I_{{n_w}({n_x} + {n_u})}}} \end{array}} \right]\\ &\chi = {\left[ {\begin{array}{*{20}{c}} {{\alpha _2}}& \cdots &{{\alpha _{m + 1}}}&{{\eta ^{\rm{T}}}} \end{array}} \right]^{\rm{T}}} \\ &\xi = \left[ {\begin{array}{*{20}{c}} {{\rm{vec}}( - \overline \Omega ({X_1},{U_1}) + D)} \\ { - {\rm{vec}}\left( {{{\left[ {X_1^{\rm{T}},U_1^{\rm{T}}} \right]}^{\rm{T}}}} \right)} \end{array}} \right] = \left[ {\begin{array}{*{20}{c}} {{\xi _1}} \\ {{\xi _2}} \end{array}} \right]\end{split} $$ 利用矩阵行变换, 可以将(18)重写为
$$\left[ {\begin{array}{*{20}{c}} {{{\bar \Lambda }_{11}}}&{{{\bar \Lambda }_{12}}} \\ {{{\bar \Lambda }_{21}}}&{{{\bar \Lambda }_{22}}} \end{array}} \right]\chi = \left[ {\begin{array}{*{20}{c}} {{{\bar \xi }_1}} \\ {{{\bar \xi }_2}} \end{array}} \right]$$ (19) 其中,
${\bar \Lambda _{21}} \in {{\bf{R}}^{m \times m}}$ 为非奇异矩阵, 则上式可以通过如下方程求解$$\Pi \eta = \Psi $$ (20) 其中,
$\Pi = - {\bar \Lambda _{11}}\bar \Lambda _{21}^{ - 1}{\bar \Lambda _{22}} + {\bar \Lambda _{12}}$ ,$\Psi = - {\bar \Lambda _{11}}\bar \Lambda _{21}^{ - 1}{\bar \xi _2} + {\bar \xi _1}$ . 利用拉格朗日乘子法, 可以将问题3中的约束最优化问题(13)转化为$$\begin{array}{*{20}{c}} {\mathop {\min }\limits_\eta }&{J = {\eta ^{\rm{T}}}M\eta + {\lambda ^{\rm{T}}}(\Pi \eta - \Psi )} \end{array}$$ (21) 对上述性能指标J求对于
$\eta $ 与${\lambda ^{\rm{T}}}$ 偏导, 可得$$\frac{\partial J}{\partial \eta } = 2M\eta + {\Pi {\rm{^T}}}\lambda $$ (22) $$\frac{\partial J}{\partial {{\lambda }^{\text{T}}}} = \Pi \eta - \Psi $$ (23) 令式(22)和式(23)等于0, 可得
$$\left[ {\begin{array}{*{20}{c}} {2M}&{{\Pi ^{\rm{T}}}} \\ \Pi &0 \end{array}} \right]\left[ {\begin{array}{*{20}{c}} \eta \\ \lambda \end{array}} \right] = \left[ {\begin{array}{*{20}{c}} 0 \\ \Psi \end{array}} \right]$$ (24) 利用该式可以得到输出调节方程(7) ~ (8)的解X和U.
以上为基于模型的输出调节方程(7) ~ (8)的求解, 与文献[32]直接求解输出调节方程不同, 式(20)中的求解方法将会为第2.2节中自适应控制器设计提供指导.
基于输出调节方程(7) ~ (8)的解X和U, 则基于状态反馈的最优输出调节问题可以总结为问题2. 对于问题2, 该问题为标准的最优控制问题. 基于假设1, 可知
${\rm{rank}}[A - \lambda I,B] = {n_x},\forall \lambda $ , 那么显然有${\rm{rank}}[\bar A - \lambda I,\bar B] = {n_x},\forall \lambda $ , 即$(\bar A,\bar B)$ 为可控的. 因此, 基于最优控制原理[36], 假设存在一个可控的矩阵K与控制输入$\bar u(k) = - K\bar x(k)$ 使得$$\begin{split} V(k) =\;& {{\bar e}^{\rm{T}}}(k)Q\bar e(k) + {{\bar u}^{\rm{T}}}(k)R\bar u(k) + V(k + 1) =\\ & {{\bar x}^{\rm{T}}}(k)P\bar x(k)\\[-10pt] \end{split} $$ (25) 其中,
$P \geq 0$ . 上述贝尔曼方程可以写为$$\begin{split} P =\;& {(C - SK)^{\rm{T}}}Q(C - SK) + {K^{\rm{T}}}RK + \\ &{(\bar A - \bar BK)^{\rm{T}}}P(\bar A - \bar BK) \end{split} $$ (26) 通过使得
$\partial P/\partial K = 0$ 可得最优反馈增益为$$\begin{split} {K^*} =\;& {(R + {{\bar B}^{\rm{T}}}{P^*}\bar B + {S^{\rm{T}}}QS)^{ - 1}} \cdot \\ &({{\bar B}^{\rm{T}}}{P^*}\bar A + {S^{\rm{T}}}QC) \end{split} $$ (27) 其中, P*为如下Riccati方程的解
$$\begin{split} P =\;& {C^{\rm{T}}}QC + {{\bar A}^{\rm{T}}}P\bar A - \\ &({{\bar A}^{\rm{T}}}P\bar B + {C^{\rm{T}}}QS){(R + {{\bar B}^{\rm{T}}}P\bar B + {S^{\rm{T}}}QS)^{ - 1}} \cdot \\ & ({{\bar B}^{\rm{T}}}P\bar A + {S^{\rm{T}}}QC) \\[-10pt]\end{split} $$ (28) 对应的最优控制输入为:
$$\begin{split} u(k) =\;& - {K^*}x(k) + (U + {K^*}X)w(k):=\; \\ & - {K^*}x(k) + {L^*}w(k) \end{split} $$ (29) 然而, 直接求解Riccati方程比较复杂, 针对此问题, 该小节利用基于值迭代的算法求解, 其收敛性性质见如下引理.
算法1. 基于模型的值迭代状态反馈最优输出调节算法
初始化: 选择任意的初始控制律K0, 终止条件常数
$\varepsilon > 0$ , 矩阵序列${X_i} \in {{\bf{R}}^{{n_x} \times {n_w}}}$ 与${U_i} \in {{\bf{R}}^{{n_u} \times{n_w}}}$ , 半正定矩阵P0,$j \leftarrow 0$ ;最优反馈增益计算: 利用如下迭代算法计算最优反馈增益;
1) 计算Pj+1,
$$ \begin{split} {P_{j + 1}} =\;& {(C - S{K_j})^{\rm{T}}}Q(C - S{K_j}) + K_j^{\rm{T}}R{K_j} + \\ &{(\bar A - \bar B{K_j})^{\rm{T}}}{P_j}(\bar A - \bar B{K_j}) \end{split} $$ (30) 2) 计算Kj+1,
$$ \begin{split} {K_{j + 1}} =\;& {(R + {{\bar B}^{\rm{T}}}{P_{j + 1}}\bar B + {S^{\rm{T}}}QS)^{ - 1}} \cdot \\ & ({{\bar B}^{\rm{T}}}{P_{j + 1}}\bar A + {S^{\rm{T}}}QC) \end{split} $$ (31) 3) 判断
$\left\| {{P_{j + 1}} - {P_j}} \right\| < \varepsilon $ 是否成立, 如果成立则停止迭代, 反之则继续重复计算上述两步, 并令$j \leftarrow j + 1$ ;最优前馈增益计算: 利用式(9)或式(24)求解输出调节方程(7) ~ (8)的解X和U, 进而得到最优前馈增益
${L^*}$ .引理1. 在假设1成立的条件下, 通过算法1的式(30) ~ (31)计算得到的序列
${\rm{\{ }}{P_j}{\rm{\} }}_{j = 0}^\infty $ 与${\rm{\{ }}{K_j}{\rm{\} }}_{j = 0}^\infty $ 最终会收敛至其最优值, 即${\lim _{j \to \infty }}{P_j} = {P^*}$ ,${\lim _{j \to \infty }}{K_j} = {K^*}$ .证明. 文献[37]给出了当S = 0时的收敛性证明, 本文将简述
$S \ne 0$ 时的收敛性证明. 首先将式(28)与式(26)定义为$$P = g(P)$$ (32) $$P = L(K,P)$$ (33) 同时定义
$$M(K,P) = {(\bar A - \bar BK)^{\rm{T}}}P(\bar A - \bar BK)$$ (34) 由于在式(26)中P是K的二次型, 可得
$$g(P) = {\min _K}L(K,P) = L({K_P},P) \leq L(K,P)$$ 其中
$${K_P} = {(R + {\bar B^{\rm{T}}}P\bar B + {S^{\rm{T}}}QS)^{ - 1}}({\bar B^{\rm{T}}}P\bar A + {S^{\rm{T}}}QC)$$ 根据上式可知, 对于任意的
$X \leq Y$ , 有$$g(X) = L({K_X},X) \leq L({K_Y},Y) = g(Y)$$ 考虑序列
$\{ {Q_j}\} _{j = 0}^\infty $ , 其中${Q_0} = {0}$ , 可得$${Q_{j + 1}} = g({Q_j}) \leq g({Q_{j + 1}}) = {Q_{j + 2}}$$ (35) $$\begin{split} {Q_{j + 1}} \leq \;&M({K^*},{Q_j}) + {({K^*})^{\rm{T}}}R{K^*} + \\ &{(C - S{K^*})^{\rm{T}}}Q(C - S{K^*}) \end{split} $$ (36) 根据上式可知, 由于
$\bar A - \bar B{K^*}$ 的特征值都在单位圆内, 序列$\{ {Q_j}\} _{j = 0}^\infty $ 是单调递增且存在上界, 即${\lim _{j \to \infty }}{Q_j} = {P^*}$ . 之后考虑序列$\{ {R_j}\} _{j\; = \;0}^\infty$ , 其中${R_0} \geq {P^*}$ 且${R_0} \geq {P_0}$ , 可得$${R_{j + 1}} = g({R_j}) \ge g({P^*}) = {P^*}$$ (37) $${R_{j + 1}} - {P^*} \leq M({K^*},{R_j} - {P^*})$$ (38) 同理可知, 序列
$\{ {R_j}\} _{j = 0}^\infty $ 是单调递减且存在下界, 即${\lim _{j \to \infty }}{R_j} = {P^*}$ . 综上所述, 可得$${P^*} = \mathop {\lim }\limits_{j \to \infty } {Q_j} \leq \mathop {\lim }\limits_{j \to \infty } {P_j} \leq \mathop {\lim }\limits_{j \to \infty } {R_j} = {P^*}$$ (39) 根据夹逼定理, 可得
${\lim _{j \to \infty }}{P_j} = {P^*}$ , 进而可得${\lim _{j \to \infty }}{K_j} = {K^*}$ . □注2. 在传统的基于输出调节原理的输出调节方法中,
$\gamma = 1$ , 对应的Riccati方程(28)可解条件为$\left( {A,B} \right)$ 是可镇定的. 当$\gamma > 1$ 且$\left( {A,B} \right)$ 是可镇定时, 选择$\gamma < \bar \gamma $ , 其中$1/\bar \gamma $ 大于A的最大不可控稳定特征值, 可以保证$\left( {\bar A,\bar B} \right)$ 是可镇定的.注3. 对于基于策略迭代的算法[24-25, 38], 其初始控制律K0要求矩阵
$\bar A - \bar B{K_0}$ 是稳定的, 即$A - B{K_0}$ 的特征值在以原点为圆心, 半径为$1/\gamma $ 的圆内, 当矩阵A, B已知时, 选择满足该条件的初始控制律K0是很容易的, 然而, 当矩阵A、B未知时, 初始控制律的选择则更加严格. 因此, 本文使用基于值迭代的算法, 该算法的初始控制律K0可以是任意的, 同时该算法不用重复求解Lyapunov函数[24-25, 38].以上为基于模型的问题求解方法, 该求解方法将会为下一节中自适应控制器设计提供指导.
2.2 基于状态反馈与强化学习的自适应最优输出调节器
本小节利用第2.1节给出的最优输出调节器的求解形式, 设计利用在线数据的基于状态反馈与强化学习的自适应最优输出调节器, 首先定义新状态
${\bar x_i}(k) = {\hat x_i}(k) - {X_i}\hat w(k)$ , 其中$\hat x(k) = {\gamma ^k}x(k)$ ,$\hat w(k) = $ $ {\gamma ^k}w(k)$ , 基于该状态, 可得$$\begin{split} {{\bar x}_i}(k + 1) =\;& \bar A{{\bar x}_i}(k) + \bar B\hat u(k) + \\ & \gamma (D - \Omega ({X_i}))\hat w(k) \end{split} $$ (40) 基于以上动态方程, 可得
$$\begin{split} \bar x_i^{\rm{T}}&(k + 1){P_j}{{\bar x}_i}(k + 1) =\\ & \bar x_i^{\rm{T}}(k){{\bar A}^{\rm{T}}}{P_j}\bar A{{\bar x}_i}(k) + {{\hat u}^{\rm{T}}}(k){{\bar B}^{\rm{T}}}{P_j}\bar B\hat u(k) + \\ &{\gamma ^2}{{\hat w}^{\rm{T}}}(k){(D - \Omega ({X_i}))^{\rm{T}}}{P_j}(D - \Omega ({X_i}))\hat w(k) + \\ &2\bar x_i^{\rm{T}}(k){{\bar A}^{\rm{T}}}{P_j}\bar B\hat u(k) + \\ & 2\gamma {{\hat u}^{\rm{T}}}(k){{\bar B}^{\rm{T}}}{P_j}(D - \Omega ({X_i}))\hat w(k) + \\ &2\gamma \bar x_i^{\rm{T}}(k){{\bar A}^{\rm{T}}}{P_j}(D - \Omega ({X_i}))\hat w(k) \end{split} $$ (41) 通过定义
$$ \begin{split} & {L_{1j}} = {{\bar A}^{\rm{T}}}{P_j}\bar A,{L_{2j}} = {{\bar B}^{\rm{T}}}{P_j}\bar B,{L_{3j}} = {{\bar A}^{\rm{T}}}{P_j}\bar B \\ & {L_{4ij}} = {{\bar A}^{\rm{T}}}{P_j}(D - \Omega ({X_i})),{L_{5ij}} = {{\bar B}^{\rm{T}}}{P_j}(D - \Omega ({X_i})) \\ & {L_{6ij}} = {(D - \Omega ({X_i}))^{\rm{T}}}{P_j}(D - \Omega ({X_i})) \\ &\varphi _j^i(k) = \left[ {\begin{array}{*{20}{c}} {{\gamma ^{ - 2k}}\bar x_i^{\rm{T}}(k + 1){P_j}{{\bar x}_i}(k + 1)} \\ {{\gamma ^{ - 2k - 2}}\bar x_i^{\rm{T}}(k + 2){P_j}{{\bar x}_i}(k + 2)} \\ \vdots \\ {{\gamma ^{ - 2k - 2s}}\bar x_i^{\rm{T}}(k + 1 + s){P_j}{{\bar x}_i}(k + 1 + s)} \end{array}} \right]\\ &\psi _j^i(k) = \left[ {\begin{array}{*{20}{c}} {{\Phi _{01}}}&{{\Phi _{02}}}& \cdots &{{\Phi _{06}}} \\ {{\Phi _{11}}}&{{\Phi _{12}}}& \cdots &{{\Phi _{16}}} \\ \vdots & \vdots & \ddots & \vdots \\ {{\Phi _{s1}}}&{{\Phi _{s2}}}& \cdots &{{\Phi _{s6}}} \end{array}} \right] \end{split} $$ 其中
$$\begin{array}{l} {\Phi _{l1}} = {\gamma ^{ - 2k - 2l}}{\rm{vecv(}}{{\bar x}_i}(k + l){\rm{)}} \\ {\Phi _{l2}} = {\rm{vecv(}}u(k + l){\rm{)}} \\ {\Phi _{l3}} = 2{\gamma ^{ - k - l}}{u^{\rm{T}}}(k + l) \otimes \bar x_i^{\rm{T}}(k + l) \\ {\Phi _{l4}} = 2{\gamma ^{ - k - l + 1}}{w^{\rm{T}}}(k + l) \otimes \bar x_i^{\rm{T}}(k + l) \\ {\Phi _{l5}} = 2\gamma {w^{\rm{T}}}(k + l) \otimes {u^{\rm{T}}}(k + l) \\ {\Phi _{l6}} = {\gamma ^2}{\rm{vecv(}}w(k + l){\rm{)}} \end{array} $$ 可将式(41)转化为如下方程组
$$\begin{split} \psi _j^i(k)[&{\rm{vecs}}({L_{1j}});{\rm{vecs}}({L_{2j}});{\rm{vec}}({L_{3j}}); \\ &{\rm{vec}}({L_{4ij}});{\rm{vec}}({L_{5ij}});{\rm{vecs}}({L_{6ij}})] = \varphi _j^i(k) \end{split} $$ (42) 当在线数据满足一定要求时, 上述方程组可由最小二乘方法求解. 如下引理给出了方程组(42)具有唯一解的条件.
引理 2. 方程组(42)可解并具有唯一解, 当且仅当
$${\rm{rank}}(\psi _j^i(k)) = \frac{1}{2}({n_x} + {n_u} + {n_w})({n_x} + {n_u} + {n_w} + 1)$$ 当引理2成立时, 方程组可以由下式求解, 为
$$\begin{split} &{[{\rm{vecs}}({L_{1j}});{\rm{vecs}}({L_{2j}});{\rm{vec}}({L_{3j}});{\rm{vec}}({L_{4ij}});}\\ &\qquad{{\rm{vec}}({L_{5ij}});{\rm{vecs}}({L_{6ij}})]}=\\ &\qquad{ {{(\psi _j^{i{\rm{T}}}(k)\psi _j^i(k))}^{ - 1}}\psi _j^{i{\rm{T}}}(k)\varphi _j^i(k)} \end{split}$$ (43) 同时考虑式(30)与式(31)可得
$$\begin{split} {P_{j + 1}} =\;& {L_{1j}} - ({L_{3j}} + {C^{\rm{T}}}QS){(R + {L_{2j}} + {S^{\rm{T}}}QS)^{ - 1}} \cdot \\ &(L_{3j}^{\rm{T}} + {S^{\rm{T}}}QC) + {C^{\rm{T}}}QC \\[-10pt]\end{split} $$ (44) 计算得到
${P_{j + 1}}$ 后, 将其代入$\varphi _j^i(k)$ 更新得到$\varphi _{j + 1}^i(k)$ , 继而可以更新方程(43), 重复以上步骤可以得到序列${\rm{\{ }}{P_j}{\rm{\} }}_{j\; =\; 0}^\infty$ 直至收敛, 对应的序列${\rm{\{ }}{K_j}{\rm{\} }}_{j = 0}^\infty $ 为$${K_j} = {(R + {L_{2j}} + {S^{\rm{T}}}QS)^{ - 1}}(L_{3j}^{\rm{T}} + {S^{\rm{T}}}QC)$$ (45) 以上为反馈控制增益
${K_j}$ 的在线计算过程, 该部分将介绍如何在线求解输出调节方程(7) ~ (8)的解X和U, 基于式(17)可得$$\begin{split} & {{\bar A}^{\rm{T}}}{P_j}\overline \Omega ({X_1},{U_1}) + \sum\limits_{i\; =\; 2}^{m + 1} {{\alpha _i}{{\bar A}^{\rm{T}}}{P_j}\overline \Omega ({X_i},{U_i})}= \\ & \qquad{{\bar A}^{\rm{T}}}{P_j}\Omega ({X_1}) - {\gamma ^{ - 1}}{{\bar A}^{\rm{T}}}{P_j}\bar B{U_1} + \\ &\qquad \sum\limits_{i\; =\; 2}^{m + 1} {{\alpha _i}{{\bar A}^{\rm{T}}}{P_j}\Omega ({X_i})} - \sum\limits_{i\; =\; 2}^{m + 1} {{\alpha _i}} {\gamma ^{ - 1}}{{\bar A}^{\rm{T}}}{P_j}\bar B{U_i} =\\ &\qquad {L_{40j}} - {L_{41j}} - {\gamma ^{ - 1}}{L_{3j}}{U_1} + \\ &\qquad\sum\limits_{i\; =\; 2}^{m + 1} {{\alpha _i}} \left( {{L_{40j}} - {L_{4ij}} - {\gamma ^{ - 1}}{L_{3j}}{U_i}} \right) =\\ &\qquad{{\bar A}^{\rm{T}}}{P_j}D = {L_{40j}} \\[-15pt]\end{split} $$ (46) 利用上式, 可将输出调节方程(7) ~ (8)写为
$${\Lambda _j}\chi = {\xi _j}$$ (47) 其中
$$ \begin{split} &{\Lambda _j} = \left[ {\begin{array}{*{20}{c}} {{\rm{vec}}({L_{40j}} - {L_{42j}} - {\gamma ^{ - 1}}{L_{3j}}{U_2})}& \cdots \\ {{\rm{vec}}\left( {{{\left[ {X_2^{\rm{T}},U_2^{\rm{T}}} \right]}^{\rm{T}}}} \right)}& \cdots \end{array}} \right. \\ &\qquad\left. {\begin{array}{*{20}{c}} {{\rm{vec}}({L_{40j}} - {L_{4(m + 1)j}} - {\gamma ^{ - 1}}{L_{3j}}{U_{m + 1}})}&0 \\ {{\rm{vec}}\left( {{{\left[ {X_{m + 1}^{\rm{T}},U_{m + 1}^{\rm{T}}} \right]}^{\rm{T}}}} \right)}&{ - I} \end{array}} \right] \\ &{\xi _j} = \left[ {\begin{array}{*{20}{c}} {{\rm{vec}}({L_{41j}} + {\gamma ^{ - 1}}{L_{3j}}{U_1})} \\ { - {\rm{vec}}\left( {{{\left[ {X_1^{\rm{T}},U_1^{\rm{T}}} \right]}^{\rm{T}}}} \right)} \end{array}} \right] \end{split} $$ 利用矩阵行变换, 可以将式(47)重写为类似式(19)的形式, 进而可以利用式(20)进行求解得到输出调节方程(7) ~ (8)的解X和U, 最后利用式(29)得到前馈增益. 至此, 基于状态反馈与强化学习的自适应最优输出调节算法如下.
算法2. 基于状态反馈与强化学习的自适应最优输出调节算法
初始化: 选择任意的初始控制律K0, 终止条件常数
$\varepsilon > 0$ , 半正定矩阵P0, 矩阵序列${X_i} \in {{\bf{R}}^{{{{{{n}}_x}}} \times {{{{{n}}_w}}}}}$ 与${U_i} \in {{\bf{R}}^{{n_u} \times {n_w}}}$ ,$j \leftarrow 0$ ,$i \leftarrow 0$ ;最优反馈控制律在线计算: 利用如下迭代算法计算最优反馈增益, 在区间
$[k,k + s]$ 利用控制输入为$u(k) = - {K_0}x(k) + n(k)$ , 其中$n(k)$ 为控制输入中添加的探测噪声, s为使得引理2满足的数;1) 利用式(43)计算得到
${L_{1j}}$ ,${L_{2j}}$ ,${L_{3j}}$ ,${L_{4ij}}$ ,${L_{5ij}}$ ,${L_{6ij}}$ ;2) 利用式(44)计算Pj +1;
3) 判断
$\left\| {{P_{j + 1}} - {P_j}} \right\| < \varepsilon $ 是否成立, 如果成立则停止迭代, 并利用式(45)计算得到${K_j}$ , 反之重复上述两步, 并令$j \leftarrow j + 1$ ;前馈增益在线计算: 令
$i \leftarrow i + 1$ , 重复计算得到所有${L_{4ij}}$ 直到$i = m + 1$ , 进而利用式(24)进行求解得到输出调节方程(7) ~ (8)的解X和U, 最后利用式(29)得到前馈增益.注4. 值得注意的是,
${(\psi _j^{i{\rm{T}}}(k)\psi _j^i(k))^{ - 1}}\psi _j^{i{\rm{T}}}(k)$ 中仅含有过程数据, 因此, 该值在迭代过程中对于固定i仅需要计算1次, 相较于基于策略迭代的方法, 本文方法虽然迭代步数多, 但每一步所需要的计算量却小一些.注5. 对于序列
${\rm{\{ }}{K_j}{\rm{\} }}_{j = 0}^\infty $ , 由于${\rm{\{ }}{K_j}{\rm{\} }}_{j = 0}^\infty $ 并不参与过程迭代,${K_j}$ 仅需要在${P_j}$ 收敛后计算1次. 因此, 在该算法过程中u(k)并不需要进行在线更新, 因此该方法是一类离线策略, 相较于在线策略, 该方法可以保证计算结果是无偏的[39-40].注6. 探测噪声
$n(k)$ 的加入是为了使得引理2的条件满足, 达到充分激励的效果. 通常选择为白噪声或者正弦函数等.3. 基于输出反馈的自适应最优输出调节器设计
本节在被控对象(1) ~ (2)中矩阵A、B、D、S、E、C与F未知、在lU已知的情况下,设计基于输出反馈的最优自适应输出调节器, 首先利用历史的输入输出数据设计重构状态[29-30, 41], 之后设计基于值迭代的输出反馈自适应最优输出调节器.
3.1 状态重构
定义
$$ \begin{split} &\hat A = \left[ {\begin{array}{*{20}{c}} {\bar A}&{\gamma D} \\ 0&{\gamma E} \end{array}} \right], \;\;\hat B = \left[ {\begin{array}{*{20}{c}} {\bar B} \\ 0 \end{array}} \right] \\ &\hat C = \left[ {\begin{array}{*{20}{c}} C&F \end{array}} \right],\;\; z(k) = \left[ {\begin{array}{*{20}{c}} {\hat x(k)} \\ {\hat w(k)} \end{array}} \right] \end{split} $$ 可得
$$z(k + 1) = \hat Az(k) + \hat B\hat u(k)$$ (48) $$\bar e(k) = \hat Cz(k) + S\hat u(k)$$ (49) 利用上式, 可得
$$\begin{split} z(k) = \;&{{\hat A}^{{n_x} + {n_w}}}z(k - {n_x} - {n_w}) + \\ & \left[ {\begin{array}{*{20}{c}} {\hat B}&{\hat A\hat B}& \cdots &{{{\hat A}^{{n_x} + {n_w} - 1}}\hat B} \end{array}} \right] \cdot \\ & \left[ {\begin{array}{*{20}{c}} {\hat u(k - 1)} \\ {\hat u(k - 2)} \\ \vdots \\ {\hat u(k - {n_x} - {n_w})} \end{array}} \right]:=\; \\ & {{\hat A}^{{n_x} + {n_w}}}z(k - {n_x} - {n_w}) + {U_u}{\bar {\hat {u}}}(k) \end{split} $$ (50) $$\begin{split} \bar e(k) = \;&\hat C{{\hat A}^{{n_x} + {n_w}}}z(k - {n_x} - {n_w}) +\\ &\hat C{U_u}{\bar {\hat {u}}}(k) + S\hat u(k) \end{split} $$ (51) 基于上式, 考虑
$[k - 1,k - {n_x} - {n_w}]$ 的输出$\bar e(k)$ , 可得$$\begin{split} \hat e(k) =\;& \left[ {\begin{array}{*{20}{c}} {\bar e(k - 1)} \\ {\bar e(k - 2)} \\ \vdots \\ {\bar e(k - {n_x} - {n_w})} \end{array}} \right]= \\ \;& \left[ {\begin{array}{*{20}{c}} {\hat C{{\hat A}^{{n_x} + {n_w} - 1}}} \\ \vdots \\ {\hat C\hat A} \\ {\hat C} \end{array}} \right]z(k - {n_x} - {n_w}) + \end{split} $$ $$\begin{split} & \left[ {\begin{array}{*{20}{c}} S&{\hat C\hat B}&{\hat C\hat A\hat B}& \cdots &{\hat C{{\hat A}^{{n_x} + {n_w} - 2}}\hat B} \\ 0&S&{\hat C\hat B}& \cdots &{\hat C{{\hat A}^{{n_x} + {n_w} - 3}}\hat B} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 0&0&0& \cdots &S \end{array}} \right]{\bar {\hat {u}}}(k):=\; \\ &\;\;\;\;\;\;\;{{\bar M}_x}z(k - {n_x} - {n_w}) + {{\bar M}_u}{\bar {\hat {u}}}(k)\\[-15pt] \end{split} $$ (52) 由假设4可知,
${\rm{rank(}}{\bar M_x}{\rm{)}} = {n_x} + {n_w}$ , 则有$\bar M_x^{\rm{T}}{\bar M_x}$ 是可逆的, 通过定义$\bar M_x^ + = {(\bar M_x^{\rm{T}}{\bar M_x})^{ - 1}}\bar M_x^{\rm{T}}$ , 可得$$\begin{split} z(k) =\;& {{\hat A}^{{n_x} + {n_w}}}z(k - {n_x} - {n_w}) + {U_u}{\bar {\hat {u}}}(k)= \\ & {{\hat A}^{{n_x} + {n_w}}}\bar M_x^ + \hat e(k) + \\ &({U_u} - {{\hat A}^{{n_x} + {n_w}}}\bar M_x^ + {{\bar M}_u}){\bar {\hat {u}}}(k) \end{split} $$ (53) 定义
$$ \begin{split} &\bar M = \left[ {\begin{array}{*{20}{c}} I{-X} \end{array}} \right]\left[ {\begin{array}{*{20}{c}} {{{\hat A}^{{n_x} + {n_w}}}\bar M_x^ + }&{{U_u} - {{\hat A}^{{n_x} + {n_w}}}\bar M_x^ + {{\bar M}_u}} \end{array}}\right] :=\;\\ &\qquad\left[ {\begin{array}{*{20}{c}} I{ - X} \end{array}} \right]\left[ {\begin{array}{*{20}{c}} {{{\bar M}_1}} \\ {{{\bar M}_2}} \end{array}} \right] \\ &\bar z(k) = \left[ {\begin{array}{*{20}{c}} {\hat e(k)} \\ {{\bar {\hat {u}}}(k)} \end{array}} \right] \end{split}$$ 可得
$$z(k) = \left[ {\begin{array}{*{20}{c}} {{{\bar M}_1}} \\ {{{\bar M}_2}} \end{array}} \right]\bar z(k)$$ (54) $$\begin{array}{l} \;\;\;\;\; \bar x(k) = ({{\bar M}_1} - X{{\bar M}_2})\bar z(k) := \bar M\bar z(k) \end{array} $$ (55) 3.2 基于输出反馈与强化学习的自适应最优输出调节器
由式(29) 可知,最优输出调节问题可由如下控制输入求解
$$\begin{split} \hat u(k) =\;& - {K^*}\bar x(k) + U\hat w(k)= \\ \;& - ({K^*}\bar M - U{{\bar M}_2})\bar z(k) := \;\\ & - {{\bar K}^*}\bar z(k) \end{split} $$ (56) 式(28)Riccati方程变为
$$\begin{split} {{\bar M}^{\rm{T}}}P\bar M =\;& {{\bar M}^{\rm{T}}}{C^{\rm{T}}}QC\bar M + {{\bar M}^{\rm{T}}}{{\bar A}^{\rm{T}}}P\bar A\bar M - \\ & {{\bar M}^{\rm{T}}}({{\bar A}^{\rm{T}}}P\bar B + {C^{\rm{T}}}QS) \cdot \\ & {(R + {{\bar B}^{\rm{T}}}P\bar B + {S^{\rm{T}}}QS)^{ - 1}} \cdot \\ & ({{\bar B}^{\rm{T}}}P\bar A + {S^{\rm{T}}}QC)\bar M \end{split} $$ (57) 上式的Riccati方程难以直接求解, 基于式(55)与动态方程
$$\bar x(k + 1) = \bar A\bar x(k) + \bar B\hat u(k) - \bar BU\hat w(k)$$ (58) 可得
$$\begin{split} {{\bar x}^{\rm{T}}}(k& + 1){P_j}\bar x(k + 1) + {{\bar e}^{\rm{T}}}(k)Q\bar e(k) + \\ &{(\hat u(k) - U\hat w(k))^{\rm{T}}}R(\hat u(k) - U\hat w(k)) =\\ & {{\bar z}^{\rm{T}}}(k)({{\bar M}^{\rm{T}}}{{\bar A}^{\rm{T}}}{P_j}\bar A\bar M + {{\bar M}^{\rm{T}}}{C^{\rm{T}}}QC\bar M - \\ & {{\bar M}^{\rm{T}}}{{\bar A}^{\rm{T}}}{P_j}\bar BU{{\bar M}_2} - \bar M_2^{\rm{T}}{U^{\rm{T}}}{{\bar B}^{\rm{T}}}{P_j}\bar A\bar M - \\ &{{\bar M}^{\rm{T}}}{C^{\rm{T}}}QSU{{\bar M}_2} - \bar M_2^{\rm{T}}{U^{\rm{T}}}{S^{\rm{T}}}QC\bar M + \\ &\bar M_2^{\rm{T}}{U^{\rm{T}}}({{\bar B}^{\rm{T}}}{P_j}\bar B + R + {S^{\rm{T}}}QS)U{{\bar M}_2})\bar z(k) + \\ & {{\hat u}^{\rm{T}}}(k)({{\bar B}^{\rm{T}}}{P_j}\bar B + R + {S^{\rm{T}}}QS)\hat u(k) + \\ & 2{{\bar z}^{\rm{T}}}(k)({{\bar M}^{\rm{T}}}{{\bar A}^{\rm{T}}}{P_j}\bar B + {{\bar M}^{\rm{T}}}{C^{\rm{T}}}QS - \\ & \bar M_2^{\rm{T}}{U^{\rm{T}}}({{\bar B}^{\rm{T}}}{P_j}\bar B + R + {S^{\rm{T}}}QS))\hat u(k) \end{split} $$ (59) 通过定义
$$\begin{split} & {{\bar L}_{1j}} = {{\bar M}^{\rm{T}}}{{\bar A}^{\rm{T}}}{P_j}\bar A\bar M + {{\bar M}^{\rm{T}}}{C^{\rm{T}}}QC\bar M - \\ &\;\;\;\qquad{{\bar M}^{\rm{T}}}{{\bar A}^{\rm{T}}}{P_j}\bar BU{{\bar M}_2} - \bar M_2^{\rm{T}}{U^{\rm{T}}}{{\bar B}^{\rm{T}}}{P_j}\bar A\bar M - \\ &\;\;\;\qquad{{\bar M}^{\rm{T}}}{C^{\rm{T}}}QSU{{\bar M}_2} - \bar M_2^{\rm{T}}{U^{\rm{T}}}{S^{\rm{T}}}QC\bar M + \\ &\;\;\;\qquad\bar M_2^{\rm{T}}{U^{\rm{T}}}({{\bar B}^{\rm{T}}}{P_j}\bar B + R + {S^{\rm{T}}}QS)U{{\bar M}_2}\\ & {{\bar L}_{2j}} = {{\bar B}^{\rm{T}}}{P_j}\bar B + R + {S^{\rm{T}}}QS \\ & {{\bar L}_{3j}} ={{\bar M}^{\rm{T}}}{{\bar A}^{\rm{T}}}{P_j}\bar B + {{\bar M}^{\rm{T}}}{C^{\rm{T}}}QS - \\ &\;\;\;\qquad\bar M_2^{\rm{T}}{U^{\rm{T}}}({{\bar B}^{\rm{T}}}{P_j}\bar B + R + {S^{\rm{T}}}QS) \\ & {\bar \varphi _j}(k) = {\left[ {f(k),f(k + 1), \cdots ,f(k + s)} \right]^{\rm{T}}} \\ &{\bar \psi _j}(k) = \left[ {\begin{array}{*{20}{c}} {{{\bar \Phi }_{01}}}&{{{\bar \Phi }_{02}}}&{{{\bar \Phi }_{03}}} \\ {{{\bar \Phi }_{11}}}&{{{\bar \Phi }_{12}}}&{{{\bar \Phi }_{13}}} \\ \vdots & \vdots & \vdots \\ {{{\bar \Phi }_{s1}}}&{{{\bar \Phi }_{s2}}}&{{{\bar \Phi }_{s3}}} \end{array}} \right]\end{split} $$ 其中
$$\begin{array}{l} f(k) = {\gamma ^{ - 2k}}{{\bar z}^{\rm{T}}}(k + 1){{\bar M}^{\rm{T}}}{P_j}\bar M\bar z(k + 1) + \\ \;\;\;\;\;\;\;\;\;\;\;{\gamma ^{ - 2k}}{{\bar e}^{\rm{T}}}(k)Q\bar e(k) + \\ \;\;\;\;\;\;\;\;\;\;\;{\gamma ^{ - 2k}}{(\hat u(k) - U\hat w(k))^{\rm{T}}}R(\hat u(k) - U\hat w(k)) \\ {{\bar \Phi }_{l1}} = {\gamma ^{ - 2k - 2l}}{\rm{vecv(}}z(k + l){\rm{)}} \\ {{\bar \Phi }_{l2}} = {\rm{vecv(}}u(k + l){\rm{)}} \\ {{\bar \Phi }_{l3}} = 2{\gamma ^{ - k - l}}{u^{\rm{T}}}(k + l) \otimes {z^{\rm{T}}}(k + l) \end{array} $$ 可将式(59)转化为如下方程组
$${\bar \psi _j}(k)[{\rm{vecs}}({\bar L_{1j}});{\rm{vecs}}({\bar L_{2j}});{\rm{vec}}({\bar L_{3j}})] = {\bar \varphi _j}(k)$$ (60) 当在线数据满足一定要求时, 上述方程组可由最小二乘方法求解. 如下引理给出了方程组(60)具有唯一解的条件.
引理3. 方程组(60)可解并具有唯一解, 当且仅当
$$\begin{split} {\rm{rank}}&({{\bar \psi }_j}(k)) =\; \frac{1}{2}(({n_y} + {n_u})({n_x} + {n_w}) + {n_u}) \times \\ &\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;(({n_y} + {n_u})({n_x} + {n_w}) + {n_u} + 1)\end{split} $$ 当引理3成立时, 方程组(60)可以由下式求解, 为
$$\begin{split} &{[{\rm{vecs}}({{\bar L}_{1j}});{\rm{vecs}}({{\bar L}_{2j}});{\rm{vec}}({{\bar L}_{3j}})]}=\\ &\;\;\;\;\;\;\;{ {{(\bar \psi _j^{\rm{T}}(k){{\bar \psi }_j}(k))}^{ - 1}}\bar \psi _j^{\rm{T}}(k){{\bar \varphi }_j}(k)} \end{split}$$ (61) 定义
$${\bar P_{j + 1}} = {\bar M^{\rm{T}}}{P_{j + 1}}\bar M$$ (62) 则Riccati方程(57)可由如下迭代公式求解
$${\bar P_{j + 1}} = {\bar L_{1j}} - \bar L_{3j}^{}\bar L_{2j}^{ - 1}\bar L_{3j}^{\rm{T}}$$ (63) 计算得到
${\bar P_{j + 1}}$ 后, 将其代入$\bar \varphi _j^{}(k)$ 更新得到$\bar \varphi _{j + 1}^{}(k)$ , 继而可以更新方程(60), 重复以上步骤可以得到序列${\rm{\{ }}{\bar P_j}{\rm{\} }}_{j = 0}^\infty $ 直至收敛, 对应的序列${\rm{\{ }}{\bar K_j}{\rm{\} }}_{j = 0}^\infty $ 为$$\begin{array}{l} {{\bar K}_j} = {K_j}\bar M - U{{\bar M}_2} = \bar L_{2j}^{ - 1}L_{3j}^{\rm{T}} \end{array} $$ (64) 至此, 基于输出反馈与强化学习的自适应最优输出调节算法如下.
算法3. 基于输出反馈与强化学习的自适应最优输出调节算法
初始化: 选择任意的初始控制律
${\bar K_0}$ , 终止条件常数$\varepsilon > 0$ , 半正定矩阵${\bar P_0}$ ,$j \leftarrow 0$ ;最优输出调节律在线计算: 利用如下迭代算法计算最优反馈增益, 在区间
$[k,k + s]$ 利用控制输入为$\hat u(k) = - {\bar K_0}\bar z(k) + n(k)$ , 其中$n(k)$ 为控制输入中添加的探测噪声, s为使得引理3满足的数;1) 利用式(60)计算得到
${\bar L_{1j}}$ ,${\bar L_{2j}}$ ,${\bar L_{3j}}$ ;2) 利用式(44)计算
${\bar P_{j + 1}}$ ;3) 判断
$\left\| {{{\bar P}_{j + 1}} - {{\bar P}_j}} \right\| < \varepsilon $ 是否成立, 如果成立则停止迭代, 并利用式(64)计算得到${\bar K_j}$ ,反之则重复上述两步, 并令:$ j\leftarrow j+1 $ .注7. 算法3与算法2具有类似的特性, 其中
${(\bar \psi _j^{\rm{T}}(k){\bar \psi _j}(k))^{ - 1}}\bar \psi _j^{\rm{T}}(k)$ 在迭代过程中仅需要计算一次.${\bar K_j}$ 仅需要在${\bar M^{\rm{T}}}{P_{j + 1}}\bar M$ 收敛后计算一次. 该方法同样是一类off-policy方法,可以保证计算结果是无偏的.注8. 本小节假设U是已知的, 该假设只需要在学习最优输出调节律时成立.当
${B^{\rm{T}}}B$ 或${S^{\rm{T}}}S$ 为非奇异矩阵时,$({\bar B^{\rm{T}}}{P_j}\bar B + {S^{\rm{T}}}QS)$ 是可逆的, 该情况下如果注1满足, 可将R设置为0, 则${\bar \varphi _j}(k)$ 中的$(\hat u(i) - $ $ U\hat w(i))^{\rm{T}}R(\hat u(i) - U\hat w(i)) ,$ $i=k,k+1,\cdots,k+s$ 变为0, 避免了U已知的要求.4. 算法收敛性与闭环稳定性分析
本节进行所设计的状态反馈与输出反馈自适应最优输出调节算法的收敛性分析与基于所设计的最优输出调节器的闭环系统稳定性分析, 如下两个定理分别给出了收敛性结论与稳定性结论.
定理1. 当假设1 ~ 3成立, 引理2中条件满足时, 由算法2所得到的序列
${\rm{\{ }}{P_j}{\rm{\} }}_{j = 0}^\infty $ 与${\rm{\{ }}{K_j}{\rm{\} }}_{j = 0}^\infty $ 最终会收敛至其最优值, 即${\lim _{j \to \infty }}{P_j} = {P^*}$ ,${\lim _{j \to \infty }}{K_j} = $ $ {K^*}$ . 另外, 当假设1 ~ 4成立, 引理3中条件满足时, 由算法3所得到的序列${\rm{\{ }}{\bar P_j}{\rm{\} }}_{j = 0}^\infty $ 与${\rm{\{ }}{\bar K_j}{\rm{\} }}_{j = 0}^\infty $ 最终会收敛至其最优值, 即${\lim _{j \to \infty }}{\bar P_j} = {\bar M^{\rm{T}}}{P^*}\bar M$ ,${\lim _{j \to \infty }}{\bar K_j} = $ $ {K^*}\bar M - U{\bar M_2}$ .证明. 当引理2条件满足时,式 (43)具有唯一解. 因此, 式(43)等价于算法1中的式(30)和 式(45)等价于算法1中的式(31), 这表明算法2的收敛性等价于算法1的收敛性. 基于引理1,
${\lim _{j \to \infty }}{P_j} = {P^*}$ ,${\lim _{j \to \infty }}{K_j} = {K^*}$ 得证. 对于算法3, 当引理3条件满足时, 式(63)等价于算法1中的式(30)和式(64)等价于算法1中的式(31), 基于引理1, 可得${\lim _{j \to \infty }}\;{\bar P_j} = {\bar M^{\rm{T}}}\;{P^*}\;\bar M$ ,${\lim _{j \to \infty }}{\bar K_j} = $ $ {K^*}\bar M - U{\bar M_2}$ .定理2. 考虑受扰动的线性离散系统(1) ~ (2), 外部系统(3) ~ (4), 当假设1 ~ 4成立时, 由算法2和算法3所得到的
${K_j}$ 与${\bar K_j}$ 将使得闭环系统是渐近稳定的, 且跟踪误差e(k)的收敛速率快于${\gamma ^{ - k}}$ .证明. 基于定理1的结论, 由算法2与算法3所得到的
${K_j}$ 与${\bar K_j}$ 所控制的闭环对象为$$\bar x(k + 1) = (\bar A - \bar B{K^*})\bar x(k)$$ (65) $$\bar e(k) = C\bar x(k)$$ (66) 由于
${K^{\rm{*}}}$ 是利用Riccati方程(28)求解得到, 因此$\bar A - \bar B{K^*}$ 是Schur的, 所以有${\lim _{k \to \infty }}\bar e(k) = $ $ {\lim _{k \to \infty }}{\gamma ^k}e(k) = 0$ , 由此可得所计算的反馈控制增益${K_j}$ 与${\bar K_j}$ 解决了问题1, 使得跟踪误差e(k)的收敛速率快于${\gamma ^{ - k}}$ .5. 仿真实验
本节进行所提算法的仿真实验研究, 首先介绍仿真实验对象与实验参数, 之后分别进行基于状态反馈的仿真实验与基于输出反馈的仿真实验.
5.1 仿真实验对象与实验参数
考虑如下受扰动的线性离散时间系统
$$\begin{split} &x(k + 1) = \left[ {\begin{array}{*{20}{c}} 0&1 \\ { - 1}&{ - 3} \end{array}} \right]x(k) + \left[ {\begin{array}{*{20}{c}} 0 \\ {0.6} \end{array}} \right]u(k) + w(k) \\ & y(k) = \left[ {\begin{array}{*{20}{c}} 1&0 \end{array}} \right]x(k) + u(k) \end{split} $$ 对应的外部系统与参考信号为
$$\begin{array}{l} w(k + 1) = \left[ {\begin{array}{*{20}{c}} {\cos (0.2)}&{\sin(0.2)} \\ { - \sin (0.2)}&{\cos (0.2)} \end{array}} \right]w(k) \\ {y_d}(k) = \left[ {\begin{array}{*{20}{c}} 1&0 \end{array}} \right]w(k) \end{array} $$ 问题1中的矩阵参数选择为
$Q = R = 1$ , 问题2中的矩阵参数选择为$M = I$ , 收敛速率$\gamma = 1.2$ , 利用式(9)求解输出调节方程(7)~(8)的解X和U为$$X = \left[ {\begin{array}{*{20}{c}} {0.8506}&{0.066} \\ { - 0.1795}&{0.2337} \end{array}} \right],U = \left[ {\begin{array}{*{20}{c}} {0.1494}&{ - 0.066} \end{array}} \right]$$ 则最优的P*, K*, L*与
${\bar K^*}$ 分别为$$\begin{split} &{P^*} = \left[ {\begin{array}{*{20}{c}} {8.8818}&{16.1083} \\ {16.1083}&{32.1106} \end{array}} \right] \\ & {K^*} = \left[ {\begin{array}{*{20}{c}} { - 1.4343}&{ - 3.7173} \end{array}} \right] \\ &{L^*} = \left[ {\begin{array}{*{20}{c}} { - 0.4032}&{ - 1.0293} \end{array}} \right] \\ & {{\bar K}^*} = \left[ {\begin{array}{*{20}{c}} { - 15.8383}&{31.2417}&{ - 6.3175}&{ - 10.985} \end{array}} \right. \\ & \;\;\;\;\;\;\;\;\left. {\begin{array}{*{20}{c}} {13.1619}&{ - 22.8457}&{ - 6.3697}&{17.5763} \end{array}} \right] \end{split} $$ 5.2 基于状态反馈的仿真实验
本小节进行基于状态反馈的仿真实验, 仿真实验中, 初始控制律
${K_0} = \left[ { - 1}\;\;{ - 3} \right]^{\rm{T}}$ , 终止条件常数$\varepsilon = 0.001$ , 半正定矩阵P0=0, 矩阵序列$$\begin{split} & \left[ {\begin{array}{*{20}{c}} {{X_0}} \\ {{U_0}} \end{array}} \right]= \left[ {\begin{array}{*{20}{c}} 0&0 \\ 0&0 \\ 0&0 \end{array}} \right], \left[ {\begin{array}{*{20}{c}} {{X_1}} \\ {{U_1}} \end{array}} \right] = \left[ {\begin{array}{*{20}{c}} 1&0 \\ 0&0 \\ 0&0 \end{array}} \right],\\ &\left[ {\begin{array}{*{20}{c}} {{X_2}} \\ {{U_2}} \end{array}} \right]= \left[ {\begin{array}{*{20}{c}} { - \sqrt 2 }&0 \\ 0&0 \\ {\sqrt 2 }&0 \end{array}} \right],\left[ {\begin{array}{*{20}{c}} {{X_3}} \\ {{U_3}} \end{array}} \right] = \left[ {\begin{array}{*{20}{c}} 0&1 \\ { - \sqrt 2 }&2 \\ 0&{ - 1} \end{array}} \right], \\ & \left[ {\begin{array}{*{20}{c}} {{X_4}} \\ {{U_4}} \end{array}} \right] = \left[ {\begin{array}{*{20}{c}} 0&0 \\ 0&1 \\ 0&0 \end{array}} \right],\left[ {\begin{array}{*{20}{c}} {{X_5}} \\ {{U_5}} \end{array}} \right] = \left[ {\begin{array}{*{20}{c}} 0&{ - 1} \\ { - \sqrt 2 }&2 \\ 0&1 \end{array}} \right].\end{split} $$ 探测噪声
$n(k)$ 为白噪声, 被控对象的初始状态为$x(1) = {\left[ 1\;\;2 \right]^{\rm{T}}}$ 与$w(1) = {\left[ 2\;\;1\right]^{\rm{T}}}$ . 由引理2可知, 求解公式(42)至少需要15组数据, 故s需大于14, 仿真实验中选择s = 17.仿真结果如图1 ~ 3所示, 图1表示基于状态反馈的输出y(k)与参考信号yd(k)的轨迹, 由该图可知本文所提方法能够在系统矩阵A, B, D, E未知时实现自适应输出调节, 图2表示基于状态反馈的
$ \Vert {P}_{j}-{P}^{*}\Vert $ 与$ \Vert {K}_{j}-{K}^{*}\Vert $ 的误差轨迹, 由图可知经过13步迭代算法收敛, 图3表示基于状态反馈的误差e(k)与${\gamma ^{ - k}}e({k_0})$ 的对比曲线, 实验结果表明所设计的控制器能够使得跟踪误差收敛快于${\gamma ^{ - k}}$ .5.3 基于输出反馈的仿真实验
本小节进行基于状态反馈的仿真实验, 仿真实验中, 初始控制律
$$\begin{array}{l} {\kern 1pt} {{\bar K}_0} = \left[ {\begin{array}{*{20}{c}} { - 13.5899}&{24.4082}&{ - 4.4063}&{ - 8.4499} \end{array}} \right. \\ \;\;\;\;\;\;\;\;\;\;\;\;\;\;\left. {\begin{array}{*{20}{c}} {11.4299}&{ - 17.4962}&{ - 5.6248}&{13.5199} \end{array}} \right] \end{array} $$ 终止条件常数
$\varepsilon = 80$ , 半正定矩阵P0 = 0, 探测噪声$n(k)$ 为白噪声, 被控对象的初始状态为$x(1) = $ $ {\left[ 1\;\;2 \right]^{\rm{T}}}$ 与$w(1) = {\left[ 2\;\;1 \right]^{\rm{T}}}$ . 由引理3可知, 求解式(60)至少需要45组数据, 故s需大于44, 仿真实验中选择s = 64.仿真结果如图4 ~ 6所示, 图4表示基于s输出反馈的输出y(k)与参考信号yd(k)的轨迹, 由该图可知本文所提方法能够实现自适应输出调节, 图5表示基于输出反馈的
$ \Vert {\overline{P}}_{j}-{\overline{P}}^{*}\Vert $ 与$ \Vert {\overline{K}}_{j}-{\overline{K}}^{*}\Vert $ 的误差轨迹, 图6表示基于输出反馈的误差e(k)与${\gamma ^{ - k}}e({k_0})$ 的对比曲线, 实验结果表明所设计的控制器能够使得跟踪误差收敛快于${\gamma ^{ - k}}$ .5.4 对比仿真实验
本小节进行对比仿真实验, 其中对比方法选用文献[24]方法, 对比实验的参数选择为
$Q = 1$ ,$R = 30$ , 收敛速率$\gamma = 3$ . 由于文献[24]中的方法无法求解输出调节方程(7) ~ (8)的解X和U, 对比实验中求解X和U均使用本文的方法. 对比方法中的初始控制策略为稳定的. 对比仿真结果如图7表示, 实验结果表明, 与对比方法相比, 在相同的权重矩阵参数下, 本文所设计的控制器使得跟踪误差收敛快于${\gamma ^{ - k}}$ , 而对比方法计算得到的控制器使得跟踪误差收敛慢于${\gamma ^{ - k}}$ .6. 结束语
本文针对具有未知动态与收敛速率要求的受扰离散线性系统的输出调节问题, 提出了基于状态反馈与输出反馈的自适应最优输出调节算法, 该算法不需要稳定的初始控制律与部分模型知识, 利用在线算法求解得到最优的输出调节器, 同时还能够保证跟踪误差的收敛速率满足预先给定的要求. 本文的后续工作将着重于研究基于动态反馈的输出调节算法, 以克服对部分模型知识的要求.
-
-
[1] Åström K J, Tore H. PID Controllers: Theory, Design, and Tuning. Research Triangle Park, NC: Instrument Society of America, 1995. [2] Garcia C E, Prett D M, Morari M. Model predictive control: theory and practice—a survey. Automatica, 1989, 25(3): 335-348. doi: 10.1016/0005-1098(89)90002-2 [3] Francis B A. The Linear Multivariable Regulator Problem. SIAM Journal on Control and Optimization, 1977, 15(3): 486-505. doi: 10.1137/0315033 [4] Isidori A, Byrnes C I. Output regulation of nonlinear systems. IEEE Transactions on Automatic Control, 1990, 35(2): 131-140. doi: 10.1109/9.45168 [5] Ding Z T. Output regulation of uncertain nonlinear systems with nonlinear exosystems. IEEE Transactions on Automatic Control, 2006, 51(3): 498-503. doi: 10.1109/TAC.2005.864199 [6] Huang J, Chen Z. A general framework for tackling the output regulation problem. IEEE Transactions on Automatic Control, 2004, 49(12): 2203-2218. doi: 10.1109/TAC.2004.839236 [7] Parks P. Liapunov redesign of model reference adaptive control systems. IEEE Transactions on Automatic Control, 1966, 11(3): 362-367. doi: 10.1109/TAC.1966.1098361 [8] 田涛涛, 侯忠生, 刘世达, 邓志东. 基于无模型自适应控制的无人驾驶汽车横向控制方法. 自动化学报, 2017, 43(11): 1931-1940.Tian Tao-Tao, Hou Zhong-Sheng, Liu Shi-Da, Deng Zhi-Dong. Model-free Adaptive Control Based Lateral Control of Self-driving Car. Acta Automatica Sinica, 2017, 43(11): 1931-1940. [9] 于欣波, 贺威, 薛程谦, 孙永坤, 孙长银. 基于扰动观测器的机器人自适应神经网络跟踪控制研究. 自动化学报, 2019, 45(7): 1307-1324.Yu Xin-Bo, He Wei, Xue Cheng-Qian, Sun Yong-Kun, Sun Chang-Yin. Disturbance Observer-based Adaptive Neural Network Tracking Control for Robots. Acta Automatica Sinica, 2019, 45(7): 1307-1324. [10] Modares H, Lewis F L. Linear Quadratic Tracking Control of Partially-Unknown Continuous-Time Systems Using Reinforcement Learning. IEEE Transactions on Automatic Control, 2014, 59(11): 3051-3056. doi: 10.1109/TAC.2014.2317301 [11] Xue W Q, Fan J L, Lopez V G, Jiang Y, Chai T Y, Lewis F L. Off-policy reinforcement learning for tracking in continuous-time systems on two time-scales. IEEE Transactions on Neural Networks and Learning Systems, 2021, 32 (10), 4334−4346 [12] Kiumarsi B, Lewis F L, Modares H, Karimpour A, Naghibisistani M B. Reinforcement Q-learning for optimal tracking control of linear discrete-time systems with unknown dynamics. Automatica, 2014, 50(4): 1167-1175. doi: 10.1016/j.automatica.2014.02.015 [13] Jiang Y, Fan J, Chai T, Lewis F L, Li J N. Tracking Control for Linear Discrete-Time Networked Control Systems With Unknown Dynamics and Dropout. IEEE Transactions on Neural Networks and Learning System, 2018, 29(10): 4607-4620. doi: 10.1109/TNNLS.2017.2771459 [14] 吴倩, 范家璐, 姜艺, 柴天佑. 无线网络环境下数据驱动混合选别浓密过程双率控制方法. 自动化学报, 2019, 45(6): 1122-1135.Wu Qian, Fan Jia-Lu, Jiang Yi, Chai Tian-You. Data-driven Dual-rate Control for Mixed Separation Thickening Process in a Wireless Network Environment. Acta Automatica Sinica, 2019, 45(6): 1122-1135. [15] Xue W Q, Fan J L, Lopez V G, Li J N, Jiang Y, Chai T Y, Lewis F L. New Methods for Optimal Operational Control of Industrial Processes Using Reinforcement Learning on Two Time Scales. IEEE Transactions on Industrial Informatics, 2020, 16(5): 3085-3099. doi: 10.1109/TII.2019.2912018 [16] Modares H, Lewis F L. Optimal tracking control of nonlinear partially-unknown constrained-input systems using integral reinforcement learning. Automatica, 2014, 50(7): 1780-1792. doi: 10.1016/j.automatica.2014.05.011 [17] Kiumarsi B, Lewis F L. Actor–critic-based optimal tracking for partially unknown nonlinear discrete-time systems. IEEE Transactions on Neural Networks and Learning Systems, 2014, 26(1): 140-151. [18] Jiang Y, Fan J L, Chai T Y, Li J N, Lewis F L. Data-driven flotation industrial process operational optimal control based on reinforcement learning. IEEE Transactions on Industrial Informatics, 2018, 14(5): 1974-1989. doi: 10.1109/TII.2017.2761852 [19] Jiang Y, Fan J L, Chai T Y, Lewis F L. Dual-rate operational optimal control for flotation industrial process with unknown operational model. IEEE Transactions on Industrial Electronics, 2019, 66(6): 4587-4599. doi: 10.1109/TIE.2018.2856198 [20] Gao W N, Jiang Z P. Adaptive Dynamic Programming and Adaptive Optimal Output Regulation of Linear Systems. IEEE Transactions on Automatic Control, 2016, 61(12): 4164-4169. doi: 10.1109/TAC.2016.2548662 [21] Gao W N, Jiang Z P, Lewis F L, Wang Y B. Leader-to-Formation Stability of Multi-agent Systems: An Adaptive Optimal Control Approach. IEEE Transactions on Automatic Control, 2018, 63(10): 3581-3587. doi: 10.1109/TAC.2018.2799526 [22] Chen C, Modares H, Xie K, Lewis F L, Wan Y, Xie S L. Reinforcement Learning-Based Adaptive Optimal Exponential Tracking Control of Linear Systems With Unknown Dynamics. IEEE Transactions on Automatic Control, 2019, 64(11): 4423-4438. doi: 10.1109/TAC.2019.2905215 [23] Chen C, Lewis F L, Xie K, Xie S L, Liu Y L. Off-policy learning for adaptive optimal output synchronization of heterogeneous multi-agent systems. Automatica, 2020, 119: 109081. doi: 10.1016/j.automatica.2020.109081 [24] Jiang Y, Kiumarsi B, Fan J L, Chai T Y, Li J N, Lewis. Optimal Output Regulation of Linear Discrete-Time Systems with Unknown Dynamics using Reinforcement Learning. IEEE Transactions on Cybernetics, 2020, 50(7): 3147-3156. doi: 10.1109/TCYB.2018.2890046 [25] 庞文砚, 范家璐, 姜艺, 刘易斯·弗兰克. 基于强化学习的部分线性离散时间系统最优输出调节. 自动化学报, DOI: 10.16383/j.aas.c190853Pang Wen-Yan, Fan Jia-Lu, Jiang Yi, Lewis Frank Leroy. Optimal output regulation of partially linear discrete-time systems using reinforcement learning. Acta Automatica Sinica, DOI: 10.16383/j.aas.c190853 [26] Fan J L, Wu Q, Jiang Y, Chai T Y, Lewis F L. Model-Free Optimal Output Regulation for Linear Discrete-Time Lossy Networked Control Systems. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2020, 50(11): 4033-4042. doi: 10.1109/TSMC.2019.2946382 [27] Gao W N, Jiang Z P. Learning-Based Adaptive Optimal Tracking Control of Strict-Feedback Nonlinear Systems. IEEE Transactions on Neural Networks and Learning System, 2018, 29(6): 2614-2624. doi: 10.1109/TNNLS.2017.2761718 [28] Jiang Y, Fan J L, Gao W N, Chai T Y, Lewis F L. Cooperative Adaptive Optimal Output Regulation of Discrete-Time Nonlinear Multi-Agent Systems. Automatica, 2020, 121: 109149. doi: 10.1016/j.automatica.2020.109149 [29] Kiumarsi B, Lewis F L, Modares H, Karimpour A, Naghibisistani M B. Optimal Tracking Control of Unknown Discrete-Time Linear Systems Using Input-Output Measured Data. IEEE Transactions on Cybernetics, 2015, 45(12): 2770-2779. doi: 10.1109/TCYB.2014.2384016 [30] Gao W N, Jiang Z P. Adaptive optimal output regulation of time-delay systems via measurement feedback. IEEE Transactions on Neural Networks and Learning System, 2018, 30(3): 938-945. [31] 张春燕, 戚国庆, 李银伢, 盛安冬. 一种基于有限时间稳定的环绕控制器设计. 自动化学报, 2018, 44(11): 2056-2067.Zhang Chun-Yan, Qi Guo-Qing, Li Yin-Ya, Sheng An-Dong. Standoff Tracking Control With Respect to Moving Target via Finite-time Stabilization. Acta Automatica Sinica, 2018, 44(11): 2056-2067. [32] Hong Y G, Xu Y S, Huang J. Finite-time control for robot manipulators. Systems and control letters, 2002, 46(4): 243-253. doi: 10.1016/S0167-6911(02)00130-5 [33] Huang J. Nonlinear Output Regulation: Theory and Applications. SIAM, 2004. [34] Krener A J. The construction of optimal linear and nonlinear regulators. Systems, Models and Feedback: Theory and Applications. Springer, 1992. [35] Arnold W F, Laub A J. Generalized eigen problem algorithms and software for algebraic Riccati equations. Proceedings of the IEEE. 1984, 72(12): 1746-1754. doi: 10.1109/PROC.1984.13083 [36] Lewis F L, Vrabie D, Syrmos V L. Optimal Control. John Wiley & Sons, 2012. [37] Lancaster P, Rodman L. Algebraic Riccati Equations. New York: Oxford University Press, 1995. [38] Hewer G. An iterative technique for the computation of the steady state gains for the discrete optimal regulator. IEEE Transactions on Automatic Control, 1971, 16(4): 382-384. doi: 10.1109/TAC.1971.1099755 [39] Li J N, Chai T Y, Lewis F L, Ding Z T, Jiang Y. Off-Policy Interleaved Q-Learning: Optimal Control for Affine Nonlinear Discrete-Time Systems. IEEE Transactions on Neural Networks and Learning System, 2019, 30(5): 1308-1320. doi: 10.1109/TNNLS.2018.2861945 [40] Kiumarsi B, Lewis F L, Jiang Z P. H∞ control of linear discrete-time systems: Off-policy reinforcement learning. Automatica, 2017, 78: 144–152. doi: 10.1016/j.automatica.2016.12.009 [41] 李臻, 范家璐, 姜艺, 柴天佑. 一种基于Off-policy的无模型输出数据反馈H∞控制方法. 自动化学报, 2021, 47(9), 2182-2193Li Zhen, Fan Jia-Lu, Jiang Yi, Chai Tian-You. A model-free H∞ method based on off-policy with output data feedback. Acta Automatica Sinica, 2021, 47(9), 2182−21932 期刊类型引用(5)
1. QIN Yahang,ZHANG Chengye,CHEN Ci,XIE Shengli,LEWIS Frank L.. Control Policy Learning Design for Vehicle Urban Positioning via BeiDou Navigation. Journal of Systems Science & Complexity. 2024(01): 114-135 . 必应学术
2. 金龙,张凡,刘佰阳,郑宇. 基于数据驱动的冗余机器人末端执行器位姿控制方案. 自动化学报. 2024(03): 518-526 . 本站查看
3. 赵建国,杨春雨. 复杂工业过程非串级双速率组合分散运行优化控制. 自动化学报. 2023(01): 172-184 . 本站查看
4. 阳春华,孙备,李勇刚,黄科科,桂卫华. 复杂生产流程协同优化与智能控制. 自动化学报. 2023(03): 528-539 . 本站查看
5. 赵纯彦,徐磊,高伟男,杨涛. 基于自适应动态规划的时滞多智能体系统协同输出调节. 控制工程. 2023(08): 1477-1487 . 百度学术
其他类型引用(3)
-