2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于高斯过程的不确定非线性系统在线学习控制及应用

刘玉发 练桂铭 刘勇华 苏春翌

刘玉发, 练桂铭, 刘勇华, 苏春翌. 基于高斯过程的不确定非线性系统在线学习控制及应用. 自动化学报, xxxx, xx(x): x−xx doi: 10.16383/j.aas.c240356
引用本文: 刘玉发, 练桂铭, 刘勇华, 苏春翌. 基于高斯过程的不确定非线性系统在线学习控制及应用. 自动化学报, xxxx, xx(x): x−xx doi: 10.16383/j.aas.c240356
Liu Yu-Fa, Lian Gui-Ming, Liu Yong-Hua, Su Chun-Yi. Online learning control of uncertain nonlinear systems using gaussian processes and its application. Acta Automatica Sinica, xxxx, xx(x): x−xx doi: 10.16383/j.aas.c240356
Citation: Liu Yu-Fa, Lian Gui-Ming, Liu Yong-Hua, Su Chun-Yi. Online learning control of uncertain nonlinear systems using gaussian processes and its application. Acta Automatica Sinica, xxxx, xx(x): x−xx doi: 10.16383/j.aas.c240356

基于高斯过程的不确定非线性系统在线学习控制及应用

doi: 10.16383/j.aas.c240356 cstr: 32138.14.j.aas.c240356
基金项目: 国家自然科学基金(62173097,U2013601), 广东省基础与应用基础研究基金面上项目(2022A515011239), 广东省特支计划本土创新创业项目(2019BT02X353) 资助
详细信息
    作者简介:

    刘玉发:广东工业大学自动化学院博士研究生. 主要研究方向为自适应控制与智能控制. E-mail: yufa.liu@outlook.com

    练桂铭:广东工业大学自动化学院硕士研究生. 主要研究方向为自适应控制与智能控制. E-mail: gaslian@foxmail.com

    刘勇华:广东工业大学自动化学院副教授. 主要研究方向为非线性控制与智能控制. 本文通信作者. E-mail: yonghua.liu@outlook.com

    苏春翌:广东工业大学自动化学院教授. 主要研究方向为控制理论及其在机电系统中的应用. E-mail: chunyi.su@concordia.ca

Online Learning Control of Uncertain Nonlinear Systems Using Gaussian Processes and Its Application

Funds: Supported by National Natural Science Foundation of China (62173097,U2013601), GuangDong Basic and Applied Basic Research Foundation (2022A515011239), and the Local Innovative and Research Team Project of Guangdong Special Support Program (2019BT02X353)
More Information
    Author Bio:

    LIU Yu-Fa Ph.D. student at the School of Automation, Guangdong University of Technology. His main research interest is adaptive control and intelligent control

    LIAN Gui-Ming Master student at the School of Automation, Guangdong University of Technology. His main research interest is adaptive control and intelligent control

    LIU Yong-Hua Associate professor at the School of Automation, Guangdong University of Technology. His research interest covers nonlinear and intelligent control. Corresponding author of this paper

    SU Chun-Yi Professor at the School of Automation, Guangdong University of Technology. His research interest covers control theory and its applications to mechanical systems

  • 摘要: 针对一类不确定非线性系统, 提出了一种基于高斯过程的在线学习控制方法. 该方法首先通过障碍函数间接设定系统状态的运行区域. 其次, 在该区域内在线采集量测数据, 利用高斯过程回归对系统中未知非线性动态进行学习. 然后通过Lyapunov稳定理论, 证明了所提在线学习控制算法可保证闭环系统所有信号的有界性. 与基于径向基神经网络(Radial basis function neural networks, RBFNNs) 的自适应控制方案相比, 所提控制算法无需精确给出系统状态的运行区域及预先分配径向基函数中心值. 最后, 通过数值仿真与Franka Emika Panda 协作机械臂关节控制实验, 验证了控制算法的有效性与先进性.
  • 随着科学技术、特别是信息科学技术的快速发展, 机械、化工、电力电子、交通运输和物流等各领域发生了巨大的变化, 生产工艺、生产设备和生产过程越来越复杂, 呈现出强非线性、不确定性与未知的动态特性等特征[14], 越来越难以建立精确的数学模型. 对这类系统采用传统的非线性控制方法往往难以取得理想的控制效果. 径向基神经网络(Radial basis function neural networks, RBFNNs)具有学习复杂输入输出映射的强大能力, 能够以任意精度逼近任意连续函数, 已被广泛用于解决各类不确定非线性系统的控制问题[512]. 然而, 由于高斯径向基函数(Radial basis function, RBF) 的输出在远离其中心值时呈指数衰减, 因此, RBFNNs 的逼近能力很大程度上取决于其RBF 中心值的选取. 为确保RBFNNs 对系统中未知动态进行有效建模, 神经网络输入变量必须保持在接近某些高斯RBF中心值的位置.

    在执行基于RBFNNs的自适应控制算法时, 通常隐含着神经网络运行区域已给定的假设条件, 且需要在给定的神经网络运行区域内预先分配高斯RBF中心值. 然而, 如何给定神经网络运行区域并预先分配高斯RBF中心值是一个极具挑战性的难题. 针对一类控制增益为常数的不确定非线性系统, Sanner和Slotine[13]通过引入切换函数设定神经网络运行区域, 提出了一种由PD控制模块、自适应神经网络控制模块和含系统先验信息的滑模控制模块组成的自适应控制算法. 受此启发, Chen等[14]通过构造三个光滑切换函数, 设计了一种基于反步控制技术的自适应神经网络跟踪方案, 使得系统跟踪误差收敛至一个预先指定的精度范围. 但这些基于RBFNNs的自适应控制方案仍依赖于系统未知动态的先验知识. 为此, Liu等[1518]结合障碍Lyapunov 函数和RBFNNs, 提出了一种不依赖于未知动态先验知识的自适应控制算法. 然而, 该算法仅能间接确定神经网络的运行区域, 致使无法预先分配高斯RBF中心值. 通常而言, 在未给定神经网络运行区域的条件下, 预先分配RBF中心值常常会造成RBFNNs对未知动态的逼近误差较大. 为克服这一限制, 文献[1921]提出了基于最小化瞬时跟踪误差的RBF中心值调整规则. 然而, 以减少跟踪误差来更新RBF中心值并不能保证减少逼近误差.

    与RBFNNs的参数化逼近不同, 高斯过程回归(Gaussian process regression, GPR)是一种基于贝叶斯理论的鲁棒非参数化逼近模型, 消除了预先给定神经网络运行区域及预先分配RBF中心值的要求. 作为通用函数逼近器[22], 高斯过程(Gaussian process, GP)能够处理含有非参数的系统不确定性[23]. 近年来, 基于GP的非线性系统控制问题引起了国内外学者的广泛关注[2437]. Umlauft等[27]通过选取合适的核结构与离线采集训练数据, 提出了一种基于GP的反馈线性化控制算法. 针对一类模型部分未知的严格反馈非线性系统, Capone和Hirche[28]设计了一种结合GP与命令滤波技术的反步控制方案. 但这些控制算法中的系统模型均采用固定训练数据集离线学习获得. 若采集的数据远离期望轨迹, 期望轨迹附近的模型误差很大, 从而使得跟踪性能较差. 为解决这一问题, Chowdhary[29]将GP与模型参考自适应控制相结合, 提出了一种基于在线学习的跟踪控制方法. Umlauft和Hirche[30]提出了一种基于事件触发机制的在线学习方法, 仅当设计事件触发时才采集更新训练数据集. Jiao等[31]将文献[30]中的方法进一步推广到一类具有部分未知动态的严格反馈系统. 针对一类不确定多智能体非线性系统的协同控制问题, Lederer等[32]设计了一种基于分布式高斯过程的事件触发一致性控制策略. 然而, 这些在线学习方法均要求系统中非线性动态满足全局有界的假设条件, 极大地限制了其应用范围.

    鉴于以上分析, 本文针对一类非线性系统, 在无需系统未知动态全局有界的条件下, 提出了一种基于GP的在线学习控制方法. 本文的主要贡献在于: 1) 通过引入障碍函数设定系统状态的运行区域. 在该区域内, 基于在线采集的训练数据, 利用GPR对系统中未知动态进行学习. 进而利用Lyapunov 稳定性理论, 证明了闭环系统的稳定性; 2) 与基于RBFNNs的自适应控制方案相比, 本文所提算法避免了精确给定系统状态的运行区域及预先分配RBF中心值; 3) 与文献[3031]所提的在线学习控制算法相比, 本文无须要求系统的未知动态满足全局有界条件, 放宽了该算法应对复杂未知动态的适应范围. 最后, 数值仿真与Franka Emika Panda协作机械臂关节控制实验验证了所提控制方法的有效性与优势.

    本文采用如下符号: $ {\bf{R}} $, $ {\bf{R}}_{\geq 0} $, $ {\bf{R}}_{> 0} $分别表示实数、非负实数和正实数集合. $ {\bf{R}}^n $表示$ n $维实数集合. $ {\bf{N}}_0 $, $ {\bf{N}} $分别表示自然数集合和非零自然数集合. $ {\cal{E}}[\cdot] $和$ {\cal{V}}[\cdot] $分别表示随机变量的期望和方差. $ {\boldsymbol{I}}_n $表示$ n\times n $的单位矩阵. $ \mathbb{N}(\mu,\;\sigma) $表示均值为$ \mu $方差为$ \sigma $的高斯分布. $ \exp{(\cdot)} $表示自然指数函数.

    考虑如下一类不确定非线性系统

    $$ \begin{aligned} \left\{ \begin{aligned} &\dot{x}_i=x_{i+1},\;\;i = 1,\;\cdots,\;n-1\\ &\dot{x}_n=f({\boldsymbol{x}})+g({\boldsymbol{x}})u \end{aligned} \right. \end{aligned} $$ (1)

    其中, $ {\boldsymbol{x}}=[x_1,\;\cdots,\;x_n]^\mathbb{T} \in {\bf{R}}^n $为系统状态向量, $ u \in {\bf{R}} $为控制输入. $ f({\boldsymbol{x}}):{\bf{R}}^n \rightarrow {\bf{R}} $和$ g({\boldsymbol{x}}):{\bf{R}}^n \rightarrow {\bf{R}} $为未知的非线性可微函数.

    假设1. 函数$ g({\boldsymbol{x}}) $符号已知, 且存在未知正常数$ \underline{g} $, 使得$ |g({\boldsymbol{x}})|\geq \underline{g} $. 不失一般性, 假定$ g({\boldsymbol{x}}) \geq \underline{g} >0 $, $ \forall {\boldsymbol{x}} \in {\bf{R}}^n $.

    假设2. 对任意时刻$ t_\kappa $, $ \kappa \in {\cal{N}}_0 $, 状态向量$ {\boldsymbol{x}}^{(\kappa)} = {\boldsymbol{x}}(t_\kappa) $和$ \dot{x}_n(t_\kappa) $的量测数据$ y^{(\kappa)}\; =\; \dot{x}_n(t_\kappa)\;+ \epsilon^{(\kappa)} $可采集, 其中, 量测噪声$ \epsilon^{(\kappa)} \sim {\cal{N}}(0,\;\sigma^2_{on}) $服从高斯独立同分布, $ \sigma_{on}>0 $.

    注1. 系统状态可采集是状态反馈控制设计的基本要求. 另外, 在实际应用中, $ \dot{x}_n $可采用有限差分近似获得, 而近似误差则视为量测噪声的一部分.

    根据假设2, 定义时变数据集为

    $$ {\cal{D}}_{\kappa}=\left \{ {\boldsymbol{x}}^{(i)},\;y^{(i)} \right\}^{N_\kappa}_{i=1} $$ (2)

    其中, $ N_\kappa\in{\bf{N}}_0 $表示当前数据点的数量. 注意数据集(2)在$ t_\kappa $时刻更新, 并保持不变, 直到下一时刻$ t_{\kappa+1} $.

    假设3. 参考轨迹$ y_d $及其$ n $阶导数均有界.

    本文的$ \nleftarrow\mathbb{I}$是对任意初始条件$ {\boldsymbol{x}}(0) = [x_1(0), \cdots,\; x_n(0)]^\mathbb{T} $, 设计状态反馈控制律$ u $, 使得状态跟踪误差$ {\boldsymbol{e}} $收敛至原点附近一个小的邻域内, 同时确保闭环系统所有信号一致有界, 其中, $ {\boldsymbol{e}}= {\boldsymbol{x}} - {\boldsymbol{\bar{y}_d}} $, $ {\boldsymbol{\bar{y}_d}}= [y_d,\;\dot{y}_d,\;\cdots,\;y_d^{(n-1)}]^\mathbb{T} $为期望跟踪轨迹.

    本文采用GPR对系统中未知动态进行建模. 考虑如下GPR模型

    $$ y^{(i)}_f = f_{true}({\boldsymbol{x}}^{(i)})+\epsilon^{(i)} $$ (3)

    其中, $ f_{true}(\cdot):{\cal{X}}\rightarrow {\bf{R}} $为连续函数, $ {\boldsymbol{x}}^{(i)}\in {\cal{X}} $和$ y^{(i)}_f $分别为输入样本数据和$ f_{true}(\cdot) $的量测数据, 数据集$ {\cal{D}}^{\prime}= \{ {\boldsymbol{x}}^{(i)},\;y^{(i)}_f\}^{N^{\prime}}_{i=1} $, 量测噪声$ \epsilon^{(i)} \sim \mathbb{N}(0,\;\sigma^2_{on}) $, $ i = 1,\;\cdots,\;N^{\prime} $, $ {\cal{X}}\subseteq {\bf{R}}^n $为紧集. 高斯过程$ f_{{\cal{GP}}}({\boldsymbol{x}}) $可表示为

    $$ f_{{\cal{GP}}}({\boldsymbol{x}}) \sim {\cal{GP}}(m({\boldsymbol{x}}),\;k({\boldsymbol{x}},\;{\boldsymbol{x}}^{\prime})) $$ (4)

    其中, $ {\boldsymbol{x}}\in {\cal{X}} $和$ {\boldsymbol{x}}^{\prime}\in {\cal{X}} $为不同输入样本, $ m({\boldsymbol{x}}) :{\cal{X}}\to {\bf{R}} $为均值函数, $ k({\boldsymbol{x}},\;{\boldsymbol{x}}^{\prime}):{\cal{X}} \times {\cal{X}}\rightarrow {\bf{R}} $为协方差函数或核函数. 均值函数$ m({\boldsymbol{x}}) $包含了关于$ f_{true} $的先验知识. 若无先验知识, 则通常假设均值函数$ m({\boldsymbol{x}})= 0 $. 值得说明的是, 均值函数和核函数均通过超参数$ \psi $来描述.

    基于贝叶斯理论, 可得对数边际似然函数为

    $$ \begin{split} \log p({\boldsymbol{y}}_f|{\boldsymbol{X}},\;\psi) =\;& \frac{1}{2}{\boldsymbol{y}}_f^{\mathbb{T}}{\boldsymbol{K}}^{-1}{\boldsymbol{y}}_f-\frac{1}{2}\log\det {\boldsymbol{K}} - \\ & \frac{N^{\prime}}{2}\log(2\pi) \end{split} $$ (5)

    采用共轭梯度法[23], 求解极大对数边际似然函数(5) 可得最优超参数$ \psi^{*} $为

    $$ \psi^{*} = \mathop{\arg\max\limits_{\psi}}\log p({\boldsymbol{y}}_f|{\boldsymbol{X}},\;\psi) $$

    其中, 输入与输出数据分别为

    $$ {\boldsymbol{X}} = [{\boldsymbol{x}}^{(1)},\;\cdots,\;{\boldsymbol{x}}^{(N^{\prime})}]\in R^{n \times N^{\prime}} $$ (6)
    $${\boldsymbol{y}}_f= [y^{(1)}_f,\;\cdots,\;y^{(N^{\prime})}_f]^{\mathbb{T}}\in R^{N^{\prime}} $$ (7)

    核矩阵$ {\boldsymbol{K}} $为

    $$ {\boldsymbol{K}} = \begin{bmatrix} k({\boldsymbol{x}}^{(1)},\;{\boldsymbol{x}}^{(1)}) & \cdots & k({\boldsymbol{x}}^{(1)},\;{\boldsymbol{x}}^{(N^{\prime})}) \\ \vdots & \ddots & \vdots \\ k({\boldsymbol{x}}^{(N^{\prime})},\;{\boldsymbol{x}}^{(1)}) & \cdots & k({\boldsymbol{x}}^{(N^{\prime})},\;{\boldsymbol{x}}^{(N^{\prime})}) \end{bmatrix} $$ (8)

    在GPR框架下, 训练集数据$ \left\{ {\boldsymbol{X}},\; {\boldsymbol{y}}_f \right\} $和测试输入$ {\boldsymbol{x}}^{*} $的联合高斯分布为

    $$ \begin{bmatrix} f_{{\cal{GP}}}({\boldsymbol{x}}^{*}) \\ {\boldsymbol{y}}_f \end{bmatrix} \sim \mathbb{N} \begin{pmatrix} \begin{bmatrix} m({\boldsymbol{x}}^{*}) \\ {\boldsymbol{m}}^{{\boldsymbol{X}}} \end{bmatrix} ,\; \begin{bmatrix} k^{*} & {\boldsymbol{k}}^{\mathbb{T}} \\ {\boldsymbol{k}} & {\boldsymbol{K}} + \sigma^2_{on} {\boldsymbol{I}}_{N^{\prime}} \end{bmatrix} \end{pmatrix} $$ (9)

    进而可得后验均值函数和后验方差函数分别为

    $$ \begin{split} \mu({\boldsymbol{x}}^{*})=\;& {\cal{E}} \begin{bmatrix} f_{{\cal{GP}}}({\boldsymbol{x}}^{*}) | {\boldsymbol{X}},\;{\boldsymbol{y}}_f \end{bmatrix}=\\ & m({\boldsymbol{x}}^{*})+{\boldsymbol{k}}^{\mathbb{T}}({\boldsymbol{K}}+ \sigma^2_{on} {\boldsymbol{I}}_{N^{\prime}})^{-1}\times\\ &({\boldsymbol{y}}_f-m^{{\boldsymbol{X}}}) \end{split} $$ (10)
    $$ \begin{split} \sigma({\boldsymbol{x}}^{*}) =\;& {\cal{V}} \begin{bmatrix} f_{{\cal{GP}}}({\boldsymbol{x}}^{*}) | {\boldsymbol{X}},\;{\boldsymbol{y}}_f \end{bmatrix}=\\ & k^{*}-{\boldsymbol{k}}^{\mathbb{T}}({\boldsymbol{K}}+ \sigma^2_{on} {\boldsymbol{I}}_{N^{\prime}})^{-1}{\boldsymbol{k}} \end{split} $$ (11)

    其中,

    $$ {\boldsymbol{m}}^{{\boldsymbol{X}}}= \begin{bmatrix} m({\boldsymbol{x}}^{(1)}),\;\cdots,\;m({\boldsymbol{x}}^{(N^{\prime})}) \end{bmatrix} $$ (12)
    $$k^{*}= k({\boldsymbol{x}}^{*},\;{\boldsymbol{x}}^{*}) $$ (13)
    $$ {\boldsymbol{k}}= \begin{bmatrix} k({\boldsymbol{x}}^{(1)},\;{\boldsymbol{x}}^{*}),\;\cdots,\;k({\boldsymbol{x}}^{(N^{\prime})},\;{\boldsymbol{x}}^{*}) \end{bmatrix}^{\mathbb{T}} $$ (14)

    引理1[30]. 若核函数$ k(\cdot,\;\cdot) $有界可微, 数据集$ \left\{ {\boldsymbol{X}},\; {\boldsymbol{y}}_f \right\} $满足$ {\boldsymbol{x}}^{(i)} \neq {\boldsymbol{x}}^{(i^{\prime})} $且$ y_f^{(i)} > 0 $, $ \forall i,\;i^{\prime} = 1,\;\cdots, N^{\prime},\;i \neq i^{\prime} $, 则存在可微先验均值函数$ m({\boldsymbol{x}}) $, 使得后验均值函数(10)满足

    $$ \mu({\boldsymbol{x}}) > 0,\;\; \forall {\boldsymbol{x}} \in {\cal{X}} $$ (15)

    注 2. 为确保$ \mu({\boldsymbol{x}}) > 0,\; \forall {\boldsymbol{x}} \in {\cal{X}} $成立, 当$ {\boldsymbol{x}} \in {\cal{X}}\setminus \{{\boldsymbol{x}}^{(1)},\;\cdots,\;{\boldsymbol{x}}^{(N^{\prime})}\} $, $ m({\boldsymbol{x}}) $可选取为$ m({\boldsymbol{x}})>{\boldsymbol{k}}^{\mathbb{T}}({\boldsymbol{K}}+ \sigma^2_{on} {\boldsymbol{I}}_{N^{\prime}})^{-1}({\boldsymbol{y}}_f-{\boldsymbol{m}}^{{\boldsymbol{X}}}) $. 当$ {\boldsymbol{x}}\in \{{\boldsymbol{x}}^{(1)},\;\cdots,\;{\boldsymbol{x}}^{(N^{\prime})}\} $, $ m({\boldsymbol{x}}^{(i)}) $可选取为$ m({\boldsymbol{x}}^{(i)})=y_f^{(i)} $. 在实际中, $ m({\boldsymbol{x}}) $通常选取正常数即可.

    引理2[38]. 考虑初值问题

    $$ \eta(t) = h(t,\;\eta),\;\ \eta(0)\in \Xi_0,\; $$ (16)

    其中, $ h:{\bf{R}}_{\geq 0} \times \Xi_0 \rightarrow {\bf{R}}^m $在$ t $上分段连续, 且关于$ \eta $满足局部Lipschitz条件, $ \Xi_0 \in {\bf{R}}^m $为非空开子集. $ \eta(t) $是初值问题(16)在最大存在区间$ [0,\;\omega^{\prime}) $上的解, $ \omega^{\prime} < +\infty $. 设$ \Xi_0^{\prime} $是$ \Xi_0 $的紧子集, 则存在$ \omega_s \in [0,\;\omega^{\prime}) $, 使得$ \eta(\omega_s)\notin \Xi_0^{\prime} $.

    系统(1)中非线性动态$ f({\boldsymbol{x}}) $和$ g({\boldsymbol{x}}) $为未知函数, 在闭环系统运行中无法单独提供$ f({\boldsymbol{x}}) $和$ g({\boldsymbol{x}}) $的量测数据, 使得1.2节中所述的经典GPR框架无法直接用于辨识$ f({\boldsymbol{x}}) $和$ g({\boldsymbol{x}}) $. 为解决这一问题, 本文选取如下复合核函数[25]

    $$ k({\boldsymbol{x}},\;{\boldsymbol{x}}^{\prime}) = k_f({\boldsymbol{x}},\;{\boldsymbol{x}}^{\prime}) + u({\boldsymbol{x}})k_g({\boldsymbol{x}},\;{\boldsymbol{x}}^{\prime})u({\boldsymbol{x}}^{\prime}) $$ (17)

    其中, $ k_f({\boldsymbol{x}},\;{\boldsymbol{x}}^{\prime}) $表征$ f({\boldsymbol{x}}) $, $ u({\boldsymbol{x}})k_g({\boldsymbol{x}},\;{\boldsymbol{x}}^{\prime})u({\boldsymbol{x}}^{\prime}) $表征$ g({\boldsymbol{x}}) $和$ u $的乘积.

    为确保光滑逼近$ f({\boldsymbol{x}}) $和$ g({\boldsymbol{x}}) $, 分别选取具有自动相关确定(Automatic relevance determination, ARD)的平方指数核函数为

    $$ k_f({\boldsymbol{x}},\;{\boldsymbol{x}}^{\prime}) = \sigma_f^2 \exp\begin{pmatrix} \sum_{j=1}\limits^n \frac{(x_j-x_j^{\prime})^2}{-2l_{j,\;f}^2} \end{pmatrix} $$ (18)
    $$k_g({\boldsymbol{x}},\;{\boldsymbol{x}}^{\prime})= \sigma_g^2 \exp\begin{pmatrix} \sum_{j=1}\limits^n \frac{(x_j-x_j^{\prime})^2}{-2l_{j,\;g}^2} \end{pmatrix} $$ (19)

    其中, $ l_{j,\;f},\;l_{j,\;g} \in {\bf{R}}_{>0},\; j=1,\;\cdots,\;n $为长度尺度参数, $ \sigma_f,\; \sigma_g \in {\bf{R}}_{\geq 0} $为信号方差, 超参数向量$ {\boldsymbol{\psi}}_{gf} $记为

    $$ {\boldsymbol{\psi}}_{gf} = \begin{bmatrix} l_{1,\;f}^2,\;l_{1,\;g}^2,\;\cdots,\;l_{n,\;f}^2,\;l_{n,\;g}^2,\;\sigma_f^2,\;\sigma_g^2 \end{bmatrix}^{\mathbb{T}} $$ (20)

    根据文献[39]可知, 平方指数核是一种通用的核函数, 能够对任意连续函数以任意精度进行建模.

    为得到复合核函数(17)的GPR, 定义$ {\boldsymbol{U}} = \text{diag}\{u_1({\boldsymbol{x}}^{1}),\;\cdots,\;u_{N_\kappa}({\boldsymbol{x}}^{(N_\kappa)})\} \in {\bf{R}}^{N_\kappa \times N_\kappa} $, 其中, $ u_i $为测量$ \left \{ {\boldsymbol{x}}^{(i)},\;y^{(i)} \right\} $时对应的控制输入, $ i=1,\;\cdots, N_\kappa $. 类似式(7), 式(12)和式(14), $ {\boldsymbol{y}} $, $ {\boldsymbol{m}}_g^{{\boldsymbol{X}}} $, $ {\boldsymbol{k}}_f $和$ {\boldsymbol{k}}_g $分别定义为

    $$ {\boldsymbol{y}} = [y^{(1)},\;\cdots,\;y^{(N_\kappa)}]^{\mathbb{T}} \in {\bf{R}}^{N_\kappa} $$ (21)
    $$ {\boldsymbol{m}}_g^{{\boldsymbol{X}}} = \begin{bmatrix} m_g({\boldsymbol{x}}^{(1)}),\;\cdots,\;m_g({\boldsymbol{x}}^{(N_\kappa)}) \end{bmatrix} $$ (22)
    $$ {\boldsymbol{k}}_f = \begin{bmatrix} k_f({\boldsymbol{x}}^{(1)},\;{\boldsymbol{x}}^{*}),\;\cdots,\;k_f({\boldsymbol{x}}^{(N^{\prime})},\;{\boldsymbol{x}}^{*}) \end{bmatrix}^{\mathbb{T}} $$ (23)
    $$ {\boldsymbol{k}}_g = \begin{bmatrix} k_g({\boldsymbol{x}}^{(1)},\;{\boldsymbol{x}}^{*}),\;\cdots,\;k_g({\boldsymbol{x}}^{(N^{\prime})},\;{\boldsymbol{x}}^{*}) \end{bmatrix}^{\mathbb{T}} $$ (24)

    核矩阵$ {\boldsymbol{K}}_{fg} $记为

    $$ {\boldsymbol{K}}_{fg} = {\boldsymbol{K}}_{f}+{\boldsymbol{U}}^{\mathbb{T}} {\boldsymbol{K}}_{g} {\boldsymbol{U}} + \sigma^2_{on} {\boldsymbol{I}}_{n} $$ (25)

    其中, $ {\boldsymbol{K}}_f,\; {\boldsymbol{K}}_g\in {\bf{R}}^{N_\kappa \times N_\kappa} $, 即

    $$ {\boldsymbol{K}}_f = \begin{bmatrix} k_f({\boldsymbol{x}}^{(1)},\;{\boldsymbol{x}}^{(1)}) & \cdots & k_f({\boldsymbol{x}}^{(1)},\;{\boldsymbol{x}}^{(N_\kappa)}) \\ \vdots & \ddots & \vdots \\ k_f({\boldsymbol{x}}^{(N_\kappa)},\;{\boldsymbol{x}}^{(1)}) & \cdots & k_f({\boldsymbol{x}}^{(N_\kappa)},\;{\boldsymbol{x}}^{(N_\kappa)}) \end{bmatrix} $$ (26)
    $$ {\boldsymbol{K}}_g = \begin{bmatrix} k_g({\boldsymbol{x}}^{(1)},\;{\boldsymbol{x}}^{(1)}) & \cdots & k_g({\boldsymbol{x}}^{(1)},\;{\boldsymbol{x}}^{(N_\kappa)}) \\ \vdots & \ddots & \vdots \\ k_g({\boldsymbol{x}}^{(N_\kappa)},\;{\boldsymbol{x}}^{(1)}) & \cdots & k_g({\boldsymbol{x}}^{(N_\kappa)},\;{\boldsymbol{x}}^{(N_\kappa)}) \end{bmatrix} $$ (27)

    引理3[30]. 基于时变数据集$ {\cal{D}}_{\kappa} $和复合核函数(17), 函数$ f({\boldsymbol{x}}) $和$ g({\boldsymbol{x}}) $的GP后验均值函数

    $$ \hat{f}({\boldsymbol{x}}) = \mu_f({\boldsymbol{x}}) = m_f({\boldsymbol{x}})+{\boldsymbol{k}}_f^{\mathbb{T}}{\boldsymbol{K}}_{fg}^{-1}({\boldsymbol{y}}-{\boldsymbol{U}}{\boldsymbol{m}}_g^{{\boldsymbol{X}}}) $$ (28)
    $$ \hat{g}({\boldsymbol{x}}) = \mu_g({\boldsymbol{x}}) = m_g({\boldsymbol{x}})+{\boldsymbol{k}}_g^{\mathbb{T}}{\boldsymbol{U}}{\boldsymbol{K}}_{fg}^{-1}({\boldsymbol{y}}-{\boldsymbol{U}}{\boldsymbol{m}}_g^{{\boldsymbol{X}}}) $$ (29)

    注3. $ f({\boldsymbol{x}}) $的先验均值函数可选取为0, 即$ m_f({\boldsymbol{x}}) = 0 $. 此外, 为避免$ \hat{g}({\boldsymbol{x}}) =0 $引起控制器设计的奇异性问题, $ m_g({\boldsymbol{x}}) $通常依据引理1来选取.

    引理4[30]. 针对满足假设1 ~ 3的非线性系统(1), 设计复合核函数(17), 则$ \hat{f}({\boldsymbol{x}}) $和$ \hat{g}({\boldsymbol{x}}) $均有界且无限可微, $ \forall {\boldsymbol{x}}\in {\cal{X}} $. 同时, 存在先验均值函数$ m_g({\boldsymbol{x}}) $和超参数向量$ {\boldsymbol{\psi}}_{gf} $, 使得$ \hat{g}({\boldsymbol{x}}) >0 $, $ \forall {\boldsymbol{x}}\in {\cal{X}} $.

    针对一类非线性系统(1), 本节提出一种基于障碍函数与GP的在线学习控制算法, 并证明了该闭环系统的稳定性.

    定义如下状态跟踪误差:

    $$ \begin{aligned} \left\{ \begin{aligned} &e_1=x_1-y_d\\& e_i=x_i-y_d^{(i-1)},\;i=2,\;\cdots,\;n \end{aligned} \right. \end{aligned} $$ (30)

    和误差滤波变量:

    $$ r = e_{n} + \lambda_{i} e_{i} + \cdots + \lambda_1 e_1 $$ (31)

    其中, $ \lambda_i $, $ i=1,\;\cdots,\;n-1 $为Hurwitz多项式$ H(p)= p^{n-1}+\lambda_{n-1}p^{n-2}+ \cdots + \lambda_1 $的系数. 对式(31) 左右两边同时求导, 并结合式(1)可得

    $$ \dot{r} = f({\boldsymbol{x}}) + g({\boldsymbol{x}}) u+\rho $$ (32)

    其中, $ \rho = \lambda_1 e_2 + \cdots + \lambda_{n-1} e_{n}-y_d^{(n)} $. 设计在线学习控制器$ u $为

    $$ \begin{split} u =\;& \frac{1}{\hat{g}_{\kappa}({\boldsymbol{x}})}(-\hat{f}_{\kappa}({\boldsymbol{x}})-\delta_1 r-\rho)-\\ &\frac{\delta_2r}{\zeta^2-r^2},\;\ t \in [t_{\kappa} \ t_{\kappa+1}) \end{split} $$ (33)

    其中, $ \zeta $, $ \delta_i $, $ i=1,\; 2 $为正常数且满足$ \zeta>|r(0)| $, GP后验均值函数$ \hat{f}_{\kappa}({\boldsymbol{x}}) $和$ \hat{g}_{\kappa}({\boldsymbol{x}}) $分别为$ f({\boldsymbol{x}}) $和$ g({\boldsymbol{x}}) $在时变数据集$ {\cal{D}}_{\kappa} $上的估计函数, $ \kappa\in{\cal{N}}_0 $.

    本文所提在线学习控制算法实现步骤如下:

      算法1: 基于高斯过程的在线学习控制算法(GP-OLC)

    1: 初始化$\kappa=0$, ${\cal{D}}_{0} = \{ \}$, $\hat{f}_{\kappa} = 0$, $\hat{g}_{\kappa} = m_g(\cdot)$

    2: while 仿真时间内 do

    3:   while $t < t_{\kappa+1}$ do

    4:   执行在线学习控制器$u$, 即式(33)

    5:   end while

    6:   设置$\kappa \leftarrow \kappa+1$

    7:   获取量测数据${\boldsymbol{x}}^{(\kappa)} = {\boldsymbol{x}}(t_\kappa)$和$y^{(\kappa)} = \dot{x}_n(t_\kappa)+ \epsilon^{(\kappa)}$

    8:   添加训练数据${\cal{D}}_{\kappa} = {\cal{D}}_{\kappa-1} \cup {({\boldsymbol{x}}^{(\kappa)},\;y^{(\kappa)})}$

    9:   更新估计函数$\hat{f}_{\kappa}({\boldsymbol{\cdot}})$, $\hat{g}_{\kappa}({\boldsymbol{\cdot}})$, 即式(28) 和式(29)

    10: end while

    注4. 值得指出的是, 尽管GP为概率模型, 但本文仅利用GP后验均值函数$ \hat{f}_{\kappa}({\boldsymbol{x}}) $和$ \hat{g}_{\kappa}({\boldsymbol{x}}) $来估计系统(1) 中未知动态$ f({\boldsymbol{x}}) $和$ g({\boldsymbol{x}}) $, 故所得在线学习控制器(33)仍是确定性的.

    在分析闭环系统的稳定性之前, 先给出如下引理.

    引理5[40]. 若式(31)中误差滤波变量$ r $有界, 则$ e_i $, $ i=1,\;\cdots,\;n $亦有界.

    定理1. 针对满足假设1 ~ 3的非线性系统(1), 在任意初始条件$ {\boldsymbol{x}}(0) $下, 在线学习控制器(33)能够保证闭环系统的所有信号一致有界, 且误差滤波变量$ r $可收敛至原点附近一个小的邻域内.

    证明. 证明共分为3个部分. 首先, 证明式(32)和在线学习控制器(33) 组成的闭环系统在最大存在区间$ [0,\;\omega) $上存在唯一解. 其次, 依据引理2, 采用反证法证明$ \omega = +\infty $. 最后, 实现预期控制目标.

    Part 1. 将控制器(33)代入式(32), 闭环系统可写为

    $$ \begin{split} \dot{r} = \;&f({\boldsymbol{x}})+g({\boldsymbol{x}})u+\rho=\\& f({\boldsymbol{x}})+\frac{g({\boldsymbol{x}})}{\hat{g}_{\kappa}({\boldsymbol{x}})}(-\hat{f}_{\kappa}({\boldsymbol{x}})-\delta_1 r-\rho)-\\ & \frac{\delta_2g({\boldsymbol{x}})r}{\zeta^2-r^2} + \rho \end{split} $$ (34)

    定义开集

    $$ \Xi := (-\zeta,\;\zeta) $$ (35)

    显见$ r(0)\in \Xi $. 同时, 根据假设1, 假设3和引理4可知, 参考轨迹$ y_d $及其$ n $阶导数均有界, $ f({\boldsymbol{x}}) $, $ g({\boldsymbol{x}}) $, $ \hat{f}_{\kappa} $和$ \hat{g}_{\kappa} $均为可微函数. 根据微分方程解的存在唯一性定理[41], 对任意初始条件$ r(0) $, 闭环系统(34)在最大存在区间$ [0,\;\omega] $上存在唯一解$ r \in \Xi $, 即对$ t \in [0,\;\omega) $, $ |r|<\zeta $成立.

    Part 2. 本部分采用反证法证明$ \omega = +\infty $. 为此, 不妨假设$ \omega < +\infty $.

    考虑如下二次型Lyapunov函数:

    $$ V_{\kappa} = \frac{r^2}{2},\;\; \forall \kappa \in {\bf{N}}_0 $$ (36)

    对式(36)求导, 可得

    $$ \begin{split} \dot{V}_{\kappa} =\;&r(f({\boldsymbol{x}}) + g({\boldsymbol{x}}) u + \rho)=\\ &r f({\boldsymbol{x}}) + r \frac{g({\boldsymbol{x}})}{\hat{g}_{\kappa}({\boldsymbol{x}})}(-\hat{f}_{\kappa}({\boldsymbol{x}})-\delta_1r-\rho)-\\ & \frac{\delta_2g({\boldsymbol{x}})r^2}{\zeta^2-r^2}+r\rho =\\& \chi - \frac{\delta_2g({\boldsymbol{x}})r^2}{\zeta^2-r^2} ,\;\; \forall t \in [0,\;\omega) \end{split} $$ (37)

    其中,

    $$ \begin{split} \chi=\;&r\Big(f({\boldsymbol{x}})-\frac{g({\boldsymbol{x}})}{\hat{g}_{\kappa}({\boldsymbol{x}})} \hat{f}_{\kappa}({\boldsymbol{x}})-\\ &\delta_1 \frac{g({\boldsymbol{x}})}{\hat{g}_{\kappa}({\boldsymbol{x}})} r+\Big(1-\frac{g({\boldsymbol{x}})}{\hat{g}_{\kappa}({\boldsymbol{x}})}\Big)\rho\Big) \end{split} $$

    由Part 1可知, $ |r|<\zeta $, $ \forall t \in [0,\;\omega) $. 根据引理5和假设3可知, $ e_i $, $ x_i $, $ i = 1,\;\cdots,\;n $均有界, $ \forall t \in [0,\;\omega) $. 同时, 注意到$ f({\boldsymbol{x}}) $, $ g({\boldsymbol{x}}) $, $ \hat{f}_{\kappa} $和$ \hat{g}_{\kappa} $均为可微函数, 根据假设2, 引理4和极值定理, 可得

    $$ |\chi|\le \bar{\chi},\;\; \forall t \in [0,\;\omega) $$ (38)

    其中, $ \bar{\chi} $为未知正常数.

    根据假设1和式(38), 可进一步推得

    $$ \dot{V}_{\kappa}\leq- \frac{\delta_2 \underline{g} r^2}{\zeta^2-r^2} + \bar{\chi},\;\; \forall t \in [0,\;\omega) $$ (39)

    由式(39)可知, 存在正常数$ r^{*} $, 当$ r^{*} \leq r < \zeta $时, 使得$ \dot{V}_{\kappa} \leq 0 $. 此外, 由式(39)还可以推出$ r^{*} \leq \alpha \zeta $, 其中, $ \alpha = \sqrt{\frac{\bar{\chi}}{\delta_2 \underline{g} + \bar{\chi}}} $. 因此, 对$ \forall t \in [0,\;\omega) $, 可得

    $$ \begin{split} |r| \leq\;& \max \left\{ |r(0)|,\;r^{*} \right\} \leq\\& \max \left\{|r(0)|,\;\alpha \zeta \right\} < \zeta \end{split} $$ (40)

    故存在紧子集$ \Xi^{\prime} = [-\zeta,\;\zeta] \subset \Xi $, 使得闭环系统在$ [0,\;\omega) $上存在唯一解$ r \in \Xi^{\prime} $. 根据引理2, 可得$ \omega = +\infty $. 即$ |r| < \zeta $, $ \forall t \in [0,\;+\infty) $.

    Part 3. 重复上述Part 2中的步骤, 可得$ x_i $, $ i= 1,\;\cdots,\;n $, $ u $均有界, $ \forall t \in [0,\;+\infty) $. 此外, 利用不等式$ -\frac{\delta_2 \underline{g} }{\zeta^2-r^2}\le -\frac{\delta_2 \underline{g} }{\zeta^2} $, 式(39)变成

    $$ \dot{V}_{\kappa} \leq -\frac{2\delta_2 \underline{g} }{\zeta^2} V_{\kappa}+ \bar{\chi} $$ (41)

    可推得

    $$ V_{\kappa} \leq \frac{\zeta^2\bar{\chi}}{2\delta_2 \underline{g}}+\Big(V_{\kappa}(0)- \frac{\zeta^2\bar{\chi}}{2\delta_2 \underline{g}}\Big)\exp(-\frac{2\delta_2 \underline{g} }{\zeta^2}t) $$ (42)

    由式(42), 即有

    $$ \lim\limits_{t\rightarrow \infty } |r|\leq \sqrt{\frac{\bar{\chi}}{\delta_2 \underline{g}}}\zeta,\; $$ (43)

    显见, 通过调节控制参数$ \delta_2 $可使得误差滤波变量$ r $收敛至原点附近一个小的邻域内.

    注5. 本文所提在线学习控制算法的设计思路包括如下三部分:

    $ 1) $为确保GPR对系统中未知动态$ f({\boldsymbol{x}}) $和$ g({\boldsymbol{x}}) $进行有效建模, 首先通过引入障碍函数项$ -\frac{\delta_2r}{\zeta^2-r^2} $对误差滤波变量$ r $进行约束. 由引理5和式(30)可知, $ r $有界可直接推得系统状态$ x_i $, $ i=1,\;\cdots,\;n $有界, 即设定了系统状态的运行区域$ {\cal{X}}\subseteq {\bf{R}}^n $.

    $ 2) $接着, 在该区域$ {\cal{X}}\subseteq {\bf{R}}^n $内, 基于在线采集的训练数据集$ {\cal{D}}_{\kappa} $, 利用GPR对系统中未知动态$ f({\boldsymbol{x}}) $和$ g({\boldsymbol{x}}) $进行学习.

    $ 3) $最后, 利用Lyapunov稳定性理论, 分析闭环系统的稳定性能.

    注6. 不同于文献[711]中基于RBFNNs的自适应控制方案, 本文所提控制方法无需精确给出系统状态的运行区域$ \mathbb{X} $及预先分配RBF中心值.

    注7. 与文献[3031]相比, 本文考虑的系统(1)中未知动态$ f({\boldsymbol{x}}) $和$ g({\boldsymbol{x}}) $仅需满足可微分条件即可, 无需额外要求全局有界. 因此, 大大拓宽了本文所提算法应对未知非线性动态的适应范围.

    注8. 根据上述分析可知, 本文所提在线学习控制策略可直接应用于如下多输入多输出非线性系统

    $$ \begin{aligned} \left\{ \begin{aligned} &\dot{{\boldsymbol{\xi}}}_{i}={\boldsymbol{\xi}}_{i+1},\;i = 1,\;\cdots,\;n-1\\ &\dot{{\boldsymbol{\xi}}}_{n}=F({\boldsymbol{\xi}})+G({\boldsymbol{\xi}}){\boldsymbol{u}} \end{aligned} \right. \end{aligned} $$ (44)

    其中, $ {\boldsymbol{\xi}}=[{\boldsymbol{\xi}}_{1},\;\cdots,\;{\boldsymbol{\xi}}_{n}]^\mathbb{T} \in {\bf{R}}^{n} $为系统状态向量, $ {\boldsymbol{\xi}}_i= [\xi_{i,\;1},\;\cdots,\;\xi_{i,\;m}]^\mathbb{T} \in {\bf{R}}^{m} $; $ {\boldsymbol{u}}=[u_1,\;\cdots,\;u_m]^\mathbb{T} \in {\bf{R}}^m $为控制输入. $ F({\boldsymbol{\xi}}) : {\bf{R}}^{m\times n} \rightarrow {\bf{R}}^m $和$ G({\boldsymbol{\xi}}): {\bf{R}}^{m\times n} \to {\bf{R}}^m $为未知的非线性可微函数.

    注9. 在执行本文所提在线学习控制策略时, 训练数据集$ {\cal{D}}_{\kappa} $的基数随时间单调递增, 进而导致计算GP 模型的计算负担愈加严重. 为解决这一问题, 常用的方法是使用遗忘机制[30], 即通过设置训练数据集的基数大小, 在添加新数据点时删除旧数据点.

    考虑如下二阶非线性系统

    $$ \begin{aligned} \left\{ \begin{aligned} \dot{x}_1&=x_2\\ \dot{x}_2&=f({\boldsymbol{x}})+g({\boldsymbol{x}})u \end{aligned} \right. \end{aligned} $$ (45)

    其中, $ f({\boldsymbol{x}})=\exp(x_1)x_2^2 $, $ g({\boldsymbol{x}})=3+x_1^2x_2^2 $. 显见, $ g({\boldsymbol{x}}) > 3 $满足假设1.

    在本次仿真中, 将本文所提在线学习控制算法(GP-OLC)与文献[30]中基于GP的在线学习反馈线性化控制方案(Gaussian process based online learning feedback linearizing control, GP-OLFLC)、文献[7]中基于RBFNNs的自适应控制方案和PID分别进行仿真对比实验, 仿真运行时间为30 s, 采样周期为0.05 s, 系统初始状态为$ x_1(0)=1 $, $ x_2(0)= 2 $, 控制参数为$ \delta_1=1 $, $ \delta_2=1 $, $ \lambda_1=0.5 $, $ \zeta=3> |r(0)|=2 $, GP先验均值函数为$ m_f({\boldsymbol{x}}) = 0 $和$ m_g({\boldsymbol{x}}) = 5 $, 量测噪声方差为$ \sigma^2_{on} = 10^{-4} $, 超参数初始值为$ l_{1,\;f}=3 $, $ l_{2,\;f}=3 $, $ \sigma_f=5 $, $ l_{1,\;g}=3 $, $ l_{2,\;g}=3 $, $ \sigma_g= 5 $. 文献[30]中GP-OLFLC算法控制器为

    $$ u =\frac{1}{\hat{g}_{\kappa}({\boldsymbol{x}})}(-\hat{f}_{\kappa}({\boldsymbol{x}})-\delta_1 r-\rho) $$ (46)

    文献[7]中自适应神经网络控制器设计为

    $$ z_1 = x_1-y_d $$ (47)
    $$ \alpha_1 = -c_1z_1 + \dot{y}_d $$ (48)
    $$ z_2 = x_2-\alpha_1 $$ (49)
    $$ u_{NN} = -z_1-c_2z_2-\widehat{W}^\mathbb{T}S(Z) $$ (50)
    $$ \dot{\alpha}_1 = -c_1(-c_1z_1 + z_2) + \ddot{y}_d $$ (51)
    $$ \dot{\widehat{W}} = \Gamma(S(Z)z_2-\sigma_1\widehat{W}) $$ (52)

    其中, $ Z = [z_1,\;z_2,\;\dot{\alpha}_1]^\mathbb{T} $, 控制参数为$ c_1 = c_2 = 1 $, $ \Gamma = \text{diag}\{1,\;\cdots,\;1\} $, $ \sigma_1 = 0.05 $, RBFNNs采用$ 6\times6\times6 $个节点, RBFNNs 的运行区域选取为$ \Omega=[-1, 1]\times[-1,\;1]\times[-1,\;1] $, RBF中心值均匀分布在运行区域$ \Omega $, 带宽为$ 1 $. PID控制器为

    $$ u_{PID}=K_p e+K_i \int_0^\tau e dt+K_d\dot{e} $$ (53)

    其中, 控制参数设置为$ K_p=5 $, $ K_i=2 $, $ K_d=10 $.

    图 2  本文所提GP-OLC、文献[30]中GP-OLFLC、文献[7] 中RBFNNs-AC和PID控制作用下跟踪误差$e_1$
    Fig. 2  Tracking error $e_1$ under the proposed GP-OLC in the paper, GP-OLFLC in [30], RBFNNs-AC in [7] and PID

    为了说明本文所提GP-OLC的特点与优势, 仿真前15 s选取参考轨迹$ y_d=\sin(t) $, 后15s选取参考轨迹$ y_d=1.25\sin(2t) $. 仿真结果如图1 ~ 5所示. 图1 ~ 4分别为系统状态$ x_1 $和$ x_2 $的跟踪和跟踪误差曲线. 图5为控制信号$ u $的变化曲线. 仿真结果显示, 在前15 s内, 本文所提的GP-OLC、文献[30]中GP-OLFLC、文献[7]中基于RBFNNs 的自适应控制算法(RBFNNs based adaptive control, RBFNNs-AC) 和PID控制方法均能确保系统状态维持良好的跟踪性能. 在后15 s中, 由于参考轨迹的改变, 原选取的RBFNNs运行区域及预先分配高斯RBF中心值不再适用, 使得基于RBFNNs的自适应控制算法的闭环系统跟踪性能显著下降. PID控制方法由于依赖于人工选取控制参数, 使得基于PID控制的闭环系统跟踪性能亦明显下降. 而本文所提GP-OLC仍可以保持系统状态良好的跟踪效果. 表1总结了上述方法在时间间隔$ [20,\;30] $上系统跟踪误差$ e_1 $和$ e_2 $的$ L_2 $范数, 结果显示经过在线学习后本文所提算法取得了较小的跟踪误差.

    图 1  本文所提GP-OLC、文献[30]中GP-OLFLC、文献[7] 中RBFNNs-AC和PID控制作用下系统状态$x_1$和参考轨迹$y_d$
    Fig. 1  $x_1$ and $y_d$ under the proposed GP-OLC in the paper, GP-OLFLC in [30], RBFNNs-AC in [7] and PID
    图 5  本文所提GP-OLC、文献[30]中GP-OLFLC、文献[7] 中RBFNNs-AC和PID控制作用下控制信号$u$
    Fig. 5  Control signal $u$ under the proposed GP-OLC in the paper, GP-OLFLC in [30], RBFNNs-AC in [7] and PID
    图 4  本文所提GP-OLC、文献[30]中GP-OLFLC、文献[7] 中RBFNNs-AC和PID控制作用下跟踪误差$e_2$
    Fig. 4  Tracking error $e_2$ under the proposed GP-OLC in the paper, GP-OLFLC in [30], RBFNNs-AC in [7] and PID
    表 1  在时间间隔$ [20,\;30] $上跟踪误差$ e_1 $和$ e_2 $的$ L_2 $范数
    Table 1  $ L_2 $ norm of tracking errors $ e_1 $ and $ e_2 $ over time interval $ [20,\;30] $
    GP-OLC GP-OLFLC PID RBFNNs-AC
    $ ||e_1||_{L_2} $ 4.46 5.41 6.76 97.22
    $ ||e_2||_{L_2} $ 2.61 2.82 32.41 161.17
    下载: 导出CSV 
    | 显示表格
    图 3  本文所提GP-OLC、文献[30]中GP-OLFLC、文献[7] 中RBFNNs-AC和PID控制作用下系统状态$x_2$和$\dot{y}_d$
    Fig. 3  $x_2$ and $\dot{y}_d$ under the proposed GP-OLC in the paper, GP-OLFLC in [30], RBFNNs-AC in [7] and PID

    为了进一步验证本文方法的有效性与实用性, 将所提在线学习控制算法在Franka Emika Panda协作机械臂上进行实机实验. Franka Emika Panda 协作机械臂由7个关节组成, 每个关节处均配备连杆侧扭矩传感器, 可实时反馈高质量扭矩信号. 图6为Franka Emika Panda 协作机械臂的系统结构. 其运动链的Denavit$ - $Hartenberg(DH)参数如表2所示, $ d_j $、$ a_j $和$ b_j $分别为链杆$ j $的偏移量、扭转量和长度, $ q_j $为关节$ j $的角度.

    图 6  Franka Emika Panda机械臂系统结构
    Fig. 6  The system structure of Franka Emika Panda robot
    表 2  Franka Emika Panda机械臂的运动学参数
    Table 2  Kinematic parameters of Franka Emika Panda robot
    关节 $ j $ $ d_j $[m] $ a_j $[rad] $ b_j $[m] $ q_j $[rad]
    关节1 0.333 0 0 $ q_1 $
    关节2 0 $ -\dfrac{\pi}{2} $ 0 $ q_2 $
    关节3 0.316 $ \dfrac{\pi}{2} $ 0 $ q_3 $
    关节4 0 $ \dfrac{\pi}{2} $ 0.0825 $ q_4 $
    关节5 0.384 $ -\dfrac{\pi}{2} $ 0.0825 $ q_5 $
    关节6 0 $ \dfrac{\pi}{2} $ 0 $ q_6 $
    关节7 0 $ \dfrac{\pi}{2} $ 0.088 $ q_7 $
    下载: 导出CSV 
    | 显示表格

    机械臂的动力学模型为[42]

    $$ H({\boldsymbol{q}})\ddot{{\boldsymbol{q}}}+C({\boldsymbol{q}},\;{\boldsymbol{\dot{q}}})\dot{{\boldsymbol{q}}}+{\boldsymbol{g}}({\boldsymbol{q}})={\boldsymbol{u}}(t) $$ (54)

    其中, $ {\boldsymbol{q}} $为关节位置, $ {\boldsymbol{\dot{q}}} $为关节速度, $ H({\boldsymbol{q}}) $为机械臂惯量矩阵, $ C({\boldsymbol{q}},\;{\boldsymbol{\dot{q}}}) $为向心力矩和哥氏力矩矢量, $ {\boldsymbol{g}}({\boldsymbol{q}}) $为重力矩矢量, $ {\boldsymbol{u}}(t) $为控制力矩.

    在本次实验中, 选用Franka Emika Panda机械臂的第2和4个关节完成关节跟踪控制实验, 其他关节保持不变, 如图7所示. 机械臂结构参数为

    $$ \begin{split} &H({\boldsymbol{q}})=\begin{bmatrix} 9.77+2.02\cos(q_2) & 1.26+1.01\cos(q_2) \\ 1.26+1.01\cos(q_2) & 1.12 \\ \end{bmatrix}\\ &C({\boldsymbol{q}},\;{\boldsymbol{\dot{q}}})=\begin{bmatrix} -1.01\sin(q_2)\dot{q}_2 & -1.01\sin(q_2)(\dot{q}_1+\dot{q}_2) \\ 1.01\sin(q_2)\dot{q}_1 & 0 \\ \end{bmatrix}\\& {\boldsymbol{g}}=g_0\begin{bmatrix} 8.1\sin(q_1)+1.13\sin(q_1+q_2) \\ 1.13\sin(q_1+q_2) \\ \end{bmatrix} \end{split} $$

    其中, 重力加速度$ g_0=9.8[m/s^2] $.

    图 7  由Franka Emika Panda机械臂本体和控制箱组成的实验平台
    Fig. 7  The experimental platform consisted of the Franka Emika Panda robot body和control box

    计算机通过libfranka界面获得Franka Emika Panda协作机械臂在1000 Hz频率下的关节位置$ {\boldsymbol{q}} $和速度$ {\boldsymbol{\dot{q}}} $. 关节加速度$ {\boldsymbol{\ddot{q}}} $采用有限差分近似得到. 两个关节的初始位置和速度分别为$ {\boldsymbol{q}}_0 =[- 0.78445, - 2.35441]^\mathbb{T} $和$ {\boldsymbol{\dot{q}}}_0 =[0,\;0]^T $. 期望跟踪轨迹$ {\boldsymbol{q_d}}={\boldsymbol{q}}_0+ 0.1\pi[1-\cos(\frac{\pi}{5}t),\;1-\cos(\frac{\pi}{5}t)]^\mathbb{T} $.

    在本次实机测试中, 本文所提GP-OLC设计参数选取为$ \lambda=\text{diag}\{1.2,\;1.5\} $, $ \delta_1=\text{diag}\{50,\;40\} $, $ \delta_2= \text{diag}\{1,\;1\} $, $ \zeta_1=5>|r_1(0)|= 0.5 $, $ \zeta_2=5>|r_2(0)|= 0.5 $. GP先验均值函数为$ m_{f_1}({\boldsymbol{x}})=0 $, $ m_{f_2}({\boldsymbol{x}})=0 $, $ m_{g_{11}}({\boldsymbol{x}})=4 $, $ m_{g_{12}}({\boldsymbol{x}})=1 $, $ m_{g_{21}}({\boldsymbol{x}})=2 $, $ m_{g_{22}}({\boldsymbol{x}})= 3 $. 超参数初始值为$ l_{1,\;f_i}=3 $, $ l_{2,\;f_i}=3 $, $ l_{3,\;f_i}=3 $, $ l_{4,\;f_i}=3 $, $ \sigma_{f_i}=5 $, $ l_{1,\;g_{ij}}=3 $, $ l_{2,\;g_{ij}}=3 $, $ l_{3,\;g_{ij}}=3 $, $ l_{4,\;g_{ij}}=3 $, $ \sigma_{g_i}=5 $, $ i,\;j=1,\;2 $. 实验结果如图8 ~ 10所示. 图89分别为机械臂关节位置$ q_1 $和$ q_2 $的跟踪误差曲线. 图10为控制力矩$ u_1 $和$ u_2 $的变化曲线. 实验表明本文所提GP-OLC算法能够维持良好的机械臂关节跟踪性能. 此外, 将本文算法与与具有重力补偿的PD控制方法进行对比. 具有重力补偿的PD控制器设计为$ {\boldsymbol{u}}_{PD}=K_p{\boldsymbol{e}}+K_d{\boldsymbol{\dot{e}}}+{\boldsymbol{g}}({\boldsymbol{q}}) $, 其中, $ K_p=\text{diag}\{120,\;120\} $, $ K_d=\text{diag}\{50,\;40\} $. 对比实验结果如图1112所示, 表明相较于具有重力补偿的PD控制, 表明本文所提GP-OLC算法具有更好的跟踪控制效果.

    图 8  位置状态$q_1$, 参考轨迹$q_{d1}$和跟踪误差$e_{11}=q_1-q_{d1}$
    Fig. 8  Position state $q_1$, desired trajectory $q_{d1}$ and tracking error $e_{11}=q_1-q_{d1}$
    图 10  控制力矩$u_1$和$u_2$
    Fig. 10  Control torques $u_1$ and $u_2$
    图 9  位置状态$q_2$, 参考轨迹$q_{d2}$和跟踪误差$e_{12}=q_2-q_{d2}$
    Fig. 9  Position state $q_2$, desired trajectory $q_{d2}$ and tracking error $e_{12}=q_2-q_{d2}$
    图 11  文中GP-OLC和PD控制作用下关节位置跟踪误差$e_{11}=q_1-q_{d1}$
    Fig. 11  Position tracking error $e_{11}=q_1-q_{d1}$ under the proposed GP-OLC in this paper and PD control
    图 12  文中GP-OLC和PD控制作用下关节位置跟踪误差$e_{12}=q_2-q_{d2}$
    Fig. 12  Position tracking error $e_{12}=q_2-q_{d2}$ the proposed GP-OLC in this paper and PD control

    本文针对一类非线性系统, 在无需系统中未知动态全局有界的条件下, 提出了一种基于障碍函数和GP 的在线学习控制方法. 首先, 引入障碍函数设定系统状态的运行区域. 其次, 基于该区域内的训练数据, 利用GPR对系统中未知非线性动态进行在线学习. 进而, 利用Lyapunov稳定性理论, 证明了所提在线学习控制算法可保证闭环系统所有信号一致有界. 与基于RBFNNs 的自适应控制相比, 本文所提算法无需精确给定系统状态的运行区域及预先分配RBF中心值. 最后, 通过数值仿真与Franka Emika Panda协作机械臂关节控制实验验证了所提GP-OLC的有效性与先进性. 未来的工作包括将本文所提方法推广至具有严格反馈结构或非仿射特征的复杂非线性系统中.

  • 图  2  本文所提GP-OLC、文献[30]中GP-OLFLC、文献[7] 中RBFNNs-AC和PID控制作用下跟踪误差$e_1$

    Fig.  2  Tracking error $e_1$ under the proposed GP-OLC in the paper, GP-OLFLC in [30], RBFNNs-AC in [7] and PID

    图  1  本文所提GP-OLC、文献[30]中GP-OLFLC、文献[7] 中RBFNNs-AC和PID控制作用下系统状态$x_1$和参考轨迹$y_d$

    Fig.  1  $x_1$ and $y_d$ under the proposed GP-OLC in the paper, GP-OLFLC in [30], RBFNNs-AC in [7] and PID

    图  5  本文所提GP-OLC、文献[30]中GP-OLFLC、文献[7] 中RBFNNs-AC和PID控制作用下控制信号$u$

    Fig.  5  Control signal $u$ under the proposed GP-OLC in the paper, GP-OLFLC in [30], RBFNNs-AC in [7] and PID

    图  4  本文所提GP-OLC、文献[30]中GP-OLFLC、文献[7] 中RBFNNs-AC和PID控制作用下跟踪误差$e_2$

    Fig.  4  Tracking error $e_2$ under the proposed GP-OLC in the paper, GP-OLFLC in [30], RBFNNs-AC in [7] and PID

    图  3  本文所提GP-OLC、文献[30]中GP-OLFLC、文献[7] 中RBFNNs-AC和PID控制作用下系统状态$x_2$和$\dot{y}_d$

    Fig.  3  $x_2$ and $\dot{y}_d$ under the proposed GP-OLC in the paper, GP-OLFLC in [30], RBFNNs-AC in [7] and PID

    图  6  Franka Emika Panda机械臂系统结构

    Fig.  6  The system structure of Franka Emika Panda robot

    图  7  由Franka Emika Panda机械臂本体和控制箱组成的实验平台

    Fig.  7  The experimental platform consisted of the Franka Emika Panda robot body和control box

    图  8  位置状态$q_1$, 参考轨迹$q_{d1}$和跟踪误差$e_{11}=q_1-q_{d1}$

    Fig.  8  Position state $q_1$, desired trajectory $q_{d1}$ and tracking error $e_{11}=q_1-q_{d1}$

    图  10  控制力矩$u_1$和$u_2$

    Fig.  10  Control torques $u_1$ and $u_2$

    图  9  位置状态$q_2$, 参考轨迹$q_{d2}$和跟踪误差$e_{12}=q_2-q_{d2}$

    Fig.  9  Position state $q_2$, desired trajectory $q_{d2}$ and tracking error $e_{12}=q_2-q_{d2}$

    图  11  文中GP-OLC和PD控制作用下关节位置跟踪误差$e_{11}=q_1-q_{d1}$

    Fig.  11  Position tracking error $e_{11}=q_1-q_{d1}$ under the proposed GP-OLC in this paper and PD control

    图  12  文中GP-OLC和PD控制作用下关节位置跟踪误差$e_{12}=q_2-q_{d2}$

    Fig.  12  Position tracking error $e_{12}=q_2-q_{d2}$ the proposed GP-OLC in this paper and PD control

    表  1  在时间间隔$ [20,\;30] $上跟踪误差$ e_1 $和$ e_2 $的$ L_2 $范数

    Table  1  $ L_2 $ norm of tracking errors $ e_1 $ and $ e_2 $ over time interval $ [20,\;30] $

    GP-OLC GP-OLFLC PID RBFNNs-AC
    $ ||e_1||_{L_2} $ 4.46 5.41 6.76 97.22
    $ ||e_2||_{L_2} $ 2.61 2.82 32.41 161.17
    下载: 导出CSV

    表  2  Franka Emika Panda机械臂的运动学参数

    Table  2  Kinematic parameters of Franka Emika Panda robot

    关节 $ j $ $ d_j $[m] $ a_j $[rad] $ b_j $[m] $ q_j $[rad]
    关节1 0.333 0 0 $ q_1 $
    关节2 0 $ -\dfrac{\pi}{2} $ 0 $ q_2 $
    关节3 0.316 $ \dfrac{\pi}{2} $ 0 $ q_3 $
    关节4 0 $ \dfrac{\pi}{2} $ 0.0825 $ q_4 $
    关节5 0.384 $ -\dfrac{\pi}{2} $ 0.0825 $ q_5 $
    关节6 0 $ \dfrac{\pi}{2} $ 0 $ q_6 $
    关节7 0 $ \dfrac{\pi}{2} $ 0.088 $ q_7 $
    下载: 导出CSV
  • [1] Wu Chengxi, Karimi Hamid Reza, Shan Liang, Dai Yuewei. Data-driven iterative learning cooperative trajectory tracking control for multiple autonomous underwater vehicles with input saturation constraints. Journal of Field Robotics, 2024, DOI: 10.1002/ROB.22343
    [2] Zhang M, Zhang Z, Sun M. Adaptive tracking control of uncertain robotic m anipulators. IEEE Transactions on Circuits and Systems II: Express Briefs, 2024, 71(5): 2734−2738
    [3] 王浩亮, 柴亚星, 王丹, 刘陆, 王安青, 彭周华. 基于事件触发机制的多自主水下航行器协同路径跟踪控制. 自动化学报, 2024, 50(5): 1001−1011

    Wang Hao-Liang, Chai Ya-Xing, Wang Dan, Liu Lu, Wang An-Qing, Peng Zhou-Hua. Event-triggered cooperative path following of multiple autonomous underwater vehicles. Acta Automatica Sinica, 2024, 50(5): 1001−1011
    [4] 路遥. 一种非仿射高超声速飞行器输出反馈控制方法. 自动化学报, 2022, 48(6): 1530−1542

    Lu Yao. A method of output feedback control for non-affine hypersonic vehicles. Acta Automatica Sinica, 2022, 48(6): 1530−1542
    [5] Ma J, Wang H, QiaoJ. Adaptive neural fixed-time tracking control for high-order nonlinear systems. IEEE Transactions on Neural Networks and Learning Systems, 2024, 35(1): 708−717
    [6] Bai W, Liu P X, Wang H. Neural-network-based adaptive fixed-time control for nonlinear multiagent non-affine systems. IEEE Transactions on Neural Networks and Learning Systems, 2024, 35(1): 570−583 doi: 10.1109/TNNLS.2022.3175929
    [7] Wang C. Deterministic Learning Theory for Identification, Recognition, and Control. Boca Raton: CRC Press, 2017
    [8] Zheng S, Shi P, Wang S, Shi Y. Adaptive neural control for a class of nonlinear multiagent systems. IEEE Transactions on Neural Networks and Learning Systems, 2021, 32(2): 763−776
    [9] 吴锦娃, 刘勇华, 苏春翌, 鲁仁全. 具有不确定控制增益严格反馈系统的自适应命令滤波控制. 自动化学报, 2024, 50(5): 1−10

    Wu Jin-Wa, Liu Yong-Hua, Su Chun-Yi, Lu Ren-Quan. Adaptive command filtered control of strict feedback systems with uncertain control gains. Acta Automatica Sinica, 2024, 50(5): 1−10
    [10] Zhang J, Niu B, Wang D, Wang H, Zong G. Time-/event-triggered adaptive neural asymptotic tracking control for nonlinear systems with full-state constraints and application to a single-link robot. IEEE Transactions on Neural Networks and Learning Systems, 2022, 33(11): 3390−6700
    [11] Zhang F, Wu W, Wang C. Dynamic learning from neural network-based control for sampled-data strict-feedback nonlinear systems. International Journal of Robust and Nonlinear Control, 2022, 32(15): 8397−8420 doi: 10.1002/rnc.6292
    [12] Wang M, Shi H, Wang C, Fu J. Dynamic learning from adaptive neural control for discrete-time strict-feedback systems. IEEE Transactions on Neural Networks and Learning Systems, 2022, 33(8): 3700−3712
    [13] Sanner R M, Slotine J. Gaussian networks for direct adaptive control. IEEE Transactions on Neural Networks, 1992, 3(6): 837−863 doi: 10.1109/72.165588
    [14] Chen W, Ge S S, Wu J, Gong M. Globally stable adaptive backstepping neural network control for uncertain strict-feedback systems with tracking accuracy known a priori. IEEE Transactions on Neural Networks and Learning Systems, 2015, 26(9): 1842−1854 doi: 10.1109/TNNLS.2014.2357451
    [15] Liu Y H, Su C Y, Li H, Lu R. Barrier function-based adaptive control for uncertain strict-feedback systems within predefined neural network approximation sets. IEEE Transactions on Neural Networks and Learing Systems, 2020, 31(8): 2942−2954 doi: 10.1109/TNNLS.2019.2934403
    [16] Liu Y H, Liu Y, Liu Y F, Su C Y, Zhou Q, Lu R. Adaptive approximation-based tracking control for a class of unknown high-order nonlinear systems with unknown powers. IEEE Transactions on Cybernetics, 2022, 52(6): 4559−4573 doi: 10.1109/TCYB.2020.3030310
    [17] Liu Y H, Liu Y, Liu Y F, Su C Y. Adaptive fuzzy control with global stability guarantees for unknown strict-feedback systems using novel integral barrier Lyapunov functions. IEEE Transactions on Systems, Man and Cybernetics: Systems, 2022, 52(7): 4336−4348 doi: 10.1109/TSMC.2021.3094975
    [18] Liu Y H, Liu Y F, Su C Y, Liu Y, Zhou Q, Lu R. Guaranteeing global stability for neuro-adaptive control of unknown pure-feedback nonaffine systems via barrier functions. IEEE Transactions on Neural Networks and Learning Systems, 2023, 34(9): 5869−5881 doi: 10.1109/TNNLS.2021.3131364
    [19] Nardi F. Neural Network Based Adaptive Algorithms for Nonlinear Control[Ph. D. dissertation], Georgia Institute of Technology, US, 2000
    [20] Shankar P. Self-organizing Radial Basis Function Networks for Adaptive Flight Control and Aircraft Engine State Estimation [Ph. D. dissertation], The Ohio State University, US, 2007
    [21] Sundararajan N, Saratchandran P, Yan L. Fully Tuned Radial Basis Function Neural Networks for Flight Control. New York, US: Springer, 2002
    [22] Deisenroth M P, Turner R D, Huber M F, Hanebeck U D, Rasmussen C E. Robust filtering and smoothing with Gaussian processes. IEEE Transactions on Automatic Control, 2012, 57(7): 1865−1871 doi: 10.1109/TAC.2011.2179426
    [23] Rasmussen C E, Williams C. Gaussian Processes for Machine Learning. Cambridge, MA: MIT Press, 2006
    [24] Kocijan J. Modelling and Control of Dynamic Systems using Gaussian Process Models. New York, US: Springer, 2016
    [25] Duvenaud D. Automatic Model Construction with Gaussian Processes[Ph. D. dissertation], University of Cambridge, UK, 2014
    [26] Umlauft J M. Safe Learning Control for Gaussian Process[Ph. D. dissertation], Technical University of Munich, Germany, 2020
    [27] Umlauft J, Beckers T, Kimmel M, Hirche S. Feedback linearization using Gaussian processes. In: Proceedings of the 2017 IEEE 56th Annual Conference on Decision and Control (CDC). Melbourne, VIC, Australia: 2017. 5249−5255
    [28] Capone A, Hirche S. Backstepping for partially unknown nonlinear systems using Gaussian processes. IEEE Control Systems Letters, 2019, 3(2): 416−421 doi: 10.1109/LCSYS.2018.2890467
    [29] Chowdhary G, Kingravi H A, How J P, Vela P A. Bayesian nonparametric adaptive control using Gaussian processes. IEEE Transactions on Neural Networks and Learning Systems, 2015, 26(3): 537−550 doi: 10.1109/TNNLS.2014.2319052
    [30] Umlauft J, Hirche S. Feedback linearization based on Gaussian Processes with event-triggered online learning. IEEE Transactions on Automatic Control, 2020, 65(10): 4154−4169 doi: 10.1109/TAC.2019.2958840
    [31] Jiao J J, Capone A, Hirche S. Backstepping tracking control using Gaussian processes with event-triggered online learning. IEEE Control Systems Letters, 2022, 6: 3176−3181 doi: 10.1109/LCSYS.2022.3183530
    [32] Lederer A, Yang Z, Jiao J, Hirche S. Cooperative control of uncertain multiagent systems via distributed Gaussian processes. IEEE Transactions on Automatic Control, 2023, 68(5): 3091−3098 doi: 10.1109/TAC.2022.3205424
    [33] Beckers T, D Kulic, Hirche S. Stable Gaussian process based tracking control of Euler-Lagrange systems. Automatica, 2019, 103: 390−397 doi: 10.1016/j.automatica.2019.01.023
    [34] Lederer A, Capone A, Umlauft J, Hirche S. How training data impacts performance in learning-based control. IEEE Control Systems Letters, 2021, 5(3): 905−910 doi: 10.1109/LCSYS.2020.3006725
    [35] Beckers T, Hirche S, Colombo L. Online learning-based formation control of multi-agent systems with Gaussian processes. In: Proceedings of the 60th IEEE Conference on Decision and Control (CDC). Austin, TX, USA: IEEE, 2021. 2197−2022
    [36] Beckers T, Hirche S. Prediction with approximated Gaussian process dynamical models. IEEE Transactions on Automatic Control, 2022, 67(12): 6460−6473 doi: 10.1109/TAC.2021.3131988
    [37] Beckers T, Colombo L, Hirche S, Pappas G J. Online learning-based trajectory tracking for underactuated vehicles with uncertain dynamics. IEEE Control Systems Letters, 2022, 6: 2090−2095 doi: 10.1109/LCSYS.2021.3138546
    [38] Khalil H K. Nonlinear Systems, 3rd Edition. Englewood Cliffs: Prentice-Hall, 2002
    [39] Seeger M W, Kakade S M, Foster D P. Information consistency of nonparametric Gaussian process methods. IEEE Transactions on Information Theory, 2008, 54(5): 2376−2382 doi: 10.1109/TIT.2007.915707
    [40] Song Y, Wang Y, Wen C. Adaptive fault-tolerant pi tracking control with guaranteed transient and steady-state performance. IEEE Transactions on Automatic Control, 2017, 62(1): 481−487
    [41] Logemann M, Ryan E P. Ordinary Differential Equations: Analysis, Qualitative Theory and Control. London, UK: Springer, 2014
    [42] Gaz C, Cognetti M, Oliva A, Giordano P Robuffo, Luca A De. Dynamic identification of the franka emika panda robot with retrieval of feasible parameters using penalty-based optimization. IEEE Robotics and Automation Letters, 2019, 4(4): 4147−4154
  • 加载中
计量
  • 文章访问数:  68
  • HTML全文浏览量:  49
  • 被引次数: 0
出版历程
  • 收稿日期:  2024-06-26
  • 录用日期:  2024-12-13
  • 网络出版日期:  2025-03-31

目录

/

返回文章
返回