Deterministic Learning of Manipulators With Closed Architecture Based on Outer-loop Speed Compensation Control
-
摘要: 针对未开放力矩控制接口的一类封闭机器人系统, 提出一种基于外环速度补偿的确定学习控制方案. 该控制方案考虑机器人受到未知动力学影响, 且具有未知内环比例积分(Proportional-integral, PI)速度控制器. 首先, 利用宽度径向基函数(Radial basis function, RBF)神经网络对封闭机器人的内部未知动态进行逼近, 设计外环自适应神经网络速度控制指令. 在实现封闭机器人稳定控制的基础上, 结合确定学习理论证明了宽度RBF神经网络的学习能力, 提出基于确定学习的高精度速度控制指令. 该控制方案能够保证被控封闭机器人系统的所有信号最终一致有界且跟踪误差收敛于零的小邻域内. 在所提控制方案中, 通过引入外环补偿控制思想和宽度神经网络动态增量节点方式, 减小了设备计算负荷, 提高了速度控制下机器人的运动性能, 解决了市场上封闭机器人系统难以设计力矩控制的难题, 实现了不同工作任务下的高精度控制. 最后数值系统仿真结果和UR5机器人实验结果验证了该方案的有效性.Abstract: In this paper, a deterministic learning outer-loop speed compensation control scheme is proposed for a class of manipulator systems with closed architecture and without open torque control interface. The proposed scheme focuses on that the manipulator is affected by unknown modelling dynamics and has an unknown inner-loop proportional-integral (PI) speed controller. Firstly, the broad radial basis function (RBF) neural network is used to approximate the internal unknown dynamics of the manipulator with closed architecture, and the outer-loop adaptive neural network speed control command is designed by using the Lyapunov function. Based on the stable control of manipulator with closed architecture, the dynamic learning ability of RBF neural network is verified, and then the high-accuracy speed control command is designed based on the deterministic learning theory. The proposed control scheme guarantees that all signals of the manipulator system with closed architecture are ultimately uniformly bounded, and the tracking error converges to a small neighborhood of zero. By the combination of outer-loop compensation control and dynamic incremental node of broad neural networks, the proposed scheme reduces the computing load, improves the motion performance of the robot under speed control, solves the torque control design difficulty of the closed manipulator, and realizes high-precision control in different working tasks. Finally, simulation results of numerical system and experimental results of UR5 robot are used to show the effectiveness of the proposed scheme.
-
近年来, 机器人在工程应用和日常生活中发挥着越来越重要的作用, 被广泛应用于空间探测、焊接、装配、医疗等领域, 相关技术也越来越受到科研人员重视[1-3]. 在机器人控制领域, 其控制目标之一就是实现机器人对特定任务轨迹的跟踪. 多自由度机器人作为一个高度耦合的非线性多输入多输出系统[4], 主要控制难点在于机器人工作环境任务多变, 在外界扰动、负载变化、参数测量不精确等因素影响下, 机器人系统精确建模难度较大, 使得比例积分微分(Proportional-integral-derivative, PID)控制等经典控制算法难以满足机器人控制的精度要求. 针对机器人系统存在部分参数不确定或测量不准确的问题, 一些学者结合鲁棒控制、滑模控制等思想, 提出了许多有效的自适应控制算法[5-7]. 当机器人系统存在不可建模动态时, 一些学者结合神经网络的非线性函数逼近特性, 提出了大量的自适应神经网络控制方案, 保证了机器人在多变环境下的高性能控制[8-12].
值得注意的是, 上述控制方案大多数都是基于力矩进行控制器设计, 其方案有效性主要是通过数值系统仿真进行验证, 鲜有在实际机器人上进行实验和应用. 造成上述现象的原因是, 当前市面上大部分工业/商业机器人并不开放力矩接口, 而是采用速度/位置控制. 这些封闭机器人采用标准的内外环控制结构, 其中外环为运动学环, 内环为动力学环, 内环控制的采样速率一般比外环要快得多, 且普遍认为其内环控制使用速度比例积分(Proportional-integral, PI)控制器或位置PID控制器[13]. 封闭机器人的这些性质, 导致用户一般只能对其进行简单的运动学控制[14], 从而使得机器人难以应对多变的个性化产品加工. 针对这类具有内外环结构的机器人的控制问题, 部分学者提出了解决方案. 文献[5, 15]在研究具有未知动力学和未知运动学的机械臂控制时, 提出了适当的自适应控制器. 文献[16]研究了一类具有关节速度反馈内环的机器人任务空间控制问题, 提出了一种基于模型的内环关节速度控制器通用结构[17]. 注意到, 上述控制方案中跟踪误差的收敛依赖于内环速度控制器的修改或再设计, 并不是常见的速度PI控制器或位置PID控制器, 对于具有不可修改内环的工业/商业机器人而言, 这些控制方案也难以实现应用. 进一步, 一些学者提出了预校正方案[18], 这些预校正方案的有效性验证主要是通过直观解释和实验结果进行的, 并没有进行严格理论分析. 针对封闭机器人控制存在的上述问题, 文献[19]在考虑机器人具有可以线性参数化的未知动力学和运动学且内环控制器参数未知和不可修改的背景下, 设计了一类外环自适应速度补偿控制器, 保证了机器人系统的稳定性和误差收敛. 该方案需要计算动力学和运动学回归矩阵, 这两个矩阵随着机械臂关节增多, 计算的复杂度呈指数倍增长. 此外, 实际机器人系统由于受到阻尼以及摩擦力等影响, 存在本质的非线性. 因此, 如何提出简单有效的封闭机器人控制方案, 既能实现封闭力矩的补偿控制, 又能精确建模未知非线性仍是一个开放性的问题.
众所周知, 神经网络是建模未知非线性的有效方法[20]. 然而, 现有的大部分自适应神经网络控制并没有充分利用神经网络的学习能力, 即使是处理相同的任务也需要对神经网络进行重复训练, 该过程耗时长、计算资源消耗大、暂态阶段的控制性能也较差. 因此, 如何实现神经网络在控制过程中的学习和经验知识再利用是一个很有意义的课题[21]. 对此, 文献[22]提出确定学习理论, 解决了神经网络对未知动态的学习问题. 该理论证明了沿着回归轨迹的径向基函数(Radial basis function, RBF)神经网络满足持续激励(Persistent excitation, PE)条件, 进一步结合线性时变系统指数稳定性证明了神经网络权值的精确收敛. 基于该理论, 文献[23]引入动态面技术, 解决了自适应神经网络在严格反馈系统中的学习问题. 近年来, 确定学习理论也已被广泛应用于机器人编队控制[24]、心肌缺血早期诊断[25]、水面无人船控制[26]等领域, 在机械臂控制领域也有相关工作[27]. 然而, 现有基于确定学习的控制方案仍是基于力矩进行设计的, 无法在封闭的工业/商业机器人上直接进行应用.
综上所述, 本文针对未开放力矩接口的一类封闭机器人系统, 在考虑机器人受到未知动力学影响且具有未知内环PI速度控制器的情况下, 基于文献[19]的外环补偿框架提出了一种基于外环速度补偿的确定学习控制方案, 实现了封闭机器人的关节轨迹跟踪控制. 该方案的主要贡献点如下: 1)在文献[19]的工作基础上, 引入神经网络处理系统未知动态, 取消了封闭机器人未知动力学模型参数线性化假设, 并简化了外环补偿控制设计过程; 2)采用宽度RBF神经网络动态增量神经网络节点, 降低了网络结构复杂度, 改善了系统控制的实时性; 3)引入确定学习理论, 实现了宽度RBF神经网络对封闭机器人未知动态的精确学习, 并利用经验知识避免了对网络重复训练, 降低了计算负担, 实现了快稳准的高精度跟踪控制; 4)为确定学习理论应用于具有类似结构的封闭机械系统提供了研究思路, 拓展了确定学习的应用范围.
1. 问题描述及预备知识
1.1 系统说明与控制目标
本文所考虑的由永磁直流电动机驱动的$ n $自由度机器人动力学模型[19]如下
$$ M(x_1)\ddot{x}_1+C(x_1,\dot{x}_1)\dot{x}_1+G(x_1) = Ku $$ (1) 其中, $ x_1\in {\bf{R}}^{n} $是机器人关节角位置; $ M(x_1)\in {\bf{R}}^{n\times n} $是机器人的惯性矩阵; $ C(x_1,\dot{x}_1)\in {\bf{R}}^{n\times n} $是机器人的科氏力矩阵; $ G(x_1)\in {\bf{R}}^{n} $是机器人的重力向量; $ K\in {\bf{R}}^{n\times n} $是机器人内部的控制增益, 为一常值对角正定矩阵; $ u\in {\bf{R}}^{n} $是封闭机器人的内环控制器.
性质 1. 机器人动力学方程的惯性矩阵$ M(x_1) $是对称并一致正定的, 且具有一致的界限, 存在正常数$ \lambda_{m} $和$ \lambda_{M} $使得$ \lambda_{m}{\boldsymbol{I}} \leq M(x_1) \leq \lambda_{M}{\boldsymbol{I}} $, 其中$ {\boldsymbol{I}} $为适当定义的单位矩阵.
性质 2. 可以通过适当定义机器人动力学方程的科氏力矩阵$ C(x_1,\dot{x}_1) $, 使得$ \dot{M}(x_1)-2C(x_1,\dot{x}_1) $是斜对称矩阵.
在研究的封闭机器人内外环控制方法中, 本文考虑内环控制器为PI速度控制器[19], 结构如下
$$ u = -K_p(\dot{x}_1-\dot{q}_c)-K_i(x_1-q_c) $$ (2) 其中, $ \dot{q}_c $和$ q_c $是关节速度指令和关节位置指令, $ K_p $是内环控制器的比例系数, $ K_i $是内环控制器的积分系数, 均为未知对角正定矩阵.
考虑如下光滑有界参考模型, 该模型将产生封闭机器人的关节期望轨迹
$$ \left\{\begin{aligned} &\dot{x}_{d1} = x_{d2}\\ &\dot{x}_{d2} = f(x_{d1},x_{d2}) \end{aligned}\right. $$ (3) 其中, $ x_{d1}\in {\bf{R}}^n $和$ x_{d2}\in {\bf{R}}^n $分别是封闭机器人期望的关节角位置和角速度, $ f(x_{d1},x_{d2}) $是给定的光滑非线性函数, $ y_{d} = x_{d1} $是封闭机器人期望输出. 本文假设期望输出$ y_{d} $为周期轨迹.
本文的控制目标是基于外环速度补偿控制思想, 在考虑封闭机器人具有不确定动力学和未知参数内环控制器的情况下设计系统(1)的速度控制指令, 从而确保: 1)机器人系统的所有信号都是最终一致有界的; 2)系统的输出$ x_1 $能够跟踪给定的期望输出轨迹$ y_{d} $; 3)在控制过程中学习机器人内部未知动态, 并利用学到的未知动态知识实现封闭机器人高精度跟踪控制. 控制方案框图如图1所示.
1.2 RBF神经网络
1) RBF神经网络的万能逼近特性: 为逼近机械臂控制过程中的未知非线性动态, 本文使用如下形式的RBF神经网络
$$ f(Z) = {\rm{diag}}\{S^{\rm{T}}(Z),\cdots,S^{\rm{T}}(Z)\}W^{*} + \epsilon(Z) $$ (4) 其中, $ f(Z)\in {\bf{R}}^{n} $, $ Z\in \Omega_{Z} $是神经网络输入向量, $ \Omega_{Z} $为一紧集, $ W^{*}\in {\bf{R}}^{np} $是神经网络理想权值向量, $ p $为RBF神经网络隐含层节点数, $S(Z) = [s_{1}(Z-\xi_{1}), \cdots, s_{p}(Z-\xi_{p})]^{\rm{T}}$为回归向量, 此处选取高斯函数$ s_{i}(Z-\xi_{i}) = \exp(-(Z-\xi_{i})^{\rm{T}}(Z-\xi_{i})/\eta_{i}) $作为径向基函数, $ \xi_{i} = [\xi_{i1},\cdots,\xi_{in}]^{\rm{T}} $和$ \eta_{i} $分别是神经元节点的中心和宽度, $ \epsilon(Z) $是RBF神经网络逼近误差. 文献[28]已经证明通过选取适当的神经元节点数、神经元中心和宽度, RBF神经网络能够以任意精度逼近在紧集$ \Omega_{Z} $上的任意光滑连续函数$ f(Z) $, 即逼近误差$ \|\epsilon(Z)\|\le \epsilon^{*} $, $ \epsilon^{*} $是一个任意小的正整数.
2) RBF神经网络的局部逼近能力: 基于文献[22], 对于紧集$ \Omega_{Z} $内的任意有界轨迹$ Z $, $ f(Z) $可以用沿着该轨迹的局部区域内有限数量的神经元逼近, 即
$$ f(Z) = {\rm{diag}}\{S^{\rm{T}}_{\zeta}(Z),\cdots,S^{\rm{T}}_{\zeta}(Z)\}W^{*}_{\zeta} + \epsilon_{\zeta}(Z) $$ (5) 其中, $ S_{\zeta}(Z) = [s_{1_{\zeta}}(Z-\xi_{1_{\zeta}}),\cdots,s_{p_{\zeta}}(Z-\xi_{p_{\zeta}})]^{\rm{T}} $是回归向量$ S(Z) $的子向量, $ W^{*}_{\zeta}\in {\bf{R}}^{np_{\zeta}} $是神经网络理想权值向量$ W^{*} $的子向量, 且$ p_{\zeta}<p $, $ \epsilon_{\zeta}(Z) $是局部RBF神经网络逼近误差, 且$ \|\epsilon_{\zeta}(Z)\|-\|\epsilon(Z)\|$是一个极小值.
定义 1[22]. 考虑一致有界且分段连续的向量函数$ S :[0,\infty)\rightarrow {\bf{R}}^{s} $, 若存在大于零的常数$ \Lambda_{1}, \Lambda_{2}, T_{0} $, 使得如下公式成立
$$ \Lambda_{1}{\boldsymbol{I}}\geq\int_{t_{0}}^{t_{0}+T_{0}}S(\tau)S^{\rm{T}}(\tau) {\rm{d}}\tau\geq\Lambda_{2}{\boldsymbol{I}}, \forall t_{0}>0 $$ 那么向量函数$ S $满足PE条件, 其中$ {\boldsymbol{I}} $定义为$ s\times s $维的单位矩阵.
引理 1[22]. RBF神经网络的局部PE条件: 考虑任意回归/周期轨迹$ Z $, 假设$ Z $是从$ [0,\infty) $到$ {\bf{R}}^{q} $的连续映射, 且$ Z $位于紧集$ \Omega_{Z}\subset {\bf{R}}^{q} $中. 则对于中心置于规则晶格(足够大到覆盖紧集$ \Omega_{Z} $)上的RBF神经网络, 只有中心位于回归/周期轨迹$ Z $的小邻域内的神经元才会被激励, 由其组成的回归子向量$ S_{\zeta}(Z) $将满足PE条件.
1.3 宽度RBF神经网络
在传统的RBF神经网络逼近中, 需通过选取合适的神经元节点数、中心和宽度来保证逼近精度, 而在实际应用中通常需要设计者根据自己的经验不断试错, 采用均匀布点的方式来设计RBF神经网络的结构, 具有很强的主观性. 同时, 机器人控制系统是一个多输入多输出系统, 随着控制连杆数量的增加, RBF神经网络的输入维数会呈几何倍数增长, 在均匀布点的设计方案下, 神经元数量也会急剧升高, 这将导致神经网络的计算负荷提高, 对硬件设备提出了更高的要求, 同时也将影响系统控制的实时性. 为了解决上述问题, 本文将使用文献[29]所提出的宽度RBF神经网络方法进行网络结构设计. 该方法结合宽度神经网络增量节点的思想, 可实现在系统控制过程中神经元的自适应调整.
宽度RBF神经网络在初始化阶段以系统的初始状态为第一个神经元, 之后会根据神经网络的实际输入与网络已有神经元中心的距离来判断是否应该新增神经元. 新增神经元的增加策略如下:
1)定义新增神经元所需参数
$$ H = \quad<\xi_{n}, \eta_{n}, W_{n}> $$ (6) 其中, $ \xi_{n}, \eta_{n}, W_{n} $分别是新增神经元的中心、宽度和权值, 本文新增神经元的宽度设置与已有神经元一致, 权值统一初始化为零.
2)判断当前网络输入是否超出现有神经元所构成的紧集域
首先, 本文使用欧氏距离来描述当前网络输入与神经元中心点的距离, 根据距离选取离当前输入最近的$ k $个点集$ C_{{\rm{min}}} = \{c_{1},\cdots,c_{k}\} $, 则可由下式获得新增神经元的中心
$$ \xi_{n} = \bar{C}_{{\rm{min}}}+\beta(Z-\bar{C}_{{\rm{min}}}) $$ (7) 其中, $ \beta $是决定新增神经元与神经元集合$ C_{{\rm{min}}} $之间距离的可调参数, 取值范围为$ 0\sim1 $; $ \bar{C}_{{\rm{min}}} $是神经元集合$ C_{{\rm{min}}} $的平均中心位置, $\bar{C}_{{\rm{min}}} = (c_{1}+c_{2}+\cdots + c_{k})/k$.
然后, 设置判断是否新增神经元的可调阈值$ \varepsilon $, 当神经网络当前输入$ Z $与神经元集合$ C_{{\rm{min}}} $的平均中心位置$ \bar{C}_{{\rm{min}}} $之间距离大于阈值$ \varepsilon $时, 添加新的神经元, 否则保持原有神经元集合不变.
2. 外环自适应神经网络速度控制指令设计
本节将针对系统(1), 采用反步法进行基于外环补偿的速度控制指令设计. 首先将封闭机器人系统的内环速度PI控制器(2)代入系统(1), 将系统(1)转化为如下形式
$$\left\{ \begin{aligned} &\dot{x}_{1} = x_{2}\\ &\dot{x}_{2} = -M^{-1}(x_1)(C(x_1,\dot{x}_1)x_2-G(x_1)\,-\\ &\;\;\;\;\;\;\;\;K_{P}({x}_{2}-\dot{q}_{c})-K_{I}({x}_{1}-q_{c})) \end{aligned}\right. $$ (8) 其中, $ K_{P} = KK_{p} $, $ K_{I} = KK_{i} $, $ y $是机器人系统输出关节角位置, $ y = x_1 $.
根据传统反步法设计思想, 定义如下误差变量
$$ z_1 = x_1-y_{d}, z_2 = x_2-\alpha_{1} $$ (9) 其中, $ \alpha_{1} $是虚拟控制器. 考虑系统(8), 接下来的反步设计包括两个步骤, 将依次设计出虚拟控制器$ \alpha_{1} $和速度控制指令$ \dot{q}_c $. 具体设计过程如下:
步骤 1. 考虑系统(8)以及误差定义(9), 对$ z_1 $求导得
$$ \begin{align} \dot{z}_1 = z_2+\alpha_{1}-\dot{y}_{d} \end{align} $$ (10) 根据式(10), 虚拟控制器$ \alpha_{1} $可设计为
$$ \alpha_{1} = -c_{1}z_{1}+\dot{y}_{d} $$ (11) 其中, $ c_1 $为控制增益, 且为正的设计参数.
步骤 2. 根据误差定义(9), 对$ z_2 $求导可得
$$ \begin{split} \dot{z}_2 = &\;M^{-1}(x_1)K_P(\dot{q}_{c}-K_{P}^{-1}C(x_1,\dot{x}_1)z_2\;+\\ &K_{P}^{-1}(K_{I}q_{c}-K_{I}x_1-K_{P}x_2-C(x_1,\dot{x}_1)\alpha_1\,-\\ &G(x_1)-M(x_1)\dot{\alpha}_1)) \\[-10pt]\end{split} $$ (12) 考虑封闭机器人系统具有未知的动力学和内环速度PI控制器, 定义未知系统动态为
$$ \begin{split} f(Z_1) = &\;K_{P}^{-1}(K_{I}q_{c}-K_{I}x_1-K_{P}x_2-C(x_1,\dot{x}_1)\alpha_1\,-\\ &G(x_1)-M(x_1)\dot{\alpha}_1) \\[-10pt]\end{split} $$ (13) 其中, $ Z_1 = [x^{\rm{T}}_1, x^{\rm{T}}_2, q^{\rm{T}}_c, \dot{\alpha}^{\rm{T}}_1]^{\rm{T}}\in {\bf{R}}^{4n} $, $ n $是机器人自由度. 使用RBF神经网络来逼近未知动态$ f(Z_1) $, 得
$$ \begin{align} f(Z_1) = {\rm{diag}}\{S^{\rm{T}}_{1}(Z_1),\cdots,S^{\rm{T}}_{1}(Z_1)\}W^{*}_{1} + \epsilon_{1}(Z_1) \end{align} $$ (14) 其中, $ \epsilon_{1}(Z_1) $是逼近误差, 且$ \|\epsilon_{1}(Z_1)\|\le \epsilon^{*} $, $ \epsilon^{*} $是任意小的正数, $ W^{*}_{1}\in {\bf{R}}^{n\varpi} $是未知的理想权值向量, $ \varpi $为宽度RBF神经网络节点个数. 令$ W^{*}_{1} $的估计值为$ \hat{W}_{1} $, 则权值估计误差为$ \tilde{W}_{1} = \hat{W}_{1}-W^{*}_{1} $.
将式(14)代入式(12)可得
$$ \begin{split} \dot{z}_2 =\;& \,M^{-1}(x_1)K_P(\dot{q}_{c}-K_{P}^{-1}C(x_1,\dot{x}_1)z_2\;+\\ & {\rm{diag}}\{S^{\rm{T}}_{1}(Z_1),\cdots,S^{\rm{T}}_{1}(Z_1)\}W^{*}_{1} + \epsilon_{1}(Z_1)) \end{split} $$ (15) 根据式(15), 利用权值估计值$ \hat{W}_{1} $代替理想权值$ W^{*}_{1} $, 设计自适应神经网络速度控制指令如下
$$ \begin{align} \dot{q}_c = - {\rm{diag}}\{S^{\rm{T}}_{1}(Z_1),\cdots,S^{\rm{T}}_{1}(Z_1)\}\hat{W}_{1}-c_{2}z_{2}-z_1 \end{align} $$ (16) 并构造神经网络权值估计值更新率为
$$ \begin{align} \dot{\hat{W}}_{1} = \dot{\tilde{W}}_{1} = \gamma( {\rm{diag}}\{S_{1}(Z_1),\cdots,S_{1}(Z_1)\}z_{2}-\sigma\hat{W}_{1}) \end{align} $$ (17) 其中, $ c_2 $是速度控制指令$ \dot{q}_c $的控制增益, 且为正的可设计参数; $ \gamma $, $ \sigma $分别是神经网络权值估计值更新率的控制增益和$ \sigma $修正项, 均为正的待设计参数.
注 1. 在考虑未知动力学影响的机器人自适应神经网络控制器设计中, 现有大部分成果均为力矩控制器, 无法应用于本文所考虑的封闭机器人系统. 本文在机器人具有未知不可修改内环速度PI控制器的背景下, 设计了与内环相匹配的外环自适应神经网络速度控制指令. 该指令与常见力矩控制器的代数方程形式不同, 是一个关于$ q_c $的一阶微分方程, 通过求解该微分方程, 可以获得输入机器人系统的速度控制指令$ \dot{q}_c $和位置控制指令$ q_c $, 同时, RBF神经网络的应用使该速度控制指令具有适应机器人未知动力学影响和未知内环控制器的能力.
注 2. 与现有基于反步法的自适应神经网络力矩控制器相比, 本文所设计速度控制指令在神经网络输入上将多出一个信号$ q_{c} $. 这是因为在控制器设计过程中, 为了处理内环速度PI控制器的未知参数$ K, K_{p}, K_{i} $带来的不确定性, 本文在定义未知系统动态的时候将$ K^{-1}_{P}K_{I}q_{c} $考虑在内, 从而有助于后续的控制器设计以及未知动态的精确神经网络逼近.
至此, 可得封闭机器人的闭环系统动态如下
$$ \left\{\begin{aligned} &\dot{z}_{1} = z_2+\alpha_{1}-\dot{x}_{d1}\\ &\dot{z}_{2} = M^{-1}(x_1)K_P(- {\rm{diag}}\{S^{\rm{T}}_{1}(Z_1),\cdots,\\ &\;\;\;\;\;\;\;\;S^{\rm{T}}_{1}(Z_1)\}\tilde{W}_{1}+\epsilon_{1}(Z_1)\;- \\ &\;\;\;\;\;\;\;\;(K_{P}^{-1}C(x_1,\dot{x}_1)+c_2)z_2-z_1)\\ &\dot{\tilde{W}}_{1} = \gamma( {\rm{diag}}\{S_{1}(Z_1),\cdots,S_{1}(Z_1)\}z_{2}-\sigma\hat{W}_{1}) \end{aligned}\right. $$ (18) 定理 1. 考虑由封闭机器人系统(8)、参考模型(3)、自适应神经网络速度控制指令(16)和神经网络权值估计值更新率(17)所组成的闭环系统, 那么对于任意给定的常数$ \mu > 0 $以及所有满足$ V(0)\le \mu $的系统初始状态, 则通过选取合适的设计参数$ c_1 $, $ c_2 $, $ \gamma $和$ \sigma $, 可以使得闭环系统中的所有信号是最终一致有界的, 并且跟踪误差$ z_1 $, $ z_2 $能够收敛到零的小邻域内.
证明. 选取如下Lyapunov函数
$$ \begin{align} V = \frac{1}{2}z^{\rm{T}}_{1}K_{P}z_1+\frac{1}{2}z^{\rm{T}}_{2}M(x_1)z_2+\frac{1}{2}\gamma^{-1}\tilde{W}^{\rm{T}}_{1}K_{P}\tilde{W}_{1} \end{align} $$ (19) 结合机器人动力学方程性质2, 沿系统(18)所产生的轨迹对所选Lyapunov函数求导可得
$$ \begin{split} \dot{V} =\;& -c_{1}z^{\rm{T}}_{1}K_{P}z_1-c_{2}z^{\rm{T}}_{2}K_{P}z_2-\sigma\tilde{W}^{\rm{T}}_{1}K_{P}\tilde{W}_{1}\;-\\ &\sigma\tilde{W}^{\rm{T}}_{1}K_{P}{W}^{*}_{1}+z^{\rm{T}}_{2}K_{P}\epsilon_{1}(Z_1)\\[-10pt] \end{split} $$ (20) 利用Young不等式对Lyapunov函数的导数放缩得
$$ \begin{split} \dot{V} \leq\; &-c_{1}z^{\rm{T}}_{1}K_{P}z_{1}- \frac{c_{2}\lambda_{{\rm{min}}}(K_{P})}{2}z^{\rm{T}}_{2}z_{2}\,-\\ & \frac{1}{2}\sigma\tilde{W}^{\rm{T}}_{1}K_{P}\tilde{W}_{1}+ \frac{\sigma\lambda_{{\rm{min}}}(K_{P})}{2}\parallel W^{*}_{1}\parallel^{2}+\\ & \frac{1}{2c_{2}\lambda_{{\rm{min}}}(K_{P})} K_{P}^{\rm{T}}K_{P}(\epsilon^{*})^{2} \end{split} $$ (21) 其中, $ \lambda_{{\rm{min}}}(K_{P}) $是矩阵$ K_{P} $的最小特征值.
结合式(19)和式(21)可得
$$ \begin{align} \dot{V} \leq -aV+b \end{align} $$ (22) 其中
$$ \begin{align*} a = {\rm{min}}\left\{2c_{1}, \frac{c_{2}\lambda_{{\rm{min}}}(K_{P})}{\lambda_{M}},\sigma\gamma\right\}\end{align*} $$ $$ b = \frac{\sigma\lambda_{{\rm{min}}}(K_{P})}{2}\parallel W^{*}_{1}\parallel^{2}+\; \frac{K_{P}^{\rm{T}}K_{P}(\epsilon^{*})^{2} }{2c_{2}\lambda_{{\rm{min}}}(K_{P})} $$ 至此, 只要选择$ a>b/\mu $, 那么可以保证当$ V = \mu $时, $ \dot{V}\le 0 $, 因此$ V\le \mu $是一个不变集, 即对于任意满足$ V(0)\le \mu $的初始条件, 对于任意$ t>0 $, 有$ V(t)\le \mu $. 进一步, 对式(22)积分可得
$$ \begin{align} V \leq (V(0)-\theta){\rm{e}}^{-at}+\theta \end{align} $$ (23) 其中
$$ \begin{align*} \theta = \frac{c_{2}\sigma\lambda^{2}_{{\rm{min}}}(K_{P})\parallel W^{*}_{1}\parallel^{2}+\,K_{P}^{\rm{T}}K_{P}(\epsilon^{*})^{2}}{2c_{2}a\lambda_{{\rm{min}}}(K_{P})} \end{align*} $$ 从上式可知, 通过选取合适的设计参数$ c_{1},c_{2}, \gamma,\sigma $, 可使得$ \theta $任意小. 因此, 闭环系统中的所有信号是最终一致有界的.
进一步, 从式(19)及式(23)可得
$$ \begin{align} z^{\rm{T}}_{1}K_{P}z_1+z^{\rm{T}}_{2}M(x_1)z_2 \leq 2(V(0)-\theta){\rm{e}}^{-at}+2\theta \end{align} $$ (24) 令$ \nu_{1}>\sqrt{2\theta/\lambda_{{\rm{min}}}(K_{P})} $, $ \nu_{2}>\sqrt{2\theta/\lambda_{m}} $, 则存在一个有限时间$ T_{1} $, 对于任意$ t>T_{1} $有
$$ \begin{align*} |z_{1}|<\nu_{1}, |z_{2}|<\nu_{2} \end{align*} $$ 从上述分析可知, 选取合适的设计参数可使$ \theta $任意小, 即$ \nu_{1},\nu_{2} $可以任意小, 因此跟踪误差$ z_{1},z_{2} $可以在有限时间$ T_{1} $内收敛到零的小邻域内.
□ 3. 基于确定学习的速度补偿控制
在第 2 节, 本文针对封闭机器人系统(8)设计了外环自适应神经网络速度控制指令(16)以及神经网络权值估计值更新率(17), 并证明了系统在该控制指令的作用下是最终一致有界的, 且系统跟踪误差可在有限时间$ T_{1} $内收敛于零的小邻域内. 本节将基于确定学习理论[22], 进一步验证神经网络对封闭机器人系统(8)未知动态的准确学习, 且实现学习后的常值神经网络权值的表达与存储.
定理 2. 考虑由封闭机器人系统(8)、参考模型(3)、自适应神经网络速度控制指令(16)和神经网络权值估计值更新率(17)所组成的闭环系统, 对于任意给定的回归期望轨迹$ y_{d} $, 有界的初始条件以及$ \hat{W}_{1}(0) = {\bf{0}} $, 神经网络权值估计值将收敛到理想权值$ W^{*}_{1} $的小邻域内, 且沿着回归输入信号$ Z_{1} $的常值RBF神经网络$ {\rm{diag}}\{S^{\rm{T}}_{1}(Z_1),\cdots,S^{\rm{T}}_{1}(Z_1)\}\bar{W}_{1} $, 即
$$ f(Z_1) = {\rm{diag}}\{S^{\rm{T}}_{1}(Z_1),\cdots,S^{\rm{T}}_{1}(Z_1)\}\bar{W}_{1} + \epsilon_{1}(Z_1) $$ (25) 其中, $ \epsilon_{1}(Z_1) $是神经网络对未知系统动态的逼近误差, 且$ \|\epsilon_{1}(Z_1)\|\le \epsilon^{*} $, $ \epsilon^{*} $是一个任意小的正整数, 且常值神经网络权值$ \bar{W}_{1} $的表达式为
$$ \begin{align} \bar{W}_{1} = & \,\mathop {\rm{mean}}\limits_{t\in [t_{a},t_{b}]}(\hat{W}_{1}(t) )= \frac{1}{t_{b}-t_{a}}\int_{t_{a}}^{t_{b}}\hat{W}_{1}(r) {\rm{d}}r \end{align} $$ (26) 其中, $ t_{b}>t_{a}>T_{1} $, $ [t_{a},t_{b}] $是系统达到稳态后的一段时间.
证明. 证明分为以下两个部分进行:
1)神经网络输入$ Z_{1} $回归性证明.
根据给定光滑有界参考模型(3), 期望轨迹$ y_{d},\dot{y}_{d},\ddot{y}_{d} $均为周期轨迹. 由定理1可知, 闭环系统内的所有信号均有界且跟踪误差在有限时间$ T_{1} $内收敛到零的小邻域. 根据$ z_{1} = x_{1}-y_{d} $, 封闭机器人的输出关节角位置$ y = x_{1} $能够跟踪上给定的期望周期轨迹$ y_{d} $; 虚拟控制器$ \alpha_{1} = -c_{1}z_{1}+\dot{y}_{d} $将跟踪上周期轨迹$ \dot{y}_{d} $. 根据跟踪误差$ z_{2} = x_{2}-\alpha_{1} $, $ x_{2} $能够跟踪上周期轨迹$ \dot{y}_{d} $, 故虚拟控制器的导数$ \dot{\alpha}_{1} = -c_{1}(x_{2}\;- \dot{y}_{d})+\ddot{y}_{d} $将跟踪上周期轨迹$ \ddot{y}_{d} $.
因为$ x_{2} $和$ \alpha_{1} $均为周期信号, 故$ {\dot{z}_{2}} = \dot{x}_2-\dot{\alpha}_1 $为周期信号. 考虑封闭机器人系统的惯性矩阵$ M(x_{1}) $, 当机器人所有的运动关节为转动关节时, 矩阵中仅含有$ x_{1} $的正弦函数和余弦函数元素, 因此惯性矩阵$ M(x_{1}) $是周期信号. 又$ z_{1},z_{2},\epsilon_{1}(Z_1) $均为任意小的值, 从式(18)可得, $ {\rm{diag}}\{S^{\rm{T}}_{1}(Z_1),\cdots,S^{\rm{T}}_{1}(Z_1)\}\tilde{W}_{1} $是周期信号且有界, 根据定理1有$ \tilde{W}_{1} $有界, 且对于所有的神经网络输入$ S_{1}(Z_1) $有界. 则考虑外环自适应神经网络速度控制指令$\dot{q}_c = - {\rm{diag}}\{S^{\rm{T}}_{1}(Z_1),\cdots, S^{\rm{T}}_{1}(Z_1)\}\hat{W}_{1}-c_{2}z_{2}-z_1$, 由$ \tilde{W}_{1} $有界可得$ \hat{W}_{1} $有界, 故$ \dot{q_{c}} $是有界信号.
根据科氏力矩阵和重力矩阵的定义可知, 当$ x_{1},\dot{x}_{1} $为周期信号时, $ C(x_{1},\dot{x}_{1}) $和$ G(x_{1}) $亦是周期信号. 结合式(12)可得, $ \dot{q_{c}}+K_{P}^{-1}K_{I}q_{c} $为周期信号且有界, 则$ q_{c} $有界且满足回归性.
综上所述, 当时间$ t $超过有限时间$ T_{1} $后, 神经网络输入$ Z_1 = [x^{\rm{T}}_1, x^{\rm{T}}_2, q^{\rm{T}}_c, \dot{\alpha}^{\rm{T}}_1] $是满足回归性的. 进一步借由引理1, 可以得到回归向量$ S_{1}(Z_{1}) $满足局部PE条件.
2)构建线性时变系统及其稳定性证明.
使用沿着回归信号$ Z_{1} $的局部RBF神经网络对未知系统动态进行逼近, 并考虑由(15)、(16)和(17)组成的闭环子系统有
$$\left\{ \begin{aligned} &\dot{z}_{2} = M^{-1}(x_1)K_P(- {\rm{diag}}\{S^{\rm{T}}_{1\zeta}(Z_1),\cdots,\, \\ &\;\;\;\;\;\;\;\;\;S^{\rm{T}}_{1\zeta}(Z_1)\}\tilde{W}_{1\zeta}+\epsilon_{1\zeta}(Z_1)\;- \\ &\;\;\;\;\;\;\;\;\;(K_{P}^{-1}C(x_1,\dot{x}_1)+c_2)z_2-z_1)\\ &\dot{\tilde{W}}_{1\zeta} = \gamma( {\rm{diag}}\{S_{1\zeta}(Z_1),\cdots,S_{1\zeta}(Z_1)\}z_{2}-\sigma\hat{W}_{1\zeta}) \end{aligned}\right. $$ (27) $$ \begin{align} \dot{\tilde{W}}_{\bar{1\zeta}} = \gamma( {\rm{diag}}\{S_{\bar{1\zeta}}(Z_1),\cdots,S_{\bar{1\zeta}}(Z_1)\}z_{2}-\sigma\hat{W}_{\bar{1\zeta}}) \end{align} $$ (28) 其中, $ S_{1\zeta}(Z_{1}) $是回归向量$ S_{1}(Z_{1}) $的子向量, 是由回归轨迹$ Z_{1} $附近被激活的神经元构成的; $ \hat{W}_{1\zeta} $是权值估计值向量的子向量. 式(28)中下标$ \bar{1\zeta} $表示远离回归轨迹$ Z_{1} $的神经元, 这部分神经元不会被激活, 其权值将会在零附近, 因此$\| {\rm{diag}}\{S^{\rm{T}}_{\bar{1\zeta}}(Z_1),\cdots, S^{\rm{T}}_{\bar{1\zeta}}(Z_1)\}\hat{W}_{\bar{1\zeta}}\|$ 将是一个较小的值. 沿着回归轨迹$ Z_{1} $的局部RBF神经网络逼近误差为$\epsilon_{1\zeta}(Z_1) = \epsilon_{1}(Z_1)\;- {\rm{diag}}\{S^{\rm{T}}_{\bar{1\zeta}}(Z_1),\cdots,S^{\rm{T}}_{\bar{1\zeta}}(Z_1)\}\tilde{W}_{\bar{1\zeta}}$, 且$ \|\epsilon_{1\zeta}(Z_1)\| $将接近于$ \|\epsilon_{1}(Z_1)\| $.
考虑到$ M(x_{1})K_{P} $的存在可能使得神经网络的逼近误差项被放大, 这将导致即使闭环系统(27)标称部分的指数稳定性得到证明, RBF神经网络的学习能力也无法实现. 对此, 本文引进一个新的误差变量$ e_{2} = K^{-1}_{P}M(x_{1})z_{2} $来避免上述问题, 借由新误差变量可将系统(27)转化为如下带小摄动项的线性时变系统形式
$$ \begin{split} \left[ \begin{array}{c} \dot{e}_{2} \\ \dot{\tilde{W}}_{1\zeta} \end{array} \right]=\;& \begin{bmatrix} \epsilon'_{1\zeta} \\ -\sigma\gamma\hat{W}_{1\zeta} \end{bmatrix}+\\ &\begin{bmatrix} \begin{array}{c c} A & -H^{\textrm{T}}(Z_{1}) \\ H(Z_{1})P & {\bf{0}} \end{array} \end{bmatrix}\times \begin{bmatrix} e_{2} \\ \tilde{W}_{1\zeta} \end{bmatrix} \end{split} $$ (29) 其中, $H(Z_{1}) \;= \;{\rm{diag}}\{S_{1\zeta}(Z_1),\cdots,S_{1\zeta}(Z_1)\}$, $\epsilon'_{1\zeta} = -z_{1}+ \epsilon_{1\zeta}$, $A = -(c_{2} +K^{-1}_{P}C(x_{1},\dot{x}_{1}) - K^{-1}_{P}\dot{M}(x_{1}))\;\times M^{-1}(x_{1})K_{P},$ $ P = \gamma M^{-1}(x_{1})K_{P} $.
根据定理1可知, $ \epsilon'_{1\zeta} $是一个极小值, 通过选取较小的参数 $ \sigma $ 也可使$ \sigma\gamma\hat{W}_{1\zeta} $ 是一个极小值, 故系统(29)是一个带有小摄动项的线性时变系统. 随后通过选取合适的参数$ c_{2} $, 可使得$ \dot{P}+PA+A^{\rm{T}}P<{\bf{0}} $. 进一步运用文献[23]的方法可证明系统(29)中标称部分的指数稳定性. 此外, 由于通过选取合适参数可使得摄动项$ \epsilon'_{1\zeta} $和$ -\sigma\gamma\hat{W}_{1\zeta} $非常小, 因此借由文献[30]中的小摄动定理(引理4.6), 可保证误差$ e_{2} $和$ \tilde{W}_{1\zeta} $在有限时间$ T_{1} $内均可收敛到零的小邻域内.
根据上述证明, 权值估计值$ \hat{W}_{1} $最终会收敛于理想权值$ W^{*} $, 故可运用式(26)所存储的常值权值构造常值RBF神经网络
$$ \begin{split} f(Z_{1}) = \;& {\rm{diag}}\{S^{\rm{T}}_{1\zeta}(Z_1),\cdots,S^{\rm{T}}_{1\zeta}(Z_1)\}\bar{W}_{1\zeta}+\bar{\epsilon}_{1\zeta}\, = \\ & {\rm{diag}}\{S^{\rm{T}}_{1}(Z_1),\cdots,S^{\rm{T}}_{1}(Z_1)\}\bar{W}_{1}+\bar{\epsilon}_{1}\\[-10pt] \end{split} $$ (30) 其中, $ \bar{\epsilon}_{1\zeta} $和$ \bar{\epsilon}_{1} $分别接近$ \epsilon_{1\zeta} $和$ \epsilon_{1} $.
□ 进一步, 运用所获常值RBF神经网络, 可获基于确定学习的速度控制指令如下
$$ \begin{align} \dot{q}_c = - {\rm{diag}}\{S^{\rm{T}}_{1}(Z_1),\cdots,S^{\rm{T}}_{1}(Z_1)\}\bar{W}_{1}-c_{2}z_{2}-z_1 \end{align} $$ (31) 定理 3. 考虑由封闭机器人系统(8)、参考模型(3)、基于确定学习的速度控制指令(31)所组成的闭环系统, 对于任意给定的常数$ \rho > 0 $以及所有满足$ U(0)\le \rho $的系统初始状态, 则通过选取合适的待设计参数$ c_1 $, $ c_2 $可使得闭环系统中的所有信号是最终一致有界的, 并且跟踪误差$ z_1 $能够收敛到零的小邻域内.
该证明与定理1的证明过程类似, 此处略.
注 3. 基于自适应神经网络的速度补偿控制方案需要在线自适应调整神经网络估计权值, 主要适用于控制任务变化的工作场景. 基于确定学习的速度补偿控制方案包括两个工作阶段: 神经网络训练和经验利用. 神经网络训练阶段, 即自适应调节过程, 该阶段适用任务多变的工作场景; 经验利用阶段, 即利用训练阶段获取的未知动态知识构造神经网络学习控制器, 提升系统的暂态控制性能和降低在线计算量, 主要适用于与训练阶段控制任务相同或相似的工作场景.
4. 实验验证
为验证本文所提方案的有效性, 本节将分别在双连杆封闭机器人数值系统和实际UR5机器人平台上进行实验验证. UR5机器人作为市面上常见的工业机器人, 其力矩控制接口不予开放, 一般只可做运动控制, 符合本文封闭机器人的研究背景.
4.1 数值仿真
本节将对定理1所提自适应控制方案以及定理3所提学习控制方案进行对比实验, 以验证RBF神经网络在稳定自适应控制过程中的学习和知识再利用能力, 并分别使用均匀布点和宽度RBF神经网络两种网络构造方式完成上述对比实验, 以验证宽度RBF神经网络的优越性. 考虑由(1)和(2)组成的双连杆封闭机器人动力学模型
$$ \begin{split} &M(x_1)\ddot{x}_1+C(x_1,\dot{x}_1)\dot{x}_1+G(x_1)\, = \\ &\qquad-KK_p(\dot{x}_1-\dot{q}_c)-KK_i(x_1-q_c) \end{split} $$ (32) 其中, $ x_{1} = [x_{1,1},x_{1,2}]^{\rm{T}} $, $ x_{1,1} $和$ x_{1,2} $分别代表封闭机器人的关节1角位置和关节2角位置, 且各矩阵为
$$ \begin{align*} M(x_{1}) = \begin{bmatrix} a_{1}+a_{2}\cos(x_{1,2}) & a_{3}+ \dfrac{a_{2}\cos(x_{1,2})}{2} \\ a_{3}+ \dfrac{a_{2}\cos(x_{1,2})}{2} & a_{3} \end{bmatrix} \end{align*} $$ $$ \begin{align*} C(x_1,\dot{x}_1)\dot{x}_1 = \begin{bmatrix} -a_{2}\sin(x_{1,2})(\dot{x}_{1,1}\dot{x}_{1,2}+0.5\dot{x}^2_{1,2}) \\ 0.5a_{2}\sin(x_{1,2})\dot{x}^2_{1,1} \end{bmatrix} \end{align*} $$ $$ \begin{align*} G(x_1) = \begin{bmatrix} a_{4}\cos(x_{1,1})+a_{5}\cos(x_{1,1}+x_{1,2}) \\ a_{5}\cos(x_{1,1}+x_{1,2}) \end{bmatrix} \end{align*} $$ 其中, $ a_{1} = m_{2}l^{2}_{2}+(m_{1}+m_{2})l^{2}_{1} $, $ a_{2} = 2l_{1}l_{2}m_{2} $, $a_{3} = m_{2}l^{2}_{2}$, $ a_{4} = (m_{1}+m_{2})l_{1}g $, $ a_{5} = m_{2}l_{2}g $, $ m_{1},m_{2} $分别是连杆1和连杆2的质量, $ l_{1},l_{2} $分别是连杆1和连杆2的长度, $ g $是重力加速度.
实验所用系统参数设置为: $ m_{1} = 0.8 $ kg, $m_{2}= 2.3$ kg, $ l_{1} = 1 $ m, $ l_{2} = 1 $ m, $ g = 9.8 $ m/s2, 系统所选期望轨迹为$y_{d} \;=\; [y_{d1},\;y_{d2}]^{\rm{T}} \;=\; [0.5\sin\;(0.5t)\;+ 0.3\sin(t), 0.3\sin(0.5t)+0.5\sin(t)]^{\rm{T}}$, 系统内环控制器增益$ K = {\rm{diag}}\{10,10\} $, 比例系数$ K_{p} = {\rm{diag}}\{2,2\} $, 积分系数$ K_{i} = {\rm{diag}}\{15,15\} $. 系统初始状态为$ x_{1} = [0, 0]^{\rm{T}}, \dot{x}_{1} = [0,0]^{\rm{T}} $. 宽度RBF神经网络方案下控制器参数设置如下: 初始神经元设置为$[0,0,0.65,0.65, 0,0, 0.65,0.65]$, $ c_{1} = 1.7 $, $ c_{2} = 0.6 $, $ \gamma = 0.4 $, $ \sigma = 0.00012 $, $ \varepsilon = 0.16 $, $ \beta = 0.95 $, 神经元宽度为$[0.875,1.000,0.625, 0.750, 0.875,1.000,0.500,0.750]$. $\hat{W}_{1} = [\hat{W}_{1,1}^{\rm{T}},\hat{W}_{1,2}^{\rm{T}}]^{\rm{T}}$的具体维数为$ 850 \times 1 $, 其中, $ \hat{W}_{1,1} $和$ \hat{W}_{1,2} $的维数均为$ 425\times 1 $.
宽度RBF神经网络方案下的仿真结果如图2 ~ 图5所示. 图2 ~ 图4展示了封闭机器人系统在自适应控制阶段的控制效果, 从图2可以看出机器人的关节输出均很好地跟踪上了给定的期望轨迹, 图3表示RBF神经网络的权值在一段控制时间后实现了收敛, 图4表示RBF神经网络成功逼近未知动态, 验证了网络的学习能力. 图5展示了封闭机器人系统在不同控制方案下的控制效果. 由图可知, 在仅依靠内环PI控制的情况下, 系统跟踪误差较大, 外环补偿控制的引入大幅度提高了系统跟踪精度. 进一步, 学习控制阶段的控制效果与自适应阶段的控制效果相比, 暂态阶段超调量更小, 且暂态时间也更短, 在7 s左右跟踪误差就收敛到零附近, 比自适应控制减少了约84%.
此外, 本节在神经网络节点的均匀布点和动态布点下, 进行了控制方案的性能对比实验研究. 在实验中, 均匀布点方案下控制器参数设置如下: $ c_{1} = 0.9 $, $ c_{2} = 0.8 $, $ \gamma = 0.4 $, $ \sigma = 0.00012 $, 选取含有6561个神经元的RBF神经网络. 对比实验结果见表1. 表1中, ANC表示自适应神经网络控制, LC表示学习控制. 从表1数据可知, 宽度RBF神经网络的使用有效降低了神经元的数量, 进而大幅减小神经网络计算负荷, 因此使用宽度网络的控制方案在仿真时长上远远小于使用均匀布点的控制方案, 从平均绝对误差(Mean absolute error, MAE)可知, 宽度网络的使用基本实现了机器人对期望轨迹的有效跟踪, 但跟踪效果稍差于均匀布点的控制方案.
表 1 仿真结果对比Table 1 Comparison of simulation results神经元数 MAE (前100 s) 仿真时长(s) ANC 500 s (均匀布点) 6561 $z_{1,1}$ 0.0166 403.61 $z_{1,2}$ 0.0131 ANC 500 s (宽度RBF网络) 425 $z_{1,1}$ 0.0192 147.16 $z_{1,2}$ 0.0196 LC 500 s (均匀布点) 6561 $z_{1,1}$ 0.0038 299.47 $z_{1,2}$ 0.0033 LC 500 s (宽度RBF网络) 425 $z_{1,1}$ 0.0056 82.11 $z_{1,2}$ 0.0061 4.2 实物实验
为进一步验证所提方案的有效性, 本节将在UR5机器人上进行实验, 取机械臂第2、3关节为控制对象. UR5机器人由机器人本体、控制箱、示教器和计算机组成. 计算机运行Matlab程序实时计算速度控制指令, 并通过有线网络将指令传输给机器人控制箱以及获取所需机器人状态. 实验所选期望轨迹为$ y_{d} = \left[ 0.5\sin(0.5t), 0.5\sin(0.5t) \right]^{\rm{T}} $, 系统初始状态为$ x_{1} = [0,0]^{\rm{T}}, \dot{x}_{1} = [0,0]^{\rm{T}} $, 仿真步长为40 ms. 自适应控制阶段时长为400 s, 学习控制阶段时长为100 s. 控制器参数设置如下: 初始神经元设置为$ [0,0, 0,0,0.5,0.5,0.2,0.2] $, $ c_{1} = 1.8 $, $ c_{2} = 0.4 $, $ \gamma = 0.12 $, $ \sigma = 0.002 $, $ \varepsilon = 0.15 $, $ \beta = 0.95 $, 神经元宽度为$[0.3,0.3, 0.3,0.3,0.3,0.3,0.3,0.3]$.
图6展示了UR5机器人运动过程中不同时间下的运动状态, 实验结果如图7 ~ 图9所示. 图7、图8展示了机器人在自适应阶段的控制效果. 在图7中, 本文根据图6标定了机器人在对应时刻下的关节角位置. 结合图6和图7可知, UR5机器人的关节角很好地跟踪上了给定的期望轨迹, 从图8可知, 神经网络权值在有限时间内成功收敛. 图9展示了机械臂在学习控制阶段的控制效果, 图9中结果与数值仿真的结果一致, 通过神经网络对知识的再利用, 学习控制阶段的跟踪误差更快地收敛, 暂态时间更短, 暂态误差也更小.
5. 总结与展望
本文针对未开放力矩控制接口的封闭机器人系统, 提出了一种基于外环补偿的自适应神经网络速度控制方案. 与现有大部分自适应神经网络控制方案不同的是, 本文所提方案的控制输入为关节角速度而不是关节力矩, 实现了自适应神经网络控制算法在封闭机器人上的应用, 并通过引入确定学习机制, 充分发挥神经网络的学习能力, 提高了机器人在执行相同或相似任务时的控制性能. 此外, 利用宽度神经网络的动态网络布点方式, 大幅降低了RBF神经网络结构的复杂度, 减小了设备计算负荷, 提高了系统控制实时性. 本文所提控制方案针对的是机器人关节空间控制, 在未来的工作中, 将逐步将其拓展到机器人任务空间控制、阻抗控制等, 提高该控制方案的工程应用价值.
-
表 1 仿真结果对比
Table 1 Comparison of simulation results
神经元数 MAE (前100 s) 仿真时长(s) ANC 500 s (均匀布点) 6561 $z_{1,1}$ 0.0166 403.61 $z_{1,2}$ 0.0131 ANC 500 s (宽度RBF网络) 425 $z_{1,1}$ 0.0192 147.16 $z_{1,2}$ 0.0196 LC 500 s (均匀布点) 6561 $z_{1,1}$ 0.0038 299.47 $z_{1,2}$ 0.0033 LC 500 s (宽度RBF网络) 425 $z_{1,1}$ 0.0056 82.11 $z_{1,2}$ 0.0061 -
[1] Li T S, Zhao R, Chen C L P, Fang L Y, Liu C. Finite-time formation control of under-actuated ships using nonlinear sliding mode control. IEEE Transactions on Cybernetics, 2018, 48(11): 3243-3253 doi: 10.1109/TCYB.2018.2794968 [2] 曾超, 杨辰光, 李强, 戴诗陆. 人-机器人技能传递研究进展. 自动化学报, 2019, 45(10): 1813-1828Zeng Chao, Yang Chen-Guang, Li Qiang, Dai Shi-Lu. Research progress on human-robot skill transfer. Acta Automatica Sinica, 2019, 45(10): 1813-1828 [3] 陈锦涛, 李鸿一, 任鸿儒, 鲁仁全. 基于RRT森林算法的高层消防无人机室内协同路径规划. 自动化学报, DOI: 10.16383/j.aas.c210368Chen Jin-Tao, Li Hong-Yi, Ren Hong-Ru, Lu Ren-Quan. Cooperative indoor path planning of multi-UAVs for high-rise fire fighting based on RRT-forest algorithm. Acta Automatica Sinica, DOI: 10.16383/j.aas.c210368 [4] Peng Z H, Wang J, Wang D. Distributed containment maneuvering of multiple marine vessels via neurodynamics-based output feedback. IEEE Transactions on Industrial Electronics, 2017, 64(5): 3831-3839 doi: 10.1109/TIE.2017.2652346 [5] Wang H L. Adaptive control of robot manipulators with uncertain kinematics and dynamics. IEEE Transactions on Automatic Control, 2017, 62(2): 948-954 doi: 10.1109/TAC.2016.2575827 [6] Zhao Z J, He X Y, Ren Z G, Wen G L. Boundary adaptive robust control of a flexible riser system with input nonlinearities. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2019, 49(10): 1971-1980 doi: 10.1109/TSMC.2018.2882734 [7] Garfalo G, Wu X W, Ott C. Adaptive passivity-based multi-task tracking control for robotic manipulators. IEEE Robotics and Automation Letters, 2021, 6(4): 7129-7136 doi: 10.1109/LRA.2021.3095930 [8] Zhao Z J, Liu Z J, He W, Hong K S, Li H X. Boundary adaptive fault-tolerant control for a flexible Timoshenko arm with backlash-like hysteresis. Automatica, 2021, 130: Article No. 109690 doi: 10.1016/j.automatica.2021.109690 [9] Xu B, Wang X, Shou Y X, Shi P, Shi Z K. Finite-time robust intelligent control of strict-feedback nonlinear systems with flight dynamics application. IEEE Transactions on Neural Networks and Learning Systems, 2022, 33(11): 6173-6182 doi: 10.1109/TNNLS.2021.3072552 [10] Peng Z H, Wang J, Wang D. Distributed maneuvering of autonomous surface vehicles based on neurodynamic optimization and fuzzy approximation. IEEE Transactions on Control Systems Technology, 2018, 26(3): 1083-1090 doi: 10.1109/TCST.2017.2699167 [11] 乃永强, 杨清宇, 周文兴, 杨莹. 具有间歇性执行器故障的非线性系统自适应CFB控制. 自动化学报, 2022, 48(10): 2442-2461Nai Yong-Qiang, Yang Qing-Yu, Zhou Wen-Xing, Yang Ying. Adaptive CFB control for a class of nonlinear systems with intermittent actuator faults. Acta Automatica Sinica, 2022, 48(10): 2442-2461 [12] 王敏, 黄龙旺, 杨辰光. 基于事件触发的离散MIMO系统自适应评判容错控制. 自动化学报, 2022, 48(5): 1234-1245Wang Min, Huang Long-Wang, Yang Chen-Guang. Event-triggered adaptive critic fault-tolerant control for a class of discrete-time MIMO systems. Acta Automatica Sinica, 2022, 48(5): 1234-1245 [13] Swevers J, Verdonck W, Schutter J D. Dynamic model identification for industrial robots. IEEE Control Systems Magazine, 2007, 27(5): 58-71 doi: 10.1109/MCS.2007.904659 [14] Zhang Y Y, Li S, Zou J X, Khan A K. A passivity-based approach for kinematic control of manipulators with constraints. IEEE Transactions on Industrial Electronics, 2020, 16(5): 3029-3038 doi: 10.1109/TII.2019.2908442 [15] Roy J, Whitcomb L L. Adaptive force control of position/velocity controlled robots: Theory and experiment. IEEE Transactions on Robotics and Automation, 2002, 18(2): 121-137 doi: 10.1109/TRA.2002.999642 [16] Kelly R, Moreno J. Manipulator motion control in operational space using joint velocity inner loops. Automatica, 2005, 41(8): 1423-1432 doi: 10.1016/j.automatica.2005.03.008 [17] Whitney D E. Resolved motion rate control of manipulators and human prostheses. IEEE Transactions on Man-machine Systems, 1969, 10(2): 47-53 doi: 10.1109/TMMS.1969.299896 [18] Grotjahn M, Heimann B. Model-based feedforward control in industrial robotics. The International Journal of Robotics Research, 2002, 21(1): 45-60 doi: 10.1177/027836402320556476 [19] Wang H L, Ren W, Cheah C C, Xie Y C, Lyu S K. Dynamic modularity approach to adaptive control of robotic systems with closed architecture. IEEE Transactions on Automatic Control, 2020, 65(6): 2760-2767 doi: 10.1109/TAC.2019.2922450 [20] 周琪, 林国怀, 马慧, 鲁仁全. 输入死区下的多输入多输出系统自适应神经网络容错控制. 中国科学: 信息科学, 2021, 51(4): 618-632 doi: 10.1360/SSI-2019-0198Zhou Qi, Lin Guo-Huai, Ma Hui, Lu Ren-Quan. Adaptive neural network fault-tolerant control for MIMO systems with dead zone inputs. SCIENTIA SINICA Informationis, 2021, 51(4): 618-632 doi: 10.1360/SSI-2019-0198 [21] Xu B, Shou Y X, Wang X, Shi P. Finite-time composite learning control of strict-feedback nonlinear system using historical stack. IEEE Transactions on Cybernetics, DOI: 10.1109/TCYB.2022.3182981 [22] Wang C, Hill D J. Learning from neural control. IEEE Transactions on Neural Networks, 2006, 17(1): 130-146 doi: 10.1109/TNN.2005.860843 [23] Wang M, Wang C. Learning from adaptive neural dynamic surface control of strict-feedback systems. IEEE Transactions on Neural Networks and Learning Systems, 2015, 26(6): Article No. 1247–1259 [24] Dai S L, Lu K, Fu J. Adaptive finite-time tracking control of nonholonomic multirobot formation systems with limited field-of-view sensors. IEEE Transactions on Cybernetics, 2022, 52(10): 10695-10708 doi: 10.1109/TCYB.2021.3063481 [25] 孙庆华, 王磊, 王聪, 王乾, 吴伟明, 赵媛媛, 等. 基于确定学习及心电动力学图的心肌缺血早期检测研究. 自动化学报, 2020, 46(9): 1908-1926 doi: 10.16383/j.aas.c190899Sun Qing-Hua, Wang Lei, Wang Cong, Wang Qian, Wu Wei-Ming, Zhao Yuan-Yuan, et al. Early detection of myocardial ischemia based on deterministic learning and cardiodynamicsgram. Acta Automatica Sinica, 2020, 46(9): 1908-1926 doi: 10.16383/j.aas.c190899 [26] Dai S L, He S D, Ma Y F, Yuan C Z. Cooperative learning-based formation control of autonomous marine surface vessels with prescribed performance. IEEE Transactions on Neural Networks and Learning Systems, 2021, 52(4): 2565-2577 [27] Shi H T, Wang M, Wang C. Pattern-based autonomous smooth switching control for constrained flexible joint manipulator. Neurocomputing, 2022, 492: 162-173 doi: 10.1016/j.neucom.2022.04.031 [28] Sanner R M, Slotine J J. Gaussian networks for direct adaptive control. IEEE Transactions on Neural Networks, 1992, 3(6): 837-863 doi: 10.1109/72.165588 [29] Huang H H, Zhang T, Yang C G, Chen C L P. Motor learning and generalization using broad learning adaptive neural control. IEEE Transactions on Industrial Electronics, 2020, 67(10): 8608-8617 doi: 10.1109/TIE.2019.2950853 [30] Khalil H K. Nonlinear Systems. Englewood Cliffs, New Jersey: Prentice-Hall, 2002. -