2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

对二阶系统最小ITAE阻尼系数的修正

林德新

张兴龙, 陆阳, 李文璋, 徐昕. 基于滚动时域强化学习的智能车辆侧向控制算法. 自动化学报, 2023, 49(12): 2481−2492 doi: 10.16383/j.aas.c210555
引用本文: 林德新. 对二阶系统最小ITAE阻尼系数的修正. 自动化学报, 1984, 10(4): 369-373.
Zhang Xing-Long, Lu Yang, Li Wen-Zhang, Xu Xin. Receding horizon reinforcement learning algorithm for lateral control of intelligent vehicles. Acta Automatica Sinica, 2023, 49(12): 2481−2492 doi: 10.16383/j.aas.c210555
Citation: Lin Dexin. Correcting the Minimun ITAE Damping Coefficient for 2ND-Order System. ACTA AUTOMATICA SINICA, 1984, 10(4): 369-373.

对二阶系统最小ITAE阻尼系数的修正

Correcting the Minimun ITAE Damping Coefficient for 2ND-Order System

  • 摘要: 本文提出了计算二阶系统ITAE的级数的表达式,并用可编程序计算器计算出使ITAE 最小的阻尼系数为0.752.比用模拟计算机算得的0.7更为精确.本文也提出计算其它类型 误差积分性能指标的解析表达式.
  • 作为智能驾驶中的一个重要模块, 运动控制器通过控制刹车、油门、档位、方向盘等执行机构使车辆安全、平稳地跟踪参考路径. 智能车辆在行驶中主要涉及两种运动形式: 纵向运动和侧向运动. 为了简化控制器的设计, 通常将运动进行解耦并分别设计纵向和侧向控制器. 与纵向控制中的舒适性、平滑性控制需求不同, 跟踪精度是侧向控制器的核心考量. 由于车辆本身是一个复杂的高阶非线性系统, 同时又受到行驶环境的影响, 因此如何提高跟踪精度是运动控制中的难题[1-3]. 本文主要针对智能车辆的高精度侧向控制问题开展研究.

    目前, 常见的侧向控制方法包括比例−积分−微分(Proportional-integral-derivative, PID)控制方法[4-8]、模糊控制方法[9-12]、反馈控制方法[13-16]、模型预测控制(Model predictive control, MPC)方法、基于强化学习(Reinforcement learning, RL)的控制方法. 在上述方法中, PID的优势在于不需要对车辆进行建模, 控制器的鲁棒性较强、容易实现, 但难以保证性能指标的最优性; 模糊控制器可以推理并产生专家行为, 但是由于驾驶环境的复杂性导致了基于驾驶员行为的模糊规则较难制定.

    典型的反馈控制器根据智能车辆与参考路径之间的几何关系计算出航向偏差与侧向偏差, 并计算出方向盘转角直接用于转向控制. 根据选取的路径参考点与车辆位置之间的关系, 可以分为单点跟踪法、预瞄距离法、Stanley法、点跟踪法[13]和预瞄距离法[14-15], 具有算法简单、易于实现的特点, 但预瞄距离的选取完全依赖于设计者的经验; Stanley方法[16]由美国斯坦福大学的无人车队率先提出, 该方法适用于较低的车速, 并且要求参考轨迹的曲率具有连续性.

    将MPC方法用于车辆运动控制的研究成果颇多[17-24]. 在上述成果中, Falcone等[18]提出了基于连续线性化模型的MPC运动控制器, 仿真的结果表明, 连续线性化的MPC设计方法能够降低计算代价. Carvalho等[19]研究了采用局部线性化MPC的局部路径规划算法, 并对非线性的避障边界进行了线性化和凸逼近处理. Beal等[20]考虑了车辆的处理极限, 通过引入摩擦力圆来分配车辆的纵向与侧向加速度, 使车辆在控制过程中最大程度地利用地面摩擦力. 在计算车辆与参考路径之间的航向与侧向偏差时需要求出车辆在参考路径上的投影点, 计算过程十分复杂. Liniger等[21]提出一种模型预测轮廓控制(Model predictive contouring control, MPCC)的侧向运动方法, 该方法通过估计投影点的位置来计算侧向偏差, 一定程度上降低了计算复杂度. Kabzan等[22]基于输入输出数据构建了赛车的非参数化动力学模型, 然后采用MPC方法同时控制赛车的速度与转向. Ostafew等[23]采用高斯过程回归构建移动机器人的非参数化模型, 并设计了鲁棒的非线性MPC算法, 实现机器人在越野环境下的避障与跟踪控制. 总的来说, 基于MPC方法的车辆运动控制器一般需要采用数值计算的方法实时求解一个开环控制序列, 其性能可能会受到模型准确度的影响. 另外, 在线计算复杂度也是一个无法回避的问题.

    近年来, 由于其高效求解优化问题的能力和自适应学习能力, 强化学习和近似动态规划方法(Approximate dynamic programming, ADP)广泛应用于机器人决策与控制算法的设计[25-26]. Oh等[27]采用对偶启发式(Dual heuristic programming, DHP) 方法设计了车辆侧向控制器. 杨慧媛等[28]针对轮式移动机器人的跟踪控制问题, 提出了一种学习型PID控制方法, 以优化机器人的跟踪偏差为目标, 采用DHP算法实时调整PID参数以提高路径跟踪精度. 连传强等[29]提出一种基于核特征的DHP (Kernel-based DHP, KDHP)算法, 并设计了车辆侧向运动控制器, 通过在城市道路、高速公路等驾驶环境下的仿真测试证明了基于KDHP算法的有效性. 黄振华等[30]设计了基于同步迭代的DHP (Synchronous iterative DHP, SI-DHP)算法的车辆侧向运动控制器.

    为了解决强化学习算法学习效率低的问题, Lian等[31]针对轮式移动机器人对象提出了一种基于滚动时域的对偶启发式规划方法(Receding horizon DHP, RH-DHP). 仿真结果表明, RH-DHP算法在控制效果上优于传统DHP和MPC的控制效果, 并且相比于MPC具有更短的运算时间. 但是上述方法还存在以下三个方面的问题: 1) 其执行器−评价器网络需要将时间作为额外的输入信号, 增加了网络设计的复杂度; 2)该工作没有分析执行器−评价器学习算法的收敛性以及在此基础上的闭环稳定性; 3)该方法仅在小型轮式仿真平台中进行了验证, 目前, 尚未见到其在实际智能车辆平台中进行应用验证的相关报道.

    最近, 也有一些重要的工作采用深度学习和深度强化学习基于图像或状态信息设计控制器实现车辆的侧向控制[32-34]. 这类方法的主要优点是利用深度网络来提高强化学习或监督学习的特征表示能力, 训练过程中完全由数据驱动, 不需要动力学模型信息. 其不足之处在于: 1) 由于深度网络过于复杂, 一般只能离线训练控制策略用于在线部署, 其控制性能容易受训练样本数量和分布的影响; 2) 针对深度网络学习的收敛性和鲁棒性等理论特性分析仍是目前学术界需要解决的一个重要难点问题.

    由上述问题驱动, 本文针对智能车辆的高精度侧向控制问题, 提出了一种基于滚动时域强化学习的侧向控制方法. 首先构建了智能车动力学四阶偏差模型. 车辆的转向控制量由前馈和反馈两部分构成. 前馈控制量由参考路径的曲率以及偏差模型直接计算得出; 而反馈控制量通过采用本文提出的滚动时域强化学习(Receding horizon RL, RHRL)算法求解最优跟踪控制问题得到. 有别于传统基于强化学习的最优控制方法, RHRL采用滚动时域优化机制, 将无限时域的最优控制问题转化为一系列有限时域的启发式动态规划(Heuristic dynamic programming, HDP)问题进行求解. 与已有的有限时域执行器−评价器学习算法[31, 35]不同, 在每个预测时域, 我们采用时间独立型执行器−评价器结构在线学习逼近最优值函数和控制函数. 与MPC方法求解开环控制序列不同, 该方法学习得到的策略是一个显式状态反馈控制律, 具有离线直接部署和在线学习部署的能力. 此外, 本文从理论上分析了提出的RHRL算法在每个预测时域内的收敛性和闭环稳定性. 最后, 基于RHRL算法进行了侧向控制的大量的仿真对比实验和实车验证. 在结构化城市道路下的仿真和实车实验结果表明, RHRL算法在仿真和实验中的控制性能均优于预瞄控制; 在仿真测试中, 其控制性能与MPC相当并在计算效率方面具有优势, 与最近流行的软执行器−评价器(Soft actor-critic, SAC)算法和深度确定性策略梯度(Deep deterministic policy gradient, DDPG)算法相比, 控制性能更好, 且具有更低的样本复杂度和更高的学习效率. 在乡村砂石道路下的实验结果表明, RHRL具有较强的路面适应能力和较好的控制性能.

    需要强调的是, 与最近发展的基于深度学习和深度强化学习的方法[32-34]相比, 本文提出的RHRL算法采用简单的网络结构, 计算效率更高, 可以在线同步训练和部署, 具有较强的环境适应能力; 而且, RHRL算法通过引入滚动时域优化思想来提高强化学习的实时学习效率和稳定性. 更重要地, 我们分析证明了RHRL中执行器−评价器学习算法的收敛性以及闭环稳定性, 并在实际平台中进行了应用验证. 实验结果证明了RHRL算法的有效性.

    本文的结构如下:第1节首先介绍智能驾驶车辆的侧向动力学模型和控制问题描述; 第2节主要介绍基于滚动时域强化学习的车辆侧向控制算法及其收敛性分析; 第3节和第4节分别给出仿真和实验验证结果以及本文的结论.

    本文符号定义如下: 对于一个普适变量$z\in {\bf{R}}^{p}$, 定义$\Delta z(l+1) = z(l+1)-z(l)$, 其中$ l $是离散时间指针; 定义$\|z\|_Q^2 = z^{\rm T}Qz$, 其中矩阵$ Q\in{\bf{R}}^{p\times p} $. 在一个预测时域$ [k,k+N] $内, 采用变量$ z $简化表示$ z(l) $, 其中时间指针$ l\in[k,k+N-1] $, 采用$ z^{+} $表示其下一个时间步的变量值, 也就是$ z^{+} = z(l+1) $; 采用$ z_f $表示其预测时域$ [k,k+N] $的终端变量值$ z(k+N) $. 对于一个关于变量$ x $的函数$ f(x) $, 定义$ \triangledown f(x) $为其关于$ x $的梯度. 给定一个矩阵$ B\in{\bf{R}}^{p\times p} $, 采用$ \lambda_{\rm min}(B) $表示$ B $的最小特征值.

    由于车辆本身的运动较为复杂并且在运动过程中还要受到环境因素的影响, 为了降低建模工作的难度, 将原来车辆的四轮侧向模型简化为如图1所示的二自由度侧向模型, 即自行车模型.

    图 1  智能车辆二自由度侧向模型
    Fig. 1  Two-degree-of-freedom lateral model of intelligent vehicle

    根据牛顿运动定律, 车辆的运动满足如下动力学方程

    $$ \left\{ \begin{split} &\dot{v}_{y} = \frac{1}{m}\left(F_{y f}+F_{y r}\right)-\dot{\varphi} v_{x} \\ &\ddot{\varphi} = \frac{1}{I_{z}}\left(l_{f} F_{y f}-l_{r} F_{y r}\right) \end{split} \right. $$ (1)

    其中, $ v_x $和$ v_y $分别表示在车体坐标系$XOY$下车辆的纵向与横向速度, $ \varphi $表示车辆的偏航角, $ \dot\varphi $表示车辆的横摆角速度, $ \delta_f $表示前轮的偏转角, $ m $和$ I_z $分别表示车身的质量以及绕$ z $轴的转动惯量, $ l_f $和$ l_r $分别表示质心到车辆前后轴的距离, $ F_{yf} $和$ F_{yr} $分别表示车辆前轮与后轮的侧向轮胎力.

    假设车辆行驶中轮胎侧滑角很小, 轮胎的侧向力可以按照式(2)近似计算:

    $$ \left\{\begin{split} &F_{y f} = 2 C_{f}\left(\delta_{f}-\frac{v_{y}+l_{f} \dot{\varphi}}{v_{x}}\right) \\ &F_{y r} = -2 C_{r} \frac{v_{y}-l_{r} \dot{\varphi}}{v_{x}} \end{split}\right. $$ (2)

    其中, $ C_f $和$ C_r $分别表示车辆前后轮的侧偏刚度.

    考虑车体坐标系与全局坐标系的相对位置关系, 可以得到如下方程:

    $$ \left\{\begin{split} &\dot{Y} = v_{x} \sin (\varphi)+v_{y} \cos (\varphi) \\ &\dot{X} = v_{x} \cos (\varphi)-v_{y} \sin (\varphi) \end{split}\right. $$ (3)

    选取$ {Z} = \left[X, Y, \varphi, \dot{\varphi}, v_{y}\right] $作为系统的状态变量, 前轮偏转角$ \delta_f $作为控制量, 联立式(1) ~ (3), 可以得到车辆的动力学方程

    $$ \begin{equation} \dot{{Z}} = F(Z)+G({Z}) \delta_{f} \end{equation} $$ (4)

    在进行跟踪控制时, 有必要描述车辆与期望路径之间的相对位置关系, 如图2所示, $ P $点表示车辆处于当前位置时距离道路中心线的最近点, 我们称其为道路投影点. 记$ P(X_p, Y_p, \varphi_d, \kappa) $为投影点处的道路信息, 其中, $ X_p, Y_p $是投影点$ P $的全局坐标; $ \varphi_d $是$ P $的切线与$ X $轴的夹角, 也称为道路的方向; $ \kappa $是$ P $点处道路的曲率.

    图 2  侧向误差模型
    Fig. 2  Lateral error model

    从投影点$ P $到车辆质心之间的距离称为侧向偏差$ e_y $, 并且规定沿着行进方向车辆位于道路中心线左侧时$ e_y>0 $; 车辆位于道路中心线右侧时$ e_y<0 $. 因此, 侧向偏差可以表示为 $e_{y} = -(X- X_{p}) \sin (\varphi_{d})+ (Y-Y_{p}) \cos (\varphi_{d})$. 定义车辆的航向偏差$ e_{\varphi} $为航向与道路方向之差, 即$ e_{\varphi} = \varphi-\varphi_d $. $ e_{y} $和$ e_{\varphi} $对时间的一阶导数为

    $$ \left\{ \begin{split} &\dot{e}_{y} = v_{y} \cos \left(e_{\varphi}\right)+v_{x} \sin \left(e_{\varphi}\right) \\ &\dot{e}_{\varphi} = w-\kappa\left(v_{x} \cos \left(e_{\varphi}\right)-v_{y} \sin \left(e_{\varphi}\right)\right) \end{split}\right. $$ (5)

    其中, $w = \dot \varphi .$ 假设在运动过程中车辆的纵向速度$ v_x $保持不变且不出现侧滑现象, 车辆的参考路径的期望横摆角速度是恒定的, 那么当车辆稳定跟踪期望道路时的侧向加速度为$ a_y = v_x^2\kappa $. 假设航向偏差$ e_\varphi $ 较小, 根据小角度定理, 有${\sin}(e_{\varphi})\approx e_{\varphi},$ $ {\cos}(e_{\varphi})\approx 1, $那么, 侧向偏差对时间的二阶导数可以表示为

    $$ \begin{equation} \ddot{e}_{y} = \left(\dot{v}_{y}+v_{x} w\right)-v_{x}^{2} \kappa \end{equation} $$ (6)

    其一阶导数可以近似表示为

    $$ \begin{equation} \dot{e}_y = v_y+v_xe_{\varphi} \end{equation} $$ (7)

    将式(6)和式(7)代入式(1)[36]和式(2)中, 得

    $$ \begin{equation} \dot{{e}} = {A_c}{e}+{B_{c1}}u+{B_{c2}}w_d \end{equation} $$ (8)

    其中, $ w_d = \dot\varphi_d $, $ {e} = [e_y, \dot{e}_y, e_{\varphi}, \dot e_{\varphi}]^{\rm T} $, 控制量$ u = \delta_f $,

    $$ \begin{split}& {A_c} = \\ &\left[ \begin{array}{cccc} 0 & 1 & 0 & 0 \\ 0 & -\frac{2\left(C_{f}+C_{r}\right)}{m v_{x}} & \frac{2\left(C_{f}+C_{r}\right)}{m} & -\frac{2\left(C_{f} l_{f}-C_{r} l_{r}\right)}{m v_{x}} \\ 0 & 0 & 0 & 1 \\ 0 & -\frac{2\left(C_{f} l_{f}-C_{r} l_{r}\right)}{I_{z} v_{x}} & \frac{2\left(C_{f} l_{f}-C_{r} l_{r}\right)}{I_{z}} & -\frac{2\left(C_{f} l_{f}^{2}+C_{r} l_{r}^{2}\right)}{I_{z} v_{x}} \end{array} \right] \\ &{B_{c1}} = \left[\begin{array}{c} 0\\ \frac{2 C_{f}}{m} \\ 0 \\ \frac{2 C_{f} l_{f}}{I_{z}} \end{array}\right], \;\; {B_{c2}} = \left[\begin{array}{c} 0 \\ -\frac{2\left(C_{f} l_{f}-C_{r} l_{r}\right)}{m v_{x}}-v_{x} \\ 0 \\ -\frac{2\left(C_{f} l_{f}^{2}+C_{r} l_{r}^{2}\right)}{I_{z} v_{x}} \end{array}\right]\end{split} $$

    给定一个采样周期$ \Delta t $, 可以离散化得到式(8)的离散时间模型为

    $$ \begin{equation} {e}(k+1) = {A}{e}(k)+{B_1}u(k)+{B_2}w_d(k) \end{equation} $$ (9)

    其中, $ {A} = {I}+\Delta t{A_c} $, $ {B_1} = \Delta t{B_{c1}} $, $ {B_2} = \Delta t{B_{c2}} $, $ k $是离散时间指针. 在控制过程中, 由于前轮转角所对应的执行机构有限幅, 因此我们假设反馈控制量满足输入约束$ \left|u\right| \leq \bar u $, 其中$ \bar u $表示前轮最大偏转角.

    针对上述模型(9), 假设给定参考的路径信息$ (X_i,Y_i)_{i = 1}^M $, 本文的控制目标是设计一个基于滚动时域强化学习的侧向控制算法 (如图3所示), 使得在控制过程中, 上述侧向误差状态量逐渐收敛至0, 即$ e\rightarrow 0 $, 同时需要满足控制约束$ \left|u\right| \leq \bar u $.

    图 3  智能车侧向控制框图
    Fig. 3  Lateral control diagram of intelligent vehicle

    本节详细给出基于滚动时域强化学习的侧向控制算法. 我们首先设计智能车辆有限时域侧向控制问题的性能指标, 在此基础上给出滚动时域强化学习算法的主要思想和基于执行器−评价器的设计实现及其收敛性分析.

    对于系统偏差模型(9), 我们将控制量拆分成前馈量$ u_{f} $加反馈量$ u_{b} $的形式, 即$ u = u_{f}+u_{ b} $(如图3所示). 前馈控制量是车辆处于稳态行驶中的期望控制量. 当车辆稳定跟踪参考路径时, 有$ {e}(k) = {e}(k+1) = 0 $成立, 而且$ u_{b} = 0 $, 可以求得前馈控制量$ u_{f} $, 使得

    $$ \begin{equation} \sum\limits_{j = 0}^{\infty}{A}^j{B}_{1}u_{f}\approx-\sum\limits_{j = 0}^{\infty}{A}^j{B}_{2} w_{d} \end{equation} $$ (10)

    其中, $ w_{d} $的值也可以通过$ w_{d} = v_x\kappa $计算得到.

    由于在任意当前时刻$ k $, $ u_{f} $可以很容易求解得到, 我们假设$ u_{f} $在整个预测时域 $ [k, k+N] $保持恒定不变, 那么需要求解的反馈控制量$ u_{b} $应满足以下约束条件

    $$ \begin{equation} u_{b}\in\mathcal{U}_b = \{u\in{\bf{R}}|\underline u_{b}\leq u\leq \bar u_b\} \end{equation} $$ (11)

    其中, $\bar u_b = -\bar u-u_{f}$, $ \underline u_{b} = \bar u-u_{f} $. 本文提出的滚动时域强化学习算法, 在每个预测时域通过优化控制量$ u_{b}\in\mathcal{U}_b $最小化如下性能指标函数:

    $$ V({e}(k)) = \sum\limits _{l = k}^{k+N-1} L\left({e}(l), u_{b}(l)\right)+V_f\left({e}(k+N)\right) $$ (12)

    其中, 代价函数$L\left({e}(l), u_{b}(l)\right) = {e}^{\rm T}(l) {Q} {e}(l)+ {R}(u_b(l))^2$, $ {Q} \in {\bf{R}}^{4 \times 4} $是正定矩阵, $ R $是正实数, 预测时域终端的代价函数为

    $$ \begin{equation} V_f({e}(k+N)) = {e}^{\rm T}(k+N) {\bar P} {e}(k+N) \end{equation} $$ (13)

    其中, 惩罚矩阵$ {\bar P}\in{\bf{R}}^{4\times4} $是正定矩阵, 可通过如下Lyapunov方程求解得到

    $$ \begin{equation} {F^{\rm T}\bar PF-\bar P = -Q-K^{\rm T}RK} \end{equation} $$ (14)

    其中, $ {F = A+B_1K} $, $ {K}\in{\bf{R}}^{1\times 4} $是反馈增益矩阵, 满足$ {F} $是Schur稳定的.

    注 1. 需要强调的是, 另一种供选择的设计方法是将计算得到的前馈控制量用作整体控制量的参考信号, 由此可以设计一个新的代价函数$L({e}(l), u(l)) = {e}^{\rm T}(l) {Q} {e}(l)+{R}(u(l)-u_f(l))^2$. 与本文中的设计不同, 这里整体控制量$ u $变成了待优化的变量, 其通过优化得到的控制量可以直接应用到系统中.

    首先, 根据式(12), 对任意$ l\in[k, k+N-1] $, 可以将值函数表示成差分形式, 即

    $$ \begin{equation} V({e}(l)) = L\left({e}(l), u_{b}(l)\right)+V\left({e}(l+1)\right) \end{equation} $$ (15)

    其中, $ V\left({e}(k+N)\right) = V_f({e}(k+N)) $. 在第$ l $个预测时刻, 定义$ V^{\ast}(e(l)) $为最优值函数, 给出上述有限时域优化控制问题的HJB方程, 即

    $$ \begin{equation} V^{\ast}({e}(l)) = \min\limits_{u_b(l)\in\mathcal{U}_b}L\left({e}(l), u_{b}(l)\right)+V^{\ast}\left({e}(l+1)\right) \end{equation} $$ (16)

    以及最优控制策略

    $$ \begin{equation} u^{\ast}({e}(l)) = {\rm{arg}} \mathop{\rm{min}}\limits_{{u_b}(l) \in {{\cal U}_b}} ^{}L\left(e(l), u_{b}(l)\right)+V^{\ast}\left({e}(l+1)\right) \end{equation} $$ (17)

    实际上, 由于存在控制约束, 通过式(16)和式(17)很难求解得到$ V^{\ast} $和$ u^{\ast} $的解析解. 原则上, 可以通过值迭代的方法近似求解其值函数和控制策略的最优解. 对任意 $ l\in[k, k+N-1], $ 给定初始值$ V^0({e}(l)) = 0 $, 迭代步数$ i = 0,1,2\cdots $, 需要重复求解如下两个步骤, 直至$ V^{i+1}({e}(l))-V^{i}({e}(l))\rightarrow 0 $.

    1) 策略更新

    $$ u^i({e}(l)) ={\rm{arg}} \mathop {{\rm{min}}}\limits_{{u_b}(l) \in {{\cal U}_b}} ^{} L\left({e}(l), u_{b}(l)\right)+V^i\left({e}(l+1)\right) \tag{18a} $$

    2) 值更新

    $$ V^{i+1}\left({e}(l)\right) = L\left({e}(l), u_{b}^i({e}(l))\right)+V^i\left({e}(l+1)\right) \tag{18b} $$

    引理 1. 基于上述算法步骤(18a)和(18b), $V^{i}({e}(l))\leq V^{i+1}({e}(l)),$ 且$V^{\infty}({e}(l))\rightarrow V^{\ast}({e}(l)),$ $l\in $$ [k, k+N]. $

    证明. 参见文献[37].

    本节采用执行器−评价器结构来实现上述有限时域值函数迭代算法. 在已有的有限时域强化学习控制算法中[31, 35], 预测时域内的值函数被认为是一个时间依赖函数. 因此, 在设计执行器和评价器时不仅需要把时间作为额外输入信号, 而且还会因此增加网络结构的复杂度. 接下来将证明, 对于线性系统而言, 值函数$ V\left({e}(l)\right) $在一定条件下是一个与时间无关的函数.

    假设1 (控制策略). 存在一个控制策略$u_b({e}) = \Gamma(v({e}))$, 使得系统(9)在控制策略$ u = u_f+u_b $驱动下是渐近稳定的, 其中, $ \Gamma(v(e)) $是一个连续函数, 使得$ u_b({e})\in\mathcal{U}_b $, $ \forall v({e})\in{\bf{R}} $.

    注 2. 上述假设条件实际上是系统(9)可镇定性的另一种表现形式. 本文所述的动力学模型(9)是可控的, 因此肯定存在连续函数$u_b({e})\in\mathcal{U}_b,$ 使得式(9)在控制策略$ u = u_f+u_b $驱动下是渐近稳定的. 因此, 上述假设条件是合理的.

    我们定义$ \mathcal{X}_f $为控制律$ u_b = {K}{e}\in\mathcal{U}_b $下的一个控制不变集, 由此得到定理1.

    定理1 (时间独立值函数). 如果预测时域$ N $的取值满足: 在任意预测时域 $ [k,k+N] $内, 对于任意初始状态$ {e}(k)\in{\bf{R}}^4 $, 系统(9)在控制策略$ u({e}(l)) $, $ l\in[k,k+N-1] $ 驱动下的终端状态 $ {e}(k+N)\in \mathcal{X}_f $, 那么, 存在控制策略$u_b({e}(l))\in\mathcal{U}_b ,$ 使得$ V({e}(l)) $, $ \forall l\in[k, k+N-1] $是与时间无关的函数.

    证明. 1)对于$ {e}(k)\in\mathcal{X}_f $的情况, 根据$ \mathcal{X}_f $的定义, 存在控制律$ u_b = {Ke} = \Gamma({Ke})\in\mathcal{U}_b ,$ 使得未来任意时刻的状态量都满足$ x(l)\in\mathcal{X}_f $. 据此, 可以求解得到

    $$ \begin{split} V({e}(l)) =&\; \sum _{i = l}^{k+N-1} L\left({e}(i), u_{b}(i)\right)+\\ &\;\; V_f\left({e}(k+N)\right) = {e}^{\rm T}(l){\bar P}{e}(l) \end{split} $$

    2)对于$ {e}(k)\notin\mathcal{X}_f $的情况, 根据假设1, 存在一个控制策略$ u_b = \Gamma(v({e})) $和有限的预测步长$ N $, 使得$ e(k+N)\in\mathcal{X}_f $. 特别地, 令$ v = {K}{e} $, 则

    $$ \begin{split} V({e}(l))= &\sum _{i = l}^{k+N-1} L\left({e}(i), u_{b}(i)\right)+V_f\left({e}(k+N)\right)=\\ & \sum _{i = l}^{+\infty} L\left({e}(i), u_{b}(i)\right) \end{split} $$

    其中, $ u_{b} = \Gamma(v({e})) $.

    因此, 存在一个与时间无关的值函数和策略.

    受此启发, 我们采用时间独立的执行器−评价器结构来实现上述有限时域值函数迭代过程. 首先, 设计一个评价器网络来逼近值函数

    $$ \hat{V}({e}) = {\hat{W}_{c}}^{\rm T} {\phi}({e}) $$ (19)

    其中, $ {\hat{W}_c}\in{\bf{R}}^{N_c} $表示评价器网络的权重, $ N_c $是网络节点数; $ {\phi}({e}) $是网络的基函数. 根据评价器网络的定义, 其所产生的误差$ {E} $和终端误差$ {E_f} $可以表示为

    $$ \left\{\begin{split} &{E}(l) = {\hat{W}_{c}}^{\rm T}{\phi}(l)-L\left({e}(l), \hat{u}_{b}(l)\right)-{\hat{W}_{c}}^{\rm T}{\phi}(l+1)\\ &{E_{f}} = {\hat{W}_{c}}^{\rm T} {\phi}\left({e_f}\right)-{e^{\rm T}_f} {\bar P} {e_f} \end{split} \right.$$ (20)

    其中, $ e_f = {e}(k+N) $可随机在0点附近取值. 通过最小化${E_c}(l) = ({E}(l))^2+E_{f}^2$可以得到评价器网络权重的更新规则为

    $$ \begin{split} {\hat{W}}_{c}(l+1) =\; &{{\hat{W}}}_{c}(l)+ \eta_{c}(\Delta{\phi}({e}(l+1)){E}(l)\;-\\ &{\phi}(e_f)E_f) \end{split} $$ (21)

    其中, $ \eta_c>0 $是评价器网络的学习率.

    接下来, 为了处理控制约束, 我们构造执行器网络为

    $$ \begin{equation} \hat{u}_{b}(l) = \tilde u_1 \tanh \left({\hat{W}_{a}}^{\rm T} {\psi}({e}(l))\right)+\tilde u_2 \end{equation} $$ (22)

    其中, $ \tilde u_1 = 0.5(\bar u_b-\underline{u}_b) $, $ \tilde u_2 = 0.5(\bar u_b+\underline{u}_b) $, ${\hat{W}}_a\in {\bf{R}}^{N_a}$是执行器网络权重; $ {\psi(e)} $是网络的基函数向量; $ N_a $表示网络的节点数. 由于执行器网络的目标是逼近最优控制策略, 我们定义如下控制量偏差, 即

    $$ {E_{a}}(l) = \hat{W}_{a}^{\rm T} {\psi}({e}(l))+\frac{1}{2} {R}^{-1} B_{1}^{\rm T} \nabla{\phi}({e}(l)) {\hat{W}_{c}}(l) $$ (23)

    最小化$E_{a}^2$可以得到网络权值的更新规则为

    $$ \begin{equation} {{\hat{W}}_{a}}(l+1) = {{\hat{W}}_{a}}(l)-\eta_{a} \frac{\partial E_{a}^2(l)}{\partial {\hat{W}_{a}}(l)} \end{equation} $$ (24)

    其中, $ \eta_{a}>0 $是执行器网络的学习率.

    下面给出采用执行器−评价器实现上述有限时域强化学习算法的主要步骤.

    步骤 1. 初始化权值$ {\hat{W}_c} $和$ {\hat{W}_a} $, 并获取初始状态$ Z(0) $.

    步骤 2. 在$ t = k\Delta t $时刻, 根据状态$ Z(t) $找到投影点$ P $, 并计算出偏差状态$ {e}(t) $.

    步骤 3. $ \forall\, l\in[k, k+N-1] $, 重复步骤 3.1 ~ 3.3:

    步骤 3.1. 根据式(10)和式(22), 分别计算出$ u_{f}(l) $和$ \hat{u}_{b}(l) $.

    步骤 3.2. 根据式(21)和式(24), 更新${\hat{W}_c}(l)$和$ {\hat{W}_a}(l) $.

    步骤 3.3. 根据式(10)和式(22), 计算$u(l) = u_{f}(l)+\hat{u}_{b}(l)$, 并应用到预测模型, 得到$ {e}(l+1) $.

    步骤 4. 根据式(10)和式(22), 分别计算$ u_{f}(k) $和$ \hat{u}_{b}({e}(k)) $.

    步骤 5. 在时间周期 $ [k\Delta t,(k+1)\Delta t] $将控制量$u(t) = u(k\Delta t)$ 作用到智能车上, 并更新系统状态$ Z((k+1)\Delta t) $.

    步骤 6. 设定$ k\leftarrow k+1 $, 基于滚动时域优化策略, 重复操作步骤2 ~ 5.

    本节给出上述滚动时域强化学习算法在每个预测时域 $ [k,k+N-1] $内的收敛性分析. 首先, 可以将(局部)最优值函数和控制策略表示成网络的形式, 即

    $$ {V}^{\ast}({e}) = W_{c}^{\rm T}{\phi}({e})+{\kappa_c} $$
    $$u_b^{\ast} = \tilde u_1 \tanh \left({W}_{a}^{\rm T} {\psi}({e})+{\kappa_a}\right)+\tilde u_2 $$

    其中, $ {W_{c}} $和$ {W_{a}} $是权值矩阵, $ {\kappa_c} $和$ {\kappa_a} $是重构误差.

    假设2 (网络重构误差).

    1) $\|{W_{c}}\| \leq W_{c,m},$ $\|{\phi}\| \leq \phi_{m},$ $\|\nabla{\phi}\| \leq {\bar\phi}_{m},$ $\|{\kappa_{c}}\| \leq \kappa_{c,\;m},$ $\|\nabla{\kappa_{c}}\| \leq \bar{\kappa}_{c,m};$

    2) $\|{W_{a}}\| \leq W_{a,m},$ $\|{\psi}\| \leq \psi_{m}$, $\|{\kappa_{a}}\| \leq \kappa_{a,m}$.

    假设3 (持续激励). 存在正实数$ q_1 $, $ q_2 $, $ q_1<q_2 $, 使得

    $$ q_1\leq {\bar\phi},\; {\bar\phi_f}\leq q_2 $$ (25)

    其中, $ {\bar\phi} = \Delta{\phi}^{\rm T}\Delta{\phi} $, ${\bar{\phi}_f} = {\phi}_f^{\rm T}{{\phi}_f}$, ${\phi_f} = {\phi}({e_f}).$

    为了更紧凑地描述下述定理, 定义 $\gamma_1 = 4\;- 4{\bar{\psi}}\eta_a-(4-8{\bar{\psi}}\eta_a)(\beta_1+\beta_3),$ ${\bar{\psi}} = {\psi}^{\rm T}{{\psi}},$${\tilde{\phi}} = {\bar{\phi}}(l+ 1)+ {\bar{\phi}_f},$$\alpha = 2\tilde{{\phi}}-2\eta_c\tilde{{\phi}}^2-\beta_0 ,$ $\gamma_2 = 1/\beta_1+ (8{\bar{\psi}}\beta_2+ 4{\bar{\psi}})\eta_a,$ $ \beta_0,\beta_1,\beta_2,\beta_3 $ 是可调正实数.

    定理 2. 在假设2和假设3下, 如果选择合适的学习律$ \eta_c $和$ \eta_a $以及$\{\beta_{i}\}_{i = 0}^3 ,$ 使得$ \gamma_1>0 $, $ \alpha-\gamma_2>0 $, 那么采用上述策略更新律(21)和(24)的网络权值$ {\hat {W}_{c}} $和$ {\hat {W}_{a}} $将渐近收敛至如下区域:

    $$ \|{\tilde W_{c}}\|\leq \frac{\sqrt{ {\rm{error}}_{t}}}{\sqrt{\gamma_1}} \tag{26a}\qquad\quad\;\;$$
    $$ \|\xi_{a}\|\leq \frac{\sqrt{{\rm {error}}_{t}}}{\sqrt{\alpha-\gamma_2}\lambda_{\rm min}(\bar g)} \tag{26b} $$

    其中, $ {\tilde{W}_{c}} = {{W}_{c}}-{\hat {W}_{c}} $, $ {\xi_{a}} = {\tilde W_{a}}^{\rm T}{\psi} $, $ {\tilde{W}_{a}} = {{W}_{a}}-{\hat{W}_{a}} $, $ {\rm error}_{t} $的定义将在证明中给出.

    更进一步地, 如果$ \kappa_{c,m},\bar \kappa_{c,m},\kappa_{a,m}\rightarrow 0 $, 那么$ {\tilde W_{c}} $和$ \xi_{a} $将渐近收敛至$ \rm 0 $.

    证明. 定义如下Lyapunov函数

    $$ \begin{equation*} L(l) = L_{c}(l)+L_{a}(l) \end{equation*} $$

    其中, $ L_{c} = \text{tr}({\tilde{W}_{c}}^{\rm T}\eta_c^{-1}{\tilde{W}_{c}}) $, $ L_{a} = \text{tr}({\tilde{W}_{a}}^{\rm T}\eta_a^{-1}{\tilde{W}_{a}}) $. 根据式(20), 可计算

    $$ \begin{split} E(l)=\;& {\hat{W}_{c}^{\rm T}}{\phi}(l)-{\hat{W}_{c}^{\rm T}}{\phi}(l+1)+\Delta V^{\ast}(l+1)=\\ & {\tilde W_c^{\rm T}}\Delta {\phi}(l+1)+\Delta {\kappa_c}(l+1) \end{split} $$ (27)

    其中, $ \Delta V^{\ast}(l+1) = V^{\ast}(l+1)-V^{\ast}(l) $, $\Delta {\kappa_c}(l+1) = {\kappa_c}(l+1)-{\kappa_c}(l)$,

    $$ \begin{split} {E_f}=\;& {\hat{W}_{c}^{\rm T}} {\phi_f}-{{W}_{c}^{\rm T}}{\phi_f}-{\kappa_{c,f}}=\\ & -{\tilde W_c}^{\rm T} {\phi_f}-{\kappa_{c,f}} \end{split} $$ (28)

    其中, $ \kappa_{c,f} = {\kappa_c}(k+N) $. 则根据式(21), (27), (28), 可得

    $$ \begin{split} \Delta L_{c}(l+1)=\;& L_{c}(l+1)-L_{c}(l)=\\ & 2{\tilde{W}_{c}}^{\rm T}(-{\tilde{\phi}}{\tilde W_c}+{\bar\kappa_c)}\,+\\ &\eta_c(-{\tilde{\phi}\tilde W_c}+{\bar\kappa_c})^{\rm T}(-{\tilde{\phi}}{\tilde W_c}+{\bar\kappa_c})\leq\\ &-\alpha\|{\tilde{W}_{c}}\|^2+{\rm{error}}_c \end{split} $$

    其中, $ {\bar\kappa_c} = -\Delta{\phi}(l+1)\Delta {\kappa_c}(l+1)-{\phi_f}\kappa_{c,f} $, ${\rm error}_c = (2\eta_c+1/\beta_0)\|{\bar{\kappa}_c}\|^2$.

    类似地, $ \Delta L_a(l+1) $可以表示为

    $$ \begin{split} &\Delta L_{a}(l+1) = \\ &\quad\text{tr}\left(2{\tilde{W}_{a}}^{\rm T}(l)\frac{\partial {E^2_{a}}(l)}{\partial {\hat W_{a}}(l)}+\eta_a \left(\frac{\partial {E^2_{a}}(l)}{\partial {\hat W_{a}}(l)}\right)^{\rm T}\frac{\partial {E^2_{a}}(l)}{\partial {\hat W_{a}}(l)}\right) \end{split} $$

    考虑到${\frac{ {\partial {E_{a}^2}}}{{\partial {\hat W_{a}}}} = 2{\psi E_{a}} }$, 以及${E_{a}} = -{\xi_{a}}- {g\tilde{W}_{c}}\,+ \, {\bar{\kappa}_a}$, ${g} = {g_1}\nabla{\phi}$, ${g_1} = \frac{1}{2} {R}^{-1} {B_{1}^{\rm T}}$, $ {\bar{\kappa}_a} = -{\kappa_a}-{g_1}\nabla{\kappa_c} $, 那么

    $$ \begin{split} \Delta L_{a} =\; &-(4-4{\bar{\psi}}\eta_a)\|{\xi_a}\|^2-8{\bar{\psi}}\eta_a{g}{\tilde{W}_{c}}\bar \kappa_a\;-\\ &(4-8{\bar{\psi}}\eta_a){\xi_a^{\rm T}}{g}{\tilde W_c}+4{\bar{\psi}}\eta_a\|{\tilde W_c}\|_{{\bar g}}^2\;+\\ &(4-8{\bar{\psi}}\eta_a){\xi_a}{\bar{\kappa}_a} \end{split} $$

    其中, $ {\bar g} = {{g}^{\rm T}{g}} $. 应用Young不等式定理, 可得

    $$ \begin{equation*} \begin{array}{ll} \Delta L_{a}(l+1)\leq -\gamma_1\|{\xi_a}\|^2+\gamma_2\|{\tilde W_c}\|_{{\bar g}}^2+{\rm error}_a \end{array} \end{equation*} $$

    其中, ${\rm error}_a = (1/\beta_2+1/\beta_3)\|{\bar{\kappa}_a}\|^2$. 因此, 考虑到

    $$ \begin{split} {\rm error}_c\leq & \,\left(2\eta_c+\frac{1}{\beta_0}\right)\,\times\\&(2q_2\kappa_{c,\,m}+{\phi_m}\kappa_{c,\,m})^2 = {\rm error}_{c,\,m}\qquad \;\;\end{split} $$
    $$ \begin{split} {\rm error}_a\leq &\, \left(\frac{1}{\beta_2}+\frac{1}{\beta_3}\right)\,\times\\&(\kappa_{a,\,m}+\|{g_1}\|\bar \kappa_{c,\,m})^2 = {\rm error}_{a,\,m} \qquad \quad\end{split} $$

    那么定义$ {\rm error}_t = {\rm error}_{c,m}+ {\rm error}_{a,m} $, 可以得到

    $$ \begin{equation} \Delta L = -\gamma_1\|{\xi_a}\|^2-(\alpha-\gamma_2)\|{\tilde W_c}\|_{\bar g}^2+{\rm error}_t \end{equation} $$ (29)

    因此, 可以得到结论(26). 在此基础上, 如果$ \kappa_{c,m},\bar \kappa_{c,m},\kappa_{a,m}\rightarrow 0 $, 可得$ {\rm error}_t\rightarrow 0 $, 那么$ {\tilde W_{c}} $和$ {\xi_{a}} $渐近收敛至$ \rm 0 $.

    注 3. 定理2的结论表明, 可以通过增加执行器和评价器的基函数节点数使得$ u $能够以任意小误差收敛至$ u^{\ast}_b $. 因此, 在假设1成立的前提下, 如果选择预测时域$ N $足够大[38], 使得系统(9)在预测时域 $[k, k+N-1]$内由控制策略 $u_b^{\ast}(k|k),\cdots, u_b^{\ast}(k\;+ N- 1|k)$驱动下满足终端状态$ {e}(k+N)\in\mathcal{X}_f $, 那么, 在下一个预测时域 $ [k+1,k+N] $, $u_b^{\ast} (k+1|k),\cdots, u_b^{\ast} (k+ N- 1|k),K{e}(k+N|k)$是一个可行的控制策略. 我们定义由上述可行策略产生的损失函数为$ V^f (k+1|k) $, 并参考文献[39]的证明思路, 可得$V^f (k+ 1|k)\;- V^{\ast}(k|k)\leq -L\left({e}(k|k), u_{b}(k|k)\right)$. 由于$Ke(k+ N|k)$是次最优的, 我们可以得出$V^{\ast}(k+ 1| k+1)-$$V^{\ast}(k|k)\leq V^f(k+1|k)- V^{\ast}(k|k) \leq -L\left({e}(k|k), u_{b}(k |k)\right)$, 从而可以借助李雅普诺夫稳定性分析得到闭环系统的稳定性. 对上述分析的详细推导过程可以参考文献[37-39], 由于篇幅限制, 这里不再赘述. 至于学习逼近得到的策略存在较大误差的情况, 我们将在以后的研究中借助鲁棒MPC[40-41]的思想进一步分析和证明.

    在本节中通过仿真和实车实验验证本文提出的RHRL算法的控制性能.

    在控制器设计中车辆的相关参数设置如表1所示, 本文在如图4所示的道路环境下进行了仿真实验, 图4中, 黑色实线表示道路边界, 黑色点划线表示道路中心线, 红色实线表示期望的参考路径, 蓝色边框表示初始位置下的智能车辆.

    表 1  车辆动力学参数
    Table 1  The parameters of the vehicle dynamics
    符号 物理意义 数值 单位
    $m$ 车身质量 1723 kg
    $I_z$ 转动惯量 4175 kg·m2
    $l_f$ 质心到前轴距离 1.232 m
    $l_r$ 质心到后轴距离 1.468 m
    $C_f$ 前轮侧偏刚度 66900 N/rad
    $C_r$ 后轮侧偏刚度 62700 N/rad
    下载: 导出CSV 
    | 显示表格
    图 4  参考路径
    Fig. 4  Reference path

    在控制过程中, 各偏差状态需要满足如下约束: $e_y\in [-5\;{\rm{m}}, 5\;{\rm{m}}],$ $\dot{e}_y\in [-10 \; {\rm{m/s}}, 10 \; {\rm{m/s}}],$ $e_{\varphi}\in [-\pi/ 3 \;{\rm{ rad}}, \pi/3 \;{\rm{ rad}}]$, $\dot{e}_{\varphi}\in[-\pi\; {\rm{rad/s}}, \pi \;{\rm{rad/s}}]$. 在设计基于RHRL的侧向运动控制方法时, 选取$ {Q} = {I}_4 $, $ {R} = 1 $, $ N = 50 $, $\Delta t = 0.02 \; {\rm{s}}$. 将执行器网络的基函数向量$ {\psi(e)} $选取为${\psi}(e) = [e_{1}^{2}, e_{2}^{2}, e_{3}^{2}, e_{4}^{2}, e_{1} e_{2}, e_{1} e_{3},$$ e_{1} e_{4}, e_{2} e_{3}, e_{2} e_{4}, e_{3} e_{4}]^{\rm T} $, 评价器网络的基函数向量$ {\phi(e)} $选取为${\phi(e)} = [e_{1}, e_{2}, e_{3}, e_{4}, e_{1}^{2}, e_{2}^{2}, e_{3}^{2}, e_{4}^{2}, e_{1} e_{2},$$e_{1} e_{3}, e_{1} e_{4}, e_{2} e_{3}, $$e_{2} e_{4},e_{3} e_{4}]^{\rm T}$, 其中, $\left[e_{1}, e_{2}, e_{3}, e_{4}\right] =$$ \left[e_{y}, \dot{e}_{y}, e_{\varphi}, \dot{e}_{\varphi}\right] $. 在学习开始前, 网络权重${\hat{W}_a}\,和\, {\hat{W}_c}$在$[-1, 1]$之间随机初始化. 在学习过程中, 评价器和执行器网络的学习率分别设置为$\eta_c = 0.08,\; \eta_a = 0.06$, 执行器和评价器的权值的更新方式为增量式. RHRL每次训练的轮数设置为5.

    在仿真验证实验中, 主要对比了软执行器−评价器(SAC)算法[42]、深度确定性策略梯度(DDPG)[43]、HDP方法(执行器−评价器结构与本文相同)、纯点预瞄方法[44]和MPC控制方法. 在采用SAC和DDPG算法训练前, 利用本文构建的模型(9)生成100万个动作−状态$ (u,e) $的数据对(即样本)用于离线训练. SAC训练过程中的所有参数设置与文献[42]保持一致, 其训练中使用的样本数量级为40万个. DDPG算法训练时的参数设置与文献[43]保持一致, 训练中使用的样本数量级为40万个. 在仿真实验中, 分别采用SAC和DDPG算法进行了5次重复训练, 每次训练的轮数为2000. 在训练完成后, 我们利用5次训练得到的执行器网络分别生成控制策略用于直接控制系统(9), 并选取性能表现最好的一组数据与RHRL对比. 由于HDP对比算法的执行器−评价器结构与本文相同, 其控制器参数设置、仿真测试设计与RHRL算法保持一致; 其权值训练方式为增量式、训练轮数为30. 对于纯点预瞄方法, 根据文献[44], 可以得到相应的控制器表达式为$\delta(t) = \arctan \left(2\left(l_{f}+l_r\right) \sin (\theta(t))/l_{d}\right)$, 其中, $ l_d $是控制器的预瞄距离, 一般与车速相关, 仿真实验中设置$ l_d = 0.55v_x $; $ \theta(t) $是车身和预瞄点之间的夹角. 在离散时间MPC控制器中, 我们设置参数$ Q, R $与RHRL算法保持一致. 在纵向速度$ v_{x} $分别为$30 \; {\rm{km/h}}$和$50 \; {\rm{km/h}}$下, 智能车在运行过程中的侧向误差和航向角偏差结果如图5图6所示, 其均方根误差(Root mean square error, RMSE)如表2所示. 仿真结果显示, 本文提出的RHRL与MPC相比, 跟踪控制性能相当, 但在采用的Inter (R) Core (TM) i7-7700HQ CPU @2.80 GHz笔记本中, MPC (采用QuadProg求解器)平均计算时间为0.0397 s, 而RHRL的平均计算时间为0.0160 s. 另外, RHRL算法的控制性能在30 km/h和50 km/h下优于预瞄控制、HDP、SAC和DDPG. RHRL算法的性能表现之所以优于深度强化学习算法SAC和DDPG, 其原因在于RHRL算法采用了滚动时域优化机制来提升学习效率, 并在每个预测时域利用模型信息产生预测; 而且, RHRL算法的实现方式是在线同步增量式学习和部署.

    图 5  30 ${\rm{km/h}}$下智能车跟踪控制侧向偏差对比
    Fig. 5  Comparison of lateral tracking error of intelligent vehicles under $v_x = 30 \; {\rm{km/h}}$
    图 6  50 ${\rm{km/h}}$下智能车跟踪控制侧向偏差对比
    Fig. 6  Comparison of lateral tracking error of intelligent vehicles under $v_x = 50 \; {\rm{km/h }}$
    表 2  各控制器的均方根误差对比
    Table 2  The RMSE comparison among all the controllers
    方法 vx = 30 km/h vx = 50 km/h
    ey (m) $e_\varphi$(rad) ey (m) $e_\varphi $(rad)
    RHRL 0.156 0.030 0.246 0.020
    HDP 0.165 0.030 0.315 0.019
    SAC 0.189 0.029 0.283 0.017
    DDPG 0.172 0.037 0.319 0.017
    MPC 0.212 0.025 0.278 0.015
    纯点预瞄 0.159 0.036 0.286 0.030
    下载: 导出CSV 
    | 显示表格

    为了更进一步验证RHRL在实际车辆系统控制问题中的有效性, 我们利用红旗E-HS3智能驾驶平台(如图7所示)首先在城市场景中进行实车实验. 在实验设计中, 采用离线仿真训练得到的权值作为初始权值. 其他参数设置, 如学习率、基函数等与仿真实验相同. 在实验过程中, RHRL算法以50 Hz的工作频率, 通过在线学习不断优化策略以适应动态路面环境. RHRL算法的在线增量式学习部署过程实现方式如下. 在每个学习(计算)时刻, 根据车辆装配的卫星和惯性组合导航系统(如图7所示)实时测量得到车辆状态信息对$(X,Y,v_x, v_y, \varphi,w)$, 由此在车载计算机(工控机)中计算当前误差状态信息$ e $. 在此基础上, 将求解得到的$ e $的值作为初始状态值, 利用预测模型(9)在当前预测时域内实时更新执行器和评价器的权值. 接下来, 通过学习得到的执行器权值和前馈控制量求解得到当前的控制量$ u $, 也就是车辆前轮转角. 据此, 可以利用前轮转角和方向盘转角的经验比例关系计算得到当前时刻方向盘的期望转角为$ u_w = 15u $, 也就是车辆的控制量. 在后面的每个采样时刻, 通过不断重复上述步骤实现整个学习控制过程.

    图 7  红旗E-HS3智能驾驶平台
    Fig. 7  Hongqi E-HS3 intelligent driving platform

    在实车实验中, 还与纯点预瞄控制方法进行了对比, 纯点预瞄控制的参数设置与仿真实验中相同. 对纯点预瞄方法进行测试时, 采用恒定的期望车辆速度, 为20 km/h; 而对RHRL算法进行测试时, 令车辆始终跟踪当前期望的动态参考速度, 平均速度达到约30 km/h, 最高速度达到38.988 km/h. 图8为两种方法在用于控制实车后所生成的路径图; 图9展示了RHRL和纯点预瞄方法下红旗E-HS3的车辆侧向偏差. 实车实验结果表明, RHRL算法的控制性能优于纯点预瞄控制算法.

    图 8  基于RHRL和纯点预瞄方法的红旗E-HS3行驶路径
    Fig. 8  Path of Hongqi E-HS3 vehicle controlled by RHRL and pure pursuit methods
    图 9  RHRL与纯点预瞄方法的车辆实测侧向偏差对比
    Fig. 9  Comparison of experimental lateral tracking error of the RHRL and pure pursuit methods

    需要指出的是, 预瞄方法由于采用的是动态预瞄距离的方法, 因此在车辆起步阶段由于惯导和较大侧向偏差的情况下, 智能车会产生较大的侧向偏差, 而RHRL却可以快速优化, 具有较小的侧向跟踪控制误差.

    为了验证本文提出的算法对路面的适应能力, 我们还在乡村起伏砂石路面上进行了控制性能的验证, 其测试场景如图10所示. 车辆首先从C点出发, 经过B点所在的直角弯, 再行驶至终点A. 在从BA段的行驶过程中, 车辆首先要经过一个明显的下坡, 在终点附近需要经过一个狭窄的通道(由路桩铺设构成). 车辆在初始位置C点由静止状态出发, 在行驶中平均速度为4.19 m/s, 最高速度为4.94 m/s. 实验中车辆在不同行驶阶段的状态如图10所示, 其表明车辆能够在起伏砂石路面上实现平稳的转弯和下坡, 而且还实现了狭窄通道下的高精度控制(如图11所示).

    图 10  乡村砂石道路地图和车辆行驶中各阶段状态
    Fig. 10  The route map in the country sand and gravel road, and the status of different stages in the control process
    图 11  侧向误差曲线
    Fig. 11  Curves of the lateral error

    提出了一种基于滚动时域强化学习的智能驾驶车辆侧向控制算法. 该算法将强化学习与滚动时域优化机制融合, 把无限时域自学习优化问题转化为一系列有限时域优化问题, 并通过执行器−评价器算法进行求解. 该设计思想通过滚动时域机制提高了强化学习算法的学习效率; 与MPC相比, 采用执行器−评价器的优化方式能够提高计算效率. 因此, 本文提出的RHRL可以看作是一种介于强化学习和MPC之间的控制算法. 此外, 与大多数已有的有限时域执行器−评价器学习算法不同, 本文提出的RHRL采用时间独立的网络结构, 降低了网络的设计和在线计算复杂度, 而且本文还从理论上分析了其在每个预测时域内的收敛性以及闭环系统的稳定性. 在仿真场景中与典型传统算法和深度强化学习算法的对比实验结果验证了RHRL算法的有效性. 另外, 从结构化道路场景中的实验结果可以看出, 即使在变速控制条件下, RHRL依然比恒速条件下的纯点预瞄控制方法具有更好的控制性能. 从乡村起伏砂石道路中的实际实验结果可以看出, RHRL具有良好的路面适应能力和控制性能.

  • 期刊类型引用(2)

    1. 顾扬,程玉虎,王雪松. 基于优先采样模型的离线强化学习. 自动化学报. 2024(01): 143-153 . 本站查看
    2. 伍瑞卓,张兴龙,徐昕,张昌昕. 基于高斯过程建模的移动机器人学习预测控制方法. 控制理论与应用. 2023(12): 2236-2246 . 百度学术

    其他类型引用(2)

  • 加载中
计量
  • 文章访问数:  1411
  • HTML全文浏览量:  91
  • PDF下载量:  981
  • 被引次数: 4
出版历程
  • 收稿日期:  1982-08-10
  • 刊出日期:  1984-04-20

目录

/

返回文章
返回