A Gait Control Method for Biped Robot on Slope Based on Deep Reinforcement Learning
-
摘要:
为提高准被动双足机器人斜坡步行稳定性, 本文提出了一种基于深度强化学习的准被动双足机器人步态控制方法. 通过分析准被动双足机器人的混合动力学模型与稳定行走过程, 建立了状态空间、动作空间、episode过程与奖励函数. 在利用基于DDPG改进的Ape-X DPG算法持续学习后, 准被动双足机器人能在较大斜坡范围内实现稳定行走. 仿真实验表明, Ape-X DPG无论是学习能力还是收敛速度均优于基于PER的DDPG. 同时, 相较于能量成型控制, 使用Ape-X DPG的准被动双足机器人步态收敛更迅速、步态收敛域更大, 证明Ape-X DPG可有效提高准被动双足机器人的步行稳定性.
Abstract:In order to improve the walking stability on slope of the quasi-passive biped robot, in this paper, we proposed a gait control method for quasi-passive biped robot based on deep reinforcement learning. By analyzing the hybrid dynamics model and the stable walking process of the quasi-passive biped robot establishing the state space, action space, episode process and reward function. After learning by Ape-X DPG algorithm based on DDPG improvement, quasi-passive biped robot can achieve stable walking in a larger slope range. In the simulation, Ape-X DPG is better than DDPG + PER in both learning ability and convergence speed. Meanwhile, compared with energy shaping controller, the gait convergence of quasi-passive biped robot using Ape-X DPG is more rapid and the basins of attraction is larger, which proves that Ape-X DPG can effectively improve the walking stability of quasi-passive biped robot.
-
化工过程普遍存在不确定性, 如何采用有效的优化方法找到不确定条件下系统的真实最优点, 对提高化工企业的经济效益发挥着关键作用[1]. 大规模化工过程的控制系统通常为分层递阶结构[2-3], 控制层(下层)的主要任务是抑制底层扰动, 跟踪优化层传递来的被控变量设定值, 优化层(上层)根据调度层(顶层)传达的生产任务指标等, 对当前工况进行识别, 执行相应的优化算法计算出最优设定值, 传递给控制层执行.
优化层执行的优化算法通常以化工过程的非线性模型为基础, 以传统的“二步法” 实时优化[4-5] 为例, 首先确定模型的不确定参数, 运行过程中采集系统的输出量数据, 对未知参数进行估计, 再基于更新的系统模型进行重优化, 计算出被控变量的最优设定值后传递给控制层. 这一过程通常还需要结合数据调和、稳态检测等技术手段加强优化结果的可靠性, 工业过程的优化周期一般为4 ~ 8小时. 针对传统的“二步法” 的缺点, 近年来涌现出了新的实时优化方法, 如Bonvin课题组提出的修正项自适应方法(Modifier adaptation)[6-7], 通过对标称模型的约束及梯度进行修正, 即使不估计扰动参数也能收敛到真实最优点. 文献[8-10]考虑运行层之间的不同时间尺度, 提出了数据驱动的多速率分层运行优化控制方法, 基于Q学习对基础控制回路的设定值进行在线优化, 使运行层能更好地优化控制性能指标. 自优化控制(Self-optimizing control, SOC)[11-13] 提出通过离线选择控制层的被控变量, 设定值则在线保持不变, 提供了实时优化的另一种研究思路. 在自优化控制中, 被控变量可以是常规物理量的函数, 即构造虚拟量进行控制, 可使系统的操作变量可以在不确定性下进行自寻优. 当底层控制的优化作用较强时(经济损失可接受), 甚至可以省略单独的优化层, 从而简化控制系统. 相比传统的优化方式, 自优化控制的优化在工作频率为秒/分的反馈控制中完成, 因此优化速度得到大幅度提升, 在一系列研究中表现出良好的效果[14-17].
间歇过程是一类批次加工的化工过程, 具有规模小、灵活性高的特点, 在需求多元化的现代市场中应用越来越广泛. 相比连续化工过程, 间歇过程具有“多重时变” 的操作特征[18-19]. 一方面, 间歇过程具有重复特性, 可以引入学习机制从历史批次的数据中提炼出有用的信息, 改进后续批次的跟踪控制和经济指标优化, 典型的如迭代学习控制[18, 20-23]、批间实时优化[23-24] 等控制和优化技术. 另一方面, 由于其时变特性, 间歇过程在批次内无稳定操作点, 相比连续过程的控制和稳态优化更具挑战[25-27]. 自优化控制经过近20年的发展, 针对连续过程已报道了一系列被控变量求解方法[12, 28-31], 但是针对需动态优化的间歇过程仍缺乏足够的研究. 值得注意的是, 由于从批间角度看间歇过程是一个静态过程[32], 近年来文献[33-34]提出了间歇过程的批间自优化控制方法. 此类方法仅利用了间歇过程的重复性, 基于已有的静态自优化控制方法求解被控变量, 然后设计批间控制器调节输入轨迹, 逐批次将被控变量控制于恒定设定点, 实现实时优化. 但批间优化本质上还是静态方法, 由于需要若干个批次才能实现被控变量的跟踪控制, 优化作用慢, 因此未充分发挥自优化控制的优势. 此外, 批间优化只对具有重复特性的扰动具有效果, 当系统受到高频扰动作用时, 批间控制器难以实现有效的实时优化.
最近, Ye等[35]提出了一种针对间歇过程的动态自优化控制方法, 通过考虑批内变量的因果性, 最终得到了具有优化作用的控制律. 设计控制系统时, 选择被控变量和设计控制器通常是两个独立任务[36], 前者主要考虑经济指标的优化, 后者关注于如何更好地跟踪控制被控变量, 保证控制系统的稳定性和鲁棒性. 如何在此前提下求解批内被控变量, 仍是一个开放的课题.
本文研究了间歇过程的批内自优化控制问题, 贡献如下: 1)基于自优化控制策略提出以输出变量的线性组合为被控变量(虚拟变量), 在批次运行过程中对其进行跟踪控制, 以控制手段实现实时优化; 2)根据是否在过程不同阶段切换被控变量, 给出了两种自优化控制策略, 对每种策略又分别给出了两种设定轨线选取方案; 3)引入扩张组合矩阵, 将这些情形统一描述为具有不同结构约束的最优组合矩阵求解问题, 并推导得到了其中一种方案的解析解计算方法. 目前为止, 本文所提方法在国内外文献中未见报道.
1. 连续过程的自优化控制
对连续化工过程, 考虑如下静态优化问题
$$ \begin{split} &\min\limits_{{\boldsymbol{u}}} J({\boldsymbol{u}}, {\boldsymbol{d}})\\ &\;{\rm{s}}.{\rm{t}}. \quad {\boldsymbol{y}} = {\boldsymbol{g}}({\boldsymbol{u}}, {\boldsymbol{d}})\\& \quad\quad\;\; {\boldsymbol{g}}_{\rm{in}}({\boldsymbol{u}}, {\boldsymbol{d}}) \leq0 \end{split} $$ (1) 其中,
$ J $ 为经济指标,$ {\boldsymbol{u}}\in {\bf R}^{n_u} $ ,$ {\boldsymbol{d}}\in {\bf R}^{n_d} $ 和$ {\boldsymbol{y}}\in {\bf R}^{n_y} $ 分别是操纵变量、扰动变量和测量变量,$ {\boldsymbol{g}} $ 和$ {\boldsymbol{g}}_{\rm{in}} $ 为输出变量的模型函数和约束条件.扰动变量
$ {\boldsymbol{d}} $ 变化且在线不可测是化工过程偏离最优点的主要原因. 当扰动变量$ {\boldsymbol{d}} $ 变化时, 式(1)的解是$ {\boldsymbol{d}} $ 的函数, 不妨记为$ {\boldsymbol{u}}^{\rm{opt}}({\boldsymbol{d}}) $ . 实时优化的任务是在$ {\boldsymbol{d}} $ 未知的前提下, 寻找到新的最优值$ {\boldsymbol{u}}^{\rm{opt}} $ , 实现过程的最优操作. 自优化控制(SOC)通过构造虚拟的被控变量$ {\boldsymbol{c}} = H{\boldsymbol{y}} $ , 当反馈控制器将$ {\boldsymbol{c}} $ 控制在恒定设定值$ {\boldsymbol{c}}_s $ 上时, 控制器输出能自动逼近当前的实际最优值$ {\boldsymbol{u}}^{\rm{opt}}({\boldsymbol{d}}) $ . 当组合矩阵$ H $ 每行有且只有一个1, 其余为0时,$ {\boldsymbol{c}} $ 为输出变量$ {\boldsymbol{y}} $ 的子集, 此时退化为传统的以单变量为被控变量的情形. 更一般的情况下,$ H $ 中的非零元素提供了更多优化自由度, 可提高系统的闭环经济性能. 例如, 假设系统自由度$ n_u = 2 $ ,$ {\boldsymbol{y}} = [T\;P\;c_A]^{\rm{T}} $ , 包括温度$ T $ , 压力$ P $ 和物质A的浓度$ c_A $ , 考虑两种情况:$$ {H_1} = \left[ {\begin{array}{*{20}{c}} 1&0&0\\ 0&0&1 \end{array}} \right];\;{H_2} = \left[ {\begin{array}{*{20}{c}} {{h_{11}}}&{{h_{12}}}&{{h_{12}}}\\ {{h_{21}}}&{{h_{22}}}&{{h_{23}}} \end{array}} \right] $$ $ H_1 $ 对应的被控变量$ {\boldsymbol{c}} = H_1{\boldsymbol{y}} $ 为$ T $ 和$ c_A $ (单个物理量),$ H_2 $ 的被控变量为3个物理量的线性组合. 显然, 前者为后者的一种特殊形式.为求解一般情形的最优组合矩阵
$ H $ , 研究人员针对不同过程特性和衡量标准提出了求解方法[12, 28-31]. 以一种针对线性系统的局部法(Exact local method)为例[28], 首先定义损失函数$ L $ $$ L = J({\boldsymbol{u}}, {\boldsymbol{d}})-J^{\rm{opt}}({\boldsymbol{d}}) $$ (2) 对给定的
$ {\boldsymbol{d}} $ , 将$ J({\boldsymbol{u}}, {\boldsymbol{d}}) $ 在最优点$ {\boldsymbol{u}}^{\rm{opt}} $ 处进行二阶泰勒展开$$ \begin{split} J({\boldsymbol{u}}, {\boldsymbol{d}}) \approx\;& J^{\rm{opt}}({\boldsymbol{d}})+J_{u}^{{\rm{T}}}\left({\boldsymbol{u}}-{\boldsymbol{u}}^{\rm{opt}}\right)+\\&\frac{1}{2}\left({\boldsymbol{u}}-{\boldsymbol{u}}^{\rm{opt}}\right)^{{\rm{T}}} J_{u u}\left({\boldsymbol{u}}-{\boldsymbol{u}}^{\rm{opt}}\right) \end{split} $$ (3) 式中,
$J_u = \frac{\partial J}{\partial {\boldsymbol{u}}}$ 和$J_{uu} =\frac{ \partial^2J}{\partial {\boldsymbol{u}}^2 }$ 分别为一阶和二阶敏感矩阵. 根据最优性条件, 最优点处$ J_u = 0 $ , 将其代入式(1)可得到二次型损失函数$$ L = \frac{1}{2}\left({\boldsymbol{u}}-{\boldsymbol{u}}^{\rm{opt}}\right)^{{\rm{T}}} J_{u u}\left({\boldsymbol{u}}-{\boldsymbol{u}}^{\rm{opt}}\right) $$ (4) 此外, 输出函数在标称点处的线性化方程为
$$ {\boldsymbol{y}} = G_{y} {\boldsymbol{u}}+G_{yd}{\boldsymbol{d}} $$ (5) 若考虑测量变量含噪声:
$ {\boldsymbol{y}}_m = {\boldsymbol{y}}+{\boldsymbol{n}} $ , 当控制器将被控变量$ {\boldsymbol{c}} = H{\boldsymbol{y}}_m $ 控制在原设定值上时$ (\Delta {\boldsymbol{c}} = 0) $ , 扰动变化$ \Delta{\boldsymbol{d}} $ 将引起的$ {\boldsymbol{u}} $ 变化量为$$ \Delta{\boldsymbol{u}} = -\left(HG_{y}\right)^{-1} HG_{yd} \Delta{\boldsymbol{d}}+\left(HG_{y}\right)^{-1} H{\boldsymbol{n}} $$ (6) 同时, 扰动变化
$ \Delta{\boldsymbol{d}} $ 将引起最优点变化$$ \Delta {\boldsymbol{u}}^{\rm{opt}} = -J_{uu}^{-1}J_{ud} \Delta{\boldsymbol{d}} $$ (7) 式中,
$J_{ud} = \frac{\partial^2J}{\partial {\boldsymbol{u}}\partial{\boldsymbol{d}} }$ . 将式(6)和式(7)代入式(4) 可计算损失函数[28]$$ \begin{split} &L = \frac{1}{2}\|{\boldsymbol{z}}\|^2_2\\ &{\boldsymbol{z}}= V(HG_y)^{-1}H\tilde F\begin{bmatrix}{{{\boldsymbol{d}}'}}\\ {\boldsymbol{n}}' \end{bmatrix} = M\begin{bmatrix}{{{\boldsymbol{d}}'}}\\ {\boldsymbol{n}}' \end{bmatrix} \end{split} $$ (8) 式中,
$ V $ 满足$ V^{\rm{T}}V = J_{uu} $ ,$ \tilde F = [FW_d\;\;\;W_n] $ ,$F = \frac{\partial {\boldsymbol{y}}^{\rm{opt}}}{ \partial {\boldsymbol{d}}} = -(G_yJ_{uu})^{-1}J_{ud}+G_{yd}$ ,$ W_d $ 和$ W_n $ 为对角矩阵, 其对角元素为$ {\boldsymbol{d}} $ 和$ {\boldsymbol{n}} $ 的幅值,$ {\boldsymbol{d}}' $ 和$ {\boldsymbol{n}}' $ 为归一化后的扰动和噪声向量, 其最大范数为1.式(8)中的损失
$ L $ 为单个工况$ (\Delta{\boldsymbol{d}},{\boldsymbol{n}}) $ 引起的损失. 当$ {\boldsymbol{d}} $ 和$ {\boldsymbol{n}} $ 在其变化范围内变化时, 文献[23-24]中分别以$ L $ 的最大值$ L_{\max} $ 和平均值$ L_{\rm{av}} $ 为衡量标准, 提出了$ H $ 的求解方法. 以平均损失$ L_{\rm{av}} $ 为例, 当$ {\boldsymbol{d}}' $ 和$ {\boldsymbol{n}}' $ 为正态分布时, 可得到如下最优化问题求解$ H $ $$ \min\limits_{H} L_{\rm{opt}} = 0.5\|M\|_{\rm{F}}^{2} $$ (9) 引理1[35].
$ L_{\rm{av}}(H) = L_{\rm{av}}(QH) $ , 其中$ Q $ 为任意$ n_u $ 维非奇异方阵.引理1表明, 式(9)的解非唯一(因为控制
$ {\boldsymbol{c}} = H{\boldsymbol{y}} $ 和$ {\boldsymbol{c}} = QH{\boldsymbol{y}} $ 等效). 利用该特性, 可以先求解出式(9)的一个特解, 再推广至通解形式. 文献[24]给出了最优$ H $ 的一个特解, 即$$ H^{\rm{T}} = (\tilde{F}\tilde{F}^{\rm{T}})^{-1}{G}_y({G}_y^{\rm{T}}(\tilde{F}\tilde{F}^{\rm{T}})^{-1}G_y)^{-1}J_{uu}^{\frac{1}{2}} $$ (10) 2. 间歇过程的自优化控制
2.1 间歇过程优化
考虑一类带不确定参数的间歇过程优化问题
$$ \begin{split} \min\limits_{{\boldsymbol{u}}(t)} J &= \phi\left({\boldsymbol{y}}\left(t_{f}\right)\right)\\ {\rm{s.t.}} \quad\; &\dot{{\boldsymbol{x}}} = {\boldsymbol{f}}({\boldsymbol{x}}, {\boldsymbol{u}}, {\boldsymbol{d}}), \quad {\boldsymbol{x}}(0) = {\boldsymbol{x}}_{0}\\ &{\boldsymbol{y}} = {\boldsymbol{f}}_{y}({\boldsymbol{x}},{\boldsymbol{u}}) \\ &{\boldsymbol{u}}_{L} \leq {\boldsymbol{u}}(t) \leq {\boldsymbol{u}}_{U} \\ &{\boldsymbol{T}}({\boldsymbol{x}}, {\boldsymbol{u}}) \leq 0 \end{split} $$ (11) 式中,
$ J $ 为最小化目标,$ {\boldsymbol{u}}(t)\in {\bf R}^{n_u} $ 为操纵变量轨迹($ {\boldsymbol{u}}_L $ 和$ {\boldsymbol{u}}_U $ 分别为输入下上限),$ {\boldsymbol{x}}\in {\bf R}^{n_x} $ ,$ {\boldsymbol{y}}\in {\bf R}^{n_y} $ 和$ {\boldsymbol{d}}\in {\bf R}^{n_d} $ 分别为状态向量(初态$ {\boldsymbol{x}}_0 )$ 、测量变量和不确定扰动,$ t_f $ 为批次运行时间,$ \phi $ 为目标函数,$ {\boldsymbol{f}} $ ,$ {\boldsymbol{f}}_y $ 和$ {\boldsymbol{T}} $ 分别为模型方程、输出方程和过程约束.对式(11)所示的动态优化问题, 通常可以基于数值法将其近似为离散化的非线性规划(Non-linear programming, NLP)问题[37]
$$ \begin{split} \min_{{\boldsymbol{u}}_i,\cdots,{\boldsymbol{u}}_N}& J = \phi\left({\boldsymbol{y}}(N)\right)\\ {\rm{s.t. }} \;\;\quad &{\boldsymbol{x}}(i+1) = {\boldsymbol{\hat f}}({\boldsymbol{x}}(i), {\boldsymbol{u}}(i), {\boldsymbol{d}}(i)), \quad {\boldsymbol{x}}(0) = {\boldsymbol{x}}_{0}\\ &{\boldsymbol{y}}(i) = {\boldsymbol{\hat f}}_{y}({\boldsymbol{x}}(i),{\boldsymbol{u}}(i)) \\ &{\boldsymbol{u}}_{L} \leq {\boldsymbol{u}}(i) \leq {\boldsymbol{u}}_{U} \\ &{\boldsymbol{T}}({\boldsymbol{x}}(i), {\boldsymbol{u}}(i)) \leq 0\\ &\forall\;i = 1,\cdots,N \\[-10pt]\end{split} $$ (12) 式中,
$ N $ 为间歇过程在操作区间$ [0, t_f] $ 内的离散段数,$ {\boldsymbol{\hat f}} $ 和$ {\boldsymbol{\hat f}}_y $ 代表离散后的非线性状态方程和输出方程.对上述间歇过程的优化问题, 文献[27-28]提出了批间自优化控制方法, 即构造被控变量
$ {\boldsymbol{c}} = H{\boldsymbol{y}} $ , 利用间歇过程的重复特性逐批次将$ {\boldsymbol{c}} $ 控制在恒设定值上. 从批间角度看, 间歇过程是一个静态过程, 因此第1节中针对连续过程的被控变量求解方法可以较为直接地拓展至间歇过程. 但批间优化需要经历若干批次实现被控变量的控制, 优化速度较慢. 并且, 若扰动的变化频率较高(如非重复性扰动), 则难以实现被控变量的跟踪控制, 优化效果有限.2.2 批内自优化控制策略
本文研究间歇过程的批内自优化控制方法, 即在单批次中控制被控变量实现实时优化. 与批间优化相比, 批内优化的响应速度更快, 能提高优化效果. 由于跟踪控制在单批次内完成, 批内优化能应对非重复性扰动. 对被控变量
$ {\boldsymbol{c}} = H{\boldsymbol{y}} $ 及其设定值$ {\boldsymbol{c}}_s $ , 考虑如下几种策略:策略1.
$ H $ 和$ {\boldsymbol{c}}_s $ 保持恒定;策略2.
$ H $ 恒定,$ {\boldsymbol{c}}_s $ 时变;策略3.
$ H $ 和$ {\boldsymbol{c}}_s $ 均时变.策略1为连续过程中采用的自优化控制方法, 对具有时变特性的间歇过程, 一般难以取得理想效果. 策略2采用恒定被控变量, 其设定值为动态轨线, 较策略1更适合间歇过程. 策略3进一步考虑具有切换结构的控制系统, 对离散化的间歇过程, 在
$ [t_i, t_{i+1}) $ 时间段内控制一组新的被控变量, 如图1所示.结合间歇过程的时变特性, 本文主要研究策略2和策略3的被控变量求解问题. 对此, 引入如下假设条件:
假设1. 输出变量
$ {\boldsymbol{y}} $ 在时间轴$ [0,t_f] $ 上连续可测.假设2. 对一组选定的被控变量
$ {\boldsymbol{c}}(i) = H(i){\boldsymbol{y}} $ 及设定值$ {\boldsymbol{c}}_s(i) $ , 在对应的时间间隔$ [t_i,t_{i+1}) $ 内, 控制器可以将被控变量$ {\boldsymbol{c}}(i) $ 控制在其设定值$ {\boldsymbol{c}}_s(i) $ 上, 即$ \lim_{t\rightarrow t_{i+1}}H(i){\boldsymbol{y}}(t) = {\boldsymbol{c}}_s(i) $ .采用策略2时, 第1个时间段
$ [t_0,t_1) $ 内的被控变量$ {\boldsymbol{c}}(t) = H{\boldsymbol{y}}(t) $ , 设定值为$ c_s(1) $ , 至终点$ t_1 $ 实现$ H{\boldsymbol{y}}(1) = {\boldsymbol{c}}_s(1) $ ; 第2个时间段$ {\boldsymbol{c}}(t) = H{\boldsymbol{y}}(t) $ 的设定值变为$ {\boldsymbol{c}}_s(2) $ , 至终点$ t_2 $ 实现$ H{\boldsymbol{y}}(2) = {\boldsymbol{c}}_s(2) $ ; 以此类推.对策略2, 进一步考虑两种设定值选取方案:
方案1. 设定值轨线
$ [{\boldsymbol{c}}_s(1),\cdots,{\boldsymbol{c}}_s(N)] $ 为一组既定常数, 对给定的组合矩阵$ H $ , 设定值$ c_s(i) $ 为被控变量$ {\boldsymbol{c}} = H{\boldsymbol{y}}(t) $ 在各时间节点处的标称值$ {\boldsymbol{c}}_s^*(i) $ , 使标称工况的损失为0.方案2. 设定值
$ {\boldsymbol{c}}_s(i) $ 为当前批次运行至$ t_{i-1} $ 时刻的变量${\boldsymbol{y}}(0:i-1) = [{\boldsymbol{y}}^{\rm{T}}(0)\;\cdots\;{\boldsymbol{y}}^{\rm{T}}(i-1)]^{\rm{T}}$ 的函数, 不妨假定为线性关系, 记为$ {\boldsymbol{c}}_s(i) = {\boldsymbol{c}}_s^*(i)- H'(i){\boldsymbol{y}}(0:i-1) $ , 其中$ H'(i) $ 为待确定的系数矩阵.可以看到, 方案1中被控变量的设定轨线固定不变. 而方案2的被控变量设定轨线在当前批次运行过程中不断利用测量值进行修正. 相比方案1, 方案2更加充分地利用了过程信息, 理论上能进一步提高优化效果, 但需求解额外的决策变量
$ H'(i), i = 1,\cdots,N $ .为推导这两种方案中损失函数与组合矩阵
$ H $ 之间的关系, 定义如下超向量$$ \begin{split} &{\boldsymbol{\bar{u}}}^{\rm{T}} = [{\boldsymbol{u}}^{\rm{T}}(0)\;\;\;{\boldsymbol{u}}^{\rm{T}}(1)\; \cdots\; {\boldsymbol{u}}(N-1)^{\rm{T}}] \in {\bf R}^{n_{\bar{u}}= N_{u}}\\ &{\boldsymbol{\bar{d}}}^{\rm{T}} = \left[{\boldsymbol{d}}^{\rm{T}}(0)\;\;\; {\boldsymbol{d}}^{\rm{T}}(1) \;\cdots \;{\boldsymbol{d}}(N-1)^{\rm{T}}\right] \in {\bf R}^{n_{\bar{d}}= N n_{d}} \\ &{\boldsymbol{\bar{y}}}^{\rm{T}} = \left[{\boldsymbol{y}}^{\rm{T}}(0)\;\;\; {\boldsymbol{y}}^{\rm{T}}(1)\; \cdots\; {\boldsymbol{y}}(N)^{\rm{T}}\right] \in {\bf R}^{n_{\bar{y}}= (N+1) n_{y}} \end{split} $$ (13) 式中, 超向量
$ {\boldsymbol{\bar{u}}},{\boldsymbol{\bar{y}}},{\boldsymbol{\bar{d}}} $ 由时间轴$ [0, t_f] $ 上各离散点处的变量堆叠组成. 为便于描述, 将上述超向量的非线性映射关系记为$$ {\boldsymbol{\bar{y}}} = G({\boldsymbol{\bar{u}}},{\boldsymbol{\bar{d}}}) $$ (14) 式中, 映射函数
$ G $ 由式(12)中的状态方程$ {\boldsymbol{\hat f}} $ 和$ {\boldsymbol{\hat f}}_y $ 定义. 使用超向量, 间歇过程中变量的动态关系记为式(14)所示的静态函数.对方案1, 定义如下扩张组合矩阵
$ \bar H\in {\bf R}^{n_{\bar u}\times n_{\bar y}} $ 及总被控变量$ {\boldsymbol{\bar c}}\in {\bf R}^{Nn_{\bar u}} $ $$ \begin{split} &\bar{H} = \left[\begin{array}{ccccc} [0\;H] & 0 & \cdots & 0 \\ 0 & H & \cdots & 0 \\ \vdots & \vdots & \ddots &\vdots \\ 0 & 0 & \cdots & H \end{array}\right]\\ &{\boldsymbol{\bar{c}}} = \bar{H} \bar{y} = \left[\begin{array}{c} H{\boldsymbol{y}}(1) \\ H{\boldsymbol{y}}(2) \\ \vdots \\ H{\boldsymbol{y}}(N) \end{array}\right] \end{split} $$ (15) 方案2也可以定义相同维度的扩张组合矩阵
$ \bar H $ 及总被控变量$ {\boldsymbol{\bar c}} $ :$$ \begin{split}&\bar{H}=\left[\begin{array}{ccccc} H_{1}' & H & 0 & \cdots & 0 \\ \left[H_{2}'\right. & \rightarrow] & H & \cdots & 0\\ \vdots & \vdots& \vdots &\ddots & \vdots \\ \left[\leftarrow\right.& H_{N}'& \rightarrow&\rightarrow]& H \end{array}\right]\\ &{\boldsymbol{\bar{c}}} = \bar{H}{\boldsymbol{\bar{y}}} = \left[\begin{array}{c} H{\boldsymbol{y}}(1)+H_{1}' {\boldsymbol{y}}(0) \\ H{\boldsymbol{y}}(2)+H_{2}' {\boldsymbol{y}}(0: 1) \\ \vdots \\ H{\boldsymbol{y}}(N)+H_{N}' {\boldsymbol{y}}(0: N-1) \end{array}\right] \end{split} $$ (16) 式中,
$ [t_{i-1}, t_i) $ 的被控变量为$ {\boldsymbol{\bar{c}}}(i) = H {\boldsymbol{y}}(i)+ H_{i}'{\boldsymbol{y}}(0: i-1) $ , 等同于被控变量$ {\boldsymbol{\bar{c}}}(i) = H {\boldsymbol{y}}(i) $ , 且设定值修正量为$ -H_{i}'{\boldsymbol{y}}(0: i-1) $ , 因为在$ t-1 $ 时刻$ {\boldsymbol{y}}(0: i-1) $ 为已知量.引入扩张组合矩阵
$ \bar{H} $ 后, 总被控变量$ {\boldsymbol{\bar{c}}} $ 由每个时间节点的被控变量组成, 方案1 和方案2统一地描述为静态自优化控制问题的规范形. 结合第1节已有的结论, 可以得到损失函数$ L_{\rm{av}} $ 与$ \bar{H} $ 的关系表达式, 即求解如下最优化问题$$ \begin{split} & \min\limits_{\bar H} L_{\rm{av}} = 0.5\left\|V\left(\bar{H} G_{y}\right)^{-1} \bar{H} \tilde{F}\right\|_{\rm{F}}^{2}\\ &\; {\rm{s.t.}} \quad 式\;(15)\;或式\;(16) \end{split} $$ (17) 式中,
$ V,G_y $ 和$ \tilde F $ 等矩阵均定义为超向量之间的关系.上述优化问题和静态问题(9)之间的不同之处在于, 此处扩张组合矩阵
$ \bar H $ 应满足式(15)或式(16)所示的结构, 即矩阵$ \bar H $ 具有结构性约束. 式(10)所示的解析解不能直接推广至式(17)求解, 否则不满足约束条件(15)或(16).采用策略3时, 在第1个时间段
$ [t_0,t_1) $ 内, 控制器控制被控变量$ {\boldsymbol{c}}(t) = H(1){\boldsymbol{y}}(t) $ , 设定值为$ {\boldsymbol{c}}_s(1) $ , 至终点$ t_1 $ 实现$ H(1){\boldsymbol{y}}(1) = {\boldsymbol{c}}_s(1) $ ; 在第2个时间段$ [t_1,t_2) $ 内, 被控变量切换为$ {\boldsymbol{c}}(t) = H(2){\boldsymbol{y}}(t) $ , 设定值为$ {\boldsymbol{c}}_s(2) $ , 至终点$ t_2 $ 实现$ H(2){\boldsymbol{y}}(2) = {\boldsymbol{c}}_s(2) $ ; 以此类推. 类似地, 对策略3也考虑两种方案:方案3. 每组被控变量
$ {\boldsymbol{c}}(i) $ 对应的设定值$ [{\boldsymbol{c}}_s(1),\cdots,{\boldsymbol{c}}_s(N)] $ 为既定常数, 为$ H(i){\boldsymbol{y}}(i) $ 在时间节点$ t_i $ 处的标称值$ {\boldsymbol{c}}_s^*(i) $ .方案4. 设定值
$ {\boldsymbol{c}}_s(i) $ 为当前批次运行至$ t_{i-1} $ 时刻的变量$ {\boldsymbol{y}}(0:i-1) = [{\boldsymbol{y}}^{\rm{T}}(0)\;\cdots\;{\boldsymbol{y}}^{\rm{T}}(i-1)]^{\rm{T}} $ 的函数, 记为$ {\boldsymbol{c}}_s(i) = {\boldsymbol{c}}_s^*(i)-H'(i) {\boldsymbol{y}}(0:i-1) $ , 其中$ H'(i) $ 为待确定的系数矩阵.同理, 对策略3的两种方案也分别定义扩张组合矩阵
$ \bar H $ 及总被控变量$ {\boldsymbol{\bar c}} $ .方案3中,
$$\begin{split} &\bar{H} = \left[\begin{array}{ccccc} [0\;H(1)] & 0 & \cdots & 0 \\ 0 & H(2) & \cdots & 0 \\ \vdots & \vdots & \ddots &\vdots \\ 0 & 0 & \cdots & H(N) \end{array}\right] \\ &{\boldsymbol{\bar{c}}} = \bar{H} \bar{y} = \left[\begin{array}{c} H(1){\boldsymbol{y}}(1) \\ H(2){\boldsymbol{y}}(2) \\ \vdots \\ H(N){\boldsymbol{y}}(N) \end{array}\right] \end{split} $$ (18) 方案4中,
$$\begin{split} &\bar{H}=\left[\begin{array}{ccccc} H_{1}' & H(1) & 0 & \cdots & 0 \\ \left[H_{2}'\right. & \rightarrow] & H(2) & \cdots & 0\\ \vdots & \vdots& \vdots &\ddots & \vdots \\ \left[\leftarrow\right.& H_{N}'& \rightarrow&\rightarrow]& H(N) \end{array}\right]\\ &{\boldsymbol{\bar{c}}} = \bar{H}{\boldsymbol{\bar{y}}} = \left[\begin{array}{c} H(1){\boldsymbol{y}}(1)+H_{1}' {\boldsymbol{y}}(0) \\ H(2){\boldsymbol{y}}(2)+H_{2}' {\boldsymbol{y}}(0: 1) \\ \vdots \\ H(N){\boldsymbol{y}}(N)+H_{N}' {\boldsymbol{y}}(0: N-1) \end{array}\right]\end{split} $$ (19) 与策略2相比, 策略3中两种方案的组合矩阵
$ H $ 是时变的, 即需求取$ N $ 个组合矩阵$ H(i), i = 1,\cdots,N $ . 同理, 对策略3求解如下最优化问题$$ \begin{split} &\min\limits_{\bar H} L_{\rm{av}} = 0.5\left\|V\left(\bar{H} G_{y}\right)^{-1} \bar{H} \tilde{F}\right\|_{\rm{F}}^{2}\\& \;{\rm s.t.} \quad 式\;(18)\;或式\;(19) \end{split} $$ (20) 从以上分析看到, 对不同的控制策略和设定值选取方案, 可以统一归结为具有不同结构的扩张组合矩阵
$ \bar H $ 的求解问题, 可以在优化问题中对$ \bar H $ 施加等式约束实现. 一般来说, 具有特定结构的组合矩阵难以求得闭合解, 需使用数值优化算法.注1. 以上提出的4种被控变量选择方案, 从控制角度看, 执行策略2 (方案1)最简单, 但优化效果可能较差; 策略3 (方案4)理论上的优化效果最好, 但被控变量需要不断切换, 并且设定轨线也要在线修正. 针对具体过程, 需结合过程特性和优化性能结果综合考虑这两个因素, 选择最合理的自优化控制方案.
2.3 策略3 (方案4)的
${\boldsymbol{ \bar H}} $ 解析解下面提出一种针对策略3 (方案4)的闭合解求解方法. 如式(19)所示, 此时
$ \bar H $ 为块下三角矩阵. 为表述方便, 将式(19)所示的$ \bar H $ 表达式记为$$ \bar{H}=\left[\begin{array}{cccc} \bar H_1 & 0 & \cdots & 0 \\ \left[\bar H_2\right. & \rightarrow]& \cdots & 0\\ \vdots & \vdots &\ddots & \vdots \\ \left[\leftarrow\right.& \bar H_N &\rightarrow & \rightarrow] \end{array}\right] $$ (21) 式中, 子矩阵
$\bar{H}_i =\left[H_{i}'\;H(i)\right] \in {\bf R}^{n_{u} \times i n_{y}}$ , 同时包含了$ i $ 时刻的被控变量组合矩阵$ H(i) $ 及修正设定值轨线的系数矩阵$ H_{i}' $ .引理 2. 对满足式(21)结构的
$ \bar{H} $ 及非奇异块下三角矩阵$ Q $ , 转化矩阵$ \bar H' = Q\bar{H} $ 同样满足式(21)结构, 并且$ L_{\rm{av}}(\bar H) = L_{\rm{av}}(\bar H') $ .证明. 由于
$ \bar H $ 和$ Q $ 均为块下三角, 显然$ \bar H' $ 也为块下三角矩阵. 将$ \bar H' = Q\bar{H} $ 代入到损失函数表达式$L_{\rm{av}}(\bar{H}') = 0.5\|V(\bar{H}'G_{y})^{-1} \bar{H}'\tilde{F}\|_{\rm{F}}^{2}$ 中,$ Q $ 矩阵前后互消, 结论成立. □与引理1类似, 引理2也可用于先求解
$ \bar H $ 的特解. 注意到敏感矩阵$ G_y $ 为块下三角矩阵, 因此$ \bar HG_y $ 的逆也为块下三角. 将$ V $ 取为满足$V^{\rm{T}}V = J_{uu}$ 的块下三角矩阵, 可以对$ J_{uu} $ 进行Cholesky分解得到.定理 1. 对策略3 (方案4)的
$ \bar H $ 矩阵, 式(20)等同于求解如下问题$$ \begin{split} &\min\limits_{\bar{H}(1), \cdots, \bar H(N)} L_{\rm{av}} = 0.5 \sum\limits_{i = 1}^{N}\left\|\bar{H}(i) \tilde{F}_{i}\right\|_{\rm{F}}^{2}\\ &{\rm{s.t.}} \quad \bar{H}(i) G_{y i} = V_{i}, \;\forall i = 1, \cdots, N \end{split} $$ (22) 式中,
$ \tilde{F}_{i} $ 为$ \tilde{F} $ 的子矩阵 (前$ n_yi $ 行, 前$ n_d+n_yi $ 列),$ G_{yi} $ 为$ G_y $ 的子矩阵 (前$ n_yi $ 行, 前$ n_ui $ 列),$ V_i $ 为$ V $ 的第$ i $ 个分块矩阵.证明. 根据引理2, 可选择任意非奇异的块下三角矩阵
$ Q $ 对矩阵$ \bar H $ 进行转化求取特解, 可选择$ Q = V(\bar HG_y)^{-1} $ , 使$ \bar H' = Q\bar{H} $ 满足$$ \bar{H}'G_{y} = V\left(\bar{H} G_{y}\right)^{-1}\bar{H}G_{y} = V $$ (23) 即对
$ \forall i = 1,\cdots,N $ , 均满足$$ \bar{H}'({{i}}) G_{y i} = V_{i} $$ (24) 不失一般性, 式(24)可作为对决策变量
$ \bar H $ 的约束加入到优化问题中. 此时$$ \begin{split} L_{\rm{av}} =\;& 0.5\left\|V(\bar{H} G_{y})^{-1} \bar{H}\tilde{F}\right\|_{\rm{F}}^{2} = 0.5\left\| \bar{H} \tilde{F}\right\|_{\rm{F}}^{2} = \\ & 0.5 \sum\limits_{i = 1}^{N}\left\| \bar{H}(i) \tilde{F}\right\|_{\rm{F}}^{2} \end{split} $$ (25) □
通过合理利用转化矩阵
$ Q $ , 定理1将目标函数及约束条件分解到每个离散时间节点, 能够沿时间轴依次求解出子矩阵$ \bar H(i) $ . 对$\forall i = 1,\cdots,N$ , 求解如下优化问题$$ \begin{split} &\min\limits_{\bar{H}(i)}\;\;0.5\left\|H_{i} \tilde{F}_{i}\right\|_{\rm{F}}^{2}\\ &{\rm{s.t.}}\;\;\bar{H}(i) G_{y i} = V_{i} \end{split} $$ (26) 式(26)为带等式约束的二次型凸优化问题, 可进一步求得解析解.
定理 2. 对式(26)所示的带等式约束的二次型凸优化问题, 其闭合解为
$$ \bar{H}(i)^{\rm{T}} = (\tilde{F}_{i} \tilde{F}_{i}^{\rm{T}})^{-1} G_{yi}\left(G_{y i}^{\rm{T}}(\tilde{F}_{i} \tilde{F}_{i}^{\rm{T}})^{-1} G_{y i}\right)^{-1} V_{i}^{\rm{T}} $$ (27) 证明. 式(26)在形式上与第1节静态自优化控制问题一致, 闭合解(27)的推导过程可参见文献[28]. □
综上, 本文求取最优扩张组合矩阵
$ \bar H $ 的计算步骤如图2所示, 其中策略3 (方案4)可直接应用定理2 求得闭合解, 其他3种情况则需使用数值优化法求取. 由于目标函数$ L_{\rm{av}} $ 是$ \bar H $ 的非线性函数, 优化问题(17)和(20)不能保证得到全局最优解. 对此, 策略3 (方案4)得到的解析解可作为数值优化的初始解进行寻优.3. 仿真研究
3.1 间歇反应器描述
本节研究一个带副反应的间歇反应器, 主副反应分别为
$ A+B\rightarrow C $ 和$ 2B\rightarrow D $ , 其中反应物$ A $ 在初始时刻投放完毕,$ B $ 在反应过程中实时投放, 实时流量为操纵变量$ u(t) $ . 体系的模型方程为$$ \frac{{\rm{d}}c_A}{{\rm{d}}t} = -k_1c_Ac_B-\frac{c_Au}{V},\quad c_A(0) = c_{A0} $$ (28) $$\begin{split}& \frac{{\rm{d}}c_B}{{\rm{d}}t} = -k_1c_Ac_B-2k_2c_B^2-(c_B-c_{Bin})\frac{u}{V}, \\ & c_B(0) = c_{B0} \end{split} $$ (29) $$ \frac{{\rm{d}}V}{{\rm{d}}t} = u, \quad V(0) = V_0 $$ (30) $$c_C = \frac{c_{A0}V_0-c_AV}{V} $$ (31) $$ c_D = \frac{c_A+c_{Bin}-c_B}{2}-\frac{c_{A0}+c_{Bin}-c_{B0}}{2V} $$ (32) 式中,
$ c_X $ 表示物料$ X $ 的浓度,$ V $ 为持液量, 其他符号含义及标称值列于表1.表 1 间歇反应器参数及标称值Table 1 Parameters for the reactor model and nominal values符号 物理含义 标称值 $ k_1 $ 主反应的反应常数 0.053 L·mol/min $ k_2 $ 副反应的反应常数 0.128 L·mol/min $ u_L $ $ u $下限 0 L/min $ u_U $ $ u $上限 0.001 L/min $ c_{Bin} $ B 进料浓度 5 mol/L $ c_{Ao} $ A 初始浓度 0.72 mol/L $ c_{Bo} $ B 初始浓度 0.0614 mol/L $ V_o $ V 初始值 1 L $ t_f $ 批次运行时间 250 min 操作目标为在
$ [0, t_f] $ 操作时段内最大化产物产量$ C $ 的同时减少副产物$ D $ , 即表示为如下优化问题$$ \begin{split} \max\limits_{u(t)} J& = [c_C(t_f)-c_D(t_f)]V(t_f) \\ {\rm{s.t}}. \quad & 0\leq u(t)\leq 0.001 \;{\rm{L/min}} \end{split} $$ (33) 在表1所示的标称工况下, 使用数值优化方法求解式(33)可得到
$ u(t) $ 的最优输入轨迹(图3). 可以看到, 此时$ u(t) $ 整个轨线处于可行域内, 最优值$ J^{\rm{opt}} $ = 0.271687 mol. 反应常数$ k_1 $ 和$ k_2 $ 为不确定扰动, 变化范围为其标称值的$ \pm $ 40%. 当$ k_1 $ 和$ k_2 $ 变化时,$ u(t) $ 的最优输入轨迹随之改变.4. 被控变量计算示例
为更清晰地阐述本文方法, 以
$ N = 2 $ 为例(即$ [0, t_f] $ 被均匀离散为两段), 介绍如何使用第2节中的方法求解不同被控变量. 离散后的优化变量个数$ n_{\bar u} = 2 $ , 对式(33)进行重优化后得到Hessian矩阵和$ V $ 矩阵$$ \begin{split} & J_{\bar u\bar u} = \left[\begin{array}{cc} 3.70 & 1.74 \\ 1.74 & 3.47 \end{array}\right] \times 10^{5}\\ & V = \left[\begin{array}{cc} 532.2 & 0 \\ 294.9 & 589.0 \end{array}\right] \end{split} $$ (34) 考虑使用
$ c_A $ 和$ c_B $ 构造被控变量, 对离散系统进行线性化, 得到$$ {\boldsymbol{\bar{y}}} = G_{y}{\boldsymbol{\bar{u}}}+G_{yd}{\boldsymbol{d}} $$ (35) 式中
$$ \begin{split} & G_{y} = \left[\begin{array}{cc} 0 & 0 \\ 0 & 0 \\ -264.45 & 0 \\ 88.27 & 0 \\ -210.43 & -181.20 \\ 10.48 & 98.16 \end{array}\right] \\ & G_{y d} = \left[\begin{array}{cc} 0 & 0 \\ 0 & 0 \\ -2.07 & 0.32 \\ -0.41 & -0.15 \\ -2.90 & 0.52 \\ -0.21 & -0.19 \end{array}\right]\\ & F = \left[\begin{array}{cc} 0 & 0 \\ 0 & 0 \\ -4.03 & 0.81 \\ 0.24 & -0.31 \\ -4.99 & 1.02 \\ 0.16 & -0.27 \end{array}\right] \end{split} $$ (36) 其中, 测量变量
${\boldsymbol{\bar{y}}}^{\rm{T}} = \left[y^{\rm{T}}(0)\;\; y^{\rm{T}}(1)\;\; y^{\rm{T}}(2)\right]$ 为$ c_A $ 、$ c_B $ 分别在0, 125 min及250 min时刻的量组成. 得到上述矩阵后, 可以构造式(17)和式(20)所示的优化问题来求解被控变量, 结果如下.1) 策略2 (方案1):
$ H = [-0.0026\;\;0.0035] $ , 即整个时间段内都控制被控变量$ c(t) = -0.0026 c_A+ 0.0035 c_B $ . 经计算, 前125 min的设定值为$ c_s(1) = -0.000303 $ , 后125 min的设定值为$ c_s(2) = -0.000059 $ .2)策略2 (方案2): 求解得到的扩张组合矩阵
$ \bar H $ 为$$ \bar{H} = \left[\begin{array}{cccccc} 0 & 0 & -1.11 & 2.70 & 0 & 0 \\ 0 & 0 & \,\;\;0.51 & 1.93 & -1.11 & 2.70 \end{array}\right] $$ 即整个时间段内, 被控变量为
$ c(t) = -1.11 c_A+ 2.70 c_B $ . 前125 min的设定值为$ c_s(1) = -0.33 $ , 后125 min设定值为$ c_s(2) = 0.20-0.51 c_A(1)-1.93 c_B(1) $ .3)策略3 (方案3):
$ H(1) = [-0.0019\;\;\;0.0057] $ ,$H(2) = [-0.0015\;\;\;0.0074]$ , 即前125 min 被控变量$ c(1) = -0.0019 c_A+0.0057 c_B $ , 后125 min被控变量$ c(2) = -0.0015 c_A+0.0074 c_B $ , 其设定值分别为$c_s(1) =-0.00048$ 和$c_s(2) = -0.000034$ .4)策略3 (方案4): 根据定理2, 求得扩张矩阵
$ \bar H $ 为$$ \bar{H} = \left[\begin{array}{cccccc} 0 & 0 & -1.06 & 2.85 & 0 & 0 \\ 0 & 0 &\;\;\, 0.88 & 2.07 & -1.48 & 3.27 \end{array}\right] $$ 即前125 min被控变量
$ c(1) = -1.06 c_A+ 2.85 c_B $ , 设定值$ c_s(1) = -0.29 $ ; 后125 min被控变量$c(2) = -1.48 c_A+3.27 c_B$ , 设定值$c_s(2) = 0.31 - 0.88 c_A(1)- 2.07 c_B(1)$ .4.1 批内自优化控制效果
由于
$ N = 2 $ 难以逼近整个间歇操作过程, 后文设置$ N = 20 $ 并以相同的方法重新求解被控变量, 同时, 在测量变量中加入体积变量$ V $ 提高优化效果. 从表2可观察到:表 2 损失函数$ L_{\rm{av}} $ Table 2 Loss function$ L_{\rm{av}} $ 策略及方案 $ N = 2 $ $ N = 20 $ 策略 2 (方案 1) 0.0371 0.0083 策略 2 (方案 2) 0.03423 0.0024 策略 3 (方案 3) 0.0368 0.0069 策略 3 (方案 4) 0.03420 0.0022 1) 4种方案的损失
$ L_{\rm{av}} $ 在$N=20 $ 时, 相比$ N = 2 $ 都大幅度降低;2) 策略2 (方案1)的损失函数为0.0083, 策略2 (方案2)通过在线设定值修正, 进一步将损失减少到0.0024;
3) 策略3 (方案3)的损失为0.0069, 略低于策略2 (方案1);
4) 策略2 (方案3)的损失为 0.0024, 与策略3 (方案4)的损失0.0022很接近, 表明不切换被控变量也能得到较好的优化控制效果.
基于表2的结果, 策略2 (方案2)与策略3 (方案4)效果接近, 但前者无需在线切换被控变量, 更易于在线控制, 因此考虑使用策略2 (方案2)对该反应器进行批内自优化控制. 此外, 动态仿真中将与策略2 (方案1)的结果进行对比, 有助于进一步理解本文方法.
策略2 (方案1)的被控变量为
$ c_1(t) = 0.0062 c_A+ 0.002 c_B+0.0831 V $ , 设定值轨线如图4所示. 为进一步获取平滑的设定值轨线, 使操作更为平稳, 对这些离散点进行回归分析, 得到平滑的设定值轨迹方程$ c_s(t) = 0.0877+3.705\times 10^{-5}t-1.97\times 10^{-8}t^2 $ , 为一条随时间$ t $ 变化的连续曲线, 如图4所示. 对该系统可以采用普通的PI控制器对被控变量$ c_1(t) $ 进行跟踪控制.策略2 (方案2)的被控变量为
$ c_2(t) = 0.0026 c_A+ 0.00032 c_B+0.0830 V $ , 设定值轨线在每批次运行过程中采集测量值进行在线修正. 为增强操作平稳性, 在$ t_k $ 时刻计算得到$ t_{k+1} $ 时刻的设定点后, 在$ [t_k,t_{k+1}] $ 时间段内设置斜坡形设定值轨线, 使设定轨线维持连续性. 同样使用PI控制器跟踪控制得到的被控变量$ c_2(t) $ .不确定参数
$ k_1 $ 和$ k_2 $ 分别改变 +20%和 −20%时的优化控制效果如图5所示, 从图5(a)中可以看到, 两种方法分别对$ c_1(t) $ 和$ c_2(t) $ 都实现了较好的闭环跟踪控制, 其中,$ c_2(t) $ 的设定轨线根据批内采集到的测量值进行了调整, 相比自身的标称轨线有一定程度的上移; 图5(b)显示不同方法的控制输入$ u(t) $ 轨迹, 其中, 控制$ c_1(t) $ 时的$ u(t) $ 轨迹相比标称操作更靠近当前工况真实的最优轨线, 性能指标$ J $ 有所提高$( J = 0.34374 \rightarrow 0.34505 )$ , 显示出一定的优化控制效果. 控制$ c_2(t) $ 时的$ u(t) $ 轨迹更靠近最优轨线, 其性能指标$ J = 0.34701 $ 和最优值$ J^{\rm{opt}} = 0.34755 $ 差别不大. 同时注意到控制$ c_2(t) $ 时的$ u(t) $ 轨迹振荡更加剧烈, 这是因为$ c_2(t) $ 的设定轨线不断在线修正, 为了得到满意的控制效果, 使用了高增益PI控制器$( K_p = 20) $ . 这并不影响最终得到满意的优化效果$( L = 0.00054) $ , 从另一个角度说明了间歇过程中控制关键变量的重要性.不确定参数
$ k_1 $ 和$ k_2 $ 分别改变 −40%和 +40%时的优化控制效果如图6所示, 此时系统的不确定性向另一个方向变化, 并且幅度更大. 从图6(a)中可以看到, 两种方法同样对$ c_1(t) $ 和$ c_2(t) $ 都实现了较好的闭环跟踪控制, 其中,$ c_1(t) $ 的设定轨线不变, 而$ c_2(t) $ 的设定轨线相比自身的标称轨线有一定程度的下移. 从图6(b)来看, 虽然控制$ c_1(t) $ 能将$ u(t) $ 轨迹向着真实的最优轨线的方向调节, 其性能指标$ J $ 从标称操作的0.09646提高到0.10312, 但作用有限, 距离最优值$ J^{{\rm{opt}}} = 0.12252 $ 仍有较大差距. 控制$ c_2(t) $ 进一步提高了优化控制效果, 其性能指标为$ J = 0.11602 $ , 相比最优性能只有0.006的损失(此时$ k_1 $ ,$ k_2 $ 的变化较大, 该损失在一定程度上由系统的非线性导致). 此外, 控制$ c_2(t) $ 时的$ u(t) $ 轨迹同样振荡较为剧烈, 但随反应进行,$ u(t) $ 大致围绕着最优轨线上下波动.表3进一步统计了100组随机扰动下各方法的非线性损失, 其中随机扰动
$ [k_1\; k_2] $ 均匀分布在各自的变化范围. 可以看到, 相比标称操作(平均损失0.0036)和以单变量$ c_B $ (平均损失0.0042)为被控变量的情形, 两种批内自优化控制方法有效提高了经济性能, 其中, 策略2 (方案1)中控制$ c_1(t) $ 将平均损失减少到0.0026, 策略2 (方案2)中控制$ c_2(t) $ 进一步将平均损失减少到0.0007, 几乎可以忽略不计. 此外, 最大损失和标准差等统计量也呈现出相同的变化趋势, 如表3所示.表 3 100组随机扰动下的非线性损失统计量Table 3 Statistics of nonlinear losses for 100 groups of random disturbances方案 平均损失 最大损失 标准差 标称操作 0.0036 0.0227 0.0068 控制$ c_B $ 0.0042 0.0165 0.0054 策略 2 (方案 1) 0.0026 0.0167 0.0050 策略 2 (方案 2) 0.0007 0.0053 0.0016 5. 结束语
本文研究了间歇过程的批内自优化控制问题, 在单批次运行过程中控制一组虚拟的被控变量(输出变量的线性组合), 实现间歇过程的实时优化. 对此, 给出了两种自优化控制策略(被控变量恒定但设定值时变; 被控变量和设定值均时变). 对它们的设定值选取问题又分别提出两种方案(设定值轨线固定不变; 设定值轨线在线修正), 共计4种方法. 通过引入扩张组合矩阵
$ \bar H $ , 将这4种方法统一描述为具有不同结构约束的最优$ \bar H $ 求解问题, 并推导得到了策略3 (方案4)的$ \bar H $ 解析解计算方法(定理2).本文提出的4种被控变量选择方法, 其对应的闭环控制系统具有不同的复杂度和优化性能. 针对一般的实际间歇过程, 应综合考虑这两个因素并取得合理权衡. 间歇反应器的仿真研究中, 采用策略2 (方案2) (恒定被控变量:
$ c_2(t)) $ 得到的控制结构较为简单, 并且能通过在线修正$ c_2(t) $ 的设定值增强优化效果, 是较为合理的方案. -
表 1 机器人符号及无量纲参数
Table 1 Symbols and dimensionless default values of biped parameters
参数 符号 数值 腿长 I 1 腿部质心 m1 1 髋关节质心 m2 2 足半径 r 0.3 腿部质心与圆弧足中心距离 I1 0.55 髋关节与圆弧足中心距离 I2 0.7 髋关节到腿部质心距离 c 0.15 腿部转动惯量 J1 0.01 重力加速度 g 9.8 表 2 扰动函数N分配与学习耗时
Table 2 Noise function N settings and learning time
算法 高斯扰动 O-U 扰动 网络参数扰动[39] 耗时 DDPG 0 1 0 6.4 h 2 交互单元 1 1 0 4.2 h 4 交互单元 2 1 1 4.2 h 6 交互单元 2 2 2 4.3 h 表 3 机器人初始状态
Table 3 The initial states of the biped
状态 $\theta_1$ (rad) $\dot\theta_1$ (rad/s) $\dot\theta_2$ (rad/s) $\phi$ a 0.37149 −1.24226 2.97253 0.078 b 0.24678 −1.20521 0.15476 0.121 -
[1] 田彦涛, 孙中波, 李宏扬, 王静. 动态双足机器人的控制与优化研究进展. 自动化学报, 2016, 42(8): 1142-1157Tian Yan-Tao, Sun Zhong-Bo, Li Hong-Yang, Wang Jing. A review of optimal and control strategies for dynamic walking bipedal robots. Acta Automatica Sinica, 2016, 42(8): 1142-1157 [2] Chin C S, Lin W P. Robust genetic algorithm and fuzzy inference mechanism embedded in a sliding-mode controller for an uncertain underwater robot. IEEE/ASME Transactions on Mechatronics, 2018, 23(2): 655-666 doi: 10.1109/TMECH.2018.2806389 [3] Wang Y, Wang S, Wei Q P, Tan M, Zhou C, Yu J Z. Development of an underwater manipulator and its free-floating autonomous operation. IEEE/ASME Transactions on Mechatronics, 2016, 21(2): 815-824 doi: 10.1109/TMECH.2015.2494068 [4] Wang Y, Wang S, Tan M, Zhou C, Wei Q P. Real-time dynamic Dubins-Helix method for 3-D trajectory smoothing. IEEE Transactions on Control Systems Technology, 2015, 23(2): 730-736 doi: 10.1109/TCST.2014.2325904 [5] Wang Y, Wang S, Tan M. Path generation of autonomous approach to a moving ship for unmanned vehicles. IEEE Transactions on Industrial Electronics, 2015, 62(9): 5619-5629 doi: 10.1109/TIE.2015.2405904 [6] Ma K Y, Chirarattananon P, Wood R J. Design and fabrication of an insect-scale flying robot for control autonomy. In: Proceedings of the 2015 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Hamburg, Germany: IEEE, 2015. 1558−1564 [7] McGeer T. Passive dynamic walking. The International Journal of Robotics Research, 1990, 9(2): 62-82 doi: 10.1177/027836499000900206 [8] Bhounsule P A, Cortell J, Ruina A. Design and control of Ranger: An energy-efficient, dynamic walking robot. In: Proceedings of the 15th International Conference on Climbing and Walking Robots and the Support Technologies for Mobile Machines. Baltimore, MD, USA, 2012. 441−448 [9] Kurz M J, Stergiou N. An artificial neural network that utilizes hip joint actuations to control bifurcations and chaos in a passive dynamic bipedal walking model. Biological Cybernetics, 2005, 93(3): 213-221 doi: 10.1007/s00422-005-0579-6 [10] Sun C Y, He W, Ge W L, Chang C. Adaptive neural network control of biped robots. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2017, 47(2): 315-326 [11] Sugimoto Y, Osuka K. Walking control of quasi passive dynamic walking robot "Quartet III" based on continuous delayed feedback control. In: Proceedings of the 2004 IEEE International Conference on Robotics and Biomimetics. Shenyang, China: IEEE, 2004. 606−611 [12] 刘德君, 田彦涛, 张雷. 双足欠驱动机器人能量成型控制. 机械工程学报, 2012, 48(23): 16-22 doi: 10.3901/JME.2012.23.016Liu De-Jun, Tian Yan-Tao, Zhang Lei. Energy shaping control of under-actuated biped robot. Journal of Mechanical Engineering, 2012, 48(23): 16-22 doi: 10.3901/JME.2012.23.016 [13] Spong M W, Holm J K, Lee D. Passivity-based control of bipedal locomotion. IEEE Robotics & Automation Magazine, 2007, 14(2): 30-40 [14] 刘乃军, 鲁涛, 蔡莹皓, 王硕. 机器人操作技能学习方法综述. 自动化学报, 2019, 45(3): 458-470Liu Nai-Jun, Lu Tao, Cai Ying-Hao, Wang Shuo. A review of robot manipulation skills learning methods. Acta Automatica Sinica, 2019, 45(3): 458-470 [15] Tedrake R, Zhang T W, Seung H S. Stochastic policy gradient reinforcement learning on a simple 3D biped. In: Proceedings of the 2004 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Sendai, Japan: IEEE, 2004. 2849−2854 [16] Hitomi K, Shibata T, Nakamura Y, Ishii S. Reinforcement learning for quasi-passive dynamic walking of an unstable biped robot. Robotics and Autonomous Systems, 2006, 54(12): 982-988 doi: 10.1016/j.robot.2006.05.014 [17] Ueno T, Nakamura Y, Takuma T, Shibata T, Hosoda K, Ishii S. Fast and stable learning of quasi-passive dynamic walking by an unstable biped robot based on off-policy natural actor-critic. In: Proceedings of the 2006 IEEE/RSJ International Conference on Intelligent Robots and Systems. Beijing, China: IEEE, 2006. 5226−5231 [18] 刘全, 翟建伟, 章宗长, 钟珊, 周倩, 章鹏, 等. 深度强化学习综述. 计算机学报, 2018, 41(1): 1-27 doi: 10.11897/SP.J.1016.2019.00001Liu Quan, Zhai Jian-Wei, Zhang Zong-Zhang, Zhong Shan, Zhou Qian, et al. A survey on deep reinforcement learning. Chinese Journal of Computers, 2018, 41(1): 1-27 doi: 10.11897/SP.J.1016.2019.00001 [19] Kendall A, Hawke J, Janz D, Mazur P, Reda D, Allen J M, et al. Learning to drive in a day [Online], available: https://arxiv.org/abs/1807.00412, July 1, 2018 [20] 王云鹏, 郭戈. 基于深度强化学习的有轨电车信号优先控制. 自动化学报, 2019, 45(12): 2366-2377Wang Yun-Peng, Guo Ge. Signal priority control for trams using deep reinforcement learning. Acta Automatica Sinica, 2019, 45(12): 2366-2377 [21] 张一珂, 张鹏远, 颜永红. 基于对抗训练策略的语言模型数据增强技术. 自动化学报, 2018, 44(5): 891-900Zhang Yi-Ke, Zhang Peng-Yuan, Yan Yong-Hong. Data augmentation for language models via adversarial training. Acta Automatica Sinica, 2018, 44(5): 891-900 [22] Andreas J, Rohrbach M, Darrell T, Klein D. Learning to compose neural networks for question answering. In: Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. San Diego, California, USA: Association for Computational Linguistics, 2016. 1545−1554 [23] Zhang X X, Lapata M. Sentence simplification with deep reinforcement learning. In: Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. Copenhagen, Denmark: Association for Computational Linguistics, 2017. 584−594 [24] 赵玉婷, 韩宝玲, 罗庆生. 基于deep Q-network双足机器人非平整地面行走稳定性控制方法. 计算机应用, 2018, 38(9): 2459-2463Zhao Yu-Ting, Han Bao-Ling, Luo Qing-Sheng. Walking stability control method based on deep Q-network for biped robot on uneven ground. Journal of Computer Applications, 2018, 38(9): 2459-2463 [25] Mnih V, Kavukcuoglu K, Silver D, Rusu A A, Veness J, Bellemare M G, et al. Human-level control through deep reinforcement learning. Nature, 2015, 518(7540): 529-533 doi: 10.1038/nature14236 [26] Kumar A, Paul N, Omkar S N. Bipedal walking robot using deep deterministic policy gradient. In: Proceedings of the 2018 IEEE Symposium Series on Computational Intelligence. Bengaluru, India: IEEE, 2018. [27] Lillicrap T P, Hunt J J, Pritzel A, Heess N, Erez T, Tassa Y, et al. Continuous control with deep reinforcement learning [Online], available: https://arxiv.org/abs/1509.02971, September 9, 2015 [28] Song D R, Yang C Y, McGreavy C, Li Z B. Recurrent deterministic policy gradient method for bipedal locomotion on rough terrain challenge. In: Proceedings of the 15th International Conference on Control, Automation, Robotics and Vision. Singapore: IEEE, 2018. 311−318 [29] Todorov E, Erez T, Tassa Y. MuJoCo: A physics engine for model-based control. In: Proceedings of the 2012 IEEE/RSJ International Conference on Intelligent Robots and Systems. Vilamoura-Algarve, Portugal: IEEE. 2012. 5026−5033 [30] Palanisamy P. Hands-On intelligent agents with openai gym: Your guide to developing AI agents using deep reinforcement learning. Birmingham, UK: Packt Publishing Ltd., 2018. [31] Schaul T, Quan J, Antonoglou I, Silver D. Prioritized experience replay. In: Proceedings of the International Conference on Learning Representations 2016. San Juan, Puerto Rico, 2016. 322−355 [32] Horgan D, Quan J, Budden D, Barth-Maron G, Hessel M, van Hasselt H, et al. Distributed prioritized experience replay. In: Proceedings of the International Conference on Learning Representations 2018. Vancouver, Canada, 2018. [33] Zhao J, Wu X G, Zang X Z, Yang J H. Analysis of period doubling bifurcation and chaos mirror of biped passive dynamic robot gait. Chinese Science Bulletin, 2012, 57(14): 1743-1750 doi: 10.1007/s11434-012-5113-3 [34] Silver D, Lever G, Heess N, Degris T, Wierstra D, Riedmiller M. Deterministic policy gradient algorithms. In: Proceedings of the 31st International Conference on International Conference on Machine Learning. Beijing, China, 2014. I-387−I-395 [35] Sutton R S, Barto A G. Reinforcement Learning: An Introduction. Cambridge: MIT Press, 1998. [36] Zhao J, Wu X G, Zhu Y H, Li G. The improved passive dynamic model with high stability. In: Proceedings of the 2009 International Conference on Mechatronics and Automation. Changchun, China: IEEE, 2009. 4687−4692 [37] Abadi M, Barham P, Chen J M, Chen Z F, Davis A, Dean J, et al. TensorFlow: A system for large-scale machine learning. In: Proceedings of the 12th USENIX Conference on Operating Systems Design and Implementation. Savannah, USA: USENIX Association, 2016. 265−283 [38] Kingma D P, Ba J. Adam: A method for stochastic optimization. In: Proceedings of the 3rd International Conference for Learning Representations. San Diego, USA, 2015. [39] Plappert M, Houthooft R, Dhariwal P, Sidor S, Chen R Y, Chen X, et al. Parameter space noise for exploration [Online], available: https://arxiv.org/abs/1706.01905, June 6, 2017 [40] Schwab A L, Wisse M. Basin of attraction of the simplest walking model. In: Proceedings of the ASME 2001 Design Engineering Technical Conferences and Computers and Information in Engineering Conference. Pittsburgh, Pennsylvania: ASME, 2001. 531−539 期刊类型引用(29)
1. 王飞跃. 我国生成式人工智能的发展现状与趋势. 人民论坛. 2025(02): 21-26 . 百度学术
2. Fei-Yue Wang,Qinghai Miao,Lingxi Li,Qinghua Ni,Xuan Li,Juanjuan Li,Lili Fan,Yonglin Tian,Qing-Long Han. When Does Sora Show:The Beginning of TAO to Imaginative Intelligence and Scenarios Engineering. IEEE/CAA Journal of Automatica Sinica. 2024(04): 809-815 . 必应学术
3. Juanjuan Li,Rui Qin,Sangtian Guan,Xiao Xue,Peng Zhu,Fei-Yue Wang. Digital CEOs in Digital Enterprises: Automating, Augmenting, and Parallel in Metaverse/CPSS/TAOs. IEEE/CAA Journal of Automatica Sinica. 2024(04): 820-823 . 必应学术
4. 缪青海,王兴霞,杨静,赵勇,王雨桐,陈圆圆,田永林,俞怡,林懿伦,鄢然,马嘉琪,那晓翔,王飞跃. 从基础智能到通用智能:基于大模型的GenAI和AGI之现状与展望. 自动化学报. 2024(04): 674-687 . 本站查看
5. 田永林,王兴霞,王雨桐,王建功,郭超,范丽丽,沈甜雨,武万森,张红梅,朱正秋,王飞跃. RAG-PHI:检索增强生成驱动的平行人与平行智能. 智能科学与技术学报. 2024(01): 41-51 . 百度学术
6. 林飞,王飞跃,田永林,丁显廷,倪清桦,王静,申乐. 平行药物系统:基于大语言模型和三类人的框架与方法. 智能科学与技术学报. 2024(01): 88-99 . 百度学术
7. 李娟娟,管桑田,秦蕊,侯家琛,王飞跃. 智能区块链与区块链智能:构筑DePIN的基础设施智能. 智能科学与技术学报. 2024(01): 5-16 . 百度学术
8. 范丽丽,郭超,田永林,张慧,张俊,王飞跃. 基于Sora的平行智能基础机器人:三个世界模型,三种机器人系统(英文). Frontiers of Information Technology & Electronic Engineering. 2024(07): 917-924 . 百度学术
9. 张腾超,田永林,林飞,倪清桦,宋平,戴星原,李娟娟,伍乃騏,李鼎烈,王飞跃. 平行旅游:基础智能驱动的智慧出游服务. 智能科学与技术学报. 2024(02): 164-178 . 百度学术
10. 胡学敏,黄婷玉,余雅澜,任佳佳,谢微,陈龙. 仿真到现实环境的自动驾驶决策技术综述. 中国图象图形学报. 2024(11): 3173-3194 . 百度学术
11. Fei-Yue Wang,Qinghai Miao,Xuan Li,Xingxia Wang,Yilun Lin. What Does ChatGPT Say:The DAO from Algorithmic Intelligence to Linguistic Intelligence. IEEE/CAA Journal of Automatica Sinica. 2023(03): 575-579 . 必应学术
12. Fei-Yue Wang,Jing Yang,Xingxia Wang,Juanjuan Li,Qing-Long Han. Chat with ChatGPT on Industry 5.0:Learning and Decision-Making for Intelligent Industries. IEEE/CAA Journal of Automatica Sinica. 2023(04): 831-834 . 必应学术
13. Qinghai Miao,Wenbo Zheng,Yisheng Lv,Min Huang,Wenwen Ding,Fei-Yue Wang. DAO to HANOI via DeSci:AI Paradigm Shifts from AlphaGo to ChatGPT. IEEE/CAA Journal of Automatica Sinica. 2023(04): 877-897 . 必应学术
14. 卢经纬,郭超,戴星原,缪青海,王兴霞,杨静,王飞跃. 问答ChatGPT之后:超大预训练模型的机遇和挑战. 自动化学报. 2023(04): 705-717 . 本站查看
15. 田永林,陈苑文,杨静,王雨桐,王晓,缪青海,王子然,王飞跃. 元宇宙与平行系统:发展现状、对比及展望. 智能科学与技术学报. 2023(01): 121-132 . 百度学术
16. 李娟娟,秦蕊,丁文文,王戈,王坛,王飞跃. 基于Web3的去中心化自治组织与运营新框架. 自动化学报. 2023(05): 985-998 . 本站查看
17. Xingxia Wang,Jing Yang,Yutong Wang,Qinghai Miao,Fei-Yue Wang,Aijun Zhao,Jian-Ling Deng,Lingxi Li,Xiaoxiang Na,Ljubo Vlacic. Steps Toward Industry 5.0: Building “6S” Parallel Industries With Cyber-Physical-Social Intelligence. IEEE/CAA Journal of Automatica Sinica. 2023(08): 1692-1703 . 必应学术
18. Fei-Yue Wang. New Control Paradigm for Industry 5.0:From Big Models to Foundation Control and Management. IEEE/CAA Journal of Automatica Sinica. 2023(08): 1643-1646 . 必应学术
19. 王飞跃. 平行医生与平行医院:ChatGPT与通用人工智能技术对未来医疗的冲击与展望. 协和医学杂志. 2023(04): 673-679 . 百度学术
20. 阳东升,卢经纬,李强,王飞跃. 超大预训练模型在指挥控制领域的应用与挑战. 指挥与控制学报. 2023(02): 146-155 . 百度学术
21. 鲁越,郭超,潘晴,倪清桦,李华飙,王春法,王飞跃. 平行博物馆系统:框架、平台、方法及应用. 模式识别与人工智能. 2023(07): 575-589 . 百度学术
22. Yutong Wang,Xiao Wang,Xingxia Wang,Jing Yang,Oliver Kwan,Lingxi Li,Fei-Yue Wang. The ChatGPT After: Building Knowledge Factories for Knowledge Workers with Knowledge Automation. IEEE/CAA Journal of Automatica Sinica. 2023(11): 2041-2044 . 必应学术
23. 秦蕊,梁小龙,李娟娟,丁文文,侯家琛,王雨桐,田永林,文丁. 平行科研院所:从数字化转型到智能化变革. 智能科学与技术学报. 2023(02): 212-221 . 百度学术
24. 赵毅飞,申乐,叶佩军,王静,王飞跃. 平行麻醉:从麻醉自动化走向智慧型全周期麻醉平台. 智能科学与技术学报. 2023(02): 234-246 . 百度学术
25. 陈晓光,韩金朋,杨满智,王晓,刘昕,王震,王飞跃. 灵境卫士:基于ACP的网络安全平行监管研究. 智能科学与技术学报. 2023(02): 247-253 . 百度学术
26. 皮佩定,倪清桦,杨静,康孟珍,李宣昊,杜应昆,王飞跃. 平行夏尔希里:生态资源智能管护及其可持续发展新途径. 智能科学与技术学报. 2023(03): 283-292 . 百度学术
27. 王惠珍,张捷,俞怡,赵琳,李葵南,马慧颖,祁肖静,王静,王雨桐,林懿伦,许力,申乐,李汉忠,王飞跃. 平行手术室:围术期护理流程与智慧手术平台管理的新模式. 模式识别与人工智能. 2023(10): 867-876 . 百度学术
28. 崔华宁,王飞跃,李娟娟,秦蕊,王戈,梁小龙,侯家琛,管桑田. 平行财务预算:复杂业财的深度融合与智能服务. 智能科学与技术学报. 2023(04): 446-453 . 百度学术
29. 卢经纬,程相,王飞跃. 求解微分方程的人工智能与深度学习方法:现状及展望. 智能科学与技术学报. 2022(04): 461-476 . 百度学术
其他类型引用(1)
-