Design of Optimal Strategies for the Pursuit-evasion Problem Based on Differential Game
-
摘要:
本文设计了基于线性二次型微分博弈的多个攻击者、多个防御者和单个目标的追逃问题最优策略. 首先, 针对攻防双方保持聚合状态的情形, 基于攻击方内部、防御方内部以及双方之间的通信拓扑, 分别给出了目标沿固定轨迹运动和目标采取逃跑时攻防双方的最优策略. 其次, 针对攻防双方保持分散状态的情形, 利用二分图最大匹配算法分配相应的防御者与攻击者, 将多攻击者、多防御者追逃问题转化为多组两人零和微分博弈, 并求解出了攻防双方的最优策略. 最后, 数值仿真验证了所提策略的有效性.
-
关键词:
- 微分博弈 /
- 追逃问题 /
- 团队聚合 /
- 线性二次型博弈 /
- 目标–攻击者–防御者
Abstract:This paper is concerned with the design of optimal strategies for the pursuit-evasion problem with multi-attacker, multi-defender and single target based on the linear quadratic differential game. Firstly, for the case that attackers and defenders maintain their group cohesion, strategies of attackers and defenders are proposed when the target moves with a certain trajectory or the target adopts evasion policy respectively, based on communication graphs among attackers, among defenders, and between attackers and defenders. Secondly, for the case that attackers and defenders stay distributed, the maximum matching algorithm of bipartite graph is used to match attackers for defenders and the multi-attacker multi-defender pursuit-evasion problem is transformed into multi two-person zero-sum differential games, and then optimal strategies of attackers and defenders are proposed. Finally, simulation examples are provided to verify the effectiveness of the proposed strategies.
-
化工过程普遍存在不确定性, 如何采用有效的优化方法找到不确定条件下系统的真实最优点, 对提高化工企业的经济效益发挥着关键作用[1]. 大规模化工过程的控制系统通常为分层递阶结构[2-3], 控制层(下层)的主要任务是抑制底层扰动, 跟踪优化层传递来的被控变量设定值, 优化层(上层)根据调度层(顶层)传达的生产任务指标等, 对当前工况进行识别, 执行相应的优化算法计算出最优设定值, 传递给控制层执行.
优化层执行的优化算法通常以化工过程的非线性模型为基础, 以传统的“二步法” 实时优化[4-5] 为例, 首先确定模型的不确定参数, 运行过程中采集系统的输出量数据, 对未知参数进行估计, 再基于更新的系统模型进行重优化, 计算出被控变量的最优设定值后传递给控制层. 这一过程通常还需要结合数据调和、稳态检测等技术手段加强优化结果的可靠性, 工业过程的优化周期一般为4 ~ 8小时. 针对传统的“二步法” 的缺点, 近年来涌现出了新的实时优化方法, 如Bonvin课题组提出的修正项自适应方法(Modifier adaptation)[6-7], 通过对标称模型的约束及梯度进行修正, 即使不估计扰动参数也能收敛到真实最优点. 文献[8-10]考虑运行层之间的不同时间尺度, 提出了数据驱动的多速率分层运行优化控制方法, 基于Q学习对基础控制回路的设定值进行在线优化, 使运行层能更好地优化控制性能指标. 自优化控制(Self-optimizing control, SOC)[11-13] 提出通过离线选择控制层的被控变量, 设定值则在线保持不变, 提供了实时优化的另一种研究思路. 在自优化控制中, 被控变量可以是常规物理量的函数, 即构造虚拟量进行控制, 可使系统的操作变量可以在不确定性下进行自寻优. 当底层控制的优化作用较强时(经济损失可接受), 甚至可以省略单独的优化层, 从而简化控制系统. 相比传统的优化方式, 自优化控制的优化在工作频率为秒/分的反馈控制中完成, 因此优化速度得到大幅度提升, 在一系列研究中表现出良好的效果[14-17].
间歇过程是一类批次加工的化工过程, 具有规模小、灵活性高的特点, 在需求多元化的现代市场中应用越来越广泛. 相比连续化工过程, 间歇过程具有“多重时变” 的操作特征[18-19]. 一方面, 间歇过程具有重复特性, 可以引入学习机制从历史批次的数据中提炼出有用的信息, 改进后续批次的跟踪控制和经济指标优化, 典型的如迭代学习控制[18, 20-23]、批间实时优化[23-24] 等控制和优化技术. 另一方面, 由于其时变特性, 间歇过程在批次内无稳定操作点, 相比连续过程的控制和稳态优化更具挑战[25-27]. 自优化控制经过近20年的发展, 针对连续过程已报道了一系列被控变量求解方法[12, 28-31], 但是针对需动态优化的间歇过程仍缺乏足够的研究. 值得注意的是, 由于从批间角度看间歇过程是一个静态过程[32], 近年来文献[33-34]提出了间歇过程的批间自优化控制方法. 此类方法仅利用了间歇过程的重复性, 基于已有的静态自优化控制方法求解被控变量, 然后设计批间控制器调节输入轨迹, 逐批次将被控变量控制于恒定设定点, 实现实时优化. 但批间优化本质上还是静态方法, 由于需要若干个批次才能实现被控变量的跟踪控制, 优化作用慢, 因此未充分发挥自优化控制的优势. 此外, 批间优化只对具有重复特性的扰动具有效果, 当系统受到高频扰动作用时, 批间控制器难以实现有效的实时优化.
最近, Ye等[35]提出了一种针对间歇过程的动态自优化控制方法, 通过考虑批内变量的因果性, 最终得到了具有优化作用的控制律. 设计控制系统时, 选择被控变量和设计控制器通常是两个独立任务[36], 前者主要考虑经济指标的优化, 后者关注于如何更好地跟踪控制被控变量, 保证控制系统的稳定性和鲁棒性. 如何在此前提下求解批内被控变量, 仍是一个开放的课题.
本文研究了间歇过程的批内自优化控制问题, 贡献如下: 1)基于自优化控制策略提出以输出变量的线性组合为被控变量(虚拟变量), 在批次运行过程中对其进行跟踪控制, 以控制手段实现实时优化; 2)根据是否在过程不同阶段切换被控变量, 给出了两种自优化控制策略, 对每种策略又分别给出了两种设定轨线选取方案; 3)引入扩张组合矩阵, 将这些情形统一描述为具有不同结构约束的最优组合矩阵求解问题, 并推导得到了其中一种方案的解析解计算方法. 目前为止, 本文所提方法在国内外文献中未见报道.
1. 连续过程的自优化控制
对连续化工过程, 考虑如下静态优化问题
$$ \begin{split} &\min\limits_{{\boldsymbol{u}}} J({\boldsymbol{u}}, {\boldsymbol{d}})\\ &\;{\rm{s}}.{\rm{t}}. \quad {\boldsymbol{y}} = {\boldsymbol{g}}({\boldsymbol{u}}, {\boldsymbol{d}})\\& \quad\quad\;\; {\boldsymbol{g}}_{\rm{in}}({\boldsymbol{u}}, {\boldsymbol{d}}) \leq0 \end{split} $$ (1) 其中,
$ J $ 为经济指标,$ {\boldsymbol{u}}\in {\bf R}^{n_u} $ ,$ {\boldsymbol{d}}\in {\bf R}^{n_d} $ 和$ {\boldsymbol{y}}\in {\bf R}^{n_y} $ 分别是操纵变量、扰动变量和测量变量,$ {\boldsymbol{g}} $ 和$ {\boldsymbol{g}}_{\rm{in}} $ 为输出变量的模型函数和约束条件.扰动变量
$ {\boldsymbol{d}} $ 变化且在线不可测是化工过程偏离最优点的主要原因. 当扰动变量$ {\boldsymbol{d}} $ 变化时, 式(1)的解是$ {\boldsymbol{d}} $ 的函数, 不妨记为$ {\boldsymbol{u}}^{\rm{opt}}({\boldsymbol{d}}) $ . 实时优化的任务是在$ {\boldsymbol{d}} $ 未知的前提下, 寻找到新的最优值$ {\boldsymbol{u}}^{\rm{opt}} $ , 实现过程的最优操作. 自优化控制(SOC)通过构造虚拟的被控变量$ {\boldsymbol{c}} = H{\boldsymbol{y}} $ , 当反馈控制器将$ {\boldsymbol{c}} $ 控制在恒定设定值$ {\boldsymbol{c}}_s $ 上时, 控制器输出能自动逼近当前的实际最优值$ {\boldsymbol{u}}^{\rm{opt}}({\boldsymbol{d}}) $ . 当组合矩阵$ H $ 每行有且只有一个1, 其余为0时,$ {\boldsymbol{c}} $ 为输出变量$ {\boldsymbol{y}} $ 的子集, 此时退化为传统的以单变量为被控变量的情形. 更一般的情况下,$ H $ 中的非零元素提供了更多优化自由度, 可提高系统的闭环经济性能. 例如, 假设系统自由度$ n_u = 2 $ ,$ {\boldsymbol{y}} = [T\;P\;c_A]^{\rm{T}} $ , 包括温度$ T $ , 压力$ P $ 和物质A的浓度$ c_A $ , 考虑两种情况:$$ {H_1} = \left[ {\begin{array}{*{20}{c}} 1&0&0\\ 0&0&1 \end{array}} \right];\;{H_2} = \left[ {\begin{array}{*{20}{c}} {{h_{11}}}&{{h_{12}}}&{{h_{12}}}\\ {{h_{21}}}&{{h_{22}}}&{{h_{23}}} \end{array}} \right] $$ $ H_1 $ 对应的被控变量$ {\boldsymbol{c}} = H_1{\boldsymbol{y}} $ 为$ T $ 和$ c_A $ (单个物理量),$ H_2 $ 的被控变量为3个物理量的线性组合. 显然, 前者为后者的一种特殊形式.为求解一般情形的最优组合矩阵
$ H $ , 研究人员针对不同过程特性和衡量标准提出了求解方法[12, 28-31]. 以一种针对线性系统的局部法(Exact local method)为例[28], 首先定义损失函数$ L $ $$ L = J({\boldsymbol{u}}, {\boldsymbol{d}})-J^{\rm{opt}}({\boldsymbol{d}}) $$ (2) 对给定的
$ {\boldsymbol{d}} $ , 将$ J({\boldsymbol{u}}, {\boldsymbol{d}}) $ 在最优点$ {\boldsymbol{u}}^{\rm{opt}} $ 处进行二阶泰勒展开$$ \begin{split} J({\boldsymbol{u}}, {\boldsymbol{d}}) \approx\;& J^{\rm{opt}}({\boldsymbol{d}})+J_{u}^{{\rm{T}}}\left({\boldsymbol{u}}-{\boldsymbol{u}}^{\rm{opt}}\right)+\\&\frac{1}{2}\left({\boldsymbol{u}}-{\boldsymbol{u}}^{\rm{opt}}\right)^{{\rm{T}}} J_{u u}\left({\boldsymbol{u}}-{\boldsymbol{u}}^{\rm{opt}}\right) \end{split} $$ (3) 式中,
$J_u = \frac{\partial J}{\partial {\boldsymbol{u}}}$ 和$J_{uu} =\frac{ \partial^2J}{\partial {\boldsymbol{u}}^2 }$ 分别为一阶和二阶敏感矩阵. 根据最优性条件, 最优点处$ J_u = 0 $ , 将其代入式(1)可得到二次型损失函数$$ L = \frac{1}{2}\left({\boldsymbol{u}}-{\boldsymbol{u}}^{\rm{opt}}\right)^{{\rm{T}}} J_{u u}\left({\boldsymbol{u}}-{\boldsymbol{u}}^{\rm{opt}}\right) $$ (4) 此外, 输出函数在标称点处的线性化方程为
$$ {\boldsymbol{y}} = G_{y} {\boldsymbol{u}}+G_{yd}{\boldsymbol{d}} $$ (5) 若考虑测量变量含噪声:
$ {\boldsymbol{y}}_m = {\boldsymbol{y}}+{\boldsymbol{n}} $ , 当控制器将被控变量$ {\boldsymbol{c}} = H{\boldsymbol{y}}_m $ 控制在原设定值上时$ (\Delta {\boldsymbol{c}} = 0) $ , 扰动变化$ \Delta{\boldsymbol{d}} $ 将引起的$ {\boldsymbol{u}} $ 变化量为$$ \Delta{\boldsymbol{u}} = -\left(HG_{y}\right)^{-1} HG_{yd} \Delta{\boldsymbol{d}}+\left(HG_{y}\right)^{-1} H{\boldsymbol{n}} $$ (6) 同时, 扰动变化
$ \Delta{\boldsymbol{d}} $ 将引起最优点变化$$ \Delta {\boldsymbol{u}}^{\rm{opt}} = -J_{uu}^{-1}J_{ud} \Delta{\boldsymbol{d}} $$ (7) 式中,
$J_{ud} = \frac{\partial^2J}{\partial {\boldsymbol{u}}\partial{\boldsymbol{d}} }$ . 将式(6)和式(7)代入式(4) 可计算损失函数[28]$$ \begin{split} &L = \frac{1}{2}\|{\boldsymbol{z}}\|^2_2\\ &{\boldsymbol{z}}= V(HG_y)^{-1}H\tilde F\begin{bmatrix}{{{\boldsymbol{d}}'}}\\ {\boldsymbol{n}}' \end{bmatrix} = M\begin{bmatrix}{{{\boldsymbol{d}}'}}\\ {\boldsymbol{n}}' \end{bmatrix} \end{split} $$ (8) 式中,
$ V $ 满足$ V^{\rm{T}}V = J_{uu} $ ,$ \tilde F = [FW_d\;\;\;W_n] $ ,$F = \frac{\partial {\boldsymbol{y}}^{\rm{opt}}}{ \partial {\boldsymbol{d}}} = -(G_yJ_{uu})^{-1}J_{ud}+G_{yd}$ ,$ W_d $ 和$ W_n $ 为对角矩阵, 其对角元素为$ {\boldsymbol{d}} $ 和$ {\boldsymbol{n}} $ 的幅值,$ {\boldsymbol{d}}' $ 和$ {\boldsymbol{n}}' $ 为归一化后的扰动和噪声向量, 其最大范数为1.式(8)中的损失
$ L $ 为单个工况$ (\Delta{\boldsymbol{d}},{\boldsymbol{n}}) $ 引起的损失. 当$ {\boldsymbol{d}} $ 和$ {\boldsymbol{n}} $ 在其变化范围内变化时, 文献[23-24]中分别以$ L $ 的最大值$ L_{\max} $ 和平均值$ L_{\rm{av}} $ 为衡量标准, 提出了$ H $ 的求解方法. 以平均损失$ L_{\rm{av}} $ 为例, 当$ {\boldsymbol{d}}' $ 和$ {\boldsymbol{n}}' $ 为正态分布时, 可得到如下最优化问题求解$ H $ $$ \min\limits_{H} L_{\rm{opt}} = 0.5\|M\|_{\rm{F}}^{2} $$ (9) 引理1[35].
$ L_{\rm{av}}(H) = L_{\rm{av}}(QH) $ , 其中$ Q $ 为任意$ n_u $ 维非奇异方阵.引理1表明, 式(9)的解非唯一(因为控制
$ {\boldsymbol{c}} = H{\boldsymbol{y}} $ 和$ {\boldsymbol{c}} = QH{\boldsymbol{y}} $ 等效). 利用该特性, 可以先求解出式(9)的一个特解, 再推广至通解形式. 文献[24]给出了最优$ H $ 的一个特解, 即$$ H^{\rm{T}} = (\tilde{F}\tilde{F}^{\rm{T}})^{-1}{G}_y({G}_y^{\rm{T}}(\tilde{F}\tilde{F}^{\rm{T}})^{-1}G_y)^{-1}J_{uu}^{\frac{1}{2}} $$ (10) 2. 间歇过程的自优化控制
2.1 间歇过程优化
考虑一类带不确定参数的间歇过程优化问题
$$ \begin{split} \min\limits_{{\boldsymbol{u}}(t)} J &= \phi\left({\boldsymbol{y}}\left(t_{f}\right)\right)\\ {\rm{s.t.}} \quad\; &\dot{{\boldsymbol{x}}} = {\boldsymbol{f}}({\boldsymbol{x}}, {\boldsymbol{u}}, {\boldsymbol{d}}), \quad {\boldsymbol{x}}(0) = {\boldsymbol{x}}_{0}\\ &{\boldsymbol{y}} = {\boldsymbol{f}}_{y}({\boldsymbol{x}},{\boldsymbol{u}}) \\ &{\boldsymbol{u}}_{L} \leq {\boldsymbol{u}}(t) \leq {\boldsymbol{u}}_{U} \\ &{\boldsymbol{T}}({\boldsymbol{x}}, {\boldsymbol{u}}) \leq 0 \end{split} $$ (11) 式中,
$ J $ 为最小化目标,$ {\boldsymbol{u}}(t)\in {\bf R}^{n_u} $ 为操纵变量轨迹($ {\boldsymbol{u}}_L $ 和$ {\boldsymbol{u}}_U $ 分别为输入下上限),$ {\boldsymbol{x}}\in {\bf R}^{n_x} $ ,$ {\boldsymbol{y}}\in {\bf R}^{n_y} $ 和$ {\boldsymbol{d}}\in {\bf R}^{n_d} $ 分别为状态向量(初态$ {\boldsymbol{x}}_0 )$ 、测量变量和不确定扰动,$ t_f $ 为批次运行时间,$ \phi $ 为目标函数,$ {\boldsymbol{f}} $ ,$ {\boldsymbol{f}}_y $ 和$ {\boldsymbol{T}} $ 分别为模型方程、输出方程和过程约束.对式(11)所示的动态优化问题, 通常可以基于数值法将其近似为离散化的非线性规划(Non-linear programming, NLP)问题[37]
$$ \begin{split} \min_{{\boldsymbol{u}}_i,\cdots,{\boldsymbol{u}}_N}& J = \phi\left({\boldsymbol{y}}(N)\right)\\ {\rm{s.t. }} \;\;\quad &{\boldsymbol{x}}(i+1) = {\boldsymbol{\hat f}}({\boldsymbol{x}}(i), {\boldsymbol{u}}(i), {\boldsymbol{d}}(i)), \quad {\boldsymbol{x}}(0) = {\boldsymbol{x}}_{0}\\ &{\boldsymbol{y}}(i) = {\boldsymbol{\hat f}}_{y}({\boldsymbol{x}}(i),{\boldsymbol{u}}(i)) \\ &{\boldsymbol{u}}_{L} \leq {\boldsymbol{u}}(i) \leq {\boldsymbol{u}}_{U} \\ &{\boldsymbol{T}}({\boldsymbol{x}}(i), {\boldsymbol{u}}(i)) \leq 0\\ &\forall\;i = 1,\cdots,N \\[-10pt]\end{split} $$ (12) 式中,
$ N $ 为间歇过程在操作区间$ [0, t_f] $ 内的离散段数,$ {\boldsymbol{\hat f}} $ 和$ {\boldsymbol{\hat f}}_y $ 代表离散后的非线性状态方程和输出方程.对上述间歇过程的优化问题, 文献[27-28]提出了批间自优化控制方法, 即构造被控变量
$ {\boldsymbol{c}} = H{\boldsymbol{y}} $ , 利用间歇过程的重复特性逐批次将$ {\boldsymbol{c}} $ 控制在恒设定值上. 从批间角度看, 间歇过程是一个静态过程, 因此第1节中针对连续过程的被控变量求解方法可以较为直接地拓展至间歇过程. 但批间优化需要经历若干批次实现被控变量的控制, 优化速度较慢. 并且, 若扰动的变化频率较高(如非重复性扰动), 则难以实现被控变量的跟踪控制, 优化效果有限.2.2 批内自优化控制策略
本文研究间歇过程的批内自优化控制方法, 即在单批次中控制被控变量实现实时优化. 与批间优化相比, 批内优化的响应速度更快, 能提高优化效果. 由于跟踪控制在单批次内完成, 批内优化能应对非重复性扰动. 对被控变量
$ {\boldsymbol{c}} = H{\boldsymbol{y}} $ 及其设定值$ {\boldsymbol{c}}_s $ , 考虑如下几种策略:策略1.
$ H $ 和$ {\boldsymbol{c}}_s $ 保持恒定;策略2.
$ H $ 恒定,$ {\boldsymbol{c}}_s $ 时变;策略3.
$ H $ 和$ {\boldsymbol{c}}_s $ 均时变.策略1为连续过程中采用的自优化控制方法, 对具有时变特性的间歇过程, 一般难以取得理想效果. 策略2采用恒定被控变量, 其设定值为动态轨线, 较策略1更适合间歇过程. 策略3进一步考虑具有切换结构的控制系统, 对离散化的间歇过程, 在
$ [t_i, t_{i+1}) $ 时间段内控制一组新的被控变量, 如图1所示.结合间歇过程的时变特性, 本文主要研究策略2和策略3的被控变量求解问题. 对此, 引入如下假设条件:
假设1. 输出变量
$ {\boldsymbol{y}} $ 在时间轴$ [0,t_f] $ 上连续可测.假设2. 对一组选定的被控变量
$ {\boldsymbol{c}}(i) = H(i){\boldsymbol{y}} $ 及设定值$ {\boldsymbol{c}}_s(i) $ , 在对应的时间间隔$ [t_i,t_{i+1}) $ 内, 控制器可以将被控变量$ {\boldsymbol{c}}(i) $ 控制在其设定值$ {\boldsymbol{c}}_s(i) $ 上, 即$ \lim_{t\rightarrow t_{i+1}}H(i){\boldsymbol{y}}(t) = {\boldsymbol{c}}_s(i) $ .采用策略2时, 第1个时间段
$ [t_0,t_1) $ 内的被控变量$ {\boldsymbol{c}}(t) = H{\boldsymbol{y}}(t) $ , 设定值为$ c_s(1) $ , 至终点$ t_1 $ 实现$ H{\boldsymbol{y}}(1) = {\boldsymbol{c}}_s(1) $ ; 第2个时间段$ {\boldsymbol{c}}(t) = H{\boldsymbol{y}}(t) $ 的设定值变为$ {\boldsymbol{c}}_s(2) $ , 至终点$ t_2 $ 实现$ H{\boldsymbol{y}}(2) = {\boldsymbol{c}}_s(2) $ ; 以此类推.对策略2, 进一步考虑两种设定值选取方案:
方案1. 设定值轨线
$ [{\boldsymbol{c}}_s(1),\cdots,{\boldsymbol{c}}_s(N)] $ 为一组既定常数, 对给定的组合矩阵$ H $ , 设定值$ c_s(i) $ 为被控变量$ {\boldsymbol{c}} = H{\boldsymbol{y}}(t) $ 在各时间节点处的标称值$ {\boldsymbol{c}}_s^*(i) $ , 使标称工况的损失为0.方案2. 设定值
$ {\boldsymbol{c}}_s(i) $ 为当前批次运行至$ t_{i-1} $ 时刻的变量${\boldsymbol{y}}(0:i-1) = [{\boldsymbol{y}}^{\rm{T}}(0)\;\cdots\;{\boldsymbol{y}}^{\rm{T}}(i-1)]^{\rm{T}}$ 的函数, 不妨假定为线性关系, 记为$ {\boldsymbol{c}}_s(i) = {\boldsymbol{c}}_s^*(i)- H'(i){\boldsymbol{y}}(0:i-1) $ , 其中$ H'(i) $ 为待确定的系数矩阵.可以看到, 方案1中被控变量的设定轨线固定不变. 而方案2的被控变量设定轨线在当前批次运行过程中不断利用测量值进行修正. 相比方案1, 方案2更加充分地利用了过程信息, 理论上能进一步提高优化效果, 但需求解额外的决策变量
$ H'(i), i = 1,\cdots,N $ .为推导这两种方案中损失函数与组合矩阵
$ H $ 之间的关系, 定义如下超向量$$ \begin{split} &{\boldsymbol{\bar{u}}}^{\rm{T}} = [{\boldsymbol{u}}^{\rm{T}}(0)\;\;\;{\boldsymbol{u}}^{\rm{T}}(1)\; \cdots\; {\boldsymbol{u}}(N-1)^{\rm{T}}] \in {\bf R}^{n_{\bar{u}}= N_{u}}\\ &{\boldsymbol{\bar{d}}}^{\rm{T}} = \left[{\boldsymbol{d}}^{\rm{T}}(0)\;\;\; {\boldsymbol{d}}^{\rm{T}}(1) \;\cdots \;{\boldsymbol{d}}(N-1)^{\rm{T}}\right] \in {\bf R}^{n_{\bar{d}}= N n_{d}} \\ &{\boldsymbol{\bar{y}}}^{\rm{T}} = \left[{\boldsymbol{y}}^{\rm{T}}(0)\;\;\; {\boldsymbol{y}}^{\rm{T}}(1)\; \cdots\; {\boldsymbol{y}}(N)^{\rm{T}}\right] \in {\bf R}^{n_{\bar{y}}= (N+1) n_{y}} \end{split} $$ (13) 式中, 超向量
$ {\boldsymbol{\bar{u}}},{\boldsymbol{\bar{y}}},{\boldsymbol{\bar{d}}} $ 由时间轴$ [0, t_f] $ 上各离散点处的变量堆叠组成. 为便于描述, 将上述超向量的非线性映射关系记为$$ {\boldsymbol{\bar{y}}} = G({\boldsymbol{\bar{u}}},{\boldsymbol{\bar{d}}}) $$ (14) 式中, 映射函数
$ G $ 由式(12)中的状态方程$ {\boldsymbol{\hat f}} $ 和$ {\boldsymbol{\hat f}}_y $ 定义. 使用超向量, 间歇过程中变量的动态关系记为式(14)所示的静态函数.对方案1, 定义如下扩张组合矩阵
$ \bar H\in {\bf R}^{n_{\bar u}\times n_{\bar y}} $ 及总被控变量$ {\boldsymbol{\bar c}}\in {\bf R}^{Nn_{\bar u}} $ $$ \begin{split} &\bar{H} = \left[\begin{array}{ccccc} [0\;H] & 0 & \cdots & 0 \\ 0 & H & \cdots & 0 \\ \vdots & \vdots & \ddots &\vdots \\ 0 & 0 & \cdots & H \end{array}\right]\\ &{\boldsymbol{\bar{c}}} = \bar{H} \bar{y} = \left[\begin{array}{c} H{\boldsymbol{y}}(1) \\ H{\boldsymbol{y}}(2) \\ \vdots \\ H{\boldsymbol{y}}(N) \end{array}\right] \end{split} $$ (15) 方案2也可以定义相同维度的扩张组合矩阵
$ \bar H $ 及总被控变量$ {\boldsymbol{\bar c}} $ :$$ \begin{split}&\bar{H}=\left[\begin{array}{ccccc} H_{1}' & H & 0 & \cdots & 0 \\ \left[H_{2}'\right. & \rightarrow] & H & \cdots & 0\\ \vdots & \vdots& \vdots &\ddots & \vdots \\ \left[\leftarrow\right.& H_{N}'& \rightarrow&\rightarrow]& H \end{array}\right]\\ &{\boldsymbol{\bar{c}}} = \bar{H}{\boldsymbol{\bar{y}}} = \left[\begin{array}{c} H{\boldsymbol{y}}(1)+H_{1}' {\boldsymbol{y}}(0) \\ H{\boldsymbol{y}}(2)+H_{2}' {\boldsymbol{y}}(0: 1) \\ \vdots \\ H{\boldsymbol{y}}(N)+H_{N}' {\boldsymbol{y}}(0: N-1) \end{array}\right] \end{split} $$ (16) 式中,
$ [t_{i-1}, t_i) $ 的被控变量为$ {\boldsymbol{\bar{c}}}(i) = H {\boldsymbol{y}}(i)+ H_{i}'{\boldsymbol{y}}(0: i-1) $ , 等同于被控变量$ {\boldsymbol{\bar{c}}}(i) = H {\boldsymbol{y}}(i) $ , 且设定值修正量为$ -H_{i}'{\boldsymbol{y}}(0: i-1) $ , 因为在$ t-1 $ 时刻$ {\boldsymbol{y}}(0: i-1) $ 为已知量.引入扩张组合矩阵
$ \bar{H} $ 后, 总被控变量$ {\boldsymbol{\bar{c}}} $ 由每个时间节点的被控变量组成, 方案1 和方案2统一地描述为静态自优化控制问题的规范形. 结合第1节已有的结论, 可以得到损失函数$ L_{\rm{av}} $ 与$ \bar{H} $ 的关系表达式, 即求解如下最优化问题$$ \begin{split} & \min\limits_{\bar H} L_{\rm{av}} = 0.5\left\|V\left(\bar{H} G_{y}\right)^{-1} \bar{H} \tilde{F}\right\|_{\rm{F}}^{2}\\ &\; {\rm{s.t.}} \quad 式\;(15)\;或式\;(16) \end{split} $$ (17) 式中,
$ V,G_y $ 和$ \tilde F $ 等矩阵均定义为超向量之间的关系.上述优化问题和静态问题(9)之间的不同之处在于, 此处扩张组合矩阵
$ \bar H $ 应满足式(15)或式(16)所示的结构, 即矩阵$ \bar H $ 具有结构性约束. 式(10)所示的解析解不能直接推广至式(17)求解, 否则不满足约束条件(15)或(16).采用策略3时, 在第1个时间段
$ [t_0,t_1) $ 内, 控制器控制被控变量$ {\boldsymbol{c}}(t) = H(1){\boldsymbol{y}}(t) $ , 设定值为$ {\boldsymbol{c}}_s(1) $ , 至终点$ t_1 $ 实现$ H(1){\boldsymbol{y}}(1) = {\boldsymbol{c}}_s(1) $ ; 在第2个时间段$ [t_1,t_2) $ 内, 被控变量切换为$ {\boldsymbol{c}}(t) = H(2){\boldsymbol{y}}(t) $ , 设定值为$ {\boldsymbol{c}}_s(2) $ , 至终点$ t_2 $ 实现$ H(2){\boldsymbol{y}}(2) = {\boldsymbol{c}}_s(2) $ ; 以此类推. 类似地, 对策略3也考虑两种方案:方案3. 每组被控变量
$ {\boldsymbol{c}}(i) $ 对应的设定值$ [{\boldsymbol{c}}_s(1),\cdots,{\boldsymbol{c}}_s(N)] $ 为既定常数, 为$ H(i){\boldsymbol{y}}(i) $ 在时间节点$ t_i $ 处的标称值$ {\boldsymbol{c}}_s^*(i) $ .方案4. 设定值
$ {\boldsymbol{c}}_s(i) $ 为当前批次运行至$ t_{i-1} $ 时刻的变量$ {\boldsymbol{y}}(0:i-1) = [{\boldsymbol{y}}^{\rm{T}}(0)\;\cdots\;{\boldsymbol{y}}^{\rm{T}}(i-1)]^{\rm{T}} $ 的函数, 记为$ {\boldsymbol{c}}_s(i) = {\boldsymbol{c}}_s^*(i)-H'(i) {\boldsymbol{y}}(0:i-1) $ , 其中$ H'(i) $ 为待确定的系数矩阵.同理, 对策略3的两种方案也分别定义扩张组合矩阵
$ \bar H $ 及总被控变量$ {\boldsymbol{\bar c}} $ .方案3中,
$$\begin{split} &\bar{H} = \left[\begin{array}{ccccc} [0\;H(1)] & 0 & \cdots & 0 \\ 0 & H(2) & \cdots & 0 \\ \vdots & \vdots & \ddots &\vdots \\ 0 & 0 & \cdots & H(N) \end{array}\right] \\ &{\boldsymbol{\bar{c}}} = \bar{H} \bar{y} = \left[\begin{array}{c} H(1){\boldsymbol{y}}(1) \\ H(2){\boldsymbol{y}}(2) \\ \vdots \\ H(N){\boldsymbol{y}}(N) \end{array}\right] \end{split} $$ (18) 方案4中,
$$\begin{split} &\bar{H}=\left[\begin{array}{ccccc} H_{1}' & H(1) & 0 & \cdots & 0 \\ \left[H_{2}'\right. & \rightarrow] & H(2) & \cdots & 0\\ \vdots & \vdots& \vdots &\ddots & \vdots \\ \left[\leftarrow\right.& H_{N}'& \rightarrow&\rightarrow]& H(N) \end{array}\right]\\ &{\boldsymbol{\bar{c}}} = \bar{H}{\boldsymbol{\bar{y}}} = \left[\begin{array}{c} H(1){\boldsymbol{y}}(1)+H_{1}' {\boldsymbol{y}}(0) \\ H(2){\boldsymbol{y}}(2)+H_{2}' {\boldsymbol{y}}(0: 1) \\ \vdots \\ H(N){\boldsymbol{y}}(N)+H_{N}' {\boldsymbol{y}}(0: N-1) \end{array}\right]\end{split} $$ (19) 与策略2相比, 策略3中两种方案的组合矩阵
$ H $ 是时变的, 即需求取$ N $ 个组合矩阵$ H(i), i = 1,\cdots,N $ . 同理, 对策略3求解如下最优化问题$$ \begin{split} &\min\limits_{\bar H} L_{\rm{av}} = 0.5\left\|V\left(\bar{H} G_{y}\right)^{-1} \bar{H} \tilde{F}\right\|_{\rm{F}}^{2}\\& \;{\rm s.t.} \quad 式\;(18)\;或式\;(19) \end{split} $$ (20) 从以上分析看到, 对不同的控制策略和设定值选取方案, 可以统一归结为具有不同结构的扩张组合矩阵
$ \bar H $ 的求解问题, 可以在优化问题中对$ \bar H $ 施加等式约束实现. 一般来说, 具有特定结构的组合矩阵难以求得闭合解, 需使用数值优化算法.注1. 以上提出的4种被控变量选择方案, 从控制角度看, 执行策略2 (方案1)最简单, 但优化效果可能较差; 策略3 (方案4)理论上的优化效果最好, 但被控变量需要不断切换, 并且设定轨线也要在线修正. 针对具体过程, 需结合过程特性和优化性能结果综合考虑这两个因素, 选择最合理的自优化控制方案.
2.3 策略3 (方案4)的
${\boldsymbol{ \bar H}} $ 解析解下面提出一种针对策略3 (方案4)的闭合解求解方法. 如式(19)所示, 此时
$ \bar H $ 为块下三角矩阵. 为表述方便, 将式(19)所示的$ \bar H $ 表达式记为$$ \bar{H}=\left[\begin{array}{cccc} \bar H_1 & 0 & \cdots & 0 \\ \left[\bar H_2\right. & \rightarrow]& \cdots & 0\\ \vdots & \vdots &\ddots & \vdots \\ \left[\leftarrow\right.& \bar H_N &\rightarrow & \rightarrow] \end{array}\right] $$ (21) 式中, 子矩阵
$\bar{H}_i =\left[H_{i}'\;H(i)\right] \in {\bf R}^{n_{u} \times i n_{y}}$ , 同时包含了$ i $ 时刻的被控变量组合矩阵$ H(i) $ 及修正设定值轨线的系数矩阵$ H_{i}' $ .引理 2. 对满足式(21)结构的
$ \bar{H} $ 及非奇异块下三角矩阵$ Q $ , 转化矩阵$ \bar H' = Q\bar{H} $ 同样满足式(21)结构, 并且$ L_{\rm{av}}(\bar H) = L_{\rm{av}}(\bar H') $ .证明. 由于
$ \bar H $ 和$ Q $ 均为块下三角, 显然$ \bar H' $ 也为块下三角矩阵. 将$ \bar H' = Q\bar{H} $ 代入到损失函数表达式$L_{\rm{av}}(\bar{H}') = 0.5\|V(\bar{H}'G_{y})^{-1} \bar{H}'\tilde{F}\|_{\rm{F}}^{2}$ 中,$ Q $ 矩阵前后互消, 结论成立. □与引理1类似, 引理2也可用于先求解
$ \bar H $ 的特解. 注意到敏感矩阵$ G_y $ 为块下三角矩阵, 因此$ \bar HG_y $ 的逆也为块下三角. 将$ V $ 取为满足$V^{\rm{T}}V = J_{uu}$ 的块下三角矩阵, 可以对$ J_{uu} $ 进行Cholesky分解得到.定理 1. 对策略3 (方案4)的
$ \bar H $ 矩阵, 式(20)等同于求解如下问题$$ \begin{split} &\min\limits_{\bar{H}(1), \cdots, \bar H(N)} L_{\rm{av}} = 0.5 \sum\limits_{i = 1}^{N}\left\|\bar{H}(i) \tilde{F}_{i}\right\|_{\rm{F}}^{2}\\ &{\rm{s.t.}} \quad \bar{H}(i) G_{y i} = V_{i}, \;\forall i = 1, \cdots, N \end{split} $$ (22) 式中,
$ \tilde{F}_{i} $ 为$ \tilde{F} $ 的子矩阵 (前$ n_yi $ 行, 前$ n_d+n_yi $ 列),$ G_{yi} $ 为$ G_y $ 的子矩阵 (前$ n_yi $ 行, 前$ n_ui $ 列),$ V_i $ 为$ V $ 的第$ i $ 个分块矩阵.证明. 根据引理2, 可选择任意非奇异的块下三角矩阵
$ Q $ 对矩阵$ \bar H $ 进行转化求取特解, 可选择$ Q = V(\bar HG_y)^{-1} $ , 使$ \bar H' = Q\bar{H} $ 满足$$ \bar{H}'G_{y} = V\left(\bar{H} G_{y}\right)^{-1}\bar{H}G_{y} = V $$ (23) 即对
$ \forall i = 1,\cdots,N $ , 均满足$$ \bar{H}'({{i}}) G_{y i} = V_{i} $$ (24) 不失一般性, 式(24)可作为对决策变量
$ \bar H $ 的约束加入到优化问题中. 此时$$ \begin{split} L_{\rm{av}} =\;& 0.5\left\|V(\bar{H} G_{y})^{-1} \bar{H}\tilde{F}\right\|_{\rm{F}}^{2} = 0.5\left\| \bar{H} \tilde{F}\right\|_{\rm{F}}^{2} = \\ & 0.5 \sum\limits_{i = 1}^{N}\left\| \bar{H}(i) \tilde{F}\right\|_{\rm{F}}^{2} \end{split} $$ (25) □
通过合理利用转化矩阵
$ Q $ , 定理1将目标函数及约束条件分解到每个离散时间节点, 能够沿时间轴依次求解出子矩阵$ \bar H(i) $ . 对$\forall i = 1,\cdots,N$ , 求解如下优化问题$$ \begin{split} &\min\limits_{\bar{H}(i)}\;\;0.5\left\|H_{i} \tilde{F}_{i}\right\|_{\rm{F}}^{2}\\ &{\rm{s.t.}}\;\;\bar{H}(i) G_{y i} = V_{i} \end{split} $$ (26) 式(26)为带等式约束的二次型凸优化问题, 可进一步求得解析解.
定理 2. 对式(26)所示的带等式约束的二次型凸优化问题, 其闭合解为
$$ \bar{H}(i)^{\rm{T}} = (\tilde{F}_{i} \tilde{F}_{i}^{\rm{T}})^{-1} G_{yi}\left(G_{y i}^{\rm{T}}(\tilde{F}_{i} \tilde{F}_{i}^{\rm{T}})^{-1} G_{y i}\right)^{-1} V_{i}^{\rm{T}} $$ (27) 证明. 式(26)在形式上与第1节静态自优化控制问题一致, 闭合解(27)的推导过程可参见文献[28]. □
综上, 本文求取最优扩张组合矩阵
$ \bar H $ 的计算步骤如图2所示, 其中策略3 (方案4)可直接应用定理2 求得闭合解, 其他3种情况则需使用数值优化法求取. 由于目标函数$ L_{\rm{av}} $ 是$ \bar H $ 的非线性函数, 优化问题(17)和(20)不能保证得到全局最优解. 对此, 策略3 (方案4)得到的解析解可作为数值优化的初始解进行寻优.3. 仿真研究
3.1 间歇反应器描述
本节研究一个带副反应的间歇反应器, 主副反应分别为
$ A+B\rightarrow C $ 和$ 2B\rightarrow D $ , 其中反应物$ A $ 在初始时刻投放完毕,$ B $ 在反应过程中实时投放, 实时流量为操纵变量$ u(t) $ . 体系的模型方程为$$ \frac{{\rm{d}}c_A}{{\rm{d}}t} = -k_1c_Ac_B-\frac{c_Au}{V},\quad c_A(0) = c_{A0} $$ (28) $$\begin{split}& \frac{{\rm{d}}c_B}{{\rm{d}}t} = -k_1c_Ac_B-2k_2c_B^2-(c_B-c_{Bin})\frac{u}{V}, \\ & c_B(0) = c_{B0} \end{split} $$ (29) $$ \frac{{\rm{d}}V}{{\rm{d}}t} = u, \quad V(0) = V_0 $$ (30) $$c_C = \frac{c_{A0}V_0-c_AV}{V} $$ (31) $$ c_D = \frac{c_A+c_{Bin}-c_B}{2}-\frac{c_{A0}+c_{Bin}-c_{B0}}{2V} $$ (32) 式中,
$ c_X $ 表示物料$ X $ 的浓度,$ V $ 为持液量, 其他符号含义及标称值列于表1.表 1 间歇反应器参数及标称值Table 1 Parameters for the reactor model and nominal values符号 物理含义 标称值 $ k_1 $ 主反应的反应常数 0.053 L·mol/min $ k_2 $ 副反应的反应常数 0.128 L·mol/min $ u_L $ $ u $下限 0 L/min $ u_U $ $ u $上限 0.001 L/min $ c_{Bin} $ B 进料浓度 5 mol/L $ c_{Ao} $ A 初始浓度 0.72 mol/L $ c_{Bo} $ B 初始浓度 0.0614 mol/L $ V_o $ V 初始值 1 L $ t_f $ 批次运行时间 250 min 操作目标为在
$ [0, t_f] $ 操作时段内最大化产物产量$ C $ 的同时减少副产物$ D $ , 即表示为如下优化问题$$ \begin{split} \max\limits_{u(t)} J& = [c_C(t_f)-c_D(t_f)]V(t_f) \\ {\rm{s.t}}. \quad & 0\leq u(t)\leq 0.001 \;{\rm{L/min}} \end{split} $$ (33) 在表1所示的标称工况下, 使用数值优化方法求解式(33)可得到
$ u(t) $ 的最优输入轨迹(图3). 可以看到, 此时$ u(t) $ 整个轨线处于可行域内, 最优值$ J^{\rm{opt}} $ = 0.271687 mol. 反应常数$ k_1 $ 和$ k_2 $ 为不确定扰动, 变化范围为其标称值的$ \pm $ 40%. 当$ k_1 $ 和$ k_2 $ 变化时,$ u(t) $ 的最优输入轨迹随之改变.4. 被控变量计算示例
为更清晰地阐述本文方法, 以
$ N = 2 $ 为例(即$ [0, t_f] $ 被均匀离散为两段), 介绍如何使用第2节中的方法求解不同被控变量. 离散后的优化变量个数$ n_{\bar u} = 2 $ , 对式(33)进行重优化后得到Hessian矩阵和$ V $ 矩阵$$ \begin{split} & J_{\bar u\bar u} = \left[\begin{array}{cc} 3.70 & 1.74 \\ 1.74 & 3.47 \end{array}\right] \times 10^{5}\\ & V = \left[\begin{array}{cc} 532.2 & 0 \\ 294.9 & 589.0 \end{array}\right] \end{split} $$ (34) 考虑使用
$ c_A $ 和$ c_B $ 构造被控变量, 对离散系统进行线性化, 得到$$ {\boldsymbol{\bar{y}}} = G_{y}{\boldsymbol{\bar{u}}}+G_{yd}{\boldsymbol{d}} $$ (35) 式中
$$ \begin{split} & G_{y} = \left[\begin{array}{cc} 0 & 0 \\ 0 & 0 \\ -264.45 & 0 \\ 88.27 & 0 \\ -210.43 & -181.20 \\ 10.48 & 98.16 \end{array}\right] \\ & G_{y d} = \left[\begin{array}{cc} 0 & 0 \\ 0 & 0 \\ -2.07 & 0.32 \\ -0.41 & -0.15 \\ -2.90 & 0.52 \\ -0.21 & -0.19 \end{array}\right]\\ & F = \left[\begin{array}{cc} 0 & 0 \\ 0 & 0 \\ -4.03 & 0.81 \\ 0.24 & -0.31 \\ -4.99 & 1.02 \\ 0.16 & -0.27 \end{array}\right] \end{split} $$ (36) 其中, 测量变量
${\boldsymbol{\bar{y}}}^{\rm{T}} = \left[y^{\rm{T}}(0)\;\; y^{\rm{T}}(1)\;\; y^{\rm{T}}(2)\right]$ 为$ c_A $ 、$ c_B $ 分别在0, 125 min及250 min时刻的量组成. 得到上述矩阵后, 可以构造式(17)和式(20)所示的优化问题来求解被控变量, 结果如下.1) 策略2 (方案1):
$ H = [-0.0026\;\;0.0035] $ , 即整个时间段内都控制被控变量$ c(t) = -0.0026 c_A+ 0.0035 c_B $ . 经计算, 前125 min的设定值为$ c_s(1) = -0.000303 $ , 后125 min的设定值为$ c_s(2) = -0.000059 $ .2)策略2 (方案2): 求解得到的扩张组合矩阵
$ \bar H $ 为$$ \bar{H} = \left[\begin{array}{cccccc} 0 & 0 & -1.11 & 2.70 & 0 & 0 \\ 0 & 0 & \,\;\;0.51 & 1.93 & -1.11 & 2.70 \end{array}\right] $$ 即整个时间段内, 被控变量为
$ c(t) = -1.11 c_A+ 2.70 c_B $ . 前125 min的设定值为$ c_s(1) = -0.33 $ , 后125 min设定值为$ c_s(2) = 0.20-0.51 c_A(1)-1.93 c_B(1) $ .3)策略3 (方案3):
$ H(1) = [-0.0019\;\;\;0.0057] $ ,$H(2) = [-0.0015\;\;\;0.0074]$ , 即前125 min 被控变量$ c(1) = -0.0019 c_A+0.0057 c_B $ , 后125 min被控变量$ c(2) = -0.0015 c_A+0.0074 c_B $ , 其设定值分别为$c_s(1) =-0.00048$ 和$c_s(2) = -0.000034$ .4)策略3 (方案4): 根据定理2, 求得扩张矩阵
$ \bar H $ 为$$ \bar{H} = \left[\begin{array}{cccccc} 0 & 0 & -1.06 & 2.85 & 0 & 0 \\ 0 & 0 &\;\;\, 0.88 & 2.07 & -1.48 & 3.27 \end{array}\right] $$ 即前125 min被控变量
$ c(1) = -1.06 c_A+ 2.85 c_B $ , 设定值$ c_s(1) = -0.29 $ ; 后125 min被控变量$c(2) = -1.48 c_A+3.27 c_B$ , 设定值$c_s(2) = 0.31 - 0.88 c_A(1)- 2.07 c_B(1)$ .4.1 批内自优化控制效果
由于
$ N = 2 $ 难以逼近整个间歇操作过程, 后文设置$ N = 20 $ 并以相同的方法重新求解被控变量, 同时, 在测量变量中加入体积变量$ V $ 提高优化效果. 从表2可观察到:表 2 损失函数$ L_{\rm{av}} $ Table 2 Loss function$ L_{\rm{av}} $ 策略及方案 $ N = 2 $ $ N = 20 $ 策略 2 (方案 1) 0.0371 0.0083 策略 2 (方案 2) 0.03423 0.0024 策略 3 (方案 3) 0.0368 0.0069 策略 3 (方案 4) 0.03420 0.0022 1) 4种方案的损失
$ L_{\rm{av}} $ 在$N=20 $ 时, 相比$ N = 2 $ 都大幅度降低;2) 策略2 (方案1)的损失函数为0.0083, 策略2 (方案2)通过在线设定值修正, 进一步将损失减少到0.0024;
3) 策略3 (方案3)的损失为0.0069, 略低于策略2 (方案1);
4) 策略2 (方案3)的损失为 0.0024, 与策略3 (方案4)的损失0.0022很接近, 表明不切换被控变量也能得到较好的优化控制效果.
基于表2的结果, 策略2 (方案2)与策略3 (方案4)效果接近, 但前者无需在线切换被控变量, 更易于在线控制, 因此考虑使用策略2 (方案2)对该反应器进行批内自优化控制. 此外, 动态仿真中将与策略2 (方案1)的结果进行对比, 有助于进一步理解本文方法.
策略2 (方案1)的被控变量为
$ c_1(t) = 0.0062 c_A+ 0.002 c_B+0.0831 V $ , 设定值轨线如图4所示. 为进一步获取平滑的设定值轨线, 使操作更为平稳, 对这些离散点进行回归分析, 得到平滑的设定值轨迹方程$ c_s(t) = 0.0877+3.705\times 10^{-5}t-1.97\times 10^{-8}t^2 $ , 为一条随时间$ t $ 变化的连续曲线, 如图4所示. 对该系统可以采用普通的PI控制器对被控变量$ c_1(t) $ 进行跟踪控制.策略2 (方案2)的被控变量为
$ c_2(t) = 0.0026 c_A+ 0.00032 c_B+0.0830 V $ , 设定值轨线在每批次运行过程中采集测量值进行在线修正. 为增强操作平稳性, 在$ t_k $ 时刻计算得到$ t_{k+1} $ 时刻的设定点后, 在$ [t_k,t_{k+1}] $ 时间段内设置斜坡形设定值轨线, 使设定轨线维持连续性. 同样使用PI控制器跟踪控制得到的被控变量$ c_2(t) $ .不确定参数
$ k_1 $ 和$ k_2 $ 分别改变 +20%和 −20%时的优化控制效果如图5所示, 从图5(a)中可以看到, 两种方法分别对$ c_1(t) $ 和$ c_2(t) $ 都实现了较好的闭环跟踪控制, 其中,$ c_2(t) $ 的设定轨线根据批内采集到的测量值进行了调整, 相比自身的标称轨线有一定程度的上移; 图5(b)显示不同方法的控制输入$ u(t) $ 轨迹, 其中, 控制$ c_1(t) $ 时的$ u(t) $ 轨迹相比标称操作更靠近当前工况真实的最优轨线, 性能指标$ J $ 有所提高$( J = 0.34374 \rightarrow 0.34505 )$ , 显示出一定的优化控制效果. 控制$ c_2(t) $ 时的$ u(t) $ 轨迹更靠近最优轨线, 其性能指标$ J = 0.34701 $ 和最优值$ J^{\rm{opt}} = 0.34755 $ 差别不大. 同时注意到控制$ c_2(t) $ 时的$ u(t) $ 轨迹振荡更加剧烈, 这是因为$ c_2(t) $ 的设定轨线不断在线修正, 为了得到满意的控制效果, 使用了高增益PI控制器$( K_p = 20) $ . 这并不影响最终得到满意的优化效果$( L = 0.00054) $ , 从另一个角度说明了间歇过程中控制关键变量的重要性.不确定参数
$ k_1 $ 和$ k_2 $ 分别改变 −40%和 +40%时的优化控制效果如图6所示, 此时系统的不确定性向另一个方向变化, 并且幅度更大. 从图6(a)中可以看到, 两种方法同样对$ c_1(t) $ 和$ c_2(t) $ 都实现了较好的闭环跟踪控制, 其中,$ c_1(t) $ 的设定轨线不变, 而$ c_2(t) $ 的设定轨线相比自身的标称轨线有一定程度的下移. 从图6(b)来看, 虽然控制$ c_1(t) $ 能将$ u(t) $ 轨迹向着真实的最优轨线的方向调节, 其性能指标$ J $ 从标称操作的0.09646提高到0.10312, 但作用有限, 距离最优值$ J^{{\rm{opt}}} = 0.12252 $ 仍有较大差距. 控制$ c_2(t) $ 进一步提高了优化控制效果, 其性能指标为$ J = 0.11602 $ , 相比最优性能只有0.006的损失(此时$ k_1 $ ,$ k_2 $ 的变化较大, 该损失在一定程度上由系统的非线性导致). 此外, 控制$ c_2(t) $ 时的$ u(t) $ 轨迹同样振荡较为剧烈, 但随反应进行,$ u(t) $ 大致围绕着最优轨线上下波动.表3进一步统计了100组随机扰动下各方法的非线性损失, 其中随机扰动
$ [k_1\; k_2] $ 均匀分布在各自的变化范围. 可以看到, 相比标称操作(平均损失0.0036)和以单变量$ c_B $ (平均损失0.0042)为被控变量的情形, 两种批内自优化控制方法有效提高了经济性能, 其中, 策略2 (方案1)中控制$ c_1(t) $ 将平均损失减少到0.0026, 策略2 (方案2)中控制$ c_2(t) $ 进一步将平均损失减少到0.0007, 几乎可以忽略不计. 此外, 最大损失和标准差等统计量也呈现出相同的变化趋势, 如表3所示.表 3 100组随机扰动下的非线性损失统计量Table 3 Statistics of nonlinear losses for 100 groups of random disturbances方案 平均损失 最大损失 标准差 标称操作 0.0036 0.0227 0.0068 控制$ c_B $ 0.0042 0.0165 0.0054 策略 2 (方案 1) 0.0026 0.0167 0.0050 策略 2 (方案 2) 0.0007 0.0053 0.0016 5. 结束语
本文研究了间歇过程的批内自优化控制问题, 在单批次运行过程中控制一组虚拟的被控变量(输出变量的线性组合), 实现间歇过程的实时优化. 对此, 给出了两种自优化控制策略(被控变量恒定但设定值时变; 被控变量和设定值均时变). 对它们的设定值选取问题又分别提出两种方案(设定值轨线固定不变; 设定值轨线在线修正), 共计4种方法. 通过引入扩张组合矩阵
$ \bar H $ , 将这4种方法统一描述为具有不同结构约束的最优$ \bar H $ 求解问题, 并推导得到了策略3 (方案4)的$ \bar H $ 解析解计算方法(定理2).本文提出的4种被控变量选择方法, 其对应的闭环控制系统具有不同的复杂度和优化性能. 针对一般的实际间歇过程, 应综合考虑这两个因素并取得合理权衡. 间歇反应器的仿真研究中, 采用策略2 (方案2) (恒定被控变量:
$ c_2(t)) $ 得到的控制结构较为简单, 并且能通过在线修正$ c_2(t) $ 的设定值增强优化效果, 是较为合理的方案. -
-
[1] 杜永浩, 邢立宁, 蔡昭权. 无人飞行器集群智能调度技术综述. 自动化学报, 2020, 46(2): 222-241.DU Yong-Hao, XING Li-Ning, CAI Zhao-Quan. Survey on intelligent scheduling technologies for unmanned flying craft clusters. Acta Automatica Sinica, 2020, 46(2): 222-241. [2] 周宏宇, 王小刚, 单永志, 赵亚丽, 崔乃刚. 基于改进粒子群算法的飞行器协同轨迹规划. 自动化学报, DOI: 10.16383/j.aas.c190865Zhou Hong-Yu, Wang Xiao-Gang, Shan Yong-Zhi, Zhao Ya-Li, Cui Nai-Gang. Synergistic path planning for multiple vehicles based on an improved particle swarm optimization method. Acta Automatica Sinica, DOI: 10.16383/j.aas.c190865 [3] Azam M A, Ragi S. Decentralized formation shape control of UAV swarm using dynamic programming. In: Proceedings of Signal Processing, Sensor/Information Fusion, and Target Recognition XXIX. California, USA, 2020. 11423: 114230I [4] Zhou Z, Zhang W, Ding J, Huang, H, Stipanovic D M, Tomlin C J. Cooperative pursuit with voronoi partitions. Automatica, 2016, 72: 64-72. doi: 10.1016/j.automatica.2016.05.007 [5] De Simone D, Scianca N, Ferrari P, Lanari L, Oriolo G. MPC-based humanoid pursuit-evasion in the presence of obstacles. In: Proceedings of IEEE/RSJ International Conference on Intelligent Robots and Systems. 2017. 5245−5250 [6] Isaacs R. Differential Games: A Mathematical Theory With Applications to Warfare and Pursuit, Control and Optimization. Courier Corporation, 1999. [7] Fang B, Pan Q, Hong B, Lei D, Zhong Q B, Zhang Z. Research on high speed evader vs. multi lower speed pursuers in multi pursuit-evasion games. Information Technology Journal, 2012, 11(8): 989-997. doi: 10.3923/itj.2012.989.997 [8] Lin W, Qu Z, Simaan M A. Nash strategies for pursuit-evasion differential games involving limited observations. IEEE Transactions on Aerospace and Electronic Systems, 2015, 51(2): 1347-1356. doi: 10.1109/TAES.2014.130569 [9] Pachter M, Garcia E, Casbeer D W. Differential game of guarding a target. Journal of Guidance, Control, and Dynamics, 2017, 40(11): 2991-2998. doi: 10.2514/1.G002652 [10] Venkatesan R H, Sinha N K. The target guarding problem revisited: Some interesting revelations. In: Proceedings of IFAC World Congress. Cape Town, South Africa, 2014. 1556−1561 [11] Li D, Cruz J B. Defending an asset: A linear quadratic game approach. IEEE Transactions on Aerospace and Electronic Systems, 2011, 47(2): 1026-1044. doi: 10.1109/TAES.2011.5751240 [12] Garcia E, Casbeer D W, Pachter M. Design and analysis of state-feedback optimal strategies for the differential game of active defense. IEEE Transactions on Automatic Control, 2018, 64(2): 553-568. [13] Liang L, Deng F, Peng Z, Li X, Zha W. A differential game for cooperative target defense. Automatica, 2019, 102: 58-71. doi: 10.1016/j.automatica.2018.12.034 [14] Casbeer D W, Garcia E, Pachter M. The target differential game with two defenders. Journal of Intelligent & Robotic Systems, 2018, 89(1-2): 87-106. [15] Chen M, Zhou Z, Tomlin C J. Multiplayer reach-avoid games via low dimensional solutions and maximum matching. In: Proceedings of American Control Conference. Portland, USA, 2014. 1444−1449 [16] Coon M, Panagou D. Control strategies for multiplayer target-attacker-defender differential games with double integrator dynamics. In: Proceedings of IEEE Conference on Decision and Control. Melbourne, Australia, 2017. 1496−1502 [17] Chipade V S, Panagou D. Multiplayer target-attacker-defender differential game: pairing allocations and control strategies for guaranteed intercept. In: Proceedings of AIAA Scitech 2019 Forum. California, USA, 2019. 658−678 [18] Yan R, Shi Z, Zhong Y. Task assignment for multiplayer reach-avoid games in convex domains via analytical barriers. IEEE Transactions on Robotics, 2019, 36(1): 107-124. [19] Garcia E, Casbeer D W, Von Moll A, Pachter M. Multiple Pursuer Multiple Evader Differential Games. IEEE Transactions on Automatic Control, arxiv: 1911. 03806 [20] Sin E, Arcak M, Packard A, Philbrick D, Seiler P. Optimal assignment of collaborating agents in multi-body asset-guarding games. In: Proceedings of the 2020 American Control Conference (ACC). Denver, Colorado, USA, 2020. 858−864 [21] Li D X, Cruz J B. Graph-Based Strategies for Multi-Player Pursuit Evasion Games. In: Proceedings of IEEE Conference on Decision and Control. New Orleans, LA, USA, 2007. 4063−4068 [22] Mejia V G L, Lewis F L, Wan Y, Sanchez E N, Fan L. Solutions for multiagent pursuit-evasion games on communication graphs: Finite-time capture and asymptotic behaviors. IEEE Transactions on Automatic Control, 2019, 65(5): 1911-1923. [23] Engwerda J. LQ dynamic optimization and differential games. John Wiley & Sons, 2005. [24] Kuhn H. The Hungarian method for the assignment problem. Naval Research Logistics Quarterly, 1955, 2(1-2): 83-97. doi: 10.1002/nav.3800020109 [25] Amato F, Pironti A. A note on singular zero-sum linear quadratic differential games. In: Proceedings of IEEE Conference on Decision and Control. Lake Buena Vista, USA, 1994. 1533−1535 [26] 夏元清. 云控制系统及其面临的挑战. 自动化学报, 2016, 42(01): 1-12.Xia Yuan-Qing. Cloud control systems and their challenges. Acta Automatica Sinica, 2016, 42(1): 1-12. 期刊类型引用(29)
1. 王飞跃. 我国生成式人工智能的发展现状与趋势. 人民论坛. 2025(02): 21-26 . 百度学术
2. Fei-Yue Wang,Qinghai Miao,Lingxi Li,Qinghua Ni,Xuan Li,Juanjuan Li,Lili Fan,Yonglin Tian,Qing-Long Han. When Does Sora Show:The Beginning of TAO to Imaginative Intelligence and Scenarios Engineering. IEEE/CAA Journal of Automatica Sinica. 2024(04): 809-815 . 必应学术
3. Juanjuan Li,Rui Qin,Sangtian Guan,Xiao Xue,Peng Zhu,Fei-Yue Wang. Digital CEOs in Digital Enterprises: Automating, Augmenting, and Parallel in Metaverse/CPSS/TAOs. IEEE/CAA Journal of Automatica Sinica. 2024(04): 820-823 . 必应学术
4. 缪青海,王兴霞,杨静,赵勇,王雨桐,陈圆圆,田永林,俞怡,林懿伦,鄢然,马嘉琪,那晓翔,王飞跃. 从基础智能到通用智能:基于大模型的GenAI和AGI之现状与展望. 自动化学报. 2024(04): 674-687 . 本站查看
5. 田永林,王兴霞,王雨桐,王建功,郭超,范丽丽,沈甜雨,武万森,张红梅,朱正秋,王飞跃. RAG-PHI:检索增强生成驱动的平行人与平行智能. 智能科学与技术学报. 2024(01): 41-51 . 百度学术
6. 林飞,王飞跃,田永林,丁显廷,倪清桦,王静,申乐. 平行药物系统:基于大语言模型和三类人的框架与方法. 智能科学与技术学报. 2024(01): 88-99 . 百度学术
7. 李娟娟,管桑田,秦蕊,侯家琛,王飞跃. 智能区块链与区块链智能:构筑DePIN的基础设施智能. 智能科学与技术学报. 2024(01): 5-16 . 百度学术
8. 范丽丽,郭超,田永林,张慧,张俊,王飞跃. 基于Sora的平行智能基础机器人:三个世界模型,三种机器人系统(英文). Frontiers of Information Technology & Electronic Engineering. 2024(07): 917-924 . 百度学术
9. 张腾超,田永林,林飞,倪清桦,宋平,戴星原,李娟娟,伍乃騏,李鼎烈,王飞跃. 平行旅游:基础智能驱动的智慧出游服务. 智能科学与技术学报. 2024(02): 164-178 . 百度学术
10. 胡学敏,黄婷玉,余雅澜,任佳佳,谢微,陈龙. 仿真到现实环境的自动驾驶决策技术综述. 中国图象图形学报. 2024(11): 3173-3194 . 百度学术
11. Fei-Yue Wang,Qinghai Miao,Xuan Li,Xingxia Wang,Yilun Lin. What Does ChatGPT Say:The DAO from Algorithmic Intelligence to Linguistic Intelligence. IEEE/CAA Journal of Automatica Sinica. 2023(03): 575-579 . 必应学术
12. Fei-Yue Wang,Jing Yang,Xingxia Wang,Juanjuan Li,Qing-Long Han. Chat with ChatGPT on Industry 5.0:Learning and Decision-Making for Intelligent Industries. IEEE/CAA Journal of Automatica Sinica. 2023(04): 831-834 . 必应学术
13. Qinghai Miao,Wenbo Zheng,Yisheng Lv,Min Huang,Wenwen Ding,Fei-Yue Wang. DAO to HANOI via DeSci:AI Paradigm Shifts from AlphaGo to ChatGPT. IEEE/CAA Journal of Automatica Sinica. 2023(04): 877-897 . 必应学术
14. 卢经纬,郭超,戴星原,缪青海,王兴霞,杨静,王飞跃. 问答ChatGPT之后:超大预训练模型的机遇和挑战. 自动化学报. 2023(04): 705-717 . 本站查看
15. 田永林,陈苑文,杨静,王雨桐,王晓,缪青海,王子然,王飞跃. 元宇宙与平行系统:发展现状、对比及展望. 智能科学与技术学报. 2023(01): 121-132 . 百度学术
16. 李娟娟,秦蕊,丁文文,王戈,王坛,王飞跃. 基于Web3的去中心化自治组织与运营新框架. 自动化学报. 2023(05): 985-998 . 本站查看
17. Xingxia Wang,Jing Yang,Yutong Wang,Qinghai Miao,Fei-Yue Wang,Aijun Zhao,Jian-Ling Deng,Lingxi Li,Xiaoxiang Na,Ljubo Vlacic. Steps Toward Industry 5.0: Building “6S” Parallel Industries With Cyber-Physical-Social Intelligence. IEEE/CAA Journal of Automatica Sinica. 2023(08): 1692-1703 . 必应学术
18. Fei-Yue Wang. New Control Paradigm for Industry 5.0:From Big Models to Foundation Control and Management. IEEE/CAA Journal of Automatica Sinica. 2023(08): 1643-1646 . 必应学术
19. 王飞跃. 平行医生与平行医院:ChatGPT与通用人工智能技术对未来医疗的冲击与展望. 协和医学杂志. 2023(04): 673-679 . 百度学术
20. 阳东升,卢经纬,李强,王飞跃. 超大预训练模型在指挥控制领域的应用与挑战. 指挥与控制学报. 2023(02): 146-155 . 百度学术
21. 鲁越,郭超,潘晴,倪清桦,李华飙,王春法,王飞跃. 平行博物馆系统:框架、平台、方法及应用. 模式识别与人工智能. 2023(07): 575-589 . 百度学术
22. Yutong Wang,Xiao Wang,Xingxia Wang,Jing Yang,Oliver Kwan,Lingxi Li,Fei-Yue Wang. The ChatGPT After: Building Knowledge Factories for Knowledge Workers with Knowledge Automation. IEEE/CAA Journal of Automatica Sinica. 2023(11): 2041-2044 . 必应学术
23. 秦蕊,梁小龙,李娟娟,丁文文,侯家琛,王雨桐,田永林,文丁. 平行科研院所:从数字化转型到智能化变革. 智能科学与技术学报. 2023(02): 212-221 . 百度学术
24. 赵毅飞,申乐,叶佩军,王静,王飞跃. 平行麻醉:从麻醉自动化走向智慧型全周期麻醉平台. 智能科学与技术学报. 2023(02): 234-246 . 百度学术
25. 陈晓光,韩金朋,杨满智,王晓,刘昕,王震,王飞跃. 灵境卫士:基于ACP的网络安全平行监管研究. 智能科学与技术学报. 2023(02): 247-253 . 百度学术
26. 皮佩定,倪清桦,杨静,康孟珍,李宣昊,杜应昆,王飞跃. 平行夏尔希里:生态资源智能管护及其可持续发展新途径. 智能科学与技术学报. 2023(03): 283-292 . 百度学术
27. 王惠珍,张捷,俞怡,赵琳,李葵南,马慧颖,祁肖静,王静,王雨桐,林懿伦,许力,申乐,李汉忠,王飞跃. 平行手术室:围术期护理流程与智慧手术平台管理的新模式. 模式识别与人工智能. 2023(10): 867-876 . 百度学术
28. 崔华宁,王飞跃,李娟娟,秦蕊,王戈,梁小龙,侯家琛,管桑田. 平行财务预算:复杂业财的深度融合与智能服务. 智能科学与技术学报. 2023(04): 446-453 . 百度学术
29. 卢经纬,程相,王飞跃. 求解微分方程的人工智能与深度学习方法:现状及展望. 智能科学与技术学报. 2022(04): 461-476 . 百度学术
其他类型引用(1)
-