Data-driven Dual-rate Control for Mixed Separation Thickening Process in a Wireless Network Environment
-
摘要: 无线网络环境下赤铁矿混合选别浓密过程控制问题是以底流矿浆泵频率为内环输入,以底流矿浆流量为内环输出外环输入,以底流矿浆浓度为外环输出的非线性串级工业过程控制问题.其外环反馈回路存在丢包,且模型参数难以辨识,故本文利用工业运行过程的在线数据,设计不依赖模型参数的跟踪控制器.首先,利用浓密过程运行在工作点附近的特点进行线性化,对流量过程设计Q-学习控制器,保证流量过程能够跟踪给定的流量设定值;然后采用提升技术,得到统一时间尺度的以底流矿浆流量设定值为输入,以底流矿浆浓度为输出的被控对象;最后,考虑到在无线网络环境下浓度过程存在反馈丢包,当前的状态可能无法获得,故采用史密斯预估器的思想,利用历史的数据估计系统当前的状态,设计丢包Q-学习设定值控制器为流量过程提供最优设定值.通过仿真实验验证所提算法的有效性.Abstract: The mixed separation thickening process (MSTP) of hematite beneficiation in a wireless network environment is a nonlinear cascade process with the frequency of underflow slurry pump as the inner loop input, the slurry flow-rate as the inner loop output and the concentration as the outer loop output. The dropout occurs in the outer feedback loop, making it difficult to identify the parameters of the model, so the tracking controller only using the data generated by operational processes and independent of the knowledge of model parameters is designed in this paper. First, linearize the thickening system near the steady states, then design a controller based on Q-learning algorithm to make the inner process trace the set-point of the slurry flow-rate. Second, use the lifting technology to obtain the uniform time scale controlled object with the set-point of the slurry flow-rate as the input and the concentration as the output. Finally, considering that the networked-induced feedback dropout exists in the feedback process, meaning the current state information may be lost, a novel Smith predictor is developed to predict the current state from historical measured data, and a dropout Q-learning method is designed to provide the optimal set-point of lower loop. A simulation experiment on MSTP is given to show the effectiveness of the proposed method.
-
Key words:
- Mixed separation thickening process /
- Q-learning /
- dropout /
- Smith predictor
-
我国赤铁矿矿石品位低、杂质含量高、嵌布粒度细、可选性差, 只经过磨矿—磁选的选矿流程难以有效去除杂质获得较高的精矿品位.为获得较高的精矿品位, 故一般在磁选之后采用再磨、浓密和浮选的工艺.浮选入选最佳浓度为30 % ~ 35 %, 而经过再磨之后浓度大概为25 % ~ 30 %, 同时由于浮选过程返回的中矿矿浆的影响使浓密机的浓度波动比较大.浓密过程可将浓度偏低的矿浆通过重力沉降浓缩为合格浓度的底流矿浆[1-2].赤铁矿混合选别浓密过程是以底流矿浆泵频率为内环输入, 以矿浆流量为内环输出、外环输入, 以矿浆浓度为外环输出的串级非线性被控过程.由于底流矿浆流量与底流矿浆浓度具有强非线性, 其模型建立过程复杂, 因此实现矿浆浓度控制成为浓密过程的研究热点.
底流矿浆流量过程难以建模, 而对底流矿浆浓度过程的控制又要兼顾底流矿浆流量的控制, 致使矿浆浓度控制难度增大.增强学习方法对于解决无模型的最优控制存在优势, 但其计算量复杂, 对浓度过程在本地设备采用增强学习的方法难以达到高的计算性能.与此同时, 工业无线网迅猛发展, 流量过程比较简单, 故可在本地设备实现控制; 浓度过程因计算量大, 故可通过无线网络传输到工业云计算, 从而为浓度控制提高性能.但网络传输的过程中易受丢包等不确定性的影响[3-5], 从而影响到浓密过程的控制性能, 甚至使其不稳定.因此, 研究浓密等工业过程中的网络控制很有必要.
文献[6]针对铝土矿浓密过程, 提出一种基于规则推理的控制方法对矿浆浓度进行控制.文献[7]针对混合选别的浓密过程, 提出区间智能控制, 外环采用静态模型和模糊推理切换补偿控制方法.文献[8]在外环采用未建模动态补偿一步最优PI控制与模糊推理结合的控制方法.文献[9]考虑内外环提出将未建模动态补偿驱动的一步最优PI控制和基于模糊推理与规则推理的切换结合的控制方法.但现有对浓密过程控制都未考虑不同网络环境下数据通信对运行控制的影响.
针对传输不可靠的线性网络, 文献[4, 5, 10]利用Lyapunov函数得到一组线性不等式求解出稳定的反馈增益.文献[11-12]针对丢包将卡尔曼滤波与最优控制相结合.文献[13]针对前向通道和反馈通道都存在随机时延的情况下设计鲁棒H2/H∞ 控制方法.文献[14]针对时延采用网络预测的控制策略解决系统的跟踪控制问题.文献[15]在网络控制系统中的反馈通道和前向通道采用时延补偿的方法.以上这些方法需要知道系统的动力学模型.而增强学习[16-18] (Reinforcement learning)是一种广泛应用于寻找未知系统动力学的最优控制策略的方法.文献[19]对应用层设计了最优自适应事件触发控制器以及在数据链路层中设计了无线网络的分布式调度方案.文献[20]针对具有时变系统矩阵的未知网络系统提出采用自适应估计器和Q-学习思想的随机最优控制方法求解无限维度最优调节问题.文献[21]将此方法推广到非线性情况.但文献[19-21]都未考虑网络存在反馈丢包的问题.
本文的主要贡献如下:针对未发生丢包的底层矿浆流量过程, 提出Q-学习方法, 实现底层底流矿浆流量跟踪流量设定值.由于底流矿浆浓度过程存在状态丢包, 当前状态可能无法获得, 从而不能采用标准的Q-学习方法计算最优控制, 所以提出一种丢包Q-学习方法解决线性离散浓密过程的网络控制的跟踪问题, 首先采用史密斯预估器的思想通过历史的数据估计系统当前的状态, 当丢包发生时, 这些信息可应用到在线Q-学习方法中.论文的组织结构如下, 第1节为浓密过程的问题描述; 第2节介绍控制器设计; 第3节为整体系统的性能分析; 第4节为仿真实验, 其结果表明所提数据驱动控制方法只利用采集的数据实现浓密过程对设定值的跟踪并使系统稳定; 第5节为本文结论.
1. 控制问题描述
1.1 浓密过程描述
赤铁矿混合选别的浓密过程如图 1所示, 磁选精矿矿浆经再磨工序研磨处理后, 得到浓度相对较低的精矿矿浆, 低浓度精矿矿浆流入浓密机后, 通过浓密机耙子的搅拌作用, 矿浆颗粒在自身重力的作用下, 自然沉降, 从而在浓密机底部得到浓度较高的矿浆, 以满足浮选过程的要求.
根据参考文献[22-23], 可建立以底流矿浆泵频率$ u( t ) $为控制输入, 以底流矿浆流量$ y( t ) $为内环输出外环输入且以底流矿浆浓度$ {r}( t ) $为外环输出的动态模型:
$$ \begin{align} {\dot y}\left( t \right) = \, & -\frac{{{y}\left( t \right)}}{\tau } + \frac{1}{\tau }\sqrt {\frac{{{k_0}{u^2}\left( t \right) - \frac{{\Delta \rho \left( t \right)}}{{g\rho \left( {{r}\left( t \right)} \right)}} + D}}{\bar{K}}} \end{align} $$ (1) $$ \begin{align} {\dot r}\left( t \right) = \, & \frac{1}{{{k_2}h\left( {{y}, {r}} \right)}}\left( {\frac{{ - r^2\left( t \right){y} \left( t \right)}}{{{r}\left( t \right) + {k_3} \left( {\theta\left( t \right) + Q}\right)}}} \right.{\rm{ + }}\\& {k_1}{v_p}\left( {{y}, {r}, \theta} \right)\left( {\theta\left( t \right) + Q} \right) + \\& \left. {\frac{{{k_1}\left( {{k_i} - {k_3}} \right){v_p}\left( {{y}, {r}} \right)\left( {\theta\left( t \right) + Q} \right)}}{{{r}\left( t \right) + {k_3}\left( {\theta\left( t \right) + Q} \right)}}} \right) \end{align} $$ (2) 其中, $ {k_1} = S{k_i} $, $ {k_2} = Sp $, $ {k_3} = {k_i} - \mu ( p _s - p _l )/Sp $, $ Q = {q_3}{\varphi _3} $, $ {\varphi _3} $、$ {q_3} $是磁选精矿矿浆浓度和流量, $ {k_i} $和$ S $是与浓密机结构有关的常数, $ \theta( t ) $为干扰, 且$ \theta (t) = q_1\varphi_1+q_2\varphi_2 $.假设$ \theta( t ) $恒定.各符号及物理意义见表 1.
表 1 浓密过程符号表Table 1 Mixed separation thickening process symbol table符号 物理含义 符号 物理含义 $S$ 浓密机横截面积 $\frac{{\Delta \rho (t)}}{{g\rho (\cdot)}}$ 泵两端管路单位重量
矿浆的势能差$\mu$ 介质的粘度 $D$ 阻力损失 $p$ 平均浓度系数 $k_i$, $\bar{K}$ 与浓密机结构有关的常数 $p _s$ 矿浆内固体密度 $g$ 重力加速度 $p _l$ 矿浆内液体密度 $\theta(t)$ 干扰 $k_{0}$ 静态放大系数 $h(\cdot)$ 泥层界面高度 $\tau$ 时间常数 ${v_p}(\cdot)$ 矿浆颗粒沉降速度 ${\varphi _1}$ 浮选中矿矿浆浓度 ${q_1}$ 浮选中矿流量 ${\varphi _2}$ 污水浓度 ${q_2}$ 污水流量 ${\varphi _3}$ 磁选精矿矿浆浓度 ${q_3}$ 磁选精矿矿浆流量 底流矿浆流量过程为快过程, 采样周期为$ k $; 底流矿浆浓度过程为慢过程, 采样周期为$ T = nk $ ($ n $为整数).利用工业过程通常在工作点附近稳态运行的特点, 分别对式(1)和式(2)在工作点对其线性化并离散化得到其线性模型, 则底层底流矿浆流量过程的线性模型为
$$ \begin{align} {x_1}( {k + 1} ) = \, & {A_1}{x_1}( k ) + {B_1}u( k )\\ {y}( k ) = \, & {C_1}{x_1}( k ) \end{align} $$ (3) 其中, $ {x_1}( k ) $维数为$ 1 \times 1 $, $ u( k ) $为底流矿浆泵频率且维数为$ 1 \times 1 $, $ {y}( k ) $为底流矿浆流量且维数为$ 1 \times 1 $. $ {A_1} $, $ {B_1} $和$ {C_1} $的维数分别为$ 1 \times 1 $, $ 1 \times 1 $和$ 1 \times 1 $. 运行层底流矿浆浓度过程的线性模型为
$$ \begin{align} {x_2}( {T + 1} ) = \, & {A_2}{x_2}( T ) + {B_2}{y}( T )\\ {r}( T ) = \, & {C_2}{x_2}( T ) \end{align} $$ (4) 其中, $ {x_2}(T) $维数为$ 1 \times 1 $, $ {y}(T) $维数为$ 1 \times 1 $, $ {r}(T) $为底流矿浆流量且维数为$ 1 \times 1 $. $ {A_2} $, $ {B_2} $和$ {C_2} $的维数分别为$ 1 \times 1 $, $ 1 \times 1 $和$ 1 \times 1 $.
1.2 无线网络环境下丢包模型
系统的状态$ \eta ( T ) $通过无线网传输到控制器时可能会发生丢包, 根据参考文献[4, 5, 24], 可知状态$ \eta ( T ) $经过网络传输后可得到的状态$ \eta_f ( T ) $为
$$ \begin{align} {\eta _f}(T) = \delta (T)\eta ( T ) + \left( {1 - \delta ( T )} \right){\eta _f}( {T - 1} ) \end{align} $$ (5) 其中, $ \delta ( T ) $取值为0和1, 当$ \delta ( T ) = 0 $表示此时网络存在丢包, 反之$ \delta ( T ) = 1 $表示此时通过网络传输的信号传输成功.系统如果一直处于丢包的状态即控制系统相当于开环系统, 所以需做以下假设:
假设 1. 反馈丢包$ \delta ( T ) $的最大连续发生丢包的次数为$ \delta _{f\max} $有界, 即
$$ \begin{align} \sum\limits_{i = 0}^{{\delta _{f\max }}} {\delta ( {T - i} ) > 0} \end{align} $$ (6) 如果当最大连续发生丢包的次数$ \delta _{f\max } $是无界的, 控制系统相当于开环系统, 所以此论文认为$ \delta _{f\max } $是有界的.
1.3 控制问题描述
本文的控制问题为对于浓密过程的线性模型(3)和(4), 在网络存在丢包的情况下, 设计的控制器可完全基于采集到的数据实现系统的线性二次跟踪(Linear quadratic tracking, LQT).其中浓密过程的浓度的设定值为定值$ {r^*} $, 运行层流量设定值控制器为底层提供底流矿浆流量的设定值$ y^*( T ) $, 为解决浓密过程底层底流矿浆流量和运行层底流矿浆浓度的跟踪问题, 故设底层的性能指标为
$$ \begin{align} {J_1}&( k ) = \sum\limits_{i = k}^\infty \gamma^{i - k}\times\\&\left[ {{{\left( {{y^*}( i ) \!-\! y( i )} \right)}^{\rm T}}{Q_1}\left( {{y^*}( i ) \!-\! {y}( i )} \right) \!+\! u^{\rm T}{{( i )}}{R_1}u( i )} \right] \end{align} $$ (7) 其中, $ \gamma\; ( 0 < \gamma < 1 ) $为衰减因子, 矩阵$ {Q_1} $和$ {R_1} $为适当维数的正定矩阵, $ {y^*}( k ) $维数为$ 1 \times 1 $.
设运行层的性能指标为
$$ \begin{align} {J_2}&( T ) = \sum\limits_{i = T}^\infty \bar{\gamma}^{i - T}\times\\&\left[ {{{\left( {{r^*}\! -\! r( i )} \right)}^{\rm T}}{Q_2}\left( {{r^*} \!-\! r( i )} \right) \!+\! {y^{*{\rm T}}}( i ){R_2}{y^*}( i )} \right] \end{align} $$ (8) 其中, $ \bar{\gamma}\; ( {0 < \bar{\gamma} < 1} ) $为衰减因子, 矩阵$ {Q_2} $和$ {R_2} $为适当维数的正定矩阵, $ r^* $维数为$ 1 \times 1 $.
注1. 由于时间趋于无穷时, 底层控制输入和运行层的控制输入分别与其设定值有关, 且设定值都不为0, 故不能保证控制输入为0, 当衰减因子为1时不能保证性能指标有界, 故衰减因子取小于1.
2. 控制算法
2.1 控制策略
由浓密过程的动态模型(1)和(2)可知, 底流矿浆泵的频率$ u( k ) $首先影响底流矿浆流量$ y( k ) $, 然后影响到底流矿浆浓度$ r( T ) $, 故可先设计$ Q $-学习控制器在底层模型未知的情况下实现底层矿浆流量的跟踪得到内环底流矿浆流量闭环控制系统.因流量过程是快过程, 浓度过程是慢过程, 此为双层结构, 考虑到在外环采样周期内, 内环流量的设定值不变, 故采用提升技术[5, 9-10, 25]得到一个采样周期为外环采样周期的矿浆浓度外环动态模型, 由于系统的状态通过无线网络传输时可能会发生丢包现象, 此刻系统的状态可能无法获得, 而传统的$ Q $-学习算法需要知道此时系统的状态值, 故设计丢包$ Q $-学习流量设定值控制器, 其中, 利用史密斯预估器可根据过去时刻网络传输成功时的状态量估计此刻系统的状态值, 将过去时刻的状态、过去时刻流量过程的设定值以及浓密过程的设定值进行重组成$ z(T) $, 即基于史密斯预估器的状态重组.然后将重组后的$ z(T) $应用到$ Q $-学习流量设定值控制算法中, 从而为底流矿浆流量过程提供流量设定值.控制策略同时考虑到底层和运行层的动态, 在网络发生丢包时不需要知道系统的模型也可以实现底流矿浆流量和底流矿浆浓度的跟踪. 图 2为数据驱动的无线网络下浓密过程的控制结构图, 其控制策略包括$ Q $-学习流量控制器、提升技术和丢包$ Q $-学习流量设定值控制器.
2.2 Q-学习流量控制器设计
在每一个运行层的采样周期内丢包$ Q $-学习流量设定值控制器为底层底流矿浆流量过程提供的设定值$ {y^*}( k ) $为恒定的, 所以底流矿浆流量过程的主要目标是跟踪底层的设定值$ {y^*}( k ) $, 且
$$ \begin{align} {y^*}( k + 1 ) = {F_1}y^*(k) \end{align} $$ (9) 其中, $ F_1 $为单位矩阵.根据式(3)及式(9)得到底流矿浆流量的增广系统为
$$ \begin{align} X_d (k+1) = A_d X_d (k)+B_d u (k) \end{align} $$ (10) 其中, $ X_d(k) = \left[ \begin{matrix} x_1^{\rm T}(k)&y^{*{\rm T}}(k) \end{matrix} \right]^{\rm T} $, $ A_d = \left[ \begin{matrix} A_1&0\nonumber\\0&F_1\end{matrix} \right] $和$ B_d = \left[ B_1\; \; \; 0\right]^{\rm T} $, 且$ X_d(k) $维数为$ 2\times 1 $.
根据增广向量$ {X_d}\left( k \right) $的定义, 底流矿浆流量过程的性能指标(7)可重新写成
$$ \begin{align} {J_1}( k ) = \sum\limits_{i = k}^\infty {\gamma^{i - k}\left[ X_d^{\rm T}(i){Q_d}{X_d}(i) + u^{\rm T}( i ){R_1}u(i) \right]} \end{align} $$ (11) 其中, $ {C_d} = \left[ {\begin{matrix} C_1&{ - I} \end{matrix}} \right] $, $ {Q_d} = C_d^{\rm T}{Q_1}{C_d} $.
针对具有衰减因子的线性跟踪问题, 选取的控制器形式为
$$ \begin{align} u(k) = {K_1}{x_1}(k) + {K_2}{y^*}(k) = K{X_d}(k) \end{align} $$ (12) 根据参考文献[26], 可知针对性能指标(11)和选取的控制策略(12), 选取合适的衰减因子$ {\gamma} $使$ ({\gamma^{0.5}{F_1}}) $是稳定的, 此时性能指标(11)可表示为线性二次型的值函数:
$$ \begin{align} {J_1}(k) = {V_1}(k) = X_d^{\rm T}(k){P_d}{X_d}(k) \end{align} $$ (13) 其中, $ P_d = P_d^{\rm T}>0 $.
由式(11)可以得到如下LQT贝尔曼(Bellman)方程:
$$ \begin{align} {V_1}(k) = \, &X_d^{\rm T}(k){Q_d}{X_d}(k) + {u^{\rm T}}(k){R_1}u(k)+\\&{\gamma}{V_1}(k+1) \end{align} $$ (14) 将式(13)代入式(14)得到以值函数核矩阵$ P_d $表示的LQT贝尔曼方程:
$$ \begin{align} X_d^{\rm T}&(k){P_d}{X_d}(k) = X_d^{\rm T}(k){Q_d}{X_d}(k) + \\&{u^{\rm T}}(k){R_1}u(k) + {\gamma}X_d^{\rm T}({k + 1}){P_d}{X_d}({k + 1}) \end{align} $$ (15) 从而得到LQT哈密顿(Hamiltonian)函数:
$$ \begin{equation*} \begin{aligned} {H_1}&(k) = X_d^{\rm T}(k){Q_d}{X_d}(k) + {u^{\rm T}}(k){R_1}u(k)+\nonumber\\&{\gamma}X_d^{\rm T}({k + 1}){P_d}{X_d}({k + 1}) - X_d^{\rm T}\left( k \right){P_d}{X_d}(k) \end{aligned} \end{equation*} $$ 根据参考文献[26], 基于最优性的必要条件, 即$ {{\partial {H_1}(k)}}/{{\partial u(k)}} = 0 $, 可得
$$ \begin{align} K = - {({R_1} + {\gamma}B_d^{\rm T}{P_d}{B_d})^{ - 1}}{\gamma}B_d^{\rm T}{P_d}{A_d} \end{align} $$ (16) 且矩阵$ P_d $满足如下代数黎卡提方程(Algebraic Riccati equation, ARE):
$$ \begin{align} {Q_d}& - {P_d} + {\gamma}A_d^{\rm T}{P_d}{A_d} - \gamma^2A_d^{\rm T}{P_d}{B_d} \times \\&{({{R_1} + {\gamma}B_d^{\rm T}{P_d}{B_d}})^{ - 1}}B_d^{\rm T}{P_d}{A_d} = 0 \end{align} $$ (17) 本节设计的$ Q $-学习流量控制器不需要模型中$ A_1 $和$ B_1 $的值, 只利用输入输出的数据就能在线解决代数黎卡提方程(17).根据LQT贝尔曼方程(15), 可定义离散时间的$ Q $-函数($ Q $-function)为
$$ \begin{align} {Q_1}(k) = \, & X_d^{\rm T}(k){Q_d}{X_d}(k) + {u^{\rm T}}(k)R_1u(k)+\\&{\gamma}X_d^{\rm T}({k + 1}){P_d}{X_d}({k + 1}) \label{eq18} \end{align} $$ (18) 将式(10)代入式(18)可得
$$ \begin{align} Q_1(k) = \, & \left[ {\begin{matrix} X_d(k)\nonumber\\u(k) \end{matrix}} \right]^{\rm T} H \left[ {\begin{matrix} X_d(k)\\u(k) \end{matrix}} \right] = \\&\left[ {\begin{matrix} X_d(k)\\u(k) \end{matrix}} \right]^{\rm T} \left[ {\begin{matrix} H_{X_dX_d}&H_{X_du}\\H_{uX_d}&H_{uu}\end{matrix}}\right] \left[ {\begin{matrix} X_d(k)\\u(k) \end{matrix}} \right] \end{align} $$ (19) 其中,
$$ \begin{equation*} \begin{aligned} &H_{X_dX_d} = {Q_d} + \gamma A_d^{\rm T}{P_d}{A_d}\nonumber\\ &H_{X_du} = H_{uX_d}^{\rm T} = \gamma A_d^{\rm T}{P_d}{B_d}\nonumber\\ &H_{uu} = {R_1} + \gamma B_d^{\rm T}{P_d}{B_d} \end{aligned} \end{equation*} $$ 根据$ {{\partial {Q_1}(k)}}/{{\partial u(k)}} = 0 $得到流量过程的控制输入:
$$ \begin{align} u(k) = - H_{uu}^{ - 1}{H_{uX_d}}{X_d}(k) \end{align} $$ (20) 故$ K = - H_{uu}^{ - 1}{H_{uX_d}} $, 显然其等价于式(16).
根据定义的$ Q $-函数, 引入不依赖模型参数的$ Q $-学习算法就能得到底层底流矿浆流量过程的控制输入. $ Q $-方程满足下面贝尔曼方程:
$$ \begin{align} {Q_1}(k) = \, &X_d^{\rm T}(k){Q_d}{X_d}(k) + {u^{\rm T}}(k){R_1}u(k) + \\&\gamma{Q_1}\left( {k + 1} \right) \end{align} $$ (21) 定义$ Z_d(k) = {\left[ {\begin{matrix} {X_d^{\rm T}(k)}&u^{\rm T}(k) \end{matrix}} \right]^{\rm T}} $, 则式(19)变成
$$ \begin{align} {Q_1}(k) = Z_d^{\rm T}(k)H{Z_d}(k) \end{align} $$ (22) 其中, $ Z_d (k) $维数为$ 3\times 1 $.
将式(22)代入(21)可得到$ Q $-函数的贝尔曼方程:
$$ \begin{align} Z_d^{\rm T}(k)H{Z_d}(k) = \, & X_d^{\rm T}(k){Q_d}{X_d}(k) + {u^{\rm T}}(k){R_1}u(k)+\\& \gamma Z_d^{\rm T}({k + 1})H{Z_d}({k + 1}) \label{eq23} \end{align} $$ (23) 根据$ Q $-函数贝尔曼方程(23)以及流量过程的控制输入表达式(20), 采用策略迭代的方法可以实现底流矿浆流量的跟踪, 算法如下:
算法1. 基于策略迭代的底流矿浆流量的跟踪控制
初始化:开始于稳定的控制策略$ K^1 $, 依次重复下面两个步骤直到控制输入收敛.
1) 策略评估:
$$ \begin{equation*} \begin{aligned} &Z_d^{\rm T}(k){H^{j + 1}}{Z_d}(k) = X_d^{\rm T}(k){Q_d}{X_d}(k) + \nonumber\\&{\left( {{u^j}(k)} \right)^{\rm T}}R_1{u^j}(k)+ \gamma Z_d^{\rm T}({k + 1}){H^{j + 1}}{Z_d}({k + 1}) \end{aligned} \end{equation*} $$ 2) 策略提升:
$$ \begin{equation*} \begin{aligned} {u^{j + 1}}(k) = - {({H_{uu}^{j+1}})^{ - 1}}H_{uX_d}^{j + 1}{X_d}(k) \end{aligned} \end{equation*} $$ 注2. 算法1的收敛性在文献[27-28]中有证明.可采用最小二乘的方法计算$ H^{j+1} $, 由于$ H $是对称矩阵, 故执行最小二乘方法前应至少收集6组数据才能保证满秩的条件.
2.3 无线网络环境下浓度过程控制算法
2.3.1 基于提升技术的矿浆浓度外环动态模型
将式(12)代入式(3), 得到以矿浆流量设定值$ {y^*}(k) $为输入且以矿浆流量$ y(k) $为输出的稳定闭环方程:
$$ \begin{align} {x_1}({k + 1}) = \, & ({A_1 + B_1K_1}){x_1}(k) + {B_1}{K_2}{y^*}(k)\\ y(k) = \, & {C_1}{x_1}(k) \end{align} $$ (24) 由于运行层设定值$ Q $-学习控制给出的设定值$ {y^*}(T) $是慢信号, 而底层控制的设定值$ {y^*}(k) $是快信号, 故采用提升技术, 即流量设定值$ {y^*}(k) $利用零阶保持器, 对应下采样器的参数为$ n $, 即
$$ \begin{align} {y^*}(T) = \, & {y^*}({nk}) = {y^*}({nk + 1}) = \cdots = \\& {y^*}({nk + n - 1}) \end{align} $$ (25) 将式(24)结合式(25)得到
$$ \begin{align} {x_1}({T + 1}) = \, & {x_1}\left( {n({k + 1})} \right) = {x_1}({nk + n}) = \\& ({{A_1} + {B_1K_1}}){x_1}({nk+n-1}) +\\&{B_1}{K_2}{y^*}({nk+n-1}) = \cdots = \\& {( {{A_1} + {B_1}{K_1}} )^n}{x_1}({nk}) +\\&\sum\limits_{i = 0}^{n - 1} {{{({A_1+B_1K_1})}^i}{B_1K_2}{y^*}({nk})} = \\& {A_o}{x_1}(T) + {B_o}{y^*}(T)\\ y(T) = \, & {C_1}{x_1}(T) \label{eq26} \end{align} $$ (26) 其中, $ {A_o} = ( A_1+B_1K_1 )^n $和$ {B_o} = \sum\nolimits_{i = 0}^{n - 1} ( A_1+ $ $ B_1K_1 )^i{B_1K_2} $.
将式(26)代入式(4), 并与式(4)组成新的增广系统, 则基于提升技术的矿浆浓度外环动态模型为
$$ \begin{equation*} \begin{aligned} \left[ {\begin{matrix} x_1( {T + 1} )\\ x_2( {T + 1} )\end{matrix}} \right] = \, &\left[ {\begin{matrix} A_o&0\nonumber\\B_2C_1&A_2 \end{matrix}} \right] \left[ {\begin{matrix} x_1( {T} )\\ x_2( {T} )\end{matrix}} \right]+ \\&\left[ {\begin{matrix} B_o\nonumber\\0 \end{matrix}} \right] {y^*} \left( T\right)\nonumber\\ r\left( T\right) = \, & \left[ {\begin{matrix} 0&C_2 \end{matrix}} \right] \left[ {\begin{matrix} x_1( T )\nonumber\\ x_2( T )\end{matrix}} \right] \end{aligned} \end{equation*} $$ 令$ \tilde A = \left[ {\begin{matrix} {A_o}&0\nonumber\\ {B_2C_1}&{A_2} \end{matrix}} \right] $, $ \tilde B = \left[ {\begin{matrix} {B_o}\nonumber\\ 0 \end{matrix}} \right] $, $ \tilde C = \left[ {\begin{matrix} 0&{C_2} \end{matrix}} \right] $和$ \eta (T) = {\left[ {\begin{matrix} {x_1^{\rm T}( T )}&{x_2^{\rm T}( T )} \end{matrix}} \right]^{\rm T}} $, 则
$$ \begin{align} \eta ( {T + 1} ) = \, & \tilde A\eta (T) + \tilde B{y^*}(T)\\ r (T) = \, & \tilde C\eta (T) \end{align} $$ (27) 其中, $ \eta (T) $的维数为$ 2 \times 1 $.
底流矿浆浓度的设定值为$ r^* $, 工艺要求该浓度在一定范围内, 故设$ r^* $为满足工艺要求的常数.为解决系统的跟踪问题, 式(27)与底流矿浆浓度的设定值可重组为
$$ \begin{align} {X_h}({T + 1}) = \, & \left[ {\begin{matrix} {\tilde A}&0\nonumber\\0&{F_2} \end{matrix}} \right] \left[ {\begin{matrix} {\eta (T)}\nonumber\\ {r^*} \end{matrix}} \right] + \left[ {\begin{matrix} {\tilde B}\nonumber\\ 0 \end{matrix}} \right]{y^*}(T) = \\& {A_h}{X_h}(T) + {B_h}{y^*}(T)\\ r ( T ) = \, & \left[ {\begin{matrix} {\tilde C}&0\end{matrix}} \right]{X_h}(T) = {C_h}{X_h}(T) \label{eq28} \end{align} $$ (28) 其中, $ F_2 $为适当维数的单位矩阵, $ {X_h}( T ) $维数为$ 3 \times 1 $.
2.3.2 史密斯预估器设计
由于在无线网络下系统的状态量会发生丢包, 故利用史密斯预估器的思想, 通过过去传输成功的数据估计出此刻系统的状态$ \eta (T) $.定义在$ T $步之前发生丢包的次数为$ {\delta _{fn}}(T) $.由假设1可知, $ 0 \le {\delta _{fn}}(T) \le {\delta _{f\max }} $, 同时根据式(5)得到在$ T $时刻状态量传输成功时$ {\delta _{fn}}(T) = 0 $, 从而通过无线网络进行传输时在第$ T $步可以获得的最近的有用数据为$ {\eta _f}(T) = \eta \left( {T - {\delta _{fn}}(T)} \right) $.
根据丢包次数的定义, 可以将网络丢包现象认为是随机有界延迟现象, 所以可以用过去系统采集到的未发生丢包的数据和控制输入的信息预测出当前系统的状态:
$$ \begin{align} \eta (T) = \, & {\tilde A^{{\delta _{fn}}(T)}}\eta \left( {T - {\delta _{fn}}(T)} \right) +\\&\sum\limits_{i = 1}^{{\delta _{fn}}(T)} {{{\tilde A}^{i - 1}}\tilde B{y^*}({T - i})} \end{align} $$ (29) 其中, $ {\delta _{fn}}(T) $是已知的.
结合式(28)和(29), 利用过去时刻的数据可预测出当前的增广状态$ {X_h}(T) $:
$$ \begin{align} {X_h}(T) = Mz(T) \end{align} $$ (30) 其中,
$$ \begin{equation*} \small \begin{aligned} &M = \nonumber\\&\left[ {\begin{matrix} I&{\tilde A}& \cdots &{{\tilde A}^{\delta _{f\max }}}&{\tilde B}&{\tilde A\tilde B}& \cdots &{{{\tilde A}^{{\delta _{f\max }} - 1}}\tilde B}&0\nonumber\\ 0&0& \cdots &0&0&0& \cdots &0&{F_2} \end{matrix}} \right], \end{aligned} \end{equation*} $$ 在$ T $时刻, $ z\left( T \right) $是已知的, 且$ z\left( T \right) $维数为$ {n_z} \times 1 $, $ {n_z} = \left( {\delta _{f\max }}+1 \right) \times 2 + {\delta _{f\max}}+ 1 $.则当$ {\delta _{fn}}( T ) = 0, 1, \cdots , \delta _{f\max } $时, $ z( T ) $分别表示为
$$ \begin{equation*} \begin{aligned} z( T ) = \, &\left[ {\underbrace {\begin{matrix} {\eta _f^{\rm T}( T )}& \cdots &0 \; \end{matrix}}_{\delta _{f\max}+1}}\; \; {\underbrace {\begin{matrix} \; 0& \cdots &0 \end{matrix}}_{{\delta _{f\max }}}\;\;r^{*{\rm T}}} \right]^{\rm T}, \\ &{\delta _{fn}}( T ) = 0 \end{aligned} \end{equation*} $$ $$ \begin{equation*} \begin{aligned} \begin{array}{l} z( T ) = \left[ {\underbrace {\begin{array}{*{20}{c}} 0&{\eta _f^{\rm T}( T )}& \cdots &0 \end{array}}_{{\delta _{f\max }} + 1}} \right.\nonumber\\ \;\;\;\;\;\;\;\;\;\;\;{\left. {\underbrace {\begin{array}{*{20}{c}} {y^{*{\rm T}}( {T - 1} )}& \cdots &0 \end{array}}_{{\delta _{f\max }}}\;\;r^{*{\rm T}}} \right]^{\rm T}}, {\delta _{fn}}(T) = 1 \end{array} \end{aligned} \end{equation*} $$ $$ \begin{equation*} \vdots \end{equation*} $$ $$ \begin{equation*} \begin{aligned} \begin{array}{l} z( T ) = \left[ {\underbrace {\begin{array}{*{20}{c}} 0& \cdots &{\eta _f^{\rm T}( T )} \end{array}}_{{\delta _{f\max }} + 1}} \right.\nonumber\\ {\left. {\underbrace {\begin{array}{*{20}{c}} {y^{*{\rm T}}( {T - 1} )}& \cdots &{y^{*{\rm T}}( {T - {\delta _{f\max }}} )} \end{array}}_{{\delta _{f\max }}}\;\;r^{*{\rm T}}} \right]^{\rm T}}, \nonumber\\ {\delta _{fn}}(T) = {\delta _{f\max }} \end{array} \end{aligned} \end{equation*} $$ 2.3.3 丢包Q-学习流量设定值控制器设计
为解决运行层底流矿浆浓度的跟踪问题, 根据增广状态$ {X_h} (T) $的定义, 其性能指标(8)可写成
$$ \begin{align} {J_2}(T) = \sum\limits_{i = T}^\infty {\bar {\gamma} ^{i - T}\left[ {X_h^{\rm T}(i)\tilde Q{X_h}(i) \!+\! {y^{*{\rm T}}}{( i )} {R_2}{y^*}( i )} \right]} \end{align} $$ (31) 其中, $ \tilde Q = {\left[ {\begin{matrix}{\tilde C}&{ - I} \end{matrix}} \right]^{\rm T}}{Q_2}\left[ {\begin{matrix} {\tilde C}&{ - I} \end{matrix}} \right] $.针对发生丢包的系统, 设计底流矿浆流量的设定值形式如下
$$ \begin{align} {y^*}(T) = \, & {L_1}\eta (T) + {L_2}{r^*} = \\& L{X_h}(T) = LMz(T) = \tilde Lz(T) \end{align} $$ (32) 根据参考文献[24], 当选取稳定的控制策略(32)和合适的衰减因子$ \bar{\gamma} $使$ \left( {\bar{\gamma}^{0.5}{F_2}} \right) $是稳定的, 能够将系统的性能指标(31)写成二次型的形式:
$$ \begin{align} {J_2}(T) = X_h^{\rm T}(T){P_h}{X_h}(T) = {z^{\rm T}}( T )\tilde Pz( T ) \end{align} $$ (33) 其中, $ {P_h} = P_h^{\rm T} > 0 $和$ \tilde P = {M^{\rm T}}{P_h}M > 0 $.
由式(31)和(33), 得到如下丢包形式的LQT贝尔曼方程:
$$ \begin{align} {z^{\rm T}}&(T)\tilde Pz(T) = {z^{\rm T}}(T){M^{\rm T}}\tilde Q Mz(T)+ \\&y^{*{\rm T}}( T ){R_2}{y^*}(T)+ {\bar{\gamma}}{z^{\rm T}}( {T + 1} )\tilde Pz( {T + 1} ) \end{align} $$ (34) 从而得到如下LQT哈密顿函数:
$$ \begin{equation*} \begin{aligned} {H_2}(T) = \, & {z^{\rm T}}(T){M^{\rm T}}\tilde Q Mz(T) + y^{*{\rm T}}( T ){R_2}{y^*}(T)+\nonumber\nonumber\\&\bar{\gamma}{z^{\rm T}}({T + 1})\tilde Pz( {T + 1} ) - {z^{\rm T}}( T )\tilde Pz(T) \end{aligned} \end{equation*} $$ LQT贝尔曼方程的稳定条件为
$$ \begin{align} &\frac{{\partial {H_2}(T)}}{{\partial {y^*}(T)}} = 2{R_2}{y^*}(T) +\\& \bar {\gamma}\frac{{\partial z^{\rm T}{{( {T + 1} )}}}}{{\partial {y^*}(T)}}\frac{{\partial {J_2}( {T + 1} )}}{{\partial z( {T + 1})}} = 0 \end{align} $$ (35) 结合式(28)和(30), 可以得到
$$ \begin{align} z( {T + 1} ) = {M^*}{A_h}Mz( T ) + {M^*}{B_h}{y^*}( T ) \end{align} $$ (36) 其中, $ {M^*} = {M^{\rm T}}{( {M{M^{\rm T}}} )^{ - 1}} $为$ M $的右逆, 将其代入式(35)得到
$$ \begin{align} {y^*}( T ) = \, & - {( {{R_2} + \bar{\gamma}B_h^{\rm T}{M^{*{\rm T}}}\tilde P{M^*}{B_h}} )^{ - 1}} \times \\&\bar{\gamma}{B_h^{\rm T}}{M^{*{\rm T}}}\tilde P{M^*}{A_h}Mz( T ) = \\& -{( {{R_2} + \bar{\gamma}B_h^{\rm T}{P_h}{B_h}} )^{ - 1}}\bar{\gamma }{B_h^{\rm T}}{P_h}{A_h}Mz(T) \end{align} $$ (37) 将式(36)和(37)代入丢包形式的LQT贝尔曼方程(34)中, 从而得到丢包形式的LQT黎卡提方程
$$ \begin{align} {M^{\rm T}}\tilde QM& - \tilde P + \bar{\gamma}{M^{\rm T}}A_h^{\rm T}{M^{*{\rm T}}}\tilde P{M^*}{A_h}M -\\&\bar{\gamma}^2{M^{\rm T}}A_h^{\rm T}{M^{*{\rm T}}} \tilde P{M^*}{B_h}( {R_2} +\\& \bar{\gamma}B_h^{\rm T}{M^{*{\rm T}}}\tilde P{M^*}{B_h} )^{ - 1}\times \\&B_h^{\rm T}{M^{*{\rm T}}}\tilde P{M^*}{A_h}M = 0 \end{align} $$ (38) 因为$ M $是行满秩, 故式(38)可化为
$$ \begin{align} \tilde Q - {P_h} + \bar{\gamma}A_h^{\rm T}{P_h}{A_h} - \bar{\gamma}^2A_h^{\rm T}{P_h}{B_h} \times\\ {( {{R_2} + \bar{\gamma}B_h^{\rm T}{P_h}{B_h}} )^{ - 1}}B_h^{\rm T}{P_h}{A_h} = 0 \end{align} $$ (39) 引理1[24]. 将式(32)代入具有丢包的系统(27), 选择合适的衰减因子$ \bar{\gamma} $使$ \left( \bar \gamma^{0.5}{F_2} \right) $是稳定的, 同时参数满足
$$ \begin{equation*} \begin{aligned} 0 < ( {{P_{11}} - {{\tilde C}^{\rm T}}{Q_2}\tilde C} ){( {P_{11} + G} )^{ - 1}} < \bar{\gamma}^2I \end{aligned} \end{equation*} $$ 其中, $ P_{11} = \sum\limits_{i = 0}^\infty {{{\bar \gamma }^i}\left[ {{{( {G_c^i} )}^{\rm T}}( {{{\tilde C}^{\rm T}}{Q_2}\tilde C + L_1^{\rm T}{R_2}{L_1}} )G_c^i} \right]} $, $ G = \tilde A^{\rm T}P_{11}\tilde B{( {R_2 \!+\! {{\tilde B}^{\rm T}}P_{11}\tilde B} )^{ - 1}}{R_2} {( {R_2 \!+\! {{\tilde B}^{\rm T}}{P_{11}}\tilde B} )^{ - 1}} $
$ {\times\tilde B^{\rm T}}{P_{11}}\tilde A $和$ {G_c} = \tilde A + \tilde B{L_1} $, 从而可以得到系统(27)是稳定的, 此时控制为最优的即能最小化性能指标(31), 此部分证明放在下一节.
基于LQT贝尔曼方程的定义(34), 则可将丢包$ Q $-函数定义为
$$ \begin{align} {Q_2}(T) = \, & {z^{\rm T}}(T){M^{\rm T}}\tilde Q M z (T) + y^{*{\rm T}}(T){R_2}{y^*}(T)+\\& \bar{\gamma}{z^{\rm T}}({T + 1})\tilde P z({T + 1}) \label{eq40} \end{align} $$ (40) 将式(36)代入式(40)得到
$$ \begin{align} Q_2(T) = \chi ^{\rm T}(T)H_2\chi (T) \end{align} $$ (41) 其中, $ \chi (T) = \left[ \begin{matrix} z^{\rm T}(T)&y^{*{\rm T}}(T)\end{matrix}\right]^{\rm T} $,
$$ \begin{equation*} \begin{aligned} \begin{array}{l} H_2 = \left[ {\begin{matrix} H_{zz}&H_{zr_1}\nonumber\\ H_{r_1z}&H_{r_1r_1} \end{matrix}} \right]\nonumber\\ H_{zz} = {M^{\rm T}}\tilde QM + \bar{\gamma}{M^{\rm T}}A_h^{\rm T}{M^{*{\rm T}}}\tilde P{M^*}{A_h}M\nonumber\\ H_{zr_1} = H_{r_1z}^{\rm T} = \bar{\gamma}{M^{\rm T}}A_h^{\rm T}{M^{*{\rm T}}}\tilde P{M^*}{B_h}\nonumber\\ H_{r_1r_1} = {R_2} + \bar{\gamma}{B_h}{M^{*{\rm T}}}\tilde P{M^*}{B_h} \end{array} \end{aligned} \end{equation*} $$ 令$ {{\partial {Q_2}(T)}}/{{\partial {y^*}(T)}} = 0 $得到底流流量的最优设定值:
$$ \begin{align} {y^*}(T) = - {H^{ - 1}_{r_1r_1}}H_{r_1z}z(T) \end{align} $$ (42) 显然, 式(37)和(42)等价.
根据丢包$ Q $-函数的定义(40)结合式(34), 则$ Q $-函数满足丢包LQT贝尔曼方程:
$$ \begin{align} {Q_2}&(T) = {z^{\rm T}}(T){M^{\rm T}}\tilde Q Mz(T) +\\&y^{*{\rm T}}(T){R_2}{y^*}(T) + \bar{\gamma}{Q_2}({T + 1}) \label{eq42} \end{align} $$ (43) 将式(41)代入式(43)得到丢包$ Q $-函数贝尔曼方程:
$$ \begin{align} {\chi ^{\rm T}}&(T) H_2 \chi (T) = {z^{\rm T}}(T){M^{\rm T}}\tilde QMz(T) +\\&y^{*{\rm T}}(T){R_2}{y^*}(T) + \bar{\gamma}{\chi ^{\rm T}}({T+1}) H_2 \chi ({T+1}) \end{align} $$ (44) 定义
$ z(T) = \left[ {\begin{matrix} {z_1}( T )\nonumber\\ {z_2}( T )\nonumber\\ {r^*} \end{matrix}} \right] $, $ M = \left[ {\begin{matrix} I&{\bar M}&0\nonumber\\ 0&0&I \end{matrix}} \right] $
$ \tilde Q = \left[ {\begin{matrix} {{{\tilde C}^{\rm T}}{Q_2}\tilde C}&{ - {{\tilde C}^{\rm T}}{Q_2}}\nonumber\\ { - {Q_2}\tilde C}&{{Q_2}} \end{matrix}} \right] $
其中, $ z_1 (T) $是$ z (T) $从第一列第1个元素到第2个元素, 所以当$ \delta (T) = 0 $时$ z_1 (T) = 0 $和当$ \delta (T) = 1 $时$ z_1 (T) = \eta (T) $, 且$ z_2 (T) $是$ z (T) $去掉$ z_1 (T) $和$ r^* $元素之后剩下的元素, 从而
$$ \begin{equation*} \begin{aligned} {z^{\rm T}}&(T){M^{\rm T}}\tilde QMz(T) = {z_1^{\rm T}}(T){{\tilde C}^{\rm T}}{Q_2}\tilde C{z_1}(T) + \nonumber\\&r^{*{\rm T}}{Q_2}{r^*}+ z_2^{\rm T}(T){{\bar M}^{\rm T}}{{\tilde C}^{\rm T}}{Q_2}\tilde C\bar M{z_2}(T)-\nonumber\\&2r^{*{\rm T}}{Q_2}\tilde C{z_1}(T) - 2r^{*{\rm T}}{Q_2}\tilde C\bar M{z_2}(T) \end{aligned} \end{equation*} $$ 利用克罗内克积展开, 即$ {a^{\rm T}}Wb = ({{b^{\rm T}} \otimes {a^{\rm T}}}){\rm vec}(W) $, 定义$ {{U}}(T) = {\chi ^{\rm T}}(T) \otimes {\chi ^{\rm T}}(T) $, $ V(T) = z_2^{\rm T}(T) \otimes z_2^{\rm T}(T) $, $ W(T) = z_2^{\rm T}(T) \otimes {r^{*{\rm T}}} $和$ \varepsilon (T) = z_1^{\rm T} (T){{\tilde C}^{\rm T}}{Q_2}\tilde C{z_1}(T) + r^{*{\rm T}}{Q_2}{r^*} - 2r^{*{\rm T}}{Q_2}\tilde C{z_1}( T )+ y^{*{\rm T}} (T){R_2}{y^*}(T) $, 从而丢包$ Q $-函数贝尔曼方程(44)可表示为
$$ \begin{equation*} \begin{aligned} U&(T){\rm vec} ({H_2}) = \varepsilon (T) + V (T){\rm vec} ({{{\bar M}^{\rm T}}{{\tilde C}^{\rm T}}{Q_2}\tilde C\bar M})-\nonumber\\&2W(T){\rm vec} ( {{Q_2}\tilde C\bar M} ) + \bar{\gamma}U({T + 1}){\rm vec} ( {{H_2}} ) \end{aligned} \end{equation*} $$ 或者等价于
$$ \begin{equation*} \begin{aligned} \begin{array}{l} \left[ {\begin{matrix} {U(T) - \bar{\gamma}U({T + 1})}&{ - V(T)}&{2W (T)} \end{matrix}} \right] \times \nonumber\\ \left[ {\begin{matrix} {{\rm vec} ({{H_2}})}\nonumber\\ {{\rm vec} ({{{\bar M}^{\rm T}}{{\tilde C}^{\rm T}}{Q_2}\tilde C\bar M})}\nonumber\\ {{\rm vec} ( {{Q_2}\tilde C\bar M} )} \end{matrix}} \right] = \varepsilon (T) \end{array} \end{aligned} \end{equation*} $$ 定义
$$ \begin{equation*} \begin{aligned} \begin{array}{l} \sigma ( T ) = \nonumber\\ \left[ {\begin{matrix} {U(T) - \bar{\gamma}U ({T + 1})}&{ - V(T)}&{2W(T)}\nonumber\\ \vdots & \vdots & \vdots \nonumber\\ {U({T + s}) - \bar{\gamma}U ({T + s + 1})}&{ - V ({T + s})}&{2W ({T + s})} \end{matrix}} \right]\cong\nonumber\\ \left[ {\begin{matrix} {\bar \sigma (T)}&0 \end{matrix}} \right] = \sigma (T)N \end{array} \end{aligned} \end{equation*} $$ $$ \begin{equation*} \begin{aligned} \xi (T) = \left[ {\begin{matrix} {\varepsilon (T)}\nonumber\\ \vdots \nonumber\\ {\varepsilon ({T + s})} \end{matrix}} \right] \end{aligned} \end{equation*} $$ 其中, $ N $为列初等变换矩阵, $ s $是依赖于反馈丢包的连续最大丢包次数$ {\delta _{f\max}} $的整数.使用最小二乘的方法, 需要满足秩条件
$$ \begin{equation*} \begin{aligned} {\rm rank}\left\{ {{\sigma ^{\rm T}}(T)\sigma (T)} \right\} = {S_r} \end{aligned} \end{equation*} $$ 其中, $ {S_r} = \sum\nolimits_{i = 0}^{{\delta _{f\max }}} {({4 + i})} \times ({5 + i})/2 - 3{\delta _{f\max }}\; + ( {2 + {\delta _{f\max }}} ) \times ( {3 + {\delta _{f\max }}} )/2 + ( {2 + {\delta _{f\max }}} ) $.
丢包$ Q $-函数的贝尔曼方程变为
$$ \begin{equation*} \begin{aligned} \sigma (T)\left[ {\begin{matrix} {{\rm vec}({{H_2}})}\nonumber\\ {{\rm vec}({{{\bar M}^{\rm T}}{{\tilde C}^{\rm T}}{Q_2}\tilde C\bar M})}\nonumber\\ {{\rm vec}( {{Q_2}\tilde C\bar M} )} \end{matrix}} \right] = \xi (T) \end{aligned} \end{equation*} $$ 或者等价于
$$ \begin{equation*} \begin{aligned} \bar \sigma ( T ){\rm vec}( {{{\bar H}_2}} ) = \xi ( T ) \end{aligned} \end{equation*} $$ 其中,
$ \left[ {\begin{array}{*{20}{c}} {{\rm vec} ( {{{\bar H}_2}} )}\nonumber\\ {{\rm vec}( {{{\hat H}_2}} )} \end{array}} \right] = {N^{ - 1}}\left[ {\begin{array}{*{20}{c}} {{\rm vec}( {{H_2}} )}\nonumber\\ {{\rm vec}( {{{\bar M}^{\rm T}}{{\tilde C}^{\rm T}}{Q_2}\tilde C\bar M} )}\nonumber\\ {{\rm vec}( {{Q_2}\tilde C\bar M} )} \end{array}} \right] $
最终可得
$$ \begin{equation*} \begin{aligned} {\rm vec}({{{\bar H}_2}}) = {\left( {{{\bar \sigma }^{\rm T}}(T)\bar \sigma (T)} \right)^{ - 1}}{\bar \sigma ^{\rm T}}( T )\xi (T) \end{aligned} \end{equation*} $$ 为实现底流矿浆浓度的跟踪, 为底流流量过程提供最优设定值$ y^*(T) $.使用策略迭代的方法利用在网络环境下采集到的系统数据$ {\eta _f}(T) $在线解决$ Q $-函数, 其算法如下所示.
算法2. 底流流量过程最优设定值$ y^*(T) $的丢包$ Q $-学习算法
初始化:给定初始稳定的控制策略$ {\tilde L^1} $, 依次重复下面两个步骤直到控制输入收敛.
1) 策略评估:利用最小二乘的方法计算出$ \bar H_2^{j+1} $
$$ \begin{equation*} \begin{aligned} \begin{array}{l} \left[ {\begin{matrix} {U (T) - \bar{\gamma}U ( {T + 1} )}&{ - V(T)}&{2W(T)} \end{matrix}} \right]\nonumber\\ N{N^{ - 1}}\left[ {\begin{matrix} {{\rm vec} ({{H_2}})}\nonumber\\ {{\rm vec} ({{{\bar M}^{\rm T}}{{\tilde C}^{\rm T}}{Q_2}\tilde C\bar M})}\nonumber\\ {{\rm vec} ({{Q_2}\tilde C\bar M})} \end{matrix}} \right]^{j+1} = \nonumber\\ z_1^{\rm T} (T){{\tilde C}^{\rm T}}{Q_2}\tilde C{z_1}(T) + r^{*{\rm T}}{Q_2}{r^*}-\nonumber\\ 2r^{*{\rm T}}{Q_2}\tilde C{z_1}( T )+ (y^{*j}(T))^{\rm T}{R_2}{y^{*j}}(T) \end{array} \end{aligned} \end{equation*} $$ 2) 策略提升:
$$ \begin{equation*} \begin{aligned} {y^{*j+1}}(T) = - {({H_{{r_1}{r_1}}^{j + 1}})^{ - 1}}H_{{r_1}z}^{j + 1}z(T) \end{aligned} \end{equation*} $$ 注3. 根据参考文献[26], 选取比较大的半正定矩阵和合适的衰减因子能够得到比较小的跟踪误差.
注4. 本文为双层架构的控制算法, 首先以底层和运行层稳定的控制策略运行, 运行层为底层提供设定值, 底层通过算法1不依赖于系统的模型参数计算得到最优的控制策略; 然后在底层稳定的情况下, 再通过算法2为底层提供最优的控制设定值.此算法不需要知道系统的模型.
注5. 算法1和算法2都需要持续激励的条件, 从而对状态空间进行充分的探索得到足够充足的数据.如果状态收敛到期望位置, 持续激励的条件就不再需要.可以在控制输入中加入探测噪声从而确保持续激励的条件, 此处探测噪声选择为白噪声.
3. 控制性能分析
将控制策略(32)代入系统(27)得到闭环系统:
$$ \begin{equation*} \begin{aligned} \eta ({T + 1}) = \, & ({\tilde A + \tilde B{L_1}})\eta (T) + \tilde B{L_2}{r^*} = \nonumber\nonumber\\& {A_p}\eta (T) + {B_p}{r^*} \end{aligned} \end{equation*} $$ 如果闭环系统$ A_p $的特征值在单位圆内, 则闭环系统是稳定的.
假设$ \lambda $是闭环系统$ A_p $的一个特征值, 可知满足$ {A_p}{x_\lambda } = \lambda {x_\lambda } $ ($ {x_\lambda} $是矩阵$ A_p $对应$ \lambda $的一个特征向量).根据参考文献[26]可得$ {P_h} = \left[ {\begin{matrix} P_{11}&P_{12}\nonumber\\ P_{21}&P_{22}\end{matrix}} \right] $的具体形式, 从而LQT黎卡提方程可以化为
$$ \begin{equation*} \begin{aligned} {\tilde C^{\rm T}}{Q_2}\tilde C - {P_{11}} + {\bar \gamma}A_p^{\rm T}{P_{11}}{A_p} + L_1^{\rm T}{R_{2}}{L_1} = 0 \end{aligned} \end{equation*} $$ 其中, $ {L_1} = - {({{R_2} + {\bar \gamma}{{\tilde B}^{\rm T}}{P_{11}}\tilde B})^{ - 1}}{\bar\gamma}{\tilde B^{\rm T}}{P_{11}}\tilde A $, 对其左乘$ x_\lambda ^{\rm T} $右乘$ {x_\lambda} $可得
$$ \begin{equation*} \begin{aligned} x_\lambda& ^{\rm T} {{\tilde C}^{\rm T}}{Q_2}\tilde C{x_\lambda } - x_\lambda ^{\rm T}{P_{11}}{x_\lambda} + {\bar \gamma}{\left| \lambda \right|^2}x_\lambda ^{\rm T}{P_{11}}{x_\lambda }+\nonumber\\&{\bar \gamma}^2 x_\lambda ^{\rm T}\tilde A^{\rm T}{P_{11}}\tilde B{({{R_2} + {\bar \gamma}{{\tilde B}^{\rm T}}{P_{11}}\tilde B})^{ - 1}} \times \nonumber\\&{R_2}{({{R_2} + {\bar \gamma}{{\tilde B}^{\rm T}}{P_{11}}\tilde B})^{ - 1}}{{\tilde B}^{\rm T}}{P_{11}}\tilde A {x_\lambda } = 0 \end{aligned} \end{equation*} $$ 因为$ R_2 $和$ Q_2 $是正定的且衰减因子$ 0 < {\bar\gamma} < 1 $, 故$ {( {{R_2} + {\bar\gamma}{{\tilde B}^{\rm T}}{P_{11}}\tilde B} )^{ - 1}} > {({{R_2} + {{\tilde B}^{\rm T}}{P_{11}}\tilde B})^{ - 1}} $, 所以可得
$$ \begin{equation*} \begin{aligned} &({1 - {\bar\gamma}{{\left| \lambda \right|}^2}}){P_{11}} - {{\tilde C}^{\rm T}}{Q_2}\tilde C \ge \bar\gamma^2{\left| \lambda \right|^2}\tilde A ^{\rm T}{P_{11}}\tilde B \times \nonumber\\&{({{R_2} + {{\tilde B}^{\rm T}}{P_{11}}\tilde B})^{ - 1}}{R_2}( {R_2} +\nonumber\\& {{\tilde B}^{\rm T}}{P_{11}}\tilde B)^{ - 1}{{\tilde B}^{\rm T}}{P_{11}}\tilde A \end{aligned} \end{equation*} $$ 定义
$$ \begin{equation*} \begin{aligned} G = \, &\tilde{A}^{\rm T} {P_{11}}\tilde B{( {{R_2} \!+\! {{\tilde B}^{\rm T}}{P_{11}}\tilde B} )^{ - 1}}\times\\&{R_2}{( {{R_2}\! +\! {{\tilde B}^{\rm T}}{P_{11}}\tilde B} )^{ - 1}}{\tilde B^{\rm T}}{P_{11}}\tilde A, \end{aligned} \end{equation*} $$ 所以
$$ \begin{equation*} \begin{aligned} {P_{11}} - {\tilde C^{\rm T}}{Q_2}\tilde C > {\bar \gamma ^2}{\left| \lambda \right|^2}({{P_{11}} + G}) \end{aligned} \end{equation*} $$ 或等价于
$$ \begin{equation*} \begin{aligned} \frac{1}{{\bar \gamma }^2}({{P_{11}} - {\tilde C}^{\rm T} {Q_2}\tilde C}){({{P_{11}} + G})^{ - 1}} > {\left| \lambda \right|^2}I \end{aligned} \end{equation*} $$ 如果闭环系统$ A_p $的特征值在单位圆内, 即$ \left| \lambda \right| \le 1 $, 闭环系统是稳定的.所以当满足条件$ 0 < ( {P_{11} - {{\tilde C}^{\rm T}}{Q_2}\tilde C} ){( {P_{11} + G} )^{ - 1}} < \bar\gamma^2I $, 闭环系统的稳定性成立.采用$ Q $-学习流量控制器能保证内环稳定, 又因为外环给内环的设定值是有界的, 故双率控制结构下整体稳定.
为证明最优性, 设
$$ \begin{equation*} \begin{aligned} {U_2}(i) = {\left( {r^* \!-\! r(i)} \right)^{\rm T}}{Q_2}\left ( {r^* \!-\! r(i)} \right) \!+\! y^{*{\rm T}}(i) {R_2} {y^*} (i) \end{aligned} \end{equation*} $$ 则性能指标(8)可写成
$$ \begin{equation*} \begin{aligned} {J_2}(T) = {U_2}(T) + {\bar\gamma}{J_2}({T + 1}) \end{aligned} \end{equation*} $$ 对其左乘$ \bar\gamma^T $得到
$$ \begin{equation*} \begin{aligned} \bar \gamma^T{J_2}(T) = \bar \gamma^T{U_2}(T) + \bar \gamma ^{T + 1}{J_2}({T + 1}) \end{aligned} \end{equation*} $$ 移项可得
$$ \begin{align} \bar \gamma^{ T + 1}{J_2}({T + 1}) - \bar \gamma^T{J_2}(T) = - \bar \gamma ^T{U_2}(T) \end{align} $$ (45) 对其两边从$ T $到$ \infty $进行累加和, 得
$$ \begin{align} \bar \gamma^\infty {J_2}(\infty) - \bar \gamma^T{J_2}(T) = - \sum\limits_{i = T}^\infty {\bar \gamma^i{U_2}(i)} \end{align} $$ (46) 因为$ \bar \gamma^\infty {J_2}\left( \infty \right) = 0 $, 得到
$$ \begin{align} \bar\gamma^T{J_2}(T) = \sum\limits_{i = T}^\infty {\bar\gamma ^i{U_2}(i)} \end{align} $$ (47) 对式(45)的等号左边从$ T $到$ \infty $累加得到
$$ \begin{align} \begin{array}{l} \bar\gamma^T{J_2}(T) = \sum\limits_{i = T}^\infty {\left[ {\bar\gamma ^i{J_2}(i) - \bar \gamma^{i + 1}{J_2}({i + 1})} \right]} = \nonumber\\ \sum\limits_{i = T}^\infty {\left[ {\bar\gamma^i{z^{\rm T}}(i)\tilde Pz(i) - \bar\gamma ^{i + 1}{z^{\rm T}}( {i + 1})\tilde Pz({i + 1})} \right]} \end{array} \end{align} $$ 将丢包形式的黎卡提方程(38)代入上式, 结合式(47), 从而得到
$$ \begin{equation*} \begin{aligned} \bar \gamma^T, & {J_2}(T) = \bar \gamma ^T{z^{\rm T}}(k)\tilde P z(k)+\nonumber\\ &\sum\limits_{i = T}^\infty {\left[ {{y^*}(i) + {{({{R_2} + {\bar\gamma}B_h^{\rm T}{M^{*{\rm T}}}\tilde P{M^*}{B_h}})}^{ - 1}}} \right.} \times \nonumber\\ &{\left. {{\bar\gamma}B_h^{\rm T}{M^{*{\rm T}}}\tilde P{M^*} {A_h}Mz(i)} \right]^{\rm T}}\times\nonumber\\&( {{R_2} + {\bar\gamma}B_h^{\rm T} {M^{*{\rm T}}}\tilde P{M^*}{B_h}} )\times\nonumber\\ &\left[ {{y^*}(i) + {{({{R_2} + {\bar\gamma}B_h^{\rm T} {M^{*{\rm T}}}\tilde P{M^*}{B_h}})}^{ - 1}} \times } \right.\nonumber\\ &{\left. {{\bar\gamma}B_h^{\rm T}{M^{*{\rm T}}}\tilde P{M^*}{A_h}Mz (i)} \right]^{\rm T}} \end{aligned} \end{equation*} $$ 因为$ ({{R_2} + {\bar\gamma}B_h^{\rm T}{M^{*{\rm T}}}\tilde P{M^*}{B_h}}) $是正定的, 故为了最小化性能指标, 则最优控制输入应该满足控制策略(37).
4. 仿真实验
为了验证在无线网络环境下针对浓密过程本文提出数据驱动算法的有效性, 设计的对比实验为浓度过程发生丢包时将最近的有用数据作为采集的数据采用$ Q $-学习的方法, 浓度过程未发生丢包时采用$ Q $-学习的方法和对本文方法增大权重的方法.
4.1 仿真实验参数选择
针对赤铁矿混合选别的浓密过程(1)和(2), 进行本文提出的无线网络环境下增强学习控制方法的仿真实验, 根据实际混合选别过程可确定其参数如下[9], $ k_i = 0.001 $, $ k_1 = 1.9625 $, $ k_2 = 19.625 $, $ k_3 = 0.0049 $, $ k_0 = 47.97 $, $ h = 6 $, $ S = 1 962.5 \rm{m}^2 $, $ \tau = 3.25 $, $ v_p = 1.825 $, $ D = 100 000 $, $ {{\Delta \rho \left( t \right)}}/[{{g\rho \left( \cdot \right)}}] = 151.0748 $, $ \bar{K} = 1.12 $.
底流矿浆流量为快过程, 其采样周期为$ k = 1 \rm{s} $, 底流矿浆浓度为慢过程, 其采样周期为$ T = 15 \rm{s} $.在工作点处对其进行线性离散化, 则底流矿浆流量过程可以表示为
$$ \begin{equation*} \begin{aligned} {A_1}({z^{ - 1}}) y ({k + 1}) = {B_1} ({z^{ - 1}})u(k)\nonumber\\ \begin{cases} {A_1}({z^{ - 1}}) = 1 + 0.1905{z^{ - 1}}\nonumber\\ {B_1}({z^{ - 1}}) = 12.6027 \end{cases} \end{aligned} \end{equation*} $$ 底流矿浆浓度过程可以表示为
$$ \begin{equation*} \begin{aligned} {A_2}({z^{ - 1}})r ({T + 1}) = {B_2} ({z^{ - 1}}) y(T)\nonumber\\ \begin{cases} {{A_2}({z^{ - 1}}) = 1 - 0.3701{z^{ - 1}}}\nonumber\\ {{B_2}({z^{ - 1}}) = - 0.1} \end{cases} \end{aligned} \end{equation*} $$ 设底流矿浆浓度的设定值$ r^{*} $为$ 31 \% $, 运行层的最大丢包间隔为$ \delta _{f\max } = 1 $.选取底层系统的初始策略为$ {K^1} = \left[ \begin{matrix} 0.002&0.06 \end{matrix} \right] $和运行层的初始策略为$ {\tilde L^1} = \left[ {\begin{matrix} {- 0.31}&{1.3}&{ - 0.12}&{0.3}&{ - 0.35}&{ - 9.9} \end{matrix}} \right] $, 选取底层系统的权重为$ Q_1 = 10 $, $ R_1 = 1 $.选取运行层的权重为$ Q_2 = 10 000 $, $ R_2 = 1 $, 且$ \gamma = 0.95 $和$ \bar{\gamma} = 0.95 $, 计算得$ H_{u{X_d}}^* = \left[ {\begin{matrix}{ - 22.8083}&{ - 119.7113} \end{matrix}} \right] $, $ H_{uu}^* = 1 509.9 $, 从而得到底层系统的最优策略为$ K^* = \left[ {\begin{matrix} {0.0151}&{0.0793} \end{matrix}} \right] $, 计算得到丢包$ Q $-学习流量设定值控制器的$ H_{{r_1}z} = \left[ {\begin{matrix} {33.4223}\!&\!{ - 123.6960}\!&\!{12.3696}\!&\!{ - 45.7799} \!&\!{33.3456}\end{matrix}} \right.\nonumber\\ \left. {\begin{matrix} {905.2622} \end{matrix}} \right] $和$ H_{r_1r_1}^* = 91.233 5 $, 则丢包$ Q $-学习流量设定值控制器的最优策略为$ {\tilde L}^* = \left[ {\begin{matrix} { - 0.3663}&{1.3561}&{ - 0.1354}&{0.5029}&{ - 0.3661}\end{matrix}} \right.\nonumber\\ \left. {\begin{matrix} { - 9.9236} \end{matrix}} \right] $.
4.2 仿真结果
算法1经过迭代3次收敛, 得到$ Q $-学习流量控制器的$ H_{uX_d} = \left[ {\begin{matrix} { - 22.8083}&{ - 119.7113} \end{matrix}} \right] $, $ H_{uu} = 1 509.9 $, 则增益$ {K} = \left[ {\begin{matrix} {0.0151}&{0.0793} \end{matrix}} \right] $.待$ Q $-学习流量控制器收敛时, 之后算法2迭代6次就能收敛得到丢包$ Q $-学习流量设定值控制器的$ H_{{r_1}z} = \left[ {\begin{matrix} {33.4122}\!&\!{ - 123.7178}\!&\!{12.3686}\!&\!{ - 45.7484}\!&\!{33.3905}\end{matrix}} \right.\nonumber \left. {\begin{matrix} {905.1541} \end{matrix}} \right] $和$ H_{r_1r_1} \! = \!91.2114 $, 从而得到$ {\tilde L} = $ $ \left[ {\begin{matrix} { - 0.3663}&{1.3564}&{ - 0.1356}&{0.5016}& { - 0.3661}\end{matrix}} \right.\nonumber \left. {\begin{matrix}{ - 9.9237} \end{matrix}} \right] $.
由图 3可知, $ Q $-学习流量控制器能使流量$ y(k) $跟踪丢包$ Q $-学习控制器提供的设定值$ y^{*}(T) $, 并且使浓密过程的浓度输出$ r(T) $跟踪浓度的设定值$ r^* $, 同时在系统稳定时, 矿浆泵频率$ u $的输入也趋于稳定. 图 4表明流量过程控制增益$ K $在学习的过程中与最优的控制增益$ K^* $差值的2范数逐渐变小, 且趋于$ 0 $. 图 5为底流矿浆流量过程在学习的过程中$ H $收敛到最优值$ H^* $. 图 6表明浓度过程控制增益$ \tilde L $在学习的过程中与最优的控制增益$ {\tilde L}^* $差值的2范数逐渐变小, 且趋于$ 0 $. 图 7为浓度过程在学习的过程中$ {\bar H_2} $收敛到最优值$ {\bar H_2}^* $.仿真结果表明, 本文提出的算法在不知道浓密过程的模型时, 在无线网络环境下, 只利用在线采集到的输入输出的数据就能实现最优控制.
4.3 对比实验
对比实验1为流量过程采取相同的控制策略, 在网络发生丢包时, 因为没有数据传输过来, 故将最近的有用数据作为这次采集的数据, 此时采用$ Q $-学习的方法计算得到流量设定值增益.选取$ Q_2 = 10 000 $和$ \bar \gamma = 0.95 $, 第一次迭代得到的增益为$ \left[ \begin{matrix} {0.0476}&{-0.7379}&{-4.9454}\end{matrix} \right] $, 第二次迭代得到的增益为$ \left[ \begin{matrix} {1.2071}&{4.8951}&{-3.5455}\end{matrix} \right] $, 第三次迭代得到的增益为$ \left[ \begin{matrix} {0.9464}&{8.6217}&{-8.5626}\end{matrix} \right] $, 三次迭代得到的增益不能收敛且变化大, 其作用到浓密过程得到仿真结果为图 8.
从图 8可知将最近的有用数据作为这次采集的数据, 采用$ Q $-学习的方法迭代计算的三次增益分别作用到系统中不能实现对设定值的跟踪, 且随着迭代次数的增多使浓密过程越来越不稳定.
对比实验2为不考虑网络存在丢包的情况下, 流量过程采取相同的控制策略, 对浓度过程采取$ Q $-学习控制算法, 选取$ Q_2 = 10 000 $和$ \bar \gamma = 0.95 $, 经过迭代得到$ Q $-学习流量设定值增益为$ \left[ \begin{matrix} {-0.3664}&{1.3560}&{-9.9237}\end{matrix} \right] $, 其仿真结果为图 9.
对比实验3为流量过程采取相同的控制律, 对浓度过程的性能指标增大权重$ Q_2 = 500 000 $, 得到的仿真结果如图 10所示.
为了评价本文的控制效果, 采用绝对误差积分(Integral absolute error, IAE)与误差均方差(Mean square error, MSE)[16, 29], 其公式为
$$ \begin{equation*} \begin{aligned} {\rm IAE } = \sum\limits_{T = 1}^{{T^*}} {\left| {r^* - {r}(T)} \right|} \end{aligned} \end{equation*} $$ $$ \begin{equation*} \begin{aligned} {\rm MSE} = \sqrt {{1 \over {{T^*}}}\sum\limits_{T = 1}^{{T^*}} {{{\left| {r^* - {r}(T)} \right|}^2}} } \end{aligned} \end{equation*} $$ 对比实验2和3的评价指标结果如表 2所示.
表 2 对比实验2和3评价指标Table 2 Performance index of comparison experimentIAE MSE 本文$Q_2$ 8.4224 0.0191 未丢包 8.4093 0.0190 增大$Q_2$ 0.0418 6.63$\times 10^{-7}$ 从表 2中可知, 选取相同的权重和衰减因子, 当系统发生丢包采取本文的方法得到的控制效果与未发生丢包采取$ Q $-学习的控制效果基本相同, 表明本文的方法对网络环境下浓密过程存在丢包的情况有效.对本文的方法增大$ Q_2 $时, 浓度过程的输出能很好的跟踪浓度设定值, 余差变小且性能评价指标变优, 且本文不需要系统的模型, 在丢包时利用采集到的数据也能实现跟踪.
5. 结论
本文针对在网络环境下的浓密过程设计$ Q $-学习流量控制器和丢包$ Q $-学习流量设定值控制器, 保证浓密过程存在网络丢包时, 不需要知道浓密过程的模型仅利用在线采集到的输入输出的数据实现能够很好地跟踪浓度设定值, 且仅依赖采集的数据为流量过程提供最优的设定值.其仿真结果表明该方法的有效性, 保证丢包时不依赖模型参数, 仅利用采集的数据实现对底流矿浆浓度的跟踪.
-
表 1 浓密过程符号表
Table 1 Mixed separation thickening process symbol table
符号 物理含义 符号 物理含义 $S$ 浓密机横截面积 $\frac{{\Delta \rho (t)}}{{g\rho (\cdot)}}$ 泵两端管路单位重量
矿浆的势能差$\mu$ 介质的粘度 $D$ 阻力损失 $p$ 平均浓度系数 $k_i$, $\bar{K}$ 与浓密机结构有关的常数 $p _s$ 矿浆内固体密度 $g$ 重力加速度 $p _l$ 矿浆内液体密度 $\theta(t)$ 干扰 $k_{0}$ 静态放大系数 $h(\cdot)$ 泥层界面高度 $\tau$ 时间常数 ${v_p}(\cdot)$ 矿浆颗粒沉降速度 ${\varphi _1}$ 浮选中矿矿浆浓度 ${q_1}$ 浮选中矿流量 ${\varphi _2}$ 污水浓度 ${q_2}$ 污水流量 ${\varphi _3}$ 磁选精矿矿浆浓度 ${q_3}$ 磁选精矿矿浆流量 表 2 对比实验2和3评价指标
Table 2 Performance index of comparison experiment
IAE MSE 本文$Q_2$ 8.4224 0.0191 未丢包 8.4093 0.0190 增大$Q_2$ 0.0418 6.63$\times 10^{-7}$ -
[1] Diehl S. A regulator for continuous sedimentation in ideal clarifier-thickener units. Journal of Engineering Mathematics, 2008, 60(3-4):265-291 doi: 10.1007/s10665-007-9149-3 [2] Betancourt F, Bürger R, Diehl S, Farås S. Modeling and controlling clarifier-thickeners fed by suspensions with time-dependent properties. Minerals Engineering, 2014, 62:91-101 doi: 10.1016/j.mineng.2013.12.011 [3] Cao X H, Cheng P, Chen J M, Sun Y X. An online optimization approach for control and communication codesign in networked cyber-physical systems. IEEE Transactions on Industrial Informatics, 2013, 9(1):439-450 doi: 10.1109/TII.2012.2216537 [4] Fan J L, Jiang Y, Chai T Y. MPC-based setpoint compensation with unreliable wireless communications and constrained operational conditions. Neurocomputing, 2017, 270:110-121 doi: 10.1016/j.neucom.2016.10.098 [5] 范家璐, 姜艺, 柴天佑.无线网络环境下工业过程运行反馈控制方法.自动化学报, 2016, 42(8):1166-1174 http://www.aas.net.cn/CN/abstract/abstract18906.shtmlFan Jia-Lu, Jiang Yi, Chai Tian-You. Operational feedback control of industrial processes in a wireless network environment. Acta Automatica Sinica, 2016, 42(8):1166-1174onumber http://www.aas.net.cn/CN/abstract/abstract18906.shtml [6] Sidrak Y L. Control of the thickener operation in alumina production. Control Engineering Practice, 1997, 5(10):1417-1426 doi: 10.1016/S0967-0661(97)00138-X [7] 李海波, 柴天佑, 赵大勇.混合选别浓密机底流矿浆浓度和流量区间智能切换控制方法.自动化学报, 2014, 40(9):1967-1975 http://www.aas.net.cn/CN/abstract/abstract18467.shtmlLi Hai-Bo, Chai Tian-You, Zhao Da-Yong. Intelligent switching control of underflow slurry concentration and flowrate intervals in mixed separation thickener. Acta Automatica Sinica, 2014, 40(9):1967-1975onumber http://www.aas.net.cn/CN/abstract/abstract18467.shtml [8] Chai T Y, Jia Y, Li H B, Wang H. An intelligent switching control for a mixed separation thickener process. Control Engineering Practice, 2016, 57:61-71 doi: 10.1016/j.conengprac.2016.07.007 [9] 王琳岩, 李健, 贾瑶, 柴天佑.混合选别浓密过程双速率智能切换控制.自动化学报, 2018, 44(2):330-343 http://www.aas.net.cn/CN/abstract/abstract19228.shtmlWang Lin-Yan, Li Jian, Jia Yao, Chai Tian-You. Dual-rate intelligent switching control for mixed separation thickening process. Acta Automatica Sinica, 2018, 44(2):330-343onumber http://www.aas.net.cn/CN/abstract/abstract19228.shtml [10] Jiang Y, Fan J L, Chai T Y, Chen T W. Setpoint dynamic compensation via output feedback control with network induced time delays. In:Proceedings of the 2015 American Control Conference (ACC). Chicago, IL, USA:IEEE, 2015. 5384-5389 [11] Schenato L, Sinopoli B, Franceschetti M, Poolla K, Sastry S S. Foundations of control and estimation over lossy networks. Proceedings of the IEEE, 2007, 95(1):163-187 doi: 10.1109/JPROC.2006.887306 [12] Sinopoli B, Schenato L, Franceschetti M, Poolla K, Jordan M I, Sastry S S. Kalman filtering with intermittent observations. IEEE Transactions on Automatic Control, 2004, 49(9):1453-1464 doi: 10.1109/TAC.2004.834121 [13] Shi Y, Yu B. Robust mixed H2/H∞ control of networked control systems with random time delays in both forward and backward communication links. Automatica, 2011, 47(4):754-760 doi: 10.1016/j.automatica.2011.01.022 [14] Zhang H, Shi Y, Wang J M. Observer-based tracking controller design for networked predictive control systems with uncertain Markov delays. International Journal of Control, 2013, 86(10):1824-1836 doi: 10.1080/00207179.2013.797107 [15] Zhang J H, Lin Y J, Shi P. Output tracking control of networked control systems via delay compensation controllers. Automatica, 2015, 57:85-92 doi: 10.1016/j.automatica.2015.04.006 [16] Jiang Y, Fan J L, Chai T Y, Li J N, Lewis F L. Data-driven flotation industrial process operational optimal control based on reinforcement learning. IEEE Transactions on Industrial Informatics, 2018, 14(5):1974-1989 doi: 10.1109/TII.2017.2761852 [17] Gao W N, Jiang Z P, Lewis F L, Wang Y B. Leader-to-formation stability of multi-agent systems:an adaptive optimal control approach. IEEE Transactions on Automatic Control, 2018, 63(10):3581-3587 doi: 10.1109/TAC.2018.2799526 [18] Gao W N, Jiang Z P. Learning-based adaptive optimal tracking control of strict-feedback nonlinear systems. IEEE Transactions on Neural Networks and Learning Systems, 2018, 29(6):2614-2624 doi: 10.1109/TNNLS.2017.2761718 [19] Xu H, Sahoo A, Jagannathan S. Stochastic adaptive event-triggered control and network scheduling protocol co-design for distributed networked systems. IET Control Theory & Applications, 2014, 8(18):2253-2265 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=f947c6504d4b00d6e31cd0253ba2ad40 [20] Xu H, Jagannathan S, Lewis F L. Stochastic optimal control of unknown linear networked control system in the presence of random delays and packet losses. Automatica, 2012, 48(6):1017-1030 doi: 10.1016/j.automatica.2012.03.007 [21] Xu H, Jagannathan S. Stochastic optimal controller design for uncertain nonlinear networked control system via neuro dynamic programming. IEEE Transactions on Neural Networks and Learning Systems, 2013, 24(3):471-484 doi: 10.1109/TNNLS.2012.2234133 [22] Kim B H, Klima M S. Development and application of a dynamic model for hindered-settling column separations. Minerals Engineering, 2004, 17(3):403-410 doi: 10.1016/j.mineng.2003.11.013 [23] Zheng Y Y. Mathematical Mode of Anaerobic Processes Applied to the Anaerobic Sequencing Batch Reactor[Ph.D. dissertation], University of Toronto, Canada, 2003 [24] Jiang Y, Fan J L, Chai T Y, Lewis F L, Li J N. Tracking control for linear discrete-time networked control systems with unknown dynamics and dropout. IEEE Transactions on Neural Networks and Learning Systems, 2018, 29(10):4607-4620 doi: 10.1109/TNNLS.2017.2771459 [25] 姜艺. 浮选过程运行反馈双率区间切换控制方法[硕士学位论文], 东北大学, 中国, 2016Jiang Yi. Operational Feedback Multi-rate Interval Switch Control of Flotation Processes[Master thesis], Northeastern University, China, 2016onumber [26] Kiumarsi B, Lewis F L, Modares H, Karimpour A, Naghibi-Sistani M B. Reinforcement Q-learning for optimal tracking control of linear discrete-time systems with unknown dynamics. Automatica, 2014, 50(4):1167-1175 doi: 10.1016/j.automatica.2014.02.015 [27] Al-Tamimi A, Lewis F L, Abu-Khalaf M. Model-free Q-learning designs for linear discrete-time zero-sum games with application to H-infinity control. Automatica, 2007, 43(3):473-481 doi: 10.1016/j.automatica.2006.09.019 [28] Gao W N, Huang M Z, Jiang Z P, Chai T Y. Sampled-data-based adaptive optimal output-feedback control of a 2-degree-of-freedom helicopter. IET Control Theory & Applications, 2016, 10(12):1440-1447 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=492a5768c546986177b1236275ae85ca [29] 姜艺, 范家璐, 贾瑶, 柴天佑.数据驱动的浮选过程运行反馈解耦控制方法.自动化学报, 2019, 45(4):759-770 http://www.aas.net.cn/CN/abstract/abstract19477.shtmlJiang Yi, Fan Jia-Lu, Jia Yao, Chai Tian-You. Data-driven flotation process operational feedback decoupling control. Acta Automatica Sinica, 2019, 45(4):759-770 http://www.aas.net.cn/CN/abstract/abstract19477.shtml 期刊类型引用(7)
1. 褚菲,王佩,朱安强,张海军. 面向过程控制的煤泥浮选机理建模与仿真研究. 控制工程. 2024(12): 2129-2139+2166 . 百度学术
2. 赵建国,杨春雨. 复杂工业过程非串级双速率组合分散运行优化控制. 自动化学报. 2023(01): 172-184 . 本站查看
3. 姜艺,范家璐,柴天佑. 数据驱动的保证收敛速率最优输出调节. 自动化学报. 2022(04): 980-991 . 本站查看
4. 庞文砚,范家璐,姜艺,LEWIS Frank Leroy. 基于强化学习的部分线性离散时间系统的最优输出调节. 自动化学报. 2022(09): 2242-2253 . 本站查看
5. 牛桂强. 絮凝剂制备系统在某金矿尾矿浓缩的应用. 铜业工程. 2022(04): 37-40 . 百度学术
6. 李臻,范家璐,姜艺,柴天佑. 一种基于Off-Policy的无模型输出数据反馈H_∞控制方法. 自动化学报. 2021(09): 2182-2193 . 本站查看
7. 盘城. 基于数据驱动的智能个性化排版系统设计. 自动化与仪器仪表. 2020(12): 66-69+74 . 百度学术
其他类型引用(11)
-