2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

Adaptive Control for High-order Nonlinear Feedforward Systems With Input and State Delays

Huang Yaxin Zhang Xinghui Jiang Mengmeng

LIU Xiao-Ming, TANG Shao-Hu, ZHU Feng-Hua, CHEN Zhao-Meng. Urban Area Oversaturated Traffic Signal Optimization Control Based on MFD. ACTA AUTOMATICA SINICA, 2017, 43(7): 1220-1233. doi: 10.16383/j.aas.2017.c160250
Citation: Huang Yaxin, Zhang Xinghui, Jiang Mengmeng. Adaptive Control for High-order Nonlinear Feedforward Systems With Input and State Delays. ACTA AUTOMATICA SINICA, 2017, 43(7): 1273-1279. doi: 10.16383/j.aas.2017.e140146
刘小明, 唐少虎, 朱凤华, 陈兆盟. 基于MFD的城市区域过饱和交通信号优化控制. 自动化学报, 2017, 43(7): 1220-1233. doi: 10.16383/j.aas.2017.c160250
引用本文: 黄亚欣, 张星慧, 蒋蒙蒙. 带有输入和状态时滞的高阶非线性前馈系统的自适应控制. 自动化学报, 2017, 43(7): 1273-1279. doi: 10.16383/j.aas.2017.e140146

Adaptive Control for High-order Nonlinear Feedforward Systems With Input and State Delays

More Information
    Author Bio:

    Yaxin Huang is a Ph.D.candidate at the School of Control Science and Engineering, Shandong University.Her current research interests include nonlinear control and adaptive control.E-mail:dmhuangyaxin@126.com

    Mengmeng Jiang is a master student at the Institute of Automation, Qufu Normal University.Her current research interests include nonlinear control and adaptive control.E-mail:mm725@163.com

    Corresponding author: Xinghui Zhang is a Ph.D. candidate at the School of Logistics, Linyi University. Her current research interests include nonlinear control and adaptive control. Corresponding author of this paper. E-mail: lyzhangxinghui@163.com

带有输入和状态时滞的高阶非线性前馈系统的自适应控制

doi: 10.16383/j.aas.2017.e140146
  • Recommended by Associate Editor Yungang Liu
    摘要: 本文考虑了一类高阶不确定非线性前馈系统的自适应镇定问题.将高阶非线性进一步放宽到不仅允许状态时滞,而且还具有未知增长率.通过将自适应方法、动态增益控制方法和增加幂次积分器法结合,设计了一个状态反馈控制器.所设计的控制器保证了闭环系统的所有信号有界,平衡点全局稳定,并且原状态收敛到0.
  • 传统发电调控框架在保持多区域互联大电网的系统有功平衡, 维持系统频率稳定等方面发挥了重要作用.随着相关研究的不断深入, 传统发电调控框架逐渐发展成为存在三种不同时间尺度问题的调控框架[1-2]: 1)机组组合(Unit commitment, UC)[3-4]; 2)经济调度(Economic dispatch, ED)[5]; 3)自动发电控制(Automatic generating control, AGC)和发电指令调度(Generation command dispatch, GCD)[6-9].然而, 传统发电调控框架在以下方面可以改善: 1)在传统发电调控框架中, 较长时间尺度下调控有可能导致不准确控制指令的产生.同时, 不同时间尺度调控之间存在的不协调问题有可能导致反向调节现象的产生. 2)在传统发电调控框架中, UC和ED问题解决是以下一时间段负荷预测结果作为条件, 而实时AGC和GCD却是基于AGC机组特性所得指令.从长时间尺度的角度来看, AGC和GCD做出的控制结果并不是一个最优的控制结果. 3)一般情况下, 不同时间尺度下的优化目标均不相同.因此, 无论是对长期还是短期而言, 仅依据这些优化结果做出的调控指令, 都不是最优的.

    研究者为了解决传统框架中存在的部分问题, 提出了大量集成算法或集成框架.文献[10]提出针对微电网实时调度的AGC和ED集成方法.文献[11]研究了考虑含有AGC仿射索引过程的鲁棒经济调度.文献[12]从优化的角度, 将ED和AGC控制器相结合.然而, 这些算法均不能完整地对传统发电调控框架进行改善.

    强化学习(Reinforcement learning, RL), 又称再励学习、评价学习, 既可看作是人工智能领域中一种重要的机器学习方法, 也被认为是属于马尔科夫决策过程(Markov decision process, MDP)和动态优化方法的一个独立分支.互联电网AGC是一个动态多级决策问题, 其控制过程可视为马尔科夫决策过程.文献[13]针对微电网孤岛运行模式下新能源发电强随机性导致的系统频率波动, 提出基于多智能体相关均衡强化学习(Correlated equilibrium Q ($\lambda$), CEQ ($\lambda$))的微电网智能发电控制方法.文献[14]针对非马尔科夫环境下火电占优的互联电网AGC控制策略, 引入随机最优控制中Q($\lambda$)学习的"后向估计"原理, 有效解决火电机组大时滞环节带来的延时回报问题.然而, 这些方法的采用均没有从整体上对传统发电调控框架进行改善.

    为了完整地解决传统发电调控框架中存在的问题, 本文提出一种实时经济调度与控制(Real-time economic generation dispatch and control, REG)框架替代传统的发电控制框架.除此之外, 为适应REG框架, 还提出一种懒惰强化学习(Lazy reinforcement learning, LRL)算法.由于懒惰强化学习算法是一种需要大量数据的算法, 所提算法需要大量数据进行训练.因此, 采用基于人工社会-计算实验-平行执行(Artificial societies-Computational experiments-Parallel execution, ACP)和社会系统的平行系统, 在短时间内产生大量数据以适应所提算法的需要.文献[15]提出基于ACP的平行系统进行社会计算的理论.文献[16]提出一种可用于信息和控制的基于信息-物理系统和ACP的分散自治系统.平行系统或平行时代的理论已经被应用到很多领域, 例如, 平行管理系统[17]、区块链领域[18]、机器学习[19]和核电站安全可靠性的分析[20]等.在一个实际系统中, 社会目标也被考虑在CPS中, 也可称为信息物理社会融合系统(CPSS)[21]; 同时, CPS的概念中应当加入社会系统, 即"智能电网"或"能源互联网"[22].

    因此, 基于REG框架的控制方法是一种适用于互联大电网发电调度和控制的统一时间尺度的调控方法.

    虽然采用基于ACP和社会系统的平行系统可以快速获取海量的数据, 但是这些数据中既存在调控效果较好的数据, 也有调控效果较差的数据.为了解决这一问题, 设计了一种选择算子对有利于LRL训练的数据进行筛选保留.另外, 由于AGC机组存在大量约束限制.设计了一种松弛算子对优化结果进行限制.

    为了对比人工神经网络(Artificial neural network, ANN)和LRL的调控效果, 本文设计了一种基于人工神经网络和松弛算子结合的松弛人工神经网络算法(Relaxed artificial neural network, RANN).本文提出的LRL算法的特性归纳如下:

    1) 作为一种统一时间尺度的控制器, 从长远角度来看, LRL可以避免不同时间尺度需要协同调控问题.

    2) 为LRL设计了一个强化网络, 可为一个区域的所有AGC机组提供多个输出.且采用松弛机满足AGC机组的约束.

    3) 懒惰学习的控制策略可以采用从平行系统不断产生的海量数据进行在线更新.这有利于LRL进行训练.

    图 1所示, 传统发电调控框架包含UC, ED, AGC和GCD四个过程.

    图 1  传统发电调控框架
    Fig. 1  Framework of conventional generation control

    UC负责制定长期(1天)的机组开停和有功出力计划; 然后ED重新制定短期(15分钟)所有已开启的机组的发电指令; 最后AGC和GCD为所有AGC机组再次重新制定实时发电指令.

    1.1.1   机组组合模型

    UC的目标是在给定时间周期内制定出最优的机组开停和生产出力计划.因此, UC问题是一个随机混合0-1整数规划问题, 可以采用优化算法进行求解.

    UC问题的优化目标是使总发电成本最低, UC问题的约束包括:有功平衡约束、热备用约束、有功出力限制约束以及发电机调节比率约束, 其目标函数表达式及约束条件为

    $ \begin{align} &\min \sum\limits_{t = 1}^T {\sum\limits_{j = 1}^{{J_i}} {[{F_j}({P_{j, t}}){u_{j, t}} + S{U_{j, t}}(1 - {u_{j, t - 1}}){u_{j, t}}]} }\notag\\ &\, \mathrm{s.t.} \begin{cases} \sum\limits_{j = 1}^{{J_i}} {{P_{j, t}}{u_{j, t}} = P{D_{i, t}}} \\[1mm] \sum\limits_{j = 1}^{{J_i}} {P_j^{\max }{u_{j, t}} \ge P{D_{i, t}} + S{R_{i, t}}} \\[1mm] {u_{j, t}}P_j^{\min } \le {P_{j, t}} \le {u_{j, t}}P_j^{\max }\\[1mm] 0 \le {P_{j, t}} - {P_{j, (t - 1)}} \le P_j^{{\rm{up}}}\\[1mm] 0 \le {P_{j, t}} - {P_{j, (t - 1)}} \le P_j^{{\rm{down}}} \end{cases} \end{align} $

    (1)

    其中, $T$为给定时间周期内的时间断面的个数, 一般设定为24; $J_i$为第$i$个区域内的发电机组个数; $u_{j, t}$为第$j$个发电机组在第$t$时间断面的状态, $u_{j, t}$取值为1或0, 分别代表机组开启和关停状态; 总发电成本包括燃料成本$F_j(P_{j, t})$和启动成本$SU_{j, t}$; $P{D_{i, t}}$为第$i$个区域内在第$t$时间段内的负荷需求总量; $P_j^{\min }$和$P_j^{\max }$分别为在第$i$区域的第$j$个发电机组的有功出力的最小值和最大值; $S{R_{i, t}}$为第$i$个区域内在第$t$时间段内所需的热备用容量; $P_j^{{\rm{up}}}$和$P_j^{{\rm{down}}}$分别为第$j$台发电机组的上调和下调的最大幅度限制; $T_j^{\min\mbox{-}\rm{up}}$为第$j$个发电机组的持续开启时间的最小值; $T_j^{\min\mbox{-}\rm{dowm}}$为第$j$个发电机组的持续停机时间的最小值.

    燃料成本$F_j(P_{j, t})$, 启动成本$SU_{j, t}$以及约束$u_{j, t}$的计算公式如下:

    $ {F_j}({P_{j, t}}) = {a_j} + {b_j}{P_{j, t}} + {c_j}P_{j, t}^2 $

    (2)

    $ \begin{align} &S{U_{j, t}} =\notag\\ &\ \ \ \begin{cases} S{U_{{\rm{H}}, j}}, & T_j^{{\rm{min\mbox{-}down}}} \le T_{j, t}^{{\rm{up}}} \le T_j^{{\rm{min\mbox{-}down}}} + T_j^{{\rm{cold}}}\\ S{U_{{\rm{C}}, j}}, &T_{j, t}^{{\rm{down}}} > T_j^{{\rm{min\mbox{-}down}}} + T_j^{{\rm{cold}}} \end{cases} \end{align} $

    (3)

    $ \begin{align} \begin{cases} T_{j}^{{\rm{up}}} \geq T_j^{\min\mbox{-}{\rm{up}}}\\ T_{j}^{{\rm{down}}} \geq T_j^{\min\mbox{-}{\rm{down}}} \end{cases} \end{align} $

    (4)

    其中, $P_{j, t}$为第$j$台发电机组在第$t$个时间断面时的有功出力; $a_j$, $b_j$和$c_j$分别是发电成本的常数因子, 一次项因子和二次项因子; $T_{j}^{{\rm{up}}}$和$T_{j}^{{\rm{down}}}$分别为第$j$台发电机组开启和关停的累积时间; $T_j^{{\rm{cold}}}$是第$j$台发电机组从完全关停状态进行冷启动所需的时间; $SU_{H, j}$和$SU_{C, j}$分别为第$j$台发电机组进行热启动和冷启动所需的成本.

    1.1.2   经济调度模型

    ED采用优化算法从经济角度重新制定发电命令.通常ED的优化目标包括两部分:经济目标和碳排放目标.将两种优化目标进行线性权重结合, 得到最终的ED的模型如下:

    $ \begin{align} &\min {F_{{\rm{total}}}} = \sum\limits_{j = 1}^{{J_i}} {(\omega F_j^{\rm{e}}({P_j}) + (1 - \omega )F_j^{\rm{c}}({P_j}))}\notag \\ &\, \mathrm{s.t.}\begin{cases} P{D_i} - \sum\limits_{j = 1}^{{J_i}} {{P_j} = 0} \\ P_j^{\min } \le {P_j} \le P_j^{\max }\\ {P_{j, t}} - {P_{j, t - 1}} \le P_j^{{\rm{up}}}\\ {P_{j, t - 1}} - {P_{j, t}} \le P_j^{{\rm{down}}} \end{cases} \end{align} $

    (5)

    其中, $PD_i$为第$i$个区域的系统总负荷量, $\omega$为经济目标权重.

    经济目标和碳排放目标具体表达如下:

    $ \begin{align} F_{{\rm{total}}}^{\rm{e}} = \sum\limits_{j = 1}^{{J_i}} {F_j^{\rm{e}}} ({P_j}) = \sum\limits_{j = 1}^{{J_i}} {({c_j}P_j^2 + {b_j}{P_j} + {a_j})} \end{align} $

    (6)

    $ \begin{align} F_{{\rm{total}}}^{\rm{c}} = \sum\limits_{j = 1}^{{J_i}} {F_j^{\rm{c}}} ({P_j}) = \sum\limits_{j = 1}^{{J_i}} {({\alpha _j}P_j^2 + {\beta _j}{P_j} + {\gamma _j})} \end{align} $

    (7)

    式中, $F_j^{\rm{e}}({P_j})$为第$j$台发电机组的发电成本; ${P_j}$为第$j$台发电机组的有功出力; $F_j^{\rm{c}}({P_j})$为第$j$台发电机组的碳排放量; $\gamma _j$, $\beta _j$和$\alpha _j$分别表示第$j$台发电机组关于碳排放的常数因子、一次项因子和二次项因子.

    1.1.3   自动发电控制模型

    图 2是传统实时控制系统中包含两个区域的电力系统AGC模型. AGC控制器的输入为第$i$个区域的频率误差和区域控制误差(Area control error, ACE) $e_i$, 输出为第$i$个区域的发电命令. AGC模型的控制周期为秒级, 一般设定为4秒或8秒.

    图 2  两区电力系统的AGC模型
    Fig. 2  AGC model of two-area power system
    1.1.4   发电命令调度模型

    GCD的输入为ACG产生的发电指令, 输出为第$i$个区域内所有AGC机组的发电命令$\Delta {P_{i, j}}$.进而, ACG单元的实际发电指令$P_{i, j}^{{\rm{actual}}}$取ED和GCD的发电指令之和, 即$P_{i, j}^{{\rm{actual}}} = {P_{i, j}} + \Delta {P_{i, j}}$.在实际工程中, GCD的目标采用如式(5)所示的经济目标.

    频率控制包含三种调节方式:一次调频、二次调频以及三次调频.一次调频通过调节发电机组在短时间内的有功出力, 进而调节系统频率.但是, 一次调频是一种有差调节方式.为了更好地平衡发电机和负荷之间的有功功率, 电力系统引入了二次调频和三次调频方式.二次调频和三次调频包含了多种算法的集成, 即集成了UC, ED, AGC和GCD.其中, AGC采用的是控制算法, 而UC, ED和GCD均为优化算法.因此, 传统发电调控算法是一种"优化算法+优化算法+控制算法+优化算法"的组合形式.

    大量的优化算法被运用到UC, ED和GCD之中.常用的优化算法有: GA[23]、PSO[24]、模拟退火算法[25]、多元优化算法[26]、灰狼优化算法[27]、多目标极值优化算法[28]、混沌多目标机制优化算法[29]等.同时, 多种控制算法被运用于AGC控制器中.诸如传统的PID算法、模糊逻辑控制算法[30]、模糊PID[31]、滑动模式控制器[32]、自抗扰控制器[33]分数阶PID[34]、Q学习[35]、Q ($\lambda$)学习[14]和R ($\lambda$)学习[36]以及分布式模型预测控制算法[37]等. 表 1展示了频率调节方式和传统发电调控框架之间的关系.

    表 1  频率调节方式与传统发电调控框架之间的关系
    Table 1  Relationship between regulation processes and conventional generation control framework
    传统发电控制调节方式算法类型时间间隔(s)输入输出
    UC三次调频优化算法86 400$ PD_{i, t} $$u_{i, t, j}, P_{j, t}$
    ED二次调频优化算法900 $PD_i$$P_{i, j}$
    AGC二次调频控制算法4$e_{i}, \Delta f_i$$ \Delta P_i$
    GCD二次调频优化算法4 $\Delta P_i$$\Delta P_{i, j}$
    下载: 导出CSV 
    | 显示表格

    在第$i$区域中, UC依据下一天的负荷预测值$PD_{i, t}$制定发电机的启动状态$u_{i, t, j}$以及出力水平$P_{j, t}$.其中时间周期为一天中的每小时, 即$t =\{ 1, 2$, $\cdots$, $24\}$; ED采用15分钟后的超短期负荷预测值$PD_i$制定有功出力值$P_{i, j}$; AGC控制器计算第$i$个区域的总发电需求量$\Delta P_i$; GCD将总的发电量$\Delta P_i$分配到每个AGC机组$\Delta P_{i, j}$.

    为了快速获取准确的发电调度与控制动作, 本文建立了大量的平行发电控制系统.如图 3所示, 在平行发电系统中, 多重虚拟发电控制系统被用来对真实发电控制系统不断地进行仿真.当虚拟控制发电系统的控制效果优于实际发电控制系统时, 它们之间会交换它们发电控制器的重要数据.即虚拟发电控制系统将重要的控制器参数传递到真实发电控制系统, 而真实发电系统则将更新后的系统模型参数反馈回虚拟发电控制系统.

    图 3  平行发电控制系统
    Fig. 3  Parallel generation control systems

    由于通过平行系统可以获取海量的数据, 如果采用传统学习方法对控制算法学习进行训练将花费大量的时间.因此, 需要采用一种更有效的学习算法对海量数据进行学习.本文针对平行发电控制系统的特点, 提出一种懒惰强化学习算法(LRL).如图 4所示, LRL由懒惰学习、选择算子、强化网络以及松弛算子四部分构成.提出的LRL算法可以设计成为基于REG框架的控制器, 可以替代传统的组合算法(UC, ED, AGC和GCD).因此, 基于REG框架的控制器的输入为频率误差$\Delta {f_i}$和ACE $e_i$, 输出为所有AGC机组的发电命令$\Delta {P_{i, j}}$.

    图 4  基于REG的LRL控制器的流程图
    Fig. 4  Procedures of LRL based REG controller

    LRL的懒惰学习将对下一个系统状态进行预测.因此, 懒惰学习的输入为频率误差$\Delta {f_i}$和ACE $e_i$.此外, 懒惰学习可以依据电力系统当前采取的动作集${\bf \it {A}}$预测电力系统的下一状态$\Delta {F'_{i, (t + 1)}}$.其中, 初始动作集合${\bf \it{A}}$描述如下:

    $ \begin{align} {\bf \it{A}} = \left[ {\begin{array}{*{20}{c}} {{a_{1, 1}}}&{{a_{1, 2}}}& \cdots &{{a_{1, k}}}\\ {{a_{2, 1}}}&{{a_{2, 2}}}& \cdots &{{a_{2, k}}}\\ \vdots & \vdots & \ddots & \vdots \\ {{a_{{J_i}, 1}}}&{{a_{{J_i}, 2}}}& \cdots &{{a_{{J_i}, k}}} \end{array}} \right] \end{align} $

    (8)

    其中, ${\bf \it{A}} $具有$k$列, 每一列都是一个AGC机组的发电命令动作向量.对下一状态的预测同样具有$k$列, 且每一列与每一个动作向量的预测相对应.因此, $\Delta {F'_{i, (t + 1)}}$是一个依据所有$k$列动作向量预测而组成的$k$列预测矩阵.

    采用懒惰学习方法估计未知函数的值与映射$g:$ ${{\bf R}^m}$ $ \to {\bf R} $类似.懒惰学习方法的输入和输出可以从矩阵$\Phi $获取, 描述如下:

    $ \begin{align} {\rm{\{ (}}{\varphi _1}{\rm{, }}{y_1}{\rm{), (}}{\varphi _2}{\rm{, }}{y_2}{\rm{), }} \cdots {\rm{, (}}{\varphi _{{N_{{\rm{lazy}}}}}}, {y_{{N_{{\rm{lazy}}}}}}{\rm{)\} }} \end{align} $

    (9)

    其中, $\varphi _i$为$N_{\rm{lazy}}\times k$的输入矩阵, $i=1, 2, \cdots$, $N_{\rm{lazy}}$; $y_i$为$N_{\rm{lazy}} \times 1$的输出向量.第$q$个查询点的预测值可以由下式计算.

    $ \begin{align} \widehat {y}_q = \varphi _q^{\rm{T}}{({{\bf \it{Z}}^{\rm{T}}}{\bf \it{Z}})^{ - 1}}{{\bf \it{Z}}^{\rm{T}}}{\bf \it{v}} \end{align} $

    (10)

    其中, ${{Z}}={ {W\Phi}}$; ${\bf \it{v}}={\bf \it{Wy}}$. ${\bf \it{W}}$是一个对角矩阵, ${\bf \it{W}}_{ii}$ $=\omega_i$, 其中, $\omega_i$为从查询点$\varphi _q$到点$\varphi _i$的距离$d(\varphi _i, \varphi _q)$的权重函数.从而, $({\bf \it{Z}}^{\rm{T}}\bf \it{Z}) \beta={\bf \it{Z}}^{\rm{T}} {\bf \it{v}}$可以作为一个局部加权回归模型.在其训练过程的误差校验方法可为留一法交叉校验(Leave-one-out cross-validation, LOOCV), 计算方式为

    $ \begin{align} &{\rm{MS}}{{\rm{E}}^{{\rm{CV}}}}({\varphi _q}) =\nonumber\\[1mm] &\qquad \displaystyle\frac{1} {{\sum\limits_i {w_i^2} }}\sum\limits_i {{{\left( {\frac{{{v_i} - z_i^{\rm{T}}{{({{\bf \it{Z}}^{\rm{T}}}{\bf \it{Z}})}^{ - 1}} {{\bf \it{Z}}^{\rm{T}}}{\bf \it{v}}}}{{1 - z_i^{\rm{T}}{{({{\bf \it{Z}}^{\rm{T}}}{\bf \it{Z}})}^{ - 1}}{z_i}}}} \right)}^2}} = \nonumber\\[1mm] &\qquad \displaystyle\frac{1}{{\sum\limits_i {w_i^2} }}\sum\limits_i {{{\left( {{w_i}\frac{{{y_i} - \varphi _i^{\rm{T}}{{({{\bf \it{Z}}^{\rm{T}}}{\bf \it{Z}})}^{ - 1}}{{\bf \it{Z}}^{\rm{T}}} {\bf \it{v}}}}{{1 - z_i^{\rm{T}}{{({{\bf \it{Z}}^{\rm{T}}}{\bf \it{Z}})}^{ - 1}}{z_i}}}} \right)}^2}} = \nonumber\\[1mm] &\qquad \displaystyle\frac{1}{{\sum\limits_i {w_i^2} }}\sum\limits_i {{{\left( {{w_i}{e^{{\rm{CV}}}}(i)} \right)}^2}} \end{align} $

    (11)

    其中, ${e^{{\rm{CV}}}}(i)$为第$i$个留一误差, 计算方式为

    $ \begin{align} e_{n + 1}^{{\rm{CV}}}(i) = \dfrac{{{y_i} - \varphi _i^{\rm{T}}{\beta _{n + 1}}}}{{1 + \varphi _i^{\rm{T}}{{\bf \it{P}}_{n + 1}}{\varphi _i}}} \end{align} $

    (12)

    其中, ${{\bf \it{P}}_n}$为矩阵${({{\bf \it{Z}}^{\rm{T}}}{\bf \it{Z}})^{ - 1}}$的回归逼近; ${\beta _n}$为$n$邻近的最优最小二乘序列参数; 且在$e_n^{{\rm{CV}}}(i)$中满足$1$ $\le$ $i\le n$; ${\beta _{n + 1}}$的计算方法如下:

    $ \begin{align} &{\beta _{n + 1}} = {\beta _n} + {\gamma _{n + 1}}{e_{n + 1}}\nonumber\\ & {e_{n + 1}} = {y_{n + 1}} - \varphi _{n + 1}^{\rm{T}}{\beta _n}\nonumber\\ & {\gamma _{n + 1}} = {{\bf \it{P}}_{n + 1}}{\varphi _{n + 1}}\nonumber\\ & {{\bf \it{P}}_{n + 1}} = {{\bf \it{P}}_n} - \frac{{{{\bf \it{P}}_n}{\varphi _{n + 1}}\varphi _{n + 1}^{\rm{T}}{{\bf \it{P}}_n}}}{{1 + \varphi _{n + 1}^{\rm{T}}{{\bf \it{P}}_n}{\varphi _{n + 1}}}} \end{align} $

    (13)

    因此, 针对REG问题, 所提LRL算法中懒惰学习离线学习和在线学习的输入和输出可见表 2.

    表 2  懒惰强化学习输入输出量
    Table 2  Inputs and outputs of lazy reinforcement learning
    输入输出懒惰学习强化网络懒惰强化学习
    输入量$\Delta {f_i}, {e_i}, {\bf \it {A}}$$\Delta {F'_{i, (t + 1)}}$$\Delta {f_i}, {e_i}$
    输出量${\Delta {f'_{i, (t + 1)}}}$$\Delta {P_{i, j}}, $
    $i = 1, 2, \cdots, {J_i}$
    $\Delta {P_{i, j}}, $
    $i = 1, 2, \cdots, {J_i}$
    下载: 导出CSV 
    | 显示表格

    LRL中的选择过程可以从下一状态$(\Delta {F'_{i, (t + 1)}})$中选择最优的状态(最小的$| {\Delta {{f'}_{i, (t + 1)}}} |$).

    LRL中的强化网络可以计算出总的发电命令$\Delta {P_i}$, 并分配$\Delta {P_{i, j}}$到第$i$个区域里的所有AGC机组上, 其中, $\Delta {P_i}=\sum_{j = 1}^{{J_i}} {\Delta {P_{i, j}}} $.强化网络由强化学习和一个反向传播神经网络(Back propagation neural network, BPNN)组成. Q学习是一种无需模型的控制算法.基于Q学习的控制器可以在线根据环境变化更新其控制策略.此类控制器的输入为状态值和奖励值, 输出为作用于环境的动作量.它们可以依据Q-矩阵$\bf \it{Q}$和概率分布矩阵$\bf \it{P}$, 针对当前的环境状态$s$, 制定应当进行的动作$a$.矩阵$\bf \it{Q}$和$\bf \it{P}$可以由奖励函数随后进行更新.

    $ \begin{align} &Q(s, a) \leftarrow Q(s, a) + \alpha (R(s, s', a) \, + \nonumber\\ &\qquad\qquad\ \ \gamma \mathop {\max }\limits_{a \in A} Q(s', a) - Q(s, a)) \end{align} $

    (14)

    $ \begin{align} &P(s, a) \leftarrow \begin{cases} P(s, a) - \beta (1 - P(s, a)), &s' = s\\ P(s, a)(1 - \beta ), &{\mbox{其他}} \end{cases} \end{align} $

    (15)

    其中, $\alpha$为学习率; $\gamma$为折扣系数; $\beta$为概率系数; $s$, $s'$分别为当前状态和下一状态; $R(s, s', a)$为奖励函数, 与当前状态$s$和由动作$a$导致的状态有关.当前状态$s$和下一状态$s'$同属于状态集合$\bf \it{S}$, 即$s \in {\bf \it{S}}$, $s'$ $\in$ ${\bf \it{S}}$.被选择的动作$a$输出动作集合$\bf \it{A}$, 即$a \in {\bf \it{A}}$.本文采用结构简单的三层感知器BPNN, 分配到多个机组的输出$y_i^{{\rm{bpnn}}}$的计算公式为

    $ \begin{align} y_i^{{\rm{bpnn}}} = f\left(x_i^{{\rm{bpnn}}}\right) = f\left(\sum\limits_{j = 1}^{{n^{{\rm{bpnn}}}}} {\omega _{ji}^{{\rm{bpnn}}}x_i^{{\rm{bpnn}}} + b_i^{{\rm{bpnn}}}} \right) \end{align} $

    (16)

    其中, $\omega _{ji}^{{\rm{bpnn}}}$为权重值; $b_i^{{\rm{bpnn}}}$为补偿值; ${n^{{\rm{bpnn}}}}$为BP神经网络中的隐藏元的个数; $f(z)$为sigmoid函数.本文采用的sigmoid函数为

    $ \begin{align} f(z)=\tanh (z) = \frac{{{\rm e}^z - {\rm e}^{ - z}}}{{{\rm e}^z + {\rm e}^{ - z}}} \end{align} $

    (17)

    BPNN训练算法为莱文贝格-马夸特方法(Levenberg-Marquardt algorithm).

    LRL的松弛算子类似一个操作员对强化网络的输出进行约束控制.因此, 松弛算子的约束可以表达为

    $ \begin{align} \Delta {P_{i, j}} \leftarrow \frac{{[\Delta {P_{i, j}}{{u'}_{j, t}}]}}{{\sum\limits_{j = 1}^{{J_i}} {([\Delta {P_{i, j}}{{u'}_{j, t}}])} }}\sum\limits_{j = 1}^{{J_i}} {(\Delta {P_{i, j}})} \end{align} $

    (18)

    其中, $\left[{\Delta {P_{i, j}}{{u'}_{j, t}}} \right]$为约束函数, 表达式为

    $ \begin{align} &\max \left\{ {{P_{j, (t - 1)}} - P_j^{{\rm{down}}}, {{u'}_{j, t}}P_j^{\min }} \right\} \le\notag \\ &\qquad\ \ \Delta {P_{i, j}}{{u'}_{j, t}} \le \min \left\{ {{P_{j, (t - 1)}} + P_j^{{\rm{up}}}, {{u'}_{j, t}}P_j^{\max }} \right\} \end{align} $

    (19)

    其中, ${u'_{j, t}}$为临时启动状态, 表达式为

    $ \begin{align} {u'_{j, t}}=\!\begin{cases} 1, &\!\left[ {\Delta {P_{i, j}}} \right] > 0~\mbox{或}~ 1 < T_{j, (t - 1)}^{{\rm{up}}} < T_{j, (t - 1)}^{{\rm{min\mbox{-}up}}}\\ 0, &\!\left[ {\Delta {P_{i, j}}} \right] = 0~\mbox{或}~1 \le T_{j, (t - 1)}^{{\rm{down}}} < T_j^{{\rm{min\mbox{-}down}}} \end{cases} \end{align} $

    (20)

    传统学习算法会对所有通过平行系统获取的数据进行学习.然而, 采用这些数据进行学习不一定能够取得比当前真实系统更优的控制效果.因此, 本文提出的LRL方法, 会筛选出那些更优的数据进行学习.即, 当在$t$时刻的状态$s_t$优于时刻的状态${s'_{(t + t), 1}}$, 而劣于$t + \Delta t$时刻的状态${s'_{(t + t), 2}}$, 那么算法将排除从$s_t$到${s'_{(t + t), 1}}$的变化过程数据, 而将保留从$s_t$到${s'_{(t + t), 2}}$的变化过程数据进行离线训练.

    针对REG问题, 离线训练的输入与输出如表 2所示.但在对比状态${s'_{(t + t), 1}}$和${s'_{(t + t), 2}}$时, 可将状态设定为预测的区域i频率偏差, 即$\Delta {f'_{i, (t + 1)}}$, 也即从$\Delta {F'_{i, (t + 1)}}$选择最优值对应的输入和输出数据进行训练. 图 5是在平行系统下基于REG框架的懒惰强化学习的控制器运行步骤.

    图 5  平行系统下基于REG控制器的LRL算法的流程图
    Fig. 5  Procedures of LRL based REG controller under parallel systems

    本文仿真均是在主频为2.20 GHz, 内存96 GB的AMAX XR-28201GK型服务器上基于MATLAB 9.1 (R2016b)平台实现的. 表 3是仿真中采用的所有算法, 其中各算法的含义见表 4.

    表 3  仿真所用的算法
    Table 3  Algorithms for this simulation
    序号UCEDAGCGCD
    1模拟退火算法(SAA)SAAPID控制SAA
    2多元优化(MVO)MVO滑模控制器MVO
    3遗传算法(GA)GA自抗扰控制GA
    4灰狼算法(GWO)GWO分数阶PID控制GWO
    5粒子群优化(PSO)PSO模糊逻辑控制器PSO
    6生物地理优化(BBO)BBOQ学习BBO
    7飞蛾扑火算法(MFO)MFOQ($\lambda$)学习MFO
    8鲸鱼群算法(WOA)WOAR($\lambda$)学习WOA
    9固定比例
    10松弛人工神经网络(RANN)
    11懒惰强化学习(LRL)
    下载: 导出CSV 
    | 显示表格
    表 4  各对比算法的缩写
    Table 4  Abbreviation of compared algorithms
    缩写全称意义
    UCUnit commitment机组组合
    EDEconomical dispatch经济调度
    AGCAutomatic generation control自动发电控制
    GCDGeneration command dispatch发电指令调度
    RLReinforcement learning强化学习
    REGReal-time economic generation dispatch and control实时经济调度与控制
    ACPArtificial societies- computational experiments-parallel execution人工社会-计算实验-平行执行
    CPSCyber-physical system信息物理系统
    CPSSCyber-physical-social systems信息物理社会融合系统
    LRLLazy reinforcement learning懒惰强化学习
    RANNRelaxed artificial neural network松弛人工神经网络
    SAASimulated annealing algorithm模拟退火算法
    MVOMulti-verse optimizer多元优化
    GAGenetic algorithm遗传算法
    GWOGray wolf optimizer灰狼算法
    PSOParticle swarm optimization粒子群优化
    BBOBiogeography-based optimization生物地理优化
    MFOMoth-flame optimization飞蛾扑火算法
    WOAWhale optimization algorithm鲸鱼群算法
    LOOCVLeave-one-out cross-validation留一法交叉校验
    BPNNBack propagation neural network反向传播神经网络
    下载: 导出CSV 
    | 显示表格

    组合算法和REG控制器的仿真时间设定为1天或86 400秒.总共采用了有4 608种传统发电调控算法($8\times 8 \times 8 \times 9=4 608$种组合)和两种基于REG框架的算法进行仿真实验.总的设置仿真模拟时间为12.6301年或为($8\times 8 \times 8 \times 9+2$)天.所有的传统发电调控算法的参数设置详见附录A.

    图 6是IEEE新英格兰10机39节点标准电力系统结构.从图 6可以看出, 仿真实验将该电力系统划分成3个区域.该系统中设置10台发电机, 发电机{30, 37, 39}划分至区域1, 发电机{31, 32, 33, 34, 35}划分至区域2, 剩下的发电机{36, 38}划分至区域3.除此之外, 光伏, 风电以及电动汽车也被纳入仿真模型之中(详细参数见图 7).其中, 电动汽车负荷需求曲线为5种不同车辆用户行为叠加而成的.各个机组参数如表 5表 6所示.

    图 6  新英格兰电力系统结构图
    Fig. 6  Structure of New-England power system
    图 7  光伏、电动汽车、风电、负荷曲线
    Fig. 7  Curves of photo-voltaic power (PV), electric vehicle (EV), wind power and load
    表 5  机组参数表
    Table 5  Parameters of the generators
    机组编号30373931323334353638
    机组最小连续开机时间$T_j^{\mathrm{min-up}}$ (h)8855633111
    机组最小连续关机时间$T_j^{\mathrm{min-down}}$ (h)8855633111
    机组最大出力$P_j^{\min}$ (MW)4554551301301628085555555
    机组最小出力$P_j^{\max}$ (MW)1501502020252025101010
    热启动成本$SU_{\mathrm{H}, j}$ (t/(MW $\cdot$ h))4 5005 000550560900170260303030
    冷启动成本$SU_{\mathrm{C}, j}$ (t/(MW $\cdot$ h))9 00010 0001 1001 1201 800340520606060
    冷启动时间$T_j^{\mathrm{cold}}$ (h)5544422000
    ED成本系数$a_j$0.6750.450.5630.5630.450.5630.5630.3370.3150.287
    ED成本系数$b_j$360240299299240299299181168145
    ED成本系数$c_j$11 2507 5109 3909 3907 5109 3909 3905 5305 2505 270
    ED排放系数$\alpha _j$3.3751.1251.6891.5761.171.5761.5760.6740.630.574
    ED排放系数$\beta _j$1 800600897837624837837362404290
    ED排放系数$\gamma _j$56 25018 77028 17026 29019 53026 29026 29011 06013 80010 540
    下载: 导出CSV 
    | 显示表格
    表 6  机组组合问题参数表
    Table 6  Parameters for unit commitment problem
    UC问题的负荷时段(h)123456789101112
    UC问题的负荷值$PD_t$ (WM)7007508509501 0001 1001 1501 2001 3001 4001 4501 500
    UC问题的旋转备用$SR_t$ (WM)70758595100110115120130140145150
    UC问题的负荷时段(h)131415161718192021222324
    UC问题的负荷值$PD_t$ (WM)1 4001 3001 2001 0501 0001 1001 2001 4001 3001 100900800
    UC问题的旋转备用$SR_t$ (WM)1401301201051001101201401301109080
    下载: 导出CSV 
    | 显示表格

    仿真实验设置发电控制的控制周期为4 s. REG控制器每4 s计算一次.对于传统组合算法, UC每天进行一次, ED每15分钟优化一次, AGC和GCD每次控制周期中计算一次.松弛人工神经网络RANN算法由人工神经网络和所提LRL算法中的松弛算子组成. LRL整体的输入和输出分别作为RANN算法的输入和输出. RANN算法的松弛算子见式(18)~(20). BPNN选择的三层感知网络的隐含层神经元的个数设定为40个.每个松弛人工神经网络设置有40个隐藏元.在所提LRL算法中, 强化学习和懒惰学习的动作集$k$的列数设为121, 该列数一般可选范围较大; 动作值选为从$-300$~$300$ MW; 其中强化学习的学习率的范围为$\alpha \in (0, 1]$, 本文选为0.1;概率选择系数$\beta \in (0, 1]$, 本文设定为0.5;折扣系数$\lambda \in (0, 1]$, 本文设定为0.9.其中学习率选择的越大学习速度越快, 但会导致精度随之下降.

    强化学习系列算法Q学习、Q($\lambda $)学习和R($\lambda $)学习算法的离线学习是时间分别为2.27 h, 2.49 h和2.95 h; 松弛人工神经网络算法的训练时间为15.50 h; 所提LRL算法的离线训练时间为6.60 h.虽然所提LRL算法较传统强化学习算法在离线训练效率方面不具有优势, 但是其具有最佳的控制效果.同时, 与统一时间尺度的松弛人工神经网络算法相比, LRL算法的离线训练时间较小且其控制效果更优.

    仿真结果展示在图 8~12表 7~10中.

    表 7  UC算法仿真结果统计
    Table 7  Statistic of simulation results obtained by the UC
    算法ACE1 (MW) $\Delta f_1$ (Hz)ACE2 (MW)$\Delta f_2$ (Hz)ACE3 (MW)$\Delta f_3$ (Hz)
    SAA573.89040.038235258.77980.037525 527.97461.3137
    MVO575.36720.038274259.92650.0375585 532.62021.3154
    GA603.43910.041805258.64840.0410416 052.28061.4428
    GWO616.0640.043454257.61070.0426536 290.08431.5017
    PSO575.71720.038264260.35430.0375555 535.16441.3159
    BBO574.27690.038213259.3490.0374995 522.56911.3131
    MFO569.71590.037685259.14990.0369845 441.34871.2932
    WOA645.59060.047207255.82460.046396 844.85091.6369
    RANN553.40320.039963224.17480.0390835 431.28441.2907
    LRL441.92250.010254389.99050.00956121 023.19190.23743
    下载: 导出CSV 
    | 显示表格
    表 8  ED算法仿真结果统计
    Table 8  Statistic of simulation results obtained by the ED algorithms
    算法ACE1 (MW) $\Delta f_1$ (Hz)ACE2 (MW)$\Delta f_2$ (Hz)ACE3 (MW)$\Delta f_3$ (Hz)
    SAA587.84140.039976258.27670.0392345 777.57551.3756
    MVO588.1770.039978258.51250.0392455 782.35671.3768
    GA589.40910.040193257.63350.0394795 818.98091.3856
    GWO587.65470.039959258.09230.0392285 780.46641.3763
    PSO587.8580.039915258.81110.0391825 771.29241.3741
    BBO588.01980.039924258.92110.0391925 770.46081.3739
    MFO588.18360.039988258.49480.039255 778.8441.3759
    WOA588.69740.040103257.71130.0393875 805.40461.3823
    RANN553.40320.039963224.17480.0390835 431.28441.2907
    LRL441.92250.010254389.99050.00956121 023.19190.23743
    下载: 导出CSV 
    | 显示表格
    表 9  AGC算法仿真结果统计
    Table 9  Statistic of simulation results obtained by the AGC algorithms
    算法ACE1 (MW) $\Delta f_1$ (Hz)ACE2 (MW)$\Delta f_2$ (Hz)ACE3 (MW)$\Delta f_3$ (Hz)
    PID控制591.30810.040435257.5180.0397175 854.01021.3939
    滑动模式控制器590.73350.040374257.44950.0396565 844.72911.3916
    自抗扰控制591.37710.040424257.67730.0397075 853.04881.3937
    分数阶PID控制591.10070.040437257.30690.0397155 852.74781.3936
    模糊逻辑控制591.9510.040504257.60240.0397815 863.47851.3963
    Q学习591.36030.040452257.45720.0397275 855.13391.3942
    Q($\lambda$)学习591.07720.040419257.44210.0396965 849.97051.393
    R($\lambda$)学习591.72820.040494257.4690.039775 862.78321.3961
    RANN553.40320.039963224.17480.0390835 431.28441.2907
    LRL441.92250.010254389.99050.00956121 023.19190.23743
    下载: 导出CSV 
    | 显示表格
    表 10  GCD算法仿真结果统计
    Table 10  Statistic of simulation results obtained by the GCD algorithms
    算法ACE1 (MW) $\Delta f_1$ (Hz)ACE2 (MW)$\Delta f_2$ (Hz)ACE3 (MW)$\Delta f_3$ (Hz)
    SAA591.30810.040435257.5180.0397175 854.01021.3939
    MVO590.73350.040374257.44950.0396565 844.72911.3916
    GA591.37710.040424257.67730.0397075 853.04881.3937
    GWO591.10070.040437257.30690.0397155 852.74781.3936
    PSO591.9510.040504257.60240.0397815 863.47851.3963
    BBO591.36030.040452257.45720.0397275 855.13391.3942
    MFO591.07720.040419257.44210.0396965 849.97051.393
    WOA591.72820.040494257.4690.039775 862.78321.3961
    固定比例509.03910.028801282.03320.0276093 973.7430.94347
    RANN553.40320.039963224.17480.0390835 431.28441.2907
    LRL441.92250.010254389.99050.00956121 023.19190.23743
    下载: 导出CSV 
    | 显示表格
    图 8  仿真统计结果
    Fig. 8  Statistical result
    图 9  仿真统计结果(频率偏差)
    Fig. 9  Statistical result of frequency deviation
    图 10  仿真统计结果(区域控制误差)
    Fig. 10  Statistical result of area control error
    图 11  平行系统频率偏差收敛曲线
    Fig. 11  Convergence curve of frequency deviation obtained by the parallel systems
    图 12  平行系统区域控制误差收敛曲线
    Fig. 12  Convergence curve of area control error obtained by the parallel systems

    图 8是频率偏差、区域控制误差和仿真计算所用时间的统计结果, 其中所提LRL算法能得到最优的调控效果.

    图 9是各个算法频率偏差的统计对比效果, 其中所提LRL算法能在所有区域均获得最小的频率偏差. 图 10是各个算法获得的区域控制误差的统计结果, 可以看出, 所提LRL算法不会导致大量牺牲某个区域的功率来满足其他区域的功率平衡.

    图 11图 12是利用平行系统仿真数据对所提LRL算法训练的收敛曲线图.可以看出, 经过667次的迭代, 能获得最优的收敛结果.

    图 9以及表 7~10可以看出, 与传统组合发电控制算法和松弛人工神经网络相比, 本文提出的LRL方法可以保持系统内的有功平衡, 并且能使电网频率偏差达到最低.因此, LRL能够在多区域大规模互联电网中取得最优的控制效果.

    图 8图 10可以看出, 在仿真中, 由于LRL可以在最短时间内取得最低的频率偏差和最低的控制错误率, LRL的懒惰学习可以有效地对电力系统的下一状态进行预测.因此, LRL可以提供准确的AGC机组动作指令.

    在应对多区域大规模互联电网的经济调度和发电控制问题时, REG控制器完全可以取代传统的组合算法方法.

    图 11图 12可以看出, 由于仿真采用了平行系统, 降低了使用的真实仿真时间, 由于平行系统进行了迭代, 加速了仿真的过程.

    为了解决多区域大规模互联电网经济调度和发电控制中存在的协同问题, 本文提出了一种REG框架.该框架可作为一种传统发电调控框架的替代.然后, 为REG控制器提出了一种基于人工社会-计算实验-平行执行方法的懒惰学习算法.基于REG控制器的LRL算法的特征可以总结如下:

    1) 本文提出了一种统一时间尺度的REG控制框架, 并提出一种基于REG控制器的LRL算法.可以有效地对电力系统的下一运行状态进行预测并且输出满足UC问题的约束动作指令, 取得最优的控制效果.

    2) LRL中的强化学习网络具有同时产生多个输出的能力.因此, 基于REG控制器LRL的可以不断地为存在于多区域大规模互联电网的所有AGC机组输出发电命令.

    3) 通过搭建平行系统, 使得基于LRL的REG控制器可以用于解决多区域大规模互联电网经济调度和发电控制问题.

    各算法重要参数设置如下:

    1) PID控制:比例系数$k_{\mathrm{P}}=-0.006031543250198, $积分系数$k_{\mathrm{I}}=0.00043250;$

    2) 滑模控制器:开通/关断点$k_{\mathrm{point}}=\pm 0.1$ Hz, 开通/关断输出$k_{\mathrm{v}}=\pm80$ MW;

    3) 自抗扰控制:扩张状态观测器

    $ \begin{align*} &A = \left[ {\begin{array}{*{20}{c}} 0&{0.0001}&0&0\\ 0&0&{0.0001}&0\\ 0&0&0&{0.0001}\\ 0&0&0&0 \end{array}} \right]\\ &B = \left[ {\begin{array}{*{20}{c}} 0&0\\ 0&0\\ {0.0001}&{0.0001}\\ 0&0 \end{array}} \right]\\ &C = {\rm diag}\left\{ {\begin{array}{*{20}{c}} {0.1}&{0.1}&{0.1}&{0.1} \end{array}} \right\}\\ &D = {0_{4 \times 2}}\\ &k_1=15.0, \ k_2=5.5, \ k_3=2.0, \ k_4=1 \end{align*} $

    4) 分数阶PID控制:比例系数$k_{\mathrm{P}}=-1, $积分系数$k_{\mathrm{I}}$ $=$ $0.43250, $ $\lambda=1.3, $ $\mu=200;$

    5) 模糊逻辑控制器: $X$ (输入, $\Delta f$)在[$-$0.2, 0.2] Hz等间隔选取21个区间, $Y$ (输入, $\int \Delta f{\rm d}t$)在[$-$1, 1] Hz等间隔选取21个区间, $Z$ (输出, $\Delta P$)在[$-$150, 150] MW等间隔选取441个区间;

    6) Q学习:动作集$A=\{-300, -240, -180, -120$, $-60, 0, 60, 120, 180, 240, 300\}$, 学习率$\alpha=0.1, $概率分布常数$\beta=0.5, $未来奖励折扣系数$\gamma=0.9, $ $\lambda=0.9$;

    7) Q($\lambda$)学习: $A=\{-300, -240, -180, -120, -60, 0$, $60, 120, 180, 240, 300\}$, $\alpha=0.1$, $\beta=0.5$, $\gamma=0.9$, $\lambda=0.9$;

    8) R($\lambda$)学习: $A=\{-300, -240, -180, -120, -60, 0$, $60, 120, 180, 240, 300\}$, $\alpha=0.1$, $\beta=0.5$, $\gamma=0.9$, $\lambda=0.9$, $R_0$ $=0;$

    9) 对于所有用于UC的优化算法:进化代数$N_{\mathrm{g}}=50$, 种群数目$P_{\mathrm{s}}=10$;

    10) 对于所有用于ED的优化算法:进化代数$N_{\mathrm{g}}=30$, 种群数目$P_{\mathrm{s}}=10$;

    11) 对于所有用于GCD的优化算法:进化代数$N_{\mathrm{g}}=5$, 种群数目$P_{\mathrm{s}}=10$;

    12) 固定比例GCD控制: ${k_j} = {{\Delta P_j^{\max }}}/ {{\sum {\Delta P_j^{\max }} }}\Delta {P_j}$, $j$ $= 1, 2, \cdots, {J_i}$, $i = 1, 2, \cdots, 3$.


  • Fig.  1  The responses of the closed-loop system (20) and (23).

  • [1] A. R. Teel, "Feedback stabilization: nonlinear solutions to inherently nonlinear problems, " Ph. D. dissertation, University of California, Berkeley, USA, 1992. http://www.researchgate.net/publication/33801617_Feedback_stabilization_nonlinear_solutions_to_inherently_nonlinear_problems
    [2] A. R. Teel, "A nonlinear small gain theorem for the analysis of control systems with saturation, " IEEE Trans. Automat. Control, vol. 41, no. 9, pp. 1256-1270, Sep. 1996. https://www.researchgate.net/publication/3022636_A_nonlinear_small_gain_theorem_for_the_analysis_of_control_systemswith_saturation
    [3] F. Mazenc and S. Bowong, "Tracking trajectories of the cart-pendulum system, " Automatica, vol. 39, no. 4, pp. 677-684, Apr. 2003. https://www.researchgate.net/publication/220159242_Tracking_trajectories_of_the_cart-pendulum_system?ev=sim_pub
    [4] F. Mazenc, "Stabilization of feedforward systems approximated by a non-linear chain of integrators, " Syst. Control Lett. , vol. 32, no. 4, pp. 223-229, Dec. 1997. https://www.researchgate.net/publication/239374436_Stabilization_of_feedforward_systems_approximated_by_a_non-linear_chain_of_integrators
    [5] X. D. Ye, "Universal stabilization of feedforward nonlinear systems, " Automatica, vol. 39, no. 1, pp. 141-147, Jan. 2003. https://www.researchgate.net/publication/223027934_Universal_stabilization_of_feedforward_nonlinear_systems
    [6] H. L. Choi and J. T. Lim, "Global exponential stabilization of a class of nonlinear systems by output feedback, " IEEE Trans. Automat. Control, vol. 50, no. 2, pp. 255-257, Feb. 2005. http://en.cnki.com.cn/Article_en/CJFDTotal-TJFZ200903025.htm
    [7] S. H. Ding, C. J. Qian, and S. H. Li, "Global stabilization of a class of feedforward systems with lower-order nonlinearities, " IEEE Trans. Automat. Control, vol. 55, no. 3, pp. 691-697, Mar. 2010. https://www.researchgate.net/publication/224106845_Global_Stabilization_of_a_Class_of_Feedforward_Systems_with_Lower-Order_Nonlinearities
    [8] T. S. Chen and J. Huang, "Disturbance attenuation of feedforward systems with dynamic uncertainty, " IEEE Trans. Automat. Control, vol. 53, no. 7, pp. 1711-1717, Aug. 2008. https://www.researchgate.net/publication/3033181_Disturbance_Attenuation_of_Feedforward_Systems_With_Dynamic_Uncertainty
    [9] X. Zhang and Y. Lin, "Global adaptive stabilisation of feedforward systems by smooth output feedback, " IET Control Theory Appl. , vol. 6, no. 13, pp. 2134-2141, Sep. 2012. https://www.researchgate.net/publication/260586919_global_adaptive_stabilisation_of_feedforward_systems_by_smooth_output_feedback_brief_paper
    [10] F. Mazenc, S. Mondie, and R. Francisco, "Global asymptotic stabilization of feedforward systems with delay in the input, " IEEE Trans. Automat. Control, vol. 49, no. 5, pp. 844-850, May2004. https://www.researchgate.net/publication/3031797_Global_asymptotic_stabilization_of_feedforward_systems_with_delay_in_the_input
    [11] X. F. Zhang, H. Y. Gao, and C. H. Zhang, "Global asymptotic stabilization of feedforward nonlinear systems with a delay in the input, " Int. J. Syst. Sci. , vol. 37, no. 3, pp. 141-148, Feb. 2006. http://dl.acm.org/citation.cfm?id=1149050
    [12] X. D. Ye, "Adaptive stabilization of time-delay feedforward nonlinear systems, " Automatica, vol. 47, no. 5, pp. 950-955, May2011. https://www.researchgate.net/publication/220157713_Adaptive_stabilization_of_time-delay_feedforward_nonlinear_systems
    [13] X. F. Zhang, Q. R. Liu, L. Baron, and E. K. Boukas, "Feedback stabilization for high order feedforward nonlinear time-delay systems, " Automatica, vol. 47, no. 5, pp. 962-967, May 2011.
    [14] J. Tsinias and M. P. Tzamtzi, "An explicit formula of bounded feedback stabilizers for feedforward systems, " Syst. Control Lett. , vol. 43, no. 4, pp. 247-261, Jul. 2001. https://www.researchgate.net/publication/245217905_An_explicit_formula_of_bounded_feedback_stabilizers_for_feedforward_systems
    [15] M. T. Frye, R. Trevino, and C. J. Qian, "Output feedback stabilization of nonlinear feedforward systems using low gain homogeneous domination, " in Proc. IEEE Int. Conf. Control and Automation, Guangzhou, China, 2007, pp. 422-427. https://www.researchgate.net/publication/4288114_Output_Feedback_Stabilization_of_Nonlinear_Feedforward_Systems_using_Low_Gain_Homogeneous_Domination
    [16] X. D. Ye and H. Unbehauen, "Global adaptive stabilization for a class of feedforward nonlinear systems, " IEEE Trans. Automat. Control, vol. 49, no. 5, pp. 786-792, May2004. https://www.researchgate.net/publication/3031805_Global_adaptive_stabilization_for_a_class_of_feedforward_nonlinear_systems
    [17] C. J. Qian and W. Lin, "A continuous feedback approach to global strong stabilization of nonlinear systems, " IEEE Trans. Automat. Control, vol. 46, no. 7, pp. 1061-1079, Jul. 2001. https://www.researchgate.net/publication/3024112_A_continuous_feedback_approach_to_global_strong_stabilization_ofnonlinear_systems
    [18] H. K. Khalil, Nonlinear Systems. 3rd ed. New Jersey: Prentice Hall, 2002, pp. 145-145.
    [19] M. Krstić, I. Kanellakopoulos, and P. V. Kokotović, Nonlinear and Adaptive Control Design. New York: John Wiley and Sons, 1995, pp. 491-491.
    [20] H. Deng, M. Krstić, and R. J. Williams, "Stabilization of stochastic nonlinear systems driven by noise of unknown covariance, " IEEE Trans. Automat. Control, vol. 46, no. 8, pp. 1237-1253, Aug. 2001. https://www.researchgate.net/publication/3758995_Stabilization_of_stochastic_nonlinear_systems_driven_by_noise_of_unknown_covariance?ev=auth_pub
    [21] Z. J. Wu, X. J. Xie, and S. Y. Zhang, "Adaptive backstepping controller design using stochastic small-gain theorem, " Automatica, vol. 43, no. 4, pp. 608-620, Apr. 2007. https://www.researchgate.net/publication/222213338_Adaptive_backstepping_controller_design_using_stochastic_small-gain_theorem?ev=auth_pub
    [22] S. J. Liu, Z. P. Jiang, and J. F. Zhang, "Global output-feedback stabilization for a class of stochastic non-minimum-phase nonlinear systems, " Automatica, vol. 44, no. 8, pp. 1944-1957, Aug. 2008. https://www.researchgate.net/profile/Shu-Jun_Liu/publication/222541154_Global_output-feedback_stabilization_for_a_class_of_stochastic_non-minimum-phase_nonlinear_systems/links/0046351795d18822a6000000
    [23] X. J. Xie and J. Tian, "Adaptive state-feedback stabilization of high-order stochastic systems with nonlinear parameterization, " Automatica, vol. 45, no. 1, pp. 126-133, Jan. 2009. https://www.researchgate.net/publication/222686926_Adaptive_state-feedback_stabilization_of_high-order_stochastic_systems_with_nonlinear_parameterization
    [24] W. Q. Li and X. J. Xie, "Inverse optimal stabilization for stochastic nonlinear systems whose linearizations are not stabilizable, " Automatica, vol. 45, no. 2, pp. 498-503, Feb. 2009. https://www.researchgate.net/publication/220159927_Inverse_optimal_stabilization_for_stochastic_nonlinear_systems_whose_linearizations_are_not_stabilizable
    [25] Z. J. Wu, X. J. Xie, P. Shi, and Y. Q. Xia, "Backstepping controller design for a class of stochastic nonlinear systems with Markovian switching, " Automatica, vol. 45, no. 4, pp. 997-1004, Apr. 2009. http://cpfd.cnki.com.cn/Article/CPFDTOTAL-KZLL200807002175.htm
    [26] X. Yu and X. J. Xie, "Output feedback regulation of stochastic nonlinear systems with stochastic iISS inverse dynamics, " IEEE Trans. Automat. Control, vol. 55, no. 2, pp. 304-320, Feb. 2010. https://www.researchgate.net/publication/224090231_Output_Feedback_Regulation_of_Stochastic_Nonlinear_Systems_With_Stochastic_iISS_Inverse_Dynamics
    [27] X. J. Xie and N. Duan, "Output tracking of high-order stochastic nonlinear systems with application to benchmark mechanical system, " IEEE Trans. Automat. Control, vol. 55, no. 5, pp. 1197-1202, May2010. https://www.researchgate.net/publication/224113801_Output_Tracking_of_High-Order_Stochastic_Nonlinear_Systems_with_Application_to_Benchmark_Mechanical_System
    [28] L. Liu and X. J. Xie, "Decentralized adaptive stabilization for interconnected systems with dynamic input-output and nonlinear interactions, " Automatica, vol. 46, no. 6, pp. 1060-1067, Jun. 2010. https://www.researchgate.net/publication/220156728_Decentralized_adaptive_stabilization_for_interconnected_systems_with_dynamic_input-output_and_nonlinear_interactions
    [29] X. Yu, X. J. Xie, and N. Duan, "Small-gain control method for stochastic nonlinear systems with stochastic iISS inverse dynamics, " Automatica, vol. 46, no. 11, pp. 1790-1798, Nov. 2010. https://www.researchgate.net/publication/220159463_Small-gain_control_method_for_stochastic_nonlinear_systems_with_stochastic_iISS_inverse_dynamics
    [30] N. Duan and X. J. Xie, "Further results on output-feedback stabilization for a class of stochastic nonlinear systems, " IEEE Trans. Automat. Control, vol. 56, no. 5, pp. 1208-1213, May 2011. https://www.researchgate.net/publication/220387044_Further_Results_on_Output-Feedback_Stabilization_for_a_Class_of_Stochastic_Nonlinear_Systems
    [31] X. J. Xie, N. Duan, and X. Yu, "State-feedback control of high-order stochastic nonlinear systems with SiISS inverse dynamics, " IEEE Trans. Automat. Control, vol. 56, no. 8, pp. 1921-1926, Aug. 2011.
    [32] L. Liu and X. J. Xie, "Output-feedback stabilization for stochastic high-order nonlinear systems with time-varying delay, " Automatica, vol. 47, no. 12, pp. 2772-2779, Dec. 2011. https://www.researchgate.net/publication/220156150_Output-feedback_stabilization_for_stochastic_high-order_nonlinear_systems_with_time-varying_delay
    [33] X. J. Xie and L. Liu, "Further results on output feedback stabilization for stochastic high-order nonlinear systems with time-varying delay, " Automatica, vol. 48, no. 10, pp. 2577-2586, Oct. 2012. http://dl.acm.org/citation.cfm?id=2364789
    [34] X. J. Xie and L. Liu, "A homogeneous domination approach to state feedback of stochastic high-order nonlinear systems with time-varying delay, " IEEE Trans. Automat. Control, vol. 58, no. 2, pp. 494-499, Feb. 2013. https://www.researchgate.net/publication/260661770_a_homogeneous_domination_approach_to_state_feedback_of_stochastic_high-order_nonlinear_systems_with_time-varying_delay
    [35] C. R. Zhao and X. J. Xie, "Output feedback stabilization using small-gain method and reduced-order observer for stochastic nonlinear systems, " IEEE Trans. Automat. Control, vol. 58, no. 2, pp. 523-528, Feb. 2013. https://www.researchgate.net/publication/260516630_Output_Feedback_Stabilization_Using_Small-Gain_Method_and_Reduced-Order_Observer_for_Stochastic_Nonlinear_Systems
    [36] M. Y. Cui, X. J. Xie, and Z. J. Wu, "Dynamics modeling and tracking control of robot manipulators in random vibration environment, " IEEE Trans. Automat. Control, vol. 58, no. 6, pp. 1540-1545, Jun. 2013. https://www.researchgate.net/publication/260661796_dynamics_modeling_and_tracking_control_of_robot_manipulators_in_random_vibration_environment
    [37] X. J. Xie, N. Duan, and C. R. Zhao, "A combined homogeneous domination and sign function approach to output-feedback stabilization of stochastic high-order nonlinear systems, " IEEE Trans. Automat. Control, vol. 59, no. 5, pp. 1303-1309, May2014. https://www.researchgate.net/publication/270766254_A_Combined_Homogeneous_Domination_and_Sign_Function_Approach_to_Output-Feedback_Stabilization_of_Stochastic_High-Order_Nonlinear_Systems
    [38] L. Liu and X. J. Xie, "State feedback stabilization for stochastic feedforward nonlinear systems with time-varying delay, " Automatica, vol. 49, no. 4, pp. 936-942, Apr. 2013. https://www.researchgate.net/publication/256660916_State_feedback_stabilization_for_stochastic_feedforward_nonlinear_systems_with_time-varying_delay
    [39] C. R. Zhao and X. J. Xie, "Global stabilization of stochastic high-order feedforward nonlinear systems with time-varying delay, " Automatica, vol. 50, no. 1, pp. 203-210, Jan. 2014. http://dl.acm.org/citation.cfm?id=2576254.2576563
  • 加载中
图(1)
计量
  • 文章访问数:  2289
  • HTML全文浏览量:  383
  • PDF下载量:  854
  • 被引次数: 0
出版历程
  • 收稿日期:  2014-11-10
  • 录用日期:  2015-06-21
  • 刊出日期:  2017-07-20

目录

/

返回文章
返回