2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于CPSS平行系统懒惰强化学习算法的实时发电调控

殷林飞 陈吕鹏 余涛 张孝顺

殷林飞, 陈吕鹏, 余涛, 张孝顺. 基于CPSS平行系统懒惰强化学习算法的实时发电调控. 自动化学报, 2019, 45(4): 706-719. doi: 10.16383/j.aas.c180215
引用本文: 殷林飞, 陈吕鹏, 余涛, 张孝顺. 基于CPSS平行系统懒惰强化学习算法的实时发电调控. 自动化学报, 2019, 45(4): 706-719. doi: 10.16383/j.aas.c180215
YIN Lin-Fei, CHEN Lv-Peng, YU Tao, ZHANG Xiao-Shun. Lazy Reinforcement Learning Through Parallel Systems and Social System for Real-time Economic Generation Dispatch and Control. ACTA AUTOMATICA SINICA, 2019, 45(4): 706-719. doi: 10.16383/j.aas.c180215
Citation: YIN Lin-Fei, CHEN Lv-Peng, YU Tao, ZHANG Xiao-Shun. Lazy Reinforcement Learning Through Parallel Systems and Social System for Real-time Economic Generation Dispatch and Control. ACTA AUTOMATICA SINICA, 2019, 45(4): 706-719. doi: 10.16383/j.aas.c180215

基于CPSS平行系统懒惰强化学习算法的实时发电调控

doi: 10.16383/j.aas.c180215
基金项目: 

国家自然科学基金 51477055

国家自然科学基金 51777078

详细信息
    作者简介:

    殷林飞  广西大学电气工程学院助理教授.2018年获得华南理工大学电力学院博士学位.主要研究方向为智能电网控制技术.E-mail:yinlinfei@163.com

    陈吕鹏  华南理工大学电力学院硕士研究生.2017年获得华南理工大学电力学院学士学位.主要研究方向为机器学习, 负荷预测.E-mail:chenlvpeng123@163.com

    张孝顺  汕头大学工学院副教授.2017年获得华南理工大学电力学院博士学位.主要研究方向为智能电网控制技术.E-mail:xszhang1990@sina.cn

    通讯作者:

    余涛  华南理工大学电力学院教授.2003年获得清华大学博士学位.主要研究方向为智能电网控制技术.本文通信作者.E-mail:taoyu1@scut.edu.cn

Lazy Reinforcement Learning Through Parallel Systems and Social System for Real-time Economic Generation Dispatch and Control

Funds: 

National Natural Science Foundation of China 51477055

National Natural Science Foundation of China 51777078

More Information
    Author Bio:

     Assistant professor at the College of Electrical Engineering, Guangxi University. He received his Ph. D. degree from South China University of Technology in 2018. His research interest covers control strategies of smart grid

     Master student at the School of Electric Power, South China University of Technology. He received his bachelor degree from South China University of Technology in 2017. His research interest covers machine learning and load forecasting processing

     Associate professor at Shantou University. He received his Ph. D. degree from South China University of Technology in 2017. His research interest covers control strategies of smart grid

    Corresponding author: YU Tao  Professor at the School of Electric Power, South China University of Technology. He received his Ph. D. degree in electrical engineering from Tsinghua University in 2003. His research interest covers control strategies of smart grid. Corresponding author of this paper
  • 摘要: 为解决电力系统中存在的多种时间尺度下经济调度和发电控制的协同问题,即长时间尺度下优化,短时间尺度下优化和实时控制的问题,本文提出了一种统一时间尺度的实时经济发电调度和控制框架,并为该框架提出了懒惰强化学习方法(Lazy reinforcement learning,LRL).该方法将懒惰控制器引入以人工社会——计算实验——平行执行和社会系统为基础的强化学习中,使得机组组合,经济调度,自动发电控制和发电命令调配的问题有机结合在一起,取代过去传统的发电控制框架.为了减少仿真所需的真实时间,平行系统包含多个虚拟系统和一个真实系统.仿真实验比较了懒惰学习算法,松弛人工网络以及4608种组合常规发电控制算法在IEEE新英格兰10机39节点仿真系统的控制效果.实验表明,懒惰强化学习方法的控制效果最优.仿真结果验证了懒惰强化学习方法在基于ACP和社会系统的REG框架下具有有效性和可行性.
  • 传统发电调控框架在保持多区域互联大电网的系统有功平衡, 维持系统频率稳定等方面发挥了重要作用.随着相关研究的不断深入, 传统发电调控框架逐渐发展成为存在三种不同时间尺度问题的调控框架[1-2]: 1)机组组合(Unit commitment, UC)[3-4]; 2)经济调度(Economic dispatch, ED)[5]; 3)自动发电控制(Automatic generating control, AGC)和发电指令调度(Generation command dispatch, GCD)[6-9].然而, 传统发电调控框架在以下方面可以改善: 1)在传统发电调控框架中, 较长时间尺度下调控有可能导致不准确控制指令的产生.同时, 不同时间尺度调控之间存在的不协调问题有可能导致反向调节现象的产生. 2)在传统发电调控框架中, UC和ED问题解决是以下一时间段负荷预测结果作为条件, 而实时AGC和GCD却是基于AGC机组特性所得指令.从长时间尺度的角度来看, AGC和GCD做出的控制结果并不是一个最优的控制结果. 3)一般情况下, 不同时间尺度下的优化目标均不相同.因此, 无论是对长期还是短期而言, 仅依据这些优化结果做出的调控指令, 都不是最优的.

    研究者为了解决传统框架中存在的部分问题, 提出了大量集成算法或集成框架.文献[10]提出针对微电网实时调度的AGC和ED集成方法.文献[11]研究了考虑含有AGC仿射索引过程的鲁棒经济调度.文献[12]从优化的角度, 将ED和AGC控制器相结合.然而, 这些算法均不能完整地对传统发电调控框架进行改善.

    强化学习(Reinforcement learning, RL), 又称再励学习、评价学习, 既可看作是人工智能领域中一种重要的机器学习方法, 也被认为是属于马尔科夫决策过程(Markov decision process, MDP)和动态优化方法的一个独立分支.互联电网AGC是一个动态多级决策问题, 其控制过程可视为马尔科夫决策过程.文献[13]针对微电网孤岛运行模式下新能源发电强随机性导致的系统频率波动, 提出基于多智能体相关均衡强化学习(Correlated equilibrium Q ($\lambda$), CEQ ($\lambda$))的微电网智能发电控制方法.文献[14]针对非马尔科夫环境下火电占优的互联电网AGC控制策略, 引入随机最优控制中Q($\lambda$)学习的"后向估计"原理, 有效解决火电机组大时滞环节带来的延时回报问题.然而, 这些方法的采用均没有从整体上对传统发电调控框架进行改善.

    为了完整地解决传统发电调控框架中存在的问题, 本文提出一种实时经济调度与控制(Real-time economic generation dispatch and control, REG)框架替代传统的发电控制框架.除此之外, 为适应REG框架, 还提出一种懒惰强化学习(Lazy reinforcement learning, LRL)算法.由于懒惰强化学习算法是一种需要大量数据的算法, 所提算法需要大量数据进行训练.因此, 采用基于人工社会-计算实验-平行执行(Artificial societies-Computational experiments-Parallel execution, ACP)和社会系统的平行系统, 在短时间内产生大量数据以适应所提算法的需要.文献[15]提出基于ACP的平行系统进行社会计算的理论.文献[16]提出一种可用于信息和控制的基于信息-物理系统和ACP的分散自治系统.平行系统或平行时代的理论已经被应用到很多领域, 例如, 平行管理系统[17]、区块链领域[18]、机器学习[19]和核电站安全可靠性的分析[20]等.在一个实际系统中, 社会目标也被考虑在CPS中, 也可称为信息物理社会融合系统(CPSS)[21]; 同时, CPS的概念中应当加入社会系统, 即"智能电网"或"能源互联网"[22].

    因此, 基于REG框架的控制方法是一种适用于互联大电网发电调度和控制的统一时间尺度的调控方法.

    虽然采用基于ACP和社会系统的平行系统可以快速获取海量的数据, 但是这些数据中既存在调控效果较好的数据, 也有调控效果较差的数据.为了解决这一问题, 设计了一种选择算子对有利于LRL训练的数据进行筛选保留.另外, 由于AGC机组存在大量约束限制.设计了一种松弛算子对优化结果进行限制.

    为了对比人工神经网络(Artificial neural network, ANN)和LRL的调控效果, 本文设计了一种基于人工神经网络和松弛算子结合的松弛人工神经网络算法(Relaxed artificial neural network, RANN).本文提出的LRL算法的特性归纳如下:

    1) 作为一种统一时间尺度的控制器, 从长远角度来看, LRL可以避免不同时间尺度需要协同调控问题.

    2) 为LRL设计了一个强化网络, 可为一个区域的所有AGC机组提供多个输出.且采用松弛机满足AGC机组的约束.

    3) 懒惰学习的控制策略可以采用从平行系统不断产生的海量数据进行在线更新.这有利于LRL进行训练.

    图 1所示, 传统发电调控框架包含UC, ED, AGC和GCD四个过程.

    图 1  传统发电调控框架
    Fig. 1  Framework of conventional generation control

    UC负责制定长期(1天)的机组开停和有功出力计划; 然后ED重新制定短期(15分钟)所有已开启的机组的发电指令; 最后AGC和GCD为所有AGC机组再次重新制定实时发电指令.

    1.1.1   机组组合模型

    UC的目标是在给定时间周期内制定出最优的机组开停和生产出力计划.因此, UC问题是一个随机混合0-1整数规划问题, 可以采用优化算法进行求解.

    UC问题的优化目标是使总发电成本最低, UC问题的约束包括:有功平衡约束、热备用约束、有功出力限制约束以及发电机调节比率约束, 其目标函数表达式及约束条件为

    $ \begin{align} &\min \sum\limits_{t = 1}^T {\sum\limits_{j = 1}^{{J_i}} {[{F_j}({P_{j, t}}){u_{j, t}} + S{U_{j, t}}(1 - {u_{j, t - 1}}){u_{j, t}}]} }\notag\\ &\, \mathrm{s.t.} \begin{cases} \sum\limits_{j = 1}^{{J_i}} {{P_{j, t}}{u_{j, t}} = P{D_{i, t}}} \\[1mm] \sum\limits_{j = 1}^{{J_i}} {P_j^{\max }{u_{j, t}} \ge P{D_{i, t}} + S{R_{i, t}}} \\[1mm] {u_{j, t}}P_j^{\min } \le {P_{j, t}} \le {u_{j, t}}P_j^{\max }\\[1mm] 0 \le {P_{j, t}} - {P_{j, (t - 1)}} \le P_j^{{\rm{up}}}\\[1mm] 0 \le {P_{j, t}} - {P_{j, (t - 1)}} \le P_j^{{\rm{down}}} \end{cases} \end{align} $

    (1)

    其中, $T$为给定时间周期内的时间断面的个数, 一般设定为24; $J_i$为第$i$个区域内的发电机组个数; $u_{j, t}$为第$j$个发电机组在第$t$时间断面的状态, $u_{j, t}$取值为1或0, 分别代表机组开启和关停状态; 总发电成本包括燃料成本$F_j(P_{j, t})$和启动成本$SU_{j, t}$; $P{D_{i, t}}$为第$i$个区域内在第$t$时间段内的负荷需求总量; $P_j^{\min }$和$P_j^{\max }$分别为在第$i$区域的第$j$个发电机组的有功出力的最小值和最大值; $S{R_{i, t}}$为第$i$个区域内在第$t$时间段内所需的热备用容量; $P_j^{{\rm{up}}}$和$P_j^{{\rm{down}}}$分别为第$j$台发电机组的上调和下调的最大幅度限制; $T_j^{\min\mbox{-}\rm{up}}$为第$j$个发电机组的持续开启时间的最小值; $T_j^{\min\mbox{-}\rm{dowm}}$为第$j$个发电机组的持续停机时间的最小值.

    燃料成本$F_j(P_{j, t})$, 启动成本$SU_{j, t}$以及约束$u_{j, t}$的计算公式如下:

    $ {F_j}({P_{j, t}}) = {a_j} + {b_j}{P_{j, t}} + {c_j}P_{j, t}^2 $

    (2)

    $ \begin{align} &S{U_{j, t}} =\notag\\ &\ \ \ \begin{cases} S{U_{{\rm{H}}, j}}, & T_j^{{\rm{min\mbox{-}down}}} \le T_{j, t}^{{\rm{up}}} \le T_j^{{\rm{min\mbox{-}down}}} + T_j^{{\rm{cold}}}\\ S{U_{{\rm{C}}, j}}, &T_{j, t}^{{\rm{down}}} > T_j^{{\rm{min\mbox{-}down}}} + T_j^{{\rm{cold}}} \end{cases} \end{align} $

    (3)

    $ \begin{align} \begin{cases} T_{j}^{{\rm{up}}} \geq T_j^{\min\mbox{-}{\rm{up}}}\\ T_{j}^{{\rm{down}}} \geq T_j^{\min\mbox{-}{\rm{down}}} \end{cases} \end{align} $

    (4)

    其中, $P_{j, t}$为第$j$台发电机组在第$t$个时间断面时的有功出力; $a_j$, $b_j$和$c_j$分别是发电成本的常数因子, 一次项因子和二次项因子; $T_{j}^{{\rm{up}}}$和$T_{j}^{{\rm{down}}}$分别为第$j$台发电机组开启和关停的累积时间; $T_j^{{\rm{cold}}}$是第$j$台发电机组从完全关停状态进行冷启动所需的时间; $SU_{H, j}$和$SU_{C, j}$分别为第$j$台发电机组进行热启动和冷启动所需的成本.

    1.1.2   经济调度模型

    ED采用优化算法从经济角度重新制定发电命令.通常ED的优化目标包括两部分:经济目标和碳排放目标.将两种优化目标进行线性权重结合, 得到最终的ED的模型如下:

    $ \begin{align} &\min {F_{{\rm{total}}}} = \sum\limits_{j = 1}^{{J_i}} {(\omega F_j^{\rm{e}}({P_j}) + (1 - \omega )F_j^{\rm{c}}({P_j}))}\notag \\ &\, \mathrm{s.t.}\begin{cases} P{D_i} - \sum\limits_{j = 1}^{{J_i}} {{P_j} = 0} \\ P_j^{\min } \le {P_j} \le P_j^{\max }\\ {P_{j, t}} - {P_{j, t - 1}} \le P_j^{{\rm{up}}}\\ {P_{j, t - 1}} - {P_{j, t}} \le P_j^{{\rm{down}}} \end{cases} \end{align} $

    (5)

    其中, $PD_i$为第$i$个区域的系统总负荷量, $\omega$为经济目标权重.

    经济目标和碳排放目标具体表达如下:

    $ \begin{align} F_{{\rm{total}}}^{\rm{e}} = \sum\limits_{j = 1}^{{J_i}} {F_j^{\rm{e}}} ({P_j}) = \sum\limits_{j = 1}^{{J_i}} {({c_j}P_j^2 + {b_j}{P_j} + {a_j})} \end{align} $

    (6)

    $ \begin{align} F_{{\rm{total}}}^{\rm{c}} = \sum\limits_{j = 1}^{{J_i}} {F_j^{\rm{c}}} ({P_j}) = \sum\limits_{j = 1}^{{J_i}} {({\alpha _j}P_j^2 + {\beta _j}{P_j} + {\gamma _j})} \end{align} $

    (7)

    式中, $F_j^{\rm{e}}({P_j})$为第$j$台发电机组的发电成本; ${P_j}$为第$j$台发电机组的有功出力; $F_j^{\rm{c}}({P_j})$为第$j$台发电机组的碳排放量; $\gamma _j$, $\beta _j$和$\alpha _j$分别表示第$j$台发电机组关于碳排放的常数因子、一次项因子和二次项因子.

    1.1.3   自动发电控制模型

    图 2是传统实时控制系统中包含两个区域的电力系统AGC模型. AGC控制器的输入为第$i$个区域的频率误差和区域控制误差(Area control error, ACE) $e_i$, 输出为第$i$个区域的发电命令. AGC模型的控制周期为秒级, 一般设定为4秒或8秒.

    图 2  两区电力系统的AGC模型
    Fig. 2  AGC model of two-area power system
    1.1.4   发电命令调度模型

    GCD的输入为ACG产生的发电指令, 输出为第$i$个区域内所有AGC机组的发电命令$\Delta {P_{i, j}}$.进而, ACG单元的实际发电指令$P_{i, j}^{{\rm{actual}}}$取ED和GCD的发电指令之和, 即$P_{i, j}^{{\rm{actual}}} = {P_{i, j}} + \Delta {P_{i, j}}$.在实际工程中, GCD的目标采用如式(5)所示的经济目标.

    频率控制包含三种调节方式:一次调频、二次调频以及三次调频.一次调频通过调节发电机组在短时间内的有功出力, 进而调节系统频率.但是, 一次调频是一种有差调节方式.为了更好地平衡发电机和负荷之间的有功功率, 电力系统引入了二次调频和三次调频方式.二次调频和三次调频包含了多种算法的集成, 即集成了UC, ED, AGC和GCD.其中, AGC采用的是控制算法, 而UC, ED和GCD均为优化算法.因此, 传统发电调控算法是一种"优化算法+优化算法+控制算法+优化算法"的组合形式.

    大量的优化算法被运用到UC, ED和GCD之中.常用的优化算法有: GA[23]、PSO[24]、模拟退火算法[25]、多元优化算法[26]、灰狼优化算法[27]、多目标极值优化算法[28]、混沌多目标机制优化算法[29]等.同时, 多种控制算法被运用于AGC控制器中.诸如传统的PID算法、模糊逻辑控制算法[30]、模糊PID[31]、滑动模式控制器[32]、自抗扰控制器[33]分数阶PID[34]、Q学习[35]、Q ($\lambda$)学习[14]和R ($\lambda$)学习[36]以及分布式模型预测控制算法[37]等. 表 1展示了频率调节方式和传统发电调控框架之间的关系.

    表 1  频率调节方式与传统发电调控框架之间的关系
    Table 1  Relationship between regulation processes and conventional generation control framework
    传统发电控制调节方式算法类型时间间隔(s)输入输出
    UC三次调频优化算法86 400$ PD_{i, t} $$u_{i, t, j}, P_{j, t}$
    ED二次调频优化算法900 $PD_i$$P_{i, j}$
    AGC二次调频控制算法4$e_{i}, \Delta f_i$$ \Delta P_i$
    GCD二次调频优化算法4 $\Delta P_i$$\Delta P_{i, j}$
    下载: 导出CSV 
    | 显示表格

    在第$i$区域中, UC依据下一天的负荷预测值$PD_{i, t}$制定发电机的启动状态$u_{i, t, j}$以及出力水平$P_{j, t}$.其中时间周期为一天中的每小时, 即$t =\{ 1, 2$, $\cdots$, $24\}$; ED采用15分钟后的超短期负荷预测值$PD_i$制定有功出力值$P_{i, j}$; AGC控制器计算第$i$个区域的总发电需求量$\Delta P_i$; GCD将总的发电量$\Delta P_i$分配到每个AGC机组$\Delta P_{i, j}$.

    为了快速获取准确的发电调度与控制动作, 本文建立了大量的平行发电控制系统.如图 3所示, 在平行发电系统中, 多重虚拟发电控制系统被用来对真实发电控制系统不断地进行仿真.当虚拟控制发电系统的控制效果优于实际发电控制系统时, 它们之间会交换它们发电控制器的重要数据.即虚拟发电控制系统将重要的控制器参数传递到真实发电控制系统, 而真实发电系统则将更新后的系统模型参数反馈回虚拟发电控制系统.

    图 3  平行发电控制系统
    Fig. 3  Parallel generation control systems

    由于通过平行系统可以获取海量的数据, 如果采用传统学习方法对控制算法学习进行训练将花费大量的时间.因此, 需要采用一种更有效的学习算法对海量数据进行学习.本文针对平行发电控制系统的特点, 提出一种懒惰强化学习算法(LRL).如图 4所示, LRL由懒惰学习、选择算子、强化网络以及松弛算子四部分构成.提出的LRL算法可以设计成为基于REG框架的控制器, 可以替代传统的组合算法(UC, ED, AGC和GCD).因此, 基于REG框架的控制器的输入为频率误差$\Delta {f_i}$和ACE $e_i$, 输出为所有AGC机组的发电命令$\Delta {P_{i, j}}$.

    图 4  基于REG的LRL控制器的流程图
    Fig. 4  Procedures of LRL based REG controller

    LRL的懒惰学习将对下一个系统状态进行预测.因此, 懒惰学习的输入为频率误差$\Delta {f_i}$和ACE $e_i$.此外, 懒惰学习可以依据电力系统当前采取的动作集${\bf \it {A}}$预测电力系统的下一状态$\Delta {F'_{i, (t + 1)}}$.其中, 初始动作集合${\bf \it{A}}$描述如下:

    $ \begin{align} {\bf \it{A}} = \left[ {\begin{array}{*{20}{c}} {{a_{1, 1}}}&{{a_{1, 2}}}& \cdots &{{a_{1, k}}}\\ {{a_{2, 1}}}&{{a_{2, 2}}}& \cdots &{{a_{2, k}}}\\ \vdots & \vdots & \ddots & \vdots \\ {{a_{{J_i}, 1}}}&{{a_{{J_i}, 2}}}& \cdots &{{a_{{J_i}, k}}} \end{array}} \right] \end{align} $

    (8)

    其中, ${\bf \it{A}} $具有$k$列, 每一列都是一个AGC机组的发电命令动作向量.对下一状态的预测同样具有$k$列, 且每一列与每一个动作向量的预测相对应.因此, $\Delta {F'_{i, (t + 1)}}$是一个依据所有$k$列动作向量预测而组成的$k$列预测矩阵.

    采用懒惰学习方法估计未知函数的值与映射$g:$ ${{\bf R}^m}$ $ \to {\bf R} $类似.懒惰学习方法的输入和输出可以从矩阵$\Phi $获取, 描述如下:

    $ \begin{align} {\rm{\{ (}}{\varphi _1}{\rm{, }}{y_1}{\rm{), (}}{\varphi _2}{\rm{, }}{y_2}{\rm{), }} \cdots {\rm{, (}}{\varphi _{{N_{{\rm{lazy}}}}}}, {y_{{N_{{\rm{lazy}}}}}}{\rm{)\} }} \end{align} $

    (9)

    其中, $\varphi _i$为$N_{\rm{lazy}}\times k$的输入矩阵, $i=1, 2, \cdots$, $N_{\rm{lazy}}$; $y_i$为$N_{\rm{lazy}} \times 1$的输出向量.第$q$个查询点的预测值可以由下式计算.

    $ \begin{align} \widehat {y}_q = \varphi _q^{\rm{T}}{({{\bf \it{Z}}^{\rm{T}}}{\bf \it{Z}})^{ - 1}}{{\bf \it{Z}}^{\rm{T}}}{\bf \it{v}} \end{align} $

    (10)

    其中, ${{Z}}={ {W\Phi}}$; ${\bf \it{v}}={\bf \it{Wy}}$. ${\bf \it{W}}$是一个对角矩阵, ${\bf \it{W}}_{ii}$ $=\omega_i$, 其中, $\omega_i$为从查询点$\varphi _q$到点$\varphi _i$的距离$d(\varphi _i, \varphi _q)$的权重函数.从而, $({\bf \it{Z}}^{\rm{T}}\bf \it{Z}) \beta={\bf \it{Z}}^{\rm{T}} {\bf \it{v}}$可以作为一个局部加权回归模型.在其训练过程的误差校验方法可为留一法交叉校验(Leave-one-out cross-validation, LOOCV), 计算方式为

    $ \begin{align} &{\rm{MS}}{{\rm{E}}^{{\rm{CV}}}}({\varphi _q}) =\nonumber\\[1mm] &\qquad \displaystyle\frac{1} {{\sum\limits_i {w_i^2} }}\sum\limits_i {{{\left( {\frac{{{v_i} - z_i^{\rm{T}}{{({{\bf \it{Z}}^{\rm{T}}}{\bf \it{Z}})}^{ - 1}} {{\bf \it{Z}}^{\rm{T}}}{\bf \it{v}}}}{{1 - z_i^{\rm{T}}{{({{\bf \it{Z}}^{\rm{T}}}{\bf \it{Z}})}^{ - 1}}{z_i}}}} \right)}^2}} = \nonumber\\[1mm] &\qquad \displaystyle\frac{1}{{\sum\limits_i {w_i^2} }}\sum\limits_i {{{\left( {{w_i}\frac{{{y_i} - \varphi _i^{\rm{T}}{{({{\bf \it{Z}}^{\rm{T}}}{\bf \it{Z}})}^{ - 1}}{{\bf \it{Z}}^{\rm{T}}} {\bf \it{v}}}}{{1 - z_i^{\rm{T}}{{({{\bf \it{Z}}^{\rm{T}}}{\bf \it{Z}})}^{ - 1}}{z_i}}}} \right)}^2}} = \nonumber\\[1mm] &\qquad \displaystyle\frac{1}{{\sum\limits_i {w_i^2} }}\sum\limits_i {{{\left( {{w_i}{e^{{\rm{CV}}}}(i)} \right)}^2}} \end{align} $

    (11)

    其中, ${e^{{\rm{CV}}}}(i)$为第$i$个留一误差, 计算方式为

    $ \begin{align} e_{n + 1}^{{\rm{CV}}}(i) = \dfrac{{{y_i} - \varphi _i^{\rm{T}}{\beta _{n + 1}}}}{{1 + \varphi _i^{\rm{T}}{{\bf \it{P}}_{n + 1}}{\varphi _i}}} \end{align} $

    (12)

    其中, ${{\bf \it{P}}_n}$为矩阵${({{\bf \it{Z}}^{\rm{T}}}{\bf \it{Z}})^{ - 1}}$的回归逼近; ${\beta _n}$为$n$邻近的最优最小二乘序列参数; 且在$e_n^{{\rm{CV}}}(i)$中满足$1$ $\le$ $i\le n$; ${\beta _{n + 1}}$的计算方法如下:

    $ \begin{align} &{\beta _{n + 1}} = {\beta _n} + {\gamma _{n + 1}}{e_{n + 1}}\nonumber\\ & {e_{n + 1}} = {y_{n + 1}} - \varphi _{n + 1}^{\rm{T}}{\beta _n}\nonumber\\ & {\gamma _{n + 1}} = {{\bf \it{P}}_{n + 1}}{\varphi _{n + 1}}\nonumber\\ & {{\bf \it{P}}_{n + 1}} = {{\bf \it{P}}_n} - \frac{{{{\bf \it{P}}_n}{\varphi _{n + 1}}\varphi _{n + 1}^{\rm{T}}{{\bf \it{P}}_n}}}{{1 + \varphi _{n + 1}^{\rm{T}}{{\bf \it{P}}_n}{\varphi _{n + 1}}}} \end{align} $

    (13)

    因此, 针对REG问题, 所提LRL算法中懒惰学习离线学习和在线学习的输入和输出可见表 2.

    表 2  懒惰强化学习输入输出量
    Table 2  Inputs and outputs of lazy reinforcement learning
    输入输出懒惰学习强化网络懒惰强化学习
    输入量$\Delta {f_i}, {e_i}, {\bf \it {A}}$$\Delta {F'_{i, (t + 1)}}$$\Delta {f_i}, {e_i}$
    输出量${\Delta {f'_{i, (t + 1)}}}$$\Delta {P_{i, j}}, $
    $i = 1, 2, \cdots, {J_i}$
    $\Delta {P_{i, j}}, $
    $i = 1, 2, \cdots, {J_i}$
    下载: 导出CSV 
    | 显示表格

    LRL中的选择过程可以从下一状态$(\Delta {F'_{i, (t + 1)}})$中选择最优的状态(最小的$| {\Delta {{f'}_{i, (t + 1)}}} |$).

    LRL中的强化网络可以计算出总的发电命令$\Delta {P_i}$, 并分配$\Delta {P_{i, j}}$到第$i$个区域里的所有AGC机组上, 其中, $\Delta {P_i}=\sum_{j = 1}^{{J_i}} {\Delta {P_{i, j}}} $.强化网络由强化学习和一个反向传播神经网络(Back propagation neural network, BPNN)组成. Q学习是一种无需模型的控制算法.基于Q学习的控制器可以在线根据环境变化更新其控制策略.此类控制器的输入为状态值和奖励值, 输出为作用于环境的动作量.它们可以依据Q-矩阵$\bf \it{Q}$和概率分布矩阵$\bf \it{P}$, 针对当前的环境状态$s$, 制定应当进行的动作$a$.矩阵$\bf \it{Q}$和$\bf \it{P}$可以由奖励函数随后进行更新.

    $ \begin{align} &Q(s, a) \leftarrow Q(s, a) + \alpha (R(s, s', a) \, + \nonumber\\ &\qquad\qquad\ \ \gamma \mathop {\max }\limits_{a \in A} Q(s', a) - Q(s, a)) \end{align} $

    (14)

    $ \begin{align} &P(s, a) \leftarrow \begin{cases} P(s, a) - \beta (1 - P(s, a)), &s' = s\\ P(s, a)(1 - \beta ), &{\mbox{其他}} \end{cases} \end{align} $

    (15)

    其中, $\alpha$为学习率; $\gamma$为折扣系数; $\beta$为概率系数; $s$, $s'$分别为当前状态和下一状态; $R(s, s', a)$为奖励函数, 与当前状态$s$和由动作$a$导致的状态有关.当前状态$s$和下一状态$s'$同属于状态集合$\bf \it{S}$, 即$s \in {\bf \it{S}}$, $s'$ $\in$ ${\bf \it{S}}$.被选择的动作$a$输出动作集合$\bf \it{A}$, 即$a \in {\bf \it{A}}$.本文采用结构简单的三层感知器BPNN, 分配到多个机组的输出$y_i^{{\rm{bpnn}}}$的计算公式为

    $ \begin{align} y_i^{{\rm{bpnn}}} = f\left(x_i^{{\rm{bpnn}}}\right) = f\left(\sum\limits_{j = 1}^{{n^{{\rm{bpnn}}}}} {\omega _{ji}^{{\rm{bpnn}}}x_i^{{\rm{bpnn}}} + b_i^{{\rm{bpnn}}}} \right) \end{align} $

    (16)

    其中, $\omega _{ji}^{{\rm{bpnn}}}$为权重值; $b_i^{{\rm{bpnn}}}$为补偿值; ${n^{{\rm{bpnn}}}}$为BP神经网络中的隐藏元的个数; $f(z)$为sigmoid函数.本文采用的sigmoid函数为

    $ \begin{align} f(z)=\tanh (z) = \frac{{{\rm e}^z - {\rm e}^{ - z}}}{{{\rm e}^z + {\rm e}^{ - z}}} \end{align} $

    (17)

    BPNN训练算法为莱文贝格-马夸特方法(Levenberg-Marquardt algorithm).

    LRL的松弛算子类似一个操作员对强化网络的输出进行约束控制.因此, 松弛算子的约束可以表达为

    $ \begin{align} \Delta {P_{i, j}} \leftarrow \frac{{[\Delta {P_{i, j}}{{u'}_{j, t}}]}}{{\sum\limits_{j = 1}^{{J_i}} {([\Delta {P_{i, j}}{{u'}_{j, t}}])} }}\sum\limits_{j = 1}^{{J_i}} {(\Delta {P_{i, j}})} \end{align} $

    (18)

    其中, $\left[{\Delta {P_{i, j}}{{u'}_{j, t}}} \right]$为约束函数, 表达式为

    $ \begin{align} &\max \left\{ {{P_{j, (t - 1)}} - P_j^{{\rm{down}}}, {{u'}_{j, t}}P_j^{\min }} \right\} \le\notag \\ &\qquad\ \ \Delta {P_{i, j}}{{u'}_{j, t}} \le \min \left\{ {{P_{j, (t - 1)}} + P_j^{{\rm{up}}}, {{u'}_{j, t}}P_j^{\max }} \right\} \end{align} $

    (19)

    其中, ${u'_{j, t}}$为临时启动状态, 表达式为

    $ \begin{align} {u'_{j, t}}=\!\begin{cases} 1, &\!\left[ {\Delta {P_{i, j}}} \right] > 0~\mbox{或}~ 1 < T_{j, (t - 1)}^{{\rm{up}}} < T_{j, (t - 1)}^{{\rm{min\mbox{-}up}}}\\ 0, &\!\left[ {\Delta {P_{i, j}}} \right] = 0~\mbox{或}~1 \le T_{j, (t - 1)}^{{\rm{down}}} < T_j^{{\rm{min\mbox{-}down}}} \end{cases} \end{align} $

    (20)

    传统学习算法会对所有通过平行系统获取的数据进行学习.然而, 采用这些数据进行学习不一定能够取得比当前真实系统更优的控制效果.因此, 本文提出的LRL方法, 会筛选出那些更优的数据进行学习.即, 当在$t$时刻的状态$s_t$优于时刻的状态${s'_{(t + t), 1}}$, 而劣于$t + \Delta t$时刻的状态${s'_{(t + t), 2}}$, 那么算法将排除从$s_t$到${s'_{(t + t), 1}}$的变化过程数据, 而将保留从$s_t$到${s'_{(t + t), 2}}$的变化过程数据进行离线训练.

    针对REG问题, 离线训练的输入与输出如表 2所示.但在对比状态${s'_{(t + t), 1}}$和${s'_{(t + t), 2}}$时, 可将状态设定为预测的区域i频率偏差, 即$\Delta {f'_{i, (t + 1)}}$, 也即从$\Delta {F'_{i, (t + 1)}}$选择最优值对应的输入和输出数据进行训练. 图 5是在平行系统下基于REG框架的懒惰强化学习的控制器运行步骤.

    图 5  平行系统下基于REG控制器的LRL算法的流程图
    Fig. 5  Procedures of LRL based REG controller under parallel systems

    本文仿真均是在主频为2.20 GHz, 内存96 GB的AMAX XR-28201GK型服务器上基于MATLAB 9.1 (R2016b)平台实现的. 表 3是仿真中采用的所有算法, 其中各算法的含义见表 4.

    表 3  仿真所用的算法
    Table 3  Algorithms for this simulation
    序号UCEDAGCGCD
    1模拟退火算法(SAA)SAAPID控制SAA
    2多元优化(MVO)MVO滑模控制器MVO
    3遗传算法(GA)GA自抗扰控制GA
    4灰狼算法(GWO)GWO分数阶PID控制GWO
    5粒子群优化(PSO)PSO模糊逻辑控制器PSO
    6生物地理优化(BBO)BBOQ学习BBO
    7飞蛾扑火算法(MFO)MFOQ($\lambda$)学习MFO
    8鲸鱼群算法(WOA)WOAR($\lambda$)学习WOA
    9固定比例
    10松弛人工神经网络(RANN)
    11懒惰强化学习(LRL)
    下载: 导出CSV 
    | 显示表格
    表 4  各对比算法的缩写
    Table 4  Abbreviation of compared algorithms
    缩写全称意义
    UCUnit commitment机组组合
    EDEconomical dispatch经济调度
    AGCAutomatic generation control自动发电控制
    GCDGeneration command dispatch发电指令调度
    RLReinforcement learning强化学习
    REGReal-time economic generation dispatch and control实时经济调度与控制
    ACPArtificial societies- computational experiments-parallel execution人工社会-计算实验-平行执行
    CPSCyber-physical system信息物理系统
    CPSSCyber-physical-social systems信息物理社会融合系统
    LRLLazy reinforcement learning懒惰强化学习
    RANNRelaxed artificial neural network松弛人工神经网络
    SAASimulated annealing algorithm模拟退火算法
    MVOMulti-verse optimizer多元优化
    GAGenetic algorithm遗传算法
    GWOGray wolf optimizer灰狼算法
    PSOParticle swarm optimization粒子群优化
    BBOBiogeography-based optimization生物地理优化
    MFOMoth-flame optimization飞蛾扑火算法
    WOAWhale optimization algorithm鲸鱼群算法
    LOOCVLeave-one-out cross-validation留一法交叉校验
    BPNNBack propagation neural network反向传播神经网络
    下载: 导出CSV 
    | 显示表格

    组合算法和REG控制器的仿真时间设定为1天或86 400秒.总共采用了有4 608种传统发电调控算法($8\times 8 \times 8 \times 9=4 608$种组合)和两种基于REG框架的算法进行仿真实验.总的设置仿真模拟时间为12.6301年或为($8\times 8 \times 8 \times 9+2$)天.所有的传统发电调控算法的参数设置详见附录A.

    图 6是IEEE新英格兰10机39节点标准电力系统结构.从图 6可以看出, 仿真实验将该电力系统划分成3个区域.该系统中设置10台发电机, 发电机{30, 37, 39}划分至区域1, 发电机{31, 32, 33, 34, 35}划分至区域2, 剩下的发电机{36, 38}划分至区域3.除此之外, 光伏, 风电以及电动汽车也被纳入仿真模型之中(详细参数见图 7).其中, 电动汽车负荷需求曲线为5种不同车辆用户行为叠加而成的.各个机组参数如表 5表 6所示.

    图 6  新英格兰电力系统结构图
    Fig. 6  Structure of New-England power system
    图 7  光伏、电动汽车、风电、负荷曲线
    Fig. 7  Curves of photo-voltaic power (PV), electric vehicle (EV), wind power and load
    表 5  机组参数表
    Table 5  Parameters of the generators
    机组编号30373931323334353638
    机组最小连续开机时间$T_j^{\mathrm{min-up}}$ (h)8855633111
    机组最小连续关机时间$T_j^{\mathrm{min-down}}$ (h)8855633111
    机组最大出力$P_j^{\min}$ (MW)4554551301301628085555555
    机组最小出力$P_j^{\max}$ (MW)1501502020252025101010
    热启动成本$SU_{\mathrm{H}, j}$ (t/(MW $\cdot$ h))4 5005 000550560900170260303030
    冷启动成本$SU_{\mathrm{C}, j}$ (t/(MW $\cdot$ h))9 00010 0001 1001 1201 800340520606060
    冷启动时间$T_j^{\mathrm{cold}}$ (h)5544422000
    ED成本系数$a_j$0.6750.450.5630.5630.450.5630.5630.3370.3150.287
    ED成本系数$b_j$360240299299240299299181168145
    ED成本系数$c_j$11 2507 5109 3909 3907 5109 3909 3905 5305 2505 270
    ED排放系数$\alpha _j$3.3751.1251.6891.5761.171.5761.5760.6740.630.574
    ED排放系数$\beta _j$1 800600897837624837837362404290
    ED排放系数$\gamma _j$56 25018 77028 17026 29019 53026 29026 29011 06013 80010 540
    下载: 导出CSV 
    | 显示表格
    表 6  机组组合问题参数表
    Table 6  Parameters for unit commitment problem
    UC问题的负荷时段(h)123456789101112
    UC问题的负荷值$PD_t$ (WM)7007508509501 0001 1001 1501 2001 3001 4001 4501 500
    UC问题的旋转备用$SR_t$ (WM)70758595100110115120130140145150
    UC问题的负荷时段(h)131415161718192021222324
    UC问题的负荷值$PD_t$ (WM)1 4001 3001 2001 0501 0001 1001 2001 4001 3001 100900800
    UC问题的旋转备用$SR_t$ (WM)1401301201051001101201401301109080
    下载: 导出CSV 
    | 显示表格

    仿真实验设置发电控制的控制周期为4 s. REG控制器每4 s计算一次.对于传统组合算法, UC每天进行一次, ED每15分钟优化一次, AGC和GCD每次控制周期中计算一次.松弛人工神经网络RANN算法由人工神经网络和所提LRL算法中的松弛算子组成. LRL整体的输入和输出分别作为RANN算法的输入和输出. RANN算法的松弛算子见式(18)~(20). BPNN选择的三层感知网络的隐含层神经元的个数设定为40个.每个松弛人工神经网络设置有40个隐藏元.在所提LRL算法中, 强化学习和懒惰学习的动作集$k$的列数设为121, 该列数一般可选范围较大; 动作值选为从$-300$~$300$ MW; 其中强化学习的学习率的范围为$\alpha \in (0, 1]$, 本文选为0.1;概率选择系数$\beta \in (0, 1]$, 本文设定为0.5;折扣系数$\lambda \in (0, 1]$, 本文设定为0.9.其中学习率选择的越大学习速度越快, 但会导致精度随之下降.

    强化学习系列算法Q学习、Q($\lambda $)学习和R($\lambda $)学习算法的离线学习是时间分别为2.27 h, 2.49 h和2.95 h; 松弛人工神经网络算法的训练时间为15.50 h; 所提LRL算法的离线训练时间为6.60 h.虽然所提LRL算法较传统强化学习算法在离线训练效率方面不具有优势, 但是其具有最佳的控制效果.同时, 与统一时间尺度的松弛人工神经网络算法相比, LRL算法的离线训练时间较小且其控制效果更优.

    仿真结果展示在图 8~12表 7~10中.

    表 7  UC算法仿真结果统计
    Table 7  Statistic of simulation results obtained by the UC
    算法ACE1 (MW) $\Delta f_1$ (Hz)ACE2 (MW)$\Delta f_2$ (Hz)ACE3 (MW)$\Delta f_3$ (Hz)
    SAA573.89040.038235258.77980.037525 527.97461.3137
    MVO575.36720.038274259.92650.0375585 532.62021.3154
    GA603.43910.041805258.64840.0410416 052.28061.4428
    GWO616.0640.043454257.61070.0426536 290.08431.5017
    PSO575.71720.038264260.35430.0375555 535.16441.3159
    BBO574.27690.038213259.3490.0374995 522.56911.3131
    MFO569.71590.037685259.14990.0369845 441.34871.2932
    WOA645.59060.047207255.82460.046396 844.85091.6369
    RANN553.40320.039963224.17480.0390835 431.28441.2907
    LRL441.92250.010254389.99050.00956121 023.19190.23743
    下载: 导出CSV 
    | 显示表格
    表 8  ED算法仿真结果统计
    Table 8  Statistic of simulation results obtained by the ED algorithms
    算法ACE1 (MW) $\Delta f_1$ (Hz)ACE2 (MW)$\Delta f_2$ (Hz)ACE3 (MW)$\Delta f_3$ (Hz)
    SAA587.84140.039976258.27670.0392345 777.57551.3756
    MVO588.1770.039978258.51250.0392455 782.35671.3768
    GA589.40910.040193257.63350.0394795 818.98091.3856
    GWO587.65470.039959258.09230.0392285 780.46641.3763
    PSO587.8580.039915258.81110.0391825 771.29241.3741
    BBO588.01980.039924258.92110.0391925 770.46081.3739
    MFO588.18360.039988258.49480.039255 778.8441.3759
    WOA588.69740.040103257.71130.0393875 805.40461.3823
    RANN553.40320.039963224.17480.0390835 431.28441.2907
    LRL441.92250.010254389.99050.00956121 023.19190.23743
    下载: 导出CSV 
    | 显示表格
    表 9  AGC算法仿真结果统计
    Table 9  Statistic of simulation results obtained by the AGC algorithms
    算法ACE1 (MW) $\Delta f_1$ (Hz)ACE2 (MW)$\Delta f_2$ (Hz)ACE3 (MW)$\Delta f_3$ (Hz)
    PID控制591.30810.040435257.5180.0397175 854.01021.3939
    滑动模式控制器590.73350.040374257.44950.0396565 844.72911.3916
    自抗扰控制591.37710.040424257.67730.0397075 853.04881.3937
    分数阶PID控制591.10070.040437257.30690.0397155 852.74781.3936
    模糊逻辑控制591.9510.040504257.60240.0397815 863.47851.3963
    Q学习591.36030.040452257.45720.0397275 855.13391.3942
    Q($\lambda$)学习591.07720.040419257.44210.0396965 849.97051.393
    R($\lambda$)学习591.72820.040494257.4690.039775 862.78321.3961
    RANN553.40320.039963224.17480.0390835 431.28441.2907
    LRL441.92250.010254389.99050.00956121 023.19190.23743
    下载: 导出CSV 
    | 显示表格
    表 10  GCD算法仿真结果统计
    Table 10  Statistic of simulation results obtained by the GCD algorithms
    算法ACE1 (MW) $\Delta f_1$ (Hz)ACE2 (MW)$\Delta f_2$ (Hz)ACE3 (MW)$\Delta f_3$ (Hz)
    SAA591.30810.040435257.5180.0397175 854.01021.3939
    MVO590.73350.040374257.44950.0396565 844.72911.3916
    GA591.37710.040424257.67730.0397075 853.04881.3937
    GWO591.10070.040437257.30690.0397155 852.74781.3936
    PSO591.9510.040504257.60240.0397815 863.47851.3963
    BBO591.36030.040452257.45720.0397275 855.13391.3942
    MFO591.07720.040419257.44210.0396965 849.97051.393
    WOA591.72820.040494257.4690.039775 862.78321.3961
    固定比例509.03910.028801282.03320.0276093 973.7430.94347
    RANN553.40320.039963224.17480.0390835 431.28441.2907
    LRL441.92250.010254389.99050.00956121 023.19190.23743
    下载: 导出CSV 
    | 显示表格
    图 8  仿真统计结果
    Fig. 8  Statistical result
    图 9  仿真统计结果(频率偏差)
    Fig. 9  Statistical result of frequency deviation
    图 10  仿真统计结果(区域控制误差)
    Fig. 10  Statistical result of area control error
    图 11  平行系统频率偏差收敛曲线
    Fig. 11  Convergence curve of frequency deviation obtained by the parallel systems
    图 12  平行系统区域控制误差收敛曲线
    Fig. 12  Convergence curve of area control error obtained by the parallel systems

    图 8是频率偏差、区域控制误差和仿真计算所用时间的统计结果, 其中所提LRL算法能得到最优的调控效果.

    图 9是各个算法频率偏差的统计对比效果, 其中所提LRL算法能在所有区域均获得最小的频率偏差. 图 10是各个算法获得的区域控制误差的统计结果, 可以看出, 所提LRL算法不会导致大量牺牲某个区域的功率来满足其他区域的功率平衡.

    图 11图 12是利用平行系统仿真数据对所提LRL算法训练的收敛曲线图.可以看出, 经过667次的迭代, 能获得最优的收敛结果.

    图 9以及表 7~10可以看出, 与传统组合发电控制算法和松弛人工神经网络相比, 本文提出的LRL方法可以保持系统内的有功平衡, 并且能使电网频率偏差达到最低.因此, LRL能够在多区域大规模互联电网中取得最优的控制效果.

    图 8图 10可以看出, 在仿真中, 由于LRL可以在最短时间内取得最低的频率偏差和最低的控制错误率, LRL的懒惰学习可以有效地对电力系统的下一状态进行预测.因此, LRL可以提供准确的AGC机组动作指令.

    在应对多区域大规模互联电网的经济调度和发电控制问题时, REG控制器完全可以取代传统的组合算法方法.

    图 11图 12可以看出, 由于仿真采用了平行系统, 降低了使用的真实仿真时间, 由于平行系统进行了迭代, 加速了仿真的过程.

    为了解决多区域大规模互联电网经济调度和发电控制中存在的协同问题, 本文提出了一种REG框架.该框架可作为一种传统发电调控框架的替代.然后, 为REG控制器提出了一种基于人工社会-计算实验-平行执行方法的懒惰学习算法.基于REG控制器的LRL算法的特征可以总结如下:

    1) 本文提出了一种统一时间尺度的REG控制框架, 并提出一种基于REG控制器的LRL算法.可以有效地对电力系统的下一运行状态进行预测并且输出满足UC问题的约束动作指令, 取得最优的控制效果.

    2) LRL中的强化学习网络具有同时产生多个输出的能力.因此, 基于REG控制器LRL的可以不断地为存在于多区域大规模互联电网的所有AGC机组输出发电命令.

    3) 通过搭建平行系统, 使得基于LRL的REG控制器可以用于解决多区域大规模互联电网经济调度和发电控制问题.

    各算法重要参数设置如下:

    1) PID控制:比例系数$k_{\mathrm{P}}=-0.006031543250198, $积分系数$k_{\mathrm{I}}=0.00043250;$

    2) 滑模控制器:开通/关断点$k_{\mathrm{point}}=\pm 0.1$ Hz, 开通/关断输出$k_{\mathrm{v}}=\pm80$ MW;

    3) 自抗扰控制:扩张状态观测器

    $ \begin{align*} &A = \left[ {\begin{array}{*{20}{c}} 0&{0.0001}&0&0\\ 0&0&{0.0001}&0\\ 0&0&0&{0.0001}\\ 0&0&0&0 \end{array}} \right]\\ &B = \left[ {\begin{array}{*{20}{c}} 0&0\\ 0&0\\ {0.0001}&{0.0001}\\ 0&0 \end{array}} \right]\\ &C = {\rm diag}\left\{ {\begin{array}{*{20}{c}} {0.1}&{0.1}&{0.1}&{0.1} \end{array}} \right\}\\ &D = {0_{4 \times 2}}\\ &k_1=15.0, \ k_2=5.5, \ k_3=2.0, \ k_4=1 \end{align*} $

    4) 分数阶PID控制:比例系数$k_{\mathrm{P}}=-1, $积分系数$k_{\mathrm{I}}$ $=$ $0.43250, $ $\lambda=1.3, $ $\mu=200;$

    5) 模糊逻辑控制器: $X$ (输入, $\Delta f$)在[$-$0.2, 0.2] Hz等间隔选取21个区间, $Y$ (输入, $\int \Delta f{\rm d}t$)在[$-$1, 1] Hz等间隔选取21个区间, $Z$ (输出, $\Delta P$)在[$-$150, 150] MW等间隔选取441个区间;

    6) Q学习:动作集$A=\{-300, -240, -180, -120$, $-60, 0, 60, 120, 180, 240, 300\}$, 学习率$\alpha=0.1, $概率分布常数$\beta=0.5, $未来奖励折扣系数$\gamma=0.9, $ $\lambda=0.9$;

    7) Q($\lambda$)学习: $A=\{-300, -240, -180, -120, -60, 0$, $60, 120, 180, 240, 300\}$, $\alpha=0.1$, $\beta=0.5$, $\gamma=0.9$, $\lambda=0.9$;

    8) R($\lambda$)学习: $A=\{-300, -240, -180, -120, -60, 0$, $60, 120, 180, 240, 300\}$, $\alpha=0.1$, $\beta=0.5$, $\gamma=0.9$, $\lambda=0.9$, $R_0$ $=0;$

    9) 对于所有用于UC的优化算法:进化代数$N_{\mathrm{g}}=50$, 种群数目$P_{\mathrm{s}}=10$;

    10) 对于所有用于ED的优化算法:进化代数$N_{\mathrm{g}}=30$, 种群数目$P_{\mathrm{s}}=10$;

    11) 对于所有用于GCD的优化算法:进化代数$N_{\mathrm{g}}=5$, 种群数目$P_{\mathrm{s}}=10$;

    12) 固定比例GCD控制: ${k_j} = {{\Delta P_j^{\max }}}/ {{\sum {\Delta P_j^{\max }} }}\Delta {P_j}$, $j$ $= 1, 2, \cdots, {J_i}$, $i = 1, 2, \cdots, 3$.


  • 本文责任编委 王占山
  • 图  1  传统发电调控框架

    Fig.  1  Framework of conventional generation control

    图  2  两区电力系统的AGC模型

    Fig.  2  AGC model of two-area power system

    图  3  平行发电控制系统

    Fig.  3  Parallel generation control systems

    图  4  基于REG的LRL控制器的流程图

    Fig.  4  Procedures of LRL based REG controller

    图  5  平行系统下基于REG控制器的LRL算法的流程图

    Fig.  5  Procedures of LRL based REG controller under parallel systems

    图  6  新英格兰电力系统结构图

    Fig.  6  Structure of New-England power system

    图  7  光伏、电动汽车、风电、负荷曲线

    Fig.  7  Curves of photo-voltaic power (PV), electric vehicle (EV), wind power and load

    图  8  仿真统计结果

    Fig.  8  Statistical result

    图  9  仿真统计结果(频率偏差)

    Fig.  9  Statistical result of frequency deviation

    图  10  仿真统计结果(区域控制误差)

    Fig.  10  Statistical result of area control error

    图  11  平行系统频率偏差收敛曲线

    Fig.  11  Convergence curve of frequency deviation obtained by the parallel systems

    图  12  平行系统区域控制误差收敛曲线

    Fig.  12  Convergence curve of area control error obtained by the parallel systems

    表  1  频率调节方式与传统发电调控框架之间的关系

    Table  1  Relationship between regulation processes and conventional generation control framework

    传统发电控制调节方式算法类型时间间隔(s)输入输出
    UC三次调频优化算法86 400$ PD_{i, t} $$u_{i, t, j}, P_{j, t}$
    ED二次调频优化算法900 $PD_i$$P_{i, j}$
    AGC二次调频控制算法4$e_{i}, \Delta f_i$$ \Delta P_i$
    GCD二次调频优化算法4 $\Delta P_i$$\Delta P_{i, j}$
    下载: 导出CSV

    表  2  懒惰强化学习输入输出量

    Table  2  Inputs and outputs of lazy reinforcement learning

    输入输出懒惰学习强化网络懒惰强化学习
    输入量$\Delta {f_i}, {e_i}, {\bf \it {A}}$$\Delta {F'_{i, (t + 1)}}$$\Delta {f_i}, {e_i}$
    输出量${\Delta {f'_{i, (t + 1)}}}$$\Delta {P_{i, j}}, $
    $i = 1, 2, \cdots, {J_i}$
    $\Delta {P_{i, j}}, $
    $i = 1, 2, \cdots, {J_i}$
    下载: 导出CSV

    表  3  仿真所用的算法

    Table  3  Algorithms for this simulation

    序号UCEDAGCGCD
    1模拟退火算法(SAA)SAAPID控制SAA
    2多元优化(MVO)MVO滑模控制器MVO
    3遗传算法(GA)GA自抗扰控制GA
    4灰狼算法(GWO)GWO分数阶PID控制GWO
    5粒子群优化(PSO)PSO模糊逻辑控制器PSO
    6生物地理优化(BBO)BBOQ学习BBO
    7飞蛾扑火算法(MFO)MFOQ($\lambda$)学习MFO
    8鲸鱼群算法(WOA)WOAR($\lambda$)学习WOA
    9固定比例
    10松弛人工神经网络(RANN)
    11懒惰强化学习(LRL)
    下载: 导出CSV

    表  4  各对比算法的缩写

    Table  4  Abbreviation of compared algorithms

    缩写全称意义
    UCUnit commitment机组组合
    EDEconomical dispatch经济调度
    AGCAutomatic generation control自动发电控制
    GCDGeneration command dispatch发电指令调度
    RLReinforcement learning强化学习
    REGReal-time economic generation dispatch and control实时经济调度与控制
    ACPArtificial societies- computational experiments-parallel execution人工社会-计算实验-平行执行
    CPSCyber-physical system信息物理系统
    CPSSCyber-physical-social systems信息物理社会融合系统
    LRLLazy reinforcement learning懒惰强化学习
    RANNRelaxed artificial neural network松弛人工神经网络
    SAASimulated annealing algorithm模拟退火算法
    MVOMulti-verse optimizer多元优化
    GAGenetic algorithm遗传算法
    GWOGray wolf optimizer灰狼算法
    PSOParticle swarm optimization粒子群优化
    BBOBiogeography-based optimization生物地理优化
    MFOMoth-flame optimization飞蛾扑火算法
    WOAWhale optimization algorithm鲸鱼群算法
    LOOCVLeave-one-out cross-validation留一法交叉校验
    BPNNBack propagation neural network反向传播神经网络
    下载: 导出CSV

    表  5  机组参数表

    Table  5  Parameters of the generators

    机组编号30373931323334353638
    机组最小连续开机时间$T_j^{\mathrm{min-up}}$ (h)8855633111
    机组最小连续关机时间$T_j^{\mathrm{min-down}}$ (h)8855633111
    机组最大出力$P_j^{\min}$ (MW)4554551301301628085555555
    机组最小出力$P_j^{\max}$ (MW)1501502020252025101010
    热启动成本$SU_{\mathrm{H}, j}$ (t/(MW $\cdot$ h))4 5005 000550560900170260303030
    冷启动成本$SU_{\mathrm{C}, j}$ (t/(MW $\cdot$ h))9 00010 0001 1001 1201 800340520606060
    冷启动时间$T_j^{\mathrm{cold}}$ (h)5544422000
    ED成本系数$a_j$0.6750.450.5630.5630.450.5630.5630.3370.3150.287
    ED成本系数$b_j$360240299299240299299181168145
    ED成本系数$c_j$11 2507 5109 3909 3907 5109 3909 3905 5305 2505 270
    ED排放系数$\alpha _j$3.3751.1251.6891.5761.171.5761.5760.6740.630.574
    ED排放系数$\beta _j$1 800600897837624837837362404290
    ED排放系数$\gamma _j$56 25018 77028 17026 29019 53026 29026 29011 06013 80010 540
    下载: 导出CSV

    表  6  机组组合问题参数表

    Table  6  Parameters for unit commitment problem

    UC问题的负荷时段(h)123456789101112
    UC问题的负荷值$PD_t$ (WM)7007508509501 0001 1001 1501 2001 3001 4001 4501 500
    UC问题的旋转备用$SR_t$ (WM)70758595100110115120130140145150
    UC问题的负荷时段(h)131415161718192021222324
    UC问题的负荷值$PD_t$ (WM)1 4001 3001 2001 0501 0001 1001 2001 4001 3001 100900800
    UC问题的旋转备用$SR_t$ (WM)1401301201051001101201401301109080
    下载: 导出CSV

    表  7  UC算法仿真结果统计

    Table  7  Statistic of simulation results obtained by the UC

    算法ACE1 (MW) $\Delta f_1$ (Hz)ACE2 (MW)$\Delta f_2$ (Hz)ACE3 (MW)$\Delta f_3$ (Hz)
    SAA573.89040.038235258.77980.037525 527.97461.3137
    MVO575.36720.038274259.92650.0375585 532.62021.3154
    GA603.43910.041805258.64840.0410416 052.28061.4428
    GWO616.0640.043454257.61070.0426536 290.08431.5017
    PSO575.71720.038264260.35430.0375555 535.16441.3159
    BBO574.27690.038213259.3490.0374995 522.56911.3131
    MFO569.71590.037685259.14990.0369845 441.34871.2932
    WOA645.59060.047207255.82460.046396 844.85091.6369
    RANN553.40320.039963224.17480.0390835 431.28441.2907
    LRL441.92250.010254389.99050.00956121 023.19190.23743
    下载: 导出CSV

    表  8  ED算法仿真结果统计

    Table  8  Statistic of simulation results obtained by the ED algorithms

    算法ACE1 (MW) $\Delta f_1$ (Hz)ACE2 (MW)$\Delta f_2$ (Hz)ACE3 (MW)$\Delta f_3$ (Hz)
    SAA587.84140.039976258.27670.0392345 777.57551.3756
    MVO588.1770.039978258.51250.0392455 782.35671.3768
    GA589.40910.040193257.63350.0394795 818.98091.3856
    GWO587.65470.039959258.09230.0392285 780.46641.3763
    PSO587.8580.039915258.81110.0391825 771.29241.3741
    BBO588.01980.039924258.92110.0391925 770.46081.3739
    MFO588.18360.039988258.49480.039255 778.8441.3759
    WOA588.69740.040103257.71130.0393875 805.40461.3823
    RANN553.40320.039963224.17480.0390835 431.28441.2907
    LRL441.92250.010254389.99050.00956121 023.19190.23743
    下载: 导出CSV

    表  9  AGC算法仿真结果统计

    Table  9  Statistic of simulation results obtained by the AGC algorithms

    算法ACE1 (MW) $\Delta f_1$ (Hz)ACE2 (MW)$\Delta f_2$ (Hz)ACE3 (MW)$\Delta f_3$ (Hz)
    PID控制591.30810.040435257.5180.0397175 854.01021.3939
    滑动模式控制器590.73350.040374257.44950.0396565 844.72911.3916
    自抗扰控制591.37710.040424257.67730.0397075 853.04881.3937
    分数阶PID控制591.10070.040437257.30690.0397155 852.74781.3936
    模糊逻辑控制591.9510.040504257.60240.0397815 863.47851.3963
    Q学习591.36030.040452257.45720.0397275 855.13391.3942
    Q($\lambda$)学习591.07720.040419257.44210.0396965 849.97051.393
    R($\lambda$)学习591.72820.040494257.4690.039775 862.78321.3961
    RANN553.40320.039963224.17480.0390835 431.28441.2907
    LRL441.92250.010254389.99050.00956121 023.19190.23743
    下载: 导出CSV

    表  10  GCD算法仿真结果统计

    Table  10  Statistic of simulation results obtained by the GCD algorithms

    算法ACE1 (MW) $\Delta f_1$ (Hz)ACE2 (MW)$\Delta f_2$ (Hz)ACE3 (MW)$\Delta f_3$ (Hz)
    SAA591.30810.040435257.5180.0397175 854.01021.3939
    MVO590.73350.040374257.44950.0396565 844.72911.3916
    GA591.37710.040424257.67730.0397075 853.04881.3937
    GWO591.10070.040437257.30690.0397155 852.74781.3936
    PSO591.9510.040504257.60240.0397815 863.47851.3963
    BBO591.36030.040452257.45720.0397275 855.13391.3942
    MFO591.07720.040419257.44210.0396965 849.97051.393
    WOA591.72820.040494257.4690.039775 862.78321.3961
    固定比例509.03910.028801282.03320.0276093 973.7430.94347
    RANN553.40320.039963224.17480.0390835 431.28441.2907
    LRL441.92250.010254389.99050.00956121 023.19190.23743
    下载: 导出CSV
  • [1] 王宗杰, 郭志忠, 王贵忠, 吴志琪.高比例可再生能源电网功率平衡的实时调度临界时间尺度研究.中国电机工程学报, 2017, 37(S1):39-46 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=zgdjgcxb2017z1005

    Wang Zong-Jie, Guo Zhi-Zhong, Wang Gui-Zhong, Wu Zhi-Qi. On the critical timescale of real-time dispatch considering power balancing under power systems with high proportional intermittent power sources. Proceedings of the CSEE, 2017, 37(S1):39-46 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=zgdjgcxb2017z1005
    [2] Liang Z T, Liang J, Zhang L, Wang C F, Yun Z H, Zhang X. Analysis of multi-scale chaotic characteristics of wind power based on Hilbert-Huang transform and Hurst analysis. Applied Energy, 2015, 159:51-61 doi: 10.1016/j.apenergy.2015.08.111
    [3] 覃岭, 林济铿, 戴赛, 王海林, 郑卫红.基于改进轻鲁棒优化模型的风、火机组组合.中国电机工程学报, 2016, 36(15):4108-4118 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=zgdjgcxb201615011

    Qin Ling, Lin Ji-Keng, Dai Sai, Wang Hai-Lin, Zheng Wei-Hong. Improved light robust optimization model based wind-thermal unit commitment. Proceedings of the CSEE, 2016, 36(15):4108-4118 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=zgdjgcxb201615011
    [4] 陈典, 钟海旺, 夏清.基于全成本电价的安全约束经济调度.中国电机工程学报, 2016, 36(5):1190-1199 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=zgdjgcxb201605003

    Chen Dian, Zhong Hai-Wang, Xia Qing. Security constrained economic dispatch based on total cost price. Proceedings of the CSEE, 2016, 36(5):1190-1199 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=zgdjgcxb201605003
    [5] 范刘洋, 汪可友, 吴巍, 李国杰, 葛延峰.多时间尺度的电力系统鲁棒调度研究.电网技术, 2017, 41(5):1576-1582 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=dwjs201705030

    Fan Liu-Yang, Wang Ke-You, Wu Wei, Li Guo-Jie, Ge Yan-Feng. A study of multi-time scale robust schedule and dispatch methodology. Power System Technology, 2017, 41(5):1576-1582 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=dwjs201705030
    [6] 胡林, 申建建, 唐海.考虑复杂约束的水电站AGC控制策略.中国电机工程学报, 2017, 37(19):5643-5654 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=zgdjgcxb201719013

    Hu Lin, Shen Jian-Jian, Tang Hai. Automatic generation control strategies of hydropower plant considering complex constraints. Proceedings of the CSEE, 2017, 37(19):5643-5654 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=zgdjgcxb201719013
    [7] Yu T, Wang Y M, Ye W J, Zhou B, Chan K W. Stochastic optimal generation command dispatch based on improved hierarchical reinforcement learning approach. IET Generation. Transmission and Distribution, 2011, 5(8):789-797 doi: 10.1049/iet-gtd.2010.0600
    [8] Zhang X S, Yu T, Yang B, Li L. Virtual generation tribe based robust collaborative consensus algorithm for dynamic generation command dispatch optimization of smart grid. Energy, 2016, 101:34-51 doi: 10.1016/j.energy.2016.02.009
    [9] 张孝顺, 余涛, 唐捷.基于分层相关均衡强化学习的CPS指令优化分配算法.电力系统自动化, 2015, 39(8):80-86 http://d.old.wanfangdata.com.cn/Periodical/dlxtzdh201508013

    Zhang Xiao-Shun, Yu Tao, Tang Jie. Optimal CPS command dispatch based on hierarchically correlated equilibrium reinforcement learning. Automation of Electric Power Systems, 2015, 39(8):80-86 http://d.old.wanfangdata.com.cn/Periodical/dlxtzdh201508013
    [10] Abass Y A, Al-Awami A T, Jamal T. Integrating automatic generation control and economic dispatch for microgrid real-time optimization. In:Proceedings of the 2016 IEEE Power and Energy Society General Meeting (PESGM). Boston, USA:IEEE, 2016. 1-5
    [11] Yang M, Wang M Q, Cheng F L, Lee W J. Robust economic dispatch considering automatic generation control with affine recourse process. International Journal of Electrical Power and Energy Systems, 2016, 81:289-298 doi: 10.1016/j.ijepes.2016.02.033
    [12] Li N, Zhao C H, Chen L J. Connecting automatic generation control and economic dispatch from an optimization view. IEEE Transactions on Control of Network Systems, 2016, 3(3):254-264 doi: 10.1109/TCNS.2015.2459451
    [13] 唐捷, 张泽宇, 程乐峰, 张孝顺, 余涛.基于CEQ(λ)强化学习算法的微电网智能发电控制.电测与仪表, 2017, 54(1):39-45 doi: 10.3969/j.issn.1001-1390.2017.01.007

    Tang Jie, Zhang Ze-Yu, Cheng Le-Feng, Zhang Xiao-Shun, Yu Tao. Smart generation control for micro-grids based on correlated equilibrium Q(λ) learning algorithm. Electrical Measurement and Instrumentation, 2017, 54(1):39-45 doi: 10.3969/j.issn.1001-1390.2017.01.007
    [14] 余涛, 周斌, 陈家荣.基于多步回溯Q(λ)学习的互联电网随机最优CPS控制.电工技术学报, 2011, 26(6):179-186 http://www.cnki.com.cn/Article/CJFDTOTAL-DGJS201106029.htm

    Yu Tao, Zhou Bin, Chan Ka-Wing. Stochastic optimal CPS control for interconnected power grids using multi-step backtrack Q(λ) learning. Transactions of China Electrotechnical Society, 2011, 26(6):179-186 http://www.cnki.com.cn/Article/CJFDTOTAL-DGJS201106029.htm
    [15] 王飞跃.人工社会、计算实验、平行系统—关于复杂社会经济系统计算研究的讨论.复杂系统与复杂性科学, 2004, 1(4):25-35 doi: 10.3969/j.issn.1672-3813.2004.04.002

    Wang Fei-Yue. Artificial societies, computational experiments, and parallel systems:a discussion on computational theory of complex social-economic systems. Complex Systems and Complexity Science, 2004, 1(4):25-35 doi: 10.3969/j.issn.1672-3813.2004.04.002
    [16] Wang F Y. Parallel control and management for intelligent transportation systems:concepts, architectures, and applications. IEEE Transactions on Intelligent Transportation Systems, 2010, 11(3):630-638 doi: 10.1109/TITS.2010.2060218
    [17] 白天翔, 王帅, 沈震, 曹东璞, 郑南宁, 王飞跃.平行机器人与平行无人系统:框架、结构、过程、平台及其应用.自动化学报, 2017, 43(2):161-175 http://www.aas.net.cn/CN/abstract/abstract18998.shtml

    Bai Tian-Xiang, Wang Shuai, Shen Zhen, Cao Dong-Pu, Zheng Nan-Ning, Wang Fei-Yue. Parallel robotics and parallel unmanned systems:framework, structure, process, platform and applications. Acta Automatica Sinica, 2017, 43(2):161-175 http://www.aas.net.cn/CN/abstract/abstract18998.shtml
    [18] 袁勇, 王飞跃.平行区块链:概念、方法与内涵解析.自动化学报, 2017, 43(10):1703-1712 http://www.aas.net.cn/CN/Y2017/V43/I10/1703

    Yuan Yong, Wang Fei-Yue. Parallel blockchain:concept, methods and issues. Acta Automatica Sinica, 2017, 43(10):1703-1712 http://www.aas.net.cn/CN/Y2017/V43/I10/1703
    [19] 李力, 林懿伦, 曹东璞, 郑南宁, 王飞跃.平行学习—机器学习的一个新型理论框架.自动化学报, 2017, 43(1):1-8 doi: 10.3969/j.issn.1003-8930.2017.01.001

    Li Li, Lin Yi-Lun, Cao Dong-Pu, Zheng Nan-Ning, Wang Fei-Yue. Parallel learning—a new framework for machine learning. Acta Automatica Sinica, 2017, 43(1):1-8 doi: 10.3969/j.issn.1003-8930.2017.01.001
    [20] 熊刚, 王飞跃, 侯家琛, 董西松, 张家麟, 付满昌.提高核电站安全可靠性的平行系统方法.系统工程理论与实践, 2012, 32(5):1018-1026 doi: 10.3969/j.issn.1000-6788.2012.05.014

    Xiong Gang, Wang Fei-Yue, Hou Jia-Chen, Dong Xi-Song, Zhang Jia-Lin, Fu Man-Chang. To improve safety and reliability of nuclear power plant with parallel system method. Systems Engineering-Theory and Practice, 2012, 32(5):1018-1026 doi: 10.3969/j.issn.1000-6788.2012.05.014
    [21] Wang F Y. The emergence of intelligent enterprises:from CPS to CPSS. IEEE Intelligent Systems, 2010, 25(4):85-88 doi: 10.1109/MIS.2010.104
    [22] 邓建玲, 王飞跃, 陈耀斌, 赵向阳.从工业4.0到能源5.0:智能能源系统的概念、内涵及体系框架.自动化学报, 2015, 41(12):2003-2016 http://www.aas.net.cn/CN/abstract/abstract18774.shtml

    Deng Jian-Ling, Wang Fei-Yue, Chen Yao-Bin, Zhao Xiang-Yang. From industries 4.0 to energy 5.0:concept and framework of intelligent energy systems. Acta Automatica Sinica, 2015, 41(12):2003-2016 http://www.aas.net.cn/CN/abstract/abstract18774.shtml
    [23] 王进, 周宇轩, 戴伟, 李亚峰, 宋翼颉. NSGA-Ⅱ算法的改进及其在风火机组多目标动态组合优化中的应用.电力系统及其自动化学报, 2017, 29(2):107-111 doi: 10.3969/j.issn.1003-8930.2017.02.018

    Wang Jin, Zhou Yu-Xuan, Dai Wei, Li Ya-Feng, Song Yi-Jie. Improvement of NSGA-Ⅱ algorithm and its application to multi-objective dynamic unit commitment optimization with wind-thermal power. Proceedings of the CSU-EPSA, 2017, 29(2):107-111 doi: 10.3969/j.issn.1003-8930.2017.02.018
    [24] 刘洪, 陈星屹, 李吉峰, 徐科.基于改进CPSO算法的区域电热综合能源系统经济调度.电力自动化设备, 2017, 37(6):193-200 http://d.old.wanfangdata.com.cn/Periodical/dlzdhsb201706027

    Liu Hong, Chen Xing-Yi, Li Ji-Feng, Xu Ke. Economic dispatch based on improved CPSO algorithm for regional power-heat integrated energy system. Electric Power Automation Equipment, 2017, 37(6):193-200 http://d.old.wanfangdata.com.cn/Periodical/dlzdhsb201706027
    [25] 李正茂, 张峰, 梁军, 贠志皓, 张旭.计及附加机会收益的冷热电联供型微电网动态调度.电力系统自动化, 2015, 39(14):8-15 doi: 10.7500/AEPS20141109002

    Li Zheng-Mao, Zhang Feng, Liang Jun, Yun Zhi-Hao, Zhang Xu. Dynamic scheduling of CCHP type of microgrid considering additional opportunity income. Automation of Electric Power Systems, 2015, 39(14):8-15 doi: 10.7500/AEPS20141109002
    [26] Faris H, Aljarah I, Mirjalili S. Training feedforward neural networks using multi-verse optimizer for binary classification problems. Applied Intelligence, 2016, 45(2):322-332 doi: 10.1007/s10489-016-0767-1
    [27] Yang B, Jiang L, Wang L, Yao W, Wu Q H. Nonlinear maximum power point tracking control and modal analysis of DFIG based wind turbine. International Journal of Electrical Power and Energy Systems, 2016, 74:429-436 doi: 10.1016/j.ijepes.2015.07.036
    [28] Zeng G Q, Chen J, Dai Y X, Li L M, Zheng C W, Chen M R. Design of fractional order PID controller for automatic regulator voltage system based on multi-objective extremal optimization. Neurocomputing, 2015, 160:173-184 doi: 10.1016/j.neucom.2015.02.051
    [29] Pan I, Das S. Fractional-order load-frequency control of interconnected power systems using chaotic multi-objective optimization. Applied Soft Computing, 2015, 29:328-344 doi: 10.1016/j.asoc.2014.12.032
    [30] Shabani H, Vahidi B, Ebrahimpour M. A robust PID controller based on imperialist competitive algorithm for load-frequency control of power systems. ISA Transactions, 2013, 52(1):88-95 doi: 10.1016/j.isatra.2012.09.008
    [31] Mohanty P K, Sahu B K, Pati T K, Panda S, Kar K S. Design and analysis of fuzzy PID controller with derivative filter for AGC in multi-area interconnected power system. IET Generation, Transmission and Distribution, 2016, 10(15):3764-3776 doi: 10.1049/iet-gtd.2016.0106
    [32] Dahiya P, Sharma V, Naresh R. Automatic generation control using disrupted oppositional based gravitational search algorithm optimised sliding mode controller under deregulated environment. IET Generation, Transmission and Distribution, 2016, 10(16):3995-4005 doi: 10.1049/iet-gtd.2016.0175
    [33] 姚书龙, 刘志刚, 张桂南, 向川.基于自抗扰控制的牵引网网压低频振荡抑制方法.电网技术, 2016, 40(1):207-213 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=dwjs201601028

    Yao Shu-Long, Liu Zhi-Gang, Zhang Gui-Nan, Xiang Chuan. A novel approach based on ADRC to traction network voltage low frequency oscillation suppression research. Power System Technology, 2016, 40(1):207-213 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=dwjs201601028
    [34] 杨平, 董国威.互联电网AGC的分数阶PID控制.电力系统及其自动化学报, 2013, 25(3):124-129 doi: 10.3969/j.issn.1003-8930.2013.03.024

    Yang Ping, Dong Guo-Wei. Fractional order PID control for AGC of interconnected power system. Proceedings of the CSU-EPSA, 2013, 25(3):124-129 doi: 10.3969/j.issn.1003-8930.2013.03.024
    [35] 张孝顺, 李清, 余涛, 陈柏熹.基于协同一致性迁移Q学习算法的虚拟发电部落AGC功率动态分配.中国电机工程学报, 2017, 37(5):1455-1466 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=zgdjgcxb201705020

    Zhang Xiao-Shun, Li Qing, Yu Tao, Chen Bai-Xi. Collaborative consensus transfer Q-learning based dynamic generation dispatch of automatic generation control with virtual generation tribe. Proceedings of the CSEE, 2017, 37(5):1455-1466 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=zgdjgcxb201705020
    [36] 余涛, 袁野.基于平均报酬模型全过程R(λ)学习的互联电网CPS最优控制.电力系统自动化, 2010, 34(21):27-33 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=dlxtzdh201021005

    Yu Tao, Yuan Ye. An average reward model based whole process R(λ)-learning for optimal CPS control. Automation of Electric Power Systems, 2010, 34(21):27-33 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=dlxtzdh201021005
    [37] Zhang Y, Liu X J, Qu B. Distributed model predictive load frequency control of multi-area power system with DFIGs. IEEE/CAA Journal of Automatica Sinica, 2017, 4(1):125-135 doi: 10.1109/JAS.2017.7510346
  • 期刊类型引用(6)

    1. 顾扬,程玉虎,王雪松. 基于优先采样模型的离线强化学习. 自动化学报. 2024(01): 143-153 . 本站查看
    2. 丁勇军,王建宏,罗熙,张金龙. 紧格式无模型自适应控制在四旋翼飞行器中的应用. 电光与控制. 2024(06): 87-93 . 百度学术
    3. 刘蔚,张野,吴应双,杨子千,唐王倩云,刘明顺,王寅. 基于改进价值分解网络的集成虚拟电厂的互联电网动态最优协作控制. 供用电. 2024(12): 62-71 . 百度学术
    4. 张浩,仇晨光,闫朝阳,柴赟. 基于人工神经网络的电网运行维护优化决策策略. 高电压技术. 2023(S1): 122-127 . 百度学术
    5. 俞虹,唐诚旋,蒋群群,陈珏伊,张秀. 基于强化学习的电力系统应急物资调度算法. 电子设计工程. 2021(23): 181-184+189 . 百度学术
    6. 杨林瑶,陈思远,王晓,张俊,王成红. 数字孪生与平行系统:发展现状、对比及展望. 自动化学报. 2019(11): 2001-2031 . 本站查看

    其他类型引用(8)

  • 加载中
  • 图(12) / 表(10)
    计量
    • 文章访问数:  3192
    • HTML全文浏览量:  356
    • PDF下载量:  563
    • 被引次数: 14
    出版历程
    • 收稿日期:  2018-04-17
    • 录用日期:  2018-07-02
    • 刊出日期:  2019-04-20

    目录

    /

    返回文章
    返回