2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

迁移蜂群优化算法及其在无功优化中的应用

徐茂鑫 张孝顺 余涛

徐茂鑫, 张孝顺, 余涛. 迁移蜂群优化算法及其在无功优化中的应用. 自动化学报, 2017, 43(1): 83-93. doi: 10.16383/j.aas.2017.c150791
引用本文: 徐茂鑫, 张孝顺, 余涛. 迁移蜂群优化算法及其在无功优化中的应用. 自动化学报, 2017, 43(1): 83-93. doi: 10.16383/j.aas.2017.c150791
XU Mao-Xin, ZHANG Xiao-Shun, YU Tao. Transfer Bees Optimizer and Its Application on Reactive Power Optimization. ACTA AUTOMATICA SINICA, 2017, 43(1): 83-93. doi: 10.16383/j.aas.2017.c150791
Citation: XU Mao-Xin, ZHANG Xiao-Shun, YU Tao. Transfer Bees Optimizer and Its Application on Reactive Power Optimization. ACTA AUTOMATICA SINICA, 2017, 43(1): 83-93. doi: 10.16383/j.aas.2017.c150791

迁移蜂群优化算法及其在无功优化中的应用

doi: 10.16383/j.aas.2017.c150791
基金项目: 

国家自然科学基金 51177051, 51477055

国家重点基础研究发展计划(973计划) 2013CB228205

详细信息
    作者简介:

    徐茂鑫 华南理工大学电力学院硕士研究生.主要研究方向为电力系统优化运行与控制.E-mail:shuifengderen@163.com

    余涛 华南理工大学电力学院教授.主要研究方向为非线性协同控制理论,人工智能技术在电力系统运行、规划的应用.E-mail:taoyu1@scut.edu.cn

    通讯作者:

    张孝顺 华南理工大学电力学院博士研究生.主要研究方向为协同控制和优化理论,人工智能技术在电力系统运行的应用.本文通信作者. E-mail:xszhang1990@sina.cn.

Transfer Bees Optimizer and Its Application on Reactive Power Optimization

Funds: 

and National Natural Science Foundation of China 51177051, 51477055

Supported by National Key Basic Research Program of China (973 Program) 2013CB228205

More Information
    Author Bio:

    XU Mao-Xin Master student at the School of Electric Power, South China University of Technology. His re- search interest covers power system optimal operation and control.

    YU Tao Professor at the the School of Electric Power, South China University of Technology. His research interest covers nonlinear and coordinated control theory, arti-cial intelligence techniques in planning and operation of power systems.

    Corresponding author: ZHANG Xiao-Shun Ph. D. can-didate at the School of Electric Power, South China University of Technology. His research inter-est covers coordinated control and optimal theory, arti-cial intelligence techniques in operation of power systems. Cor-responding author of this paper. E-mail:xszhang1990@sina.cn.
  • 摘要: 提出了一种全新的迁移蜂群优化算法,并应用到电力系统无功优化问题.利用Q学习的试错与奖励机制构造蜂群的学习模式,并采用强化学习的行为迁移技术实现蜂群的迁移学习.为解决算法求解多变量优化问题遇到的维数灾难,提出了状态-组合动作链的方式将状态-动作空间分解成若干低维空间,明显降低算法的计算难度.仿真结果表明:本文所提算法可以保证最优解质量的同时,寻优速度能提高到传统启发式智能算法的4~67倍左右,非常适用于大规模复杂系统非线性规划问题的快速求解.
  • 电力系统运行中经常会遇到机组组合、经济调度、无功优化等非线性规划问题[1-2].目前,解决此类问题的方法主要有牛顿法[3]、内点法[4]等传统优化方法以及基于概率搜索的启发式群智能算法[5-13].启发式算法因其对具体数学模型的依赖程度较低,易于处理非线性和离散性优化问题等特点而逐渐成为研究的热点.

    人工蜂群算法 (Artificial bee colony,ABC)[10-11]是Karaboga 于2005 年提出的一种启发式群智能算法.算法启发于蜜蜂觅食行为,并因其具有结构简单、易于实现以及局部搜索能力强等特点而逐渐在控制、通信、数值计算等多个领域得到广泛应用;在电力系统领域中,人工蜂群算法也被成功应用于解决配网规划、负荷分配、分布式电源优化布局等问题[5-6].

    类似于遗传 (Genetic algorithm,GA)[7]、蚁群优化 (Ant colony optimization,ACO)[8]、粒子群优化(Particle swarm optimization,PSO)[9] 等传统群体智能算法,人工蜂群算法的寻优性能主要依靠群体智慧的特性,蜂群个体缺乏自主学习的能力,其搜索行为是完全随机的.这种随机的特性会使得算法带有一定的盲目性,从而影响算法在复杂多目标环境中的优化效率. 此外,人工蜂群算法中各个优化任务是孤立的,在学习新任务的时候没有利用过去的学习经验和结果,从而使得每次执行新的优化任务都需要耗费较长的寻优时间,难以满足大规模复杂系统的快速寻优的要求.

    迁移学习[14-17]是近年引起广泛关注和研究的一种学习构架,旨在根据任务之间的相似性,利用过去学习经验和结果,有效提高新任务的学习效率. 基于此,本文提出一种迁移蜂群优化(Transfer bees optimizer,TBO) 算法,以期望解决大规模复杂系统的快速寻优问题.相比传统人工智能算法,本文所提的TBO 算法有以下创新和优势:

    1) 利用 Q学习的相关技术[18-19]构造一种全新的具有学习能力的蜜蜂群体,并实现蜂群的知识学习、储存和迁移;

    2) 首次应用状态-动作组链对高维的状态-动作空间进行分解,有效解决了传统Q 学习的"维数灾难" 问题;

    3) 蜂群中多个不同角色蜜蜂的同时试错探索,可以明显加速状态-动作空间${{Q}}$ 的更新效率;

    4) 根据不同优化任务之间的相似性,TBO可以高效利用已学习的知识来加速新优化任务的学习,极大提高了算法的收敛速度.

    为了验证算法的性能,本文利用电力系统的典型非线性规划问题之一---无功优化,分别引入了ABC、ACO、 PSO、Ant-Q[12]、GA、群搜索 (Group search optimizer,GSO)[13]、量子遗传算法(Quantum genetic algorithm,QGA) [20] 和合作型协同进化遗传算法(Cooperative co-evolutionary genetic algorithms,CCGA)[21] 这8种智能算法进行了IEEE 118 节点和IEEE 300 节点系统仿真比较分析.

    人工蜂群的寻优模式如图 1 所示.算法中采蜜蜂在其蜜源附近随机地搜索新的蜜源直到蜜源枯竭,同时通过摇摆舞向观察蜂传递蜜源信息;观察蜂根据采蜜蜂分享的蜜源信息概率地选择一个较好的蜜源进行搜索;侦查蜂在全域内随机地搜索新的蜜源.

    图 1  人工蜂群寻优模式
    Fig. 1  Searching mode of ABC

    算法中采蜜蜂承担了主要的搜索任务,从而使得算法具有较强的局部搜索能力;观察蜂的协助则增强了对较优蜜源的搜索能力,从而加速算法收敛;侦查蜂的引入则增加搜索全局最优蜜源的概率. 此外当蜜源枯竭后,采蜜蜂则会在全域内重新随机选择新的蜜源,从而提高算法跳出局部收敛的能力.

    1.2.1   知识获取

    传统ABC 算法通过蜂群的协同对蜜源空间进行概率搜索,以期直接获得问题的最优解.而强化学习则是一类根据环境反馈来学习的技术,学习的优化目标是动态的策略. 因此,基于经典Q学习的试错与奖励机制的蜂群学习模式与传统人工蜂群的简单个体交互模式有较大的不同.

    图 2 所示,TBO 中保留了侦查蜂和采蜜蜂的分工.蜂群首先从状态-动作空间$Q$中获取知识并制定行动策略对蜜源环境进行试错学习,然后将蜜源环境提供的奖励反馈到空间${{Q}}$ 调整策略,直到获得最优策略使得蜂群获得的回报最大.

    图 2  TBO 学习模式
    Fig. 2  Learning mode of TBO
    1.2.2   状态-动作空间分解

    目前,状态-动作空间${{Q}}$ 主要用 lookup 表实现[18],表格的大小等于$S× A$ 的笛卡尔乘积中元素的个数. 因此,当求解问题的规模变大时,空间${{Q}}$ 的元素个数将呈指数增加,从而导致迭代计算变得难以实现. 针对此类 "维数灾难" 问题,最常用的方法是分层强化学习方法[22-23],然而优化任务的分解分层设计及联系往往难以确定,导致算法容易收敛于局部最优解.

    为此本文依据蜜源路径优化的过程,将高维的状态-动作空间${{Q}}$分解成多个相互联系的低维度状态-动作组合链. 如图 3 所示,在$m$维的解空间${{ A}}$ $({\pmb A}_{1},$ $ {\pmb A}_{2},$ ${\pmb A}_{3},$ $\cdots,$ ${\pmb A}_{m})$内,每个变量${\pmb A}_{i}$ 分别指定一个$ Q^{i}$ 与之对应,变量之间依靠各自的$ Q^{i}$ 空间相互联系. 蜂群动作的选择是一种基于$Q^{i}$ 的链式选择过程: 当确定变量${\pmb A}_{i}$ 的动作后,以此动作作为下一个变量的当前状态,根据$Q^{i+1}$选择下一个变量的动作.

    图 3  状态-动作空间分解过程
    Fig. 3  Decomposition of state-action space

    实质上,$ Q^{i}$ 的每个元素实则与变量${\pmb A}_{i-1}$ 与${\pmb A}_{i}$构成的动作组合一一对应,是对相邻控制变量组合优劣的评价. $Q^{i}$空间的每个元素不仅仅表征在当前策略选择的蜜源的优劣,更反映了变量之间联系的紧密程度,元素值越大,变量联系越紧密,同时对应的组合动作评价也越高. 在分解后的状态-动作空间内,每个变量都对应一个较低维度的小空间,方便算法迭代计算. 空间分解后的$Q^{i}$ 更新方式如下[19]:

    \begin{equation}\label{eq1}\begin{array}{l@{~}l}Q_{k+1}^{i} (s_{k}^{ij},a_{k}^{ij} ){=}&Q_{k}^{i} (s_{k}^{ij},a_{k}^{ij}){+}\alpha [R^{ij}(s_{k}^{ij},s_{k+1}^{ij},a_{k}^{ij} )+ \\&\gamma \max \limits_{a^{i}\in A_{i} } Q_{k}^{i} (s_{k+1}^{ij},a)-Q_{k}^{i} (s_{k}^{ij},a_{k}^{ij} )] \\\end{array}\end{equation}

    (1)

    式中,上标$i$ 表示第$i$ 个可控变量,$i\in M$,$M$ 为可控变量集合;上标$j$ 表示第$j$ 只蜜蜂,$j\in N$,$N$ 为蜂群集合;$R^{ij}(s_{k},s_{k+1},a_{k})$ 是第$k$ 步迭代时刻环境由状态$s_{k}$经动作$a_{k}$ 转移到$s_{k+1}$ 后的奖励函数值; $\alpha $是学习因子; $\gamma $ 是折扣因子.

    1.2.3   动作选择策略

    Q学习的动作选择过程中经常会面临搜索和利用的权衡问题,侧重搜索时会增加全局最优解的概率但是由于对知识利用较低,算法收敛较慢; 侧重对知识的利用时会提高收敛的速度,但此时会易于陷入局部最优解.基于概率分布的动作选择策略[24] 是一种效果较佳的解决方案,但是其搜索速度依然较难把握. 本文则在基于概率分布的动作选择策略上,引入人工蜂群的协作模式,提出了一种全新的动作选择策略.

    图 2 所示,TBO算法中采蜜蜂和侦查蜂依然保持其邻域搜索和全域搜索的分工. 在传统ABC算法中,采蜜蜂每次只更新了蜜源的一个维度,这显然限制了算法的进化速度. 因此,在TBO的迭代计算中采蜜蜂对蜜源的所有维度都进行更新,具体方法如下:

    \begin{equation}\label{eq2} a_{{\rm new}}^{ij} =a^{ij}+r× (a^{ij}-a_n^{ij} )\end{equation}

    (2)

    式中,$a_{{\rm new}}^{ij}$、$a^{ij}$、${a^{ij}_ n}$分别表示新的蜜源、当前蜜源和邻域蜜源; $r$ 代表$-1 \sim$1之间的随机数.

    此外,侦查蜂采用$\varepsilon $-贪婪规则选择动作策略,如下:

    \begin{equation}\label{eq3} a_{k+1}^{ij} =\begin{cases} \arg \max \limits_{a'\in A^{i}} Q^{i}(s_{k+1}^{ij},a'),&q<\varepsilon \\a_{s},&{\mbox {其他}} \\\end{cases}\end{equation}

    (3)

    式中,$\varepsilon $ 为贪婪因子; $q$ 为0$\sim $1 之间的随机数;$a_{s}$ 则是概率矩阵$P^{i}$ 在全局范围内选择的动作. 其中,$ P^{i}$的元素与$ Q^{i}$ 对应,Q值越大的动作所对应的概率值越大,从而被选中的概率也就越大. $ P^{i}$ 的更新方式如下:

    \begin{equation}\label{eq4}\begin{cases}e^{i}(s^{i},a^{i})=\dfrac{1}{Q^{i}(s^{i},a^{i})-\beta \max\limits_{a'\in A^{i}} Q^{i}(s^{i},a')} \\P^{i}(s^{i},a^{i})=\dfrac{e^{i}(s^{i},a^{i})}{\sum\limits_{a'\in A^{i}}{e^{i}(s^{i},a')} } \\\end{cases}\end{equation}

    (4)

    式中,$\beta$为差异系数; ${{e}}^{i}$ 属于中间计算矩阵. 侦查蜂基于Q值的$\varepsilon $-贪婪规则动作选择策略降低了其全域搜索的盲目性,提高蜂群对采蜜信息的利用能力.

    当一轮迭代计算完成后,采蜜蜂和侦查蜂则会根据彼此得到的奖励值大小互换角色,奖励值大的蜜蜂转换成采蜜蜂并且奖励值最大的采蜜蜂保持其位置不变.由此既保证了蜂群对当前较优蜜源的深度挖掘,又能使算法具有较强的全局搜索能力.

    根据心理学家Anderson 的思维适应性控制模型(Adaptive control of thought,ACT) 对认知行为的分类,我们可以把强化学习的迁移分为行为迁移和知识迁移,两种迁移的主要实现方式如图 4 所示[16]. 行为的迁移,即将源任务学到的策略应用到目标任务中. TBO主要采用源任务和新任务的状态-动作空间${{Q}}$转换作为蜂群的行为迁移.

    图 4  强化学习的两种迁移方式
    Fig. 4  Two transfer approaches of reinforcement learning

    行为迁移的一个关键技术是要避免负迁移现象,因为并非任意形式的迁移都是有效的,无价值或无意义的策略迁移只会降低目标任务的性能. 因此,行为迁移更侧重挖掘、利用不同任务之间的相似性.后文将具体围绕无功优化的不同任务展开相似性及行为迁移分析.

    图 5 所示,TBO 算法主要分为两个阶段.第一个阶段是对源任务样本的学习积累阶段,用以获取经验策略;第二个阶段是迁移学习阶段,根据第一阶段获得的学习经验和结果初始化目标任务的动作策略,由此加速目标任务的学习过程. 其中,算法收敛条件为$\|Q_{k}-Q_{k+1}\|_{2}<\xi $,$\xi $ 为状态-动作空间$ Q^{i}$的收敛偏差系数,一般取为较小的正实数.

    图 5  TBO 算法流程图
    Fig. 5  Flow diagram of TBO

    由式(1) 可知,$ Q^{i}$ 与$Q$ 具有相同的迭代方式,并且TBO中学习因子$\alpha $ 是常数. 根据Watkins 在其所提出的Q学习算法中所述的空间$Q$ 的以下两个收敛条件[14]:

    1) $\sum_{k=1}^\infty {\alpha_{k} {\rm (s},a)} =\infty,\sum_{k=1}^\infty {\left[{\alpha_{k} {\rm (s},a)} \right]^{2}}<\infty,\forall s,a$;

    2) 奖励有界,即$|R_{k}|$ 小于某一正实数.

    可知$ Q^{i}$ 与$Q$ 具有相同的收敛特性,均可以以概率1 收敛到最优策略.而当所有的$ Q^{i}$ 收敛到最优策略时,TBO 即收敛到最优解.参考文献[25] 的分析思路,本文在附录中对TBO的全局收敛性进行较为详细的分析,从理论上说明了算法可以以概率1收敛到全局最优解.

    由于在全局搜索的过程中,侦查蜂是根据基于$ Q^{i}$的概率矩阵来选择动作,因此算法中$ Q^{i}$的状态对算法全局收敛性能影响较大. 在TBO 的迁移学习阶段,蜂群根据初始化的$ Q^{i}$ 可以迅速获取最优蜜源信息,从而极大提高搜索速度; 但是如果$ Q^{i}$ 的策略有误,使得概率矩阵偏差较大,则会降低算法的搜索性能. 此时,TBO中则由采蜜蜂在当前最优蜜源附近进行深度搜索,以减少或避免$Q^{i}$最优策略的偏差. 通过两种蜜蜂的分工协作,可避免TBO算法中蜂群陷入局部最优蜜源.

    与传统群智能算法一样,TBO 算法也可看作是一个单智能体系统,系统一般由一个种群构成,种群采用一定的合作机制和任务分工进行最优解的搜索. 与之相比,多智能体算法更易于实现数据的分散计算与储存,在引入了多个种群的协作或竞争机制后,其智能性更高,求解能力更强,然而算法仍缺乏知识迁移的能力,求解效率有待提高.

    在TBO 算法中,蜂群数量$n$、学习因子$\alpha $、折扣因子$\gamma$、贪婪因子$\varepsilon $ 和差异系数$\beta $ 这5个参数对算法的寻优性能影响较大[11, 18-19]. 其中,各个参数对算法的影响机理分别如下:

    1) 蜂群数量$n$: 代表蜂群的搜索个体规模. 一般来说,$n$ 越大,TBO的全局收敛性更强,但需要耗费更多的计算时间.

    2) 学习因子$\alpha $,$0<\alpha <1$: 决定了蜜蜂学习速度. $\alpha $越大,学习速度越快,然而容易导致算法局部收敛.

    3) 折扣因子$\gamma $,$0<\gamma <1$: 表征算法对过去奖励值的折扣.$\gamma $ 越大,说明算法对当前的奖励值更加敏感.

    4) 贪婪因子$\varepsilon $,$0<\varepsilon <1$:表征蜜蜂在外界环境中探索与贪婪的动作权衡. $\varepsilon $ 越大,则说明蜜蜂更偏好于选择贪婪动作,但也容易陷入局部最优解.

    5) 差异系数$\beta $,$0<\beta <1$: 用于放大值$ Q^{i}$ 元素的差异性.$\beta $ 越大,则状态-动作对的函数值差异性更大.

    电力系统无功优化即通过合理调节无功补偿容量、发电机端电压、有载调压变压器变比等手段来改变电网潮流分布达到降低系统网损、提高电压稳定性的目的.在实际运行中,电网中的潮流分布情况是时刻变化的. 因此,大规模电网中的无功优化具有随机性和复杂性.为兼顾电网运行的经济性和安全性,本文提出了综合考虑有功网损和电压稳定两个目标的无功优化目标模型[7],如下:

    \begin{eqnarray} \label{eq5}&\min~ f=\mu_{1} P_{{\rm loss}} +(1-\mu_{1} )U_{{\rm d}} ~~~~~~\\&{\rm s.t. } ~~~ P_{{\rm G}i} -P_{{\rm D}i} -U_{i}\sum\limits_{j\in N_{i} }U_{j} (G_{ij} \cos \theta_{ij} +\\&\phantom{\min~} ~~~~~~B_{ij} \sin \theta_{ij} ) =0,\quad i\in N_{0}\\&\phantom{\min~} Q_{{\rm G}i} -Q_{{\rm D}i} -U_{i} \sum\limits_{j\in N_{i} } U_{j}(G_{ij} \sin \theta_{ij} -\\&\phantom{\min~} ~~~~~~B_{ij} \cos \theta_{ij} ) =0,\quad i\in N_{{\rm PQ}}\\&\phantom{\min~} U_{{\rm G}i}^{\min } \leq U_{{\rm G}i} \leq U_{{\rm G}i}^{\max },\quad {i\in N_{{\rm G}} } \\&\phantom{\min~} U_{i}^{\min } \leq U_{i} \leq U_{i}^{\max },\quad {i\in N_{{\rm L}} } \\&\phantom{\min~} Q_{{\rm G}i}^{\min } \leq Q_{{\rm G}i} \leq Q_{{\rm G}i}^{\max },\quad {i\in N_{{\rm G}} } \\&\phantom{\min~} Q_{{\rm C}i}^{\min } \leq Q_{{\rm C}i} \leq Q_{{\rm C}i}^{\max },\quad {i\in N_{{\rm C}} } \\&\phantom{\min~} T_{k}^{\min } \leq T_{k} \leq T_{k}^{\max } ,\quad{k\in N_{{\rm T}} } \\\end{eqnarray}

    (5)

    式中,$P_{\rm loss}$ 是有功网损分量; $U_{\rm d}$ 是电压稳定分量;$\mu_{1}$ 是权重系数; $U_{i}$、$U_{j}$、$\theta_{ij}$分别是节点$i$、$j$ 的电压幅值和相角差; $P_{{\rm G}i}$、$Q_{{\rm G}i}$ 分别是发电节点$i$ 的有功和无功出力; $P_{{\rm D}i}$、$Q_{{\rm D}i}$ 分别是节点$i$ 的有功和无功功率需求; $Q_{{\rm C}i}$ 是节点$i$的无功补偿装置容量; $U_{{\rm G}i}$ 是发电机$i$ 的端电压幅值;$T_{k}$ 是有载调压变压器变比; $G_{ij}$、$B_{ij}$ 分别是节点$i$和$j$ 之间的导纳和电纳; $N_{i}$、$N_{0}$、$N_{\rm PQ}$、$N_{\rm G}$、$N_{\rm C}$、$N_{\rm T}$、$N_{\rm L}$分别代表总节点集合、母线节点集合、PQ节点集合、发电机节点集合、无功补偿节点集合、有载调压变压器支路集合以及所有支路集合.此外,有功网损和电压稳定分量可分别描述如下:

    \begin{equation}\label{eq6}\begin{subarray}{l}\displaystyle U_{{\rm d}} =\sum\limits_{i\in N_{i} } {\left|{\frac{2U_{i} -U_{i}^{\max }-U_{j}^{\min } }{U_{i}^{\max } -U_{j}^{\min } }} \right|} \\\displaystyle P_{{\rm loss}} =\displaystyle\sum\limits_{i,j\in N_{{\rm L}} } {G_{ij} [U_{i}^{2}+U_{j}^{2} -2U_{i} U_{j} \cos \theta_{ij}]} \\\end{subarray}\!\!\!\!\end{equation}

    (6)

    TBO 算法中用动作空间(即蜜源空间) 表示优化问题的解空间,在本文的无功优化模型中,选择无功补偿装置$Q_{\rm C}$、有载调压变压器变比$T$ 以及发电机端电压$U_{\rm G}$ 作为控制变量,则其动作空间为${{A}}$ $({\pmb A}_{\rm QC1},$ $ {\pmb A}_{\rm QC2},$ $ \cdots,$ ${\pmb A}_{{\rm QC}r},$ $ {\pmb A}_{\rm T1},$ $ {\pmb A}_{\rm T2},$ $ \cdots,$ $ {\pmb A}_{{\rm T}h},$ $ {\pmb A}_{\rm UG1},$ ${\pmb A}_{\rm UG2},$ $ \cdots,$ $ {\pmb A}_{{\rm UG}k})$,其中,空间${{A}}$的每个变量均是由若干可选解构成的离散向量,$r$、$h$、$k$分别是变量$Q_{\rm C}$、$T$ 和$U_{\rm G}$ 的个数.相应的每个动作变量对应的低维状态-动作空间分别是$Q^{\rm QC1}$,$Q^{\rm QC2},$ $\cdots,$ $Q^{{\rm QC}r}$,$Q^{\rm AT1}$,$Q^{\rm AT2},$ $ \cdots,$ $Q^{{\rm AT}h}$,$Q^{\rm UG1}$,$Q^{\rm UG2},$$\cdots,$ $Q^{{\rm UG}k}$.

    式(5) 给出的无功优化模型是追求目标函数最小,而TBO的奖励机制是一个寻求奖励回报累计值最大的过程,因此本文的奖励函数可设计如下:\begin{equation}\label{eq7} R^{ij}=\frac{C}{\mu_{1} P_{{\rm loss}}^{j} +(1-\mu_{1})U_{{\rm d}}^{j} +N_{{\rm t}}^{j} }\end{equation}式中,$C$ 是一个正实数,本文取为1; $N_{\rm t}^{j}$代表第$j$个密蜂得到的潮流计算中不满足不等式约束的个数.

    对于电力系统的无功优化,在网络拓扑基本不变的情况下,系统的工况主要取决于负荷大小及分布情况. 在相近的负荷分布的情况下,其无功优化通常具有相同或者相似的规律. 据此,为了提高对目标环境的无功优化速度,本文利用系统的有功功率偏差程度作为源任务与目标任务的相关性评价,然后利用任务相似度进行TBO 的策略迁移. 同时,当系统的负荷分布相差较大时其无功优化的解也有较大的不同,所以为了尽量避免负迁移现象,策略迁移过程中采用相似度越高策略迁移贡献越大的原则,具体的迁移设计如下:

    1) 选择若干典型样本作为源任务进行预学习以获得策略储备;

    2) 在开始目标任务的学习之前根据网络有功功率的关系选择与目标任务最相似的两个源任务;

    3) 将所选源任务学到的策略以一定的比例关系进行线性叠加得到目标任务的初始策略;

    4) 根据初始策略对目标蜜源环境进行快速在线学习.

    其中,源任务与目标任务的线性策略迁移方式如下:

    \begin{equation}\label{eq8} Q_{{\rm ot}}^{i} =\chi_{1} × Q_{{\rm s}1}^{i}+\chi_{2} × Q_{{\rm s}2}^{i}\end{equation}

    (8)

    式中,$Q_{\rm ot}$、$Q_{\rm s1}$、$Q_{\rm s2}$分别表示目标任务、最相似的源任务1 和源任务2的低维状态-动作空间; $\chi_{1}$、$\chi _{2}$则分别为目标任务与最相似源任务1 和源任务2 的相似系数,且$\chi_{1}+\chi_{2}=1$,可计算如下:

    \begin{equation}\label{eq9}\begin{cases}{\chi_{1} =\dfrac{P_{{\rm ot}} -P_{{\rm s2}} }{P_{{\rm s1}}-P_{{\rm s2}}}} \$2mm]{\chi_{2} =\dfrac{P_{{\rm s1}} -P_{{\rm ot}} }{P_{{\rm s1}}-P_{{\rm s2}}}} \\\end{cases}\end{equation}

    (9)

    式中,$P_{\rm ot}$ 是目标任务负荷断面的有功功率; $P_{\rm s1}$、$P_{\rm s2}$ 分别为最相似源任务1和源任务2负荷断面的有功功率,且$P_{\rm s1}\geq P_{\rm ot}\geq P_{\rm s2}$.

    在TBO 的具体应用中,蜂群个数$n$ 和贪婪因子$\varepsilon $的设置与优化任务的变量规模,算法所处的学习阶段有较大关系.

    在TBO 的预学习阶段,算法主要追求更高质量的解以此提升迁移的效果,因此算法中可适当增加蜂群的个数和降低贪婪因子,由此扩大搜索的范围.其中蜂群个数可初设为优化任务变量个数的一半左右,贪婪因子$\varepsilon $ 可在0.70$\sim $0.99 范围内选择;在目标任务优化过程中,由于已经获得初始的搜索策略,算法中可适当减少蜂群个数和增大贪婪因子,以提高搜索的速度.

    学习因子$\alpha $、折扣因子$\gamma $ 以及差异系数$\beta $主要影响状态-动作空间$ Q^{i}$ 的收敛性能,因此这三个参数的设置可在相同的蜂群个数和贪婪因子下,算法收敛效果最好为目标.

    本文的算例均在CPU 为Intel-i3-2310M、主频2.1GHz、内存为4GB的计算机上采用在Matlab7.10 编程实现,其中潮流计算部分借助Matpower5.1 工具包中的潮流计算程序.

    本文选取IEEE 118 节点和IEEE 300 节点系统作为无功优化仿真对象,算例的控制变量规模如表 1 所示. 其中,无功补偿装置容量分成5 档,分别对应正常值的-40%、 -20%、 0%、20%、40%; 有载调压变压器变比分成3档,分别为0.98p.u.、 1.00p.u.、 1.02p.u.;发电机端电压在1.00p.u.$\sim $1.06p.u. 范围内等间距分成7 档.因此,两个节点系统的动作空间分别为: $5^{3}× 3^{5}×$7$^{17}$、5$^{11}× $3$^{44}× $7$^{56}$.

    表 1  算例控制变量规模
    Table 1  Control variable scale of the simulation case
    仿真系统控制变量个数总计
    无功补偿 变压器分接头 发电机端电压
    IEEE 118 节点 3 5 17 25
    IEEE 300 节点 11 44 56 111
    下载: 导出CSV 
    | 显示表格

    为进一步测试各算法对不同负荷断面的寻优适应性,分别对两个节点算例进行一天96 个断面的无功优化. 其中,日负荷曲线如图 6 所示,每个负荷断面均根据典型的负荷趋势随机生成,并且按照时间顺序依次为断面1 至断面96. 因此,在IEEE 118节点算例和IEEE 300 节点算例下,电网在不同负荷断面下的潮流分布情况即是算法需要适应的随机复杂环境.

    图 6  日负荷曲线
    Fig. 6  Daily load curves

    根据上述的仿真模型以及大量的测试结果,本文的各种算法参数设置如表 2表 3 所示.

    表 2  TBO 算法参数设置
    Table 2  TBO parameter setting
    参数取值范围IEEE 118 节点IEEE 300 节点
    样本学习 迁移学习 样本学习 迁移学习
    $n$ - 14 6 30 10
    $\alpha $ 0<$\alpha$<1 0.99 0.99 0.99 0.99
    $\gamma $ 0<$\gamma$<1 0.9 0.9 0.9 0.9
    $\varepsilon $ 0<$\varepsilon$ <1 0.9 0.98 0.95 0.98
    $\beta $ 0<$\beta$<1 0.99 0.99 0.99 0.99
    下载: 导出CSV 
    | 显示表格
    表 3  对比算法主要参数设置
    Table 3  Parameter setting of comparative algorithms
    算法参数取值
    IEEE 118 节点IEEE 300 节点
    ABC蜂群总数 14 40
    采蜜蜂 7 20
    侦查蜂 2 5
    观察蜂 5 15
    限制次数 5 5
    GSO群体规模 100 500
    游荡者比例 20% 20%
    最大搜索角 $\pi/4$ $\pi/4$
    最大搜索转角 $\pi/8$ $\pi/8$
    ACO蚁群总数 50 100
    信息素挥发系数 0.8 0.8
    启发式值权重 1 1
    搜索权重 0.8 0.8
    PSO粒子群总数 50 100
    最小旋转速度 -5 -5
    最大旋转速度 5 5
    加速系数~$c1$/$c2$ 0.5/0.5 1/1
    最小惯性系数 0.4 0.4
    最大惯性系数 0.9 0.9
    GA种群规模 50 100
    变异概率 0.05 0.10
    交叉概率 0.80 0.80
    遗传代沟 0.8 0.8
    进化代数 50 100
    CCGA种群个体数 5 5
    种群数 3 10
    变异概率 0.90 0.90
    交叉概率 0.95 0.95
    最大进化代数 80 80
    QGA种群规模 50 100
    量子旋转门 0.01$\pi $ 0.01$\pi $
    进化代数 50 100
    Ant-Q蚁群总数 50 80
    折扣系数 0.05 0.1
    学习因子 0.5 0.1
    搜索权重因子 0.8 0.8
    下载: 导出CSV 
    | 显示表格

    为了保证迁移学习的质量,源任务中学习样本的选择应该尽可能包含目标任务的负荷情况. 因此,结合图 6 所示的负荷曲线,本文在IEEE118 节点算例和IEEE300节点算例中分别从3500$\sim $6000 MW 和19000~30000MW 的负荷范围内选择21 和23 个样本进行预学习.

    此外,为了对比ABC 算法和TBO 算法中蜂群寻优性能,在源任务中也对ABC算法作了仿真分析. 两个典型样本学习过程如图 7图 8 所示.从图中可以看出: 1) 在对状态-动作空间进行分解后,TBO算法具有较快的收敛速度,状态-动作空间$ Q^{i}$ 分别在15秒和100 秒内即可收敛; 2) 在融合空间${{Q}}$信息反馈机制以及采蜜蜂、侦查蜂相互配合的动作选择策略下,TBO算法相对ABC 算法能够更好利用蜂群的采蜜信息,具有更快的寻优速度和更强的全局收敛性能; 3) 对比图 7图 8,ABC 和TBO 在IEEE 118 节点中都能够收敛到一个较好的解,随着系统规模的增加,ABC 算法在IEEE 300 节点中容易收敛到局部最优解,而TBO算法仍然保持较高的收敛速度和较强的全局收敛性. 可见,在引入强化学习机制后蜂群对复杂多变量环境具有更好的学习适应能力.

    图 7  IEEE 118 节点样本7 学习过程
    Fig. 7  Learning process of sample 7 on IEEE 118-bus case
    图 8  IEEE 300 节点样本8 学习过程
    Fig. 8  Learning process of sample 8 on IEEE 300-bus case

    如前文所述,TBO迁移学习过程的关键是从源任务的样本空间中选取与目标任务最接近的策略,然后利用线性加权的方式对目标任务的动作策略进行初始化. 以IEEE 118节点系统的负荷断面~1 为例,从图 6 的负荷曲线中可以得知,其有功功率为4242 MW,分布在4125$\sim $4250 MW 之间,则可以采用样本6 和样本7 的策略对断面1 的优化任务进行初始化.以此类推,其他负荷断面也按此方式进行迁移学习优化.

    为了验证TBO 的寻优性能,本章引入了ABC、\linebreak ACO、Ant-Q、GA、CCGA 等8 种算法与之比较. 一天内96个负荷断面的优化结果如图 9 所示,从图中可看出: 1) 9种算法的目标函数优化结果曲线与图 6 所示的日负荷曲线趋势基本一致,这表明TBO 算法迁移学习过程中没有产生负迁移的现象,算法能够顺利完成一天内96 个负荷断面的优化任务; 2) 在IEEE 118节点和IEEE 300 节点系统下,TBO搜索得到的目标函数值曲线均低于所对比的8 种算法,这说明了TBO具有更好的全局寻优性能.

    图 9  96 个负荷断面优化结果
    Fig. 9  Optimization results of 96 load scenarios

    为进一步验证TBO 的性能,本节还对一天内的96 个负荷断面进行10次优化统计. 从表 4图 10图 11 可以看出: 1) 在两个系统算例下,TBO的收敛速度和优化精度优于其他8 个算法; 2) TBO 平均不到4 秒即可收敛,这表明动作策略的有效迁移后,算法的收敛速度获得了极大的提高,其收敛速度可以达到其他算法的4$\sim $67 倍; 3) 随着环境变量的增加,Ant-Q 和TBO 都体现了较强的学习能力,在IEEE 300节点算例中两者都获得较好的收敛精度; 4) CCGA算法因其多种群和协同进化的特性,算法在两个算例的收敛速度和收敛精度上都获得了很好的优化结果,但TBO的收敛速度更快,这充分体现了迁移学习的优势.

    表 4  典型日96 个断面各算法运行10次平均结果统计表
    Table 4  Average results of 96 load sections by each algorithm in 10 runs
    算法IEEE 118 节点算例IEEE 300 节点算例
    计算时间(s) 收敛时间(s) $P_{\rm loss}$ (MW) $U_{\rm d}$ (%) 目标函数值 计算时间(s) 收敛时间(s) $P_{\rm loss}$ (MW) $U_{\rm d}$ (%) 目标函数值
    ABC 1440 15.00 11105.12 1507.13 6306.13 6941.98 72.31 38182.69 8340.91 23261.80
    ACO 2968.27 30.92 11062.35 1437.88 6250.12 21896.02 228.08 38265.31 7359.69 22812.50
    Ant-Q 399.61 4.16 11110.67 1501.25 6305.96 11055.19 115.16 37427.55 7143.07 22285.31
    GSO 3404.48 35.46 11121.77 1486.45 6304.11 6087.55 63.41 38644.40 8867.76 23756.08
    PSO 2792.88 29.09 11103.69 1477.86 6290.77 9822.03 102.31 38098.85 8074.54 23086.70
    GA 1032.95 10.76 11120.38 1504.56 6312.47 4631.66 48.25 37735.38 7779.54 22757.46
    QGA 301.91 3.99 11093.48 1505.05 6299.27 4588.92 47.80 37631.03 7557.90 22594.46
    CCGA 559.20 5.83 11011.74 1482.24 6246.99 2939.77 30.62 37474.88 7507.44 22491.16
    TBO 89.91 0.94 11007.69 1482.84 6245.27 323.35 3.37 37513.53 6942.86 22228.19
    下载: 导出CSV 
    | 显示表格
    图 10  IEEE 118 节点算例优化结果对比
    Fig. 10  Comparison results on IEEE 118-bus case
    图 11  IEEE 300 节点算例优化结果对比
    Fig. 11  Comparison results on IEEE 300-bus case

    表 5 给出了各算法10 次运行目标函数值的收敛性能统计表. 如表所示,TBO算法的寻优稳定性最好,它在两个算例下的目标函数值的方差、标准差和相对标准偏差均最小,在IEEE 118 节点算例下,其相对标准偏差最小为GSO 算法的42.97%,在IEEE 300 节点算例下,其相对标准偏差最小为PSO 算法的19.24%;虽然ABC 也具有较高的稳定性,但是收敛的解质量较差,更偏离全局最优解.

    表 5  典型日96个断面各算法运行10次目标函数值收敛性能统计表
    Table 5  Convergence performance of 96 load sections by each algorithm in 10 runs
    算法IEEE 118 节点算例IEEE 300 节点算例
    最小值 最大值 方差 标准差 相对标准偏差 最小值 最大值 方差 标准差 相对标准偏差
    ABC 6308.20 6302.70 3.62 1.90 3.02E-04 23286.90 23230.48 380.55 19.51 8.39E-04
    ACO 6253.35 6244.85 5.79 2.41 3.85E-04 22824.96 22784.28 227.72 15.09 6.61E-04
    Ant-Q 6310.36 6301.19 7.71 2.78 4.40E-04 22310.62 22263.10 220.97 14.86 6.67E-04
    GSO 6312.36 6298.30 17.35 4.17 6.61E-04 23810.08 23711.90 1293.47 35.96 1.51E-03
    PSO 6296.83 6284.23 14.64 3.83 6.08E-04 23193.06 23020.09 2371.10 48.69 2.11E-03
    GA 6318.80 6308.79 10.80 3.29 5.21E-04 22777.53 22742.54 178.17 13.35 5.87E-04
    QGA 6303.66 6295.88 5.73 2.39 3.80E-04 22613.61 22575.91 193.87 13.92 6.16E-04
    CCGA 6242.94 6254.14 9.56 3.09 4.95E-04 22460.90 22509.55 286.29 16.92 7.52E-04
    TBO 6241.93 6247.39 3.15 1.77 2.84E-04 22217.39 22244.14 84.56 9.20 4.06E-04
    下载: 导出CSV 
    | 显示表格

    本文结合蜂群算法和基于强化学习的迁移技术提出了一种全新的高速寻优算法TBO,并应用于经典电力系统优化问题---无功优化求解,主要理论贡献如下:

    1) 首次应用状态-动作组合链有效地对高维动作-状态空间进行分解,使得TBO 更加适用于求解复杂系统的多变量优化问题.

    2) 利用不同角色的多只蜜蜂进行试错探索,可以明显提高状态-动作空间${{Q}}$ 的更新效率,从而加速TBO的收敛速度.

    3) 根据电力系统不同无功优化任务的有功功率偏差,TBO可以有效利用已学到的知识来实现新优化任务的快速寻优.

    4) IEEE 118 和IEEE 300 节点系统的无功优化仿真研究表明:算法在保证得到较高质量的解的同时,寻优速度可以达到GA、ACO、PSO等启发式智能算法的4$\sim $67 倍. 另外,TBO也可以推广到其他大规模复杂系统的非线性规划问题的快速求解.

    此外,在源任务与目标任务的策略迁移过程中,本文只考虑了负荷断面功率相关性,当系统的网络拓扑变化或者功率相差较大时,迁移学习的效果将会受到影响.笔者在下一阶段工作将深入研究源任务与目标任务的相关性分析,提高算法的应用灵活性. 同时,本文所采用的迁移技术是基于目标任务与源任务动作空间的一致性,当两者的动作空间不相等时,算法的迁移方式不一定能够实现,后续工作也将对此展开深入研究.

    定义 A1. 蜂群在时刻$t$的状态为${ {s}}(t)=({{x}}_{t,1},$ $\cdots,$${{x}}_{t,n})$,${{x}}_{t,i}$ $\in $ ${{A}},$${{x}}_{t,i}$、${{A}}$ 分别代表蜜源位置向量和蜜源空间,$n$是蜂群个数.

    定义 A2. 设最优蜜源集为$ G=\{{\pmb x}^{*}|\forall {\pmb x}\ne{\pmb x}^{*},$ $f({\pmb x})\leq$ $ f({\pmb x}^{*})$\},$f$ 是适应度函数值.蜂群中包含最优蜜源的个数为$F({{s}}(t))=|{{s}}(t)\cap G|$.

    定义 A3. 如果对于任意初始状态${ {s}}_{0}$ 均有

    \begin{equation}\lim\limits_{t\to \infty }P(F({ {s}}(t))>0|{ {s}}(0) ={ {s}}_{0} )=1\end{equation}

    (A1)

    则称算法以概率1收敛于全局最优解.

    定理 A1. TBO 算法的蜂群状态序列$\{{ {s}}(t),t>0\}$是有限次Markov 链.

    证明. 令$P({ {s}}(t+1) |{ {s}}(t))$表示蜂群由状态${ {s}}(t)$ 转移到${ {s}}(t+1) $ 的概率;令$P({\pmb x}_{t+1},_{i}|{\pmb x}_{t,i})$ 表示蜜蜂$i$ 由蜜源${\pmb x}_{t,i}$转移到蜜源${\pmb x}_{t+1,i}$ 的概率; 令$p(a_{t+1,ij}|a_{t,ij})$表示蜜蜂$i$ 在选择第$j$ 个变量时由动作状态$a_{t}$ 转移到$a_{t+1}$的概率. 则有

    \begin{equation}\begin{cases}\displaystyle P(s(t+1) |s(t))=\prod\limits_{i=1}^n {P({\pmb x}_{t+1,i} |{\pmb x}_{t,i} )} \\\displaystyle P({\pmb x}_{t+1,i} |{\pmb x}_{t,i} )=\prod\limits_{j=1}^m {p(a_{t+1,ij} |a_{t,ij} )} \\\end{cases}\end{equation}

    (A2)

    式中,$ m$ 是变量个数. 则蜂群的状态转移概率为

    \begin{equation}P(s(t+1) |s(t))=\prod\limits_{i=1}^n {\prod\limits_{j=1}^m{p(a_{t+1,ij} |a_{t,ij} )} }\end{equation}

    (A3)

    又由于

    $p({{a}_{t+1,ij}}|{{a}_{t,ij}})=\left\{ \begin{array}{*{35}{l}} {{p}_{em}},&\text{由采蜜蜂实现} \\ {{p}_{sc}},&\text{由侦查蜂实现} \\ \end{array} \right.$

    (A4)

    其中,概率$p_{em}$ 由采蜜蜂的随机行为决定,$p_{sc}$由侦查蜂的基于$\varepsilon $-贪婪规则选择动作策略决定.据此可知,$t+1$时刻蜂群的状态转移概率$P({ {s}}(t+1) |{ {s}}(t))$是一个与状态${ {s}}(t)$、 随机因子$r$、贪婪因子$\varepsilon$、策略矩阵$ Q^{i}$ 等有关且与时间无关的常量.即蜂群状态序列$\{{ {s}}(t),t>0\}$ 具有Markov 性质.又因为蜜源空间${{A}}$、蜜源位置向量${{x}}_{i}$以及蜂群数量有限,所以蜂群状态空间是有限的,所以$\{{{s}}(t),T>0\}$ 是有限齐次Markov 链.

    定理 A2. TBO 算法的适应度函数$f$ 是非递增的.

    证明. 根据蜂群的分工,每轮迭代后采蜜蜂总是在蜂群最佳位置附近搜索,并且最少有一只采蜜蜂保存了当前最优蜜源,所以算法的适应度函数$f$是非递增的.

    定理 A3. TBO 算法在任意时刻都有可能搜索到全局最优解.

    证明. 根据侦查蜂的动作选择策略可知:1) 当随机概率小于贪婪因子$\varepsilon $,侦查蜂选择当前最优策略对应的动作;2) 当随机概率大于贪婪因子$\varepsilon $ 时,侦查蜂根据概率矩阵$P^{i}$ 在全局内概率地选择动作,该过程搜索到任一可行解的概率不为0. 据此,侦查蜂在任意时刻搜索到全局最优解的概率不为0.

    定理 A4. TBO 算法以概率1收敛到全局最优解,即有

    \begin{equation}\lim\limits_{t\to \infty } P(F({ s}(t))>0) =1\end{equation}

    (A5)

    证明. 设$t$ 时刻蜂群中最优解的个数为$i$的概率为$P_{i}(t)=P(F({ {s}}(t)) =i)$,由贝叶斯条件概率公式有

    \begin{equation}\begin{array}{l@{~}l}P_{0} (t+1) =&P(F_{t+1} =0|F_{t} =0) × P(F_{t} =0) ~+\\&P(F_{t+1} =0|F_{t} \ne 0) × P(F_{t} \ne 0) \\\end{array}\end{equation}

    (A6)

    式中,$F_{t+1}=F({ {s}}(t+1) )$,$F_{t}=F({ {s}}(t))$分别表示$t+1$和$t$ 时刻蜂群中最优蜜源的个数.

    由定理A2 可知,当$t$ 时刻蜂群中存在最优蜜源时,$t+$1时刻蜂群中没有最优蜜源的概率为0,即$P(F_{t+1}=0|F_{t}\ne 0) × P(F_{t}\ne 0) =0$,所以

    \begin{equation}P_{0} (t+1) =P(F_{t+1} =0|F_{t} =0) × P_{0} (t)\end{equation}

    (A7)

    又根据定理A3,有$P(F_{t+1}>0|F_{t}=0) >0$,令$\tau $=$\min\{P(F_{t+1}>0|F_{t}=0) >0,$ $ t=0,1,\cdots \}$,即

    \begin{equation}P(F_{t+1} >0|F_{t} =0) \geq \tau >0\end{equation}

    (A8)

    由式(A8) 得:

    \begin{align}P(F_{t+1} &=0|F_{t} =0) =1-P(F_{t+1} \ne 0|F_{t} =0) =\nonumber \\&1-P(F_{t+1} >0|F_{t} =0) \leq \\&1-\tau <1 \nonumber\end{align}

    (A9)

    所以

    \begin{equation}P_{0} (t+1) \leq (1-\tau )P_{0} (t)\leq \cdots \leq (1-\tau)^{t+1}P_{0}(0) \end{equation}

    (A10)

    则有

    \begin{equation}\lim\limits_{t\to \infty } P_{0} (t+1) \leq \lim\limits_{t\to\infty } (1-\tau )^{t+1}P_{0} (0) =0× P_{0} (0) =0\end{equation}

    (A11)

    综上所述,

    \begin{equation}\begin{array}{l@{~}l}\lim\limits_{t\to \infty } P(F_{t+1} >0) &=1-\lim\limits_{t\to\infty }P(F_{t+1} =0) =\\&1-\lim\limits_{t\to \infty } P_{0} (t+1) =1 \\\end{array}\end{equation}

    (A12)

    即$\lim_{t\to \infty }P(F({ {s}}(t)) >0) =1$,TBO的全局收敛性得证.

  • 图  1  人工蜂群寻优模式

    Fig.  1  Searching mode of ABC

    图  2  TBO 学习模式

    Fig.  2  Learning mode of TBO

    图  3  状态-动作空间分解过程

    Fig.  3  Decomposition of state-action space

    图  4  强化学习的两种迁移方式

    Fig.  4  Two transfer approaches of reinforcement learning

    图  5  TBO 算法流程图

    Fig.  5  Flow diagram of TBO

    图  6  日负荷曲线

    Fig.  6  Daily load curves

    图  7  IEEE 118 节点样本7 学习过程

    Fig.  7  Learning process of sample 7 on IEEE 118-bus case

    图  8  IEEE 300 节点样本8 学习过程

    Fig.  8  Learning process of sample 8 on IEEE 300-bus case

    图  9  96 个负荷断面优化结果

    Fig.  9  Optimization results of 96 load scenarios

    图  10  IEEE 118 节点算例优化结果对比

    Fig.  10  Comparison results on IEEE 118-bus case

    图  11  IEEE 300 节点算例优化结果对比

    Fig.  11  Comparison results on IEEE 300-bus case

    表  1  算例控制变量规模

    Table  1  Control variable scale of the simulation case

    仿真系统控制变量个数总计
    无功补偿 变压器分接头 发电机端电压
    IEEE 118 节点 3 5 17 25
    IEEE 300 节点 11 44 56 111
    下载: 导出CSV

    表  2  TBO 算法参数设置

    Table  2  TBO parameter setting

    参数取值范围IEEE 118 节点IEEE 300 节点
    样本学习 迁移学习 样本学习 迁移学习
    $n$ - 14 6 30 10
    $\alpha $ 0<$\alpha$<1 0.99 0.99 0.99 0.99
    $\gamma $ 0<$\gamma$<1 0.9 0.9 0.9 0.9
    $\varepsilon $ 0<$\varepsilon$ <1 0.9 0.98 0.95 0.98
    $\beta $ 0<$\beta$<1 0.99 0.99 0.99 0.99
    下载: 导出CSV

    表  3  对比算法主要参数设置

    Table  3  Parameter setting of comparative algorithms

    算法参数取值
    IEEE 118 节点IEEE 300 节点
    ABC蜂群总数 14 40
    采蜜蜂 7 20
    侦查蜂 2 5
    观察蜂 5 15
    限制次数 5 5
    GSO群体规模 100 500
    游荡者比例 20% 20%
    最大搜索角 $\pi/4$ $\pi/4$
    最大搜索转角 $\pi/8$ $\pi/8$
    ACO蚁群总数 50 100
    信息素挥发系数 0.8 0.8
    启发式值权重 1 1
    搜索权重 0.8 0.8
    PSO粒子群总数 50 100
    最小旋转速度 -5 -5
    最大旋转速度 5 5
    加速系数~$c1$/$c2$ 0.5/0.5 1/1
    最小惯性系数 0.4 0.4
    最大惯性系数 0.9 0.9
    GA种群规模 50 100
    变异概率 0.05 0.10
    交叉概率 0.80 0.80
    遗传代沟 0.8 0.8
    进化代数 50 100
    CCGA种群个体数 5 5
    种群数 3 10
    变异概率 0.90 0.90
    交叉概率 0.95 0.95
    最大进化代数 80 80
    QGA种群规模 50 100
    量子旋转门 0.01$\pi $ 0.01$\pi $
    进化代数 50 100
    Ant-Q蚁群总数 50 80
    折扣系数 0.05 0.1
    学习因子 0.5 0.1
    搜索权重因子 0.8 0.8
    下载: 导出CSV

    表  4  典型日96 个断面各算法运行10次平均结果统计表

    Table  4  Average results of 96 load sections by each algorithm in 10 runs

    算法IEEE 118 节点算例IEEE 300 节点算例
    计算时间(s) 收敛时间(s) $P_{\rm loss}$ (MW) $U_{\rm d}$ (%) 目标函数值 计算时间(s) 收敛时间(s) $P_{\rm loss}$ (MW) $U_{\rm d}$ (%) 目标函数值
    ABC 1440 15.00 11105.12 1507.13 6306.13 6941.98 72.31 38182.69 8340.91 23261.80
    ACO 2968.27 30.92 11062.35 1437.88 6250.12 21896.02 228.08 38265.31 7359.69 22812.50
    Ant-Q 399.61 4.16 11110.67 1501.25 6305.96 11055.19 115.16 37427.55 7143.07 22285.31
    GSO 3404.48 35.46 11121.77 1486.45 6304.11 6087.55 63.41 38644.40 8867.76 23756.08
    PSO 2792.88 29.09 11103.69 1477.86 6290.77 9822.03 102.31 38098.85 8074.54 23086.70
    GA 1032.95 10.76 11120.38 1504.56 6312.47 4631.66 48.25 37735.38 7779.54 22757.46
    QGA 301.91 3.99 11093.48 1505.05 6299.27 4588.92 47.80 37631.03 7557.90 22594.46
    CCGA 559.20 5.83 11011.74 1482.24 6246.99 2939.77 30.62 37474.88 7507.44 22491.16
    TBO 89.91 0.94 11007.69 1482.84 6245.27 323.35 3.37 37513.53 6942.86 22228.19
    下载: 导出CSV

    表  5  典型日96个断面各算法运行10次目标函数值收敛性能统计表

    Table  5  Convergence performance of 96 load sections by each algorithm in 10 runs

    算法IEEE 118 节点算例IEEE 300 节点算例
    最小值 最大值 方差 标准差 相对标准偏差 最小值 最大值 方差 标准差 相对标准偏差
    ABC 6308.20 6302.70 3.62 1.90 3.02E-04 23286.90 23230.48 380.55 19.51 8.39E-04
    ACO 6253.35 6244.85 5.79 2.41 3.85E-04 22824.96 22784.28 227.72 15.09 6.61E-04
    Ant-Q 6310.36 6301.19 7.71 2.78 4.40E-04 22310.62 22263.10 220.97 14.86 6.67E-04
    GSO 6312.36 6298.30 17.35 4.17 6.61E-04 23810.08 23711.90 1293.47 35.96 1.51E-03
    PSO 6296.83 6284.23 14.64 3.83 6.08E-04 23193.06 23020.09 2371.10 48.69 2.11E-03
    GA 6318.80 6308.79 10.80 3.29 5.21E-04 22777.53 22742.54 178.17 13.35 5.87E-04
    QGA 6303.66 6295.88 5.73 2.39 3.80E-04 22613.61 22575.91 193.87 13.92 6.16E-04
    CCGA 6242.94 6254.14 9.56 3.09 4.95E-04 22460.90 22509.55 286.29 16.92 7.52E-04
    TBO 6241.93 6247.39 3.15 1.77 2.84E-04 22217.39 22244.14 84.56 9.20 4.06E-04
    下载: 导出CSV
  • [1] Pozo D, Contreras J, Sauma E E. Unit commitment with ideal and generic energy storage units. IEEE Transactions on Power Systems, 2014, 29(6):2974-2984 doi: 10.1109/TPWRS.2014.2313513
    [2] Shaw B, Mukherjee V, Ghoshal S P. Solution of reactive power dispatch of power systems by an opposition-based gravitational search algorithm. International Journal of Electrical Power and Energy Systems, 2014, 55(2):29-40 http://cn.bing.com/academic/profile?id=a00193bf967a199c20b3d4769a5bf89f&encoded=0&v=paper_preview&mkt=zh-cn
    [3] Flueck A J, Chiang H D. Solving the nonlinear power flow equations with an inexact Newton method using GMRES. IEEE Transactions on Power Systems, 1998, 13(2):267-273 doi: 10.1109/59.667330
    [4] Graville S. Optimal reactive dispatch through interior point methods. IEEE Transactions on Power Systems, 1994, 9(1):136-146 doi: 10.1109/59.317548
    [5] Secui D C. A new modified artificial bee colony algorithm for the economic dispatch problem. Energy Conversion and Management, 2015, 89(1):43-62 http://cn.bing.com/academic/profile?id=4d908f8af9eefc08ac53edc655528ab3&encoded=0&v=paper_preview&mkt=zh-cn
    [6] Mohandas N, Balamurugan R, Lakshminarasimman L. Optimal location and sizing of real power DG units to improve the voltage stability in the distribution system using ABC algorithm united with chaos. International Journal of Electrical Power and Energy Systems, 2015, 66:41-52 doi: 10.1016/j.ijepes.2014.10.033
    [7] Iba K. Reactive power optimization by genetic algorithm. IEEE Transactions on Power Systems, 1994, 9(2):685-692 doi: 10.1109/59.317674
    [8] Gómez J F, Khodr H M, De Oliveira P M, Ocque L, Yusta J M, Villasana R, Urdaneta A J. Ant colony system algorithm for the planning of primary distribution circuits. IEEE Transactions on Power Systems, 2004, 19(2):996-1004 doi: 10.1109/TPWRS.2004.825867
    [9] Basu M. Modified particle swarm optimization for nonconvex economic dispatch problems. International Journal of Electrical Power Energy Systems, 2015, 69:304-312 doi: 10.1016/j.ijepes.2015.01.015
    [10] Karaboga D. An Idea Based on Honey Bee Swarm for Numerical Optimization, Technical Report-TRO6, Erciyes University, Kasyeri, 2005.
    [11] Karaboga D, Basturk B. On the performance of artificial bee colony (ABC) algorithm. Applied Soft Computing, 2008, 8(1):687-697 doi: 10.1016/j.asoc.2007.05.007
    [12] Dorigo M, Gambardella L M. A study of some properties of Ant-Q. In:Proceedings of the 4th International Conference on Parallel Problem Solving from Nature. Berlin, Germany:Springer, 1996. 656-665
    [13] He S, Wu Q H, Saunders J R. Group search optimizer:an optimization algorithm inspired by animal searching behavior. IEEE Transactions on Evolutionary Computation, 2009, 13(5):973-990 doi: 10.1109/TEVC.2009.2011992
    [14] Pan S J, Yang Q. A survey on transfer learning. IEEE Transactions on Knowledge and Data Engineering, 2010, 22(10):1345-1359 doi: 10.1109/TKDE.2009.191
    [15] 张景祥, 王士同, 邓赵红, 蒋亦樟, 李奕. 融合异构特征的子空间迁移学习算法. 自动化学报, 2014, 40(2):236-246 http://www.cnki.com.cn/Article/CJFDTOTAL-MOTO201402008.htm

    Zhang Jing-Xiang, Wang Shi-Tong, Deng Zhao-Hong, Jiang Yi-Zhang, Li Yi. A subspace transfer learning algorithm integrating heterogeneous features. Acta Automatica Sinica, 2014, 40(2):236-246 http://www.cnki.com.cn/Article/CJFDTOTAL-MOTO201402008.htm
    [16] 王皓, 高阳, 陈兴国. 强化学习中的迁移:方法和进展. 电子学报, 2008, 36(12A):39-43 http://www.cnki.com.cn/Article/CJFDTOTAL-DZXU2008S1006.htm

    Wang Hao, Gao Yang, Chen Xing-Guo. Transfer of reinforcement learning:the state of the art. Acta Electronica Sinica, 2008, 36(12A):39-43 http://www.cnki.com.cn/Article/CJFDTOTAL-DZXU2008S1006.htm
    [17] 张倩, 李明, 王雪松, 程玉虎, 朱美强. 一种面向多源领域的实例迁移学习. 自动化学报, 2014, 40(6):1176-1183 http://www.cnki.com.cn/Article/CJFDTOTAL-MOTO201406015.htm

    Zhang Qian, Li Ming, Wang Xue-Song, Cheng Yu-Hu, Zhu Mei-Qiang. Instance-based transfer learning for multi-source domains. Acta Automatica Sinica, 2014, 40(6):1176-1183 http://www.cnki.com.cn/Article/CJFDTOTAL-MOTO201406015.htm
    [18] Watkins C J C H, Dayan P. Q-learning. Machine Learning, 1992, 8(3-4):279-292 doi: 10.1007/BF00992698
    [19] 张孝顺, 郑理民, 余涛. 基于多步回溯Q(λ)学习的电网多目标最优碳流算法. 电力系统自动化, 2014, 38(17):118-123 http://www.cnki.com.cn/Article/CJFDTOTAL-DLXT201417022.htm

    Zhang Xiao-Shun, Zheng Li-Min, Yu Tao. Multi-objective optimal carbon emission flow calculation of power grid based on multi-step Q(λ) learning algorithm. Automation of Electric Power Systems, 2014, 38(17):118-123 http://www.cnki.com.cn/Article/CJFDTOTAL-DLXT201417022.htm
    [20] Malossini A, Blanzieri E, Calarco T. Quantum genetic optimization. IEEE Transactions on Evolutionary Computation, 2008, 12(2):231-241 doi: 10.1109/TEVC.2007.905006
    [21] 王建学, 王锡凡, 陈皓勇, 王秀丽. 基于协同进化法的电力系统无功优化. 中国电机工程学报, 2004, 24(9):124-129 http://www.cnki.com.cn/Article/CJFDTOTAL-ZGDC200409021.htm

    Wang Jian-Xue, Wang Xi-Fan, Chen Hao-Yong, Wang Xiu-Li. Reactive power optimization based on cooperative coevolutionary approach. Proceedings of the CSEE, 2004, 24(9):124-129 http://www.cnki.com.cn/Article/CJFDTOTAL-ZGDC200409021.htm
    [22] Sutton R S, Precup D, Singh S. Between MDPs and semi-MDPs:a framework for temporal abstraction in reinforcement learning. Artificial Intelligence, 1999, 112(1-2):181-211 doi: 10.1016/S0004-3702(99)00052-1
    [23] 张孝顺, 余涛, 唐捷. 基于分层相关均衡强化学习的CPS指令优化分配算法. 电力系统自动化, 2015, 39(8):80-86 http://www.cnki.com.cn/Article/CJFDTOTAL-DLXT201508013.htm

    Zhang Xiao-Shun, Yu Tao, Tang Jie. Optimal CPS command dispatch based on hierarchically correlated equilibrium reinforcement learning. Automation of Electric Power Systems, 2015, 39(8):80-86 http://www.cnki.com.cn/Article/CJFDTOTAL-DLXT201508013.htm
    [24] Sutton R S, Barto A G. Reinforcement Learning:an Introduction. Cambridge:MIT Press, 1998. 87-160
    [25] 李宝磊, 施心陵, 苟常兴, 吕丹桔, 安镇宙, 张榆锋. 多元优化算法及其收敛性分析. 自动化学报, 2015, 41(5):949-959

    Li Bao-Lei, Shi Xin-Ling, Gou Chang-Xing, Lv Dan-Ju, An Zhen-Zhou, Zhang Yu-Feng. Multivariant optimization algorithm and its convergence analysis. Acta Automatica Sinica, 2015, 41(5):949-959
  • 期刊类型引用(18)

    1. 刘璐,蒋艳. 基于迁移学习的NSGAⅡ算法. 软件导刊. 2021(03): 134-138 . 百度学术
    2. 张勇,杨康,郝国生,巩敦卫. 基于相似历史信息迁移学习的进化优化框架. 自动化学报. 2021(03): 652-665 . 本站查看
    3. 杨蕾,李胜男,黄伟,张丹,杨博,张孝顺. 基于平衡优化器的含高比例风光新能源电网无功优化. 电力系统及其自动化学报. 2021(04): 32-39 . 百度学术
    4. 罗亚波,郝海强. 一种新的仿生算法:种群阻滞增长模拟算法. 武汉理工大学学报(交通科学与工程版). 2021(02): 372-377 . 百度学术
    5. 王霞,王耀民,施心陵,高莲,李鹏. 噪声环境下基于蒲丰距离的依概率多峰优化算法. 自动化学报. 2021(11): 2691-2714 . 本站查看
    6. 杨晓静,张福东,胡长斌. 机器学习综述. 科技经济市场. 2021(10): 40-42 . 百度学术
    7. 杨蕾,吴琛,黄伟,郭成,向川,何鑫,邢超,奚鑫泽,周鑫,杨博,张孝顺. 含高比例风光新能源电网的多目标无功优化算法. 电力建设. 2020(07): 100-109 . 百度学术
    8. 苏兆品,李沫晗,张国富,刘扬. 基于Q学习的受灾路网抢修队调度问题建模与求解. 自动化学报. 2020(07): 1467-1478 . 本站查看
    9. 杨博,THIDAR Swe,钟林恩,束洪春,张孝顺,余涛. 阴影条件下基于迁移强化学习的光伏系统最大功率跟踪. 控制与决策. 2020(12): 2939-2949 . 百度学术
    10. 徐小斐,陈婧,饶运清,孟荣华,袁博,罗强. 迁移蚁群强化学习算法及其在矩形排样中的应用. 计算机集成制造系统. 2020(12): 3236-3247 . 百度学术
    11. 程乐峰,余涛,张孝顺,殷林飞. 机器学习在能源与电力系统领域的应用和展望. 电力系统自动化. 2019(01): 15-43 . 百度学术
    12. 胡亮,肖人彬,李浩. 蜂群双抑制劳动分工算法及其在交通信号配时中的应用. 计算机应用. 2019(07): 1899-1904 . 百度学术
    13. 陈功贵,曹佳,刘耀,郭艳艳. 基于全序排列帝国主义算法的多目标无功优化仿真研究. 实验室研究与探索. 2019(07): 94-99 . 百度学术
    14. 吴志福. 优化Q_learning算法在强化学习中的应用. 科技通报. 2018(02): 74-76+82 . 百度学术
    15. 侯公羽,许哲东,刘欣,牛晓同,王清乐. 无数学模型的非线性约束单目标系统优化方法改进. 工程科学学报. 2018(11): 1402-1411 . 百度学术
    16. 江浩荣,徐茂鑫,王克英. 网格化知识迁移学习算法及其在碳能复合流优化中的应用. 电力建设. 2017(07): 96-105 . 百度学术
    17. 郑志杰,赵龙,贾善杰,王艳,张雯. 全电缆出线变电站扩建无功补偿配置工程实践分析. 山东电力技术. 2017(08): 35-38+48 . 百度学术
    18. 周悦,王丹,片锦香,郭威. 基于小生境蜂群PID算法的微位移控制系统设计. 信息与控制. 2017(06): 726-731 . 百度学术

    其他类型引用(13)

  • 加载中
图(11) / 表(5)
计量
  • 文章访问数:  2601
  • HTML全文浏览量:  168
  • PDF下载量:  1256
  • 被引次数: 31
出版历程
  • 收稿日期:  2015-11-24
  • 录用日期:  2016-05-23
  • 刊出日期:  2017-01-01

目录

/

返回文章
返回