2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于GAN技术的自能源混合建模与参数辨识方法

孙秋野 胡旌伟 杨凌霄 张化光

李力, 林懿伦, 曹东璞, 郑南宁, 王飞跃. 平行学习——机器学习的一个新型理论框架. 自动化学报, 2017, 43(1): 1-8. doi: 10.16383/j.aas.2017.y000001
引用本文: 孙秋野, 胡旌伟, 杨凌霄, 张化光. 基于GAN技术的自能源混合建模与参数辨识方法. 自动化学报, 2018, 44(5): 901-914. doi: 10.16383/j.aas.2018.c170487
LI Li, LIN Yi-Lun, CAO Dong-Pu, ZHENG Nan-Ning, WANG Fei-Yue. Parallel Learning——A New Framework for Machine Learning. ACTA AUTOMATICA SINICA, 2017, 43(1): 1-8. doi: 10.16383/j.aas.2017.y000001
Citation: SUN Qiu-Ye, HU Jing-Wei, YANG Ling-Xiao, ZHANG Hua-Guang. We-energy Hybrid Modeling and Parameter Identification With GAN Technology. ACTA AUTOMATICA SINICA, 2018, 44(5): 901-914. doi: 10.16383/j.aas.2018.c170487

基于GAN技术的自能源混合建模与参数辨识方法

doi: 10.16383/j.aas.2018.c170487
基金项目: 

国家自然科学基金 61573094

中央高校基础科研业务费 N140402001

国家自然科学基金重点项目 61433004

详细信息
    作者简介:

    胡旌伟   东北大学信息科学与工程学院博士研究生.主要研究方向为博弈论及其在能源互联网, 微网, 配电网等领域相关应用.E-mail:hjw neu@outlook.com

    杨凌霄   东北大学信息科学与工程学院博士研究生.主要研究方向为机器学习及其在能源互联网, 微网, 配电网等领域相关应用.E-mail:ylxiao66@163.com

    张化光   东北大学信息科学与工程学院教授.主要研究方向为自适应动态规划, 模糊控制, 网络控制, 混沌控制.E-mail:zhanghuaguang@mail.neu.edu.cn

    通讯作者:

    孙秋野   东北大学信息科学与工程学院教授.主要研究方向为网络控制技术, 分布式控制技术, 分布式优化分析及其在能源互联网, 微网, 配电网等领域相关应用.本文通信作者.E-mail:sunqiuye@mail.neu.edu.cn

We-energy Hybrid Modeling and Parameter Identification With GAN Technology

Funds: 

National Natural Science Foundation of China 61573094

The Central University Based Research Fees N140402001

the Key Program of National Natural Science Foundation of China 61433004

More Information
    Author Bio:

     Ph. D. candidate at the School of Information Science and Engineering, Northeastern University. His research interest covers game theory and its various applications in energy internet, microgrid, power distribution network

     Ph. D. candidate at the School of Information Science and Engineering, Northeastern University. Her research interest covers machine learning and its various applications in energy internet, microgrid, power distribution network

     Professor at the School of Information Science and Engineering, Northeastern University. His research interest covers adaptive dynamic programming, fuzzy control, network control, and chaos control

    Corresponding author: SUN Qiu-Ye  Professor at the School of Information Science and Engineering, Northeastern University. His research interest covers network control technology, distributed control technology, distributed optimization analysis and various applications in energy internet, microgrid, power distribution network. Corresponding author of this paper.
  • 摘要: 自能源(We-energy,WE)作为能源互联网的子单元旨在实现能量间的双向传输及灵活转换.由于自能源在不同工况下运行特性存在很大差异,现有方法还不能对其参数精确地辨识.为了解决上述问题,本文根据自能源网络结构提出了一种基于GAN技术的数据——机理混合驱动方法对自能源模型参数辨识.将GAN(Generative adversarial networks)模型中训练数据与专家经验结合进行模糊分类,解决了自能源在不同运行工况下的模型切换问题.通过应用含策略梯度反馈的改进GAN技术对模型进行训练,解决了自能源中输出序列离散的问题.仿真结果表明,提出的模型具有较高的辨识精度和更好的推广性,能有效地拟合系统不同工况下各节点的状态变化.
  • 随着计算能力的提高和计算理论的创新,机器学习在过去30年中取得了长足的发展,正受到越来越多人的关注,并在生物、医药、能源、交通、环境等诸多领域中获得了成功的应用.与此同时,机器学习也面临越来越多的问题,传统机器学习理论框架的不足被逐渐发现和确认,新的机器学习理论框架不断被提出[1].

    中科院自动化所王飞跃研究员于2004年提出了平行系统的思想,试图用一种适合复杂系统的计算理论与方法解决社会经济系统中的重要问题.其主要观点是利用大型计算模拟、预测并诱发引导复杂系统现象,通过整合人工社会,计算实验和平行系统等方法,形成新的计算研究体系[2-5].

    在过去的10多年中,平行系统这一研究体系在实践中取得了大量的成果,并不断丰富和完善起来[6-9]. 近年来,我们尝试将平行系统的思想扩展并引入到机器学习领域建立一种新型理论框架以更好地解决数据取舍、行动选择等传统机器学习理论不能很好解决的问题.

    以下我们将首先回顾常见的一些机器学习理论,并比较它们在数据获取---行动选择这一核心问题上的处理方式. 接着,我们将提出"平行学习"这一新型机器学习理论框架,并着重分析其独特之处. 最后我们总结全文.

    着眼于数据获取和行动选择之间的关系,我们可以建立如下数学模型来描述常见的一些机器学习理论框架:

    假设我们获取到一系列数据并构成集合$X=\left\{ {x_i } \right\}$,$i=1,{\cdots},I$. 若研究对象为复杂系统,则这些数据通常为观测到的系统状态或输出. 针对这些数据,我们可以采取一系列行动$a_k $并构成集合$A=\left\{ {a_k ({X}')}\right\}$,$k=1,{\cdots},J$,${X}'\subseteq X$表示数据集$X$的一个子集. 每一个行动可以导致一个回报$R(a_j )$,且数据的获取和采取行动可以在时间上分离. 我们的目标是,通过机器学习,最大化长期回报

    \begin{equation}\label{eq1} \mathop {\max }\limits_{a_j ,1\le j\le J}\sum\limits_{k=1}^J {R(a_k )}\end{equation}

    (1)

    如果我们关心的是每一个行动导致的损失$L(a_k )$,则目标函数可变为最小化长期损失

    \begin{equation}\label{eq2} \mathop {\min }\limits_{a_k ,1\le k\le J}\sum\limits_{k=1}^J {L(a_k )}\end{equation}

    (2)

    对于常见的有监督学习(Supervised learning)[10-11]而言,上述这一模型可以进一步简化为: 当所有数据已知且已经被正确分类后,我们采取一个行动: 建立一个函数映射(通常是分类函数)来最小化分类误差.一般而言,我们预设数据服从独立同分布假设(Independent and identically distributed,i.i.d.),则目标函数可进一步写为

    \begin{equation}\label{eq3} \mathop {\min }\limits_a L(a(X))=\mathop {\min}\limits_a \sum\limits_{i=1}^I {L(x_i ,a)}\end{equation}

    (3)

    相对于有监督学习,在线机器学习(Online machine learning)[12-14]强调了数据是逐渐获取的,且每新获得一个数据,系统可基于所有已经获取的数据采取一个行动.对于在线机器学习的特例序贯学习(Sequential learning),我们每次仅仅获取一个数据$x_i $,依据映射函数$f(\cdot)$产生一个预测行动$f(x_i )$,接着我们再获取$x_i$真正的标记数据$y(x_i )$,并计算由此产生的损失$L\left[{f(x_i),y(x_i )} \right]$. 最终我们的目标函数为选取合适的映射$f(\cdot )$,最小化长期后悔值(Regret value)

    \begin{equation}\label{eq4} \mathop {\min }\limits_f L(a(X))=\mathop {\min}\limits_f \sum\limits_{i=1}^I {L\left[{y(x_i ),f(x_i )} \right]}\end{equation}

    (4)

    这里我们有多个行动,并随着所获数据的增多,不断优化采取的行动.

    与在线学习类似,强化学习(Reinforcement learning)[15-16]依然假设数据逐渐获取,但机器学习系统不再被动地接受数据,而转为主动寻求.系统在$t$时刻每获得一个数据$x_i^{(t)} $ (在强化学习中$x_i$为系统状态),可采取一系列行动$a_i^{(t)} $. 为简化符号,下文中系统状态和行动记为$x_t $和$a_t $.强化学习允许我们在$t$时刻的行动$a_t $影响到我们在$\left( {t+1}\right)$时刻的获取的数据$x_{t+1} $,也即存在如下的$T(\cdot ,\cdot):X× A\to X$表示特定的状态转移函数

    \begin{equation}\label{eq5} T(x_t ,a(x_t ),x_{t+1} )=\Pr \left( {x_{t+1} \vert x_t,a(x_t )} \right)\end{equation}

    (5)

    我们的目标函数为

    \begin{eqnarray}\label{eq6} &\mathop {\max }\limits_a \sum\limits_{t=1}^\infty{T(x_t ,a(x_t ),x_{t+1} )}[{R_a (x_t ,a(x_t))}+\nonumber\\&~~{\gamma \cdot V(x_{t+1} )}]\end{eqnarray}

    (6)

    其中$R_a (x_t ,a(x_t ))$为$t$时刻系统处于状态$x_t$、施加行动$a(x_t )$所获得的即时回报,$V(x_{t+1})$为系统处于状态$x_{t+1} $的长期平均回报,$\gamma $为折扣因子.

    因此,强化学习属于主动学习(Active learning)[17]的一种,我们可以选取特定的行动来兼顾优化目标函数和探索输入数据集合$X$.这相对于在线机器学习是非常重要的改进.

    然而,经典的强化学习将数据获取和对应行动局限在马尔科夫决策过程(Markov decision processes)的框架中,限制了其能力的发挥.目前研究者提出了不少强化学习的变体,如深度强化学习(Deep reinforcement learning),但基本沿用了马尔科夫决策过程这一框架.这一做法虽然保证了一定范围内学习的有效性,却不能很好地应用到非马尔科夫决策过程.

    强化学习不需要传统意义上的有标签数据,实际上其学习的过程就是不断更新数据标签的过程.但是它的学习效率并不高,需要跟环境进行大量交互从而获得反馈用以更新模型.当面临复杂系统大数据处理时,过高的系统状态维数常常使得可行解的探索变得十分困难[18-20].

    为了进一步拓展学习能力,特别是为了解决强化学习所面临的难题,我们提出如下图 1所示的平行学习的基本框架.其大致可以分为数据处理和行动学习两个互相耦合关联的阶段.

    图 1  平行学习的理论框架图(虚线上方为通过软件定义的人工系统进行大数据预处理,虚线下方表示基于计算实验的预测学习和集成学习,以及平行控制和指示学习. 细线箭头代表数据生成或数据学习,粗线箭头代表行动和数据之间的交互.)
    Fig. 1  The theoretical framework of parallel learning (The part above the dash line focuses on big data preprocessing using software defined artificial systems; the part beneath the dash line focuses on predictive learning and ensemble learning based computational experiments,as well as parallel control and prescriptive learning. The thin arrows represent either data generation or data learning; the thick arrows present interactions between data and actions.)

    在数据处理阶段,平行学习首先从原始数据中选取特定的"小数据",输入到软件定义的人工系统中,并由人工系统产生大量新的数据.然后这些人工数据和特定的原始小数据一起构成解决问题所需要学习的"大数据"集合,用于更新机器学习模型[18].

    在行动学习阶段,平行学习沿用强化学习的思路,使用状态迁移来刻画系统的动态变化,从人工合成大数据中学习,并将学习到的知识存储在系统状态转移函数中.但特别之处在于,平行学习利用计算实验方法进行预测学习(Predictive learning). 通过学习提取,我们可以得到应用于某些具体场景或任务的"小知识",并用于平行控制和平行决策.这里的"小"是针对所需解决具体问题的特定智能化的知识,而不是指知识体量上的小.

    而平行控制和平行决策将引导系统进行特定的数据采集,获得新的原始数据,并再次进行新的平行学习,使系统在数据和行动之间构成一个闭环.不仅如此,我们还引入指示学习(Prescriptive learning)的思想,从另一个角度来重新结合数据和行动.

    在上述新型理论框架的基础上,我们展开说明平行学习采用的特色方法.

    杂乱无序的数据难以学习. 基于平行理论,我们可以构建人工场景来模拟和表示复杂系统的特定场景,并将选取的特定"小数据"在平行系统中演化和迭代,以受控的形式产生更多因果关系明确、数据格式规整、便于探索利用的大数据,再把大数据浓缩成小知识、小智慧和小定律[2-9, 18].这一点也符合美国物理学家费曼(Richard Feynman)所说的名言"不是我创造的,我就不能理解" (What I cannot create,I do not understand)[21].

    以业界当前研究的新热点"平行视觉" (Parallel vision)为例[22-25]. 我们根据实际采集的少量图像数据,提取特定要素,然后在模拟环境条件中加入新的变化(如改变摄像机朝向、光照和天气条件等)以得到更加多样化的虚拟数据.对虚拟实验产生的结果进行计算评估,我们可以校正视觉模型,并重新设计新计算实验,产生新的虚拟数据. 这一迭代将反复执行直到收敛.测试表明,结合虚拟数据和真实数据可以有效提高模型性能.

    需要指出的是,平行学习中将用于产生虚拟数据的人工系统和分析数据的机器学习系统进行了一定程度的切分,允许直接在数据处理阶段进行采样.这为数据产生和数据分析添加了更多的灵活性,和传统机器学习主要由行动来驱动数据采集是不同的.

    由于我们采用的是软件定义的人工系统,我们可以借助虚实互动的平行执行来在线优化人工系统模型,更好地实现对复杂系统的智能理解和数据采样.所有数据学习的结果都能用来对人工系统模型进行校正和升级. 因此,我们并非割裂数据产生和数据分析这两部分,而是将其看成一个整体的两面.

    在平行学习中,我们强调使用预测学习和集成学习来拓展经典学习方法.

    1) 我们允许多个智能体(Agent) $O^n$,$n=1,{\cdots},N$共同学习,每个智能体可以独立地获取到一系列观测数据并构成集合$X^n=\left\{{x_i^n } \right\}$,$i=1,{\cdots},I^n$.每个智能体还可以独立地采取一系列行动并构成集合$A^n=\left\{ {a_k^n({X}'^n)} \right\}$,$k=1,{\cdots},J^n$,${X}'^n\subseteq X^n$表示数据集$X^n$的一个子集.

    2) 每个智能体获取的数据和采取行动的次数和时间均独立. 首先,我们允许一个行动可以产生多个新的数据,而强化学习一次只能产生一个新的数据. 其次,强化学习要求获取数据和完成行动必须依次间隔执行,而平行学习允许获取数据和完成行动有着完全不同的频次和发生顺序.

    3) 我们以平行世界的角度来看待系统状态的演化过程.将新获得的数据映射到平行空间中,我们可以通过大量长期的仿真迭代来预测和分析预期行动的结果,并最终将最优动作返回现实空间[2-8, 18].

    基于上述三点扩展,我们可以放松数据和行动之间的耦合,极大地扩展现有的强化学习方法[26-27]. 其实,上述三点扩展已经在AlphaGo这一划时代的人工智能产品中得以体现[28].参见图 2所示,AlphaGo对于当前局面,使用蒙特卡洛树(Monte Carlo tree)方法,进行数盘20$\sim$30步的模拟测试下来探求局部最优的下法,这可以看作是使用智能体进行中长期仿真迭代来预测和分析预期行动的结果.同时,其数据的产生和行动的产生相对独立,不需时间对齐.AlphaGo利用输入的数万盘高手对局数据进行自我对战. 在和李世乭比赛之前,自我对战了3000多万盘. 这就是典型的实际小数据到虚拟大数据的过程.

    图 2  AlphaGo将现实世界的数据映射到平行世界,进行多线迭代来求取预期行动
    Fig. 2  AlphaGo maps data in realistic world into parallel world and uses multithread iterations to determine the expected actions

    LeCun在最近几年的演讲中反复以"蛋糕"比喻整个机器学习领域.而强化学习是蛋糕上的一粒樱桃,监督学习是蛋糕外面的一层糖霜,无监督学习(Unsupervised learning)[29-30]则是蛋糕胚.然而目前,糖霜和蛋糕胚之间还存在巨大的空白区域. 为此,LeCun在2016年认为预测学习可以来填补这一空白[31].

    预测学习起源于认知心理学对于儿童学习方式的解释[32].其后被用来解释智能体如何从与环境的交互中学习特定知识[33-34].深入比较不难发现,预测学习和我们在过去10多年中所一直倡导的基于计算实验的平行系统方法[2-9]本质是一样的.简而言之,平行系统和预测学习的核心就是用机器给真实环境建模,仿真预测可能的未来,并通过观察和演示来理解世界如何运行的能力.其中仿真是无监督或半监督(Semi-supervised learning)[35-36]的,而初始状态和最终结果是有监督的.我们称这种学习方式为平行预测+指示学习(Parallel predictive+Prescriptive learning),可以糅合无监督、半监督和有监督三种学习方式,填补各自之间的空白.

    4) 类比于多智能体系统[37-38],平行学习还允许分散学习和集成学习两种机制.

    分散学习机制要求每个智能体可以独立根据自身获取的数据来进行行动,每一个行动可以导致一个回报$R(a_k^n )$.我们的目标是最大化所有智能体的总体长期回报

    \begin{equation}\label{eq7} \mathop {\max }\limits_{a_k^m ,1\le k\le J,1\le m\le N}\sum\limits_{m=1}^N {\sum\limits_{k=1}^J {R^m(a_k^m )} }\end{equation}

    (7)

    该学习机制适合于分散控制等问题,其中每个智能体获得的数据和执行的行动都是时空局部、甚至可以时间异步的.例如,我们在分布式平行交通控制系统中设定不同路口的控制器进行迭代和学习,协同式产生和发现最优的交通信号灯控制策略[7-8].

    集成学习机制则要求设置一个所谓代理智能体(Surrogate agent).每个智能体可以独立地根据自身获取的数据来进行行动,每一个行动可以导致一个回报$R^m(a_k^m )$.我们的目标是选取所有这些智能体可能获得的回报中最大的那个动作,并让代理智能体执行该动作.

    \begin{equation}\label{eq8} \mathop {\arg \max }\limits_{a_k^m ,1\le k\le J,1\le m\le N} \sum\limits_{m=1}^N {R^m(a_k^m )}\end{equation}

    (8)

    该学习机制类似于现有的集成学习(Ensemble learning)[39],可适合于静态数据的集中分类等问题. 而我们的研究表明,更为广义的集成学习技术也可以应用于动态系统的建模和控制之中[40].其中每个智能体都致力于在学习中对复杂系统进行建模并执行特定的行动来达到某一优化目标.各智能体执行的行动是时间同步,但所获取的数据可以是时空局部的.特别地,我们可以设定策略使得每个Agent根据自身偏好来探索输入数据集的不同部分,并建立适合特定输入数据子集的行动策略[40].这一想法亦被我们用在所谓平行动态规划(Parallel dynamic programming)之中,以克服现有近似动态规划算法对于解空间探索不足的困难[41].

    一般而言,复杂系统可以大致分为牛顿系统和默顿系统两种.无论我们怎么对牛顿系统进行分析,都不会影响系统运行的结果.例如天气预报明天下雨,那么天气是下雨下雪还是刮风,跟我们的分析调控无关. 而在默顿系统中,存在双向影响通路,我们对系统的调控会影响系统运行的结果. 例如,著名分析师对于股市的评论会影响股市的波动. 因此,我们可以设定预期的系统状态,通过对于系统的描述、预测、引导来使得系统达到控制者所期望的状态.美国社会学家默顿将这一长期行动称为预言的自我实现定律(Self-fulfilling prophecy)[42]. 该定律也被后人称为默顿定律.

    默顿定律希望通过改变行动的模式,即实际系统与人工系统的平行互动,促使实际系统运行到既定目标. 然而与牛顿系统不同,默顿系统中的"行动建模"与"目标建模"相互独立,且"行动建模"受到有限先验知识,系统高度随机性等多方面因素的影响,难以实现[43]. 如果用上面的学习框架来描述,就是难以确知我们每一次探索所获得的即时回报$R_a (x,a(x))$,而且即时回报$R_a (x,a(x))$和长期回报$V(x)$之间的关系亦不明确.

    幸运的是,近10年来研究者先后提出了对抗学习(Adversarial learning)[44-46]、对偶学习(Dual learning)[47]等全新的学习原则,为解决上述问题提出了新的思路.

    对抗学习通过构造相互竞争的生成器和辨别器来提高学习的效率[44-46].在图像学习中,前者试图产生假的图像,后者试图鉴别出真正的图像.本质上,这依然是费曼所称"不是我创造的,我就不能理解"概念的体现,即通过构建验证过的概念来理解事物.但对抗学习最大的优点是系统的回报/损失函数不必显式给出,而是通过生成器和辨别器的对抗来自动学习和挖掘来产生.这是默顿定律所期待的,在系统和行动的互动之中,达成知识的"泛化"(Generalization).

    对偶学习[47]的思路则更加偏重迭代演进.假设学习过程中有两个智能体分别从事原任务(从集合$X$到集合$Y$的学习任务)和对偶任务(从集合$Y$到集合$X$的学习任务).假如我们首先把集合$X$用第一个智能体的模型$F$映射成集合$Y$的子集$Y'$,再利用第二个智能体的模型$G$把集合$Y'$映射成集合$X$的子集$X'$.比较集合$X$和$X'$,我们常常可以获得非常有用的反馈信号来改进映射模型$F$和$G$.以机器翻译为例,上面的这个过程可以无限循环下去. 可以证明,只要机器翻译模型 $F$ 和 $G$ 的解码部分都使用的是随机算法,这一学习过程是收敛的,最终会学到两个稳定有效的模型$F$和$G$.

    综合对抗学习和对偶学习,我们可以提出如下更一般的指示学习.指示学习关注如何设置引导,使得我们获得预期的学习目的或者学习效果[48].具体到大数据环境中的数据获取--数据学习这一矛盾关系中,指示学习可以被建模为反复循环的两阶段学习--探索过程.

    假设我们不断地获取数据并构成集合$X=\left\{ {x_i } \right\}$,$i=1,{\cdots},I$. 针对这些数据,我们可以采取一系列行动并构成集合$A=\left\{ {a_k (X)} \right\}$,$k=1,{\cdots},J$.

    在第一阶段,我们学习特定行动原则,最大化阶段性回报$V(X,a_k (X))$

    \begin{equation}\label{eq9} \mathop {\max }\limits_{a_k ,1\le k\le J} V(X,a_k (X))\end{equation}

    (9)

    在第二阶段,我们在此基础上通过数据生成算法产生新的数据集合${X}'=\left\{ {{x}'_i} \right\}$,$i=1,{\cdots},I$,并衡量阶段性损失$L\left[{{X}',a_k({X}'))} \right]$. 损失函数$L\left[\cdot\right]$为已学会的行动原则在新数据集合${X}'$上的损失,该函数指示了我们下一步学习的方向. 对于对抗学习而言,$L\left[\cdot\right]$可以直接设为误分类比率. 对于对偶学习而言,$L\left[\cdot\right]$为迭代产生的映射误差. 对于平行系统控制而言,$L\left[\cdot\right]$通常可以设为当前系统状态和理想系统状态之间的差值[7-9].

    当上述两个阶段过程完成后,我们进入新的循环,直到我们覆盖所有的数据集或系统状态,又或者我们已经到达理想的系统状态.

    目前,强化学习已经为我们在第一阶段的数据学习提供了相当强的理论工具和方法.但我们对于第二阶段的数据探索尚有很多未知的领域值得深入研究.原始的对抗学习中,数据产生的方式是无模型无监督学习,但其效果有待改进[44]. 而对偶学习中,数据产生的方式是有模型无监督学习,理论证明清晰但限制较多[47]. 最近的研究表明,类似于我们在上文中提及的平行仿真和预测学习这种半监督、具有限定条件和指示性目标的演化式学习(例如利用信息熵的InfoGAN[49])可能更加适合特定问题的解决.这即是我们在上文中提到的平行预测+指示学习(Parallel predictive +Prescriptive learning)的思想的体现: 既有方向性指示,亦不过多限制中间探索过程.我们期待这一思想能带来更多新的机器学习方法.

    在本文中,我们提出平行学习的基本思想和理论框架,并阐述了平行学习的三大特色方法:1) 通过软件定义的人工系统进行大数据预处理,2) 包含预测学习、集成学习的数据学习,和3) 基于默顿定律实现数据--行动引导的指示学习.

    概括而言,平行学习理论框架强调:使用预测学习解决如何随时间发展对数据进行探索;使用集成学习解决如何在空间分布上对数据进行探索;使用指示学习解决如何探索数据生成的方向.目前我们的研究显示,扩展现有的强化学习模型能够较好地和这三者结合.但我们不排除今后有更好的模型来和我们提出的平行学习理论框架结合发展.

    需要指出的是,我们主要强调从理论框架层面改进和扩展已有机器学习方法,并初步开展了相应模型和算法的研究.例如我们将平行学习方法应用到了虚拟场景生成和无人驾驶车辆智能测试[50-51],以及社会计算和情报处理[52-54].但很多细节之处尚需完备的理论证明. 期待本文抛砖引玉,引起业内专家学者兴趣,共同对机器学习理论做出更加深入的革新.


  • 本文责任编委 谭营
  • 图  1  自能源结构

    Fig.  1  Structure of we-energy

    图  2  电力子系统模型

    Fig.  2  Power subsystem model for we-energy

    图  3  热力子系统模型

    Fig.  3  Heating subsystem model for we-energy

    图  4  天然气子系统模型

    Fig.  4  Natural gas pipeline model for we-energy

    图  5  基于模糊分类的GAN模型

    Fig.  5  GAN structure based on fuzzy classification

    图  6  自能源电力子系统运行状态

    Fig.  6  Operating state of power subsystem in WE

    图  7  自能源热力子系统运行状态

    Fig.  7  Operating state of heating network in WE

    图  8  自能源天然气子系统运行状态

    Fig.  8  Operating state of natural gas network in WE

    图  9  三种参数辨识方法的比较结果

    Fig.  9  Comparison results of three parameter identification methods

    图  10  自能源输出拟合曲线

    Fig.  10  Output fitting curves of we-energy

    图  11  电压异常时自能源输出曲线

    Fig.  11  Output curves of we-energy in abnormal voltage

    图  12  液压异常时自能源输出曲线

    Fig.  12  Output curves of WE in abnormal fluid pressure

    图  13  气压异常时自能源输出曲线

    Fig.  13  Output curves of WE in abnormal gas pressure

    表  1  自能源系统设备参数

    Table  1  Parameter of equipment in WE system

    自能源系统 容量(kW) 功率下限(kW) 功率上限(kW)
    光伏发电 40 0 12
    风力发电 1×3 0 30
    电储能 5×3 $-$10 10
    微燃气轮机 80 20 80
    燃气锅炉 40×2 20 80
    电锅炉 5×4 0 20
    热储能 5×2 $-$10 10
    水泵 0.5×4 0.4 0.6
    压缩机 0.3×2 0.25 0.35
    下载: 导出CSV

    表  2  自能源常规运行时模型参数辨识结果

    Table  2  Parameter identification results in regular

    参数 估值 参数 估值 参数 估值
    ${\theta _{11}}$ 0.035 ${\theta _{23}}$ 0.213 ${\theta _{41}}$ $-$0.106
    ${\theta _{12}}$ 0.136 ${\theta _{24}}$ $-$0.622 ${\theta _{42}}$ $-$0.127
    ${\theta _{13}}$ 0.078 ${\theta _{31}}$ 0.296 ${\theta _{43}}$ 0.312
    ${\theta _{14}}$ $-$0.235 ${\theta _{32}}$ 0.065 ${\theta _{44}}$ 0.225
    ${\theta _{15}}$ 0.438 ${\theta _{33}}$ 0.386 ${\theta _{45}}$ 0.064
    ${\theta _{21}}$ 0.164 ${\theta _{34}}$ 0.176 ${\theta _{46}}$ 0.133
    ${\theta _{22}}$ 0.153 ${\theta _{35}}$ 0.217
    下载: 导出CSV

    表  3  自能源在电压异常时模型参数辨识结果

    Table  3  Parameter identification results of WE model in abnormal voltage

    参数 估值 参数 估值 参数 估值
    ${\theta _{11}}$ 0.014 ${\theta _{23}}$ 0.178 ${\theta _{41}}$ $-$0.157
    ${\theta _{12}}$ 0.123 ${\theta _{24}}$ $-$0.534 ${\theta _{42}}$ $-$0.134
    ${\theta _{13}}$ 0.081 ${\theta _{31}}$ 0.237 ${\theta _{43}}$ 0.247
    ${\theta _{14}}$ $-$0.211 ${\theta _{32}}$ 0.049 ${\theta _{44}}$ 0.265
    ${\theta _{15}}$ 0.369 ${\theta _{33}}$ 0.276 ${\theta _{45}}$ 0.067
    ${\theta _{21}}$ 0.145 ${\theta _{34}}$ 0.198 ${\theta _{46}}$ 0.233
    ${\theta _{22}}$ 0.147 ${\theta _{35}}$ 0.234
    下载: 导出CSV

    表  4  自能源在液压异常时模型参数辨识结果

    Table  4  Parameter identification results of WE model in abnormal fluid pressure

    参数 估值 参数 估值 参数 估值
    ${\theta _{11}}$ 0.041 ${\theta _{23}}$ 0.206 ${\theta _{41}}$ $-$0.067
    ${\theta _{12}}$ 0.089 ${\theta _{24}}$ $-$0.598 ${\theta _{42}}$ $-$0.131
    ${\theta _{13}}$ 0.196 ${\theta _{31}}$ 0.256 ${\theta _{43}}$ 0.276
    ${\theta _{14}}$ $-$0.158 ${\theta _{32}}$ 0.124 ${\theta _{44}}$ 0.256
    ${\theta _{15}}$ 0.367 ${\theta _{33}}$ 0.267 ${\theta _{45}}$ 0.065
    ${\theta _{21}}$ 0.146 ${\theta _{34}}$ 0.203 ${\theta _{46}}$ 0.118
    ${\theta _{22}}$ 0.145 ${\theta _{35}}$ 0.178
    下载: 导出CSV

    表  5  自能源在气压异常时模型参数辨识结果

    Table  5  Parameter identification results of WE model in abnormal gas pressure

    参数 估值 参数 估值 参数 估值
    ${\theta _{11}}$ 0.045 ${\theta _{23}}$ 0.157 ${\theta _{41}}$ $-$0.095
    ${\theta _{12}}$ 0.246 ${\theta _{24}}$ $-$0.576 ${\theta _{42}}$ $-$0.108
    ${\theta _{13}}$ 0.069 ${\theta _{31}}$ 0.146 ${\theta _{43}}$ 0.289
    ${\theta _{14}}$ $-$0.246 ${\theta _{32}}$ 0.068 ${\theta _{44}}$ 0.227
    ${\theta _{15}}$ 0.398 ${\theta _{33}}$ 0.356 ${\theta _{45}}$ 0.074
    ${\theta _{21}}$ 0.148 ${\theta _{34}}$ 0.269 ${\theta _{46}}$ 0.145
    ${\theta _{22}}$ 0.169 ${\theta _{35}}$ 0.235
    下载: 导出CSV
  • [1] 孙秋野, 滕菲, 张化光, 马大中.能源互联网动态协调优化控制体系构建.中国电机工程学报, 2015, 35(14):3667-3677 http://kns.cnki.net/KCMS/detail/detail.aspx?filename=zgdc201514023&dbname=CJFD&dbcode=CJFQ

    Sun Qiu-Ye, Teng Fei, Zhang Hua-Guang, Ma Da-Zhong. Construction of dynamic coordinated optimization control system for energy internet. Proceedings of the CSEE, 2015, 35(14):3667-3677 http://kns.cnki.net/KCMS/detail/detail.aspx?filename=zgdc201514023&dbname=CJFD&dbcode=CJFQ
    [2] 孙秋野, 滕菲, 张化光.能源互联网及其关键控制问题.自动化学报, 2017, 43(2):176-194 http://www.aas.net.cn/CN/abstract/abstract18999.shtml

    Sun Qiu-Ye, Teng Fei, Zhang Hua-Guang. Energy internet and its key control issues. Acta Automatica Sinica, 2017, 43(2):176-194 http://www.aas.net.cn/CN/abstract/abstract18999.shtml
    [3] Hu J W, Sun Q Y, Teng F. A game-theoretic pricing model for energy internet in day-ahead trading market considering distributed generations uncertainty. In: Proceedings of the 2016 IEEE Symposium Series on Computational Intelligence (SSCI). Athens, Greece: IEEE, 2016. 1-7
    [4] Son S E, Lee S H, Choi D H, Song K B, Park J D, Kwon Y H, et al. Improvement of composite load modeling based on parameter sensitivity and dependency analyses. IEEE Transactions on Power Systems, 2014, 29(1):242-250 doi: 10.1109/TPWRS.2013.2281455
    [5] Kim J K, An K, Ma J, Shin J, Song K B, Park J D, et al. Fast and reliable estimation of composite load model parameters using analytical similarity of parameter sensitivity. IEEE Transactions on Power Systems, 2016, 31(1):663-671 doi: 10.1109/TPWRS.2015.2409116
    [6] Duquette J, Rowe A, Wild P. Thermal performance of a steady state physical pipe model for simulating district heating grids with variable flow. Applied Energy, 2016, 178:383-393 doi: 10.1016/j.apenergy.2016.06.092
    [7] Behrooz H A, Boozarjomehry R B. Modeling and state estimation for gas transmission networks. Journal of Natural Gas Science and Engineering, 2015, 22:551-570 doi: 10.1016/j.jngse.2015.01.002
    [8] Pambour K A, Bolado-Lavin R, Dijkema G P J. An integrated transient model for simulating the operation of natural gas transport systems. Journal of Natural Gas Science and Engineering, 2016, 28:672-690 doi: 10.1016/j.jngse.2015.11.036
    [9] Haben S, Singleton C, Grindrod P. Analysis and clustering of residential customers energy behavioral demand using smart meter data. IEEE Transactions on Smart Grid, 2016, 7(1):136-144 doi: 10.1109/TSG.2015.2409786
    [10] Fernandes M P, Viegas J L, Vieira S M, Sousa J M. Analysis of residential natural gas consumers using fuzzy c-means clustering. In: Proceedings of the 2016 IEEE International Conference on Fuzzy Systems. Vancouver, Canada: IEEE, 2016. 1484-1491
    [11] Sun G, Cong Y, Hou D D, Fan H J, Xu X W, Yu H B. Joint household characteristic prediction via smart meter data. IEEE Transactions on Smart Grid, DOI: 10.1109/TSG.2017.2778428
    [12] 孙明轩, 毕宏博.学习辨识:最小二乘算法及其重复一致性.自动化学报, 2012, 38(5):698-706 http://www.aas.net.cn/CN/abstract/abstract13741.shtml

    Sun Ming-Xuan, Bi Hong-Bo. Learning identiflcation:least squares algorithms and their repetitive consistency. Acta Automatica Sinica, 2012, 38(5):698-706 http://www.aas.net.cn/CN/abstract/abstract13741.shtml
    [13] 顾成奎, 王正欧.利用基序列逼近的一类非线性时变系统辨识的实用方法.系统工程, 2001, 19(4):22-26 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=xtgc200104005

    Gu Cheng-Kui, Wang Zheng-Ou. A practical method for identiflcation nonlinear time-varying systems using basis sequences. Systems Engineering, 2001, 19(4):22-26 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=xtgc200104005
    [14] 王乐一, 赵文虓.系统辨识:新的模式、挑战及机遇.自动化学报, 2013, 39(7):933-942 http://www.aas.net.cn/CN/abstract/abstract18122.shtml

    Wang Le-Yi, Zhao Wen-Xiao. System identiflcation:new paradigms, challenges, and opportunities. Acta Automatica Sinica, 2013, 39(7):933-942 http://www.aas.net.cn/CN/abstract/abstract18122.shtml
    [15] 杨刚, 王乐, 戴丽珍, 杨辉, 陆荣秀.基于AQPSO的RBF神经网络自组织学习.控制与决策, DOI: 10.13195/j.kzyjc.2017.0595

    Yang Gang, Wang Le, Dai Li-Zhen, Yang Hui, Lu Rong-Xiu. AQPSO-based self-organization learning of RBF neural network. Control and Decision, DOI: 10.13195/j.kzyjc.2017.0595
    [16] 钱富才, 黄姣茹, 秦新强.基于鲁棒优化的系统辨识算法研究.自动化学报, 2014, 40(5):988-993 http://www.aas.net.cn/CN/abstract/abstract18368.shtml

    Qian Fu-Cai, Huang Jiao-Ru, Qin Xin-Qiang. Research on algorithm for system identiflcation based on robust optimization. Acta Automatica Sinica, 2014, 40(5):988-993 http://www.aas.net.cn/CN/abstract/abstract18368.shtml
    [17] Xu J P, Tan P N, Zhou J Y, Luo L F. Online multi-task learning framework for ensemble forecasting. IEEE Transactions on Knowledge and Data Engineering, 2017, 29(6):1268-1280 doi: 10.1109/TKDE.2017.2662006
    [18] Cong Y, Sun G, Liu J, Yu H B, Luo J B. User attribute discovery with missing labels. Pattern Recognition, 2018, 73:33-46 doi: 10.1016/j.patcog.2017.07.012
    [19] 汤涌.电力负荷的数学模型与建模技术.北京:科学出版社, 2012. 30-32

    Tang Yong. Mathematical Model and Modeling Technology of Power Load. Beijing:Science Press, 2012. 30-32
    [20] 朱建全, 李颖, 谭伟.基于特性融合的电力负荷建模.电网技术, 2015, 39(5):1358-1364 http://www.cqvip.com/QK/91996X/201505/664676915.html

    Zhu Jian-Quan, Li Ying, Tan Wei. Characteristic fusion based on electric load modeling. Power System Technology, 2015, 39(5):1358-1364 http://www.cqvip.com/QK/91996X/201505/664676915.html
    [21] Goodfellow I, Pouget-Abadie J, Mirza M, Xu B, WardeFarley D, Ozair S, et al. Generative adversarial nets. In: Proceedings of the 2014 Conference on Advances in Neural Information Processing Systems 27. Montreal, Canada: Curran Associates, Inc., 2014. 2672-2680
    [22] 王坤峰, 苟超, 段艳杰, 林懿伦, 郑心湖, 王飞跃.生成式对抗网络GAN的研究进展与展望.自动化学报, 2017, 43(3):321-332 http://www.aas.net.cn/CN/abstract/abstract19012.shtml

    Wang Kun-Feng, Gou Chao, Duan Yan-Jie, Lin Yi-Lun, Zheng Xin-Hu, Wang Fei-Yue. Generative adversarial networks:the state of the art and beyond. Acta Automatica Sinica, 2017, 43(3):321-332 http://www.aas.net.cn/CN/abstract/abstract19012.shtml
    [23] Zhang H, Xu T, Li H S, Zhang S T, Huang X L, Wang X G, et al. StackGAN: text to photo-realistic image synthesis with stacked generative adversarial networks. arXiv preprint arXiv: 1612.03242, 2016
    [24] Santana E, Hotz G. Learning a driving simulator. arXiv preprint arXiv: 1608.01230, 2016
    [25] 王飞跃.软件定义的系统与知识自动化:从牛顿到默顿的平行升华.自动化学报, 2015, 41(1):1-8 http://www.aas.net.cn/CN/abstract/abstract18578.shtml

    Wang Fei-Yue. Software-deflned systems and knowledge automation:a parallel paradigm shift from Newton to Merton. Acta Automatica Sinica, 2015, 41(1):1-8 http://www.aas.net.cn/CN/abstract/abstract18578.shtml
    [26] Qi G J. Loss-sensitive generative adversarial networks on Lipschitz densities. arXiv preprint arXiv: 1701.06264, 2017
    [27] Arjovsky M, Chintala S, Bottou L. Wasserstein GAN. arXiv preprint arXiv: 1701.07875, 2017
    [28] Nowozin S, Cseke B, Tomioka R. F-GAN: training generative neural samplers using variational divergence minimization. In: Proceedings of the 2016 Neural Information Processing Systems. Barcelona, Spain: Curran Associates, Inc., 2016. 271-279
    [29] Saito Y, Takamichi S, Saruwatari H. Statistical parametric speech synthesis incorporating generative adversarial networks. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2018, 26(1):84-96 doi: 10.1109/TASLP.2017.2761547
    [30] Chen X, Duan Y, Houthooft R, Schulman J, Sutskever I, Abbeel P. InfoGAN: interpretable representation learning by information maximizing generative adversarial nets. In: Proceedings of the 2016 Neural Information Processing Systems. Barcelona, Spain: Curran Associates, Inc., 2016. 2172-2180
    [31] Yu L T, Zhang W N, Wang J, Yu Y. SeqGAN: sequence generative adversarial nets with policy gradient. In: Proceedings of the 31st AAAI Conference on Artiflcial Intelligence. San Francisco, California, USA: AAAI, 2017. 2852-2858
    [32] Sun Q Y, Zhou J G, Guerrero J M, Zhang H G. Hybrid three-phase/single-phase microgrid architecture with power management capabilities. IEEE Transactions on Power Electronics, 2015, 30(10):5964-5977 doi: 10.1109/TPEL.2014.2379925
    [33] Zhao Z, Chen W H, Wu X M, Chen P C Y, Liu J M. LSTM network:a deep learning approach for short-term tra-c forecast. IET Intelligent Transport Systems, 2017, 11(2):68-75 doi: 10.1049/iet-its.2016.0208
    [34] Palangi H, Deng L, Shen Y L, Gao J F, He X D, Chen J S, et al. Deep sentence embedding using long short-term memory networks:analysis and application to information retrieval. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2016, 24(4):694-707 doi: 10.1109/TASLP.2016.2520371
    [35] Kim Y. Convolutional neural networks for sentence classiflcation. In: Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Doha, Qatar: ACL, 2014. 1746-1751
    [36] 孙秋野, 王冰玉, 黄博南, 马大中.狭义能源互联网优化控制框架及实现.中国电机工程学报, 2015, 35(18):4571-4580 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=zgdjgcxb201518002

    Sun Qiu-Ye, Wang Bing-Yu, Huang Bo-Nan, Ma Da-Zhong. The optimization control and implementation for the special energy internet. Proceedings of the CSEE, 2015, 35(18):4571-4580 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=zgdjgcxb201518002
  • 加载中
  • 图(13) / 表(5)
    计量
    • 文章访问数:  3459
    • HTML全文浏览量:  610
    • PDF下载量:  1214
    • 被引次数: 0
    出版历程
    • 收稿日期:  2017-08-31
    • 录用日期:  2018-03-07
    • 刊出日期:  2018-05-20

    目录

    /

    返回文章
    返回