2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

运行于区块链上的智能分布式电力能源系统:需求、概念、方法以及展望

张俊 高文忠 张应晨 郑心湖 杨柳青 郝君 戴潇潇

张俊, 高文忠, 张应晨, 郑心湖, 杨柳青, 郝君, 戴潇潇. 运行于区块链上的智能分布式电力能源系统:需求、概念、方法以及展望. 自动化学报, 2017, 43(9): 1544-1554. doi: 10.16383/j.aas.2017.c160744
引用本文: 张俊, 高文忠, 张应晨, 郑心湖, 杨柳青, 郝君, 戴潇潇. 运行于区块链上的智能分布式电力能源系统:需求、概念、方法以及展望. 自动化学报, 2017, 43(9): 1544-1554. doi: 10.16383/j.aas.2017.c160744
ZHANG Jun, GAO Wen-Zhong, ZHANG Ying-Chen, ZHENG Xin-Hu, YANG Liu-Qing, HAO Jun, DAI Xiao-Xiao. Blockchain Based Intelligent Distributed Electrical Energy Systems:Needs, Concepts, Approaches and Vision. ACTA AUTOMATICA SINICA, 2017, 43(9): 1544-1554. doi: 10.16383/j.aas.2017.c160744
Citation: ZHANG Jun, GAO Wen-Zhong, ZHANG Ying-Chen, ZHENG Xin-Hu, YANG Liu-Qing, HAO Jun, DAI Xiao-Xiao. Blockchain Based Intelligent Distributed Electrical Energy Systems:Needs, Concepts, Approaches and Vision. ACTA AUTOMATICA SINICA, 2017, 43(9): 1544-1554. doi: 10.16383/j.aas.2017.c160744

运行于区块链上的智能分布式电力能源系统:需求、概念、方法以及展望

doi: 10.16383/j.aas.2017.c160744
详细信息
    作者简介:

    高文忠    美国科罗拉多丹佛大学电气与计算机工程系副教授. 1999年和2002年获得美国佐治亚理工大学电气与计算机工程学院电力工程硕士和博士学位.主要研究方向为可再生能源和分布式发电, 微电网, 智能电网, 电力系统保护, 电力系统中电力电子的应用, 电力系统建模与仿真, 混合电动推进系统.同时, 他还是IEEE Transactions on Sustainable Energy杂志的编辑, 也是IEEE Emerging and Selected Topics in Power Electronics杂志的副主编.他是2016年第四十八届北美电力研讨会(48th North American Power Symposium)和2012年IEEE电力电子与风机研讨会(IEEE Symposium on Power Electronics and Machines in Wind Applications)的主席.E-mail: wenzhong.gao@du.edu

    张应晨    美国国立可再生能源实验室高级工程师, 美国丹佛大学客座研究副教授.2003获得天津大学授予的学士学位, 2010年获得弗吉尼亚理工学院暨州立大学授予的博士学位.主要研究方向为未来电网的先进能源管理系统, 大规模可再生能源整合对电力系统运行的影响, 对具有高可再生能源渗透率系统的稳定性监测和分析, 以及同步相量测量技术在可再生能源接入中的应用.他是多项美国国家能源部和国立可再生能源实验室资助的新能源相关课题的课题组组长.他有10年以上在电力系统运行和规划, 可再生一体化, 传感和监测领域的工作经验.他共同撰写出版了50多篇同行评审的出版物, 并持有一项美国专利. E-mail:Yingchen.Zhang@nrel.gov

    郑心湖    美国科罗拉多州科林斯堡科罗拉多州立大学大学计算机科学与工程学院博士研究生. 2011年获得浙江大学控制科学与工程学院本科学位.主要研究方向包括社会计算, 机器学习, 数据分析.E-mail:zheng473@umn.edu

    杨柳青     2004年获得美国明尼苏达大学博士学位.主要研究方向为通信和信号处理.杨柳青博士一直活跃在学术界, 她组织了多次IEEE国际会议, 并且是许多杂志的编委成员, 包括:IEEE Transactions on Communications, the IEEE Transactions on Wireless Communications, the IEEE Transactions on Intelligent Transportation Systems, 以及IEEE Transactions on Signal Processing.她在2007年曾获得过由美国海军办公室颁发的杰出青年研究员奖, 在2009年获得了美国国家科学基金会职业奖, 在2010年获得了IEEE全球通信杰出服务奖, 在2012年获得了GeorgeT.Abell杰出中职教师奖, 分别于2012年和2016年获得了由科罗拉多州立大学颁发的Ary Corey杰出国际贡献奖, 同时也在IEEE ICUWB、ICCC ITSC GLOBECOM、ICCWCSP等期刊多次获得最佳论文奖. E-mail: lqyang@engr.colostate.edu

    郝君    美国科多拉多州丹佛大学电气与计算机工程系博士研究生.2015年获得美国科罗拉多州丹佛大学电气与计算机工程系获得电气和计算机工程硕士学位.主要研究方向为电力工程.E-mail:jun.hao@du.edu

    戴潇潇    美国科多拉多州丹佛大学电气与计算机工程系博士研究生. 2013年获得丹佛大学电气与计算机工程系电气和计算机工程硕士学位. 2011年获得吉林大学与俄罗斯托木斯克理工大学共同授予的电子工程学士学位.主要研究方向为传感, 机器学习, 信号处理, 系统分析. E-mail: xiaoxiao.dai@du.edu

    通讯作者:

    张俊    美国科罗拉多丹佛大学电气与计算机工程系副教授. 2003年和2005年分别获得华中科技大学电气工程系学士与硕士学位.2008年获得亚利桑那州立大学电气工程博士学位.主要研究方向为传感理论, 信号处理和实现, 时变系统建模, 及其在智能电力和能源系统中的应用.他撰写并共同出版了70多篇同行评议的出版物.他是第48届北美电力研讨会联合技术主席(NAPS 2016).本文通信作者. E-mail:jun.zhang@du.edu

Blockchain Based Intelligent Distributed Electrical Energy Systems:Needs, Concepts, Approaches and Vision

More Information
    Author Bio:

       Associate professor in the Department of Electrical and Computer Engineering, University of Denver, Colorado, USA. He received his master and Ph.D. degrees in Electrical and Computer Engineering, specializing in electric power engineering, from Georgia Institute of Technology, Atlanta, USA in 1999 and 2002, respectively. His research interest covers renewable energy and distributed generation, microgrid, smart grid, power system protection, power electronics applications in power systems, power system modeling and simulation, and hybrid electric propulsion systems. He is an editor of and an associate editor of . He is the General Chair for the 48th North American Power Symposium (NAPS 2016) and the IEEE Symposium on Power Electronics and Machines in Wind Applications (PEMWA 2012).E-mail:

       Senior engineer at the National Renewable Energy Laboratory and a visiting research assistant professor at the University of Denver. He received his bachelor degree from Tianjin University, China in 2003 and his Ph. D. degree from Virginia Polytechnic Institute and State University, USA in 2010. His research interest covers advanced energy management system for future grids, the impact of large-scale integration of renewable energies on power system operations, stability monitoring and analysis of a system with high renewable penetration, and synchrophasor measurements applications on renewable integrations. He is the principal investigator on several Department of Energy and National Renewable Energy Laboratory sponsored projects focusing on wind and solar integration. He has over 10 years of experience in power industry in the areas of power system operation and planning, renewable integration, sensing and monitoring. He authored/coauthored over 50 peer reviewed publications and holds one U. S. patent.E-mail:

        Ph. D. candidate in computer science and engineering with Colorado State University, Fort Collins, CO, USA. He received his bechelor degree in control science and engineering from the Zhejiang University of China, Hangzhou, China, in 2011. His research interest covers include social computing, machine learning, and data analytics.E-mail:

        She received her Ph. D. degree from the University of Minnesota, Minneapolis, MN, USA, in 2004. Her research interest covers communications and signal processing. Dr. Yang has been actively serving in the technical community, including the organization of many IEEE international conferences, and on the editorial boards of a number of journals, including the , ,, and the . She received the Office of Naval Research Young Investigator Program Award in 2007, the National Science Foundation Career Award in 2009, the IEEE GLOBECOM Outstanding Service Award in 2010, the George T. Abell Outstanding Mid-Career Faculty Award and the Art Corey Outstanding International Contributions Award at CSU in 2012 and 2016 respectively, and Best Paper Awards at IEEE ICUWB' 06, ICCC' 13, ITSC' 14, GLOBECOM' 14, ICC' 16, and WCSP' 16.E-mail:

        Ph. D. candidate at University of Denver, majoring in electric power engineering. He received his master degree in electrical and computer engineering, specializing in electric power engineering from University of Denver, Colorado, USA, in 2015. His main research interest is electric power engineering.E-mail:

        Ph. D candidate at the Ritchie School of Engineering and Computer Science, University of Denver, Denver, USA. She received her master degree in Electrical Engineering from the Ritchie School of Engineering and Computer Science, University of Denver, Denver, USA in 2013, her bachelor degree in Electronics and Microelectronics from Jilin University, Changchun, China, and from National Research Tomsk Polytechnic University, Tomsk, Russia in 2011. Her research interest covers sensing, machine learning, signal processing, and network analysis.E-mail:

    Corresponding author: ZHANG Jun     Associate professor in the Department of Electrical and Computer Engineering, University of Denver, USA. He received his bachelor and master degrees in Electrical Engineering from Huazhong University of Science and Technology, Wuhan, China in 2003 and 2005, respectively, and his Ph. D. in Electrical Engineering from Arizona State University, USA in 2008. His research interesting covers sensing theory, signal processing and implementation, time-varying system modeling, and their applications in intelligent power and energy systems. He authored/coauthored over 70 peer reviewed publications and he is the Technical Co-Chair for the 48th North American Power Symposium (NAPS 2016). Corresponding author of this paper.E-mail:jun.zhang@du.edu
  • 摘要: 智能分布式电力能源系统(Intelligent distributed,electrical energy systems,IDEES)具有组件种类繁多,数量庞大,管理困难,利润低微等特点,导致传统中心化的运营管理不再适合此类系统,而区块链技术可能是推行大规模分布式智能电力能源系统重要的技术路径.由于电力能源系统是一种具有社会和技术双重属性的系统,从而注定了其在用区块链实现运行时,必然需要多种区块链来描述和建模其不同的属性,在文中称之为“区块链群”.具体来说,从底层到高层,这个区块链群由分布式数据存储与服务区块链、智能资产管理区块链、电力系统分析区块链、智能合约运营区块链和智能电力交易支付区块链组成.基于区块链技术、分布式文件服务技术、分布式电力系统分析与管理技术,这些不同层次和功能的区块链自我组织、互相协助,最后形成一个分布式自主的电力能源运行系统.在此复杂系统中,频繁而深度的计算与交互衍生出系统智能,笔者期望这种智能将促成稳定、可靠、有效的电力能源生产、传输与消费.
  • 随着计算能力的提高和计算理论的创新,机器学习在过去30年中取得了长足的发展,正受到越来越多人的关注,并在生物、医药、能源、交通、环境等诸多领域中获得了成功的应用.与此同时,机器学习也面临越来越多的问题,传统机器学习理论框架的不足被逐渐发现和确认,新的机器学习理论框架不断被提出[1].

    中科院自动化所王飞跃研究员于2004年提出了平行系统的思想,试图用一种适合复杂系统的计算理论与方法解决社会经济系统中的重要问题.其主要观点是利用大型计算模拟、预测并诱发引导复杂系统现象,通过整合人工社会,计算实验和平行系统等方法,形成新的计算研究体系[2-5].

    在过去的10多年中,平行系统这一研究体系在实践中取得了大量的成果,并不断丰富和完善起来[6-9]. 近年来,我们尝试将平行系统的思想扩展并引入到机器学习领域建立一种新型理论框架以更好地解决数据取舍、行动选择等传统机器学习理论不能很好解决的问题.

    以下我们将首先回顾常见的一些机器学习理论,并比较它们在数据获取---行动选择这一核心问题上的处理方式. 接着,我们将提出"平行学习"这一新型机器学习理论框架,并着重分析其独特之处. 最后我们总结全文.

    着眼于数据获取和行动选择之间的关系,我们可以建立如下数学模型来描述常见的一些机器学习理论框架:

    假设我们获取到一系列数据并构成集合$X=\left\{ {x_i } \right\}$,$i=1,{\cdots},I$. 若研究对象为复杂系统,则这些数据通常为观测到的系统状态或输出. 针对这些数据,我们可以采取一系列行动$a_k $并构成集合$A=\left\{ {a_k ({X}')}\right\}$,$k=1,{\cdots},J$,${X}'\subseteq X$表示数据集$X$的一个子集. 每一个行动可以导致一个回报$R(a_j )$,且数据的获取和采取行动可以在时间上分离. 我们的目标是,通过机器学习,最大化长期回报

    \begin{equation}\label{eq1} \mathop {\max }\limits_{a_j ,1\le j\le J}\sum\limits_{k=1}^J {R(a_k )}\end{equation}

    (1)

    如果我们关心的是每一个行动导致的损失$L(a_k )$,则目标函数可变为最小化长期损失

    \begin{equation}\label{eq2} \mathop {\min }\limits_{a_k ,1\le k\le J}\sum\limits_{k=1}^J {L(a_k )}\end{equation}

    (2)

    对于常见的有监督学习(Supervised learning)[10-11]而言,上述这一模型可以进一步简化为: 当所有数据已知且已经被正确分类后,我们采取一个行动: 建立一个函数映射(通常是分类函数)来最小化分类误差.一般而言,我们预设数据服从独立同分布假设(Independent and identically distributed,i.i.d.),则目标函数可进一步写为

    \begin{equation}\label{eq3} \mathop {\min }\limits_a L(a(X))=\mathop {\min}\limits_a \sum\limits_{i=1}^I {L(x_i ,a)}\end{equation}

    (3)

    相对于有监督学习,在线机器学习(Online machine learning)[12-14]强调了数据是逐渐获取的,且每新获得一个数据,系统可基于所有已经获取的数据采取一个行动.对于在线机器学习的特例序贯学习(Sequential learning),我们每次仅仅获取一个数据$x_i $,依据映射函数$f(\cdot)$产生一个预测行动$f(x_i )$,接着我们再获取$x_i$真正的标记数据$y(x_i )$,并计算由此产生的损失$L\left[{f(x_i),y(x_i )} \right]$. 最终我们的目标函数为选取合适的映射$f(\cdot )$,最小化长期后悔值(Regret value)

    \begin{equation}\label{eq4} \mathop {\min }\limits_f L(a(X))=\mathop {\min}\limits_f \sum\limits_{i=1}^I {L\left[{y(x_i ),f(x_i )} \right]}\end{equation}

    (4)

    这里我们有多个行动,并随着所获数据的增多,不断优化采取的行动.

    与在线学习类似,强化学习(Reinforcement learning)[15-16]依然假设数据逐渐获取,但机器学习系统不再被动地接受数据,而转为主动寻求.系统在$t$时刻每获得一个数据$x_i^{(t)} $ (在强化学习中$x_i$为系统状态),可采取一系列行动$a_i^{(t)} $. 为简化符号,下文中系统状态和行动记为$x_t $和$a_t $.强化学习允许我们在$t$时刻的行动$a_t $影响到我们在$\left( {t+1}\right)$时刻的获取的数据$x_{t+1} $,也即存在如下的$T(\cdot ,\cdot):X× A\to X$表示特定的状态转移函数

    \begin{equation}\label{eq5} T(x_t ,a(x_t ),x_{t+1} )=\Pr \left( {x_{t+1} \vert x_t,a(x_t )} \right)\end{equation}

    (5)

    我们的目标函数为

    \begin{eqnarray}\label{eq6} &\mathop {\max }\limits_a \sum\limits_{t=1}^\infty{T(x_t ,a(x_t ),x_{t+1} )}[{R_a (x_t ,a(x_t))}+\nonumber\\&~~{\gamma \cdot V(x_{t+1} )}]\end{eqnarray}

    (6)

    其中$R_a (x_t ,a(x_t ))$为$t$时刻系统处于状态$x_t$、施加行动$a(x_t )$所获得的即时回报,$V(x_{t+1})$为系统处于状态$x_{t+1} $的长期平均回报,$\gamma $为折扣因子.

    因此,强化学习属于主动学习(Active learning)[17]的一种,我们可以选取特定的行动来兼顾优化目标函数和探索输入数据集合$X$.这相对于在线机器学习是非常重要的改进.

    然而,经典的强化学习将数据获取和对应行动局限在马尔科夫决策过程(Markov decision processes)的框架中,限制了其能力的发挥.目前研究者提出了不少强化学习的变体,如深度强化学习(Deep reinforcement learning),但基本沿用了马尔科夫决策过程这一框架.这一做法虽然保证了一定范围内学习的有效性,却不能很好地应用到非马尔科夫决策过程.

    强化学习不需要传统意义上的有标签数据,实际上其学习的过程就是不断更新数据标签的过程.但是它的学习效率并不高,需要跟环境进行大量交互从而获得反馈用以更新模型.当面临复杂系统大数据处理时,过高的系统状态维数常常使得可行解的探索变得十分困难[18-20].

    为了进一步拓展学习能力,特别是为了解决强化学习所面临的难题,我们提出如下图 1所示的平行学习的基本框架.其大致可以分为数据处理和行动学习两个互相耦合关联的阶段.

    图 1  平行学习的理论框架图(虚线上方为通过软件定义的人工系统进行大数据预处理,虚线下方表示基于计算实验的预测学习和集成学习,以及平行控制和指示学习. 细线箭头代表数据生成或数据学习,粗线箭头代表行动和数据之间的交互.)
    Fig. 1  The theoretical framework of parallel learning (The part above the dash line focuses on big data preprocessing using software defined artificial systems; the part beneath the dash line focuses on predictive learning and ensemble learning based computational experiments,as well as parallel control and prescriptive learning. The thin arrows represent either data generation or data learning; the thick arrows present interactions between data and actions.)

    在数据处理阶段,平行学习首先从原始数据中选取特定的"小数据",输入到软件定义的人工系统中,并由人工系统产生大量新的数据.然后这些人工数据和特定的原始小数据一起构成解决问题所需要学习的"大数据"集合,用于更新机器学习模型[18].

    在行动学习阶段,平行学习沿用强化学习的思路,使用状态迁移来刻画系统的动态变化,从人工合成大数据中学习,并将学习到的知识存储在系统状态转移函数中.但特别之处在于,平行学习利用计算实验方法进行预测学习(Predictive learning). 通过学习提取,我们可以得到应用于某些具体场景或任务的"小知识",并用于平行控制和平行决策.这里的"小"是针对所需解决具体问题的特定智能化的知识,而不是指知识体量上的小.

    而平行控制和平行决策将引导系统进行特定的数据采集,获得新的原始数据,并再次进行新的平行学习,使系统在数据和行动之间构成一个闭环.不仅如此,我们还引入指示学习(Prescriptive learning)的思想,从另一个角度来重新结合数据和行动.

    在上述新型理论框架的基础上,我们展开说明平行学习采用的特色方法.

    杂乱无序的数据难以学习. 基于平行理论,我们可以构建人工场景来模拟和表示复杂系统的特定场景,并将选取的特定"小数据"在平行系统中演化和迭代,以受控的形式产生更多因果关系明确、数据格式规整、便于探索利用的大数据,再把大数据浓缩成小知识、小智慧和小定律[2-9, 18].这一点也符合美国物理学家费曼(Richard Feynman)所说的名言"不是我创造的,我就不能理解" (What I cannot create,I do not understand)[21].

    以业界当前研究的新热点"平行视觉" (Parallel vision)为例[22-25]. 我们根据实际采集的少量图像数据,提取特定要素,然后在模拟环境条件中加入新的变化(如改变摄像机朝向、光照和天气条件等)以得到更加多样化的虚拟数据.对虚拟实验产生的结果进行计算评估,我们可以校正视觉模型,并重新设计新计算实验,产生新的虚拟数据. 这一迭代将反复执行直到收敛.测试表明,结合虚拟数据和真实数据可以有效提高模型性能.

    需要指出的是,平行学习中将用于产生虚拟数据的人工系统和分析数据的机器学习系统进行了一定程度的切分,允许直接在数据处理阶段进行采样.这为数据产生和数据分析添加了更多的灵活性,和传统机器学习主要由行动来驱动数据采集是不同的.

    由于我们采用的是软件定义的人工系统,我们可以借助虚实互动的平行执行来在线优化人工系统模型,更好地实现对复杂系统的智能理解和数据采样.所有数据学习的结果都能用来对人工系统模型进行校正和升级. 因此,我们并非割裂数据产生和数据分析这两部分,而是将其看成一个整体的两面.

    在平行学习中,我们强调使用预测学习和集成学习来拓展经典学习方法.

    1) 我们允许多个智能体(Agent) $O^n$,$n=1,{\cdots},N$共同学习,每个智能体可以独立地获取到一系列观测数据并构成集合$X^n=\left\{{x_i^n } \right\}$,$i=1,{\cdots},I^n$.每个智能体还可以独立地采取一系列行动并构成集合$A^n=\left\{ {a_k^n({X}'^n)} \right\}$,$k=1,{\cdots},J^n$,${X}'^n\subseteq X^n$表示数据集$X^n$的一个子集.

    2) 每个智能体获取的数据和采取行动的次数和时间均独立. 首先,我们允许一个行动可以产生多个新的数据,而强化学习一次只能产生一个新的数据. 其次,强化学习要求获取数据和完成行动必须依次间隔执行,而平行学习允许获取数据和完成行动有着完全不同的频次和发生顺序.

    3) 我们以平行世界的角度来看待系统状态的演化过程.将新获得的数据映射到平行空间中,我们可以通过大量长期的仿真迭代来预测和分析预期行动的结果,并最终将最优动作返回现实空间[2-8, 18].

    基于上述三点扩展,我们可以放松数据和行动之间的耦合,极大地扩展现有的强化学习方法[26-27]. 其实,上述三点扩展已经在AlphaGo这一划时代的人工智能产品中得以体现[28].参见图 2所示,AlphaGo对于当前局面,使用蒙特卡洛树(Monte Carlo tree)方法,进行数盘20$\sim$30步的模拟测试下来探求局部最优的下法,这可以看作是使用智能体进行中长期仿真迭代来预测和分析预期行动的结果.同时,其数据的产生和行动的产生相对独立,不需时间对齐.AlphaGo利用输入的数万盘高手对局数据进行自我对战. 在和李世乭比赛之前,自我对战了3000多万盘. 这就是典型的实际小数据到虚拟大数据的过程.

    图 2  AlphaGo将现实世界的数据映射到平行世界,进行多线迭代来求取预期行动
    Fig. 2  AlphaGo maps data in realistic world into parallel world and uses multithread iterations to determine the expected actions

    LeCun在最近几年的演讲中反复以"蛋糕"比喻整个机器学习领域.而强化学习是蛋糕上的一粒樱桃,监督学习是蛋糕外面的一层糖霜,无监督学习(Unsupervised learning)[29-30]则是蛋糕胚.然而目前,糖霜和蛋糕胚之间还存在巨大的空白区域. 为此,LeCun在2016年认为预测学习可以来填补这一空白[31].

    预测学习起源于认知心理学对于儿童学习方式的解释[32].其后被用来解释智能体如何从与环境的交互中学习特定知识[33-34].深入比较不难发现,预测学习和我们在过去10多年中所一直倡导的基于计算实验的平行系统方法[2-9]本质是一样的.简而言之,平行系统和预测学习的核心就是用机器给真实环境建模,仿真预测可能的未来,并通过观察和演示来理解世界如何运行的能力.其中仿真是无监督或半监督(Semi-supervised learning)[35-36]的,而初始状态和最终结果是有监督的.我们称这种学习方式为平行预测+指示学习(Parallel predictive+Prescriptive learning),可以糅合无监督、半监督和有监督三种学习方式,填补各自之间的空白.

    4) 类比于多智能体系统[37-38],平行学习还允许分散学习和集成学习两种机制.

    分散学习机制要求每个智能体可以独立根据自身获取的数据来进行行动,每一个行动可以导致一个回报$R(a_k^n )$.我们的目标是最大化所有智能体的总体长期回报

    \begin{equation}\label{eq7} \mathop {\max }\limits_{a_k^m ,1\le k\le J,1\le m\le N}\sum\limits_{m=1}^N {\sum\limits_{k=1}^J {R^m(a_k^m )} }\end{equation}

    (7)

    该学习机制适合于分散控制等问题,其中每个智能体获得的数据和执行的行动都是时空局部、甚至可以时间异步的.例如,我们在分布式平行交通控制系统中设定不同路口的控制器进行迭代和学习,协同式产生和发现最优的交通信号灯控制策略[7-8].

    集成学习机制则要求设置一个所谓代理智能体(Surrogate agent).每个智能体可以独立地根据自身获取的数据来进行行动,每一个行动可以导致一个回报$R^m(a_k^m )$.我们的目标是选取所有这些智能体可能获得的回报中最大的那个动作,并让代理智能体执行该动作.

    \begin{equation}\label{eq8} \mathop {\arg \max }\limits_{a_k^m ,1\le k\le J,1\le m\le N} \sum\limits_{m=1}^N {R^m(a_k^m )}\end{equation}

    (8)

    该学习机制类似于现有的集成学习(Ensemble learning)[39],可适合于静态数据的集中分类等问题. 而我们的研究表明,更为广义的集成学习技术也可以应用于动态系统的建模和控制之中[40].其中每个智能体都致力于在学习中对复杂系统进行建模并执行特定的行动来达到某一优化目标.各智能体执行的行动是时间同步,但所获取的数据可以是时空局部的.特别地,我们可以设定策略使得每个Agent根据自身偏好来探索输入数据集的不同部分,并建立适合特定输入数据子集的行动策略[40].这一想法亦被我们用在所谓平行动态规划(Parallel dynamic programming)之中,以克服现有近似动态规划算法对于解空间探索不足的困难[41].

    一般而言,复杂系统可以大致分为牛顿系统和默顿系统两种.无论我们怎么对牛顿系统进行分析,都不会影响系统运行的结果.例如天气预报明天下雨,那么天气是下雨下雪还是刮风,跟我们的分析调控无关. 而在默顿系统中,存在双向影响通路,我们对系统的调控会影响系统运行的结果. 例如,著名分析师对于股市的评论会影响股市的波动. 因此,我们可以设定预期的系统状态,通过对于系统的描述、预测、引导来使得系统达到控制者所期望的状态.美国社会学家默顿将这一长期行动称为预言的自我实现定律(Self-fulfilling prophecy)[42]. 该定律也被后人称为默顿定律.

    默顿定律希望通过改变行动的模式,即实际系统与人工系统的平行互动,促使实际系统运行到既定目标. 然而与牛顿系统不同,默顿系统中的"行动建模"与"目标建模"相互独立,且"行动建模"受到有限先验知识,系统高度随机性等多方面因素的影响,难以实现[43]. 如果用上面的学习框架来描述,就是难以确知我们每一次探索所获得的即时回报$R_a (x,a(x))$,而且即时回报$R_a (x,a(x))$和长期回报$V(x)$之间的关系亦不明确.

    幸运的是,近10年来研究者先后提出了对抗学习(Adversarial learning)[44-46]、对偶学习(Dual learning)[47]等全新的学习原则,为解决上述问题提出了新的思路.

    对抗学习通过构造相互竞争的生成器和辨别器来提高学习的效率[44-46].在图像学习中,前者试图产生假的图像,后者试图鉴别出真正的图像.本质上,这依然是费曼所称"不是我创造的,我就不能理解"概念的体现,即通过构建验证过的概念来理解事物.但对抗学习最大的优点是系统的回报/损失函数不必显式给出,而是通过生成器和辨别器的对抗来自动学习和挖掘来产生.这是默顿定律所期待的,在系统和行动的互动之中,达成知识的"泛化"(Generalization).

    对偶学习[47]的思路则更加偏重迭代演进.假设学习过程中有两个智能体分别从事原任务(从集合$X$到集合$Y$的学习任务)和对偶任务(从集合$Y$到集合$X$的学习任务).假如我们首先把集合$X$用第一个智能体的模型$F$映射成集合$Y$的子集$Y'$,再利用第二个智能体的模型$G$把集合$Y'$映射成集合$X$的子集$X'$.比较集合$X$和$X'$,我们常常可以获得非常有用的反馈信号来改进映射模型$F$和$G$.以机器翻译为例,上面的这个过程可以无限循环下去. 可以证明,只要机器翻译模型 $F$ 和 $G$ 的解码部分都使用的是随机算法,这一学习过程是收敛的,最终会学到两个稳定有效的模型$F$和$G$.

    综合对抗学习和对偶学习,我们可以提出如下更一般的指示学习.指示学习关注如何设置引导,使得我们获得预期的学习目的或者学习效果[48].具体到大数据环境中的数据获取--数据学习这一矛盾关系中,指示学习可以被建模为反复循环的两阶段学习--探索过程.

    假设我们不断地获取数据并构成集合$X=\left\{ {x_i } \right\}$,$i=1,{\cdots},I$. 针对这些数据,我们可以采取一系列行动并构成集合$A=\left\{ {a_k (X)} \right\}$,$k=1,{\cdots},J$.

    在第一阶段,我们学习特定行动原则,最大化阶段性回报$V(X,a_k (X))$

    \begin{equation}\label{eq9} \mathop {\max }\limits_{a_k ,1\le k\le J} V(X,a_k (X))\end{equation}

    (9)

    在第二阶段,我们在此基础上通过数据生成算法产生新的数据集合${X}'=\left\{ {{x}'_i} \right\}$,$i=1,{\cdots},I$,并衡量阶段性损失$L\left[{{X}',a_k({X}'))} \right]$. 损失函数$L\left[\cdot\right]$为已学会的行动原则在新数据集合${X}'$上的损失,该函数指示了我们下一步学习的方向. 对于对抗学习而言,$L\left[\cdot\right]$可以直接设为误分类比率. 对于对偶学习而言,$L\left[\cdot\right]$为迭代产生的映射误差. 对于平行系统控制而言,$L\left[\cdot\right]$通常可以设为当前系统状态和理想系统状态之间的差值[7-9].

    当上述两个阶段过程完成后,我们进入新的循环,直到我们覆盖所有的数据集或系统状态,又或者我们已经到达理想的系统状态.

    目前,强化学习已经为我们在第一阶段的数据学习提供了相当强的理论工具和方法.但我们对于第二阶段的数据探索尚有很多未知的领域值得深入研究.原始的对抗学习中,数据产生的方式是无模型无监督学习,但其效果有待改进[44]. 而对偶学习中,数据产生的方式是有模型无监督学习,理论证明清晰但限制较多[47]. 最近的研究表明,类似于我们在上文中提及的平行仿真和预测学习这种半监督、具有限定条件和指示性目标的演化式学习(例如利用信息熵的InfoGAN[49])可能更加适合特定问题的解决.这即是我们在上文中提到的平行预测+指示学习(Parallel predictive +Prescriptive learning)的思想的体现: 既有方向性指示,亦不过多限制中间探索过程.我们期待这一思想能带来更多新的机器学习方法.

    在本文中,我们提出平行学习的基本思想和理论框架,并阐述了平行学习的三大特色方法:1) 通过软件定义的人工系统进行大数据预处理,2) 包含预测学习、集成学习的数据学习,和3) 基于默顿定律实现数据--行动引导的指示学习.

    概括而言,平行学习理论框架强调:使用预测学习解决如何随时间发展对数据进行探索;使用集成学习解决如何在空间分布上对数据进行探索;使用指示学习解决如何探索数据生成的方向.目前我们的研究显示,扩展现有的强化学习模型能够较好地和这三者结合.但我们不排除今后有更好的模型来和我们提出的平行学习理论框架结合发展.

    需要指出的是,我们主要强调从理论框架层面改进和扩展已有机器学习方法,并初步开展了相应模型和算法的研究.例如我们将平行学习方法应用到了虚拟场景生成和无人驾驶车辆智能测试[50-51],以及社会计算和情报处理[52-54].但很多细节之处尚需完备的理论证明. 期待本文抛砖引玉,引起业内专家学者兴趣,共同对机器学习理论做出更加深入的革新.


  • 本文责任编委 王飞跃
  • 图  1  分布式智能电力能源系统区块链群:架构与分层功能

    Fig.  1  Blockchain groups in intelligent distributed electrical energy systems: architecture and functionality

    图  2  区块链信息交互示意图

    Fig.  2  Information interactions within the blockchains

  • [1] 袁勇, 王飞跃.区块链技术发展现状与展望.自动化学报, 2016, 42(4): 481-494 http://www.aas.net.cn/CN/abstract/abstract18837.shtml

    Yuan Yong, Wang Fei-Yue. Blockchain: the state of the art and future trends. Acta Automatica Sinica, 2016, 42(4): 481-494 http://www.aas.net.cn/CN/abstract/abstract18837.shtml
    [2] Nakamoto S. Bitcoin: a peer-to-peer electronic cash system [Online], available: https://bitcoin.org/bitcoin.pdf, September 15, 2006
    [3] Swan M. Blockchain: Blueprint for a New Economy. Sebastopol, CA, USA: O'Reilly Media, 2015. http://dl.acm.org/citation.cfm?id=3006358
    [4] 谭磊, 陈刚.区块链2.0.北京:电子工业出版社, 2016.
    [5] Wang X M. Blockchain 2.0: smart contract [Online], available: http://www.8btc.com/blockchain-smart-contract, 2016.
    [6] 安全客. 从比特币到智能合约, 区块链到底能给我们带来什么? [Online], available: http://bobao.360.cn/news/detail/3432.html, September 15, 2016
    [7] Platt G, Berry A, Cornforth D. What role for microgrids? Smart Grid: Integrating Renewable, Distributed & Efficient Energy. Waltham: Academic Press, 2012.
    [8] Cherian S. DER integration for peak load management DOE RDSI-city of Fort Collins, Colorado [Online], available: https://www.smartgrid.gov/files/DER_integration_for_Peak_Load_Management_DOE_RDSI_City_Fort_200807.pdf, September 15, 2016
    [9] 张宁, 王毅, 康重庆, 称将南, 贺大玮.能源互联网中的区块链技术:研究框架与典型应用初探.中国电机工程学报, 2016, 36(15): 4011-4022 http://www.cnki.com.cn/Article/CJFDTOTAL-ZGDC201615001.htm

    Zhang Ning, Wang Yi, Kang Chong-Qing, Cheng Jiang-Nan, He Da-Wei. Blockchain technique in the energy internet: preliminary research framework and typical applications. Proceedings of the CSEE, 2016, 36(15): 4011-4022 http://www.cnki.com.cn/Article/CJFDTOTAL-ZGDC201615001.htm
    [10] 刘广一, 朱文东, 陈金翔, 张逸.智能电网大数据的特点、应用场景与分析平台.南方电网技术, 2016, 10(5): 102-110 http://www.cnki.com.cn/Article/CJFDTOTAL-NFDW201605015.htm

    Liu Guang-Yi, Zhu Wen-Dong, Chen Jin-Xiang, Zhang Yi. Characteristics, application scenarios and analysis platform of smart grid big data. Southern Power System Technology, 2016, 10(5): 102-110 http://www.cnki.com.cn/Article/CJFDTOTAL-NFDW201605015.htm
    [11] Storj Labs Inc [Online], available: https://storj.io/, September 15, 2016
    [12] Protocol Labs Inc [Online], available: http://ipn.io, September 15, 2016
    [13] Raval S. Decentralized Applications: Harnessing Bitcoin's Blockchain Technology. Sebastopol, CA, USA: O'Reilly Media, 2016.
    [14] SmartGrid.gov. Smart grid asset descriptions [Online], available: https://www.smartgrid.gov/files/description_of_assets.pdf, September 15, 2016
    [15] Gómez-Expósito A, de la Villa Jaén A, Gómez-Quiles C, Rousseaux P, Van Cutsem T. A taxonomy of multi-area state estimation methods. Electric Power Systems Research, 2011, 81(4): 1060-1069 doi: 10.1016/j.epsr.2010.11.012
    [16] Korres G N. A distributed multiarea state estimation. IEEE Transactions on Power Systems, 2011, 26(1): 73-84 doi: 10.1109/TPWRS.2010.2047030
    [17] Bradshaw J M. Software Agents. Cambridge, MA: The MIT Press, 1997.
    [18] Ferber J. Multi-Agent Systems: An Introduction to Distributed Artificial Intelligence. Great Britain: Addison-Wesley, 1999.
    [19] Common Information Model (CIM)/Energy Management, International Electrotechnical Commission (IEC) Standard 61970, 2003.
    [20] Osborne M J, Rubinstein A. A Course in Game Theory. Cambridge, MA: MIT Press, 1994.
    [21] 范如国, 韩民春.博弈论.武汉:武汉大学出版社, 2006.

    Fan Ru-Guo, Han Min-Chun. Game Theory. Wuhan, China: Wuhan University Press, 2006.
    [22] Bialek J. Tracing the flow of electricity. IEE Proceedings-Generation, Transmission and Distribution, 1996, 143(4): 313-320 doi: 10.1049/ip-gtd:19960461
    [23] Kirschen D, Allan R, Strbac G. Contributions of individual generators to loads and flows. IEEE Transactions on Power Systems, 1997, 12(1): 52-60 doi: 10.1109/59.574923
    [24] Kirschen D, Strbac G. Tracing active and reactive power between generators and loads using real and imaginary currents. IEEE Transactions on Power Systems, 1999, 14(4): 1312-1319 doi: 10.1109/59.801890
    [25] Bialek J. Topological generation and load distribution factors for supplement charge allocation in transmission open access. IEEE Transactions on Power Systems, 1997, 12(3): 1185-1193 doi: 10.1109/59.630460
    [26] Minsky M. The Society of Mind. New York, USA: Simon and Schuster, 1986.
    [27] 王飞跃.人工社会、计算实验、平行系统—关于复杂社会经济系统计算研究的讨论.复杂系统与复杂性科学, 2004, 1(4): 25-35 http://www.cnki.com.cn/Article/CJFDTOTAL-FZXT200404001.htm

    Wang Fei-Yue. Artificial societies, computational experiments, and parallel systems: a discussion on computational theory of complex social-economic systems. Complex Systems and Complexity Science, 2004, 1(4): 25-35 http://www.cnki.com.cn/Article/CJFDTOTAL-FZXT200404001.htm
    [28] Merton R K. The unanticipated consequences of purposive social action. American Sociological Review, 1936, 1(6): 894-904 doi: 10.2307/2084615
    [29] Wang F Y, Zhang J, Wei Q L, Zheng X H, Li L. PDP: parallel dynamic programming. IEEE/CAA Journal of Automatica Sinica, 2017, 4(1): 1-5 doi: 10.1109/JAS.2017.7510310
  • 加载中
  • 图(2)
    计量
    • 文章访问数:  3527
    • HTML全文浏览量:  1975
    • PDF下载量:  2409
    • 被引次数: 0
    出版历程
    • 收稿日期:  2016-10-30
    • 录用日期:  2017-03-21
    • 刊出日期:  2017-09-20

    目录

    /

    返回文章
    返回