-
摘要: 针对结构固定认知模型中存在的学习浪费与计算浪费问题, 在具有内发动机机制的感知行动认知模型基础上, 根据操作条件反射学习特性, 借鉴潜在动作原理, 建立起一种具有发育机制的感知行动认知模型D-SSCM (Development-sensorimotor cognitive model), 具体为一个14元组, 包含离散学习时间集、内部可感知离散状态集、可输出动作集、有效输出动作空间集、潜在动作关系集、可输出动作空间探索率集及发育算法等.针对模型发育过程, 分别设计了模型结构扩展式发育方法和算法以及缩减式发育方法和算法, 定义了模型的发育式学习过程.使用两轮机器人自平衡任务对设计的学习模型进行验证, 实验结果表明, 发育机制下的感知行动认知模型D-SSCM具有更快的学习速度及更稳定的学习效果.Abstract: Aiming at the problems of learning waste and computing waste that exist in the cognitive models with fixed structure, and according to the operate conditioning learning characteristics as well as drawing on the affordance theory, a new kind of sensorimotor cognitive model named D-SSCM with the developmental mechanism is established based on the sensorimotor cognitive model with the mechanism of intrinsic motivation. D-SSCM is a fourteen tuple in specific, including discrete learning time set, internal sensible discrete state set, optional motion set, effective output motion space set, affordance relationship set, optional motion space exploration rate set, developmental algorithm and etc. In view of D-SSCM's developmental learning, extended developmental method and algorithm as well as reduced developmental method and algorithm are designed. Model's developmental learning process is defined. Using two-wheeled robot self-balancing task to test this designed model, results show that D-SSCM is with faster learning speed and more stable learning effect.
-
Key words:
- Development /
- operant conditioning /
- affordance /
- sensorimotor cognitive /
- two-wheeled robot
-
实际生产生活中的许多问题都具有多模态特性, 即存在多个全局或局部最优解, 如药物分子设计[1]、作业车间调度[2]和蛋白质结构设计[3]等. 这类问题称为多模态优化问题(Multimodal optimization problem, MMOP)[4-5]. 在很多情况下, 该类问题又同时存在目标函数评价代价昂贵的现象. 以基于EnergyPlus仿真软件的建筑节能设计问题为例, 在普通电脑上运行一次进化优化算法通常需要几十分钟, 甚至数个小时[6]. 将同时具有多模态特性和高昂计算代价的优化问题称为昂贵多模态优化问题(Expensive MMOP, MMOP)[7].
在求解昂贵多模态优化问题时, 决策者往往希望可以同时找到它的多个最优解, 主要原因如下[7-8]: 1)对于很多的实际工程优化问题, 设计师通常希望从差异较大的若干优秀解决方案中自主选择满足不同需求的方案; 2)当采用代理模型辅助的进化优化算法处理该类问题时, 受训练数据不足的影响, 代理模型拟合出的目标函数的全局最优点未必是实际问题的全局最优点. 这些伪最优点会诱导种群舍弃真实最优点, 进而陷入局部收敛. 此时, 同时定位问题的多个优化解, 势必可以提高算法找到真实全局最优解的可能性.
针对多模态优化问题, 国内外学者已经提出诸多的进化优化算法. 依据模态处理方法的不同, 这些算法大致可分为3类[9]. 第1类为小生境技术, 其基本思想是采用某种策略产生若干个多样性好的子种群, 使它们分别朝着不同优化解的方向搜索[10-14]. 近年来, 为克服小生境半径对算法性能的影响, 学者们也提出多种无参数的改进小生境技术, 如Li[15]提出的物种形成策略、王湘中等[16]提出的山谷探索法等. 类似地, 张贵军等[17]也设计了一种两阶段退火策略来动态调整小生境半径. 特别地, 文献[18-19]提出的适应值共享策略, 其思想也是根据个体相似性将种群分为不同的子种群. 第2类是种群多样性增强技术, 其基本思想是通过增强种群的多样性来确保算法搜索方向的多样性. 部分代表性方法如Qu等[20]提出的基于局部信息交互的粒子群优化算法、Biswas等[21]提出的局部信息共享的差分进化算法等. 第3类是多目标转换技术, 其主要思想是将单目标多模态问题转化成一般的多目标优化问题进行求解. 变换后问题通常包括两个目标: 一个是给定的多模态问题, 另一个是衡量解多样性的指标[9, 22-23]. 与此同时, 这些算法也在诸多实际问题中获得成功应用, 如药物分子设计[1]、特征选择问题[24]等. 但是, 当处理昂贵优化问题时, 由于需要进行若干次的真实个体评价才能获得问题的最优解, 这些算法依然存在运行代价过高的不足.
目前, 求解高昂优化问题的进化算法(Evolutionary algorithm, EA)已有很多, 其中最具代表性的是代理辅助的进化优化算法(Surrogate-assisted evolutionary algorithm, SAEA)[25]. 该类方法采用计算便宜的代理模型替代昂贵真实函数来评价个体的适应值, 可以达到降低算法计算代价的目的. 随之, 很多优秀的机器学习方法相继用于产生代理模型[26-29]; 相应地, 诸多典型的SAEA也相继提出[30-32]. 从代理模型的使用规模上, 这些算法可以分为单代理模型辅助的EA和集成代理模型辅助的EA. 部分单代理模型辅助的EA包括多项式回归(Polynomial regression, PR)辅助的EA[29]、支持向量机辅助的EA[33]、径向基函数网格(Radial basis function network, RBFN)辅助的EA[28, 34]和Kriging辅助的EA[35]或高斯过程模型辅助的EA[36-38]等. 通常不同的代理模型具有不同的特性, 适合于不同类型的优化问题. 在没有问题先验知识的情况下, 决策者很难为当前问题提供一个合适的代理模型. 由于没有其他代理模型可以弥补当前代理模型的缺陷, 单代理辅助EA的鲁棒性相对较差.
通过合理组合多个不同特性的代理模型, 集成代理模型通常可以获得比单一代理模型更为优越的泛化性能. 现有代理模型集成策略可分为异构集成和同质集成两种. 异构集成由多个不同类型的单个代理模型组成, 而同质集成由多个相同类型的单个代理模型组成. 为便于区分, 下文将集成代理模型中的单个代理模型统称为基础代理模型. 在诸多的集成代理模型辅助EA中, 最常用的同质集成代理模型是基于RBFN的集成代理. 文献[39-41]采用RBFN同时构建问题的全局和局部代理模型; Wang等[32]采用Bagging算法构建大量的RBFN代理模型, 并在优化过程中自适应集成这些代理模型. 在研究异构集成代理模型时, 学者们最常用的3种基础代理模型是Kriging、RBFN和PR. 学者们采用不同的策略组合这些基础代理模型, 分别提出不同的集成代理模型[42-48]. 实验表明, 与同质集成代理模型相比, 基于异构集成代理模型的进化优化算法可以显著提高算法的搜索性能[25]. 然而, 这些方法都是面向求解问题的一个全局最优解而设计的. 在很多情况下, 它们只需要保证代理模型在全局最优峰处的精度即可. 除在单目标优化问题中采用异构集成模型, 陈万芬等[49]在处理昂贵多目标优化问题时, 也给出一种基于Kriging和RBFN的异构加权集成代理模型. 然而, 由于其处理对象为包含多个冲突目标的多目标优化问题, 他们提出的代理模型构建和更新方法并不适合昂贵多模态优化问题. 当面对包含多个全局最优解的多模态问题时, 如何同时保证代理模型在多个最优峰/谷处的精度, 需要提出更为高效的代理模型集成和管理策略.
此外, 代理模型预测的不确定性在SAEA中也扮演着重要的角色. 它会给SAEA带来负面影响, 导致SAEAs搜索停顿或收敛于假最优, 因此, 需要合理使用这些不确定信息. 在SAEA中代理模型不确定性的表示有多种形式, 如采用Kriging模型提供的预测不确定性、利用解与其邻域内训练数据的距离来估计不确定性[50]等. 此外, 在多代理辅助的EA中, 可以采用多个代理模型的预测差值刻画预测值的不确定性[47, 51]. 目前, 大部分SAEA仅将不确定信息引入到代理模型管理, 即用于挑选不确定性较大的解[44, 47, 50-52]进行真实函数评价. 这些方法均从代理模型的角度出发, 期望提高代理模型的精度. 与之不同, 本文从进化角度出发, 将不确定信息融入到个体的适应值评价中, 在减少计算代价的同时避免代理模型不精确导致的进化方向错误等问题.
可以看出, 虽然用于求解多模态优化问题或高昂优化问题的进化算法已有很多, 但是, 少有算法将两者结合在一起. 2011年Yahyaie等[53]首次给出一种代理辅助的多模态进化优化算法. 首先, 采用自适应网格技术获得目标函数曲面的初始估计; 随后, 利用生成的网格定位问题的局部最优点, 并在局部最优点附近建立多个局部代理模型. 由于仅使用了单一类型的代理模型, 这极大限制了该方法处理复杂多模态优化问题的性能. 为此, 2021年Ji等[7]提出了一种双代理辅助的双种群粒子群优化算法(Dual-surrogate assisted cooperative particle swarm optimization, DSCPSO). 该算法设计了一种双种群协同粒子群优化机制, 用来同时探索和开发问题的多个模态; 构建了一种多模态引导的双层协同代理模型, 用于协助种群快速发现新模态和开发已有模态. 尽管DSCPSO显著提升了PSO处理多模态问题的能力, 但是, 它需要决策者设置多个重要的控制参数, 这在一定程度上限制了它的实际应用效果.
如前所述, 如果直接使用已有的多模态进化算法求解高昂多模态优化问题, 存在计算耗时的问题. 如果将代理模型辅助的进化算法用来处理该类问题, 至少存在如下3个困难亟待解决:
1)选择何种代理模型集成策略来拟合所要求解的高昂多模态优化问题. 现有集成策略只需要保证代理模型在全局最优峰/谷处的精度即可. 当面对包含多个全局最优解的多模态问题时, 如何同时保证集成代理模型在多个最优峰/谷处的精度, 需要提出更为高效的模型集成策略.
2)代理模型的管理, 即需要真实函数评价的个体的选择问题和代理模型的更新问题. 选取的个体既能体现出问题的全部模态信息, 又要保证代理模型在已有模态处的精度. 当问题的模态数和模态位置未知时, 还需要设计的代理模型更新策略能够及时响应模态数量和位置的变化.
3)当采用代理模型代替真实目标函数来预测种群中个体的适应值时, 预测误差会影响种群的搜索性能. 在不增加模型管理代价的前提下, 如何避免预测误差对算法性能的影响, 也是一个需要解决的挑战性问题.
鉴于此, 研究一种异构集成代理辅助的区间多模态粒子群优化算法(Interval multimodal particle swarm optimization algorithm assisted by heterogeneous ensemble surrogate, IMPSO-HES), 重点解决多模态特性下的代理模型选择与管理问题. 相对已有进化优化算法, 主要贡献如下:
1)提出一种基于异构集成的代理模型自主构建策略. 针对算法识别得到的每个模态, 从代理模型池中自主选择合适的异构基础代理模型进行集成. 通过对每个模态建立合适的集成代理模型, 该策略可以同时保证代理模型在多个最优峰/谷处的精度.
2)给出一种增量式的代理模型管理和更新策略. 在算法迭代过程中, 不断识别可能发现的新模态, 并利用这些模态对应的最优粒子/个体重新构建新的基础代理模型; 同时, 利用这些最优粒子作为填充样本, 重新训练模型池中部分相关的旧基础代理模型. 该策略不仅可以保障模型池中异构基础代理模型的质量, 而且能够节约模型池的管理代价.
3)首次引入区间数来表示模型预测得到的粒子适应值, 并给出一种基于区间排序的粒子位置更新策略. 相对传统基于精确值的粒子比较策略, 该策略同时考虑了粒子预测适应值的大小和不确定程度, 其得到的粒子排序结果更为可靠.
相对DSCPSO (Dual-surrogate assisted coperative PSO)[7]等已有方法, IMPSO-HES具有如下优势或改进:
1) DSCPSO采用两个种群分别实现问题新模态的搜索和旧模态的开采, 而IMPSO-HES只需单个种群即可实现上述目标, 其所需控制参数更少.
2) DSCPSO仅利用了RBFN来构建双层代理模型, 而IMPSO-HES同时采用了两类代理模型, 即RBFN和PR. 一方面, 由于RBFN和PR的组合可以处理更多类型的优化问题, IMPSO-HES的应用范围更广; 另一方面, 由于IMPSO-HES可以从模型池中为每个粒子自主选择合适的基础代理模型, 其得到的粒子评估结果更为准确.
3)在DSCPSO中, 当数据库发生变化时需要重新构建所有的代理模型; 与之不同, IMPSO-HES采用增量式方法有选择性地更新部分基础代理模型, 可以减少代理模型的更新代价.
4) IMPSO-HES考虑到了代理模型预测的不确定性, 其得到的粒子排序结果相对更为可靠.
本文结构安排如下: 第1节主要介绍相关工作; 第2节详细介绍所提IMPSO-HES的框架及其改进策略; 第3节和第4节则在数值问题和建筑能源实例上验证所提算法的有效性; 第5节总结全文并给出研究展望.
1. 相关工作
1.1 粒子群优化算法
考虑如下单目标优化问题:
$$ \begin{split} &\min \quad f(\boldsymbol{X}) \\ &{\rm s}{\rm .t}{\rm .} \quad {\boldsymbol{X}} \in {{S}} \subseteq {\bf{R}}^D \end{split} $$ (1) 其中, X为D维决策变量, S为决策变量X的取值空间, ${\bf{R}}^D$是 D维空间, f$ (\cdot) $为目标函数. 具体到昂贵多模态优化问题时, f$ (\cdot) $将同时具有多个性能相同的最优解, 并且具有高昂的计算代价.
PSO是由Eberhart等[54]模拟鸟类觅食等群体行为提出的一类启发式搜索算法. 在PSO中, 每个粒子代表优化问题的一个“潜在可行解”, 并以一定速度在搜索空间中不断更新自身的位置. 以常用的带惯性权重PSO算法[55]为例, 粒子更新公式为
$$ \begin{split} v_{i,d}(t+1) =\;& wv_{i,d}(t)+c_{1}r_{1}({Pbest}_{i,d}(t)-x_{i,d}(t))\;+\\ & c_{2}r_{2}(\boldsymbol{Gbest}_{d}(t)-x_{i,d}(t))\\ x_{i,d}(t+1) = \;&x_{i,d}(t)+v_{i,d}(t+1) \\[-15pt]\end{split} $$ (2) 其中, $ t $为迭代次数, $\ \boldsymbol{X}_{i}(t) = (x_{i,1}(t),\cdots ,x_{i,D}(t))$和$\ \boldsymbol{V}_{i}(t) = (v_{i,1}(t),\cdots ,v_{i,D}(t))$分别表示第i个粒子的位置和速度; $\ {Pbest}_{i}(t)$为第i个粒子目前为止所发现的最优位置, 简称个体引导者; $ \ \boldsymbol{Gbest}(t) $为整个粒子群目前为止所发现的最优位置, 简称全局引导者. w为惯性权重; $ \ c_{1} $和$ \ c_{2} $是两个学习因子; $ \ r_{1} $和$ \ r_{2} $为[0, 1]中的随机数.
相对遗传算法等传统进化优化技术, PSO具有收敛速度快和易于实现等优点, 目前已广泛应用于各种优化问题[30, 40, 49, 56-57]. 为了提升PSO处理多模态优化问题的能力, 学者们也设计了多种高效的多模态粒子群优化算法. 这其中, 比较经典的算法是Qu等[20]提出的基于局部信息交互的粒子群优化算法(Locally informed particle swarm, LIPS). 该算法以每个粒子为中心形成一个小生境, 采用小生境内最优信息来引导该粒子的飞行, 可以很好地均衡种群的全局探索和局部开发能力. 鉴于此, 本文使用LIPS来指导粒子群的进化. LIPS提出的粒子更新公式为
$$ \left\{\begin{split} &v_{i,d}(t+1) = w(v_{i,d}(t)+\varphi ({Pb}_{i,d}(t)-x_{i,d}(t)))\\ &{Pb}_{i}(t) = \frac{\sum\limits_{j = 1}^{n_{{\rm{size}}}}\varphi_{j}nbest_{j}(t)}{\varphi} \\ &x_{i,d}(t+1) = x_{i,d}(t)+v_{i,d}(t+1)\end{split} \right.$$ (3) 其中, $n_{{\rm{size}}}$为邻居规模, 其值随进化过程动态变化; $ nbest_{j}(t) $为个体引导者${Pbest}_{i}$的第j个最优近邻; $ \varphi_{j} $为[0, 4.1/$n_{{\rm{size}}}$]范围内均匀分布的随机数, $\varphi = \sum\nolimits_{j = 1}^{n_{{\rm{size}}}}\varphi_{j}$.
1.2 代理模型
RBFN和PR是SAEA中常用的两种代理模型[42-43]. 已有研究表明, PR适合解决低阶非线性问题, 而RBFN模型适合解决高维高阶非线性问题[58]. 鉴于它们之间的互补性, 本文使用它们共同构建模型池中的基础代理模型.
RBFN是一种含有单隐层的前馈神经网络, 它使用径向基函数作为隐层神经元的激活函数. 输入层到隐含层的转换是非线性的, 但输出层是对隐层神经元输出的线性组合. 假设网络输入为D维向量X, 则RBFN的输出可表示为
$$ \hat{f}(\boldsymbol{X}) = \sum\limits_{i = 1}^{q}w_{i}\phi(\boldsymbol{X},c_{i}) $$ (4) 其中, q为隐层神经元的个数, $ c_i $是第i个隐层神经元所对应基函数的中心; $ w_i $为第i个隐层神经元的权重; $ \phi(\boldsymbol{X},c_{i}) $是径向基函数, 其形式有多种, 如高斯和多重二次曲面(multi-quadric, MQ)[59]. 本文采用MQ基函数, 其表达式为
$$ \phi(\boldsymbol{X},c_{i}) = \sqrt{\|\boldsymbol{X}-c_{i}\|^{2}+b_{i}^{2}}$$ (5) 其中, $ b_{i} $为第i个隐层神经元所对应的偏置.
在工程设计中PR是最常使用的一种代理模型. 它的一个二阶多项式模型可以表示为
$$ \hat{y} = \beta_{0}+\sum\limits_{i = 1}^{D}\beta_{i}x_{i}+\sum\limits_{i = 1}^{D}\beta_{ii}x_{i}^{2}+\sum\limits_{i = 1}^{D}\sum\limits_{j < i}^{D}\beta_{ij}x_{i}x_{j} $$ (6) 其中, $ \beta_{0} $和$ \beta_{i} $是需要估计的系数, D为输入变量的维数; 上式中总共有(D+1)(D+2)/2项. 通常采用最小二乘法估计模型的未知系数.
1.3 区间优化
定义 1. 对于实数轴上的区间数$ \bar{a} = [a^{L},a^{U}] $, 可由中点$ M_{a} $和半宽$ W_{a} $表示为
$$ \bar{a} = \langle M_{a},W_{a} \rangle $$ (7) 其中, $M_{a} = \dfrac{1}{2}(a^{L}+a^{U})$, $W_{a} = \dfrac{1}{2}(a^{U}-a^{L})$; $ a^{L} $和$ a^{U} $为区间数a的下界和上界.
对于两个区间数, Zhou等[60]定义了一种基于可能度的比较关系.
定义 2. 假设$\bar{a}_{1} = \langle M_{a_{1}},W_{a_{1}} \rangle$ 和 $\bar{a}_{2} = \langle M_{a_{2}}, W_{a_{2}} \rangle$为两个区间数, 那么, $ \bar{a}_{1}\geq\bar{a}_{2} $的可能度为
$$ \begin{split} &P(\bar{a}_{1}\geq\bar{a}_{2}) =\\ &\qquad\max\left\{1-\frac{1}{2}\max\left(\frac{M_{a_{2}}-M_{a_{1}}}{W_{a_{2}}+W_{a_{1}}}+1,0\right),0\right\} \end{split}$$ (8) 类似地, 有
$$ \begin{split} &P(\bar{a}_{1}\leq\bar{a}_{2}) =\\ &\qquad\max\left\{1-\frac{1}{2}\max\left(\frac{M_{a_{1}}-M_{a_{2}}}{W_{a_{2}}+W_{a_{1}}}+1,0\right),0\right\} \end{split}$$ (9) 其中, $ P(\bar{a}_{1}\leq\bar{a}_{2})+P(\bar{a}_{1}\geq\bar{a}_{2}) = 1.$ $P(\bar{a}_{1}\geq\bar{a}_{2}) > 0.5$意味着$ \bar{a}_{1} $大于等于$ \bar{a}_{2} $, 而$ P(\bar{a}_{1}\leq\bar{a}_{2})>0.5 $意味着$ \bar{a}_{1} $小于等于$ \bar{a}_{2} $.
对于一组区间数, 一种常用的排序方法是基于可能度矩阵的行求和法[61]. 假如需要对一组区间数$ \bar{a}_{1}, \bar{a}_{2},\cdots , \bar{a}_{n} $进行排序, 首先采用式(8)或式(9)对区间数进行两两比较, 求得相应的可能度$p_{ij}, \;i, j = 1, 2, \cdots ,n$, 进而建立可能度矩阵P, 即
$$ {P} = \left[ \begin{array}{cccc} p_{11}&p_{12}&\cdots&p_{1n}\\ p_{21}&p_{22}&\cdots&p_{2n}\\ \vdots&\vdots&\ddots&\vdots\\ p_{n1}&p_{n2}&\cdots&p_{nn}\\ \end{array} \right] $$ 然后, 基于所得矩阵$ P $, 构造布尔矩阵 ${Q} = [q_{ij}]_{n\times n}$, 其中
$$ q_{ij} = \begin{cases} 1,&p_{ij}\geq0.5\\ 0,&p_{ij} < 0.5 \end{cases} $$ 随后, 求取每行布尔值之和, 即$r_{i} = \sum\nolimits_{j = 1}^{n}q_{ij}$, 得到n个区间数的排序向量$ \boldsymbol{r} = \{r_{1}, r_{2}, \cdots , r_{n}\} $; 最后, 根据$ r_{i} $的大小对这些区间数进行排序.
2. 所提IMPSO-HES算法
所提代理辅助的区间多模态粒子群优化算法(IMPSO-HES)主要包括三个创新工作, 即异构集成代理模型的构建、基于区间适应值的粒子更新、增量式的代理模型更新. 首先, 给出IMPSO-HES的基本框架.
2.1 算法框架
设计IMPSO-HES算法的目的是, 在计算资源有限的情况下为决策者同时提供多个高质量的最优解. 图1给出了算法的基本框架图. 该框架主要包括4个模块, 即模型池的构建、基础代理模型选择与集成、基于区间PSO更新种群以及代理模型管理与更新. 其中, “模型池的构建”模块的主要功能是, 为被优化问题提供多个多样性好的基础代理模型; “基础代理模型选择与集成”模块的作用是, 针对每个粒子从模型池中选出最适合的Q个基础代理模型, 集成这些代理模型并用其预测该粒子的区间适应值; “基于区间PSO更新种群”模块的目的是, 采用适于区间适应值的进化搜索策略不断更新种群中粒子的位置, 以发现更多高质量的最优解, 具体地, 本文采用一种融合小生境技术的区间PSO来不断更新粒子群; “代理模型管理与更新”模块主要用于从当前种群中选择少量的代表粒子(称为种子)作为新增样本, 并采用一种增量式的学习方法更新模型池中的基础代理模型.
进一步, 算法1给出了IMPSO-HES的伪代码. 首先, 采用拉丁超立方法(Latin hypercube sampling, LHS)产生规模为3D的初始训练数据库(Database, DB); 其次, 分别以50%的概率选择RBFN和PR作为代理模型, 采用异构集成方式产生$K_{{\rm{ini}}}$个基础代理模型, 并由其构建初始代理模型池; 接着, 采用动态K-means聚类方法从DB中找出$ N_{K} $个初始种子, 并将它们放入种子集合Seeds中; 最后, 随机生成规模为$ N_{p} $的初始种群, 并循环执行所提代理模型辅助的区间粒子群优化算法, 直到达到终止条件.
算法 1. IMPSO-HES算法伪代码
输入. 真实目标函数f , 最大真实评价次数$TE_{{\rm{max}}}$, 集成规模Q, 模型更新间隔代数$g_{{\rm{max}}}\,.$
输出. 最优解集, 即种子集合$Seeds $.
1) 采用LHS产生3D个初始样本, 并将其存入DB;
2) 基于DB中的样本, 构建基础代理模型池(详见第 2.2节);
3) 利用动态K-means聚类技术从DB中找出$N_{K}$个初 始种子, 并存入种子集合Seeds;
4) 生成规模为$N_{p}$的初始种群;
5) While真实评价次数$< TE_{{\rm{max}}}$
6) 执行基础代理模型选择与集成策略, 为每个模态 分配Q个基础代理模型(详见第2.3节);
7) 连续执行$g_{{\rm{max}}}$次的区间PSO更新策略, 输出得到 的个体引导者集合Pbest (详见第2.4节);
8) 从Pbest中选出代表新模态的最优解, 存入临时集 合Sample (详见第2.5节);
9) 利用真实函数f评价集合Sample中解, 并将Sample 中解存入Seeds;
10) 基于Sample和DB, 采用增量式方法更新基础代 理模型池(详见算法4);
11) 重新识别优化问题的模态信息, 即从Seeds中选出 精英种子;
12) 利用Sample中的解更新数据库DB;
13) End while.
区间粒子群优化算法(算法1的5 ~ 13行)又包含如下步骤: a)基于当前识别出的模态, 即Seeds中的精英种子, 为每个模态分配Q个基础代理模型. b)循环执行区间PSO更新策略$g_{\rm{{max}}}$次, 并输出得到个体引导者集合Pbest. 在此期间, 采用集成代理模型评价种群新产生的粒子. 对于任意一个粒子, 具体评价方法如下: 首先, 找到与当前粒子距离最近的种子(即模态); 接着, 集成该种子所分配的Q个基础代理模型, 并使用集成代理模型预测该粒子的区间适应值. c) 从Pbest中选出多样性好的最优解存入Sample中, 利用真实函数评价Sample中所有解. d) 基于Sample和DB中样本, 采用增量式方法更新模型池中的基础代理模型. e) 更新种子集合Seeds和数据集DB. 整个算法迭代结束后, 种子集合Seeds中的精英种子即为问题的求解结果.
2.2 初始基础代理模型池的构建
使用改进的Bootstrap采样技术创建训练数据子集, 并选择RBFN和PR两种代理模型来构建所需要的异构基础代理模型. 已有研究表明, PR适合解决低阶非线性问题, 而RBFN模型适合解决高维高阶非线性问题[57]. 为了权衡模型集成的精度和构建模型池的代价, 首先需要确定初始模型池的规模$K_{{\rm{ini}}}$. 文献[32]和文献[62]分别将模型池的规模设置为2 000和max((D+1)(D+2)/2, 100). 本节根据Bootstrap的采样原理[63]设置最小$K_{{\rm{ini}}}$值.
假设数据集DB的规模为 m, 当使用Bootstrap进行m次采样时, 一个样本不被采集到的概率为
$$ p_{m} = \left(1-\frac{1}{m}\right)^{m} $$ (10) 求式(10)中m为$ \infty $时的极限, 可得 $p_{m} = 1/{\rm{e}} \approx 0.368$. 因此, 每次采集到的不重复数据约占数据总量的2/3[63]. 同时, DB中具有$ 2m/3 $个不重复数据的组合共有${\rm{C}}_{m}^{\lfloor 2m/3 \rfloor}$种. 为了保证代理模型集成的精度, 将$K_{{\rm{ini}}}$的最小值设置为${\rm{C}}_{m}^{\lfloor 2m/3 \rfloor}$. 进一步, 为减小建模的代价, 设置基础代理模型数量的上限为$ 10 D $, 其中, D为优化问题变量的维数. 通常被优化问题的变量维数越高, 其曲线越难拟合, 其建立的基础代理模型也应越多. 基于此, 初始模型池的规模设为$K_{{\rm{ini}}} = {\rm{min}}({\rm{C}}_{m}^{\lfloor 2m/3 \rfloor}, 10D)$.
Bootstrap是一种有放回式数据随机采样方法, 在其采集到的数据子集中很可能会有相同的样本. 为避免同一个数据子集中出现过多相同的样本, 文献[32]采用了无放回式概率采集方法. 当需要产生一个新的数据子集时, 该方法以$ p_{s} $ = 0.5的概率依次判断DB中样本是否需要加入到该子集. 换句话说, 对于DB中的任意样本, 若产生的随机数大于$ p_{s} $, 则将该样本加入新数据子集, 否则丢弃. 不同于文献[32], 为使数据子集的数据量与Bootstrap中采集到的不重复数据量类似, 本节对其选择概率进行重新估算. 当以概率$ p_{s} $采集样本时, 采样得到的样本数量占总样本2/3的概率为
$$ P\left(\frac{2m}{3}|m\right) = {\rm{C}}_{m}^{\frac{2m}{3}}p_{s}^{\frac{2m}{3}}(1-p_{s})^{\frac{m}{3}} $$ (11) 其中, P表示从规模为m的数据中选中2m/3个不同数据的概率. P值越大, 则以概率$ p_{s} $进行无放回采样时的结果越逼近Bootstrap方法的采样结果. 采用MATLAB中的Fmincon Solver求解不同m值时的$ p_{s} $值, 所得结果表明, 当$ p_{s} $ = 2/3时P值最大. 因此, 设置采样概率$ p_{s} $ = 2/3.
算法2展示了初始基础代理模型池构建策略的伪代码. 该策略以相同概率$ (p_{m} $ = 0.5)产生类型为RBFN的基础代理模型和类型为PR的基础代理模型, 其中, $ p_{m} $为选择RBFN产生基础代理模型的概率. 在后续的模型更新过程中, 根据基础代理模型的使用情况自适应调整$ p_{m} $值, 具体见算法3的9、10和12行. 某类基础代理模型使用越频繁, 说明该类基础代理模型越适用于当前问题, 因此, 在下次模型更新时其被选择的概率越高. 每个RBFN模型在隐含层包含D个神经元.
算法 2. 初始基础代理模型池构建的伪代码
输入. 训练数据集DB; 初始模型池的规模$K_{{\rm{ini}}}$; 模型类的选择概率$p_{m}$.
输出. 数据子集$({S}_{1},\cdots,{S}_{K_{{\rm{ini}}}})$和初始模型池$(M_{1},\cdots, $$M_{K_{{\rm{ini}}}}) $.
1) For$i=1: K_{{\rm{ini}}}$ %依次构建$K_{{\rm{ini}}}$个基础代理模型
2) ${S}_{i} = \emptyset$;
3) For DB中的任意样本;
4) If rand$< p_{s}$, 将该样本存入${S}_{i}$, end if;
5) End for
6) If rand$< p_{m}$
7) 基于样本集${S}_{i}$构建RBFN类型的基础代理 模型, 记为$M_{i}$;
8) else
9) 基于样本集${S}_{i}$构建PR类型的基础代理模型, 记为$M_{i}$;
10) End if
11) End for.
2.3 基础代理模型的选择与集成
针对不同的待评价粒子选择合适的基础代理模型, 用来构建集成代理模型. 对于传统的昂贵优化问题, 学者们已经给出了多种基础代理模型的选择策略, 如文献[32]给出的基于排序的集成代理模型选择策略. 然而, 在很多情况下, 这些方法只能保证代理模型在全局最优点处的精度. 因为在处理多模态优化问题时需要同时获取问题的多个最优解, 所以, 希望种群中属于不同模态的粒子可以采用更适合自己的集成代理模型. 鉴于此, 本节提出一种基于模态匹配的基础代理模型选择策略.
在进行模型集成之前, 首先需要识别当前种群的模态信息. 由第2.1节可知, 在很大程度上当前种群的模态信息会隐藏于种子集合Seeds中. 考虑到Seeds会同时包含多个属于相同模态的种子, 需要对Seeds进行动态聚类, 仅选取每一类中的最优种子(即精英种子)来表示问题当前的模态信息. 在获取问题的模态信息之后, 接着, 针对每个精英种子, 计算K个基础代理模型的预测值与其真实适应值之间的差值(K为当前模型池中基础代理模型的数量), 并按差值大小对所有基础代理模型进行排序; 选择前 Q个预测误差值最小的基础代理模型, 组成当前精英种子所对应模态的基础代理模型集合. 算法3给出了所提基础代理模型选择策略的伪代码.
算法 3. 基于模态匹配的基础代理模型选择策略的伪代码
输入. 种子集合Seeds; 模型池$(M_{1},\cdots,M_{K})$; 集成规模Q.
输出. 每个模态的Q个基础代理模型; 使用RBFN更新模型池的概率$p_{m}$.
1) 初始化精英种子集合, $ElitSeeds = \emptyset$;
2)对Seeds进行K-means动态聚类, 选择每类中最优种 子放入ElitSeeds;
3)初始化RBFN和PR模型的使用次数, $Lnbf$= 0和 $Lpr$= 0;
4) For $i = 1: |ElitSeeds|$ %依次确定每个精英种子的 基础代理模型集合
5) 依次使用K个基础代理模型$(M_{k}, k = 1,2,\cdots,$ $K)$预测$ElitSeeds(i)$的适应值;
6) 分别计算K个预测值与$ElitSeeds(i)$真实适应值 之间的差值, 记为$(e_{1},\cdots,e_{K})$;
7) 按照$(e_{1},\cdots,e_{K})$值大小对$K$个基础代理模型 进行排序;
8) 选取前Q个误差小的基础代理模型, 组成Elit- Seeds(i)的基础代理模型集合;
9) 统计Q个基础代理模型中属于RBFN和PR模 型的个数, 分别记为$nbf $和$pr $;
10) 更新$Lnbf\leftarrow Lnbf+nbf,Lpr \leftarrow Lpr+pr$;
11) End for
12) $ p_{m} = Lnbf/(Lnbf+Lpr)$.
得到每个模态的Q个基础代理模型后, 采用简单常用的线性集成策略获得其最终的集成代理模型. 具体方法可参见第2.4节中的式(12).
2.4 区间PSO更新策略
2.4.1 粒子的区间适应值评价
采用第2.3节的方法可以为每个已知模态建立它的集成代理模型. 对于属于当前模态的任意一个粒子, 使用它的集成代理模型即可获得该粒子的预测适应值. 尽管上面的集成代理模型可以提高粒子适应值的预测精度, 但是, 受训练样本规模的限制, 其得到的预测值仍存在不确定性. 正如众所周知, 在PSO算法中每个粒子主要通过学习两个最优位置(即全局和局部引导者)来更新自身位置. 不准确的适应值会产生质量较差的全局和局部引导者, 进而误导种群向较差区域进化. 为进一步减少预测不确定性对算法搜索能力的影响, 引入区间数来表示粒子的适应值.
针对粒子$ \boldsymbol{X}_{i} $, 其区间适应值的预测方法如下: 首先, 判断当前粒子所处的模态, 计算当前粒子与Seeds中精英种子的距离, 并选出距离最近的精英种子; 其次, 设置该精英种子对应的模态作为当前粒子所追随的模态; 接着, 线性集成该模态所对应的Q个基础代理模型; 最后, 集成模型的输出即为当前粒子的区间适应值的中值, Q个基础代理模型预测结果的标准差即为该粒子区间适应值的半宽. 具体地, $ \boldsymbol{X}_{i} $的区间适应值为$\langle \hat{f}m(\boldsymbol{X}_{i}), \hat{f}w(\boldsymbol{X}_{i}) \rangle$:
$$ \left\{\begin{split} &\hat{f}m(\boldsymbol{X}_{i}) = \sum\limits_{j = 1}^{Q}\frac{\hat{f}_{j}(\boldsymbol{X}_{i})}{Q} \\ &\hat{f}w(\boldsymbol{X}_{i}) = \sqrt{\sum\limits_{j = 1}^{Q}\frac{(\hat{f}_{j}(\boldsymbol{X}_{i})-\hat{f}m(\boldsymbol{X}_{i}))^{2}}{Q}}\end{split}\right.$$ (12) 其中, $ \hat{f}m(\boldsymbol{X}_{i}) $为Q个基础代理模型的预测均值; $ \hat{f}w(\boldsymbol{X}_{i}) $为预测结果的标准差; $ \hat{f}_{j}(\boldsymbol{X}_{i}) $为第j个基础代理模型预测得到的适应值.
当得到种群中每个粒子的区间适应值后, 即可采用第1.3节介绍的间数排序方法[61]比较粒子的优劣, 进而完成粒子全局引导者和个体引导者的更新或者选择.
2.4.2 粒子位置的更新
在更新种群时, 为发现更多的新模态, 希望保持种群的多样性; 同时, 为提高解的质量, 还希望对已知模态进行深度开采. 为此, 本节采用文献[20]给出的小生境机制来更新粒子的位置, 如式(3)所示. 该方法可以有效保证种群的多样性. 但是, 分析式(3)可知, 当一个粒子的个体引导者为其邻域内最优解时其集成得到的参考点$ {Pb}_{i} $相对较差. 此时, 如果继续使用式(3), 则会浪费种群计算资源. 鉴于此, 本节引入一种时变扰动机制, 用来提高算法的搜索能力. 具体地, 对于粒子$ \boldsymbol{X}_{i} $, 当其个体引导者${Pbest}_{i}$在其邻域内非最优时, 使用式(3)更新其位置; 否则, 则用式(13)更新其位置:
$$x_{i,d}(t+1) = {Pbest}_{i,d}(t)+Gaussian(0,\sigma) $$ (13) $$ \sigma = 0.5\left(1-\frac{C_{{\rm{FE}}}}{TE_{{\rm{max}}}}\right)+0.01 $$ (14) 其中, $ Gaussian(0,\sigma) $是均值为0、标准差为$ \sigma $的高斯随机数; $C_{{\rm{FE}}}$为进化过程中消耗的真实评价次数; $TE_{{\rm{max}}}$为进化过程中总的真实评价次数. 随着$C_{{\rm{FE}}}$的增大, 种群进化代数随之增大, 种群中的粒子也逐渐向各自的模态中心靠拢, 此时应缩小式(13)的搜索范围, 以增大找到各模态中最优点的概率. 因此, $ \sigma $值应该随$C_{{\rm{FE}}}$的增大而逐渐减小, 如式(14)所示.
2.5 模型的管理与更新
模型管理也称为填充采样, 其作用是从当前种群中选出一些代表解进行真实评价, 并使用这些解构建新样本, 用于更新代理模型. 如前所述, 设计IMPSO-HES算法的目的是, 同时找到问题的多个最优解. 这就要求在有限计算代价下选出的代表解要尽可能接近真实问题的每个模态的最优点. 采用动态K-means聚类对当前种群的Pbest集合进行聚类, 选择每一类中的最优解作为新样本, 记新样本集为Sample. 使用真实目标函数评价所选出的新样本后, 利用它们更新基础代理模型池. 需要说明的是, 为了减少频繁更新代理模型带来的计算代价问题, 并保证种群能够找到当前代理模型下问题的最优解, 每隔$g_{{\rm{max}}}$次迭代进行一次模型管理. 算法4给出了所提模型管理和更新的伪代码.
算法 4. 模型管理与更新策略的伪代码
输入. 算法1中第7行的输出结果$Pbest $; 数据子集$({S}_{1},$$ \cdots, {S}_{K}) $; 模型池$(M_{1},\cdots,M_{K})$; 样本集合DB.
输出. 更新后的模型池$(M_{1},\cdots,M_{K})$.
1)对Pbest执行K-means动态聚类, 选取每个类中的 最优解放入新样本集合$Sample $;
2)采用真实函数评价Sample中保存的L个新样本;
3)随机从${S}_{1},\cdots,{S}_{K}$中选择L个数据子集; %第1 阶段, 更新L个旧的基础代理模型;
4)将Sample中的L个样本分别加入到选中的L个数 据子集中;
5)基于更新后的L个数据子集, 重新训练这些子集对 应的基础代理模型;
6) For i = 1:L %第2阶段, 依次产生L个新的基础 代理模型;
7) 从DB中选取$2|DB|/3$个离${Sample}(i)$最近的数 据, 组成新的样本子集${SL}_{i}$;
8) 选择RBFN或PR作为模型, 利用${SL}_{i}$训练一 个新的基础代理模型;
9) 将所得新的基础代理模型加入模型池;
10) End for.
为在减少模型构建代价的同时增加集成模型的精度, 本节给出一种增量式的模型更新策略. 该策略分为两个阶段: 第1阶段, 选取当前模型池中已有基础代理模型进行重新训练; 第2阶段, 基于新增样本, 产生少量新的基础代理模型.
假设新增样本的数量为L, 具体的模型更新策略如下: 1)第1阶段(算法4中第3 ~ 5行), 先从模型池中随机选出L个基础代理模型; 接着, 将L个新样本分别加入到L个基础代理模型的数据子集中, 形成L个新的数据子集; 最后, 利用新数据子集重新训练这L个基础代理模型. 2)第2阶段(算法4中第6 ~ 10行), 首先以Sample中的每个新样本$ {Sample}(i) $为中心, 从DB中选取距离该中心最近的$2|DB|/3$个数据($ |DB| $表示数据库DB的规模), 组成一个新的数据子集. 重复上述方法, 可以得到L个新数据子集. 需要说明的是, 新数据子集中有$2|DB|/3$个数据, 与第2.2节中理论样本采集数量相符. 接着, 基于这些数据子集, 选择RBFN或PR进行训练, 产生L个新的基础代理模型. 类似算法2, 当$ rand < p_{m} $时, 用RBFN产生新的基础代理模型; 否则, 使用PR产生新的基础代理模型.
上述模型更新策略具有如下特点: a)两个阶段分别采用不同方式使用新样本, 可以有效避免新数据子集之间、新数据子集与旧数据子集之间重复. b)两个阶段的模型更新策略具有互补性. 第1阶段使用新样本更新已有的基础代理模型, 可以提高这些代理模型的预测精度; 第2阶段使用这些代表最新模态信息的新样本构建新的基础代理模型, 能够提高集成代理模型在新模态处的预测精度. c)此外, 无需对模型池的规模设置上限. 随着模型池的不断更新, 模型池中基础代理模型的数量会逐渐增多. 由样本产生方法可知, 每次新增的基础代理模型数与新增的样本数相同. 这表明, 新增基础代理模型的数量与进化过程中真实函数评价的次数相关, 其最大值为$TE_{{\rm{max}}}$. 由于本文设置的$TE_{{\rm{max}}}$值相对较小, 故此, 无需对模型池的规模设置上限.
2.6 复杂度分析
参照文献[25]的方法分析IMPSO-HES的计算复杂度. IMPSO-HES的计算复杂度主要由以下因素决定: 真实函数的评价、初始基础代理模型池的构建、区间PSO更新策略、基础代理模型选择与集成, 以及模型的管理与更新. 具体的计算复杂度表达式如下:
$$ \begin{split} T =\;& TE_{\rm{{max}}}\cdot F+T_{{\rm{inipool}}}+\sum\limits_{i = 1}^{Iter}T_{{\rm{PSO}}}^{i}\;+\\ &\sum\limits_{i = 1}^{cycle}\left(T_{{\rm{uppool}}}^{i}+T_{{\rm{selpool}}}^{i}+T_{{\rm{all}}}^{i}\right)\end{split}$$ (15) 其中, $TE_{{\rm{max}}}$为真实函数评价的次数, F为真实评价一个候选解的计算代价, Iter为种群总的迭代代数, cycle为模型更新的次数.
假设新增样本数量为L, 种群规模为$ N_{p} $, 模型池的初始规模为$K_{{\rm{ini}}}$, 模型池的当前规模为K, 优化问题的模态数为$ N_{m} $. 构建初始模型池的计算代价$T_{{\rm{inipool}}}$最大为${\rm{ O}}(K_{{\rm{ini}}}\times |DB|^{3})$; PSO更新一次种群的计算代价$T_{{\rm{PSO}}}$最大为${\rm{O}}(D\times N_{p}^{2})$; 进化过程中更新一次模型池的计算代价$T_{{\rm{uppool}}}$最大为${\rm{O}}(L\times(|DB|\;+ L)^{3})$; 执行基础代理模型选择与集成策略的最大计算代价为$T_{{\rm{selpool}}} = {\rm{O}}(N_{m}\times K^{2})$. 此外, $T_{{\rm{all}}}$为所有其他附加操作的计算代价.
需要说明的是, 单个解的真实评价非常耗时, 式(15)中除了第1项外, 其余部分的运行耗时相对较小, 甚至远小于真实评价的代价. 此时, IMPSO-HES的计算复杂度可近似为${\rm{O}}(TE_{{\rm{max}}}\times F )$. 第3.5节和第4.2节分别提供了真实函数评价不耗时和耗时情况下IMPSO-HES与对比算法的运行时长, 其结果进一步证明了上述结论.
3. 实验分析
为了验证所提IMPSO-HES算法的有效性, 将实验分为如下4个部分: 1) IMPSO-HES中关键参数的取值分析; 2) IMPSO-HES中关键策略的有效性分析; 3)与5种SAEA进行对比, 验证所提异构集成代理模型的有效性; 4)与7种传统的多模态进化优化算法进行对比, 验证所提算法处理多模态优化问题的能力. 采用20个广泛使用的基准问题进行测试, 并假设其为计算耗时问题. 表1给出了这些问题的具体特性. 问题F1是一个单模态优化问题[30], 只包含一个全局最优点. 问题F2 ~ F5包含了一个全局和多个局部最优点[30], 称为1/many问题. 该类问题用于验证算法跳出局部优化解的能力. 问题F6 ~ F20的目标是找到尽可能多的全局/局部最优解. 其中, F6 ~ F17为CEC2013基准测试函数集[64], F18 ~ F20为常用的几种测试函数[19, 65]. 所有算法均采用MATLAB R2014b编程实现, 运行环境为Intel Core i5, CPU 1.6 GHz, 实验结果为30次独立运行的统计值.
表 1 基准问题Table 1 Benchmark problems问题 测试函数 维数 变量空间 全局/局部解个数 全局最优解的目标值 F1 Ellipsoid 10/20 $\boldsymbol{X} \in [-1,1]^{D}$ 1/0 0 F2 Ackley 10/20 $\boldsymbol{X} \in [-30,30]^{D}$ 1/many 0 F3 Rastrigin 10/20 $\boldsymbol{X }\in [-5.12,5.12]^{D}$ 1/many 0 F4 Rosenbrock 10/20 $\boldsymbol{X} \in [-2.048,2.048]^{D}$ 1/many 0 F5 Griewank 10/20 $\boldsymbol{X} \in [-600,600]^{D}$ 1/many 0 F6 Reverse five-uneven-peak trap 1 $\boldsymbol{X} \in [0,30] $ 2/3 −200 F7 Reverse equal maxima 1 $\boldsymbol{X} \in [0,1] $ 5/0 −1 F8 Reverse uneven decreasing maxima 1 $\boldsymbol{X} \in [0,1] $ 1/4 −1 F9 Reverse himmelblau 2 $\boldsymbol{X} \in [-6,6]^{D}$ 4/0 −200 F10 Six-hump camel 2 $x_1\in[-1.9,1.9], x_2\in[-1.1,1.1] $ 2/2 −1.031 6 F11 Reverse shubert 2 $\boldsymbol{X} \in [-10,10]^{D}$ 18/many −186.73 F12 Reverse vincent 2 $\boldsymbol{X} \in [0.25,10]^{D}$ 36/0 −1 F13 Reverse modified rastrigin 2 $\boldsymbol{X} \in [0,1]^{D}$ 12/0 2 F14 Reverse CF1 2 $\boldsymbol{X}\in [-5,5]^D$ 6/0 0 F15 Reverse CF2 2 $\boldsymbol{X}\in [-5,5]^D$ 8/0 0 F16 Reverse CF3 2 $\boldsymbol{X} \in[-5,5]^D $ 6/0 0 F17 Reverse CF4 3 $\boldsymbol{X}\in [-5,5]^D$ 8/0 0 F18 UrsemF4 back 2 $\boldsymbol{X }\in [-2,2]^{D}$ 2/0 −0.267 9 F19 Branin RCOS 2 $x_1\in[-5,10], x_2\in[0,15] $ 3/0 0.397 8 F20 Waves 2 $x_1\in[-0.9,1.2], x_2\in[-1.2,1.2]$ 1/9 −7.776 3.1 评价指标
本文采用如下2个指标评价算法的性能.
1)全局最优解(Global optimal solution, GS);
2)有效谷的比例(Valley ratio, VR), 用于计算算法检测到的谷点数与所有谷点数的比值.
$$ VR = \frac{\sum\limits_{i = 1}^{R}{NFV_{i}}}{NV \times R} $$ (16) 其中, NV为问题总的谷点数; $ NFV_{i} $表示算法第i次运行找到的谷点数, R为算法的运行次数. 针对测试问题F6 ~ F20, 表2给出了计算有效谷点数时需要的幅值精度$ R_{v} $和距离精度Rd[66]. 由于各问题的复杂程度不同, 所以针对不同函数设置了不同的幅值精度$ R_{v} $和距离精度$ R_{d} $.
表 2 F6 ~ F20的幅值精度和距离精度Table 2 Amplitude accuracy and distance accuracy for F6 ~ F20F6 F7 F8 F9 F10 F11 F12 F13 F14 F15 F16 F17 F18 F19 F20 $R_{v}$ 1 0.05 0.1 0.5 0.05 10 0.1 0.5 1 1 1 1 0.1 0.1 0.5 $R_{d}$ 1 0.05 0.5 0.5 0.2 2 0.5 0.5 1 1 1 1 0.5 1 0.2 3.2 参数设置
针对IMPSO-HES, 其种群规模$ N_{p} $设为100; 模型更新频率$g_{{\rm{max}}}$设置为6; 集成时所选基础代理模型的规模设置为 Q = ceil(K/4). 设置最大真实评价次数作为算法的终止条件. 对于F1 ~ F5, 最大真实评价次数设为8D, 动态K-means中的聚类数目随机取自{2, 3, 4}; 对于F6 ~ F20, 最大真实评价次数设为3D + 100, 动态K-means中的聚类数目随机取自{2, 3, 4, 5, 6, 7}. 依据文献[20]的建议, 根据进化代数依次设置邻里规模$n_{{\rm{size}}}$为{2, 3, 4, 5}; 设置式(3)中w = 0.729 8.
3.3 关键参数分析
选择问题F5、F9、F10和F12作为代表, 分析模型更新频率$g_{{\rm{max}}}$和集成规模Q取值对算法性能的影响. 采用Mann-Whitney非参数检验, 验证IMPSO-HES与对比算法之间性能差异的显著性, 显著性水平取0.05. 表3 ~ 12中, “+”和“–”分别表示IMPSO-HES明显优于和劣于对比算法, “=”表示两者无明显差别.
3.3.1 参数$g_{{\rm{max}}}$
依次设置模型更新频率$g_{{\rm{max}}}$为{3, 6, 9}, 表3给出了不同$g_{{\rm{max}}}$取值下IMPSO-HES所得结果. 实验以$g_{{\rm{max}}}$ = 6时IMPSO-HES的结果作为基础, 计算三种取值下IMPSO-HES所得结果之间的显著差异性.
表 3 不同$g_{{\rm{max}}}$取值下IMPSO-HES所得的性能指标值Table 3 Performance values obtained by IMPSO-HES under different $g_{{\rm{max}}}$ values问题 $g_{{\rm{max}}}$ $GS $均值(标准差) $VR $均值 耗时(s) F5 (D = 10) 3 3.800 7 (3.5E+00)+ — 64 6 1.174 5 (3.7E−02) — 85 9 1.108 3 (2.5E−02) = — 116 F5 (D = 20) 3 8.198 0 (9.8E+00) + — 776 6 1.075 7 (1.6E−02) — 1 400 9 0.807 9 (2.8E−01) − — 2 045 F9 3 −199.93 (3.1E−03) = 0.68 11 6 −199.99 (1.0E−04) 0.70 19 9 −200.00 (1.4E−03) = 0.63 36 F10 3 −1.031 6 (1.7E−06) = 1.00 19 6 −1.031 6 (9.8E−07) 1.00 28 9 −1.031 6 (9.8E−07) = 1.00 38 F12 3 −0.999 0 (7.1E−06) = 0.13 10 6 −0.999 9 (1.0E−06) 0.13 14 9 −0.999 9 (2.2E−06) = 0.11 25 注: 加粗字体表示各组的最优结果值. 可以看出: 1)对于所有4个测试问题, 当$g_{{\rm{max}}}$ = 9时IMPSO-HES获得的GS值最好; 2)对于F9、F10和F12, 当$g_{{\rm{max}}}$ = 3或$g_{{\rm{max}}}= $6时, 算法获得的VR值无明显差异, 但要优于$g_{{\rm{max}}}$ = 9时的结果; 3)$g_{{\rm{max}}}$取值越大, 算法的运行时间越长. 综上可见, 设置$g_{{\rm{max}}}$ = 6较为合适.
3.3.2 参数$Q $
依次设置集成规模Q为{K/5, K/4, K/3, K/2}, 表4给出了不同Q值下IMPSO-HES所得结果. 实验以Q = K/4时IMPSO-HES的结果作为基础, 计算4种取值下IMPSO-HES所得结果之间的显著差异性.
表 4 不同Q取值下IMPSO-HES所得的性能指标值Table 4 Performance values obtained by IMPSO-HES under different Q values问题 Q GS 均值(标准差) VR 均值 耗时(s) F5 (D = 10) K/5 1.658 1 (2.2E−01) + — 64 K/4 1.174 5 (3.7E−02) — 85 K/3 1.382 1 (1.5E−01) + — 108 K/2 1.269 6 (5.1E−02) + — 160 F5 (D = 20) K/5 1.980 0 (1.0E+00) + — 1137 K/4 1.075 7 (1.6E−02) — 1400 K/3 1.832 1 (1.1E+00) + — 1920 K/2 1.835 2 (1.7E+00) + — 2700 F9 K/5 −199.98 (7.2E−04) = 0.53 17 K/4 −199.99 (1.0E−04) 0.70 19 K/3 −199.98 (4.6E−04) = 0.55 24 K/2 −199.14 (6.8E+00) + 0.33 34 F10 K/5 −1.031 6 (1.1E−09) = 1.00 28 K/4 −1.031 6 (9.8E−07) 1.00 28 K/3 −1.031 6 (9.8E−07) = 1.00 30 K/2 −1.030 0 (1.4E−03) + 0.85 48 F12 K/5 −0.999 1 (2.3E−06) + 0.12 12 K/4 −0.999 9 (1.0E−06) 0.13 14 K/3 −0.999 6 (8.5E−07) + 0.10 18 K/2 −0.994 9 (9.2E−05) + 0.10 24 注: 加粗字体表示各组的最优结果值. 可以看出: 1)对于所有4个测试问题, 当Q = K/4时IMPSO-HES获得的GS值优于其他取值情况; 2)对于问题F9、F10和F12, 当Q = K/4时IMPSO-HES获得的VR值不劣于其余取值时的结果; 3)Q取值越大, 算法的运行时间越长. 综上可见, 设置Q = K/4较合适.
3.4 所提关键策略分析
3.4.1 异构集成策略的有效性分析
1)异构集成与同质集成的比较
与同质集成学习策略对比, 验证所提异构集成策略的优越性. 表5给出了异构集成策略和同质集成策略下本文算法所得结果的各项性能指标. 表5中, “IMPSO-PR”表示本文算法采用PR作为基础代理模型的情况, “IMPSO-RBFN”表示本文算法采用RBFN作为基础代理模型的情况. 可以看出: a)对于测试问题F5和F12, 异构集成下IMPSO-HES的GS值显著优于“IMPSO-PR” 和“IMPSO-RBFN”; 对于F5, “IMPSO-PR”获得的GS值显著优于“IMPSO-RBFN”; 对于F9和F10, 异构集成下IMPSO-HES获得的GS值显著优于“IMPSO-PR”的结果, 但与“IMPSO-RBFN”的结果无显著差异. b)对于测试问题F9、F10和F12, 相对其他两种方法, IMPSO-HES获得了最优的VR值. c)对于测试问题F5, “IMPSO-PR”策略的运行时间最长, “IMPSO-RBFN”策略的运行时间最短; 对于其余问题, 三种策略的运行时间差异不大. 综上可见, 相对上述同构集成策略, 异构集成可以有效结合各类基础模型的优点.
表 5 异构集成与同质集成下IMPSO-HES所得结果Table 5 Performance values obtained by IMPSO-HES under heterogeneous and homogeneous ensemble问题 算法 GS均值(标准差) VR均值 耗时(s) F5 (D = 10) IMPSO-PR 1.631 0 (7.1E−01) + — 86 IMPSO-RBFN 45.27 2 (8.9E+02) + — 39 IMPSO-HES 1.174 5 (3.7E−02) — 85 F5 (D = 20) IMPSO-PR 2.003 7 (2.9E+00) + — 1 478 IMPSO-RBFN 116.7 8 (9.5E+02) + — 180 IMPSO-HES 1.075 7 (1.6E−02) — 1 400 F9 IMPSO-PR −196.81 (9.5E+00) + 0.05 16 IMPSO-RBFN −199.99 (4.7E−07) = 0.65 22 IMPSO-HES −199.99 (1.0E−04) 0.70 19 F10 IMPSO-PR −0.962 0 (2.5E−03) + 0.2 17 IMPSO-RBFN −1.031 6 (9.8E−09) = 1.00 20 IMPSO-HES −1.031 6 (9.8E−07) 1.00 28 F12 IMPSO-PR −0.988 6 (1.5E−04) + 0.06 11 IMPSO-RBFN −0.999 5 (9.4E−07) + 0.09 19 IMPSO-HES −0.999 9 (1.0E−06) 0.13 14 注: 加粗字体表示各组的最优结果值. 2)自适应更新概率$ p_{m} $的有效性分析
为使模型池中的基础代理模型更适于被优化问题, 算法3引入了一个自适应更新概率$ p_{m} $, 用来自主调整选择RBFN或PR的概率. 通过与固定$ p_{m} $值进行对比, 验证所提自适应更新概率的有效性. 表6给出了不同更新概率$ p_{m} $下IMPSO-HES所得优化结果. 表6中, “固定”表示采用RBFN或PR产生基础代理模型的概率值始终不变, 即$ p_{m} $ = 0.5; “自适应”代表算法3给出的自适应更新概率. 可以看出: a)除了问题F10外, 在“自适应”策略的帮助下, IMPSO-HES均获得了显著优于“固定”策略的GS和VR值; b)两种策略下IMPSO-HES的运行时间差别不大. 综上可见, 在一定程度上, 采用自适应方法更新代理模型可以提高集成模型的精度.
表 6 不同更新概率$p_{m}$下IMPSO-HES所得结果Table 6 Performance values obtained by IMPSO-HES under different $p_{m}$ values问题 $p_{m}$ GS 均值 (标准差) VR 均值 耗时(s) F5 (D = 10) 固定 1.439 3 (3.8E−01) + — 84 自适应 1.174 5 (3.7E−02) — 85 F5 (D = 20) 固定 1.750 3 (1.7E+00) + — 1313 自适应 1.075 7 (1.6E−02) — 1400 F9 固定 −199.91 (2.6E−02) + 0.40 19 自适应 −199.99 (1.0E−04) 0.70 19 F10 固定 −1.031 6 (4.7E−08) = 1.00 26 自适应 −1.031 6 (9.8E−07) 1.00 28 F12 固定 −0.996 9 (4.8E−05) + 0.12 14 自适应 −0.999 9 (1.0E−06) 0.13 14 注: 加粗字体表示各组的最优结果值. 3)所提基础代理模型选择策略的有效性分析
为使每个粒子选择更适合自己的基础代理模型进行集成, 第2.3节中提出了基于模态匹配的基础代理模型选择集成策略. 与使用全部基础代理模型进行集成的策略(记为All-S)进行对比, 验证所提代理模型选择策略(记为Mod-S)的有效性. 表7给出了分别使用All-S和Mod-S时IMPSO-HES所得的结果. 可以看出: a)对于所有问题, Mod-S策略获得的GS和VR值均优于All-S获得的结果; b) All-S策略的运行时间远大于Mod-S策略. 可见, 根据问题的模态位置, Mod-S可以为每个粒子分配合适的基础代理模型.
表 7 使用All-S和Mod-S时IMPSO-HES所得结果Table 7 Performance values obtained by IMPSO-HES with All-S and Mod-S问题 集成策略 GS 均值 (标准差) VR 均值 耗时(s) F5 (D = 10) All-S 3.878 5 (3.8E+00) + — 243 Mod-S 1.174 5 (3.7E−02) — 85 F5 (D = 20) All-S 8.838 7 (8.1E+00) + — 3 362 Mod-S 1.075 7 (1.6E−02) — 1 400 F9 All-S −187.33 (2.0E+2) + 0.05 80 Mod-S −199.99 (1.0E−04) 0.70 19 F10 All-S −0.9751 (1.4E−02) + 0.70 57 Mod-S −1.031 6 (9.8E−07) 1.00 28 F12 All-S −0.973 7 (1.9E−02) + 0.08 42 Mod-S −0.999 9 (1.0E−06) 0.13 14 注: 加粗字体表示各组的最优结果值. 3.4.2 区间PSO更新策略的有效性分析
1)区间适应值评价策略分析
为进一步减少预测不确定性对算法搜索能力的影响, 第2.4节引入了区间数来表示粒子的适应值. 通过与传统的精确适应值评价策略进行对比, 验证区间适应值评价策略的有效性. 图2和图3分别给出了两种适应值评价策略下IMPSO-HES所得到的优化结果. 图中, “Precision”表示精确适应值评价策略; “Interval”表示区间适应值评价策略. 图2(a)中前两个箱图为F5 (D = 10)时的GS值, 后两个箱图为F5 (D = 20)时的GS值. 可以看出, 对于问题F5和F10, 采用“Interval”时IMPSO-HES获得的GS值要优于采用“Precision”时获得的结果; 对于F9和F12, 两种策略获得的GS值无显著差异. 从图3可以看出, 对于F9和F12, 采用“Interval”时IMPSO-HES获得的VR值均高于采用“Precision”时的结果. 可见, 采用区间适应值评价策略可以在一定程度上提高算法的搜索性能.
2) PSO自适应位置更新策略的有效性分析
为进一步提高算法的搜索能力, 第2.4节引入了一种时变扰动机制. 通过与不带时变扰动机制的IMPSO-HES进行对比, 验证该扰动机制的有效性. 便于表述, 记不带时变扰动机制的IMPSO-HES为IMPSO-HES/D. 图4和图5给出了IMPSO-HES/D和IMPSO-HES得到的优化结果. 图中, 横坐标“1”代表IMPSO-HES/D, “2”代表IMPSO-HES. 从图4可以看出, 对于F5、F9和F12, 在所提扰动机制的帮助下, IMPSO-HES获得了显著优于IMPSO-HES/D的GS值; 对于F10, 两种算法获得的GS值无显著差异. 从图5可以看出, 对于F9、F10和F12, IMPSO-HES所得VR值皆不劣于IMPSO-HES/D的结果. 这些结果都证明了本文所提时变扰动机制的有效性.
3.4.3 增量式模型更新策略的有效性分析
为节约模型的构建时间, 第2.5节中引入了一种增量式模型更新策略. 与更新所有基础代理模型的策略(记为All-up)进行对比, 验证所提增量式模型更新策略(记为Inc-up)的有效性. 表8给出了不同模型更新策略下IMPSO-HES所得结果的各项性能指标. 可以看出: 1)对于测试问题F5, Inc-up策略获得的GS值显著优于All-up策略的结果; 对于其余3个问题, 两种策略获得的GS值无显著差异. 2)对于F9、F10和F12, Inc-up策略获得的VR值略优于All-up策略的结果. 3) All-up策略的运行时间长于Inc-up策略. Inc-up优于All-up的原因可能在于, Inc-up可以及时为新发现的模态构建基础代理模型, 从而提高了集成代理模型对各模态的拟合精度.
表 8 不同模型更新策略下IMPSO-HES所得结果Table 8 Performance values obtained by IMPSO-HES under different model update strategies问题 更新策略 GS 均值 (标准差) VR 均值 耗时(s) F5 (D = 10) All-up 1.500 9 (3.9E−02) + — 97 Inc-up 1.174 5 (3.7E−02) — 85 F5 (D = 20) All-up 32.184 (2.4E+04) + — 1 509 Inc-up 1.075 7 (1.6E−02) — 1 400 F9 All-up −200.00 (3.6E-10) = 0.63 30 Inc-up −199.99 (1.0E−04) 0.70 19 F10 All-up −1.031 6 (1.2E−04) = 0.95 30 Inc-up −1.031 6 (9.8E−07) 1.00 28 F12 All-up −0.999 8 (2.7E−07) = 0.11 16 Inc-up −0.999 9 (1.0E−06) 0.13 14 注: 加粗字体表示各组的最优结果值. 3.5 与5种代理辅助进化优化算法的对比
为了验证IMPSO-HES获得全局最优解的能力, 将其与5种典型的SAEA进行比较. 这5种对比算法分别如下.
1) CAL-SAPSO[30], 该算法混合使用Kriging、RBF和PR预测粒子的适应值;
2) SA-COSO[56], 该算法混合使用RBFN和适应值继承策略预测粒子的适应值;
3) Gr-based SAPSO[57], 该算法混合使用GP和适应值继承策略预测粒子的适应值;
4) PESPSO和ESPSO[40], 这两种算法同时使用全局和局部代理模型预测粒子的适应值.
为保证公平性, 所有算法采用相同的真实函数评价次数. CAL-SAPSO的初始DB规模与本文算法保持一致, 其余参数采用原文设置[30]. 其余4种算法均基于初始种群建立初始代理模型, 其中, PESPSO和ESPSO的参数均采用原文设置. 受最大真实函数评价次数的限制, 当$ D\leq $10时, Gr-based SAPSO的种群规模设置为60; 当$ D\leq $10和$ D> $10时, SA-COSO中SL-PSO的种群规模分别设置为30和80, 其余参数采用相应的原文设置.
表9展示了IMPSO-HES与5种对比算法所得的GS值. 进一步, 表10给出了表9数据的统计分析结果. 表10中的 “好/平/差”统计了IMPSO-HES与对比算法在F2 ~ F20测试问题上的对比结果. 其中, “好”、“平”和“差”分别表示IMPSO-HES优于、类似和劣于对比算法的函数个数; “Rank”表示各算法的排序值. 同时, 使用显著性水平为0.05的Friedman非参数检验方法[67], 其中IMPSO-HES为控制方法. “Adjusted p-value”表示IMPSO-HES与对比算法之间的显著性差异水平[68].
表 9 IMPSO-HES与5种SAEA所得GS值(均值(方差))Table 9 GS values obtained by IMPSO-HES and 5 SAEAs (mean (variance))问题 D IMPSO-HES SA-COSO CAL-SAPSO Gr-based SAPSO PESPSO ESPSO F1 10 3.660 0 3.160 0− 0.115 3− 0.147 6− 0.296 2− 0.664 5− (4.2E+00) (6.5E−02) (4.9E−02) (1.1E−03) (1.3E−03) (5.0E−02) 20 21.398 11.017− 0.229 2− 0.027 9− 1.377 0− 1.866 4− (6.1E+01) (1.2E+01) (1.9E−02) (8.2E−06) (1.2E−01) (2.4E−01) F2 10 17.990 17.248= 18.606+ 15.910− 11.820− 13.786− (1.1E+00) (4.1E−02) (4.8E−01) (6.4E−01) (4.3E+00) (2.0E+00) 20 18.866 18.025− 18.421= 14.717− 12.584− 15.958− (9.0E−01) (4.4E−01) (2.4E+00) (1.1E+00) (2.3E+01) (1.6E+01) F3 10 78.266 97.683+ 79.727= 94.349+ 82.325= 89.952= (1.3E+02) (5.8E+02) (1.6E+03) (7.3E+01) (1.2E+02) (2.0E+02) 20 173.97 177.43= 128.71− 168.14= 173.99= 175.65= (2.4E+02) (6.6E+02) (4.0E+03) (1.6E+02) (1.7E+02) (1.1E+02) F4 10 37.310 537.31+ 39.003= 173.66+ 90.531+ 66.581+ (1.1E+02) (2.4E+04) (2.0E+02) (3.3E+02) (6.7E+02) (1.0E+02) 20 41.469 891.97+ 42.758= 330.37+ 97.508+ 195.90+ (5.7E+02) (1.7E+04) (2.0E+02) (3.9E+03) (6.8E+02) (1.9E+03) F5 10 1.174 5 66.556+ 1.736 4+ 1.310 6+ 2.798 7+ 2.317 2+ (3.7E−02) (1.8E+02) (1.4E−01) (1.7E−02) (2.4E+00) (3.9E−01) 20 1.075 7 43.897+ 2.255 3+ 1.057 2= 6.701 8+ 10.373+ (1.6E−02) (1.9E+02) (3.2E−01) (2.0E−05) (7.4E+00) (6.2E+00) F6 1 −199.15 −200.00− −200.00− −190.91+ −200.00− −200.00− (4.6E+00) (2.1E-10) (1.6E−09) (3.2E+01) (1.2E-13) (1.0E-11) F7 1 −0.999 9 −1.00= −0.505 2+ −0.999 1+ −0.999 9= −0.999 8= (3.1E−06) (0.0E+00) (1.2E−01) (1.1E−07) (2.7E−05) (3.8E−06) F8 1 −0.985 4 −0.980 8= −0.511 4+ −0.944 7+ −0.948 6+ −0.948 6+ (1.3E−05) (1.0E-10) (8.0E−02) (7.4E−04) (5.1E−04) (5.1E−04) F9 2 −199.99 −196.14+ −157.69+ −199.93+ −199.98= −199.74+ (1.0E−04) (3.8E+01) (8.6E+02) (5.1E−04) (2.7E−04) (6.4E−03) F10 2 −1.031 6 −0.995 6+ −0.464 6+ −1.030 6+ −1.030 3+ −1.029 2+ (9.8E−07) (1.6E−03) (1.3E−01) (1.9E−06) (1.7E−07) (5.3E−07) F11 2 −158.32 −89.368+ −52.464+ −113.85+ −130.53+ −94.463+ (1.9E+03) (2.4E+03) (2.6E+03) (3.5E+04) (2.5E+03) (1.5E+03) F12 2 −0.999 9 −0.979 8+ −0.719 4+ −0.984 5+ −0.995 4+ −0.980 0+ (1.0E−06) (5.6E−04) (9.0E−02) (1.9E−04) (2.0E−06) (5.5E−05) F13 2 2.232 9 2.890 3+ 7.846 7+ 2.298 5= 2.022 8− 2.060 9− (2.3E−01) (6.4E−02) (3.0E+01) (1.0E−01) (4.6E−03) (3.1E−03) F14 2 0.087 9 40.011+ 197.39+ 23.774+ 7.588 4+ 9.961 7+ (5.0E−01) (2.6E+02) (9.2E+03) (6.3E+03) (1.1E+02) (3.0E+02) F15 2 36.423 89.091+ 183.14+ 80.557+ 26.116= 57.889+ (3.7E+03) (2.7E+02) (3.6E+03) (1.1E+03) (7.6E+02) (2.8E+03) F16 2 0.242 3 90.430+ 350.88+ 60.296+ 1.162 1+ 18.280+ (1.3E−01) (1.2E+04) (4.8E+04) (3.2E+03) (2.5E+00) (1.2E+03) F17 3 32.566 88.270+ 173.56+ 57.380+ 26.079= 37.233= (2.0E+04) (5.3E+02) (2.6E+04) (2.1E+03) (6.2E+02) (6.0E+02) F18 2 −0.267 9 −0.245 7+ −0.130 4+ −0.267 1+ −0.267 8= −0.267 8= (1.6E−06) (3.6E−04) (5.6E−03) (6.8E−08) (1.6E−06) (5.4E−09) F19 2 0.399 9 1.148 8+ 2.260 3+ 0.425 9+ 0.424 9+ 0.513 6+ (2.4E−05) (8.6E−01) (6.2E+00) (1.3E−03) (1.2E−03) (5.3E−02) F20 2 −7.429 9 −7.776 0− −7.775 3− −6.340 8+ −7.294 3+ −7.451 1= (1.7E−02) (0.0E+00) (4.2E−06) (8.4E−01) (2.2E−01) (2.7E−01) 注: 加粗字体表示各行GS值的最优结果值. 问题 IMPSO-HES SA-COSO CAL-SAPSO Gr-based SAPSO PESPSO ESPSO F2 ~ F5 好/平/差 — 5/2/1 3/4/1 4/2/2 4/2/2 4/2/2 Rank 2.500 0 5.500 0 3.000 0 3.125 0 3.125 0 3.750 0 Adjusted p-value — 0.006 6 0.689 2 0.689 2 0.689 2 0.393 8 F6 ~ F20 好/平/差 — 11/2/2 13/0/2 14/1/0 8/5/2 9/4/2 Rank 1.833 3 4.166 6 5.433 3 4.000 0 2.266 6 3.300 0 Adjusted p-value — 0.001 6 0.000 0 0.002 5 0.525 8 0.039 5 注: 加粗字体表示各组的最优结果值. 问题F1为单模态优化问题. 从表9可以看出, 在处理该问题时, IMPSO-HES的性能要略低于5种对比算法. 主要原因是, 本文算法采取的多模态处理方式会引导种群进行分散搜索, 降低了算法对该问题唯一全局最优解的开发能力. 这在一定程度上也表明了本文所提搜索策略同时处理多模态的潜力.
问题F2 ~ F5为1/many问题. 从表10中的“好/平/差”可以看出, IMPSO-HES分别在5、3、4、4和4个测试函数上占优了对比算法SA-COSO、CAL-SAPSO、Gr-based SAPSO、PESPSO和ESPSO; 同时, 其劣于对比算法的测试函数数量分别为1、1、2、2和2. 从“Rank”值可以看出, IMPSO-HES的排序最优. 从“Adjusted p-value”可以看出, IMPSO-HES显著优于SA-COSO, 且与其余4种对比算法无显著差异. 综上可见, 对于1/many类问题, IMPSO-HES可以获得与典型SAEAs相竞争的优化结果.
问题F6 ~ F20为具有多个全局最优解的多模态优化问题. 从“好/平/差”值可以看出, 在15个测试函数中, IMPSO-HES占优对比算法SA-COSO、CAL-SAPSO、Gr-based SAPSO、PESPSO和ESPSO的测试函数数量分别为11、13、14、8和9, 而其劣于对比算法的问题数量分别为2、2、0、2和2. 由“Rank”值可知, IMPSO-HES的排序值为1.833 3, 小于其他5种对比算法. 从“Adjusted p-value”可以看出, 除了PESPSO之外, IMPSO-HES显著优于其余4种对比算法. 综上说明, 对于具有多个全局最优解的多模态优化问题, IMPSO-HES在获取多个全局最优解的同时, 也可以保证所得全局最优解的质量. 其原因可能是, 这些SAEA没有处理多模态的机制. 受多个全局最优解的影响, 在进化过程中种群会频繁切换搜索区域, 进而影响算法的搜索效率.
图6给出了IMPSO-HES与对比算法的运行时间, 图6(a)为各算法优化F1 ~ F5所需时间, 图6(b)为各算法优化F6 ~ F20所需时间. 可以看出: 1)维数越高, IMPSO-HES的运行时间越长; 2)对于F1 ~ F5, IMPSO-HES和CAL-SAPSO的运行时间明显大于其余4种算法; 3)对于F6 ~ F20, CAL-SAPSO运行时间最长, IMPSO-HES的运行时间略长于其他4种对比算法. IMPSO-HES运行时间较长的原因可能在于, 它需要建立大量的基础代理模型. 虽然IMPSO-HES运行时间长于部分对比算法, 但是, 与算法花费在昂贵真实函数评价上的代价相比(如第4.2节所示), 其运行代价仍然相对较小, 甚至可以忽略.
3.6 与7种多模态进化优化算法的对比
为了验证IMPSO-HES同时定位多个优化解的能力, 将其与7种经典多模态进化算法进行比较. 这些比较算法包括3种基于PSO的多模态优化算法(即R3PSO、FERPSO[15]和LIPS[20])、3种基于差分进化的多模态优化算法(即NCDE、NSDE[66]和ANDE[1])和1种多目标进化算法(即EMO-MMO[9]). 为了保证对比的公平性, 所有算法采用相同的最大真实函数评价次数$TE_{{\rm{max}}}$. 由于这些对比算法均采用真实函数评价所有的个体, 因此, 为确保每个算法都可以执行多次迭代, 实验调小了它们的种群规模. 对于7种对比算法, 将它们的种群规模分别设为20和50. 实验结果发现, 当种群规模为20时这些算法的综合效果更佳. 由于篇幅限制, 此处不提供对比算法的调参过程. 主要原因可能是: 在种群规模为20时这些算法的进化代数相对较大, 种群有较为充分的时间收敛. 因此, 所有对比算法的种群规模均设置为20. 对于这些对比算法的其他参数, 均按照原文的建议进行设置.
表11展示了IMPSO-HES与7种多模态优化算法处理问题F1 ~ F5时得到的GS值, 表12列出了各算法求解问题F6 ~ F20时所得的GS和VR值; 进一步, 表13对表11和表12的实验结果进行了统计分析. 对于测试函数F1 ~ F5, 从表13中的“好/平/差”可以看出, IMPSO-HES占优对比算法LIPS、EMO-MMO、R3PSO、FERPSO、NCDE、NSDE和ANDE的测试数量分别为6、7、10、8、10、10和10, 而其劣于对比算法的测试函数数量分别为1、0、0、1、0、0、0. 从“Rank”值可以看出, IMPSO-HES的排序为
1.3000 , 均小于对比算法的序值. 从“Adjusted p-value”可以看出, IMPSO-HES显著优于R3PSO、NCDE、NSDE和ANDE, 但与其余3种对比算法无显著差异.表 11 处理F1 ~ F5时IMPSO-HES与7种多模态进化算法所得GS值(均值(方差))Table 11 GS values obtained by IMPSO-HES and the 7 multimodal EAs on F1 ~ F5 (mean (variance))问题 D IMPSO-HES LIPS EMO-MMO R3PSO FERPSO NCDE NSDE ANDE F1 10 3.6600 3.3110 −5.0580+ 5.9282 +4.3713 +5.7227 +5.8277 +5.2888 +(4.2E+00) (7.8E-01) (1.3E+00) (2.3E+00) (1.2E+00) (6.4E+00) (1.6E+00) (2.6E+00) 20 21.398 19.528= 26.709+ 31.059+ 18.792- 28.868+ 29.060+ 32.311+ (6.1E+01) (9.8E+00) (2.2E+01) (2.2E+01) (1.2E+01) (5.8E+01) (1.5E+01) (5.5E+01) F2 10 17.990 18.046= 18.022= 19.159+ 18.073= 19.411+ 19.432+ 19.523+ (1.1E+00) (8.1E−01) (7.0E−01) (3.9E−01) (1.06E+00) (1.3E+00) (3.0E−01) (1.5E−01) 20 18.866 18.924= 18.922= 19.663+ 19.313+ 19.895+ 20.108+ 19.950+ (9.0E-01) (3.6E+01) (1.7E−01) (6.5E−02) (2.5E−01) (9.9E−02) (4.9E−02) (8.2E−06) F3 10 78.266 95.069+ 89.325= 108.58+ 100.83+ 110.95+ 101.33+ 106.90+ (1.3E+02) (6.3E+01) (1.2E+02) (2.2E+02) (8.2E+01) (5.5E+02) (1.3E+02) (1.3E+02) 20 173.97 212.48+ 207.09+ 258.90+ 225.25+ 251.77+ 262.26+ 268.57+ (2.4E+02) (2.6E+02) (2.8E+02) (3.3E+02) (5.1E+02) (3.2E+02) (6.5E+02) (1.1E+02) F4 10 37.310 343.96+ 257.96+ 670.32+ 451.41+ 812.90+ 982.18+ 523.1+ (1.1E+02) (4.2E+05) (3.6E+05) (1.3E+05) (2.8E+04) (1.0E+05) (1.1E+05) (2.7E+05) 20 41.469 1431.9 +1399.6 +2853.3 +1722.6 +3031.2 +2737.0 +2416.1 +(5.7E+02) (1.1E+05) (1.5E+05) (3.6E+05) (5.1E+04) (6.9E+05) (7.1E+05) (1.6E+05) F5 10 1.1745 66.246+ 65.750+ 94.936+ 71.342+ 129.69+ 115.66+ 109.05+ (3.7E-02) (3.1E+02) (6.7E+02) (4.7E+02) (4.8E+02) (3.5E+02) (8.8E+02) (6.6E+01) 20 1.0757 160.00+ 156.27+ 305.74+ 194.22+ 298.18+ 300.28+ 300.13+ (1.6E-02) (4.8E+02) (1.1E+03) (7.0E+02) (1.5E+03) (3.7E+03) (2.1E+03) (2.2E+03) 注: 加粗字体表示各组的最优结果值. 表 12 处理F6 ~ F20时IMPSO-HES与7种多模态进化算法所得结果Table 12 Results of IMPSO-HES and the 7 multimodal EAs on F6 ~ F20问题 D IMPSO-HES LIPS EMO-MMO R3PSO FERPSO NCDE NSDE ANDE F6 GS 均值 −199.15 −185.64+ −196.52+ −190.93+ −186.31+ −191.25+ −197.86+ −195.52+ (标准差) (4.6E+00) (8.8E+01) (1.0E+02) (6.1E+01) (1.0E+02) (3.4E+02) (4.5E+01) (5.0E+02) VR 均值 0.80 0.20+ 0.40+ 0.10+ 0.00+ 0.65+ 0.75= 0.40+ F7 GS 均值 −0.999 9 −0.999 4+ −0.999 5+ −0.999 1+ −0.998 6+ −0.998 7+ −0.998 4+ −0.998 0+ (标准差) (3.1E−06) (7.3E−07) (2.5E−07) (7.2E−07) (1.0E−06) (8.5E−07) (5.6E−06) (4.6E−06) VR均值 0.78 0.78= 0.76= 0.70= 0.66+ 0.74= 0.78= 0.67+ F8 GS 均值 −0.985 4 −0.969 3+ −0.993 7− −0.993 1− −0.975 8+ −0.966 0+ −0.948 3+ −0.968 3+ (标准差) (1.3E−04) (6.8E−04) (2.5E−04) (6.7E−05) (4.1E−04) (8.9E−04) (5.1E−03) (3.1E−03) VR均值 1.00 0.80+ 0.90+ 1.00= 1.00= 0.90+ 0.60+ 0.80+ F9 GS 均值 −199.99 −197.58+ −197.79+ −196.99+ −196.92+ −197.04+ −196.10+ −197.22+ (标准差) (1.0E−04) (1.7E+00) (9.9E+00) (1.3E+01) (8.6E+00) (5.2E+00) (1.6E+01) (1.3E+01) VR均值 0.70 0.02+ 0.05+ 0.07+ 0.07+ 0.10+ 0.05+ 0.05+ F10 GS 均值 −1.031 6 −1.004 7+ −1.001 6+ −1.003 2+ −0.994 9+ −0.987 8+ −0.973 0+ −1.002 0+ (标准差) (9.8E−07) (3.6E−04) (2.8E−03) (2.8E−03) (8.8E−04) (8.7E−03) (5.0E−03) (3.4E−02) VR均值 1.00 0.55+ 0.10+ 0.45+ 0.30+ 0.40+ 0.35+ 0.5+ F11 GS 均值 −158.32 −105.20+ −134.50= −90.154+ −114.099+ −123.777+ −111.92+ −132.37= (标准差) (1.9E+03) (1.3E+03) (1.7E+03) (5.4E+02) (1.3E+03) (1.0E+03) (2.3E+03) (1.6E+03) VR均值 0.02 0.01= 0.01= 0.00+ 0.00+ 0.00+ 0.00+ 0.01= F12 GS 均值 −0.999 9 −0.973 3+ −0.975 3+ −0.972 7+ −0.976 4+ −0.976 4+ −0.989 0+ −0.988 7+ (标准差) (1.0E−06) (3.2E−04) (4.9E−04) (4.6E−04) (5.8E−04) (5.2E−04) (3.0E−04) (4.6E−03) VR均值 0.13 0.08+ 0.05+ 0.07+ 0.07+ 0.08+ 0.10+ 0.09+ F13 GS 均值 2.232 9 2.714 6+ 2.560 4+ 2.438 4+ 2.590 3+ 2.481 7+ 2.344 6= 2.579 2+ (标准差) (2.3E−01) (3.2E−01) (2.3E+00) (2.1E−01) (2.4E−01) (7.3E−01) (8.7E−01) (2.2E+00) VR均值 0.09 0.08= 0.08= 0.07= 0.08= 0.13+ 0.09= 0.08= F14 GS 均值 0.087 9 44.360+ 45.829+ 43.836+ 38.669+ 40.250+ 38.149+ 41.010+ (标准差) (5.0E−01) (4.0E+03) (4.8E+03) (4.5E+03) (4.5E+03) (4.3E+03) (1.6E+03) (1.2E+02) VR均值 0.24 0.01+ 0.01+ 0.00+ 0.01+ 0.01+ 0.00+ 0.00+ F15 GS 均值 36.423 103.12+ 85.620+ 108.46+ 82.451+ 67.647+ 75.308+ 89.100+ (标准差) (3.7E+03) (1.4E+03) (6.8E+03) (3.2E+03) (2.7E+03) (1.7E+03) (6.6E+03) (1.8E+03) VR均值 0.03 0.00+ 0.01= 0.00+ 0.01= 0.00+ 0.00+ 0.00+ F16 GS 均值 0.242 3 74.272+ 52.296+ 132.800+ 52.555+ 81.104+ 114.04+ 67.231+ (标准差) (1.3E−01) (8.2E+03) (8.1E+03) (6.6E+03) (3.2E+03) (9.0E+03) (1.6E+03) (1.6E+03) VR均值 0.15 0.00+ 0.02+ 0.00+ 0.00+ 0.00+ 0.00+ 0.00+ F17 GS 均值 32.566 127.50+ 141.05+ 165.93+ 148.05+ 192.72+ 162.20+ 100.12+ (标准差) (2.0E+04) (2.3E+03) (2.5E+04) (5.7E+03) (2.0E+03) (8.5E+03) (5.2E+03) (3.2E+03) VR均值 0.13 0.00+ 0.00+ 0.00+ 0.00+ 0.00+ 0.00+ 0.00+ F18 GS 均值 −0.267 9 −0.264 2+ −0.260 3+ −0.257 9+ −0.262 5+ −0.254 8+ −0.260 4+ −0.263 0+ (标准差) (1.6E−06) (6.0E−05) (6.8E−05) (9.1E−05) (4.9E−05) (1.6E−04) (1.8E−05) (1.5E−04) VR均值 1.00 1.00= 0.95= 0.95= 1.00= 0.80+ 0.80+ 0.85+ F19 GS 均值 0.399 9 0.529 2+ 0.882 5+ 0.797 9+ 0.776 3+ 0.789 5+ 1.337 5+ 0.885 8+ (标准差) (2.4E−05) (1.9E−01) (1.8E−01) (1.8E−01) (1.8E−01) (1.7E+00) (8.6E−02) (2.0E−01) VR均值 0.60 0.03+ 0.03+ 0.10+ 0.06+ 0.16+ 0.06+ 0.2+ F20 GS 均值 −7.429 9 −6.619 2+ −6.649 6+ −6.664 4+ −6.728 0+ −6.679 1+ −6.420 4+ −6.981 8+ (标准差) (1.7E−02) (2.9E−01) (8.6E−01) (4.0E−01) (3.3E−01) (4.5E−01) (3.8E−01) (4.6E−01) VR均值 0.40 0.26+ 0.26+ 0.26+ 0.20+ 0.29+ 0.27+ 0.28+ 注: 加粗字体表示各组的最优结果值. 表 13 IMPSO-HES与7种多模态进化算法的统计对比结果Table 13 Statistical comparison results of IMPSO-HES and the 7 multimodal EAs问题 IMPSO-HES LIPS EMO-MMO R3PSO FERPSO NCDE NSDE ANDE F1 ~ F5 好/平/差 GS — 6/3/1 7/3/0 10/0/0 8/1/1 10/0/0 10/0/0 10/0/0 Rank 1.300 0 2.800 0 3.000 0 6.100 0 3.300 0 6.300 0 6.800 0 6.700 0 Adjusted p-value — 0.315 3 0.116 0 0.000 2 0.0937 0.000 1 0.000 0 0.000 0 好/平/差 GS — 15/0/0 13/1/1 14/0/1 15/0/0 15/0/0 14/1/0 14/1/0 F6 ~ F20 VR — 11/4/0 10/5/0 11/4/0 11/4/0 14/1/0 12/3/0 13/2/0 Rank 1.258 6 4.827 5 4.268 9 5.551 7 4.603 4 6.103 4 4.862 0 4.224 1 Adjusted p-value — 0.000 0 0.000 0 0.000 0 0.000 0 0.000 0 0.000 0 0.000 0 对于F6 ~ F20, 由表13可以看出: 1) IMPSO-HES得到的 GS值均优于LIPS、FERPSO和NCDE. 2)对于指标VR (有效解比例), IMPSO-HES占优对比算法LIPS、EMO-MMO、R3PSO、FERPSO、NCDE、NSDE和ANDE的测试函数数量分别为11、10、11、11、14、12和13; 而其劣于对比算法的测试函数数量均为0. 3)由“Rank”值可知, IMPSO-HES在所有算法中排序第1, 且排序值远小于其他对比算法. 4)从p值可知, IMPSO-HES均显著优于7种对比算法. 可见, 针对包含多个最优解的昂贵多模态优化问题, 相对7种对比算法, IMPSO-HES能够在保证解质量同时找到问题更多的最优解.
4. 建筑节能设计实例
为了检验IMPSO-HES处理实际问题的性能, 将其应用于建筑节能设计问题[6]. 该问题以建筑能耗作为优化目标. 一方面, 对于一组设计参数, 计算其对应的建筑能耗需要调用高耗时的EnergyPlus仿真软件; 另一方面, 不同的参数组合可能会产生相近的建筑能耗, 因此, 该问题是一类典型的高昂多模态优化问题.
4.1 问题描述
实验以北京一类常见的办公建筑为例. 图7给出了这类建筑的基础外形. 该模型的长宽高分别为8.8 m、3.6 m和3.9 m; 窗的初始长度为1.7 m, 初始高度为1.6 m. 参照EnergyPlus软件手册中的“输入输出参考”. 表14给出了优化模型的12个决策变量.
表 14 问题的决策变量信息Table 14 Decision variable information of the problem决策变量 单位 范围 房屋方向 $( ^{ {\circ} } )$ [0, 360) 窗户的长 m (0, 3.6) 窗户的高 m (0, 3.9) 窗户的传热系数 ${\rm{W} }/({\rm{m} }^{2}\cdot{\rm{K} })$ [2, 6] 窗户的日射热取得率 — (0, 0.7) 墙体外保温层厚度 m (0, 0.1] 墙体日射吸收率 — [0.1, 1] 人员密度 ${{\text{人}}/\rm{m} }^{2}$ [0.1, 1) 照明功率密度 ${\rm{W} }/{\rm{m} }^{2}$ [6, 12] 设备功率密度 $\rm{W}/{\rm{m} }^{2}$ [10, 18] 空调供热设置温度 ℃ [18, 23] 空调制冷设置问题 ℃ [24, 28] 4.2 实验结果
在第3.6节中EMO-MMO的综合排序仅次于IMPSO-HES, 因此, 实验选择EMO-MMO作为对比算法. 为了对比的公平性, 两种算法设置相同的种群规模和最大进化代数, 其中, 种群规模均设为100, 最大进化代数设为50, 其余参数均保持原文设置. 两种算法的运行环境为Intel Core i5, CPU 1.6 GHz, MATLAB R2014b编程, 并调用EnergyPlus软件计算建筑能耗. 表15给出了实验结果, 其中, “Optimal solutions”为某次运行中算法得到的最优解集. 需要说明的是, IMPSO-HES的运行代价中包括了建立数据库的时间.
表 15 处理建筑节能设计问题时两种算法所得的实验结果Table 15 Results of the two algorithms on building energy conservationGS Optimal solutions 时间(s) IMPSO-HES 5.02 X = 71.8, 1.06, 1.85, 3.64, 0.0382 ,0.0905 ,0.2212 ,0.1033 , 6.5, 14.0, 22.3, 26.4, f = 5.1450 X = 297.3, 2.53, 1.63, 4.0065 ,0.0556 ,0.0402 ,0.5983 ,0.1027 , 6.0, 17.2, 19.6, 24.0, f = 5.1X = 351.7, 3.50, 0.38, 2.266, 0.1604 ,0.0567 ,0.8882 ,0.1062 , 6.1, 17.3, 22.6, 24.6, f = 5.11EMO-MMO 4.96 X = 183.2, 1.19, 2.36, 2.32, 0.3439 ,0.0489 ,0.9743 ,0.1085 , 6.18, 12.3, 21.1, 26.3, f = 5.0142 357 X = 215.1, 2.41, 2.09, 5.38, 0.2847 ,0.0532 ,0.4720 ,0.1015 , 6.44, 11.8, 19.3, 27.1, f = 5.02X = 134.7, 1.07, 2.87, 3.73, 0.3129 ,0.0418 ,0.9553 ,0.1015 , 6.02, 12.8, 20.4, 25.3, f = 5.02从表15中可以看出: 1) IMPSO-HES得到的平均GS值略大EMO-MMO; 2) EMO-MMO的运行耗时远远大于IMPSO-HES. 造成上述两种现象的原因在于, 在相同的种群规模和进化代数下, EMO-MMO需要采用真实函数评价所有个体, 而IMPSO-HES只需要采用真实函数评价少部分代表个体; 3)两种算法都得到了一个以上的最优解或次优解, 决策者可以根据自己的需要选择不同的解决方案. 综上可见, IMPSO-HES能够以较小的计算代价找到问题的多个最优或次优解.
5. 结束语
针对昂贵多模态优化问题, 本文提出一种异构集成代理辅助的多模态粒子群优化算法, 即IMPSO-HES. 在更新模型池时, 通过种群反馈信息自适应调整RBFN和PR被选择的概率, 可以使构建的模型池更适合处理当前优化问题. 设计的基于模态的基础代理模型选择策略, 可以让不同粒子选择更适合自己的基础代理模型进行集成, 提高集成代理模型的预测精度. 提出的两阶段增量式模型更新策略, 在提高集成代理模型的质量同时减少了模型的训练代价. 此外, 引入的区间适应值评价策略和PSO自适应更新策略, 在提高算法探索能力的同时提升了最优解的精度. 在20个基准测试函数和1个建筑能源优化问题上的实验结果表明, 相比12种典型对比算法, 在有限计算资源内, 所提算法在获得较好全局最优解的同时, 也能找到较多的全局最优解或局部最优解.
尽管在处理昂贵多模态优化问题时IMPSO-HES表现出较好的性能, 但是目前这方面的研究工作相对较少, 仍有很多问题需要进一步研究. 首先, 本文仅采用常用的2类代理模型. 代理模型的种类多样, 集成其他代理模型是否会获得更好的结果需要进一步研究; 另外, 含约束昂贵多模态优化问题和昂贵多目标多模态优化问题也是未来需要研究的课题.
-
表 1 D-SSCM状态划分
Table 1 D-SSCM state division
$\varphi\, (^{\circ})$ $\dot{\varphi}\, (^{\circ}/s)$ $(-\infty, -17.5)$ $(-\infty, -100)$ $[-17.5, -12.5)$ $[-100, -50)$ $[-12.5, -7.5)$ $[-50, -20)$ $[-7.5, -2.5)$ $[-20, -5)$ $[-2.5, -0.5)$ $[-5, -2)$ $[-0.5, 0)$ $[-2, 0)$ $[0, 0.5)$ $[0, 2)$ $[0.5, 2.5)$ $[2, 5)$ $[2.5, 7.5)$ $[5, 20)$ $[7.5, 12.5)$ $[20, 50)$ $[12.5, 17.5)$ $[50, 100)$ $[17.5, +\infty)$ $[100, +\infty)$ 表 2 10轮学习中的$n_M$及$n_{M_{\rm s}}$数
Table 2 $n_M$ and $n_{M_{\rm s}}$ in 10 learning rounds
学习轮数 1 2 3 4 5 6 7 8 9 10 $M$空间感知行动映射探索次数 588 589 590 592 592 598 609 609 610 610 $M_{\rm s}$空间有效感知行动映射数 169 170 171 172 171 173 173 173 173 173 -
[1] Tang H J, Yan R, Tan K C. Cognitive navigation by neuro-inspired localization, mapping and episodic memory. IEEE Transactions on Cognitive and Developmental Systems, 2018, 10(3): 751-761 doi: 10.1109/TCDS.2017.2776965 [2] Piaget J. The Origins of Intelligence in Children. New York: International Universities Press, 1952 [3] Alexandrov A V, Lippi V, Mergner T, Frolov A A, Hettich G, Husek D. Human-inspired eigenmovement concept provides coupling-free sensorimotor control in humanoid robot. Frontiers in Neurorobotics, 2017, 11: 22 doi: 10.3389/fnbot.2017.00022 [4] Mirus F, Axenie C, Stewart T C, Conradt J. Neuromorphic sensorimotor adaptation for robotic mobile manipulation: From sensing to behaviour. Cognitive Systems Research, 2018, 50: 52-66 doi: 10.1016/j.cogsys.2018.03.006 [5] Martius G, Fiedler K, Herrmann J M. Structure from behavior in autonomous agents. In: Proceedings of the 2008 IEEE/RSJ International Conference on Intelligent Robots and Systems. Nice, France: IEEE, 2008. 858-862 [6] Ren H G, Liu C, Shi T. A computational model of cognitive development for the motor skill learning from curiosity. Biologically Inspired Cognitive Architectures, 2018, 25: 101-106 doi: 10.1016/j.bica.2018.05.001 [7] Vallverdú J, Talanov M, Distefano S, Mazzara M, Tchitchigin A, Nurgaliev I. A cognitive architecture for the implementation of emotions in computing systems. Biologically Inspired Cognitive Architectures, 2016, 15: 34-40 doi: 10.1016/j.bica.2015.11.002 [8] Bing Z S, Meschede C, R$\ddot{o}$hrbein F, Huang K, Knoll A C. A survey of robotics control based on learning-inspired spiking neural networks. Frontiers in Neurorobotics, 2018, 12: 35 doi: 10.3389/fnbot.2018.00035 [9] Cai J X, Hong L, Cheng L N, Yu R H. Skinner operant conditioning model and robot bionic self-learning control. Technical Gazette, 2016, 23(1): 65-75 [10] Cyr A, Boukadoum M, Thériault F. Operant conditioning: a minimal components requirement in artificial spiking neurons designed for bio-inspired robot's controller. Frontiers in neurorobotics, 2014, 8: 21 [11] Itoh K, Miwa H, Matsumoto M, et al. Behavior model of humanoid robots based on operant conditioning. In: Proceedings of the 5th IEEE-RAS International Conference on Humanoid Robots. Tsukuba, Japan: IEEE, 2005. 220-225 [12] Mannella F, Santucci V G, Somogyi E, Jacquey L, O'Regan K J, Baldassarre G. Know your body through intrinsic goals. Frontiers in Neurorobotics, 2018, 12: 30 doi: 10.3389/fnbot.2018.00030 [13] Baranes A, Oudeyer P Y. Intrinsically motivated goal exploration for active motor Learning in robots: a case study. In: Proceedings of IEEE/RSJ 2010 International Conference on Intelligent Robots and Systems. Taipei, China: IEEE, 2010. 1766-1773 [14] Baranes A, Oudeyer P Y. Active learning of inverse models with intrinsically motivated goal exploration in robots. Robotics and Autonomous Systems, 2013, 61(1): 49-73 doi: 10.1016/j.robot.2012.05.008 [15] Castellanos S, Rodríguez L F, Gastro L A, Gutierrez-Garcia J O. A computational model of emotion assessment influenced by cognition in autonomous agents. Biologically Inspired Cognitive Architectures, 2018, 25: 26-36 doi: 10.1016/j.bica.2018.07.007 [16] Weng J. Artificial intelligence: autonomous mental development by robots and animals. Science, 2001, 291(5504): 599-600 doi: 10.1126/science.291.5504.599 [17] Weng J. A model for auto-programming for general purposes. arXiv preprint arXiv: 1810.05764, 2018. [18] 张晓平, 阮晓钢, 肖尧, 朱晓庆.两轮机器人具有内发动机机制的感知运动系统的建立.自动化学报, 2016, 42(8): 1175-1184 doi: 10.16383/j.aas.2016.c150598Zhang Xiao-Ping, Ruan Xiao-Gang, Xiao Yao, Zhu Xiao-Qing. Establishment of a two-wheeled robot's sensorimotor system with mechanism of intrinsic motivation. Acta Automatica Sinica, 2016, 42(8): 1175-1184 doi: 10.16383/j.aas.2016.c150598 [19] Gibson J J. The Ecological Approach to Visual Perception. Houghton Mifflin, 1979 [20] Hsiao S W, Hsu C F, Lee Y T. An online affordance evaluation model for product design. Design Studies, 2012, 33(2): 126-159 doi: 10.1016/j.destud.2011.06.003 [21] EU Project MACS[Online], available: http://www.macs-eu.org/, July 1, 2018 [22] Af Net 2.0: The Affordance Network[Online], available: http://affordances.info/workshops, September 3, 2018 [23] Yi C, Min H, Luo R, et al. A novel formalization for robot cognition based on affordance model. In: Proceedings of the 2000 IEEE International Conference on Robotics and Biomimetics. Guangzhou, China: IEEE, 2000. 145-146 [24] Min H, Yi C, Luo R, et al. Affordance learning based on subtask's optimal strategy. International Journal of Advanced Robotic Systems, 2015, 12: 8 doi: 10.5772/59993 [25] Min H, Yi C, Luo R, et al. Goal-directed affordance prediction at the subtask level. Industrial Robot, 2016, 43(1): 48-57 doi: 10.1108/IR-05-2015-0084 [26] Turvey M T. Affordances and prospective control: An outline of the ontology. Ecological Psychology, 1992, 4(3): 173-187 doi: 10.1207/s15326969eco0403_3 [27] Stoffregen T A. Affordances as properties of the animal-environment system. Ecological Psychology, 2003, 15(2): 115-134 doi: 10.1207/S15326969ECO1502_2 [28] Chemero A. An outline of a theory of affordances. Ecological Psychology, 2003, 15(2): 181-195 doi: 10.1207/S15326969ECO1502_5 [29] Steedman M. Plans, affordances, and combinatory grammar. Linguistics and Philosophy, 2002, 25(5/6): 723-753 doi: 10.1023/A:1020820000972 [30] 易长安, 闵华清, 罗荣华.基于子任务的机器人潜在动作预测.华中科技大学学报(自然科学版), 2015, s1: 412-415 https://www.cnki.com.cn/Article/CJFDTOTAL-HZLG2015S1098.htmYi Chang-An, Min Hua-Qing, Luo Rong-Hua. Robot's affordance prediction based on the subtask. Journal of Huazhong University of Science and Technology (Natural Science Edition), 2015, s1: 412-415 https://www.cnki.com.cn/Article/CJFDTOTAL-HZLG2015S1098.htm [31] 沈孝文.分层强化学习与潜在动作模型的研究与应用[博士学位论文], 华南理工大学, 中国, 2014Shen Xiao-Wen. The Research and Application of Hierarchical Reinforcement Learning and Affordance Model[Ph. D. dissertation], South China University of Technology, China, 2014 [32] Sahin E, Cakmak M, Doǧar M R, Uǧur E, Ücoluk G. To afford or not to afford: A new formalization of affordances toward affordance-based robot control. Adaptive Behavior, 2007, 15(4): 447-472 doi: 10.1177/1059712307084689 期刊类型引用(1)
1. 蒲天骄,张中浩,谈元鹏,莫文昊,郭剑波. 电力人工智能技术理论基础与发展展望(二):自主学习与应用初探. 中国电机工程学报. 2023(10): 3705-3718 . 百度学术
其他类型引用(0)
-