-
摘要: 为提高回声状态网络对于时间序列预测问题的处理能力, 本文提出了一种延迟深度回声状态网络构造方法.该方法将多个子神经元池顺序连接, 每两个相邻的子神经元池之间嵌入了一个滞后环节.由于滞后环节的存在,该网络可将长时记忆任务转化为一系列短时记忆任务, 从而简化长时依赖问题的求解, 同时降低神经元池的构建难度.实验表明, 该网络具有强大的短时记忆容量, 对初始参数有较好的鲁棒性, 对时间序列预测问题的处理能力也比常规回声状态网络有显著提高.Abstract: To improve the prediction ability of echo state network (ESN) on time series problems, this paper proposes a delayed deep ESN (DDESN) constructing method. In this scheme, multiple sub-reservoirs are connected one by one in sequence, and time delay modules are inserted between every two adjacent sub-reservoirs. The DDESN can transfer a long-term memory task into a series of short-term memory tasks because of the existence of the delay links. It simplifles the solution to long-term dependent task and reduces the di–culty of building a reservoir. Experimental results show that the proposed DDESN has stronger short-term memory capacity, better robustness to randomly initialized parameters, and higher performance on solving time series tasks than a standard ESN.
-
Key words:
- Artiflcial neural networks /
- echo state network /
- deep learning /
- short-term memory capacity /
- time series prediction
-
回声状态网络(Echo state network, ESN)是池计算网络的典型代表[1].其核心是一个由大量随机连接的神经元组成的神经元池[2]}.目前, ESN已在时间序列预测、数据挖掘、控制、语音识别等领域得到了广泛应用[3-8].与其他递归神经网络相比, ESN只需学习神经元池到输出的连接权值[9], 这使得ESN的学习非常简单, 一般采用线性最小二乘法即可获得最优的权值参数[1].尽管如此, 常规ESN仍存在一些不足.一是对于长时依赖问题需要构建规模庞大的神经元池, 这会加重计算负担, 同时增加ESN的构建难度[10-11].二是ESN构建过程具有较大的随机性, 为获得高性能的ESN, 不得不进行大量测试[12-13].
很多学者对上述问题进行了研究并获得了一些研究成果.如分组的ESN将常规ESN中单一的神经元池分解为多个子神经元池, 通过为各子神经元池设置不同的参数以使其产生多样化的动力学行为, 从而提高ESN的鲁棒性[13-14].也有学者基于"最简即最好"的原则[15-16], 通过删除池内冗余神经元来提高ESN的泛化能力[17-18].平衡的ESN表明[19], 通过合理设置反馈连接权值可以使常规ESN产生多种频率的信号, 但该方法的普适性还有待进一步验证.至今, 减小ESN构建过程中随机因素的影响, 以便通过少量的测试即获得高性能的神经元池仍是ESN领域的难题之一.此外, 长时依赖的时间序列预测问题需要ESN具有较大的短时记忆(Short-term memory, STM)容量[20].所以, 拓展STM容量也成为池计算领域的一个重要课题.研究表明, 神经元的激活特性对STM容量有重要影响[20].文献[21]提出了一种基于内部可塑性机制的神经元激活特性调整方法, 其目的是使输入信息在某种给定约束下最大化地通过神经元池.文献[22]提出了delay & sum ESN, 其在池内每个神经元后面加了一个滞后环节, 通过为每个神经元设置不同的滞后时间, 可使不同神经元存储不同时刻的信息, 从而拓展ESN的短时记忆容量.
随着深度学习研究不断深入[23], 深度的ESN也被提出[24], 其将多个子神经元池顺序连接以构成深度的结构.实验表明, 这种结构能够在一定程度上提高STM容量.
为进一步提高ESN的性能, 借鉴深度ESN的构建思想, 本文提出了延迟深度ESN (Delayed deep ESN, DDESN), 对DDESN的STM容量进行了深入分析, 并针对一些时间序列问题进行了实验研究, 结果表明, DDESN有能力构建复杂的时间序列模型, 并且能够获得较高的性能及具有较好的参数鲁棒性.
1. DDESN结构
常规ESN (如图 1所示)动力学模型可表示为:
$$ \begin{equation} \pmb s(k)=f(W_I\pmb u(k)+W_R\pmb s(k-1)+W_b\pmb y(k-1)) \end{equation} $$ (1) $$ \begin{equation} \pmb {y}(k)=W_O^\mathrm{T}\pmb s(k) \end{equation} $$ (2) 其中$k$为时间步; $\pmb s(k)=[\pmb s_1(k)$, $\cdots$, $\pmb s_N(k)$]$^\mathrm{T}$为网络内部状态; $ {\pmb u}(k)=[{\pmb u}_1(k)$, $\cdots$, $\pmb {u}_K(k)$]$^\mathrm{T}$, $\pmb y(k)=[\pmb y_1(k)$, $\cdots$, $\pmb {y}_L(k)$]$^\mathrm{T}$分别为网络输入及输出; $K$、$N$、$L$分别是输入、神经元池及输出的维数; $f$为内部神经元激活函数; $W_I \in{ \bf R} ^{N\times K}$, $W_R \in { \bf R}^{N\times N}$, $W_b \in{ \bf R} ^{N\times L}$分别为输入、神经元池及反馈权值矩阵; $W_O \in{ \bf R} ^{N\times L}$为输出权值矩阵.在ESN中, $W_I$、$W_R$以及$W_b$在网络构建时随机给定并保持不变, 即只有$W_O$需要学习.
DDESN(如图 2所示)将单一的神经元池分解为若干个子神经元池, 各子神经元池顺序连接, 每两个相邻的子神经元池之间加入了一个滞后环节.其动力学模型可表示为:
$$ \begin{equation} \left \{ \begin{array}{llll} {\pmb {z}^i(k)}&=\pmb u(k), &i=1\\ {\pmb {z}^i(k)}&=\pmb s^{i-1}(k-\tau^i), &1< i\leq n \end{array} \right . \end{equation} $$ (3) $$ \begin{equation} \pmb s^i(k)=f(W_I^i\pmb {z}^i(k)+ W_R^i\pmb s^i(k-1)+W_b\pmb y(k-1)) \end{equation} $$ (4) $$ \begin{equation} \pmb y(k)=W_O^\mathrm{T}\left [ \left(\pmb s^1(k)\right )^\mathrm{T}, \cdots, \left(\pmb s^n(k)\right )^\mathrm{T}\right ]^\mathrm{T} \end{equation} $$ (5) $$ \begin{equation} \tau^i=\sum\limits_{j=1}^{i-1}D^j \end{equation} $$ (6) 其中$\pmb{z}^i(k)$为第$i$层输入; $D^j~(j=1, $ $\cdots$, $n-$1, $n$为总层数)为第$j$层与第$j+1$层之间的滞后时间; $\pmb s^i(k)$为第$i$层的内部状态; $W_I^i$、$W_R^i$分别是第$i$层输入及神经元池的权值矩阵.在DDESN中, $W_O$维数为$\left (\sum_{i=1}^n{N^i}\right ) \times L$, $N^i$为第$i$个神经元池规模. $\tau^i$为第$i$层输入相对于第$1$层输入的总滞后时间.本文中$W_O$采用最小二乘法求解, 即:
$$ \begin{equation} W_O=S^{\dagger} \hat {Y} \end{equation} $$ (7) 其中${S^\dagger}$为${S}$的Moore-Penrose逆; ${{\hat Y}} \in { \bf R}^{P\times L}$为期望的输出样本; $P$为训练样本数量.矩阵${S}$的第$i$行元素为第$i$个训练样本输入时池内神经元输出组成的序列.
$$ \begin{equation} S=\left[\begin{array}{ccccc} \pmb s_1^1(1) &\cdots & \pmb s_{N^1}^1(1) &\cdots & \pmb s_{N^n}^n(1) \\ \vdots &\vdots &\vdots &\vdots &\vdots \\ \pmb s_1^1(P) &\cdots & \pmb s_{N^1}^1(P) &\cdots & \pmb s_{N^n}^n(P) \end{array} \right ] \end{equation} $$ (8) DDESN各层输入信息不同.对于当前时刻$k$, 第1层直接接收输入信息$\pmb u(k)$, 而第2层的信息输入时刻为$k-D^1$, 依此类推, 最后一层的输入时刻为$k-\tau^n$.由于各层均能记忆从相应输入时刻开始到过去某一段时间的输入历史, 所以DDESN中每一层能够记忆不同时间范围的信息.这可以将一个长时记忆任务分解为多个短时记忆任务, 并且每个短时记忆任务由不同的子神经元池完成, 这种接力式的记忆方式有利于拓展神经元池的记忆容量.同时, 由于每个子神经元池只需记忆较短时间的信息, 这降低了子神经元池的构建难度, 进而降低DDESN构建的复杂性.与常规ESN相比, DDESN在结构上主要体现三个特点: 1) DDESN具有深度的连接结构; 2) DDESN能够记忆多个不同时段的输入特征; 3) DDESN的输出能够对多个不同时段的信息特征进行整合.
2. DDESN的记忆容量分析
为使输出能从神经元池全面地获取输入信息的特征, 神经元池必须在记忆容量(Memory capacity, MC)允许的时间内实现所需输入特征的记忆.
ESN的记忆容量定义为[19]:
$$ \begin{equation} MC=\sum\limits_{d=0}^\infty MC_d \end{equation} $$ (9) $$ \begin{equation} MC_d=\frac{{\rm cov}^2(\pmb u(k-d), \pmb y_d(k))}{\sigma^2(\pmb u(k))\sigma^2(\pmb y_d(k))} \end{equation} $$ (10) 其中$\pmb y_d(k)$为ESN的第$d$个输出值, 其对应的期望值为$\pmb u$($k-d$), ${\rm cov}^2$及$\sigma^2$分别指协方差及方差算子. $MC$反映了$\mathrm{ESN}$的输出对输入信号的复现能力, $MC_d$是$\pmb y_d(k)$及$\pmb u$($k-d$)的相关系数.
2.1 DDESN的记忆容量
为测试DDESN的记忆能力, 设置如下实验:网络输入为$[-0.5\quad 0.5]$之间的均匀分布的随机信号, 期望输出为$\pmb u(k-d$).由于ESN的记忆能力受神经元数量限制, 当$d \gg N$时, $MC_d$接近于$0$, 所以, 实验中将$d$的最大值设为$500$.实验中, 样本总数为2 000, 前1 000个用于训练, 后1 000个用于测试, 训练集中的初始300个样本作为冲刷段[2].第1层输入权值从$-0.001$和+ 0.001中随机选取.后续各层输入权值从$[-1\quad 1]$中随机选取.为消除随机因素的影响, 在每次测试过程中均采用相同的${W_I}$、${W_R}$以及${W_b}$生成DDESN, 并且每次测试过程中样本也保持不变.
不失一般性, 这里选择2层及5层的DDESN进行研究(分别表示为DDESN$_2$及DDESN$_5$, 结构参数见表 1, 表 1中$\rho^i$为第$i$层的谱半径, $MC_{\max}$为测试得到的最大STM容量). DDESN$_2$只有一个延迟环节.在保持其他参数不变的情况下, 将滞后时间$D^1$从$0$逐渐增加到$100$ (步长为2).由图 3 (a)可见, 当$D^1$较小时, DDESN$_2$的记忆是连续的, $MC_d$随着$d$的增加逐渐减小.随着$D^1$的增加, $MC_d$保持较大值的时间也逐渐增加, 这表明DDESN的记忆时间逐渐变长.当$D^1$很大时(如$D^1=100$), $MC_d$随$d$的变化曲线出现了分段现象, 开始阶段$MC_d$随$d$的增加逐渐减小到接近于0, 持续一段时间之后, $MC_d$又增加到较大的值, 随后又随着$d$的增加逐渐减小.这里将这种现象称为记忆中断(Memory interruption, MI).图 3 (b)为$MC$随滞后时间的变化曲线.在开始阶段$MC$随着滞后时间增加而增加, 当滞后时间达到一定值后, $MC$不再增加, 而是进入一个平稳状态, 这表明DDESN$_2$的记忆容量不是随着滞后时间的增加而无限增加, 而是存在一个记忆容量上限.实验中, DDESN$_2$的最大$MC$为$54.02$, 这明显大于常规ESN的记忆容量$31.08$.
表 1 ESN及DDESN参数设置Table 1 Parameters settings for ESN and DDESNModel $n$ $N^i$ $D^i$ $\rho^i$ $MC_{\max}$ ESN 1 100 0 0.95 31.08 DDESN$_2$ 2 50 0 $\sim$ 100 0.95 54.02 DDESN$_5$ 5 20 0 $\sim$ 50 0.95 62.07 接下来将网络增加到5层, 由于DDESN$_5$的滞后环节为4个, 为测试方便, 将$D^i~(i=1$, $\cdots$, $4$)设置为相同的值(用$D$表示).实验中将滞后时间$D$从0逐渐增加到50 (步长为1, 在此情况下, 网络总的滞后时间将从0增加到200, 步长为4).当$D$较小时(图 3 (c)), DDESN$_5$的记忆是连续的.随着滞后时间的增加, DDESN$_5$也出现了记忆中断现象.图 3 (d)为$MC$随滞后时间的变化曲线, 比较图 3 (b)和图 3 (d), DDESN$_2$和DDESN$_5$的$MC$随滞后时间变化具有相同的趋势. DDESN$_5$的最大$MC$可达到62.07, 这几乎是常规ESN记忆容量的2倍.实验中, 常规ESN及DDESN的神经元池规模是相同的, 并且在实验过程中保持不变.所以, 在神经元池规模不变的情况下, 通过调节滞后时间可使DDESN获得比常规ESN大得多的记忆容量.
2.2 DDESN的记忆中断现象
上述实验表明, 当滞后时间增加到一定程度后, DDESN会出现记忆中断现象.
设DDESN第$i$层的记忆时间长度(Memory duration, MD)为$MD^i$.在当前时刻$k$, 第$i$层的输入时刻为$k-\tau^i$.所以第$i$层记忆的起止时刻分别为$k-\tau^i$和$k-\tau^i-MD^i$.相应地, 第$i$+$1$层记忆的起止时刻分别为$k-\tau ^{i+1}$和$k-\tau^{i+1}-MD^{i+1}$.若$k-\tau^{i+1}\geq k-\tau^i-MD^i$, 即第$i+1$层记忆的开始时间早于第$i$层记忆的终止时间, 则第$i$层的记忆与第$i+1$层的记忆在时间上是连续的, 否则, 第$i$层与第$i+1$层之间会出现一个记忆时间缺失, 根据式(4), $\tau^{i+1}=\tau^{i}+D^i$, 所以$k-\tau^{i+1}\geq k-\tau^i-MD^i$等价于$D^i\leq MD^i$, 即只要$D^i\leq MD^i(i=1, $ $\cdots$, $n-1)$成立, 则不会发生记忆中断现象.为深入分析, 这里定义$MD$为:
$$ \begin{equation} MD=\sum\limits_{d=0}^\infty MD_d \end{equation} $$ (11) 其中,
$$ \begin{equation} MD_d= \begin{cases} 0, &\text{若}\quad MC_d<\beta \\ 1, &\text {否则} \end{cases} \end{equation} $$ (12) $\beta$为一阈值(实验中取$\beta=0.95)$.
$MD$反映了ESN能够保持$\beta$水平记忆的时间.这里仍采用第2.1节所介绍的实验设置测试$MD$.从图 4 (a)可以看出, 当$D=15$时, 记忆是连续的, 而当$D=16$时, 出现了明显的记忆中断, 一旦出现记忆中断, $MD$会急剧降低(图 4 (b)).对于DDESN$_5$的实验同样出现了类似现象(图 4 (c)、4 (d)).经测试, DDESN$_2$第一层的记忆时间为8.根据前述分析, 只要$D^1 \leq8, $ DDESN$_2$就不会出现记忆中断, 而当$D^1 >8时$, 两层之间则会出现记忆缺失.从图 4 (a)来看, 这种记忆缺失并没有立即导致记忆中断.这说明DDESN能够通过多层连接方式弥补少量的记忆缺失, 而当$D^i \gg MD^i$时, 记忆缺失难以弥补, 从而出现记忆中断现象.此外, 当$D=15$时, DDESN$_2$的$MD$为32, 这显然大于两层的单独记忆时间之和(约为16).
记忆中断会使DDESN只对某些时间片段形成记忆, 这对于一些时间序列预测问题是非常有利的, 因为对于某些时间序列预测问题来说, 只需网络记住几个必要的时间片段信息, 而不需要长时的连续记忆.接下来构造50阶非线性移动平均(Nonlinear moving-average, NMA)模型:
$$ \begin{equation} y(k)=x(k-1)x(k-50) \end{equation} $$ (13) 采用规范化均方根误差(Normalized root mean square error, NRMSE)评估网络性能, 其定义为[21]:
$$ \begin{equation} \mathrm{NRMSE}= \sqrt {\frac{1}{P\sigma_{\hat y}^2}\sum\limits_{k=1}^P(\hat y(k)-y(k))^2} \end{equation} $$ (14) 其中$P$为样本数量, $\sigma_{\hat y}^2$为测试样本的方差, ${\hat y}$和$y$分别是期望输出及预测输出.
这里采用DDESN$_2$解决上述问题, 其参数设置仍如表 1所示, 网络输入为[0.5 1]之间均匀分布的随机信号.实验中将两层之间的滞后时间$D$从0增加到100 (步长为1), 对于每一个$D$, 进行5次独立测试. NRMSE随$D$的变化如图 5所示.当$D$为44 $\sim$ 49时, NRMSE的值较小(NRMSE$_{\min}=0.1318$, 相应的$D$为47).
上述问题只需DDESN$_2$存储$k -1$和$k -50$时刻的输入信息特征, 当$D=47$时, 会发生记忆中断(见图 4 (a)). DDESN$_2$的第2层的记忆时间范围为$k-D$到$k-D-MD^2$, 由于$MD^2$的存在, 有理由认为当$D$为44 $\sim$ 49时, 第2层的记忆包含了$k-50$时刻的输入特征.这个问题表明, 对于一些时间序列问题, 只需记忆几个离散的时间片段即可, 对DDESN来说不需要构建规模庞大的神经元池以实现长时连续的记忆.图 5的结果还表明, 只有滞后时间在一个合适的范围内, DDESN才能获得较高的性能.所以对DDESN的滞后时间进行优化尤为必要.
3. 滞后时间优化方法
通过互相关估计两个信号之间的延迟时间是常用的延迟时间估计方法[25-26], 这里对该方法稍加改进以实现DDESN滞后时间的估计.将第$i$层状态$\pmb s^i(k)$与输出$y_e$($k+D$)之间的相关度$r^i(D)$定义为:
$$ \begin{equation} r^i(D)=\frac{1}{N^i}\sum\limits_{j=1}^{N^i} \left |R\left(\pmb s_j^i(k), y_e(k+D)\right )\right | \end{equation} $$ (15) 其中$\pmb s_j^i(k)$为第$i$层第$j$个神经元的状态, $y_e(k+D$)为期望的输出. $R(\pmb s_j^i(k)$, $y_e(k+D))$为$\pmb s_j^i(k)$与$y_e(k+D$)的相关系数. $r^i(D)$为$D~(D=1, \cdots, D_{\max}$, $D_{\max}$为滞后时间上限)的函数.
若输出$y_e(k)$与第$i$层状态信号$\pmb s^i (k)$在时间上相差$D_O$, 则$r^i(D)$与$D$的曲线在$D_O$处将出现一个明显的峰值[26], 利用这个峰值在$r^i(D)$与$D$曲线上出现的时刻, 即可估计第$i$层状态与最终输出之间的延迟时间.各层滞后时间的优化算法如下:
步骤 1. 初始化最大层数$n_{\max}$, $D_{\max}$, $N^i$, $\rho^i$;
步骤 2. 按相应参数设置构建DDESN网络, 各层滞后时间均设为0, 并令$i=1;$
步骤 3. 将训练样本输入网络;
步骤 4. 计算$r^i(D)~(D=1, \cdots$, $D_{\max}$);
步骤 5. 绘制$r^i(D)$与$D$的曲线, 观察并记录曲线第一个峰值出现的时刻(记为$D_O$), 固定第$i$层的滞后时间为$D^i=D_O$;
步骤 6. 令$i=i+1$, 重复步骤3到步骤5;
算法终止条件: 1) $i > n_{\max}$, 或2)在步骤5不能发现明显的峰值, 或3)系统性能(NRMSE)达到要求.
下面针对如下模型说明优化算法的实现过程.
$$ \begin{equation} y(k)=x(k-1)x(k-50)x(k-90) \end{equation} $$ (16) 设置$n_{\max}=5, $ $N^i=30$, $D_{\max}=100. $ $r^1(D$)与$D$曲线中有两个峰值(图 6 (a)), 第一个峰值出现的时间为$D_O=49, $所以设置第一层滞后时间$D^1=49$.接下来重新输入样本, 并观察$r^2(D$)与$D$曲线. $r^2(D$)与$D$曲线只有一个明显的峰值(图 6 (b), 多个峰值相近时可视为一个峰值), 出现的时刻为$D_O=39$, 所以, 设置$D^2=39$, $r^3(D$)与$D$曲线已经没有明显的峰值(图 6 (c)).此时可以确定该问题可由一个3层的DDESN解决, $D^1$和$D^2$的最优值分别为49和39. 图 6 (d)为滞后时间优化后的预测效果.对于上述问题, 常规ESN (内部神经元数量为100)获得的最好NRMSE为0.8458 (10次独立测试得到), 而DDESN$_3$的最好NRMSE为0.1987.这说明优化后的DDESN性能明显优于常规ESN.
4. DDESN性能测试
4.1 实验任务设置
这里选择3个典型的时间序列预测问题来测试DDESN的性能.
1) MSO (Multiple superimposed oscillator)问题: MSO是ESN领域的难题之一[19, 22], 主要考察神经元池能否存储多种频率的信息. MSO模型为:
$$ \begin{equation} y(k)=\sum\limits_{i=1}^{Q}\mathrm{sin}(\alpha_ik) \end{equation} $$ (17) 其中$Q$为正弦波数量.目前研究较多的为MSO$_2$, MSO$_5$和MSO$_8$ (下标表示$Q$), 这里将研究对象扩展到MSO$_{12}$, 以进一步考察DDESN对更复杂时间特征的记忆能力.实验中设置$\alpha_i=0.2+0.11(i-1)$.
2) 30阶NARMA (Nonlinear auto-regression and moving average)问题: NARMA是辨识领域的经典模型之一, 该模型定义如下[21]:
$$ \begin{align} y(k)= &0.1+0.05y(k-1)\sum\limits_{i=1}^{30}y(k-i)+\nonumber\\ &0.3y(k-1)+1.5x(k-30)x(k-1) \end{align} $$ (18) 3) Mackey-Glass时间序列预测问题:该问题是人工神经网络领域的一个基准问题, 其模型定义如下[2]:
$$ \begin{equation} \dot y(t)=\frac{0.2y(t-\tau)}{1+y(t-\tau)^{10}}-0.1y(t) \end{equation} $$ (19) 当$\tau >16.8$时, 系统具有混沌状态, $\tau$的典型值为17和30, 本文实验中设置$\tau=30.$
4.2 实验样本构造
对于30阶NARMA问题, 网络输入为[0.5 1]之间均匀分布的随机量.共生成3 000个样本, 前500个作为Washout数据段, 接下来的1 500个用于训练, 最后1 000个用于测试.对于MSO问题, 共生成700个样本, 前100个作为Washout数据段, 接下来的300个用于训练, 最后的300个用于测试.对于Mackey-Glass时间序列预测问题, 共生成3 500个样本, 前500个作为Washout数据段, 接下来的2 500个用于训练, 最后的500个用于测试.
对于MSO及Mackey-Glass任务, 在网络训练结束之后, 首先将训练数据输入训练好的网络.训练数据输入完毕后, 网络将不再从样本中获取输入信号, 而是将输出的反馈值(即上一时刻的网络输出)作为输入信号.也就是说, 在真正的测试阶段, 网络并没有外部输入信号.
4.3 参数设置及测试结果
实验参数设置如表 2所示, 这里将所有问题的最大层数均设为20, 实际最优的层数($n_\mathrm{opt}$)通过滞后时间优化算法确定.为方便起见, 各层神经元个数$N^i$取为相同的值.由表 2可见, 对于30阶NARMA问题, 优化后的层数为2, 滞后时间为27.该问题需要对$k -30$时刻的输入信息进行记忆, 当$D=27$时, 根据前面关于记忆测试的实验结果, DDESN$_2$有能力记住$k -30$时刻的输入信息. 10次独立实验中, DDESN的最好NRMSE为0.20, 而文献[21]关于此问题的预测结果为0.46, 说明DDESN能够更好地解决此问题.
表 2 参数设置Table 2 Parameter settings对MSO及Mackey-Glass时间序列预测问题, 从表 2的滞后时间及各层神经元数量来看, DDESN的记忆时间是连续的.在此情况下, 滞后环节的功能是将一个长时记忆任务分解为一系列由各层子神经元池完成的短时记忆任务.
表 3列出了84步及120步的Mackey-Glass测试误差(84步及120步误差定义可参考文献[2]和[22]).从表 3可见, DDESN的预测结果明显好于常规ESN及D & S ESN.
表 3 Mackey-Glass预测性能Table 3 Prediction performance for Mackey-GlassTask ESN D & S ESN DDESN $\mathrm{NRMSE}_{84}$ 0.140 0.031 5$.81\times10^{-3}$ NRMSE120 0.220 0.049 0.010 表 4列出了MSO问题的测试结果.对于MSO2, DDESN的误差为$3.95\times10^{-8}$, 比文献[19]所提网络的性能稍差, 这主要在于MSO$_2$任务比较简单, 一个小规模的神经元池就能够满足MSO$_2$任务的记忆需求.在这种情况下, DDESN的记忆优势得不到发挥.随着MSO阶次的增加, DDESN的性能已经在数量级上高于其他方法, 对于MSO$_{12}$, DDESN仍有一定的建模能力.这表明DDESN有能力解决复杂的MSO问题.图 7为优化后的DDESN的预测效果.
表 4 不同ESN模型的性能比较(MSO任务)Table 4 Performance comparison of different ESN models (MSO tasks)Task DDESN Balanced ESN[19] Evolutionary[27] D & S ESN[22] Evolino[28] MSO$_2$ $3.95\times10^{-8}$ $2.51\times10^{-12}$ $3.92\times10^{-8}$ $3.02\times10^{-9}$ $4.15\times10^{-3}$ MSO$_5$ $6.84\times10^{-7}$ $1.06\times10^{-6}$ $2.54\times10^{-2}$ $8.21\times10^{-5}$ $0.166$ MSO$_8$ $6.89\times10^{-6}$ $2.73\times10^{-4}$ $4.96\times10^{-3}$ $-$ $-$ MSO$_{12}$ $1.50\times10^{-4}$ $-$ $-$ $-$ $-$ 4.4 DDESN的鲁棒性
ESN构建过程伴随大量的随机性, 即使在神经元池规模、谱半径、稀疏度等宏观参数相同的情况下, 每次构建的ESN性能也不一致, 甚至差别较大. ESN的鲁棒性定义为[13]:
$$ \begin{equation} \rho (\theta)= \frac{1}{M}\sum\limits_{i=1}^{M}v(e_i-\theta) \end{equation} $$ (20) $$ \begin{equation} v(e_i-\theta)=\begin{cases} 0, &\text {若}\quad e_i>\theta \\ 1, &\text {否则} \end{cases} \end{equation} $$ (21) 其中$e_i$为测试误差指标, $\theta$为一阈值, $\rho(\theta)$反应了在$M$次测试中测试误差小于$\theta$的概率.
对于30阶NARMA, 100次测试的NRMSE集中在0.1968 $\sim$ 0.2369之间(见表 5), 即DDESN的性能是比较稳定的, 对于此问题, 常规ESN也表现出较好的性能稳定性(均值为0.5213, 标准差为0.0501), 但相比之下, DDESN在预测精度上明显优于常规ESN.
表 5 DDESN的鲁棒性测试结果Table 5 Robustness testing results of DDESNTask NARMA MSO$_{2}$ MSO$_{5}$ MSO$_{8}$ MSO$_{12}$ M-G$_{30}$ 最大NRMSE 0.2369 $7.03\times 10^{-5}$ $4.44\times 10^{-3}$ $6.33\times 10^{-2}$ $3.10\times 10^{-3}$ 0.0874 最小NRMSE 0.1968 $3.95\times 10^{-8}$ $6.84\times 10^{-7}$ $5.17\times 10^{-6}$ $1.50\times 10^{-4}$ 0.0058 平均NRMSE 0.2151 $1.06\times 10^{-6}$ $1.42\times 10^{-4}$ $7.17\times 10^{-4}$ $6.44\times 10^{-4}$ 0.0224 NRMSE标准差 0.0089 $7.03\times 10^{-6}$ $7.17\times 10^{-4}$ $6.31\times 10^{-3}$ $4.41\times 10^{-4}$ 0.0130 对于MSO$_2$, 在$\theta$较大的情况下($\theta=0.02$), 常规ESN的成功率也不超过$60 \%^{[13]}$.而DDESN在$\theta=10^{-5}$时成功率几乎可达到100 %.对更复杂的MSO问题及Mackey-Glass时间序列预测问题也得到了类似的结果(见表 5及图 8).这说明DDESN对随机设置的初始参数敏感度较低.
Jaeger指出[10], 一个好的神经元池应该能够产生多样化的输出信号, 这有利于神经元池形成丰富的特征记忆, 也有助于提高ESN的性能及其鲁棒性. DDESN中每层存储的是不同时段的信息, 对于复杂的时间信号, 不同时段的信息特征存在一定的差异, 而这种差异很容易由DDESN不同层的神经元池体现出来.而常规ESN只有一个神经元池, 其只能存储最近一个时间段的信息, 并且由于池内神经元的耦合, 很容易导致所有神经元产生同质化的输出.
为评估神经元池输出信号的多样性, 这里定义平均相关度指标$R_M$如下:
$$ \begin{equation} R_M=\frac{1}{N^2}\sum\limits_{i=1}^N\sum\limits_{j=1}^N \left |R(S_i, S_j)\right | \end{equation} $$ (22) 其中$N$为神经元池规模, $S_i$, $S_j$分别为第$i$及第$j$个神经元输出序列, $R(S_i, S_j)$为$S_i$及$S_j$的Pearson相关系数.
$R_M$能够反应神经元池信号的总体相关程度.这里针对MSO$_2$问题, 分别将训练样本输入到常规ESN及DDESN (二者的神经元总数、谱半径、稀疏度等参数均相同).训练样本输入完毕后, 根据式(22)计算$R_M$.为避免网络生成过程中随机因素的影响, 针对ESN及DDESN分别进行100次独立实验, 结果如图 9所示.
从图 9可以看出, 100次实验中, 常规ESN神经元池信号具有较大的相关度, 而DDESN的神经元池的相关度明显降低.这表明DDESN能够产生比常规ESN更丰富的动力学行为.此外, 由于滞后环节的存在, DDESN的每层只需完成简单的短时记忆任务.从概念上来说, 完成一个简单记忆任务的成功率总是很高的.而ESN用一个大的神经元池完成长时的记忆任务, 这使得神经元池构建变得复杂, 神经元池构建过程中的微小偏差就可能会导致任务失败.所以, 与ESN相比, DDESN对参数有更好的鲁棒性.
5. 结论
本文提出了一种延迟深度回声状态网络结构框架, 并对其记忆能力进行了分析, 提出了一种滞后时间及层数优化方法.实验表明, 在合理设置滞后时间的情况下, DDESN能够拥有较大的STM容量, 并且能够产生多样化的动力学行为. DDESN的结构使得各层可以记忆不同时段的输入特征, 同时各层均与输出直接相连, 这有助于输出更全面地掌握输入信息特征, 从而更好地实现输入到输出的动力学映射.此外, DDESN的结构能够实现长时记忆任务分解, 降低神经元池的构建难度. DDESN的性能与滞后时间密切相关, 针对特定问题合理确定滞后时间是DDESN构建的关键, 文中的滞后时间优化算法本质上是一种离线的优化算法, 并且该方法的普适性还有待进一步验证.
-
表 1 ESN及DDESN参数设置
Table 1 Parameters settings for ESN and DDESN
Model $n$ $N^i$ $D^i$ $\rho^i$ $MC_{\max}$ ESN 1 100 0 0.95 31.08 DDESN$_2$ 2 50 0 $\sim$ 100 0.95 54.02 DDESN$_5$ 5 20 0 $\sim$ 50 0.95 62.07 表 2 参数设置
Table 2 Parameter settings
表 3 Mackey-Glass预测性能
Table 3 Prediction performance for Mackey-Glass
Task ESN D & S ESN DDESN $\mathrm{NRMSE}_{84}$ 0.140 0.031 5$.81\times10^{-3}$ NRMSE120 0.220 0.049 0.010 表 4 不同ESN模型的性能比较(MSO任务)
Table 4 Performance comparison of different ESN models (MSO tasks)
Task DDESN Balanced ESN[19] Evolutionary[27] D & S ESN[22] Evolino[28] MSO$_2$ $3.95\times10^{-8}$ $2.51\times10^{-12}$ $3.92\times10^{-8}$ $3.02\times10^{-9}$ $4.15\times10^{-3}$ MSO$_5$ $6.84\times10^{-7}$ $1.06\times10^{-6}$ $2.54\times10^{-2}$ $8.21\times10^{-5}$ $0.166$ MSO$_8$ $6.89\times10^{-6}$ $2.73\times10^{-4}$ $4.96\times10^{-3}$ $-$ $-$ MSO$_{12}$ $1.50\times10^{-4}$ $-$ $-$ $-$ $-$ 表 5 DDESN的鲁棒性测试结果
Table 5 Robustness testing results of DDESN
Task NARMA MSO$_{2}$ MSO$_{5}$ MSO$_{8}$ MSO$_{12}$ M-G$_{30}$ 最大NRMSE 0.2369 $7.03\times 10^{-5}$ $4.44\times 10^{-3}$ $6.33\times 10^{-2}$ $3.10\times 10^{-3}$ 0.0874 最小NRMSE 0.1968 $3.95\times 10^{-8}$ $6.84\times 10^{-7}$ $5.17\times 10^{-6}$ $1.50\times 10^{-4}$ 0.0058 平均NRMSE 0.2151 $1.06\times 10^{-6}$ $1.42\times 10^{-4}$ $7.17\times 10^{-4}$ $6.44\times 10^{-4}$ 0.0224 NRMSE标准差 0.0089 $7.03\times 10^{-6}$ $7.17\times 10^{-4}$ $6.31\times 10^{-3}$ $4.41\times 10^{-4}$ 0.0130 -
[1] Qiao J F, Wang L, Yang C L, Gu K. Adaptive Levenberg-Marquardt algorithm based echo state network for chaotic time series prediction. IEEE Access, 2018, 6: 10720-10732 doi: 10.1109/ACCESS.2018.2810190 [2] Jaeger H, Haas H. Harnessing nonlinearity: Predicting chaotic systems and saving energy in wireless communication. Science, 2004, 304(5667): 78-80 doi: 10.1126/science.1091277 [3] Xu M L, Han M. Adaptive elastic echo state network for multivariate time series prediction. IEEE Transactions on Cybernetics, 2016, 46(10): 2173-2183 doi: 10.1109/TCYB.2015.2467167 [4] Han M, Xu M L. Laplacian echo state network for multivariate time series prediction. IEEE Transactions on Neural Networks - Learning Systems, 2018, 29(1): 238-244 http://cn.bing.com/academic/profile?id=cb55b15e28bcf33693db131d308e5bf4&encoded=0&v=paper_preview&mkt=zh-cn [5] Scardapane S, Wang D H, Panella M. A decentralized training algorithm for echo state networks in distributed big data applications. Neural Networks, 2016, 78: 65-74 doi: 10.1016/j.neunet.2015.07.006 [6] Bo Y C, Zhang X. Online adaptive dynamic programming based on echo state networks for dissolved oxygen control. Applied Soft Computing, 2018, 62: 830-839 doi: 10.1016/j.asoc.2017.09.015 [7] Wootton A J, Taylor S L, Day C R, Haycock P W. Optimizing echo state networks for static pattern recognition. Cognitive Computation, 2017, 9(3): 391-399 doi: 10.1007/s12559-017-9468-2 [8] Trentin E, Scherer S, Schwenker F. Emotion recognition from speech signals via a probabilistic echo-state network. Pattern Recognition Letters, 2015, 66: 4-12 doi: 10.1016/j.patrec.2014.10.015 [9] 许美玲, 韩敏.多元混沌时间序列的因子回声状态网络预测模型.自动化学报, 2015, 41(5): 1042-1046 doi: 10.16383/j.aas.2015.c140604Xu Mei-Ling, Han Min. Factor echo state network for multivariate chaotic time series prediction. Acta Automatica Sinica, 2015, 41(5): 1042-1046 doi: 10.16383/j.aas.2015.c140604 [10] Jaeger H. Reservoir riddles: Suggestions for echo state network research. In: Proceedings of the 2005 IEEE International Joint Conference on Neural Networks. Montreal, Quebec, Canada: IEEE, 2005. 1460-1462 [11] Ozturk M C, Xu D M, Príncipe J C. Analysis and design of echo state networks. Neural Computation, 2007, 19(1): 111-138 doi: 10.1162/neco.2007.19.1.111 [12] Xue Y B, Yang L, Haykin S. Decoupled echo state networks with lateral inhibition. Neural Networks, 2007, 20(3): 365-376 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=e384cb32526eba071c56d92ae0bf4a70 [13] Qiao J F, Li F J, Han H G, Li W J. Growing echo-state network with multiple subreservoirs. IEEE Transactions on Neural Networks and Learning Systems, 2017, 28(2): 391-404 doi: 10.1109/TNNLS.2016.2514275 [14] 韩红桂, 乔俊飞, 薄迎春.基于信息强度的RBF神经网络结构设计研究.自动化学报, 2012, 38(7): 1083-1090 doi: 10.3724/SP.J.1004.2012.01083Han Hong-Gui, Qiao Jun-Fei, Bo Ying-Chun. On structure design for RBF neural network based on information strength. Acta Automatica Sinica, 2012, 38(7): 1083-1090 doi: 10.3724/SP.J.1004.2012.01083 [15] Huang G B, Saratchandran P, Sundararajan N. A generalized growing and pruning RBF (GGAP-RBF) neural network for function approximation. IEEE Transactions on Neural Networks, 2005, 16(1): 57-67 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=0794f8a0aaa8d3898a169ecb821642ee [16] Dutoit X, Schrauwen B, Van Campenhout J, Stroobandt D, Van Brussel H, Nuttin M. Pruning and regularization in reservoir computing. Neurocomputing, 2009, 72(7-9): 1534-1546 doi: 10.1016/j.neucom.2008.12.020 [17] Rodan A, Tino P. Minimum complexity echo state network. IEEE Transactions on Neural Networks, 2011, 22(1): 131-144 doi: 10.1109/TNN.2010.2089641 [18] Koryakin D, Lohmann J, Butz M V. Balanced echo state networks. Neural Networks, 2012, 36: 35-45 doi: 10.1016/j.neunet.2012.08.008 [19] Jaeger H. Short Term Memory in Echo State Networks, GMD-Report 152, Fraunhofer Institute for Autonomous Intelligent Systems, Germany, 2002. [20] Schrauwen B, Wardermann M, Verstraeten D, Steil J J, Stroobandt D. Improving reservoirs using intrinsic plasticity. Neurocomputing, 2008, 71(7-9): 1159-1171 doi: 10.1016/j.neucom.2007.12.020 [21] Holzmann G, Hauser H. Echo state networks with filter neurons and a delay-sum readout. Neural Networks, 2010, 23(2): 244-256 http://cn.bing.com/academic/profile?id=7da0cd4e35aa87559b40e1e9c1111afe&encoded=0&v=paper_preview&mkt=zh-cn [22] 张慧, 王坤峰, 王飞跃.深度学习在目标视觉检测中的应用进展与展望.自动化学报, 2017, 43(8): 1289-1305 doi: 10.16383/j.aas.2017.c160822Zhang Hui, Wang Kun-Feng, Wang Fei-Yue. Advances and perspectives on applications of deep learning in visual object detection. Acta Automatica Sinica, 2017, 43(8): 1289-1305 doi: 10.16383/j.aas.2017.c160822 [23] Gallicchio C, Micheli A, Pedrelli L. Deep reservoir computing: A critical experimental analysis. Neurocomputing, 2017, 268: 87-99 doi: 10.1016/j.neucom.2016.12.089 [24] Prokhorov D. Echo state networks: Appeal and challenges. In: Proceeding of the 2005 IEEE International Joint Conference on Neural Networks. Montreal, Quebec, Canada: IEEE, 2005. 1463-1466 [25] Azaria M, Hertz D. Time delay estimation by generalized cross correlation methods. IEEE Transactions on Acoustics, Speech, & Signal Processing, 1984, 32(2): 280-285 http://cn.bing.com/academic/profile?id=65b15152398b79989ee725cfb289d91c&encoded=0&v=paper_preview&mkt=zh-cn [26] Knapp C, Carter G. The generalized correlation method for estimation of time delay. IEEE Transactions on Acoustics, Speech, & Signal Processing, 1976, 24(4): 320-327 http://cn.bing.com/academic/profile?id=333b2c6d3506162357c6d8a138425866&encoded=0&v=paper_preview&mkt=zh-cn [27] Roeschies B, Igel C. Structure optimization of reservoir networks. Logic Journal of the IGPL, 2010, 18(5): 635-669 doi: 10.1093/jigpal/jzp043 [28] Schmidhuber J, Wierstra D, Gagliolo M, Gomez F. Training recurrent networks by evolino. Neural Computation, 2007, 19(3): 757-779 doi: 10.1162/neco.2007.19.3.757 期刊类型引用(3)
1. 张昭昭,朱应钦,余文. 具有双储层结构的动态误差补偿回声状态网络. 控制理论与应用. 2024(03): 385-395 . 百度学术
2. 金龙,李嘉昌,常振强,卢经纬,程龙. 基于ACP理论的微型扑翼飞行器的姿态控制. 自动化学报. 2023(12): 2532-2543 . 本站查看
3. 李海君,宋超,赵建忠. 基于CA-RBF神经网络的导弹健康状态预测. 航空兵器. 2022(05): 107-113 . 百度学术
其他类型引用(13)
-