Design of Sparse Span-lateral Inhibition Neural Network Based on Connection Self-organization Development
-
摘要: 针对跨越——侧抑制神经网络(Span-lateral inhibition neural network,S-LINN)的结构调整及参数学习问题,结合生物神经系统中神经元的稀疏连接特性,依据儿童及青少年智力发展水平与大脑皮层发育之间的相互关系,提出以小世界网络连接模式进行初始稀疏化的连接自组织发育稀疏跨越——侧抑制神经网络设计方法.定义网络连接稀疏度及神经元输出贡献率,设计网络连接增长——修剪规则,根据智力超常组皮层发育与智力水平的对应关系调整和控制网络连接权值,动态调整网络连接实现网络智力的自组织发育.通过非线性动力学系统辨识及函数逼近基准问题的求解,证明在同等连接复杂度的情况下,稀疏连接的跨越——侧抑制神经网络具有更好的泛化能力.
-
关键词:
- 跨越-侧抑制神经网络 /
- 稀疏 /
- 小世界网络 /
- 智力发展
Abstract: Inspired by the sparse connection of neurons in biological nervous system and the relationship between children and adolescents' intellectual ability and cortical development, a connection self-organization development-based sparse span-lateral inhibition neural network (sS-LINN) is developed to solve the structure adjustment and parameter learning problem, which adopts the small-world network connection mode as the initial sparse network architecture. A growing-pruning rule of network connection is designed to adjust and control the sparseness of network connections based on the definitions of connection sparseness and neuron output contribution rate. Performance of the proposed sparse S-LINN is evaluated successfully through simulation using nonlinear dynamic system identification and function approximation benchmark problems. It is shown that the proposed sS-LINN can produce a very compact structure with good generalization ability in comparison with other methods. -
人工神经网络是指受动物大脑内生物神经网络的启发而对其结构和功能进行模拟所获得的一类计算系统, 其结构设计和网络学习是理论研究的关键问题.跨越-侧抑制神经网络(Span-lateral inhibition neural network, S-LINN)是根据大脑新皮层内神经元种类、连接模式以及侧抑制机制构造的一类复杂神经网络模型, 具有良好的学习能力和泛化能力.然而, 与前馈神经网络相比, S-LINN引入了不同层神经元之间的跨越连接以及隐含层内神经元之间的侧抑制连接, 增加了网络的计算成本及复杂度.因而, 需要研究合理的网络结构调整方法, 进一步保证网络性能的发挥.
研究表明, 人脑内神经元之间的突触连接具有非常明显的稀疏(Sparse)特性[1-2].因而, 许多学者针对人工神经网络提出了一些稀疏连接的结构设计方法[3-6].稀疏神经网络的设计是在保证网络性能的前提下, 通过控制神经元及其之间连接权值的增加/删剪操作降低网络的连接成本, 提高计算效率及泛化能力.然而, 选取何种稀疏连接机制用于人工神经网络设计是一个重要且有意义的研究课题.
小世界(Small-world)网络是介于规则网络和随机网络之间的一种网络结构, 具有较短的平均路径长度和较高的聚类系数[7].由于其网络连接具有明显的稀疏特性, 且生物神经网络也具有一定的小世界特性[8-9]:邻近的节点之间密集的局部聚类或小集团连接.因此, 小世界的概念也被引入到人工神经网络结构设计研究之中. Ahn等[10]研究发现稀疏和小世界拓扑结构可以平衡网络的性能与连接成本之间的关系. Zheng等[11]认为稀疏和小世界拓扑结构是既能实现较小的连接成本, 又能保证较高的模式识别质量的有效策略, 并提出了一种简单有效的方法生成具有离散时间动力学特性的小世界神经网络. Simard等[12]研究了WS小世界神经网络的快速学习算法, 该方法在数据挖掘方面表现出了优良性能. Lago-Fernández等[13]通过计算机仿真研究了基于Hodgkin-Huxley神经元的不同连接拓扑结构, 发现小世界连接是生成快速同步振荡的最佳连接方式. Morelli等[14]研究了小世界连接神经网络的联想记忆.为了对多层前向小世界神经网络的网络参数、权值修正策略以及网络结构进行改进, 王爽心等[15]提出一种基于层连优化的小世界神经网络的改进算法, 能够获得更快的收敛速度, 更高的逼近精度, 且模型稳定性更强.为了提高时间序列的预测精度, 改进的小世界网络被用于优化泄露积分型ESN[16], 可以获得更高的预测精度和更短的训练时间. Erkaymaz等[17]将ANN作为用于癌症诊断的新型智能决策制定方法, 对比研究了两种典型小世界前馈ANN的性能, 均获得优于其他方法的性能.然而, 将固定的小世界连接模式引入经典神经网络进行结构设计仍然无法充分发挥网络的性能, 而网络结构的自组织优化则是提升网络性能的一种有效方法.
针对S-LINN的结构设计及参数优化问题, 本文根据儿童智力发展水平与大脑皮层发育之间的相互关系, 结合小世界稀疏连接, 设计一种简单有效的稀疏网络设计方法, 降低计算成本提高网络性能, 便于实际问题求解.本文第1节首先简要介绍跨越-侧抑制神经网络, 第2节详细介绍稀疏跨越-侧抑制神经网络设计方法, 第3节给出基于稀疏跨越-侧抑制神经网络的非线性动力学系统辨识及函数逼近仿真分析, 并在第4节给出结论.
1. 跨越-侧抑制神经网络简述
在实际的生物神经系统内, 新皮层(Neocortex)是大脑皮层重要的组成部分, 主要由兴奋的锥体神经元(Pyramidal neurons, 约占70%~80%)和抑制的中间神经元(Interneurons)组成[18-19].在不同的层之间以及不同的神经元类型之间存在着典型的连接, 即可以跨越(Span)整个皮层厚度, 以垂直分布的方式对同一个输入产生响应.这些皮层的微回路以皮层柱(Cortical column)和微柱(Minicolumn)的形式排列, 并且微柱被认为是大脑皮层最基本的功能单元[20-22].功能柱是广泛存在于生物不同皮层区域内的一种连接结构, 介于微观的神经元和宏观的脑区之间的中间层次模块.在一个微柱内, 大约包含80~100个神经元[23-24].除了功能柱的垂直排列之外, 大脑皮层内还存在着一些锥体神经元模块.它们以集结的形式进行着垂直排列[18].大脑皮层内的微柱是通过相邻的中间神经元之间的横向(Lateral)连接形成的, 而激活的神经元通过这种横向连接可以抑制周围未激活的神经元.这种由抑制的中间神经元之间的横向连接构成的抑制作用称为侧抑制(Lateral inhibition).
从结构和信息仿生的角度出发, 基于大脑新皮层内锥体神经元在不同层神经元之间的跨越连接以及中间神经元在同层内的抑制连接提出了一种的新型的跨越-侧抑制神经网络模型(S-LINN)[25-26]. S-LINN内部既有相邻层之间的前馈传输, 又引入了不相邻层之间的跨越传输以及隐含层内的侧抑制连接.这一结构特点不仅保证网络具有丰富的学习能力和更好的泛化能力, 而且可以方便地研究功能柱结构及其对神经网络性能的影响. $(L+1)$层S-LINN的输入-输出关系如下:
$ \begin{align} y_i^p =&\ \sum\limits_{i = 1}^{n_0} {\omega _{ki}^0 x_i^p} + b_0 + \sum\limits_{l = 1}^{L - 2} {\left( {\sum\limits_{j = 1}^{n_l} {\omega _{kj}^l o_j^l + b_l} } \right)} + \nonumber\\ &\ \sum\limits_{g = 1}^{n_{L - 1}} {\omega _{kg}^{L - 1} o_g^{L - 1} + b_{L - 1}} \end{align} $
(1) 其中, $x_i^p$表示第$p\in[1, N]$组样本的第$i$个输入, $y_i^p$表示对应于输入信号$x_i^p$的网络输出, $l\in [0, L]$表示层数, $b_l$为第$l$层的偏差输入, $\omega _{kj}^l$表示连接$l$层神经元$j$与输出层神经元$k$的权值, $n_l$为第$l$层神经元数量, $o^l_j$表示$l$层神经元$j$的输出.
$ \begin{align} o_j^l = &\ f^l \left[{\xi _j^l-\mathord{\buildrel{\lower3pt\hbox{$\scriptscriptstyle\leftrightarrow$}} \over \xi} _j^l} \right]= \nonumber\\ &\ f^l \left[{\sum\limits_{i = 0}^{l- 1} {\left[{\omega _{ij}^l o_i^l} \right]} -\sum\limits_{r = 1, r \ne j}^{n_l} {v_{rj} \left( {o_r^l -\theta _{rj}^{}} \right)}} \right] \end{align} $
(2) 其中, $f^l(\cdot)$为$l$层神经元的激活函数, 通常取为sigmoid函数; $\xi _j^l$是神经元输出和权值的内集, 包含来自层前馈链接的神经元输出, 同时包含通过跨越连接来自$[0, l-2]$层神经元的输入; $\overleftrightarrow{\xi }_{j}^{l}$为被周围神经元侧向抑制后的抑制输入, $\theta_{rj}$为神经元$r$对神经元$j$的侧抑制阈值, $v_{rj}\in[0, 1]$为侧抑制系数, 0表示不受抑制, 1表示全抑制, $r\ne j$表示神经元无自抑制作用.
为简化计算, 根据两个神经元之间的"距离"依高斯分布生成S-LINN隐含层神经元之间的侧抑制系数, 并在学习过程中保持不变.其中, 神经元无自抑制作用, 且根据网络规模设定当"距离"大于阈值(一般设为当前层神经元数量的2/3)时, 侧抑制作用忽略不计.基于梯度下降的反向传播学习算法和序列学习算法可参见文献[25-26].
2. 稀疏S-LINN设计
2.1 稀疏网络
稀疏神经网络实际上是对大脑神经元稀疏连接特性的一种模拟.全连接ANNs往往忽略了由全连接引起的训练时间过长的问题, 而冗余神经元/连接的大量存在也在一定程度上损害着网络的泛化能力.实际的生物神经系统中神经元是稀疏(Sparse)连接的, 尤其是哺乳类生物大脑皮层内神经元的稀疏连接特性非常明显[2].对老鼠皮层的解剖研究表明[1], 大约85%的神经元为锥体神经元, 而锥体神经元之间的突触连接具有均等性和随机性.一个锥体神经元仅与其突触后的一个或几个邻近神经元的突触相连.在大约20 000 000个锥体神经元中的一个神经元有大约8 000个突触与之相连.也就是说, 皮层内锥体神经元的平均连接度仅为0.04%左右.
四层前馈网络的全连接与稀疏连接的结构对比如图 1所示.与全连接神经网络相比, 稀疏连接的神经网络可以明显减少训练时间, 提高网络的泛化能力, 降低硬件需求, 同时更加接近生物神经网络的特性.因此, 稀疏神经网络(Sparse neural network, SNN)的研究逐渐引起人们的关注.然而, 如何构造稀疏神经网络以及最优稀疏度的确定一直是亟待研究的开放课题.从稀疏网络的构造方式来看, 可将稀疏网络划分为个体发育型稀疏网络(Ontogenic sparse neural network)[27]和非个体发育型稀疏网络(Non-ontogenic sparse neural networks)[28]两大类.然而, 通过既定的学习规则调节神经网络连接强度以适应实际问题的能力与缺乏确定网络拓扑结构丰富知识之间的矛盾, 开启了结构自适应调整个体发育神经网络的研究.通过个体发育, 实现稀疏连接的神经网络是指在学习的过程中, 逐渐从全连接网络中去除冗余的层.神经元或连接, 实现稀疏化的网络.非个体发育稀疏神经网络[28]是指在网络开始学习之前就确定网络的结构并在学习过程中保持不变的稀疏神经网络.
2.2 小世界网络
网络根据连接方式可分为规则网络和随机网络, 而生物网络、技术网络和社会网络等是介于两者之间既非完全规则也非完全随机的一种连接网络. 1998年, 为了描述从规则网络到随机网络的转换过程, Watts等通过对规则网络进行重连(Rewired)来产生具有一定程度混乱性(Disorder)的网络, 以高集聚系数和低平均路径长度作为特征, 提出了小世界网络(Small-world network)模型[7], 简称WS模型.此外, Newman和Watts对WS模型进行了改进, 用随机化加边代替了随机化重连, 避免产生孤立节点的可能, 从而提出了新的NW小世界网络[29].小世界网络的两个重要参数分别为聚类系数$C$ (Clustering coefficient)和路径长度$L$ (Path length).其中, 聚类系数量度给定的节点$a$连接到节点$b$和$c$的概率.同时, 节点$b$和$c$也是相连的.从节点$a$到节点$b$的最短路径长度是指实现节点$a$到$b$的连接所需的最小的连接数.在具有相同连接和节点的情况下, 小世界网络的平均聚类系数$C$要大于随机网络对应的平均聚类系数; 此外, 平均路径长度$L$与$\log N$成比例($N$为节点个数).本文采用小世界网络连接模式对初始S-LINN进行稀疏化设置.
WS小世界网络模型的生成是从一个规则图开始的.首先, 考虑一个含有$N$个节点的最近邻耦合网络, 将$N$个节点围成一个圆环, 其中的每个节点都与它左右相邻的各$k/2$个节点进行相连, $k$为偶数, 表示节点的度(Degree).其次, 对网络进行随机化重连.随机化重连的规则如下: 1)固定边的一个端点保持不变, 另一个端点以概率$p$随机地选择网络中的一个节点进行相连; 2)任意两个不同的节点之间最多只能有存在一条边; 3)不允许节点与自身相连的边出现[7,30].在小世界网络中, 可以通过调节$p$值的大小确定网络的类型.当$p = 0$时, 网络为完全规则的网络; 当$p=1$时, 网络为完全随机的网络; 当$0 < p < 1$时, 网络为小世界网络. 图 2即为$N$ $=20$, $k = 4$时, 通过调节$p$值实现从完全规则网络到小世界网络再到完全随机网络的过渡.
2.3 稀疏S-LINN结构设计
Shaw等[31]通过智力测试将受试者分为智力超常组(S), 高智力组(H)和平均智力组(A), 并跟踪研究其皮层厚度随年龄增长的变化轨迹.皮层变化轨迹如图 3所示, 智力超常(Superior intelligence)组的皮层厚度与其他两组的皮层有明显不同的变化轨迹, 他们的大脑皮层在儿童时期相对较薄, 经过发育成长阶段的迅速增长达到顶峰, 然后再快速变薄并稳定在一定厚度(基本与其他两组人的皮层厚度持平).这一现象给我们的启示是, 幼年时期即拥有高厚度皮层的儿童其智力未必就高.相反, 智力超常的人则是幼年时期皮层较薄, 但经过后天发育皮层达到正常厚度的那部分人, 是那些根据环境产生更多适应性变化的人.对于皮层变薄的原因则可能是大脑发育过程中, 脑细胞、神经元以及他们之间的联系具有用进废退的特点.因此, 本文借鉴智力发展水平与皮层厚度发育的相互关系, 研究稀疏跨越-侧抑制神经网络的自组织发育方法.为便于描述, 将稀疏自组织发育S-LINN学习算法以及由此获得的神经网络简记为sS-LINN.
本文设计的稀疏自组织发育神经网络是在基于梯度下降的反向传播学习基础之上进行的, 因此本节着重介绍连接稀疏度的定义、自组织发育规则的设计以及学习步骤.
2.3.1 连接稀疏度及自组织发育
定义$ (L+1)$层S-LINN的连接稀疏度如下:
$ \begin{array}{l} {d_s} = \frac{{\sum {\left| {{\rm{sign}}\left( {\omega _{ji}^{\beta \alpha }} \right)} \right|} }}{{{c_{{\rm{all}}}}}} \times 100\% ,\\ \qquad \qquad \qquad \alpha \in \left[ {0,L - 1} \right],\beta \in \left[ {1,L} \right]\\ {c_{{\rm{all}}}} = \sum\limits_{\alpha = 0}^{L - 1} {\sum\limits_{\beta = \alpha + 1}^L {\left( {{n_\alpha } \times {n_\beta }} \right)} } \end{array} $
(3) 其中, $n_\alpha$和$n_\beta$分别表示$\alpha$层和$\beta$层内神经元的数量, $\omega _{ji}^{\beta \alpha}$表示$\alpha$层内神经元$i$与$\beta$层内神经元$j$的连接权值, 为非0权值的统计数量, $c_{\rm all}$为根据网络结构计算而得的所有可调权值统计数量(不包含隐含层神经之间的侧抑制连接权值).
由式(3)可知, 网络的连接稀疏度是指实际存在的神经元连接数量在所有可能存在的神经元连接中所占的比重.当神经元$i$和$j$之间无突触连接, 即权值$\omega _{ji}^{\beta \alpha}=0$时, 统计变量$c$记为0;反之, 权值$\omega _{ji}^{\beta \alpha}$ $\neq$ $0$时, 统计变量$c$记为1.
连接稀疏度的定义是为了通过对其调整和控制, 实现网络的自组织发育, 相关步骤如下:
步骤1.网络初始化.根据问题的难易程度由经验法确定全连接网络的规模, 即隐含层的数量$l$以及层内神经元的数量$n_l$.
步骤2.网络稀疏化(小世界连接).根据WS小世界神经网络的生成方法, 按照概率$p$生成具有小世界连接特性的S-LINN, 初始化连接权值(隐含层内侧抑制连接依据高斯分布确定, 其余权值为[0, 1]内的随机值).此时网络的权值连接稀疏度记为$d_{s0}$.
步骤3. 稀疏连接自组织发育.根据初始稀疏度$d_{s0}$, 设置网络调整过程中权值连接的最高稀疏度$d_{s \max}$及学习结束时网络的期望稀疏度$d_{s \min}$, 设计权值连接动态变化规则.
本文用神经元连接权值的数量表征皮层厚度, 根据图 3所示的智力超常组智力发育过程中大脑皮层由薄(约4.385 mm)到厚(约4.85 mm)再变薄(约4.25 mm)的这一动态过程, 设置稀疏度的动态调整规则.以初始疏度$d_{s0}$为基准, 确定最大稀疏度$d_{s \max}$ $=d_{s0}\times 120%$和最终稀疏度$d_{s \min}=d_{s0}$ $\times$ $90%$.通过动态调整神经元权值的稀疏连接程度来模拟智力发展过程中大脑皮层厚度"薄-厚-薄"的变化过程, 从而使网络获得超常的智力.
sS-LINN的自组织发育, 即稀疏连接的动态调整是构造稀疏S-LINN的重中之重, 本文根据神经元输出贡献率的大小, 判断稀疏连接的增加和删剪.
2.3.2 神经元输出贡献率
定义神经元的输出贡献率如下:
$ \begin{equation} c^l_{i} = \dfrac{{\displaystyle\sum\limits_{j = 1}^{n_{l + \Delta }} {\left( {o_i^l \times \omega _{ji}^{(l + \Delta )l}} \right)} }}{{\displaystyle\sum\limits_{i = 1}^{n_l} {\sum\limits_{j = 1}^{n_{l + \Delta} } {\left( {o_i^l \times \omega _{ji}^{(l + \Delta )l}} \right)}} } } \end{equation} $
(4) 其中, $c^l_{i}$表示$l$层神经元$i$的输出贡献率, $o^l_i$表示神经元$i$的输出, $\omega _{ji}^{(l + \Delta)l}$表示与$l$层神经元$i$相连的$ (l+\Delta)$层神经元$j$之间的连接权值.定义$c_{sg}$和$c_{sp}$分别为判断权值增长和删剪的贡献度阈值, 通过判断$c^l_{i}$与阈值的关系确定权值的动态调整.若$c^l_{i}$ $>$ $c_{sg}$, 表明神经元$i$对本层的贡献度较大, 则在权值增长阶段主要考虑增加该神经元与其他神经元之间的连接权值; 若$c^l_{i} < c_{sp}$, 表明该神经元的输出贡献度较小, 则在权值修剪阶段主要考虑删除与之相连的部分权值.
为提高sS-LINN的学习效率, 在不严重影响网络性能的情况下, 对网络学习作如下设置:
1) 网络由薄变厚至峰值时的发育过程中, 仅对输出贡献率较大的神经元增加其输出连接, 实现网络连接的增加;
2) 网络由厚到薄并最终达到稳定状态的发育过程中, 对输出贡献率较小的神经元的输出连接进行剪切, 实现网络连接的简化.
四层sS-LINN的连接结构如图 4所示, 用不同灰度(颜色)的神经元表示不同的层次.由于S-LINN隐含层内神经元的侧抑制连接本来就是一种稀疏连接, 并非所有的兴奋神经元都能对其临近的神经元产生抑制作用.因此, sS-LINN自组织发育主要是对层与层之间的前馈连接和跨越连接进行调整, 增加或删剪相应的连接权值控制网络连接稀疏度.
2.3.3 sS-LINN学习算法
综上所述, 采用sS-LINN方法生成自组织发育稀疏S-LINN的主要学习步骤如下:
步骤1.网络结构及参数初始化.根据实际问题, 确定S-LINN结构(含一定的冗余神经元), 并根据小世界连接模式生成初始化的稀疏S-LINN; 设定输出贡献率阈值, 容许误差, 迭代次数等参数值.
步骤2.连接权值的动态调整-增长阶段.
步骤2.1.根据式(4)计算每个神经元对本层输出的贡献率$c^l_{i}$, 并根据各个神经元$c^l_{i}$的大小对神经元进行排序.
步骤2.2.根据设定的贡献增长阈值$c_{sg}$, 判断各个层内可以进行权值调整的神经元集合.对互相连接的$a$层和$b$层内的可调权值神经元$u^a_i$和$u^b_j$, 判断现存的连接情况.若贡献度大的$u^a_i$已经与$u^b_j$相连, 则继续判断$u^a_i$与排在$u^b_j$下一位的神经元$u^b_x$的连接情况; 否则, 增加$u^a_i$与$u^b_j$的权值连接.
步骤2.3.判断网络权值增加的终止条件.若网络的连接稀疏度$d_s \leq d_{s \max}$, 则循环运行步骤2.1, 增加连接权值, 直至所有可操作的连接权值都已得到调整.否则, 停止连接权值的增长调整, 并转入步骤5:判断学习终止条件.若满足条件, 直接转入步骤6;否则, 转入步骤3, 开始网络权值的修剪.
步骤3.连接权值的动态调整-修剪阶段.
步骤3.1.根据式(4)计算每个神经元对本层输出的贡献率$c^l_{i}$, 并根据各个神经元$c^l_{i}$的大小对神经元进行逆序排列.
步骤3.2.根据设定的贡献修剪阈值$c_{sp}$, 判断各个层内可以进行权值调整的神经元集合.对互相连接的$a$层和$b$层内的贡献度最小的神经元$u^a_i$和$u^b_j$, 判断现有连接情况.若$u^a_i$与$u^b_j$无权值连接, 则判断$c^l_{i}$值大于$u^b_j$的前一个神经元$u^b_x$与$u^a_i$的连接情况; 否则, 断开权值连接.
步骤3.3.判断权值删剪终止条件.若网络权值的连接稀疏度$d_s \geq d_{s \min}$, 则循环运行步骤3, 修剪连接权值, 直至所有贡献度小的神经元之间的连接全部删剪.否则, 停止连接权值的修剪调整, 并转入步骤5, 判断网络学习的终止条件.若满足学习终止条件, 则直接转入步骤6;否则, 转入步骤4, 开始网络权值的学习阶段.
步骤4.采用基于梯度下降的反向传播算法[25]训练权值自组织发育调整后的稀疏网络, 转步骤5, 判断学习终止条件:若不满足学习终止条件, 则循环运行步骤4;否则, 直接转步骤6终止学习.
步骤5.判断学习终止条件.判断网络的学习精度及迭代次数是否已经达到预设的阈值.
步骤6.学习结束, 输出网络.
3. 仿真实验及分析
为验证本文设计sS-LINN的性能, 选择非线性动力学辨识及函数逼近问题进行仿真研究.本文所做实验仿真研究均基于MATLAB 7.11并在Intel Core2 Duo CPU 3 GHz, 内存1.98 GB的普通PC机上运行获得.为最大限度地消除随机因素对结果的影响, sS-LINN仿真结果均为独立运行50次的平均值.
3.1 基于sS-LINN的动力学系统辨识
考虑常见的离散时间动力学系统辨识基准问题[32-35], 系统的二阶微分方程[36]如下:
$ \begin{equation} y\left( {t + 1} \right) = \frac{{y\left( t \right)y\left( {t - 1} \right)\left[{y\left( t \right) + 2.5} \right]}}{{1 + y^2 \left( t \right) + y^2 \left( {t - 1} \right)}} + u\left( t \right) \end{equation} $
(5) 其中, $y(t)$和$u(t)$分别为系统在$t$时刻的输出和输入信号, $t$为采样时间.
采用sS-LINN构造形的辨识模型如下:
$ \begin{equation} \hat y\left( {t + 1} \right) = G\left( {y\left( t \right), y\left( {t - 1} \right), u\left( t \right)} \right) \end{equation} $
(6) 其中, 输入信号$u(t) = \sin (2\pi t/25)$, 采样时间$1$ $\le$ $t$ $\le 1\, 000$, 初始状态$y(0) = 0$, $y(1) = 0$.即用系统输出$y(t)$, $y(t - 1)$和输入$u(t)$构造网络的输入样本, 而系统输出$y(t+1)$则为网络的输出样本.选取$1$ $\le$ $t\le 800$时的系统数据构造训练样本, 对网络权值进行学习; 选取$801 \le t \le 1\, 000$生成的数据作为测试样本, 用于检验网络的泛化能力.
为验证自组织发育稀疏跨越-侧抑制神经网络sS-LINN的性能, 设置单隐含层的S-LINN解决该系统辨识问题, 其中, 隐含层神经元数量$n_1 = 50$, 具有小世界特性的初始网络的连接概率$p=0.1$.因此, 根据式(3), 计算三层S-LINN含有的可调连接权值数目如下:
$ \begin{align} c_{\rm all} =\, & \left. {\sum\limits_{\alpha = 0}^{L - 1} {\sum\limits_{\beta = \alpha + 1}^L {\left( {n_\alpha \times n_\beta } \right)}} } \right|_{\small\begin{array}{*{20}l} {L = 2, n_0 = 3} \\ {n_1 = 50, n_2 = 1} \\ \end{array}} =\nonumber\\ & \sum\limits_{\alpha = 0}^1 {\sum\limits_{\beta = \alpha + 1}^2 {\left( {n_\alpha \times n_\beta } \right)}} = \nonumber\\ & n_0 \times n_1 + n_0 \times n_2 + n_1 \times n_2 = \nonumber\\ & 3 \times 50 + 3 \times 1 + 50 \times 1 = 203 \end{align} $
(7) S-LINN内任意两个相连层的神经元之间均按照小世界网络生成方式进行相连, 设置节点的度$k$ $=$ $4$, 初始稀疏度$d_{s0} =21%$ (约43组连接权值), 最大期望稀疏度$d_{s \max}=120%\times d_{s0}= 120%$ $\times$ $21%$ $=25.2%$ (约51组连接权值), $d_{s \min}= 90%$ $\times$ $d_{s0}=90%\times21%=18.9%$ (约38组连接权值).为验证网络的学习效果, 设定最大迭代次数$T_{\max}=$ $3\, 000$, 网络的期望误差精度为$\varepsilon_{\rm TrMSE}=10^{-7}$.
图 5~7及表 1是选取3次独立运行的结果, 分别记为CaseA, CaseB, CaseC. 图 5~7为3次独立实验对应的网络性能及连接权值动态调整过程中训练误差的变化情况, "$\, \ast\, $"线型表示样本的期望输出, "$\, \circ\, $"线型表示网络的预测输出; 表 1是这3次实验对应的网络特点及性能.
表 1 三次独立实验中网络性能及其权值连接变化情况Table 1 Network performance and the dynamic adjustment process of connected weightMethod
(# Total connections)Training
MSETraining
RMSETesting
MSETesting
RMSECaseA: 43-50-39 2.06 $\times 10^{-5}$ 0.0045 1.96 $\times 10^{-5}$ 0.0044 CaseB: 43-51-39 1.05 $\times 10^{-5}$ 0.0032 4.01 $\times 10^{-5}$ 0.0063 CaseC: 43-51-38 4.88 $\times 10^{-6}$ 0.0022 3.67 $\times 10^{-6}$ 0.0019 由图 5~7和表 1可知, 3次实验都实现了网络稀疏连接的动态调整过程, 并且连接的稀疏度基本上达到了设定的期望值, 说明根据$d_s$和$c^l_{i}$进行的连接权值贡献度的判断以及由此所作的动态调整是行之有效的.此外, 从网络的处理效果来说, 均能获得较高的精度.同时, 从表 1中的网络性能与权值稀疏连接情况的对应关系可知, 3次试验均能按照设计的稀疏连接度进行连接权值的动态调整, 并且调整的结果越接近设定的期望连接度时其网络性能也越好, 如CaseC所示.
为对比分析3次独立实验过程中权值连接的调整对网络性能的影响, 将三次实验中前200次迭代中学习误差的变化情况进行对比, 如图 8所示.从图 5~7及表 1可以看出, 三次实验的网络精度基本相当, 均能获得较好的处理效果.但相比较而言, CaceC具有优于CaseA和CaseB的处理效果.从图 8可以看出, 在学习初期阶段, 由于连接权值的动态调整, 网络精度也有幅度较大的振荡.而由编号CaseC实验所示的学习误差变化情况显示, 在调整的初期阶段(约50次迭代之前), 网络的性能较CaseA和CaseB较弱; 而通过中间阶段(迭代次数位于50~120)的迭代学习, CaseC的网络性能有所提高, 达到了与CaseA和CaseB相当的水平; CaseC经过一段时间的学习, 网络的学习精度大幅度提高, 明显优于CaseA和CaseB的变化趋势. CaseC网络性能的变化过程与文献[31]中智力超常小组人员的大脑皮层厚度变化情况相一致, 而网络的性能也与网络结构(即sS-LINN的权值连接情况)一一对应.因此, 根据权值连接的稀疏程度, 控制网络内权值连接数量先增加后减少并最终维持在略低于初始权值数量的水平, 实现网络的自组织发育, 能够有效构造具有优越性能的sS-LINN, 进一步验证了该方法的正确性和可行性.
此外, 为了对比sS-LINN的处理效果, 表 2列出了通过不同方法对该系统进行辨识的结果, 再一次充分说明了sS-LINN处理该问题的出色性能.与含有10个隐含层神经元的其他方法相比, 在未增加网络结构复杂度的情况下, sS-LINN具有更好的性能, 而从连接数量角度出发sS-LINN甚至具有更紧凑的网连接结构.
表 2 sS-LINN与其他神经网络方法的性能对比Table 2 Network performance and the dynamic adjustment process of connected weightMethod # Hidden neurons /connections Testing MSE Standard RBF[34] / 0.695 Standard SVR[33] / 0.445 SVR with prior knowledge[33] / 0.354 LCRBF[34] / 0.273 CP-NN[35] $2\to9$ 1.25 $\times 10^{-4}$ $20\to 10$ 1.04 $\times 10^{-4}$ AGPNNC[35] $2\to 10$ 1.71 $\times 10^{-4}$ $20\to10$ 1.23 $\times 10^{-4}$ S-LINN[25] 8 3.82 $\times 10^{-5}$ sS-LINN 39个连接权值 2.01 $\times 10^{-5}$ 3.2 函数逼近
为进一步验证sS-LINN的性能, 考虑含有噪声的sin C函数逼近问题
$ \begin{equation} y =\begin{cases} {\dfrac{{\sin \left( x \right)}}{x}, } & {x \ne 0} \\ {1, }& {x = 0} \\ \end{cases} \end{equation} $
(8) 在$[-10, 10]$随机生成2 000个数据$x_i$作为训练样本的输入, 然后根据式(8)计算$y_i$, 并令$y_i=y_i$ $+$ $\varepsilon_i$作为训练样本的输出, 其中$\varepsilon_i$为$[-0.04$, $0.04]$内均匀分布的随机噪声信号.对于测试样本, 则在$[-10, 10]$内重新随机生成2 000组数据作为测试样本的输入, 并根据式(8)计算对应的测试样本输出, 不添加噪声信号.
选取单隐含层的sS-LINN求解该问题, 令$n_1=$ $30$, 具有小世界特性的初始网络的连接概率$p=0.1$.根据式(3)可计算出三层S-LINN含有的可调连接权值数$c_{\rm all}=61$, 初始稀疏度及其他参数设置与第3.1节相同.基于sS-LINN的sin C函数逼近输出结果如图 9和表 3所示, 实验数据表明sS-LINN可以获得优于其他方法的学习能力和泛化能力.
4. 结论
针对跨越-侧抑制神经网络的结构设计及参数学习, 结合生物神经网络神经元连接的稀疏特性以及人类智力发展水平与大脑皮层发育的对应关系, 设计了连接自组织发育的稀疏跨越-侧抑制神经网络学习算法.通过在学习阶段对网络连接稀疏程度的控制, 模拟大脑皮层由薄到厚再变薄的动态变化过程, 实现网络智力的发育, 从而提升网络的性能.首先, 借助小世界网络连接模式生成初始化稀疏连接S-LINN; 其次, 根据网络连接稀疏度的控制及神经元输出贡献率的判断, 设计网络自组织发育策略, 实现网络连接的动态调整; 最后, 借助反向传播学习算法对网络的参数进行学习.通过对非线性动力学系统辨识和函数逼近基准问题的求解, 验证了sS-LINN在学习阶段对网络权值连接稀疏度的调整和控制能力, 以及对网络性能的提升作用.实验结果表明, sS-LINN可以通过神经元输出贡献率的判断, 在网络权值增长阶段对输出贡献交大的神经元增加权值连接, 而在网络权值修剪阶段删除贡献值低的神经元之间的连接权值, 精简网络结构, 实现自组织发育, 提高网络性能.
-
表 1 三次独立实验中网络性能及其权值连接变化情况
Table 1 Network performance and the dynamic adjustment process of connected weight
Method
(# Total connections)Training
MSETraining
RMSETesting
MSETesting
RMSECaseA: 43-50-39 2.06 $\times 10^{-5}$ 0.0045 1.96 $\times 10^{-5}$ 0.0044 CaseB: 43-51-39 1.05 $\times 10^{-5}$ 0.0032 4.01 $\times 10^{-5}$ 0.0063 CaseC: 43-51-38 4.88 $\times 10^{-6}$ 0.0022 3.67 $\times 10^{-6}$ 0.0019 表 2 sS-LINN与其他神经网络方法的性能对比
Table 2 Network performance and the dynamic adjustment process of connected weight
Method # Hidden neurons /connections Testing MSE Standard RBF[34] / 0.695 Standard SVR[33] / 0.445 SVR with prior knowledge[33] / 0.354 LCRBF[34] / 0.273 CP-NN[35] $2\to9$ 1.25 $\times 10^{-4}$ $20\to 10$ 1.04 $\times 10^{-4}$ AGPNNC[35] $2\to 10$ 1.71 $\times 10^{-4}$ $20\to10$ 1.23 $\times 10^{-4}$ S-LINN[25] 8 3.82 $\times 10^{-5}$ sS-LINN 39个连接权值 2.01 $\times 10^{-5}$ -
[1] Braitenberg V. Cortical architectonics:general and areal. Architectonics of the Cerebral Cortex. New York, USA:Raven Press, 1978. 443-465 [2] Paschke P, Möller R. Simulation of sparse random networks on a CNAPS SIMD neurocomputer. Neuromorphic Systems:Engineering Silicon from Neurobiology. Singapore:Scientific Press, 1998. 251-260 [3] Liu D R, Michel A N. Robustness analysis and design of a class of neural networks with sparse interconnecting structure. Neurocomputing, 1996, 12(1):59-76 doi: 10.1016/0925-2312(95)00040-2 [4] Gripon V, Berrou C. Sparse neural networks with large learning diversity. IEEE Transactions on Neural Networks, 2011, 22(7):1087-1096 doi: 10.1109/TNN.2011.2146789 [5] Guo Z X, Wong W K, Li M. Sparsely connected neural network-based time series forecasting. Information Sciences, 2012, 193:54-71 doi: 10.1016/j.ins.2012.01.011 [6] Wang J, Cai Q L, Chang Q Q, Zurada J M. Convergence analyses on sparse feedforward neural networks via group lasso regularization. Information Sciences, 2017, 381:250-269 doi: 10.1016/j.ins.2016.11.020 [7] Watts D J, Strogatz S H. Collective dynamics of "Small-World" networks. Nature, 1998, 393(6684):440-442 doi: 10.1038/30918 [8] Sporns O, Zwi J D. The small world of the cerebral cortex. Neuroinformatics, 2004, 2(2):145-162 doi: 10.1385/NI:2:2 [9] Bassett D S, Bullmore E. Small-world brain networks. The Neuroscientist, 2006, 12(6):512-523 doi: 10.1177/1073858406293182 [10] Ahn Y Y, Jeong H, Kim B J. Wiring cost in the organization of a biological neuronal network. Physica A:Statistical Mechanics and Its Applications, 2006, 367:531-537 doi: 10.1016/j.physa.2005.12.013 [11] Zheng P S, Tang W S, Zhang J X. A Simple method for designing efficient small-world neural networks. Neural Networks, 2010, 23(2):155-159 [12] Simard D, Nadeau L, Kröger H. Fastest learning in small-world neural networks. Physics Letters A, 2005, 336(1):8-15 doi: 10.1016/j.physleta.2004.12.078 [13] Lago-Fernández L F, Huerta R, Corbacho F, Sigüenza J A. Fast response and temporal coherent oscillations in small-world networks. Physical Review Letters, 2000, 84(12):2758-2761 doi: 10.1103/PhysRevLett.84.2758 [14] Morelli L G, Abramson G, Kuperman M N. Associative memory on a small-world neural network. The European Physical Journal B—Condensed Matter and Complex Systems, 2004, 38(3):495-500 [15] 王爽心, 杨成慧.基于层连优化的新型小世界神经网络.控制与决策, 2014, 29(1):77-82 http://d.old.wanfangdata.com.cn/Periodical/kzyjc201401012Wang Shuang-Xin, Yang Cheng-Hui. Novel small-world neural network based on topology optimization. Control and Decision, 2014, 29(1):77-82 http://d.old.wanfangdata.com.cn/Periodical/kzyjc201401012 [16] 伦淑娴, 林健, 姚显双.基于小世界回声状态网的时间序列预测.自动化学报, 2015, 41(9):1669-1679 http://www.aas.net.cn/CN/abstract/abstract18740.shtmlLun Shu-Xian, Lin Jian, Yao Xian-Shuang. Time series prediction with an improved echo state network using small world network. Acta Automatica Sinica, 2015, 41(9):1669-1679 http://www.aas.net.cn/CN/abstract/abstract18740.shtml [17] Erkaymaz O, Ozer M, Perc M. Performance of small-world feedforward neural networks for the diagnosis of diabetes. Applied Mathematics and Computation, 2017, 311:22-28 doi: 10.1016/j.amc.2017.05.010 [18] Peters A, Sethares C. Organization of pyramidal neurons in area 17 of monkey visual cortex. The Journal of Comparative Neurology, 1991, 306(1):1-23 doi: 10.1002/cne.903060102 [19] Markram H, Toledo-Rodriguez M, Wang Y, Gupta A, Silberberg G, Wu C Z. Interneurons of the neocortical inhibitory system. Nature Reviews Neuroscience, 2004, 5(10):793-807 doi: 10.1038/nrn1519 [20] Mountcastle V B. The columnar organization of the neocortex. Brain, 1997, 120(4):701-722 doi: 10.1093/brain/120.4.701 [21] Hubel D H, Wiesel T N. Sequence regularity and geometry of orientation columns in the monkey striate cortex. The Journal of Comparative Neurology, 1974, 158(3):267-293 doi: 10.1002-cne.901580304/ [22] Lübke J, Feldmeyer D. Excitatory signal flow and connectivity in a cortical column:focus on barrel cortex. Brain Structure and Function, 2007, 212(1):3-17 doi: 10.1007/s00429-007-0144-2 [23] Buxhoeveden D P, Casanova M F. The minicolumn hypothesis in neuroscience. Brain, 2002, 125(5):935-951 doi: 10.1093/brain/awf110 [24] Rockland K S, Ichinohe N. Some Thoughts on cortical minicolumns. Experimental Brain Research, 2004, 158(3):265-277 doi: 10.1007%2Fs00221-004-2024-9 [25] 杨刚, 乔俊飞, 薄迎春, 韩红桂.一种基于大脑皮层结构的侧抑制神经网络.控制与决策, 2013, 28(11):1702-1706 http://d.old.wanfangdata.com.cn/Periodical/kzyjc201311017Yang Gang, Qiao Jun-Fei, Bo Ying-Chun, Han Hong-Gui. A lateral inhibition neural network based on neocortex topology. Control and Decision, 2013, 28(11):1702-1706 http://d.old.wanfangdata.com.cn/Periodical/kzyjc201311017 [26] Yang G, Qiao J F. A fast and efficient two-phase sequential learning algorithm for spatial architecture neural network. Applied Soft Computing, 2014, 25:129-138 doi: 10.1016/j.asoc.2014.09.012 [27] Fiesler E. Comparative bibliography of ontogenic neural networks. In:Proceedings of the 1994 International Conference on Artificial Neural Networks. Sorrento, Italy:Springer, 1994. 793-796 [28] Elizondao D, Fiesler E, Korczak J. Non-ontogenic sparse neural networks. In:Proceedings of the 1995 IEEE International Conference on Neural Networks. Perth, WA, Australia:IEEE, 1995. 290-295 [29] Newman M E J, Watts D J. Renormalization group analysis of the small-world network model. Physics Letters A, 1999, 263(4-6):341-346 doi: 10.1016/S0375-9601(99)00757-4 [30] 王波, 王万良, 杨旭华. WS与NW两种小世界网络模型的建模及仿真研究.浙江工业大学学报, 2009, 37(2):179-182, 189 doi: 10.3969/j.issn.1006-4303.2009.02.014Wang Bo, Wang Wan-Liang, Yang Xu-Hua. Research of modeling and simulation on WS and NW small-world network model. Journal of Zhejiang University of Technology, 2009, 37(2):179-182, 189 doi: 10.3969/j.issn.1006-4303.2009.02.014 [31] Shaw P, Greenstein D, Lerch J, Clasen L, Lenroot R, Gogtay N, Evans A, Rapoport J, Giedd J. Intellectual ability and cortical development in children and adolescents. Nature, 2006, 440(7084):676-679 doi: 10.1038/nature04513 [32] Leng G, McGinnity T M, Prasad G. Design for self-organizing fuzzy neural networks based on genetic algorithms. IEEE Transactions on Fuzzy Systems, 2006, 14(6):755-766 doi: 10.1109/TFUZZ.2006.877361 [33] Lauer F, Bloch G. Incorporating prior knowledge in support vector regression. Machine Learning, 2008, 70(1):89-118 [34] Qu Y J, Hu B G. RBF networks for nonlinear models subject to linear constraints. In:Proceedings of the 2009 IEEE International Conference on Granular Computing. Nanchang, China:IEEE, 2009. 482-487 [35] Han H G, Qiao J F. A structure optimisation algorithm for feedforward neural network construction. Neurocomputing, 2013, 99:347-357 doi: 10.1016/j.neucom.2012.07.023 [36] Narendra K S, Parthasarathy K. Identification and control of dynamical systems using neural networks. IEEE Transactions on Neural Networks, 1990, 1(1):4-27 http://d.old.wanfangdata.com.cn/OAPaper/oai_doaj-articles_89fcbba67ed6200b6b18dc26ecde7431 [37] Manngard M, Kronqvist J, Böling J M. Structural learning in artificial neural networks using sparse optimization. Neurocomputing, 2018, 272:660-667 doi: 10.1016/j.neucom.2017.07.028 期刊类型引用(2)
1. 张跃中,肖敏,王璐,徐丰羽. 大规模超环神经网络分岔动力学. 自动化学报. 2022(04): 1129-1136 . 本站查看
2. 郭磊,吕欢,黄凤荣,石洪溢. 基于突触可塑性的无标度脉冲神经网络的动态特性研究. 生物医学工程学杂志. 2019(06): 902-910 . 百度学术
其他类型引用(2)
-