2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于突触巩固机制的前馈小世界神经网络设计

李文静 李治港 乔俊飞

李文静, 李治港, 乔俊飞. 基于突触巩固机制的前馈小世界神经网络设计. 自动化学报, 2023, 49(10): 2145−2158 doi: 10.16383/j.aas.c220638
引用本文: 李文静, 李治港, 乔俊飞. 基于突触巩固机制的前馈小世界神经网络设计. 自动化学报, 2023, 49(10): 2145−2158 doi: 10.16383/j.aas.c220638
Li Wen-Jing, Li Zhi-Gang, Qiao Jun-Fei. Structure design for feedforward small-world neural network based on synaptic consolidation mechanism. Acta Automatica Sinica, 2023, 49(10): 2145−2158 doi: 10.16383/j.aas.c220638
Citation: Li Wen-Jing, Li Zhi-Gang, Qiao Jun-Fei. Structure design for feedforward small-world neural network based on synaptic consolidation mechanism. Acta Automatica Sinica, 2023, 49(10): 2145−2158 doi: 10.16383/j.aas.c220638

基于突触巩固机制的前馈小世界神经网络设计

doi: 10.16383/j.aas.c220638
基金项目: 国家重点研发计划(2021ZD0112301), 国家自然科学基金(62173008, 62021003, 61890930-5) 资助
详细信息
    作者简介:

    李文静:北京工业大学信息学部副教授. 主要研究方向为神经网络计算, 污水处理过程智能建模. 本文通信作者. E-mail: wenjing.li@bjut.edu.cn

    李治港:北京工业大学信息学部硕士研究生. 主要研究方向为神经网络结构设计与优化, 污水处理过程特征建模. E-mail: lzg551602@emails.bjut.edu.cn

    乔俊飞:北京工业大学信息学部教授. 主要研究方向为污水处理过程智能控制, 神经网络结构设计与优化. E-mail: adqiao@bjut.edu.cn

Structure Design for Feedforward Small-world Neural Network Based on Synaptic Consolidation Mechanism

Funds: Supported by National Key Research and Development Program of China (2021ZD0112301) and National Natural Science Foundation of China (62173008, 62021003, 61890930-5)
More Information
    Author Bio:

    LI Wen-Jing Associate professor at the Faculty of Information Technology, Beijing University of Technology. Her research interest covers neural network computation and intelligent modelling in wastewater treatment process. Corresponding author of this paper

    LI Zhi-Gang Master student at the Faculty of Information Technology, Beijing University of Technology. His research interest covers structure design and optimization of neural networks, and feature modelling in wastewater treatment process

    QIAO Jun-Fei Professor at the Faculty of Information Technology, Beijing University of Technology. His research interest covers intelligent control of wastewater treatment process and structure design and optimization of neural networks

  • 摘要: 小世界神经网络具有较快的收敛速度和优越的容错性, 近年来得到广泛关注. 然而, 在网络构造过程中, 随机重连可能造成重要信息丢失, 进而导致网络精度下降. 针对该问题, 基于Watts-Strogatz (WS) 型小世界神经网络, 提出了一种基于突触巩固机制的前馈小世界神经网络(Feedforward small-world neural network based on synaptic consolidation, FSWNN-SC). 首先, 使用网络正则化方法对规则前馈神经网络进行预训练, 基于突触巩固机制, 断开网络不重要的权值连接, 保留重要的连接权值; 其次, 设计重连规则构造小世界神经网络, 在保证网络小世界属性的同时实现网络稀疏化, 并使用梯度下降算法训练网络; 最后, 通过4个UCI基准数据集和2个真实数据集进行模型性能测试, 并使用Wilcoxon符号秩检验对对比模型进行显著性差异检验. 实验结果表明: 所提出的FSWNN-SC模型在获得紧凑的网络结构的同时, 其精度显著优于规则前馈神经网络及其他WS型小世界神经网络.
  • 人工神经网络是受生物神经网络启发而设计出来的一种数学计算模型, 具有良好的容错能力、万能的逼近特性以及优越的自适应和自学习功能[1], 同时具备高速并行处理信息的结构[2], 可以解决复杂的工程问题. 这些优点使得人工神经网络成为当今最成功的人工智能模型之一[3], 已广泛地应用于众多领域, 如非线性系统建模[4-5]、数据挖掘[6-7]、计算机视觉[8-9]和自然语言处理[10-11]等.

    1998年, Watts等[12]发现许多生物网络、社会网络介于随机网络和规则网络之间, 其拓扑结构呈现出稀疏特性, 且具有较大的聚类系数和较短的平均路径长度, 并将其定义为小世界网络. 随着人们对生物神经网络研究的深入, 借助弥散张量成像、磁共振脑功能成像等技术, 研究者发现生物神经网络在结构和功能上均呈现出小世界属性[13-15]. 研究表明, 生物神经网络较短的平均路径长度可以加快信息在网络中的传播速度, 较大的聚类系数能够增加网络的容错能力[16]. 尽管人工神经网络通过构建大量节点(神经元)之间的相互连接模拟人脑的信息处理方式, 但是其拓扑结构及功能与生物神经网络仍相去甚远.

    近年来, 已有很多学者尝试将小世界属性引入人工神经网络设计中, 旨在提高人工神经网络的信息处理及容错能力. 前馈神经网络(Feedforward neural network, FNN)由于结构简单灵活[17], 且可以以任意精度逼近任一连续函数[18-19], 在模式识别、函数逼近等方面得到广泛应用[20-21]. 目前, 基于FNN的小世界神经网络设计得到越来越多的关注. Simard等[22]以多层感知器为基础模型, 建立了一种多层前馈小世界神经网络, 发现小世界神经网络比规则网络和随机网络有更快的学习速度和更高的精度. Li等[23]探究了重连概率对小世界神经网络性能的影响, 发现重连概率在0.1附近时, 网络收敛速度最快. 可见, 将小世界属性融入人工神经网络结构设计能够提升网络的收敛速度和泛化能力. 基于此, 小世界神经网络已广泛地应用到智能控制[24-25]、风力预测[26]、医疗诊断[27-28]、污水处理[29-30]等多个领域, 取得了良好的效果.

    小世界神经网络的拓扑结构直接影响着网络的性能. 目前, 构造小世界神经网络的方法主要包括Watts-Strogatz (WS)[12]和Newman-Watts (NW)[31]两种方式. WS型前馈小世界神经网络通过在FNN上以一定概率随机断开相邻层连接再进行随机跨层重连实现小世界网络构建, 而NW型前馈小世界神经网络则是通过在FNN上直接随机跨层加边进行小世界网络构造. 从网络的构造方式可以看出, WS型小世界神经网络相比NW型小世界神经网络拓扑结构更加稀疏, 因此得到更多学者的关注. 在WS方式构造的基础上, 不少学者通过改进其断开或重连策略实现构造方式的优化. 例如, 李小虎等[32]对随机断开连接加以限制, 即禁止断开最后一个隐含层与输出层之间的连接, 以防止孤立神经元的产生. 王爽心等[33]提出基于层连优化的小世界神经网络的改进算法, 引入了同层节点重连的策略, 改善了小世界神经网络聚类系数偏低的问题, 并且发现输入层和输出层直接相连会造成网络性能下降. 此外, 近年来研究学者在WS构造方式的基础上对网络进行稀疏化, 以进一步提高网络的泛化性能. Guo等[34]提出了一种基于E-信息熵的剪枝算法用于稀疏化WS型前馈小世界神经网络, 在一定程度上改善了因网络结构过大而出现过拟合的问题. Li等[30]利用节点的Katz中心性衡量网络中节点的重要性, 删除不重要的节点使网络结构更加紧凑, 同时提高了网络的泛化性能. 尽管以上研究通过优化网络结构提升了网络性能, 但是在WS型构造方式中, 网络的随机跨层重连是在随机断开相邻层间连接的基础上实现的, 而连接断开的随机性可能会导致网络重要信息丢失, 在一定程度上影响网络的建模精度.

    针对以上问题, 本文提出一种基于突触巩固机制[35-36]的前馈小世界神经网络(Feedforward small-world neural network based on synaptic consolidation, FSWNN-SC). 首先, 使用正则化方法对FNN进行预训练, 基于突触巩固机制选择性断开网络连接; 其次, 设计小世界网络重连规则, 同时实现网络的稀疏化, 并采用梯度下降学习算法训练网络; 最后, 通过4个UCI基准数据集和2个真实数据集进行模型性能测试, 并使用Wilcoxon符号秩检验[37]对实验结果进行显著性分析.

    前馈神经网络, 又称多层感知器, 采用级联方式连接实现信息的前向传导, 其结构由输入层、隐含层和输出层组成, 如图1 (以4层为例)所示. 假设FNN共包含L层, 使用X表示输入数据, $ y^l $ (1 $ {\leq} $ l $ {\leq} $ L)表示第l层输出, FNN各层功能及表示详述如下.

    图 1  前馈神经网络结构示意图
    Fig. 1  The architecture of feedforward neural network

    1)输入层. 输入层将输入数据导入FNN, 该层神经元激活函数常采用线性的, 以得到数据的原始特征. 若输入数据为n维, 即$ {\boldsymbol{X}} = [{x_1},{x_2}, \cdots ,{x_n}]^{\rm{T}} $, 则输入层包含n个神经元, 其中第i个神经元的输出为

    $$ \begin{equation} y_i^1 = {x_i}, 1 \le i \le n \end{equation} $$ (1)

    2)隐含层. FNN包含至少一层隐含层, 通过激活函数实现该层输入数据的非线性映射, 激活函数采用sigmoid函数, 因其导数便于计算而广泛使用. FNN第l (1$ {<} $ l $ {<} $ L)层(即第$l - 1$个隐含层)的第j个神经元的输出为

    $$ \begin{equation} y_j^l = f\left(\sum\limits_{i = 1}^{{n_{l - 1}}} {w_{ij}^{l - 1}y_i^{l - 1}}\right) \end{equation} $$ (2)

    其中, $ w_{ij}^{l - 1} $是第$l - 1$层第i个神经元与第l层的第j个神经元之间的连接权值, $ {n_{l - 1}} $表示第$l - 1$层的神经元个数, $ {f(\cdot)} $为激活函数.

    3)输出层. 输出层是隐含层输出的集成, 该层激活函数常采用线性的, 进而实现对隐含层的线性加权, 输出层神经元个数视系统问题而定. 以含有一个输出神经元的FNN为例, 其输出为

    $$ \begin{equation} {y^L} = \sum\limits_{i=1}^{{n_{L - 1}}} {w_i^{L - 1}y_i^{L - 1}} \end{equation} $$ (3)

    其中, $ w_i^{L - 1} $是最后一个隐含层第i个神经元与输出神经元之间的连接权值. 若输出含有多个神经元, 可按照式(3)做相应扩展.

    1998年, Watts等[12]发现生物、技术和社交等网络的连接方式介于规则网络的“规则”和随机网络的“无序”之间, 具有较大的聚类系数和较短的特征路径长度等特征, 将其定义为小世界网络. 图论是描述网络特征的重要工具, 网络可以看作一个无向图, 由节点和边组成, 则网络的平均聚类系数AC和平均最短路径长度AL可由式(4)和式(5)计算得到

    $$ \begin{equation} AC = \frac{1}{N}\sum\limits_{i = 1}^N {\frac{{2{E_i}}}{{{D_i}\left( {{D_i} - 1} \right)}}} \end{equation} $$ (4)
    $$ \begin{equation} AL = \frac{1}{{N\left( {N - 1} \right)}}\sum\limits_{i \ne j \in G} {{l_{ij}}} \end{equation} $$ (5)

    其中, N是网络中的节点数; $ {D_i} $是节点i的度, 即节点i的相邻节点数, 则$ {D_i}({D_i} - 1)/2 $表示这些相邻节点理论最多连接数量; 而$ {E_i} $是这些相邻节点的实际连接数量; $ {l_{ij}} $表示节点i到节点j的最短距离. 当网络的聚类系数远大于随机网络的聚类系数, 且特征路径长度接近于随机网络时, 即$ {AC \gg {AC_{{\rm{rand}}}}} $且$ {AL \approx AL_{\rm{rand}}} $时, 该网络具有小世界属性. 因此, 定义小世界网络属性指标为

    $$ \eta = \frac{\dfrac{AC} {A{C_{{\rm{rand}}}}} }{\dfrac {AL} {A{L_{{\rm{rand}}}}} } $$ (6)

    当网络满足$ {\eta>1} $时, 该网络为小世界网络[38].

    对于前述前馈神经网络, 其连接遵循一定的规则, 即相邻层之间为全连接结构, 同一层内神经元之间无连接且不存在跨层连接. 因此, 对任一神经元, 其近邻神经元之间不存在边, 由式(4)可得网络聚类系数为0. 通过在前馈神经网络规则连接的基础上进行随机跨层重连, 可生成小世界神经网络[30, 32-34]. 相对于规则前馈神经网络, 小世界神经网络由于存在跨层连接, 其聚类系数始终大于0, 且由于位于不同层的两个神经元之间的最短路径减小使得其特征路径长度减小. 相对于完全随机网络, 小世界神经网络的拓扑结构含有随机网络的“无序”特性, 使其特征路径长度接近于完全随机网络的特征路径长度, 同时小世界神经网络的拓扑结构仍然保留一定的“规则”连接, 这使得小世界神经网络的聚类系数远大于完全随机网络的聚类系数, 因此具备小世界属性.

    在生物神经网络中, 突触是神经细胞之间的连接, 也是细胞间信息传递的“桥梁”. 研究表明, 突触具有可塑性, 可以自主调节其连接强度, 突触的形态和功能可发生较为持久的改变. 当学习特定任务时, 有些突触兴奋性会增强, 有些会被抑制, 这就是突触巩固机制[39]. 突触巩固的实现依赖突触的长时程增强(Long-term potentiation, LTP)[40]和长时程抑制(Long-term depression, LTD)[41]. 如果两个神经元之间存在持久的信息传递, LTP将加强它们之间的突触连接; 如果两个神经元之间的信息传递弱且呈间歇性, LTD会抑制其间突触连接. 因此, 突触巩固机制可以选择性地增强和削弱特定的突触. 如图2所示, 图2(a)是神经元与突触模型, 图2(b)展示了突触巩固机制作用下突触的变化. 其中, 粗线表示重要的突触在突触巩固的作用下会增强其连接强度(LTP), 而虚线表示不重要的突触在突触巩固作用下会消失(LTD).

    图 2  突触巩固
    Fig. 2  Synaptic consolidation

    研究者通过模拟生物神经系统的结构特征和突触的可塑性机制, 设计人工神经网络结构及学习规则. 突触巩固机制在人工神经网络结构设计中也得到了广泛应用, 如模型压缩[42]和增量学习[43] 等.

    受到突触巩固机制的启发, 本文提出一种前馈小世界神经网络(FSWNN-SC). 首先, 通过前馈神经网络正则化对其进行预训练, 保留网络中重要的权值连接、断开网络中不重要的权值连接以模拟生物神经网络的突触巩固; 其次, 制定小世界网络重连规则, 对断开的连接进行随机跨层重连, 实现小世界神经网络的构造; 最后使用梯度下降法对网络进行训练, 实现网络权值更新.

    对于规则FNN, 本文首先使用网络正则化方法对其进行预训练, 旨在通过网络稀疏化保留网络重要权值连接、断开不重要的权值连接. 具体步骤如下:

    1) 初始化. 初始化网络结构包括层数和神经元个数等参数, 网络的连接权值设置为[$ - 1$, 1]区间内的随机数. 设置惩罚系数$ \lambda $、网络学习率$ \mu $、预训练迭代步数$ S $和重连概率$ P $.

    2) 定义损失函数. 即

    $$ \begin{equation} L_1({\boldsymbol{W}}) = E({\boldsymbol{W}}) + \lambda g({\boldsymbol{W}}) \end{equation} $$ (7)

    该损失函数由两项组成, 其中第1项$ {E({\boldsymbol{W}})} $为误差项, 通过式(8)计算得到

    $$ \begin{equation} E({\boldsymbol{W}}) = \frac{1}{2}\sum\limits_{m = 1}^M {({d_m} - y_m^L} {)^2} \end{equation} $$ (8)

    其中, M为训练样本数, $ d_m $与$ y_m^L $为样本$ m $的期望与实际输出. 第2项$ {\lambda g({\boldsymbol{W}})} $是正则化项, 其中$ {\lambda } $是惩罚系数, $ {g({\boldsymbol{W}})} $为${{L_q}}$ ($ 0 \leq q \leq 1) $范数, 即

    $$ \begin{equation} g({\boldsymbol{W}}) = {\left\| {\boldsymbol{W}} \right\|_{q}} \end{equation} $$ (9)

    此处分别列出$ q=0 $, $ \rm{1/2} $, 1时的计算式, 即

    $$ \begin{equation} g({\boldsymbol{W}}) = {\left\| {\boldsymbol{W}} \right\|_{\rm{0}}} = \sum\limits_{l = 1}^{L - 1} {\sum\limits_{i = 1}^{{n_l}} {\sum\limits_{j = 1}^{{n_{l + 1}}} {\left( {1 - {{\rm{e}}^{ - \beta \left| {w_{ij}^l} \right|}}} \right)} } } \end{equation} $$ (10)
    $$ \begin{equation} g({\boldsymbol{W}}) = {\left\| {\boldsymbol{W}} \right\|_{\frac{1}{2}}} = \sum\limits_{l = 1}^{L - 1} {{{\sum\limits_{i = 1}^{{n_l}} {\sum\limits_{j = 1}^{{n_{l + 1}}} {\left| {w_{ij}^l} \right|} ^{{\frac{1}{2}}}} }}} \end{equation} $$ (11)
    $$ \begin{equation} g({\boldsymbol{W}}) = {\left\| {\boldsymbol{W}} \right\|_{\rm{1}}} = \sum\limits_{l = 1}^{L - 1} {\sum\limits_{i = 1}^{{n_l}} {\sum\limits_{j = 1}^{{n_{l + 1}}} {\left| {w_{ij}^l} \right|} } } \end{equation} $$ (12)

    其中, L为网络的总层数, $ {w_{ij}^l} $代表第l层的第i个神经元与第l + 1层的第j个神经元的连接权值. 由于其在原点处不可导, 将其在原点处进行平滑[44], 即

    $$ g({\boldsymbol{W}}) = \left\{ {\begin{aligned} &{{\left\| {\boldsymbol{W}} \right\|}_q}{\rm{, }}&\left| w \right| \ge a\\ & - \frac{1}{{8{a^3}}}{w^4} + \frac{3}{{4a}}{w^2} + \frac{3}{8}a, & \left| w \right| < a \end{aligned}} \right. $$ (13)

    其中, a为接近于0的常数, 本文中取值a = 0.005.

    3) 使用梯度下降法更新网络权值. 更新式为

    $$ \begin{equation} {\boldsymbol{W}}(t + 1) = {\boldsymbol{W}}(t) + \Delta {\boldsymbol{W}}(t) \end{equation} $$ (14)

    其中, $ t $为迭代步数, $ {\Delta {\boldsymbol{W}}(t)} $是权值变化矩阵, 矩阵中第l层的第i个神经元与第$l+1 $层的第j个神经元的连接权值变化量$ {\Delta w_{ij}^l} $可由式(15)计算得到

    $$ \begin{split} \Delta w_{ij}^l(t)=\; & - \mu \left( {\frac{{\partial E({\boldsymbol{W}})}}{{\partial w_{ij}^l(t)}} + \lambda \frac{{\partial g({\boldsymbol{W}})}}{{\partial w_{ij}^l(t)}}} \right)= \\ & - \mu \left( {\delta _j^{l+1}(t)y_i^l(t) + \lambda \frac{{\partial g({\boldsymbol{W}})}}{{\partial w_{ij}^l(t)}}} \right) \end{split} $$ (15)

    其中, $ {\mu} $是学习率, $ {\lambda} $是惩罚系数. ${\delta_j^{l+1}}$按照式(16)计算得到

    $$ \delta_{j}^{l+1}=\left\{\begin{aligned} &{\boldsymbol{W}}_{j}^{l+1} \delta^{l+2}\left(y_{j}^{l+1}\right)^{\prime},& l \in[1, L-2] \\ &\sum\limits_{m = 1}^M\left(d_{m}-y_{m}^{L}\right),& l=L-1 \;\;\quad\end{aligned}\right. $$ (16)

    其中, $ {{\boldsymbol{W}}_j^{l+1}} $是第$l+1 $层的第j个神经元与第$l+2 $层神经元的权值向量. $ (y_j^{l+1})^{'} $是第$l+1 $层第j个神经元的输出的导数, 通过式(17)计算得到

    $$ \begin{equation} {{(y_j^{l + 1})^{'}} = y_j^{l + 1}(1 - y_j^{l + 1})} \end{equation} $$ (17)

    当迭代次数达到预设步数$ S $时, 训练停止.

    4) 网络稀疏化. 根据设定重连概率$ P $, 计算断开连接数$ {{N_c}} $. 将完成预训练后的网络权值降序排列, 设置前$ {{N_c}} $个连接权值为0.

    通过网络预训练, 规则FNN将按照重连概率$ P $断开网络不重要的权值连接, 其他权值连接被保留.

    本文对WS重连规则进行改进, 设计小世界神经网络构造方法.

    标记经过预训练后断开连接的神经元, 假设l层的第i个神经元与l + 1层的第j个神经元之间的权值连接被断开, 起始及终止神经元分别记为$ {v_i^l} $和$ {v_j^{l+1}} $.

    制定重连规则如下: 神经元$ {v_i^l} $向后跨层寻找可重连的神经元. 若存在, 则对其进行随机重连, 并在[$ -1 $, 1]范围内对连接权值随机赋值; 若不存在, 则从神经元$ {v_j^{l+1}} $向前跨层寻找可连接的神经元进行随机重连, 并在[$ -1 $, 1]范围内对连接权值随机赋值. 遍历所有标记神经元直至完成重连, 若出现孤立神经元, 则将其删除.

    同时设定约束条件: 输入层与输出层的神经元不能直接相连.

    本文所提出的小世界神经网络构造方法可以用图3表示, 规则网络先经过预训练断开网络中不重要的连接(图3(a)), 然后按照重连规则进行跨层重连(图3(b)), 最后删除孤立神经元(图3(c)).

    图 3  基于突触巩固小世界神经网络构造流程
    Fig. 3  Construction process of small-world neural network based on synaptic consolidation

    在规则前馈神经网络的基础上, 本文通过以上重连规则引入跨层连接构造小世界神经网络. 两者输入层的数学描述相同, 如式(1)所示. 而由于引入了跨层连接, 小世界神经网络隐含层及输出层的数学描述与规则前馈神经网络有所不同.

    对于隐含层, 以小世界神经网络第$ l\;({1<l<L} $)层的第j个神经元为例, 其输出通过式(18)计算得到

    $$ \begin{equation} \begin{split} y_j^l &= f\left(\sum\limits_{s = 1}^{l - 1} {\sum\limits_{i = 1}^{{n_s}} {w_{ij}^{sl}} } y_i^s\right) \end{split} \end{equation} $$ (18)

    其中, $ {{n_s}} $表示第s层神经元的个数, $ {f(\cdot)} $为激活函数, $ {w_{ij}^{sl}} $为第s层第i个神经元与第l层的第j个神经元之间的连接权值. 若不存在连接, 则$ {w_{ij}^{sl}} $为0. 由式(18)可以看出, 第l层隐含层的输入需要同时考虑来自前面所有层的输出.

    对于输出层, 其输入需要同时考虑来自所有隐含层的输出, 其输出通过式(19)计算得到

    $$ \begin{equation} \begin{split} {y^L}& = \sum\limits_{s = 1}^{L - 1} {\sum\limits_{i = 2}^{{n_s}} {w_i^{sL}} } y_i^s \end{split} \end{equation} $$ (19)

    其中, $ {w_i^{sL}} $表示第s层的第i个神经元与输出层神经元的连接权值.

    本文使用梯度下降算法更新小世界神经网络的连接权值. 首先, 基于误差函数定义损失函数, 即

    $$ \begin{equation} L_2({\boldsymbol{W}}) = E({\boldsymbol{W}}) = \frac{1}{2}\sum\limits_{m = 1}^M {({d_m} - y_m^L} {)^2} \end{equation} $$ (20)

    其中, $ M $是训练样本数, $ d_m $与$ {y_m^L} $分别表示样本m的期望输出与实际输出.

    按照式(21)更新连接权值, 即

    $$ \begin{equation} {\boldsymbol{W}}(t + 1) = {\boldsymbol{W}}(t) + \Delta {\boldsymbol{W}}(t) \end{equation} $$ (21)

    其中, $ t $为迭代步数, $ {\Delta {\boldsymbol{W}}} $为权值变化矩阵. 矩阵中第l层的第i个神经元与第s层的第j个神经元的连接权值变化量$ {\Delta w_{ij}^{ls}} $可通过式(22)计算得到

    $$ \begin{equation} \Delta w_{ij}^{ls}(t) = - \mu \frac{{\partial E({\boldsymbol{W}})}}{{\partial w_{ij}^{ls}(t)}} = - \mu \delta _j^s(t)y_i^l(t) \end{equation} $$ (22)

    其中, $ {\mu} $是学习率, $ {y_i^l} $为第l $ {(1 \leq l<s\leq L)} $层的第i个神经元的输出, $ {\delta _j^s} $可由式(23)计算得到

    $$ \begin{equation} \delta _j^s = \left\{ {\begin{aligned} &\sum\limits_{d = s + 1}^L {{\boldsymbol{W}}_j^{sd}{\delta ^d}(y_j^s)'},& {{ s}} \in {{[2, L - 1]}}\\ &\sum\limits_{m = 1}^M {({d_m} - y_m^L)} ,& \ s = L\quad\qquad\; \end{aligned}} \right. \end{equation} $$ (23)

    其中, $ {\delta ^d} $是第d层神经元的误差; $ {{\boldsymbol{W}}_j^{sd}} $为第s层的第j个神经元与第d层神经元的连接权值向量; $ (y_j^{s})^{'} $是第s层第j个神经元的输出的导数, 通过式(24)计算得到.

    $$ \begin{equation} {(y_j^s)^{'}=y_j^s(1 - y_j^s)} \end{equation} $$ (24)

    当迭代步数达到最大迭代步数($ iter_{\rm{max}} $)或训练误差达到均方根误差(Root mean squared error, RMSE)的期望值$ {\rm{RMSE}}_d $时, 网络训练结束.

    本文在规则前馈神经网络的基础上, 通过网络正则化断开不重要的权值连接, 设计网络重连规则构造小世界神经网络, 使用梯度下降算法更新网络权值, 算法流程图如图4所示.

    图 4  FSWNN-SC算法流程图
    Fig. 4  The flowchart of FSWNN-SC

    通过实验仿真, 本文首先研究预训练关键参数(重连概率$ P $及预训练次数$ S $)对实验结果的影响, 为后续实验的参数选取提供实验依据; 其次, 从建模精度及训练时间等方面评价FSWNN-SC模型的性能及有效性; 最后, 使用Wilcoxon符号秩检验方法进一步验证FSWNN-SC模型相比于其他模型的显著性优势.

    本文选取了4个UCI数据集[45], 包括2个分类数据集(数据集1和数据集2)和2个回归数据集(数据集3 和数据集4), 以及2个真实数据集(数据集5和数据集6)进行实验. 数据集信息如下:

    1)数据集1: HTRU2. 该分类数据集有17898组样本, 8个特征变量, 1个输出变量(取值$ -1 $, 1分别代表所属两种类别). 抽取3278组样本, 正负样本比例为1 : 1.2, 2295组样本用于网络训练, 983组样本用于网络性能测试.

    2)数据集2: Banknote Authentication. 该分类数据集有1372组样本, 4个特征变量, 1个输出变量(取值$ -1 $, 1 分别代表所属两种类别), 正负样本比例为1 : 1.2492. 将数据集划分为训练集和测试集, 960组样本用于网络训练, 412组样本用于网络性能测试.

    3)数据集3: Boston Housing. 该回归数据集有506组样本, 13个特征变量, 1个输出变量. 将数据集划分为训练集和测试集, 354组样本用于网络训练, 152组样本用于网络性能测试.

    4)数据集4: Concrete Compressive Strength. 该数据集有1030组样本, 8个特征变量, 1个输出变量. 721组样本用于网络训练, 309组样本用于网络性能测试.

    5)数据集5: 风速预测. 风速时间序列从中国某风电场采集, 采样间隔为2011年4月6日凌晨0:00至2011年4月12日凌晨0:00, 采样间隔为10分钟. 用$ y(t) $表示$ t $时刻的风速值, 使用$ y(t-5) $至$ y(t) $作为网络输入, 预测下一时刻的风速值, 即$ y(t+1) $网络输出. 697组样本用于网络训练, 299 组样本用于网络性能测试.

    6)数据集6: 出水生化需氧量(Biochemical oxygen demand, BOD)浓度预测. 该数据来自北京市某污水处理厂, 共包含365组数据, 输入变量包括: a) 出水总氮; b) 出水氨氮; c) 进水总氮; d) 进水BOD; e) 进水氨氮; f) 出水磷酸盐; g) 混合液悬浮固体(Mixed liquid suspended solids, MLSS); h) 溶解氧(Dissolved oxygen, DO); i) 进水磷酸盐; j) 进水化学需氧量(Chemical oxygen demand, COD). 输出变量为出水BOD浓度. 265组样本用于网络训练, 100 组样本用于网络性能测试.

    为了消除特征向量之间量级不同导致的影响, 对6个实验的数据集都进行归一化处理, 特征变量归一化至[$ -1 $, 1], 输出变量归一化至[0, 1].

    本文选取基于$ L_{{\rm{1/2}}} $范数(即$ q={\rm{1/2}} $)的正则化方法进行网络预训练, 进而构建FSWNN-SC网络. 实验设置超参数, 包括网络结构、预训练惩罚系数$ \lambda $、学习率$ \mu $、最大迭代步数$ iter_{{\rm{max}}} $和期望均方根误差$ {\rm{RMSE}}_d $等, 详见表1.

    表 1  实验超参数设置
    Table 1  Setting of the hyperparameters in experiments
    数据集 网络结构 $\lambda$ $\mu$ $iter_{\mathrm{max}}$ $\mathrm{RMSE}_d$
    数据集1 8-15-15-1 $1.0\times10^{-3}$ 0.0003 6000 0.001
    数据集2 4-15-15-1 $1.0\times10^{-3}$ 0.0008 6000 0.001
    数据集3 13-20-20-1 $1.0\times10^{-6}$ 0.0008 10000 0.001
    数据集4 8-20-20-1 $1.0\times10^{-6}$ 0.0008 10000 0.001
    数据集5 6-20-20-1 $1.0\times10^{-6}$ 0.0005 10000 0.001
    数据集6 10-20-20-1 $1.0\times10^{-6}$ 0.0008 10000 0.001
    下载: 导出CSV 
    | 显示表格

    本文使用分类精度(Accuracy, Acc)和标准均方根误差(Normalized root mean squared error, NRMSE)分别评价模型对分类和回归实验的建模精度, 具体定义为

    $$ {Acc} = \frac{1}{M}\sum\limits_{k = 1}^K {T{P_k}} \;\; \qquad\qquad\quad$$ (25)
    $$ \begin{equation}{NRMSE} = \sqrt {\frac{{\sum\limits_{m = 1}^M {{{({d_m} - {y_m})}^2}} }}{{\sum\limits_{m = 1}^M {{{({d_m} - {{\mathop d\limits^ - }})}^2}} }}} \end{equation} $$ (26)

    其中, $ K $是分类问题中的类别总数, $ TP_k $是第$ k $个类别下真阳性样本总量; $ M $是样本总量, $ {{d_m}} $和$ y_m $分别为第$ m $个样本的期望输出与实际输出, $ {{{\mathop d\limits^ - }}} $是网络期望输出的均值. 可见, $Acc $反映了网络分类准确性, $Acc $越大, 网络性能越好; $NRMSE $反映了网络实际输出与期望输出之间的误差大小, $NRMSE $越小, 网络性能越好.

    此外, 由于预训练后可能会产生孤立节点, 本文提出的FSWNN-SC在删除孤立节点后, 会产生一定的稀疏化作用. 为了评价模型的稀疏化程度, 定义稀疏度指标为

    $$ \begin{equation} SP = \frac{{{N_F}}}{{{N_I}}} \end{equation} $$ (27)

    其中, $ {N_I} $是网络初始状态下非零权值的数量, $ {N_F} $是训练结束后网络中非零权值的数量. SP越小表示稀疏化程度越高; 反之, SP越大, 稀疏化程度越低.

    本文实验所使用的软件为MATLAB R2021b, 操作系统为Windows11, CPU为AMD 5800H 16 GB.

    3.3.1   重连概率$ P $对小世界属性的影响

    如第2.1节所述, 在预训练过程中, 重连概率$ P $决定了预训练后需要断开并进行重连的连接边数$ N_c $, 直接影响网络的小世界属性. 本文通过计算不同$ P $取值情况下的小世界网络属性$ \eta $值, 来研究重连概率$ P $对网络小世界属性的影响.

    在本研究中, 重连概率$ P $定义为重连边数$ N_c $与最大可重连边数$ {N_{\max}} $的比值, 即

    $$ \begin{equation} P=\frac{N_{c}}{N_{\max }} \end{equation} $$ (28)

    其中, 最大重连边数$ {N_{\max}} $取值为可断开边数$ {{N_d}} $和可跨层重连边数$ {{N_r}} $的最小值, 即

    $$ \begin{equation} {N_{\max }} = \min \{ {N_d},{N_r}\} \end{equation} $$ (29)

    其中,

    $$ \begin{equation} {N_d} = \sum\limits_{l = 1}^{L - 2} {{n_l}\times{n_{l + 1}} - } \sum\limits_{l = 1}^{L - 2} {\max \{ {n_l},{n_{l + 1}}\} } \end{equation} $$ (30)
    $$ \begin{equation}\qquad\qquad {N_r} = \sum\limits_{l = 1}^{L - 2} {\sum\limits_{i = 2}^{L - l} {{n_l}\times{n_{l + i}}} } \end{equation} $$ (31)

    其中, $ {n_l} $代表第$ l $层的神经元个数. 当重连概率$ P=1 $时, 规则前馈神经网络变为随机网络, 神经网络的小世界属性根据式(6)计算得出.

    本文在[0, 1]范围内, 对$ P $进行不同取值, 计算相应重连概率下的小世界属性$ \eta $值, 在各数据集上进行验证, 画出$ P\text{-}\eta $曲线, 如图5所示. 由图5可见, 在各实验中, 随着重连概率$ P $的增大, $ {\eta} $值均呈现先增大后减小的趋势, 一般在$ P=0.5 $左右, $ {\eta} $达到峰值. 基于以上实验结果, 为了保障所建立模型具有较好的小世界属性, 本文中设置重连概率$ P=0.5 $.

    图 5  网络小世界属性$\eta$与重连概率$P$的关系曲线$(P\text{-}\eta$曲线)
    Fig. 5  The curves for the relationship between the small-world property $\eta$ and the rewiring probability $P\;(P\text{-}\eta$ curves)
    3.3.2   预训练次数$ S $对模型精度的影响

    本文在[1, 5000]范围内对预训练次数$ S $进行取值, 计算不同预训练次数下建模精度指标, 以研究预训练次数对网络性能的影响, 绘制曲线如图6所示.

    图 6  预训练次数对网络性能的影响
    Fig. 6  Influence of pre-training epochs on network performance

    在分类问题(数据集1和数据集2)中, 随着预训练次数的增加, 测试集的Acc逐渐减小; 在回归问题(数据集3 ~ 6) 中, 随着预训练次数的增加, 测试集的NRMSE逐渐增大. 可见, 预训练次数的增加将会导致网络性能变差. 因此, 为了保证网络性能, 本文设置预训练次数$ S $为较小值, 取值$ S=20 $.

    本文使用6个数据集, 分别从训练过程和测试结果对提出的FSWNN-SC网络的性能进行评价. FSWNN-SC网络训练过程RMSE曲线如图7所示. 可见, 在训练过程中, 当迭代步数达到设定的预训练次数时, 网络按照重连规则结构发生变化以构造小世界神经网络, 训练RMSE发生一次跳变, 之后快速下降直至网络收敛.

    图 7  训练过程RMSE曲线
    Fig. 7  The RMSE curves in the training process

    FSWNN-SC网络对测试样本的分类和预测效果如图8所示. 可见, 对于分类问题, FSWNN-SC网络能够达到较高的分类精度; 对于回归问题, FSWNN-SC网络能够较好地对输出进行拟合, 实验结果验证了FSWNN-SC网络的有效性.

    图 8  测试集样本拟合与分类效果
    Fig. 8  Test set sample fitting and classification effects

    为了进一步研究FSWNN-SC网络的性能, 本文将其与多层前馈神经网络(FNN)、基于WS重连规则构造的前馈小世界神经网络(FSWNN-WS)[32]、基于层连优化的新型小世界神经网络(FSWNN-TO)[33]、基于Katz中心性剪枝的前馈小世界神经网络(PFSWNN-Katz)[30]、基于正则化($ L_{1/2} $范数)的删减型小世界神经网络(PFSWNN-SL)等模型性能进行对比. 所有网络设置相同的初始结构, 小世界神经网络的构造过程重连概率均设置为$ P=0.5 $, 网络学习率、期望RMSE和最大迭代次数均按照表1进行设置. 实验独立运行20次, 通过计算各模型的测试Acc和测试NRMSE等性能指标评价模型精度, 记录训练时间对模型的学习速度进行评价, 同时计算网络稀疏度, 实验结果见表2表3.

    表 2  分类实验结果对比
    Table 2  Comparison results in classification experiments
    分类实验 网络 网络结构 稀疏度SP 测试 Acc 训练时间 (s)
    均值 标准差 均值 标准差
    数据集1 FSWNN-SC 8-15-12-1 0.8861 0.9472 0.0034 3.9631 0.1936
    PFSWNN-SL 8-15-11-1 0.7511 0.9403 0.0026 5.6645 0.2085
    PFSWNN-Katz 8-12-10-1 0.6056 0.9396 0.0126 4.0555 0.2764
    FSWNN-TO 8-15-15-1 0.9392 0.0066 5.4922 0.0147
    FSWNN-WS 8-15-15-1 0.9374 0.0073 3.9371 0.1255
    FNN 8-15-15-1 0.9195 0.0093 3.7201 0.0609
    数据集2 FSWNN-SC 4-15-12-1 0.8950 0.9883 0.0049 2.7552 0.4252
    PFSWNN-SL 4-15-10-1 0.6608 0.9788 0.0081 4.6556 0.2525
    PFSWNN-Katz 4-10-11-1 0.5463 0.9823 0.0054 2.8007 0.1837
    FSWNN-TO 4-15-15-1 0.9840 0.0040 3.6596 0.0614
    FSWNN-WS 4-15-15-1 0.9782 0.0071 2.3605 0.0419
    FNN 4-15-15-1 0.9756 0.0132 2.3402 0.0347
    下载: 导出CSV 
    | 显示表格
    表 3  回归实验结果对比
    Table 3  Comparison results in regression experiments
    回归实验 网络 网络结构 稀疏度SP 测试NRMSE 训练时间 (s)
    均值 标准差 均值 标准差
    数据集3 FSWNN-SC 13-20-13-1 0.7941 0.4331 0.0199 2.9838 0.0978
    PFSWNN-SL 13-20-14-1 0.7265 0.4546 0.0187 6.9352 0.2077
    PFSWNN-Katz 13-15-16-1 0.7563 0.4551 0.0200 4.6810 0.1358
    FSWNN-TO 13-20-20-1 0.4476 0.0193 4.3250 0.0267
    FSWNN-WS 13-20-20-1 0.4582 0.0232 2.9583 0.0609
    FNN 13-20-20-1 0.5728 0.0235 3.1481 0.1228
    数据集4 FSWNN-SC 8-20-16-1 0.8865 0.4814 0.0308 4.7431 0.1883
    PFSWNN-SL 8-20-17-1 0.7706 0.5104 0.0275 8.4518 0.3075
    PFSWNN-Katz 8-17-18-1 0.8064 0.5159 0.0234 5.6207 0.5053
    FSWNN-TO 8-20-20-1 0.4944 0.0147 5.8352 0.0231
    FSWNN-WS 8-20-20-1 0.5142 0.0222 4.6306 0.1288
    FNN 8-20-20-1 0.6691 0.0058 4.4024 0.0585
    数据集5 FSWNN-SC 6-20-14-1 0.7952 0.1351 0.0017 5.0063 0.2048
    PFSWNN-SL 6-20-14-1 0.6698 0.1405 0.0080 8.3014 0.3069
    PFSWNN-Katz 6-17-14-1 0.6647 0.1371 0.0031 5.2003 0.4510
    FSWNN-TO 6-20-20-1 0.1374 0.0032 5.5165 0.1494
    FSWNN-WS 6-20-20-1 0.1378 0.0026 4.8520 0.2943
    FNN 6-20-20-1 0.1544 0.0084 5.0213 0.4910
    数据集6 FSWNN-SC 10-20-16-1 0.8663 0.4055 0.0101 2.7706 0.1334
    PFSWNN-SL 10-20-15-1 0.7298 0.4168 0.0112 6.2909 0.0112
    PFSWNN-Katz 10-15-18-1 0.7649 0.4139 0.0093 3.5227 0.4455
    FSWNN-TO 10-20-20-1 0.4124 0.0143 3.2057 0.0388
    FSWNN-WS 10-20-20-1 0.4144 0.0102 2.7778 0.0161
    FNN 10-20-20-1 0.4309 0.0134 2.7206 0.0132
    下载: 导出CSV 
    | 显示表格

    从表中可以看出, 相比于其他网络, FSWNN-SC网络在分类问题中具有更高的分类精度, 在回归问题中具有更小的测试NRMSE, 说明FSWNN-SC能够获得更好的建模精度. FSWNN-SC、PFSWNN-SL和PFSWNN-Katz模型具有网络稀疏性, 其中FSWNN-SC模型通过在网络重连过程中删除产生的孤立节点实现稀疏化, 而PFSWNN-SL和PFSWNN-Katz是在学习过程中分别通过网络正则化和合并节点实现网络稀疏化, 实验验证网络稀疏化能够获得相对于FSWNN-WS和FNN更紧凑的结构, 然而其训练时间也相应增加. 虽然FSWNN-SC的稀疏化程度要低于PFSWNN-SL和PFSWNN-Katz, 但是其训练时间相对于PFSWNN-SL和PFSWNN-Katz缩短, 更接近于FSWNN-WS和FNN的训练时间. 相比于FSWNN-TO, FSWNN-SC的训练时间明显短, 因为FSWNN-SC没有引入同层节点连接, 在权值更新时FSWNN-SC的误差反传“路径长度”比FSWNN-TO短. 同时, 通过对比FNN与其他5个具有小世界属性的网络, 验证了将小世界属性加入神经网络模型的设计中, 能够提高模型精度. 综上所述, 通过对比实验分析可见, 本文提出的FSWNN-SC网络在获得紧凑网络结构的同时, 具有更高的建模精度. 分析其原因, FSWNN-SC网络优越的建模精度依赖于其预训练环节, 该环节模仿生物神经网络的突触巩固过程, 通过网络正则化方法保留了重要的权值连接并断开了不重要的权值连接, 使该阶段网络所学到的知识得以保留, 可以有效避免灾难性遗忘问题.

    为了进一步验证本文所提出模型是否具有显著优势, 对第3.4节的实验结果进行Wilcoxon符号秩检验. 它是一种非参数检验方法, 可以评估多个事件下两个模型是否有显著性差异[46], 具体流程如下.

    步骤 1. 提出原假设$ H_0 $: 两个模型之间没有显著性差异.

    步骤 2. 对于多个事件, 通过式(32)和式(33)分别计算正负秩

    $$ \begin{equation} {R^ + } = \sum\limits_{{d_i} > 0} {rank({d_i})} + \frac{1}{2}\sum\limits_{{d_i} = 0} {rank({d_i})} \end{equation} $$ (32)
    $$ \begin{equation} {R^ - } = \sum\limits_{{d_i} < 0} {rank({d_i})} + \frac{1}{2}\sum\limits_{{d_i} = 0} {rank({d_i})} \end{equation} $$ (33)

    其中, $ {d_i} $是第i个事件下两个模型的差异, 本文通过精度性能指标的差值计算得到, $ {rank(\cdot)} $表示降序排名的名次. 基于此得到Wilcoxon统计量, 为正负秩两者中的较小值, 即

    $$ \begin{equation} T = \min ({R^ + },{R^ - }) \end{equation} $$ (34)

    步骤 3. 通过Wilcoxon统计量计算得到Z的临界值, 计算式为

    $$ \begin{equation} Z = \frac{{T - \frac{1}{4}N(N + 1)}}{{\sqrt {\frac{1}{{24}}N(N + 1)(2N + 1)} }} \end{equation} $$ (35)

    其中, N是事件数, 通过查正态分布Z值表得到对应的$ {P_{w}} $, 若$ {P_{w}>} $0.05, 则接受原假设$ H_0 $, 反之, 则拒绝原假设, 即两个模型间存在显著性差异, 且$ {P_{w}} $值越小差异越显著.

    针对第3.4节中的实验结果进行Wilcoxon符号秩检验, 其中事件数为实验独立运行的次数20, 分别对比FSWNN-SC模型与其他5种模型的性能, 检验结果如表4所示(*表示存在显著性差异). 由表4可见, 本文提出的FSWNN-SC模型在精度上显著优于其他5种模型. 此外, 本文实验中, FSWNN-SC在不同场景、不同任务(分类、回归)下表现出的显著优越性, 反映了该模型对不同应用环境的适应性及可塑性, 同时在实际应用中的准确建模反映了其具有一定的抗扰性.

    表 4  Wilcoxon符号秩检验结果
    Table 4  Results of Wilcoxon signed-rank test
    实验 模型 ${R^+}$ ${R^-}$ $Z$ ${P_{w}}$
    FSWNN-SC vs. PFSWNN-SL 206 4 −3.7706 0.0002*
    FSWNN-SC vs. PFSWNN-Katz 179 31 −2.7626 0.0058*
    数据集1 FSWNN-SC vs. FSWNN-TO 203 7 −3.6586 0.0002*
    FSWNN-SC vs. FSWNN-WS 198.5 11.5 −3.4906 0.0004*
    FSWNN-SC vs. FNN 210 0 −3.9199 0*
    FSWNN-SC vs. PFSWNN-SL 203.5 6.5 −3.6773 0.0002*
    FSWNN-SC vs. PFSWNN-Katz 177 33 −2.6880 0.0074*
    数据集2 FSWNN-SC vs. FSWNN-TO 176.5 33.5 −2.6693 0.0076*
    FSWNN-SC vs. FSWNN-WS 199.5 10.5 −3.5279 0.0004*
    FSWNN-SC vs. FNN 206.5 3.5 −3.7893 0.0004*
    FSWNN-SC vs. PFSWNN-SL 187 23 −3.0613 0.0022*
    FSWNN-SC vs. PFSWNN-Katz 207 3 −3.8079 0.0002*
    数据集3 FSWNN-SC vs. FSWNN-TO 190 20 −3.1733 0.0016*
    FSWNN-SC vs. FSWNN-WS 209 1 −3.8826 0.0002*
    FSWNN-SC vs. FNN 210 0 −3.9199 0*
    FSWNN-SC vs. PFSWNN-SL 184 26 −2.9493 0.0032*
    FSWNN-SC vs. PFSWNN-Katz 210 0 −3.9199 0.0000*
    数据集4 FSWNN-SC vs. FSWNN-TO 159 51 −2.0160 0.0434*
    FSWNN-SC vs. FSWNN-WS 208 2 −3.8453 0.0002*
    FSWNN-SC vs. FNN 210 0 −3.9199 0*
    FSWNN-SC vs. PFSWNN-SL 187 23 −3.0613 0.0022*
    FSWNN-SC vs. PFSWNN-Katz 169 41 −2.3893 0.0168*
    数据集5 FSWNN-SC vs. FSWNN-TO 177 33 −2.6880 0.0074*
    FSWNN-SC vs. FSWNN-WS 190 20 −3.1733 0.0016*
    FSWNN-SC vs. FNN 210 0 −3.9199 0*
    FSWNN-SC vs. PFSWNN-SL 171 39 −2.4640 0.0138*
    FSWNN-SC vs. PFSWNN-Katz 160 50 −2.0533 0.0434*
    数据集6 FSWNN-SC vs. FSWNN-TO 177 33 −2.6880 0.0074*
    FSWNN-SC vs. FSWNN-WS 172 38 −2.5013 0.0124*
    FSWNN-SC vs. FNN 210 0 −3.9199 0*
    下载: 导出CSV 
    | 显示表格

    针对WS构造小世界神经网络方式中随机断开规则网络中的权值连接, 可能会造成重要信息丢失, 进而导致网络精度下降的问题, 本文提出了FSWNN-SC模型. 该模型具有以下特点:

    1) FSWNN-SC模型使用正则化方法对FNN进行预训练, 断开对网络不重要的权值连接, 以减少重要信息丢失的概率, 并制定了重连规则构造小世界神经网络, 保证构造的小世界神经网络的性能;

    2) FSWNN-SC模型通过在网络重连过程中删除产生的孤立节点实现网络稀疏化, 能够获得紧凑的网络结构;

    3) 实验结果表明, 相比于PFSWNN-SL、PFSWNN-Katz、FSWNN-TO、FSWNN-WS以及FNN, FSWNN-SC在获得紧凑结构的同时, 在模型精度方面具有显著优势.

  • 图  1  前馈神经网络结构示意图

    Fig.  1  The architecture of feedforward neural network

    图  2  突触巩固

    Fig.  2  Synaptic consolidation

    图  3  基于突触巩固小世界神经网络构造流程

    Fig.  3  Construction process of small-world neural network based on synaptic consolidation

    图  4  FSWNN-SC算法流程图

    Fig.  4  The flowchart of FSWNN-SC

    图  5  网络小世界属性$\eta$与重连概率$P$的关系曲线$(P\text{-}\eta$曲线)

    Fig.  5  The curves for the relationship between the small-world property $\eta$ and the rewiring probability $P\;(P\text{-}\eta$ curves)

    图  6  预训练次数对网络性能的影响

    Fig.  6  Influence of pre-training epochs on network performance

    图  7  训练过程RMSE曲线

    Fig.  7  The RMSE curves in the training process

    图  8  测试集样本拟合与分类效果

    Fig.  8  Test set sample fitting and classification effects

    表  1  实验超参数设置

    Table  1  Setting of the hyperparameters in experiments

    数据集 网络结构 $\lambda$ $\mu$ $iter_{\mathrm{max}}$ $\mathrm{RMSE}_d$
    数据集1 8-15-15-1 $1.0\times10^{-3}$ 0.0003 6000 0.001
    数据集2 4-15-15-1 $1.0\times10^{-3}$ 0.0008 6000 0.001
    数据集3 13-20-20-1 $1.0\times10^{-6}$ 0.0008 10000 0.001
    数据集4 8-20-20-1 $1.0\times10^{-6}$ 0.0008 10000 0.001
    数据集5 6-20-20-1 $1.0\times10^{-6}$ 0.0005 10000 0.001
    数据集6 10-20-20-1 $1.0\times10^{-6}$ 0.0008 10000 0.001
    下载: 导出CSV

    表  2  分类实验结果对比

    Table  2  Comparison results in classification experiments

    分类实验 网络 网络结构 稀疏度SP 测试 Acc 训练时间 (s)
    均值 标准差 均值 标准差
    数据集1 FSWNN-SC 8-15-12-1 0.8861 0.9472 0.0034 3.9631 0.1936
    PFSWNN-SL 8-15-11-1 0.7511 0.9403 0.0026 5.6645 0.2085
    PFSWNN-Katz 8-12-10-1 0.6056 0.9396 0.0126 4.0555 0.2764
    FSWNN-TO 8-15-15-1 0.9392 0.0066 5.4922 0.0147
    FSWNN-WS 8-15-15-1 0.9374 0.0073 3.9371 0.1255
    FNN 8-15-15-1 0.9195 0.0093 3.7201 0.0609
    数据集2 FSWNN-SC 4-15-12-1 0.8950 0.9883 0.0049 2.7552 0.4252
    PFSWNN-SL 4-15-10-1 0.6608 0.9788 0.0081 4.6556 0.2525
    PFSWNN-Katz 4-10-11-1 0.5463 0.9823 0.0054 2.8007 0.1837
    FSWNN-TO 4-15-15-1 0.9840 0.0040 3.6596 0.0614
    FSWNN-WS 4-15-15-1 0.9782 0.0071 2.3605 0.0419
    FNN 4-15-15-1 0.9756 0.0132 2.3402 0.0347
    下载: 导出CSV

    表  3  回归实验结果对比

    Table  3  Comparison results in regression experiments

    回归实验 网络 网络结构 稀疏度SP 测试NRMSE 训练时间 (s)
    均值 标准差 均值 标准差
    数据集3 FSWNN-SC 13-20-13-1 0.7941 0.4331 0.0199 2.9838 0.0978
    PFSWNN-SL 13-20-14-1 0.7265 0.4546 0.0187 6.9352 0.2077
    PFSWNN-Katz 13-15-16-1 0.7563 0.4551 0.0200 4.6810 0.1358
    FSWNN-TO 13-20-20-1 0.4476 0.0193 4.3250 0.0267
    FSWNN-WS 13-20-20-1 0.4582 0.0232 2.9583 0.0609
    FNN 13-20-20-1 0.5728 0.0235 3.1481 0.1228
    数据集4 FSWNN-SC 8-20-16-1 0.8865 0.4814 0.0308 4.7431 0.1883
    PFSWNN-SL 8-20-17-1 0.7706 0.5104 0.0275 8.4518 0.3075
    PFSWNN-Katz 8-17-18-1 0.8064 0.5159 0.0234 5.6207 0.5053
    FSWNN-TO 8-20-20-1 0.4944 0.0147 5.8352 0.0231
    FSWNN-WS 8-20-20-1 0.5142 0.0222 4.6306 0.1288
    FNN 8-20-20-1 0.6691 0.0058 4.4024 0.0585
    数据集5 FSWNN-SC 6-20-14-1 0.7952 0.1351 0.0017 5.0063 0.2048
    PFSWNN-SL 6-20-14-1 0.6698 0.1405 0.0080 8.3014 0.3069
    PFSWNN-Katz 6-17-14-1 0.6647 0.1371 0.0031 5.2003 0.4510
    FSWNN-TO 6-20-20-1 0.1374 0.0032 5.5165 0.1494
    FSWNN-WS 6-20-20-1 0.1378 0.0026 4.8520 0.2943
    FNN 6-20-20-1 0.1544 0.0084 5.0213 0.4910
    数据集6 FSWNN-SC 10-20-16-1 0.8663 0.4055 0.0101 2.7706 0.1334
    PFSWNN-SL 10-20-15-1 0.7298 0.4168 0.0112 6.2909 0.0112
    PFSWNN-Katz 10-15-18-1 0.7649 0.4139 0.0093 3.5227 0.4455
    FSWNN-TO 10-20-20-1 0.4124 0.0143 3.2057 0.0388
    FSWNN-WS 10-20-20-1 0.4144 0.0102 2.7778 0.0161
    FNN 10-20-20-1 0.4309 0.0134 2.7206 0.0132
    下载: 导出CSV

    表  4  Wilcoxon符号秩检验结果

    Table  4  Results of Wilcoxon signed-rank test

    实验 模型 ${R^+}$ ${R^-}$ $Z$ ${P_{w}}$
    FSWNN-SC vs. PFSWNN-SL 206 4 −3.7706 0.0002*
    FSWNN-SC vs. PFSWNN-Katz 179 31 −2.7626 0.0058*
    数据集1 FSWNN-SC vs. FSWNN-TO 203 7 −3.6586 0.0002*
    FSWNN-SC vs. FSWNN-WS 198.5 11.5 −3.4906 0.0004*
    FSWNN-SC vs. FNN 210 0 −3.9199 0*
    FSWNN-SC vs. PFSWNN-SL 203.5 6.5 −3.6773 0.0002*
    FSWNN-SC vs. PFSWNN-Katz 177 33 −2.6880 0.0074*
    数据集2 FSWNN-SC vs. FSWNN-TO 176.5 33.5 −2.6693 0.0076*
    FSWNN-SC vs. FSWNN-WS 199.5 10.5 −3.5279 0.0004*
    FSWNN-SC vs. FNN 206.5 3.5 −3.7893 0.0004*
    FSWNN-SC vs. PFSWNN-SL 187 23 −3.0613 0.0022*
    FSWNN-SC vs. PFSWNN-Katz 207 3 −3.8079 0.0002*
    数据集3 FSWNN-SC vs. FSWNN-TO 190 20 −3.1733 0.0016*
    FSWNN-SC vs. FSWNN-WS 209 1 −3.8826 0.0002*
    FSWNN-SC vs. FNN 210 0 −3.9199 0*
    FSWNN-SC vs. PFSWNN-SL 184 26 −2.9493 0.0032*
    FSWNN-SC vs. PFSWNN-Katz 210 0 −3.9199 0.0000*
    数据集4 FSWNN-SC vs. FSWNN-TO 159 51 −2.0160 0.0434*
    FSWNN-SC vs. FSWNN-WS 208 2 −3.8453 0.0002*
    FSWNN-SC vs. FNN 210 0 −3.9199 0*
    FSWNN-SC vs. PFSWNN-SL 187 23 −3.0613 0.0022*
    FSWNN-SC vs. PFSWNN-Katz 169 41 −2.3893 0.0168*
    数据集5 FSWNN-SC vs. FSWNN-TO 177 33 −2.6880 0.0074*
    FSWNN-SC vs. FSWNN-WS 190 20 −3.1733 0.0016*
    FSWNN-SC vs. FNN 210 0 −3.9199 0*
    FSWNN-SC vs. PFSWNN-SL 171 39 −2.4640 0.0138*
    FSWNN-SC vs. PFSWNN-Katz 160 50 −2.0533 0.0434*
    数据集6 FSWNN-SC vs. FSWNN-TO 177 33 −2.6880 0.0074*
    FSWNN-SC vs. FSWNN-WS 172 38 −2.5013 0.0124*
    FSWNN-SC vs. FNN 210 0 −3.9199 0*
    下载: 导出CSV
  • [1] Tran V P, Santoso F, Garrat M A, Anavatti S G. Neural network-based self-learning of an adaptive strictly negative imaginary tracking controller for a quadrotor transporting a cable-suspended payload with minimum swing. IEEE Transactions on Industrial Electronics, 2021, 68(10): 10258-10268 doi: 10.1109/TIE.2020.3026302
    [2] Zhang G H, Li B, Wu J X, Wang R, Lan Y Z, Sun L, et.al. A low-cost and high-speed hardware implementation of spiking neural network. Neurocomputing, 2020, 382: 106-115 doi: 10.1016/j.neucom.2019.11.045
    [3] Lv H, Wen M, Lu R A, Li J. An adversarial attack based on incremental learning techniques for unmanned in 6G scenes. IEEE Transactions on Vehicular Technology, 2021, 70(6): 5254-5264 doi: 10.1109/TVT.2021.3069426
    [4] Li W J, Li M, Zhang J K, Qiao J F. Design of a self-organizing reciprocal modular neural network for nonlinear system modeling. Neurocomputing, 2020, 411: 327-339 doi: 10.1016/j.neucom.2020.06.056
    [5] 乔俊飞, 丁海旭, 李文静. 基于WTFMC算法的递归模糊神经网络结构设计. 自动化学报, 2020, 46(11): 2367-2378 doi: 10.16383/j.aas.c180847

    Qiao Jun-Fei, Ding Hai-Xu, Li Wen-Jing. Structure design for recurrent fuzzy neural network based on wavelet transform fuzzy markov chain. Acta Automatica Sinica, 2020, 46(11): 2367-2378 doi: 10.16383/j.aas.c180847
    [6] 冯永, 陈以刚, 强保华. 融合社交因素和评论文本卷积网络模型的汽车推荐研究. 自动化学报, 2019, 45(3): 518-529

    Feng Yong, Chen Yi-Gang, Qiang Bao-Hua. Social and comment text CNN model based automobile recommendation. Acta Automatica Sinica, 2019, 45(3): 518-529
    [7] Wang S, Cao J, Yu P S. Deep learning for spatio-temporal data mining: A survey. IEEE Transactions on Knowledge and Data Engineering, 2022, 34(8): 3681-3700 doi: 10.1109/TKDE.2020.3025580
    [8] 陈清江, 张雪. 基于并联卷积神经网络的图像去雾. 自动化学报, 2021, 47(7): 1739-1748

    Chen Qing-Jiang, Zhang Xue. Single image dehazing based on multiple convolutional neural networks. Acta Automatica Sinica, 2021, 47(7): 1739-1748
    [9] Jiao Y, Yao H, Xu C. SAN: Selective alignment network for cross-domain pedestrian detection. IEEE Transactions on Image Processing, 2021, 30: 2155-2167 doi: 10.1109/TIP.2021.3049948
    [10] Otter D W, Medina J R, Kalita J K. A Survey of the Use of Deep Learning for Natural Language Processing. IEEE Transactions on Neural Networks and Learning Systems, 2021, 32(2): 604-624 doi: 10.1109/TNNLS.2020.2979670
    [11] 奚雪峰, 周国栋. 面向自然语言处理的深度学习研究. 自动化学报, 2016, 42(10): 1445-1465

    Xi Xue-Feng, Zhou Guo-Dong. A survey on deep learning for natural language processing. Acta Automatica Sinica, 2016, 42(10): 1445-1465
    [12] Watts D J, Strogatz S H. Collective dynamics of small world networks. Nature, 1998, 393(4): 440-442
    [13] Bassett D S, Bullmore E. Small-world brain networks. Neuroscientist, 2006, 12(6): 512-523 doi: 10.1177/1073858406293182
    [14] Strogatz S H. Exploring complex networks. Nature, 2001, 410: 268-276 doi: 10.1038/35065725
    [15] Pessoa L. Understanding brain networks and brain organization. Physics of Life Reviews, 2014, 11(3): 400-435 doi: 10.1016/j.plrev.2014.03.005
    [16] Latora V, Marchiori M. Efficient behavior of small-world networks. Physical Review Letters, 2001, 87(19): Article No. 198701
    [17] Li H, Zhang L. A bilevel learning model and algorithm for self-organizing feed-forward neural networks for pattern classification. IEEE Transactions on Neural Networks and Learning Systems, 2021, 32(11): 4901-4915 doi: 10.1109/TNNLS.2020.3026114
    [18] Guliyev N J, Ismailov V E. On the approximation by single hidden layer feedforward neural networks with fixed weights. Neural Networks, 2017, 98: 296-304
    [19] Huang G B, Chen L, Siew C K. Universal approximation using incremental constructive feedforward networks with random hidden nodes. IEEE Transactions on Neural Networks, 2006, 17(4): 879-892 doi: 10.1109/TNN.2006.875977
    [20] Qiao J F, Li F, Yang C L, Li W J, Gu K. A self-organizing RBF neural network based on distance concentration immune algorithm. IEEE/CAA Journal of Automatica Sinica, 2022, 7(1): 276-291
    [21] Yu Q, Song S, Ma C, Wei J, Chen S, Tan K C. Temporal encoding and multispike learning framework for efficient recognition of visual patterns. IEEE Transactions on Neural Networks and Learning Systems, 2022, 33(8): 3387-3399 doi: 10.1109/TNNLS.2021.3052804
    [22] Simard D, Nadeau L, Kroger H. Fastest learning in small-world neural networks. Physics Letters A, 2004, 336(1): 8-15
    [23] Li X H, Li X L, Zhang J H, Zhang Y L, Li M L. A new multilayer feedforward small-world neural network with its performances on function approximation. In: Proceedings of the IEEE International Conference on Computer Science and Automation Engineering (CSAE). Shanghai, China: IEEE, 2011. 353−357
    [24] Li X, Xu F, Zhang J, Wang S. A multilayer feed forward small-world neural network controller and its application on electrohydraulic actuation system. Journal of Applied Mathematics, 2013, 21: 1-8
    [25] Dong Z K, Duan S K, Hu X F, Li H. A novel memristive multilayer feedforward small-world neural network with its applications in PID control. The Scientific World Journal, 2014, 14: 1-12
    [26] Wang S X, Zhao X, Wang H, Li M. Small-world neural network and its performance for wind power forecasting. CSEE Journal of Power and Energy Systems, 2020, 6(2): 362-373
    [27] Erkaymaz O, Ozer M. Impact of small-world networktopology on the conventional artificial neural network for the diagnosis of diabetes. Chaos, Solitons & Fractals, 2016, 83: 178-185
    [28] Erkaymaz O, Ozer M, Perc M. Performance of small-world feedforward neural networks for the diagnosis of diabetes. Applied Mathematics and Computation, 2017, 311: 22-28 doi: 10.1016/j.amc.2017.05.010
    [29] Zhang R C, Hu X L. Effluent quality prediction of wastewater treatment system based on small-world ANN. Journal of Computers, 2012, 7(9): 2136-2143
    [30] Li W J, Chu M H, Qiao J F. A pruning feedforward small-world neural network based on Katz centrality for nonlinear system modeling. Neural Networks, 2020, 130: 269-285 doi: 10.1016/j.neunet.2020.07.017
    [31] Newman M E J, Watts D J. Renormalization group analysis of the small-world network model. Physics Letters A, 1999, 263(4): 341-346
    [32] 李小虎, 杜海峰, 张进华, 王孙安. 多层前向小世界神经网络及其函数逼近. 控制理论与应用, 2010, 27(7): 836-842

    Li Xiao-Hu, Du Hai-Feng, Zhang Jin-Hua, Wang Sun-An. Multilayer feedforward small-world neural networks and its function approximation. Control Theory & Applications, 2010, 27(7): 836-842
    [33] 王爽心, 杨成慧. 基于层连优化的新型小世界神经网络. 控制与决策, 2014, 29(1): 77-82 doi: 10.13195/j.kzyjc.2012.1420

    Wang Shuang-Xin, Yang Cheng-Hui. Novel small-world neural network based on topology optimization. Control and Decision, 2014, 29(1): 77-82 doi: 10.13195/j.kzyjc.2012.1420
    [34] Guo D, Yang L. Research on trim of multilayer feedforward small world network based on E-exponential information entropy. In: Proceedings of the 9th International Conference on Intelligent Human-Machine Systems and Cybernetics (IHMSC). Hangzhou, China: IEEE, 2017. 155−158
    [35] Grutzendler J, Kasthuri N, Gan W B. Long-term dendritic spine stability in the adult cortex. Nature, 2002, 420: 812-816 doi: 10.1038/nature01276
    [36] Zuo Y, Lin A, Chang P, Gan W B. Development of long-term dendritic spine stability in diverse regions of cerebral cortex. Neuron, 2005, 46: 181-189 doi: 10.1016/j.neuron.2005.04.001
    [37] Demiar J, Schuurmans D. Statistical comparisons of classifiers over multiple data sets. Journal of Machine Learning Research, 2006, 7(1): 1-30
    [38] Humphries M D, Gurney K. Network “Small-world-ness”: A quantitative method for determining canonical network equivalence. Plos One, 2008, 3(4): Article No. e0002051
    [39] Ziegler L, Zenke F, Kastner D B, Gerstner W. Synaptic consolidation: From synapses to behavioral modeling. Journal of Neuroscience, 2015, 35(3): 1319-1334 doi: 10.1523/JNEUROSCI.3989-14.2015
    [40] Bliss T V P, Lømo T. Long-lasting potentiation of synaptic transmission in the dentate area of the anaesthetized rabbit following stimulation of the perforant path. The Journal of Physiology, 1973, 232(2): 331-356 doi: 10.1113/jphysiol.1973.sp010273
    [41] Dudek S M, Bear M F. Homosynaptic long-term depression in area CA1 of hippocampus and effects of N-methyl-D-aspartate receptor blockade. Proceedings of the National Academy of Sciences, 1992, 89(10): 4363-4367 doi: 10.1073/pnas.89.10.4363
    [42] Rathi N, Panda P, Roy K. STDP-based pruning of connections and weight quantization in spiking neural networks for energy-efficient recognition. IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems, 2019, 38(4) : 668-677 doi: 10.1109/TCAD.2018.2819366
    [43] Peng J, Tang B, Jiang H, Li Z, Lin T, Li H F. Overcoming long-term catastrophic forgetting through adversarial neural pruning and synaptic consolidation. IEEE Transactions on Neural Networks and Learning Systems, 2022, 33(9): 4243-4256 doi: 10.1109/TNNLS.2021.3056201
    [44] Wang J, Xu C, Yang X, Zurada J M. A novel pruning algorithm for smoothing feedforward neural networks based on group lasso method. IEEE Transactions on Neural Networks and Learning Systems, 2018, 29(5): 2012-2024 doi: 10.1109/TNNLS.2017.2748585
    [45] Bache K, Lichman M. UCI machine learning repository [Online], available: https://archive.ics.uci.edu/ml, December 20, 2021
    [46] Papantoni-Kazakos P. Small-sample efficiencies of rank tests. IEEE Transactions on Information Theory, 1975, 21(2): 150-157 doi: 10.1109/TIT.1975.1055361
  • 期刊类型引用(1)

    1. 李飞,马雪亮. 深度卷积网络环境下基于插值算法的图像融合研究. 太原师范学院学报(自然科学版). 2024(03): 32-38 . 百度学术

    其他类型引用(0)

  • 加载中
图(8) / 表(4)
计量
  • 文章访问数:  645
  • HTML全文浏览量:  99
  • PDF下载量:  150
  • 被引次数: 1
出版历程
  • 收稿日期:  2022-08-11
  • 录用日期:  2022-11-12
  • 网络出版日期:  2022-12-20
  • 刊出日期:  2023-10-24

目录

/

返回文章
返回