2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

面向入侵检测的元图神经网络构建与分析

王振东 徐振宇 李大海 王俊岭

王振东, 徐振宇, 李大海, 王俊岭. 面向入侵检测的元图神经网络构建与分析. 自动化学报, 2023, 49(7): 1530−1548 doi: 10.16383/j.aas.c200819
引用本文: 王振东, 徐振宇, 李大海, 王俊岭. 面向入侵检测的元图神经网络构建与分析. 自动化学报, 2023, 49(7): 1530−1548 doi: 10.16383/j.aas.c200819
Wang Zhen-Dong, Xu Zhen-Yu, Li Da-Hai, Wang Jun-Ling. Construction and analysis of meta graph neural network for intrusion detection. Acta Automatica Sinica, 2023, 49(7): 1530−1548 doi: 10.16383/j.aas.c200819
Citation: Wang Zhen-Dong, Xu Zhen-Yu, Li Da-Hai, Wang Jun-Ling. Construction and analysis of meta graph neural network for intrusion detection. Acta Automatica Sinica, 2023, 49(7): 1530−1548 doi: 10.16383/j.aas.c200819

面向入侵检测的元图神经网络构建与分析

doi: 10.16383/j.aas.c200819
基金项目: 国家自然科学基金(62062037, 61763017), 江西省自然科学基金(20212BAB202014, 20181BBE58018)资助
详细信息
    作者简介:

    王振东:博士, 江西理工大学信息工程学院副教授. 主要研究方向为无线传感器网络, 智慧物联网, 认知计算, 大数据与信息安全. 本文通信作者. E-mail: wangzhendong@hrbeu.edu.cn

    徐振宇:江西理工大学信息工程学院硕士研究生. 主要研究方向为信息安全. E-mail: xuzhenyu0208@163.com

    李大海:博士, 江西理工大学信息工程学院副教授. 主要研究方向为分布式系统服务质量(QoS)控制, 分布式系统自学习资源调度控制. E-mail: dlai6535@aliyun.com

    王俊岭:博士, 江西理工大学信息工程学院副教授. 主要研究方向为分布式计算, 容错, 计算机视觉. E-mail: wangjunling@jxust.edu.cn

Construction and Analysis of Meta Graph Neural Network for Intrusion Detection

Funds: Supported by National Natural Science Foundation of China (62062037, 61763017) and Natural Science Grant of Jiangxi Province (20212BAB202014, 20181BBE58018)
More Information
    Author Bio:

    WANG Zhen-Dong Ph.D., associate professor at the School of Information Engineering, Jiangxi University of Science and Technology. His research interest covers wireless sensor networks, smart internet of things, cognitive computing, big data, and information security. Corresponding author of this paper

    XU Zhen-Yu Master student at the School of Information Engineering, Jiangxi University of Science and Technology. His main research interest is information security

    LI Da-Hai Ph.D., associate professor at the School of Information Engineering, Jiangxi University of Science and Technology. His research interest covers distributed system quality of service (QoS) control, and distributed system self-learning resource scheduling control

    WANG Jun-Ling Ph.D., associate professor at the School of Information Engineering, Jiangxi University of Science and Technology. His research interest covers distributed computing, fault tolerance, and computer vision

  • 摘要: 网络入侵样本数据特征间存在未知的非欧氏空间图结构关系, 深入挖掘并利用该关系可有效提升网络入侵检测方法的检测效能. 对此, 设计一种元图神经网络(Meta graph neural network, MGNN), MGNN能够对样本数据特征内部隐藏的图结构关系进行挖掘与利用, 在应对入侵检测问题时优势明显. 首先, 设计元图网络层(Meta graph network layer, MGNL), 挖掘出样本数据特征内部隐藏的图结构关系, 并利用该关系对样本数据的原始特征进行更新; 然后, 针对MGNN存在的图信息传播过程中父代信息湮灭现象提出反信息湮灭策略, 并设计了注意力损失函数, 简化MGNN中实现注意力机制的运算过程. KDD-NSL、UNSW-NB15、CICDoS2019数据集上的实验表明, 与经典深度学习算法深度神经网络 (Deep neural network, DNN)、卷积神经网络(Convolutional neural network, CNN)、循环神经网络(Recurrent neural network, RNN)、长短期记忆(Long short-term memory, LSTM)和传统机器学习算法支持向量机(Support vector machine, SVM)、决策树(Decision tree, DT)、随机森林(Random forest, RF)、K-最近邻(K-nearest neighbor, KNN)、逻辑回归(Logistic regression, LR)相比, MGNN在准确率、F1值、精确率、召回率评价指标上均具有良好效果.
  • 网络技术高速发展的同时, 计算机病毒、网络入侵纷至沓来, 给网络安全带来极大挑战[1]. 对此, 国内外相关学者对入侵检测技术进行了深入研究, 提出了机器学习、数理统计、神经网络等[2-5]多种检测算法. 然而, 传统机器学习方法普遍强调对特征的选择和参数训练, 且运行时间成本较高; 而数据挖掘算法对噪声较为敏感, 面对噪声数据较多的数据集时易出现过拟合现象[6]; 深度学习方法擅长从海量、高维数据中提取特征信息, 降低噪声对算法性能的影响, 深度学习技术已在图像识别、图像分割、文本分析等领域得到了广泛的应用[7-9]. 通过设计合理的网络结构, 深度神经网络可有效控制神经网络的参数量, 确保网络性能的同时, 降低神经网络的运行成本[10].

    目前, 多位学者使用深度神经网络, 如卷积神经网络(Convolutional neural network, CNN)、长短期记忆网络(Long short-term memory, LSTM)、循环神经网络(Recurrent neural network, RNN)设计了一系列入侵检测算法. CNN方法将一维入侵数据转换为二维 “图像数据”, 再利用CNN对入侵数据进行处理. 该方法考虑了卷积神经网络中卷积核内各特征间的相互作用[11], 特征数据不再孤立. 如文献[12]借鉴了Google团队提出的Inception结构, 设计了一种具有多种不同尺寸卷积核的卷积神经网络; 文献[13]基于LeNet-5设计了一种具有不同尺寸卷积核的深度卷积神经网络. 上述两种基于CNN的入侵检测算法均可通过不同尺寸卷积核提取特征间的相互关系, 但存在如下缺点: 1) CNN仅能处理欧氏空间数据, 难以挖掘任意两个特征数据间的复杂图结构关系; 2)大多数经典CNN模型(如VGG[14]、GoogLeNet[15]、ResNet[16]等)结构复杂、参数量大、运行时间成本高, 将经典CNN模型引入入侵检测领域需要着重考虑运行成本. RNN与基于RNN改进的LSTM神经网络算法将各样本特征数据视为序列数据, 并按照序列顺序输入LSTM与RNN. LSTM与RNN方法同样能够挖掘特征数据间的依赖关系, 文献[17-19]均利用LSTM/RNN挖掘出网络入侵数据特征值之间的相互关系, 均在入侵检测领域取得不错效果, 由于按照入侵检测数据集中特征数据排列顺序进行输入, 因此难以准确建立样本特征数据间的联系, 且此类算法同样只能处理欧氏空间数据, 同样难以挖掘任意两个特征数据间的复杂图结构关系.

    事实上, 入侵检测数据集的各条样本均存在多个特征数据, 而不同特征数据间可能存在强弱关联, 该关联无法在欧氏空间进行精准的数学描述. 以NSL_KDD数据集为例, 该数据集样本中存在连接持续时间、协议类型、目标主机的网络服务类型、连接正常或错误的状态、数据的字节数、访问系统敏感文件和目录的次数、登录尝试失败的次数等41个特征数据. 其中, 连接持续时间与数据的字节数存在强关联关系, 而协议类型与目标主机的网络服务类型存在弱关联关系. 数据特征间的强弱关联构成非欧氏空间的图结构关系, 对该图结构的深入挖掘并将挖掘结果用于辅助神经网络的分类决策, 可有效提高神经网络的入侵检测性能. 目前, 处理非欧氏空间数据的深度学习典型方法为图神经网络(Graph neural network, GNN)[20-23], 但GNN只能处理样本间的已知图结构关系[20-23], 而对样本内部特征的图结构关系未知的场景无能为力.

    对此, 本文设计了一种能够挖掘、处理样本数据间未知关联关系的新型神经网络 — 元图神经网络(Meta graph neural network, MGNN), 并将其应用于网络入侵检测. MGNN重新定义了网络内部的运算方式, 在样本的特征数据间图结构关系未知的前提下, 建立单条样本特征数据内部的图结构关系, 并实现对该图结构关系的深入挖掘. 在挖掘过程中, 利用梯度下降算法对图结构进行优化, 并根据祖孙节点间的图信息传播(Multi-generation graph information propagate between nodes, MPS)过程对图结构关系进行处理. 针对MPS过程可能出现的信息湮灭现象, 提出一种反信息湮灭策略. 为了更加精确地刻画特征数据间的强弱关联, 设计了注意力损失函数, 并通过影响图结构邻接矩阵实现对图结构关联关系的加强或削弱.

    为了深入阐述MGNN的运行原理, 本文在第1节介绍了MGNN对特征数据未知图结构关系的处理方式, 并解释了未知图结构关系如何影响样本初代特征数据; 第2节对基于MGNN搭建的神经网络的消息前向传播过程和梯度信息反向传播过程进行了详细分析; 第3节指出了MGNN对样本特征数据的图结构关系处理中存在的不足, 并使用注意力函数机制与反信息湮灭策略进行改进; 第4节设计了多种基于MGNN搭建的神经网络, 并利用上述网络对UNSW_NB15、NSL_KDD、CICDoS2019三种入侵检测数据集进行实验测试, 验证MGNN在入侵检测领域的优越性能. 最后, 对全文进行了总结, 并对MGNN的下一步研究进行了展望.

    MGNN的处理流程如图1所示. 图1中, MGNL (Meta graph network layer)为元图网络层(详见第1.1节和第1.2节), NN (Neural network)为经典神经网络, 例如深度神经网络(Deep neural network, DNN)、CNN、RNN、LSTM, 本文采用DNN. 图1中MPS过程在元图网络层MGNL中完成, 本文在第1.2.3节中将有详细介绍. 由图1可知, 样本数据进入MGNN后样本的特征值首先被元图网络层(MGNL)随机组织为一个图结构(详见第1.1节和第1.2节), 然后利用该图结构进行MPS过程, 获得聚合了子孙节点信息的特征数据, 再将聚合了子孙节点信息后的特征数据传入下层神经网络进行更深层次的特征提取, 通过多次MGNL对特征数据内部图结构挖掘、整合, 获得考虑了特征数据之间相互关联关系的特征值, 最后利用这些特征值对网络入侵数据进行分类.

    图 1  MGNN结构与处理流程
    Fig. 1  Structure and processing flow of MGNN

    传统全连接神经网络的核心为线性层, 其运行过程为

    $${X'} = f(W \times X + B)$$ (1)

    其中, X表示输入, W表示权值, B表示偏置, $f(\cdot) $为激活函数. 由式(1)可知在线性层中, 神经网络将样本的特征数据视为相互独立, 并单独为各个特征数据分配权值.

    MGNN的核心为元图网络层(MGNL), MGNL的功能在于对样本特征数据内部隐藏的图结构关系进行挖掘与处理, 具体流程详见第1.2节. MGNL相对于其他神经网络层而言, 仅在于内部运算方式不同, 核心仍为矩阵运算, 因此MGNL能够兼容其他各种网络, 与其组成结构各异的复杂神经网络. 为了更好地展现MGNN的特点, 说明MGNN对原始神经网络性能提升的作用, 减少其他网络层对特征数据内部关系的影响, 本文采用MGNL与全连接层组合构建MGNN.

    1.2.1   MGNL初始化

    网络入侵数据样本特征数据的图结构关系未知, 为了能够考虑样本特征间的相互影响, 需先获取一个能够反映样本特征间图结构关系的表达方式, 在数据结构中通常使用邻接矩阵表示图结构关系. 据此, 首先定义一个随机初始化的矩阵$M_g $, 并将$M_g $视为特征数据内部图结构的邻接矩阵, 如式(2), 其中, $n $为入侵数据样本中特征数据的个数, $a_{1i} $为样本的1号特征项与第$i $号特征项间的联系权值, 其值越大表示两个特征项联系越紧密. 同理, $a_{ni} $表示样本的第$n $号特征项与第i号特征项间的联系权值, $M_g $中其余元素的含义依此类推.

    $${M_g} = \left[ {\begin{array}{*{20}{c}} {{a_{11}}}&{\cdots}&{{a_{1i}}}&{\cdots}&{{a_{1n}}} \\ {{a_{21}}}&{\cdots}&{{a_{2i}}}&{\cdots}&{{a_{2n}}} \\ \vdots & \vdots & \ddots & \vdots & \vdots \\ {{a_{(n - 1)1}}}&{\cdots}&{{a_{(n - 1)i}}}&{\cdots}&{{a_{(n - 1)n}}} \\ {{a_{n1}}}&{\cdots}&{{a_{ni}}}&{\cdots}&{{a_{nn}}} \end{array}} \right]$$ (2)

    随后, 定义一个大小与$M_g $相同的对称矩阵$M_f $, 在$M_f $中对角线元素均为0, 其余位置元素为1, 如式(3)所示.

    $${M_f} = \left[ {\begin{array}{*{20}{c}} 0&{\cdots}&1&{\cdots}&1 \\ 1&{\cdots}&1&{\cdots}&1 \\ \vdots & \vdots & \ddots & \vdots & \vdots \\ 1&{\cdots}&1&{\cdots}&1 \\ 1&{\cdots}&1&{\cdots}&0 \end{array}} \right]$$ (3)

    将$M_g $矩阵与$M_f $矩阵中对应位置的元素相乘, 得到消息传递矩阵$M_p $. 如式(4)所示, $M_p $中对角线元素为0, 其余位置元素与$M_g$矩阵保持一致.

    $$ \begin{split} {M_p} =\;& {M_g} \odot {M_f}=\\ &\left[ {\begin{array}{*{20}{c}} 0&{\cdots}&{{a_{1i}}}&{\cdots}&{{a_{1n}}} \\ {{a_{21}}}&{\cdots}&{{a_{2i}}}&{\cdots}&{{a_{2n}}} \\ \vdots & \vdots & \ddots & \vdots & \vdots \\ {{a_{(n - 1)1}}}&{\cdots}&{{a_{(n - 1)i}}}&{\cdots}&{{a_{(n - 1)n}}} \\ {{a_{n1}}}&{\cdots}&{{a_{ni}}}&{\cdots}&0 \end{array}} \right]\end{split}$$ (4)

    其中, $\odot $表示哈达玛积.

    1.2.2   单代父子结点间的图信息传播

    在仅考虑网络入侵样本内的特征数据与其邻居节点相互作用时, 先抽取出该入侵样本中的一个特征数据$f_i $作为根节点, 再根据特征数据内部图结构的邻接矩阵$M_g$, 按照广度优先遍历规则, 建立以$f_i $为根节点, 深度为1的搜索树, 并沿着该搜索树的边进行信息传递, 如图2所示. 图2描述了MGNL中单代父子结点间信息的传递过程. 其中, $f_i^0 $为第i号特征数据的初始特征值, $\{f_0^0,\; \cdots,\; f_{i-1}^0,\;f_{i+1}^0,\; \cdots, \; f_n^0 \}$为$f_i^0$的邻居节点, 各邻居节点中的特征数据在节点$f_i^0 $处与$f_i^0 $自身融合, 该消息传递方式称为样本特征数据内单代父子结点的图信息传播(Single-generation graph informationpropagate between nodes, SPS). 样本特征数据消息传递过程的数学描述如式(5)所示.

    $$\begin{split} f_i^1 =\;& f_i^0 + f_1^0 \times {a_{i1}} + \cdots + f_{i - 1}^0 \times {a_{i(i - 1)}} \;+\\ & f_{i + 1}^0 \times {a_{i(i + 1)}} + \cdots +f_n^0 \times {a_{in}} \\ \end{split} $$ (5)

    其中, $f_i^1 $表示在如图2所构建的关系树规则下, 入侵样本中第i个特征在考虑了其子结点消息后的值, $f_i^0 $为样本中的第i个特征原本的值, $i=1, 2, 3, \cdots , n\;(n$为入侵数据样本中特征数据的个数). 利用式(5)对各入侵样本中的特征数据进行处理, 最终将所有样本中的特征数据更新.

    图 2  MGNL中单代父子结点间信息传递结构
    Fig. 2  Information transfer process of parent-child node between single generation in MGNL

    为了将入侵样本中的所有特征数据按照式(5)定义的规则进行更新, 定义一种矩阵运算公式, 即

    $${F^1} = {F^0} \times {M_p^{\rm{T}}} + {F^0}$$ (6)

    其中, $F^0 $为数据样本的所有特征值的向量表示, $F^1 $为该样本的特征数据经过SPS融合后的值.

    1.2.3   多代祖孙结点间的图信息传播

    同样, 每次只考虑某个样本内的特征数据fi, 根据图结构邻接矩阵Mg, 对fi使用广度优先搜索遍历, 建立以fi为根节点、深度为1的搜索树. 然后, 对fi的所有子节点使用广度优先搜索遍历, 建立以各子节点为根节点、深度为1的搜索树. 重复上述过程n次, 将最终得到的所有搜索树组合成如图3所示的树结构, 并以此作为MGNL多代祖孙结点间的信息传递结构图. 为了能够顺利进行多代节点间的消息传递, 在MGNN中指定最底层消息为某数据样本的原始特征值. 图3中样本的特征数据由底层向上融合, 并影响根节点fi的值, 此过程定义为样本特征数据祖孙结点间的图信息传播(MPS).

    图 3  MGNN祖孙结点间信息传递结构
    Fig. 3  Information transfer process between grandparents and grandchildren in MGNN

    分析图3可知, MGNN中样本所有特征数据执行完MPS过程的数学描述为

    $${F^n} = {F^{n - 1}} \times {M_p^{\rm{T}}} + {F^0}$$ (7)

    式中, $F^0 $为某数据样本的所有特征数据的向量表示, $F^{n-1} $为经过$n-1 $代MPS过程后的样本数据, $F^n $为经过n代MPS过程后的样本数据. $F^{n-1}\times $${M_p^{\rm{T}}}$表示将第$n-1 $层结点信息聚合至第n层结点, 该部分并不包括第n层结点的初代信息, 故在进行第n代MPS过程时需加上其初代信息$F^0 $.

    MGNN中只有矩阵$M_g $参与网络训练过程, 需要训练的参数量为$N \times N$, 其中, N为一个样本中特征数据的数量. 在相同纬度映射条件下, 相对于传统线性层而言MGNN可以省略偏置项, 可减少N个待训练的参数, 并且能够实现数据样本内部特征数据中未知复杂图结构关系的挖掘、分析与处理.

    在只有单层MGNL的MGNN中, 为了完成分类任务, 需要将数据按照分类目标进行维度转换, 因此需在MGNL后链接全连接层, 全连接层之后接sigmoid或softmax函数, 并将全连接层输出的数值转化为概率值, 信息的前向传播过程描述为

    $${F^n} = {F^{n - 1}} \times {M_p^{\rm{T}}} + {F^0}$$ (8)
    $$a = f(W \times{F^n} + B)\quad\;\;$$ (9)

    其中, $F^0 $为输入至神经网络中的样本特征值, $F^{n-1} $为经历了$n-1 $代MPS过程后的样本特征值, $F^n $为经历了n代MPS过程后的样本特征值, W为全连接层中的权值, B为全连接层中的偏置, 神经网络输出值a与标签值y之间的损失值为L.

    依据式(8)和式(9), 利用链式求导法则可知, 针对W的信息反向传播过程为

    $$ \frac{{\partial L}}{{\partial W}} = \frac{{\partial L}}{{\partial a}}\frac{{\partial a}}{{\partial (W \times {F^n} + B)}}\frac{{\partial (W \times {F^n} + B)}}{{\partial W}} $$ (10)

    由式(8)可知, 在MGNL中信息的前向传播过程为递归嵌套过程. 利用链式法则, 对$M_p $进行梯度信息反向传播时需要同时考虑$F^{n-1} $与$M _p$. 将式(8)展开得式(11) ~ (13):

    $$ \begin{split} {F}^{n}=\;&({F}^{n-2}\times {M}_p^{{\rm{T}}}+{F}^{0})\times {M}_p^{{\rm{T}}}+{F}^{0} =\\\;& {F^{n - 2}} \times {({M_p^{\rm{T}}})^2} + {F^0} \times {({M_p^{\rm{T}}})^1} + {F^0} \end{split} $$ (11)
    $$ \begin{split} {F}^{n}=\;&(({F}^{n-3}\times {M}_p^{\rm{T}}+{F}^{0})\times {M}_p^{\rm{T}}\;+\\ &{F}^{0})\times {M}_p^{\rm{T}}+{F}^{0} = \\ \end{split} $$
    $$ \begin{split} &{F^{n - 3}} \times {({M_p^{\rm{T}}})^3} + {F^0} \times {({M_p^{\rm{T}}})^2}\;+ \\ & {F^0} \times {M_p^{\rm{T}}} + {F^0} \qquad\qquad\qquad\qquad\quad \end{split} $$ (12)

    重复使用式(8), 直到式(12)中所有的上标均变成0, 得到

    $$ {F^n} =F^0\times\sum^n_{i=0}{(M^{{\rm T}}_p)}^i $$ (13)

    对式(13)进行链式求导, 得到$M_p^{\rm{T}}$的信息反向传播过程, 即

    $$ \begin{split}\frac{\partial L}{\partial {M}_{p}}=\;&\frac{\partial L}{\partial a}\frac{\partial a}{\partial f}\frac{\partial f}{\partial (W\times {F}^{n}+B)}\times\\ &\frac{\partial (W\times {F}^{n}+B)}{\partial {F}^{n}}\left(\frac{\partial {F}^{n}}{\partial ({M}_p^{\rm{T}})^{n}}\frac{\partial {({M}_p^{\rm{T}})}^{n}}{\partial ({M}^{{\rm{T}}}_{p}{})}\;+\right.\\ &\left.\frac{\partial {F}^{n}}{\partial {({M}_p^{\rm{T}})}^{n-1}}\frac{\partial {({M}_p^{\rm{T}})}^{n-1}}{\partial ({M}_{p}^{{\rm{T}}})}+\cdots +\frac{\partial {F}^{n}}{\partial {({M}_p^{\rm{T}})}^{1}}\right)\end{split}$$ (14)

    在式(13)和式(14)中, Fn表示经过n代MPS过程后的样本特征数据, (Mp)n和(Mp)n−1为矩阵Mpn次方、$n-1 $次方.

    现有研究表明, 在一定范围内增加神经网络的层数可以提高神经网络的辨识能力. 实际使用中, 可以堆叠多层MGNL, 从而获得表达能力更强的多层MGNN. 由第1节的分析可知, MGNL并不具备数据维度变换能力, 故在多层MGNL条件下, 需要在MGNL中间添加一层或多层线性层, 以实现数据维度的改变. 因此, MGNL与线性层穿插方式的不同可演化出丰富的网络结构, 下面以MGNL与线性层交替排列的网络结构为例, 展示多层MGNN中信息的前向传播过程:

    $$F_1^n = F_1^{n - 1} \times {M_{p_1}^{\rm{T}}} + F_1^0$$ (15)
    $$F_2^0 = f({W_1} \times F_1^n + {B_1})$$ (16)
    $$F_2^n = F_2^{n - 1} \times {M_p}_2^{ {\rm{T}}} + F_2^0$$ (17)
    $$F_3^0 = f({W_2}\times F_2^n + {B_2})$$ (18)

    $\vdots\qquad\qquad$   

    $$F_j^n = F_j^{n - 1} \times {M_p}_j^{ {\rm{T}}} + F_j^0$$ (19)
    $$F_{j + 1}^0 = f({W_j} \times F_j^n + {B_j})$$ (20)

    $\vdots $

    $$F_{m - 1}^0 = f({W_{m - 2}}\times F_{m - 2}^n + {B_{m - 2}})$$ (21)
    $$ F_{m - 1}^n = F_{m - 1}^{n - 1} \times {M_p}_{m - 1}^{ {\rm{T}}}+ F_{m - 1}^0 $$ (22)
    $$ F_m^0 = f({W_{m - 1}} \times F_{m - 1}^n + {B_{m - 1}}) $$ (23)
    $$F_m^n = F_m^{n - 1} \times {M_p}_m^{ {\rm{T}}} + F_m^0$$ (24)
    $$a = f({W_m}\times F_m^n + {B_m})$$ (25)

    $F_m^0 $表示输入到第m个MGNL层中且未经过MPS过程的样本特征数据; $F_m^{n-1} $表示输入到第m个MGNL层中且经过了$n-1 $代MPS过程的样本特征数据; $F_m^n $表示输入到第m个MGNL层中且经过了n代MPS过程的样本特征数据(注: 上述表达中的“某个样本的特征数据”, 除$F_1^0 $表示为输入到神经网络中的最原始样本的特征数据外, 其余均为通过神经网络变换后的某个样本的特征数据, 而非原始特征数据); Wi为第i个线性层的权值, Bi为第i个线性层的偏置; $f(\cdot)$为激活函数. 除最后一个线性层外, 一般取ReLU、Tanh、Leaky ReLU等常规激活函数. 最后一个线性层在执行二分类任务时取${\rm{sigmoid}}(\cdot) $为激活函数, 执行多分类问题时取${\rm{softmax}}(\cdot) $为激活函数.

    对式(15) ~ (25)依据链式求导法则, 得到整个神经网络中线性层的权值W进行反向传播过程.

    为方便描述, 将第j个线性层与第j个MGNL层的组合, 称为第j层.

    依据式(25), 可知第m层内的线性层权值梯度信息的反向传播过程为

    $$\begin{split} \frac{{\partial L}}{{\partial {W_m}}} =\;& \frac{{\partial L}}{{\partial a}}\frac{{\partial a}}{{\partial f({W_m}F_m^n + {B_m})}}\;\times \\ & \frac{{\partial f({W_m}F_m^n + {B_m})}}{{\partial ({W_m}F_m^n + {B_m})}}\frac{{\partial ({W_m}F_m^n + {B_m})}}{{\partial {W_m}}} \end{split} $$ (26)

    其中, 神经网络输出值a与标签值y之间损失值为L.

    依据式(23) ~ (25), 可知线性层权值的梯度信息在由m层传递至$m-1 $层的过程为

    $$ \begin{split} \frac{\partial L}{\partial {W}_{m-1}}=\;&\frac{\partial L}{\partial a}\frac{\partial a}{\partial f({W}_{m}{F}_{m}^{n}+{B}_{m})}\;\times\\ &\frac{\partial f({W}_{m}{F}_{m}^{n}+{B}_{m})}{\partial ({W}_{m}{F}_{m}^{n}+{B}_{m})}\frac{\partial ({W}_{m}{F}_{m}^{n}+{B}_{m})}{\partial {F}_{m}^{n}}\;\times\\ &\left(\frac{\partial {F}_{m}^{n}}{\partial {F}_{m}^{n-1}}\frac{\partial {F}_{m}^{n-1}}{\partial {F}_{m}^{0}}+\frac{\partial {F}_{m}^{n}}{\partial {F}_{m}^{0}}\right)\;\times\\ &\frac{\partial {F}_{m}^{0}}{\partial f({W}_{m-1}{F}_{m-1}^{n}+{B}_{m-1})}\;\times\\ &\frac{\partial f({W}_{m-1}{F}_{m-1}^{n}+{B}_{m-1})}{\partial ({W}_{m-1}{F}_{m-1}^{n}+{B}_{m-1})}\;\times\\ &\frac{\partial ({W}_{m-1}{F}_{m-1}^{n}+{B}_{m-1})}{\partial {W}_{m-1}}\\[-15pt]\end{split}$$ (27)

    根据第1节定义的MGNL中图信息传播规则, 可以推导出$F^n_m $与$F^0_m $之间的关系为

    $$\begin{split} F_m^n =\;& F_m^0 \times {(M_{p_m}^{{\rm{T}}})^n} + F_m^0 \times {(M_{p_m}^{{\rm{T}}})^{n - 1}}+ F_m^0 \;\times\\ & {(M_{p_m}^{{\rm{T}}})^{n - 2}} + \cdots +F_m^0 \times {(M_{p_m}^{{\rm{T}}})^1} + F_m^0 \\[-10pt] \end{split} $$ (28)

    根据式(28), 有

    $$\begin{split} &\frac{{\partial F_m^n}}{{\partial F_m^{n - 1}}}\frac{{\partial F_m^{n - 1}}}{{\partial F_m^0}} = \Big[{({M_p}_m^{ {\rm{T}}})^n} + {({M_p}_m^{ {\rm{T}}})^{n - 1}} \;+ \\ &\qquad\qquad\cdots + {({M_p}_m^{ {\rm{T}}})^1} + {({M_p}_m^{ {\rm{T}}})^0}\Big]\frac{{\partial F_m^n}}{{\partial F_m^0}} \end{split} $$ (29)

    将式(29)代入式(27), 有

    $$ \begin{split} \frac{{\partial L}}{{\partial {W_{m - 1}}}} =\; &\frac{{\partial L}}{{\partial a}}\frac{{\partial a}}{{\partial f({W_m}F_m^n + {B_m})}}\; \times\\ & \frac{{\partial f({W_m}F_m^n + {B_m})}}{{\partial ({W_m}F_m^n + {B_m})}}\frac{{\partial ({W_m}F_m^n + {B_m})}}{{\partial F_m^n}}\; \times\\ &\left( {2 + \sum\limits_{i = 1}^n {{{({M_p}_m^{ {\rm{T}}})}^i}} } \right)\frac{{\partial F_m^n}}{{\partial F_m^0}}\;\times\\ & \frac{{\partial F_m^0}}{{\partial f({W_{m - 1}}F_{m - 1}^n + {B_{m - 1}})}}\;\times\\ &\frac{{\partial f({W_{m - 1}}F_{m - 1}^n + {B_{m - 1}})}}{{\partial ({W_{m - 1}}F_{m - 1}^n + {B_{m - 1}})}} \;\times\\ & \frac{{\partial ({W_{m - 1}}F_{m - 1}^n + {B_{m - 1}})}}{{\partial {W_{m - 1}}}}\\[-15pt] \end{split} $$ (30)

    式(30)阐述了线性层权值的梯度信息由最后一层传递至第$m-1 $层的传递过程.

    同理, 依据式(21), (22)和(30)可继续推导线性层权值的梯度信息由最后一层向第$m-2 $层传递的过程为

    $$ \begin{split} \frac{{\partial L}}{{\partial {W_{m - 2}}}} =\;& \frac{{\partial L}}{{\partial a}}\frac{{\partial a}}{{\partial ({W_m}F_m^n + {B_m})}}\;\times\\ &\frac{{\partial ({W_m}F_m^n + {B_m})}}{{\partial F_m^n}}\left( {2 + \sum\limits_{i = 1}^n {{{({M_p}_m^{ {{\rm{T}}}})}^i}} } \right)\;\times\\ & \frac{{\partial F_m^n}}{{\partial F_m^0}}\frac{{\partial F_m^0}}{{\partial f({W_{m - 1}}F_{m - 1}^n + {B_{m - 1}})}} \;\times\\ &\frac{{\partial f({W_{m - 1}}F_{m - 1}^n + {B_{m - 1}})}}{{\partial ({W_{m - 1}}F_{m - 1}^n + {B_{m - 1}})}} \;\times\\ &\frac{{\partial ({W_{m - 1}}F_{m - 1}^n + {B_{m - 1}})}}{{\partial F_{m - 1}^n}} \;\times\\ &\left( {2 + \sum\limits_{i = 1}^n {{{\left( {{M_p}_{m - 1}^{ {\rm{T}}}} \right)}^i}} } \right)\frac{{\partial F_{m - 1}^n}}{{\partial F_{m - 1}^0}} \;\times\\ &\frac{{\partial F_{m - 1}^0}}{{\partial f({W_{m - 2}}F_{m - 2}^n + {B_{m - 2}})}}\;\times \\ &\frac{{\partial f({W_{m - 2}}F_{m - 2}^n + {B_{m - 2}})}}{{\partial ({W_{m - 2}}F_{m - 2}^n + {B_{m - 2}})}} \;\times\\ &\frac{{\partial ({W_{m - 2}}F_{m - 2}^n + {B_{m - 2}})}}{{\partial {W_{m - 2}}}}\\[-20pt] \end{split} $$ (31)

    线性层权值的梯度信息由最后一层传递至第$m-3 $层的传递过程为

    $$\begin{split} \frac{{\partial L}}{{\partial {W_{m - 3}}}} =\;& \frac{{\partial L}}{{\partial a}}\frac{{\partial a}}{{\partial ({W_m}F_m^n + {B_m})}}\frac{{\partial ({W_m}F_m^n + {B_m})}}{{\partial F_m^n}}\; \times\\ & \left( {2 + \sum\limits_{i = 1}^n {{{({M_p}_m^{ {\rm{T}}})}^i}} } \right) \frac{{\partial F_m^n}}{{\partial F_m^0}}\;\times\\ & \frac{{\partial F_m^0}}{{\partial f({W_{m - 1}}F_{m - 1}^n + {B_{m - 1}})}}\;\times\\ &\frac{{\partial f({W_{m - 1}}F_{m - 1}^n + {B_{m - 1}})}}{{\partial ({W_{m - 1}}F_{m - 1}^n + {B_{m - 1}})}} \;\times\\ &\frac{{\partial ({W_{m - 1}}F_{m - 1}^n + {B_{m - 1}})}}{{\partial F_{m - 1}^n}}\;\times\\ &\left( { 2 + \sum\limits_{i = 1}^n {{{({M_p}_{m - 1}^{ {\rm{T}}})}^i}} } \right)\frac{{\partial F_{m - 1}^n}}{{\partial F_{m - 1}^0}}\; \times\\ & \frac{{\partial F_{m - 1}^0}}{{\partial f({W_{m - 2}}F_{m - 2}^n + {B_{m - 2}})}}\;\times\\ &\frac{{\partial f({W_{m - 2}}F_{m - 2}^n + {B_{m - 2}})}}{{\partial ({W_{m - 2}}F_{m - 2}^n + {B_{m - 2}})}} \; \times\\ & \frac{{\partial ({W_{m - 2}}F_{m - 2}^n + {B_{m - 2}})}}{{\partial F_{m - 2}^n}}\;\times\\ &\left( {2 + \sum\limits_{i = 1}^n {{{({M_p}_{m - 2}^{ {\rm{T}}})}^i}} } \right)\frac{{\partial F_{m - 2}^n}}{{\partial F_{m - 2}^0}}\;\times\\ & \frac{{\partial F_{m - 2}^0}}{{\partial f({W_{m - 3}}F_{m - 3}^n + {B_{m - 3}})}}\;\times\\ &\frac{{\partial f({W_{m - 3}}F_{m - 3}^n + {B_{m - 3}})}}{{\partial ({W_{m - 3}}F_{m - 3}^n + {B_{m - 3}})}}\;\times\\ & \frac{{\partial ({W_{m - 3}}F_{m - 3}^n + {B_{m - 3}})}}{{\partial {W_{m - 3}}}} \\[-10pt] \end{split} $$ (32)

    线性层梯度信息由最后一层传递至第j层的传递过程为

    $$ \begin{split} \frac{\partial L}{\partial {W}_{j}}=\;&\frac{\partial L}{\partial a}\frac{\partial a}{\partial ({W}_{m}{F}_{m}^{n}+{B}_{m})}\frac{\partial ({W}_{m}{F}_{m}^{n}+{B}_{m})}{\partial {F}_{m}^{n}}\;\times\\[1.5pt] &\left(2+{\displaystyle \sum\limits _{i=1}^{n}{({M}_{p}{}_{m}^{ {\rm{T}}})}^{i}}\right)\frac{\partial {F}_{m}^{n}}{\partial {F}_{m}^{0}}\;\times\\[1.5pt] &\prod _{k=j+1}^{m-1}\Bigg(\frac{\partial {F}_{k+1}^{0}}{\partial f({W}_{k}{F}_{k}^{n}+{B}_{k})}\frac{\partial f({W}_{k}{F}_{k}^{n}+{B}_{k})}{\partial ({W}_{k}{F}_{k}^{n}+{B}_{k})}\;\times\\[1.5pt] &\frac{\partial ({W}_{k}{F}_{k}^{n}+{B}_{k})}{\partial {F}_{k}^{n}}{\left(2+{\displaystyle \sum\limits _{i=1}^{n}{M}_{p}{}_{k}^{ {\rm{T}}}}\right)}^{i}\frac{\partial {F}_{k}^{n}}{\partial {F}_{k}^{0}}\Bigg)\;\times\\[1.5pt] &\frac{\partial {F}_{j+1}^{0}}{\partial f({W}_{j}{F}_{j}^{n}+{B}_{j})}\frac{\partial f({W}_{j}{F}_{j}^{n}+{B}_{j})}{\partial ({W}_{j}{F}_{j}^{n}+{B}_{j})}\;\times\\[1.5pt] &\frac{\partial ({W}_{j}{F}_{j}^{n}+{B}_{j})}{\partial {W}_{j}}\\[-15pt]\end{split}$$ (33)

    线性层中偏置B的梯度信息反向传播过程与线性层权值W的反向传播过程原理一致, 此处不再赘述. 在此给出线性层偏置B的梯度信息由最后一层传递至任意j层的传递过程, 即

    $$\begin{split} & \frac{{\partial L}}{{\partial {B_j}}} = \frac{{\partial L}}{{\partial a}}\frac{{\partial a}}{{\partial ({W_m}F_m^n + {B_m})}}\; \times\\ &\;\;\;\;\frac{{\partial ({W_m}F_m^n + {B_m})}}{{\partial F_m^n}}\left( {2 + \sum\limits_{i = 1}^n {{{({M_p}_m^{ {\rm{T}}})}^i}} } \right)\frac{{\partial F_m^n}}{{\partial F_m^0}} \;\times\\ &\;\;\;\;\prod_{k = j + 1}^{ m - 1}\left(\frac{{\partial F_{k + 1}^0}}{{\partial f({W_k}F_k^n + {B_k})}}\frac{{\partial f({W_k}F_k^n + {B_k})}}{{\partial ({W_k}F_k^n + {B_k})}}\; \right.\times\\ &\;\;\;\;\left.\frac{{\partial ({W_k}F_k^n + {B_k})}}{{\partial F_k^n}}\left( {2 + \sum\limits_{i = 1}^n {{{({M_p}_k^{ {\rm{T}}})}^i}} } \right)\frac{{\partial F_k^n}}{{\partial F_k^0}}\right) \;\times\\ &\;\; \;\;\frac{{\partial F_{j + 1}^0}}{{\partial f({W_j}F_j^n + {B_j})}}\frac{{\partial f({W_j}F_j^n + {B_j})}}{{\partial ({W_j}F_j^n + {B_j})}}\frac{{\partial ({W_j}F_j^n + {B_j})}}{{\partial {B_j}}} \end{split} $$ (34)

    下面对多层MGNN中Mp的梯度信息反向传播过程进行分析.

    依据式(24)和式(25), 可知Mp梯度信息由损失函数传递至第m层的传递过程为

    $$\begin{split} \frac{{\partial L}}{{\partial {M_p}_m^{ {\rm{T}}}}} =\; & \frac{{\partial L}}{{\partial a}}\frac{{\partial a}}{{\partial f({W_m}F_m^n + {B_m})}}\; \times\\ & \frac{{\partial f({W_m}F_m^n + {B_m})}}{{\partial ({W_m}F_m^n + {B_m})}}\frac{{\partial ({W_m}F_m^n + {B_m})}}{{\partial F_m^n}} \frac{{\partial F_m^n}}{{\partial {M_p}_m^{ {\rm{T}}}}} \end{split} $$ (35)

    依据式(22) ~ (24)和式(35)可知, Mp梯度信息在由m层传递到$m-1 $层的过程为

    $$ \begin{split} \frac{{\partial L}}{{\partial {M_p}_{m - 1}^{ {\rm{T}}}}} = \;& \frac{{\partial L}}{{\partial a}}\frac{{\partial a}}{{\partial f({W_m}F_m^n + {B_m})}} \;\times\\ &\frac{{\partial f({W_m}F_m^n + {B_m})}}{{\partial ({W_m}F_m^n + {B_m})}}\frac{{\partial ({W_m}F_m^n + {B_m})}}{{\partial F_m^n}}\; \times\\ &\left( {2 + \sum\limits_{i = 1}^n {{{({M_p}_m^{ {\rm{T}}})}^i}} } \right)\frac{{\partial F_m^n}}{{\partial F_m^0}} \;\times\\ &\frac{{\partial F_m^0}}{{\partial f({W_{m - 1}}F_{m - 1}^n + {B_{m - 1}})}}\;\times\\ &\frac{{\partial f({W_{m - 1}}F_{m - 1}^n + {B_{m - 1}})}}{{\partial ({W_{m - 1}}F_{m - 1}^n + {B_{m - 1}})}} \;\times\\ &\frac{{\partial ({W_{m - 1}}F_{m - 1}^n + {B_{m - 1}})}}{{\partial F_{m - 1}^n}}\frac{{\partial F_{m - 1}^n}}{{\partial {M_p}_{m - 1}^{ {\rm{T}}}}} \\[-20pt] \end{split} $$ (36)

    同理, 可以得到Mp梯度信息由最后一层传递到任意j层的传递过程为

    $$\begin{split} \frac{{\partial L}}{{\partial {M_p}_j^{ {\rm{T}}}}} = & \frac{{\partial L}}{{\partial a}}\frac{{\partial a}}{{\partial ({W_m}F_m^n + {B_m})}}\; \times \end{split} \qquad\qquad\quad $$
    $$\begin{split} &\qquad\frac{{\partial ({W_m}F_m^n + {B_m})}}{{\partial F_m^n}}\left( {2 + \sum\limits_{i = 1}^n {{{({M_p}_m^{ {\rm{T}}})}^i}} } \right)\frac{{\partial F_m^n}}{{\partial F_m^0}}\; \times \\&\qquad \prod _{k = j + 1}^{ m - 1}\Bigg(\frac{{\partial F_{k + 1}^0}}{{\partial f({W_k}F_k^n + {B_k})}}\frac{{\partial f({W_k}F_k^n + {B_k})}}{{\partial ({W_k}F_k^n + {B_k})}}\Bigg. \;\times\\ &\qquad\left. \frac{{\partial ({W_k}F_k^n + {B_k})}}{{\partial F_k^n}}\left( {2 + \sum\limits_{i = 1}^n {{{({M_p}_k^{ {\rm{T}}})}^i}} } \right)\frac{{\partial F_k^n}}{{\partial F_k^0}}\right) \;\times\\ &\qquad\frac{{\partial F_{j + 1}^0}}{{\partial f({W_j}F_j^n + {B_j})}}\frac{{\partial f({W_j}F_j^n + {B_j})}}{{\partial ({W_j}F_j^n + {B_j})}}\; \times\\ &\qquad\frac{{\partial ({W_j}F_j^n + {B_j})}}{{\partial F_j^n}}\frac{{\partial F_j^n}}{{\partial {M_p}_j^{ {\rm{T}}}}} \\[-15pt] \end{split} $$ (37)

    通过第1节的分析可知, MGNL能够在未知样本特征数据图结构关系的前提下, 对样本特征数据背后隐藏的图结构关系进行处理, 并依据样本特征数据背后隐藏的图结构关系实现任意多代图节点间的消息传递. 对于任意样本特征数据, 基于其内部隐含的图结构关系可以得到信息传播过程, 由式(7)可知该过程的数学描述可表示为式(38), 该式分为两个部分: $F_k^{n - 1} $$\times $$M_p^{\rm{T }}$为孙子节点传递至根节点的信息, $F_k^{0} $为第i条样本初代特征数据.

    $$F_k^n = F_k^{n - 1} \times {M_p}^{ {\rm{T}}} + F_k^0$$ (38)

    将式(38)展开, 得

    $$F_k^n = F_k^0 \times \sum\limits_{i = 1}^n {{{\left( {{M_p}^{ {\rm{T}}}} \right)}^i}} + F_k^0$$ (39)

    其中, $F_k^{0} $$\sum\nolimits_{i = 1}^n ( {M_p^{{\rm{T}}}} )^i$表示经过n代MPS过程后, 子孙节点传递到根节点的信息, $F_k^0 $为第k条样本初代特征信息, 即根节点的信息.

    在MGNL执行过程中, 由于Mp矩阵中元素被随机初始化且参与神经网络训练过程, 因此在神经网络训练完成之前无法得知其中元素值的大小. 为了分析MGNL运行过程中MPS过程对根节点原始特征信息产生的影响, 取以下两种特殊情况进行讨论:

    情形1. $M_p $矩阵中所有数据均为0时, 表示样本中的特征数据之间不存在任何关系, 即相互独立, 此时, 式(39)退化为

    $$F_k^n = F_k^0$$ (40)

    情形2. 当$M_p $矩阵中除对角线以外的所有数据均为1时, 表示样本中的任意两个特征数据之间都存在关系, 即样本的特征数据依据其图结构关系, 组成一个强连通图, 此时有

    $$ {\left({M}_p^{{\rm{T}}}\right)}^{1}={\left[\begin{array}{ccccc}0& \cdots & 1& \cdots & 1\\ 1& \cdots & 1& \cdots & 1\\ \vdots & \vdots & \ddots & \vdots & \vdots \\ 1& \cdots & 1& \cdots & 1\\ 1& \cdots & 1& \cdots & 0\end{array}\right]}_{({{n}}\times n)}^{{\rm{T}}}$$ (41)
    $$ {\left({M}_p^{{\rm{T}}}\right)}^{2}={\left[\begin{array}{ccccc}2& \cdots & 1& \cdots & 1\\ 1& \cdots & 1& \cdots & 1\\ \vdots & \vdots & \ddots & \vdots & \vdots \\ 1& \cdots & 1& \cdots & 1\\ 1& \cdots & 1& \cdots & 2\end{array}\right]}_{({{n}}\times n)}^{{\rm{T}}}$$ (42)
    $$ \begin{aligned} {\left({M}_p^{{\rm{T}}}\right)}^{3}=\;&{\left[\begin{array}{ccccc}2& \cdots & 3& \cdots & 3\\ 3& \cdots & 3& \cdots & 3\\ \vdots & \vdots & \ddots & \vdots & \vdots \\ 3& \cdots & 3& \cdots & 3\\ 3& \cdots & 3& \cdots & 2\end{array}\right]}_{({{n}}\times n)}^{{\rm{T}}}\\ &\qquad\;\;\;\;\qquad\vdots \end{aligned} $$ (43)

    式(44)和式(45)见下页上方.

    $F_k^0 $为第k条样本中的特征数据, 具体可表示为

    $$F_k^0 = \left[ {\begin{array}{*{20}{c}} {f_{1k}^0}&{f_{2k}^0}& \cdots &{f_{jk}^0}& \cdots &{f_{nk}^0} \end{array}} \right]$$ (46)

    其中, $F_{jk}^0 $表示第k条样本的第j个特征值.

    依据式(40), (45)和(46), 求解$F_{k}^{0} \sum\nolimits _{i=1}^{n} (M_p^{\rm{T}}) ^{{i}}$, 可得

    $$F_i^{n - 1} \times {M_p^{\rm{T}}} = [{a_{11}},{a_{12}}, \cdots ,{a_{1j}}, \cdots ,{a_{1n}}]\qquad\;$$ (47)
    $$ \begin{split} \;\, {a}_{11}=&\,{f}_{1k}^{0}\frac{2}{3}{\displaystyle \sum _{i=1}^{n}\left[{2}^{i-1}-{\left(-1\right)}^{i-1}\right]+}({f}_{2k}^{0}+{f}_{3k}^{0}+\cdots +\\ &{f}_{nk}^{0}){\displaystyle \sum _{i=1}^{n}\left\{\frac{2}{3}\left[{2}^{i-1}-{\left(-1\right)}^{i-1}\right]+{\left(-1\right)}^{i-1}\right\}}\end{split}$$ (48)
    $$ \begin{split} &{a}_{12}={f}_{2k}^{0}\frac{2}{3}{\displaystyle \sum _{i=1}^{n}\left[{2}^{i-1} -{\left(-1\right)}^{i-1}\right]} + ({f}_{1k}^{0}+{f}_{3k}^{0}+\cdots +\\ &\qquad\;\;{f}_{nk}^{0}){\displaystyle \sum _{i=1}^{n}\left\{\frac{2}{3}\left[{2}^{i-1}-{\left(-1\right)}^{i-1}\right]+{\left(-1\right)}^{i-1}\right\}}\end{split}$$ (49)
    $$ \begin{split} {a}_{1j}=\;&{f}_{jk}^{0}\frac{2}{3}{\displaystyle \sum _{i=1}^{n}\left[{2}^{i-1}-{\left(-1\right)}^{i-1}\right]}+\Big({f}_{1k}^{0}+\cdots +\\ &{f}_{(j-1)k}^{0}+{f}_{(j+1)k}^{0}\cdots +{f}_{nk}^{0}\Big)\times\quad \\ &{\displaystyle \sum _{i=1}^{n}\left\{\frac{2}{3}\left[{2}^{i-1}-{\left(-1\right)}^{i-1}\right]+{\left(-1\right)}^{i-1}\right\}}\\[-15pt]\end{split}$$ (50)
    $$\begin{split} &{\left({M}_p^{{\rm{T}}}\right)}^{i}=\\ &{\left[ \begin{array}{ccccc}\frac{2}{3}\left[{2}^{i-1}-{\left(-1\right)}^{i-1}\right]& \cdots & \frac{2}{3}\left[{2}^{i-1}-{\left(-1\right)}^{i-1}\right]+{\left(-1\right)}^{i-1}& \cdots & \frac{2}{3}\left[{2}^{i-1}-{\left(-1\right)}^{i-1}\right]+{\left(-1\right)}^{i-1}\\ \frac{2}{3}\left[{2}^{i-1}-{\left(-1\right)}^{i-1}\right]+{\left(-1\right)}^{i-1}& \cdots & \frac{2}{3}\left[{2}^{i-1}-{\left(-1\right)}^{i-1}\right]+{\left(-1\right)}^{i-1}& \cdots & \frac{2}{3}\left[{2}^{i-1}-{\left(-1\right)}^{i-1}\right]+{\left(-1\right)}^{i-1}\\ \vdots & \vdots & \ddots & \vdots & \vdots \\ \frac{2}{3}\left[{2}^{i-1}-{\left(-1\right)}^{i-1}\right]+{\left(-1\right)}^{i-1}& \cdots & \frac{2}{3}\left[{2}^{i-1}-{\left(-1\right)}^{i-1}\right]+{\left(-1\right)}^{i-1}& \cdots & \frac{2}{3}\left[{2}^{i-1}-{\left(-1\right)}^{i-1}\right]+{\left(-1\right)}^{i-1}\\ \frac{2}{3}\left[{2}^{i-1}-{\left(-1\right)}^{i-1}\right]+{\left(-1\right)}^{i-1}& \cdots & \frac{2}{3}\left[{2}^{i-1}-{\left(-1\right)}^{i-1}\right]+{\left(-1\right)}^{i-1}& \cdots & \frac{2}{3}\left[{2}^{i-1}-{\left(-1\right)}^{i-1}\right]\end{array} \right] }_{(n\times n)}^{{\rm{T}}}\end{split}\tag{44}$$ (44)

    其中, $i \geq 1$.

    $$\begin{split} &{\sum\limits_{i=1}^{n}{\left({M}_p^{\rm{T}}\right)}^{i}}=\left[\begin{array}{ccccc}\frac{2}{3}{\sum\limits _{i=1}^{n}\left[{2}^{i-1}-{\left(-1\right)}^{i-1}\right]}& \cdots \\ {\sum\limits _{i=1}^{n}\left\{\frac{2}{3}\left[{2}^{i-1}-{\left(-1\right)}^{i-1}\right]+{\left(-1\right)}^{i-1}\right\}}& \cdots \\ \vdots & \vdots \\ {\sum\limits _{i=1}^{n}\left\{\frac{2}{3}\left[{2}^{i-1}-{\left(-1\right)}^{i-1}\right]+{\left(-1\right)}^{i-1}\right\}}& \cdots \\ {\sum\limits _{i=1}^{n}\left\{\frac{2}{3}\left[{2}^{i-1}-{\left(-1\right)}^{i-1}\right]+{\left(-1\right)}^{i-1}\right\}}& \cdots \end{array}\right. \\ &\qquad\qquad\qquad\qquad{\left.\begin{array} {ccccc} {\sum\limits _{i=1}^{n}\left\{\frac{2}{3}\left[{2}^{i-1}-{\left(-1\right)}^{i-1}\right]+{\left(-1\right)}^{i-1}\right\}}& \cdots & {\sum\limits _{i=1}^{n}\left\{\frac{2}{3}\left[{2}^{i-1}-{\left(-1\right)}^{i-1}\right]+{\left(-1\right)}^{i-1}\right\}}\\ {\sum\limits _{i=1}^{n}\left\{\frac{2}{3}\left[{2}^{i-1}-{\left(-1\right)}^{i-1}\right]+{\left(-1\right)}^{i-1}\right\}}& \cdots & {\sum\limits _{i=1}^{n}\left\{\frac{2}{3}\left[{2}^{i-1}-{\left(-1\right)}^{i-1}\right]+{\left(-1\right)}^{i-1}\right\}}\\ \ddots & \vdots & \vdots \\ {\sum\limits _{i=1}^{n}\left\{\frac{2}{3}\left[{2}^{i-1}-{\left(-1\right)}^{i-1}\right]+{\left(-1\right)}^{i-1}\right\}}& \cdots & {\sum\limits _{i=1}^{n}\left\{\frac{2}{3}\left[{2}^{i-1}-{\left(-1\right)}^{i-1}\right]+{\left(-1\right)}^{i-1}\right\}}\\ {\sum\limits _{i=1}^{n}\left\{\frac{2}{3}\left[{2}^{i-1}-{\left(-1\right)}^{i-1}\right]+{\left(-1\right)}^{i-1}\right\}}& \cdots & \frac{2}{3}{\sum\limits _{i=1}^{n}\left[{2}^{i-1}-{\left(-1\right)}^{i-1}\right]}\end{array}\right]}_{(n\times n)}^{\rm{T}} \end{split}\tag{45}$$ (45)
    $$ \begin{split} {a}_{1N}=\;&{f}_{Nk}^{0}\frac{2}{3}{\displaystyle \sum _{i=1}^{n}\left[{2}^{i-1}-{\left(-1\right)}^{i-1}\right]}+\Big({f}_{1k}^{0}+\cdots +\\ &{f}_{jk}^{0} \cdots +{f}_{(N-1)k}^{0}\Big)\times\\ &{\displaystyle \sum _{i=1}^{n}\left\{\frac{2}{3}\left[{2}^{i-1}-{\left(-1\right)}^{i-1}\right]+{\left(-1\right)}^{i-1}\right\}}\\[-15pt]\end{split}$$ (51)

    其中, ${{n}}\ge 1$.

    由前述分析可知, 式(39)中$F_{k}^{0} \sum\nolimits _{n}^{i=1} (M_p^{\rm{T}}) ^{{i}}$表示经过n代MPS过程后子孙节点传递到根节点的信息, $F_{k}^{0} $条样本的初代特征信息, 即根节点的信息.

    分析式(46) ~ (51)可知, 随着消息传播代数的增多, 子孙节点传递到根节点的信息量将远超根节点自身的信息量, 即初代节点自身信息将堙灭于海量的子孙节点信息. 而通过情形1和情形2的分析, 可知MGNL运行过程中的确存在根节点信息堙灭的可能.

    为了避免根节点的初代信息$F_i^0 $在信息传播过程中被堙灭, 设计反信息堙灭因子$\alpha $, $\alpha\ge0 $, $\alpha $的使用如式(52)所示.

    $$F_i^n = F_i^{n - 1} \times {M_p^{\rm{T}}} + \alpha \times F_i^0$$ (52)

    由式(52)可知, 反信息堙灭因子可将初代节点信息值成倍数的扩大, 防止初代信息被堙灭. 实际应用中$\alpha $的取值随着信息传播代数n的增加而增加.

    图消息传播过程中需要关注作用较大的节点信息, 忽视作用较小的节点信息. 基于此种考虑, 研究人员于2017年提出图注意力网络(Graph attention network, GAT)[24-26], 其基本原理是各节点更新隐藏层输出时, 通过对其相邻节点进行注意力计算, 为每个相邻节点分配不同的权重, 权重高的节点视为神经网络注意力集中点. 为了获得每个节点的权重, 首先需要根据输入的特征值进行至少一次的线性变换得到输出的特征值, 因此, 需要对所有节点训练一个权值矩阵$W_a $, 其中$W_a$为n×n的方阵. 实践过程中, 为了加强注意力机制的处理能力, 会在线性变换之后附加一个非线性激活变换, 如使用ReLU激活函数进行非线性激活变换, 最后将变换后的数据通过softmax激活函数获得为每个相邻节点所分配的不同权重.

    分析GAT中的注意力机制可以发现, 整个过程需要经历线性变换以及softmax函数的激活, 待训练参数量多, 计算过程复杂. 为了降低注意力机制的实现成本, 本文在损失函数中加入对MpL2正则化, 组成注意力损失函数AL, AL描述为

    $$AL = L(a,y) + 0.5{\lambda } {\left\| {{M_p}} \right\|^2}$$ (53)

    AL由两部分构成, $L(a,y) $为网络最终预测值$a$与目标值y之间的损失值, $L(\cdot)$为损失函数, 一般为均方差损失函数或者交叉熵损失函数等; $0.5\lambda \lVert M_p \rVert ^2$为注意力限制条件, 实际性质类似于L2正则化, 其中, $\lambda $为注意力限制系数, $0<\lambda<1 $.

    由第1节分析可知, Mp是将Mg对角线元素全部设置为0后得到, Mp中除对角线元素外, 里面每一个值代表了边的权值, 样本特征数据依据Mp进行MPS过程. 通过式(5)可知, 在图消息传递过程中, 边的权值决定了子节点向父节点传递消息的多寡, 故在MGNL中可以通过约束边的权值实现与GAT相同的注意力机制.

    在神经网络训练过程中, 利用梯度下降法不断减小AL值, 为了突出阐述AL在网络训练过程中如何产生注意力效果, 主要进行针对Mp梯度下降的过程分析.

    依据链式求导法则与第2节中信息反向传播分析可知, 由AL决定的针对Mp的反向传播梯度为

    $$\frac{{\partial AL}}{{\partial {M_p}}} = \frac{{\partial L}}{{\partial {M_p}}} + \frac{\lambda }{2}{\frac{{\partial \left\| {{M_p}} \right\|}}{{\partial {M_p}}}^2} = \frac{{\partial L}}{{\partial {M_p}}} + \lambda {M_p}$$ (54)

    Mp进行梯度下降更新

    $$ \begin{split} {M}_{p}'=\;&{M}_{p}-\beta \frac{\partial L}{\partial {M}_{p}}-\beta \lambda {M}_{p} =\\&(1-\beta \lambda ){M}_{p}-\beta \frac{\partial L}{\partial {M}_{p}}\end{split}$$ (55)

    $M_{p} '$ 为 $M_p $ 经过一次梯度下降更新后的值, $\beta $为学习率, $0 < \beta < 1,\; 0 < 1-\beta \; \lambda < 1$, 因此, $(1- \beta \; \lambda )M_p$会导致$M_p $值减小. 式(55)中后半部分为预测值与目标值之间的损失值对Mp求梯度, 目的在于使$M_p $向着降低预测值与目标值之间差距的梯度方向进行更新.

    在MGNN的损失函数中添加对MpL2正则化, 结合梯度下降法可以使Mp对自身元素进行筛选, 即将连接关系不紧密的特征值之间边的权值进行削弱, 保留连接紧密的边的权值, 并对其加强. 由式(5)可知, 边上权值的大小决定了子节点向父节点传递信息的多少, 权值越大, 则子节点向父节点传播的信息越多, 即父节点对子节点的关注度越高; 边上权值越小, 则表示子节点向父节点传播的信息量越少, 即父节点对子节点的关注度减弱, 由此实现MGNN的注意力机制.

    AL通过改变损失函数的结构实现原本需要通过复杂线性变换与激活变换才能实现的注意力机制, 在实现注意力机制的同时, 降低网络的复杂程度, 同时减少了神经网络中待训练的参数量.

    为了更加直观清晰地对MGNN进行整体性的描述, 基于上述各部分的分析, 给出MGNN运行流程图, 如图4所示.

    图 4  MGNN运行流程图
    Fig. 4  Operation flow chart of MGNN

    本节设计了3组对比实验, 实验中所使用的数据集为UNSW_NB15、NSL_KDD和CICDoS2019数据集.

    各组实验的目的分别为: 第1组验证MGNN的有效性以及探索MPS过程中子孙消息传播代数对神经网络性能的影响; 第2组验证反信息堙灭因子$\alpha$的重要性; 第3组实验验证注意力损失函数的重要性.

    在第1组和第2组实验中, MGNN所使用的损失函数为AL, 其余神经网络所使用的损失函数均为交叉熵损失函数.

    由于图神经网络(GNN)只能处理样本间的已知图结构关系, 而入侵检测数据集中样本间的图结构关系均未知, 因此无法应用于网络入侵检测领域, 目前也未发现有将GNN用于入侵检测的文献, 因此未将MGNN与GNN进行性能对比.

    实验中使用的深度学习框架为Tensorflow 2.1.0 (CPU版), 机器学习库为scikit-learn 0.23.2, 操作系统为Windows10, 编程语言为Python 3.7.4.

    在本部分中, 主要对比了深度MGNN与经典深度学习算法(DNN/CNN/RNN/LSTM)、经典机器学习算法(DT (Decision tree)/SVM (Support vector machine)/KNN (K-nearest neighbor)/RF (Random forest)/LR (Logistic regression))在入侵检测数据集上的性能表现, 以此验证MGNN的有效性, 同时探索MGNL中子孙节点消息传播代数对神经网络性能的影响. 其中, 基于MGNN的神经网络又依据其子孙消息传播代数不同划分为: MGNN1、MGNN3、MGNN5、MGNN7、MGNN9. 本节中各神经网络的搭建均为序列化结构, 深度MGNN由MGNNSB按顺序串联堆叠而成, MGNNSB的结构如图5所示.

    图 5  MGNNSB描述
    Fig. 5  Description of MGNNSB structure

    在MGNNSB中, MGNL层的Nn为样本特征值的图结构中节点的个数, 在第1层MGNNSB中为输入样本的特征数据的维度, 其后各层MGNNSB中, MGNL层的Nn由上一个MGNNSB输出数据的维度决定; Pn为子孙节点消息传播的代数, 在MGNN1中Pn为1, MGNN2中为2, 以此类推. $\alpha $为反信息堙灭因子, 在本组实验中, $\alpha $均设置为1, 即不考虑反信息堙灭措施. 实验中MGNN具体参数设置详见表1所示.

    表 1  MGNN1 ~ MGNN9网络各参数设置
    Table 1  Various parameter settings in the MGNN1 ~ MGNN9 networks
    网络类别MGNNSBNnPnUnits$\alpha $Activation参数量
    MGNN11421641tanh287509
    26411281tanh
    312812681tanh
    426812681tanh
    MGNN31423641tanh287509
    26431281tanh
    312832681tanh
    426832681tanh
    MGNN51425641tanh287509
    26451281tanh
    312852681tanh
    426852681tanh
    MGNN71427641tanh287509
    26471281tanh
    312872681tanh
    426872681tanh
    MGNN91429641tanh287509
    26491281tanh
    312892681tanh
    426892681tanh
    下载: 导出CSV 
    | 显示表格

    表1中, MGNNSB表示组成MGNN中MGNNSB的编号, Nn表示MGNNSB中MGNL层设置的图结构中节点个数, Pn表示MGNNSB中MGNL层内子孙节点消息传播的代数, Units表示MGNNSB中线性层所设置的神经元个数.

    图6 ~ 9分别为MGNN1 ~ MGNN9和DNN对UNSW_NB15、NSL_KDD数据集进行二分类、多分类时神经网络训练过程中的损失值、准确率随迭代次数变化的折线图.

    图 6  各神经网络对UNSW_NB15进行二分类
    Fig. 6  Each neural network performs a binary classification experiment on the UNSW_NB15
    图 7  各神经网络对NSL_KDD进行二分类
    Fig. 7  Each neural network performs a binary classification experiment on the NSL_KDD
    图 8  各神经网络对UNSW_NB15进行多分类
    Fig. 8  Each neural network performs multi-classification experiments on the UNSW_NB15
    图 9  各神经网络对NSL_KDD进行多分类
    Fig. 9  Each neural network performs multi-classification experiments on the NSL_KDD

    Accuracy_1表示MGNN1训练过程中的准确率变化趋势图, Accuracy_3表示MGNN3训练过程中的准确率变化趋势图$,\;$以此类推; Accuracy_linear表示由线性层堆叠而成的DNN训练过程中准确率变化趋势图.

    通过图6 ~ 9可知, MGNN1、MGNN3、MGNN5、MGNN7、MGNN9最终准确率普遍高于DNN, 只有在对NSL_KDD数据集进行二分类与多分类的训练过程中, MGNN9的准确率低于DNN, 尤其是在对NSL_KDD数据集进行多分类的过程中, MGNN9的准确率仅为0.5左右. 通过第3.1节的分析可知, 主要是由于本节实验中未启用反信息堙灭策略, 子孙信息将父代信息堙灭所导致, 由于本节实验重点并不在于分析反信息堙灭策略的作用, 故后续分析将不考虑对NSL_KDD数据集进行二分类和多分类任务时MGNN9的性能.

    通过图6可知, MGNN1、MGNN3、MGNN5、MGNN7、MGNN9在对UNSW_NB15进行二分类实验时, 前期准确率经过一个短暂且非常明显的不稳定振荡过程, 对NSL_KDD进行二分类实验时, 振荡过程相对平缓; 而图9显示MGNN1 ~ MGNN9网络在对NSL_KDD进行多分类实验过程中, 准确率收敛过程也较UNSW_NB15多分类实验平稳, 这主要是因为初始化的样本特征数据图结构并不能很好地反映隐藏于样本特征数据中的真实图结构, 随着训练过程的持续, 神经网络将不断接近真实样本特征数据的图结构, 训练过程趋于平稳. 上述现象也从侧面反映了隐藏于NSL_KDD样本特征数据背后的图结构比隐藏在UNSW_NB15样本特征数据背后的图结构简单. 而实际上UNSW_NB15数据集是澳大利亚安全实验室于2015年在真实网络环境下采集得到的, 相比于NSL_KDD数据集更能体现实际网络数据特征, 也更加复杂, 这也从侧面反映了本文所设计的MGNN的有效性.

    进一步分析图6 ~ 9可知, 在不考虑父辈信息堙灭的前提下, 随着子孙节点消息传播代数的增加, MGNN1、MGNN3、MGNN5、MGNN7、MGNN9的性能均逐步提升, 同样验证了本文所提出的样本特征数据内部隐藏的图结构信息有助于神经网络性能提升的理论分析.

    表2 ~ 5详细描述了MGNN1、MGNN3、MGNN5、MGNN7、MGNN9与DNN、CNN、RNN、LSTM、RF、LR、KNN、DT、SVM等经典深度学习算法、机器学习算法对NSL_KDD、UNSW_NB15数据集进行二分类和多分类任务时的准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1-score值. 其中, RF、LR、KNN、DT、SVM的相关指标数据来源于文献[27], 实验中使用的CNN为Inception v1分类模型; 由于缺少能直接用于入侵检测领域的经典RNN, LSTM, DNN模型, 故实验中使用的RNN、LSTM、DNN为自行搭建的神经网络模型, 搭建以每层网络中神经元个数与MGNN相接近为原则, 其中, RNN具有8层循环神经网络层, 每层分别有42, 64, 64, 128, 128, 268, 268, 268个神经元, 并返回全部序列数据; LSTM同样具有8层长短期记忆网络层, 每层同样分别有42, 64, 64, 128, 128, 268, 268, 268个神经元, 并返回全部序列数据; DNN由8层全连接层所组成, 分别具有42, 64, 64, 128, 128, 268, 268, 268个神经元.

    表 2  各算法对UNSW_NB15数据集二分类测试的结果
    Table 2  The experimental results of the binary classification test of each algorithm on the UNSW_NB15 dataset
    算法AccuracyPrecisionRecallF1-score
    MGNN10.9020.9100.9120.911
    MGNN30.9290.9470.9240.935
    MGNN50.9400.9590.9310.945
    MGNN70.9430.9610.9330.947
    MGNN90.9450.9640.9350.949
    DNN0.8900.9010.8980.900
    CNN0.8530.8980.8270.861
    RNN0.7090.7220.7660.744
    LSTM0.8130.8770.7680.819
    RF0.9030.9880.8670.924
    LR0.7430.9550.6530.775
    KNN0.8100.9320.7780.848
    DT0.8970.9820.8640.919
    SVM_RBF0.6530.9980.4920.659
    下载: 导出CSV 
    | 显示表格
    表 3  各算法对UNSW_NB15数据集多分类测试的结果
    Table 3  The experimental results of the multi-classification test of each algorithm on the UNSW_NB15 dataset
    算法AccuracyPrecisionRecallF1-score
    MGNN10.7720.7350.7720.743
    MGNN30.8160.7870.8160.797
    MGNN50.8260.8010.8260.812
    MGNN70.8400.8240.8400.829
    MGNN90.8360.8150.8360.824
    DNN0.7620.7180.7620.724
    CNN0.6160.5300.6160.501
    RNN0.6400.4430.6400.521
    LSTM0.6600.5610.6600.566
    RF0.7550.7550.7550.724
    LR0.5380.4140.5380.397
    KNN0.6220.5780.6220.576
    DT0.7330.7210.7330.705
    SVM_RBF0.5810.5860.5810.496
    下载: 导出CSV 
    | 显示表格
    表 4  各算法对NSL_KDD数据集二分类测试的结果
    Table 4  The experimental results of the binary classification test of each algorithm on the NSL_KDD dataset
    算法AccuracyPrecisionRecallF1-score
    MGNN10.9850.9850.9820.984
    MGNN30.9860.9890.9810.985
    MGNN50.9860.9880.9810.985
    MGNN70.9900.9950.9850.990
    MGNN90.9720.9710.9700.970
    DNN0.9790.9750.9800.978
    CNN0.9790.9880.9670.977
    RNN0.9270.9250.9190.922
    LSTM0.9100.8950.9150.905
    RF0.9290.9460.9190.933
    LR0.8260.9150.7440.820
    KNN0.9100.9260.9050.915
    DT0.9300.9280.9430.935
    SVM_RBF0.8370.7690.9930.867
    下载: 导出CSV 
    | 显示表格
    表 5  各算法对NSL_KDD数据集多分类测试的结果
    Table 5  The experimental results of the multi-classification test of each algorithm on the NSL_KDD dataset
    算法AccuracyPrecisionRecallF1-score
    MGNN10.9860.9850.9860.985
    MGNN30.9870.9870.9870.987
    MGNN50.9860.9850.9860.985
    MGNN70.9750.9670.9750.971
    MGNN90.5330.2840.5330.371
    DNN0.9570.9550.9570.955
    CNN0.9700.9690.9700.968
    RNN0.8930.8840.8930.887
    LSTM0.8650.8660.8650.838
    RF0.7530.8140.7530.715
    LR0.6120.5090.6120.530
    KNN0.7310.7200.7310.684
    DT0.7630.7670.7630.728
    SVM_RBF0.7020.6890.7020.656
    下载: 导出CSV 
    | 显示表格

    表2 ~ 5可知, 相对于经典深度学习算法和机器学习算法, 能够挖掘并利用特征值之间隐藏的图结构关系的MGNN在处理网络入侵数据时更具有优势, 有效地证实了本文所提出MGNN的有效性.

    为了进一步证实MGNN的有效性, 本节将MGNN与LSTM-RESNET[28]、NDAE[29]、文献[30]的算法、DCCNet[5]、IGAN-IDS[31]、ELM[32]、OS_ELM[33]、LSTM-RNN[34]、TSDL[35]等近年来基于深度学习的优秀入侵检测算法进行性能对比, 图10反映了MGNN与上述算法对NSL_KDD、UNSW_NB15数据集进行测试时准确率的对比.

    图10可知, 相对于目前较新的基于深度学习的入侵检测算法而言, 在对NSL_KDD、UNSW_NB15数据集进行测试时, 元图神经网络MGNN具有最高的准确率, 由此可以证明在基于深度学习的入侵检测算法中, 本文所提出的MGNN具有一定的应用价值.

    图 10  MGNN与最新入侵检测算法对比
    Fig. 10  Performance comparison between MGNN and the latest intrusion detection algorithms on different datasets

    为了更进一步验证MGNN的有效性, 本文使用CICDoS2019数据集对MGNN性能进行测试, 并与朴素贝叶斯算法(Naive Bayes, NB)、决策树算法(DT)、逻辑回归算法(LR)、随机森林算法(Random forest, RF)、Booster、SVM、DDoSNet[36]等算法进行性能指标对比(上述算法在CICDoS2019数据集上的各项性能指标均来自文献[36]). MGNN为MGNN12 (12代表样本特征值的图结构中节点的个数), 实验结果详见表6.

    表 6  各算法对CICDoS2019数据集测试
    Table 6  Test results of each algorithm on the CICDoS2019 dataset
    算法AccuracyPrecision Recall F1-score
    AttackBenignAttackBenignAttackBenign
    MGNN120.870.991.00 0.790.93 0.880.96
    NB0.571.000.530.171.000.290.69
    DT0.770.700.980.990.540.820.70
    LR0.950.930.990.990.910.960.95
    RF0.861.000.780.741.000.850.88
    Booster0.840.760.990.990.670.860.80
    SVM0.930.990.880.880.990.930.93
    DDoSNet0.990.991.000.990.990.990.99
    下载: 导出CSV 
    | 显示表格

    表6可知, 在使用CICDoS2019数据集对MGNN12进行测试时, MGNN12的性能优于NB、DT、RF与Booster算法, 在Accuracy方面, MGNN12的性能表现相对于NB、DT、LR、RF、Booster、SVM、DDosNet算法处于中等水平. 在Precision方面, MGNN12对Attack类型数据检测的Precision值为0.99, 与DDosNet算法相一致, 仅次于NB、RF算法, DT、Booster算法在对Attack类型数据进行检测时的Precision值最低, 分别比MGNN12低0.29、0.23; MGNN12在对Benign类型数据进行检测时的Precision值为1.00, 与DDosNet算法相同, 二者在该指标上并列最高, 均高出NB算法0.47. 在Recall方面, MGNN12对Attack类型数据进行检测时的Recall值为0.79, 相对于表6中其他算法而言, 仅高于NB算法与RF算法; 在对Benign类型数据进行检测时, MGNN12的Recall值为0.93, 仅高于DT、Booster算法. 由上述分析可知, MGNN12在Precision指标方面相对于表6中其他算法处于较优水平, 但在Recall指标方面MGNN12相对于其他算法并没有明显优势, 当精确率和召回率发生冲突时, 很难对模型进行比较. 而F1-score值同时兼顾了精确率和召回率, 可以看作是精确率和召回率的一种调和平均, 能够更好地评价模型. 仔细分析表6中F1-score一列可知, MGNN12在面对Attack类型数据时, F1-score值为0.88, 仅次于LR、SVM、Booster算法; 面对Benign类型数据时, F1-score值为0.96, 仅次于DDosNet算法. 由上述分析可知, MGNN12的整体性能低于LR、SVM、DDosNet算法, 高于NB、DT、RF、Booster算法, 整体性能处于中等偏上水平, 这主要是由于CICDoS2019数据集特征数目较多(87个), 本文提出的MGNN在处理该数据集时并未采用其他辅助降维措施与特征选择算法, 使得MGNN在挖掘隐藏于特征数据后的图结构关系时较为困难.

    综上所述, 在进行网络入侵数据二分类与多分类的任务中, 在不考虑父代信息堙灭的情况下, 在一定范围内, MGNN的性能随着MPS中子孙信息传播代数的增加而提升, MGNN的性能表现相对于经典深度学习算法和机器学习算法具有明显优势, 同时相对于目前新型基于深度学习的入侵检测算法仍具有较明显优势; 并且MGNN在面对3种入侵检测数据集时都具有不错的性能表现, 说明MGNN具有较强的泛化能力, 能够同时适用于多种不同数据集, 能够有效地提升入侵检测精度, 具有优越的检测性能.

    通过对第4.1节中图6 ~ 9表2 ~ 5的分析可知, MGNN1 ~ MGNN5随子代信息传播代数的增加, 其分类性能逐步提高, 但是随着MPS过程次数的增多, MGNN的性能却出现了下降的现象. 由第3.1节的理论分析可以推断, MGNN9出现了父代信息堙灭现象, 为了验证第3.1节的理论分析结论, 设置本实验.

    在本实验中, 将继续使用第4.1节中MGNN9的网络结构, 唯一不同在于本实验将MGNN9的反信息堙灭因子$\alpha $设置为2.8, 为了便于区分, 本实验记MGNN9为MGNN9_alpha.

    图11 ~ 14分别展示了MGNN1 ~ MGNN9、DNN以及MGNN9_alpha在对UNSW_NB15、NSL_KDD数据集进行二分类和多分类时神经网络训练过程中Accuracy值随迭代次数变化的折线图.

    图 11  各神经网络对UNSW_NB15进行二分类
    Fig. 11  Each neural network performs a binary classification experiment on the UNSW_NB15
    图 12  各神经网络对NSL_KDD进行二分类
    Fig. 12  Each neural network performs a binary classification experiment on the NSL_KDD
    图 13  各神经网络对UNSW_NB15进行多分类
    Fig. 13  Each neural network performs multi-classification experiments on the UNSW_NB15
    图 14  各神经网络对NSL_KDD进行多分类
    Fig. 14  Each neural network performs multi-classification experiments on the NSL_KDD

    分析图11 ~ 14可知, 引入反信息堙灭因子$\alpha $后, MGNN神经网络在分类准确率上均有提升, 并且训练收敛速度也较大程度加快.

    单独分析MGNN9_alpha和MGNN9可以更加明显地看出, 在使用反信息堙灭因子$\alpha $后, 元图神经网络的性能具有明显提升, 由此可以证实本文提出的反信息堙灭策略的有效性, 该效果在图12图14中表现得尤为明显, 可以看出MGNN9_alpha相对于MGNN9的优越性.

    为了量化MGNN9_alpha相对于MGNN9的性能提升幅度, 表7 ~ 10展示了MGNN9_alpha、MGNN9分别对UNSW_NB15与NSL_KDD进行二分类和多分类时迭代50次后的准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1-score值.

    表 7  MGNN9、MGNN9_alpha网络对UNSW_NB15数据集二分类测试的结果
    Table 7  MGNN9, MGNN9_alpha networks on the UNSW_NB15 dataset binary classification test results
    算法AccuracyPrecisionRecallF1-score
    MGNN90.9450.9640.9350.949
    MGNN9_alpha0.9510.9720.9390.955
    下载: 导出CSV 
    | 显示表格
    表 8  MGNN9、MGNN9_alpha网络对UNSW_NB15数据集多分类测试的结果
    Table 8  MGNN9, MGNN9_alpha networks on the UNSW_NB15 dataset multi-classification test results
    算法AccuracyPrecisionRecallF1-score
    MGNN90.8360.8150.8360.824
    MGNN9_alpha0.8460.8310.8460.837
    下载: 导出CSV 
    | 显示表格
    表 9  MGNN9、MGNN9_alpha网络对NSL_KDD数据集二分类测试的结果
    Table 9  MGNN9, MGNN9_alpha networks on the NSL_KDD dataset binary classification test results
    算法AccuracyPrecisionRecallF1-score
    MGNN90.9720.9710.9700.970
    MGNN9_alpha0.9920.9930.9900.991
    下载: 导出CSV 
    | 显示表格
    表 10  MGNN9、MGNN9_alpha网络对NSL_KDD数据集多分类测试的结果
    Table 10  MGNN9, MGNN9_alpha networks on the NSL_KDD dataset multi-classification test results
    算法AccuracyPrecisionRecallF1-score
    MGNN90.5330.2840.5330.371
    MGNN9_alpha0.9870.9870.9870.986
    下载: 导出CSV 
    | 显示表格

    本实验验证了反信息堙灭因子$\alpha $在提升MGNN性能方面的重要性, 同时也验证了第3.1节理论分析的正确性. 实验证实, 引入$\alpha $后的确能够有效提升MGNN入侵检测的精度, 同时也能够显著地降低误报率.

    本文在第3.2节详细论述了注意力损失函数的作用, 为了验证注意力损失函数的有效性, 本文设置了两组元图神经网络, 其中一组为MGNN1 ~ MGNN9使用注意力损失函数, 另一组为MGNN1 ~ MGNN9不使用注意力损失函数, 使用这两组MGNN对NSL_KDD、UNSW_NB15数据集进行二分类和多分类实验, 并将各项评价指标的实验结果绘制成折线图, 详见图15所示.

    图 15  注意力损失函数对MGNN的影响
    Fig. 15  The effect of attention loss function on MGNN

    图15可知, 在使用了注意力损失函数后, MGNN的各项评价指标都有明显提高, 由此可以证实, 本文所提出的注意力损失函数对MGNN的重要性.

    本文针对网络入侵检测场景设计了一种元图神经网络, 对图信息传播过程中出现的信息湮灭与注意力机制进行了理论分析. MGNN能够有效挖掘出入侵样本数据内特征数据间隐藏的复杂联系, 并利用上述联系辅助神经网络对入侵数据进行检测. 实验结果证明了相对于现有的深度学习算法及传统机器学习算法, MGNN具有更加优越的入侵检测性能. 作为一种新型的神经网络, MGNN在其他领域的应用尚未涉及, 基于MGNN的各种复杂网络结构尚处于开发状态. 未来将继续研究基于MGNN的神经网络结构, 尝试将MGNN与深度强化学习等新技术结合[37-38], 开发出更有效的深度学习算法, 完善MGNN的相关理论, 扩大MGNN的应用范围.

  • 图  1  MGNN结构与处理流程

    Fig.  1  Structure and processing flow of MGNN

    图  2  MGNL中单代父子结点间信息传递结构

    Fig.  2  Information transfer process of parent-child node between single generation in MGNL

    图  3  MGNN祖孙结点间信息传递结构

    Fig.  3  Information transfer process between grandparents and grandchildren in MGNN

    图  4  MGNN运行流程图

    Fig.  4  Operation flow chart of MGNN

    图  5  MGNNSB描述

    Fig.  5  Description of MGNNSB structure

    图  6  各神经网络对UNSW_NB15进行二分类

    Fig.  6  Each neural network performs a binary classification experiment on the UNSW_NB15

    图  7  各神经网络对NSL_KDD进行二分类

    Fig.  7  Each neural network performs a binary classification experiment on the NSL_KDD

    图  8  各神经网络对UNSW_NB15进行多分类

    Fig.  8  Each neural network performs multi-classification experiments on the UNSW_NB15

    图  9  各神经网络对NSL_KDD进行多分类

    Fig.  9  Each neural network performs multi-classification experiments on the NSL_KDD

    图  10  MGNN与最新入侵检测算法对比

    Fig.  10  Performance comparison between MGNN and the latest intrusion detection algorithms on different datasets

    图  11  各神经网络对UNSW_NB15进行二分类

    Fig.  11  Each neural network performs a binary classification experiment on the UNSW_NB15

    图  12  各神经网络对NSL_KDD进行二分类

    Fig.  12  Each neural network performs a binary classification experiment on the NSL_KDD

    图  13  各神经网络对UNSW_NB15进行多分类

    Fig.  13  Each neural network performs multi-classification experiments on the UNSW_NB15

    图  14  各神经网络对NSL_KDD进行多分类

    Fig.  14  Each neural network performs multi-classification experiments on the NSL_KDD

    图  15  注意力损失函数对MGNN的影响

    Fig.  15  The effect of attention loss function on MGNN

    表  1  MGNN1 ~ MGNN9网络各参数设置

    Table  1  Various parameter settings in the MGNN1 ~ MGNN9 networks

    网络类别MGNNSBNnPnUnits$\alpha $Activation参数量
    MGNN11421641tanh287509
    26411281tanh
    312812681tanh
    426812681tanh
    MGNN31423641tanh287509
    26431281tanh
    312832681tanh
    426832681tanh
    MGNN51425641tanh287509
    26451281tanh
    312852681tanh
    426852681tanh
    MGNN71427641tanh287509
    26471281tanh
    312872681tanh
    426872681tanh
    MGNN91429641tanh287509
    26491281tanh
    312892681tanh
    426892681tanh
    下载: 导出CSV

    表  2  各算法对UNSW_NB15数据集二分类测试的结果

    Table  2  The experimental results of the binary classification test of each algorithm on the UNSW_NB15 dataset

    算法AccuracyPrecisionRecallF1-score
    MGNN10.9020.9100.9120.911
    MGNN30.9290.9470.9240.935
    MGNN50.9400.9590.9310.945
    MGNN70.9430.9610.9330.947
    MGNN90.9450.9640.9350.949
    DNN0.8900.9010.8980.900
    CNN0.8530.8980.8270.861
    RNN0.7090.7220.7660.744
    LSTM0.8130.8770.7680.819
    RF0.9030.9880.8670.924
    LR0.7430.9550.6530.775
    KNN0.8100.9320.7780.848
    DT0.8970.9820.8640.919
    SVM_RBF0.6530.9980.4920.659
    下载: 导出CSV

    表  3  各算法对UNSW_NB15数据集多分类测试的结果

    Table  3  The experimental results of the multi-classification test of each algorithm on the UNSW_NB15 dataset

    算法AccuracyPrecisionRecallF1-score
    MGNN10.7720.7350.7720.743
    MGNN30.8160.7870.8160.797
    MGNN50.8260.8010.8260.812
    MGNN70.8400.8240.8400.829
    MGNN90.8360.8150.8360.824
    DNN0.7620.7180.7620.724
    CNN0.6160.5300.6160.501
    RNN0.6400.4430.6400.521
    LSTM0.6600.5610.6600.566
    RF0.7550.7550.7550.724
    LR0.5380.4140.5380.397
    KNN0.6220.5780.6220.576
    DT0.7330.7210.7330.705
    SVM_RBF0.5810.5860.5810.496
    下载: 导出CSV

    表  4  各算法对NSL_KDD数据集二分类测试的结果

    Table  4  The experimental results of the binary classification test of each algorithm on the NSL_KDD dataset

    算法AccuracyPrecisionRecallF1-score
    MGNN10.9850.9850.9820.984
    MGNN30.9860.9890.9810.985
    MGNN50.9860.9880.9810.985
    MGNN70.9900.9950.9850.990
    MGNN90.9720.9710.9700.970
    DNN0.9790.9750.9800.978
    CNN0.9790.9880.9670.977
    RNN0.9270.9250.9190.922
    LSTM0.9100.8950.9150.905
    RF0.9290.9460.9190.933
    LR0.8260.9150.7440.820
    KNN0.9100.9260.9050.915
    DT0.9300.9280.9430.935
    SVM_RBF0.8370.7690.9930.867
    下载: 导出CSV

    表  5  各算法对NSL_KDD数据集多分类测试的结果

    Table  5  The experimental results of the multi-classification test of each algorithm on the NSL_KDD dataset

    算法AccuracyPrecisionRecallF1-score
    MGNN10.9860.9850.9860.985
    MGNN30.9870.9870.9870.987
    MGNN50.9860.9850.9860.985
    MGNN70.9750.9670.9750.971
    MGNN90.5330.2840.5330.371
    DNN0.9570.9550.9570.955
    CNN0.9700.9690.9700.968
    RNN0.8930.8840.8930.887
    LSTM0.8650.8660.8650.838
    RF0.7530.8140.7530.715
    LR0.6120.5090.6120.530
    KNN0.7310.7200.7310.684
    DT0.7630.7670.7630.728
    SVM_RBF0.7020.6890.7020.656
    下载: 导出CSV

    表  6  各算法对CICDoS2019数据集测试

    Table  6  Test results of each algorithm on the CICDoS2019 dataset

    算法AccuracyPrecision Recall F1-score
    AttackBenignAttackBenignAttackBenign
    MGNN120.870.991.00 0.790.93 0.880.96
    NB0.571.000.530.171.000.290.69
    DT0.770.700.980.990.540.820.70
    LR0.950.930.990.990.910.960.95
    RF0.861.000.780.741.000.850.88
    Booster0.840.760.990.990.670.860.80
    SVM0.930.990.880.880.990.930.93
    DDoSNet0.990.991.000.990.990.990.99
    下载: 导出CSV

    表  7  MGNN9、MGNN9_alpha网络对UNSW_NB15数据集二分类测试的结果

    Table  7  MGNN9, MGNN9_alpha networks on the UNSW_NB15 dataset binary classification test results

    算法AccuracyPrecisionRecallF1-score
    MGNN90.9450.9640.9350.949
    MGNN9_alpha0.9510.9720.9390.955
    下载: 导出CSV

    表  8  MGNN9、MGNN9_alpha网络对UNSW_NB15数据集多分类测试的结果

    Table  8  MGNN9, MGNN9_alpha networks on the UNSW_NB15 dataset multi-classification test results

    算法AccuracyPrecisionRecallF1-score
    MGNN90.8360.8150.8360.824
    MGNN9_alpha0.8460.8310.8460.837
    下载: 导出CSV

    表  9  MGNN9、MGNN9_alpha网络对NSL_KDD数据集二分类测试的结果

    Table  9  MGNN9, MGNN9_alpha networks on the NSL_KDD dataset binary classification test results

    算法AccuracyPrecisionRecallF1-score
    MGNN90.9720.9710.9700.970
    MGNN9_alpha0.9920.9930.9900.991
    下载: 导出CSV

    表  10  MGNN9、MGNN9_alpha网络对NSL_KDD数据集多分类测试的结果

    Table  10  MGNN9, MGNN9_alpha networks on the NSL_KDD dataset multi-classification test results

    算法AccuracyPrecisionRecallF1-score
    MGNN90.5330.2840.5330.371
    MGNN9_alpha0.9870.9870.9870.986
    下载: 导出CSV
  • [1] Tsai C F, Hsu Y F, Lin C Y, Lin W Y. Intrusion detection by machine learning: A review. Expert Systems With Applications, 2009, 36(10): 11994-12000 doi: 10.1016/j.eswa.2009.05.029
    [2] 任家东, 刘新倩, 王倩, 何海涛, 赵小林. 基于KNN离群点检测和随机森林的多层入侵检测方法. 计算机研究与发展, 2019, 56(3): 566-575

    Ren Jia-Dong, Liu Xin-Qian, Wang Qian, He Hai-Tao, Zhao Xiao-Lin. An multi-level intrusion detection method based on KNN outlier detection and random forests. Journal of Computer Research and Development, 2019, 56(3): 566-575
    [3] Ahmad I, Basheri M, Iqbal M J, Rahim A. Performance comparison of support vector machine, random forest, and extreme learning machine for intrusion detection. IEEE Access, 2018, 6: 33789-33795 doi: 10.1109/ACCESS.2018.2841987
    [4] Mabu S, Gotoh S, Obayashi M, Kuremoto T. A random-forests-based classifier using class association rules and its application to an intrusion detection system. Artificial Life and Robotics, 2016, 21(3): 371-377 doi: 10.1007/s10015-016-0281-x
    [5] 缪祥华, 单小撤. 基于密集连接卷积神经网络的入侵检测技术研究. 电子与信息学报, 2020, 42(11): 2706-2712

    Miao Xiang-Hua, Shan Xiao-Che. Research on intrusion detection technology based on densely connected convolutional neural networks. Journal of Electronics & Information Technology, 2020, 42(11): 2706-2712
    [6] 王振东, 刘尧迪, 杨书新, 王俊岭, 李大海. 基于天牛群优化与改进正则化极限学习机的网络入侵检测. 自动化学报, 2022, 48(12): 3024-3041

    Wang Zhen-Dong, Liu Yao-Di, Yang Shu-Xin, Wang Jun-Ling, Li Da-Hai. Network intrusion detection based BSO and improved RELM. Acta Automatica Sinica, 2022, 48(12): 3024-3041
    [7] 张颐康, 张恒, 刘永革, 刘成林. 基于跨模态深度度量学习的甲骨文字识别. 自动化学报, 2021, 47(4): 791-800

    Zhang Yi-Kang, Zhang Heng, Liu Yong-Ge, Liu Cheng-Lin. Oracle character recognition based on cross-modal deep metric learning. Acta Automatica Sinica, 2021, 47(4): 791-800
    [8] 徐鹏斌, 瞿安国, 王坤峰, 李大字. 全景分割研究综述. 自动化学报, 2021, 47(3): 549-568

    Xu Peng-Bin, Qu An-Guo, Wang Kun-Feng, Li Da-Zi. A survey of panoptic segmentation methods. Acta Automatica Sinica, 2021, 47(3): 549-568
    [9] 徐聪, 李擎, 张德政, 陈鹏, 崔家瑞. 文本生成领域的深度强化学习研究进展. 工程科学学报, 2020, 42(4): 399-411

    Xu Cong, Li Qing, Zhang De-Zheng, Chen Peng, Cui Jia-Rui. Research progress of deep reinforcement learning applied to text generation. Chinese Journal of Engineering, 2020, 42(4): 399-411
    [10] 宋勇, 侯冰楠, 蔡志平. 基于深度学习特征提取的网络入侵检测方法. 华中科技大学学报(自然科学版), 2021, 49(2): 115-120

    Song Yong, Hou Bing-Nan, Cai Zhi-Ping. Network intrusion detection method based on deep learning feature extraction. Journal of Huazhong University of Science and Technology (Natural Science Edition), 2021, 49(2): 115-120
    [11] Gao L G, Chen P Y, Yu S M. Demonstration of convolution kernel operation on resistive cross-point array. IEEE Electron Device Letters, 2016, 37(7): 870-873 doi: 10.1109/LED.2016.2573140
    [12] Li Y, Zhang B. An intrusion detection model based on multi-scale CNN. In: Proceedings of the 3rd Information Technology, Networking, Electronic and Automation Control Conference (ITNEC). Chengdu, China: IEEE, 2019. 214−218
    [13] Lin W H, Lin H C, Wang P, Wu B H, Tsai J Y. Using convolutional neural networks to network intrusion detection for cyber threats. In: Proceedings of the IEEE International Conference on Applied System Invention (ICASI). Chiba, Japan: IEEE, 2018. 1107−1110
    [14] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition. In: Proceedings of the 3rd International Conference on Learning Representations (ICLR). San Diego, USA: ICLR, 2015. 1−14
    [15] Szegedy C, Liu W, Jia Y Q, Sermanet P, Reed S, Anguelov D, et al. Going deeper with convolutions. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, USA: IEEE, 2015. 1−9
    [16] He K M, Zhang X Y, Ren S Q, Sun J. Deep residual learning for image recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE, 2016. 770−778
    [17] Yang S. Research on network behavior anomaly analysis based on bidirectional LSTM. In: Proceedings of the 3rd Information Technology, Networking, Electronic and Automation Control Conference (ITNEC). Chengdu, China: IEEE, 2019. 798−802
    [18] Hossain D, Ochiai H, Fall D, Kadobayashi Y. LSTM-based network attack detection: Performance comparison by hyper-parameter values tuning. In: Proceedings of the 7th IEEE International Conference on Cyber Security and Cloud Computing (CSCloud)/the 6th IEEE International Conference on Edge Computing and Scalable Cloud (EdgeCom). New York, USA: IEEE, 2020. 62−69
    [19] 陈红松, 陈京九. 基于循环神经网络的无线网络入侵检测分类模型构建与优化研究. 电子与信息学报, 2019, 41(6): 1427-1433

    Chen Hong-Song, Chen Jing-Jiu. Recurrent neural networks based wireless network intrusion detection and classification model construction and optimization. Journal of Electronics & Information Technology, 2019, 41(6): 1427-1433
    [20] Studer L, Wallau J, Ingold R, Fischer A. Effects of graph pooling layers on classification with graph neural networks. In: Proceedings of the 7th Swiss Conference on Data Science (SDS). Luzern, Switzerland: IEEE, 2020. 57−58
    [21] Hamilton W L, Ying Z, Leskovec J. Inductive representation learning on large graphs. In: Proceedings of the 31st Annual Conference on Neural Information Processing Systems. Long Beach, USA: Curran Associates Inc., 2017. 1025−1035
    [22] Chaudhary A, Mittal H, Arora A. Anomaly detection using graph neural networks. In: Proceedings of the International Conference on Machine Learning, Big Data, Cloud and Parallel Computing (COMITCon). Faridabad, India: IEEE, 2019. 346−350
    [23] 刘颖, 雷研博, 范九伦, 王富平, 公衍超, 田奇. 基于小样本学习的图像分类技术综述. 自动化学报, 2021, 47(2): 297-315

    Liu Ying, Lei Yan-Bo, Fan Jiu-Lun, Wang Fu-Ping, Gong Yan-Chao, Tian Qi. Survey on image classification technology based on small sample learning. Acta Automatica Sinica, 2021, 47(2): 297-315
    [24] Li Q Y, Shang Y L, Qiao X Q, Dai W. Heterogeneous dynamic graph attention network. In: Proceedings of the IEEE International Conference on Knowledge Graph (ICKG). Nanjing, China: IEEE, 2020. 404−411
    [25] Shanthamallu U S, Thiagarajan J J, Spanias A. A regularized attention mechanism for graph attention networks. In: Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Barcelona, Spain: IEEE, 2020. 3372−3376
    [26] Avelar P H C, Tavares A R, da Silveira T L T, Jung C R, Lamb L C. Superpixel image classification with graph attention networks. In: Proceedings of the 33rd SIBGRAPI Conference on Graphics, Patterns and Images (SIBGRAPI). Porto de Galinhas, Brazil: IEEE, 2020. 203−209
    [27] Vinayakumar R, Alazab M, Soman K P, Poornachandran P, Al-Nemrat A, Venkatraman S. Deep learning approach for intelligent intrusion detection system. IEEE Access, 2019, 7: 41525-41550 doi: 10.1109/ACCESS.2019.2895334
    [28] 杨印根, 王忠洋. 基于深度神经网络的入侵检测技术. 网络安全技术与应用, 2019(4): 37-41

    Yang Yin-Gen, Wang Zhong-Yang. Intrusion detection technology based on deep neural network. Network Security Technology & Application, 2019(4): 37-41
    [29] Shone N, Ngoc T N, Phai V D, Shi Q. A deep learning approach to network intrusion detection. IEEE Transactions on Emerging Topics in Computational Intelligence, 2018, 2(1): 41-50 doi: 10.1109/TETCI.2017.2772792
    [30] Liang W, Li K C, Long J, Kui X Y, Zomaya A Y. An industrial network intrusion detection algorithm based on multifeature data clustering optimization model. IEEE Transactions on Industrial Informatics, 2020, 16(3): 2063-2071 doi: 10.1109/TII.2019.2946791
    [31] Huang S K, Lei K. IGAN-IDS: An imbalanced generative adversarial network towards intrusion detection system in ad-hoc networks. Ad Hoc Networks, 2020, 105: 102177 doi: 10.1016/j.adhoc.2020.102177
    [32] Kozik R, Choraś M, Ficco M, Palmieri F. A scalable distributed machine learning approach for attack detection in edge computing environments. Journal of Parallel and Distributed Computing, 2018, 119: 18-26 doi: 10.1016/j.jpdc.2018.03.006
    [33] Prabavathy S, Sundarakantham K, Shalinie S M. Design of cognitive fog computing for intrusion detection in Internet of Things. Journal of Communications and Networks, 2018, 20(3): 291-298 doi: 10.1109/JCN.2018.000041
    [34] Fu Y S, Lou F, Meng F Z, Tian Z H, Zhang H, Jiang F. An intelligent network attack detection method based on RNN. In: Proceedings of the 3rd IEEE International Conference on Data Science in Cyberspace (DSC). Guangzhou, China: IEEE, 2018. 483−489
    [35] Khan F A, Gumaei A, Derhab A, Hussain A. A novel two-stage deep learning model for efficient network intrusion detection. IEEE Access, 2019, 7: 30373-30385 doi: 10.1109/ACCESS.2019.2899721
    [36] Elsayed M S, Le-Khac N A, Dev S, Jurcut A D. DDoSNet: A deep-learning model for detecting network attacks. In: Proceedings of the 21st International Symposium on a World of Wireless, Mobile and Multimedia Networks (WoWMoM). Cork, Ireland: IEEE, 2020. 391−396
    [37] 陈晋音, 章燕, 王雪柯, 蔡鸿斌, 王珏, 纪守领. 深度强化学习的攻防与安全性分析综述. 自动化学报, 2022, 48(1): 21-39

    Chen Jin-Yin, Zhang Yan, Wang Xue-Ke, Cai Hong-Bin, Wang Jue, Ji Shou-Ling. A survey of attack, defense and related security analysis for deep reinforcement learning. Acta Automatica Sinica, 2022, 48(1): 21-39
    [38] Suwannalai E, Polprasert C. Network intrusion detection systems using adversarial reinforcement learning with deep Q-network. In: Proceedings of the 18th International Conference on ICT and Knowledge Engineering (ICT&KE). Bangkok, Thailand: IEEE, 2020. 1−7
  • 期刊类型引用(4)

    1. 王相茗,鹏飞,刘杨,刘烃. 工业控制系统的物理入侵威胁模型与防护方法. 自动化博览. 2025(01): 29-33 . 百度学术
    2. 郑海潇,马梦帅,文斌,曾昭武,刘文龙. 基于GATv2的网络入侵异常检测方法. 数据与计算发展前沿. 2024(01): 179-190 . 百度学术
    3. 旷远有. 基于自监督图注意力网络的物联网入侵检测. 电脑与信息技术. 2024(05): 52-57 . 百度学术
    4. 沈学利,刘士枫. 基于图边缘特征注意力的入侵检测模型. 计算机工程. 2024(11): 236-245 . 百度学术

    其他类型引用(4)

  • 加载中
图(15) / 表(10)
计量
  • 文章访问数:  1874
  • HTML全文浏览量:  757
  • PDF下载量:  165
  • 被引次数: 8
出版历程
  • 收稿日期:  2020-10-01
  • 录用日期:  2021-01-19
  • 网络出版日期:  2021-03-27
  • 刊出日期:  2023-07-20

目录

/

返回文章
返回