2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于天牛群优化与改进正则化极限学习机的网络入侵检测

王振东 刘尧迪 杨书新 王俊岭 李大海

王振东, 刘尧迪, 杨书新, 王俊岭, 李大海. 基于天牛群优化与改进正则化极限学习机的网络入侵检测. 自动化学报, 2022, 48(12): 3024−3041 doi: 10.16383/j.aas.c190851
引用本文: 王振东, 刘尧迪, 杨书新, 王俊岭, 李大海. 基于天牛群优化与改进正则化极限学习机的网络入侵检测. 自动化学报, 2022, 48(12): 3024−3041 doi: 10.16383/j.aas.c190851
Wang Zhen-Dong, Liu Yao-Di, Yang Shu-Xin, Wang Jun-Ling, Li Da-Hai. Network intrusion detection based BSO and improved RELM. Acta Automatica Sinica, 2022, 48(12): 3024−3041 doi: 10.16383/j.aas.c190851
Citation: Wang Zhen-Dong, Liu Yao-Di, Yang Shu-Xin, Wang Jun-Ling, Li Da-Hai. Network intrusion detection based BSO and improved RELM. Acta Automatica Sinica, 2022, 48(12): 3024−3041 doi: 10.16383/j.aas.c190851

基于天牛群优化与改进正则化极限学习机的网络入侵检测

doi: 10.16383/j.aas.c190851
基金项目: 国家自然科学基金(61562037, 61562038, 61563019, 61763017), 江西省自然科学基金(20171BAB202026, 20181BBE58018)资助
详细信息
    作者简介:

    王振东:博士, 江西理工大学信息工程学院副教授. 主要研究方向为无线传感器网络, 智能物联网, 认知计算, 大数据和信息安全.E-mail: wangzhendong@hrbeu.edu.cn

    刘尧迪:江西理工大学信息工程学院硕士研究生. 主要研究方向为网络安全, 入侵检测, 群智能优化算法, 机器学习与深度学习. 本文通信作者.E-mail: liuyaodi@yeah.net

    杨书新:博士, 江西理工大学信息工程学院副教授. 主要研究方向为数据管理, 信息检索和生物信息学.E-mail: yimuyunlang@sina.com

    王俊岭:博士, 江西理工大学信息工程学院副教授. 主要研究方向为分布式计算, 容错, 计算机视觉.E-mail: wangjunling@jxust.edu.cn

    李大海:博士, 江西理工大学信息工程学院副教授. 主要研究方向为分布式系统服务质量控制, 分布式系统自学资源调度控制.E-mail: dlai6535@aliyun.com

Network Intrusion Detection Based BSO and Improved RELM

Funds: Supported by National Natural Science Foundation of China (61562037, 61562038, 61563019, 61763017) and Natural Science Foundation of Jiangxi Province (20171BAB202026, 20181BBE58018)
More Information
    Author Bio:

    WANG Zhen-Dong Ph.D., associate professor at the School of Information Engineering, Jiangxi University of Science and Technology. His research interest covers wireless sensor networks, smart internet of things, cognitive computing, and big data and information security

    LIU Yao-Di Master student at the School of Information Engineering, Jiangxi University of Science and Technology. Her research interest covers network security, intrusion detection, swarm intelligence optimization algorithm, machine learning, and deep learning. Corresponding author of this paper

    YANG Shu-Xin Ph.D., associate professor at the School of Information Engineering, Jiangxi University of Science and Technology. His research interest covers data management, information retrieval, and bioinformatics

    WANG Jun-Ling Ph.D., associate professor at the School of Information Engineering, Jiangxi University of Science and Technology. His research interest covers distributed computing, fault tolerance, and computer vision

    LI Da-Hai Ph.D., associate professor at the School of Information Engineering, Jiangxi University of Science and Technology. His research interest covers distributed system quality of service (QoS) control, and distributed system self-learning resource scheduling control

  • 摘要: 正则化极限学习机(Regularized extreme learning machine, RELM)因其极易于实现、训练速度快等优点在诸多领域均取得了成功应用. 对此, 本文将RELM引入到入侵检测中, 设计了天牛群优化算法(Beetle swarm optimization, BSO), 并针对RELM由于随机初始化参数带来的潜在缺陷, 提出基于天牛群优化与改进正则化极限学习机(BSO-IRELM)的网络入侵检测算法. 使用LU分解求解RELM的输出权值矩阵, 进一步缩短了RELM的训练时间, 同时利用BSO对RELM的权值和阈值进行联合优化. 为避免BSO算法陷入局部最优, 引入Tent映射反向学习、莱维飞行的群体学习与动态变异策略提升优化性能. 实验结果表明, 在机器学习UCI数据集上, 相比于RELM、IRELM、GA-IRELM、PSO-IRELM等算法, BSO-IRELM的数据分类性能提升明显. 最后, 将BSO-IRELM应用于网络入侵检测数据集NSL-KDD, 并与BP (Back propagation)、LR (Logistics regression)、RBF (Radial basis function)、AB (AdaBoost)、SVM (Support vector machine)、RELM、IRELM等算法进行了对比, 结果证明BSO-IRELM算法在准确率、精确率、真正率和假正率等指标上均具有明显优势.
  • 随着网络技术的快速发展, 网络结构趋于复杂, 由此发生网络入侵的风险也越来越大, 如何辨识各种网络入侵成为人们高度关注的问题. 入侵检测(Intrusion detection, ID)技术作为一种能够动态监控、预防和抵御入侵行为的新型安全机制, 已经逐渐发展成为保障网络系统安全的关键技术. 然而网络规模、网络速率以及入侵类型的持续增大、增多, 使得入侵检测技术面临越来越多的挑战[1]. 因此, 如何设计面向当前及未来网络环境的新型入侵检测机制, 提高入侵检测的检测速度、降低漏报率和误报率, 提升检测性能成为相关领域研究人员关注的核心问题.

    在已有研究中, 通常认为数据挖掘、机器学习以及神经网络在内的多种方法是有效的入侵检测方法[2-5]. 但大部分数据挖掘算法对噪声较为敏感, 若数据集包含噪声数据较多, 则算法极易出现过拟合现象; 机器学习算法因其自身比较复杂, 数据集过大会导致模型训练时间过长, 计算成本较高; 神经网络通过模拟人类大脑的思维方式来处理信息, 具有自组织、自学习和自适应的特点, 将其应用于入侵检测可以很好地解决数据挖掘和机器学习存在的问题, 提升检测性能, 使得基于神经网络的入侵检测成为研究热点[6]. 传统神经网络如BP (Back propagation)神经网络在诸多文献中已应用于网络入侵检测, 并取得一定效果[7-8], 但需多次迭代确定网络输出权值, 严重影响网络的学习能力.

    作为一种新型神经网络, 极限学习机(Extreme learning machine, ELM)[9]的出现引起了研究人员广泛的关注. ELM是一种单隐层前馈型神经网络, 最大特点是输入层和隐含层之间的连接权值, 以及隐含层节点的阈值只需通过最小二乘法计算一次即可得到最优初始权值和阈值, 而不需通过反向传播算法进行更新. 因易于实现、训练速度快, ELM在数据分类[10-11]、故障识别[12]、能耗预测[13]、入侵检测[14]等许多领域取得了成功. 但ELM并未充分考虑结构化风险可能导致的过拟合问题. Deng等[15]提出了正则化极限学习机(Regularized extreme learning machine, RELM)的概念, 并将其应用于SinC函数的近似、现实世界回归以及UCI数据集的分类. 结果表明, RELM不仅能够保留ELM的所有优点, 对离群点还具有一定的抗干扰能力, 能够获得极小的训练误差, 模型的泛化性能也得到显著提高.

    鉴于RELM在分类问题中表现出的优越性能, 本文将RELM引入到入侵检测领域. 但直接使用RELM会存在如下问题: 1) RELM的输出权值矩阵通过逆矩阵求得, 逆矩阵在求解过程中接近奇异值, 会降低算法的求解精度, 影响分类准确率; 2) 随机初始化权值矩阵以及隐含层阈值, 会导致原始数据随机映射到RELM特征空间时出现难以预测的非线性分布, 并对算法的分类准确率造成影响. 对此, 本文尝试使用天牛群优化(Beetle swarm optimization, BSO)算法优化RELM的初始权值矩阵, 并将LU分解(LU decomposition)引入求解RELM的输出权值矩阵, 提出BSO-IRELM算法, 将其应用于入侵检测. 实验结果表明, BSO-IRELM算法具有优秀的数据分类能力, 能够有效实现Normal、Probe、DoS、R2L、U2R等各类攻击的检测.

    RELM随机初始化输入层和隐含层之间的权值以及隐含层节点的阈值, 通过特征映射使数据分布呈现某种非线性的几何结构, 影响分类性能. 而使用逆矩阵求解输出权值矩阵, 会导致求解过程中出现奇异矩阵的情形. 对此, 使用具有良好寻优能力的BSO算法对RELM的初始权值和阈值进行初始化, 并引入LU分解求解RELM的输出权值矩阵, 规避求解过程的奇异矩阵.

    由传统统计学原理可知, 实际风险包括经验风险和结构风险两种[16]. 一种具有好的泛化能力的模型应该能够平衡这两种风险. 因此增加正则项以调节系数$ \beta $, 提高模型的泛化能力. RELM的目标函数为

    $$\min \frac{1}{2}{\left\| \beta \right\|^2} + \frac{\lambda }{2}\sum\limits_{i = 1}^N {{{\left\| {{e_i}} \right\|}^2}} \hspace{57pt}$$ (1)
    $$\begin{array}{*{20}{c}} {{\rm{s}}.{\rm{t}}.\;\;\;{{h}}\left( {{x_i}} \right)\beta = {t_i} - {e_i},\;\;i = 1, \cdots ,N} \end{array}$$ (2)

    其中, $ {{e}}_{{i}} $为训练误差, ${\left\| \beta \right\|^2}$${\left\| {{e_i}} \right\|^2}$分别为结构风险和经验风险, $ {\lambda } $为惩罚因子.

    根据式(1)和式(2)建立拉格朗日方程, 得

    $$\begin{array}{*{20}{c}} {{{L}}\left( {\alpha ,e,\beta } \right) = \dfrac{\lambda }{2}{{\left\| e \right\|}^2} + \dfrac{1}{2}{{\left\| \beta \right\|}^2} - \alpha \left( {H\beta - T - e} \right)} \end{array}$$ (3)

    式中, ${\alpha _i} \in {\rm{R}},\;{i = 1, \cdots ,N}$为拉格朗日算子. 对式(3)的变量$ \left({\alpha },\mathit{ }{e},\mathit{ }\beta \right) $分别求偏导并令其等于零, 得

    $$ {\left\{ {\begin{aligned} &{\dfrac{{\partial {{L}}}}{{\partial \beta }} = 0 \to {\beta ^{\rm{T}}} = \alpha H}\\ &{\dfrac{{\partial {{L}}}}{{\partial e}} = 0 \to \lambda {e^{\rm{T}}} + \alpha = 0}\\ &{\dfrac{{\partial {{L}}}}{{\partial \alpha }} = 0 \to H\beta - T - e = 0} \end{aligned}} \right.} $$ (4)

    对式(4)进行最小二乘法计算, 得到输出权值矩阵

    $$\begin{array}{*{20}{c}} {\beta = {{\left( {\dfrac{I}{\lambda } + {H^{\rm{T}}}H} \right)}^{ - 1}}{H^{\rm{T}}}T} \end{array}$$ (5)

    其中, $ {I} $为单位矩阵.

    式(5)计算输出权值矩阵$ \beta $涉及到矩阵求逆的运算, 若输入样本过大, 会导致矩阵求逆复杂度增大, 从而降低RELM的训练效率. 为降低RELM的计算复杂度, 本文提出一种基于LU分解的IRELM算法, 改变RELM输出权值矩阵的求解方法, 降低算法复杂度, 提高入侵检测分类精确度.

    由式(5)得

    $$\begin{array}{*{20}{c}} {\left( {\dfrac{I}{\lambda } + {H^{\rm{T}}}H} \right)\beta = {H^{\rm{T}}}T} \end{array}$$ (6)

    $A = ( {{I}/{\lambda } + {H^{\rm{T}}}H} ),b = {H^{\rm{T}}}T$, 则式(6)转化为

    $$\begin{array}{*{20}{c}} {A\beta = b} \end{array}$$ (7)

    LU分解求解RELM输出权值矩阵的具体步骤如下:

    矩阵$ {A} $可进行唯一的LU分解, 设

    $$A = \left[ {\begin{array}{*{20}{c}} {\begin{array}{*{20}{c}} 1&{}\\ {{l_{21}}}&1 \end{array}}&{\begin{array}{*{20}{c}} {}&{}\\ {}&{} \end{array}}\\ {\begin{array}{*{20}{c}} \vdots & \vdots \\ {{l_{n1}}}&{{l_{n2}}} \end{array}}&{\begin{array}{*{20}{c}} \ddots &{}\\ \cdots &1 \end{array}} \end{array}} \right] \left[ {\begin{array}{*{20}{c}} {\begin{array}{*{20}{c}} {{u_{11}}}&{{u_{12}}}\\ {}&{{u_{22}}} \end{array}}&{\begin{array}{*{20}{c}} \cdots &{{u_{1n}}}\\ \cdots &{{u_{2n}}} \end{array}}\\ {\begin{array}{*{20}{c}} {}&{}\\ {}&{} \end{array}}&{\begin{array}{*{20}{c}} \ddots & \vdots \\ {}&{{u_{nn}}} \end{array}} \end{array}} \right]$$

    由矩阵乘法并令两边矩阵的$ \left({i}, {j}\right) $元素相等, 得上下三角矩阵中的元素为

    $$ {\left\{ {\begin{aligned} &{{u_{ij}} = {a_{ij}} - \sum\limits_{k = 1}^{i - 1} {{l_{ik}}{u_{kj}}} ,}\\ &\qquad\qquad\qquad\qquad\qquad{j = i,i + 1, \cdots ,n}\\ &{l_{ij}} = \frac{ {{a_{ij}} - \sum\limits_{k = 1}^{j - 1} {{l_{ik}}{u_{kj}}} } }{{u_{jj}}},\\ &\qquad\qquad\qquad\qquad{i = j + 1,j + 2, \cdots ,n} \end{aligned}} \right.} $$ (8)

    当矩阵$ {A} $进行LU分解后, 解线性方程组$ {A\beta}={b} $等价于求解下面两个三角形方程组

    $$\left\{ {\begin{array}{*{20}{c}} {Ly = b}\\ {U\beta = y} \end{array}} \right.$$

    求解$ {Ly}={b} $的递推公式为

    $$ {\left\{ {\begin{split} &{{y_1} = {b_1}}\\ &{{y_i} = {b_i} - \sum\limits_{k = 1}^{i - 1} {{l_{ik}}{y_k}} ,\;\;i = 2,3, \cdots ,n} \end{split}} \right.} $$ (9)

    求解$U\beta = y$的递推公式为

    $$\begin{split} &{x_i} = \frac{ {{y_i} - \sum\limits_{k = i + 1}^n {{u_{ik}}{x_k}} } }{{u_{ii}}},\\ &\qquad\qquad\qquad\qquad{i = n,n - 1, \cdots ,2,1} \end{split}$$ (10)

    从上面的求解过程可以看出, 输出权值矩阵不需使用式(5)逆矩阵的方法来计算, 只需通过式$(8)\sim(10) $的迭代递推公式进行简单的加减运算即可求出RELM的输出权值, 能够大大降低算法的复杂度. 同时, 使用LU分解求解输出权值矩阵可以很好地避免计算过程出现奇异矩阵的情况, 提高算法的分类准确率.

    天牛须搜索算法(Beetle antennae search, BAS)是Jiang等[17-18]在2017年模拟天牛觅食原理时提出的启发式算法, 用于解决压力容器和Himmelblau等非线性优化问题. BAS算法具有求解速度快和精度高的特点, 已成功应用于信号定位[19]和数据分类[20]等领域. 但BAS算法在高维空间搜索时只能收敛到局部极值, 且在多维函数优化中, 只依赖于单个天牛个体进行搜索会增加算法陷入局部最优的可能性. 对此, 本文提出了一种带莱维飞行群体学习策略与动态变异策略的混沌天牛群算法. 将天牛个体搜索扩展为群体搜索, 并使用Tent映射反向学习初始化种群, 促使初始群体信息分布均匀, 提高搜索效率. 此外, 利用莱维飞行群体学习策略, 使得天牛个体既能学习自身经验又可以学习群体经验, 让各天牛个体有目的和指导性地移动, 提高算法的收敛性能. 最后引入动态变异策略, 增加迭代后期种群多样性, 避免算法陷入局部最优.

    1.2.1   Tent映射反向学习初始化种群

    研究表明[21], 在群智能搜索中, 算法的收敛性能会受到初始种群的影响. 种群的数量越多、分布越均匀, 算法越能够在更短的时间内收敛到最优解; 反之, 则会影响算法的收敛性能. 使用混沌映射初始化种群具有随机性、遍历性以及有界性的特点, 能够有效提高算法的搜索效率. 而Tent映射产生初始序列比Logistic映射产生初始序列更加均匀, 所以本文采用Tent映射对天牛群体初始化, 并使用反向学习策略优化初始种群, 通过反向个体与现有个体一起竞争, 让更优秀的个体被选进下一代学习, 可以扩大种群的搜索范围, 减少无效搜索, 从而提高算法的收敛速度. Tent映射的数学表达式为

    $$ {{x_{n + 1}} = \left\{ {\begin{aligned} &2{x_n},&0 < {x_n} \le \frac{1}{2}\\ &2\left( {1 - {x_n}} \right),&\frac{1}{2} < {x_n} \le 1 \end{aligned}} \right.} $$ (11)

    反向解的定义为: 在$ {D} $维空间中的一个可行解为${{{\boldsymbol{x}}}}^{}=\left({{x}}_{1}^{},{{x}}_{2}^{}, \cdots ,{{x}}_{{D}}^{}\right), {{\boldsymbol{x}}}= \left[{a}, {b}\right] ,$则其反向解为${\boldsymbol{x}}' = \left( {x_1',x_2', \cdots ,x_D'} \right)$, 其中, $x_i' = a + b - {x_i}.$

    综上所述, 采用Tent映射反向学习初始化种群的具体步骤如下:

    步骤 1. 在搜索空间中使用Tent映射产生$ {N} $个天牛种群的位置${{x}}_{{ij}},\;{i}=1, 2, \cdots ,{D};{j}=1, 2, \cdots , {N}$作为初始种群OB;

    步骤 2. 根据反向解的定义, 产生初始种群OB中的每个天牛群体$ {x}_{{ij}} $的反向群体$x_{ij}'$作为反向种群FB;

    步骤 3. 合并种群OB和FB, 使用升序将这$ 2{N} $个天牛群体的适应度值排序, 选取其中适应度值前$ {N} $的天牛群体作为初始种群.

    1.2.2   莱维飞行的群体学习策略

    标准BAS算法中, 天牛个体的搜索范围有限, 搜索位置从全局最优向局部最优转移比较困难. 虽然将个体搜索改为群体搜索能够扩大种群的搜索范围, 但由于天牛个体之间没有信息交流和反馈, 会影响算法的收敛精度. 根据粒子群算法可知, 群体中个体在移动过程中, 需不断学习历史群体经验, 即个体最优应具有向历史最优移动的趋势, 这种移动趋势能够对算法收敛速度的提升起到决定性作用. 为此, 在粒子群算法框架下, 引入具有莱维飞行的指导性学习策略.

    莱维分布是20世纪30年代法国数学家莱维(Levy)提出的一种概率分布, Mandelbrotb对其进行了详细描述[22]. 莱维飞行作为一种服从莱维分布的随机搜索方法, 可以增加种群的多样性, 扩大搜索范围, 避免算法陷入局部最优, 可有效增强算法的寻优能力. 其中莱维分布满足

    $${{Levy}} \sim u = {t^{ - \theta }},\;\;1 < \theta \le 3$$

    莱维飞行模型较为复杂, 目前使用Mantegna算法进行模拟, 数学表达式如下:

    步长$ {t} $的计算公式为

    $${t} =\dfrac{{\mu }}{{\left|{v}\right|}^{\frac{1}{\theta }}}$$

    其中, $ {\mu },{v} $服从正态分布

    $$\begin{array}{l} \mu \sim {\rm{N}}\left( {0,{\rm{\sigma }}_\mu ^2} \right)\\ v \sim {\rm{N}}\left( {0,{\rm{\sigma }}_v^2} \right) \end{array}$$
    $${{\rm{\sigma }}_\mu } = {\left[ {\dfrac{{\Gamma \left( {1 + \theta } \right)\times\sin \dfrac{{{\rm{\pi }}\theta }}{2}}}{{\Gamma \left( {\dfrac{{1 + \theta }}{2}} \right)\times\theta \times{2^{\frac{{\theta - 1}}{2}}}}}} \right]^{\frac{1}{\theta }}}$$

    其中, $ {\Gamma } $是标准的伽马分布, 为节约计算时间取$ {\theta }=1. 5 $.

    图1是莱维飞行的轨迹示意图. 由于莱维飞行是二阶矩发散的, 所以其在运动过程中的跳跃性很大.

    图 1  莱维飞行轨迹示意图
    Fig. 1  Levy flight path diagram

    指导性学习策略中天牛朝向的公式通过莱维飞行策略进行更新:

    $$\begin{split} {{d}}\left( {t + 1} \right) =\;& \omega \times{{d}}\left( t \right) + {C_1} \times{{Levy}}\left( \theta \right) \times\\ &\left( {gbest\left( t \right) - {{X}}\left( t \right)} \right) + {C_2} \times{{Levy}}\left( \theta \right) \times\\ &\left( {zbest - {{X}}\left( t \right)} \right)\\[-10pt] \end{split}$$ (12)

    最终个体位置更新式为

    $$\begin{split} {{X}}\left( {t + 1} \right) =\;& {{X}}\left( t \right) + {k_1} \times step \times d\left( t \right) \times\\ &{\rm{sign}}\left( {{{f}}\left( {{{{X}}_r}\left( t \right)} \right) - {{f}}\left( {{{{X}}_l}\left( t \right)} \right)} \right) + {k_2}{{d}}\left( t \right) \end{split}$$ (13)

    其中, ${{d}}\left( t \right)$表示第$ {t} $代天牛的朝向, ${{X}}\left( t \right)$表示第$ {t} $代天牛的位置, $ {gbest}\left({t}\right) $表示第$ {t} $代天牛的个体极值, $ {zbest} $表示迄今为止的全局极值, $ {\omega } $为惯性权重, $ {{C}}_{1},{{C}}_{2} $为学习因子, ${Levy}\left( \theta \right)$为莱维随机数. ${{f}}\left( {{{{X}}_l}\left( t \right)} \right)$表示第$ {t} $代天牛左须的适应度函数值, ${{f}}\left( {{{{X}}_r}\left( t \right)} \right)$表示第$ {t} $代天牛右须的适应度函数值, $ {step} $为天牛步长, $ {{k}}_{1},{{k}}_{2} $为比例系数, ${{\rm{sign}}}$为符号函数. 天牛朝向公式中, 第2部分是自学习部分, 表示天牛个体对自身历史的记忆, 有向自身最优位置移动的趋势; 第3部分为社会学习部分, 表示天牛个体之间的学习以及群体的历史经验, 有向群体最优位置移动的趋势.

    1.2.3   动态变异策略

    天牛群算法在迭代后期种群的多样性会越来越低, 使算法的搜索能力下降. 为避免迭代后期出现早熟现象, 引入动态变异策略, 增加天牛种群在迭代后期的多样性, 提高算法的收敛精度. 目前, 相关学者提出了多种变异算法, 典型的变异算法有高斯变异(Gaussian mutation)[23]和柯西变异(Cauchy mutation)[24]. 柯西算子相比于高斯算子具有较长的两翼, 可以产生大范围的随机数, 使算法有更大的机会跳出局部最优, 同时, 当峰值较低时柯西变异只需要花费更少的时间来搜索附近区域. 柯西变异概率分布如图2所示.

    图 2  柯西变异概率分布图
    Fig. 2  Cauchy variation probability distribution map

    因此, 选择柯西变异对天牛群体进行二次寻优, 对X进行变异操作, 即

    $$\begin{split} &{{{{X}}^*}\left( t \right) = {{X}}\left( t \right) + \eta *{{C}}\left( {0,1} \right)}\\ &\eta = {\rm{e}}^{ - \lambda \frac{t}{T}} \end{split}$$ (14)

    其中, $ {\eta } $是变异权重, 其值随着迭代次数的增加而减小, $ {T} $为最大迭代次数, $ {\lambda }=10 $为常数, ${{C}}\left( {0,1} \right)$是比例参数为1的柯西算子产生的一个随机数.

    1.2.4   天牛群算法步骤

    天牛群算法的步骤如下, 具体流程图如图3所示.

    图 3  天牛群算法流程图
    Fig. 3  Flow chart of BSO algorithm

    步骤 1. 初始化天牛群算法参数: 设置天牛规模、迭代步长、最大迭代次数, 使用Tent映射反向学习策略初始化天牛群体, 初始化天牛朝向.

    步骤 2. 计算群体中天牛个体相应的适应度函数值, 根据适应度函数值确定种群的个体极值和全局极值.

    步骤 3. 利用式(12)和式(13) 更新天牛个体的朝向以及位置, 对天牛种群进行越界处理.

    步骤 4. 利用式(14)对天牛种群进行变异操作.

    步骤 5. 判断算法是否满足迭代终止条件, 若满足则输出全局最优解及其对应的位置, 否则返回步骤2.

    1.2.5   天牛群算法伪代码

    天牛群算法伪代码如下所示:

    Algorithm 1. BSO algorithm

    Input: population size N, step size Step, maximum number of iteration T, dimension D, inertia weight W, learning factor $ {C}_{1},{C}_{2} ,$ratio $ {k}_{1},{k}_{2}, $constant $ \lambda , $the distance between the two whisks and the center of mass $ l $

    Output: best BSO zbest

    1. Initialize the BSO population X with Tent map reverse-  learning strategy, initialize the BSO toward d with random  solutions, initialize Levy flight factor Levy$( \theta ) $

    2. Calculate fitness of X, find global best BSO as zbest,  find local best BSO as gbest

    3. for i = 1 to T do

    4.   $d = d/{{norm}}\left( d \right)$

    5.   $\eta = {{\rm{e}}^{ - \lambda \frac{i}{T}}}$

    6.   for j = 1 to N do

    7.    ${{{X}}_l}\left( j \right) = {{X}}\left( j \right) + d\left( j \right)\times l$

    8.    Calculate fitness of ${{{X}}_l}$

    9.    ${{{X}}_r}\left( j \right) = {{X}}\left( j \right) - d\left( j \right)\times l$

    10.    Calculate fitness of ${{{X}}_r}$

    11.   BSO toward : ${{d}}( {t + 1} ) = \omega \times {{d}}( t ) + {C_1} \times {{Levy}}( \theta )\times$   $( {gbest( t ) - {{X}}( t )} ) + {C_2}\times{{Levy}}( \theta )\;\times\;( zbest \;-$   ${{X}}( t ) )$

    12.   population: ${{X}}( {t + 1} ) = {{X}}( t ) + {k_1} \times step\times d( t )\times$    ${\rm{sign}}( {{{f}}( {{{{X}}_r}( t )} ) - {{f}}( {{{{X}}_l}( t )} )} ) + {k_2}{{d}}( t ) $

    13.   mutation: ${{{X}}^*}\left( t \right) = {{X}}\left( t \right) + \eta \times{{C}}\left( {0,1} \right)$

    14.  end for

    15.  Calculate fitness of new BSO, if new BSO are better,   update it in the population zbest and gbest

    16. end for

    1.2.6   天牛群算法性能分析

    为验证BSO算法的性能, 选取${{F}}( x ): \min f(x) =$$\sum\nolimits_{i = 1}^n {x_i^2}$单峰函数对算法进行函数寻优以及收敛性测试, ${{F}}( x )$搜索范围设置为$ \left[-\mathrm{10,10}\right] $, 并且与GA (Genetic algorithm)、PSO (Particle swam optimization)、DE (Differemtial evolution)和BAS算法进行对比, 算法迭代次数设置为5 000次并运行20次. 图4描述了5种算法在函数${{F}}( x )$上的测试结果. 由图4可知, 相比于GA、PSO、DE、BAS四种优化算法, BSO的收敛速度和收敛精度都有明显优势. 一方面引入莱维飞行的群体学习策略, 平衡算法的全局搜索和局部搜索能力, 加快算法的收敛; 另一方面加入动态变异策略, 帮助算法跳出局部最优, 使寻优速率加快. 故相比于传统算法, BSO算法的性能具有明显的提升.

    图 4  算法测试结果图
    Fig. 4  Test result graph of algorithm

    基于上述分析和推导, 将LU分解和BSO算法引入RELM算法, 并建立基于BSO-IRELM的入侵检测模型.

    适应度函数是判断个体适应环境能力大小的标准. 因此, 适应度函数的选择直接影响算法的收敛精度以及能否找到最优解. 文献[25]将入侵检测准确率、误报率以及特征数的比例权重作为适应度函数, 既增加了计算量又会因计数不当导致收敛精度较低; 文献[26]将群智能算法函数值的分段函数作为适应度函数, 需通过函数值确定适应度函数表达式, 增加了计算复杂度.

    将入侵检测误差和函数作为适应度函数, 预测结果可由神经网络直接得到, 计算方便, 无需反复确定适应度函数表达式, 也不会因计数不当造成误差. 其数学表达式为

    $${{f}} = \displaystyle\sum\limits_{k = 1}^M {\left| {{y_k} - y_k'} \right|} $$ (15)

    其中, $ {{y}}_{{k}} $表示网络的实际输出, $y_k'$表示网络的训练输出, $ {M} $表示输入神经元的个数.

    使用BSO优化IRELM的基本思路是求出适应度函数最好的一组天牛位置, 在迭代结束时把该位置作为IRELM的最优初始权值和阈值建立入侵检测模型, 模型描述如图5所示.

    图 5  BSO-IRELM算法入侵检测框架图
    Fig. 5  BSO-IRELM Algorithm intrusion detection framework

    入侵检测框架的步骤如下:

    步骤 1. 对原始的NSL-KDD数据集进行预处理. 预处理过程包括2个子步骤:

    步骤 1.1. 高维数据特征映射. 本文使用高维特征映射, 将离散型特征转化为数字型特征.

    步骤 1.2. 数据归一化. 由于同种属性的数据之间差异较大, 影响神经网络的训练, 因此将数据归一化为[−1, 1]的实数.

    步骤 2. 标准数据集划分. 将标准数据集划分为训练集和测试集.

    步骤 3. 模型训练. 对IRLEM进行训练和参数调优. 本过程包括4个子步骤:

    步骤 3.1. 初始化IRELM模型参数. innum个输入层节点、midnum个隐藏层节点和outnum个输出层节点以及网络初始权值和阈值.

    步骤 3.2. 初始化天牛群体. 天牛种群大小$ {N} .$所求问题维度$D =({innum}+1)\times{midnum} ({midnum}+ 1)\times$${outnum}$和最大迭代次数 $ {T} $及天牛种群位置 $ {{x}}_{{i}} $.

    步骤 3.3. 根据训练样本和适应度函数计算天牛群适应度函数值, 对适应度函数值升序排列并寻找天牛群的最优位置和最优适应度函数值. 若满足迭代终止条件, 则迭代结束转到步骤3.4; 否则转到步骤3.3.

    步骤 3.4. 输出BSO全局最优位置对应的权值和阈值, 即IRELM的最优初始权值和阈值.

    步骤 4. 将测试数据输入到训练好的BSO-IRELM入侵检测模型中, 进而得到每条数据的分类结果.

    BSO-IRELM伪代码如下所示:

    Algorithm 2. BSO-IRELM intrusion detection algorithm

    Module 1: dataset preprocessing

    1. High dimensional data feature mapping

    2. Data normalization

    3. Divide training dataset and testing datasetModule 2: population preprocessing

    4. Set the parameters, initialize the position and orientation of the BSOModule 3: BSO-IRELM intrusion detection

    5. Initialize the weights and thresholds of IRELM

    6. if the maximum number of iterations is not reached

    7.  According to the training dataset, the fitness function  value of BSO were calculated, the global optimum  and it corresponding position

    8.  Update the position of the BSO, transgress and mutate   the BSO

    9. else

    10. Output the optimal initial weights and thresholds

    11. end

    12. Establish BSO-IRELM model

    13. if testing phase is not complete

    14. Enter the testing dataset for testing

    15. else

    16. Complete the testing

    17. end

    18. Output classification result

    2.4.1   LU分解复杂度

    线性方程组的求解方法较多, 直接使用矩阵求逆计算不仅对硬件资源的占有量有影响, 还影响权值的更新速度. 因此, 对于硬件平台来说, 由于物理资源有限, 需要找到一种低能耗且快速的求解方法. 矩阵求逆的计算步骤繁多, 运算量大, 时间复杂度高, 所以在使用硬件实现时考虑采用LU分解法. 为进一步说明LU分解的优势, 对矩阵求逆和LU分解作如下分析: 对于n阶的方阵, 矩阵求逆的算法复杂度为${\rm{O}} ({{n}}^{3})$, LU分解的算法复杂度为${\rm{O}} ({{2}/{3}\times {n^3}})$, 虽然二者数量级相同, 但因系数存在差异, 因此在运行时间上存在显著差异. 为更加直观地说明两种算法的复杂度, 对一个10阶矩阵进行实验, 结果表明, 矩阵求逆的运行时间为0.4491 s, LU分解的运行时间为0.0479 s, 运行时间大大缩短. 本文后续使用数据集的维度远远大于10阶, 故使用LU分解的优势将更加明显.

    2.4.2   BSO算法复杂度

    假设算法最大迭代次数为${{t}}_{{\max}}$, 维度为$ {D}. $在BAS算法中, 初始化天牛个体, 其算法复杂度为${\rm{O}}\left( D \right).$在每一次迭代中需要完成以下步骤, 先计算天牛个体的适应度值并找出当前最优位置, 其时间复杂度为$ {\rm{O}}\left(1\right), $之后天牛个体更新位置, 其时间复杂度为$ {\rm{O}}\left(1\right) $, 故一次迭代的算法复杂度为$ {\rm{O}}\left(1+1\right) .$总的时间复杂度为${\rm{O}}({{t}}_{{\max}}(1+1)+{D})$, 即为${\rm{O}}({{t}}_{{\max}}).$相比于BAS, BSO使用群体, 假设种群规模为$ {N} $, 初始化种群, 其算法复杂度为$ {\rm{O}}\left({ND}\right) $. 在每一次迭代中需要完成以下步骤, 先计算天牛群的适应度值并找出种群中个体最优和全局最优, 其时间复杂度为$ {\rm{O}}\left({N}\right) $, 之后天牛群位置更新, 其时间复杂度为$ {\rm{O}}\left({N}\right) $, 故一次迭代的算法复杂度为$ {\rm{O}}\left({N}+{N}\right) $. 总的时间复杂度为${\rm{O}}\left({{t}}_{{\max}}\left({N}+{N}\right)+{ND}\right)$, 即为${\rm{O}}\left({{t}}_{{\max}}{N}\right)$. 故BSO总的时间复杂度大于BAS, 但BSO克服了BAS极易陷入局部最优以及搜索范围有限的缺点, 提高了BSO的收敛精度.

    2.4.3   BSO-IRELM算法复杂度

    假设算法最大迭代次数为$ {{t}}_{{\max}}, $种群规模为$ {N} ,$所求问题维度$D = \left({innum} + 1\right) \times {midnum} + ({midnum}\,+$$1)\times{outnum}.$在BSO-RELM模型中, BSO使用Tent映射反向学习初始化种群, 其算法复杂度为$ {\rm{O}}\left({ND}\right) $. 计算种群的适应度函数值并找出种群中个体最优和全局最优, 其时间复杂度为$ {\rm{O}}\left({N}\right) $. 在每一次迭代中需要完成以下步骤, 根据训练集通过矩阵求逆计算天牛群的适应度函数值, 其时间复杂度为${\rm{O}}({{midnum}}^{3}\times{N})$, 之后找出种群的个体最优和全局最优, 并对天牛群位置更新, 其时间复杂度为$ {\rm{O}}\left({N}\right),$故一次迭代的算法复杂度为$ {\rm{O}}({N}+ $${{midnum}}^{3}\times {N})$. 最后, 使用测试集对BSO-RELM模型进行性能测试, 其时间复杂度为${\rm{O}}({{midnum}}^{3}) .$总的时间复杂度为$ {\rm{O}}({{t}}_{{\max}}({N}+{{midnum}}^{3}\times{N})+{ND}+ $$ {N}+{{midnum}}^{3}) $. 相比于BSO-RELM模型, BSO-IRELM中通过LU分解求解天牛群适应度函数值, 其时间复杂度为${\rm{O}}({2}/{3} \times {{midnum}}^{3} \times {N})$, 总的时间复杂度为${\rm{O}}({{t}}_{{\max}}({N}+ {2}/{3}\times{{midnum}}^{3}\times{N})+{ND}+ {N} +{2}/{3}\times{{midnum}}^{3})$. 故BSO-IRELM的时间复杂度远小于BSO-RELM, 且其检测精度远优于BSO-RELM.

    模型中参数设置如下.

    1)群智能算法参数[27]表1所示.

    表 1  群智能算法参数
    Table 1  Swarm intelligence algorithm parameters
    参数参数
    自学习因子2.4群体学习因子1.6
    交叉概率0.7遗传概率0.5
    惯性权重0.8种群数量50
    比例系数0.4, 0.6惩罚因子0.5
    下载: 导出CSV 
    | 显示表格

    2) RELM神经网络模型参数为: 100-50-1, 迭代次数为100.

    RELM模型参数通过GA-RELM二分类实验确定. 迭代次数设置为100, 隐含层单元分别为20, 30, 40, 50, 60. 实验结果表明, 包含50个隐含层单元的模型具有最优的检测准确率. 当把隐含层的个数从50增加到60时, 入侵检测的准确率有所下降. 保持隐含层单元数量不变, 增加迭代次数, 模型的检测性能也只会由于过度拟合而产生波动.

    模型中使用到的数据集如下.

    1) UCI数据集[28]表2所示.

    表 2  UCI数据集
    Table 2  UCI dataset
    数据集维度类别数样本总数测试样本数
    Iris4315030
    Wine13317830
    下载: 导出CSV 
    | 显示表格

    2)入侵检测数据集[29]: NSL-KDD数据集, 训练样本9 850条数据, 测试样本2 000条数据.

    为了验证算法的有效性, 在UCI数据集上将BSO-IRELM与IRELM、GA-IRELM、PSO-IRELM、BSO-RELM以及传统RELM进行对比.

    表3 ~ 5中列出了各算法的性能评价指标, 并在图6中给出了部分算法的预测结果. 从图6可以直观地看出, BSO-IRELM算法具有较好的预测结果, 在Iris数据集中, BSO-IRELM的真实值和预测值完全重合, 可以实现完美分类; 在Wine数据集中, BSO-IRELM仅存在一个错误分类. 从表3 ~ 5中可以看出, 各算法的性能评价指标均较优, 这与本文估计基本一致. 因为两个数据集的大小相当, 且是平衡数据集, 所以检测结果较理想. 相比于PSO-IRELM和GA-IRELM, BSO-IRELM的性能评价指标均有所提高, 这充分说明BSO算法较PSO算法和GA算法具有更优的寻优能力. 此外, 在所有测试条件下, BSO-IRELM的各项性能也优于BSO-RELM、IRELM和传统的RELM算法, 这说明了引入LU分解法以及BSO算法的必要性, 同时也验证了之前关于RELM存在潜在问题的假设. 从而验证了BSO-IRELM算法具有较优的分类性能, 因此, 进一步将BSO-IRELM算法应用到网络入侵检测中验证它的可行性.

    表 3  各算法在UCI数据集上的准确率(%)
    Table 3  Accuracy of each algorithm on UCI dataset (%)
    数据集RELMIRELMGA-IRELMPSO-IRELMBSO-RELMBSO-IRELM
    Iris76.6667 (23/30)90 (27/30)96.6667 (29/30)100 (30/30)100 (30/30)100 (30/30)
    Wine80 (24/30)90 (27/30)93.3333 (28/30)93.3333 (28/30)93.3333 (28/30)96.6666 (29/30)
    下载: 导出CSV 
    | 显示表格
    表 4  各算法在Iris数据集上的性能评价指标
    Table 4  Performance evaluation index of each algorithm on Iris dataset
    算法类别精确率 (%)TPR (%)FPR (%)F值 (%)AUC
    RELM1100 (9/9)81.8182 (9/1)0 (0/14)900.9091
    250 (5/10)83.3333 (5/6)21.7391 (5/23)62.50.8125
    381.8182 (9/11)69.2308 (9/13)12.5 (2/16)750.7873
    IRELM1100 (8/8)100 (8/8)0 (0/19)1001
    275 (9/12)100 (9/9)14.2857 (3/21)85.71430.9286
    3100 (10/10)76.9231 (10/13)0 (0/17)86.95650.8846
    GA-IRELM1100 (13/13)100 (13/13)0 (0/16)1001
    2100 (7/7)87.5 (7/8)0 (0/22)93.33330.9375
    390 (9/10)100 (9/9)4.7619 (1/21)94.73680.9762
    PSO-IRELM1100 (8/8)100 (8/8)0 (0/22)1001
    2100 (12/12)100 (12/12)0 (0/28)1001
    3100 (10/10)100 (10/10)0 (0/20)1001
    BSO-RELM1100 (13/13)100 (13/13)0 (0/17)1001
    2100 (10/10)100 (10/10)0 (0/20)1001
    3100 (7/7)100 (7/7)0 (0/23)1001
    BSO-IRELM1100 (12/12)100 (12/12)0 (0/18)1001
    2100 (5/5)100 (5/5)0 (0/25)1001
    3100 (13/13)100 (13/13)0 (0/17)1001
    下载: 导出CSV 
    | 显示表格
    表 5  各算法在Wine数据集上的性能评价指标
    Table 5  Performance evaluation index of each algorithm on Wine dataset
    算法类别精确率 (%)TPR (%)FPR (%)F值 (%)AUC
    RELM181.8182 (9/11)100 (9/9)11. 7647 (2/17)900.9524
    266.6667 (8/12)80 (8/10)20 (4/20)72.72730.8000
    3100 (7/7)63.6364 (7/11)0 (0/17)77.77780.8182
    IRELM188.8889 (8/9)88.8889 (8/9)5 (1/20)88.88890.9206
    290.9091 (10/11)83.3333 (10/12)5.5556 (1/18)86.95650.8889
    390 (9/10)100 (9/9)5.2632 (1/19)94.73680.9762
    GA-IRELM187.5 (7/8)100 (7/7)4. 5455 (1/22)93. 33330.9783
    2100 (16/16)88. 8889 (16/18)0 (0/12)94.11760.9444
    383.3333 (5/6)100 (5/5)4.1667 (1/24)90.90910.9800
    PSO-IRELM190 (9/10)100 (9/9)5 (1/20)94.73680.9762
    290. 9091 (10/11)90.9091 (10/11)5.2632 (1/19)90.90910.9282
    3100 (9/9)90 (9/10)0 (0/19)94.73680.9500
    BSO-RELM190.9091 (10/11)100 (10/10)5.2632 (1/19)95.23810.9750
    287.5 (7/8)87.5 (7/8)4.5455 (1/22)87.50.9148
    3100 (11/11)91.6667 (11/12)0 (0/17)95.65220.9583
    BSO-IRELM1100 (12/12)92.3077 (12/13)0 (0/17)960.9615
    292.3077 (12/13)100 (12/12)5.5556 (1/18)960.9722
    3100 (5/5)100 (5/5)0 (0/24)1001
    下载: 导出CSV 
    | 显示表格
    图 6  部分算法在UCI数据集上的检测结果
    Fig. 6  The detection results of part algorithm on UCI dataset

    将4类攻击合并为Abnormal (非正常), 标记为2, 正常数据(Normal)标记为1, 实验转化为2元分类问题. 表6表7给出了各算法的实验结果. 图7图8分别给出了2元分类混淆矩阵和ROC (Receiver operating characteristic)曲线对比图. 从表中可以看出, BSO-IRELM在检测正常数据和攻击类型数据方面效果较好. 由于2元分类数据集是非平衡数据集, 2种数据数量相差较大, 所以准确率无法反映非平衡数据集的真实情况, 故除准确率外, 还从精确率、真正率(True positive rate, TPR)、假正率(False positive rate, FPR)、F值和AUC (Area under curve)对2元分类进行评价, 上述指标的计算方法参照文献[30]. 在大多数测试条件下, BSO-IRELM的性能优于BP、LR (Logistics regression)、RBF (Radial basis function)、AB (AdaBoost), 可以取得与PSO-IRELM、GA-IRELM和SVM (Support vector machine)相近的分类性能, 总体上优于PSO-IRELM、GA-IRELM和SVM. 且性能远优于IRELM和传统RELM. 特别地, BSO-IRELM的F值和AUC均最优, 但在精确率方面, 比BP差2.6477%, 在真正率方面, 比LR差1.94814%, 而在假正率方面, 比PSO-IRELM差0.3509%. 由于测试集是由随机选取的2 000条数据组成, BSO-IRELM中攻击类型数据所占比重较大, 故精确率、真正率和假正率略差. 混淆矩阵将数据集中的记录按照实际结果和预测结果进行汇总, 实现可视化. 从图7可以看出, BSO-IRELM的分类模型最准确, 因为此时一、三象限对应位置的数值最大, 而二、四象限对应位置的数值最小, 且BP用于入侵检测的能力最差, 相比于各算法, BP模型将大量攻击类型数据预测为正常类型, 会给网络安全带来很大的威胁. 此时BP神经网络可能因为训练过程中, 权值收敛到局部极小点导致网络训练失败. ROC曲线图是反映真正率和假正率之间关系的曲线. 曲线将整个图划分为两个部分, 曲线下部分的面积即为AUC, 用来表示预测准确性, AUC越高, 说明预测准确率越高. 从图8可以看出, 在各算法中, 无论检测正常数据还是攻击类型数据, BSO-IRELM的AUC均较优, 但相比于RBF的正常数据检测差0.0359. 在大多数情况下, BP、SVM的AUC优于IRELM和传统RELM, 但相比于PSO-IRELM、GA-IRELM以及BSO-IRELM, AUC均较差. 这充分说明, RELM潜在的参数问题对于分类性能的影响, 突出了引入LU分解法以及BSO算法的必要性, 验证了BSO-IRELM相比于BP和传统RELM对于2元分类的入侵检测具有较好的检测性能.

    表 6  各算法的准确率(%)
    Table 6  Accuracy of each algorithm (%)
    算法 准确率
    BP 78.1 (1562/2000)
    LR 81.3 (1626/2000)
    RBF 88.9 (1778/2000)
    AB 86.15 (1723/2000)
    SVM 91.15 (1823/2000)
    RELM 81.45 (1629/2000)
    IRELM 83.9 (1678/2000)
    GA-IRELM 89.5 (1790/2000)
    PSO-IRELM 90.45 (1809/2000)
    BSO-IRELM 91.25 (1825/2000)
    下载: 导出CSV 
    | 显示表格
    表 7  各算法的性能评价指标
    Table 7  Performance evaluation index of each algorithm
    算法类别精确率 (%)TPR (%)FPR (%)F值 (%)AUC
    BP145.2915 (303/669)80.8 (303/375)22.5231 (366/1625)58.0460.7914
    294.5905 (1259/1331)77.4769 (1259/1625)19.2 (72/375)85.18270.7914
    LR185.7143 (6/7)1.5831 (6/379)0.06169 (1/1621)3.10880.5076
    281.2845 (1620/1993)99.9383 (1620/1621)98.4169 (373/379)89.65140.5076
    RBF167.8663 (264/389)73.1302 (264/361)7.6266 (125/1639)70.40.8275
    293.9789 (1514/1611)92.3734 (1514/1639)26.8698 (97/361)93.16920.8275
    AB167.9825 (155/228)43.1755 (155/359)4.4485 (73/1641)52.81090.6936
    288.4876 (1568/1772)95.5515 (1568/1641)56.8245 (204/359)91.8840.6936
    SVM189.7674 (193/215)55.4598 (193/348)1.3317 (22/1652)68.56130.7706
    291.3165 (1630/1785)98.6683 (1630/1652)44.5402 (155/348)94.85020.7706
    RELM153.6339 (140/261)35.8974 (140/390)7.5155 (121/1610)43.00880.6711
    285.6239 (1489/1739)92.4844 (1489/1610)64.1025 (250/390)88.92200.7076
    IRELM155.5556 (145/261)41.3105 (145/351)7.0346 (116/1649)47.38560.6714
    288.1541 (1533/1739)92.9654 (1533/1649)58.6894 (206/351)90.49580.7280
    GA-IRELM188.8412 (207/233)52.9412 (20/391)1.6159 (26/1609)66.34620.7566
    289.5868 (1583/1767)98.3840 (1583/1609)47.0588 (184/391)93.77920.7955
    PSO-IRELM184.5588 (230/272)60.686 (230/379)2.5910 (42/1621)70.66050.7905
    291.3773 (1579/1728)97.4090 (1579/1621)39.3139 (149/379)94.29670.8066
    BSO-IRELM186.747 (216/249)60.3352 (216/358)2.0097 (33/1642)71.16970.7916
    291.9428 (1609/1751)97.9902 (1609/1642)39.6648 (142/358)94.87020.8416
    下载: 导出CSV 
    | 显示表格
    图 7  2元分类混淆矩阵
    Fig. 7  Binary classification confusion matrix
    图 8  2元分类ROC曲线对比图
    Fig. 8  Binary classification of ROC curve comparison diagram

    Normal、Probe、DoS、R2L、U2R各为一类, 分别记为1, 2, 3, 4, 5, 实验变成多分类. 在表8 ~ 13中列出了对比结果, 并在图9中给出了多元分类混淆矩阵, 在图10中给出了多元分类ROC曲线图.

    表 8  不同算法检测准确率(%)
    Table 8  Accuracy of different algorithms (%)
    算法 准确率
    BP 73.1 (1462/2000)
    LR 47.2 (944/2000)
    RBF 81.95 (1639/2000)
    AB 76.05 (1521/2000)
    SVM 83.15 (1663/2000)
    RELM 62.7 (1254/2000)
    IRELM 71.9 (1438/2000)
    GA-IRELM 86.35 (1727/2000)
    PSO-IRELM 86.15 (1723/2000)
    BSO-IRELM 88.7 (1774/2000)
    下载: 导出CSV 
    | 显示表格
    表 9  各算法在Normal上的性能评价指标
    Table 9  Performance evaluation index of each algorithm on Normal
    算法精准率 (%)TPR (%)FPR (%)F值 (%)AUC
    BP77.7778 (14/18)3.8674 (14/362)0.27548 (4/1452)7.36840.5181
    LR76.4706 (13/17)3.6723 (13/354)0.42781 (4/935)7.00810.5172
    RBF66.9377 (247/369)73.5119 (247/336)8.0581 (122/1514)70.07090.8301
    AB52.3517 (256/489)66.8407 (256/383)15.5541 (233/1498)58.71560.7622
    SVM91.2863 (220/241)63.0372 (220/349)1.4344 (21/1464)74.57630.8088
    RELM89.5238 (188/210)53.4091 (188/352)2.0221 (22/1088)66.90390.7604
    IRELM49.7619 (209/420)58.3799 (209/358)14.6528 (211/1440)53.72750.7277
    GA-IRELM88.9706 (242/272)64.191 (242/377)1.9802 (30/1515)74.57630.8117
    PSO-IRELM80.3571 (225/280)61.3079 (225/367)3.5415 (55/1553)69.55180.7897
    BSO-IRELM83.9552 (225/268)66.1765 (225/340)2.701 (43/1592)74.01320.8179
    下载: 导出CSV 
    | 显示表格
    表 10  各算法在Probe上的性能评价指标
    Table 10  Performance evaluation index of each algorithm on Probe
    算法精准率 (%)TPR (%)FPR (%)F值 (%)AUC
    BP82.9787 (390/470)97.5 (390/400)6.9444 (80/1152)89.65520.9625
    LR62.6039 (226/361)56.7839 (226/398)15.8265 (135/853)59.5520.7418
    RBF99.5902 (243/244)59.7052 (243/407)0.071582 (1/1397)74.65440.7982
    AB89.6359 (320/357)82.4742 (320/388)2.9887 (37/1238)85.9060.9009
    SVM73.3728 (372/507)88.7828 (372/419)9.467 (135/1426)80.34560.9012
    RELM51.7661 (425/821)97.7011 (425/435)32.3265 (396/1225)67.67520.8620
    IRELM79.9065 (342/428)91.4439 (342/374)7.2758 (86/1182)85.28680.9308
    GA-IRELM89.8851 (391/435)92.435 (391/423)3.1884 (44/1380)91.14220.9482
    PSO-IRELM89.7638 (3422/381)94.4751 (342/362)2.7465 (39/1420)92.05920.9605
    BSO-IRELM89.6629 (399/445)93.8824 (399/425)3.2372 (396/1225)91.72410.9548
    下载: 导出CSV 
    | 显示表格
    表 11  各算法在DoS上的性能评价指标
    Table 11  Performance evaluation index of each algorithm on DoS
    算法精准率 (%)TPR (%)FPR (%)F值 (%)AUC
    BP93.0233 (600/645)81.5217 (600/736)4.9614 (45/907)86.89360.8898
    LR42.1687 (665/1577)87.5 (665/760)76.5743 (912/1191)56.91060.5698
    RBF99.4074 (671/675)90.9214 (671/738)0.41152 (4/972)94.97520.9530
    AB90.3509 (515/570)70.6447 (515/729)5.1838 (55/1061)79.29180.8316
    SVM84.7118 (676/798)90.1333 (676/750)11.0009 (122/1109)87.33850.9019
    RELM96.7391 (178/184)25.0704 (178/710)0.55453 (6/1082)39.8210.6230
    IRELM96.7059 (411/425)54.0079 (411/761)1.3449 (14/1041)69.30860.7644
    GA-IRELM90.7539 (638/703)89.4811 (638/713)5.6326 (65/1154)90.1130.9222
    PSO-IRELM93.5302 (665/711)89.502 (665/742)4.1667 (16/1104)91.47180.9292
    BSO-IRELM96.3636 (689/715)93.6141 (689/736)2.3402 (26/1111)94.9690.9578
    下载: 导出CSV 
    | 显示表格
    表 12  各算法在R2L上的性能评价指标
    Table 12  Performance evaluation index of each algorithm on R2L
    算法精准率 (%)TPR (%)FPR (%)F值 (%)AUC
    BP87.5 (14/16)31.1111 (14/45)0.13793 (2/1450)45.90160.5150
    LRNaN (0/0)0 (0/32)0 (0/944)NaN0
    RBF68 (17/25)56.6667 (17/30)0.4908 (8/1630)61.81820.7813
    ABNaN (0/0)0 (0/36)0 (0/1521)NaN0
    SVMNaN (0/0)0 (0/36)0 (0/1663)NaN0
    RELM50 (1/2)3.4483 (1/29)0.079745 (1/1254)6.45160.5147
    IRELM81.8182 (9/11)39.1304 (9/23)0.13976 (2/1431)52.94120.6951
    GA-IRELM90.9091 (20/22)57.1429 (20/35)0.11703 (2/1709)70.17540.7852
    PSO-IRELM90.9091 (20/22)54.0541 (20/37)0.1173 (2/1705)67.79660.7698
    BSO-IRELM92.3077 (24/26)82.7586 (24/29)0.39728 (7/1762)69.09090.8258
    下载: 导出CSV 
    | 显示表格
    表 13  各算法在U2R上的性能评价指标
    Table 13  Performance evaluation index of each algorithm on U2R
    算法精准率 (%)TPR (%)FPR (%)F值 (%)AUC
    BP52.1739 (44/851)97.1554 (444/457)28.5614 (407/1425)67.88990.8539
    LR88.8889 (40/45)8.7719 (40/456)0.55006 (5/909)15.96810.5422
    RBF67.1033 (461/687)94.274 (461/489)16.0969 (226/1404)78.40140.8966
    AB73.6301 (430/584)92.6724 (430/464)12.3695 (154/1245)82.06110.9132
    SVM87.0044 (395/454)88.565 (395/446)4.4461 (59/1327)87.77780.9238
    RELM59.0038 (462/783)97.4684 (462/474)28.841 (321/1113)73.50840.8822
    IRELM65.2235 (467/716)96.4876 (467/484)20.4098 (249/1220)77.83330.9003
    GA-IRELM76.7606 (436/568)96.4602 (436/452)9.2762 (132/1423)85.49020.9397
    PSO-IRELM77.7228 (471/606)95.9267 (471/491)9.7332 (135/1387)85.87060.9349
    BSO-IRELM80.9524 (442/546)94.0426 (442/470)7.2423 (104/1436)87.00790.9362
    下载: 导出CSV 
    | 显示表格
    图 9  多元分类混淆矩阵
    Fig. 9  Multiple classification confusion matrix
    图 10  多元分类ROC曲线对比图
    Fig. 10  Multiple classification ROC curve comparison diagram

    表8可以看出, BSO-IRELM的准确率最高, 为88.7%, 其他算法, 如BP、LR、RBF、AB、SVM、RELM、IRELM、GA-IRELM和PSO-IRELM的准确率分别为73.1%, 47.2%, 81.95%, 76.05%, 83.15%, 62.7%, 71.9%, 86.35%和86.15%. 但由于NSL-KDD多分类数据集仍是非平衡数据集, 故从精确率、真正率、假正率、F值和AUC等方面进一步分析各算法的入侵检测性能.

    表9可以看出, 对于Normal类型数据, BP和LR的综合检测性能最差, 真正率仅为3.8647%和3.6723%, 较BSO-IRELM差62.3091%和62.5042%. 大多数情况下, BSO-IRLEM的分类性能与SVM、PSO-IRELM以及GA-IRELM相近, 但较AB、RBF、IRELM和传统RELM性能均有所提升. 由于BSO-IRELM将大量正常数据误判为攻击类型, 因而会导致精确率和假正率略差.

    表10可以看出, 对于Probe类型攻击, BP、AB、IRELM、GA-IRELM、PSO-IRELM和BSO-IRELM的性能相近, 远优于LR、SVM、RBF、RELM的性能, 但总体上BSO-IRELM的性能最优. 此时, 除了LR和RELM, 其余各算法对于Probe类型攻击均具有较强的识别能力.

    表11可以看出, 对于DoS类型攻击, BSO-IRELM的检测性能最优, LR检测性能最差, 除传统RELM和IRELM的真正率较差, 仅为25.0704%和54.0079%, 其余各算法的性能评价指标均较优. 由于DoS的攻击数目最多, 如果使用聚类大小进行判断需要单独处理, 否则检测结果不理想. 但本文判定是根据入侵数据与正常数据的差异, 所以对于攻击数目较多的DoS攻击仍具有较好的检测结果.

    表12可以看出, 对于R2L攻击类型, 在大多数情况下, BP、RBF、RELM和IRELM的性能相近, 效果均较差, LR、AB和SVM的检测性能最差, 基本上无法正确识别R2L攻击类型, 而BSO-IRELM的性能较优, 相比于RELM, 精确率提高了42.3077%, 效果显著, 大大超出预想. R2L攻击总数很少, 而且许多R2L入侵是伪装成合法用户身份进行攻击, 这就使得其特征与正常数据包类似, 造成R2L攻击检测困难. 但BSO-IRELM相比于BP、LR、AB、SVM和传统RELM, 很好地学习了R2L的特征, 并将其正确分类.

    表13可以看出, 对于U2R类型攻击, SVM、AB、GA-IRELM、PSO-IRELM和BSO-IRELM的性能相近, 效果较优, BP、LR、RBF、RELM和IRELM的性能相近, 效果较差, 且BSO-IRELM相比于BP、LR、RBF、AB、SVM和传统RELM, 分类性能均有所提高, AUC分别提高0.0823、0.3940、0.0396、0.0230、0.0124和0.054. 本文对NSL-KDD数据集进行去重并随机产生测试集和训练集, 可以在一定程度上降低不同数据类型数量之间的差距, 使模型学习到更多的U2R特征, 虽然在某些方面检测性能未最优, 但是整体检测性能较好地符合预期.

    当精确率和召回率发生冲突时, 很难对模型进行比较. 而F值同时兼顾了精确率和召回率, 可以看作是精确率和召回率的一种调和平均, 能够更好地评价模型. BSO-IRELM的F值均较优, 对Normal类型数据, 比LR增加67.0051%; 对Probe类型攻击, 比LR增加32.1721%; 对R2L类型攻击, 比RELM增加62.6369%; 对DoS和U2R类型攻击, BSO-IRELM的F值为各算法中最优的. 由于DoS和U2R攻击类型数目较多, BSO-IRELM的特征学习比较充分, 所以对DoS和U2R攻击类型检测的F值最优. 表明特征库中的特征越多、越丰富, 模型的分类效果越好.

    混淆矩阵使用热度图, 通过色差、亮度来展示数据的差异, 易于理解. 深色表示预测值和真实值重合较多的区域, 浅色表示预测值和真实值重合较少的区域. 从图9可以看出, BSO-IRELM的深色区域集中出现在混淆矩阵副对角线上, 且副对角线之和为1 774, 其中BSO-IRELM的分类准确率最优, 符合预期. 从混淆矩阵也可以看出实际分类情况, 如RELM将大量为DoS类型攻击和Normal数据预测为U2R类型攻击, BP将大量的Normal数据和DoS类型攻击预测为U2R攻击类型. SVM基本上无法正确识别R2L攻击类型. ROC曲线存在一个巨大优势, 当正负样本的分布发生变化时, 其形状能够保持基本不变, 因此ROC曲线能够降低不同测试集带来的干扰, 更加客观地衡量模型本身的性能. 从图10可以看出, BSO-IRELM对DoS和R2L攻击类型具有最优的AUC, 对Normal类型, LR的AUC较BSO-IRELM差0.3007, 对Probe类型攻击, RELM的AUC较BSO-IRELM差0.0928, 对U2R攻击类型, BP的AUC较BSO-IRELM差0.0823. 同时, LR对各种类型的AUC均较差, AB、SVM、LR对R2L攻击类型的AUC均为0, BP对Normal类型和R2L攻击类型的AUC均较差.

    综上所述, 在UCI数据集上, BSO-IRELM的各项性能均优于IRELM和传统的RELM算法, 这说明引入LU分解法以及BSO算法的必要性, 同时也验证了之前关于RELM存在潜在问题的假设. 从而验证了BSO-IRELM算法具有较优的分类性能. 在NSL-KDD数据集上进一步进行2元与多元分类入侵检测, 在大多数情况下, BSO-IRELM的性能优于BP、LR、RBF、AB、SVM、IRELM、GA-IRELM、PSO-IRELM和传统RELM算法.

    本文提出了一种基于天牛群优化与改进正则化极限学习机(BSO-IRELM)的网络入侵检测算法, 有效解决了现有方法存在的准确率、精确率、真正率、假正率等偏低的问题. 算法使用了LU分解以求解RELM的输出权值矩阵, 并设计了天牛群优化算法BSO, 实现了对RELM的权值和阈值的联合优化. 实验结果表明, 无论在机器学习数据集UCI或网络入侵检测数据集NSL-KDD上, 与已有方法相比, BSO-IRELM算法在各种评价指标上都具有明显优势. 下一步研究的重点是扩展BSO-IRELM的检测应用领域, 检验其在网络安全威胁检测(如病毒检测、漏洞检测等)中的使用效果.

  • 图  1  莱维飞行轨迹示意图

    Fig.  1  Levy flight path diagram

    图  2  柯西变异概率分布图

    Fig.  2  Cauchy variation probability distribution map

    图  3  天牛群算法流程图

    Fig.  3  Flow chart of BSO algorithm

    图  4  算法测试结果图

    Fig.  4  Test result graph of algorithm

    图  5  BSO-IRELM算法入侵检测框架图

    Fig.  5  BSO-IRELM Algorithm intrusion detection framework

    图  6  部分算法在UCI数据集上的检测结果

    Fig.  6  The detection results of part algorithm on UCI dataset

    图  7  2元分类混淆矩阵

    Fig.  7  Binary classification confusion matrix

    图  8  2元分类ROC曲线对比图

    Fig.  8  Binary classification of ROC curve comparison diagram

    图  9  多元分类混淆矩阵

    Fig.  9  Multiple classification confusion matrix

    图  10  多元分类ROC曲线对比图

    Fig.  10  Multiple classification ROC curve comparison diagram

    表  1  群智能算法参数

    Table  1  Swarm intelligence algorithm parameters

    参数参数
    自学习因子2.4群体学习因子1.6
    交叉概率0.7遗传概率0.5
    惯性权重0.8种群数量50
    比例系数0.4, 0.6惩罚因子0.5
    下载: 导出CSV

    表  2  UCI数据集

    Table  2  UCI dataset

    数据集维度类别数样本总数测试样本数
    Iris4315030
    Wine13317830
    下载: 导出CSV

    表  3  各算法在UCI数据集上的准确率(%)

    Table  3  Accuracy of each algorithm on UCI dataset (%)

    数据集RELMIRELMGA-IRELMPSO-IRELMBSO-RELMBSO-IRELM
    Iris76.6667 (23/30)90 (27/30)96.6667 (29/30)100 (30/30)100 (30/30)100 (30/30)
    Wine80 (24/30)90 (27/30)93.3333 (28/30)93.3333 (28/30)93.3333 (28/30)96.6666 (29/30)
    下载: 导出CSV

    表  4  各算法在Iris数据集上的性能评价指标

    Table  4  Performance evaluation index of each algorithm on Iris dataset

    算法类别精确率 (%)TPR (%)FPR (%)F值 (%)AUC
    RELM1100 (9/9)81.8182 (9/1)0 (0/14)900.9091
    250 (5/10)83.3333 (5/6)21.7391 (5/23)62.50.8125
    381.8182 (9/11)69.2308 (9/13)12.5 (2/16)750.7873
    IRELM1100 (8/8)100 (8/8)0 (0/19)1001
    275 (9/12)100 (9/9)14.2857 (3/21)85.71430.9286
    3100 (10/10)76.9231 (10/13)0 (0/17)86.95650.8846
    GA-IRELM1100 (13/13)100 (13/13)0 (0/16)1001
    2100 (7/7)87.5 (7/8)0 (0/22)93.33330.9375
    390 (9/10)100 (9/9)4.7619 (1/21)94.73680.9762
    PSO-IRELM1100 (8/8)100 (8/8)0 (0/22)1001
    2100 (12/12)100 (12/12)0 (0/28)1001
    3100 (10/10)100 (10/10)0 (0/20)1001
    BSO-RELM1100 (13/13)100 (13/13)0 (0/17)1001
    2100 (10/10)100 (10/10)0 (0/20)1001
    3100 (7/7)100 (7/7)0 (0/23)1001
    BSO-IRELM1100 (12/12)100 (12/12)0 (0/18)1001
    2100 (5/5)100 (5/5)0 (0/25)1001
    3100 (13/13)100 (13/13)0 (0/17)1001
    下载: 导出CSV

    表  5  各算法在Wine数据集上的性能评价指标

    Table  5  Performance evaluation index of each algorithm on Wine dataset

    算法类别精确率 (%)TPR (%)FPR (%)F值 (%)AUC
    RELM181.8182 (9/11)100 (9/9)11. 7647 (2/17)900.9524
    266.6667 (8/12)80 (8/10)20 (4/20)72.72730.8000
    3100 (7/7)63.6364 (7/11)0 (0/17)77.77780.8182
    IRELM188.8889 (8/9)88.8889 (8/9)5 (1/20)88.88890.9206
    290.9091 (10/11)83.3333 (10/12)5.5556 (1/18)86.95650.8889
    390 (9/10)100 (9/9)5.2632 (1/19)94.73680.9762
    GA-IRELM187.5 (7/8)100 (7/7)4. 5455 (1/22)93. 33330.9783
    2100 (16/16)88. 8889 (16/18)0 (0/12)94.11760.9444
    383.3333 (5/6)100 (5/5)4.1667 (1/24)90.90910.9800
    PSO-IRELM190 (9/10)100 (9/9)5 (1/20)94.73680.9762
    290. 9091 (10/11)90.9091 (10/11)5.2632 (1/19)90.90910.9282
    3100 (9/9)90 (9/10)0 (0/19)94.73680.9500
    BSO-RELM190.9091 (10/11)100 (10/10)5.2632 (1/19)95.23810.9750
    287.5 (7/8)87.5 (7/8)4.5455 (1/22)87.50.9148
    3100 (11/11)91.6667 (11/12)0 (0/17)95.65220.9583
    BSO-IRELM1100 (12/12)92.3077 (12/13)0 (0/17)960.9615
    292.3077 (12/13)100 (12/12)5.5556 (1/18)960.9722
    3100 (5/5)100 (5/5)0 (0/24)1001
    下载: 导出CSV

    表  6  各算法的准确率(%)

    Table  6  Accuracy of each algorithm (%)

    算法 准确率
    BP 78.1 (1562/2000)
    LR 81.3 (1626/2000)
    RBF 88.9 (1778/2000)
    AB 86.15 (1723/2000)
    SVM 91.15 (1823/2000)
    RELM 81.45 (1629/2000)
    IRELM 83.9 (1678/2000)
    GA-IRELM 89.5 (1790/2000)
    PSO-IRELM 90.45 (1809/2000)
    BSO-IRELM 91.25 (1825/2000)
    下载: 导出CSV

    表  7  各算法的性能评价指标

    Table  7  Performance evaluation index of each algorithm

    算法类别精确率 (%)TPR (%)FPR (%)F值 (%)AUC
    BP145.2915 (303/669)80.8 (303/375)22.5231 (366/1625)58.0460.7914
    294.5905 (1259/1331)77.4769 (1259/1625)19.2 (72/375)85.18270.7914
    LR185.7143 (6/7)1.5831 (6/379)0.06169 (1/1621)3.10880.5076
    281.2845 (1620/1993)99.9383 (1620/1621)98.4169 (373/379)89.65140.5076
    RBF167.8663 (264/389)73.1302 (264/361)7.6266 (125/1639)70.40.8275
    293.9789 (1514/1611)92.3734 (1514/1639)26.8698 (97/361)93.16920.8275
    AB167.9825 (155/228)43.1755 (155/359)4.4485 (73/1641)52.81090.6936
    288.4876 (1568/1772)95.5515 (1568/1641)56.8245 (204/359)91.8840.6936
    SVM189.7674 (193/215)55.4598 (193/348)1.3317 (22/1652)68.56130.7706
    291.3165 (1630/1785)98.6683 (1630/1652)44.5402 (155/348)94.85020.7706
    RELM153.6339 (140/261)35.8974 (140/390)7.5155 (121/1610)43.00880.6711
    285.6239 (1489/1739)92.4844 (1489/1610)64.1025 (250/390)88.92200.7076
    IRELM155.5556 (145/261)41.3105 (145/351)7.0346 (116/1649)47.38560.6714
    288.1541 (1533/1739)92.9654 (1533/1649)58.6894 (206/351)90.49580.7280
    GA-IRELM188.8412 (207/233)52.9412 (20/391)1.6159 (26/1609)66.34620.7566
    289.5868 (1583/1767)98.3840 (1583/1609)47.0588 (184/391)93.77920.7955
    PSO-IRELM184.5588 (230/272)60.686 (230/379)2.5910 (42/1621)70.66050.7905
    291.3773 (1579/1728)97.4090 (1579/1621)39.3139 (149/379)94.29670.8066
    BSO-IRELM186.747 (216/249)60.3352 (216/358)2.0097 (33/1642)71.16970.7916
    291.9428 (1609/1751)97.9902 (1609/1642)39.6648 (142/358)94.87020.8416
    下载: 导出CSV

    表  8  不同算法检测准确率(%)

    Table  8  Accuracy of different algorithms (%)

    算法 准确率
    BP 73.1 (1462/2000)
    LR 47.2 (944/2000)
    RBF 81.95 (1639/2000)
    AB 76.05 (1521/2000)
    SVM 83.15 (1663/2000)
    RELM 62.7 (1254/2000)
    IRELM 71.9 (1438/2000)
    GA-IRELM 86.35 (1727/2000)
    PSO-IRELM 86.15 (1723/2000)
    BSO-IRELM 88.7 (1774/2000)
    下载: 导出CSV

    表  9  各算法在Normal上的性能评价指标

    Table  9  Performance evaluation index of each algorithm on Normal

    算法精准率 (%)TPR (%)FPR (%)F值 (%)AUC
    BP77.7778 (14/18)3.8674 (14/362)0.27548 (4/1452)7.36840.5181
    LR76.4706 (13/17)3.6723 (13/354)0.42781 (4/935)7.00810.5172
    RBF66.9377 (247/369)73.5119 (247/336)8.0581 (122/1514)70.07090.8301
    AB52.3517 (256/489)66.8407 (256/383)15.5541 (233/1498)58.71560.7622
    SVM91.2863 (220/241)63.0372 (220/349)1.4344 (21/1464)74.57630.8088
    RELM89.5238 (188/210)53.4091 (188/352)2.0221 (22/1088)66.90390.7604
    IRELM49.7619 (209/420)58.3799 (209/358)14.6528 (211/1440)53.72750.7277
    GA-IRELM88.9706 (242/272)64.191 (242/377)1.9802 (30/1515)74.57630.8117
    PSO-IRELM80.3571 (225/280)61.3079 (225/367)3.5415 (55/1553)69.55180.7897
    BSO-IRELM83.9552 (225/268)66.1765 (225/340)2.701 (43/1592)74.01320.8179
    下载: 导出CSV

    表  10  各算法在Probe上的性能评价指标

    Table  10  Performance evaluation index of each algorithm on Probe

    算法精准率 (%)TPR (%)FPR (%)F值 (%)AUC
    BP82.9787 (390/470)97.5 (390/400)6.9444 (80/1152)89.65520.9625
    LR62.6039 (226/361)56.7839 (226/398)15.8265 (135/853)59.5520.7418
    RBF99.5902 (243/244)59.7052 (243/407)0.071582 (1/1397)74.65440.7982
    AB89.6359 (320/357)82.4742 (320/388)2.9887 (37/1238)85.9060.9009
    SVM73.3728 (372/507)88.7828 (372/419)9.467 (135/1426)80.34560.9012
    RELM51.7661 (425/821)97.7011 (425/435)32.3265 (396/1225)67.67520.8620
    IRELM79.9065 (342/428)91.4439 (342/374)7.2758 (86/1182)85.28680.9308
    GA-IRELM89.8851 (391/435)92.435 (391/423)3.1884 (44/1380)91.14220.9482
    PSO-IRELM89.7638 (3422/381)94.4751 (342/362)2.7465 (39/1420)92.05920.9605
    BSO-IRELM89.6629 (399/445)93.8824 (399/425)3.2372 (396/1225)91.72410.9548
    下载: 导出CSV

    表  11  各算法在DoS上的性能评价指标

    Table  11  Performance evaluation index of each algorithm on DoS

    算法精准率 (%)TPR (%)FPR (%)F值 (%)AUC
    BP93.0233 (600/645)81.5217 (600/736)4.9614 (45/907)86.89360.8898
    LR42.1687 (665/1577)87.5 (665/760)76.5743 (912/1191)56.91060.5698
    RBF99.4074 (671/675)90.9214 (671/738)0.41152 (4/972)94.97520.9530
    AB90.3509 (515/570)70.6447 (515/729)5.1838 (55/1061)79.29180.8316
    SVM84.7118 (676/798)90.1333 (676/750)11.0009 (122/1109)87.33850.9019
    RELM96.7391 (178/184)25.0704 (178/710)0.55453 (6/1082)39.8210.6230
    IRELM96.7059 (411/425)54.0079 (411/761)1.3449 (14/1041)69.30860.7644
    GA-IRELM90.7539 (638/703)89.4811 (638/713)5.6326 (65/1154)90.1130.9222
    PSO-IRELM93.5302 (665/711)89.502 (665/742)4.1667 (16/1104)91.47180.9292
    BSO-IRELM96.3636 (689/715)93.6141 (689/736)2.3402 (26/1111)94.9690.9578
    下载: 导出CSV

    表  12  各算法在R2L上的性能评价指标

    Table  12  Performance evaluation index of each algorithm on R2L

    算法精准率 (%)TPR (%)FPR (%)F值 (%)AUC
    BP87.5 (14/16)31.1111 (14/45)0.13793 (2/1450)45.90160.5150
    LRNaN (0/0)0 (0/32)0 (0/944)NaN0
    RBF68 (17/25)56.6667 (17/30)0.4908 (8/1630)61.81820.7813
    ABNaN (0/0)0 (0/36)0 (0/1521)NaN0
    SVMNaN (0/0)0 (0/36)0 (0/1663)NaN0
    RELM50 (1/2)3.4483 (1/29)0.079745 (1/1254)6.45160.5147
    IRELM81.8182 (9/11)39.1304 (9/23)0.13976 (2/1431)52.94120.6951
    GA-IRELM90.9091 (20/22)57.1429 (20/35)0.11703 (2/1709)70.17540.7852
    PSO-IRELM90.9091 (20/22)54.0541 (20/37)0.1173 (2/1705)67.79660.7698
    BSO-IRELM92.3077 (24/26)82.7586 (24/29)0.39728 (7/1762)69.09090.8258
    下载: 导出CSV

    表  13  各算法在U2R上的性能评价指标

    Table  13  Performance evaluation index of each algorithm on U2R

    算法精准率 (%)TPR (%)FPR (%)F值 (%)AUC
    BP52.1739 (44/851)97.1554 (444/457)28.5614 (407/1425)67.88990.8539
    LR88.8889 (40/45)8.7719 (40/456)0.55006 (5/909)15.96810.5422
    RBF67.1033 (461/687)94.274 (461/489)16.0969 (226/1404)78.40140.8966
    AB73.6301 (430/584)92.6724 (430/464)12.3695 (154/1245)82.06110.9132
    SVM87.0044 (395/454)88.565 (395/446)4.4461 (59/1327)87.77780.9238
    RELM59.0038 (462/783)97.4684 (462/474)28.841 (321/1113)73.50840.8822
    IRELM65.2235 (467/716)96.4876 (467/484)20.4098 (249/1220)77.83330.9003
    GA-IRELM76.7606 (436/568)96.4602 (436/452)9.2762 (132/1423)85.49020.9397
    PSO-IRELM77.7228 (471/606)95.9267 (471/491)9.7332 (135/1387)85.87060.9349
    BSO-IRELM80.9524 (442/546)94.0426 (442/470)7.2423 (104/1436)87.00790.9362
    下载: 导出CSV
  • [1] Tsai C F, Hsu Y F, Lin C Y, Lin W Y. Intrusion detection by machine learning: A review. Expert Systems With Applications, 2009, 36(10): 11994-12000 doi: 10.1016/j.eswa.2009.05.029
    [2] 任家东, 刘新倩, 王倩, 何海涛, 赵小林. 基于KNN离群点检测和随机森林的多层入侵检测方法. 计算机研究与发展, 2019, 56(3): 566-575

    Ren Jia-Dong, Liu Xin-Qian, Wang Qian, He Hai-Tao, Zhao Xiao-Lin. An multi-level intrusion detection method based on KNN outlier detection and random forests. Journal of Computer Research and Development, 2019, 56(3): 566-575
    [3] 高妮, 高岭, 贺毅岳, 王海. 基于自编码网络特征降维的轻量级入侵检测模型. 电子学报, 2017, 45(3): 730-739

    Gao Ni, Gao Ling, HE Yi-Yue, Wang Hai. A lightweight intrusion detection model based on autoencoder network with feature reduction. Acta Electronica Sinica, 2017, 45(3): 730-739
    [4] Ahmad I, Basheri M, Iqbal M J, Rahim A. Performance comparison of support vector machine, random forest, and extreme learning machine for intrusion detection. IEEE Access, 2018, 6: 33789-33795 doi: 10.1109/ACCESS.2018.2841987
    [5] Mabu S, Gotoh S, Obayashi M, Kuremoto T. A random-forests-based classifier using class association rules and its application to an intrusion detection system. Artificial Life and Robotics, 2016, 21(3): 371-377 doi: 10.1007/s10015-016-0281-x
    [6] Shenfield A, Day D, Ayesh A. Intelligent intrusion detection systems using artificial neural networks. ICT Express, 2018, 4(2): 95-99 doi: 10.1016/j.icte.2018.04.003
    [7] Ding H W, Wan L. Research on intrusion detection based on KPCA-BP neural network. In: Proceedings of the 18th IEEE International Conference on Communication Technology (ICCT). Chongqing, China: IEEE, 2018. 911−915
    [8] Wang T, Wei L H, Ai J Q. Improved BP Neural Network for Intrusion Detection Based on AFSA. In: Proceedings of the 2015 International Symposium on Computers and Informatics (ISCI). Beijing, China: Atlantis Press, 2015. 373−380
    [9] Huang G, Song S J, Gupta J N D, Wu C. Semi-supervised and unsupervised extreme learning machines. IEEE Transactions on Cybernetics, 2014, 44(12): 2405-2417 doi: 10.1109/TCYB.2014.2307349
    [10] 陆慧娟, 安春霖, 马小平, 郑恩辉, 杨小兵. 基于输出不一致测度的极限学习机集成的基因表达数据分类. 计算机学报, 2013, 36(2): 341-348

    Lu Hui-Juan, An Chun-Lin, Ma Xiao-Ping, Zheng En-Hui, Yang Xiao-Bing. Disagreement measure based ensemble of extreme learning machine for gene expression data classification. Chinese Journal of Computers, 2013, 36(2): 341-348
    [11] 陈晓云, 廖梦真. 基于稀疏和近邻保持的极限学习机降维. 自动化学报, 2019, 45(2): 325-333

    Chen Xiao-Yun, Liao Meng-Zhen. Dimensionality reduction with extreme learning machine based on sparsity and neighborhood preserving. Acta Automatica Sinica, 2019, 45(2): 325-333
    [12] Yang Z X, Wang X B, Wong P K, Zhong J H. ELM based representational learning for fault diagnosis of wind turbine equipment. Proceedings of ELM-2015 Volume 2: Theory, Algorithms and Applications (II). Cham: Springer, 2016. 169−178
    [13] 邹伟东, 夏元清. 基于压缩动量项的增量型ELM虚拟机能耗预测. 自动化学报, 2019, 45(7): 1290-1297

    Zou Wei-Dong, Xia Yuan-Qing. Virtual machine power prediction using incremental extreme learning machine based on compression driving amount. Acta Automatica Sinica, 2019, 45(7): 1290-1297
    [14] Ku J H, Zheng B. Intrusion detection based on self-adaptive differential evolution extreme learning machine with gaussian kernel. In: Proceedings of the 8th International Symposium on Parallel Architecture, Algorithm and Programming. Haikou, China: Springer, 2017. 13−24
    [15] Deng W Y, Zheng Q H, Chen L. Regularized extreme learning machine. In: Proceedings of the 2009 IEEE Symposium on Computational Intelligence and Data Mining. Nashville, USA: IEEE, 2009. 389−395
    [16] Huang G B, Wang D H, Lan Y. Extreme learning machines: A survey. International Journal of Machine Learning and Cybernetics, 2011, 2(2): 107-122 doi: 10.1007/s13042-011-0019-y
    [17] Jiang X Y, Li S. BAS: Beetle antennae search algorithm for optimization problems [Online], available: https://arxiv.org/pdf/1710.10724.pdf, March 27, 2019
    [18] Jiang X Y. Li S. Beetle antennae search without parameter tuning (BAS-WPT) for multi-objective optimization. Filomat, 2020, 34(15): 5113−5119
    [19] 刘影, 钱志鸿, 贾迪. 室内环境中基于天牛须寻优的普适定位方法. 电子与信息学报, 2019, 41(7): 1565-1571 doi: 10.11999/JEIT181021

    Liu Ying, Qian Zhi-Hong, Jia Di. Universal localization algorithm based on beetle antennae search in indoor environment. Journal of Electronics & Information Technology, 2019, 41(7): 1565-1571 doi: 10.11999/JEIT181021
    [20] Wu Q, Ma Z P, Xu G, Li S, Chen D C. A novel neural network classifier using beetle antennae search algorithm for pattern classification. IEEE Access, 2019, 7: 64686-64696 doi: 10.1109/ACCESS.2019.2917526
    [21] Kaur G, Arora S. Chaotic whale optimization algorithm. Journal of Computational Design and Engineering, 2018, 5(3): 275-284 doi: 10.1016/j.jcde.2017.12.006
    [22] Ling Y, Zhou Y Q, Luo Q F. Lévy flight trajectory-based whale optimization algorithm for global optimization. IEEE Access, 2017, 5: 6168-6186 doi: 10.1109/ACCESS.2017.2695498
    [23] Sarangi A, Samal S, Sarangi S K. Analysis of Gaussian and Cauchy mutations in modified particle swarm optimization algorithm. In: Proceedings of the 5th International Conference on Advanced Computing and Communication Systems (ICACCS). Coimbatore, India: IEEE, 2019. 463−467
    [24] Rudolph G. Local convergence rates of simple evolutionary algorithms with Cauchy mutations. IEEE Transactions on Evolutionary Computation, 1997, 1(4): 249-258 doi: 10.1109/4235.687885
    [25] Gauthama Raman M R, Somu N, Kirthivasan K, Liscano R, Shankar Sriram V S. An efficient intrusion detection system based on hypergraph-Genetic algorithm for parameter optimization and feature selection in support vector machine. Knowledge-Based Systems, 2017, 134: 1-12 doi: 10.1016/j.knosys.2017.07.005
    [26] Mazini M, Shirazi B, Mahdavi I. Anomaly network-based intrusion detection system using a reliable hybrid artificial bee colony and AdaBoost algorithms. Journal of King Saud University-Computer and Information Sciences, 2019, 31(4): 541-553 doi: 10.1016/j.jksuci.2018.03.011
    [27] 王东风, 孟丽. 粒子群优化算法的性能分析和参数选择. 自动化学报, 2016, 42(10): 1552-1561 doi: 10.16383/j.aas.2016.c150774

    Wang Dong-Feng, Meng Li. Performance analysis and parameter selection of PSO algorithms. Acta Automatica Sinica, 2016, 42(10): 1552-1561 doi: 10.16383/j.aas.2016.c150774
    [28] UCI. UCI dataset [Online], available: https://archive.ics.uci.edu/ml/index.php, June 27, 2019
    [29] NSL-KDD dataset [Online], available: https://www.unb.ca/cic/datasets/nsl.html, June 27, 2019
    [30] Vinayakumar R, Alazab M, Soman K P, Poornachandran P, Al-Nemrat A, Venkatraman S. Deep learning approach for intelligent intrusion detection system. IEEE Access, 2019, 7: 41525-41550 doi: 10.1109/ACCESS.2019.2895334
  • 期刊类型引用(28)

    1. 王应武,白栩嘉,崔东文. 基于WPT-ISO-RELM模型的月径流时间序列预测研究. 水力发电. 2024(03): 12-18+38 . 百度学术
    2. 季晨岚. 企业财务风险管理中内部审计的价值研究. 电力与能源. 2024(02): 139-143 . 百度学术
    3. 翁建勋. 基于贝叶斯决策的交互式网络恶意入侵主动防御模型构建. 现代信息科技. 2024(07): 165-171 . 百度学术
    4. 陶磊,陈岳,王宏伟,李超,姚林虎. 基于改进SFS算法的锚杆钻臂参数整定研究. 煤炭工程. 2024(04): 218-224 . 百度学术
    5. 李广军,徐祥书. 改进的北方苍鹰算法优化粒子滤波算法. 台州学院学报. 2024(03): 42-52 . 百度学术
    6. 涂锐. 运动体脂监测系统中基于PSO-ELM算法的生物电阻抗-体脂率预测模型研究. 自动化与仪器仪表. 2024(05): 29-32+37 . 百度学术
    7. 张代凤,崔东文. 基于3种新型群体智能算法优化正则化极限学习机的三峡水库入库日径流预测. 长江科学院院报. 2024(07): 16-24 . 百度学术
    8. 贾寒霜,张卡,杨碎明. 基于双向AC算法的列车通信网络异常入侵检测系统设计. 计算机测量与控制. 2024(08): 14-19 . 百度学术
    9. 彭姗姗. 基于优化AE数学模型的计算机网络风险检测与评估方法. 辽东学院学报(自然科学版). 2024(02): 129-135 . 百度学术
    10. 李菊,崔东文. 基于WPT-IDBO-RELM和WPT-IDMO-RELM模型的日径流预测. 水利水电科技进展. 2024(06): 48-55+85 . 百度学术
    11. 鲍鹏飞,刘智昌,姚禧,吴江龙. 配电网隔离开关松动故障的振动非线性行为判别. 自动化与仪器仪表. 2024(11): 288-292+297 . 百度学术
    12. 张婧,范海燕,丁鲁彬,刘凯华,陈杰. 基于麻雀搜索算法的电力数据中心网络入侵安全检测方法. 电气自动化. 2024(06): 103-105 . 百度学术
    13. 王振东,徐振宇,李大海,王俊岭. 面向入侵检测的元图神经网络构建与分析. 自动化学报. 2023(07): 1530-1548 . 本站查看
    14. 钱鑫. 基于改进机器学习的无人机网络入侵自动感知系统设计. 自动化与仪器仪表. 2023(08): 1-4+9 . 百度学术
    15. 高倩. 基于IHGS-SVM算法的网络入侵检测方法. 成都工业学院学报. 2023(05): 39-42+48 . 百度学术
    16. 蔡娟,兰娅勋,刘源. 基于GBDT优化算法的局域网入侵定位与检测研究. 计算机测量与控制. 2023(10): 90-96 . 百度学术
    17. 欧阳城添,黄祖威,朱东林,闫少强. 翻筋斗的改进麻雀搜索算法. 计算机仿真. 2023(09): 355-363+415 . 百度学术
    18. 王大蕾. 基于GRU-LSTM算法的物联网数据入侵检测分析. 电子产品世界. 2023(10): 67-70 . 百度学术
    19. 高雪梅,崔东文. WPT-FLA-RELM模型的马鹿塘水电站入库日径流多步预测. 云南水力发电. 2023(11): 56-62 . 百度学术
    20. 袁小燕,张磊,郑韬. 基于Elman神经网络的入侵检测研究. 现代传输. 2023(06): 55-59 . 百度学术
    21. 刘晋钢,刘晋霞,曹小凤. 深度学习下增量式网络入侵实时检测算法仿真. 计算机仿真. 2023(11): 375-378 . 百度学术
    22. 李媛,刘海峰,曹博涛. 半监督环境下基于AE-ELM模型的工业网络安全防御研究. 计算机测量与控制. 2023(12): 244-250 . 百度学术
    23. 张欣,朱江. 面向样本不平衡的网络安全态势要素获取. 计算机工程与应用. 2022(01): 134-142 . 百度学术
    24. 耿召里,李目,曹淑睿,刘昶忻. 基于混合反向学习策略的鲸鱼优化算法. 计算机工程与科学. 2022(02): 355-363 . 百度学术
    25. 何瑞江. 基于GRU-SVM神经网络的大数据入侵检测方法研究. 微型电脑应用. 2022(02): 127-129 . 百度学术
    26. 陆冠成,蒙艳玫,余双双,董振. 基于深度极限学习机的煮糖制炼自适应控制研究. 甘蔗糖业. 2022(01): 29-36 . 百度学术
    27. 杨云,王勇. 基于麻雀搜索优化深度极限学习机的入侵检测方法. 微电子学与计算机. 2022(06): 79-88 . 百度学术
    28. 逯玉婧. 基于自调节深度信念网络的入侵检测算法. 石家庄职业技术学院学报. 2021(02): 1-4 . 百度学术

    其他类型引用(13)

  • 加载中
图(10) / 表(13)
计量
  • 文章访问数:  763
  • HTML全文浏览量:  293
  • PDF下载量:  181
  • 被引次数: 41
出版历程
  • 收稿日期:  2019-12-16
  • 录用日期:  2020-04-07
  • 网络出版日期:  2022-11-29
  • 刊出日期:  2022-12-23

目录

/

返回文章
返回