-
摘要: 近年来, 卷积神经网络(Convolutional neural network, CNNs)在计算机视觉、自然语言处理、语音识别等领域取得了突飞猛进的发展, 其强大的特征学习能力引起了国内外专家学者广泛关注.然而, 由于深度卷积神经网络普遍规模庞大、计算度复杂, 限制了其在实时要求高和资源受限环境下的应用.对卷积神经网络的结构进行优化以压缩并加速现有网络有助于深度学习在更大范围的推广应用, 目前已成为深度学习社区的一个研究热点.本文整理了卷积神经网络结构优化技术的发展历史、研究现状以及典型方法, 将这些工作归纳为网络剪枝与稀疏化、张量分解、知识迁移和精细模块设计4个方面并进行了较为全面的探讨.最后, 本文对当前研究的热点与难点作了分析和总结, 并对网络结构优化领域未来的发展方向和应用前景进行了展望.Abstract: Recently convolutional neural networks (CNNs) have made great progress in computer vision, natural language processing and speech recognition, which attracts wide attention for their powerful ability of feature learning. However, deep convolutional neural networks usually have large capacity and high computational complexity, hindering their applications in real-time and source-constrained areas. Thus, optimizing the structure of deep model will contribute to rapid deployment of such networks, which has been a hot topic of deep learning community. In this paper, we provide a comprehensive survey of history progress, recent advances and typical approaches in network structure optimization. These approaches are mainly categorized into four schemes, which are pruning & sparsification, tensor factorization, knowledge transferring and compacting module designing. Finally, the remaining problems and potential trend in this topic are concluded and discussed.
-
Key words:
- Convolutional neural networks (CNNs) /
- structure optimization /
- network pruning /
- tensor factorization /
- knowledge transferring
-
卷积神经网络(Convolutional neural network, CNNs)作为最重要的深度模型之一, 由于具有良好的特征提取能力和泛化能力, 在图像处理、目标跟踪与检测、自然语言处理、场景分类、人脸识别、音频检索、医疗诊断诸多领域获得了巨大成功.卷积神经网络的快速发展一方面得益于计算机性能的大幅提升, 使得构建并训练更大规模的网络不再受到硬件水平的限制; 另一方面得益于大规模标注数据的增长, 增强了网络的泛化能力.以大规模视觉识别竞赛(ImageNet large scale visual recognition competition, ILSVRC)的历届优秀模型为例, AlexNet[1]在ILSVRC2012上的Top-5识别正确率达到83.6 %, 随后几年卷积神经网络的性能持续提升[2-4], ResNet-50[5]在ILSVRC 2015上的Top-5识别正确率达到96.4 %, 已经超过人类平均水平.在此之后, 卷积神经网络被进一步应用于其他领域, 比如由谷歌DeepMind公司开发的人工智能围棋程序AlphaGo在2016年战胜世界围棋冠军李世石.
卷积神经网络的整体架构大体上遵循着一种固定的范式, 即网络前半部分堆叠卷积层, 间或插入若干池化层以组成特征提取器, 最后连上全连接层作为分类器, 构成一个端到端的网络模型, 如图 1中LeNet-5[6]所示.卷积神经网络一般通过增加卷积层数量以增加网络深度, 用这种方式获得的深度模型在分类任务上有更好的表现[7].从表 1可以看出, 卷积神经网络的性能不断增长, 其在ImageNet数据集的识别错误率不断降低, 同时其时间复杂度和空间复杂度也相应上升.具体地, 卷积神经网络的网络层数呈持续增加态势, 其训练参数数量和乘加操作数量也保持在一个较高的水平, 例如VGGNet-16具有高达138 M参数量, 其整体模型规模超过500 M, 需要155亿次浮点数操作才能对一张图片进行分类.
表 1 经典卷积神经网络的性能及相关参数Table 1 Classic convolutional neural networks and corresponding parameters年份 网络名称 网络层数 卷积层数量 参数数量 卷积层 全连接层 乘加操作数(MACs) 卷积层 全连接层 Top-5错误率(%) 2012 AlexNet[1] 8 5 2.3M 58.6M 666 M 58.6M 16.4 2014 Overfeat[2] 8 5 16 M 130M 2.67G 124M 14.2 2014 VGGNet-16[3] 16 13 14.7M 124M 15.3 G 130M 7.4 2015 GoogLeNet[4] 22 21 6M 1M 1.43 G 1M 6.7 2016 ResNet-50[5] 50 49 23.5M 2M 3.86 G 2M 3.6 深度卷积神经网络通常都包含有几十甚至上百卷积层, 训练参数量动辄上百万, 在GPU加速支持下仍然需要花费几天或几周时间才能完成训练(如ResNet需用8个GPU训练2 ~ 3周时间), 制约了其在移动设备、嵌入式系统等资源受限场景下的应用.如表 1所示, 过去由于卷积层在网络训练阶段和预测阶段的前向推导过程中涉及大量的浮点数计算操作, 而全连接层的神经元之间采用全连接方式, 拥有绝大多数训练参数, 所以卷积神经网络的时间复杂度主要由卷积层决定, 空间复杂度主要由全连接层决定.随着卷积神经网络逐渐向更深层次发展, 卷积层数量急剧增加, 在前向推导过程中产生的中间变量会占用大量内存空间, 此时卷积层同时决定了网络的时间复杂度和空间复杂度.因此, 降低卷积层和全连接层的复杂度有助于优化卷积神经网络的结构, 对于网络的压缩与加速也有重要的促进作用.
针对网络结构优化的相关研究在90年代已被提出[8-9], 然而由于当时神经网络大多属于浅层网络, 对于结构优化的需求尚不强烈, 因此未能引起广泛关注.如今卷积神经网络的规模日益庞大, 而大量应用场景都无法提供相应的必需资源, 因此探讨在保证网络精度的前提下压缩并加速模型是网络结构优化领域的前沿热点.随着对卷积神经网络结构优化研究的逐渐深入, 大量成果不断涌现, 一些学者对这一领域的相关工作进行了归纳与总结, 如文献[10]重点讨论了模型压缩与加速各种方法的优缺点, 文献[11]从硬件和软件两方面整理了网络加速的研究进展, 文献[12]简要介绍了深度网络压缩的典型方法.本文在这些工作的基础上, 结合最新研究进展和成果, 全面地梳理与总结了卷积神经网络结构优化方面的研究工作.其中第1节到第4节分别从网络剪枝与稀疏化、张量分解、知识迁移和精细化结构设计4个方面归纳了相关研究思想和方法, 第5节综合卷积神经网络结构优化领域的研究现状, 对其未来研究趋势和应用方向进行了展望.
1. 网络剪枝与稀疏化
文献[13]的研究表明, 卷积神经网络从卷积层到全连接层存在大量的冗余参数, 大多数神经元被激活后的输出值趋近于0, 即使将这些神经元剔除也能够表达出模型特征, 这种现象被称为过参数化.例如ResNet-50拥有50层卷积层, 整个模型需要95 MB存储空间, 在剔除75 %的参数后仍然正常工作, 而且运行时间降低多达50 %[14].因此, 在网络训练过程中可以寻求一种评判机制, 剔除掉不重要的连接、节点甚至卷积核, 以达到精简网络结构的目的.网络结构精简的一个具体表现是网络的稀疏化, 这给模型训练带来了三点好处:首先是由于网络参数的减少, 有效缓解了过拟合现象的发生[15]; 其次, 稀疏网络在以CSR(Compressed sparse row format, CSR)和CSC (Compressed sparse columnformat)等稀疏矩阵存储格式存储于计算机中可大幅降低内存开销; 最后, 训练参数的减少使得网络训练阶段和预测阶段花费时间更少.由于网络剪枝具有易于实施且效果显著的优点, 目前已成为模型压缩与加速领域最重要的结构优化技术.
根据卷积神经网络训练阶段的不同, 网络剪枝与稀疏化方法主要包含训练中稀疏约束与训练后剪枝两个大类[16].对于前者, 通过在优化函数添加稀疏性约束, 诱导网络结构趋于稀疏, 这种端到端的处理方法不需要预先训练好模型, 简化了网络的优化过程.对于后者, 通过剔除网络中相对冗余、不重要的部分, 同样可以使得网络稀疏化、精简化.事实上, 无论是在训练中引入稀疏约束还是训练后剪枝网络, 最终目的都是使网络的权重矩阵变得稀疏, 这也是加速网络训练、防止网络过拟合的重要方式.
对于网络损失函数中的稀疏约束, 主要是通过引入l0或l1正则化项实现的.假设训练数据集D包含N个数据对(x1, y1), (x2, y2), ..., (xN, yN), 训练参数为θ, 则网络训练的目标优化函数一般表示为:
$$ \arg \ ~\underset{\theta }{\mathop{\min }}\, \frac{1}{N}\sum\limits_{i=0}^{N}{L\left( h\left( {{x}_{i}};\theta \right), {{y}_{i}} \right)+\lambda {{\left\| \theta \right\|}_{p}}} $$ (1) 其中, ${{\left\| \theta\right\|}_{p}}={{\left( \sum{_{i}{{\left| {{x}_{i}} \right|}^{p}}} \right)}^{1/p}}$, p=0, 1.优化函数的第一项是经验风险, 第二项是正则化项, 带有正则化约束的优化函数在反向传播时驱使不重要权重的数值变为零, 使得训练后的网络具有一定的稀疏性和较好的泛化性能.Collins等[17]在参数空间中通过贪婪搜索决定需要稀疏化的隐含层, 能够大幅减少网络中的权重连接, 使模型的存储需求降低了3倍, 并且克服了OBS与OBD处理大型网络面临的精度下降问题.Jin等[18]提出的迭代硬阈值(Iterative hard thresholding, IHT)方法分两步对网络进行剪枝, 在第一步中剔除隐含节点间权值较小的连接, 然后微调(Fine-tune)其他重要的卷积核, 在第二步中激活断掉的连接, 重新训练整个网络以获取更有用的特征.相比于传统方式训练的网络, 通过IHT训练的网络具有更加优越的泛化能力和极低的内存大小.Zeiler等[19]利用前向-后向切分法(Forward-backward splitting method)处理带有稀疏约束的损失函数, 避免了在反向传播中需要求取二阶导数等计算复杂度较高的运算, 加快了网络训练速度.Wen等[20]认为网络结构从卷积核到卷积通道都充斥着冗余无用的信息, 他们提出的结构化稀疏学习(Structured sparsity learning, SSL)直接学习到的硬件友好型稀疏网络不仅具有更加紧凑的结构, 而且运行速度可提升3倍至5倍. Lebedv等[21]以分组形式剪枝卷积核输入, 以数据驱动的方式获取最优感受野(Receptivefield), 在AlexNet中获得8.5倍的速度提升而损失精度不到1 %.Louizos等[22]利用一系列优化措施将不可微分的l0范数正则项加入到目标函数, 学习到的稀疏网络不仅具有良好的泛化性能, 而且极大加速了模型训练和推导过程.
Dropout作为一种强有力的网络优化方法, 可被视为特殊的正则化方法, 被广泛用于防止网络训练过拟合[23-24].Dropout在每次训练时随机使一半神经元暂时失活, 相当于在一定时间内训练了多个不同网络并将其组合, 避免了复杂的共适应现象(Co-adaptation)发生, 在图像分类、语音识别、文件分类和生物计算等任务都有较好表现.然而, 由于Dropout在每次训练时都会尝试训练不同的网络, 这将导致训练时间的大幅延长.因此, 目前也有一些工作针对Dropout的加速展开研究, 如Li等[25]提出的自适应Dropout根据特征和神经元的分布使用不同的多项式采样方式, 其收敛速度相对于标准Dropout提高50 %.
训练后网络剪枝是从已有模型着手, 消除网络中的冗余信息, 这避免了重新训练网络带来的高昂资源花费.根据剪枝粒度的不同, 目前主要有层间剪枝、特征图剪枝、k ×k核剪枝与核内剪枝4种方式[26], 如图 2所示.层间剪枝一个直接的后果就是减少了网络的深度, 而特征图剪枝则减少了网络的宽度.这两种粗粒度的剪枝方法在减少网络参数方面效果明显, 但面临网络性能下降严重的问题. k ×k核剪枝与核内剪枝两种细粒度方法在参数量与模型性能之间取得了一定的平衡, 但提高了方法的复杂度.
事实上, 网络剪枝方法在深度学习流行起来就已被提出, 其早在上世纪九十年代即被广泛用于网络的优化问题.Hanson等[27]在误差函数中引入权重衰减项使网络趋于稀疏, 即减少隐含节点数目以降低网络复杂度.LeCun等[8]提出的最优脑损伤(Optimal brain damage, OBD)通过移除网络中不重要的连接, 在网络复杂度和训练误差之间达到一种最优平衡状态, 极大加快了网络的训练过程.Hassibi等[9]提出的最优脑手术(Optimal brain surgeon, OBS)与OBD的最大不同在于损失函数中的Hessian矩阵没有约束, 这使得OBS在其他网络中具有比OBD更普遍的泛化能力.尽管OBD与OBS最初取得了较好效果, 但由于其损失函数中需要求取二阶导数, 在处理大型复杂网络结构时计算量巨大, 且面临着网络精度损失严重的问题, 因此探索适合于深度卷积神经网络的网络剪枝与稀疏化方法对于网络结构优化具有重要的研究价值.
网络剪枝方法使得精简后的小型网络继承了原始网络的有用知识, 与此同时具有与其相当的性能表现, 目前已取得一系列卓有成效的成果.Han等[28]提出的深度压缩(Deep compression)综合应用了剪枝、量化、编码等方法, 在不影响精度的前提下可压缩网络35 ~ 49倍, 使得深度卷积网络移植到移动设备上成为可能.Srinivas等[29]针对全连接层的神经元而非网络连接进行剪枝操作, 提出的方法摆脱了对于训练数据的依赖, 由于避免了多次重复训练, 极大降低了计算资源需求和花费时间.Guo等[30]认为参数的重要性会随着网络训练开始而不断变化, 因此恢复被剪枝的重要连接对于改善网络性能具有重要作用.他们提出的动态网络手术(Dynamic network surgery)在剪枝过程中添加了修复操作, 当已被剪枝的网络连接变得重要时可使其重新激活, 这两个操作在每次训练后交替进行, 极大改善了网络学习效率.Liu等[31]针对Winograd最小滤波算法与网络剪枝方法无法直接组合应用的问题, 提出首先将ReLU激活函数移至Winograd域, 然后对Winograd变换之后的权重进行剪枝, 在CIFAR-10、CIFAR-100和ImageNet数据集上的乘法操作数分别降低了10.4倍、6.8倍和10.8倍.
近年来针对更高层级的网络结构剪枝方法层出不穷, 有力推动了模型压缩与加速的发展, 对于卷积神经网络的结构优化也有重要的促进作用.He等[32]基于LASSO正则化剔除冗余卷积核与其对应的特征图, 然后重构剩余网络, 对于多分支网络也有很好的效果.Li等[33]发现基于重要度(Magnitude-based)的剪枝方法尽管在全连接层可以取得较好效果, 但是对于卷积层就无能无力了.他们直接去除对于输出精度影响较小的卷积核以及对应的特征图, 以一种非稀疏化连接的方式降低了百分之三十的计算复杂度.Anwar等[26]按照粒度大小将剪枝方法划分为层级剪枝、特征图剪枝、卷积核剪枝、卷积核内部剪枝4个层级, 结合特征图剪枝与卷积核剪枝提出的一次性(One-shot)优化方法可获得60 % ~ 70 %的稀疏度.同样是针对卷积核剪枝, Luo等[34]提出的ThiNet在训练和预测阶段同时压缩并加速卷积神经网络, 从下一卷积层而非当前卷积层的概率信息获取卷积核的重要程度, 并决定是否剪枝当前卷积核, 对于紧凑型网络也有不错的压缩效果.表 2比较了不同网络剪枝方法对于卷积神经网络的压缩效果, 可以发现这些方法能够大幅减少训练参数而不会显著影响网络精度, 表明网络剪枝与稀疏化是一种强有力的网络结构优化方法.
表 2 网络剪枝对不同网络的压缩效果Table 2 Comparison of different pruned networks2. 张量分解
由于卷积神经网络规模逐渐向更深、更大层次发展, 卷积操作过程中所需计算资源以及每次卷积后所需存储资源已成为制约模型小型化、快速化的瓶颈.比如说, ResNet-152网络来自于卷积层的参数数量为全部参数的92 %, 而来自于卷积层的计算量占到总计算量的97 %.已有研究结果表明[35], 卷积神经网络仅需很少一部分参数即可准确地预测结果, 这说明卷积核中存在大量的冗余信息.张量分解对于去除冗余信息、加速卷积计算是一种极为有效的方法, 可以有效压缩网络规模并提升网络运行速度, 有益于深度神经网络在移动嵌入式环境下的高效运行.
一般来说, 向量称为一维张量, 矩阵称为二维张量, 而卷积神经网络中的卷积核可以被视为四维张量, 表示为K∈ Rd× d ×I× O, 其中, I, d, O分别表示输入通道, 卷积核尺寸和输出通道.张量分解的思想即是将原始张量分解为若干低秩张量, 有助于减少卷积操作数量, 加速网络运行过程.前常见的张量分解方法有CP分解、Tucker分解等, Tucker分解可将卷积核分解为一个核张量与若干因子矩阵, 是一种高阶的主成分分析方法, 其表达形式为:
$$ K≈ C× U_1× U_2× U_3× U_4 $$ (2) 其中, K∈ R d × d ×I× O为分解后的核张量, U1∈ Rd× r1、U2∈Rd× r2、U3∈ RI× r3、U4∈RO× r4为因子矩阵. CP分解的表达形式为:
$$ K≈ K_1× K_2× K_3× K_4 $$ (3) 其中, K1∈Rd ×r、K2∈Rd×r、K3∈RI×r、K4∈RO×r. CP分解属于Tucker分解的一种特殊形式, 其分解过程更为简单, 然而分解矩阵的秩r的选取是一个NP难问题, 并且可能涉及到分解稳定性问题.值得注意的是, 由于全连接层也可以视为二维张量, 因此可利用矩阵奇异值分解(Singularvalue decomposition, SVD)去除全连接层的冗余信息, 分解表达式为:
$$ W≈ USV^{\rm T} $$ (4) 其中, W∈ Rm× n为待分解张量, U∈ Rm×m和V∈ Rn× n是正交矩阵, S∈ Rm×n是对角矩阵. 图 3展示了将一个W ∈ Rd × d×I× O张量分解为一个P∈ RO×K张量和一个W' ∈ RK× d × d×I张量的过程. 图 3 (a)中W为原始张量, 复杂度为O(d2I O); 图 3 (b)中P和W'为分解后张量, 复杂度为O(OK)+O(d2KI).对于大多数网络有O(OK)≪O(d2KI), 所以分解后复杂度为原来的O /K, 并且K值越小, 压缩效果越明显.
利用张量分解以加速卷积过程已有很长的一段时间, 最典型的例子就是将高维离散余弦变换(Discrete cosine transform, DCT)分解为一系列一维DCT变换相乘, 以及将小波系统分解为一系列一维小波的乘积[10]. Rigamonti等[36]基于字典学习的思想, 提出的分离卷积核学习方法(Learning separable filters)能够将原始卷积核用低秩卷积核表示, 减少所需卷积核数量以降低计算负担.同时, 作者认为在构建网络时不用再精心设计卷积核结构, 只需通过分离卷积核学习就可以得到最优的卷积核组合. Jaderberg等[37]提出了一种逐层分解方法, 每当一个卷积核被分解为若干一阶张量, 则固定此卷积核并基于一种重构误差标准以微调其余卷积核, 研究结果表明在场景文本识别中可加速网络4.5倍而准确度仅降低1 %. Denton等[38]认为卷积神经网络的绝大部分冗余参数都位于全连接层, 因此主要针对全连接层展开奇异值分解, 分解后的网络网络参数最多减少13倍, 同时其运行速度可提升2 ~ 3倍. Lebedev等[39]提出了基于CP分解的卷积核张量分解方法, 通过非线性最小二乘法将卷积核分解为4个一阶卷积核张量.对于36类的ILSVRC分类实验, 该方法在CPU上可获得8.5倍加速, 实验结果同时表明张量分解具有正则化效果. Tai等[40]提出了一种带有低秩约束的张量分解新算法, 将非凸优化的张量分解转化为凸优化问题, 与同类方法相比提速明显.
以上基于张量分解的方法虽然能够取得一定效果, 然而它们仅仅压缩与加速一层或几层网络, 欠缺对于网络整体的考量.Zhang等[41]提出了一种非对称张量分解方法以加速整体网络运行, 例如一个D× D卷积核可被分解为1× D、D×1和1× 1等张量.此外, 文献[41]还提出了基于PCA累积能量的低秩选择方法和具有非线性的重构误差优化方法, 在ImagNet上训练的大型网络可被整体加速4倍.与文献[41]不同, Kim等[42]提出了基于变分贝叶斯的低秩选择方法和基于Tucker张量分解的整体压缩方法.由于模型尺寸、运行时间和能量消耗都大幅降低, 使用该方法压缩的网络可以移植到移动设备上运行.Wang等[43]认为网络压缩不能仅仅考虑卷积核, 同时要考虑卷积核在网络运行过程中映射的巨量特征图.文献[43]利用循环矩阵剔除特征图中的冗余信息, 获取特征图中最本质的特征, 进一步重构卷积核以匹配压缩后的特征图.实验结果表明文献[43]中的方法尽管只有很少参数, 但具有与原始网络相当的性能.Astrid等[44]提出了一种基于优化CP分解全部卷积层的网络压缩方法, 在每次分解单层网络后都微调整个网络, 克服了由于CP分解不稳定引起的网络精度下降问题.
张量分解对于深度网络的压缩与加速具有直接作用, 可以作为网络结构优化设计方法的重要补充.然而目前大多数的张量分解方法都是逐层分解网络, 缺乏整体性的考虑, 有可能导致不同隐含层之间的信息损失.此外, 由于涉及到矩阵分解操作, 会造成网络训练过程的计算资源花费高昂.最后, 由于每次张量分解过后都需要重新训练网络至收敛, 这进一步加剧了网络训练的复杂度.
3. 知识迁移
知识迁移是属于迁移学习的一种网络结构优化方法, 即将教师网络(Teacher networks)的相关领域知识迁移到学生网络(Student networks)以指导学生网络的训练, 完成网络的压缩与加速.一般地, 教师网络往往是单个复杂网络或者是若干网络的集合, 拥有良好的性能和泛化能力, 而学生网络则具有更小的网络规模, 还未获得充分的训练.考虑利用教师网络本身的知识或通过教师网络学习到的知识去指导学生网络训练, 使得学生网络具有与教师网络相当的性能, 但是参数数量大幅降低, 同样可以实现网络压缩与加速的效果.
知识迁移主要由教师网络获取和学生网络训练两部分内容构成, 在教师网络获取中, 由于教师网络规模较大, 需要用大量标签数据对其进行训练以获得较高的预测准确率.在学生网络训练过程中, 首先将未标签数据输入教师网络进行预测, 然后将预测到的结果与输入数据人工合成为标签数据, 最后将这些人工合成的标签数据作为领域知识以指导学生网络的训练.由于学生网络规模较小, 因此只需少量的标签数据即可完成训练.知识迁移的整体流程如图 4所示.
Bucila等[45]首先提出了基于知识迁移的模型压缩方法, 通过人工合成数据训练学生网络以完成压缩与加速.其具体步骤为首先将大型无标签数据集输入教师网络以获得相应的标签, 获得人工合成的标签数据, 然后在人工标签数据集上训练学生网络, 实验结果表明学生网络尺寸减少了1 000倍, 同时运行速度提升了1 000倍.最初由大型复杂网络获得的知识可根据softmax函数计算的类别概率标签来表示, 相比于one-hot标签, 类别概率标签包含了训练样本中的相关近似程度, 可以更加有效地训练学生网络.然而类别概率标签的大多数概率值在通过softmax函数后都趋近于0, 损失了大量有效信息. Ba等[46]提出利用logits(通过softmax函数前的输入值, 均值为0)来表示学习到的知识, 揭露了标签之间的相对关系和样本之间的近似度.与文献[45]类似, Ba等[46]将教师网络获得数据集的logits标签作为知识指导学生网络的训练, 在TIMIT和CIFAR-10数据库上都能够达到与深度网络相当的识别精度.Hinton等[47]认为类别概率标签和logits标签都是softmax层的极端输出, 其中T分别为1和正无穷.他们提出的知识精馏(Knowledge distilling, KD)采用合适的T值, 可以产生一个类别概率分布较缓和的输出(称为软概率标签(Softprobability labels)).软概率标签揭示了数据结构间的相似性, 包含大量的有用信息, 可利用软概率标签训练学生网络以模拟复杂的网络集合.Romero等[48]提出的FitNet不仅利用了教师网络的输出, 同时也将教师网络的隐含层输出作为知识迁移到学生网络中.通过这种方式训练的学生网络相比于教师网络更深更窄, 因此具有更好的非线性变换能力.
与之前基于类别概率标签的知识迁移不同, Luo等[49]利用教师网络的高层神经元输出来表示需要迁移的领域知识.这种方式不会损失任何信息, 但是学生网络可以获得更高的压缩率. Chen等[50]基于函数保留变换(Function-preserving transformation)提出的Net2Net是加速知识迁移流程的有效工具, 可以快速地将教师网络的有用信息迁移到更深(或更宽)的学生网络. Zagoruyko等[51]借鉴知识精馏的思想, 提出了一种基于注意力的知识迁移方法.他们使用教师网络中能够提供视觉相关位置信息的注意力特征图来监督学生网络的学习, 并且从低、中、高三个层次进行注意力迁移, 极大改善了残差网络等深度卷积神经网络的性能. Lucas等[52]提出了一种结合Fisher剪枝与知识迁移的优化方法, 首先利用预训练的高性能网络生成大量显著性图作为领域知识, 然后利用显著性图训练网络并利用Fisher剪枝方法剔除冗余的特征图, 在图像显著度预测中可加速网络运行多达10倍. Yim等[53]将教师网络隐含层之间的内积矩阵作为领域知识, 不仅能更快更好地指导学生网络的训练, 而且在与教师网络不同的任务中也能获得较好效果. Chen等[54]结合文献[47-48]的相关方法, 首次提出了基于知识迁移的端到端的多目标检测框架, 解决了目标检测任务中存在的欠拟合问题, 在精度与速度方面都有较大改善.
知识迁移方法能够直接加速网络运行而不需要较高硬件要求, 大幅降低了学生网络学习到不重要信息的比例, 是一种有效的网络结构优化方法.然而知识迁移需要研究者确定学生网络的具体结构, 对研究者的水平提出了较高的要求.此外, 目前的知识迁移方法仅仅将网络输出概率值作为一种领域知识进行迁移, 没有考虑到教师网络结构对学生网络结构的影响.提取教师网络的内部结构知识(如神经元)并指导学生网络的训练, 有可能使学生网络获得更高的性能.
4. 精细模块设计
网络剪枝与稀疏化、张量分解、知识迁移等方法都是在已有高性能模型基础上, 保证模型性能的前提下降低时间复杂度和空间复杂度.目前还有一些工作专注于设计高效的精细模块, 同样可以实现优化网络结构的目的.基于这些精细模块构造的网络具有运行速度快、占用内存少、能耗低下的优点, 此外, 由于采用模块化的网络结构优化方法, 网络的设计与构造流程大幅缩短.目前具有代表性的精细模块有Inception模块、网中网和残差模块, 本节对其进行了详尽讨论与分析.
4.1 Inception模块
对于如何设计性能更好的卷积神经网络, 目前的主流观点是通过增加网络深度与宽度来扩大模型的规模.但是这会带来两个无法避免的问题: 1)随着网络尺寸的增加, 网络的训练参数也会大幅增加, 这在训练数据不足时不可避免地会带来过拟合问题; 2)网络尺寸和训练参数的增加使得网络模型占用计算资源和内存资源过高的问题加剧, 将会导致训练速度降低, 难以应用于实际工程问题.
为解决以上问题, Szegedy等[4]从网中网(Network in network, NiN)[55]中得到启发, 提出了如图 5所示的Inception-v1网络结构.与传统卷积神经网络采用11×11、9×9等大尺寸卷积核不同, Inception-v1大量并行使用5×5、3×3卷积核, 有效提升了网络的宽度, 并引入1×1卷积核为获取到的特征降维.Inception-v1结构在增加卷积神经网络深度和宽度的同时, 并没有增加额外的训练参数.此外, 将不同尺寸的卷积核并行连接能够增加特征提取的多样性, 而引入的1×1卷积核则加速了网络运行过程.
Ioffe等[56]认为, 卷积神经网络在训练时每层网络的输入分布都会发生改变, 这将会导致模型训练速度降低.因此, 他们在Inception-v1的基础上提出了Inception-v2结构, 引入了批标准化(Batch normalization, BN).批标准化一般用于激活函数之前, 其最重要的作用是解决反向传播中的梯度问题(包括梯度消失和梯度爆炸).此外, 批标准化不仅允许使用更大的学习速率, 而且还简化了网络参数的初始化过程, 将人们从繁重的调参工作中解放出来.最后, 由于批标准化具有正则化效果, 在某些情况下还可以减少对Dropout的需求.
为进一步增加网络深度, Szegedy等[57]提出的Inception-v3网络借鉴了VGGNet的卷积核分解思想, 除了将7×7、5×5等较大的卷积核分解为若干连续的3×3卷积核, 还将n × n卷积核非对称分解为1× n和n×1两个连续卷积核(当n=7时, 效果最好). Inception-v3还引入辅助分类器(Auxiliary classifiers)以加速卷积神经网络训练的收敛过程, 支持了Inception-v2中的批标准化具有正则化作用的观点.通过卷积核分解, Inception-v3不仅能够提升网络的深度和宽度, 而且有效降低了时间复杂度和空间复杂度.此外, Inception-v3加速训练过程并减轻了过拟合, 同时还强化了网络对不同维度特征的适应能力和非线性表达能力. 图 6 (a)展示了将一个5×5的卷积核分解为两个连续3×3的卷积核后的计算过程, 由于一个5×5卷积核有5×5=25个参数, 而两个3×3卷积核只有3×3+3×3=18个参数, 因此参数量降低了28 %而卷积效果相同; 图 6 (b)展示了将一个3×3卷积核分解为一个1×3卷积核和一个3×1卷积核后的计算过程, 一个3×3卷积核有3×3=9个参数, 而两个分解后卷积核有1×3+3×1=6个参数, 参数量降低了33 %而卷积效果相同.
Szegedy等[58]将Inception结构与残差结构相结合, 发现了残差结构可以极大地加快网络的训练速度, 提出的Inception-Resnet-v1和Inception-Resnet-v2模型在ImageNet数据集上的Top-5错误率分别降低到4.3 %和3.7 %.他们还提出了Stem、Inception-A、Inception-B、Inception-C、Reduction-A、Reduction-B等一系列网络局部结构, 并以此构造出Inception-v4网络模型, 极大地增加了网络深度, 提高了网络性能, 同时保证了网络训练参数数量处于可接受的范围之内.
Chollet等[59]认为传统的卷积过程同时从二维空间与一维通道进行三维的特征提取, 而Inception-v3部分地将空间操作与通道操作分离开, 使得训练过程更加容易且有效率.从Inception-v3中得到启发, Chollet认为卷积神经网络中特征图的空间维度与通道维度的关联性可以被完全解耦, 基于此他们提出了一种区别于一般卷积(Regular convolution)的Xception (Extremely inception)模块, 并以此构造出Xception网络结构. Xception模块如图 7所示, 首先用卷积核对输入特征图进行卷积操作, 对于输出特征图的每个通道都用一个卷积核进行卷积操作, 最后将所有输出拼接起来得到新的特征图. Xception网络的训练参数比Inception-v3网络更少, 但具有与Inception-v3网络相当的识别精度和训练速度, 而且在更大的数据集上性能更加优越.
Inception结构从Inception-v1发展到Xception, 始终致力于增加卷积神经网络的尺寸(包括深度和宽度)以提升模型的非线性表达能力.为了避免训练参数增加而带来的模型训练速度降低、易过拟合等问题, Inception结构提出了批标准化、卷积核分解等方法来优化更深层次的网络结构, 使得加深后的网络参数量相比于原始网络不变甚至更少, 训练出来的网络模型在各种测试数据集上都取得了领先成绩. Inception的成功也进一步证明了增加网络尺寸是提升网络性能的可靠方式, 这也是卷积神经网络未来的一种发展方向.
4.2 网中网(Network in network)
传统卷积神经网络的卷积核作为一种广义线性模型(Generalized linear model, GLM), 在训练样本的潜在特征是线性可分时能够获取表达能力较强的高维抽象特征.但在很多任务场景下, 获取到的样本特征是具有较强非线性的, 使用传统的卷积核不能有效地提取更接近本质的抽象特征. Lin等[55]提出了一种区别于广义线性模型的非线性结构- Mlpconv, 即在卷积核后面添加一个多层感知机(Multilayer perceptron, MLP).由于多层感知机能够拟合任何函数, 因此Mlpconv结构增强了网络对局部感知野的特征辨识能力和非线性表达能力.通过堆叠Mlpconv层构建出的网络被形象地称为网中网(Network in network, NiN), 如图 8所示.
网中网不仅用Mlpconv结构替代广义线性模型以处理更为复杂的非线性问题, 并且用全局均值池化代替全连接层以减少训练参数, 避免了训练过程中出现过拟合问题.值得注意的是, Mlpconv层中的全连接层可以被视为一个1×1卷积核, 后来被广泛应用于包括Inception在内的各种网络中的1×1卷积核都受到了网中网的启发.在此基础上, 涌现出了大量针对网中网结构的改进措施. Chang等[60]认为Mlpconv层中的ReLU激活函数会带来梯度消失的问题, 因此提出用Maxout替代ReLU以解决这一问题, 并将这一网络结构称为Maxout network in network (MIN). Pang等[61]认为由于MLP本身也包含全连接网络, 这不可避免地会使得训练参数大幅增加, 因此提出用稀疏连接的MLP代替原来的MLP, 并且在通道维度上使用分离卷积(Unshared convolution)而在空间维度上使用共享卷积(Shared convolution), 这种网络结构被称为卷积中的卷积(Convolution in convolution, CiC). Han等[62]提出的MPNIN (Mlpconv-wise supervised pre-training network in network)通过监督式预处理方法初始化网络模型的各层训练参数, 并结合批标准化与网中网结构能够训练更深层次的卷积神经网络.
网中网结构一经提出就受到了广泛的关注和研究, 包括GoogLeNet、ResNet在内的众多卷积神经网络都借鉴了这一结构.与传统GLM卷积核相比, 网中网的Mlpconv层可以实现跨通道的特征交互与整合, 由此发展而来的1×1卷积核还能实现特征降维与升维的功能, 使得网络模型既能够提取更加抽象的特征以解决复杂的非线性问题, 还可以训练更深层的网络而保持训练参数处于可接受范围.值得注意的是, 由于Mlpconv结构引入了额外的多层感知机, 有可能会导致网络运行速度降低, 对此进行改善将会是未来研究的一个方向.
4.3 残差模块
随着卷积神经网络逐渐向更深层次发展, 网络将面临退化问题而不是过拟合问题, 具体表现在网络性能不再随着深度的增加而提升, 甚至在网络深度进一步增加的情况下性能反而快速下降, 此时引入一种称为旁路连接的(Bypassing connection)结构优化技术可有效解决这一问题. Srivastava等[63]从长短时记忆模型[64] (Long short-term memory, LSTM)中得到启发, 引入可学习门限机制(Learned gating mechanism)以调节网络中的信息传播路径, 允许数据跨越多层网络进行传播, 这一模型被形象地称为高速网络(Highway network).旁路连接使得反向传播中的梯度能够跨越一层或多层传播, 而不至于在逐层运算中扩散甚至消失, 在使用随机梯度下降法(Stochastic gradient descent, SGD)训练模型时避免了在平层网络(Plain network)中易出现的梯度消失现象.旁路连接的引入, 突破了深度在达到40层时网络将面临退化问题的限制, 进一步促进了网络深度的增加[65].
He等[5]提出的残差网络(Residual network, ResNet)与Highway network类似, 也是允许输入信息可以跨越多个隐含层传播.区别在于残差网络的门限机制不再是可学习的, 也即始终保持信息畅通状态, 这极大地降低了网络复杂度, 加速了网络训练过程, 同时突破了由网络退化引起的深度限制.残差模块如图 9所示, 残差模块的输入定义为X, 输出定义为H(X)=F(X)+X, 残差定义为F(X), 在训练过程中网络学习残差F(X), 这比直接学习输出H(X)更加容易.
残差网络的提出标志着卷积神经网络发展到了一个新阶段, 之后又有大量研究针对残差结构进行改进. Huang等[66]利用随机深度法(Stochastic depth)在训练过程中随机地剔除, 某些隐含层并用残差结构连接剩余部分, 训练出一个1 202层的极深残差网络, 同时表明原始的残差网络含有大量的冗余结构. He等[67]发现前置激活函数(Pre-activation)不仅使得模型优化更加容易, 而且, 在一定程度上缓解了过拟合.作者以此训练了一个1 001层的残差网络, 在CIFAR-10数据集上的错误率降至4.62 %. Larsson等[65]提出的分形网络(FractalNet)在宽度和深度上进一步扩展残差结构, 并用一种称为Drop-path的方法优化网络训练, 在图片分类测试中的正确率超过了残差网络. Xie等[68]提出的ResNeXt借鉴了Inception模块的思想, 通过增加旁路连接的数量以进一步扩宽网络, 在不增加网络复杂度的前提下提高识别准确率, 同时还减少了超参数的数量.
文献[69]认为残差网络仅仅是若干浅层网络的组合体, 其宽度相比于深度更为重要, 训练超过50层的网络是毫无必要的, 因此目前存在大量研究工作从网络宽度出发优化残差网络的结构. Zagoruyko等[70]认为ResNet在训练时无法充分地重用特征(Feature reuse), 具体表现在梯度反向传播时不能流经每一个残差模块(Residual block), 只有很少的残差模块可以学习到有用的特征表示.作者提出的宽残差网络(Wide residual network, WRN)通过增加网络宽度并减少网络深度, 训练速度相较于残差网络提升了2倍, 但网络层数减少了50倍. Targ等[71]提出了一种将残差网络和标准卷积神经网络并行组合的泛化残差网络, 在保留有效特征表达的同时剔除了无效信息, 改善了网络的表达能力, 在CIFAR-100数据集上效果显著. Zhang等[72]为残差网络添加额外的旁路连接, 通过增加宽度以提高网络的学习能力, 提出的Residual networks of residual networks (RoR)可以作为构造网络的通用模块. Abdi等[73]通过实验支持了残差网络是若干浅层网络融合得到的假说, 作者提出的模型通过增加残差模块中残差函数的数量以增强模型的表达能力, 得到的多残差网络在CIFAR-10和CIFAR-100的分类准确率均得到极大改善.
4.4 其他精细模块
在网络结构的设计空间探索方面, 还有大量工作针对精细模块设计展开研究, 取得了一系列成果.为减少全连接层的训练参数, 文献[55]首先提出用全局均值池化(Global average pooling, GAP)替代全连接层, 相当于在整个网络结构上做正则化防止过拟合.全局均值池化在特征图与输出类别标签之间建立联系, 相比于全连接层更具有可解释性, 随后的网中网以及GoogLeNet都采用这一结构获得了性能提升.
Huang等[74]认为极深网络的成功来源于旁路连接的引入, 他们提出的密集模块(Dense block)在任何两层网络之间都有直接连接.对于任意网络层, 它的输入来源于前面所有网络层的输出, 而它的输出都要作为后面所有网络层的输入.这种密集连接改善了网络中信息与梯度的流动, 对于网络具有正则化的作用, 避免在小数据集上训练的过拟合问题.密集连接的另一个优点是允许特征重用, 训练出来的DenseNet具有结构紧凑、精度高的优点.张婷等[75]提出的跨连卷积神经网络允许第二个池化层跨过两层直接与全连接层相连接, 在10个人脸数据集上的性别分类效果都不低于传统网络.李勇等[76]将LeNet-5网络的两个池化层与全连接层相结合, 构造的分类器结合了网络结构提取的低层次特征与高层次特征, 在人脸表情识别中取得较好效果.
Howard等[77]提出的MobileNet将传统卷积过程分解为深度可分离卷积(Depthwise convolution)和逐点卷积(Pointwise convolution)两步, 在模型大小和计算量上都进行了大量压缩, 由此构造的轻量型网络能够在移动嵌入式设备上运行. Sandler等[78]将残差模块与深度可分离卷积相结合, 提出了带有线性瓶颈的反向残差模块(Inverted residual with linear bottleneck), 由此构造的MobileNet v2在速度和准确性上都优于MobileNet. Zhang等[79]在MobileNet的基础上进一步提出了基于逐点群卷积(Pointwise group convolution)和通道混洗(Channel shuffle)的ShuffleNet, 在图像分类和目标检测任务中均获得极大提速.
5. 结束语
随着硬件条件的飞速发展和数据集规模的显著增长, 深度卷积神经网络目前已成为计算机视觉、语音识别、自然语言处理等研究领域的主流方法.具体地, 更深的网络层数增强了模型的非线性拟合能力, 同时大规模数据增强了模型的泛化能力, 而较高水平的硬件设施条件则保证了模型运行所需要的计算能力和存储要求.深度卷积神经网络已在诸多领域证明了强大的特征学习和表达能力, 但高昂的时间复杂度和空间复杂度制约其在更广阔领域的实施与应用.在时间维度上, 大型复杂网络计算量巨大, 在图形处理单元(Graphic processing unit, GPU)加速运算的支持下, 仍不能满足自动驾驶汽车等一些强实时场景的要求.在空间维度上, 随着模型规模日益庞大特别是网络深度剧增, 对模型的存储提出了更高的要求, 这制约了深度卷积神经网络在移动手机、嵌入式设备等资源受限环境的应用.
为加快以卷积神经网络为代表的深度学习技术的推广及应用, 进一步强化在安防、移动设备、自动驾驶等多个行业的优势, 学术界和工业界对其结构的优化展开了大量研究.现阶段常用的网络结构优化技术包括网络剪枝与稀疏化、张量分解、知识迁移和精细模块设计, 前三种方法通常是在已有高性能模型的基础上改进并加以创新, 在不损害精度甚至有所提高的前提下尽可能降低模型复杂度和计算复杂度.精细模块设计方法从网络构造的角度出发, 创造性地设计高效模块以提升网络性能, 从根本解决深度卷积神经网络面临的时间复杂度和空间复杂度过高的问题.笔者整理了近几年的研究成果, 根据自己的理解总结了该领域以下的难点问题以及发展趋势:
1) 网络剪枝与稀疏化能够稳定地优化并调整网络结构, 以较小精度损失的代价压缩网络规模, 是应用最为广泛的网络结构优化设计方法.目前大多数的方法是剔除网络中冗余的连接或神经元, 这种低层级的剪枝具有非结构化(Non-structural)风险, 在计算机运行过程中的非正则化(Irregular)内存存取方式反而会阻碍网络进一步加速.一些特殊的软硬件措施能够缓解这一问题, 然而会给模型的部署带来额外的花销.另一方面, 尽管一些针对卷积核和卷积图的结构化剪枝方法能够获得硬件友好型网络, 在CPU和GPU上速度提升明显, 但由于剪枝卷积核和卷积通道会严重影响下一隐含层的输入, 有可能存在网络精度损失严重的问题.
2) 目前主流的精细模块设计方法仍然依赖于设计者的工程经验和理论基础, 在网络构造过程中要考虑到大量因素, 如卷积核尺寸、全连接层数、池化层数等超参数(Hyper parameter).不同的选择对于网络最终性能有可能造成完全不同的影响, 需要进行大量的实验来论证不同参数的优劣, 使得网络结构设计耗费大量的人力物力, 不利于深度模型的快速部署及应用.因此, 研究如何自动设计网络有助于卷积神经网络的设计空间探索(Design space exploration, DSE), 对于加快网络设计过程和推动深度学习落地于工程化应用具有重要的促进作用.
3) 网络结构优化设计的评价指标.目前对于深度卷积神经网络的结构优化设计主要侧重于准确率、运行时间、模型大小等方面的评价, 但使用更加全面的评价指标对于发现不同网络的优点和缺点是大有裨益的.除了准确率、运行时间、模型大小等传统指标, 有必要将乘加(Multiply-and-accumulate)操作量、推导时间、数据吞吐量、硬件能耗等指标纳入评价体系, 这为从不同方面评价优化模型提供了更加完备的信息, 也有助于解决了不同网络性能评价指标不统一的问题.
4) 在过去, 深度卷积神经网络的结构优化更多着眼于算法的设计与实现, 而对于模型的具体部署平台和硬件设施欠缺考虑.考虑到硬件条件仍是制约着深度模型部署于移动手机、机器人、自动驾驶等资源受限场景下的主要因素, 若统筹兼顾网络模型和硬件设施的优化与设计, 使算法与硬件相匹配, 不仅能够进一步提高数据吞吐量与运行速度, 还可以减少网络规模与能耗.因此, 设计硬件友好型深度模型将有助于加速推进深度学习的工程化实现, 也是网络结构优化的重点研究方向.
5) 本文归纳与总结的网络结构优化方法有不同的侧重点和局限性, 其中网络剪枝与稀疏化方法能够获得较大的压缩比, 同时对于网络精度的影响较小, 在需要模型稳定运行的场景下较为适用.张量分解能够极大加速模型的运行过程, 而且端到端的逐层优化方式也使其容易实施, 然而该方法不能较好地压缩模型规模, 而且在卷积核尺寸较小时加速效果不明显.知识迁移方法能够利用教师网络的领域知识指导学生网络的训练, 在小样本环境下有较高的使用价值.同时, 知识迁移和精细模块设计都面临网络结构如何构造的问题, 要求设计者具有较高的理论基础和工程经验, 与其他方法相比其调试周期较长.因此, 在使用网络结构优化技术时应考虑实际情况, 综合应用以上方法以压缩并加速网络.
6) 深度神经网络结构优化的迁移应用.本文分析了卷积神经网络目前存在的挑战和问题, 并且探讨了卷积神经网络结构优化领域的主流方法、思想及其应用.由于目前其他主流的深度网络(如循环神经网络、生成对抗网络)同样面临模型规模大、运行速度慢的问题, 因此借鉴卷积神经网络结构优化的思想以优化其模型是一种有效的解决方式.此外, 目前很多优化方法一般都是针对图像分类问题, 若将其应用于目标检测、语义分割等领域也应取得较好效果.
-
表 1 经典卷积神经网络的性能及相关参数
Table 1 Classic convolutional neural networks and corresponding parameters
年份 网络名称 网络层数 卷积层数量 参数数量 卷积层 全连接层 乘加操作数(MACs) 卷积层 全连接层 Top-5错误率(%) 2012 AlexNet[1] 8 5 2.3M 58.6M 666 M 58.6M 16.4 2014 Overfeat[2] 8 5 16 M 130M 2.67G 124M 14.2 2014 VGGNet-16[3] 16 13 14.7M 124M 15.3 G 130M 7.4 2015 GoogLeNet[4] 22 21 6M 1M 1.43 G 1M 6.7 2016 ResNet-50[5] 50 49 23.5M 2M 3.86 G 2M 3.6 表 2 网络剪枝对不同网络的压缩效果
Table 2 Comparison of different pruned networks
-
[1] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks. In: Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe, Nevada, USA: Curran Associates Inc., 2012. 1097-1105 [2] Zeiler M D, Fergus R. Visualizing and understanding convolutional networks. In: Proceedings of 13th European Conference on Computer Vision. Zurich, Switzerland: Springer, 2014. 818-833 http://cn.bing.com/academic/profile?id=2e04eadd73b7358f1ea104aef2c94bd4&encoded=0&v=paper_preview&mkt=zh-cn [3] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition. arXiv: 1409.1556, 2014. http://cn.bing.com/academic/profile?id=9a83dddfc646cd21a3e38737d303a369&encoded=0&v=paper_preview&mkt=zh-cn [4] Szegedy C, Liu W, Jia Y Q, Sermanet P, Reed S, Anguelov D, et al. Going deeper with convolutions. In: Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE, 2015. 1-9 http://cn.bing.com/academic/profile?id=7d4011aa0a4959f0c5e4af61acc12466&encoded=0&v=paper_preview&mkt=zh-cn [5] He K M, Zhang X Y, Ren S Q, Sun J. Deep residual learning for image recognition. In: Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016. 770-778 http://cn.bing.com/academic/profile?id=d3fa279e4a35560a5429ba8f84dff15e&encoded=0&v=paper_preview&mkt=zh-cn [6] LeCun Y, Bottou L, Bengio Y, Haffner P. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 1998, 86(11): 2278-2324 doi: 10.1109/5.726791 [7] He K M, Sun J. Convolutional neural networks at constrained time cost. In: Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE, 2015. 5353-5360 [8] Le Cun Y, Denker J S, Solla S A. Optimal brain damage. In: Proceedings of the 2nd International Conference on Neural Information Processing Systems. Denver, Colorado, USA: MIT Press, 1989. 598-605 [9] Hassibi B, Stork D G, Wolff G, Watanabe T. Optimal brain surgeon: extensions and performance comparisons. In: Proceedings of the 6th International Conference on Neural Information Processing Systems. Denver, Colorado, USA: Morgan Kaufmann Publishers Inc., 1993. 263-270 [10] Cheng Y, Wang D, Zhou P, Zhang T. A survey of model compression and acceleration for deep neural networks. arXiv: 1710.09282, 2017. [11] Cheng J, Wang P S, Li G, Hu Q H, Lu H Q. Recent advances in efficient computation of deep convolutional neural networks. Frontiers of Information Technology & Electronic Engineering, 2018, 19(1): 64-77 http://d.old.wanfangdata.com.cn/Periodical/zjdxxbc-e201801008 [12] 雷杰, 高鑫, 宋杰, 王兴路, 宋明黎.深度网络模型压缩综述.软件学报, 2018, 29(2): 251-266 http://d.old.wanfangdata.com.cn/Periodical/rjxb201802002Lei Jie, Gao Xin, Song Jie, Wang Xing-Lu, Song Ming-Li. Survey of deep neural network model compression. Journal of Software, 2018, 29(2): 251-266 http://d.old.wanfangdata.com.cn/Periodical/rjxb201802002 [13] Hu H Y, Peng R, Tai Y W, Tang C K. Network trimming: a data-driven neuron pruning approach towards efficient deep architectures. arXiv: 1607.03250, 2016. [14] Cheng Y, Wang D, Zhou P, Zhang T. Model compression and acceleration for deep neural networks: the principles, progress, and challenges. IEEE Signal Processing Magazine, 2018, 35(1): 126-136 http://cn.bing.com/academic/profile?id=c41edb9c79f4cae56125bbfc508801d3&encoded=0&v=paper_preview&mkt=zh-cn [15] Gong Y C, Liu L, Yang M, Bourdev L. Compressing deep convolutional networks using vector quantization. arXiv: 1412.6115, 2014. http://cn.bing.com/academic/profile?id=fb878b7aaad93122079eeaf80c4b058f&encoded=0&v=paper_preview&mkt=zh-cn [16] Reed R. Pruning algorithms-a survey. IEEE Transactions on Neural Networks, 1993, 4(5): 740-747 doi: 10.1109/72.248452 [17] Collins M D, Kohli P. Memory bounded deep convolutional networks. arXiv: 1412.1442, 2014. [18] Jin X J, Yuan X T, Feng J S, Yan S C. Training skinny deep neural networks with iterative hard thresholding methods. arXiv: 1607.05423, 2016. [19] Zhou H, Alvarez J M, Porikli F. Less is more: towards compact CNNs. In: Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands: Springer, 2016. 662-677 [20] Wen W, Wu C P, Wang Y D, Chen Y R, Li H. Learning structured sparsity in deep neural networks. In: Proceedings of the 30th Conference on Neural Information Processing Systems. Barcelona, Spain: MIT Press, 2016. 2074-2082 [21] Lebedev V, Lempitsky V. Fast convnets using group-wise brain damage. In: Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016. 2554-2564 [22] Louizos C, Welling M, Kingma D P. Learning sparse neural networks through L0regularization. arXiv: 1712.01312, 2017. [23] Hinton G E, Srivastava N, Krizhevsky A, Sutskever I, Salakhutdinov R R. Improving neural networks by preventing co-adaptation of feature detectors. arXiv: 1207.0580, 2012. [24] Srivastava N, Hinton G, Krizhevsky A, Sutskever I, Salakhutdinov R. Dropout: a simple way to prevent neural networks from overfitting. Journal of Machine Learning Research, 2014, 15(1): 1929-1958 http://d.old.wanfangdata.com.cn/Periodical/kzyjc200606005 [25] Li Z, Gong B Q, Yang T B. Improved dropout for shallow and deep learning. In: Proceedings of the 30th Conference on Neural Information Processing Systems. Barcelona, Spain: MIT Press, 2016. 2523-2531 [26] Anwar S, Sung W. Coarse pruning of convolutional neural networks with random masks. In: Proceedings of 2017 International Conference on Learning Representations. Toulon, France: 2017. 134-145 [27] Hanson S J, Pratt L Y. Comparing biases for minimal network construction with back-propagation. In: Proceedings of the 1st International Conference on Neural Information Processing Systems. Denver, Colorado, USA: MIT Press, 1988. 177-185 [28] Han S, Mao H Z, Dally W J. Deep compression: compressing deep neural networks with pruning, trained quantization and huffman coding. arXiv: 1510.00149, 2015. http://cn.bing.com/academic/profile?id=9bf6fa99e4da3298640c577b462462d5&encoded=0&v=paper_preview&mkt=zh-cn [29] Srinivas S, Babu R V. Data-free parameter pruning for deep neural networks. arXiv: 1507.06149, 2015. [30] Guo Y W, Yao A B, Chen Y R. Dynamic network surgery for efficient DNNs. In: Proceedings of the 30th Conference on Neural Information Processing Systems. Barcelona, Spain: MIT Press, 2016. 1379-1387 [31] Liu X Y, Pool J, Han S, Dally W J. Efficient sparse-winograd convolutional neural networks. In: Proceedings of 2017 International Conference on Learning Representation. France: 2017. [32] He Y H, Zhang X Y, Sun J. Channel pruning for accelerating very deep neural networks. In: Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017. 1398-1406 [33] Li H, Kadav A, Durdanovic I, Samet H, Graf H P. Pruning filters for efficient convNets. arXiv: 1608.08710, 2016. [34] Luo J H, Wu J X, Lin W Y. Thinet: a filter level pruning method for deep neural network compression. In: Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017. 5068-5076 [35] Denil M, Shakibi B, Dinh L, Ranzato M, de Freitas N. Predicting parameters in deep learning. In: Proceedings of the 26th International Conference on Neural Information Processing Systems. Lake Tahoe, Nevada, USA: Curran Associates Inc., 2013. 2148-2156 [36] Rigamonti R, Sironi A, Lepetit V, Fua P. Learning separable filters. In: Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR, USA: IEEE, 2013. 2754-2761 [37] Jaderberg M, Vedaldi A, Zisserman A. Speeding up convolutional neural networks with low rank expansions. arXiv: 1405.3866, 2014. http://cn.bing.com/academic/profile?id=2c2b54ee2cf492b32a9efa47b48a5cfc&encoded=0&v=paper_preview&mkt=zh-cn [38] Denton E, Zaremba W, Bruna J, LeCun Y, Fergus R. Exploiting linear structure within convolutional networks for efficient evaluation. In: Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Canada: MIT Press, 2014. 1269-1277 [39] Lebedev V, Ganin Y, Rakhuba M, Oseledets I, Lempitsky V. Speeding-up convolutional neural networks using fine-tuned CP-decomposition. arXiv: 1412.6553, 2014. [40] Tai C, Xiao T, Zhang Y, Wang X G, E W N. Convolutional neural networks with low-rank regularization. arXiv: 1511.06067, 2015. [41] Zhang X Y, Zou J H, Ming X, He K M, Sun J. Efficient and accurate approximations of nonlinear convolutional networks. In: Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE, 2015. 1984-1992 [42] Kim Y D, Park E, Yoo S, Choi T, Yang L, Shin D. Compression of deep convolutional neural networks for fast and low power mobile applications. arXiv: 1511.06530, 2015. http://cn.bing.com/academic/profile?id=281aebb382c2e11ab8d73baaafadfbe5&encoded=0&v=paper_preview&mkt=zh-cn [43] Wang Y H, Xu C, Xu C, Tao D C. Beyond filters: compact feature map for portable deep model. In: Proceedings of the 34th International Conference on Machine Learning. Sydney, Australia: JMLR.org, 2017. 3703-3711 [44] Astrid M, Lee S I. CP-decomposition with tensor power method for convolutional neural networks compression. In: Proceedings of 2017 IEEE International Conference on Big Data and Smart Computing. Jeju, South Korea: IEEE, 2017. 115-118 [45] Bucilu\v{a} C, Caruana R, Niculescu-Mizil A. Model compression. In: Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Philadelphia, USA: ACM, 2006. 535-541 [46] Ba J, Caruana R. Do deep nets really need to be deep? In: Proceedings of Advances in Neural Information Processing Systems. Montreal, Quebec, Canada: MIT Press, 2014. 2654-2662 [47] Hinton G, Vinyals O, Dean J. Distilling the knowledge in a neural network. arXiv: 1503.02531, 2015. [48] Romero A, Ballas N, Kahou S E, Chassang A, Gatta C, Bengio Y. Fitnets: hints for thin deep nets. arXiv: 1412.6550, 2014. [49] Luo P, Zhu Z Y, Liu Z W, Wang X G, Tang X O. Face model compression by distilling knowledge from neurons. In: Proceedings of the 30th AAAI Conference on Artificial Intelligence. Phoenix, Arizona, USA: AAAI, 2016. 3560-3566 [50] Chen T Q, Goodfellow I, Shlens J. Net2Net: accelerating learning via knowledge transfer. arXiv: 1511.05641, 2015. [51] Zagoruyko S, Komodakis N. Paying more attention to attention: improving the performance of convolutional neural networks via attention transfer. In: Proceedings of 2017 International Conference on Learning Representations. France: 2017. [52] Theis L, Korshunova I, Tejani A, Huszár F. Faster gaze prediction with dense networks and Fisher pruning. arXiv: 1801.05787, 2018. [53] Yim J, Joo D, Bae J, Kim J. A gift from knowledge distillation: fast optimization, network minimization and transfer learning. In: Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017. [54] Chen G B, Choi W, Yu X, Han T, Chandraker M. Learning efficient object detection models with knowledge distillation. In: Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA: Curran Associates Inc., 2017. 742-751 [55] Lin M, Chen Q, Yan S C. Network in network. arXiv: 1312.4400, 2013. [56] Ioffe S, Szegedy C. Batch normalization: accelerating deep network training by reducing internal covariate shift. arXiv: 1502.03167, 2015. [57] Szegedy C, Vanhoucke V, Ioffe S, Shlens J, Wojna Z. Rethinking the inception architecture for computer vision. In: Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016. 2818-2826 [58] Szegedy C, Ioffe S, Vanhoucke V, Alemi A A. Inception-v4, inception-resnet and the impact of residual connections on learning. In: Proceedings of the 31st AAAI Conference on Artificial Intelligence. San Francisco, USA: AAAI, 2017. 12 [59] Chollet F. Xception: deep learning with depthwise separable convolutions. In: Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017. [60] Chang J R, Chen Y S. Batch-normalized maxout network in network. arXiv: 1511.02583, 2015. [61] Pang Y W, Sun M L, Jiang X H, Li X L. Convolution in convolution for network in network. IEEE transactions on neural networks and learning systems, 2018, 29(5): 1587-1597 doi: 10.1109/TNNLS.2017.2676130 [62] Han X M, Dai Q. Batch-normalized mlpconv-wise supervised pre-training network in network. Applied Intelligence, 2018, 48(1): 142-155 doi: 10.1007/s10489-017-0968-2 [63] Srivastava R K, Greff K, Schmidhuber J. Highway networks. arXiv: 1505.00387, 2015. [64] Hochreiter S, Schmidhuber J. Long short-term memory. Neural Computation, 1997, 9(8): 1735-1780 doi: 10.1162/neco.1997.9.8.1735 [65] Larsson G, Maire M, Shakhnarovich G. Fractalnet: ultra-deep neural networks without residuals. arXiv: 1605.07648, 2016. [66] Huang G, Sun Y, Liu Z, Sedra D, Weinberger K Q. Deep networks with stochastic depth. In: Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands: Springer, 2016. 646-661 [67] He K M, Zhang X Y, Ren S Q, Sun J. Identity mappings in deep residual networks. In: Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands: Springer, 2016. 630-645 [68] Xie S N, Girshick R, Dollár P, Tu Z W, He K M. Aggregated residual transformations for deep neural networks. In: Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017. 5987-5995 [69] LeCun Y, Bengio Y, Hinton G. Deep learning. Nature, 2015, 521(7553): 436-444 doi: 10.1038/nature14539 [70] Zagoruyko S, Komodakis N. Wide residual networks. arXiv: 1605.07146, 2016. [71] Targ S, Almeida D, Lyman K. Resnet in resnet: generalizing residual architectures. arXiv: 1603.08029, 2016. [72] Zhang K, Sun M, Han T X, Yuan X F, Guo L R, Liu T. Residual networks of residual networks: multilevel residual networks. IEEE Transactions on Circuits and Systems for Video Technology, 2018, 28(6): 1303-1314 doi: 10.1109/TCSVT.2017.2654543 [73] Abdi M, Nahavandi S. Multi-residual networks: improving the speed and accuracy of residual networks. arXiv: 1609.05672, 2016. [74] Huang G, Liu Z, van der Maaten L, Weinberger K Q. Densely connected convolutional networks. In: Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017. [75] 张婷, 李玉鑑, 胡海鹤, 张亚红.基于跨连卷积神经网络的性别分类模型.自动化学报, 2016, 42(6): 858-865 doi: 10.16383/j.aas.2016.c150658Zhang Ting, Li Yu-Jian, Hu Hai-He, Zhang Ya-Hong. A gender classification model based on cross-connected convolutional neural networks. Acta Automatica Sinica, 2016, 42(6): 858-865 doi: 10.16383/j.aas.2016.c150658 [76] 李勇, 林小竹, 蒋梦莹.基于跨连接LeNet-5网络的面部表情识别.自动化学报, 2018, 44(1): 176-182 doi: 10.16383/j.aas.2018.c160835Li Yong, Lin Xiao-Zhu, Jiang Meng-Ying. Facial expression recognition with cross-connect LeNet-5 network. Acta Automatica Sinica, 2018, 44(1): 176-182 doi: 10.16383/j.aas.2018.c160835 [77] Howard A G, Zhu M L, Chen B, Kalenichenko D, Wang W J, Weyand T, et al. Mobilenets: efficient convolutional neural networks for mobile vision applications. arXiv: 1704.04861, 2017. [78] Sandler M, Howard A, Zhu M L, Zhmoginov A, Chen L C. MobileNetV2: inverted residuals and linear bottlenecks. In: Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 4510-4520 [79] Zhang X Y, Zhou X Y, Lin M X, Sun J. ShuffleNet: an extremely efficient convolutional neural network for mobile devices. In: Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 期刊类型引用(141)
1. 刘啸宇,黄永,徐峰,李惠. 基于轻量化卷积神经网络的桥梁斜拉索PE护套损伤识别方法. 土木与环境工程学报(中英文). 2025(01): 167-178 . 百度学术
2. 沈媛媛,张燕明,沈燕飞. 基于视觉的人体动作质量评价研究综述. 自动化学报. 2025(02): 404-426 . 本站查看
3. 嵇小辅,金兆雄. 基于改进ResNet34网络的脑肿瘤分类方法研究. 计算机测量与控制. 2025(02): 184-191 . 百度学术
4. 汤健,潘晓彤,夏恒,李帷韬. 基于多特征融合和改进级联森林的MSWI过程燃烧状态识别. 控制工程. 2025(02): 306-316 . 百度学术
5. 蔡子堃,罗天健. 脑电信号的稳定扩散样本增强方法. 福建电脑. 2024(01): 39-43 . 百度学术
6. 王鼎衡,刘保荣,杨维,杨朝旭. KCPStack:张量分解的卷积核分层矩阵压缩方法. 西安交通大学学报. 2024(03): 137-148 . 百度学术
7. 郭海涛,汤健,丁海旭,乔俊飞. 基于混合数据增强的MSWI过程燃烧状态识别. 自动化学报. 2024(03): 560-575 . 本站查看
8. 董裕民,张静,谢昌佐,李子扬. 云边端架构下边缘智能计算关键问题综述:计算优化与计算卸载. 电子与信息学报. 2024(03): 765-776 . 百度学术
9. 赵婷婷,王莹,孙威,陈亚瑞,王嫄,杨巨成. 潜在空间中的策略搜索强化学习方法. 计算机科学与探索. 2024(04): 1032-1046 . 百度学术
10. 张志剑,夏苏迪,刘政昊. 融合多特征深度学习的印章识别及应用研究. 数据分析与知识发现. 2024(03): 143-155 . 百度学术
11. 潘博文,魏冰心,苏宝峰,鞠延仑,刘崇怀,樊秀彩,张颖,孙磊,姜建福,房玉林. 基于深度学习的葡萄砧木叶片识别研究. 植物遗传资源学报. 2024(04): 1028-1037 . 百度学术
12. 姜全越. 基于卷积神经网络的视频监控识别方法. 信息与电脑(理论版). 2024(04): 144-146 . 百度学术
13. 王盼孺,杨学志,刘雪南,李龙伟,王定良. 基于权重优化卷积神经网络的非接触心率检测. 合肥工业大学学报(自然科学版). 2024(04): 479-487 . 百度学术
14. 刘金辉,陈孟元,韩朋朋,陈何宝,张玉坤. 面向移动机器人大视角运动的图神经网络视觉SLAM算法. 系统仿真学报. 2024(05): 1043-1060 . 百度学术
15. 吴海雄,孙殿坤. 基于网络拓扑自动识别的海量挂取保电标识牌功能设计与实现. 机电工程技术. 2024(05): 286-289 . 百度学术
16. 郑文轩,杨瑛. 基于频域数据增强与轻量化YOLO v7模型的成熟期香梨目标检测方法. 农业机械学报. 2024(05): 244-253 . 百度学术
17. 庞丁铭. 基于卷积神经网络的智慧教室监控平台设计. 信息与电脑(理论版). 2024(06): 74-76 . 百度学术
18. 苏恺明,徐耀辉,徐旺林,张月巧,白斌,李阳,严刚. 鄂尔多斯盆地延长组多油源贡献比例与分布规律:基于机器学习与可解释性研究. 地学前缘. 2024(03): 530-540 . 百度学术
19. 杨波. 基于卷积神经网络的实时语音分割优化研究. 电声技术. 2024(05): 46-48 . 百度学术
20. Kai-Ming Su,Jun-Gang Lu,Jian Yu,Zi-Xing Lu,Shi-Jia Chen. Intelligent geochemical interpretation of mass chromatograms: Based on convolution neural network. Petroleum Science. 2024(02): 752-764 . 必应学术
21. 赵慧敏,郑建杰,郭晨,邓武. 基于流形正则化框架和MMD的域自适应BLS模型. 自动化学报. 2024(07): 1458-1471 . 本站查看
22. 魏晓辉,王晨洋,吴旗,郑新阳,于洪梅,岳恒山. 面向脉动阵列神经网络加速器的软错误近似容错设计. 吉林大学学报(工学版). 2024(06): 1746-1755 . 百度学术
23. 吴奕东,李妮妮,曹伟,刘祎晗. 汽车底盘零部件疲劳耐久性能测试新方法的研究. 机电工程技术. 2024(07): 241-245 . 百度学术
24. 王小伟,高明,孙希霞. 基于混合TLBO-DE算法的图像去噪卷积神经网络. 智能计算机与应用. 2024(08): 102-108 . 百度学术
25. 刘玉红,姜启,谈丽娟,杨恒. 基于滤波器剪枝的多尺度压缩感知图像重构. 湖南大学学报(自然科学版). 2024(08): 34-46 . 百度学术
26. 任昌. 视频轻量化在油田的应用研究. 现代工业经济和信息化. 2024(09): 105-107 . 百度学术
27. 郭倩,王会利,王晓晴,杨华蕾,张美薇,曾令涛,崔宇培,徐富义,孙孝林. 基于智能手机图像颜色参数的土壤有机质估测. 土壤通报. 2024(04): 932-943 . 百度学术
28. 殷孝雎,潘雪,左雁斌,关新. 基于迁移学习的风电机组叶片损伤检测与分析. 太阳能学报. 2024(10): 506-511 . 百度学术
29. 赵桦筝,庞善民,赵英海,华高晖,李晨阳,段战胜,梅魁志. 面向多功能张量加速器的细粒度结构化稀疏设计. 西安交通大学学报. 2024(11): 176-184 . 百度学术
30. 芦肇基,沈艳霞,谭永强. 基于多结构融合WGAN的模糊绝缘子图像复原方法研究. 电力系统保护与控制. 2024(22): 166-175 . 百度学术
31. 张立亚,马征,郝博南,李标. 矿用5G通信信号传输的干扰监测技术. 工矿自动化. 2024(11): 62-69 . 百度学术
32. 郑文轩,杨瑛. 基于改进轻量化YOLO v7的成熟期香梨目标检测方法. 江苏农业科学. 2024(20): 121-128 . 百度学术
33. 于士澳,孔伟,马汝佳,黄庚华. 基于BP神经网络的光子计数激光雷达点云滤波. 激光与光电子学进展. 2024(24): 121-128 . 百度学术
34. 刘麒,李奎东,常广良,王影. 基于改进YOLOv7的水果目标检测方法. 吉林化工学院学报. 2024(07): 12-17 . 百度学术
35. 叶春,刘莹,刘继忠,舒时富,李艳大,吴罗发. 基于LBPHSV+ResNet50融合的水稻冠层氮素营养监测方法. 中国农业大学学报. 2023(01): 39-47 . 百度学术
36. 封红旗,孙杨,吴涛,王少聪,李文杰. 融合多特征和迭代扩张卷积的中文电子病历命名实体识别. 常州大学学报(自然科学版). 2023(01): 59-67 . 百度学术
37. 程小辉,李钰,康燕萍. 基于中间图特征提取的卷积网络双标准剪枝. 计算机工程. 2023(03): 105-112 . 百度学术
38. 宋怀波,李嵘,王云飞,焦义涛,华志新. 基于ECA-YOLO v5s网络的重度遮挡肉牛目标识别方法. 农业机械学报. 2023(03): 274-281 . 百度学术
39. 张鹏,李广道. 基于CNN的飞机升降舵液压系统故障诊断. 中国民航大学学报. 2023(01): 35-40+52 . 百度学术
40. 张溟晨,赵伦,施杰,林森,王海波,Md Shafiqul Islam. 基于迁移学习的PSO-Shuffle Net鱼类识别方法. 渔业现代化. 2023(02): 67-73 . 百度学术
41. 周祺,张帅. 基于手部姿态识别的MIDI体感交互系统设计. 湖北工业大学学报. 2023(02): 27-32 . 百度学术
42. 张余冉,段喜萍,李昀松,刘庭圆. 基于ResNet-ACmix融合特征的ECO目标跟踪算法改进. 哈尔滨师范大学自然科学学报. 2023(01): 75-82 . 百度学术
43. 付豪,赵学观,翟长远,郑康,郑申玉,王秀. 基于深度学习的杂草识别方法研究进展. 中国农机化学报. 2023(05): 198-207 . 百度学术
44. 徐衍向,张敬智,兰玉彬,孙越梅,韩鑫,白京波. 基于红外热成像和机器学习的作物早期病害识别研究进展. 中国农机化学报. 2023(05): 188-197 . 百度学术
45. 沈雅婷,张炜俊,白郁馨. 基于神经网络CNN的三层提取且防过拟合的手势识别算法模型. 电脑与电信. 2023(03): 49-54 . 百度学术
46. 崔昊杨,韩奕,张驯,王茺,刘诚. 基于改进U-Net结构生成对抗网络的运动模糊绝缘子图像复原方法. 电网技术. 2023(06): 2594-2604 . 百度学术
47. 杨林顺,刘航涛. 基于深度残差网络的煤泥浮选泡沫图像分类方法研究. 煤炭技术. 2023(07): 226-229 . 百度学术
48. 张东升,李雪松,范新健,崔昱,王啸宇,何畏,倪瑞璞. 基于注意力机制的变电站仪表智能读数方法. 现代电子技术. 2023(14): 127-134 . 百度学术
49. 耿磊,齐婷婷,张芳,肖志涛,李月龙. 基于MIFNet的婴儿面部表情识别. 计算机系统应用. 2023(08): 42-53 . 百度学术
50. 王传云,司可意. 低空空域小型无人机目标检测算法. 沈阳航空航天大学学报. 2023(02): 54-62 . 百度学术
51. 薛珊,陈宇超,吕琼莹,曹国华. 基于双支路神经网络的无人机图像识别方法. 计算机仿真. 2023(07): 233-238 . 百度学术
52. 赵婷婷,孙威,陈亚瑞,王嫄,杨巨成. 潜在空间中深度强化学习方法研究综述. 计算机科学与探索. 2023(09): 2047-2074 . 百度学术
53. 郭庆梅,于恒力,王中训,刘宁波. 基于卷积神经网络的图像分类模型综述. 电子技术应用. 2023(09): 31-38 . 百度学术
54. 沈雅婷,白郁馨. 卷积网络结构优化的人脸识别算法. 电脑与电信. 2023(06): 9-13+17 . 百度学术
55. 余海坤,吕志刚,王鹏,李晓艳,王洪喜,李亮亮. CIRBlock:融合低代价卷积的轻量反向残差模块. 计算机工程与应用. 2023(20): 94-102 . 百度学术
56. 郑晓玲,郑永钊. 基于神经网络的无人机农药喷洒区域智能识别. 黎明职业大学学报. 2023(02): 94-101 . 百度学术
57. 龙燕,杨智优,何梦菲. 基于改进YOLOv7的疏果期苹果目标检测方法. 农业工程学报. 2023(14): 191-199 . 百度学术
58. 薛冰,吴巍. 基于卷积神经网络的海杂波数据分析与鉴别. 电子技术应用. 2023(11): 15-22 . 百度学术
59. 王琦标,何余锴,罗雨诗,王淑君,谢波,邓超,刘勇,庹先国. 基于卷积神经网络和近红外光谱的酒醅酸度分析方法研究. 光谱学与光谱分析. 2023(12): 3726-3731 . 百度学术
60. 黄晨. 基于多尺度卷积网络的视频压缩算法设计. 信息技术. 2023(10): 56-60 . 百度学术
61. 史航宇,文小林,丁慧霞,齐迪,韩淑华. 基于深度学习神经网络的岩性剖面预测及应用. 能源与环保. 2023(11): 187-192 . 百度学术
62. 吴琦,闫毕成,王晨晨,崔文旭,辛若腾,司广涛. 基于深度学习与边缘计算的垃圾分类方法. 计算机与数字工程. 2023(09): 2114-2118 . 百度学术
63. 刘振,吴宇. 基于区块链的自适应权重趋势感知联邦学习方案. 电子设计工程. 2023(24): 75-80 . 百度学术
64. 唐贵进,沈建华. 基于“三链联动”的电子信息类专业课程产教融合探索与实践. 软件导刊. 2023(12): 51-55 . 百度学术
65. 韩鑫,徐衍向,封润泽,刘天旭,白京波,兰玉彬. 基于红外热成像和改进YOLO v5的作物病害早期识别. 农业机械学报. 2023(12): 300-307+375 . 百度学术
66. 杨晓同,易灿南,蒋复量,胡鸿,张勉,李昊宇,吴文. 基于CNN-BiLSTM的脑电情绪分类模型及验证. 南华大学学报(自然科学版). 2023(06): 41-49 . 百度学术
67. 汪晨,孙伟,郑蓓,吕灯明. 基于机器视觉的变电站数字化违章行为三维虚拟周界监测方法. 微电子学与计算机. 2023(12): 53-60 . 百度学术
68. 孙峰,杨观赐,Ajith Kumar V,张安思. 基于自我监督学习策略的层智能图卷积网络. 计算机应用研究. 2022(01): 128-133 . 百度学术
69. 孙强,李一全,于占江,李成超,许金凯. Inception-ViT模型的微型铣刀磨损状态预测研究. 工具技术. 2022(01): 3-8 . 百度学术
70. 李文逵,韩俊英. 基于一种轻量级卷积神经网络的植物叶片图像识别研究. 软件工程. 2022(02): 10-13+9 . 百度学术
71. 武钦芳,吴张倩,苏兆品,张国富. 遗传算法优化时间卷积网络的手机来源识别. 计算机工程与应用. 2022(03): 151-158 . 百度学术
72. 李克文,苏兆鑫,王兴谋,朱剑兵. 基于稀疏诱导特征选择神经网络的储层预测方法研究. 计算机应用与软件. 2022(02): 49-54 . 百度学术
73. 李冬辉,赵墨刊,高龙. 基于CNN-GRU的冷水机组传感器偏差故障诊断方法. 湖南大学学报(自然科学版). 2022(02): 74-82 . 百度学术
74. 王鼎衡,赵广社,姚满,李国齐. KCPNet:张量分解的轻量卷积模块设计、部署与应用. 西安交通大学学报. 2022(03): 135-146 . 百度学术
75. 朱子健,刘琪,陈红芬,张贵阳,王福宽,霍炬. 基于并行融合网络的航拍红外车辆小目标检测方法. 光子学报. 2022(02): 190-202 . 百度学术
76. 陈晨,韩纪庆,陈德运,何勇军. 文本无关说话人识别中句级特征提取方法研究综述. 自动化学报. 2022(03): 664-688 . 本站查看
77. 刘帅奇,雷钰,庞姣,赵淑欢,苏永钢,孙晨阳. 基于生成对抗网络的SAR图像去噪. 河北大学学报(自然科学版). 2022(03): 306-313 . 百度学术
78. 周梓豪,田秋红. 基于改进Xception网络的手势识别. 软件导刊. 2022(06): 41-48 . 百度学术
79. 汪睿卿,王慧琴,王可. 融合细节特征与混合注意力机制的火灾烟雾检测. 液晶与显示. 2022(07): 900-912 . 百度学术
80. 帕孜来提·努尔买提,古丽娜孜·艾力木江,乎西旦·居马洪,朱双玲. 一种基于深度学习方法的面部微变识别的研究. 伊犁师范大学学报(自然科学版). 2022(02): 41-46+52 . 百度学术
81. 唐友亮,张锦. 模糊PID神经网络逆控制多电机系统研究. 机电信息. 2022(13): 12-15+19 . 百度学术
82. 尚钰莹,张倩如,宋怀波. 基于YOLOv5s的深度学习在自然场景苹果花朵检测中的应用. 农业工程学报. 2022(09): 222-229 . 百度学术
83. 司念文,张文林,屈丹,罗向阳,常禾雨,牛铜. 卷积神经网络表征可视化研究综述. 自动化学报. 2022(08): 1890-1920 . 本站查看
84. 郭文娟,冯全,李相周. 基于农作物病害检测与识别的卷积神经网络模型研究进展. 中国农机化学报. 2022(10): 157-166 . 百度学术
85. 张兴园,黄雅平,邹琪,裴艳婷. 基于草图纹理和形状特征融合的草图识别. 自动化学报. 2022(09): 2223-2232 . 本站查看
86. 高新成,李强,王莉利,杜功鑫,柯璇. 基于改进遗传算法的自适应卷积神经网络. 计算机技术与发展. 2022(10): 132-136+142 . 百度学术
87. 李小艳,宋亚林,乐飞. 残差密集块的卷积神经网络图像去噪. 计算机系统应用. 2022(10): 166-174 . 百度学术
88. 楼洋,李均利,李升,邓浩. 复杂网络能控性鲁棒性研究进展. 自动化学报. 2022(10): 2374-2391 . 本站查看
89. 何龙健,钟子乐,邹大辉,黄灿斌,邓卓然,梁艳. 面向医疗整容的三维人脸重建与编辑系统. 计算机系统应用. 2022(12): 69-77 . 百度学术
90. 侯茂泽,马艳琼,田森林,欧阳昊,赵恒,李英杰,铁程,赵琦琳. 基于卷积神经网络识别三维荧光光谱的水污染溯源研究. 中国环境监测. 2022(05): 188-195 . 百度学术
91. 黄成龙,柯宇曦,华向东,杨俊雅,孙梦雨,杨万能. 边缘计算在智慧农业中的应用现状与展望. 农业工程学报. 2022(16): 224-234 . 百度学术
92. 黄源航,强梦烨,李涛,晏明昊,张涵艺,贾大昌. 基于RoBERTa的电力领域词汇挖掘模型. 电力大数据. 2022(06): 1-8 . 百度学术
93. 潘雪峰. 图书馆学科文献推荐服务模型探讨. 辽宁工业大学学报(社会科学版). 2022(06): 41-44 . 百度学术
94. 万黎明,张小乾,刘知贵,李理. 基于空洞空间金字塔池化和多头自注意力的特征提取网络. 计算机应用. 2022(S2): 79-85 . 百度学术
95. 余贤海,孔德义,谢晓轩,王琼,白先伟. 基于深度学习的番茄授粉机器人目标识别与检测. 农业工程学报. 2022(24): 129-137 . 百度学术
96. 毛远宏,贺占庄,刘露露. 目标跟踪中基于深度可分离卷积的剪枝方法. 西安交通大学学报. 2021(01): 52-59 . 百度学术
97. 冯思镒,赵田锋,陈诚,李岩,许红梅. 稀疏卷积神经网络用于低成本图像分类系统. 电光与控制. 2021(02): 7-11 . 百度学术
98. 胡昌华,张浩,喻勇,张晟斐. 基于深度学习的复杂退化系统剩余寿命预测研究现状与挑战. 电光与控制. 2021(02): 1-6 . 百度学术
99. 秦瑞琳,周昌乐,晁飞. 机器意识研究综述. 自动化学报. 2021(01): 18-34 . 本站查看
100. 杨德州,李锦键,吕金历,杨维满,王兴贵. 基于改进CNN的光热电场太阳直接法向辐射预测研究. 可再生能源. 2021(02): 182-188 . 百度学术
101. 宋叶帆,王国书,盛步云. 一种混合阈值剪枝的稀疏化训练图像识别算法. 科学技术与工程. 2021(02): 638-643 . 百度学术
102. 黄章红,李梦杰,张浩. 数据增强策略在人脸识别技术实现的研究. 福建电脑. 2021(03): 9-12 . 百度学术
103. 杨戈,叶杰强. 基于HPLF的行人再识别. 计算机系统应用. 2021(03): 227-233 . 百度学术
104. 席亮,王瑞东. 基于自适应遗传算法的神经网络结构优化算法. 哈尔滨理工大学学报. 2021(01): 39-44 . 百度学术
105. 刘会东,杜方,余振华,宋丽娟. 基于强化学习的无标签网络剪枝. 模式识别与人工智能. 2021(03): 214-222 . 百度学术
106. 沈锐,陈亚军. 一种基于批量归一化的LeNet网络改进方法. 四川文理学院学报. 2021(02): 136-140 . 百度学术
107. 黄重谦. 基于多隐层小波卷积极限学习神经网络的滚动轴承故障识别. 工矿自动化. 2021(05): 77-82+100 . 百度学术
108. 樊湘鹏,许燕,周建平,李志磊,彭炫,王小荣. 基于迁移学习和改进CNN的葡萄叶部病害检测系统. 农业工程学报. 2021(06): 151-159 . 百度学术
109. 阳雨妍,宋爱国,沈书馨,李会军. 基于CNN-GRU的遥操作机器人操作者识别与自适应速度控制方法. 仪器仪表学报. 2021(03): 123-131 . 百度学术
110. 赵国宁. 智能时代“深度合成”的技术逻辑与传播生态变革. 新闻界. 2021(06): 65-76 . 百度学术
111. 张昌凡,孟德志,王燕囡. 基于轻量化YOLOv4的黏稠食品灌装成品缺陷检测. 包装学报. 2021(02): 37-45 . 百度学术
112. 张明明,卢庆宁,李文中,宋浒. 基于联合动态剪枝的深度神经网络压缩算法. 计算机应用. 2021(06): 1589-1596 . 百度学术
113. 吴忍,孙渊. 基于深度学习的风机塔筒焊缝外部缺陷检测. 上海电机学院学报. 2021(03): 169-174 . 百度学术
114. 翟肇裕,曹益飞,徐焕良,袁培森,王浩云. 农作物病虫害识别关键技术研究综述. 农业机械学报. 2021(07): 1-18 . 百度学术
115. 李珣,王高平,李林鹏,王晓华,景军锋,张凯兵. 基于RGB-D图像的物体识别方法. 西安工程大学学报. 2021(04): 55-70 . 百度学术
116. 童晓斌,范平清. 基于动态视觉传感器成像的行人检测算法研究. 计算机与数字工程. 2021(07): 1437-1441 . 百度学术
117. 陈健昌,张志华. 融于图像多特征的路面裂缝智能化识别. 科学技术与工程. 2021(24): 10491-10497 . 百度学术
118. 孟宪法,刘方,李广,黄萌萌. 卷积神经网络压缩中的知识蒸馏技术综述. 计算机科学与探索. 2021(10): 1812-1829 . 百度学术
119. 王灿,卜乐平. 基于卷积神经网络的目标检测算法综述. 舰船电子工程. 2021(09): 161-169 . 百度学术
120. 张珂,冯晓晗,郭玉荣,苏昱坤,赵凯,赵振兵,马占宇,丁巧林. 图像分类的深度卷积神经网络模型综述. 中国图象图形学报. 2021(10): 2305-2325 . 百度学术
121. 张占龙,肖睿,武雍烨,蒋培榆,邓军,潘志城. 换流变压器振动信号多层次特征提取模型研究. 中国电机工程学报. 2021(20): 7093-7104 . 百度学术
122. 杨云航,闵连权. 采用空洞卷积的多尺度融合草图识别模型. 西安电子科技大学学报. 2021(05): 92-99 . 百度学术
123. 王源顺,段迅,吴云. 一种新的seq2seq的可控图像字幕的生成方法. 计算机应用研究. 2021(11): 3510-3516 . 百度学术
124. 曹建芳,贾一鸣,田晓东,闫敏敏,陈泽宇. 基于多通道可分离网络的古代壁画分类方法. 计算机应用研究. 2021(11): 3489-3494 . 百度学术
125. 史先进,曹爽,张重生,陶月锋,吕灵灵,沈夏炯. 基于锚点的字符级甲骨图像自动标注算法研究. 电子学报. 2021(10): 2020-2031 . 百度学术
126. 刘晨,赵晓晖,梁乃川,张永新. 基于ResNet50和迁移学习的岩性识别与分类研究. 计算机与数字工程. 2021(12): 2526-2530+2578 . 百度学术
127. 黄彦宁,李伟红,崔金凯,龚卫国. 强边缘提取网络用于非均匀运动模糊图像盲复原. 自动化学报. 2021(11): 2637-2653 . 本站查看
128. 张万玉,肖锋,张文娟,邹品荣,王晨阳. 基于池化的双维度视觉注意力模型. 西安工业大学学报. 2021(06): 673-683 . 百度学术
129. 朱祺,杨鹏. 基于GBDT回归的光伏电站出力人工智能预测算法研究. 电力大数据. 2021(11): 16-22 . 百度学术
130. 周强,田鹏飞. 基于迁移学习多层级融合的运动想象EEG辨识算法. 电子测量与仪器学报. 2021(12): 174-181 . 百度学术
131. 王建涛,吴叶兰,廖禺,陈怡宇. 基于卷积神经网络的柑橘病叶高光谱分类. 信息技术与信息化. 2020(03): 84-87 . 百度学术
132. 高秀龙,葛动元. 基于自动驾驶系统的轻量型卷积神经网络优化. 计算机系统应用. 2020(03): 93-99 . 百度学术
133. 马永杰,刘培培. 图像分类卷积神经网络的进化设计. 西北师范大学学报(自然科学版). 2020(03): 55-61+134 . 百度学术
134. 王有元,李后英,梁玄鸿,李昀琪,蔚超,陆云才. 基于红外图像的变电设备热缺陷自调整残差网络诊断模型. 高电压技术. 2020(09): 3000-3007 . 百度学术
135. 随博文,黄志坚,姜宝祥,郑欢,温家一. 基于深度Q网络的水面无人艇路径规划算法. 上海海事大学学报. 2020(03): 1-5+116 . 百度学术
136. 柳攀,丁怀宝. TensorFlow框架下垃圾分类软件的研究与实现. 数码世界. 2020(10): 40-41 . 百度学术
137. 白杨,姚桂林. 基于Keras的交通标志识别研究. 哈尔滨商业大学学报(自然科学版). 2020(05): 565-569 . 百度学术
138. 袁烨,张永,丁汉. 工业人工智能的关键技术及其在预测性维护中的应用现状. 自动化学报. 2020(10): 2013-2030 . 本站查看
139. 侯明斌,于龙,高仕斌. 高铁接触网支柱号的图像序列识别方法. 电气化铁道. 2020(06): 29-35 . 百度学术
140. 陈志旺,王莹,宋娟,姚权允,彭勇. 应用LTRNet卷积特征的ECO目标跟踪算法改进. 控制理论与应用. 2020(12): 2601-2610 . 百度学术
141. 高学金,刘爽爽,高慧慧. 基于多变量卷积神经网络的发酵过程故障监测. 高校化学工程学报. 2020(06): 1511-1519 . 百度学术
其他类型引用(407)
-