A Class Incremental Learning and Memory Fusion Method Using Random Weight Neural Networks
-
摘要: 连续学习(Continual learning, CL)多个任务的能力对于通用人工智能的发展至关重要. 现有人工神经网络(Artificial neural networks, ANNs)在单一任务上具有出色表现, 但在开放环境中依次面对不同任务时非常容易发生灾难性遗忘现象, 即联结主义模型在学习新任务时会迅速地忘记旧任务. 为了解决这个问题, 将随机权神经网络(Random weight neural networks, RWNNs)与生物大脑的相关工作机制联系起来, 提出一种新的再可塑性启发的随机化网络(Metaplasticity-inspired randomized network, MRNet)用于类增量学习(Class incremental learning, Class-IL)场景, 使得单一模型在不访问旧任务数据的情况下能够从未知的任务序列中学习与记忆融合. 首先, 以前馈方式构造具有解析解的通用连续学习框架, 用于有效兼容新任务中出现的新类别; 然后, 基于突触可塑性设计具备记忆功能的权值重要性矩阵, 自适应地调整网络参数以避免发生遗忘; 最后, 所提方法的有效性和高效性通过5个评价指标、5个基准任务序列和10个比较方法在类增量学习场景中得到验证.Abstract: The ability to continual learning (CL) on multiple tasks is crucial for the development of artificial general intelligence. Existing artificial neural networks (ANNs) performing well on a single task are prone to suffer from catastrophic forgetting when sequentially fed with different tasks in an open-ended environment, that is, the connectionist models trained on a new task could rapidly forget what was learned previously. To solve the problem, this paper proposes a new metaplasticity-inspired randomized network (MRNet) for the class incremental learning (Class-IL) scenario by relating random weight neural networks (RWNNs) with the relevant working mechanism of biological brain, which enables a single model to learn and remember the unknown task sequence without accessing old task data. First, a general continual learning framework with the closed-form solution is constructed in a feed-forward manner to effectively accommodate new categories emerging in new tasks; Second, a memory-related weight importance matrix is formed by referring to the property of synapses, which adaptively adjusts network parameters to avoid forgetting; Finally, effectiveness and efficiency of the proposed method are demonstrated in the class incremental learning scenario with 5 evaluation metrics, 5 benchmark task sequences, and 10 comparison methods.
-
发票是财务系统的重要组成部分, 发票的识别和处理是财务人员的首要工作. 人工智能已被广泛应用在人脸识别、车辆识别、物体检测等各个领域, 而基于人工智能的发票识别, 可为财务人员节省大量的时间. 目前发票自动识别根据使用场景不同, 可分为移动客户端、云端和本地客户端. 移动端客户端发票识别是通过手机端的离线SDK, 集成到公司财务系统的APP内, 自动检测发票的边线并拍照识别, 提取发票上的关键信息; 云端发票识别是通过调用云平台的API接口, 将拍照或者扫描的发票图像传送到云平台上进行识别; 而本地客户端识别是识别软件与扫描仪硬件配合使用进行识别. 三种方式本质都是基于识别软件进行的. 由于发票种类繁多, 格式不固定, 有的发票存在手写的内容, 且不同人手写字的风格不一, 因此基于传统数字图像处理的识别软件, 相应识别准确率较低. 随着卷积神经网络的兴起, 包括表格线定位、手写文字识别等问题得到很好的解决. 文献[1]采用卷积神经网络实现增值税发票批量识别, 通过对发票图像进行采集、预处理、字符切割, 基于CNN神经网络进行字符识别, 同时融入人工修改, 提高识别率. 但是发票上的印章对发票识别准确率依旧具有一定影响, 且印章是每张发票必不可少的, 因此如何消除印章也是现在OCR (Optical character recognition)领域的研究热点. 目前大多数研究者对于发票印章的研究主要是印章识别与验证[2-4]. 针对发票印章的去除问题, 若通过印章定位, 而后直接挖除印章则会丢失印章下的发票内容; 若采用过滤颜色的方式来消除, 会导致发票中与印章颜色相近的文字变得模糊不清, 而且不同发票的印章颜色不同. 文献[5]提出一种基于彩色图像的二次分割算法来去除印章, 但是对于发票的要求较高, 需要保证印章的颜色为红色或者蓝色, 票据不能出现明显的扭曲和变形, 字体还需要求是黑色或灰色, 其实用性较差. 文献[6]针对印章覆盖、发票折痕等干扰因素影响发票号码分割的问题, 采用基于数字结构特征的识别算法, 通过对噪声粘连区域进行修复, 解决干扰因素对数字分割的影响, 实现发票号码识别. 但是如何判断噪声区域最小连通面积的阈值是算法关键, 当发票数量增多, 印章颜色深度和位置不统一时, 消除印章干扰则很困难.
各种图像处理软件也可用在印章消除上, 如PhotoShop, 但需要基于软件进行手动处理, 大量发票的印章消除则会新增大量工作量, 反倒得不偿失. 因此研究如何自动消除发票印章, 对提高发票识别准确率具有重要意义. 生成式对抗网络GAN (Generative adversarial network)是Goodfellow等在2014年提出的一种生成式网络[7]. 在GAN提出之前, 常见的生成式网络有最大似然估计法、近似法[8]、马尔科夫链法[9]等. 这些方法的基本步骤是, 先对样本数据进行分布假设, 然后利用数据样本直接对假设分布的参数进行拟合, 这会导致学习到的生成式模型受到限制[10]. 而GAN不同于上述的生成网络, 该方法采用对抗学习方式, 先通过判别器学习生成分布和真实分布之间的差异, 再驱使生成器去缩小差异. GAN相比于其他的生成网络, 对数据的分布不做显性的限制, 从而避免了人工设计网络分布[11]. GAN目前常用于实现图像的风格迁移以及超分辨图像的生成. 本文基于生成对抗网络提出用于消除印章的SealGAN网络. SealGAN借鉴了CycleGAN网络的循环结构, 采用两个独立的分类器来取代判别网络, 并针对印章的特点去设计生成网络, 实现发票图像的带印章到不带印章的风格迁移, 从而达到消除发票印章的效果.
1. 生成式对抗网络和CycleGAN网络
1.1 生成式对抗网络
生成式对抗网络结构如图1所示, 包括一个生成网络(G)和一个判别网络(D). 生成网络用于生成目标图像, 而判别网络用于判断图像是生成的虚假图像还是真实目标图像. 在训练时, 生成网络会在损失函数的牵引下让生成的图像尽可能地逼近目标图像, 判别网络则将生成图像和真实目标图像区分开, 由此构成对抗博弈的训练方式. 通过竞争方式, 生成网络生成的图像会越来越真实, 而判别网络的判别能力也会越来越强[7].
图1中
$ {{L}}_{G} $ 是更新生成网络G的损失,$ {{L}}_{D} $ 是更新判别网络D的损失, 如下式所示:$$ {{L}}_{G}=-\dfrac{1}{m}\displaystyle\sum _{i}^{m}{\rm{log}}\left(D\right(G\left({z}^{i}\right)\left)\right) $$ (1) $$ \begin{split} {{L}}_{D}=\,&-\frac{1}{m}\sum _{i}^{m}[{\rm{log}}\left(D\left({x}^{i}\right)\right)+ \\ &{\rm{log}}\left(1-D\left(G\left({z}^{i}\right)\right)\right)] \end{split}$$ (2) 式中
$ {z}^{i} $ 表示的是第i个输入,$ {x}^{i} $ 表示对应的真实图像. 生成网络和判别网络的损失函数均为交叉熵损失, 只是判别网络的目标是让真实图像的判别结果趋近于1, 生成图像结果趋近于0, 而生成网络则希望生成图像的判别结果趋近于1[7].1.2 CycleGAN网络
生成式对抗网络的概念提出后, 便成为学术界研究的热点. 在此基础上, 一些改进网络结构相继被提出, 如引入卷积神经网络的DCGAN[12], 用于生成超分辨图像的SRGAN、LapGAN[13-14], 用于风格迁移的pix2pix、cVAE-GAN[15-16]. 但是大部分生成式对抗网络都要求待处理图像和目标图像一一匹配. 针对带印章的发票, 则很难获取印章图像与其对应的无章图像. 2017年, 伯克利大学的研究团队在ICCV上提出了CycleGAN网络, 其最大特点是不需要待处理图像和目标图像一一匹配, 只需要两个分布不同的数据集即可实现数据集之间的相互风格迁移.
CycleGAN的基本思想是采用两个基础的生成式对抗网络, 采用循环的方式训练, 其网络结构如图2所示[17].
假设有两个不同分布的数据集A与B, CycleGAN中包含两个基础GAN网络, 一个负责把A类数据转化成B类数据, 记作
$ {GAN}_{A\; to\; B} $ , 另一个负责把B类数据转化成A类数据, 记作$ {GAN}_{B\; to\; A} .$ 设原始的A类图像为$ {X}_{A} $ , 通过$ {GAN}_{A\; to\; B} $ , 可以得到原始图像对应的B类风格图像$ {X'}_{B} $ . 如果采用传统图像对模式, 则存在$ {X}_{A} $ 对应的真实图像$ {X}_{B} $ , 这时只需将$ {X'}_{B} $ 和$ {X}_{B} $ 做均方差之类的损失计算, 通过反向传播更新生成网络参数即可驱使生成式网络生成内容相匹配的图像. 当无法获取图像对时, CycleGAN则把生成的$ {X'}_{B}$ 输入$ {GAN}_{B\;to\;A} $ , 生成相应的A类图像$ {X'}_{A} $ , 换言之就是试图把生成的$ {X'}_{B} $ 还原成原图像$ {X}_{A} $ , 此时计算$ {X}_{A} $ 和$ {X'}_{A} $ 之间的损失即可反向传播去更新两个生成对抗网络. 这种循环的训练模式巧妙地实现了不存在图像对时的两类数据集之间相互转化.2. 基于CycleGAN改进的SealGAN网络
2.1 SealGAN网络结构
SealGAN网络结构如图3所示,
$ {GEN}_{A \;to \;B} $ 和$ {GEN}_{B\; to\; A} $ 是生成式对抗网络中抽取出来的生成网络, 采用循环训练的方式. 与CycleGAN网络相比, 本文所提出的SealGAN中, 每个生成网络并没有配备相应的专属判别网络, 而是采用原始图像和所有生成图像单独训练了两个分类器, 其中$ {Classifier}_{AB} $ 用于区分A类和B类数据,$ {Classifier}_{RF} $ 用于区分真实图像和生成图像, 然后将两个分类器所计算出的损失加入到总损失中来更新整体网络的参数.在CycleGAN网络中, 采用
$ {GAN}_{A\; to\; B} $ 和$ {GAN}_{B\; to\; A} $ 两个基础的生成式对抗网络进行循环训练, 且有各自的判别网络. 以$ {GAN}_{A\; to\; B} $ 为例, 它的判别网络既需要判断输入图像是属于A类还是B类, 还需要判断输入图像是生成图像还是原始真实图像. 其实, 生成对抗网络中的判别网络是一个分类器, 对于分类器而言, 分类要求越高则分类效果越差, 而且两个判别网络虽然相互独立, 但是分类要求相似, 采用的训练样本交集较大. 因此本文所提出的SealGAN网络采用两个独立的分类器取代两个判别网络, 一个分类器用于区分A类和B类数据, 另一个分类器用于区分生成图像和真实图像. 相当于用两个独立的分类器来取代原本的判别网络, 网络整体参数数量没有太大变化, 但是对于单个分类器其分类要求降低, 分类效果更好.2.2 SealGAN网络中的生成网络
CycleGAN中有两种生成网络结构, 残差网络ResNet结构和UNet结构. ResNet结构用于解决层数较深的网络难以训练的问题. 在ResNet结构提出之前, 研究人员在提升网络性能上往往是单纯的叠加网络层数. 尽管网络层数的增加能够提高网络的特征容量, 理论上能更好地对样本进行拟合. 但是实际训练中, 当网络层数过大时, 参数的训练难度也大幅提升, 过分引入的卷积层和非线性激活不仅无法提升网络性能, 而且还难以维持浅层网络所达到的效果, 从而出现了模型退化问题[18]. ResNet结构的核心是采用了跨层连接思想, 引入了捷径连接的概念[19]. 残差网络结构如图4所示, 由于捷径连接的存在, 在训练过程中, 拟合的不再是目标分布, 而是目标分布和上一层网络输出之间的残差. 当浅层网络能够达到较好效果时, 残差趋近于零. 尽管在拟合残差时也引入了卷积和非线性激活, 但是要想拟合零只需要把所有参数都趋向零即可, 网络训练易于实现. 因此, ResNet结构的引入能够在加深网络层数, 提高网络拟合能力的同时, 也能保证达到浅层网络的效果, 从而消除网络退化问题. 图4中
$ F\left(x\right) $ 为待拟合的残差函数,$ H\left(x\right) $ 为待拟合的完整目标函数.UNet结构常用于图像分割领域, 其网络结构如图5所示. UNet结构包括下采样和上采样的过程. 在上采样过程中, 先把下采样和上采样中尺度相同的层拼接在一起, 再进行卷积和反卷积操作. 上采样层和下采样层之间的连接是UNet结构的亮点, 这些连接使得在上采样过程中可保留了更多的原始图像的纹理信息[20].
本文提出的SealGAN网络中, 生成网络结合ResNet和UNet两种结构, 搭建了一个下采样−精炼−上采样的网络结构, 如图6所示. 由于在消除印章的同时, 也希望能尽可能地保留印章下的内容, 而UNet结构的优势正是能更多地保留原始图像纹理信息, 因此在SealGAN网络的生成网络中, 上下采样部分采用了UNet结构, 而精炼部分采用了ResNet结构以保证网络的效果.
3. 实验结果与讨论
3.1 网络参数设置
输入图像的尺寸统一缩放为
$ 256\times 256 $ , 并把图像像素归一化到[−1, 1]区间. 为了保证消除印章后能够尽可能保留印章下的内容, 下采样通道数应多于上采样通道数, 以保证在上采样时能够有足够多的原始图像信息. 多次实验发现, 下采样的通道数与上采样的通道数的比例设置为1.5 : 1时效果最佳. 在生成网络中, 除了输出层, 其余层的激活函数均采用LeakyReLU.$$ {\rm{\sigma }}_{LeakyReLU}\left(x\right)=\left\{\begin{aligned}&x,\qquad\;\;\;{\rm{if}} \;x>0\\ &0.2x,\;\;\;\;\;\;{\rm{else}}\end{aligned}\right. $$ (3) 输出层采用tanh激活函数, 保证输出结果在[−1, 1]区间内.
$$ {\rm{\sigma }}_{{\rm{tanh}}}\left(x\right)=\dfrac{{\rm{sinh}}x}{{\rm{cosh}}x}=\dfrac{{{\rm{e}}}^{x}-{{\rm{e}}}^{-x}}{{\rm{{e}}}^{x}+{{\rm{e}}}^{-x}} $$ (4) 分类器网络前四层的激活函数采用LeakyReLU, 最后一层没有激活. 生成网络以及分类器的相关参数如表1所示.
表 1 生成网络和分类器参数表Table 1 Parameters of the generative network and classifier生成网络 分类器 下采样 精炼 上采样 7×7 conv, 96 Residual_block(3×3, 384) ×7 4×4 deconv, 256, ×2 4×4 conv, 64, /2 4×4 conv, 192, /2 4×4 deconv, 256, ×2 4×4 conv, 128, /2 4×4 conv, 384, /2 4×4 deconv, 256, ×2 4×4 conv, 256, /2 4×4 conv, 384, /2 4×4 deconv, 256, ×2 4×4 conv, 512, /2 4×4 conv, 384, /2 4×4 deconv, 128, ×2 4×4 conv, 1 4×4 conv, 384, /2 4×4 deconv, 64, ×2 4×4 conv, 384, /2 7×7 conv, 3 3.2 损失函数以及权重
损失函数包括两个分类器的损失
${Loss}_{AB}$ 、${Loss}_{RF} $ 和一个循环回来的图像之间的像素损失$ {Loss}_{G} $ . 设z为原始图像, G为生成网络, D是分类器, A为带印章图像, B对应的无印章图像. 原始的生成式对抗网络所使用的损失均为交叉熵损失, 在最近的研究中发现, 采用交叉熵损失存在梯度消失和模型坍塌的风险[21]. 相比于交叉熵损失, 最小二乘损失效果更佳[22]. 因此, SealGAN采用了最小二乘损失替换了交叉熵损失. 除此以外, 在计算生成图像和原始图像的内容损失时, 也不再使用常见的L2损失, 而是采用L1损失, 因为L2损失驱动下的生成图像更为模糊. 在训练分类器时, 损失函数如式(5)、(6)所示. 当训练生成网络时, 损失函数如式(7)、(8)、(9)所示. 其中,$ {Loss}_{AB} $ 和$ {Loss}_{RF} $ 的权重为1,$ {Loss}_{G} $ 的权重为10时, 生成效果最佳.$$ {Loss}_{AB}=\sum {\{\left(D\left({z}_{A}\right)\right)}^{2}+{\left(D\left({z}_{B}\right)-1\right)}^{2}\} $$ (5) $$ \begin{split} {Loss}_{RF}=&\sum \{{\left(D\left({z}_{A}\right)\right)}^{2}+{\left(D\left({z}_{B}\right)\right)}^{2}+ \\ &{\left(D\left(G\left({z}_{A}\right)\right)-1\right)}^{2}+{\left(D\left(G\left({z}_{B}\right)\right)-1\right)}^{2}\} \end{split}$$ (6) $$ {Loss}_{AB}=\sum \{{\left(D\left(G\left({z}_{A}\right)-1\right)\right)}^{2}+{\left(D\left(G\left({z}_{B}\right)\right)\right)}^{2}\} $$ (7) $$ {Loss}_{RF}=\sum \{{\left(D\left(G\left({z}_{A}\right)\right)\right)}^{2}+{\left(D\left(G\left({z}_{B}\right)\right)\right)}^{2}\} $$ (8) $$\begin{split} {Loss}_{G}=\,&\sum \{\left|{z}_{A}-{G}_{BtoA}\left({G}_{AtoB}\left({z}_{A}\right)\right)\right|+ \\ &\left|{z}_{B}-{G}_{AtoB}\left({G}_{BtoA}\left({z}_{B}\right)\right)\right|\} \end{split} $$ (9) 3.3 网络性能综合评价
为了能够更好地评价网络的性能, 本文提出针对印章消除的综合评价指标Evaluation-score (ES), 包含风格评价指标Class-score (CS1)和内容评价指标Content-score (CS2), 如下式所示.
$$ ES={\rm{\alpha }}\times{CS}_{1}+{\rm{\beta }}\times{CS}_{2} $$ (10) 式中的
$ {\rm{\alpha }} $ 和$ {\rm{\beta }} $ 是超参数, 可基于需求重要性进行调整, 本文实验中$ {\rm{\alpha }} $ 和$ {\rm{\beta }} $ 均为1.风格评价指标需要搭建一个分类网络, 采用的训练样本是真实的发票样本, 包含带印章和不带印章的样本. 本论文所搭建的分类网络借鉴GoogleNet网络结构[23], 损失函数采用余弦损失函数, 目标是让带印章样本的输出趋向于0, 不带印章样本的输出趋向于1. 采用余弦损失函数能够更好地增大类间距离, 公式如式(11)所示[24]. 将生成的图像通过训练好的分类网络, 所得到的结果即为CS1, 得分越高, 则消除印章的效果越好.
$$ {\rm{L}}_{cos}=\frac{1}{N}\sum _{i}-\log\frac{{{\rm{e}}}^{s\left({\rm{cos}}\left({\theta }_{i,i}\right)-m\right)}}{{{\rm{e}}}^{s\left({\rm{cos}}\left({\theta }_{i,i}\right)-m\right)}+\displaystyle\sum _{j\ne i}{{\rm{e}}}^{s{\rm{cos}}\left({\theta }_{i,j}\right)}} $$ (11) 内容评价指标则是利用生成图像和原带章图像之间的均方根误差计算的, 均方根误差越小, 意味着保留的内容越多. 定义的内容评价指标如下:
$$ {CS}_{2}=\frac{1}{{\rm{log}}\left(1+\sqrt{\dfrac{\displaystyle\sum {\left({x}_{i}-{y}_{i}\right)}^{2}}{N}}\right)} $$ (12) 3.4 结果与讨论
训练图像一共有六千余张发票图, 其中带印章样本和不带印章样本的比例约为1 : 1, 印章样本包含了出租车票印章、增值税发票印章、高速公路收费票据印章、定额发票印章以及各类企业单位加盖的公章. 在训练网络过程中, 为选择最佳的训练集和测试集比例, 对CycleGAN-ResNet网络和CycleGAN-UNet网络, 以及本文所提的SealGAN网络等三种网络, 采用不同的训练集和测试集划分比例, 包括7 : 3、8 : 2和9 : 1三种, 进行对比实验, 并基于网络性能综合评价指标ES进行评价. 三种网络不同数据集划分比例的综合评价指标如图7所示.
由图7可知, 随训练集和测试集比例增大, 网络综合性能评价指标也在提升. 为了让每种网络效果达到最佳, 因此在论文实验中采用训练集和测试集比例为9 : 1分布进行实验比对.
本文分别使用了文献[5]的二次分割方法、采用ResNet和UNet生成网络的CycleGAN网络, 以及SealGAN网络, 进行发票印章消除实验. 训练模型时, 针对三种常见的优化器Momentum、RMSProp和Adam进行实验对比, 最终选择稳定性最佳的Adam优化器. 每种网络均训练了20个Epoch, Batch Size均为4. 学习率的初始值是0.0002, 每训练一个Epoch, 学习率下降10 %. 在CycleGAN模型中, 针对生成器和判别器不同的损失权重比, 包括1 : 1, 5 : 1, 10 : 1和15 : 1, 通过网络综合评价指标ES进行测试对比, 可知10:1为最佳损失权重比. 基于上述的参数设定进行实验, 图8是四种方法对发票印章消除的效果.
由图中可知, 采用二次分割的方法效果最差, 由于方法的核心思想是对颜色进行阈值分割来获取印章部分再进行修改, 所以当发票颜色复杂时, 对印章部分的定位不完整, 导致印章消除不全, 而且对于获取到的印章部分采用直接填充背景方法, 对发票内容造成影响. 采用ResNet生成网络的CycleGAN, 生成的结果比较模糊, 色彩与原图相比, 色差巨大; 除此以外, 内容丢失也很严重. 采用UNet生成网络的CycleGAN, 由于UNet在进行上采样时融合了下采样层的特征, 保证了上采样过程中保留更多的原始信息, 因此色彩问题得到解决, 但是依旧有明显的内容丢失, 特别是当内容的颜色与印章的颜色相近时. 基于SealGAN网络的印章消除, 采用了下采样−精炼−上采样的生成结构, 而且上采样过程也融入了下采样层的原始信息, 因此色差问题基本不存在, 生成的结果相比于前两个网络的实验结果要清晰很多. 除此以外, 由于SealGAN并不是简单地用两个基础GAN网络搭建的循环结构, 而是用两个专门的分类器来替代判别器, 其中一个分类器专门区分真实样本和生成样本, 另一个专门区分带章样本和不带章样本. 这种替换使得网络能够更好地学习到哪些部分属于印章, 哪些部分不属于印章, 因此SealGAN网络可更好地保留非章内容.
三种不同网络消除发票印章的评价如表2所示, 可知SealGAN具有最高得分.
表 2 三种网络性能评价指标Table 2 Performance evaluation indices of three kinds of network网络类型 CS1 CS2 $ ES $ 二次分割 0.340 0.991 1.331 CycleGAN-ResNet 0.678 0.699 1.377 CycleGAN-UNet 0.703 0.679 1.382 SealGAN 0.699 0.740 1.439 4. 结语
本文针对发票上消除印章的问题, 分析了CycleGAN网络的优缺点, 并基于此进行相应改进, 提出SealGAN网络结构, 设计了包括风格评价和内容评价的网络综合评价指标. SealGAN网络用两个独立的分类器来取代原本的判别网络, 可降低单个分类器的分类要求, 提高网络的学习效果, 同时生成网络结合ResNet和Unet两种结构, 实现下采样−精炼−上采样的过程, 能够生成更加清晰的图像. 基于发票印章消除实验, 与原始的CycleGAN进行对比可看出, 本文所提出的SealGAN无论是在模糊程度、生成色彩等图像细节上, 还是内容的保留程度上都要明显优于原始的CycleGAN网络, 且综合评价指标高于CycleGAN网络, 实验结果表明了所提出的SealGAN网络的有效性. 未来可进一步提高非章内容的保留效果, 尤其是当印章与印章下的发票内容颜色很相近时, 并可针对发票复印件进行印章消除研究.
-
表 1 不同类增量学习方法的特性
Table 1 Characteristics of different Class-IL methods
方法 无需多次访问 无需逐层优化 无需数据存储 无需网络扩展 重放 × × × √ 扩展 × × √ × 正则化 × × √ √ MRNet √ √ √ √ 表 2 连续学习FashionMNIST-10/5任务序列对比实验
Table 2 Comparative experiments on continuously learning FashionMNIST-10/5 task sequence
方法 指标 ACC (%) BWT FWT Time (s) No. Para. (MB) 非CL方法 BLS 19.93±0.22 — — 8.17±0.24 0.25 L2 26.55±6.27 — — 59.12±2.73 1.28 JT ~ 96.61 — — — — CL方法 EWC 34.96±7.62 −0.7248±0.0953 −0.0544±0.0300 69.21±4.10 11.48 MAS 38.54±3.49 −0.4781±0.0561 −0.2576±0.0548 110.26±1.74 3.83 SI 56.19±3.21 −0.3803±0.0631 −0.1329±0.0504 67.67±2.25 5.11 OWM 79.16±1.11 −0.1844±0.0197 −0.0635±0.0078 40.38±7.09 3.18 GEM 81.98±2.80 −0.0586±0.0654 −0.1093±0.0510 45.73±1.17 1.28 PCL 82.13±0.61 −0.1385±0.0413 −0.0647±0.0172 348.75±9.83 1.28 IL2M 84.61±2.95 −0.0712±0.0273 −0.0258±0.0248 44.18±1.34 1.28 MRNet 93.07±0.74 −0.0458±0.0069 −0.0261±0.0035 11.38±0.29 0.83 表 3 连续学习ImageNet-200任务序列对比实验
Table 3 Comparative experiments on continuously learning ImageNet-200 task sequence
方法 任务序列 ImageNet-200/10 ImageNet-200/50 IL2M 54.13±11.30 47.84±18.85 OWM 55.93±14.29 49.67±20.98 PCL 56.41±9.75 52.46±8.95 MRNet 56.50±9.13 55.93±11.51 表 4 权衡系数灵敏度分析
Table 4 Sensitivity analysis on the trade-off coefficients
保护程度 评价指标 ${A}_1$ (%) ${A}_2$ (%) ${A}_3$ (%) ${A}_4$ (%) ${A}_5$ (%) BWT FWT 1 84.45 42.88 28.20 20.51 17.45 −0.8420 0.0001 $10^2$ 84.45 75.48 68.57 61.54 55.65 −0.3629 −0.0015 $10^4$ 84.45 82.33 80.90 78.46 77.86 −0.0615 −0.0253 $10^6$ 84.45 71.48 61.37 49.81 41.11 −0.0199 −0.5263 $10^8$ 84.45 44.35 31.05 23.29 18.62 0.0003 −0.8270 表 5 MRNet结构分析
Table 5 Analysis on MRNet architecture
有无直连 评价指标 ${A}_1$ (%) ${A}_2$ (%) ${A}_3$ (%) ${A}_4$ (%) ${A}_5$ (%) BWT FWT × 98.20 92.58 93.98 93.34 92.61 −0.0199 −0.0560 √ 99.87 34.14 33.83 32.01 28.40 −0.1304 −0.1883 -
[1] McCloskey M, Cohen N J. Catastrophic interference in connectionist networks: The sequential learning problem. Psychology of Learning and Motivation. Elsevier, 1989. [2] French R M. Catastrophic forgetting in connectionist networks. Trends in Cognitive Sciences, 1999, 3(4): 128-135 doi: 10.1016/S1364-6613(99)01294-2 [3] McClelland J L, McNaughton B L, O'Reilly R C. Why there are complementary learning systems in the hippocampus and neocortex: insights from the successes and failures of connectionist models of learning and memory. Psychological Review, 1995, 102(3): 419-457 doi: 10.1037/0033-295X.102.3.419 [4] Aljundi R, Babiloni F, Elhoseiny M, Rohrbach M, Tuytelaars T. Memory aware synapses: Learning what (not) to forget. In: Proceedings of the European Conference on Computer Vision (ECCV). Munich, Germany: Springer, 2018. 139−154 [5] Li Z Z, Hoiem D. Learning without forgetting. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 40(12): 2935-2947 [6] Parisi G I, Kemker R, Part J L, Kanan C, Wermter S. Continual lifelong learning with neural networks: A review. Neural Networks, 2019, 113: 54-71 doi: 10.1016/j.neunet.2019.01.012 [7] Li Z Z, Hoiem D. A continual learning survey: Defying forgetting in classification tasks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(7): 3366-3385 [8] Perkonigg M, Hofmanninger J, Herold C J, Brink J A, Pianykh O, Prosch H, et al. Dynamic memory to alleviate catastrophic forgetting in continual learning with medical imaging. Nature Communications, 2021, 12(1): 1-12 doi: 10.1038/s41467-020-20314-w [9] Mallya A, Lazebnik S. Packnet: Adding multiple tasks to a single network by iterative pruning. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Salt Lake City, USA: IEEE, 2018. 7765−7773 [10] Rosenfeld A, Tsotsos J K. Incremental learning through deep adaptation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 42(3): 651-663 [11] Hu W P, Qin Q, Wang M Y, Ma J W, Liu B. Continual learning by using information of each class holistically. Proceedings of the AAAI Conference on Artificial Intelligence (AAAI), 2021, 35(9): 7797−7805 [12] Yang B Y, Lin M B, Zhang Y X, Liu B H, Liang X D, Ji R R, et al. Dynamic support network for few-shot class incremental learning. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45(3): 2945−2951 [13] Shin H, Lee J K, Kim J, Kim J. Continual learning with deep generative replay. In: Proceedings of the 31st Conference on Neural Information Processing Systems (NeurIPS). Long Beach, USA: Curran Associates, Inc., 2017. 2990−2999 [14] Ven van de G M, Siegelmann H T, Tolias A S. Brain-inspired replay for continual learning with artificial neural networks. Nature Communications, 2020, 11(1): 1-14 doi: 10.1038/s41467-019-13993-7 [15] Belouadah E, Popescu A. IL2M: Class incremental learning with dual memory. In: Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, South Korea: IEEE, 2019. 583−592 [16] Lopez-Paz D, Ranzato M. Gradient episodic memory for continual learning. In: Proceedings of the 31st Conference on Neural Information Processing Systems (NeurIPS). Long Beach, USA: Curran Associates, Inc., 2017. 6470−6479 [17] Chaudhry A, Marc'Aurelio R, Rohrbach M, Elhoseiny M. Efficient lifelong learning with A-GEM. In: Proceedings of the International Conference on Learning Representations (ICLR). New Orleans, USA: 2019. [18] Tang S X, Chen D P, Zhu J G, Yu S J, Ouyang W L. Layerwise optimization by gradient decomposition for continual learning. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, USA: IEEE, 2021. 9634−9643 [19] Zhang X Y, Zhao T F, Chen J S, Shen Y, Li X M. EPicker is an exemplar-based continual learning approach for knowledge accumulation in cryoEM particle picking. Nature Communications, 2022, 13(1): 1-10. doi: 10.1038/s41467-021-27699-2 [20] Schwarz J, Czarnecki W, Luketina J, Grabska-Barwinska A, Teh Y W, Pascanu R, et al. Progress & compress: A scalable framework for continual learning. In: Proceedings of the International Conference on Machine Learning (ICML). Stockholm, Sweden: JMLR, 2018. 4528−4537 [21] Zhang J T, Zhang J, Ghosh S, Li D W, Tasci S, Heck L, et al. Class-incremental learning via deep model consolidation. In: Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV). Snowmass, USA: IEEE, 2020. 1131−1140 [22] Liu X B, Wang W Q. GopGAN: Gradients orthogonal projection generative adversarial network with continual learning. IEEE Transactions on Neural Networks and Learning Systems, 2023, 34(1): 215−227 [23] Kirkpatrick J, Pascanu R, Rabinowitz N, Veness J, Desjardins G, Rusu A A, et al. Overcoming catastrophic forgetting in neural network. Proceedings of the National Academy of Sciences (PNAS), 2017, 114(13): 3521-3526 doi: 10.1073/pnas.1611835114 [24] Zenke F, Poole B, Ganguli S. Continual learning through synaptic intelligence. In: Proceedings of the International Conference on Machine Learning (ICML). Sydney, Australia: JMLR, 2017. 3987−3995 [25] Zeng G X, Chen Y, Cui B, Yu S. Continual learning of context-dependent processing in neural networks. Nature Machine Intelligence, 2019, 1(8): 364-372 doi: 10.1038/s42256-019-0080-x [26] Gao J Q, Li J Q, Shan H M, Qu Y Y, Wang J Z, Zhang J P. Forget less, count better: A domain-incremental self-distillation learning benchmark for lifelong crowd counting. arXiv preprint arXiv: 2205.03307, 2022. [27] 蒙西, 乔俊飞, 韩红桂. 基于类脑模块化神经网络的污水处理过程关键出水参数软测量. 自动化学报, 2019, 45(5): 906-919 doi: 10.16383/j.aas.2018.c170497Meng X, Qiao J F, Han H G. Soft measurement of key effluent parameters in wastewater treatment process using brain-like modular neural networks. Acta Automatica Sinica, 2019, 45(5): 906-919 doi: 10.16383/j.aas.2018.c170497 [28] Nadji-Tehrani M, Eslami A. A brain-inspired framework for evolutionary artificial general intelligence. IEEE Transactions on Neural Networks and Learning Systems, 2020, 31(12): 5257-5271 doi: 10.1109/TNNLS.2020.2965567 [29] Hu B, Guan Z H, Chen G R, Chen C L P. Neuroscience and network dynamics toward brain-inspired intelligence. IEEE Transactions on Cybernetics, 2022, 52(10): 10214−10227 [30] LeCun Y, Bottou L, Bengio Y, Haffner P. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 1998, 86(11): 2278-2324 doi: 10.1109/5.726791 [31] Pao Y H, Takefji Y. Functional-link net computing: Theory, system architecture, and functionalities. Computer, 1992, 25(5): 76-79 doi: 10.1109/2.144401 [32] Schmidt W F, Kraaijveld M A, Duin R P W. Feedforward neural networks with random weights. In: Proceedings of the 11th IAPR International Conference on Pattern Recognition. IEEE Computer Society, 1992. 1−4 [33] Igelnik B, Pao Y H. Stochastic choice of basis functions in adaptive function approximation and the functional-link net. IEEE Transactions on Neural Networks, 1995, 6(6): 1320-1329 doi: 10.1109/72.471375 [34] Cao W P, Wang X Z, Ming Z, Gao J Z. A review on neural networks with random weights. Neurocomputing, 2011, 275: 278-287 [35] Zhang L, Suganthan P N. Visual tracking with convolutional random vector functional link network. IEEE Transactions on Cybernetics, 2016, 47(10): 3243-3253 [36] Dai W, Li D P, Zhou P, Chai T Y. Stochastic configuration networks with block increments for data modeling in process industries. Information Sciences, 2019, 484: 367-386 doi: 10.1016/j.ins.2019.01.062 [37] 邹伟东, 夏元清. 基于压缩因子的宽度学习系统的虚拟机性能预测. 自动化学报, 2022, 48(3): 724-734 doi: 10.16383/j.aas.c190307Zou W D, Xia Y Q. Virtual machine performance prediction using broad learning system based on compression factor. Acta Automatica Sinica, 2022, 48(3): 724-734 doi: 10.16383/j.aas.c190307 [38] Huang G B, Zhu QY, Siew C K. Extreme learning machine: theory and applications. Neurocomputing, 2006, 70(1-3): 489-501 doi: 10.1016/j.neucom.2005.12.126 [39] Wang D H, Li M. Stochastic configuration networks: Fundamentals and algorithms. IEEE Transactions on Cybernetics, 2017, 47(10): 3466-3479 doi: 10.1109/TCYB.2017.2734043 [40] Chen C L P, Liu Z L. Broad learning system: An effective and efficient incremental learning system without the need for deep architecture. IEEE Transactions on Neural Networks and Learning Systems, 2017, 29(1): 10-24 [41] 代伟, 李德鹏, 杨春雨, 马小平. 一种随机配置网络的模型与数据混合并行学习方法. 自动化学报, 2021, 47(10): 2427-2437 doi: 10.16383/j.aas.c190411Dai W, Li D P, Yang C Y, Ma X P. A model and data hybrid parallel learning method for stochastic configuration networks. Acta Automatica Sinica, 2021, 47(10): 2427-2437 doi: 10.16383/j.aas.c190411 [42] Gong X R, Zhang T, Chen C L P, Liu Z L. Research review for broad learning system: Algorithms, theory, and applications. IEEE Transactions on Cybernetics, 2022, 52(9): 8922−8950 [43] Abraham W C, Bear M F. Metaplasticity: the plasticity of synaptic plasticity. Trends in Neurosciences, 1996, 19(4): 126-130 doi: 10.1016/S0166-2236(96)80018-X [44] 王韶莉, 陆巍. 再可塑性在学习记忆中作用的研究进展. 生理学报, 2016, 68(4): 475-482 doi: 10.13294/j.aps.2016.0032Wang S L, Lu W. Progress on metaplasticity and its role in learning and memory. Acta Physiologica Sinica, 2016, 68(4): 475-482 doi: 10.13294/j.aps.2016.0032 [45] Jedlicka P, Tomko M, Robins A, Abraham W C. Contributions by metaplasticity to solving the catastrophic forgetting problem. Trends in Neurosciences, 2022, 45(9): 656-666 doi: 10.1016/j.tins.2022.06.002 [46] Sussmann H J. Uniqueness of the weights for minimal feedforward nets with a given input-output map. Neural Networks, 1992, 5(4): 589-593 doi: 10.1016/S0893-6080(05)80037-1 [47] Lancaster P, Tismenetsky M. The Theory of Matrices: With Applications. Elsevier, 1985. [48] Kay S M. Fundamentals of statistical signal processing: Estimation theory. Traces and Emergence of Nonlinear Programming. Prentice-Hall, Inc, 1993. [49] Kuhn H W, Tucker A W. Nonlinear programming. Traces and Emergence of Nonlinear Programming. Springer, 2014. [50] Pan P, Swaroop S, Immer A, Eschenhagen R, Turner R, Khan M, et al. Continual deep learning by functional regularisation of memorable past. In: Proceedings of the 34th Conference on Neural Information Processing Systems (NeurIPS). Vancouver, Canada: 2020. 4453−4464 [51] Verma V K, Liang K J, Mehta N, Rai P, Carin L. Efficient feature transformations for discriminative and generative continual learning. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, USA: IEEE, 2021. 13865−13875 -