A Class Incremental Learning and Memory Fusion Method Using Random Weight Neural Networks
-
摘要: 连续学习(Continual learning, CL)多个任务的能力对于通用人工智能的发展至关重要. 现有人工神经网络(Artificial neural networks, ANNs)在单一任务上具有出色表现, 但在开放环境中依次面对不同任务时非常容易发生灾难性遗忘现象, 即联结主义模型在学习新任务时会迅速地忘记旧任务. 为了解决这个问题, 将随机权神经网络(Random weight neural networks, RWNNs)与生物大脑的相关工作机制联系起来, 提出一种新的再可塑性启发的随机化网络(Metaplasticity-inspired randomized network, MRNet)用于类增量学习(Class incremental learning, Class-IL)场景, 使得单一模型在不访问旧任务数据的情况下能够从未知的任务序列中学习与记忆融合. 首先, 以前馈方式构造具有解析解的通用连续学习框架, 用于有效兼容新任务中出现的新类别; 然后, 基于突触可塑性设计具备记忆功能的权值重要性矩阵, 自适应地调整网络参数以避免发生遗忘; 最后, 所提方法的有效性和高效性通过5个评价指标、5个基准任务序列和10个比较方法在类增量学习场景中得到验证.Abstract: The ability to continual learning (CL) on multiple tasks is crucial for the development of artificial general intelligence. Existing artificial neural networks (ANNs) performing well on a single task are prone to suffer from catastrophic forgetting when sequentially fed with different tasks in an open-ended environment, that is, the connectionist models trained on a new task could rapidly forget what was learned previously. To solve the problem, this paper proposes a new metaplasticity-inspired randomized network (MRNet) for the class incremental learning (Class-IL) scenario by relating random weight neural networks (RWNNs) with the relevant working mechanism of biological brain, which enables a single model to learn and remember the unknown task sequence without accessing old task data. First, a general continual learning framework with the closed-form solution is constructed in a feed-forward manner to effectively accommodate new categories emerging in new tasks; Second, a memory-related weight importance matrix is formed by referring to the property of synapses, which adaptively adjusts network parameters to avoid forgetting; Finally, effectiveness and efficiency of the proposed method are demonstrated in the class incremental learning scenario with 5 evaluation metrics, 5 benchmark task sequences, and 10 comparison methods.
-
人和其他高级动物可以在其一生中学习并记住许多技能, 这种连续学习不同任务的能力被称为连续学习(Continual learning, CL). 相比之下, 人工神经网络(Artificial neural networks, ANNs)在接受新任务训练时, 通常会迅速忘记如何执行之前的任务, 这种现象称为灾难性遗忘[1]. 从网络拓扑的角度来说, 遗忘的发生是由于连接主义网络的本质: 其信息均被存储在模型参数中, 直接在新任务上训练网络会修改连接权值并偏离旧任务, 从而不可避免地发生遗忘[2]. 从数据分布的角度来说, 大多数ANNs只是为了学习某一特定任务而建立, 其中训练与测试数据为独立同分布(Independently identical distribution, IID). 该条件假设了一种静态场景, 即数据分布不随时间的推移而发生变化. 然而, 现实世界中流式数据(Streaming data)的不确定性使得预训练模型无法应对非IID任务. 与此同时, 遗忘的发生并不是因为网络容量有限(同样的网络在交错或联合训练时仍可以学习许多任务)[3], 而是源于现实世界中流式数据往往以任务序列的形式先后出现, 其中每个任务的数据可能会在一段时间后消失, 甚至由于内存限制或隐私问题而无法存储或重新访问[4]. 因此, 研究有效且高效的CL方法以克服ANNs中的灾难性遗忘具有重要意义, 对于通用人工智能的发展也至关重要.
近年来, CL受到了越来越多的关注[5–8]. 根据学习过程中如何处理与利用特定于任务的信息, CL方法可以大致分为以下三类:
1) 扩展方法(Expansion method)[9–11]: 这类方法的典型特征为不断增加单独的模型参数以适应新类别, 即: 模型通过冻结以前的任务参数或者为每个任务分配一个副本, 从而逐步为新任务添加额外的网络分支. 例如, 文献[12]通过在新任务的训练过程中扩展网络节点, 提出一种可自适应更新的动态网络以增加对新类别的特征表征能力. 其虽然可以有效防止遗忘旧任务, 但往往会导致网络规模随着任务数量的增加而增加. 此外, 扩展方法通常受限于“多头” (Multi-heads)设置, 其中每个任务都具备一个专有的输出层, 而且测试阶段一般需要提供任务的身份(Task identities, Task-ID)才能正确匹配已经学过的、特定于该任务的头(Head)[7].
2) 重放方法(Replay method)[13–15]: 这类工作通过保存部分原始样本或使用生成模型生成伪样本, 以在学习新任务时进行联合训练. 作为一种经典的重放方法, 梯度情景记忆(Gradient episode memory, GEM)[16]在学习新任务时利用有限的历史数据依次限制每个任务的损失函数不增加. 在此基础上, 平均梯度情景记忆(Averaged GEM, A-GEM)[17]和逐层优化梯度分解(Layerwise optimization by gradient decomposition, LOGD)[18]分别通过考虑所有旧任务的平均损失来放松约束、在不同情景中指定共享和特定于任务的信息以缓解遗忘. 文献[19]进一步构建基于少数示范性样本的目标检测网络用于低温电子显微镜粒子拾取. 重放方法通常依赖旧任务数据的数量和质量. 一方面, 由于内存限制或隐私问题可能根本无法存储或重新访问; 另一方面, 不断训练生成模型也会导致复杂性逐渐增加, 而且需要额外注意避免模式崩溃.
3) 基于正则化的方法(Regularization-based method)[20–22]: 通过施加惩罚限制重要参数, 使其在后续任务的训练过程中不发生较大变化. 文献[23]首次提出了一种弹性权值巩固(Elastic weight consolidation, EWC)方法, 该方法利用量化的权值重要性有选择地保护对于旧任务重要的权值来学习新任务. 在此基础上, 文献[24]以在线方式基于损失函数计算权值重要性, 并提出了突触智能(Synaptic intelligence, SI)算法. 文献[4]提出的记忆感知突触(Memory aware synapses, MAS)可以进一步用于无标签情况. 文献[25]通过寻找不干扰先前任务权值更新的正交投影, 提出了正交权值修改(Orthogonal weights modification, OWM), 在新任务上训练时, 其权值只允许沿着输入空间的正交方向进行变化. 文献[26]基于知识自蒸馏(Knowledge self-distillation)技术设计了一种域增量学习基准并创新性地用于持续人群计数. 它们仅向目标函数引入正则化项而不需要扩大网络规模或存储旧任务数据.
然而, 现有的CL方法为了减轻灾难性遗忘难以同时满足最小化计算、存储和时间需求, 往往对这些条件中的两个或全部做出妥协[15]. 大多数CL模型都是在深度神经网络(Deep neural networks, DNNs)上实现的, 并严重依赖反向传播(Back propagation, BP)算法. 因此, 这些方法不仅训练耗时, 而且在任务序列的训练过程中对超参数的设置极为敏感. 更为重要的是, 它们潜在地需要多次遍历访问(对应较大的epoch)任务数据以获得更好的性能, 往往不利于保留旧任务的信息, 甚至由于隐私限制可能是不可行的[16]. 对比之下, 生物脑显然已经实现了高效且灵活的连续学习方式. 以上基于DNNs的CL模型与高级动物在学习能力上的显著差距促使我们进一步借鉴生物脑的认知机制.
近年来, 具有跨学科特性的类脑智能引起了众多研究人员的关注[27–29]. 本质上说, 类脑智能算法是从神经元、突触和神经环路的基本和涌现特性中获取灵感, 从而对其结构、机制或功能进行数学建模, 以找到类脑生物特征. 这与人工智能密切相关, 因为更好地了解生物大脑将进一步构建更加智能的模型. 为此, 本文将随机权神经网络与生物大脑的相关工作机制联系起来, 提出了一种新的再可塑性启发的随机化网络(Metaplasticity-inspired randomized network, MRNet)用于类增量学习(Class incremental learning, Class-IL)场景. 具体地, 本文的主要贡献如下: 1) 以前馈方式开发了一种多层随机权网络结构, 并设计了具备记忆功能的再可塑性矩阵, 用于指导输出权值的更新; 2) 为了有效兼容非IID任务以及伴随出现的新类别, 进一步构造了具有解析解的通用CL框架, 从而实现学习与记忆融合; 3) 通过设计不同难度和未知顺序的任务序列, MRNet相比于现有的CL方法可以有效且高效地应用于Class-IL, 表明本文方法进一步拓展了传统机器学习算法在图像分类任务上的分析能力.
与现有工作相比, 所提方法的优势见表1所示. 具体地: 1) MRNet利用任务之间共享的随机权值和解析解实现了以前馈方式构建, 只需要访问一次当前任务的数据(相当于epoch始终为1), 具有易于实现、参数高效、收敛速度快等优点, 是一种更加通用的CL方法; 2) MRNet只需要巩固最后一层的解析解而无需逐层优化模型参数, 无需存储旧数据或构建数据生成器, 也无需增加网络尺寸; 3) 由于不需要调整学习率等超参数, 其模型更新只需要较少的人为干预且具有较强的任务顺序鲁棒性.
表 1 不同类增量学习方法的特性Table 1 Characteristics of different Class-IL methods方法 无需多次访问 无需逐层优化 无需数据存储 无需网络扩展 重放 × × × √ 扩展 × × √ × 正则化 × × √ √ MRNet √ √ √ √ 1. 相关工作
1.1 连续学习场景
本节主要介绍3种不同的连续学习场景以阐明其难度和普遍性, 即任务增量学习、域增量学习和类增量学习[14, 18]. 图1以手写数字识别数据集MNIST[30]为例, 将其拆分为5个独立的二分类任务. 这里仅给出该任务序列的前两个. 一个CL模型依次在任务$ t\; (t=1,2,\cdots,5) $上完成训练后需要识别所有见过的$ 2t $个类别$ (C_1,C_2,\cdots,C_{2t}) $[24].
1) 任务增量学习: 该场景所使用的网络结构具有Multi-heads输出层, 这意味着每个任务都有自己的输出单元, 只有匹配某一任务的Head才会被激活并作出预测. 同时, 网络的其余部分通常在任务之间共享. 由于需要不断增加网络尺寸和始终提供被测任务的Task-ID, 这也是最简单的连续学习场景, 如图1(a)所示.
2) 域增量学习: 不同于将知识从旧任务转移到新任务的域自适应, 域增量学习旨在使用单一模型同时兼顾新旧任务的性能. 该场景的典型特点是神经网络结构总是固定的, 如输出单元对于所有任务都是相同的, 但输入分布不断变化. 同时, 是否需要提供Task-ID取决于任务序列的标签是否一致, 如图1(b)所示.
3) 类增量学习: 要求模型不仅能够识别目前学过的类别, 而且可以适应未来任务中出现的新类别. 相应地, 神经网络的输出节点数与任务序列所包含的类别总数保持一致. 在学习过程中被测任务的身份也不再需要, 这是开放环境中最为常见的场景, 如图1(c)所示. 因此, 我们将本文的研究重点集中在最具挑战性和普遍性的Class-IL场景中.
1.2 类增量学习定义
Class-IL基本定义如下: 假设给定任务 $ t $ ($t=1, 2,\cdots,T$)的输出类别数为$ C_t $. 类似传统单任务学习, 类增量学习模型$ {\cal{M}}({\boldsymbol{\theta}}_1) $表示在第1个任务上完成训练并能够识别$ C_1 $个类, 其中, $ {\boldsymbol{\theta}}_1 $为当前模型参数. 不同的是, $ {\cal{M}}({\boldsymbol{\theta}}_t)\; (t\geq2) $的目标是在完全不访问或者部分访问旧任务数据等情况下(见表1)学会如何执行新任务并且不忘记旧任务[15, 21], 从而需要累计识别$ \sum_{t=1}^{T}{C_t} $个类. 这意味着测试过程中的样本可能来自迄今为止所学过的任务$ 1\sim t $中的任何一个或多个, 这可以通过预分配$ C\geq\sum_{t=1}^{T}{C_t} $个输出节点来容纳所有可能出现的类别.
1.3 随机权神经网络
上世纪90年代, 文献[31]提出的随机向量函数链接网络(Random vector functional link networks, RVFLNs), 以及文献[32]提出的具有随机权值的浅层网络结构为随机权神经网络(Random weight neural networks, RWNNs)的发展奠定了基础[33–35]. 作为一类随机化前馈神经网络, RWNNs的典型特征在于网络参数(输入权值和偏置)仅在给定的区间内随机产生, 因此只需解析求解输出权值. 由于RWNNs易于实现且收敛速度快, 从而受到了广泛的关注[35-37]. 近年来, 具有代表性的RWNNs包括: RVFLNs的改进版[38]、随机配置网络(Stochastic configuration networks, SCNs)[39]和宽度学习系统(Broad learning system, BLS)[40]等. 相比DNNs, 它们的学习形式更加符合生物脑功耗低、实时性快等特点[34, 41-42].
1.4 再可塑性
在神经科学领域, 突触可塑性(Synaptic plasticity)表示学习与记忆功能的重要细胞机制, 其中长时程增强与长时程抑制是突触可塑性的两种主要表现形式. 再可塑性(Metaplasticity)作为突触可塑性的一种高级形式, 它表示突触可塑性的可塑性, 即突触活动的过往史(Activity history)对后续的突触可塑性产生的影响, 这表明突触的可塑性依赖于当前的突触“状态”[43–45]. 再可塑性一般发生在给予一个前期刺激(Priming stimulation)或经历之后, 且这个前期刺激的影响能够持续存在, 导致后续长时程增强的诱导阈值明显改变. 受再可塑性的启发, 我们将根据先前任务节点之间的连接权值来度量模型参数重要性[4] (见第2.3.2节).
2. 类增量连续学习模型
2.1 问题描述
无论是DNNs还是RWNNs, 其本质上都是针对某一特定任务而建立的联结主义模型, 并假设所有样本满足IID以确保训练与测试数据均服从同一概率分布, 从而形成单一、固定的映射关系. 然而, 该假设忽略了开放环境中流式数据的不可预见性: 一方面, 未来数据的分布一旦发生变化, 就会导致映射关系集之间的覆盖或者干扰; 另一方面, 新任务的出现往往伴随着新类别, 使得其在后续训练过程中难以兼容标签分布的变化. 因此, 当它们在类增量学习场景中依次面向不同任务时都会遭受灾难性遗忘的影响. 具体地, 在算法层面所面临的问题概括如下.
1) 由DNNs建立的CL模型均是通过BP算法实现的, 在任务序列的学习过程中对超参数(例如学习率、epoch、mini-batch等)的设置极为敏感. 为此, 通常会选择较小的学习率和较大的epoch以获得更好的性能, 但会导致耗时的训练过程且针对当前任务优化的超参数往往不再适用于过去和未来的任务. 更为重要的是, 在不访问旧任务数据的情况下多次遍历新任务数据, 不仅不利于保留旧任务的信息而且可能由于隐私限制根本无法满足.
2) 作为一种替代性方法, 尽管RWNNs随机初始化输入权值和偏置并解析评估输出权值避免了误差反传, 但是仍无法直接面向任务序列. 首先, 仅随机初始化的连接权值难以保证增量式地提取具有判别性的特征; 其次, 特定于任务的输出权值仅考虑了当前任务的信息, 导致其只适用于传统的单任务学习; 最后, 输出权值的更新缺乏理论依据与指导, 即无法实现学习与记忆融合. 因此, 需要进一步的改进.
2.2 思想方法
MRNet的目标是在求解新任务的解析解时, 将其引导至新旧任务的公共低误差区, 而不是只关注某一特定任务. 例如, 过参数化 (Over-parameterization)使得新任务的解可以无限接近旧任务, 不同可训练参数的最终设置可以产生相同水平的学习性能, 任务序列间的相似性以及现有CL方法的研究进展都为MRNet的可行性提供了保证[7, 23, 46]. 其核心思想是首先在旧任务上评估输出权值的重要性, 然后在新任务上训练时仅更改对于旧任务而言不重要的部分, 从而保证模型在新旧任务上的性能.
MRNet网络结构如图2所示, 主要包括一个全局的预训练特征提取器、随机初始化的扩展输入层和隐含层. 其输入既可以是原始数据$ {\boldsymbol{X}} $也可以是特征向量$ {\boldsymbol{X}}_f $. 在这种设置下, 全局网络仅在复杂任务序列时使用且可以是任何架构. 为了简化符号, 本文使用$ {\boldsymbol{X}} $来表示两者. 假设给定任务 $ t\; (t=1, 2,\cdots,T$)的训练样本${\boldsymbol{D}}_t=\{({\boldsymbol{X}}_t,{\boldsymbol{Y}}_t)|{\boldsymbol{X}}_t\in {\bf{R}}^{N_t\times M_t}, {\boldsymbol{Y}}_t\in {\bf{R}}^{N_t\times C_t}\}$, 其中$ {\boldsymbol{X}}_t $为输入, $ {\boldsymbol{Y}}_t $为输出, $ N_t $为样本个数, $ M_t $和$ C_t $分别为输入模式和输出类别数. 例如, 在图像分类任务中, $ M_t $表示图像的大小, $ C_t $表示图像的独热编码(One-hot coding)标签.
从算法实现的角度来说, 训练过程包括阶段1: 初始化MRNet; 阶段2: 学习与记忆融合. 具体地, 第2.3.1节首先通过第1个任务随机初始化1个固定大小的基网络, 并在后续的任务中保持不变; 然后, 第2.3.2节设计了具备记忆功能的再可塑性矩阵用于指导输出权值的连续更新; 当第2个任务出现时, 第2.4.1节构造了目标函数, 并创新性地推导出解析解, 第2.4.2节进一步将其推广至任意长的任务序列; 最后, 第2.5节给出了上述两阶段训练的算法实现步骤.
2.3 初始化MRNet
2.3.1 传统单任务学习
一个基本的MRNet包括n组映射特征节点(每组$ k $个节点)和m组增强节点(每组1个节点). 其中映射特征节点用于对原始输入样本或特征向量进行特征处理; 增强节点则作为网络额外的输入. 不同于BLS及其变体[40, 42], MRNet简化了从扩展输入层到输出层的直接连接用于匹配判别信息, 因为从先前任务中学习到的判别信息对于后续任务而言往往是不具有判别性的[11], 具体见第3.4节消融实验. 任务1中, ${\boldsymbol{D}}_1=\{({\boldsymbol{X}}_1,{\boldsymbol{Y}}_1)|{\boldsymbol{X}}_1\in {\bf{R}}^{N_1\times M_1}, {\boldsymbol{Y}}_1\in {\bf{R}}^{N_1\times C_1}\}$的训练过程与传统RWNNs的单任务学习类似. 如图2所示, 首先第i组($ i=1,2,\cdots,n $)映射特征节点的输出可以表示为
$$ {\boldsymbol{Z}}_i=\phi_i({\boldsymbol{X}}_1{\boldsymbol{W}}_{f_i}+{\boldsymbol{\beta}}_{f_i})\in{\bf{R}}^{N_1 \times k} $$ (1) 第j个($ j=1,2,\cdots,m $)增强节点的输出为
$$ {\boldsymbol{H}}_j=\xi_j({\boldsymbol{Z}}^n{\boldsymbol{W}}_{e_j}+{\boldsymbol{\beta}}_{e_j})\in{\bf{R}}^{N_1} $$ (2) 其中, $ {\boldsymbol{W}}_{f_i}\in{\bf{R}}^{M_1 \times k} $, $ {\boldsymbol{\beta}}_{f_i}\in{\bf{R}}^{k} $, $ {\boldsymbol{W}}_{e_j}\in{\bf{R}}^{nk} $, ${\boldsymbol{\beta}}_{e_j}\in {\bf{R}}$分别为在给定区间, 如 $ [-1,1] $内随机生成的第i组映射特征节点和第j个增强节点的输入权值和偏置, 并使用下标 $ f $ 和 $ e $ 加以区分; $ \phi_i(\cdot) $和$ \xi_j(\cdot) $均表示常用的激活函数; ${\boldsymbol{Z}}^n=[{\boldsymbol{Z}}_1,{\boldsymbol{Z}}_2,\cdots,{\boldsymbol{Z}}_n]\in {\bf{R}}^{N_1 \times nk}$ 和 $ {\boldsymbol{H}}^m=[{\boldsymbol{H}}_1,{\boldsymbol{H}}_2,\cdots,{\boldsymbol{H}}_m]\in{\bf{R}}^{N_1 \times m} $分别表示将n组$ {\boldsymbol{Z}}_i $和m个$ {\boldsymbol{H}}_j $拼接在一起得到的节点集合. 然后, 得到扩展输入层的输出${\widetilde{\boldsymbol{X}}}_1=[{\boldsymbol{Z}}^n, {\boldsymbol{H}}^m]\in {\bf{R}}^{N_1 \times (nk+m)}$. 最后, 具有$ L $个隐含层节点的MRNet输出函数可以表示为
$$ {\boldsymbol{f}}_{{\boldsymbol{W}}}({\widetilde{\boldsymbol{X}}}_1)=\sum\limits_{l=1}^{L}{\boldsymbol{W}}_l\psi_l({\widetilde{\boldsymbol{X}}}_1;{\boldsymbol{W}}_{h_l},{\boldsymbol{\beta}}_{h_l}) $$ (3) 其中, $ {\boldsymbol{W}}_l\in{\bf{R}}^{C_1} $表示输出权值$ {\boldsymbol{W}} \in{\bf{R}}^{L \times C_1} $的第$ l $行; $ \psi_l(\cdot) $可以是ReLU或者Sigmoid激活函数; ${\boldsymbol{W}}_{h_l}\in {\bf{R}}^{nk+m}$和$ {\boldsymbol{\beta}}_{h_l}\in{\bf{R}} $为相应的隐含层随机参数, 用下标$ h $加以区分.
为了方便, 本文指定$ {\boldsymbol{G}}_l=\psi_l({\widetilde{\boldsymbol{X}}}_1;{\boldsymbol{W}}_{h_l}, {\boldsymbol{\beta}}_{h_l}) $, 得到隐含层输出矩阵${\boldsymbol{A}}_1=[{\boldsymbol{G}}_1,\cdots,{\boldsymbol{G}}_l,\cdots,{\boldsymbol{G}}_L]\in {\bf{R}}^{N_1 \times L}$. 进一步地, 式(3) 可以表示为$ {\boldsymbol{Y}}_1={\boldsymbol{A}}_1{\boldsymbol{W}} $. 其中输出权值$ {\boldsymbol{W}} $可以通过Moore-Penrose广义逆运算[47]得到, 即$ {\boldsymbol{W}}={\boldsymbol{A}}_1^+{\boldsymbol{Y}}_1 $. 然而, 这种求解方法往往并不适用于处理较大规模数据, 如图像分类任务. 为此, 这里采用式(4)给出的另一种替代方法, 即
$$ {\boldsymbol{A}}_1^+={\lim\limits_{\lambda\to 0}}(\lambda{\boldsymbol{I}}+{\boldsymbol{A}}_1^\mathrm{T}{\boldsymbol{A}}_1)^{-1}{\boldsymbol{A}}_1^\mathrm{T} $$ (4) 式(4) 通过引入一个额外的常数约束$ \lambda $并在矩阵$ {\boldsymbol{A}}^\mathrm{T}{\boldsymbol{A}} $对角线上添加一组接近于0的正数来近似$ {\boldsymbol{A}}_1^+ $. 它不仅可以在一定程度上避免过拟合, 而且可以保证矩阵在病态条件(Ill condition)下近似解的存在.
在学习完任务1中的$ C_1 $个类别后, 模型$ {\cal{M}}({\boldsymbol{\theta}}_1) $的输出权值$ {\boldsymbol{W}} $可以通过式(5)计算, 即
$$ {\boldsymbol{W}}=({\lambda{\boldsymbol{I}}+{\boldsymbol{A}}_1^\mathrm{T}{\boldsymbol{A}}_1})^{-1}{\boldsymbol{A}}_1^\mathrm{T}{\boldsymbol{Y}}_1 $$ (5) 因此, 式(5) 为仅通过任务1得到的优化权值(这里$ {\boldsymbol{W}}={\boldsymbol{W}}^\ast_1 $). 进一步地, 预测误差矩阵为
$$ {\boldsymbol{E}}_1={\boldsymbol{A}}_1{\boldsymbol{W}}-{\boldsymbol{Y}}_1 $$ (6) 其中, $ {\boldsymbol{E}}_1=[{\boldsymbol{e}}_{1,1},\cdots,{\boldsymbol{e}}_{1,p},\cdots,{\boldsymbol{e}}_{1,N_1}]^\mathrm{T} $, $ {\boldsymbol{e}}_{1,p}\in{\bf{R}}^{C_1} $对应于任务1中第p个训练样本$ ({\boldsymbol{X}}_{1,p},{\boldsymbol{Y}}_{1,p}) $的残差. 需要指出的是, $ {\boldsymbol{W}} $将在后续任务的学习中不断更新.
2.3.2 构造再可塑性矩阵
本节为MRNet在连续学习过程中如何更新输出权值提供理论依据与指导. 根据第2.2节可知, 模型参数重要性发挥着类似突触再可塑性的作用. 其中, 每个输出权值的再可塑性越高, 其重要性越低, 对旧任务性能的影响也就越小, 因此可以优先改变以兼容新任务的分布; 相反, 输出权值的再可塑性低则表示其重要性高, 那么这部分理想上应保持不变, 从而保留模型对旧任务的记忆. 因此, 我们围绕节点之间的连接权值度量其重要性, 并用来巩固MRNet的输出权值.
对于任意的任务$ t $ (这里以任务1为例), 首先利用交叉熵损失(Cross-entropy loss)函数$ \ell({\hat{\boldsymbol{Y}}_1},{\boldsymbol{Y}}_1) $保证模型$ {\cal{M}}({\boldsymbol{\theta}}_1) $所建立的映射关系与任务1中数据$ {\boldsymbol{D}}_1=({\boldsymbol{X}}_1,{\boldsymbol{Y}}_1) $之间分布的近似, 其中, $ {\hat{\boldsymbol{Y}}_1}={\boldsymbol{A}}_1{\boldsymbol{W}} $; 然后, 通过对输出权值$ {\boldsymbol{W}} $添加无穷小更新量$ \Delta{\boldsymbol{W}} $观察损失函数的变化, 可以近似表示为
$$ \ell({\boldsymbol{A}}_1({\boldsymbol{W}} + \Delta{\boldsymbol{W}}),{\boldsymbol{Y}}_1) - \ell({\boldsymbol{A}}_1{\boldsymbol{W}},{\boldsymbol{Y}}_1) \approx {\boldsymbol{g}}_1\Delta {\boldsymbol{W}}^\mathrm{T} $$ (7) 其中, ${\boldsymbol{g}}_1=\frac{\partial\ell({\hat{\boldsymbol{Y}}_1},{\boldsymbol{Y}}_1)} { \partial{\boldsymbol{W}}}$表示梯度信息. 进一步地, 通过对所有无穷小更新量$ \Delta{\boldsymbol{W}} $求和, 累积梯度以获得经过任务1解空间整个轨迹上的损失变化(路径积分)[24]. 这相当于计算式(8), 即
$$ {\cal{F}}_1=\bigg(\frac{\partial \ell({\hat{\boldsymbol{Y}}_1},{\boldsymbol{Y}}_1)}{\partial{\boldsymbol{W}}}\bigg)\bigg(\frac{\partial\ell({\hat{\boldsymbol{Y}}_1},{\boldsymbol{Y}}_1)}{\partial{\boldsymbol{W}}}\bigg)^\mathrm{T} $$ (8) 实际上, 根据文献[48]中描述的特性, 式(8)中一阶导数的平方是式(9)给出的计算耗时的海森矩阵(Hessian matrix)的等价且有效替代方法, 即
$$ {\cal{F}}_1\approx\frac{\partial^2 \ell({\hat{\boldsymbol{Y}}_1},{\boldsymbol{Y}}_1)}{\partial {\boldsymbol{W}^2}} $$ (9) 本质上来说, 式(9)中二阶导数反映了$ \ell({\hat{\boldsymbol{Y}}_1}, {\boldsymbol{Y}}_1) $本身相对于$ {\boldsymbol{W}} $中每个元素的变化率. 相应地, $ {\cal{F}}_1 $中较小的元素值表明其对损失函数的影响不大; 反之亦然, 从而实现了对旧任务记忆的保留. 因此, 我们将具备记忆功能的$ {\cal{F}}_1 $命名为再可塑性矩阵并用于MRNet输出权值的自适应更新.
需要指出的是: 1) MRNet在任务1上完成网络结构初始化, 并在接下来的任务中保持不变; 后续MRNet的初始化均指在前一个任务上持续获得再可塑性矩阵$ {\cal{F}}_t $ ($ t=1,2,\cdots,T-1 $). 2) 式(8)虽然涉及了梯度计算, 但仅仅是一阶且不需要梯度信息反传. 因此, 以上过程仍然是高效且易于实现的. 3) 一旦完成$ {\cal{F}}_t $的计算, 相应任务的数据$ {\boldsymbol{D}}_t $不再保留. 4) 除非另作说明, 下文中出现仅下标不同的同一个变量均表示在特定任务$ t $下的相同含义.
2.4 学习与记忆融合
本节详细介绍如何将再可塑性矩阵用于MRNet连续学习过程以实现输出权值的有效更新, 包括: 1) 针对任务2构造目标函数并创新性地推导出解析解; 2) 进一步推广至任意长的任务序列.
2.4.1 处理两个任务
当任务2出现时, 我们利用$ {\cal{F}}_1={\boldsymbol{P}}_1\odot{\boldsymbol{P}}_1 $指导输出权值$ {\boldsymbol{W}} $中的元素有选择性地接近或偏离最近一次得到的$ {\boldsymbol{W}}^\ast_1 $, 其中, 运算符$ \odot $表示逐元素积, 即矩阵对应位置元素相乘、所得矩阵维度不变. 于是, MRNet的目标函数可以表示为下列一般性问题
$$ \begin{split} \min_{{\boldsymbol{W}}}& \frac{1}{2N_2} \sum\limits_{p=1}^{N_2}\Vert{\boldsymbol{e}}_{2,p}\Vert^2 + \frac{\lambda_1}{2}\sum_{l=1}^L\Vert{\boldsymbol{P}}_{1,l}\odot({\boldsymbol{W}}_l - {\boldsymbol{W}}^\ast_{1,l})\Vert^2\\ \text{s.t.}&\;\; {\boldsymbol{f}}_{{\boldsymbol{W}}}({\widetilde{\boldsymbol{X}}}_{2,p})={\boldsymbol{Y}}_{2,p}-{\boldsymbol{e}}_{2,p}, \forall p\\[-10pt] \end{split} $$ (10) 其中, $ \lambda_1 $控制着模型在学习任务2时对任务1的保护程度; $ {\boldsymbol{W}}^\ast_{1,l}\in{\bf{R}}^{{{C}}_1} $表示仅在任务1上根据式(5) 得到的优化权值$ {\boldsymbol{W}}^\ast_1 $的第l行; $ {\boldsymbol{P}}_{1,l}\in{\bf{R}}^{{{C}}_1} $表示相应的输出权值重要性. 注意到式(10) 中第1项负责任务2的学习, 而任务1的所有记忆都包含在第2项中. 因此, MRNet鼓励其输出权值$ {\boldsymbol{W}} $的解空间围绕先前任务获得的$ {\boldsymbol{W}}^\ast_1 $.
式(10) 可以通过KKT (Karush-Kuhn-Tucker)条件[49]求解如下:
$$ \begin{split} &{\cal{L}}({\boldsymbol{W}},{\boldsymbol{E}}_{2},{\boldsymbol{\upsilon}}_2)=\frac{1}{2N_2}\sum_{p=1}^{N_2}\Vert{\boldsymbol{e}}_{2,p}\Vert^2\; +\\ &\qquad\frac{\lambda_1}{2}\sum_{l=1}^L\Vert{\boldsymbol{P}}_{1,l}\odot({\boldsymbol{W}}_l-{\boldsymbol{W}}^\ast_{1,l})\Vert^2\;-\\ &\qquad\sum_{p=1}^{N_2}({\boldsymbol{f}}_{{\boldsymbol{W}}}({\widetilde{\boldsymbol{X}}}_{2,p})-{\boldsymbol{Y}}_{2,p}+{\boldsymbol{e}}_{2,p}){\boldsymbol{\upsilon}}_{2,p}^\mathrm{T} \end{split} $$ (11) 其中, $ {\boldsymbol{\upsilon}}_{2,p} \in{\bf{R}}^{C_2} $表示拉格朗日乘子并对应任务2中第p个训练样本$ ({\boldsymbol{X}}_{2,p},{\boldsymbol{Y}}_{2,p}) $. 分别对式(11) 中的决策变量$ {\boldsymbol{W}} $, $ {\boldsymbol{E}}_{2} $和$ {\boldsymbol{\upsilon}}_2 $求偏导可以得出
$$ \nabla_{{\boldsymbol{W}}}{\cal{L}}({\boldsymbol{W}},{\boldsymbol{E}}_{2},{\boldsymbol{\upsilon}}_2)=\lambda_1{\cal{F}}_1\odot({\boldsymbol{W}}-{\boldsymbol{W}}^\ast_1)-{\boldsymbol{A}}_2^\mathrm{T}{{\boldsymbol{\upsilon}}_2} $$ (12) $$ \nabla_{{{\boldsymbol{E}}_{{2}}}}{\cal{L}}({\boldsymbol{W}},{\boldsymbol{E}}_{2},{\boldsymbol{\upsilon}}_2)=\frac{1}{N_2}{\boldsymbol{E}}_2-{\boldsymbol{\upsilon}}_2^\mathrm{T} $$ (13) $$ \begin{align} \nabla_{{\boldsymbol{\upsilon}}_2}{\cal{L}}({\boldsymbol{W}},{\boldsymbol{E}}_{2},{\boldsymbol{\upsilon}}_2)=&-({\boldsymbol{A}}_2{\boldsymbol{W}}-{\boldsymbol{Y}}_2+{\boldsymbol{E}}_2) \end{align} $$ (14) 经过整理, 得到
$$ {\boldsymbol{A}}_2^\mathrm{T}{\boldsymbol{A}}_2{\boldsymbol{W}}+\gamma_1{\cal{F}}_1\odot({\boldsymbol{W}}-{\boldsymbol{W}}^\ast_1)={\boldsymbol{A}}_2^\mathrm{T}{\boldsymbol{Y}}_2 $$ (15) 其中, 标量$ \gamma_1=\lambda_1 N_2 $表示任务1与任务2之间的权衡(Trade-off).
注意到式(15) 中传统矩阵相乘与逐元素积的共存导致难以推导出输出权值$ {\boldsymbol{W}} $, 为此, 本文进一步结合逆运算的特点, 创新性地提出了一种分块矩阵对角化(Partitioned matrix diagonalization, PMD)方法: 1) 分别对矩阵$ {\boldsymbol{W}} $, $ {\cal{F}}_1 $和$ {\boldsymbol{Y}}_2 $按每一列分块, 得到$ {\boldsymbol{W}}=[{\boldsymbol{W}}_1,\cdots,{\boldsymbol{W}}_c,\cdots,{\boldsymbol{W}}_{C_1}] $, ${\cal{F}}_1= [{\cal{F}}_{1,1},\cdots,{\cal{F}}_{1,c},\cdots,{\cal{F}}_{1,{C_1}}]$以及任务2的输出${\boldsymbol{Y}}_2= [{\boldsymbol{Y}}_{2,1},\cdots, {\boldsymbol{Y}}_{2,c},\cdots,{\boldsymbol{Y}}_{2,{C_2}}]$; 2) 矩阵$ {\cal{F}}_{1,c} $ ($c=1, 2, \cdots, C_1$)被对角化为${\boldsymbol{\varLambda}}_{1,c}\in{\bf{R}}^{{{{L}}\times {{L}}}}$; 3) 在学习完任务2中的$ C_2 $个新类别后, 模型$ {\cal{M}}({\boldsymbol{\theta}}_2) $输出权值$ {\boldsymbol{W}}=[{\boldsymbol{W}}_1,\cdots,{\boldsymbol{W}}_c,\cdots,{\boldsymbol{W}}_C]\in{\bf{R}}^{L \times C} $ (其中, $C= C_1+C_2$) 的每一列都可以采用递归的方式独立地解析为
$$ {\boldsymbol{W}}_c=(\gamma_1{\boldsymbol{\varLambda}}_{1,c}+{\boldsymbol{A}}_2^\mathrm{T}{\boldsymbol{A}}_2)^{-1}({\boldsymbol{A}}_2^\mathrm{T}{\boldsymbol{Y}}_{2,c}+\gamma_1{\boldsymbol{\varLambda}}_{1,c}{\boldsymbol{W}}^\ast_{1,c}) $$ (16) 2.4.2 面向任务序列
本节将两个任务的情况推广到任意长的Class-IL. 对于包含$ C_T $个新类别的任务$ T\;(T\geq2) $, 下面给出统一的CL框架, 即
$$ \begin{split} \min\limits_{{\boldsymbol{W}}}& \frac{1}{2N_T}\sum\limits_{p=1}^{N_T}\Vert{\boldsymbol{e}}_{T,p}\Vert^2 \;+\\ & \frac{1}{2}\sum\limits_{l=1}^L\Vert\sum\limits_{t=1}^{T-1}\sqrt{\lambda_t}{\boldsymbol{P}}_{t,l}\odot({\boldsymbol{W}}_l-{\boldsymbol{W}}_{T-1,l})\Vert^2\\ \text{s.t.}&\;\; {\boldsymbol{f}}_{{\boldsymbol{W}}}({\widetilde{\boldsymbol{X}}}_{T,p})={\boldsymbol{Y}}_{T,p}-{\boldsymbol{e}}_{T,p}, \forall p \end{split} $$ (17) 其中, $ T-1 $表示紧接在$ T $之前的任务; $ {\boldsymbol{W}}_{T-1} $表示最近一次得到的输出权值; $ \sum_{t=1}^{T-1} $则表示在任务$ T $出现之前的所有任务. 类似地, 模型$ {\cal{M}}({\boldsymbol{\theta}}_T) $输出权值$ {\boldsymbol{W}}=[{\boldsymbol{W}}_1,\cdots,{\boldsymbol{W}}_c,\cdots,{\boldsymbol{W}}_C]\in{\bf{R}}^{L \times C} $ (其中, $C= \sum_{t=1}^{T}{C_t}$) 的每一列可以解析为
$$ \begin{split} {\boldsymbol{W}}_c=\;&\left(\sum\limits_{t=1}^{T-1}\gamma_t{\boldsymbol{\varLambda}}_{t,c} + {\boldsymbol{A}}_T^\mathrm{T}{\boldsymbol{A}}_T\right)^{ - 1}\Bigg({\boldsymbol{A}}_T^\mathrm{T}{\boldsymbol{Y}}_{T,c}\;+\\ &\sum\limits_{t=1}^{T - 1}\gamma_t{\boldsymbol{\varLambda}}_{t,c}{\boldsymbol{W}}_{T-1,c}\Bigg) \end{split} $$ (18) 其中, $ \gamma_t=\lambda_t N_{t+1} $表示任务 $ t $与任务$ t+1 $之间的权衡. 同时, 注意到当$ T=2 $时, 式(18) 等同于式(16). 进一步地, 当再可塑性矩阵取为单位阵并忽略不存在的项时, 式(16) 等同于式(5). 这从理论上证明了单任务学习是CL的一种特殊情况.
2.5 算法描述
从算法实现的角度来说, MRNet本质上属于一种特殊的正则化方法, 其仅通过一个二次惩罚项实现对旧任务的记忆. 这是因为最近一次得到的输出权值包含了先前所有见过任务的信息. 一旦在任务$ t $上完成训练并得到输出权值$ {\boldsymbol{W}}_t $和再可塑性矩阵$ {\cal{F}}_t $, 该任务的数据$ {\boldsymbol{D}}_t $不再需要存储和访问. 如式(17)所示, 此时先前任务上得到的输出权值$ {\boldsymbol{W}}_t $ $ (t=1,2,\cdots,T-2) $均可以被丢弃, $ \sum_{t=1}^{T-1} \sqrt{\lambda_t}{\boldsymbol{P}}_{t,c} $可以在无需Task-ID的情况下累积更新. 这意味着MRNet的内存随任务数量的增加基本上保持不变. 具体地, 其训练过程包括两个阶段: 阶段1: 初始化MRNet; 阶段2: 学习与记忆融合.
输入. 依次给定当前任务 $ t $ ($ t=1,2,\cdots,T $) 的训练样本$ {\boldsymbol{D}}_t=\{({\boldsymbol{X}}_t,{\boldsymbol{Y}}_t)\} $.
输出. 随机初始化参数$ {\boldsymbol{W}}_{f_i} $, $ {\boldsymbol{\beta}}_{f_i} $, $ {\boldsymbol{W}}_{e_j} $, $ {\boldsymbol{\beta}}_{e_j} $, $ {\boldsymbol{W}}_{h_l} $, $ {\boldsymbol{\beta}}_{h_l} $, 最近一次得到的输出权值$ {\boldsymbol{W}}_{T-1} $, 当前输出权值$ {\boldsymbol{W}}_T $.
阶段 1. 初始化MRNet ($ t=1 $)
步骤1.1. 根据式(1)和式(2), 计算扩展输入层的输出$ {\widetilde{\boldsymbol{X}}}_1=[{\boldsymbol{Z}}^n|{\boldsymbol{H}}^m] $;
步骤 1.2. 根据式(3), 计算隐含层输出矩阵$ {\boldsymbol{A}}_1=[{\boldsymbol{G}}_1,\cdots,{\boldsymbol{G}}_l,\cdots,{\boldsymbol{G}}_L] $;
步骤 1.3. 根据式(4)和式(5), 计算隐含层输出矩阵的逆矩阵$ {\boldsymbol{A}}_1^+ $和输出权值$ {\boldsymbol{W}} $, 并令$ {\boldsymbol{W}}^\ast_1={\boldsymbol{W}} $;
步骤 1.4. 根据式(8), 计算再可塑性矩阵$ {\cal{F}}_1 $用于PMD方法.
阶段2. 学习与记忆融合 ($ t=2,\cdots,T $)
步骤2.1. 根据式(1)和式(2), 计算扩展输入层的输出$ {\widetilde{\boldsymbol{X}}}_t=[{\boldsymbol{Z}}^n|{\boldsymbol{H}}^m] $;
步骤 2.2. 根据式(18), 计算输出权值$ {\boldsymbol{W}} $;
步骤 2.3. 若$ t < T $, 根据式(8), 计算再可塑性矩阵$ {\cal{F}}_t $用于PMD方法, 并令$ {\boldsymbol{W}}_t={\boldsymbol{W}} $;
步骤 2.4. 重复步骤2.1 ~ 2.3, 直至$ t=T $.
3. 仿真实验与结果分析
本节将通过5个评价指标、5个基准任务序列和10个比较方法验证所提方法的优越性. 首先给出实验设置, 然后在不同难度的Class-IL场景中进行实验, 最后进行参数灵敏度分析和消融实验.
3.1 实验细节
3.1.1 评价指标
为了全面评估CL方法的有效性和高效性, 本文采用测试精度、跨任务传递知识的能力、整个执行时间和参数存储需求来同时描述模型质量. 假设任务序列的长度为$ T $, 具体如下.
1) 平均测试分类精度(Average test accuracy, ACC): 在迄今所有见到过的任务上测试分类精度的平均值, 即
$$ {ACC}=\frac{1}{T}\sum\limits_{t=1}^T R_{T,t} $$ (19) 其中, $ R_{T,t} $表示在任务 $ T $上训练完后, 模型在任务$ t $上的测试分类精度.
2) 后向迁移(Backward transfer, BWT)[16]: 表示学习完任务$ T $与学习完任务$ t $两种情况下的模型分别在任务$ t $上的测试分类精度之差, 即
$$ {BWT}=\frac{1}{T-1}\sum\limits_{t=1}^{T-1} R_{T,t}-R_{t,t} $$ (20) 本指标反映了模型对旧任务知识的保留能力. $BWT $为负值意味着模型在遇到新任务后降低了之前任务的性能, 较小的$BWT $则意味着灾难性遗忘.
3) 前向迁移(Forward transfer, FWT)[50]: 通过定义CL模型相对于独立训练的模型在任务$ t $上测试分类精度的提高, 即
$$ {FWT}=\frac{1}{T-1}\sum\limits_{t=2}^{T} R_{t,t}-R_t^{{\rm{ind}}} $$ (21) 其中, $ R_t^{{\rm{ind}}} $表示仅在任务$ t $上进行训练的单任务学习模型分类精度. $FWT $反映了模型能否利用以前学到的知识来提高当前任务的测试分类精度.
除上述三个精度相关的指标(均越高越好), 我们还引入另外两个指标, 具体如下.
4) 累计运行时间(Cumulative running time, Time), 单位: s.
5) 模型最终参数量(Final number of parameters, No. Para.), 单位: MB, 用于综合评估模型质量. 我们注意到, 大多数CL方法仅使用ACC验证其优越性而忽略最小化计算、存储和时间需求等.
3.1.2 数据集
本节按照Class-IL场景的通用设置来生成不同难度的任务序列[14, 25, 51], 即分别划分FashionMNIST, CIFAR-100和ImageNet基准数据集. 每个序列中的任务均独立地来自于原始基准数据集. 我们使用[DATASET]-$ C/T $表示一个任务序列总共包含$ C $个类别并被均匀地划分到$ T $个任务中, 这意味着每个任务都需要学习$ C/T $个新类别. 下面简述如何生成任务序列.
1) 对于FashionMNIST, 将10个类别划分为5个二分类任务, 对应任务序列FashionMNIST-10/5如图3所示. 模型每学习完一个任务立即丢掉该任务的训练数据(重放方法除外), 然后等待新任务的出现. 尽管由5个简单的二分类任务组成, 传统的ANNs学习该任务序列仍具有挑战性.
2) 对于CIFAR-100, 将100个类别分别划分为5个包含20个自然图像类的任务序列(CIFAR-100/5)和10个包含10个自然图像类的任务序列(CIFAR-100/10), 如图4所示. CIFAR-100/5中包含更多的类, 增加了每个任务的难度; 而CIFAR-100/10则通过增加任务序列的长度, 测试CL方法的信息保留能力.
3) 对于ImageNet, 我们使用其子集ImageNet-200, 让模型分别增量学习不同长度的任务序列. 类似地, 所得到的ImageNet-200/10和ImageNet-200/50分别需要模型具有连续学习10个20分类任务和50个4分类任务的能力.
3.1.3 比较方法
本节将本文提出的MRNet在Class-IL场景中与现有经典和最先进的7种CL方法相比, 包括MAS[4], GEM[16], EWC[23], SI[24], OWM[25], IL2M[15], PCL[11]. 为了使得比较更加全面, 我们还与3种非CL方法进行比较, 包括一种仅适用于单任务学习的RWNNs, 即BLS[40], 基于L2正则化的微调, 在整个任务序列上离线联合训练(Jointly training, JT), 其通常被认为是CL方法关于评价指标ACC的上界.
3.1.4 网络参数
1) 网络结构: 为了公平比较, 所有方法对所有划分的任务序列分别使用类似大小的网络结构. 对于FashionMNIST-10/5, 基于BP算法的比较方法使用一个多层感知机(Multi-layer perceptron, MLP), 即[784-800-800-10]; BLS与MRNet则分别通过随机初始化固定的基网络[748 − (10 × 10 + 1500) − 10]、[784 − (10$ \times $10$ + $700) − 800 − 10] (对应$ n=10 $, $ k=10 $, $ m=700 $, $ L=800) $. 由于该任务序列较为简单, 故没有使用预训练特征提取器(见图2). 对于CIFAR-100, 一个标准的ResNet-56用于特征提取. 我们按照OWM[25]中的实验设置, 首先使用由整个训练集预训练的特征提取器来分析原始图像, 然后将得到的特征向量依次输入CL模型中(与FashionMNIST-10/5实验相似的网络结构). 即CIFAR-100/5与CIFAR-100/10是增量学习不同类别特征和标签之间的映射关系. 我们将预先训练好的特征提取器同时应用于MRNet和所有比较方法. 对于ImageNet-200, 我们接下来评估MRNet是否能够学习具有挑战性且不涉及使用训练集获取预训练特征提取器的新任务[11]. 例如, 先以Tiny-ImageNet-200作为辅助数据在ResNet-50上进行预训练, 然后从ImageNet余下的800个类别中随机选择200个用于划分任务序列. 这符合人类学习的特点, 即我们倾向于为具有挑战性的任务做充分的准备, 而不是没有任何先验知识. 需要指出的是, 当使用预训练特征提取器时, 其在本文所提MRNet和所有比较方法中都同样使用.
2) 参数选择: 对于所有基于BP算法的比较方法, 我们使用由其作者发布的开源代码或流行的第三方代码, 并进行了大量的调参. 学习率取自 {0.1, 0.01, 0.001}, mini-batch大小设为100 (用于FashionMNIST和CIFAR-100划分的3个任务序列)或 {100和20} (用于ImageNet划分的2个任务序列). 进一步地, 根据GEM[16]等方法中的实验设置, 我们将简单任务序列(FashionMNIST)的epoch设置为1, 即当前任务样本在简单序列中仅允许被访问一次; 对于具有挑战性的任务序列(CIFAR-100和ImageNet)的epoch放宽为不加以限制; 而本文所提MRNet对所有任务序列的epoch始终为1. 对于重放方法, 我们始终保留4.4 k个随机样本集(FashionMNIST)以及限制重放预算为2 k个样本(CIFAR-100和ImageNet); 对于扩展方法, 保证其在学习完所有的任务后与基网络相同规模; 对于正则化方法, 权衡系数针对不同任务序列选自集合{100, 1000, 10000, 100000}, MRNet的相关设置见第3.3节参数分析.
3.1.5 实验协议
在训练过程中, 仅重放方法可以存储和访问少量先前任务的训练数据, 而其他方法只有当前任务$ t $的训练样本可供模型训练. 在测试过程中, 当模型学完$ T $个任务时, 测试样本来自迄今为止所有学过的任务$1\sim T $, 且无需告诉模型Task-ID, 然后计算评价指标(见第3.1.1节). 同时, 我们在每个基准数据集所划分的任务序列(见第3.1.2节)上独立重复10次实验, 并记录这些结果的平均值和标准差. 其中, 每次实验中的任务顺序(Task ordering)都是随机分配且未知的, 以验证模型在开放环境中的实用性.
3.2 结果与讨论
3.2.1 FashionMNIST
表2给出了MRNet与10种经典和最新的比较方法在FashionMNIST-10/5任务序列上的连续学习性能. 实验结果通过5个评价指标在该任务序列上独立重复10次实验获得, 并记录了这些结果的平均值和标准差. 其中, 每次实验所提供的任务顺序均从5个2分类的任务中随机分配. 作为非CL方法, BLS和L2只能针对IID任务建立特定的输入输出映射关系, 而且一旦训练完成, 该映射不再发生改变. 其中, 尽管BLS在单任务学习中表现良好, 对于任务序列只记得最近一次学习的任务, 而之前的任务被完全遗忘. L2对待所有模型参数施加同样程度的惩罚, 仍导致模型偏向特定任务的学习.
表 2 连续学习FashionMNIST-10/5任务序列对比实验Table 2 Comparative experiments on continuously learning FashionMNIST-10/5 task sequence方法 指标 ACC (%) BWT FWT Time (s) No. Para. (MB) 非CL方法 BLS 19.93±0.22 — — 8.17±0.24 0.25 L2 26.55±6.27 — — 59.12±2.73 1.28 JT ~ 96.61 — — — — CL方法 EWC 34.96±7.62 −0.7248±0.0953 −0.0544±0.0300 69.21±4.10 11.48 MAS 38.54±3.49 −0.4781±0.0561 −0.2576±0.0548 110.26±1.74 3.83 SI 56.19±3.21 −0.3803±0.0631 −0.1329±0.0504 67.67±2.25 5.11 OWM 79.16±1.11 −0.1844±0.0197 −0.0635±0.0078 40.38±7.09 3.18 GEM 81.98±2.80 −0.0586±0.0654 −0.1093±0.0510 45.73±1.17 1.28 PCL 82.13±0.61 −0.1385±0.0413 −0.0647±0.0172 348.75±9.83 1.28 IL2M 84.61±2.95 −0.0712±0.0273 −0.0258±0.0248 44.18±1.34 1.28 MRNet 93.07±0.74 −0.0458±0.0069 −0.0261±0.0035 11.38±0.29 0.83 首先关于ACC, 我们注意到余下CL方法基本都可以在MNIST-10/5任务序列上获得较好的性能, 而一旦换成FashionMNIST-10/5则呈现出不同程度的下降. 一般来说, 类增量学习对于无需网络结构增加和使用旧任务数据的正则化方法(EWC, MAS, SI和OWM)来说尤其困难. 扩展(PCL)和重放(GEM和IL2M)方法的性能普遍较好, 很大程度上归因于网络结构的增加和旧数据的使用, 其中IL2M是最强基线(Baseline). 对比之下, MRNet的ACC高出IL2M 8.46%. 此外, 通过ACC的标准差可知, 大多数CL方法非常容易受序列中任务顺序的影响, 而MRNet执行10次随机分配的实验都具有一致的ACC, 且仅次于具有Multi-heads设置的PCL[11]. 这意味着本文所提方法通过解析解可以提高任务顺序鲁棒性.
其次, 一个可取的CL模型还应该具有较大的BWT和FWT. MRNet的BWT值最接近于0, 表明其对于旧任务知识的保留能力高于其他方法. 重放方法(GEM和IL2M)的BWT值明显高于其他方法, 这在一定程度上是因为它们在学习新任务时访问旧任务数据. 而当模型保留的旧任务数据非常有限时往往会导致类别不平衡问题. 与此同时, IL2M进一步存储了历史任务类别的统计信息, 其FWT =$- 0.0258 $在所有方法中最大. MRNet的FWT =$-0.0261 $意味着其尝试借助先前任务的信息以更好地学习(至少尽可能不阻碍)新任务.
最后, MRNet在Time和No. Para. 上明显优于其他基于BP算法的CL方法, 表明其具有参数高效、收敛速度快和易于实现等优点. 同时, 这两个指标也在一定程度上反映了模型质量. 然而, 现有CL方法大多只关注ACC而忽略时间、计算成本和存储需求. 因此, FashionMNIST-10/5实验通过5个评价指标更加全面地验证了本文所提方法的有效性和高效性.
3.2.2 CIFAR-100
尽管在FashionMNIST-10/5任务序列上的实验结果表明MRNet能够有效缓解灾难性遗忘, 但是所建立的CL模型仅仅用于依次学习5个简单的2分类任务. 本节将面向更复杂的分类任务以及更长的任务序列. 图5给出了Class-IL场景中不同CL方法在CIFAR-100/5和CIFAR-100/10两个任务序列上的ACC, 分别需要模型具有连续学习5个20分类和10个10分类任务的能力. 结果表明, 本文所提MRNet明显优于其他方法. 对于图5(a), BLS将所有见过的任务识别为最近一次任务中的类别; L2在学完任务2时也已经开始遭受严重的灾难性遗忘; 除了OWM, 其余正则化方法(EWC, MAS和SI)均表现出不同程度的遗忘. MRNet分别比基于重放的IL2M和基于扩展的PCL高出8.30% 和5.26%. 同样的结论也可以从图5(b)中得出.
3.2.3 ImageNet
表3进一步给出了不同方法在ImageNet-200上的实验结果. 相比FashionMNIST和CIFAR-100任务序列, 该实验中单任务的学习更具有挑战性, 多任务之间的干扰更容易发生. 首先, 虽然MRNet在ImageNet-200/10任务序列中的ACC仅高出PCL约0.1%, 但是后者的参数量比MRNet多36.16% (同表2), 时间需求比MRNet高上百倍; 其次, MRNet在ImageNet-200/50任务序列中的标准差略低于PCL, 但其ACC高出PCL 3.47% 且明显优于IL2M和OWM; 最后, 我们注意到从ImageNet-200/10到ImageNet-200/50, IL2M的学习性能显著降低. 这在一定程度上是因为基于重放的IL2M允许使用2 k个样本大小的缓冲区, 但任务数量的增加导致新旧任务之间的数据不平衡问题越来越明显. 总的来说, 本文方法具有精度高、计算/内存成本低和训练时间快等优点.
表 3 连续学习ImageNet-200任务序列对比实验Table 3 Comparative experiments on continuously learning ImageNet-200 task sequence方法 任务序列 ImageNet-200/10 ImageNet-200/50 IL2M 54.13±11.30 47.84±18.85 OWM 55.93±14.29 49.67±20.98 PCL 56.41±9.75 52.46±8.95 MRNet 56.50±9.13 55.93±11.51 3.3 参数分析
除了第3.1.4节给出的超参数设置, 下面进一步讨论MRNet在T个任务之间引入的权衡系数, 即$ \{\gamma_1, \gamma_2, \cdots, \gamma_{T-1}\} $. 如前所述, MRNet作为一种再可塑性启发的类增量学习算法, 其关键在于“稳定性”和“可塑性”之间的平衡. 从算法实现的角度来说, CL模型不仅需要维持先前任务的信息, 而且需要克服旧任务对新任务的干扰. 为此, 我们从$ 1\leq \lambda_t \leq10^8 $中选取不同数值在CIFAR-100/5任务序列上进行比较实验. 表4记录了模型学习完新任务 $ t \;( t=1,\cdots,5 $)后, 在所有见过的$ t $个任务上的ACC, 即$ {A}_t $; 同时, 给出了学习完5个任务时模型的BWT和FWT. 评价指标均越高越好. 在此基础上, 我们对不同权衡系数进行了灵敏度分析. 为了简化描述, 定义$ \gamma_t $的大小表示对旧任务的保护程度, 并依次分为: “无保护”$ \{1, 1, 1, 1\} $, “欠保护”$ \{1, 1, 1, 1\}\times10^2 $, “适当保护”$ \{1, 1, 1, 1\}\times10^4 $, “过保护”$ \{1, 1, 1, 1\}\times10^6 $和“全保护”$\{1, 1, 1, 1\}\times 10^8$五种情况. 1) “无保护”情况: MRNet仅记得当前学习过的任务, 由于整个过程几乎完全偏向新任务的学习, 使得FWT出现了正值, 这意味着模型使用(牺牲)先前学到的知识来提高新任务的性能; 2) “欠保护”情况: 类似于“欠拟合”, 其对旧任务的保护程度非常有限, 重点仍然是当前任务; 3) “适当保护”情况: 该程度的保护适用于本文所提的MRNet, 有效实现了未知任务序列的学习与记忆融合; 4) “过保护”情况: 学习的重点转向历史任务, 导致多任务之间出现干扰; 5) “全保护”情况: 模型通过限制当前任务的学习以维持历史任务的信息, 因此BWT出现了正值.
表 4 权衡系数灵敏度分析Table 4 Sensitivity analysis on the trade-off coefficients保护程度 评价指标 ${A}_1$ (%) ${A}_2$ (%) ${A}_3$ (%) ${A}_4$ (%) ${A}_5$ (%) BWT FWT 1 84.45 42.88 28.20 20.51 17.45 −0.8420 0.0001 $10^2$ 84.45 75.48 68.57 61.54 55.65 −0.3629 −0.0015 $10^4$ 84.45 82.33 80.90 78.46 77.86 −0.0615 −0.0253 $10^6$ 84.45 71.48 61.37 49.81 41.11 −0.0199 −0.5263 $10^8$ 84.45 44.35 31.05 23.29 18.62 0.0003 −0.8270 需要指出的是, 参数分析的目的是为MRNet确定对旧任务的保护程度并提供合适的权衡系数候选集. 因此, 可以在$ \{1, 1, 1, 1\}\times10^4 $的基础上对$ \gamma_t $进行微调. 此外, 我们注意到基于BP算法的正则化方法, 如(Online) EWC[20, 23]、SI[24]和MAS[4]对权衡系数极为敏感, 不仅容易受其他超参数(学习率, mini-batch等)的影响, 而且在不同任务序列上的设置也完全不同. 换句话说, 这些方法对旧任务难以预先设定好保护程度.
3.4 消融实验
在第2.3.1节提到, MRNet在随机初始化基网络时简化了从扩展输入层到输出层的直接连接, 用于匹配判别信息. 如表5所示, 分别给出了在FashionMNIST-10/5任务序列上不使用和使用直连结构的实验结果. 可以看出, 当MRNet带有直连结构时, 其仅在第1个任务上的分类精度$ {A}_1 $优于没有直连的情况. 这是因为将从扩展输入层到输出层的信息作为额外输入确实有利于增加所提取特征的判别信息, 从而出现较高的$ {A}_1 $. 然而, 从旧任务中学习到的旧类的判别信息在新类之间以及旧类和新类之间往往不具有判别性, 这导致其$ {A}_2 $ ~ $ {A}_5 $, BWT和FWT明显降低, 加剧了灾难性遗忘的发生.
表 5 MRNet结构分析Table 5 Analysis on MRNet architecture有无直连 评价指标 ${A}_1$ (%) ${A}_2$ (%) ${A}_3$ (%) ${A}_4$ (%) ${A}_5$ (%) BWT FWT × 98.20 92.58 93.98 93.34 92.61 −0.0199 −0.0560 √ 99.87 34.14 33.83 32.01 28.40 −0.1304 −0.1883 4. 结束语
本文基于随机权神经网络建立了统一的连续学习框架, 用于有效兼容未来非独立同分布任务以及伴随出现的新类别, 并给出了无需梯度下降算法的解析解, 包括受启发于突触再可塑性构造了具备记忆功能的权值重要性矩阵用于自适应地调整网络参数, 从而维持对历史任务的记忆. 与现有经典和最先进的连续学习方法相比, 所提MRNet具有参数高效、收敛速度快、人为干预度少等优点. 与此同时, 它打破了现有连续学习方法需要多次遍历访问(对应较大的epoch)当前任务的数据以在新任务上获得更好性能的约束, 是一种更加具有通用性的学习与记忆融合模型与算法. 然而, MRNet结构包括一个全局特征提取器和特征到端的简单分类器, 这表明本文所提方法需要借助预训练模型. 因此, 我们将在MRNet基础上进一步建立端到端的连续学习器.
-
表 1 不同类增量学习方法的特性
Table 1 Characteristics of different Class-IL methods
方法 无需多次访问 无需逐层优化 无需数据存储 无需网络扩展 重放 × × × √ 扩展 × × √ × 正则化 × × √ √ MRNet √ √ √ √ 表 2 连续学习FashionMNIST-10/5任务序列对比实验
Table 2 Comparative experiments on continuously learning FashionMNIST-10/5 task sequence
方法 指标 ACC (%) BWT FWT Time (s) No. Para. (MB) 非CL方法 BLS 19.93±0.22 — — 8.17±0.24 0.25 L2 26.55±6.27 — — 59.12±2.73 1.28 JT ~ 96.61 — — — — CL方法 EWC 34.96±7.62 −0.7248±0.0953 −0.0544±0.0300 69.21±4.10 11.48 MAS 38.54±3.49 −0.4781±0.0561 −0.2576±0.0548 110.26±1.74 3.83 SI 56.19±3.21 −0.3803±0.0631 −0.1329±0.0504 67.67±2.25 5.11 OWM 79.16±1.11 −0.1844±0.0197 −0.0635±0.0078 40.38±7.09 3.18 GEM 81.98±2.80 −0.0586±0.0654 −0.1093±0.0510 45.73±1.17 1.28 PCL 82.13±0.61 −0.1385±0.0413 −0.0647±0.0172 348.75±9.83 1.28 IL2M 84.61±2.95 −0.0712±0.0273 −0.0258±0.0248 44.18±1.34 1.28 MRNet 93.07±0.74 −0.0458±0.0069 −0.0261±0.0035 11.38±0.29 0.83 表 3 连续学习ImageNet-200任务序列对比实验
Table 3 Comparative experiments on continuously learning ImageNet-200 task sequence
方法 任务序列 ImageNet-200/10 ImageNet-200/50 IL2M 54.13±11.30 47.84±18.85 OWM 55.93±14.29 49.67±20.98 PCL 56.41±9.75 52.46±8.95 MRNet 56.50±9.13 55.93±11.51 表 4 权衡系数灵敏度分析
Table 4 Sensitivity analysis on the trade-off coefficients
保护程度 评价指标 ${A}_1$ (%) ${A}_2$ (%) ${A}_3$ (%) ${A}_4$ (%) ${A}_5$ (%) BWT FWT 1 84.45 42.88 28.20 20.51 17.45 −0.8420 0.0001 $10^2$ 84.45 75.48 68.57 61.54 55.65 −0.3629 −0.0015 $10^4$ 84.45 82.33 80.90 78.46 77.86 −0.0615 −0.0253 $10^6$ 84.45 71.48 61.37 49.81 41.11 −0.0199 −0.5263 $10^8$ 84.45 44.35 31.05 23.29 18.62 0.0003 −0.8270 表 5 MRNet结构分析
Table 5 Analysis on MRNet architecture
有无直连 评价指标 ${A}_1$ (%) ${A}_2$ (%) ${A}_3$ (%) ${A}_4$ (%) ${A}_5$ (%) BWT FWT × 98.20 92.58 93.98 93.34 92.61 −0.0199 −0.0560 √ 99.87 34.14 33.83 32.01 28.40 −0.1304 −0.1883 -
[1] McCloskey M, Cohen N J. Catastrophic interference in connectionist networks: The sequential learning problem. Psychology of Learning and Motivation. Elsevier, 1989. [2] French R M. Catastrophic forgetting in connectionist networks. Trends in Cognitive Sciences, 1999, 3(4): 128-135 doi: 10.1016/S1364-6613(99)01294-2 [3] McClelland J L, McNaughton B L, O'Reilly R C. Why there are complementary learning systems in the hippocampus and neocortex: insights from the successes and failures of connectionist models of learning and memory. Psychological Review, 1995, 102(3): 419-457 doi: 10.1037/0033-295X.102.3.419 [4] Aljundi R, Babiloni F, Elhoseiny M, Rohrbach M, Tuytelaars T. Memory aware synapses: Learning what (not) to forget. In: Proceedings of the European Conference on Computer Vision (ECCV). Munich, Germany: Springer, 2018. 139−154 [5] Li Z Z, Hoiem D. Learning without forgetting. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 40(12): 2935-2947 [6] Parisi G I, Kemker R, Part J L, Kanan C, Wermter S. Continual lifelong learning with neural networks: A review. Neural Networks, 2019, 113: 54-71 doi: 10.1016/j.neunet.2019.01.012 [7] Li Z Z, Hoiem D. A continual learning survey: Defying forgetting in classification tasks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(7): 3366-3385 [8] Perkonigg M, Hofmanninger J, Herold C J, Brink J A, Pianykh O, Prosch H, et al. Dynamic memory to alleviate catastrophic forgetting in continual learning with medical imaging. Nature Communications, 2021, 12(1): 1-12 doi: 10.1038/s41467-020-20314-w [9] Mallya A, Lazebnik S. Packnet: Adding multiple tasks to a single network by iterative pruning. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Salt Lake City, USA: IEEE, 2018. 7765−7773 [10] Rosenfeld A, Tsotsos J K. Incremental learning through deep adaptation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 42(3): 651-663 [11] Hu W P, Qin Q, Wang M Y, Ma J W, Liu B. Continual learning by using information of each class holistically. Proceedings of the AAAI Conference on Artificial Intelligence (AAAI), 2021, 35(9): 7797−7805 [12] Yang B Y, Lin M B, Zhang Y X, Liu B H, Liang X D, Ji R R, et al. Dynamic support network for few-shot class incremental learning. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45(3): 2945−2951 [13] Shin H, Lee J K, Kim J, Kim J. Continual learning with deep generative replay. In: Proceedings of the 31st Conference on Neural Information Processing Systems (NeurIPS). Long Beach, USA: Curran Associates, Inc., 2017. 2990−2999 [14] Ven van de G M, Siegelmann H T, Tolias A S. Brain-inspired replay for continual learning with artificial neural networks. Nature Communications, 2020, 11(1): 1-14 doi: 10.1038/s41467-019-13993-7 [15] Belouadah E, Popescu A. IL2M: Class incremental learning with dual memory. In: Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, South Korea: IEEE, 2019. 583−592 [16] Lopez-Paz D, Ranzato M. Gradient episodic memory for continual learning. In: Proceedings of the 31st Conference on Neural Information Processing Systems (NeurIPS). Long Beach, USA: Curran Associates, Inc., 2017. 6470−6479 [17] Chaudhry A, Marc'Aurelio R, Rohrbach M, Elhoseiny M. Efficient lifelong learning with A-GEM. In: Proceedings of the International Conference on Learning Representations (ICLR). New Orleans, USA: 2019. [18] Tang S X, Chen D P, Zhu J G, Yu S J, Ouyang W L. Layerwise optimization by gradient decomposition for continual learning. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, USA: IEEE, 2021. 9634−9643 [19] Zhang X Y, Zhao T F, Chen J S, Shen Y, Li X M. EPicker is an exemplar-based continual learning approach for knowledge accumulation in cryoEM particle picking. Nature Communications, 2022, 13(1): 1-10. doi: 10.1038/s41467-021-27699-2 [20] Schwarz J, Czarnecki W, Luketina J, Grabska-Barwinska A, Teh Y W, Pascanu R, et al. Progress & compress: A scalable framework for continual learning. In: Proceedings of the International Conference on Machine Learning (ICML). Stockholm, Sweden: JMLR, 2018. 4528−4537 [21] Zhang J T, Zhang J, Ghosh S, Li D W, Tasci S, Heck L, et al. Class-incremental learning via deep model consolidation. In: Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV). Snowmass, USA: IEEE, 2020. 1131−1140 [22] Liu X B, Wang W Q. GopGAN: Gradients orthogonal projection generative adversarial network with continual learning. IEEE Transactions on Neural Networks and Learning Systems, 2023, 34(1): 215−227 [23] Kirkpatrick J, Pascanu R, Rabinowitz N, Veness J, Desjardins G, Rusu A A, et al. Overcoming catastrophic forgetting in neural network. Proceedings of the National Academy of Sciences (PNAS), 2017, 114(13): 3521-3526 doi: 10.1073/pnas.1611835114 [24] Zenke F, Poole B, Ganguli S. Continual learning through synaptic intelligence. In: Proceedings of the International Conference on Machine Learning (ICML). Sydney, Australia: JMLR, 2017. 3987−3995 [25] Zeng G X, Chen Y, Cui B, Yu S. Continual learning of context-dependent processing in neural networks. Nature Machine Intelligence, 2019, 1(8): 364-372 doi: 10.1038/s42256-019-0080-x [26] Gao J Q, Li J Q, Shan H M, Qu Y Y, Wang J Z, Zhang J P. Forget less, count better: A domain-incremental self-distillation learning benchmark for lifelong crowd counting. arXiv preprint arXiv: 2205.03307, 2022. [27] 蒙西, 乔俊飞, 韩红桂. 基于类脑模块化神经网络的污水处理过程关键出水参数软测量. 自动化学报, 2019, 45(5): 906-919 doi: 10.16383/j.aas.2018.c170497Meng X, Qiao J F, Han H G. Soft measurement of key effluent parameters in wastewater treatment process using brain-like modular neural networks. Acta Automatica Sinica, 2019, 45(5): 906-919 doi: 10.16383/j.aas.2018.c170497 [28] Nadji-Tehrani M, Eslami A. A brain-inspired framework for evolutionary artificial general intelligence. IEEE Transactions on Neural Networks and Learning Systems, 2020, 31(12): 5257-5271 doi: 10.1109/TNNLS.2020.2965567 [29] Hu B, Guan Z H, Chen G R, Chen C L P. Neuroscience and network dynamics toward brain-inspired intelligence. IEEE Transactions on Cybernetics, 2022, 52(10): 10214−10227 [30] LeCun Y, Bottou L, Bengio Y, Haffner P. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 1998, 86(11): 2278-2324 doi: 10.1109/5.726791 [31] Pao Y H, Takefji Y. Functional-link net computing: Theory, system architecture, and functionalities. Computer, 1992, 25(5): 76-79 doi: 10.1109/2.144401 [32] Schmidt W F, Kraaijveld M A, Duin R P W. Feedforward neural networks with random weights. In: Proceedings of the 11th IAPR International Conference on Pattern Recognition. IEEE Computer Society, 1992. 1−4 [33] Igelnik B, Pao Y H. Stochastic choice of basis functions in adaptive function approximation and the functional-link net. IEEE Transactions on Neural Networks, 1995, 6(6): 1320-1329 doi: 10.1109/72.471375 [34] Cao W P, Wang X Z, Ming Z, Gao J Z. A review on neural networks with random weights. Neurocomputing, 2011, 275: 278-287 [35] Zhang L, Suganthan P N. Visual tracking with convolutional random vector functional link network. IEEE Transactions on Cybernetics, 2016, 47(10): 3243-3253 [36] Dai W, Li D P, Zhou P, Chai T Y. Stochastic configuration networks with block increments for data modeling in process industries. Information Sciences, 2019, 484: 367-386 doi: 10.1016/j.ins.2019.01.062 [37] 邹伟东, 夏元清. 基于压缩因子的宽度学习系统的虚拟机性能预测. 自动化学报, 2022, 48(3): 724-734 doi: 10.16383/j.aas.c190307Zou W D, Xia Y Q. Virtual machine performance prediction using broad learning system based on compression factor. Acta Automatica Sinica, 2022, 48(3): 724-734 doi: 10.16383/j.aas.c190307 [38] Huang G B, Zhu QY, Siew C K. Extreme learning machine: theory and applications. Neurocomputing, 2006, 70(1-3): 489-501 doi: 10.1016/j.neucom.2005.12.126 [39] Wang D H, Li M. Stochastic configuration networks: Fundamentals and algorithms. IEEE Transactions on Cybernetics, 2017, 47(10): 3466-3479 doi: 10.1109/TCYB.2017.2734043 [40] Chen C L P, Liu Z L. Broad learning system: An effective and efficient incremental learning system without the need for deep architecture. IEEE Transactions on Neural Networks and Learning Systems, 2017, 29(1): 10-24 [41] 代伟, 李德鹏, 杨春雨, 马小平. 一种随机配置网络的模型与数据混合并行学习方法. 自动化学报, 2021, 47(10): 2427-2437 doi: 10.16383/j.aas.c190411Dai W, Li D P, Yang C Y, Ma X P. A model and data hybrid parallel learning method for stochastic configuration networks. Acta Automatica Sinica, 2021, 47(10): 2427-2437 doi: 10.16383/j.aas.c190411 [42] Gong X R, Zhang T, Chen C L P, Liu Z L. Research review for broad learning system: Algorithms, theory, and applications. IEEE Transactions on Cybernetics, 2022, 52(9): 8922−8950 [43] Abraham W C, Bear M F. Metaplasticity: the plasticity of synaptic plasticity. Trends in Neurosciences, 1996, 19(4): 126-130 doi: 10.1016/S0166-2236(96)80018-X [44] 王韶莉, 陆巍. 再可塑性在学习记忆中作用的研究进展. 生理学报, 2016, 68(4): 475-482 doi: 10.13294/j.aps.2016.0032Wang S L, Lu W. Progress on metaplasticity and its role in learning and memory. Acta Physiologica Sinica, 2016, 68(4): 475-482 doi: 10.13294/j.aps.2016.0032 [45] Jedlicka P, Tomko M, Robins A, Abraham W C. Contributions by metaplasticity to solving the catastrophic forgetting problem. Trends in Neurosciences, 2022, 45(9): 656-666 doi: 10.1016/j.tins.2022.06.002 [46] Sussmann H J. Uniqueness of the weights for minimal feedforward nets with a given input-output map. Neural Networks, 1992, 5(4): 589-593 doi: 10.1016/S0893-6080(05)80037-1 [47] Lancaster P, Tismenetsky M. The Theory of Matrices: With Applications. Elsevier, 1985. [48] Kay S M. Fundamentals of statistical signal processing: Estimation theory. Traces and Emergence of Nonlinear Programming. Prentice-Hall, Inc, 1993. [49] Kuhn H W, Tucker A W. Nonlinear programming. Traces and Emergence of Nonlinear Programming. Springer, 2014. [50] Pan P, Swaroop S, Immer A, Eschenhagen R, Turner R, Khan M, et al. Continual deep learning by functional regularisation of memorable past. In: Proceedings of the 34th Conference on Neural Information Processing Systems (NeurIPS). Vancouver, Canada: 2020. 4453−4464 [51] Verma V K, Liang K J, Mehta N, Rai P, Carin L. Efficient feature transformations for discriminative and generative continual learning. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, USA: IEEE, 2021. 13865−13875 期刊类型引用(0)
其他类型引用(3)
-