2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

类别增量学习研究进展和性能评价

朱飞 张煦尧 刘成林

朱飞, 张煦尧, 刘成林. 类别增量学习研究进展和性能评价. 自动化学报, 2023, 49(3): 635−660 doi: 10.16383/j.aas.c220588
引用本文: 朱飞, 张煦尧, 刘成林. 类别增量学习研究进展和性能评价. 自动化学报, 2023, 49(3): 635−660 doi: 10.16383/j.aas.c220588
Zhu Fei, Zhang Xu-Yao, Liu Cheng-Lin. Class incremental learning: A review and performance evaluation. Acta Automatica Sinica, 2023, 49(3): 635−660 doi: 10.16383/j.aas.c220588
Citation: Zhu Fei, Zhang Xu-Yao, Liu Cheng-Lin. Class incremental learning: A review and performance evaluation. Acta Automatica Sinica, 2023, 49(3): 635−660 doi: 10.16383/j.aas.c220588

类别增量学习研究进展和性能评价

doi: 10.16383/j.aas.c220588
基金项目: 创新2030“新一代人工智能重大项目” (2018AAA0100400), 国家自然科学基金 (61836014, 62222609, 62076236, 61721004), 中国科学院前沿科学重点研究项目 (ZDBS-LY-7004), 中国科学院青年创新促进会项目 (2019141)资助
详细信息
    作者简介:

    朱飞:中国科学院自动化研究所博士研究生. 2018年获得清华大学学士学位. 主要研究方向为模式识别和机器学习. E-mail: zhufei2018@ia.ac.cn

    张煦尧:中国科学院自动化研究所副研究员. 2008年获得武汉大学学士学位, 2013年获中国科学院大学博士学位. 主要研究方向为模式识别, 机器学习和文字识别. E-mail: xyz@nlpr.ia.ac.cn

    刘成林:中国科学院自动化研究所研究员. 主要研究方向为图像处理, 模式识别, 机器学习, 文档分析, 文字识别. 本文通信作者. E-mail: liucl@nlpr.ia.ac.cn

Class Incremental Learning: A Review and Performance Evaluation

Funds: Supported by the National Key Research and Development Program (2018AAA0100400), National Natural Science Foundation of China (61836014, 62222609, 62076236, 61721004), Key Research Program of Frontier Sciences of Chinese Academy of Sciences (ZDBS-LY-7004), and Youth Innovation Promotion Association of Chinese Academy of Sciences (2019141)
More Information
    Author Bio:

    ZHU Fei Ph.D. candidate at the Institute of Automation, Chinese Academy of Sciences. He received his bachelor degree from Tsinghua in 2018. His research interest covers pattern recognition and machine learning

    ZHANG Xu-Yao Associate professor at the Institute of Automation, Chinese Academy of Sciences. He received his bachelor degree from Wuhan University in 2008 and Ph.D. degree from the University of Chinese Academy of Sciences in 2013. His research interest covers pattern recognition, machine learning, and handwriting recognition

    LIU Cheng-Lin Professor at the Institute of Automation, Chinese Academy of Sciences. His research interest covers image processing, pattern recognition, machine learning, and especially the applications to document analysis and recognition. Corresponding author of this paper

  • 摘要: 机器学习技术成功地应用于计算机视觉、自然语言处理和语音识别等众多领域. 然而, 现有的大多数机器学习模型在部署后类别和参数是固定的, 只能泛化到训练集中出现的类别, 无法增量式地学习新类别. 在实际应用中, 新的类别或任务会源源不断地出现, 这要求模型能够像人类一样在较好地保持已有类别知识的基础上持续地学习新类别知识. 近年来新兴的类别增量学习研究方向, 旨在使得模型能够在开放、动态的环境中持续学习新类别的同时保持对旧类别的判别能力(防止“灾难性遗忘”). 本文对类别增量学习(Class-incremental learning, CIL)方法进行了详细综述. 根据克服遗忘的技术思路, 将现有方法分为基于参数正则化、基于知识蒸馏、基于数据回放、基于特征回放和基于网络结构的五类方法, 对每类方法的优缺点进行了总结. 此外, 本文在常用数据集上对代表性方法进行了实验评估, 并通过实验结果对现有算法的性能进行了比较分析. 最后, 对类别增量学习的研究趋势进行展望.
  • 近年来, 机器学习技术快速发展, 在图像[1]、视频[2]、语音[3]等领域有着广泛的应用. 特别地, 在围棋[4]、游戏[5]、目标识别[6]等单个任务上的表现已经超越了人类的水平. 但是, 这种优越性能往往是基于封闭世界假设[7-8], 即模型在测试阶段只会见到已知类别, 且假设了训练和测试数据独立同分布. 这种预定义和固定类别数量的假设在当前的机器学习系统中很常见, 主要有以下两个原因. 首先, 这将使数据收集和标注过程更容易执行和控制. 其次, 这是大多数分类模型的要求. 例如, 深度神经网络的最后一层通常被视为类别节点, 需要固定它们的数量以使模型能够正常训练. 然而, 真实世界的环境是复杂、开放和动态变化的[9-10]. 封闭世界假设, 即训练和测试数据来自相同且固定的类别, 在实际应用中通常是不合理的. 事实上, 新的类别会不断出现, 模型需要不断更新以获得对新类别的判别能力.

    图1展示了真实开放环境中机器学习系统的工作流程, 主要包括三个关键步骤. 第一步是未知拒识, 这要求系统能够准确识别来自已知类别的样本, 同时还能够基于不确定性估计检测未知样本[11]. 第二步是在缓冲区中标记收集到的未知类别样本(即新类发现), 这一过程可以由人工或自动系统完成[12]. 最后, 当新发现的类别有较多数据时, 模型必须通过扩展多类分类器来增量式地学习新的类别[13]. 对未知类别拒识和新类发现感兴趣的读者可以参考文献[12, 14]了解前沿进展. 本文主要关注上述流程中的最后一步, 即类别增量学习(Class-incremental learning, CIL). 通过类别增量学习, 机器学习系统能够扩展并适应动态和开放的环境. 换句话说, 部署后的机器学习系统依然可以在开放环境中持续和交互地学习. 实际应用中有许多这样的需求: 一个智能物流配送系统需要随着物品的流行期, 不断地识别新出现的产品品种[15]; 再比如, 人机对话系统也应该具有在部署后持续学习的能力[16], 即在与用户的对话过程中不断地、交互式地学习新知识, 随着时间的推移提高自身性能.

    图 1  真实开放环境中机器学习系统的工作流程
    Fig. 1  Illustrations of the life cycle of a machine learning system in the open-world applications

    面对开放和动态的实际环境, 基于封闭世界假设的静态学习范式遇到严峻的挑战. 具体地, 在静态的学习范式下, 模型只能泛化到已知类别. 面对来自新类别或其他分布差异较大的测试样本, 模型的泛化能力会严重退化[17]. 如果使用新类别的数据更新模型, 又会导致对旧类别判别能力的灾难性遗忘[18-19]. 这些问题严重制约了机器学习模型在实际中的应用潜力. 相比之下, 人类具有很好的增量学习能力. 例如, 一个学会汉语的人在学习外语之后, 仍然具备汉语能力. 虽然人类在持续学习的过程中也会缓慢遗忘一些已有知识, 但是不会出现如当前机器学习模型一样的灾难性遗忘现象.

    增量学习旨在使得模型能够不断更新来学习新类别或任务, 同时又能较好地保持在已学习类别或任务上的性能. 早期的增量学习主要是数据增量学习, 也叫作在线学习[20]. 在这种设定中, 训练数据动态增加, 但是类别集保持不变. 例如, 一些研究工作关注如何使支持向量机[21]或决策树[22]从动态数据流中学习. 文献[20]详细地综述了在线学习方面的相关进展. 与上述数据增量学习不同, 文献[23]关注类别集动态增加的增量学习, 提出了基于最近类别均值分类器来快速学习新类别. Ristin等[24]提出了一种可扩展的随机森林算法, 使得模型能够不断地学习新出现的类别.

    近年来, 基于深度学习的增量学习得到了广泛关注. 在场景设定方面, 目前的增量学习主要有两大类, 即任务增量学习[25-28]和类别增量学习[13, 29-31], 如图2所示. 在任务增量学习场景中, 不同的任务共享相同的特征提取器. 每学习一个任务, 模型需要增加一个输出分类层. 由于不同任务的分类层之间互不影响, 因此任务增量学习场景中遗忘现象主要发生在特征提取器部分. 在测试阶段, 模型需要在事先已知当前测试样本所属的任务编号的基础上, 在该任务所对应的分类层内部进行分类. 与任务增量学习不同, 类别增量学习场景中所有类别共享一个分类层, 该分类层会随着学习类别的增加而增加类别节点. 在测试阶段, 不需要预先指定测试样本所属类别就可以对所有已知类别进行分类. 在类别增量学习中, 不同类别之间会相互影响. 因此, 特征提取器和分类层都存在遗忘现象. 相比任务增量学习, 类别增量学习更接近实际应用场景, 但也更有挑战性. 表1对不同的增量学习设定进行了总结和比较.

    表 1  不同增量学习设定对比
    Table 1  Comparison of incremental learning settings
    设定说明
    数据增量类别集不变, 数据以在线的形式到来, 即传统的在线学习
    任务增量类别集变化, 推理阶段在各自任务内部分类
    类别增量类别集变化, 推理阶段在所有已学习类别上分类
    下载: 导出CSV 
    | 显示表格
    图 2  任务和类别增量学习示意图(本文关注类别增量学习)
    Fig. 2  Illustrations of task and class incremental learning (We focus on class incremental learning)

    随着对增量学习研究的深入, 众多研究成果不断涌现, 近年也有一些综述性工作出现. 例如, 文献[10]从生物学的角度综述了大脑在动态环境中持续学习的机理, 以及一些早期的受生物学启发的持续学习方法. 文献[32]对任务增量学习方法进行了系统地综述和详细地实验评估. 本文与文献[32]的区别主要体现在两个方面: 在任务层面, 文献[32]关注任务增量学习, 而本文关注类别增量学习. 在方法层面, 文献[32]中每类方法包含的具体技术大多为任务增量学习设计(这些方法在类别增量学习任务上往往表现差), 与本文综述的类别增量学习方法不同. 文献[33]综述了一些类别增量学习方法. 相比之下, 本文对已有方法进行了更加细致和全面的总结. 例如, 本文加入了近期发展起来的两类重要方法, 即特征回放类方法和网络结构类方法. 这两类方法是当下广为关注和具有较大研究潜力的方向. 此外, 文献[33]只评估了保存样本的方法, 而本文细致地评估了非保存样本的方法如基于特征回放类的方法, 并从多个角度与保存样本类方法进行了对比. 文献[34]总结和评估了一些方法在在线持续学习场景下的表现. 文献[35]介绍了一些典型的持续学习模型, 主要包含了早期的一些任务增量学习方法. 文献[36]从类脑持续学习机制的角度, 综述了基于脑启发的持续学习方法. 总之, 上述综述文章大多注重任务增量学习方法, 较少涉及类别增量学习, 且没有包含最新的研究进展. 此外, 当前的综述文章中缺少对类别增量学习的性能比较. 因此, 本文主要关注类别增量学习, 对已有的类别增量学习方法在图像分类任务上进行了详细的综述, 对代表性方法进行了细致的实验评估. 最后展望了类别增量学习的未来研究趋势.

    本文整体结构如下: 第1节介绍类别增量学习的定义、评价指标和序列任务划分方式. 第2节根据不同的技术思路, 将现有类别增量方法分为基于参数正则化、基于知识蒸馏(Knowledee distillation, KD)、基于数据回放、基于特征回放和基于网络结构的五类方法, 并对每类方法的优缺点进行了总结. 第3节介绍了类别增量学习的公用数据集, 对代表性方法进行了系统的实验评估, 并通过实验结果对现有算法的性能进行了比较. 第4节展望了类别增量学习未来研究方向. 最后, 第5节对全文进行了总结.

    类别增量学习是指依次学习一系列包含不同类别集的任务, 且在每个阶段, 模型都要能够对已见的所有类别进行分类. 形式上, 在增量阶段$ t $, 给定训练集$ {\cal{D}}^{t} = \{{\boldsymbol{x}}_{i}^{t}, y_{i}^{t}\}^{n_{t}}_{i = 1} $, 其中$ {\boldsymbol{x}} $是输入空间$ {\cal{X}} $中的样本, $ y \in {\cal{C}}_{t} $是其对应的标签, $ {\cal{C}}_{t} $是任务$ t $的类别集合. 特别地, 不同任务的类别集合是不相交的, 即如果$ i \neq j $, 则${\cal{C}}_{i} \cap {\cal{C}}_{j} = \emptyset$. 为了便于分析, 我们将基于深度神经网络(Deep neural network, DNN)的模型表示为特征提取器和分类器的组合. 具体地, 特征提取器$ f_{{{\theta}}}: {\cal{X}} \rightarrow {\cal{Z}} $将输入$ {\boldsymbol{x}} $映射为特征空间$ {\cal{Z}} $中的一个特征向量${\boldsymbol{z}} = f_{{{\theta}}}({\boldsymbol{x}}) \in {\bf{R}}^{d}$; 分类器$g_{{\varphi}}: {\cal{Z}} \rightarrow {\bf{R}}^{|{\cal{C}}_{1:t}|}$输出概率分布$ g_{{\varphi}}({\boldsymbol{z}}) $作为$ {\boldsymbol{x}} $的预测. 在增量步骤$ t $, 类别增量学习的目标是最小化新数据集$ {\cal{D}}_{t} $上的预定义损失函数$ \ell $ (如交叉熵损失), 同时较好地保持对先前学过的类别的判别能力.

    类别增量学习工作中一般通过绘制增量准确率曲线(Incremental accuracy curve)和遗忘率曲线(Incremental forgetting curve)来反映方法的性能. 具体地, 在第$ t $个增量阶段, 增量准确率指的是当前的模型在所有已见类别上的分类准确率$ A_t $. 不同阶段的增量准确率常常以增量准确率曲线展示. 遗忘率[27]是用来估计模型对旧类别或任务的遗忘程度. 具体地, 模型在学完第$ k $个任务后, 对第$ i $个任务的遗忘定义为$f_{k}^{i} = \max\nolimits_{t \in {1,\cdots,k-1}} (a_{t,i}-a_{k,i}),\forall i < k.$其中, $ a_{m,n} $指的是模型在学习完第$ m $个任务之后在第$ n $个任务上的分类准确率. 基于上述定义, 第$ t $个增量阶段的遗忘率可以通过如下计算得到$F_{t} = ({1}/{(t-1)})\sum\nolimits_{i = 1}^{t-1}f_{t}^{i}.$此外, 为了更加直接地比较不同方法的性能, 平均增量准确率定义为各个增量学习阶段的增量准确率的平均值, 即$\bar A = ({1}/{T})\sum\nolimits_{i=1}^{T}A_i$. 其中$ T $为增量学习阶段总数. 相应的, 平均增量遗忘率定义为各个增量学习阶段的遗忘率的平均值, 即$\bar F = ({1}/{T})\sum\nolimits_{i=1}^{T}F_i$. 一个好的增量学习模型应该同时具有较高的平均增量准确率和较低的平均增量遗忘率. 表2汇总了上述评价指标.

    表 2  类别增量学习评价指标
    Table 2  Evaluation metrics of class incremental learning
    增量准确率在所有已见类别上的分类准确率$A_t$
    增量遗忘率$F_{t}=\displaystyle\frac{1}{t-1}\sum_{i=1}^{t-1}f_{t}^{i}$
    平均增量准确率$\bar A = \displaystyle\frac{1}{T}\sum_{i=1}^{T}A_i$
    平均增量遗忘率$\bar F= \displaystyle\frac{1}{T}\sum_{i=1}^{T}F_i$
    下载: 导出CSV 
    | 显示表格

    在类别增量学习实验中, 如何对数据集进行划分是一个重要问题. 已有的工作主要包含如下两种划分方式. 具体地, 对于一个包含$ M $个类别的数据集, 第一种划分方式将所有类别划分为$ T $个任务, 供模型依次学习. 每个任务包含相同类别个数($ M/T $, 一般假设$ M $可以被$ T $整除)的不同类别. 例如, 可以将CIFAR-100[37]划分为10个任务, 其中每个任务包含10个类别. 与上述划分方式不同, 考虑到实际应用中, 一般初始的任务有较多的类别, 第二种划分方式将一半数目的类别作为初始任务. 然后, 将另一半数目的类别等分为$ T $个任务, 其中每个任务包含类别个数为$ M/(2T) $. 可见, 这种设定一共包含$ T+1 $个任务. 以CIFAR-100为例, 初始任务包含50个类别, 其他50个类别可以划分为10个任务, 每个任务包含5个类别. 一般来说, 针对同一个数据集, 划分的任务数目$ T $越多, 模型在增量学习过程中遗忘越严重. 因此, 往往通过设置不同的任务数目, 来验证模型在不同情况下的增量学习性能. 此外, 为了实验的可重复性和可对比性, 一般在划分数据集之前会使用随机种子打乱类别顺序. 不同方法对比时应使用固定的随机种子所产生的相同类别划分顺序.

    面对动态、开放环境的实际应用, 计算机视觉、自然语言处理等智能系统都需要具备类别增量学习的能力. 计算机视觉领域早期的工作主要研究面向图像分类任务的类别增量学习[29-31]. 近来, 越来越多的工作面向物体检测[38-39]和语义分割任务[40-41]中的类别增量学习问题. 图像分类和检测技术的具体应用包括视频监控场景中的行人、车辆、行为识别, 自动驾驶感知中的行人、车辆、标识、障碍物识别, 生物学研究中的动植物分类等. 在图像分类问题中, 一张图像往往只包含一种物体类别, 但初次训练分类器时很难收集全所有可能类别的训练样本, 在应用过程中遇到新类别时需要进行类别增量学习. 对于物体检测和语义分割任务而言, 输入图像中往往包含多个物体, 因此会遇到这种情况: 一些类别在初始阶段有标记, 另外一些类别被当作背景类; 在增量学习过程中, 背景类中的一些新类别逐渐被标记和学习. 由此可见, 在增量物体检测和分割任务中, 新的类别往往出现在以往的训练数据当中, 只是由于没有标记而被当作背景类. 这就要求增量物体检测和语义分割模型利用好当前阶段的背景信息, 挖掘有利于后续类别增量学习的特征表示. 此外, 在一些自然语言处理任务, 如文本分类、命名实体识别[42]、事件检测[43]等任务当中均有类别增量学习的需求, 这种情况下则需要结合自然语言处理的领域知识设计相应的类别增量学习算法.

    根据不同的技术思路, 如图3所示, 本文将现有的类别增量学习方法分为: 基于参数正则化、基于知识蒸馏、基于数据回放、基于特征回放和基于网络结构的五类方法. 每类方法可进一步细分, 例如, 基于知识蒸馏的方法可分为重要特征蒸馏、样本关系蒸馏和辅助数据蒸馏. 基于数据回放的方法可分为真实数据回放、新旧偏差校准和生成数据回放三个研究方面. 特别地, 上述分类并非完全独立, 如大部分数据回放方法中都使用了知识蒸馏技术. 本节将对以上类别增量学习方法进行详细介绍和总结.

    图 3  类别增量学习方法分类图
    Fig. 3  The classification of class incremental learning methods

    为了减少对已有知识的遗忘, 参数正则化方法通过对重要的参数施加约束, 防止其在模型增量学习过程中发生明显的变化. 参数正则化方法又可分为基于参数重要性估计和基于子空间投影的方法.

    2.1.1   参数重要性估计

    基于重要性估计的参数正则化方法在学习新任务的同时显式地约束了模型参数的更新. 具体地, 对于任一模型参数$ {{\theta}}_{i} $, 在学习目标中加入了如下形式的正则化项

    $$ \ell_{reg, t} = \Omega_{i}({{\theta}}_{i}^{t}-{{\theta}}_{i}^{t-1})^2 $$ (1)

    其中, $ \Omega_{i} $为估计的参数重要性. 这类方法的难点在于如何准确地估计不同参数对旧任务的重要程度. 基于上述思想, 弹性权值巩固(Elastic weight consolidation, EWC)[25]首次提出通过约束重要参数来减少灾难性遗忘. 具体地, 该方法使用Frisher信息矩阵来计算重要性. SI (Synaptic intelligence)[27]方法在模型训练阶段以在线的方式计算每个参数的重要性. 具体地, 在训练过程中计算和累积损失函数对每个参数变化的敏感程度, 作为参数重要性估计. MAS (Memory aware synapses)[28]方法使用无标记样本, 估计神经网络这一非线性映射函数对参数变化的敏感性, 作为参数重要性估计. 尽管上述方法在一些任务增量学习中取得了不错的效果. 然而, 实际应用中很难设计一个合理的度量来估计神经网络中每个参数的重要性. 特别地, 一些研究工作[44-45]表明, 上述基于参数重要性估计的正则化增量学习方法在类别增量学习设定下通常表现很差.

    2.1.2   子空间投影

    另一类方法从子空间的角度避免对先前学习的任务的干扰. 基于这一思想, OWM (Orthogonal weight modification)[46]、OGD (Orthogonal gradient descent)[47]和NSCL (Null space continual learning)[48]方法在学习新任务时约束梯度的更新方向, 将来自新任务的梯度投影到一个子空间中. 在该子空间中, 前一个任务的神经网络输出不会改变, 且投影的梯度仍然是学习新任务的有用方向. 以OWM方法为例, 如图4左图所示, 在学习新任务时, 通过标准反向传播 (Backpropagation, BP)计算的原始权重$\Delta {\boldsymbol{W}}^{\text{BP}}$被投影到旧任务的子空间. 为了保持在旧任务上的性能, 实际更新的权重为$\Delta {\boldsymbol{W}}^{\text{OWM}}$. 直观上, 这种参数更新方式可以使得模型对先前任务的表现不会随着新任务的学习而改变. 如图4右图所示, 模型在学习新任务的同时, 能够保持在旧任务的子空间内更新, 最终学到的参数位于重叠子空间内的某个位置. 相比之下, 随机梯度下降搜索(SGD)会对旧任务造成灾难性遗忘. 上述基于子空间投影的方法假设神经网络的容量足够高, 在约束梯度更新方向之后仍然可以有效地学习新任务. 然而, 这一假设在实践中并不总是成立. 尤其在长序列的增量学习过程中, 随着学习任务的增加, 在子空间的约束下可以更新梯度的方向越来越少, 模型难以有效学习新任务.

    图 4  OWM[46]方法原理示意图
    Fig. 4  Schematic diagram of OWM[46]

    与上述方法直接约束模型参数不同, 基于知识蒸馏的方法在学习新任务的同时, 保持新旧模型对给定数据的输出一致性. 其中旧模型为学习完上一任务的模型, 保持固定不变. 主(新)模型继承了旧模型的参数, 可以在新任务上更新. 形式上, 基于知识蒸馏的方法引入以下知识蒸馏损失

    $$ \ell_{kd, t} = -\sum\limits_{i = 1}^{|{\cal{C}}_{\text{old}}|} p_{i}^{t-1}({\boldsymbol{x}}) \text{log}\; p_{i}^{t}({\boldsymbol{x}}) $$ (2)

    其中$ |{\cal{C}}_{\text{old}}| = |{\cal{C}}_{1:t-1}| $代表已学习的旧类别个数, $p_{i}^{t-1}({\boldsymbol{x}})$$p_{i}^{t}({\boldsymbol{x}})$分别代表输入样本在旧模型和当前主模型上的输出分布. 在学习新类别的同时, 模型通过优化$ \ell_{kd, t} $, 可以最小化当前主模型和旧模型的输出分布之间差异. 直观上, 上述基于知识蒸馏的方法是通过保持模型的“输入−输出”不变性, 从而减少对旧类别知识的遗忘. 值得注意的是, 知识蒸馏[49]最初是为模型压缩而设计的. 随着LwF (Learning without forgetting)[26]方法首次将其应用于增量学习, 知识蒸馏损失已成为了众多增量学习方法[13, 29-31]的基础模块. 如图5所示, 后续的工作主要从重要特征蒸馏, 样本关系蒸馏和辅助数据蒸馏等方面改进类别增量学习中的知识蒸馏策略.

    图 5  类别增量学习中的知识蒸馏策略
    Fig. 5  Knowledge distillation strategies in class incremental learning
    2.2.1   重要特征蒸馏

    在LwF中, 知识蒸馏损失采用了文献[49]中的形式, 即最小化新旧模型输出的概率分布之间的KL散度. 一些研究工作认为仅仅约束最终的概率分布无法有效保持已有知识, 应该直接约束深度特征空间中的重要特征. 例如, 为了评估特征的重要性, Rannen等[50]引入重构损失, 使用自动编码器将特征投影到低维子空间. 然后, 通过约束低维子空间中特征的变化, 来达到重要特征蒸馏的目的. 约束子空间中重要特征的变化不仅保留了旧类别的关键信息, 而且为学习新类提供了更多空间. 与上述想法类似, LwM (Learning without memorizing)[51]使用注意力技术[52]来选择重要特征. 具体地, 为了在学习新类时保留旧类的重要信息, 注意力损失用来惩罚分类器注意力图的变化

    $$ \ell_{kd\text{-}{\rm{attention}}, t} = -\sum\limits_{j = 1}^{l} ||\bar{Q}_{t-1,j}^{c} - \bar{Q}_{t,j}^{c}||_{\text{1}} $$ (3)

    其中$ c $为给定输入$ {\boldsymbol{x}} $时, 当前模型在旧类别上输出的最大概率所对应的类别. $ Q_{t-1,j}^{c} $$ Q_{t,j}^{c} $分别指使用旧模型和当前模型针对输入$ {\boldsymbol{x}} $生成的向量化注意力图 (Attention map). $ \bar{Q}_{t-1,j}^{c} $$ \bar{Q}_{t,j}^{c} $分别为归一化的注意力图, $ l $代表向量化注意力图的长度. 如图6所示, 即使在输入样本上的注意力图发生了明显的漂移, 模型的输出分布仍然可能变化很小, 导致基于输出概率分布的蒸馏损失很小. 式(3)中的注意力损失能够有效地捕捉到注意力图的漂移, 有助于模型保持对旧类别的知识. 类似地, 如图7所示, UCIR[30]方法直接惩罚输入样本在新旧特征空间中的特征分布变化

    图 6  LwM[51]中的注意力损失能够有效减少模型遗忘
    Fig. 6  Attention distillation loss in LwM[51] alleviates attention regions forgetting
    图 7  特征蒸馏减少特征分布漂移
    Fig. 7  Feature distillation loss alleviates feature distribution deviation
    $$ \ell_{kd\text{-}\text{ucir}, t} = 1 - \langle\bar{f}_{{{\theta}}_t}({\boldsymbol{x}}), \bar{f}_{{{\theta}}_{t-1}}({\boldsymbol{x}})\rangle $$ (4)

    其中$ \bar{f}_{{{\theta}}_t}({\boldsymbol{x}}) $$ \bar{f}_{{{\theta}}_{t-1}}({\boldsymbol{x}}) $分别表示由新旧模型提取的模长归一化的特征表示. $ \langle \cdot , \cdot \rangle $代表内积操作.

    为了进一步保持旧类别知识, Douillard等[53]认为应该对模型的中间层特征表示$ {\boldsymbol{h}}_{l,c,w,h}^{t} $ ($ c $代表通道数目, $ w \times h $为空间坐标)进行约束, 如图 5(a)所示. 为此, 他们提出了PODnet方法, 其中包含如下的空间知识蒸馏损失

    $$ \ell_{kd\text{-}\text{spatial}, t} = \ell_{kd\text{-}\text{width}, t} + \ell_{kd\text{-}\text{height}, t} $$ (5)

    其中宽度方向和高度方向的蒸馏损失为

    $$ \begin{split} \ell_{kd\text{-}\text{width}, t} & = \sum\limits_{c = 1}^{C} \sum\limits_{h = 1}^{H} \bigg\Vert \sum\limits_{w = 1}^{W} {\boldsymbol{h}}_{l,c,w,h}^{t-1} - \sum\limits_{w = 1}^{W} {\boldsymbol{h}}_{l,c,w,h}^{t}\bigg\Vert^2 \\ \ell_{kd\text{-}\text{height}, t} & = \sum\limits_{c = 1}^{C} \sum\limits_{w = 1}^{W} \bigg\Vert \sum\limits_{h = 1}^{H} {\boldsymbol{h}}_{l,c,w,h}^{t-1} - \sum\limits_{h = 1}^{H} {\boldsymbol{h}}_{l,c,w,h}^{t}\bigg\Vert^2 \end{split} $$ (6)

    图8显示了PODnet方法框架图. 该方法的学习目标包括三部分损失: 多类别分类损失、最终特征表示的蒸馏损失和中间特征的空间蒸馏损失. 实验结果显示, 相比原始的基于输入分布的知识蒸馏损失, 上述空间特征蒸馏损失能够明显减少模型对旧类别知识的遗忘, 提高类别增量学习性能.

    图 8  PODnet[53]方法示意图
    Fig. 8  Illustration of PODnet[53]
    2.2.2   样本关系蒸馏

    2.2.1节中的方法如LwM[51]、UCIR[30]、PODnet[53]等通过惩罚输入样本在新旧特征空间的特征变化来保持关于旧类别的知识, 减少增量学习过程中的遗忘. 直观上, 不同样本之间的结构关系也是一种知识, 在新旧模型之间传递或者保持样本之间的关系有助于保留已有的知识. 事实上, 在知识蒸馏领域有许多工作研究了样本关系蒸馏[54]. 近期, 样本关系蒸馏的思想也被应用到类别增量学习当中. 具体地, 在学习新类别的同时, 约束样本在新旧特征空间的关系知识(如特征表示相似度)变化. 图9显示增量学习中样本关系知识蒸馏的不同策略, 主要包括样本相似度蒸馏、邻域重构关系蒸馏和连续子空间特征蒸馏.

    图 9  增量学习中样本关系知识蒸馏的不同策略
    Fig. 9  Illustration of relation knowledge distillation strategies in class incremental learning

    Tao等[55]提出的TPCIL (Topology-preserving class incremental learning)方法构建了特征空间中某些顶点的邻域关系, 在增量学习过程中较好地保持了特征空间的拓扑结构. 具体地, 基于Hebbian规则构建一组顶点 (顶点定义为邻域内的质心向量). 然后计算任意两个顶点$ {\boldsymbol{v}}_i $$ {\boldsymbol{v}}_j $之间的内积相似度$ s_{i,j} = {\boldsymbol{v}}_i^{\text{T}} {\boldsymbol{v}}_j $. 最后, 通过优化Pearson相关度来惩罚邻域关系的变化

    $$ {\cal{L}}_{kd\text{-}\text{tpcil}, t} = - \frac{{\rm{E}}[({\boldsymbol{S}}^t - \mu_{{\boldsymbol{S}}^t})({\boldsymbol{S}}^{t-1} - \mu_{{\boldsymbol{S}}^{t-1}})]}{\sigma_{{\boldsymbol{S}}^t}\sigma_{{\boldsymbol{S}}^{t-1}}} $$ (7)

    其中${\boldsymbol{S}}$代表顶点相似度矩阵. MBP (Model behavior preserving)[56]方法使用了类似的约束邻域关系的想法. 与直接惩罚相似度变化的TPCIL不同, MBP惩罚相似度排序的变化

    $$ {\cal{L}}_{kd\text{-}\text{rank}, t} = \sum\limits_i \sum\limits_j |R({\boldsymbol{S}}^t)_{i,j} - R({\boldsymbol{S}}^{t-1})_{i,j}| $$ (8)

    其中$ R(\cdot) $是一个预定义的排序函数. Cha等[57]提出在训练过程中对每个批次中的样本相似性进行归一化, 在此基础上进行基于交叉熵损失的关系蒸馏

    $$ {\cal{L}}_{kd\text{-}\text{Co2L}, t} = \sum\limits_i -{\boldsymbol{sp}}^t \cdot \text{log}\; {\boldsymbol{sp}}^{t-1} $$ (9)

    其中$sp_{i,j} = {\text{exp}({\boldsymbol{S}}_{i,j}/\kappa)}/{\sum\nolimits_{k \neq i} \text{exp}({\boldsymbol{S}}_{i,k}/\kappa)}$为相似度概率分布, $ \kappa $为温度系数.

    上述三种方法在构建样本间关系的基础上, 在增量学习过程中显式地惩罚样本相似关系的变化. Hu等提出DDE (Distillation of data effect)[58]方法基于邻域样本重构隐式地惩罚邻域关系的变化. 具体地, 在新的特征空间, DDE强制输入样本$ {\boldsymbol{x}}_i $能够被其在旧的特征空间中的邻域样本重构. 形式上, 样本$ {\boldsymbol{x}}_i $的输出概率定义为

    $$ p({\boldsymbol{x}}_i|{{\theta}}_t) = \sum\limits_{k=1}^{K} {\boldsymbol{S}}^{t-1}_{i,k}p({\boldsymbol{x}}_k|{{\theta}}_{t}) $$ (10)

    其中$ K $为样本$ {\boldsymbol{x}}_i $在旧的特征空间里的邻域样本个数, ${\boldsymbol{S}}^{t-1}_{i,k}$是样本$ {\boldsymbol{x}}_i $$ {\boldsymbol{x}}_k $在旧的特征空间的相似度或者距离. 然后, 使用如下交叉熵损失进行邻域重构关系的知识蒸馏

    $$ \ell_{kd\text{-}\text{DDE}, t} = \sum\limits_i -\text{log}\; p({\boldsymbol{x}}_i|{{\theta}}_t) $$ (11)

    这种邻域关系保持策略与流形学习中著名的局部线性嵌入方法[59]具有相似的想法. GeoDL[60]方法首次考虑了增量学习过程中特征空间的低维流形变化. 具体来说, GeoDL使用了基于子空间投影的测地线流[61]建模了两个不同的特征空间在模型训练过程中的逐步差异. 形式上, GeoDL最小化如下的知识蒸馏损失

    $$ \small \ell_{kd\text{-}\text{geodesic}, t} = 1 - \frac{f^{\rm{T}}_{{{\theta}}_t}({\boldsymbol{x}}) {\boldsymbol{Q}} f_{{{\theta}}_{t-1}}({\boldsymbol{x}})}{\Vert {\boldsymbol{Q}}^{\frac{1}{2}} f_{{{\theta}}_t}({\boldsymbol{x}})\Vert \Vert {\boldsymbol{Q}}^{\frac{1}{2}} f_{{{\theta}}_{t-1}}({\boldsymbol{x}}) \Vert} $$ (12)

    其中${\boldsymbol{Q}}$为具有闭式解的投影矩阵[61], $f^{\rm{T}}_{{{\theta}}_t}({\boldsymbol{x}}) {\boldsymbol{Q}} f_{{{\theta}}_{t-1}}({\boldsymbol{x}})$表示中间的子空间上特征向量之间的内积. 从几何特性来看, $\ell_{kd\text{-}\text{geodesic}, t}$可以看作是考虑测地线的余弦相似度的一般形式: 它鼓励旧模型和当前模型输出的特征在连续变化的子空间上保存相似.

    2.2.3   辅助数据蒸馏

    类别增量学习假设在学习新类别时, 模型不可以获取旧类别数据. 一些基于数据回放的方法[29-31]保存了一小部分旧类别数据. 总体上, 用于知识蒸馏的数据绝大部分属于新类别. 这将导致模型很容易偏向新类, 无法很好地保存旧类别知识. 为了减缓这一偏差, DMC[62]和GD[63]方法中利用大量无标记样本 (可能既不属于旧类别也不属于新类别) 作为辅助数据, 用于知识蒸馏. 为了高效利用大量无标记数据, GD[63]中使用了一种基于置信度的采样策略. 不同于使用真实的分布外 (Out-of-distribution) 无标记数据, calibrateCIL[64]方法中采用Cutout技术[65]生成辅助数据用于知识蒸馏, 验证了该策略在减少模型偏差方面的有效性. 表3对上述各种知识蒸馏策略进行了总结和比较.

    表 3  类别增量学习中的知识蒸馏方法总结
    Table 3  Summarization of knowledege distillation strategies in class incremental learning
    算法知识蒸馏损失知识蒸馏策略
    LwF, iCaRL, BiC式(2)惩罚输出概率分布变化
    EBIL, LwM式(3)惩罚重要特征变化
    UCIR式(4)惩罚最终特征变化
    PODnet式(5), 式(6)惩罚中间和最终特征变化
    TPCIL, MBP,
    Co2L
    式(7), 式(8),
    式(9)
    惩罚样本相似性关系变化
    DDE式(10), 式(11)惩罚邻域重构关系变化
    GeoDL式(12)惩罚连续子空间中特征变化
    DMC, GD式(2)无标记数据辅助知识蒸馏
    calibrateCIL式(2)合成数据辅助知识蒸馏
    下载: 导出CSV 
    | 显示表格

    在增量学习中, 一个基本的假设是模型在学习新任务时不可以获取旧任务数据. 然而, 一些工作放宽了这一限制, 允许模型保存一小部分旧类别数据$ {\cal{M}}_{t} $, 如图10(a)所示. 这些小部分旧类别数据将与新类别数据一起($ {\cal{M}}_{t} \bigcup {\cal{D}}_{t} $)用于当前模型更新. 直观上, 这将显著减少增量学习过程中的灾难性遗忘现象. 然而, 保存真实的旧类别数据在实际应用中往往受到限制: 一方面, 随着学习任务数目的增加, 保存旧类别数据所需的存储空间将越来越大; 另一方面, 在一些涉及隐私安全的应用领域, 模型不允许保存训练样本. 为了克服以上限制, 一些方法采用生成数据回放的方式. 即使用生成模型来生成旧类别数据, 与新类别数据一起训练模型, 如图10(b)所示. 这类方法的性能往往受限于生成模型的质量, 而且生成模型也存在遗忘现象.

    图 10  基于数据回放的类别增量学习方法主要包括 (a) 真实数据回放; (b) 生成数据回放
    Fig. 10  Data replay based class incremental learning methods include (a) real data replay and; (b) generative data replay
    2.3.1   真实数据回放

    Rebuffi等[29]首次提出了基于数据回放的类别增量学习方法iCaRL (Incremental classifier and representation learning). 该方法在学习完每个任务之后, 对其中的每个类别, 保存少数样本用于后续模型训练. 常见的样本保存策略有两种: 1) 总体保存样本数目固定. 具体地, 假设$ M $为总体可以保存的样本个数, 如果已经学习的类总数为$ |{\cal{C}}| $, 则每个类别的存储样本个数为$ m = M / |{\cal{C}}| $. 这样可以确保$ M $个样本的可用存储预算总是被完全使用. 2) 每个类别保存固定的$ m $个样本. 这种情况下, 随着学习类别数目的逐渐增加, 存储占用也逐渐增加. 当模型需要学习新类别时, 基于数据回放的方法将保存的旧类别样本$ {\cal{M}}_{t} $和新类别训练数据$ {\cal{D}}_{t} $混合来训练模型. 直观上, 由于模型在更新过程中仍然能够见到保存的旧类别数据, 类别增量学习过程中对旧类别的遗忘现象可以得到有效缓解. 鉴于其优越性能, 数据回放已经成为众多类别增量学习方法的基本组成部分. 此外, 在数据回放的基础上, iCaRL[29]也采用知识蒸馏策略来进一步加强对已有知识的保持.

    对于基于真实数据回放的类别增量学习方法, 保留的旧类别数据对于维护旧知识至关重要. 因此, 一个自然的问题是: 保存哪些样本更加有利于维持已有知识? 最简单的方法是从每个类的所有训练样本中随机选取数据, 这一方法也被证明是有效的[66]. 增量学习中样本选择方法可分为启发式样本选择和基于学习的样本生成策略.

    1) 基于启发式的采样策略. 基于启发式的采样策略主要基于两种不同的观点. 第一类选择并存储每个类中最具代表性的样本, 如图11所示. 例如, iCaRL方法[29]使用“Herding”[67]策略选取少数代表性样本. 具体地, 该策略迭代地选取$ m $个样本. 对于每个类别, 在迭代的每一步中, 选取当前训练集中的一个样本添加到保存样本集中, 使保存的样本在特征空间的平均特征向量最接近所有训练样本的平均特征向量. 因此, 保存样本的集合实际上是一个优先列表, 其元素的顺序代表了样本的重要程度 (列表中较早的样本更为重要). 算法1显示了基于“Herding”[67]策略的保存样本集构建具体流程. 这种采样策略在后来的类别增量学习方法中得到了广泛的应用[30-31]. 相反, 另一类工作认为应该保存分类决策边界附近的样本. 例如, Rwalk (Riemannian walk)[68]方法存储softmax输出概率熵值高或到决策边界距离小的样本. MIR (Maximal interfered retrieval)[69]选择损失显著增加的样本, Shim等[70]提出了一个对抗性shapley值来反映每个样本能够维持决策边界的能力. 最近, Wang等[71]提出了基于数据压缩的数据重放, 以降低存储成本并增加保存的样本数量.

    图 11  启发式旧类别采样策略示意图
    Fig. 11  Illustration of heuristic sampling strategies

    算法 1. 基于“Herding”策略的保存样本集构建

    输入. 属于类别$ y $的训练样本集$ X=\{x_1,\cdots,x_n\} $, 每个类别保存样本个数$ m $, 当前的模型特征提取器$f_{{{\theta}}}: {\cal{X}} \rightarrow {\bf{R}}^{d}$.

    输出. 类别$ y $的保存样本集合$ {\cal{M}}^y $.

    1: Initialize: $\mu \leftarrow \frac{1}{n}\sum\limits_{x \in X}f_{{{\theta}}}(x)$

    2: for $k = 1,2,\cdots, m$ do

    3:   $p_k \leftarrow \mathop {{\rm{argmin}}}\limits_{x \in X} || \mu - \frac{1}{k}[f_{{{\theta}}}(x) + \sum\limits_{j=1}^{k-1}f_{{{\theta}}}(p_j)] ||$

    4: end for

    5: ${\cal{M}}^y \leftarrow (p_1, p_2, \cdots, p_m)$

    2) 基于学习的样本生成策略. 与直接存储真实样本不同, Liu等[73]提出学习和优化一组Mnemonics样本作为回放的旧类别数据. 具体地, 该方法通过分类模型以端到端的方式优化参数化的样本. 如图12所示, 可视化结果显示这种策略学习到的样本分布在决策面边界附近, 且不同样本之间可分性较好. 实际上, Mnemonics方法背后的思想与数据集蒸馏(Dataset distillation)或数据集浓缩(Dataset condensation)[74-76]问题密切相关. 该研究问题旨在将大规模数据集提炼或浓缩为一小组信息丰富的合成样本. 特别地, 这一小组信息丰富的合成样本${\cal{S}} = \{({\boldsymbol{s}}_1, y_1),\cdots,({\boldsymbol{s}}_{|{\cal{S}}|}, y_{|{\cal{S}}|})\}$是参数化的, 可以使用标准梯度下降算法进行端到端地学习. 例如, Wang等[74]提出的DD (Dataset distillation) 方法通过最小化以下目标来学习合成数据集$ {\cal{S}} $

    图 12  三种样本保存策略T-SNE[72]可视化效果对比图
    Fig. 12  The T-SNE[72] results of three exemplar methods
    $${\rm{arg}} \mathop {\rm{min}}\limits_{{\cal{S}}, \widetilde{\eta}} {\rm{E}}_{{{\theta}}_0 \backsim p({{\theta}}_0)} {\cal{L}}({\cal{D}}, {{\theta}}_0-\widetilde{\eta}\nabla_{{{\theta}}_0}{\cal{L}}({\cal{S}}, {{\theta}}_0)) $$ (13)

    其中$ {\cal{D}} $代表真实数据集, $ \widetilde{\eta} $为可学习的学习率. 直观上, 式(13)通过强制在合成数据集$ {\cal{S}} $上训练得到的模型在真实数据上也有低的损失值, 来反过来学习和优化合成数据集$ {\cal{S}} $. Zhao等[75-76]提出了如下的梯度匹配算法 (如图13所示) 来学习合成数据集

    图 13  基于梯度匹配算法的数据集提炼方法示意图
    Fig. 13  Illustration of gradient matching algorithm for dataset condensation
    $$ \min\limits_{{\cal{S}}} D(\nabla_{{{\theta}}}{\cal{L}}({\cal{S}}, {{\theta}}_t), \nabla_{{{\theta}}}{\cal{L}}({\cal{D}}, {{\theta}}_t)) $$ (14)

    $ D(\cdot) $是与每一层的每个输出节点相关联的两个权重梯度之间的余弦距离. 上述数据集蒸馏或压缩技术可以自然地用于任何基于数据回放的类别增量学习方法当中: 将每个学习类的训练样本压缩成几个信息丰富的合成样本, 并在后续的增量学习过程中回放这些合成样本.

    2.3.2   新旧偏差校准

    对于真实数据回放的类别增量学习方法, 由于存储空间的限制, 每个旧类别保存的样本通常比新类少得多. 因此, 存在严重的类别不平衡问题. 例如, Zhao等[31]发现旧类别的权重向量范数比新类的要小得多. 为了校准新旧类别之间的偏差, 一些方法[30, 63, 77-78]关注于在训练过程中学习新旧类别平衡的模型, 而另一类方法[29, 31, 79-81]则使用后处理技术来校准模型偏差. 表4汇总了针对类别增量学习中新旧类别不平衡的校准方法.

    表 4  基于数据回放的类别增量学习中的新旧类别偏差校准方法总结
    Table 4  Summarization of bias calibration strategies in data replay based class incremental learning
    算法使用阶段平衡对象偏差校准策略
    E2E训练阶段训练数据两阶段的法, 构建平衡数据集微调模型
    GDumb训练阶段训练数据下采样法, 构建平衡数据集直接从头训练模型
    SS-IL训练阶段分类器解耦新旧类别的softmax操作和知识蒸馏
    RMM训练阶段训练数据平衡训练集, 通过强化学习算法管理新旧类别数据
    UCIR训练阶段分类器特征和分类权重模长归一化, 间隔排序损失
    iCaRL测试阶段分类器原型生成, 使用最近类别均值分类器
    BiC测试阶段分类器概率校准, 使用平衡验证集学习偏差校准变换
    WA测试阶段分类器对齐新旧类的权重向量的平均模长
    IL2M测试阶段分类器概率校准, 调节模型最终输出的概率分布
    下载: 导出CSV 
    | 显示表格

    1) 训练阶段不平衡校准. 训练阶段新旧类别不平衡校准最常用的策略是“均衡微调” (Balanced fine-tuning). Castro等[77]首次提出在每个增量阶段结束时采用均衡微调策略来减缓基于数据回放的类别增量学习中的新旧类别不平衡问题. 具体地, 通过减少新类别的样本数量(即欠采样)来构建一个平衡数据集. 然后使用平衡数据集以较小的学习率对模型进行微调. Prabhu等[82]发现下采样(Under-sampling)策略就能较好地解决新旧类别不平衡问题, 在此基础上提出了GDumb (Greedy sampler and dumb learner)方法. 具体来说, 该方法贪婪地将样本存储在内存中, 并在推理时仅使用内存中的样本从头开始训练模型. 这种方法可以缓解类别增量学习中对旧类别的遗忘问题, 但由于没有学习到很多新类别的样本, 因此会导致新类别的泛化能力较差. Ahn等[78]系统地分析了新旧类别偏差的原因, 提出了SS-IL (Separated softmax for incremental learning)方法. 该方法主要集成了两种策略: 分离式softmax和任务内部知识蒸馏 (Task-wise knowledge distillation, TKD)来解决新旧类别偏差. 具体来说, 在线性分类层, 分离式softmax对旧类别节点和新类别节点分别计算概率分布; TKD仅在每个任务内部节点上进行知识蒸馏. 最近, Liu等[83]提出了一种基于强化学习的方法RMM (Reinforced memory management) 来学习新旧类别的最佳存储管理策略. 该方法可以在不同的增量阶段管理任务级和类别级地存储空间分配.

    另外一个针对训练阶段新旧类别不平衡问题的方法是Hou等[30]提出的UCIR (Unified classifier incrementally via rebalancing) 方法. 图14显示了该方法的示意图. 一方面, 在计算预测概率时对softmax操作中的输入向量和类别权重进行归一化

    图 14  UCIR[30]方法示意图
    Fig. 14  Illustration of UCIR[30] for class incremental learning
    $$ p(c|{\boldsymbol{x}}) = \frac{\text{exp}{(\eta\langle\bar{f}_{{{\theta}}}({\boldsymbol{x}}), \bar{{\varphi}}_c}\rangle)}{\sum\limits_{j} \text{exp}{(\eta\langle\bar{f}_{{{\theta}}}({\boldsymbol{x}}), \bar{{\varphi}}_j}\rangle)} $$ (15)

    其中$\bar{f}_{{{\theta}}}(\cdot) = {f_{{{\theta}}}(\cdot)}/{\Vert f_{{{\theta}}}(\cdot) \Vert}$$\bar{{\varphi}} = {{\varphi}}/{\Vert {\varphi} \Vert}$表示归一化向量. $ \langle \cdot , \cdot \rangle $为内积操作, $ \eta $是一个调节输出分布平滑程度的温度系数. 另一方面, 为了减少新旧类别之间在特征空间发生的特征分布混淆, UCIR为保留的类别样本$ {\boldsymbol{x}} \in {\cal{M}}_{\text{old}} $引入了间隔排序损失来进一步分离新旧类别的特征分布

    $$ {\cal{L}}_{mr, t}({\boldsymbol{x}}) = \sum\limits_{k = 1}^{K} \text{max}\; (m - \langle\bar{f}_{{{\theta}}}({\boldsymbol{x}}), \bar{{\varphi}}_y\rangle + \langle\bar{f}_{{{\theta}}}({\boldsymbol{x}}), \bar{{\varphi}}_k\rangle) $$ (16)

    其中$ m $代表间隔, $ \bar{{\varphi}}_y $$ \bar{{\varphi}}_k $分别指旧类别基准和前$ K $个新类别样本的特征向量. 实验结果显示了UCIR在新旧类别不平衡校准方面的效果.

    2) 后处理不平衡校准. 作为第一个基于数据回放的类别增量学习方法, iCaRL[29]也注意到新旧类别不平衡问题, 并建议在推理阶段使用最近类别均值(Nearest class mean, NCM)分类器. 类别均值由每个类别的训练样本的特征向量求平均得到

    $$ {\varphi}_{c} \leftarrow \frac{1}{n_c}\sum\limits_i {\mathbb{I}} (y_i = c) f_{{{\theta}}}({\boldsymbol{x}}_i), \; \; \forall c \in {\cal{C}} $$ (17)

    其中$ {\cal{C}} $表示所有学过的类别, $ n_c $表示类$ c $中的样本数目. 特别地, 对于旧类别, 仅使用了保存的样本来计算类均值. 与原始的线性分类器相比, NCM分类器对类别不平衡问题的敏感性较低. 实际上, NCM分类器的优越性在小样本学习[84-85]和开放集识别[86]中也得到了验证. Wu等[79]提出的BiC (Bias correction)方法通过使用额外的平衡验证集学习一个线性偏差校正层来显式地校准模型输出

    $$ o'_{c} \leftarrow \alpha o_{c} + \beta, \; \; \forall c \in {\cal{C}}_{\text{new}}$$ (18)

    其中$ o_{c} $是模型在新类别$ c \in {\cal{C}}_{\text{new}} $节点上输出的logits值. 偏差校准参数$ \alpha $$ \beta $是基于平衡的验证集进行估计得到, 并由所有新类别共享. 如图15所示, 由于旧类别的样本数量很少, 它们在特征空间分布范围很窄. 这导致学习的分类器更偏向于新类别. 平衡验证样本可以更好地反映特征空间中的新旧类别的无偏分布. 因此, BiC方法使用验证样本纠正偏差, 有效地克服了不平衡问题, 在大规模数据集 (例如ImageNet-Full) 上的类别增量学习实验显示了较好的效果. 然而, 实际中往往很难获取额外的平衡验证集, 这可能限制了BiC方法的实用性. 与BiC出发点类似, Zhao等[31]提出的WA (Weight aligning)方法通过对齐模型在新旧类别节点上输出的logits来减少旧类和新类之间的不平衡: $ o'_{c} \leftarrow \gamma o_{c}, \; \; \forall c \in {\cal{C}}_{\text{new}} $, 其中调节系数$ \gamma $可由以下公式计算得到

    图 15  BiC[79]方法偏差校准示意图
    Fig. 15  Illustration of bias correction in BiC[79]
    $$ \gamma = \frac{\text{Mean}((\Vert \bar{{\varphi}}_1 \Vert, \cdots, \Vert \bar{{\varphi}}_{|{\cal{C}}_{\text{old}}|} \Vert))}{\text{Mean}((\Vert \bar{{\varphi}}_{|{\cal{C}}_{\text{old}}|+1} \Vert, \cdots, \Vert \bar{{\varphi}}_{|{\cal{C}}_{\text{old}}|+|{\cal{C}}_{\text{new}}|} \Vert))} $$ (19)

    Mean (·)计算分类器权重模长的平均值. 由于调节输出logits等效于调节分类层权重的模长, 因此WA方法可以被视为对齐新旧类别的权重向量的平均模长. 同样, Belouadah等[81]也提出利用模型输出的统计信息来缩放分类层权重的模长. 与BiC不同, 以上两种方法利用了模型自身输出的统计信息来调节分类层权重, 因此不需要额外的平衡验证集. 此外, 还可以直接调节模型最终输出的概率分布[80], 来减缓新旧类别不平衡问题.

    2.3.3   生成数据回放

    如第2.3.1节所述, 基于真实数据重放的方法通过保存一小部分旧类别数据来解决类别增量学习中的灾难性遗忘问题. 尽管这些方法性能优异, 但保存真实的旧类别数据在实际应用中往往受到限制: 一方面, 随着学习任务数目的增加, 保存旧类别数据所需的存储空间将越来越大; 另一方面, 在一些涉及隐私安全的应用领域[87-89], 模型不允许保存训练样本. 此外, 从生物学的角度来看, 直接存储一些旧的训练样本与人类智能不相符[10, 90-91]. 为了解决真实数据回放存在的隐私和内存限制问题, 一些研究工作提出了生成数据回放方法. 针对数据生成问题, 一些工作采样了额外的生成模型, 例如对抗生成网络(Generative adversarial network, GAN)[92-93]和自动编码器(Auto-encoder)[94], 另一些工作直接采用判别模型本身[95-97]生成旧类别样本.

    早期的基于生成数据回放的增量学习方法[98-100]主要利用GAN[92]或条件GAN[93]为旧类别生成伪样本. 其中生成模型在每个增量阶段与分类模型同时训练. Kemker等[101]提出的FearNet方法中使用自动编码器[94]来巩固旧类别知识: 对于每个旧类, FearNet使用自动编码器, 基于深度特征空间的类别均值生成旧类别的样本. 然后, 新类别真实样本和旧类别生成样本一起用来训练当前模型, 如图10(b)所示. 然而, 生成旧类别样本质量严重依赖生成模型的能力, 且生成模型在增量学习过程中也存在灾难性遗忘现象. 从实验效果来看, 这些方法在任务增量学习中效果比较好, 而在类别增量学习中往往表现不佳.

    与上述方法使用额外生成模型不同, 近期的一些工作[95-97]尝试了直接使用分类模型本身来生成旧类别样本. Yin等[95]提出了一种名为DeepInversion的新方法, 用来从判别模型本身生成高保真度和真实度的样本. 具体地, 在保持主模型固定不变的情况下, DeepInversion优化噪声初始化的样本图像, 同时使用存储在模型中的批量归一化 (Batch normalization) 层中的信息来约束中间特征图的分布. 图16显示了基于条件对抗生成网络和DeepInversion方法生成的图像. 文献[95-97]中的类别增量学习实验也显示该方法生成的旧类别样本能够帮助模型保持已有知识. 此后, 一些研究工作[96-97]注意到合成旧样本的特征分布与真实旧样本的特征分布严重不匹配, 这将会引入偏差并误导新旧类别之间的决策边界. Smith等[96]通过使用分离的softmax (同SS-IL[78]中的SS策略)和平衡微调来缓解上述特征分布不匹配问题. 在此基础上, Gao等[97]利用关系知识蒸馏[102]提升了生成数据回放方法在类别增量学习中的性能.

    图 16  生成样本可视化. 左侧为条件对抗生成网络生成的旧类别样本[99], 右侧为判别模型生成的旧类别样本[95]
    Fig. 16  Visualization of generated samples. Examples on left part are generated via conditional GAN, while the right ones are generated via deep inversion[95]

    第2.3节综述的方法通过保存一部分旧类别的真实训练数据或者使用生成模型生成旧类别的伪样本, 来减少类别增量学习中的灾难性遗忘问题. 然而, 输入空间数据回放在实际应用中存在明显的不足. 以图像分类为例, 保存输入空间的图像 (尤其是高分辨率图像, 如ImageNet数据集中样本大小为$ 224 \times 224 \times 3 $) 需要占用较大的存储空间. 此外, 生成旧类别原始空间的样本也往往比较困难. 与输入空间样本回放不同, 一些方法[103-105]保存和回放深度特征空间的旧类别样本特征, 另外一些方法[13, 106-107]只保存和回放深度特征空间的旧类别原型 (类别均值). 此外, 与生成数据回放方法类似, 也有一些工作[108-109]使用生成模型生成伪特征, 达到保持旧类别知识的目的. 直观上, 特征回放相比输入空间数据回放有着明显的计算和存储优势. 然而, 随着特征提取器在增量学习过程中不断更新, 保存的旧类别特征也会逐渐无效. 因此, 如何维持保存的特征的有效性是这类方法主要面临的挑战.

    2.4.1   真实特征回放

    Iscen等[103]提出保留旧类别在深度特征空间的特征向量, 而非保存原始图像. 保存特征空间的特征向量可以显著减少存储占用. 例如, 对于使用ResNet-18[1]的ImageNet类别增量学习任务, 与基于数据回放的方法中保存$ 256 \times 256 \times 3 $原始图像相比, 保存$ 512 $维特征向量的存储占用量至少减少了一个数量级. 然而, 这种不保留原始图像, 而保存特征向量的策略面临一个严重的潜在问题: 在增量学习过程中, 随着模型的更新, 特征提取器会发生变化. 以至于原来保存的特征表示和新类别样本特征所在特征空间不一致. 为了克服这个困难, Iscen等[103]设计了一个特征适应网络模块(Feature adaptation network, FAN). 如图17所示, FAN可以将保存的旧类别特征映射到新类别特征所在的空间, 进而可以联合新旧类别特征表示共同训练分类器来正确分类所有已学习的类别.

    图 17  特征适应网络[103]示意图. 特征适应网络将保存的旧类别特征向量投影到新的特征空间, 来联合训练分类器
    Fig. 17  Illustration of feature adaptation network (FAN)[103]. FAN transforms the preserved feature vectors of old classes into the new feature space

    Pellegrini等[104]也提出了类似的特征回放方法LR (Latent Replay), 即不保存输入空间的样本, 而是保存模型中间层的激活值. 与文献[103]类似, 由于特征提取器不断更新, 保存的旧类别中间层的激活值的有效性也会逐渐降低. 为了保持特征表示稳定和保存的激活有效, LR方法对输入层到旧类别激活回放层中间的所有层采用较小的学习率, 给靠近分类器的层较大的学习率. 实验显示该方法可以显著减少原始数据回放所需的计算和存储资源. 类似的, 文献[105]对模型的中间层的张量表示进行编码存储, 以便后续回放供模型训练. 特别地, 为了保证所保存的旧类别信息有效, 该方法直接固定了输入层到回放层中间的网络结构.

    2.4.2   类别原型回放

    Yu等[107]发现基于度量学习[110-111]的嵌入网络 (Embedding network) 能够较好地保持已有知识. 在此基础上, 与文献[103-105]保存和回放较多旧类别特征不同, 文献[107]提出对每个旧类别, 只保存其在特征空间的类别原型[84, 86], 用于新旧类别的联合分类. 为了应对特征提取器的更新导致的原型漂移问题 (即保存的原型无法代表模型更新后的旧类信息), 文献[107]提出了语义漂移补偿(Semantic drift compensation, SDC)策略. 根据当前任务数据在新旧特征空间的特征偏差量来近似旧类别原型的漂移, SDC将保存旧类别原型映射到特征空间中新的位置. 然而, 相比基于softmax的网络, 基于度量学习的嵌入网络通常更难训练, 一定程度上限制了该方法的通用性.

    图18所示, PASS (Prototype augmentation and self-supervision)[13]方法对于每一个已学习的类别, 只在深度特征空间保留其类别均值作为原型. 在学习新类别时, 基于高斯噪声的简单的原型增强就能够较好地克服分类器中新旧权重之间的不平衡, 维持已学习到的决策面. 此外, 考虑到持续更新的特征提取器也会过拟合当前的新类别, 加重了增量学习过程中的遗忘现象. 为此, PASS方法使用自监督学习策略辅助模型学习更加通用的特征表示, 使得不同任务在参数空间更接近, 有助于找到一个在多个任务上表现好的模型, 同时提升模型的稳定性和可塑性. 实验显示该方法达到了与真实数据回放方法相当的性能. 与上述只保存旧类别原型的SDC和PASS方法不同, Zhu等[106]提出的IL2A方法通过保存类别均值和协方差矩阵来记忆旧类别分布信息. 如图19所示, 在学习新类别的时候, 对于每个旧类别, 可基于记忆的协方差矩阵对类别均值进行隐式语义增强[112-113], 生成无限多的伪特征实例, 这些生成的旧类别特征和新类别数据的特征共同用于后续的分类器学习, 克服了新旧权重之间的不平衡, 较好地维持了旧类别决策面. 特别地, 该方法没有直接生成旧类别特征, 而是将其转换为正则项, 提升了模型训练效率. 此外, 为了提升特征泛化性, IL2A提出了类别扩展 (Class augmentation, classAug) 技术在原始输入空间中合成新的伪造类别, 一起和当前任务包含的类别训练分类器.

    图 18  PASS方法示意图
    Fig. 18  Illustration of PASS
    图 19  语义增强策略为旧类别隐式地生成无限多伪特征实例[106]
    Fig. 19  Semantic augmentation generates infinite deep features for old classes implicitly[106]

    与PASS方法[13]中使用高斯噪声进行原型增广不同, 文献[114]直接对保存的类别原型进行上采样, 来学习更加平衡的分类器. 此外, 为了减少知识蒸馏时的特征混淆, 文献[114]提出了一种原型选择机制. 具体地, 根据新类别样本在特征空间的特征表示与旧类别原型的相似性, 将新类别样本划分为与旧类别相似和不相似的两部分. 其中与旧类别相似的样本参与知识蒸馏, 来保持旧类别的判别性特征; 而与旧类别不相似的样本则主要参与用于新类别学习的分类损失. 考虑到增量学习过程中特征提取器在不断更新, Toldo等[115]在PASS方法的基础上, 提出的Fusion方法显式地建模了特征空间中的语义漂移和特征漂移, 来更新保存的旧类别原型. 具体地, 语义漂移代表了新旧类别原型之间的距离关系(或相似度)在更新模型前后的变换, 特征漂移表示新类别数据在模型更新前后的特征表示偏移程度. Fusion方法在增量学习过程中, 使用多层感知机参数化的高斯或者变分模型[116]学习变换网络, 将旧类别原型变换到新的特征空间. 在此基础上, 从旧类别原型代表的旧类别分布中采样, 得到旧类别的伪特征, 与新类别特征一起学习平衡的分类器.

    2.4.3   生成特征回放

    受生成数据回放方法启发, 一些研究工作提出了生成特征回放方法, 即通过使用生成模型[100, 108-109]或者主模型自身[117], 产生一些旧类别的伪特征实例, 与新类别特征一起训练分类器. Xiang等[100]使用对抗训练策略生成与旧数据具有相似分布的中间层卷积特征表示. 在增量学习期间, 新类别的特征实例和生成的旧类别特征实例混合在一起用来训练统一的分类器. 类似地, 文献[108-109]也通过使用条件对抗生成网络为旧类别生成特征表示 (如图20(a)所示), 来减少类别增量学习过程中的灾难性遗忘. 特别地, Liu等[108]探究了神经网络回放特征的最佳位置, 发现在较浅层的深度特征回放会导致性能显著降低, 而生成最终的特征向量取得了最好的效果. 最近, 文献[117]提出了一种受大脑启发的特征回放方法. 如图20(b)所示, 该方法使用主模型自身来生成中间层的旧类别特征表示, 显示了较好的类别增量学习效果.

    图 20  两种特征生成方法示意图
    Fig. 20  Illustration of two types feature generation strategies

    许多任务增量学习方法在增量学习过程中动态扩展网络结构[118-120]. 然而, 对于长序列增量学习来说, 持续扩展网络结构是不切实际的. 更重要的是, 在类别增量学习的设置中, 由于在推理时无法获知任务编号, 无法确定应该使用哪一组参数进行推理. 因此, 这些方法通常无法直接应用于类别增量学习. Liu等[121]提出了一种新颖的动态融合网络 (Adaptive aggregation networks, AANets), 来显式地解决类别增量学习中的稳定性−可塑性困境, 如图21所示. 具体来说, AANets包含了两种具有不同学习率的残差模块: 稳定的残差模块用于保持旧类别的知识, 可塑的残差模块用于学习新类别. 将这两种模块的输出特征图聚合起来进入下一个残差模块, 其中聚合权重由平衡的验证集学习而来. 受互补学习系统理论[122]的启发, Pham等[123]提出了一种新的持续学习框架: 包含基于对比自监督学习[124]的缓慢学习系统, 和基于监督学习的特定任务快速学习系统. 在两个系统的组合下, 模型可以有效地学习新类别知识, 同时较好地保持旧类别知识.

    图 21  动态融合网络示意图[121]
    Fig. 21  Illustration of adaptive aggregation networks[121]

    为了在类别增量学习中实现更好的稳定性−可塑性权衡, Yan等[125]将特征表示的自适应与分类器进行解耦[126], 在此基础上提出了一种动态扩展的表示学习(Dynamically expandable representation, DER)方法, 如图22所示. 该方法构建了一个由超级特征提取器网络和线性分类器组成的模块化深度分类网络, 其中该超级特征提取器网络由多个不同大小的特征提取器 (每个增量步骤一个) 组成. 当面对新任务包含的一组新类别时, DER冻结先前学习的特征提取器, 使用新的特征提取器扩展超级特征提取器网络. 最后, 将所有提取器提取的特征拼接在一起, 一并输入分类器进行类别预测. 该策略能够保留已有知识并提供足够的灵活性来学习新知识. 此外, 为了减少分类器的新旧类别偏差问题, DER使用了平衡微调的策略. 即在特征提取器更新之后, 将超级特征提取器固定, 在平衡的训练子集上微调分类器. 实验验证了该方法的优异性能. 然而, 为每个新任务增加一个特征提取器使得模型的参数量快速增长, 同时增加了模型的存储空间和推理时间, 不利于在实际应用中部署.

    图 22  DER[125]方法示意图
    Fig. 22  Illustration of DER[125]

    文献[114]提出了一种动态结构重组策略SSRE (Self-sustaining representation expansion), 在较好地保留旧类别知识的同时, 使得新类别得到较为充分的学习. 具体地, 如图23所示, 当新类别到来时, 首先对网络进行结构扩展, 即在当前网络的分块中添加侧分支. 在模型更新过程中, 旧的网络权重保持固定, 而新加入的分支可以用来充分地学习新类别. 在每一次增量学习阶段结束训练后, 使用结构重参数化技术[127]可以将添加的侧分支信息无损地集成到主支路中, 确保每一阶段结束时网络参数数量保持不变. 具体地, 通过零填充操作和线性变换可以将新扩展的侧分支中的参数与原卷积核参数进行融合, 之后便可移除添加的侧分支, 以保持网络结构不变, 用于下一阶段的增量学习. 总的来说, DER[125]和SSRE[114]方法通过在每一增量学习阶段固定原有的特征提取器, 较好地保留了旧类别知识. 然而, 在测试阶段, 用于映射测试样本的特征提取器为最终参数融合之后的模型, 旧类别所在特征空间也发生了变化, 以至于旧类别样本也可能被特征提取器映射到新类别特征分布区域. 因此上述结构扩展策略在理论上并不能保证旧类别知识不遗忘. 不过, 从实验效果来看, 这种结构扩展策略确实显示了较好的性能[114, 125], 值得进一步探究.

    图 23  动态结构重组方法SSRE[114]示意图
    Fig. 23  Illustration of dynamic structure reorganization method SSRE[114]

    前面主要介绍了类别增量学习的问题定义, 评价指标和近些年来提出的相关方法. 本节介绍类别增量学习常用的公共数据集, 并结合CIFAR-100[37]、ImageNet-Sub[29, 128]、ImageNet-Full[128]三个主流数据集具体对比分析了代表性的类别增量学习方法.

    早期的类别增量学习工作中常用的数据集为MNIST[129]和CIFAR-10[37]. 这两个数据集分辨率小, 均包含10个类别. 随着类别增量学习的发展, 一些类别数目更多、分辨率更高的数据集被用来验证方法性能. 近期的类别增量学习工作中使用的数据集包括: CIFAR-100[37]、CUB-200[130]、Tiny-ImageNet[131]、ImageNet-Sub[29, 128]、ImageNet-Full[128]、VGGFace2-Sub[80, 132]和GLandmarks-Sub[80, 133]. 其中, CIFAR-100和Tiny-ImageNet为分辨率较小的数据集, CUB-200、ImageNet-Sub和ImageNet-Full为大分辨率数据集. 特别地, ImageNet-Sub包含ImageNet-Full中的100个类别. 目前最常用的三个数据集为CIFAR-100、ImageNet-Sub和ImageNet-Full. 表5汇总了上述数据集的相关信息.

    表 5  类别增量学习公用数据集的数量信息
    Table 5  Quantitative information of class incremental learning public data sets
    数据集数据数量类别数量平均类内样本
    MNIST60000106000
    CIFAR-1060000106000
    CIFAR-10060000100600
    CUB-2001178820058
    Tiny-ImageNet120000200600
    ImageNet-Sub60000100600
    ImageNet-Full128000010001280
    VGGFace2-Sub5417461000542
    GLandmarks-Sub3943671000394
    下载: 导出CSV 
    | 显示表格

    如第1.3节所述, 对于给定的包含$ M $个类别的数据集, 主要有两种划分方式: 第一种划分方式将所有类别均等地划分为$ T $个任务, 而第二种划分方式将一半数目的类别作为初始任务. 然后, 将另一半数目的类别等分为$ T $个任务. 考虑到已有的类别增量学习工作[13, 29-31, 55, 73, 78, 106]大多采用第二种划分方式, 本节实验也基于第二种划分方式. 此外, 对于数据回放类别增量学习方法, 我们为每个旧类别保存$ R $个样本. 性能评价指标主要采用平均增量准确率、平均增量遗忘率和增量准确率曲线. 对于样本回放类方法, 对于CIFAR-100数据集, 使用ResNet32网络 (DER[125]方法使用ResNet-18网络). 对于ImageNet-Sub和ImageNet-Full数据集, 使用ResNet-18网络. 对于非样本回放类方法, 在CIFAR-100, Tiny-ImageNet和ImageNet-Sub三个数据集上均使用ResNet18网络. 表6 ~ 表8图24汇总了对比结果. 表6表8中的$ ^{\dagger} $代表本文复现的实验结果(同样设置下, 文献中没有对应结果), 其他实验结果整合自相关文献. 特别地, 在表6中, $ R = 20 $时, DMC[62]、GD[63]的实验数据来自文献[134]; iCaRL、BiC、TPCIL、UCIR、PODnet的实验数据来自文献[121]; SS-IL[78]的实验数据来自文献[135].

    表 6  基于样本回放的方法在CIFAR-100, ImageNet-Sub和ImageNet-Full上的平均增量准确率 (%) 比较
    Table 6  Comparisons of average incremental accuracies (%) on CIFAR-100, ImageNet-Sub, and ImageNet-Full
    存储个数算法发表出处CIFAR-100ImageNet-SubImageNet-Full
    $T=5$$T=10$$T=25$$T=5$$T=10$$T=25$$T=5$$T=10$$T=25$
    $R=10$iCaRL[29]$^{\dagger}$CVPR 201751.8044.7239.4959.6251.3740.3848.1742.5334.83
    BiC[79]$^{\dagger}$ECCV 201854.4649.8843.5361.7454.1739.37
    UCIR[30]$^{\dagger}$CVPR 201960.5857.5952.3371.8968.3557.6165.2160.4356.87
    UCIR+DDE[58]CVPR 202164.4162.0071.2069.0567.0464.98
    WA[31]$^{\dagger}$CVPR 202058.1146.9841.7861.1852.2340.5252.0547.57
    PODnet[53]$^{\dagger}$ECCV 202063.0960.7853.2376.6873.7059.0962.8863.7559.19
    PODnet+DDE[58]CVPR 202163.4060.5275.7673.0064.4162.09
    PASS+exemplar[13]$^{\dagger}$CVPR 202162.5464.96
    DMIL[134]CVPR 202267.0864.4175.7374.94
    $R=20$DMC[62]WACV 202038.2023.8043.0730.30
    GD[63]ICCV 201956.3951.3058.7057.70
    iCaRL[29]CVPR 201757.1252.6648.2265.4459.8852.9751.5046.8943.14
    iCaRL+Mnemonics[73]CVPR 202060.0057.3754.1372.3470.5067.1260.6158.6253.46
    iCaRL+AANets[121]CVPR 202164.2260.2656.4373.4571.7869.2263.9161.2856.97
    iCaRL+GeoDL[60]CVPR 202162.5461.4061.8470.1070.8670.7260.0257.9856.70
    BiC[79]CVPR 201959.3654.2050.0070.0764.9657.7362.6558.7253.47
    BiC+Mnemonics[73]CVPR 202060.6758.1155.5171.9270.7369.2264.6362.7160.20
    TPCIL[55]ECCV 202065.3463.5876.2774.8164.8962.88
    UCIR[30]CVPR 201963.1760.1457.5470.8468.3261.4464.4561.5756.56
    UCIR+DDE[58]CVPR 202165.2762.3672.3470.2067.5165.77
    UCIR+AANets[121]CVPR 202166.7465.2963.5072.5569.2267.6064.9462.3960.68
    UCIR+GeoDL[60]CVPR 202165.1465.0363.1273.8773.5571.7265.2364.4662.20
    UCIR+MRDC[71]ICLR 202273.5672.7070.5367.5365.29
    UCIR+CwD[142]CVPR 202267.2662.8956.8171.9469.3465.1057.4253.37
    WA[31]CVPR 202061.7056.3750.7871.2664.9953.6156.6952.3544.58
    PODnet[53]ECCV 202064.8363.1960.7275.5474.3368.3166.9564.1359.17
    PODnet+DDE[58]CVPR 202165.4264.1276.7175.4166.4264.71
    PODnet+AANets[121]CVPR 202166.3164.3162.3176.9675.5871.7867.7364.8561.78
    PODnet+MRDC[71]ICLR 202278.0876.0272.7268.9166.31
    PODnet+CwD[142]CVPR 202267.4464.6462.2476.9174.3467.4258.1856.01
    Mnemonics[73]CVPR 202063.3462.2860.9672.5871.3769.7464.5463.0161.00
    Mnemonics+AANets[121]CVPR 202167.5965.6663.3572.9171.9370.7065.2363.6061.53
    RMM[83]NeurIPS 202168.4267.1764.5673.5872.8372.3065.8164.1062.23
    DER[125]CVPR 202172.6072.4577.73
    SS-IL[78]ICCV 202163.0261.5258.02
    AFC[135]CVPR 202266.4964.9864.0676.8775.7573.3468.9067.02
    DMIL[134]CVPR 202268.0166.4777.2076.76
    下载: 导出CSV 
    | 显示表格
    表 7  基于样本回放的方法在CIFAR-100, ImageNet-Sub和ImageNet-Full上的遗忘率 (%) 比较
    Table 7  Comparisons of average forgetting (%) on CIFAR-100, ImageNet-Sub, and ImageNet-Full
    存储个数算法发表出处CIFAR-100ImageNet-SubImageNet-Full
    $T=5$$T=10$$T=25$$T=5$$T=10$$T=25$$T=5$$T=10$$T=25$
    $R=20$iCaRL[29]CVPR 201731.8834.1036.4843.4045.8447.6026.0333.7638.80
    iCaRL+Mnemonics[73]CVPR 202025.9426.9228.9220.9624.1229.3220.2624.0417.49
    iCaRL+GeoDL[60]CVPR 202112.2021.1026.8426.8422.4424.8821.8422.8728.22
    BiC[79]CVPR 201931.4232.5034.6027.0431.0437.8825.0628.3433.17
    BiC+Mnemonics[73]CVPR 202022.4224.5025.5218.4319.2021.4318.3219.7220.50
    UCIR[30]CVPR 201918.7021.3426.4631.8833.4835.4024.0827.2930.30
    UCIR+GeoDL[60]CVPR 20219.499.1012.0113.7812.6815.2111.0312.8115.11
    WA[31]CVPR 202013.4917.0728.3224.4332.7241.0222.8828.1131.25
    Mnemonics[73]CVPR 202110.9113.3819.8017.4017.0820.8313.8515.8219.17
    下载: 导出CSV 
    | 显示表格
    表 8  非样本回放类别增量学习方法平均增量准确率 (%) 比较
    Table 8  Comparisons of average incremental accuracies (%) of non-exemplar based class incremental learning methods
    算法发表出处CIFAR-100Tiny-ImageNetImageNet-Sub
    $T=5$$T=10$$T=20$$T=5$$T=10$$T=20$$T=10$
    LwF-MC[26]$^{\dagger}$ECCV 201633.3826.0119.7034.9121.3813.6835.79
    LwM[51]$^{\dagger}$CVPR 201939.6030.2420.5437.3220.4712.5532.57
    MUC[161]$^{\dagger}$ECCV 202049.2935.9928.9737.5026.2821.60
    calibrateCIL[64]$^{\dagger}$ICME 202160.8043.5838.0536.7227.6416.2841.11
    UCIR-DF[30]CVPR 201957.8248.69
    PODNet-DF[53]ECCV 202056.8552.61
    ABD[96]ICCV 202162.4058.9744.5541.64
    R-DFCIL[97]ECCV 202264.7861.7148.9147.60
    IL2A[106]$^{\dagger}$NeurIPS 202166.1658.2058.0147.2144.6940.0457.98
    PASS[13]$^{\dagger}$CVPR 202163.8459.8758.0649.5347.1941.9962.09
    SSRE[114]CVPR 202265.8865.0461.7050.3948.9348.1767.69
    SDC-new[107, 115]CVPR 202066.2062.7059.2053.2950.4848.7968.60
    Fusion[115]CVPR 202266.9064.8061.5054.1652.6350.2469.30
    下载: 导出CSV 
    | 显示表格
    图 24  代表性类别增量学习方法在CIFAR-100和ImageNet-Sub数据集上的性能比较. 数据回放方法为每个旧类别保存10个样本. 从左到右依次为5, 10和25阶段增量学习设定
    Fig. 24  Comparisons of the step-wise incremental accuracies on CIFAR-100 and ImageNet-Sub under three different settings: 5, 10, 25 incremental phases. 10 samples are saved for each old class in data replay based methods
    3.3.1   同类方法内部对比分析

    1) 参数正则化方法. 首先, 直接微调 (Fine-tuning, FT) 模型的平均增量准确率最低. 尤其在长序列类别增量学习如$ T = 25 $的设定下, 直接微调在CIFAR-100和ImageNet-Sub上的平均增量准确率分别为5.28%和5.83%, 即发生了灾难性遗忘现象. 此外, 基于参数正则化的方法如EWC和MAS尽管对任务增量学习有效, 但其类别增量学习性能差. 如图24所示, 直接微调和基于参数正则化方法的性能在类别增量学习过程中急剧下降. 特别地, 这两种方法在长序列类别增量学习设定下的性能与直接微调相近, 无法保持旧类别知识. 文献[44-45]也发现基于参数重要性估计的正则化方法在类别增量学习任务上往往表现很差. 究其原因, 是因为类别增量学习要求模型不仅能够在新类别内部和旧类别内部进行判别, 还要能够在新旧类别之间进行判别. 而基于参数正则化的方法只在新类别上更新分类器, 导致新旧类别在深度特征空间严重重叠, 从而难以区分新旧类别.

    2) 数据回放和知识蒸馏方法. 为了更好地利用保存的旧类别样本, 大部分基于数据回放的方法使用了知识蒸馏策略. 由于保存和重新学习了部分旧类别训练样本, 基于数据回放的方法总体上显示了优异的性能. 然而, 当学习新类别时, 新旧类别样本数目的严重不平衡影响了模型在所有已知类别上的准确率. 为此, BiC、UCIR、WA等方法从不同的角度提出了不平衡校准策略. 从表6图24中可以看出, 这些方法相比基准方法iCaRL都有了明显的性能提升. 例如, 在CIFAR-100数据集T10-R20的设定下, UCIR将iCaRL的平均增量准确率从52.66%提升到了60.14%. Mnemonics与RMM方法则关注于优化旧类别样本问题, 也取得了可观的性能提升. 此外, 从表7的遗忘率结果也可以看出, 不同的改进策略都不同程度地减少了模型对旧类别知识的遗忘. TPCIL、PODnet、DDE以及GeoDL方法则改进了数据回放方法中的知识蒸馏策略, 通过蒸馏主要特征或者样本关系进一步增强了模型对旧类别知识的保持.

    3) 网络结构方法. 在网络结构设计方面, AANets方法显式地将网络设计为用于保持旧类别知识的稳定残差模块和用于快速学习新类别的可塑残差模块. DER方法为每一个任务动态地扩展特征提取器. 从表6中可以看出, 这两种方法都取得了较好的性能. 特别地, DER方法在CIFAR-100和ImageNet-Sub数据集上达到了目前最优类别增量学习性能. 然而, 相比其他类型的方法, 针对类别增量学习的网络结构设计工作目前还比较少.

    4) 特征回放类方法. 与数据回放方法不同, 特征回放类方法没有保存旧类别样本. 其中原型回放方法[13, 106, 114-115]只保存和回放旧类别在深度特征空间的类别原型. 表8汇总了这类方法在CIFAR-100、Tiny-ImageNet、和ImageNet-Sub上的实验结果, 可以看出这两类方法在没有保存旧类别样本的情况下, 取得了较好的性能. 以PASS方法[13]为例, 其在CIFAR-100数据集$ T = 10 $的设定下平均增量准确率达到59.87%, 与保存样本方法UCIR性能 (R = 20, 60.14%; R = 10, 57.59%) 相当, 且在长序列 ($ T = 25 $) 的类别增量学习设定下仍然保持较高性能 (55.07%). SSRE[114]和Fusion[115]方法分别对PASS中的表示学习和原型回放策略做了改进, 取得了更好的性能.

    3.3.2   不同类方法之间对比分析

    1) 样本回放与参数正则化方法对比. 基于参数正则化的方法主要面向任务增量学习. 在类别增量学习中, 基于参数正则化的方法, 如EWC、MAS以及LwF-MC, 由于难以克服分类器中新旧类别权重之间的偏差, 而表现出很差的类别增量学习性能. 相比之下, 基于样本回放的方法, 如iCaRL、UCIR、PODnet等在类别增量学习任务上具有明显的性能优势, 在长序列增量过程中仍然保持了较好的性能. 然而, 样本回放类方法需要保存部分旧类别数据. 旧类别数据量对方法性能影响较大, 且在学习新类别的同时需要对保存的旧类别数据进行再次学习. 因此, 相比参数正则化方法, 样本回放类方法具有更高的时间和空间复杂度.

    2) 特征回放与数据回放方法对比. 近期的研究工作表明, 基于特征回放的方法[13, 106, 114-115]可以在不保存旧类别样本的情况下, 在类别增量学习任务中达到与数据回放类方法相当的性能. 相比样本回放类方法[29-31, 77-79, 134-135], 基于特征回放的非样本回放类方法有如下几方面的优点. a) 隐私安全: 基于样本回放的方法通常会存储一小部分旧类别的原始数据, 这在一些如医疗领域等隐私安全性要求较高的场景[87-89]中是不允许的. 非样本回放类方法在类别增量学习过程中不存储原始数据, 只使用了深度特征空间中的类别分布信息, 这种策略被认为是隐私安全的[136]. b) 存储空间: 基于样本回放的方法在长序列的增量学习过程中也会不可避免地受到存储空间限制[137-138]. 相比之下非样本回放类方法很少占用存储空间. c) 训练效率: 基于样本回放的方法必须在每个后续任务中重新学习存储的旧类别样本, 这对于长序列增量场景来说效率很低. d) 类人学习: 从生物学的角度来看, 直接存储一些旧的训练样本不太像人类在持续学习过程中克服灾难性遗忘的方式[10, 90-91]. 在某种程度上, 基于原型回放的方法更贴近人脑中对类别的抽象记忆的学习模式[86, 139-140].

    3) 网络结构类与其他方法对比. 基于网络结构的方法在增量学习过程中动态扩展网络结构, 不断学习新的任务或者类别. 然而, 对于长序列增量学习来说, 持续扩展网络结构将使得模型结构很大. 因此, 如何控制增量学习过程中模型的不断扩张是这类方法的一个难点. 相比其他类型的方法, 基于网络结构的方法能够较为充分地学习新类别, 也能够较好地保持旧类别知识. 从实验效果来看, 基于结构扩展的方法显示了较好的类别增量学习性能, 值得进一步探究和发展.

    4) 不同方法的时空复杂程度对比. 在实际应用中, 由于部署条件的限制, 往往对方法的时间和空间复杂程度有一定的要求. 特别地, 对于增量学习, 模型需要在新数据上不断更新, 因此, 增量学习算法的存储空间占用大小、训练耗时等显得尤为重要. 然而, 目前的研究工作很少考虑到实际应用对算法的时间和空间复杂程度的限制和要求. 对于增量学习而言, 空间复杂度体现在存储旧类别样本或者旧模型所需的空间占用, 时间复杂度体现在每次增量阶段更新模型所需要的时长. 在已有的方法中, 基于数据回放和基于动态网络结构的方法具有较高的时间和空间复杂度. 具体地, 数据回放类方法需要一定的空间保存旧类别样本, 且这些样本在后续增量阶段要反复学习, 具有较高时空复杂度. 网络结构类方法会使得模型越来越大, 同时增加模型存储和训练时间. 相比之下, 基于正则化和特征回放的方法具有较低的时空复杂度. 特别地, 特征回放类方法还可以达到与数据回放类方法相当的性能, 具有较大的发展和应用潜力. 表9中汇总和对比了不同类型方法的时空复杂度.

    表 9  类别增量学习方法对比与总结
    Table 9  Comparison and summary of class incremental learning methods
    方法分类包含子类代表文献核心思想优点缺点
    参数正则化参数重要性估计[25, 2728]显式约束重要参数更新, 或者约束梯度更新方向不需要保存样本, 模型更新快速, 时间、空间复杂度低分类器有严重偏差, 类别增量性能差
    子空间投影[4648]
    知识蒸馏重要特征蒸馏[26, 30, 5051, 53]保持新旧模型对给定数据的输出一致性能够较好地保持已有知识, 成为很多方法的基础组成部分需要保存上一增量阶段的模型, 占用存储空间
    样本关系蒸馏[5560]
    辅助数据蒸馏[6264, 134]
    数据回放真实数据回放[29, 66, 73]保存一小部分旧类别数据用于后续再学习类别增量学习性能好, 且易于实现容易过拟合存储的数据, 时间、空间复杂度高, 隐私性不好
    新旧偏差校准[3031, 7781]
    生成数据回放[95100]
    特征回放真实特征回放[103105]保存深度特征空间的旧类别特征来维持决策面性能较好, 时间、空间复杂度低随着增量过程中特征提取器的更新, 保存的旧类别特征有效性降低
    类别原型回放[13, 106107, 114115]
    生成特征回放[108109]
    网络结构结构动态扩展[121, 125]冻结已有网络参数, 新参数用于学习新类别较好地保持旧类别知识, 同时能够较充分地学习新类别网络参数量逐渐增大, 时间、空间复杂度高
    下载: 导出CSV 
    | 显示表格

    增量学习是一个长期存在的研究问题. 基于手工特征, 早期的研究者提出了面向支持向量机[21]和决策树[22]的增量学习方法. 近年来, 随着深度神经网络的广泛应用, 越来越多的工作研究如何提升深度神经网络的增量学习性能. 特别地, 类别增量学习相关研究取得了很大进展. 本文所介绍的一系列方法, 从不同角度减少了模型在类别增量学习过程中的遗忘现象. 但面对真实的开放环境, 类别增量学习技术要从研究到广泛的实际应用, 还面临一系列困难. 下文对类别增量学习任务中存在的技术挑战和未来研究趋势做出展望.

    1) 类别增量学习中的表示学习. 在类别增量学习中, 如果特征提取器在学习旧类别后固定, 模型可以保持以前学习的特征表示, 但旧类别上学到的特征表示不能较好地泛化到新类别上. 相反地, 如果在新类别上更新特征提取器, 会使得旧的特征表示被遗忘. 简单地固定或者更新特征提取器都会导致新旧类别的特征分布在特征空间发生严重的混淆. 已有的方法通常显式地或隐式地约束网络参数变化, 以减少学习新类别时特征表示的遗忘. 然而, 这种约束势必导致可塑性和稳定性之间的权衡. 如何学习到跨新旧类别泛化性强, 多样化和迁移性好的特征表示, 对类别增量学习很重要. 针对增量学习中的表示学习问题, Zhu等[13]使用基于旋转预测[141]的自监督方法加强类别增量学习中的表示学习. Cha等[57]则使用基于对比学习[124]的自监督方法帮助模型学习更加泛化的特征表示. Shi等[142]提出了一种新的类间去相关正则化技术, 以强制每个类别的表示分布地更加均匀. 文献[106]设计了一种类别增广方法来提升增量学习中的特征表示质量. 针对类别增量学习特点, 提出更加有效的表示学习方法, 是一个值得未来进一步探索的研究思路.

    2) 类别增量学习中的分类器学习. 解决类别增量学习中灾难性遗忘问题的理想方法是在学习新类别时完全保持旧类别的特征分布. 然而, 这在不保存或者只保存一小部分的旧类别样本的情况下是难以实现的. 在新旧类别严重不平衡的情况下, 旧类别的测试样本很容易被预测为新类别. 当前的许多方法利用后处理的策略来纠正每个类别增量学习阶段的新旧类别偏差问题. 例如, 一些方法[53, 63, 77-78]使用平衡微调策略, 而另一些方法[31, 79-80]则使用类权重归一化或对齐策略. 与上述后处理方法不同, 如何使得模型在训练的过程中自动学习到平衡的分类器, 是一个值得研究的问题.

    3) 类别增量学习中的网络结构设计. 增量学习中的网络结构设计工作大多针对任务增量学习, 而针对类别增量学习的网络结构设计方法较少. AANets和DER方法展示了网络结构对类别增量学习性能的重要性. 最近, 为了克服灾难性遗忘的问题, Wu等[143]使用了一种“白盒”模型ReduNet[144], 其中网络的每一层都在没有反向传播的情况下显式计算. 在这种范式, 给定一个预训练的网络和新类别数据, ReduNet可以构建一个新的网络, 模拟使用旧类别和新类别的联合训练. 实验表明, 相比传统的深度神经网络, ReduNet在类别增量学习任务上有一定的优势. 如何设计更加新颖的, 有效的网络结构也是一个待研究的任务.

    4) 小样本类别增量学习. 目前的类别增量学习方法都需要大量的有标记训练样本. 而在实际应用中, 新类别往往只有少数的样本[145-146], 或标注成本高, 模型需要在少数的标记样本上快速自适应增量学习. 上述小样本类别增量学习任务的困难在于, 新类别数据的缺乏不仅会导致严重的过拟合, 还会加剧旧类别的灾难性遗忘问题. 针对上述问题, 近期一些方法被相继提出[147-152]. 与小样本增量学习相关的一个任务为广义小样本学习[153-155], 不同之处在于广义小样本学习只增量学习一步, 而小样本增量学习通常增量学习多步. 后续仍需探索更加有效的小样本类别增量学习方案.

    5) 弱监督条件下的类别增量学习. 真实环境下数据不一定都是样本量少, 也可以是具有大量样本, 但是这些样本是缺乏高精度标记的, 如无标记样本、噪声样本, 可能包含未知类别的样本. 因此需要在充分利用未标记样本的同时又避免异常样本的干扰. 如何根据模型的不确定性检测无标记中的异常样本, 在此基础上有效利用大量无标记数据和少量有标记数据进行半监督类别增量学习是一个值得研究的问题.

    6) 安全可靠的鲁棒增量学习. 目前的类别增量学习方法尽管取得了较好的增量准确率, 但是面对实际应用中的干扰样本, 如噪声样本、分布外样本和对抗样本, 无法给出鲁棒可信的预测[106, 156-159]. 因此, 在实际应用中, 很难做出安全可靠的决策. 面向开放环境下鲁棒感知和持续学习的实际需求, 研究可靠、可扩展的机器学习模型, 能够对开放环境下的场景变化做出自适应调整. 这样的模型不仅能够对已知类别有效地识别, 也能基于模型输出的置信度对变化环境中出现的异常数据进行处理, 提高增量学习模型在开放环境中的安全性和可靠性.

    7) 更多智能任务下的增量学习. 已有的类别增量学习工作主要关注图像分类任务. 在实际应用中, 其他的智能任务如物体检测、语义分割、行为识别、目标重识别、三维点云处理等同样需要具备类别增量学习的能力. 为上述任务设计类别增量学习算法时, 一方面要参考已有工作的思想, 另一方面也需要结合领域知识设计相应的模型和类别增量学习算法.

    类别增量学习的目标是在动态、开放的环境下, 使得模型能够在较好地保持已有知识的基础上, 持续地学习新类别知识. 本文首先介绍了类别增量学习的问题定义和评价指标. 然后按照不同的技术思路, 对类别增量学习的最新进展进行了综述和分析, 评估了代表性方法的性能, 从同类方法内部和不同类方法之间两个角度对已有的方法进行了对比分析, 并给出了未来可行的研究方向. 现阶段对于类别增量学习已经有了较多的研究, 但依然可以在表示学习、分类器学习、网络结构设计以及弱监督、鲁棒增量学习等多个方面有进一步的研究和发展. 此外, 未来的增量学习也将面向更多的下游任务, 如增量目标检测[38-39]、增量语义分割[40-41]和增量视频分类[160]等.

  • 图  1  真实开放环境中机器学习系统的工作流程

    Fig.  1  Illustrations of the life cycle of a machine learning system in the open-world applications

    图  2  任务和类别增量学习示意图(本文关注类别增量学习)

    Fig.  2  Illustrations of task and class incremental learning (We focus on class incremental learning)

    图  3  类别增量学习方法分类图

    Fig.  3  The classification of class incremental learning methods

    图  4  OWM[46]方法原理示意图

    Fig.  4  Schematic diagram of OWM[46]

    图  5  类别增量学习中的知识蒸馏策略

    Fig.  5  Knowledge distillation strategies in class incremental learning

    图  6  LwM[51]中的注意力损失能够有效减少模型遗忘

    Fig.  6  Attention distillation loss in LwM[51] alleviates attention regions forgetting

    图  7  特征蒸馏减少特征分布漂移

    Fig.  7  Feature distillation loss alleviates feature distribution deviation

    图  8  PODnet[53]方法示意图

    Fig.  8  Illustration of PODnet[53]

    图  9  增量学习中样本关系知识蒸馏的不同策略

    Fig.  9  Illustration of relation knowledge distillation strategies in class incremental learning

    图  10  基于数据回放的类别增量学习方法主要包括 (a) 真实数据回放; (b) 生成数据回放

    Fig.  10  Data replay based class incremental learning methods include (a) real data replay and; (b) generative data replay

    图  11  启发式旧类别采样策略示意图

    Fig.  11  Illustration of heuristic sampling strategies

    图  12  三种样本保存策略T-SNE[72]可视化效果对比图

    Fig.  12  The T-SNE[72] results of three exemplar methods

    图  13  基于梯度匹配算法的数据集提炼方法示意图

    Fig.  13  Illustration of gradient matching algorithm for dataset condensation

    图  14  UCIR[30]方法示意图

    Fig.  14  Illustration of UCIR[30] for class incremental learning

    图  15  BiC[79]方法偏差校准示意图

    Fig.  15  Illustration of bias correction in BiC[79]

    图  16  生成样本可视化. 左侧为条件对抗生成网络生成的旧类别样本[99], 右侧为判别模型生成的旧类别样本[95]

    Fig.  16  Visualization of generated samples. Examples on left part are generated via conditional GAN, while the right ones are generated via deep inversion[95]

    图  17  特征适应网络[103]示意图. 特征适应网络将保存的旧类别特征向量投影到新的特征空间, 来联合训练分类器

    Fig.  17  Illustration of feature adaptation network (FAN)[103]. FAN transforms the preserved feature vectors of old classes into the new feature space

    图  18  PASS方法示意图

    Fig.  18  Illustration of PASS

    图  19  语义增强策略为旧类别隐式地生成无限多伪特征实例[106]

    Fig.  19  Semantic augmentation generates infinite deep features for old classes implicitly[106]

    图  20  两种特征生成方法示意图

    Fig.  20  Illustration of two types feature generation strategies

    图  21  动态融合网络示意图[121]

    Fig.  21  Illustration of adaptive aggregation networks[121]

    图  22  DER[125]方法示意图

    Fig.  22  Illustration of DER[125]

    图  23  动态结构重组方法SSRE[114]示意图

    Fig.  23  Illustration of dynamic structure reorganization method SSRE[114]

    图  24  代表性类别增量学习方法在CIFAR-100和ImageNet-Sub数据集上的性能比较. 数据回放方法为每个旧类别保存10个样本. 从左到右依次为5, 10和25阶段增量学习设定

    Fig.  24  Comparisons of the step-wise incremental accuracies on CIFAR-100 and ImageNet-Sub under three different settings: 5, 10, 25 incremental phases. 10 samples are saved for each old class in data replay based methods

    表  1  不同增量学习设定对比

    Table  1  Comparison of incremental learning settings

    设定说明
    数据增量类别集不变, 数据以在线的形式到来, 即传统的在线学习
    任务增量类别集变化, 推理阶段在各自任务内部分类
    类别增量类别集变化, 推理阶段在所有已学习类别上分类
    下载: 导出CSV

    表  2  类别增量学习评价指标

    Table  2  Evaluation metrics of class incremental learning

    增量准确率在所有已见类别上的分类准确率$A_t$
    增量遗忘率$F_{t}=\displaystyle\frac{1}{t-1}\sum_{i=1}^{t-1}f_{t}^{i}$
    平均增量准确率$\bar A = \displaystyle\frac{1}{T}\sum_{i=1}^{T}A_i$
    平均增量遗忘率$\bar F= \displaystyle\frac{1}{T}\sum_{i=1}^{T}F_i$
    下载: 导出CSV

    表  3  类别增量学习中的知识蒸馏方法总结

    Table  3  Summarization of knowledege distillation strategies in class incremental learning

    算法知识蒸馏损失知识蒸馏策略
    LwF, iCaRL, BiC式(2)惩罚输出概率分布变化
    EBIL, LwM式(3)惩罚重要特征变化
    UCIR式(4)惩罚最终特征变化
    PODnet式(5), 式(6)惩罚中间和最终特征变化
    TPCIL, MBP,
    Co2L
    式(7), 式(8),
    式(9)
    惩罚样本相似性关系变化
    DDE式(10), 式(11)惩罚邻域重构关系变化
    GeoDL式(12)惩罚连续子空间中特征变化
    DMC, GD式(2)无标记数据辅助知识蒸馏
    calibrateCIL式(2)合成数据辅助知识蒸馏
    下载: 导出CSV

    表  4  基于数据回放的类别增量学习中的新旧类别偏差校准方法总结

    Table  4  Summarization of bias calibration strategies in data replay based class incremental learning

    算法使用阶段平衡对象偏差校准策略
    E2E训练阶段训练数据两阶段的法, 构建平衡数据集微调模型
    GDumb训练阶段训练数据下采样法, 构建平衡数据集直接从头训练模型
    SS-IL训练阶段分类器解耦新旧类别的softmax操作和知识蒸馏
    RMM训练阶段训练数据平衡训练集, 通过强化学习算法管理新旧类别数据
    UCIR训练阶段分类器特征和分类权重模长归一化, 间隔排序损失
    iCaRL测试阶段分类器原型生成, 使用最近类别均值分类器
    BiC测试阶段分类器概率校准, 使用平衡验证集学习偏差校准变换
    WA测试阶段分类器对齐新旧类的权重向量的平均模长
    IL2M测试阶段分类器概率校准, 调节模型最终输出的概率分布
    下载: 导出CSV

    表  5  类别增量学习公用数据集的数量信息

    Table  5  Quantitative information of class incremental learning public data sets

    数据集数据数量类别数量平均类内样本
    MNIST60000106000
    CIFAR-1060000106000
    CIFAR-10060000100600
    CUB-2001178820058
    Tiny-ImageNet120000200600
    ImageNet-Sub60000100600
    ImageNet-Full128000010001280
    VGGFace2-Sub5417461000542
    GLandmarks-Sub3943671000394
    下载: 导出CSV

    表  6  基于样本回放的方法在CIFAR-100, ImageNet-Sub和ImageNet-Full上的平均增量准确率 (%) 比较

    Table  6  Comparisons of average incremental accuracies (%) on CIFAR-100, ImageNet-Sub, and ImageNet-Full

    存储个数算法发表出处CIFAR-100ImageNet-SubImageNet-Full
    $T=5$$T=10$$T=25$$T=5$$T=10$$T=25$$T=5$$T=10$$T=25$
    $R=10$iCaRL[29]$^{\dagger}$CVPR 201751.8044.7239.4959.6251.3740.3848.1742.5334.83
    BiC[79]$^{\dagger}$ECCV 201854.4649.8843.5361.7454.1739.37
    UCIR[30]$^{\dagger}$CVPR 201960.5857.5952.3371.8968.3557.6165.2160.4356.87
    UCIR+DDE[58]CVPR 202164.4162.0071.2069.0567.0464.98
    WA[31]$^{\dagger}$CVPR 202058.1146.9841.7861.1852.2340.5252.0547.57
    PODnet[53]$^{\dagger}$ECCV 202063.0960.7853.2376.6873.7059.0962.8863.7559.19
    PODnet+DDE[58]CVPR 202163.4060.5275.7673.0064.4162.09
    PASS+exemplar[13]$^{\dagger}$CVPR 202162.5464.96
    DMIL[134]CVPR 202267.0864.4175.7374.94
    $R=20$DMC[62]WACV 202038.2023.8043.0730.30
    GD[63]ICCV 201956.3951.3058.7057.70
    iCaRL[29]CVPR 201757.1252.6648.2265.4459.8852.9751.5046.8943.14
    iCaRL+Mnemonics[73]CVPR 202060.0057.3754.1372.3470.5067.1260.6158.6253.46
    iCaRL+AANets[121]CVPR 202164.2260.2656.4373.4571.7869.2263.9161.2856.97
    iCaRL+GeoDL[60]CVPR 202162.5461.4061.8470.1070.8670.7260.0257.9856.70
    BiC[79]CVPR 201959.3654.2050.0070.0764.9657.7362.6558.7253.47
    BiC+Mnemonics[73]CVPR 202060.6758.1155.5171.9270.7369.2264.6362.7160.20
    TPCIL[55]ECCV 202065.3463.5876.2774.8164.8962.88
    UCIR[30]CVPR 201963.1760.1457.5470.8468.3261.4464.4561.5756.56
    UCIR+DDE[58]CVPR 202165.2762.3672.3470.2067.5165.77
    UCIR+AANets[121]CVPR 202166.7465.2963.5072.5569.2267.6064.9462.3960.68
    UCIR+GeoDL[60]CVPR 202165.1465.0363.1273.8773.5571.7265.2364.4662.20
    UCIR+MRDC[71]ICLR 202273.5672.7070.5367.5365.29
    UCIR+CwD[142]CVPR 202267.2662.8956.8171.9469.3465.1057.4253.37
    WA[31]CVPR 202061.7056.3750.7871.2664.9953.6156.6952.3544.58
    PODnet[53]ECCV 202064.8363.1960.7275.5474.3368.3166.9564.1359.17
    PODnet+DDE[58]CVPR 202165.4264.1276.7175.4166.4264.71
    PODnet+AANets[121]CVPR 202166.3164.3162.3176.9675.5871.7867.7364.8561.78
    PODnet+MRDC[71]ICLR 202278.0876.0272.7268.9166.31
    PODnet+CwD[142]CVPR 202267.4464.6462.2476.9174.3467.4258.1856.01
    Mnemonics[73]CVPR 202063.3462.2860.9672.5871.3769.7464.5463.0161.00
    Mnemonics+AANets[121]CVPR 202167.5965.6663.3572.9171.9370.7065.2363.6061.53
    RMM[83]NeurIPS 202168.4267.1764.5673.5872.8372.3065.8164.1062.23
    DER[125]CVPR 202172.6072.4577.73
    SS-IL[78]ICCV 202163.0261.5258.02
    AFC[135]CVPR 202266.4964.9864.0676.8775.7573.3468.9067.02
    DMIL[134]CVPR 202268.0166.4777.2076.76
    下载: 导出CSV

    表  7  基于样本回放的方法在CIFAR-100, ImageNet-Sub和ImageNet-Full上的遗忘率 (%) 比较

    Table  7  Comparisons of average forgetting (%) on CIFAR-100, ImageNet-Sub, and ImageNet-Full

    存储个数算法发表出处CIFAR-100ImageNet-SubImageNet-Full
    $T=5$$T=10$$T=25$$T=5$$T=10$$T=25$$T=5$$T=10$$T=25$
    $R=20$iCaRL[29]CVPR 201731.8834.1036.4843.4045.8447.6026.0333.7638.80
    iCaRL+Mnemonics[73]CVPR 202025.9426.9228.9220.9624.1229.3220.2624.0417.49
    iCaRL+GeoDL[60]CVPR 202112.2021.1026.8426.8422.4424.8821.8422.8728.22
    BiC[79]CVPR 201931.4232.5034.6027.0431.0437.8825.0628.3433.17
    BiC+Mnemonics[73]CVPR 202022.4224.5025.5218.4319.2021.4318.3219.7220.50
    UCIR[30]CVPR 201918.7021.3426.4631.8833.4835.4024.0827.2930.30
    UCIR+GeoDL[60]CVPR 20219.499.1012.0113.7812.6815.2111.0312.8115.11
    WA[31]CVPR 202013.4917.0728.3224.4332.7241.0222.8828.1131.25
    Mnemonics[73]CVPR 202110.9113.3819.8017.4017.0820.8313.8515.8219.17
    下载: 导出CSV

    表  8  非样本回放类别增量学习方法平均增量准确率 (%) 比较

    Table  8  Comparisons of average incremental accuracies (%) of non-exemplar based class incremental learning methods

    算法发表出处CIFAR-100Tiny-ImageNetImageNet-Sub
    $T=5$$T=10$$T=20$$T=5$$T=10$$T=20$$T=10$
    LwF-MC[26]$^{\dagger}$ECCV 201633.3826.0119.7034.9121.3813.6835.79
    LwM[51]$^{\dagger}$CVPR 201939.6030.2420.5437.3220.4712.5532.57
    MUC[161]$^{\dagger}$ECCV 202049.2935.9928.9737.5026.2821.60
    calibrateCIL[64]$^{\dagger}$ICME 202160.8043.5838.0536.7227.6416.2841.11
    UCIR-DF[30]CVPR 201957.8248.69
    PODNet-DF[53]ECCV 202056.8552.61
    ABD[96]ICCV 202162.4058.9744.5541.64
    R-DFCIL[97]ECCV 202264.7861.7148.9147.60
    IL2A[106]$^{\dagger}$NeurIPS 202166.1658.2058.0147.2144.6940.0457.98
    PASS[13]$^{\dagger}$CVPR 202163.8459.8758.0649.5347.1941.9962.09
    SSRE[114]CVPR 202265.8865.0461.7050.3948.9348.1767.69
    SDC-new[107, 115]CVPR 202066.2062.7059.2053.2950.4848.7968.60
    Fusion[115]CVPR 202266.9064.8061.5054.1652.6350.2469.30
    下载: 导出CSV

    表  9  类别增量学习方法对比与总结

    Table  9  Comparison and summary of class incremental learning methods

    方法分类包含子类代表文献核心思想优点缺点
    参数正则化参数重要性估计[25, 2728]显式约束重要参数更新, 或者约束梯度更新方向不需要保存样本, 模型更新快速, 时间、空间复杂度低分类器有严重偏差, 类别增量性能差
    子空间投影[4648]
    知识蒸馏重要特征蒸馏[26, 30, 5051, 53]保持新旧模型对给定数据的输出一致性能够较好地保持已有知识, 成为很多方法的基础组成部分需要保存上一增量阶段的模型, 占用存储空间
    样本关系蒸馏[5560]
    辅助数据蒸馏[6264, 134]
    数据回放真实数据回放[29, 66, 73]保存一小部分旧类别数据用于后续再学习类别增量学习性能好, 且易于实现容易过拟合存储的数据, 时间、空间复杂度高, 隐私性不好
    新旧偏差校准[3031, 7781]
    生成数据回放[95100]
    特征回放真实特征回放[103105]保存深度特征空间的旧类别特征来维持决策面性能较好, 时间、空间复杂度低随着增量过程中特征提取器的更新, 保存的旧类别特征有效性降低
    类别原型回放[13, 106107, 114115]
    生成特征回放[108109]
    网络结构结构动态扩展[121, 125]冻结已有网络参数, 新参数用于学习新类别较好地保持旧类别知识, 同时能够较充分地学习新类别网络参数量逐渐增大, 时间、空间复杂度高
    下载: 导出CSV
  • [1] He K M, Zhang X Y, Ren S Q, Sun J. Deep residual learning for image recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE, 2016. 770−778
    [2] Feichtenhofer C, Fan H Q, Malik J, He K M. SlowFast networks for video recognition. In: Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, South Korea: IEEE, 2019. 6201−6210
    [3] Qian Y M, Bi M X, Tan T, Yu K. Very deep convolutional neural networks for noise robust speech recognition. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2016, 24(12): 2263-2276 doi: 10.1109/TASLP.2016.2602884
    [4] Silver D, Schrittwieser J, Simonyan K, Antonoglou I, Huang A, Guez A, et al. Mastering the game of go without human knowledge. Nature, 2017, 550(7676): 354-359 doi: 10.1038/nature24270
    [5] Wurman P R, Barrett S, Kawamoto K, MacGlashan J, Subramanian K, Walsh T J, et al. Outracing champion Gran Turismo drivers with deep reinforcement learning. Nature, 2022, 602(7896): 223-228 doi: 10.1038/s41586-021-04357-7
    [6] Redmon J, Divvala S, Girshick R, Farhadi A. You only look once: Unified, real-time object detection. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE, 2016. 779−788
    [7] Geng C X, Huang S J, Chen S C. Recent advances in open set recognition: A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(10): 3614-3631 doi: 10.1109/TPAMI.2020.2981604
    [8] Zhang X Y, Liu C L, Suen C Y. Towards robust pattern recognition: A review. Proceedings of the IEEE, 2020, 108(6): 894-922 doi: 10.1109/JPROC.2020.2989782
    [9] Hadsell R, Rao D, Rusu A A, Pascanu R. Embracing change: Continual learning in deep neural networks. Trends in Cognitive Sciences, 2020, 24(12): 1028-1040 doi: 10.1016/j.tics.2020.09.004
    [10] Parisi G I, Kemker R, Part J L, Kanan C, Wermter S. Continual lifelong learning with neural networks: A review. Neural Networks, 2019, 113: 54-71 doi: 10.1016/j.neunet.2019.01.012
    [11] Hendrycks D, Gimpel K. A baseline for detecting misclassified and out-of-distribution examples in neural networks. In: Proceedings of the 5th International Conference on Learning Representations (ICLR). Toulon, France: OpenReview.net, 2017.
    [12] Han K, Rebuffi S A, Ehrhardt S, Vedaldi A, Zisserman A. AutoNovel: Automatically discovering and learning novel visual categories. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(10): 6767-6781
    [13] Zhu F, Zhang X Y, Wang C, Yin F, Liu C L. Prototype augmentation and self-supervision for incremental learning. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, USA: IEEE, 2021. 5867−5876
    [14] Yang J K, Zhou K Y, Li Y X, Liu Z W. Generalized out-of-distribution detection: A survey. arXiv preprint arXiv: 2110.11334, 2021.
    [15] She Q, Feng F, Hao X Y, Yang Q H, Lan C L, Lomonaco V, et al. OpenLORIS-object: A robotic vision dataset and benchmark for lifelong deep learning. In: Proceedings of the IEEE International Conference on Robotics and Automation (ICRA). Paris, France: IEEE, 2020. 4767−4773
    [16] Liu B, Mazumder S. Lifelong and continual learning dialogue systems: Learning during conversation. In: Proceedings of the 35th AAAI Conference on Artificial Intelligence. AAAI, 2021. 15058−15063
    [17] Wang Y Q, Yao Q M, Kwok J T, Ni L M. Generalizing from a few examples: A survey on few-shot learning. ACM Computing Surveys, 2021, 53(3): Article No. 63
    [18] Goodfellow I J, Mirza M, Xiao D, Courville A, Bengio Y. An empirical investigation of catastrophic forgetting in gradient-based neural networks. arXiv preprint arXiv: 1312.6211, 2013.
    [19] McCloskey M, Cohen N J. Catastrophic interference in connectionist networks: The sequential learning problem. Psychology of Learning and Motivation, 1989, 24: 109-165
    [20] Hoi S C H, Sahoo D, Lu J, Zhao P L. Online learning: A comprehensive survey. Neurocomputing, 2021, 459: 249-289 doi: 10.1016/j.neucom.2021.04.112
    [21] Cauwenberghs G, Poggio T. Incremental and decremental support vector machine learning. In: Proceedings of the 13th International Conference on Neural Information Processing Systems. Denver, USA: MIT Press, 2000. 388−394
    [22] Shrestha P. Incremental learning strategies with random forest classifiers. In: Proceedings of the 32nd WIC Symposium on Information Theory. Brussels, Belgium: WIC, 2011. 1−6
    [23] Mensink T, Verbeek J, Perronnin F, Csurka G. Distance-based image classification: Generalizing to new classes at near-zero cost. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(11): 2624-2637 doi: 10.1109/TPAMI.2013.83
    [24] Ristin M, Guillaumin M, Gall J, Van Gool L. Incremental learning of random forests for large-scale image classification. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(3): 490-503 doi: 10.1109/TPAMI.2015.2459678
    [25] Kirkpatrick J, Pascanu R, Rabinowitz N, Veness J, Desjardins G, Rusu A A, et al. Overcoming catastrophic forgetting in neural networks. Proceedings of the National Academy of Sciences of the United States of America, 2017, 114(13): 3521-3526 doi: 10.1073/pnas.1611835114
    [26] Li Z Z, Hoiem D. Learning without forgetting. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(12): 2935-2947 doi: 10.1109/TPAMI.2017.2773081
    [27] Zenke F, Poole B, Ganguli S. Continual learning through synaptic intelligence. In: Proceedings of the 34th International Conference on Machine Learning (ICML). Sydney, Australia: PMLR, 2017. 3987−3995
    [28] Aljundi R, Babiloni F, Elhoseiny M, Rohrbach M, Tuytelaars T. Memory aware synapses: Learning what (not) to forget. In: Proceedings of the 15th European Conference on Computer Vision (ECCV). Munich, Germany: Springer, 2018. 144−161
    [29] Rebuffi S A, Kolesnikov A, Sperl G, Lampert C H. iCaRL: Incremental classifier and representation learning. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA: IEEE, 2017. 5533−5542
    [30] Hou S H, Pan X Y, Loy C C, Wang Z L, Lin D H. Learning a unified classifier incrementally via rebalancing. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, USA: IEEE, 2019. 831−839
    [31] Zhao B W, Xiao X, Gan G J, Zhang B, Xia S T. Maintaining discrimination and fairness in class incremental learning. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, USA: IEEE, 2020. 13205−13214
    [32] De Lange M, Aljundi R, Masana M, Parisot S, Jia X, Leonardis A, et al. A continual learning survey: Defying forgetting in classification tasks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(7): 3366-3385
    [33] Masana M, Liu X L, Twardowski B, Menta M, Bagdanov A D, van de Weijer J. Class-incremental learning: Survey and performance evaluation on image classification. IEEE Transactions on Pattern Analysis and Machine Intelligence, DOI: 10.1109/TPAMI.2022.3213473
    [34] Mai Z, Li R W, Jeong J, Quispe D, Kim H, Sanner S. Online continual learning in image classification: An empirical survey. Neurocomputing, 2022, 469: 28-51 doi: 10.1016/j.neucom.2021.10.021
    [35] 韩亚楠, 刘建伟, 罗雄麟. 连续学习研究进展. 计算机研究与发展, 2022, 59(6): 1213-1239 doi: 10.7544/issn1000-1239.20201058

    Han Ya-Nan, Liu Jian-Wei, Luo Xiong-Lin. Research progress of continual learning. Journal of Computer Research and Development, 2022, 59(6): 1213-1239 doi: 10.7544/issn1000-1239.20201058
    [36] 杨静, 李斌, 李少波, 王崎, 于丽娅, 胡建军, 等. 脑启发式持续学习方法: 技术、应用与发展. 电子与信息学报, 2022, 44(5): 1865-1878 doi: 10.11999/JEIT210932

    Yang Jing, Li Bin, Li Shao-Bo, Wang Qi, Yu Li-Ya, Hu Jian-Jun, et al. Brain-inspired continuous learning: Technology, application and future. Journal of Electronics & Information Technology, 2022, 44(5): 1865-1878 doi: 10.11999/JEIT210932
    [37] Krizhevsky A, Hinton G. Learning multiple layers of features from tiny images. Handbook of Systemic Autoimmune Diseases, 2009, 1(4):1−60
    [38] Feng T, Wang M, Yuan H J. Overcoming catastrophic forgetting in incremental object detection via elastic response distillation. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, USA: IEEE, 2022. 9417−9426
    [39] Joseph K J, Rajasegaran J, Khan S, Khan F S, Balasubramanian V N. Incremental object detection via meta-learning. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(12): 9209-9216 doi: 10.1109/TPAMI.2021.3124133
    [40] Cermelli F, Fontanel D, Tavera A, Ciccone M, Caputo B. Incremental learning in semantic segmentation from image labels. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, USA: IEEE, 2022. 4361−4371
    [41] Zhang C B, Xiao J W, Liu X L, Chen Y C, Cheng M M. Representation compensation networks for continual semantic segmentation. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, USA: IEEE, 2022. 7043-7054
    [42] Wang R, Yu T, Zhao H D, Kim S, Mitra S, Zhang R Y, et al. Few-shot class-incremental learning for named entity recognition. In: Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics. Dublin, Ireland: Association for Computational Linguistics, 2022. 571−582
    [43] Yu P F, Ji H, Natarajan P. Lifelong event detection with knowledge transfer. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing. Punta Cana, Dominican: Association for Computational Linguistics, 2021. 5278−5290
    [44] Hsu Y C, Liu Y C, Ramasamy A, Kira Z. Re-evaluating continual learning scenarios: A categorization and case for strong baselines. arXiv preprint arXiv: 1810.12488, 2018.
    [45] van de Ven G M, Tolias A S. Three scenarios for continual learning. arXiv preprint arXiv: 1904.07734, 2019.
    [46] Zeng G X, Chen Y, Cui B, Yu S. Continual learning of context-dependent processing in neural networks. Nature Machine Intelligence, 2019, 1(8): 364-372 doi: 10.1038/s42256-019-0080-x
    [47] Farajtabar M, Azizan N, Mott A, Li A. Orthogonal gradient descent for continual learning. In: Proceedings of the 23rd International Conference on Artificial Intelligence and Statistics. Palermo, Italy: PMLR, 2020. 3762−3773
    [48] Wang S P, Li X R, Sun J, Xu Z B. Training networks in null space of feature covariance for continual learning. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, USA: IEEE, 2021. 184−193
    [49] Hinton G, Vinyals O, Dean J. Distilling the knowledge in a neural network. arXiv preprint arXiv: 1503.02531, 2015.
    [50] Rannen A, Aljundi R, Blaschko M B, Tuytelaars T. Encoder based lifelong learning. In: Proceedings of the IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE, 2017. 1329−1337
    [51] Dhar P, Singh R V, Peng K C, Wu Z Y, Chellappa R. Learning without memorizing. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, USA: IEEE, 2019. 5133−5141
    [52] Zagoruyko S, Komodakis N. Paying more attention to attention: Improving the performance of convolutional neural networks via attention transfer. In: Proceedings of the 5th International Conference on Learning Representations (ICLR). Toulon, France: OpenReview.net, 2017.
    [53] Douillard A, Cord M, Ollion C, Robert T, Valle E. PODNet: Pooled outputs distillation for small-tasks incremental learning. In: Proceedings of the 16th European Conference on Computer Vision (ECCV). Glasgow, UK: Springer, 2020. 86−102
    [54] Wang L, Yoon K J. Knowledge distillation and student-teacher learning for visual intelligence: A review and new outlooks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(6): 3048-3068 doi: 10.1109/TPAMI.2021.3055564
    [55] Tao X Y, Chang X Y, Hong X P, Wei X, Gong Y H. Topology-preserving class-incremental learning. In: Proceedings of the 16th European Conference on Computer Vision. Glasgow, UK: Springer, 2020. 254−270
    [56] Liu Y, Hong X P, Tao X Y, Dong S L, Shi J G, Gong Y H. Model behavior preserving for class-incremental learning. IEEE Transactions on Neural Networks and Learning Systems, DOI: 10.1109/TNNLS.2022.3144183
    [57] Cha H, Lee J, Shin J. Co.2L: Contrastive continual learning. In: Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). Montreal, Canada: IEEE, 2021. 9496−9505
    [58] Hu X T, Tang K H, Miao C Y, Hua X S, Zhang H W. Distilling causal effect of data in class-incremental learning. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, USA: IEEE, 2021. 3956−3965
    [59] Roweis S T, Saul L K. Nonlinear dimensionality reduction by locally linear embedding. Science, 2000, 290(5500): 2323-2326 doi: 10.1126/science.290.5500.2323
    [60] Simon C, Koniusz P, Harandi M. On learning the geodesic path for incremental learning. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, USA: IEEE, 2021. 1591−1600
    [61] Gong B Q, Shi Y, Sha F, Grauman K. Geodesic flow kernel for unsupervised domain adaptation. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Providence, USA: IEEE, 2012. 2066−2073
    [62] Zhang J T, Zhang J, Ghosh S, Li D W, Tasci S, Heck L, et al. Class-incremental learning via deep model consolidation. In: Proceedings of the IEEE Winter Conference on Applications of Computer Vision (WACV). Snowmass, USA: IEEE, 2020. 1120−1129
    [63] Lee K, Lee K, Shin J, Lee H. Overcoming catastrophic forgetting with unlabeled data in the wild. In: Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, South Korea: IEEE, 2019. 312−321
    [64] Zhu F, Zhang X Y, Liu C L. Calibration for non-exemplar based class-incremental learning. In: Proceedings of the IEEE International Conference on Multimedia and Expo (ICME). Shenzhen, China: IEEE, 2021. 1−6
    [65] DeVries T, Taylor G W. Improved regularization of convolutional neural networks with cutout. arXiv preprint arXiv: 1708.04552, 2017.
    [66] Javed K, Shafait F. Revisiting distillation and incremental classifier learning. In: Proceedings of the 14th Asian Conference on Computer Vision (ACCV). Perth, Australia: Springer, 2019. 3−17
    [67] Welling M. Herding dynamical weights to learn. In: Proceedings of the 26th Annual International Conference on Machine Learning. Montreal, Canada: ACM, 2009. 1121−1128
    [68] Chaudhry A, Dokania P K, Ajanthan T, Torr P H S. Riemannian walk for incremental learning: Understanding forgetting and intransigence. In: Proceedings of the 15th European Conference on Computer Vision (ECCV). Munich, Germany: Springer, 2018. 556−572
    [69] Aljundi R, Caccia L, Belilovsky E, Caccia M, Lin M, Charlin L, et al. Online continual learning with maximally interfered retrieval. In: Proceedings of the 33rd International Conference on Neural Information Processing Systems. Vancouver, Canada: Curran Associates Inc., 2019. Article No. 1063
    [70] Shim D, Mai Z D, Jeong J, Sanner S, Kim H, Jang J. Online class-incremental continual learning with adversarial Shapley value. In: Proceedings of the 35th AAAI Conference on Artificial Intelligence. AAAI, 2021. 9630−9638
    [71] Wang L Y, Zhang X X, Yang K, Yu L H, Li C X, Hong L Q, et al. Memory replay with data compression for continual learning. In: Proceedings of the 10th International Conference on Learning Representations (ICLR). OpenReview.net, 2022.
    [72] van der Maaten L, Hinton G. Visualizing data using t-SNE. Journal of Machine Learning Research, 2008, 9(86): 2579-2605
    [73] Liu Y Y, Su Y T, Liu A A, Schiele B, Sun Q R. Mnemonics training: Multi-class incremental learning without forgetting. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, USA: IEEE, 2020. 12242−12251
    [74] Wang T Z, Zhu J Y, Torralba A, Efros A A. Dataset distillation. arXiv preprint arXiv: 1811.10959, 2018.
    [75] Zhao B, Mopuri K R, Bilen H. Dataset condensation with gradient matching. In: Proceedings of the 9th International Conference on Learning Representations (ICLR). Austria: OpenReview.net, 2021.
    [76] Zhao B, Bilen H. Dataset condensation with differentiable Siamese augmentation. In: Proceedings of the 38th International Conference on Machine Learning (ICML). PMLR, 2021.
    [77] Castro F M, Marín-Jiménez M J, Guil N, Schmid C, Alahari K. End-to-end incremental learning. In: Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer, 2018. 241−257
    [78] Ahn H, Kwak J, Lim S, Bang H, Kim H, Moon T. SS-IL: Separated softmax for incremental learning. In: Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). Montreal, Canada: IEEE, 2021. 824−833
    [79] Wu Y, Chen Y P, Wang L J, Ye Y C, Liu Z C, Guo Y D, et al. Large scale incremental learning. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, USA: IEEE, 2019. 374−382
    [80] Belouadah E, Popescu A. IL2M: Class incremental learning with dual memory. In: Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, South Korea: IEEE, 2019. 583−592
    [81] Belouadah E, Popescu A. ScaIL: Classifier weights scaling for class incremental learning. In: Proceedings of the IEEE Winter Conference on Applications of Computer Vision (WACV). Snowmass, USA: IEEE, 2020. 1255−1264
    [82] Prabhu A, Torr P H S, Dokania P K. GDumb: A simple approach that questions our progress in continual learning. In: Proceedings of the 16th European Conference on Computer Vision (ECCV). Glasgow, UK: Springer, 2020. 524−540
    [83] Liu Y Y, Schiele B, Sun Q R. RMM: Reinforced memory management for class-incremental learning. In: Proceedings of the 35th Conference on Neural Information Processing Systems. 2021. 3478−3490
    [84] Snell J, Swersky K, Zemel R. Prototypical networks for few-shot learning. In: Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA: Curran Associates Inc., 2017. 4080−4090
    [85] Lu Y J, Tian H, Cheng J, Zhu F, Liu B, Wei S S, et al. Decoding lip language using triboelectric sensors with deep learning. Nature Communications, 2022, 13(1): Article No. 1401 doi: 10.1038/s41467-022-29083-0
    [86] Yang H M, Zhang X Y, Yin F, Yang Q, Liu C L. Convolutional prototype network for open set recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(5): 2358-2370
    [87] Trepte S. The social media privacy model: Privacy and communication in the light of social media affordances. Communication Theory, 2021, 31(4): 549-570 doi: 10.1093/ct/qtz035
    [88] Li T, Sahu A K, Talwalkar A, Smith V. Federated learning: Challenges, methods, and future directions. IEEE Signal Processing Magazine, 2020, 37(3): 50-60 doi: 10.1109/MSP.2020.2975749
    [89] Appari A, Johnson M E. Information security and privacy in healthcare: Current state of research. International Journal of Internet and Enterprise Management, 2010, 6(4): 279-314 doi: 10.1504/IJIEM.2010.035624
    [90] Kitamura T, Ogawa S K, Roy D S, Okuyama T, Morrissey M D, Smith L M, et al. Engrams and circuits crucial for systems consolidation of a memory. Science, 2017, 356(6333): 73-78 doi: 10.1126/science.aam6808
    [91] Kumaran D, Hassabis D, McClelland J L. What learning systems do intelligent agents need? Complementary learning systems theory updated. Trends in Cognitive Sciences, 2016, 20(7): 512-534 doi: 10.1016/j.tics.2016.05.004
    [92] Goodfellow I, Pouget-Abadie J, Mirza M, Xu B, Warde-Farley D, Ozair S, et al. Generative adversarial networks. Communications of the ACM, 2020, 63(11): 139-144 doi: 10.1145/3422622
    [93] Odena A, Olah C, Shlens J. Conditional image synthesis with auxiliary classifier GANs. In: Proceedings of the 34th International Conference on Machine Learning (ICML). Sydney, Australia: PMLR, 2017. 2642−2651
    [94] Kingma D P, Welling M. An introduction to variational autoencoders. Foundations and Trends\textregistered in Machine Learning, 2019, 12(4): 307-392 doi: 10.1561/2200000056
    [95] Yin H X, Molchanov P, Alvarez J M, Li Z Z, Mallya A, Hoiem D, et al. Dreaming to distill: Data-free knowledge transfer via DeepInversion. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, USA: IEEE, 2020. 8712−8721
    [96] Smith J, Hsu Y C, Balloch J, Shen Y L, Jin H X, Kira Z. Always be dreaming: A new approach for data-free class-incremental learning. In: Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). Montreal, Canada: IEEE, 2021. 9354−9364
    [97] Gao Q K, Zhao C, Ghanem B, Zhang J. R-DFCIL: Relat-ion-guided representation learning for data-free class incremental learning. In: Proceedings of the 17th European Conference on Computer Vision (ECCV). Tel Aviv, Israel: Springer, 2022. 423−439
    [98] Shin H, Lee J K, Kim J, Kim J. Continual learning with deep generative replay. In: Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA: Curran Associates Inc., 2017. 2994−3003
    [99] Wu C S, Herranz L, Liu X L, Wang Y X, van de Weijer J, Raducanu B. Memory replay GANs: Learning to generate images from new categories without forgetting. In: Proceedings of the 32nd International Conference on Neural Information Processing Systems. Montreal, Canada: Curran Associates Inc., 2018. 5966−5976
    [100] Xiang Y, Fu Y, Ji P, Huang H. Incremental learning using conditional adversarial networks. In: Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, South Korea: IEEE, 2019. 6618−6627
    [101] Kemker R, Kanan C. FearNet: Brain-inspired model for incremental learning. In: Proceedings of the 6th International Conference on Learning Representations (ICLR). Vancouver, Canada: OpenReview.net, 2018.
    [102] Park W, Kim D, Lu Y, Cho M. Relational knowledge distillation. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, USA: IEEE, 2019. 3962−3971
    [103] Iscen A, Zhang J, Lazebnik S, Schmid C. Memory-efficient incremental learning through feature adaptation. In: Proceedings of the 16th European Conference on Computer Vision (ECCV). Glasgow, UK: Springer, 2020. 699−715
    [104] Pellegrini L, Graffieti G, Lomonaco V, Maltoni D. Latent replay for real-time continual learning. In: Proceedings of the IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Las Vegas, USA: IEEE, 2020. 10203−10209
    [105] Hayes T L, Kafle K, Shrestha R, Acharya M, Kanan C. REMIND your neural network to prevent catastrophic forgetting. In: Proceedings of the 16th European Conference on Computer Vision (ECCV). Glasgow, UK: Springer, 2020. 466−483
    [106] Zhu F, Cheng Z, Zhang X Y, Liu C L. Class-incremental learning via dual augmentation. In: Proceedings of the 35th International Conference on Neural Information Processing Systems. 2021. 14306−14318
    [107] Yu L, Twardowski B, Liu X L, Herranz L, Wang K, Cheng Y M, et al. Semantic drift compensation for class-incremental learning. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, USA: IEEE, 2020. 6980−6989
    [108] Liu X L, Wu C S, Menta M, Herranz L, Raducanu B, Bagdanov A D, et al. Generative feature replay for class-incremental learning. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Seattle, USA: IEEE, 2020. 915−924
    [109] Shen G H, Zhang S, Chen X, Deng Z H. Generative feature replay with orthogonal weight modification for continual learning. In: Proceedings of the International Joint Conference on Neural Networks (IJCNN). Shenzhen, China: IEEE, 2021. 1−8
    [110] Chopra S, Hadsell R, LeCun Y. Learning a similarity metric discriminatively, with application to face verification. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). San Diego, USA: IEEE, 2005. 539−546
    [111] Wang J, Song Y, Leung T, Rosenberg C, Wang J B, Philbin J, et al. Learning fine-grained image similarity with deep ranking. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA: IEEE, 2014. 1386−1393
    [112] Wang Y L, Huang G, Song S J, Pan X R, Xia Y T, Wu C. Regularizing deep networks with semantic data augmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(7): 3733-3748
    [113] van der Maaten L, Chen M M, Tyree S, Weinberger K Q. Learning with marginalized corrupted features. In: Proceedings of the 30th International Conference on Machine Learning (ICML). Atlanta, USA: JMLR.org, 2013. 410−418
    [114] Zhu K, Zhai W, Cao Y, Luo J B, Zha Z J. Self-sustaining representation expansion for non-exemplar class-incremental learning. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, USA: IEEE, 2022. 9286−9295
    [115] Toldo M, Ozay M. Bring evanescent representations to life in lifelong class incremental learning. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, USA: IEEE, 2022. 16711−16720
    [116] Jazbec M, Ashman M, Fortuin V, Pearce M, Mandt S, Rätsch G. Scalable Gaussian process variational autoencoders. In: Proceedings of the 24th International Conference on Artificial Intelligence and Statistics. PMLR, 2021. 3511−3519
    [117] van de Ven G M, Siegelmann H T, Tolias A S. Brain-inspired replay for continual learning with artificial neural networks. Nature Communications, 2020, 11(1): Article No. 4069 doi: 10.1038/s41467-020-17866-2
    [118] Rusu A A, Rabinowitz N C, Desjardins G, Soyer H, Kirkpatrick J, Kavukcuoglu K, et al. Progressive neural networks. arXiv preprint arXiv: 1606.04671, 2016.
    [119] Mallya A, Lazebnik S. PackNet: Adding multiple tasks to a single network by iterative pruning. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 7765−7773
    [120] Serrà J, Surís D, Miron M, Karatzoglou A. Overcoming catastrophic forgetting with hard attention to the task. In: Proceedings of the 35th International Conference on Machine Learning (ICML). Stockholmsmässan, Sweden: PMLR, 2018. 4555−4564
    [121] Liu Y Y, Schiele B, Sun Q R. Adaptive aggregation networks for class-incremental learning. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, USA: IEEE, 2021. 2544−2553
    [122] McClelland J L, McNaughton B L, O’Reilly R C. Why there are complementary learning systems in the hippocampus and neocortex: Insights from the successes and failures of connectionist models of learning and memory. Psychological Review, 1995, 102(3): 419-457 doi: 10.1037/0033-295X.102.3.419
    [123] Pham Q, Liu C H, Hoi S C H. DualNet: Continual learning, fast and slow. In: Proceedings of the 35th International Conference on Neural Information Processing Systems. 2021. 16131−16144
    [124] Chen T, Kornblith S, Norouzi M, Hinton G E. A simple framework for contrastive learning of visual representations. In: Proceedings of the 37th International Conference on Machine Learning (ICML). PMLR, 2020. 1597−1607
    [125] Yan S P, Xie J W, He X M. DER: Dynamically expandable representation for class incremental learning. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, USA: IEEE, 2021. 3014−3023
    [126] Kang B Y, Xie S N, Rohrbach M, Yan Z C, Gordo A, Feng J S, et al. Decoupling representation and classifier for long-tailed recognition. In: Proceedings of the 8th International Conference on Learning Representations (ICLR). Addis Ababa, Ethiopia: OpenReview.net, 2020.
    [127] Ding X H, Zhang X Y, Ma N N, Han J G, Ding G G, Sun J. RepVGG: Making VGG-style ConvNets great again. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, USA: IEEE, 2021. 13728−13737
    [128] Deng J, Dong W, Socher R, Li L J, Li K, Li F F. ImageNet: A large-scale hierarchical image database. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Miami, USA: IEEE, 2009. 248−255
    [129] LeCun Y. The MNIST database of handwritten digits [Online], available: http://yann. lecun. com/exdb/mnist/, March 1, 2023
    [130] Welinder P, Branson S, Mita T, Wah C, Schroff F, Belongie S, et al. Caltech-UCSD Birds 200, Technical Report CNS-TR-2010-001, California Institute of Technology, Pasadena, USA, 2010
    [131] Le Y, Yang X. Tiny imagenet visual recogniti on challenges. CS 231N, 2015
    [132] Cao Q, Shen L, Xie W D, Parkhi O M, Zisserman A. VGGFace2: A dataset for recognising faces across pose and age. In: Proceedings of the 13th IEEE International Conference on Automatic Face and Gesture Recognition. Xi'an, China: IEEE, 2018. 67−74
    [133] Noh H, Araujo A, Sim J, Weyand T, Han B. Large-scale image retrieval with attentive deep local features. In: Proceedings of the IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE, 2017. 3476−3485
    [134] Tang Y M, Peng Y X, Zheng W S. Learning to imagine: Diversify memory for incremental learning using unlabeled data. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, USA: IEEE, 2022. 9539−9548
    [135] Kang M, Park J, Han B. Class-incremental learning by knowledge distillation with adaptive feature consolidation. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, USA: IEEE, 2022. 16050−16059
    [136] Luo M, Chen F, Hu D P, Zhang Y F, Liang J, Feng J S. No fear of heterogeneity: Classifier calibration for federated learning with non-IID data. In: Proceedings of the 35th International Conference on Neural Information Processing Systems. 2021. 5972−5984
    [137] Lesort T, Lomonaco V, Stoian A, Maltoni D, Filliat D, Díaz-Rodríguez N. Continual learning for robotics: Definition, framework, learning strategies, opportunities and challenges. Information Fusion, 2020, 58: 52-68 doi: 10.1016/j.inffus.2019.12.004
    [138] You C S, Huang K B, Chae H, Kim B H. Energy-efficient resource allocation for mobile-edge computation offloading. IEEE Transactions on Wireless Communications, 2017, 16(3): 1397-1411 doi: 10.1109/TWC.2016.2633522
    [139] Biederman I. Human image understanding: Recent research and a theory. Computer Vision, Graphics, and Image Processing, 1985, 32(1): 29-73 doi: 10.1016/0734-189X(85)90002-7
    [140] Hase P, Chen C F, Li O, Rudin C. Interpretable image recognition with hierarchical prototypes. In: Proceedings of the 7th AAAI Conference on Human Computation and Crowdsourcing. Stevenson, USA: AAAI, 2019. 32−40
    [141] Gidaris S, Singh P, Komodakis N. Unsupervised representation learning by predicting image rotations. In: Proceedings of the 6th International Conference on Learning Representations (ICLR). Vancouver, Canada: OpenReview.net, 2018.
    [142] Shi Y J, Zhou K Q, Liang J, Jiang Z H, Feng J S, Torr P, et al. Mimicking the oracle: An initial phase decorrelation approach for class incremental learning. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, USA: IEEE, 2022. 16701−16710
    [143] Wu Z Y, Baek C, You C, Ma Y. Incremental learning via rate reduction. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, USA: IEEE, 2021. 1125−1133
    [144] Chan K H R, Yu Y D, You C, Qi H Z, Wright J, Ma Y. ReduNet: A white-box deep network from the principle of maximizing rate reduction. Journal of Machine Learning Research, 2022, 23(114): 1-103
    [145] Wang R Q, Zhang X Y, Liu C L. Meta-prototypical learning for domain-agnostic few-shot recognition. IEEE Transactions on Neural Networks and Learning Systems, 2022, 33(11): 6990-6996 doi: 10.1109/TNNLS.2021.3083650
    [146] Wang R Q, Zhu F, Zhang X Y, Liu C L. Training with scaled logits to alleviate class-level over-fitting in few-shot learning. Neurocomputing, 2023, 522: 142-151 doi: 10.1016/j.neucom.2022.12.011
    [147] Zhang C, Song N, Lin G S, Zheng Y, Pan P, Xu Y H. Few-shot incremental learning with continually evolved classifiers. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, USA: IEEE, 2021. 12450−12459
    [148] Zhu K, Cao Y, Zhai W, Cheng J, Zha Z J. Self-promoted prototype refinement for few-shot class-incremental learning. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, USA: IEEE, 2021. 6797−6806
    [149] Zhou D W, Wang F Y, Ye H J, Ma L, Pu S L, Zhan D C. Forward compatible few-shot class-incremental learning. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, USA: IEEE, 2022. 9036−9046
    [150] Tao X Y, Hong X P, Chang X Y, Dong S L, Wei X, Gong Y H. Few-shot class-incremental learning. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, USA: IEEE, 2020. 12180−12189
    [151] Kalla J, Biswas S. S3C: Self-supervised stochastic classifiers for few-shot class-incremental learning. In: Proceedings of the 17th European Conference on Computer Vision (ECCV). Tel Aviv, Israel: Springer, 2022. 432−448
    [152] Peng C, Zhao K, Wang T R, Li M, Lovell B C. Few-shot class-incremental learning from an open-set perspective. In: Proceedings of the 17th European Conference on Computer Vision (ECCV). Tel Aviv, Israel: Springer, 2022. 382−397
    [153] Gidaris S, Komodakis N. Dynamic few-shot visual learning without forgetting. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 4367−4375
    [154] Kukleva A, Kuehne H, Schiele B. Generalized and incremental few-shot learning by explicit learning and calibration without forgetting. In: Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). Montreal, Canada: IEEE, 2021. 9000−9009
    [155] Ye H J, Hu H X, Zhan D C. Learning adaptive classifiers synthesis for generalized few-shot learning. International Journal of Computer Vision, 2021, 129(6): 1930-1953 doi: 10.1007/s11263-020-01381-4
    [156] Cheng Z, Zhu F, Zhang X Y, Liu C L. Adversarial training with distribution normalization and margin balance. Pattern Recognition, 2023, 136: Article No. 109182 doi: 10.1016/j.patcog.2022.109182
    [157] Zhu F, Cheng Z, Zhang X Y, Liu C L. Rethinking confidence calibration for failure prediction. In: Proceedings of the 17th European Conference on Computer Vision (ECCV). Tel Aviv, Israel: Springer, 2022. 518−536
    [158] Kim G, Liu B, Ke Z X. A multi-head model for continual learning via out-of-distribution replay. In: Proceedings of the 1st Conference on Lifelong Learning Agents. PMLR, 2022. 548−563
    [159] Kim G, Xiao C N, Konishi T, Ke Z X, Liu B. A theoretical study on solving continual learning. arXiv preprint arXiv: 2211.02633, 2022.
    [160] Villa A, Alhamoud K, Escorcia V, Heilbron F C, Alcázar J L, Ghanem B. vCLIMB: A novel video class incremental learning benchmark. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, USA: IEEE, 2022. 19013−19022
    [161] Liu Y, Parisot S, Slabaugh G, Jia X, Leonardis A, Tuytelaars T. More classifiers, less forgetting: A generic multi-classifier paradigm for incremental learning. In: Proceedings of the 16th European Conference on Computer Vision (ECCV). Glasgow, UK: Springer, 2020. 699−716
  • 期刊类型引用(11)

    1. 沈甜雨,陶子锐,王亚东,张庭祯,刘宇航,王兴霞,杨静,李志伟,陈龙,王坤峰,王飞跃. 具身智能研究的关键问题:自主感知、行动与进化. 自动化学报. 2025(01): 43-71 . 本站查看
    2. 王家亮,王景成,李继超. 基于增量学习树模型的带钢精轧宽度预测. 锻压技术. 2024(02): 152-160 . 百度学术
    3. 李艳红,王甜甜,王素格,李德玉. 非平衡概念漂移数据流主动学习方法. 自动化学报. 2024(03): 589-606 . 本站查看
    4. 马旭淼,徐德. 机器人增量学习研究综述. 控制与决策. 2024(05): 1409-1423 . 百度学术
    5. 姚涵涛,余璐,徐常胜. 视觉语言模型引导的文本知识嵌入的小样本增量学习. 软件学报. 2024(05): 2101-2119 . 百度学术
    6. 郑士芹. 基于机器学习的计算机视觉应用. 软件. 2024(03): 180-182 . 百度学术
    7. 朱文杰,孟鑫,李根,何煜,钟玉蝶,王科,王强,张成. 水稻病虫害目标检测技术研究进展. 农业工程. 2024(06): 39-46 . 百度学术
    8. 张东阳,陆子轩,刘军民,李澜宇. 深度模型的持续学习综述:理论、方法和应用. 电子与信息学报. 2024(10): 3849-3878 . 百度学术
    9. 翁星星,庞超,许博文,夏桂松. 面向遥感图像解译的增量深度学习. 电子与信息学报. 2024(10): 3979-4001 . 百度学术
    10. 冯皓. 大模型在自然语言处理中的应用方法研究. 数字通信世界. 2024(10): 123-125 . 百度学术
    11. 刘展阳,刘进锋. 基于知识蒸馏的不存储旧数据的类增量学习. 计算机应用. 2024(S2): 12-17 . 百度学术

    其他类型引用(35)

  • 加载中
图(24) / 表(9)
计量
  • 文章访问数:  8455
  • HTML全文浏览量:  3114
  • PDF下载量:  1755
  • 被引次数: 46
出版历程
  • 收稿日期:  2022-07-21
  • 录用日期:  2022-12-01
  • 网络出版日期:  2023-01-04
  • 刊出日期:  2023-03-20

目录

/

返回文章
返回