2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

收缩、分离和聚合: 面向长尾视觉识别的特征平衡方法

杨佳鑫 于淼淼 李虹颖 李硕豪 范灵毓 张军

杨佳鑫, 于淼淼, 李虹颖, 李硕豪, 范灵毓, 张军. 收缩、分离和聚合: 面向长尾视觉识别的特征平衡方法. 自动化学报, 2024, 50(5): 898−910 doi: 10.16383/j.aas.c230288
引用本文: 杨佳鑫, 于淼淼, 李虹颖, 李硕豪, 范灵毓, 张军. 收缩、分离和聚合: 面向长尾视觉识别的特征平衡方法. 自动化学报, 2024, 50(5): 898−910 doi: 10.16383/j.aas.c230288
Yang Jia-Xin, Yu Miao-Miao, Li Hong-Ying, Li Shuo-Hao, Fan Ling-Yu, Zhang Jun. Shrink, separate and aggregate: A feature balancing method for long-tailed visual recognition. Acta Automatica Sinica, 2024, 50(5): 898−910 doi: 10.16383/j.aas.c230288
Citation: Yang Jia-Xin, Yu Miao-Miao, Li Hong-Ying, Li Shuo-Hao, Fan Ling-Yu, Zhang Jun. Shrink, separate and aggregate: A feature balancing method for long-tailed visual recognition. Acta Automatica Sinica, 2024, 50(5): 898−910 doi: 10.16383/j.aas.c230288

收缩、分离和聚合: 面向长尾视觉识别的特征平衡方法

doi: 10.16383/j.aas.c230288
基金项目: 国家自然科学基金 (62101571), 湖南省自然科学基金 (2021JJ40685)资助
详细信息
    作者简介:

    杨佳鑫:国防科技大学系统工程学院硕士研究生. 主要研究方向为长尾识别技术. E-mail: yangjiaxin21@nudt.edu.cn

    于淼淼:国防科技大学系统工程学院博士研究生. 主要研究方向为人脸伪造检测. E-mail: yumiaomiaonudt@nudt.edu.cn

    李虹颖:国防科技大学系统工程学院硕士研究生. 主要研究方向为对抗攻击. E-mail: lihongying@nudt.edu.cn

    李硕豪:国防科技大学系统工程学院副教授. 主要研究方向为场景图生成. E-mail: lishuohao@nudt.edu.cn

    范灵毓:中国人民解放军96962部队工程师. 主要研究方向为伪装目标检测与分析. E-mail: 13810576175@139.com

    张军:国防科技大学系统工程学院教授. 主要研究方向为视觉数据计算与分析. 本文通信作者. E-mail: zhangjun1975@nudt.edu.cn

Shrink, Separate and Aggregate: A Feature Balancing Method for Long-tailed Visual Recognition

Funds: Supported by National Natural Science Foundation of China (62101571) and Natural Science Foundation of Hunan Province (2021JJ40685)
More Information
    Author Bio:

    YANG Jia-Xin Master student at the College of System Engineering, National University of Defense Technology. His main research interest is long-tailed recognition

    YU Miao-Miao Ph.D. candidate at the College of System Engineering, National University of Defense Technology. Her main research interest is face forgery detection

    LI Hong-Ying Master student at the College of System Engineering, National University of Defense Technology. His main research interest is adversarial attacks

    LI Shuo-Hao Associate professor at the College of System Engineering, National University of Defense Technology. His main research interest is scene graph generation

    FAN Ling-Yu Engineer at the Unit 96962 of the PLA. Her research interest covers camouflaged object detection and analysis

    ZHANG Jun Professor at the College of System Engineering, National University of Defense Technology. Her research interest covers visual data computation and analysis. Corresponding author of this paper

  • 摘要: 数据在现实世界中通常呈现长尾分布, 即, 少数类别拥有大量样本, 而多数类别仅有少量样本. 这种数据不均衡的情况会导致在该数据集上训练的模型对于样本数量较少的尾部类别产生过拟合. 面对长尾视觉识别这一任务, 提出一种面向长尾视觉识别的特征平衡方法, 通过对样本在特征空间中的收缩、分离和聚合操作, 增强模型对于难样本的识别能力. 该方法主要由特征平衡因子和难样本特征约束两个模块组成. 特征平衡因子利用类样本数量来调整模型的输出概率分布, 使得不同类别之间的特征距离更加均衡, 从而提高模型的分类准确率. 难样本特征约束通过对样本特征进行聚类分析, 增加不同类别之间的边界距离, 使得模型能够找到更合理的决策边界. 该方法在多个常用的长尾基准数据集上进行实验验证, 结果表明不但提高了模型在长尾数据上的整体分类精度, 而且显著提升了尾部类别的识别性能. 与基准方法BS相比较, 该方法在CIFAR100-LT、ImageNet-LT和iNaturalist 2018数据集上的性能分别提升了7.40%、6.60%和2.89%.
  • 在计算机视觉领域, 以深度学习为代表的人工智能在过去的十年中取得了显著进步, 如图像识别[1]、目标检测[2]等. 推动这些进步的一个重要因素是大规模均衡数据集的创建, 如ImageNet[3-4]、MS COCO[5]和Places[6], 大规模数据使研究人员能够训练更强大的模型. 然而, 在真实的开放世界中, 与人为创造的平衡数据集不同, 自然数据呈现严重不平衡的长尾分布, 如图1所示, 少数占据主导的类别(头部类)拥有大量样本, 剩余的很多类别(尾部类)只有少量样本. 由于尾部类数据样本过少导致基于长尾数据的模型会过拟合尾部类, 使得模型在尾部类的识别中很难得到令人满意的性能. 这极大地限制了深度模型在现实世界中的应用.

    图 1  长尾分布
    Fig. 1  Long-tailed distribution

    为更广泛地应用深度学习, 面对长尾视觉问题, 人们首先选择构建均衡的数据集. 然而, 随着研究的进行, 发现人为构造均衡数据集并不是一个最优选择, 一方面费时费力, 另一方面存在天然的限制性因素. 例如在民用领域的医疗图像分析[7], 由于非病变样本占据了大多数, 导致数据呈现长尾不均衡分布. 在这种情况下, 训练得到的模型会对头部类别(非病变样本)产生过高的置信度, 而对尾部类别(病变样本)的识别能力不足. 这会降低模型在实际应用中的可靠性和有效性. 与之类似, 在军事领域也存在相似的问题, 军事样本相比于其他数据样本存在严重的稀缺性, 如全球超过10000架的波音飞机每日在世界各地飞行时留下了大量图片样本. 与之相反, 美军的B2轰炸机全球仅有20架, 且因为保密只能获取到其少量的图片样本.

    基于以上原因, 研究者提出了深度长尾识别任务[8], 即, 利用长尾分布的数据集训练模型, 然后在均衡的测试集上评估. 解决长尾问题的一个直接方法是损失敏感调整, 在训练过程中调整不同类别的损失值来重新平衡类别, 目前已经提出了大量研究[9-11]. 这些方法没有引入额外的训练参数, 拥有较高的训练效率, 令人遗憾的是这些方法对模型性能提升有限.

    通过对现有损失敏感调整方法进行综述, 发现这些方法之所以不能进一步提升模型性能, 其中一个原因是只利用了模型全连接层之后的输出, 忽略了全连接层之前更加丰富的样本特征. 本文通过可视化对比基于均衡数据的模型与基于长尾数据的模型, 发现一般的长尾识别模型之所以性能表现不佳, 很大程度上是因为尾部类样本过少导致模型提取到的特征没有明确的类边界. 如图2所示, 基于长尾数据集CIFAR100-LT的模型所提取的大量特征侵入了其他类别, 使得模型很难找到合适的分类决策边界.

    图 2  长尾与均衡数据的特征可视化
    Fig. 2  Feature visualization of long-tailed and balanced data

    在第2.2节的长尾问题分析中, 本文通过理论推导发现长尾识别精度不高的另一个重要原因: 训练集中样本数量不同导致模型分类器权重偏差. 为更好地评估分类器权重的偏差, 对模型的分类器权重计算$L_2 $范数. 如图3所示, 将模型分类器权重的$L_2 $范数可视化, 发现基线方法BS[12]训练得到的$L_2 $范数存在类别偏差, 主要表现为尾部类相关的分类器权重$L_2 $范数过小.

    图 3  基于类别的分类器权重$L_2 $范数
    Fig. 3  Class-based classifier weight $L_2 $ norm

    基于以上分析, 本文提出一种面向长尾视觉识别的特征平衡方法, 主要包含特征平衡因子和难样本特征约束. 通过利用丰富的样本特征信息对特征进行平衡和约束, 使得特征在空间中的分布更加均衡且拥有更好的聚集性.

    本文的主要贡献如下:

    1) 提出特征平衡因子, 该模块能显著平衡特征在空间的分布. 通过提高尾部类特征的$L_2 $范数, 使得尾部类分布在特征空间的最外层, 同时保持头部特征在空间的中心位置, 扩展了样本特征的类间距.

    2) 提出难样本特征约束, 使得同类样本更好地聚集在一起, 进一步降低样本被错误分类的概率, 这能让模型找到更恰当的决策边界.

    3) 多个基准数据集上的实验表明, 本文提出的长尾视觉识别特征平衡方法的性能达到了最先进的水平.

    目前长尾视觉识别中的方法主要可以分为两类, 分别是以文献[13]为代表的单网络端到端学习方法、基于知识迁移的多专家网络[14]或多阶段学习[15].

    端到端的单网络方法一般基于原有的深度学习方法, 根据长尾分布的独特性质进行改造, 如重采样、类平衡等. 动态课程学习(Dynamic curriculum learning, DCL)[16]模仿人类的学习过程, 从简单到困难逐渐增加训练难度, 以提高分类器的泛化能力和区分能力. 该方法提出一种新的课程策略来动态采样数据以实现类平衡, 首先进行随机抽样来学习一般表示, 然后根据课程策略对更多的尾部类实例进行抽样, 以解决长尾类失衡问题. 特征增强和采样自适应[17]提出使用验证集上的分类损失动态地调整不同类别的特征采样率, 从而对代表性不足的尾部类别进行更多采样. 类平衡损失[18]引入基于训练样本数的有效数, 利用这一新概念来近似不同类别的期望样本数, 从而对类进行平衡加权. 焦点损失[19]提出动态缩放的交叉熵损失, 其中比例因子随着正确类的置信度增加而衰减到零, 在训练过程中自动降低简单样本的权重, 并迅速将模型注意力集中在困难样本上. 均衡损失[20]将多类检测问题建模为一组独立的子任务, 其中每个子任务关注一个类, 通过对梯度的引导动态地提高正梯度的权重, 降低负梯度的权重, 实现类之间的平衡. Seesaw损失[21]引入缓解因子和补偿因子以平衡每个类别的正负梯度, 缓解因子降低训练过程中模型对尾部类别的惩罚, 补偿因子则将惩罚权重赋予观察到的假阳性类别, 从而提高模型的识别性能. 最优边界的标签分布解耦损失[13]专注于将源标签分布与模型预测分开, 通过在训练阶段直接将源标签分布与模型预测分离来改进模型性能. 自适应logit调整损失[22]发现部分尾部类样本特征鲜明且具有判别力, 对logit应用自适应调整项, 从自适应的角度缓解长尾问题. 上述提到的单模型网络面对长尾不平衡问题, 通过类采样或加权等方式将长尾问题转化为已有的均衡问题, 可以利用一般的网络模型进行学习训练. 这些方法实现简单, 未额外引入训练参数, 所以其运行速度较快. 然而, 这些方法并未针对性地提高模型的特征提取能力, 对损失及logit的调制只能缓解长尾问题, 所以性能提升有限.

    为提升模型的特征提取能力, 研究者将多阶段学习以及多专家网络引入长尾识别.

    通过简单地忽略尾部类别的梯度来解决长尾不平衡问题, 基于重采样的协作训练方法[23]提出一种具有双分支的视觉识别网络, 以协作的方式对均匀采样和重新平衡采样进行训练, 从而使头部和尾部类别的性能都得到了提高. 双边分支网络[24]开发两个网络分支来处理类失衡, 其中常规分支进行均匀采样, 模拟原有的长尾训练分布; 另外的再平衡分支则采样更多的尾部类样本, 最后通过对两个网络分支加权以提高尾部类性能. BAGS[25]基于类的样本数量将类划分为多个平衡的组, 让每个组训练与之对应的分类头, 这显著地降低了由类不平衡引起的分类器偏差. ResLT[26]通过优化一个主分支来识别所有类别的图像, 另外两个残差分支逐渐融合和优化, 分别增强中部类和尾部类的图像, 最后将多个分支的输出聚合进行预测. RIDE[14]基于所有训练样本利用多位专家独立学习长尾分布, 然后使用基于KL散度损失提高不同专家的多样性, 因此所有专家的预测逐渐整合, 减少了整体模型方差或不确定性. NCL[27]采用多个完整网络单独和协同学习长尾分布, 分别关注单个专家的个体监督学习和多个专家之间的知识转移, 并结合自监督对比策略, 有助于网络捕获全局的、鲁棒的特征. 自监督蒸馏[15]将训练过程解耦为表征学习和分类器训练, 表征学习基于监督和自监督信息的校准模型, 使用校准模型为所有样本生成软标签, 然后与原始的长尾硬标签结合提取新的学生模型, 最后对分类器进行微调. 参数对比学习[28]观察到有监督的对比损失有偏向于高频类别的倾向, 从而增加了不平衡学习的难度. 由此引入一组参数类可学习中心, 以优化的角度重新平衡, 从而更好地解决长尾问题. 权重平衡方法[29]通过权重平衡研究长尾识别, 基于两阶段训练范式提出一种长尾识别方法. 首先调整权值衰减, 使用交叉熵损失学习特征, 然后通过调整权值衰减和MaxNorm, 使用类平衡损失学习分类器, 这极大地提高了长尾识别的准确性.

    这些多专家及对比学习网络凭借其强大的特征提取能力, 显著提升了模型在长尾视觉识别中的性能. 但是, 更大的模型和更长的训练时间也限制了其大规模使用. 为保持多专家网络的精度, 同时拥有单模型的较快训练速度, 本文基于单模型提出面向长尾视觉识别的特征平衡方法, 借鉴多专家网络中对特征的学习方式, 引导模型实现对特征的收缩、分离到最终的聚合. 该方法通过轻微地提升单模型复杂度, 大幅度提升了模型的性能, 甚至超越了多专家网络和多阶段学习.

    为降低基于长尾数据的模型对头部类的过度偏向, 本文提出一种面向长尾视觉识别的特征平衡方法, 利用样本特征信息来平衡模型的输出, 并提高模型对难样本的识别能力, 进而实现对长尾数据的高准确率识别.

    长尾视觉识别任务是指从服从长尾分布的训练数据集上学习模型, 随后用平衡的验证集测试模型的识别精度. 本文将来自训练数据集$ Q $的训练样本定义为$ \{x_i,\; y_i\} $, $ i \in\{1,\; \cdots , \;n_j\} $. 其中$ x_i $是指训练集中属于类别$ j $的第$ i $张图片样本, $ y_i $是与之相对应的类别标签. $ n_j $代表第$ j $类的样本数量, 那么训练集中总的样本数量可表示为$ N = \sum_{j = 1}^C n_j $, 其中$ j \in\{1,\; \cdots ,\; C\} $, $ C $为样本总的类别数量. 为在下文中更清晰地表示长尾问题, 假设$ h,\;m,\; t \in \{1,\; \cdots ,\; C\} $, 那么可以用$ n_h $表示训练集中一个头部类的样本数量, 用$ n_m $及$ n_t $分别表示训练集中一个中部类和尾部类的样本数量, 那么长尾问题可以用$ n_h > n_m > n_t $表示.

    从数据集中取一个样本$ \{x_i,\; y_i\} $, 用$ F $, $ W $分别代表模型的特征提取网络和分类器网络, 那么用此网络提取这一样本特征的过程可以表示为

    $$ X_i = F(x_i; {{\Theta}}_f) $$ (1)

    其中, $ {{\Theta}}_f $表示特征提取网络的参数, $ X_i $表示模型提取到的特征. 基于上式进一步可以得到模型最终的输出

    $$ Z = W(X_i; {{\Theta}}_w) = X_iW+b $$ (2)

    其中, $b $为偏置向量, $ {{\Theta}}_w $表示分类器网络的参数, 分类器网络可以表示为$ W = \{ w_1,\; w_2,\;\cdots , \;w_j, \;\cdots , w_C\} $, $ w_j $是指与类别$ j $相关的分类器权重, 通过与卷积网络提取的特征相乘获取该样本属于$ j $类的置信度. 因此, $ Z = \left\lbrace z_{i1},\; z_{i2},\;\cdots ,\; z_{ij},\;\cdots , \;z_{iC}\right\rbrace $, 由此可以得到模型对该样本属于第$ j $个类别的输出

    $$ z_{ij} = X_i w_{j} $$ (3)

    在一般的模型训练中, 研究者们会加入权重衰减等正则化方法降低模型的过拟合. 虽然权重衰减能通过限制模型的权重增长而避免产生过拟合现象, 但是较小的模型权重也限制了模型的表征提取能力, 表现为最终提取到的特征$L_2 $范数过低(如图3所示). 这使得样本特征被限制在表征空间中的一小块区域, 呈现聚集状态(如图2), 导致类边界过于狭窄难以找到合适的决策边界, 限制了模型性能的进一步提升. 为充分利用特征空间中的区域、提升特征的$L_2 $范数和扩大类之间的边界距离, 本节将文献[30]中有关长尾分布对分类器权重影响的分析扩展到模型所有权重, 并给出更加严格的证明, 以说明训练中使用长尾数据会导致模型权重产生偏差的原因.

    用$ S $代表softmax函数, 各个类别的分类概率$ P_{i} $为

    $$ P_{i} = S(z_{ij}) = \frac{\mathrm{e}^{z_{ij}}}{\sum\limits_{j = 1}^{C} \mathrm{e}^{z_{ij}}} $$ (4)

    其中, $ P_{i} = \left\lbrace p_{i 1}, \;p_{i 2},\;\cdots ,\; p_{i j},\;\cdots ,\; p_{i C}\right\rbrace $, 模型的损失函数$ {\cal{L}} $为

    $$ {\cal{L}}(x_i;\ y_i) = -\sum_{j = 1}^C y_{ij} \ln p_{i j} $$ (5)

    其中, $ y_{ij} $是样本标签的one hot编码形式, 假设$ y_{ij} = 1 $, 则损失函数可以简化为

    $$ {\cal{L}} = -\ln p_{i j} $$ (6)

    进一步分析模型更新权重的过程, 对损失$ {\cal{L}} $求关于参数$ {{\Theta}} $的偏导, 根据链式求导规则可以拆分为以下三项

    $$ \frac{\partial {\cal{L}}}{\partial {{\Theta}}} = \frac{\partial {\cal{L}}}{\partial p_{i j}} \ \frac{\partial p_{i j }}{\partial z_{i k}} \ \frac{\partial z_{i k}}{\partial {{\Theta}}} $$ (7)

    根据式(1)、式(2)以及式(6), 式(7)中第一项和第三项的求导结果为

    $$ \begin{equation} \left\{ \begin{aligned} \frac{\partial {\cal{L}}}{\partial p_{i j}} & = -\frac{1}{p_{i j}} \\ \frac{\partial z_{i k}}{\partial {{\Theta}}} & = x_i \end{aligned} \right. \end{equation} $$ (8)

    其中, $ j $为样本属于的类别, $ k $为与第$ k $类相关的模型输出. 在对式(7)中第二项进行求导时, 需要针对$ j $与$ k $是否相等分别计算导数[31].

    1) 当$ k = j $时, 根据式(4), 式(7)中第二项的值为

    $$ \frac{\partial p_{i j}}{\partial z_{i k}}= \frac{\partial p_{i j}}{\partial z_{i j}} = \frac{\partial \left( \frac{\mathrm{e}^{z_{ij}}}{\sum\limits_{j = 1}^{C} \mathrm{e}^{z_{ij}}}\right)}{{\partial z_{i j}}} = p_{i j} \left( 1- p_{i j} \right) $$ (9)

    2) 当$ k \neq j $时, 根据式(4), 式(7)中第二项的值为

    $$ \frac{\partial p_{i j}}{\partial z_{i k}} = \frac{\partial \left( \frac{\mathrm{e}^{z_{ij}}}{\sum\limits_{j = 1}^{C} \mathrm{e}^{z_{ij}}}\right)}{{\partial z_{i k}}} = - \ p_{i j} p_{i k} $$ (10)

    综合以上计算, 可以得到损失$ {\cal{L}} $关于参数$ {{\Theta}} $的偏导

    $$ \begin{aligned} \frac{\partial {\cal{L}}}{\partial {{{\Theta}}}} = \begin{cases}{ \left( p_{i j} - 1\right) x_i}, & k = j \\ p_{i k} x_i, & k \neq j \end{cases} \end{aligned} $$ (11)

    因为$ p_{i j} \geq 0 $, 从上式可以看出:

    1) 当$ k = j $时, $ \left( p_{i j} - 1\right) x_i \leq 0 $, 即在梯度计算中与样本类别相关的模型参数将会获得负梯度;

    2) 当$ k \neq j $时, $ p_{i k} x_i \geq 0 $, 与样本类别无关的模型参数将会获得正梯度, 抑制参数权重的增长.

    基于以上结论, 在模型训练中, 每一个样本将会对与之相同的类参数贡献一次负梯度, 激励权重增长, 同时会对不同的类参数贡献$ C-1 $次正梯度, 抑制参数权重的增长. 在长尾问题中, 不失一般性可以假设有三个类, 分别是头部类、中部类以及尾部类. 已知$ n_h > n_m > n_t $, 那么头部类相关的参数将会获得$ G_{h}^{-} = n_h $次负梯度, 尾部类将会获得$ G_{t}^{-} = n_t $次负梯度. 相应地, 头部类获得的正梯度次数是$ G_{h}^{+} = \left( n_t + n_m \right) \times \left( C-1\right) $, 尾部类获得的正梯度次数是$ G_{t}^{+} = \left( n_h + n_m \right) \times \left( C-1\right) $. 那么根据长尾问题的特性$ n_h > n_m > n_t $, 可以证明

    $$ \left\{\begin{aligned} & G_{h}^- > G_{t}^-\\ & G_{h}^+ < G_{t}^+ \end{aligned} \right.$$ (12)

    从式(12)可以看出, 相比于头部类, 在训练阶段尾部类相关的参数会获得更少的负梯度和更多的正梯度, 这会导致尾部类相关的参数权重$L_2 $范数更小, 使得模型对尾部类的表示能力下降, 影响模型的泛化性能.

    因此, 在限制模型权重避免过拟合的基础上, 为使优化权重更好地表示尾部类, 本文提出面向长尾视觉识别的特征平衡方法. 该损失函数在避免过拟合的限制下让样本特征$L_2 $范数适度增长, 从而增强模型的特征表示能力.

    基于第2.2节的分析, 新调整的损失需要解决长尾识别中的两个问题. 一是为避免模型过拟合而加入权重衰减, 导致模型提取的特征$L_2 $范数过小, 在测试集中无法有效提取样本特征, 限制了模型对尾部类的表示能力; 二是基于长尾数据的模型因为训练样本过少, 提取到的样本特征较为分散(如图2所示), 导致模型在分类时难以找到合适的决策边界. 为解决以上两个问题, 本文在原有损失中加入两个额外项, 分别是基于类样本数量的特征平衡因子、面向困难样本的特征约束.

    图4所示, 该方法对特征的调整主要可以分为三个阶段. 首先, 权重衰减的加入降低了模型的过拟合, 提高了以头部类为代表的样本识别准确率, 同时, 加入权重衰减收缩了样本特征, 为后续的特征平衡因子分离特征创造了条件; 其次, 通过加入特征平衡因子让特征更加均匀地分布在特征空间, 从而提升不同类特征之间的边界距离; 最后, 借助于难样本特征约束模块, 将同类别的特征聚集在一起, 进一步增加特征的类边界.

    图 4  面向长尾视觉识别的特征平衡方法
    Fig. 4  A feature balancing method for long-tailed visual recognition
    2.3.1   特征平衡因子

    为在权重衰减的基础上提升尾部类样本特征$L_2 $范数, 增强模型对尾部类样本的特征提取能力, 本文提出的特征平衡因子在计算损失时通过对模型输出进行加权. 新加入的特征平衡因子通过为尾部类提供更多的负梯度来促进尾部类特征的增长, 从而调整模型的偏差使得特征更加均衡地分布在特征空间之中(如图4(c)所示).

    此模块加权的权重根据类别的样本数量确定, 首先计算$ j $类训练样本的分布概率

    $$ \omega_{j}\ = \ \frac{{n_{j}}}{N} $$ (13)

    由此得到每个类的分布概率$ \Omega = [ \omega_1,\; \omega_2,\;\cdots , \omega_j,\;\cdots , \;\omega_C] $. 为方便后续的计算, 对分布概率进行最大最小标准化得到$ \Omega^{\prime} $. 然后计算特征平衡因子

    $$ \begin{equation} \zeta = \ \left[ 1,\; \cdots ,\;1 \right] + \psi \ \Omega^{\prime} \ \end{equation} $$ (14)

    其中, $ \psi $控制对特征调整的强度, 更大的值会使得头部类特征更好地聚合在特征空间的内层, 尾部类特征则更加偏向于特征空间的最外层. 最后对模型输出加权得到$ Z^{\prime} $, 在计算最终的损失时能为头部类样本提供更多的梯度, 从而实现对特征的平衡. 模型的加权输出

    $$ Z^{\prime} \ = \left[\begin{array}{c} \zeta \\ \vdots \\ \zeta \end{array}\right]\cdot Z $$ (15)

    其中, “·”表示对应元素的点乘, $ \zeta \in {\bf{R}}^{1 \times C } $, $ Z\in {\bf{R}}^{b \times C } $, $ b $为模型训练时的批次大小. 模型的加权输出$ Z^{\prime} $代入原有的损失函数中, 即可得到新的加权损失

    $$ {\cal{L}}_{\mathrm{bal}} \ = \ {\cal{L}}(Z^{\prime};\ y_i) $$ (16)
    2.3.2   难样本特征约束

    基于特征平衡因子对特征的调整, 当前阶段的特征已经较为均匀地分布于特征空间(如图4(c)所示). 考虑到对所有样本优化调整边界将会显著增加模型的计算量, 又因为在长尾问题中大多数类特征已经有了很好的聚集性, 在训练过程中只需要重新调整部分样本的特征, 例如远离自己所属类别中心, 甚至侵入其他类别的样本, 如图5中的$ X_{t_p} $等. 这些样本特征与其他类别样本特征有很高的相似度, 导致模型难以成功分类, 因此可以称之为难样本. 在训练中选择难样本进行聚合以调整样本特征在空间的聚集性, 增加少量的计算量即可提高模型的识别性能. 受三元组损失[32]的启发, 同时考虑到长尾识别中类别之间的距离存在较大的差异, 本文提出基于类别中心距离的难样本特征约束, 在维持类别特征在空间布局不变的前提下, 进一步约束使得同类样本有相似的特征表现, 提升不同类样本之间的特征差异.

    图 5  难样本特征约束
    Fig. 5  Hard sample feature constraint

    为方便讨论和解释本文的难样本约束方法, 依然不失一般性地假设有三个类别, 分别代表头部类、中部类以及尾部类, 即$ n_h > n_m > n_t $. 如图5所示, 尾部类特征没有很好地聚集在一起, 一些特征如$ X_{t_p} $甚至侵入了头部类中, 导致模型无法找到合适的分类边界. 如果直接使用三元组损失会导致尾部类样本特征趋于相同而产生过拟合, 因此特征之间的距离边缘调整显得极为关键. 难样本特征约束通过引入类别特征中心和尾部类样本平均距离, 为特征的聚合提供了准确的距离边缘, 确保泛化性的同时聚合了同类特征.

    首先, 根据训练样本中的特征$ X_i $计算训练样本第$ j $类的类别特征中心$ T_{j} $

    $$ T_{j}\ = \ \frac{1}{n_{j}} \sum_{i = 1}^{n_{j}} X_i $$ (17)

    然后, 根据类别特征中心$ T_{i} $和$ T_{j} $计算类别之间的欧氏距离

    $$ D_{ij}\ = \ \parallel T_{i} -T_{j} \parallel_2 $$ (18)

    损失计算采用三元组损失[32]提出的方法, 通过计算特征之间的欧氏距离并与0取最大值确保损失恒为正. 基于难样本特征约束的损失为

    $$ \begin{equation} {\cal{L}}_{\mathrm{con}} = \max (D(X_{t_a}, X_{t_p})-D(X_{t_a}, X_{h_n})+\alpha, 0) \end{equation} $$ (19)

    其中, $ \alpha $为边缘, $ X_{t_a} $表示从尾部类中选择的一个锚点样本, $ X_{t_p} $是指从尾部类中选择的正样本, $ X_{h_n} $代表从头部类中选择的负样本, $ D(X_{t_a}, \;X_{t_p}) $为同类样本特征之间的距离, $ D(X_{t_a}, \;X_{h_n}) $为不同类样本特征之间的距离. 理想状态下, 同类样本特征之间的距离趋近于零, 不同类样本特征之间的距离趋近于对应类别特征中心之间的距离. 对于不满足这一条件的样本特征, 在损失计算时施加惩罚项. 通过对这一损失的计算, 可以使同类样本聚合在一起拥有更加相似的特征, 不同类样本具有更大的特征差异, 这使得类与类之间产生更加清晰的分类边界, 进而提升模型的整体性能.

    图4(d)所示, 难样本特征约束需要保持尾部类特征分布在空间的最外层, 即尾部类拥有更大的特征$L_2 $范数, 与此同时让其距离头部类样本特征足够远. 基于特征平衡因子的加权训练, 尾部类特征已经拥有了更大的$L_2 $范数. 因此, 边缘的设定应该与类别特征现有的空间分布保持一致, 即与类别之间的距离成正比. 同时, 避免尾部类特征完全趋同, 需要在类别距离的基础上减去尾部类特征间的平均距离, 即

    $$ \begin{equation} \alpha = D_{ij} -average \end{equation} $$ (20)

    其中, $ average $为尾部类特征之间的平均距离, 计算方式如下

    $$ \begin{equation} average = \ \frac{1}{n_{t}\left( n_{t}-1\right) } \sum\limits_{i = 1}^{n_{t}} \sum\limits_{k = 1}^{n_{t}} \parallel X_i -X_k \parallel_2 \end{equation} $$ (21)

    图5所示, 加入难样本特征约束模块后, 训练得到的特征类内可以有更好的聚集性, 类间有更加清晰的分类边界.

    本文提出的特征平衡方法包括两个部分: 基于特征平衡因子的损失函数$ {\cal{L}}_{\mathrm{bal}} $, 如交叉熵损失或平衡softmax交叉熵损失; 基于特征的难样本约束损失$ {\cal{L}}_{\mathrm{con}} $. 总损失$ {\cal{L}} $可表示为

    $$ \begin{equation} {\cal{L}} = {\cal{L}}_{\mathrm{bal}} + {\cal{L}}_{\mathrm{con}} \end{equation} $$ (22)

    在时间及空间复杂度方面, 因该方法未引入新的可学习参数, 只增加了一些标量的计算, 所以训练时新增的负担可以忽略不计.

    过去几年, 为更好地研究长尾问题, 研究者们提出了多个长尾数据集. 本文在实验中使用三个常用的长尾识别数据集, 以验证本文方法整体及各模块的有效性. 表1中总结了这三个长尾数据集的基本信息, 并在下面给出详细的介绍.

    表 1  数据集的基本信息
    Table 1  Basic information of the datasets
    数据集类数量 (个)训练样本 (张)测试样本 (张)$IF$
    CIFAR100-LT1001084710000100
    ImageNet-LT1000115846500000256
    iNaturalist 2018814243751324426435
    下载: 导出CSV 
    | 显示表格

    1) CIFAR100-LT

    原始的CIFAR数据集[33]拥有50000张训练图像和10000张测试图像, 这些图像都是32 × 32大小的三维彩色图像. CIFAR10是该数据集的粗粒度版本, 总共拥有10个类别, 训练集和测试集中每个类的数量分别为5000和1000. CIFAR100则是原始数据集的细粒度版本, 是在CIFAR10基础上将数据集分为100个类别, 每个类别拥有500和100个训练及测试样本. 基于以上两个数据集, 文献[18]创建了数据集的长尾版本, 方法是根据不平衡因子$ IF $以指数衰减的方式下采样训练集, 但保持测试集不变. 不平衡的强度由$ IF $控制, 具体计算方式为$ IF = \ n_{\mathrm{max}}\ / \ n_{\mathrm{min}} $, 其中$ n_{\mathrm{max}} $和$ n_{\mathrm{min}} $分别是类别的最大和最小训练图像数. 在本次实验中, 取$ IF = \left\lbrace 100, 50, 10\right\rbrace $部署完成所有的测试验证. 根据每个类别的数量将其分为头部、中部以及尾部类别, 具体的分类阈值为100和20.

    2) ImageNet-LT

    ImageNet-LT是ImageNet的长尾版本, 与长尾版本的CIFAR数据集类似, 有一个不平衡的训练集和一个平衡的测试集. 它与原始的ImageNet-1K[3]一样拥有1000个类别, 训练集则是由文献[8]根据帕累托分布下采样得到. 最终的训练集共有115846张图像, 最多的类有1280张图像, 最少的类有5张图像.

    3) iNaturalist 2018

    iNaturalist是一个真实世界的细粒度物种分类和检测数据集, 它将全世界各地的博物学家组成一个社交网络, 通过公众参与的方式生成高质量的生物多样性数据, 将这些数据综合到计算机视觉模型而推进生物多样性. 目前最流行两个版本, 分别是包含5089个类别共计579184张训练图像的iNaturalist 2017[34]以及在8142个类别中有437513个训练样本的2018版, 2018版的不平衡因子为512. 本文的实验部署选择最新的iNaturalist 2018以更好地模拟真实场景.

    对于训练时的基本设定, 为与先前的研究工作[9, 27, 29]进行公平对比, 本文与文献[29]的设定保持一致, 针对不同的数据集部署与之对应的设定. 所有的代码都是使用PyTorch在4块GeForce GTX 3090 GPUs上完成的. 针对CIFAR100-LT数据集, 采用ResNet-32[35]作为所有实验的骨干网络和线性分类器, 对实验结果有重要影响的权重衰减值为0.0040. 针对ImageNet-LT和iNaturalist 2018数据集, 分别采用ResNet-50[35]、ResNeXt-50[36]作为骨干网络, 权重衰减值为0.0002.

    其他详细信息如表2所示. $ \psi $的值设置为0.6, 第3.5节进行了相应的参数分析. 所选用的模型评估指标遵循以往研究的设定, 选用Top-1准确率来衡量模型的识别精度.

    表 2  模型的基本设定
    Table 2  Basic settings of the model
    数据集CIFAR100-LTImageNet-LTiNaturalist 2018
    骨干网络ResNet-32ResNet-50ResNeXt-50
    batch size64256512
    权重衰减0.00400.00020.0002
    初始学习率0.10.20.2
    调整策略warmupcosinecosine
    动量0.90.90.9
    下载: 导出CSV 
    | 显示表格

    本文在三个数据集上与多个世界上最先进的方法进行对比, 以验证本文提出的特征平衡方法的有效性. 具体的比较结果见表3表4表5. 本文将所提出的特征平衡方法与其他类似的长尾损失、空间复杂度更高的多专家网络以及目前最先进的方法进行比较, 以验证该方法的性能. 最好的结果以粗体表示, 排名第二的结果用下划线强调, 排名第三的结果以斜体表示.

    1) CIFAR100-LT

    当不平衡因子为100、50和10时, 本文方法在CIFAR100-LT上的性能比较结果如表3所示. 与其他类似的方法相比较, 如KPS[9]、TSC[11]和LDAM-DRW[37], 在所有不平衡率下都拥有较高的识别准确率. 将该方法与基线方法CE和BS[12]进行比较, 可以发现该方法能显著提升基线模型的性能. 例如, 在$ IF = 100 $的设置下, 该方法将基线模型CE和BS在CIFAR100-LT上的Top-1准确率分别提升了$ 19.6\% $和$ 7.4\% $. 与2023年最先进的方法比较, 本文提出的方法依然取得了竞争性的结果, 在多种不平衡因子$ IF $下都超过了最新的方法[38-40]. 更加令人惊喜的是, 本文的端到端单网络性能甚至超越了复杂度更高的多阶段以及多专家网络. 例如当不平衡因子为100时, 它超越了第二优方法SHIKE[38] 1.9%. 与这些多专家网络相比, 本文的特征平衡方法只基于训练样本数量调整损失函数, 能够更简单地实现.

    表 3  CIFAR100-LT上的Top-1准确率 (%)
    Table 3  Top-1 accuracy on CIFAR100-LT (%)
    方法来源年份CIFAR100-LT
    1050100
    CE[41]55.743.938.6
    CE-DRW[41]NeurIPS202257.947.941.1
    LDAM-DRW[37]NeurIPS201958.746.342.0
    Causal Norm[42]NeurIPS202059.650.344.1
    BS[12]NeurIPS202063.050.8
    Remix[43]ECCV202059.249.545.8
    RIDE(3E)[14]ICLR202048.0
    MiSLAS[44]CVPR202163.252.347.0
    TSC[11]CVPR202259.047.443.8
    WD[29]CVPR202268.757.753.6
    KPS[9]PAMI202349.245.0
    PC[40]IJCAI202369.157.853.4
    SuperDisco[39]CVPR202369.358.353.8
    SHIKE[38]CVPR202359.856.3
    特征平衡方法本文73.363.058.2
    下载: 导出CSV 
    | 显示表格

    2) ImageNet-LT和iNaturalist 2018

    表4表5展示了在两个大规模长尾数据集上的实验结果. 大规模数据集的实验结果与CIFAR100-LT的实验结果基本一致, 在这两个大规模数据集上仍然优于基线方法和大部分最先进的方法. 在ImageNet-LT和iNaturalist 2018上, 特征平衡方法的性能分别排名第二和第三, 依然领先于PC[40]、KPS[9]等方法. 与基线方法BS[12]相比, 本文提出的特征平衡方法将ImageNet-LT和iNaturalist 2018上的Top-1准确率分别提升了6.60%和2.89%, 性能得到了显著提升.

    表 4  ImageNet-LT上的Top-1准确率 (%)
    Table 4  Top-1 accuracy on ImageNet-LT (%)
    方法来源年份骨干网络头部类中部类尾部类总计
    CE[41]ResNet-5064.033.85.841.60
    CE-DRW[41]NeurIPS2022ResNet-5061.747.328.850.10
    LDAM-DRW[37]NeurIPS2019ResNet-5060.446.930.749.80
    Causal Norm[42]NeurIPS2020ResNeXt-5062.748.831.651.80
    BS[12]NeurIPS2020ResNet-5060.948.832.151.00
    Remix[43]ECCV2020ResNet-1860.446.930.748.60
    RIDE(3E)[14]ICLR2020ResNeXt-5066.251.734.955.40
    MiSLAS[44]CVPR2021ResNet-5061.751.335.852.70
    CMO[41]CVPR2022ResNet-5066.453.935.656.20
    TSC[11]CVPR2022ResNet-5063.549.730.452.40
    WD[29]CVPR2022ResNeXt-5062.550.441.553.90
    KPS[9]PAMI2023ResNet-5051.28
    PC[40]IJCAI2023ResNeXt-5063.550.842.754.90
    SuperDisco[39]CVPR2023ResNeXt-5066.153.337.157.10
    SHIKE[38]CVPR2023ResNet-5059.70
    特征平衡方法本文ResNet-5067.954.340.157.60
    ResNeXt-5067.655.341.758.19
    下载: 导出CSV 
    | 显示表格
    表 5  iNaturalist 2018上的Top-1准确率 (%)
    Table 5  Top-1 accuracy on iNaturalist 2018 (%)
    方法来源年份骨干网络头部类中部类尾部类总计
    CE[41]ResNet-5073.963.555.561.00
    LDAM-DRW[37]NeurIPS2019ResNet-5066.10
    BS[12]NeurIPS2020ResNet-5070.070.269.970.00
    Remix[43]ECCV2020ResNet-5070.50
    RIDE(3E)[14]ICLR2020ResNet-5070.272.272.772.20
    MiSLAS[44]CVPR2021ResNet-5073.272.470.471.60
    CMO[41]CVPR2022ResNet-5068.772.673.172.80
    TSC[11]CVPR2022ResNet-5072.670.667.869.70
    WD[29]CVPR2022ResNet-5071.270.469.770.20
    KPS[9]PAMI2023ResNet-5070.35
    PC[40]IJCAI2023ResNet-5071.670.670.270.60
    SuperDisco[39]CVPR2023ResNet-5072.372.971.373.60
    SHIKE[38]CVPR2023ResNet-5074.50
    特征平衡方法本文ResNet-5074.972.273.272.89
    ResNeXt-5074.672.372.272.53
    下载: 导出CSV 
    | 显示表格

    1)特征降维可视化. 为更直观地理解本文方法的作用效果, 本文基于CIFAR100-LT数据集等间隔选择10个类, 利用UMAP[45]方法将模型获取的高维特征降低至三维, 并对三维特征进行可视化, 通过展示特征在空间中的变化进而说明本文方法的实现过程. 如图6所示, 以图4的方法示意图为基准, 根据所使用本文方法模块的不同训练四个阶段模型, 并分别可视化每个阶段的训练集及测试集特征. 具体结果如下:

    图 6  特征可视化对比
    Fig. 6  Comparison of feature visualization

    a)阶段一是指仅使用交叉熵损失的基线模型. 从图中可以看到, 该阶段模型收敛之后提取的训练集特征各类别之间差异度较小, 在图中表现为不同类特征聚集在一起. 这说明模型虽然在训练集上实现了收敛, 即在类之间找到了合适的分类决策边界, 但在特征之间并没有留出足够的空余距离, 会导致模型在训练集上的泛化性较差. 阶段一的下图为模型提取的测试集特征可视化, 结果与预期一致, 特征具有区域聚集性. 然而, 特征相似度过高导致模型最后的分类器很难找到一条合理的决策边界, 从而降低了模型在测试集上的整体识别精度. 以淡橙色和淡绿色为代表的许多尾部类测试集样本侵入了其他类别的区域, 使得模型很难准确识别这些特征的类别.

    b)阶段二是指在基线模型上加入权重衰减的模型. 从阶段二可以看到, 权重衰减的加入降低了模型的过拟合, 显著提升了模型的泛化能力. 训练集中同类特征的相似性提高, 与其他类别的相似性进一步降低. 相比于阶段一, 测试集的特征也表现出了更好的聚集性, 让模型能找到更加合理的决策分类边界. 同时, 受限于UMAP降维方法只能反映特征之间的相似性和拓扑关系, 无法反映特征之间的绝对位置变化, 难以表现出模型对特征空间位置的调整优化. 因此, 为反映特征空间布局的变化, 本文使用特征的$L_2 $范数进行测量特征, 结果如图7的黄色线条所示, 阶段二测试集特征的$L_2 $范数显著减小, 用权重衰减实现了方法中的收缩过程.

    图 7  特征$L_2 $范数对比
    Fig. 7  Feature $L_2 $ norm comparison

    c)阶段三是指在阶段二模型的基础上加入特征平衡因子, 旨在增大不同类特征之间的差异, 在图6(c) 的第三阶段表现为不同类特征之间的距离增大. 从阶段三的训练集样本分布情况可以很容易看出, 不同类样本特征之间更加分散, 大部分类之间具有明显的分界. 伴随着训练集样本特征之间的类别分离, 测试集样本也实现了一定程度的分离, 模型在最终的识别中也能找到更合理的决策边界. 图7的红色线条也证实了这一点, 特征平衡因子的加入, 让不同类特征的差异度更大.

    d)阶段四是在阶段三的基础上加入难样本约束模块得到的模型. 难样本约束模块旨在降低同类特征之间的差异, 特征的可视化结果应表现为同类特征的距离减小, 使得同类特征的聚集更加紧密. 图6(d)的可视化效果与实验预期保持一致, 特征分布的整体布局保持了上一阶段的状态, 同类之间的特征聚集紧密度显著提升. 在训练集上可以明显看出, 绿色、红色以及粉红色等类别的特征由上一阶段的圆柱状变为该阶段的球状, 相互之间结合更加紧密. 测试集中的以绿色、粉红色为代表的尾部类呈现这种现象.

    2)特征$L_2 $范数对比. 继续使用CIFAR100-LT训练集中随机选取的10个类别进行可视化. 如图7所示, 蓝色、黄色以及红色线条分别对应交叉熵损失、加入权重衰减以及本文提出的特征平衡方法, 即图4中对应的图4(b)、图4(c)、图4(d). 从图7中可以看到, 在原始的交叉熵损失函数下, 模型所提取的特征$L_2 $范数比较大, 也存在过拟合的问题. 加入权重衰减之后, 特征的$L_2 $范数值显著减小, 过拟合问题得到有效解决. 特征$L_2 $范数的减小也限制了模型对尾部类样本的特征提取能力, 正如图7中红色线条所示, 本文的特征平衡方法在维持头部类不变的基础上, 提升了尾部类样本的特征$L_2 $范数, 从而提高了模型的特征提取能力, 进一步提升了模型的识别精度.

    1) 参数$ \psi $分析

    在不平衡率为100的CIFAR100-LT数据集上对加权强度$ \psi $进行参数分析, 如图8所示. 为寻找一个合适的$ \psi $值, 对所提出的具有一系列$ \psi $的特征平衡方法进行实验. $ \psi $控制了对特征加权的强度, 实验结果显示, 随着加权强度的增加, 模型的整体识别准确率会经历从上升到下降的过程. 同时, 在$ \psi<0.6 $时头部类的识别准确率会有轻微的下降, 尾部类的准确率会有一个显著提升, 并在$ \psi = 0.6 $时取得尾部以及整体的最高识别准确率. 这说明本文提出的方法能获得这样的性能主要得益于通过对损失进行平衡, 调整训练时头尾部类的梯度, 使得模型提取的特征更加均衡. 这让模型保持头部性能的同时显著提升模型对尾部类的识别性能. 从而证明本文所提方法对长尾视觉识别的有效性.

    图 8  参数$\psi $分析
    Fig. 8  Analysis of the parameter$\psi $

    2) 模块的消融实验

    为详细分析特征平衡方法各模块的有效性以及贡献权重, 本文继续在CIFAR100-LT数据集上对各个模块进行详细的消融研究, 实验结果如表6所示. 为进行全面的分析, 避免基线方法差异对实验造成影响, 本文使用CE和BS[12]两个基线方法进行对比实验, 以更加合理地验证特征平衡方法的有效性. 实验主要由图4中提到的三个组件组成, 分别是权重衰减、特征平衡因子以及难样本特征约束. 从实验结果可以看到, 本文提出的特征平衡因子在CE和BS基线方法基础上分别提升了1.6%和0.6%. 进一步加入难样本约束后, 性能指标再次提升达到最高, 分别累计提升2.3%和2.0%. 从不同类的角度看, 特征平衡因子在显著提升尾部类性能时会降低头部类的性能, 因为该方法在提高尾部类特征值时, 会不可避免地降低头部类的聚集性. 难样本约束模型则会全面提升模型的识别性能, 因为该方法通过约束难样本实现了所有特征更好的平衡, 帮助模型找到了更清晰的分类边界. 综合来看, 在两个基线方法下, 本文提出的所有组件都实现了持续的性能提升, 这证明了本文特征平衡方法的有效性.

    表 6  模块的消融实验
    Table 6  Ablation experiments of the module
    数据增强权重衰减特征平衡因子难样本特征约束CEBS
    头部中部尾部总体头部中部尾部总体
    38.650.8
    76.045.616.947.672.051.528.051.6
    82.252.313.351.078.255.331.656.2
    79.956.516.152.676.156.836.857.6
    80.157.617.153.376.657.937.458.2
    下载: 导出CSV 
    | 显示表格

    3) 时空复杂度分析

    时间复杂度分析. 基线方法交叉熵损失函数的时间复杂度可以表示为$ \mathrm{O}(C) $, 其中$ C $为第2.1节提到的类别数量. 对于特征平衡因子模块, 式(13)$ \sim $(15)的计算与类别无关且没有引入可学习的参数, 只增加了简单的加法和乘法. 因此, 加入特征平衡因子模块的损失函数时间复杂度依然为$ \mathrm{O}(C) $. 对于难样本特征约束模块, 式(18)需要计算类别之间的距离, 会使得模型的整体时间复杂度轻微上升到$ \mathrm{O}(C^2) $.

    空间复杂度分析. 特征平衡因子在计算过程中只需要存储基于类别的权重, 没有引入其他的变量. 难样本特征约束模块在计算中需要存储类别的特征中心点, 但只需要保留最近一次的计算结果. 因此, 模型的整体空间复杂度相比于基线模型没有变化.

    针对深度长尾识别任务中模型对尾部类的偏差问题, 本文通过分析这一现象的形成原因, 提出面向长尾视觉识别的特征平衡方法, 不仅能扩展类之间的距离, 还能聚集同类样本特征. 通过调整特征的空间分布实现了更高的识别精度. 特征的可视化结果与实验预期一致, 显示该方法实现了特征的收缩、分离和聚合. 同时, 在多个基准数据集上的实验表明, 所提出的方法取得了最先进的性能. 然而, 该方法也存在一定的局限, 特征平衡因子平衡头尾样本特征时, 会不可避免地降低头部特征的聚集性, 使得该方法显著提升尾部识别准确率时会轻微降低头部类的识别性能, 这将是下一步研究工作的重点.

  • 图  1  长尾分布

    Fig.  1  Long-tailed distribution

    图  2  长尾与均衡数据的特征可视化

    Fig.  2  Feature visualization of long-tailed and balanced data

    图  3  基于类别的分类器权重$L_2 $范数

    Fig.  3  Class-based classifier weight $L_2 $ norm

    图  4  面向长尾视觉识别的特征平衡方法

    Fig.  4  A feature balancing method for long-tailed visual recognition

    图  5  难样本特征约束

    Fig.  5  Hard sample feature constraint

    图  6  特征可视化对比

    Fig.  6  Comparison of feature visualization

    图  7  特征$L_2 $范数对比

    Fig.  7  Feature $L_2 $ norm comparison

    图  8  参数$\psi $分析

    Fig.  8  Analysis of the parameter$\psi $

    表  1  数据集的基本信息

    Table  1  Basic information of the datasets

    数据集类数量 (个)训练样本 (张)测试样本 (张)$IF$
    CIFAR100-LT1001084710000100
    ImageNet-LT1000115846500000256
    iNaturalist 2018814243751324426435
    下载: 导出CSV

    表  2  模型的基本设定

    Table  2  Basic settings of the model

    数据集CIFAR100-LTImageNet-LTiNaturalist 2018
    骨干网络ResNet-32ResNet-50ResNeXt-50
    batch size64256512
    权重衰减0.00400.00020.0002
    初始学习率0.10.20.2
    调整策略warmupcosinecosine
    动量0.90.90.9
    下载: 导出CSV

    表  3  CIFAR100-LT上的Top-1准确率 (%)

    Table  3  Top-1 accuracy on CIFAR100-LT (%)

    方法来源年份CIFAR100-LT
    1050100
    CE[41]55.743.938.6
    CE-DRW[41]NeurIPS202257.947.941.1
    LDAM-DRW[37]NeurIPS201958.746.342.0
    Causal Norm[42]NeurIPS202059.650.344.1
    BS[12]NeurIPS202063.050.8
    Remix[43]ECCV202059.249.545.8
    RIDE(3E)[14]ICLR202048.0
    MiSLAS[44]CVPR202163.252.347.0
    TSC[11]CVPR202259.047.443.8
    WD[29]CVPR202268.757.753.6
    KPS[9]PAMI202349.245.0
    PC[40]IJCAI202369.157.853.4
    SuperDisco[39]CVPR202369.358.353.8
    SHIKE[38]CVPR202359.856.3
    特征平衡方法本文73.363.058.2
    下载: 导出CSV

    表  4  ImageNet-LT上的Top-1准确率 (%)

    Table  4  Top-1 accuracy on ImageNet-LT (%)

    方法来源年份骨干网络头部类中部类尾部类总计
    CE[41]ResNet-5064.033.85.841.60
    CE-DRW[41]NeurIPS2022ResNet-5061.747.328.850.10
    LDAM-DRW[37]NeurIPS2019ResNet-5060.446.930.749.80
    Causal Norm[42]NeurIPS2020ResNeXt-5062.748.831.651.80
    BS[12]NeurIPS2020ResNet-5060.948.832.151.00
    Remix[43]ECCV2020ResNet-1860.446.930.748.60
    RIDE(3E)[14]ICLR2020ResNeXt-5066.251.734.955.40
    MiSLAS[44]CVPR2021ResNet-5061.751.335.852.70
    CMO[41]CVPR2022ResNet-5066.453.935.656.20
    TSC[11]CVPR2022ResNet-5063.549.730.452.40
    WD[29]CVPR2022ResNeXt-5062.550.441.553.90
    KPS[9]PAMI2023ResNet-5051.28
    PC[40]IJCAI2023ResNeXt-5063.550.842.754.90
    SuperDisco[39]CVPR2023ResNeXt-5066.153.337.157.10
    SHIKE[38]CVPR2023ResNet-5059.70
    特征平衡方法本文ResNet-5067.954.340.157.60
    ResNeXt-5067.655.341.758.19
    下载: 导出CSV

    表  5  iNaturalist 2018上的Top-1准确率 (%)

    Table  5  Top-1 accuracy on iNaturalist 2018 (%)

    方法来源年份骨干网络头部类中部类尾部类总计
    CE[41]ResNet-5073.963.555.561.00
    LDAM-DRW[37]NeurIPS2019ResNet-5066.10
    BS[12]NeurIPS2020ResNet-5070.070.269.970.00
    Remix[43]ECCV2020ResNet-5070.50
    RIDE(3E)[14]ICLR2020ResNet-5070.272.272.772.20
    MiSLAS[44]CVPR2021ResNet-5073.272.470.471.60
    CMO[41]CVPR2022ResNet-5068.772.673.172.80
    TSC[11]CVPR2022ResNet-5072.670.667.869.70
    WD[29]CVPR2022ResNet-5071.270.469.770.20
    KPS[9]PAMI2023ResNet-5070.35
    PC[40]IJCAI2023ResNet-5071.670.670.270.60
    SuperDisco[39]CVPR2023ResNet-5072.372.971.373.60
    SHIKE[38]CVPR2023ResNet-5074.50
    特征平衡方法本文ResNet-5074.972.273.272.89
    ResNeXt-5074.672.372.272.53
    下载: 导出CSV

    表  6  模块的消融实验

    Table  6  Ablation experiments of the module

    数据增强权重衰减特征平衡因子难样本特征约束CEBS
    头部中部尾部总体头部中部尾部总体
    38.650.8
    76.045.616.947.672.051.528.051.6
    82.252.313.351.078.255.331.656.2
    79.956.516.152.676.156.836.857.6
    80.157.617.153.376.657.937.458.2
    下载: 导出CSV
  • [1] Zoph B, Vasudevan V, Shlens J, Le Q V. Learning transferable architectures for scalable image recognition. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 8697−8710
    [2] Redmon J, Divvala S, Girshick R, Farhadi A. You only look once: Unified, real-time object detection. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE, 2016. 779−788
    [3] Deng J, Dong W, Socher R, Li L J, Li K, Li F F. ImageNet: A large-scale hierarchical image database. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Miami, USA: IEEE, 2009. 248−255
    [4] Russakovsky O, Deng J, Su H, Krause J, Satheesh S, Ma S, et al. ImageNet large scale visual recognition challenge. International Journal of Computer Vision, 2015, 115: 211−252 doi: 10.1007/s11263-015-0816-y
    [5] Lin T Y, Maire M, Belongie S, Hays J, Perona P, Ramanan D, et al. Microsoft COCO: Common objects in context. In: Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland: Springer, 2014. 740−755
    [6] Zhou B L, Lapedriza A, Khosla A, Oliva A, Torralba A. Places: A 10 million image database for scene recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(6): 1452−1464 doi: 10.1109/TPAMI.2017.2723009
    [7] Anwar S M, Majid M, Qayyum A, Awais M, Alnowami M, Khan M K. Medical image analysis using convolutional neural networks: A review. Journal of Medical Systems, 2018, 42: Article No. 226 doi: 10.1007/s10916-018-1088-1
    [8] Liu Z W, Miao Z Q, Zhan X H, Wang J Y, Gong B Q, Yu S X. Large-scale long-tailed recognition in an open world. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE, 2019. 2537−2546
    [9] Li M K, Cheung Y M, Hu Z K. Key point sensitive loss for long-tailed visual recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45(4): 4812−4825
    [10] Tian C Y, Wang W H, Zhu X Z, Dai J F, Qiao Y. VL-LTR: Learning class-wise visual-linguistic representation for long-tailed visual recognition. In: Proceedings of the 17th European Conference on Computer Vision. Tel Aviv, Israel: Springer, 2022. 73–91
    [11] Li T H, Cao P, Yuan Y, Fan L J, Yang Y Z, Feris R, et al. Targeted supervised contrastive learning for long-tailed recognition. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, USA: IEEE, 2022. 6908−6918
    [12] Ren J W, Yu C J, Sheng S A, Ma X, Zhao H Y, Yi S, et al. Balanced meta-softmax for long-tailed visual recognition. Advances in Neural Information Processing Systems, 2020, 33: 4175−4186
    [13] Hong Y, Han S, Choi K, Seo S, Kim B, Chang B. Disentangling label distribution for long-tailed visual recognition. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, USA: IEEE, 2021. 6622−6632
    [14] Wang X D, Lian L, Miao Z Q, Liu Z W, Yu S X. Long-tailed recognition by outing diverse distribution-aware experts. arXiv preprint arXiv: 2010.01809, 2020.
    [15] Li T H, Wang L M, Wu G S. Self supervision to distillation for long-tailed visual recognition. In: Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). Montreal, Canada: IEEE, 2021. 610−619
    [16] Wang Y R, Gan W H, Yang J, Wu W, Yan J J. Dynamic curriculum learning for imbalanced data classication. In: Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, South Korea: IEEE, 2019. 5016−5025
    [17] Zang Y H, Huang C, Loy C C. FASA: Feature augmentation and sampling adaptation for long-tailed instance segmentation. In: Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). Montreal, Canada: IEEE, 2021. 3457−3466
    [18] Cui Y, Jia M L, Lin T Y, Song Y, Belongie S. Class-balanced loss based on effective number of samples. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, USA: IEEE, 2019. 9268−9277
    [19] Lin T Y, Goyal P, Girshick R, He K M, Dollár P. Focal loss for dense object detection. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(2): 318−327 doi: 10.1109/TPAMI.2018.2858826
    [20] Tan J R, Wang C B, Li B Y, Li Q Q, Ouyang W L, Yin C Q, et al. Equalization loss for long-tailed object recognition. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, USA: IEEE, 2020. 11659−11668
    [21] Wang J Q, Zhang W W, Zang Y H, Cao Y H, Pang J M, Gong T, et al. Seesaw loss for long-tailed instance segmentation. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, USA: IEEE, 2021. 9690−9699
    [22] Zhao Y, Chen W C, Tan X, Huang K, Zhu J H. Adaptive logit adjustment loss for long-tailed visual recognition. arXiv preprint arXiv: 2104.06094, 2021.
    [23] Guo H, Wang S. Long-tailed multi-label visual recognition by collaborative training on uniform and re-balanced samplings. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, USA: IEEE, 2021. 15084−15093
    [24] Zhou B Y, Cui Q, Wei X S, Chen Z M. BBN: Bilateral-branch network with cumulative learning for long-tailed visual recognition. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, USA: IEEE, 2020. 9716−9725
    [25] Li Y, Wang T, Kang B Y, Tang S, Wang C F, Li J T, et al. Overcoming classier imbalance for long-tail object detection with balanced group softmax. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, USA: IEEE, 2020. 10988−10997
    [26] Cui J Q, Liu S, Tian Z T, Zhong Z S, Jia J Y. ResLT: Residual learning for long-tailed recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45(3): 3695−3706
    [27] Li J, Tan Z C, Wan J, Lei Z, Guo G D. Nested collaborative learning for long-tailed visual recognition. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, USA: IEEE, 2022. 6939−6948
    [28] Cui J Q, Zhong Z S, Liu S, Yu B, Jia J Y. Parametric contrastive learning. In: Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). Montreal, Canada: IEEE, 2021. 695−704
    [29] Alshammari S, Wang Y X, Ramanan D, Kong S. Long-tailed recognition via weight balancing. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, USA: IEEE, 2022. 6887−6897
    [30] Li M K, Cheung Y M, Jiang J Y. Feature-balanced loss for long-tailed visual recognition. In: Proceedings of the IEEE International Conference on Multimedia and Expo (ICME). Taiwan, China: IEEE, 2022. 1−6
    [31] Goodfellow I, Bengio Y, Courville A. Deep Learning. Massachusetts: MIT Press, 2016.
    [32] Schroff F, Kalenichenko D, Philbin J. FaceNet: A unified embedding for face recognition and clustering. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Boston, USA: IEEE, 2015. 815−823
    [33] Krizhevsky A. Learning Multiple Layers of Features From Tiny Images [Master thesis], University of Toronto, Canada, 2009.
    [34] Horn G V, Aodha O M, Song Y, Cui Y, Sun C, Shepard A, et al. The iNaturalist species classication and detection dataset. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Salt Lake City, USA: IEEE, 2018. 8769−8778
    [35] He K M, Zhang X Y, Ren S Q, Sun J. Deep residual learning for image recognition. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE, 2016. 770−778
    [36] Xie S N, Girshick R, Dollar P, Tu Z W, He K M. Aggregated residual transformations for deep neural networks. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA: IEEE, 2017. 5987−5995
    [37] Cao K D, Wei C, Gaidon A, Arechiga N, Ma T Y. Learning imbalanced datasets with label-distribution-aware margin loss. In: Proceedings of the 33rd International Conference on Neural Information Processing Systems. Vancouver, Canada: Curran Associates Inc., 2019. 1567–1578
    [38] Jin Y, Li M K, Lu Y, Cheung Y M, Wang H Z. Long-tailed visual recognition via self-heterogeneous integration with knowledge excavation. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Vancouver, Canada: IEEE, 2023. 23695−23704
    [39] Du Y J, Shen J Y, Zhen X T, Snoek C G M. SuperDisco: Super-class discovery improves visual recognition for the long-tail. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Vancouver, Canada: IEEE, 2023. 19944−19954
    [40] Sharma S, Xian Y Q, Yu N, Singh A. Learning prototype classiers for long-tailed recognition. In: Proceedings of the Thirty-second International Joint Conference on Articial Intelligence. Macao, China: ACM, 2023. 1360−1368
    [41] Park S, Hong Y, Heo B, Yun S, Choi J Y. The majority can help the minority: Context-rich minority oversampling for long-tailed classication. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, USA: IEEE, 2022. 6877−6886
    [42] Tang K H, Huang J Q, Zhang H W. Long-tailed classication by keeping the good and removing the bad momentum causal effect. arXiv preprint arXiv: 2009.12991, 2020.
    [43] Chou H P, Chang S C, Pan J Y, Wei W, Juan D C. Remix: Rebalanced mixup. In: Proceedings of the European Conference on Computer Vision. Glasgow, UK: Springer, 2020. 95−110
    [44] Zhong Z S, Cui J Q, Liu S, Jia J Y. Improving calibration for long-tailed recognition. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, USA: IEEE, 2021. 16484−16493
    [45] McInnes L, Healy J, Melville J. UMAP: Uniform manifold approximation and projection for dimension reduction. arXiv preprint arXiv: 1802.03426, 2020.
  • 期刊类型引用(0)

    其他类型引用(1)

  • 加载中
图(8) / 表(6)
计量
  • 文章访问数:  492
  • HTML全文浏览量:  358
  • PDF下载量:  199
  • 被引次数: 1
出版历程
  • 收稿日期:  2023-05-18
  • 录用日期:  2023-11-03
  • 网络出版日期:  2024-04-23
  • 刊出日期:  2024-05-29

目录

/

返回文章
返回