-
摘要: 深度学习是一门依赖于数据的科学, 传统深度学习方法假定在平衡数据集上训练模型, 然而, 现实世界中大规模数据集通常表现出长尾分布现象, 样本数量众多的少量头部类主导模型训练, 而大量尾部类样本数量过少, 难以得到充分学习. 近年来, 长尾学习掀起学术界的研究热潮, 涌现出大量先进的工作. 本文综合梳理和分析了近年来发表在高水平会议或期刊上的文献, 对长尾学习进行全面的综述. 具体而言, 根据深度学习模型设计流程, 将图像识别领域的长尾学习算法分为丰富样本数量与语义信息的优化样本空间方法, 关注特征提取器、分类器、logits和损失函数这四个基本组成部分的优化模型方法以及通过引入帮助模型训练的辅助任务, 在多个空间共同优化长尾学习模型的辅助任务学习3大类, 并根据提出的分类方法综合对比分析每类长尾学习方法的优缺点. 然后, 进一步将基于样本数量的狭义长尾学习概念推广至多尺度广义长尾学习. 此外, 本文对文本数据、语音数据等其它数据形式下的长尾学习算法进行简要评述. 最后, 讨论了目前长尾学习面临的可解释性较差、数据质量较低等挑战, 并展望了如多模态长尾学习、半监督长尾学习等未来具有潜力的发展方向.Abstract: Deep learning is a science that depends on data. Traditional deep learning methods unrealistically assume that the training models are on balanced datasets. In real-world large-scale datasets, a long-tailed distribution often occurs, with a few head classes having many samples dominating model training, while many tail classes have too few samples to be adequately learned. In recent years, the long-tailed learning has set off a research upsurge in academic circles. In this paper, we synthesize and analyze the literature published in high-level conferences or journals to provide a comprehensive survey of long-tailed learning. Specifically, we categorize long-tailed learning algorithms in the field of image recognition according to the design process of deep learning models into three main types: optimizing the sample space by enriching the quantity and semantic information of samples, optimizing the model by focusing on the four fundamental components of feature extractor, classifier, logits, and loss function, and auxiliary task learning, which involves introducing auxiliary tasks to aid model training and jointly optimizing long-tailed learning models across multiple spaces. Additionally, a comprehensive comparative analysis of the strengths and weaknesses of each category is conducted based on the proposed classification method. We further extend the concept of narrow long-tail learning based on the number of samples to multi-scale generalized long-tailed learning. In addition, we briefly review long-tailed learning algorithms in other data forms such as text data. Finally, we discussed the current challenges faced by long-tailed learning, such as poor interpretability and low data quality, and explored promising future directions such as multimodal long-tailed learning and semi-supervised long-tailed learning.
-
近年来, 深度学习为计算机视觉、自然语言处理、自动驾驶等领域带来了突破性进展. 然而, 深度学习的优势通常依赖于海量数据资源, 当数据量不足、数据质量较差或数据集分布不平衡时, 深度模型的性能会受到严重影响. 大多数真实数据集通常呈现长尾分布(Long-tailed Distribution), 即数据集中的大部分数据属于少量头部类, 而大量尾部类在数据集中出现的频率极低, 每类样本数量从头部到尾部呈指数递减[1−2]. 在模型训练过程中, 头部类主导了模型参数优化过程, 导致模型对头部类表现出过强的偏好[3]. 另一方面, 由于尾部类包含的样本数量过少, 模型对尾部类学习不充分, 难以学到良好的特征表示[4]. 传统长尾学习算法通常假设训练集服从长尾分布, 并假设测试集服从类平衡分布, 这种分布上的差异也是造成长尾学习模型泛化能力与鲁棒性下降的原因之一. 深度长尾学习指通过深度神经网络学习长尾分布训练集, 使其准确、公平地识别未知分布测试集的每个样本. 长尾学习适用于数据本身类分布具有稀疏性的学习场景, 能够降低人工收集稀有类数据来构建平衡数据集的高昂成本, 对于深度学习进一步部署于实际学习环境中有着重要意义[5].
从2016年开始, 不断涌现出大量长尾学习的研究工作. 早期方法主要关注于使得各个类不平衡的数据趋于类平衡, 即在模型训练过程中平衡各类样本数量或损失值, 包括重采样[6−7], 数据增强[8−10], 代价敏感加权损失函数[11−13]等方法. 2020年, Kang等[1]提出解耦长尾学习, 将表示学习与分类器学习解耦, 在原始长尾数据上学习泛化性良好的特征表示, 然后通过类平衡学习方法微调分类器. 同时期, Zhou等[14]构建双分支孪生网络实现端到端的解耦学习. 此后, 长尾学习进入发展的繁荣期, 部分文献基于头尾知识迁移思想[10, 15−16], 利用头部类丰富、完整的训练资源指导尾部类的学习. 另外, 一些研究主张将长尾数据集划分为多个分布更平衡的子集, 通过知识蒸馏[17]、集成学习[18−20]等方法提升模型鲁棒性与泛化能力. 长尾学习与其它领域交叉的过程中, 逐渐融合了度量学习[21−22]、层次学习[23−25]、因果推断[26−27]、对抗学习[28]、元学习[29−30]、提示学习[31]等先进算法. 2022年, Tang等[32]提出广义长尾分布概念, 将类间样本数量的长尾分布拓展到类内样本属性层面的长尾分布, 向贴近现实世界的应用研究迈出积极的一步.
深度长尾学习在许多应用领域发挥重要作用. 在计算机视觉领域, 长尾学习算法用于解决医疗影像识别[33−35]、遥感图像检测[36−37]、声纳图像识别[38]、人脸识别[39−40]、视频分类[41]等任务的数据长尾分布问题. 在自然语言处理[42]领域中, 研究人员应用长尾学习模型完成文本关系抽取[43]、多标签文本分类[44]、机器阅读理解[45]等任务. 此外, 长尾学习在语音识别[46]、故障诊断[47]、推荐系统[48]、日常行为识别[49]等领域也取得了广泛的应用.
尽管长尾学习发展迅猛, 涌现出大量杰出工作, 但针对长尾学习的综述文献寥寥无几. Zhang等[50]首次对长尾学习展开系统的回顾, 将长尾学习方法分为类再平衡、信息增强与模型改进三大类. Yang等[5]从表征学习的角度将长尾学习细分为数据处理、代价敏感加权、解耦学习等十类, 并概述了每一类的亮点和局限性. 为了帮助初学者理解长尾学习的研究思路和设计方法, 我们从深度学习的设计流程出发, 构建了一种新的长尾学习分类方法. 对于图像识别领域, 重采样与数据增强本质上都属于构建信息量更均衡的输入样本空间. 优化特征提取器、优化分类器、logits调整和代价敏感加权损失函数方法旨在优化模型结构或模型参数, 属于优化模型空间的方法. 在此基础上, 解耦学习、度量学习、知识蒸馏、集成学习和层次学习通过引入辅助任务, 同时优化多个空间上的任务. 此外, 广义长尾分布则是从多尺度建模长尾分布.
本文收集了2016年至今在高水平期刊与会议上有关长尾学习的文献并加以梳理、归纳与评述. 与先前的英文综述相比, 本文的优势有以下3点:
1)本文提出一种逻辑性更强、更贴近深度学习实际设计流程的新颖分类方法. 具体而言, 本文首先以深度学习的设计流程为线索, 将视觉领域的长尾学习算法分为优化样本空间与优化模型空间两个大类. 然后, 从任务学习的角度理解与其它领域的深度学习算法相结合、在多个空间进行混合优化的长尾学习算法. 在每个子类中, 根据研究动机与实现手段对文献进一步细化归类. 既从宏观上保证了整体分类的综合性, 又细致完整地涵盖了长尾学习的各个子类型, 避免了内容的杂糅.
2)本文从更广义的视角给出长尾分布的描述, 从类内属性、特征表示、领域等多个角度探索数据内部蕴含的长尾分布现象.
3)在现实世界中, 长尾分布数据广泛存在于各种应用场景, 我们介绍了文本数据、图结构数据、多模态数据、时序数据、语音数据、故障数据这6种常见的数据形式下的长尾学习研究工作.
其余章节设置如下: 第1节介绍长尾学习的背景知识, 包括问题定义、其它领域算法的关系、常用数据集与评价指标. 第2节针对图像识别领域的长尾学习算法展开全面的回顾与评述, 并引入本文提出的分类方法. 第3节列举其它数据形式下的长尾学习工作. 第4节对深度长尾学习的挑战与机遇提出一些见解. 最后进行全文总结. 本文组织结构如图1所示.
1. 背景知识
本节介绍了长尾学习的基本概念与发展背景, 并从多角度分析了长尾学习模型性能瓶颈的原因. 随后, 在1.2节进一步探讨了长尾学习的关键概念及其符号定义. 为避免概念上的混淆, 在1.3节分析与比较了长尾学习与3个相关性较强的领域差异. 最后, 分别在第1.4节和第1.5节详细介绍了目前长尾学习工作常用的实验数据集以及评价指标, 以便为研究人员提供一个清晰的方法比较和性能验证依据.
1.1 长尾学习问题
长尾分布又称幂律分布[51], 表现为少量头部类占据大部分整体数据, 而大量尾部类只占据整体数据的一小部分. 长尾分布是描述社会科学规律的典型分布, 最早于20世纪40年代由美国语言学家齐普夫提出[52], 用于描述文本的词频分布规律. 2006年Chris Anderson[53]用长尾分布反映电子商务中极少数商品拥有绝大多数商业价值的经济模式. 早期深度神经网络依赖于人工构建的高质量平衡数据集, 但需耗费大量人工成本, 且现实世界中一些类别表现出固有稀缺性, 如珍稀动植物、罕见疾病等. 随着计算资源和互联网的飞速发展, 高效识别大规模长尾分布数据集的需求愈发迫切, 而基于平衡数据集的传统深度学习模型在长尾数据集上收效甚微, 深度长尾学习应运而生, 并在过去数年间展现出蓬勃的活力. 近年来, 大量文献[1, 14, 54−55]探究了长尾学习模型性能瓶颈的原因, 本文从数据集、特征提取、分类器、损失函数这4个模型训练的步骤进行具体分析:
1)数据集. 长尾分布数据集主要展现出两种特性, 一是类间极度不平衡, 二是尾部类数据量过少. 头部类具有更丰富, 多样性更强的训练样本, 能够得到充分的学习, 而尾部类样本难以完整表示其真实分布, 并更容易受到噪声与混淆样本的影响[56]. 在一般长尾学习实验设置中, 训练集呈现长尾分布, 测试集为类平衡分布, 训练得到的模型难以适应平衡测试集.
2)特征提取. 特征提取器将输入数据映射到高维特征空间, 得到样本的抽象特征表示. 一个理想特征空间应具备“类内紧凑、类间远离”的性质[57], 但在长尾特征空间中, 类间均匀性与平衡性较差[58], 头部类主导大部分特征空间, 且容易对其附近的尾部类产生“吸引”作用. 另外, 在超球特征空间中, 尾部类之间也可能出现相互混淆的问题[59].
3)分类器. 传统线性分类器中, 头部类与尾部类对应的权重向量模长差距过大[1], 从而导致决策边界向尾部类偏移, 头部类主导分类结果并被赋予过高置信度. 相反, 模型对尾部类的置信度过低, 且有过高的信息熵.
4)损失函数. 在小批量梯度下降的计算过程中, 头部类损失在小批量损失值总和中占据的比例过高, 从而引导梯度朝着优化头部类的方向更新. 从另一个角度来看, 由于头部类与尾部类积累的正负梯度不平衡, 头部类对尾部类施加过量负梯度, 淹没了尾部类自身的正梯度[12, 54].
1.2 问题描述与符号定义
假设长尾图像分类问题的训练集$ {\rm{S}}=\left\{x_{i},\; y_{i}\right\}, i \in\{1,\; \cdots,\; n\}$服从长尾分布$ {\mathbb{P}}$, 其中$ y_i $为第$ i $个训练样例$ x_i $的真实标签. 设$ n_j $为第$ j $类的样本数量, 则数据集样本总数为$ n=\sum_{j=1}^{C} n_j $, 类别总数为$ C $. 不失一般性, 假设这些类按照类下包含样本个数降序排列, 若$ i < j $则$ n_i > n_j $, 并且头部类样本数远远大于尾部类样本数$ n_1 \gg n_C $. 模型训练的目标是通过最小化分类误差$ {\mathbb{P}} _{x,\; y}(y \notin \text{argmax} F(x))$学习一个映射$ F: x \rightarrow {\mathbb{R}}^{C}$. 目标模型F包括: 1)参数为$ \theta $的特征提取器$ f(x ; \theta)=h$, 其中$h \in {\mathbb{R}}^{D}$为每个输入样例x的D维特征表示. 2)分类器g(h)=z, 其中$z \in {\mathbb{R}} ^{C}$为分类器输出的$ {\rm{logits}} $单元$ [z_{1},\; z_{2},\; \cdots, \; z_{C}]^{T}$, 最终的预测类别表示为$ \hat{y}=\arg \max (z)$. 传统情况下g为线性分类器, 即$ g(h)={\boldsymbol{W}}^{\mathrm{T}}h+b $, 其中${\boldsymbol{W}} \in {\mathbb{R}}^{D \times C}$为分类器权重矩阵, $ b\in {\mathbb{R}}^{C}$为偏置. 模型输入经过$ {\rm{softmax}} $计算后的预测概率输出为
$$ p_{i}=\frac{\exp \left(z_{i}\right)}{\sum\limits_{j=1}^{c} \exp \left(z_{j}\right)} $$ (1) 然后, 通过计算真实标签概率与预测概率输出的交叉熵损失进行梯度的反向传播. 设为当前训练轮次, 模型训练轮后, 完成整体参数的更新与优化.
1.3 与其它算法的关系
本节将分析与比较长尾学习与不平衡学习、小样本学习、难正确分类样本挖掘这3个与长尾学习相关性较强的领域.
1.3.1 长尾学习与不平衡学习的关系
不平衡学习(Imbalanced Learning)指在类间分布不平衡的模式下训练模型的过程, 在数据层面可分为绝对稀少和相对稀少[60], 绝对稀少指少数类样本数量过少, 有效信息严重不足, 相对稀少指多数类与少数类样本数的比例悬殊, 但少数类样本数量本身是充足的. 一般认为长尾学习是不平衡学习的一种更具挑战性的研究场景, 二者的区别在于: 1)不平衡学习通常处理单分类、二分类等类别数较少的任务, 而长尾学习包含大量类别. 2)相对稀少类型的不平衡学习, 其少数类本身数据量较大, 包含充足的有效信息, 而长尾分布中尾部类的训练样本极其稀少, 难以得到充分学习.
1.3.2 长尾学习与小样本学习的关系
小样本学习(Few-shot Learning)旨在通过先验知识丰富的基模型, 从样本数量极少的新类数据集中学习一个性能良好的新模型[61]. 小样本学习可以看作是长尾学习的特殊任务, 可用于解决长尾学习中尾部类样本稀缺的问题. 二者的区别在于: 1)小样本学习的目的是使模型快速适应包含少量数据的新任务, 一般无需保持对基类的识别性能, 而长尾学习需要在整个数据分布上都具备良好识别能力. 2)小样本学习的基类数据集与新类数据集更加平衡, 通常无需考虑不平衡问题, 而长尾学习存在严重不平衡问题, 头部类在训练过程中占据主导地位, 需平衡头部类与尾部类的性能.
1.3.3 长尾学习与难正确分类样本挖掘的关系
深度学习中的正样本指需要识别的目标类样本, 负样本指除目标类样本外的其余类样本. 难样本包括易被误分为正样本的难正确分类的负样本, 以及易被误分为负样本的难正样本. 难正确分类的样本挖掘(Hard Sample Mining)一般指难正确分类的负样本挖掘, 通过设计评估样本难度的指标, 在训练过程中挑选容易混淆的难正确分类的样本并对其重点学习. 传统方法挖掘整体数据中的难正确分类的样本, 而长尾学习大多将尾部类视作难正确分类的样本. 近两年来, 部分工作关注头部类中存在的难正确分类的样本[56, 69], 将难正确分类的样本挖掘策略引入长尾学习, 提出多种适应于长尾学习的样本或类别难度衡量方法, 并将其与重采样[70]、logits调整[71]与代价敏感加权损失函数[72]等方法相结合, 以改进模型的鲁棒性.
1.4 常用数据集
在传统分类或识别任务中, 往往采用不同类别样本数量无明显差异的平衡数据集训练模型. 然而, 数据集样本的分布由人为干预保证了均匀性, 这类数据集大大简化了算法要求, 但真实世界中不均衡的自然规律却占据主导地位. 为方便高效的研究长尾问题, 过去十年里, 很多研究者选择着手构建长尾数据集. 目前最普遍的长尾学习实验设置为采用长尾分布训练集, 如图2所示, 测试时使用类平衡分布的测试集, 如图3所示.
长尾数据集通常遵循Pareto分布[73], 不平衡比率(Imbalance Ratio, IR)[13]表示数据集中最频繁类与最不频繁类样本数量之比, 用以刻画长尾数据集的不平衡程度. 表1总结了常见的长尾数据集, 图4展示了6个常用长尾数据集的概率分布曲线图.
表 1 常见长尾数据集基本信息Table 1 Basic Information of Common Long-Tail Datasets类型 数据集 类别数量 训练集样本数量 测试集样本数量 最大类样本数量 最小类样本数量 图像分类 CIFAR10-LT[13] 10 50000 10000 5000 5($ \rho$=100), 50($ \rho$=10) 图像分类 CIFAR100-LT[13] 100 50000 10000 500 5($ \rho$=100), 50($ \rho$=10) 目标检测 ImageNet-LT[62] 1000 115846 50000 1280 5 场景识别 Places-LT[62] 365 62500 36500 4980 5 人脸识别 MS1M-LT[62] 74500 (ID)887530 3530 598 1 目标检测 iNaturalist2017[63] 5089 579184 182707 196613 381 目标检测 iNaturalist 2018[63] 8142 437513 24426 127551 19 实例分割 LVIS v0.5[64] 1230 57000 20000 26148 1 实例分割 LVIS v1[64] 1203 100170 19822 50552 1 场景理解 SUN-LT[65] 397 4084 2868 12 2 目标检测 AWA-LT[65] 50 6713 6092 720 2 鸟类识别 CUB-LT[65] 200 2945 2348 43 2或3 图像分类 STL10-LT[66] 10 5000 8000 500 5($ \rho$=100), 50($ \rho$=10) 目标检测 VOC-LT[67] 20 1142 4952 775 4 视频分类 VideoLT[68] 1004 179352 51244 1912 44 CIFAR10/100-LT[13]: CIFAR10和CIFAR100数据集的原始版本都包含
60000 张大小为32×32的图像, 其中有50000 张训练图像,10000 张测试图像, CIFAR10包含10个类, CIFAR100包含100个类, 每类样本数相等. CIFAR10/100-LT是在原始训练集数据集上采样得到的, 每类样本数为$ n_{j}=n\times\mu$其中$ j$为类别索引, $ n$为原始类别样本数, $ \mu \in (0,\;1)$. 在实验设置中, 通常将训练集$ \rho $设为$ \{10,\;20,\;50,\; 100\}$, $ \rho $值越大表示数据集不平衡程度越严重. 测试集一般保持不变, 为类平衡分布.ImageNet-LT[62]: 原始ImageNet[74]包含
1000 个均匀分布的类, 每类包含1300 张图像, 涵盖了来自不同种类的样本, 包括: 物品、动物和场景等. Liu等人[3]在ImageNet的基础上, 通过Pareto分布构造ImageNet-LT, 设置幂值为6, 其包括1000 个类别的115846 张图像, 最大类包含1280 张图像, 最小类只有5张图像, 不平衡比率$ \rho $=256.Places-LT[62]: 原始Places-365数据集用于场景识别任务, 包含来自世界各地广泛多样的自然场景图像. Places-LT是Liu等人[3]通过幂值设置为6的Pareto分布人工构造而成, 分为365个类别, 包含
62500 张训练样本,36500 张测试样本, 每类样本数在$ 4980\sim5$之间, 不平衡比率为$ \rho = 996$.iNaturalist2017/2018[63]: iNaturalist2017是Van Horn等通过iNaturalist平台收集和整理的超大规模图像数据集, 分为
5089 个自然细类, 又可归纳为13个超类. iNaturalist2017数据集包含675170 张训练和验证图像, 可应用于分类和目标检测任务, 每个类别包含的图像数量差异很大. 例如, 最大的类“Plantae”包含196613 张图像, 而最小类“Protozoa”仅含381张图像. 在iNaturalist 2017的基础上, iNaturalist2018统一了物种分类等级, 包含8142 个类别, 其中训练图像437513 张, 验证图像24426 张, 测试图像149394 张.LVIS v0.5/v1[64]: LVIS是Gupta等人在COCO数据集的基础上构建的一个大词汇对象检测和实例分割数据集[7], LVIS v0.5和LVIS v1是LVIS的两个常用版本, 前者包含
1230 个类别,57000 个训练样本和20000 个测试样本, 最大类样本数为26148 个, 最小类样本数仅为1个, 后者不平衡程度更为严重, 包含1203 个类别, 其中训练集包含100170 张样本, 测试集包含19822 张样本, 最大类样本数高达50552 , 最小类样本数仅为1个, 是非常具有挑战性的长尾分布数据集.SUN-LT[65]: 是SUN-397场景分类数据集的长尾子集, 包含397个类, 共有
4084 张训练图像和2868 张测试图像, 具有717种视觉场景类型和102种属性(如特征: 进食, 表面: 光滑).MS1M-LT[62]: 是一个人脸识别数据集, 由Liu等人在MS1M-ArcFace[5]数据集的基础上创建, 每个ID的采样概率为$ p_{j}=n_{j} / N $, $ {\rm{n}}_j$为每个$ {\rm{ID}} $包含的样本数, N为数据集样本总数. ${\rm{ MS1M-LT }}$共有
74500 个$ {\rm{ID}} $, 训练集样本数为887530 , 测试集样本数为598, 不平衡比率为$ \rho $=598.AWA-LT[13]: AWA数据集[12]是一个用于动物分类和属性预测的大规模数据集, 共有50个类和
30475 张图像, 每个图像都伴随相关的属性标签. AWA-LT数据集在AWA的基础上建立, 分为50分为个动物类别和85种属性(如颜色、纹理), 共6713 张训练图像和720张测试图像.CUB-LT[65]: 原始CUB-200[14]是一个鸟类图像数据集, 常用于细粒度图像识别研究, 共包含200种不同种类的鸟, 很多同种属的鸟类从肉眼上很难区分. CUB-200共计
11788 张图像, 所有图像均用边界框、目标位置及属性标签进行标注. CUB-LT[13]是CUB-200的一个子集, 根据形式为$ f(j)= a b^{-\text{rank}(j)} $的指数衰减函数建立, 参数的值需满足头部类样本最多, 尾部类样本数为2到3个的要求. CUB-LT的训练样本数为2945 , 测试集呈现类平衡分布, 测试样本数为2348.STL10-LT[66]: 原始版本的STL-10[75]是一个从ImageNet[74]中获取的数据集, 其主要用于评估无监督与自监督学习任务. STL-10包含10个标注的类别, 其中训练图像数为
5000 , 测试集图像数为8000. 此外, 无标签集包含100000 张无标注图像. Oh等[66]基于STL-10的标注数据构建了长尾分布的STL10-LT数据集, 数据采样方式与CIFAR-LT相同. 由于未标注数据的类分布未知, 模型训练过程使用整个无标签集.VOC-LT[76]: 原始版本的PASCAL VOC[77]是一个多标签目标检测与实例分割数据集, 由牛津大学等机构建立, 包括20个不同的目标类别, 如人、狗、飞机、自行车等. VOC-LT是在PASCAL VOC的基础上, 通过Pareto分布构造而成的, 共包含
1142 张训练图像和4952 张测试图像, 其中头部、中部、尾部分别包含6, 6, 8个类, 每个类最多包含775张图像, 最少包含4张图像.VideoLT[68]: 是一个大规模视频数据集, 用于长尾视频识别, 其具有多层次的类别结构以及广泛的类别覆盖. 提出者定义了一个包含13个超类的层次结构, 然后对于每个超类, 使用ConceptNet找到子类别, 并选择
1004 个子类进行标注. VideoLT明确定义了47个头部类别(视频数>500)、617个中部类别(100<视频数<=500)和340个尾部类别(视频数<=100).1.5 评价指标
在机器学习任务中, 常用准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1值(F1-score)等指标评定训练模型性能, 但在长尾学习中, 除应用这些常见指标外, 需要更多关注模型处理不平衡数据的能力, 本文总结了部分常见长尾学习模型的评价指标:
1)头部类准确率、中部类准确率、尾部类准确率(Head Accuracy, Median Accuracy, Tail Accuracy)
Liu等[3]根据每类包含的训练样本个数将数据集划分为三个区域, 即头部类、中部类和尾部类, 并将$ {\rm{acc}}_{\text{Head}}$, $ \text{acc}_{\text{Med}}$与$ \text{acc}_{\text{Tail}}$分别定义为头部类准确率, 中部类准确率与尾部类准确率. 由于不同数据集性质不同, 区域的划分需要依据数据集的实际评估需求进行设置, 然而为更方便、直观的比较长尾模型性能, 目前普遍做法是将训练样本数超过100个的类别视为头部类, 训练样本数在20个至100个的类别视为中部类, 训练样本数少于20个的类别视为尾部类. 头部类准确率、中部类准确率和尾部类准确率是长尾学习任务中最常用的评估指标之一, 常用于评估模型在$ {\text{ImageNet-LT}} $、$ {\text{Places-LT}}$和$ {\text{iNaturalist 2018}}$等较大规模数据集上对各个区域的识别性能, 从而判断模型整体准确率的提升区域, 如果模型仅提升头部类性能, 而尾部类性能不变甚至下降, 则证明模型没有从本质上解决长尾问题, 需要进一步改进.
2)分类准确率(Per-Class Accuracy)[65]
分类准确率$ (\text{acc}_{\text{PC}})$为每类准确率之和的平均值, 能够综合反映模型在每个类别中正确分类的能力. 分类准确率$ \text{acc}_{\text{PC}}$表示为:
$$ \text{acc}_{\mathrm{PC}}=\frac{1}{C} \sum\limits_{j=1}^{c} \text{acc}(j) $$ (2) 其中$ \text{acc}_{\text{PC}}$表示第类的分类准确率. 分类准确率不仅从宏观上平等对待测试集中的每个类, 还灵活地划分测试集的区域分布. 例如在类别数较少的$ {\text{CIFAR10-LT} }$中, 无法应用$ {\rm{Liu}} $等[3]定义的头部类准确率、中部类准确率、尾部类准确率评估各个区域的性能, 则可以考虑按需求划分区域, 并采用分类准确率的计算方法评估不同区域的性能.
3)长尾准确率(Long-Tailed Accuracy)[65]
长尾准确率$ (\text{acc}_{\text{LT}})$主要用于测试集为长尾分布的情况, 其计算方法为每类分类准确率加权求和, 表示为:
$$ \text{acc}_{\mathrm{LT}}=\sum\limits_{j=1}^{c} P_{\text{train }}(j) \text{acc}(j) $$ (3) 其中, $ P_{\text{train }}(j)$为每类对应的权重, 由训练集上的类分布决定, 满足$ 0<P_{\text{train}}(j)<1$且$ \sum_{c} P_{\text{train }}(j)=1$的条件. 长尾准确率能够将测试集转换为与训练集相同的分布, 并判断同分布下模型对测试集的分类性能. 长尾准确率最早由$ {\rm{Dvir}} $等[65]提出, 作者人工构建了呈现长尾分布的CUB-LT、SUN-LT、AWA-LT和ImageNet-LT-d数据集的测试集, 并通过长尾准确率的提升判断模型能够有效地识别头部类.
4)区域准确率(Regional Accuracy)
Li等[78]提出区域准确率$ (\text{acc}_{\text{reg}})$, 计算了样本预测类别落入正确区域的频率, 例如尾部类样本是否被准确预测为尾部类. 区域准确率可用于模型的可信性评估, 区域准确率越高表明模型的可信程度越高. 该指标在一些故障敏感的任务中较为重要, 例如自动驾驶、医疗诊断等.
5)ROC和AUC
ROC全称为受试者工作特征曲线(Recevier Operating Characteristic), ROC曲线以假正例率(False Positive Rate, FPR)为横轴, 以真正例率(True Positive Rate, TPR)为纵轴, 具有不随类别分布变化而改变的特点. ROC曲线和ROC曲线下面积(Area Under the Curve, AUC)能够全面描述分类器性能. 在深度长尾学习的评估任务中, 多分类ROC和AUC有助于校准决策阈值, 提升模型整体准确率.
6)头部类掩码平均精度(Average Precision on head, $ AP _{\mathrm{h}}^{m})$、中部类掩码平均精度(Average Precision on median, $ AP_{\mathrm{m}}^{m}$)、尾部类掩码平均精度(Average Precision on tail, $ AP_{\mathrm{m}}^{t}$)[79]
在目标检测与实例分割任务中, 常采用掩码平均精度($ AP ^{m}$)、边界框平均精度($ AP^{b}$)[79]评价模型性能, 但在处理长尾数据集时, 更希望关注模型在头部类样本、中部类样本及尾部类样本中具体的表现. 故依据数据集类别内数量, 将所有类划分为尾部类(<10图像)、中部类(11-100图像)和头部类(>100图像), 分别对应指标$ {\rm{AP}}_{\mathrm{m}}^{t}$, $ {{AP}}_{\mathrm{m}}^{m}$和$ {{AP}}_{\mathrm{h}}^{m}$, 以更好地表示长尾数据集下模型的性能.
2. 长尾图像识别研究现状
本节根据模型设计流程(如图6所示)将现有的长尾图像识别方法分为优化样本空间、优化模型空间与多空间混合优化的辅助任务学习. 最后, 将狭义长尾分布推广至广义长尾分布. 以下几节, 将详细介绍各类方法.
2.1 优化样本空间
狭义长尾分布描述不同类的样本数量呈现长尾分布的现象, 从输入样本角度来说, 一种直观的策略是平衡数据集中各个类的样本数量, 丰富尾部类样本的有效语义信息. 由于特征表示是输入样本经过神经网络得到的复杂映射变换, 特征级的变换与增强可以归类于优化样本空间方法.
优化样本空间的核心目标是通过调整或扩展数据集中的样本, 使模型能在面对类分布不均的数据时, 仍能学习到有效的特征表示, 减少类别不平衡对模型性能的影响. 如图8所示, 本节将此过程划分为“重采样”和“数据增强”两种类型, 该类方法通过直接干预样本的选取或生成优化模型的学习环境. 然而, 他们的区别在于操作的层面和方法不同. 重采样方法强调在不增加新数据的情况下, 通过调整现有数据的使用方式改善模型的学习效果. 数据增强则是通过在不改变样本实际标签的前提下, 生成新的、多样化但仍具有代表性的样本, 丰富尾部类别的数据量和特征多样性. 重采样主要是在数据的宏观层面操作, 而数据增强则在微观层面实现, 二者作为优化样本空间的主要手段, 共同促进了模型在长尾分布数据上的学习效果, 提高了模型的泛化能力和对尾部类别的识别精度.
2.1.1 重采样
传统机器学习通过小批量随机梯度下降法更新模型参数, 一般采用样本平衡采样策略构建小批量训练样本, 即在整个数据集中对每个样本等概率采样若干个样本作为小批次训练样本[1]. 在长尾分布学习场景中, 头部类样本远远多于尾部类样本, 因此, 样本平衡采样策略导致头尾类别之间的采样概率差距过大, 小批量训练集内样本数量不均衡, 影响模型性能. 重采样(Re-Sampling)利用数据集的先验分布, 对不同类别或样本采取不同采样策略, 从而构造更有利于模型训练的小批量训练集. 重采样的核心问题是如何合理设置采样概率, 考虑到不同的策略侧重于解决数据重点关注的特定方面, 可以将重采样方法分为静态的基于样本每类样本出现频率的重采样、基于正确分类难度的重采样以及动态重采样方法.
基于不同类样本出现频率的重采样. 在长尾分类任务中, 最直观的方式是直接平衡每类样本数量, 即通过对头部类欠采样[80−81]与尾部类过采样[64, 82]方法缓解类间采样概率差异过大问题, 重采样示意图如图7所示. 类平衡采样直接为每个类设置相同的采样概率. 然而, 直接丢弃头部类样本会丢失大量有效信息, 而多次重复采样尾部类样本会导致无效学习问题. 平方根采样[81]使用一种较为“温和”的方式, 构造一个不平衡程度介于原始长尾分布与类平衡分布之间的小批量输入数据. Kang等[1]提出逐步平衡采样策略, 在模型训练初期侧重于学习信息量丰富的原始长尾数据, 训练后期更专注于学习平衡分布的数据, 逐步平衡采样能够动态地学到良好的特征表示, 提升模型的鲁棒性. 在长尾分类任务中, 一张图像样本只包含一个目标实例, 但长尾目标检测与实例分割任务与之不同, 来自不同类别的多个实例通常出现于同一个图像中. 样本级重采样在调整尾部类样本数量的同时易引入与之共现的头部类实例, 难以在实例层次上构建平衡的分布. 一种解决的方法是令一张图像只同时实现样本级和实例级的重采样. 非极大值抑制(Non Maximum Suppression, NMS)方法通过过滤高度重叠的候选框减少计算冗余. Wu等[23]提议在训练过程中根据类标签频率自适应地调整不同类别的NMS阈值, 为尾部类设置较高的阈值, 头部类设置较低的阈值, 从而保留尽可能多的尾部类候选框, 同时抑制头部类候选框.
基于正确分类难度的重采样. 基于样本频率的重采样方法只在宏观角度构建分布平衡的输入数据, 但忽略了样本或类别的难度. 基于正确分类难度的重采样方法通过设计衡量样本或类别难度的指标, 着重对难正确分类样本或难正确分类类别进行采样. 文献[70]旨在避免模型过度学习简单样本, 只利用损失值较大的难正确分类样本训练模型. 具体来说, 该方法设置了两个共享参数的RoI模型, 一个模型只负责通过前向传播计算样本的损失值, 另一个模型将损失值较大的难正确分类样本作为输入, 通过反向传播更新模型参数.
传统长尾学习算法认为尾部类即为困难类别, 但这种观点并不普适, 部分尾部类样本虽少但有效信息丰富, 易于准确分类, 反之有些头部类尽管样本数量较多, 但存在大量冗余信息或噪声, 仍会给模型的训练带来负面影响. Feng等[69]将难正确分类类别定义为平均分类分数小的类别, 然后对难正确分类类别的实例特征进行过采样. Sinha等[56]则根据每个类的分类准确率衡量类别难度, 在模型的训练阶段, 动态计算每个类的瞬时正确分类难度, 然后以与类别正确分类难度成比例的概率采样样本.
动态重采样. 静态预定义的重采样方法, 其鲁棒性和泛化能力较差, 难以动态地适应分布差异较大的不同数据集. 文献[30]利用元学习方法, 提出一种双层元采样策略来动态学习每个类的最优采样率. 在内循环中, 设置一个平衡元验证集更新样本分布参数, 外循环则用于更新分类器参数. 受[30]启发, Zang等[76]也利用平衡元验证集的分类损失自适应地调整采样率, 提升模型对困难尾部类样本的关注程度.
2.1.2 数据增强
数据增强指在样本级或特征级扩充增强尾部类样本, 重新平衡类分布[4]. 随着深度长尾学习的发展, 数据增强从无语义的基础图像变换方法, 逐渐演变为更接近现实场景的语义特征增强方法. 本小节遵循从简单到复杂、从根据样本自身进行增强到头尾信息交互式增强的发展脉络, 将数据增强方法划分为样本变换、语义增强和迁移学习增强方法.
1)样本变换
样本变换指在不实质性改变样本模式的情况下, 通过预设的样本变换规则扩充样本表示, 缓解尾部类信息量不足与模型鲁棒性较差的问题. 样本变换主要分为单样本变换和多样本变换.
单样本变换指依据人为制定的扩充方案对单个样本进行增广. 在计算机视觉中常用裁剪、翻转、颜色变换、添加噪声、随机遮挡、灰度化、PCA抖动等方法生成新样本[83], 部分单样本变换如图9所示. 通过单样本变换扩充一定数量的尾部类样本有助于提升模型性能, 但未必能够有效增加特征多样性, 且扩充过多样本可能会为模型带来新的偏置.
多样本变换通过组合、插值及转换多个样本生成新样本. Mixup[84]通过线性插值法随机混合两张图像生成新的图像, 然后按照比例对两张图像的损失函数加权求和得到混合图像的损失, 如图10(a)所示. 改进的CutMix[85]裁剪掉图像的一部分区域, 并在裁剪区域随机填充训练集中其它图像的区域像素值, 如图10(b)所示. Manifold Mixup[86]通过混合特征提取器中间隐层的特征表示生成新特征. 基础Mixup算法受类不平衡问题影响, 生成的图像会偏向头部类, Remix[8]为尾部类分配更高权重来重新分配标签, 从而平衡头部类和尾部类之间的泛化误差:
$$ \begin{split}& \tilde{x}^{RM} =\lambda_{x} x_{i} + \left(1 - \lambda_{x}\right) x_{j},\; \\ & \tilde{y}^{RM} =\lambda_{y} y_{i} + \left(1 - \lambda_{y}\right) y_{j},\;\\ &\lambda_{y} = \begin{cases} 0,\; \;\; n_{i} / n_{j} \geq \kappa \text{ and } \lambda < \tau,\; \\ 1,\;\;\; n_{i} / n_{j} \leq 1 / \kappa \text{ and } 1 - \lambda < \tau,\; \\ \lambda,\;\;\; \text{otherwise} \end{cases} \end{split} $$ (4) 其中$ \left(x_{i},\; y_{i}\right)$和$ \left(x_{j},\; y_{j}\right)$为从训练集中随机抽取的两个图像, $ \lambda_{y}$为混合因子, $ \kappa$和$ \tau $为控制标签合成程度的超参数. 另外, 考虑传统$ {\rm{Mixup}} $中每类标签出现频率不同的问题, $ {\rm{Zhang}} $等[87]通过两个独立的类平衡采样器分别生成两个类平衡分布的小批量数据, 然后混合两个小批量数据创建一个具有平衡标签的新批量.
2)语义增强
样本变换方法虽然简洁有效、适用性强, 但可能会生成毫无意义的样本. 为有效增强尾部类多样性, 研究者致力于增强尾部类的语义特征信息. 本节介绍了图像内容和特征信息增强方法, 归纳了更为复杂的利用深度学习模型和半监督学习策略的综合数据增强解决方案.
背景增强. 图像由实例与背景组成, 背景是影响图像识别任务性能的重要因素. 在随机裁剪或尺寸比例变换时, 选中的部分可能是与该图像标签无关的背景区域, 从而导致错误增强或无效增强. Zhang等[2]根据类激活映射(Class Activation Map, CAM)的平均值, 计算出实例出现在各个位置的概率, 进而划分出图像的实例与背景区域, 然后保持背景不变, 只对实例区域作旋转、缩放等变换, 生成新的尾部类图像. Park等[77]受Cutmix[85]的启发, 通过类激活映射确定尾部类实例的位置, 然后将实例区域裁剪成多个尺寸的图像块, 粘贴到头部类的图像上, 创建具有更多样化上下文语义的新图像, 如图11所示. 文献[88]将以实例为中心的图像拼接到以场景为中心的图像中(例如, 街景, 风景)以改善目标检测任务的长尾问题.
回溯增强法. 在模型迭代更新过程中, 同一个样本在每个轮次(epoch)产生的特征是不同的, 回溯增强法将尾部类样本的历史迭代特征作为增广特征. Breadcrumb[89]通过回溯图像在多轮迭代训练时产生的特征轨迹得到多样化的增广特征. 对于头部类, 只使用最后一个轮次的特征. 对于尾部类, 则向前回溯历史轮次产生的特征. 在Breadcrumb中, 同一输入图像在历史迭代版本的特征变化被称为特征抖动现象. Liu等[90]认为在训练过程中, 模型参数不断变化的权重抖动现象也有助于增强尾部类特征. 因此, 作者将权值抖动和特征抖动累积到内存库中, 以增强尾部类的类内多样性.
深度生成网络. 通过训练一个复杂的生成模型生成尾部类样本, 常见的生成模型包括变分自编码器(Variational Autoencoders, VAE)[91]、生成对抗网络(Generative Adversarial Network, GAN)[92]、扩散网络(Diffusion Network)[93]等. 然而这些方法很大程度上依赖于大量训练数据保证模型得到良好的学习, 在数据量较少时, 容易造成模型崩塌和模型偏好问题, 也可能会出现数据泄露的情况.
半监督增强. 在现实世界中, 收集数据比注释数据容易得多, 因此, 利用大量未标记的真实数据, 可以在训练过程中帮助模型大幅提升性能. 然而, 受制于严重的类不平衡问题, 基于半监督学习(Semi-supervised Learning)的长尾数据增强方法生成的伪标签质量较差. Liu等[94]首先利用有标签数据训练得到特征提取器、类平衡分类器和随机采样分类器. 在第一阶段, 使用类平衡分类器为无标签数据生成伪标签. 第二阶段通过随机采样分类器微调所有标签数据和伪标签数据. 第三阶段在有标签数据集上微调类平衡分类器. Wei等[95]认为模型偏好会导致尾部类易被误判为头部类. 换句话说, 在头部类过拟合的情况下, 若模型仍将一样本预测为尾部类, 则意味着该样本被正确预测的可能性很高. 基于这样的思想, 作者首先利用标准自监督算法在整体数据集上训练一个模型, 然后利用该模型为无标签数据集的每个样本生成伪标签, 获得新的增强数据集. 在增强数据集中, 挑选出预测类别为尾部类的样本, 加入到有标签数据集中, 并以此循环直至训练结束.
3)迁移学习增强方法
迁移学习指的是把源域的知识迁移到增强模型目标域的过程, 研究发现, 将多样化的头部类语义知识迁移至尾部类, 能够提升增强数据的有效性以及长尾数据分布的完整性. Chu等[10]将每个样本特征分为类间差异不大的公有特征和类间差异很大的私有特征, 然后将头部类的公有特征与尾部类的私有特征相融合产生增强样本. 类似的, Wang等[96]提出类感知特征分解策略, 通过注意力机制将原始特征解耦为类相关特征和变化相关特征. 类感知特征分解在原始特征的基础上加入类相关特征增强原始特征的表征能力, 同时组合类相关特征和变化相关特征为每个类生成新特征. Zhou等[15]从头部类中学习一个复杂函数来近似真实情况下类无关的复杂变换, 然后将尾部类样本通过复杂变换函数得到语义增强样本. 文献[9]给头部类样本添加一个扰动, 令头部类样本直接转变为尾部类样本, 以平衡数据集.
数据集的一些统计量能够反映样本的隐式语义信息, 一些研究主张将头部类的统计量知识迁移到尾部类中, 从而模拟多样性更强的尾部类分布, 以在模拟分布中获得语义信息更丰富的增强样本. Wang等[97]认为条件特征协方差矩阵可以反映类内隐式语义变化, 因此, 作者从每类条件协方差矩阵的零均值正态分布中采样随机向量作为该类的语义变化方向, 然后沿着语义方向转换尾部类特征, 得到多样化的增强样本(示意图见图12). 然而, 该方法难以在训练样本不足时准确估计类条件统计量, 作为改进, MetaSAug (Meta Semantic Augmentation)[98]通过元学习(Meta-Learning)自动学习尾部类的类内协方差矩阵. 文献[76]研究发现, 类内方差能反映出类内样本特征多样性, 语义越丰富的类, 类内方差越大. 因此, 该方法从真实样本中计算每类特征的均值与方差, 并将其作为高斯先验分布的参数生成尾部类的虚拟特征, 同时通过自适应特征采样方案动态确定需要生成的虚拟特征数量, 避免过拟合和欠拟合. 受[76]的启发, Zhao等[99]将类特征均值和方差存储在一个动态记忆库中, 然后根据存储的记忆生成虚拟特征. 另外, 该方法考虑尾部类与其它类的语义相似度, 将其它类的特征方差迁移至尾部类, 以提升尾部类增强特征的多样性. Vigneswaran等[100]对各个类的统计量进行校准, 并通过实验证实了从校准后的分布中生成的新样本是无偏的. Liu等[101]通过计算每个特征向量与其类中心向量之间的夹角分布来模拟类内特征分布, 夹角分布的方差越大表示该类样本的语义信息越丰富. 然后, 作者将头部类的类内夹角分布转移到尾部类, 并为尾部特征构造特征云来替换每个尾部实例, 从而缓解类不平衡导致的特征空间畸变问题.
2.1.3 小结
重采样方法的理论直观、操作简单, 常作为一种有效的数据预处理方法与其它长尾学习算法相结合. 然而, 简单过采样尾部类样本不能增加有效信息, 还会导致模型出现过拟合问题. 另一方面, 欠采样头部类会丢失大量信息, 降低头部类样本的多样性, 导致模型对头部类学习不充分. 数据增强能够在不牺牲头部类性能的情况下提升增强数据的语义有效性, 但会增加模型的内存负担和训练成本. 另外, 基于迁移学习的互增强方法和训练生成模型的数据增强方法需要设计特定的网络结构, 并很大程度上依赖于头部类数据质量, 如何在节约模型运算成本的同时生成贴近现实世界的增强样本仍然是一个悬而未决的问题.
2.2 优化模型空间
本节以模型训练流程为线索, 分别从优化特征提取器、优化分类器、logits调整和代价敏感加权损失函数4个方面介绍优化模型空间的先进方法. 本节分类标准建立在底层特征处理到高层决策优化的综合策略体系之上, 分类方法如图13所示. 优化特征提取器方法为模型提供良好的输入特征表示, 优化分类器和logits调整方法则直接作用于分类决策过程, 致力于减轻类别不平衡带来的偏差, 代价敏感加权损失函数作为整体优化的调节器, 通过调整学习目标本身, 确保在训练过程公平对待所有类别. 这些方法相互补充, 共同构成了长尾学习中模型空间优化的多层次策略, 从不同维度缓解类别不平衡问题, 提升模型的整体识别性能.
2.2.1 优化特征提取器
长尾图像识别算法通常使用卷积神经网络(Convolutional Neural Network, CNN)[102]作为特征提取器来捕捉图像的局部空间相关性. CNN的设计灵感来自于人类视觉系统的工作原理, 通过层次化的卷积操作和池化操作来提取图像中的特征, 从而能够识别图像中的模式和对象. 目前, 较小规模的长尾数据集(CIFAR10-LT/100-LT)通常使用ResNet-32 (Residual Neural Network)[103]等层数较浅的CNN作为特征提取器, 规模较大的长尾数据集(ImageNet-LT、iNaturalist2017/2018)常使用更深层的ResNet-50[103]、ResNeXt-50[104]或ResNet-152[103]等作为特征提取器. 在目标检测任务中, 广泛使用的架构是Mask R-CNN[105]或带有特征金字塔网络的Faster R-CNN[106].
然而, 传统卷积神经网络需要充足数据进行训练, 且若训练数据不平衡或存在偏见, CNN可能会学到这些偏见. Long等[107]设置了一个与特征提取器并行的外部检索分支, 该分支通过一个非参数外部存储器显式地存储额外的图像, 既能帮助特征提取器专注于学习数据集的公有特征, 又能增强尾部类的私有特征. 针对传统CNN忽略图像数据上下文语义信息的问题, Zhou等[108]在CNN中引入通道注意力与空间注意力模块捕捉图像的全局和局部上下文语义信息. Zhao等[109]设置了基本ResNet模块和注意力ResNet模块分别提取头部类和尾部类特征, 然后对二者进行融合, 以增强尾部类的上下文语义关系.
随着Transformer[110]在自然语言处理领域大放异彩, 部分研究者将视觉Transformer模型作为长尾学习模型的特征提取器, 优化从每个样本中提取到的特征[110−112]. 传统Transformer中的自注意力机制只能感知单张图像的上下文关系, 但从长尾数据总体分布的层面上来看, 大量头部类主导模型的训练, 因此, 尾部类容易学习到有偏的特征表示. RelTransformer[111]提出一种记忆注意力模块, 动态地存储一组持久且可微的记忆向量, 从而使每个样本在训练时可以从整个数据集的层面上访问与自身相关的信息. BatchFormer[112]在小批量维度中引入Transformer来建模每个小批量中样本之间的关系, 从而促进头部类样本与尾部类样本之间的互相学习.
2.2.2 优化分类器
长尾分类器旨在最大程度区分不同类别的样本特征, 构造一个清晰无偏的决策边界, 使模型给予头部类与尾部类平等、准确的分类判断. 本小节基于从简单调整到机制创新的递进过程, 以及在不同策略间相互借鉴和融合的趋势, 将优化分类器方法分为基础的线性分类器改进方法、通过度量特征空间以弱化标签分布影响的度量分类器优化方法以及融入了特征学习、多级决策等其他创新型分类器.
线性分类器. 传统线性分类器上, 头部类和尾部类对应的权重参数量级差距过大, 导致模型产生有偏的预测概率, 决策边界向头部类倾斜[1]. 具体来说, 线性分类器输出的logits为:
$$ z={\boldsymbol{W}}^{\top} h+b $$ (5) 其中, 权重矩阵W的每一个列向量$ {\rm{w}}_{j} \in {\mathbb{R}}^{D}$为第j类对应的分类器权重向量. 通过比较每类权重向量$ w_{j}$的$ L_{2}$范数$ \left\|w_{j}\right\|$, 发现头部类权重向量的$ L_{2}$范数过大, 导致输出结果$ z$偏向头部类[14]. Wang等[79]进一步发现, 分类器权重范数还与模型精度高度相关, 具有较小分类器权重范数的类别的精度极低.
为得到无偏分类器, Ye等[74]提出一种基于样本数量的分类器权重缩放因子$ {\rm{s}}_{j}=\left(n_{\max } / n_{j}\right)^{\gamma}$, 其中$ \gamma $为超参数, $ n_{\max}$为最大类包含的样本数. 调整后的分类器权重为$ \tilde{w}_{j}=S_{j} * w_{j}$, 权重矩阵为$ {\tilde{\boldsymbol{W}}}= \left\{\tilde{w}_{j}\right\}$. 通过缩放因子, 模型给样本数量越少的类赋予更大的分类器权重. $ {\rm{Kang}} $等[1]提出, 对每个类对应的分类器权重做归一化处理, 使所有类的权重保持在同一量级: $ \tilde{w}_{j} =w_{j} /\left\|w_{j}\right\|^{\tau}$, 其中$ \tau \in(0,\;1)$为控制归一化的超参数, 当$ \tau=1$时为$ L_{2}$范数, $ \tau=0$时不做缩放处理. 然后, 作者进一步提出一个通过神经网络得到的自适应缩放因子$ s_{j}=1 /\left\|w_{j}\right\|^{\tau}$, 动态学习分类器权重向量的修正程度.
度量分类器. 基于距离的度量分类器比线性分类器更加鲁棒, 其决策边界的划定只取决于样本特征之间的距离, 而这些距离通常与不平衡的类标签分布无关. 常见的基于距离度量的分类器有: K近邻分类器(K-Neighbors Classifier)[114]、余弦相似度分类器(Cosine Similarity Classifier)[101]等. 余弦相似度分类器因其固有的归一化运算, 能够有效减轻分类器权重的不平衡问题[1], 已成为目前深度长尾学习的基准分类器之一. 余弦相似度分类器表示为:
$$ z=\varepsilon \frac{w_{j}^{T} \cdot h}{\left\|w_{j}\right\| \cdot\|h\|}+b $$ (6) 其中, $ \varepsilon $为超参数.
Tang等[26]基于因果推断的思想, 探究了一种提高余弦分类器鲁棒性的方法. 作者认为, SGD优化器(Stochastic Gradient Descent, SGD)的动量项在训练数据时会引入数据集的分布信息, 使模型优化方向倾向于头部类. 作者通过一种去混淆的因果分类器保留有利于模型训练的正作用动量, 去除加剧不平衡的负作用动量. 训练阶段的因果分类器采用多头归一化策略, 将分类器权重$ w $和特征表示$ h $平均划分为$ K $组. 因果分类器表示为:
$$ z=\frac{\tau}{K} \sum\limits_{k=1}^{K} \frac{\left(w_{j}^{k}\right)^{\top} h^{k}}{\left(\left\|w_{j}^{k}\right\|+\gamma\right)\left\|h^{k}\right\|} $$ (7) 其中, $ \tau $为温度因子, $ \gamma $为超参数. 同时, 该模型在训练集中学习一个移动平均向量$ \hat{d} $记录头尾偏差信息, 其单位方向为特征表示$ h $对头部类的倾斜方向. 在测试阶段, 通过$ \hat{d} $剔除输出结果对头部类过度倾向的部分, 消除负作用因果效应的影响, 测试阶段公式表示为:
$$ \begin{split} z=\;& \frac{\tau}{K} \sum_{k=1}^{K}\left(\frac{\left(w_{j}^{k}\right) h^{k}}{\left(\left\|w_{j}^{k}\right\|+\gamma\right)\left\|h^{k}\right\|}\right. -\\ & \left.\varepsilon \cdot \frac{\cos \left(h_{k},\; \hat{d}^{k}\right) \cdot\left(w_{j}^{k}\right)^{\top} \hat{d}^{k}}{\left\|w_{j}^{k}\right\|+\gamma}\right) \end{split} $$ (8) 其中, $ \varepsilon $为超参数.
传统度量分类器通常使用每类的平均特征表示作为类原型(Prototype), 但在长尾学习中, 类的平均特征表示可能偏向头部类, 难以准确表达每个类的语义特征. Wei等[76]基于迁移学习思想将校准后的类平均特征表示为原型, 然后在每类的原型上构建可学习的映射函数, 度量输入样本与经过函数映射后各类原型之间的相似度得出分类结果. 文献[116]认为, 类原型与训练得到的余弦分类器能够在特征空间中产生两种互补的类簇中心, 因此, 该方法通过类原型识别与目标尾部类样本语义相似的头部类, 然后选择和组合头部类特征来增强尾部类分类器.
其它分类器. Liu等[16]考虑使用迁移学习思想, 利用标准分类器学习头部类的信息, 并分析过拟合趋势, 提出了一种GIST分类器(GeometrIc Structure Transfer, GIST). 该方法使用分类器参数的星群(Constellations)编码每个类的几何形状, 通过类平衡和样本平衡采样相结合的损失函数, 将类的几何结构从头部类迁移到尾部类, 提高尾部类的鲁棒性. Wu等[117]提出了一种深度现实分类器(Deep Realistic Taxonomic Classifier, Deep-RTC), 将每个样本分类到分类器能够胜任的层级. 具体来说, Deep-RTC在训练期间通过随机树采样在粗粒度和细粒度层级上模拟所有可能出现的分类条件. 在推理阶段, 当模型无法保证分类准确性时, 可以采用拒绝机制, 在分类器的各个层级拒绝对样本分类. Jia等[118]设置了专注保持头部类性能的头分类器和用于提高尾类性能的尾分类器, 提出一种分类器权重估计模块, 自动估计样本属于头部类还是尾部类, 并在预测时为头分类器和尾分类器分配权重. 文献[119]针对长尾学习的难正确分类样本问题, 设置了辅助分类器. 在训练过程中, 根据样本的难易程度, 辅助分类器自适应地决定每个样本在第几轮迭代时退出网络, 从而使越困难分类的样本在网络中训练的轮次越多, 为难正确分类样本累积更高的总体损失. 该方法既能加强模型对难正确分类样本的学习, 又能节约计算成本与训练时间.
2.2.3 logits调整
logits是神经网络对输入样本未经归一化的类预测概率. 在长尾学习中, logits调整能够直接修正类预测概率中的偏差, 赋予较大的类间相对裕度[120]. logits调整可以设置在训练过程中, 也可以在测试阶段进行事后变动. 传统分类模型的预测概率为logits经过softmax运算后的结果, 本质上预测概率与logits是一致的, 故本文将调整预测概率的方法归纳到logits调整方法中. 本小节从logits调整一般形式的理论基础出发, 逐步过渡到调整决策边界、分布对齐的宏观优化方法, 最后细化到基于难正确分类样本的微观策略.
logits调整的一般形式. 文献[120]从统计学角度证明了logits调整是fisher一致的, 能够最小化每类的平均误差. 作者提出logits调整的一般形式, 将训练集标签分布作为先验概率, 添加到softmax交叉熵损失函数中训练一个无偏模型, 损失函数表示为:
$$ {\cal{L}}=-\log \frac{\exp \left(z_{j}+\tau \cdot \log \pi_{j}\right)}{\sum\limits_{i=1}^{C} \exp \left(z_{i}+\tau \cdot \log \pi_{i}\right)} $$ (9) 其中, $ \pi_{j}$为第j类先验概率的估计值, 温度参数$ \tau $决定模型对尾部类样本的关注程度. 另一方面, 作者还提出一种事后$ {\rm{logits}} $调整方法, 利用训练阶段得到的有偏概率输出, 在测试阶段对$ {\rm{logits}} $进行调整, 调整后的预测标签$ \hat{y}$为:
$$ \hat{y}=\arg \max\limits _{i \in[C]}\left(z_{i}-\tau \cdot \log \pi_{i}\right) $$ (10) 调整决策边界. Cao等[12]认为一个类的样本数量越多, 该类样本到决策边界的间隔应该越小, 因此, 作者提出标签分布感知间隔损失(Distribution-Aware Margin Loss, LDAM), 为正样本的输出增加一个间隔裕量: $ \Delta_{j}=\varepsilon / n_{j}^{1 / 4},\; j \in\{1,\; \cdots,\; C\}$, 其中$ \varepsilon $为超参数. 间隔裕量$ \Delta_{j}$定义为第$ j$类样本与决策边界间距的最小值, 与该类包含的样本数$ n_{j}$有关, $ {\rm{LDAM}} $损失表示为:
$$ {\cal{L}}_{\mathrm{LDAM}}= -\log \frac{\exp \left(z_{j}-\Delta_{j}\right)}{\exp \left(z_{j}-\Delta_{j}\right)+\sum\limits_{i \neq j}^{C} \exp \left(z_{i}\right)} $$ (11) 受LDAM的启发, Wang等[121]进一步探究了边界间隔和logits之间的关系, 发现未校准的边界间隔和logits呈正相关, 也就是说, 头部类比尾部类具有更大的边界间隔和logits. 作者将边界间隔量化为logits与线性分类器权重的模的比值, 然后保持原始logits不变, 通过两个可学习的参数校准决策边界. Wu等[28]从对抗鲁棒性的角度调整余弦分类器的输出, 为每个类均匀地施加一个间隔裕量, 使样本特征朝着其对应分类器的方向收敛. 在测试阶段, 该方法根据头部类和尾部类的泛化程度, 对决策边界进行事后调整. Li等[122]提出一种基于高斯云的余弦分类器logits调整方法, 该方法利用softmax的饱和度自动调整不同类别样本的有效性. 传统方法通常根据样本数量评估数据集的不平衡程度, Feng等[69]认为, 以上这些静态的方法难以自适应地反映数据集整体偏好情况, 因此, 作者将类间关系量化为每类的平均分类分数, 当尾部类平均分类分数小时, 动态地将决策边界向头部类方向偏移.
基于分布对齐. 长尾学习中, 训练集和测试集标签分布的不同会导致标签分布迁移问题, 受标签分布迁移影响, 分类器更倾向于将样本预测为头部类. Zhang等[55]提出一种分布对齐调整策略, 根据训练集中各类的频率模拟真实数据的先验分布, 使模型的预测分布与模拟的先验分布保持一致, 若一个类出现的频率较高, 则将该类的logits向置信度低的方向调整. Ren等提出BALMS (Balanced-Meta Softmax)[30], 通过元学习自动修正标签分布迁移带来的偏差. Hong等[123]对BALMS做出改进, 提出一种基于标签分布解纠缠的logits事后调整方法. 解决传统长尾模型经过交叉熵损失训练后, 其预测概率分布与原标签分布产生纠缠的问题. 此外, 传统基于分布对齐的logits调整方法只从定性的角度对长尾分布与平衡分布施加约束. Xu等[124]提出一种衡量分布偏差的定量算法, 通过最小化两种分布的距离来保证长尾训练集标签分布与平衡测试集标签分布的一致性.
基于难正确分类样本. 传统logits调整方法只考虑长尾数据的类不平衡问题, 没有关注难正确分类样本的影响. 针对这个问题, Zhao等[71]提出一种能够在样本数量与难正确分类样本之间协同学习的自适应logits调整损失, 对与目标类中心夹角较大的难正确分类样本施加更强的正则化约束. 在长尾学习任务中, 成对偏差是两类之间不对称的模型偏好问题. He等[125]通过一个动态累计的混淆矩阵获得类间预测的成对偏差信息, 然后利用混淆矩阵中获得的对抗性软标签, 在测试阶段对logits做事后校正, 缓解长尾学习中严重的类间错分问题. Long等[126]根据样本数量将原始长尾数据分为头、中、尾三部分, 实验发现, 尾部样本有较高概率被错分到头部或中部. 因此, 作者提出一种互斥调制器, 通过计算样本属于每个部分的概率自适应地调整logits.
2.2.4 代价敏感加权损失函数
传统多分类图像识别算法常采用交叉熵损失函数(Cross-Entropy Loss)衡量模型的预测概率分布与训练集真实标签分布之间的差异, 从而指导模型参数的更新. 然而, 在数据集呈现长尾分布的情况下, 传统交叉熵损失函数的性能急剧下降. 在小批量梯度下降法的计算过程中, 小批量内样本损失值的总和共同决定了本轮迭代梯度的更新方向. 但是, 在长尾学习的每个小批量内, 头部类样本数量过多, 占据总体损失值较大比例, 使梯度倾向于朝着优化头部类的方向更新, 尾部类容易被“忽视”. 目前, 深度长尾学习损失函数优化的方法主要集中于基于代价敏感加权损失函数(Cost Sensitive Learning)的加权损失函数, 又称重加权损失函数(Re-weight Loss). 代价敏感加权损失函数为不同类别或样本分配不同的损失权重, 使模型在更新过程中, 更倾向于样本数较少的类别和难正确分类样本, 从而提升长尾模型整体性能. 代价敏感加权交叉熵损失的一般形式为:
$$ {\cal{L}}=-\alpha_{j} \cdot \log \frac{\exp \left(z_{j}\right)}{\sum\limits_{i=1}^{c} \exp \left(z_{i}\right)}=-\alpha_{j} \log \left(p_{j}\right) $$ (12) 其中, $ \alpha_{j} $为代价敏感加权损失函数的权重. 代价敏感加权损失函数方法需要解决的核心问题就是如何合理确定权重$ \alpha_{j} $.
本小节依据从直接依据样本出现频率构造损失函数到考虑多种因素, 从更深层次构建损失函数的递进关系, 将代价敏感加权损失函数分为基础的基于样本频率方法、缓解头部类梯度对尾部类梯度过度抑制的方法以及根据样本难度进行响应性调整的方法.
基于不同类样本出现频率. 重采样与代价敏感加权损失函数本质上都是为了构建类平衡的小批量训练样本, 其区别在于重采样作用于输入样本, 代价敏感加权损失函数则作用于模型前向计算得到的损失值. 早期代价敏感加权损失函数直接将每类样本频率的倒数[127]作为权重或使用样本频率平方根的倒数作为权重[3]. 然而, 在极端数据不平衡学习场景或大规模数据场景下, 简单的代价敏感加权损失函数方法往往会大幅度加剧深度模型优化的难度, 导致过拟合问题.
现实情况下, 样本间存在信息重叠现象, 每个类都存在一定数量的冗余样本. 因此, 给所有头部类样本过小权重可能会造成头部类训练不足的问题. Cui等[11]提出一种基于有效样本数的代价敏感加权损失函数, 将样本采样过程视作一个在样本空间上随机不重叠覆盖的过程, 其中每类所有样本覆盖的体积就是该类的有效样本数, 表示为:
$$ \begin{split}& E_{nj} =\frac{1 - \beta^n}{1 - \beta},\; \\& \beta =\frac{O_j - 1}{O_j} \end{split} $$ (13) 其中, $ n_{j} $为第$ j $类的样本数量, $ O_{j} $为第$ j $类的原型数量, 代价敏感加权损失函数的权重为有效样本数的倒数$ \alpha_{j}=E_{n_{j}}^{-1}$. $ {\rm{Jamal}} $等[128]认为长尾学习可以看作是域自适应学习的一个特殊情况, 因此, 作者从域自适应学习的角度改进有效样本数, 通过元学习估计类条件分布之间的差异, 得到代价敏感加权损失函数的权重$ \alpha_{j}=\left(E_{n_{j}}+\epsilon_{i}\right)^{-1}$, 其中$ \epsilon_{i}$为平衡元学习数据集中学得的条件权重.
缓解梯度抑制. 在梯度反向传播过程中, 尾部类的负梯度比正梯度出现更频繁, 因此, 另一类代价敏感加权损失函数方法[12, 54, 67]旨在缓解头部类累积梯度对尾部类梯度的过度抑制. Tan等[12]最早针对梯度抑制问题提出均衡损失函数(Equalization Loss), 忽略头部类施加在尾部类上的梯度, 从而保护模型中适应于尾部类的参数不被头部类的梯度改变, 均衡损失函数表示为:
$$ L_{\mathrm{EQL}}=-\sum\limits_{j=1} \alpha_{j} \log \left(p_{j}\right) $$ (14) 其中权重$ \alpha_{j} $为:
$$ \alpha_{j}=1-E(r) T_{\lambda}\left(p_{j}\right)\left(1-y_{j}\right) $$ (15) 若候选区域r为前景实例则E(r) = 1, 背景则E(r) = 0, $ p_{j} $为类$ j $出现的频率, $ T_{\lambda} $为阈值函数, 用于区分当前类别是否为尾部类. 当$ p_{j} $大于人工设定的阈值$ \lambda $时$ T_{\lambda} $=1, 否则为0, $ y $为具有one-hot表示的真实分布. 随后, 作者[54]提出改进的均衡损失函数(Equalization Loss v2), 将目标检测任务拆分为一组独立的子任务, 每个子任务对应一个类, 然后根据每个子任务分类器累积的正负梯度之比, 分别对正梯度和负梯度进行加权和减权, 从而独立、平等地平衡每个类的训练过程. 上述方法将背景作为一类, 同时保留背景的梯度, Hsieh等[129]通过分析图像各个部分的梯度分布发现抑制尾部类的大部分梯度实际上来自正确分类的背景, 因此, 作者提出DropLoss自适应地平衡不同类别之间的背景损失梯度比例.
与单标签识别任务相比, 长尾多标签识别任务存在标签共现和负标签过度抑制的问题, Wu等[67]提出针对长尾多标签学习的分布平衡损失, 具体来说, 分布平衡损失评估了每个类别的期望采样率和实际采样率之间的差距, 然后利用两个采样率的比值来重新加权不同类别的损失值, 从而缓解标签共现问题. 针对负标签过度抑制问题, 通过一种负样本容限正则化(Negative Tolerant Regularization)方法约束梯度值的范围, 减轻了模型对分类器负类输出的惩罚.
基于难正确分类样本. 传统类平衡代价敏感加权损失函数算法为每个类赋予相同权重, 忽略了难正确分类样本的影响, 部分研究[3, 69, 72, 130]致力于使模型兼顾类平衡学习和难正确分类样本学习. 较早的工作焦点损失函数(Focal Loss)[131]通过设置一个调制因子动态减少训练过程中简单样本的损失权重, 从而降低简单样本参与梯度更新的程度, 使模型快速聚焦于难正确分类样本的学习上, 焦点损失函数表示为:
$$ L_{\text{Focal }}=-\left(1-p_{j}\right)^{\gamma} \log \left(p_{j}\right) $$ (16) 其中$ p_{j} $为第j类的预测概率, $ \gamma $为超参数:
$$ p_j= \begin{cases}p_j,\; & \text { if } j=c \\ 1-p_j,\; & \text { if } j \neq c\end{cases} $$ (17) 改进的循环焦点损失函数(Cyclical Focal Loss)[132]在早期和末期轮次赋予置信度高的简单样本更高的权重, 在中期轮次则给置信度低的难正确分类样本样本更高权重.
焦点损失函数假设尾部类样本都是较难正确分类的样本, 实际上难正确分类样本在数据集中是随机出现的, 具有一定的噪声属性, 并表现出高度不可重构性与偶然不确定性, 但长尾样本却具有可重构性与认知不确定性. GradTail[72]通过比较小批量内每个样本的梯度与平均梯度点乘的结果区分难正确分类样本与尾部类样本, 作者将计算得到的难正确分类样本视作噪声样本, 通过降低难正确分类样本损失的权重避免模型对噪声样本的过度拟合, 同时为长尾样本赋予更高的权重. 与GradTail的思想类似, Sinha等[56]也探索了尾部类与难正确分类样本类别的关系, 在类别层面提出一种难正确分类类别代价敏感加权损失函数优化算法.
此外, 均衡焦点损失函数[93](Equalized Focal Loss)改进了传统焦点损失函数的调制因子, 在调制因子中引入与类别相关的参数, 使模型根据数据的不平衡程度重新平衡不同类别正负样本的损失贡献, 表示为:
$$ \begin{split} L_{\text{EFL}}=\;&- \sum\limits_{j=1}^{c} \alpha_t \left( \frac{\gamma_b + \gamma_v^j}{\gamma_b} \right) \\ &(1 - p_t)^{\gamma_b + \gamma_v^j} \log (p_t) \end{split} $$ (18) 其中, 调制因子包含两个解耦的动态因子, 即聚焦因子$ \gamma_{b} $和权重因子$ \gamma_{v}^{j} $. 聚焦因子根据难正确分类正样本所属类别的不平衡程度, 决定模型对难正确分类正样本的学习程度, 而权重因子则用于提高尾部样本在训练过程中的损失贡献. 文献[3]通过设置一个缓解因子动态地抑制施加在尾部类别上过量的负样本梯度, 同时设置了一个补偿因子, 以补充模型对难正确分类样本的惩罚. Park等[130]认为在特征空间中, 处于头部类边缘的样本会对分类器产生较大影响, 作者通过计算反向传播梯度和比较损失值大小识别头部类的边缘样本, 并降低边缘样本的权重, 从而缓解边缘样本对模型的负面影响.
2.2.5 小结
优化特征提取器的方法通过更改主干网络、引入注意力机制模块或设置记忆存储器帮助模型增强样本上下文语义特征, 学习无偏的特征表示, 但该类方法往往会引入大量参数, 增加计算成本. 相比之下, 优化分类器、logits调整与代价敏感加权损失函数方法计算开销较低, 操作更简单, 但其对超参数过于敏感, 需要大量实验才能确定最优超参数的设置, 试错代价过高, 无法从本质上解决信息缺乏的问题.
2.3 辅助任务学习
目前, 很多先进的长尾学习策略通过引入帮助模型训练的辅助任务, 在多个空间共同优化长尾学习模型. 本节根据技术手段和主要优化目标的区别, 归纳了5个最具代表性、应用最广泛的辅助任务, 分别为解耦学习、度量学习、知识蒸馏、集成学习和层次学习, 其关联如图14所示. 解耦学习作为一种基础策略, 通过分离表征学习与分类器学习以提升模型在长尾分布数据上的泛化能力和分类准确性. 度量学习关注特征空间的优化, 提升均匀性的同时减少类间干扰. 知识蒸馏的优化目标是利用高性能的教师模型指导简单的学生模型, 从而提高学生模型的整体性能. 集成学习通过融合各个专家的输出, 提高模型对长尾分布数据的综合处理能力. 层次学习的目标是构建数据集的层次结构, 在不同层次上应用不同的训练策略. 这些辅助任务相互关联与补充, 常组合成为综合系统, 共同构成一个多维度的长尾学习优化框架.
2.3.1 解耦学习
解耦学习(Decoupled Learning)将总体长尾学习任务拆解为表征学习任务和分类器学习任务, 并在两个子任务上采用不同的学习策略, 使模型既能获得鲁棒的表征又能学习到平衡的分类器[1, 14, 134−135]. 解耦学习主要分为多阶段任务与多分支任务. 多阶段任务[1−2, 31, 135−136]将训练过程分成多个阶段, 每个阶段对应一项学习任务, 上一个阶段的学习任务结束后再进行下一阶段任务的学习. 多分支任务[14, 33, 137−138]则在模型中设置几个并行运算的分支, 每个分支对应一项学习任务.
多阶段任务. 多阶段任务可追溯到文献[139]提出的分阶段预训练方法, Kang等[1]发现特征提取器在丰富的原始长尾分布数据上能够学习到高质量、鲁棒的表征, 而在类平衡分布的数据上训练分类器, 能够使分类器具备较强的长尾识别能力. 因此, 作者在第一阶段通过原始长尾数据训练一个分类模型以学习任务, 第二阶段首先冻结第一阶段模型的特征提取器参数, 然后采用类平衡学习方法重新训练一个新的分类器, 以完成分类器学习任务, 如图15所示. 同一时期, Li[135]等也发现不平衡的分类器是降低长尾学习模型性能的主要原因, 提出的BAGS (Balanced Group Softmax)通过解耦学习解决长尾目标检测任务. BAGS在分类头中引入平衡组softmax模块, 将分类器权重的模长属于同个量级的类别归到同一组, 然后逐组进行softmax运算. 同时, 针对组内负样本不足的问题, BAGS在每个组中都增加一个其它类, 并将背景也视作一个单独的组, 以减少头部类对尾部类的影响.
Zhong等[136]认为两个任务对应的数据集分布不同, 所以传统批量归一化共享两个任务的均值和方差是不合理的, 因此, 作者实时更新训练过程中的均值与方差来优化第二阶段任务的归一化运算. Alshammari等[140]对两阶段解耦学习中分类器权重平衡方法进行研究, 包括$ {\rm{L}}_{2}$范数正则化、权重衰减和$ {\rm{MaxNorm}} $, 并实验证明了第一阶段使用交叉熵损失和权重衰减进行表征学习, 第二阶段结合类平衡损失、权重衰减和$ {\rm{MaxNorm}} $方法重新训练分类器能获得显著的效果. 文献[141]利用解耦学习思想进行样本增强, 生成靠近头部类的样本特征, 调整决策边界向头部类偏移. $ {\rm{Yang}} $等[142]认为自监督方法能够有效缓解固有标签归纳偏置, 因此, 该方法在训练的第一阶段进行自监督预训练, 从而摆脱与标签相关的初始化特征信息的影响, 第二阶段则可以与其它缓解数据不平衡的长尾算法相结合, 学习到一个均匀的特征空间.
传统长尾学习只适应于静态数据, Liu等[143]针对长尾分布数据的增量持续学习问题展开研究, 旨在使模型能够持续不断地从样本中学习新知识, 同时不遗忘过去学过的知识. 作者提出一种两阶段长尾增量学习方法, 在增量步骤$ t $, 模型将新任务样本和存储的记忆样本共同作为输入集, 在第一阶段通过随机采样输入训练集来训练特征提取器和分类器, 同时结合任意增量持续学习算法以对抗遗忘. 在第二阶段冻结特征提取器和先前任务对应的分类器权重, 通过类平衡采样和可学习缩放权重代价敏感加权损失函数方法[1]学习新任务的分类器权重, 从而尽可能的为未来任务提供一个无偏的初始化参数.
多分支任务. 双分支网络(Bilateral-Branch Network, BBN)[14]是最早关于多分支长尾解耦学习的工作, 该方法设置两个共享特征提取器参数的分支, 同时处理表示学习任务和分类器学习任务, 如图16所示. 其中, 表征学习分支通过学习原始长尾数据得到长尾特征$ h_{c} $, 分类器学习分支在反向采样的数据集上训练, 得到平衡特征$ h_{r} $, 然后根据训练进程对两个分支动态加权:
$$ \begin{split} z &=\alpha {\boldsymbol{W}}_c^\top {h}_c + (1 - \phi) {\boldsymbol{W}}_r^\top {h}_r,\; \\ \phi &=1 - \left( \frac{t}{T} \right)^2 \end{split} $$ (19) 其中, Wc和Wr为两个分支的分类器权重, $ \phi $为加权系数, $ {\rm{t}} $为当前训练轮次, $ {\rm{T}} $为最大训练轮次. 由于两个分支拟合的输入数据分布不同, 两个分支对相同的输入样本可能会产生不同的预测结果. 文献[138]提出跨分支一致性损失, 最小化同一输入样本在不同分支中得到的$ \text{logits}$的均方误差, 以增强两个分支的输出一致性. $ \text{Guo}$等[39]针对长尾人脸识别任务, 提出一种双分支联合交替训练框架, 其中, 长尾分支从丰富的长尾训练集中学习普适的判别信息, 尾部类分支只专注于学习尾部类样本, 并采用一种基于间隔的混合方法(MarginMix)进行数据增强. Zhang等[33]提出一种三分支自适应融合解耦学习方法, 用于识别长尾医疗图像. 除长尾分支和平衡分支外, 该方法提出一个融合平衡分支整合各种决策优势, 并引入一个自适应损失函数重新平衡简单和难正确分类样本的分类性能.
2.3.2 度量学习
受类不平衡问题影响, 长尾特征空间的均匀性大幅度下降, 出现空间畸变现象. 换句话说, 头部类在特征空间中占据的空间过大, 尾部类占据的空间过小, 头部类将会“吸引”尾部类, 使得尾部类易被误判为头部类[58]. Li等[59]将特征向量投影到超球空间, 发现各个尾部类之间存在重叠与混淆的问题.
度量学习(Metric Learning)的目标是学习一个从原始空间到低维特征空间的映射, 将各个样本特征之间的距离作为衡量样本相似度的标准, 使不同类样本之间的相似度更小, 相同类样本之间的相似度更大[21−22, 40, 127]. 作为一种长尾学习的辅助任务, 度量学习可以帮助模型构建一个类内距离小, 类间距离大, 决策边界清晰的特征空间. Range loss[40]是较早引入度量学习帮助模型优化特征空间的方法, 该方法最小化每个类别的个最大类内距离, 同时在每个批量中, 最大化类中心最近的两个类别之间的距离, Range loss算法示意图如图17所示. Huang等[127]提出一种具有三头损失的五元组采样策略. 由五元组定义的细粒度相似性, 比传统的三元组相似性方法提供了更强的约束和更丰富的信息, 同时能够形成对不平衡类不敏感的局部决策边界.
CRL损失(Class Rectification Loss)[144]将所有尾部类样本作为锚点, 与决策边界周围的难正确分类正样本, 难正确分类负样本组成多个三元组, 从而使难正确分类正样本向目标类的类中心靠近, 难正确分类负样本远离目标类的类中心. 受CRL的启发, 文献[145]将锚点设置为尾部类样本中的简单样本, 从而解决CRL可能将难正确分类样本推入相反类别区域中的问题. 此外, Cai等[21]通过度量学习处理开放集长尾识别(Open-Set Long-Tailed Recognition)任务, 引入了基于相对局部密度的度量因子, 在特征空间中根据已经训练的类别定位每个测试样本, 衡量测试样本的新颖性水平.
在长尾数据集中, 噪声标签更难检测, 尤其是尾部类噪声. 度量学习能够高效、准确处理噪声标签. Wei等[146]提出基于度量学习的抗标签噪声方法. 该方法利用长尾分布数据训练一个特征提取器, 通过使用不同水平的噪声污染干净标签来计算每个类的原型. 然后设置一个独立的噪声检测器, 将接近其对应类原型的样本视为无噪声样本, 其它样本视为有噪声样本.
对比学习(Contrastive Learning)与度量学习的思想类似, 区别在于传统对比学习为自监督学习, 将同一样本经过不同数据增强方法处理得到的增广样本视为正样本, 不同样本的视为负样本, 然后通过设计对比学习函数, 构造正样本靠近, 负样本远离的特征空间[148].
在深度长尾学习中, 对比学习作为一种常与解耦学习相结合的辅助任务, 旨在鲁棒地学习一个平衡、均匀的特征空间. Wang等[149]在双分支网络中引入有监督原型对比算法, 将每个小批量内的样本与额外维护的类原型进行对比运算. Cui等[57]发现有监督对比损失更倾向头部类, 提出的参数对比损失通过维护一组参数化的可学习类原型实现再平衡, 当过多的样本聚集在其对应的类中心时, 参数对比损失会自适应地增强同类样本的聚集强度. 然而, 在类不平衡数据的影响下, 上述基于原型的长尾对比学习算法可能会学习到有偏的原型, Fu等[150]通过设置一个元网络自动学习每个类无偏的原型. Zhong等[151]发现使用孪生网络结构的有监督对比学习模型, 在原始分支和孪生分支上都存在类不平衡问题, 因此, 作者提出的ResCom (Rebalanced Siamese Contrastive, ResCom)在原始分支上引入类平衡监督对比损失为不同的类自适应分配权值, 在孪生分支上则设置了一个类平衡队列, 为所有类维护相同数量的键. 此外, ResCom提出有监督难正确分类样本挖掘损失函数以挑选出信息量大的样本对来进行对比计算, 从而缓解类不平衡导致的长尾对比损失函梯度消失问题. K-正对比损失[58]有意识地保持每类的正样本数量相等, 在每个小批量中, 随机选择$ k $个与输入$ x_{i} $属于同一类的正样本, 然后拉近$ x_{i} $与正样本之间的距离. Li等[59]对K-正对比损失进行改进, 先在超球特征空间上设置多个均匀分布的锚点, 然后根据语义将各个类中心逼近与之对应的锚点, 并使用-正对比损失优化特征空间, 缓解尾部类之间互相重叠与混淆的问题. 正则单纯形是特征学习理想的几何构型, 但长尾数据无法形成正则单纯形. 传统对比学习能够扩大头部类之间的距离, 但会缩小尾部类之间的距离, 加剧长尾数据在特征空间上几何构型的不对称程度. 针对这个问题, Zhu等[152]提出平衡对比损失, 通过在每个小批量中引入类原型来保证所有类都参与到每次对比运算中. 另一方面, 平衡对比损失计算小批量训练样本中所有负样本的梯度均值, 保证了损失函数的整体下界是一个与类无关的常数, 构建了一个正则单纯形的特征空间.
2.3.3 知识蒸馏
知识蒸馏(Knowledge Distillation)由Hinton等人[153]最早提出, 本质上属于迁移学习的范畴, 通过控制“蒸馏温度”将知识从复杂、性能良好的教师网络转移到轻量、性能不佳的学生网络. 长尾学习中, 设置一个师生间知识蒸馏与迁移的辅助任务, 可以有效提升模型对尾部类的识别性能. 根据数据处理策略的不同, 将长尾知识蒸馏方法大体分为平衡子集法和解耦蒸馏法. 平衡子集法强调数据平衡与教师间的直接知识传递. 解耦蒸馏法结合解耦学习, 教师模型提供表征知识弥补学生模型表征学习不足, 学生则更专注分类器, 强调师生模型的表征与分类功能分离.
平衡子集法将长尾数据集划分成多个更平衡的子集, 然后设置多个教师分别学习子集中的知识, 再将知识整合并传递给学生模型. Xiang等[19]在2020年提出一种自定速的知识蒸馏框架解决长尾分类问题. 具体来说, 作者通过设置几个阈值, 将长尾训练集划分成多个相对平衡的子集, 然后为每个子集设置一个教师, 多个教师共同指导学生模型. 通过评估师生模型在验证集上性能的差距, 逐渐降低知识蒸馏损失函数的权重, 减轻教师对学生的限制. 另外, 该方法采用循序渐进、由易到难的课程学习方法[145], 先训练置信度高的简单样本, 再逐步将置信度较低的难正确分类样本添加到训练集中. Zhao等[36]认为学生模型从教师模型处学习知识的同时, 教师模型之间也应该互相学习, 作者提出分层蒸馏框架, 设置三个教师模型分别学习长尾数据中的头部集、中部集和尾部集, 然后通过教师互蒸馏机制, 令负责学习头部数据的教师指导负责中部集的教师, 负责头、中部的教师共同指导尾部集教师.
解耦蒸馏法将知识蒸馏与解耦学习的思想相结合, 利用表征学习能力良好的教师模型弥补学生模型对尾部类识别能力的不足, 而学生模型一般专注于学习平衡的分类器. Zhang等[17]于2021年提出两阶段平衡知识蒸馏, 第一阶段使用原始长尾数据训练一个教师模型, 第二阶段通过最小化实例平衡交叉熵损失和类平衡蒸馏损失的总和训练学生模型. 实例平衡的交叉熵损失能够利用充足的原始数据, 保证学生模型学习到泛化性良好的表示. 类平衡蒸馏损失的主要目的是利用类先验知识促进尾部类的学习, 类平衡蒸馏损失函数表示为:
$$ {\cal{L}}_{\text{类平衡蒸馏}}=\tau^2 \sum\limits_{i} \alpha_i \hat{p}_i \log \frac{\alpha_i \hat{p}_i}{p_i} $$ (20) 其中, $ \tau $为蒸馏温度, $ \hat{p}_{i} $是教师预测概率软标签, $ {p}_{i} $为学生预测概率软标签, $ {\alpha}_{i} $为基于有效样本数的代价敏感加权损失函数系数.
对长尾问题来说, 目前大部分算法使用logits进行知识蒸馏的方法并不可靠, 因为教师模型学习得到的logits会严重偏向头部类, 直接加剧学生模型的偏好问题. 因此, Iscen等[154]提出两阶段长尾特征蒸馏方法, 将整合后的教师特征知识传授给学生模型. He等[155]认为教师模型学习的数据集分布越平衡, 指导的学生模型性能越好, 提出一种显式调整训练数据分布的虚拟样本蒸馏方法. 类似的, Li等[147]致力于使用解耦学习思想训练一个平衡的教师模型, 提出一种三阶段长尾知识蒸馏方法, 如图18所示. 第一阶段在长尾分布数据上采用交叉熵损失和自监督方法联合训练一个预训练模型. 第二阶段冻结预训练模型的特征提取器参数, 然后通过类平衡采样方法重新训练分类器, 并将其视为教师模型, 以获得用于知识蒸馏的软标签. 第三阶段将原始标签和平衡软标签作为混合监督, 在长尾分布数据上从头训练一个新的学生模型.
传统多阶段蒸馏需要预训练教师模型, 导致时间和计算成本大大增加, 而且师生模型可能存在能力不匹配的问题, 使学生模型难以从教师模型处学得有效的特征表示, 自蒸馏(Self Distillation)不需要教师模型的辅助就能完成学生模型的自我提升. Xia等[156]应用一阶段自蒸馏方法解决长尾识别问题, 该方法采用双分支网络架构同时进行表征学习和分类器学习, 并在模型内部通过一种“头到尾”与“尾到头”的联合自蒸馏方法逐步转移知识.
2.3.4 集成学习
集成学习(Ensemble Learning)指组合多个弱学习模型(或称专家), 得到一个更全面、容错率更高的强学习模型, 多专家集成学习模型示意图如图19(a)所示. 在长尾学习中, 通常将每个专家视作一个辅助子任务, 使其学习数据集中不同的部分. 长尾集成学习的研究重点可以概括为: 1)根据长尾分布数据的特点合理设定每个专家的任务目标. 2)有效融合各个专家的输出结果提升最终任务的性能. 目前的分类方法[5]认为多分支解耦学习可看作集成学习的一种情况, 其中每一条分支对应一个专家[39, 109, 157]. Sharma等[18]提出类平衡专家集成学习, 将长尾训练集划分为头部类、中部类和尾部类三个相对平衡的子集, 并为每个平衡子集分配一个专家, 如图19(b)-①所示, 同时对类平衡子集之外的样本进行分布外检测. 类似的方法, Xiang等[19]将大规模数据集(ImageNet-LT[62], Places-LT[62])划分为三个平衡子集, 将小规模数据集划分为两个平衡子集(CIFAR100-LT)[13], 在平衡子集上训练的专家一方面为自定速知识蒸馏提供logits分布, 另一方面提供样本输出置信度衡量类的难度, 帮助模型从易到难地重新组织训练数据.
由于尾部类样本稀缺, 只负责学习尾部类子集的专家难以得到充分的训练, 一些研究[18, 78, 158]主张为头部类样本分配更少的专家、为尾部类分配更多专家, 如图19(b)-②所示. ACE(Ally Complementary Experts)[20]将数据集划分为包含所有类的子集、包含中部类和尾部类的子集以及只包含尾部类的子集, 从而使更多的专家学习尾部类. ACE设置了一种分布式自适应优化器调整不同专家的学习率. 受ACE启发, Cui等[158]在参数空间将长尾集成学习建模为一个残差学习过程, 主干分支负责识别所有类别, 另外两个残差分支分别识别中、尾部类以及尾部类, 然后通过残差融合的方式融合几个分支的输出. 文献[78]采用与ACE相同的子集划分方法, 基于证据理论对多个专家估计的证据与不确定性进行动态融合, 解决长尾学习置信度不可靠的问题.
通过预定义的方式静态安排每个专家负责的任务可能为模型积累新的偏差, 降低专家之间的多样性与模型效率, 部分研究先令每个专家都学习整体长尾数据, 再根据训练过程自适应调整, 如图19(b)-③所示. 多专家路由模型(Routing Diverse Distribution-Aware Experts, RIDE)[159]将损失函数分解为与分类精度相关的分类偏差以及与预测稳定性相关的分类方差, 并证明难以均衡偏差与方差是传统长尾集成学习性能的瓶颈. RIDE引入路由模块来集成具有不同特征分布的多样化专家, 根据模型预测结果决定启用专家的数量, 降低模型的分类方差. 另一方面, RIDE提出分布多样性损失, 最大化多个专家预测结果分布的KL散度, 增强专家之间的多样性, 降低模型的分类偏差. 与RIDE主张各专家独立学习的思想不同, Li等[160]认为专家之间应该相互协作, 提出一种嵌套协作学习方法, 从整体和局部两个角度在多个专家之间进行知识的迁移.
现有的长尾学习通常假设模型在分布均匀的测试集上进行评估, 然而现实测试集的分布是未可知的, 可能呈现长尾分布甚至是反长尾分布. 文献[161]提出一种测试分布无关的长尾集成学习算法, 通过设置不同损失函数使一个专家致力于学习长尾分布, 一个负责平衡分布, 最后一个专家则擅长反向长尾分布学习, 如图19(b)-④所示. 在测试阶段, 利用自监督学习聚合3个专家, 以处理未知的测试类分布.
2.3.5 层次学习
层次学习(Hierarchy Learning)又称多粒度学习或分组学习, 旨在通过先验知识或聚类等方法将具有相似特性的子类归纳到对应的父类中, 并对不同层次采取不同训练方法. 这里低级的子类也称为细粒度图像, 更高级的父类称为粗粒度图像. 在长尾学习中, 同个父类下的头部类与尾部类样本更易混淆, 另外父类之间也可能出现新的长尾分布问题, 因此, 层次学习作为一种辅助任务, 可以帮助模型构建数据集层次关系, 从而进一步优化头尾知识迁移、分类器训练等过程.
Ouyang等[24]分层级地将实例聚类为视觉上相似的组, 在构建的分层聚类树中, 每个节点上的模型用于检测不同组的实例类别, 且子节点模型直接继承父节点模型的参数. 通过分层微调, 该方法将来自大量通用类的知识转移到少量特定类. 类似的工作, 文献[162]和[25]都通过构建层次分类树将长尾问题转化为层次分类问题, 区别在于[162]根据类别的视觉特征相似性生成一个分层超类数据集, 然后在分层超类数据集上训练一个端到端的分层学习模型, 模型中每个分支对应于层次超类树的一层, 并将低层分支的预测结果作为先验知识指导高层分支. 而[25]则应用K-Means聚类算法从粗到细地构建层次特征结构, 并通过度量学习自适应调整组内与组间节点的边际. Li等[163]提出一种从粗到细知识迁移的多任务专家卷积神经网络, 多任务专家同时训练粗粒度与细粒度任务, 在知识融合过程中, 自适应调整任务专家的权重, 从而提升模型细粒度识别性能.
在层次学习中, 父类的数量较少, 因而得到的logits更稳定, 能够抑制细粒度子节点中的错误或噪声logits. Wu等[23]提出分类森林算法, 在每个分类树内利用父分类器预测的父类概率抑制细粒度分类器的噪声logits. 此外, 由于构造父类的方法不唯一, 作者根据不同类型的类别关系构造多棵分类树, 建立起一个分类森林, 其中每棵分类树都为最终的细粒度分类结果做出贡献.
2.3.6 小结
受益于深度学习在其它领域蓬勃发展, 基于辅助任务学习的长尾学习算法能够“取长补短”, 展现出惊人的潜力. 解耦学习是近年来最具代表性的长尾学习策略, 通过信息丰富的原始数据获得泛化能力良好的特征表示, 再通过类平衡学习训练无偏的分类器, 这种将表征学习与分类器学习解耦训练的思想被广泛应用于其它辅助任务学习策略中. 度量学习旨在构建一个“正靠近, 负远离”的特征空间, 从而优化决策边界, 但在尾部类样本极少的情况下, 其性能提升效果有限. 知识蒸馏与集成学习都旨在通过教师或专家指导目标模型的学习, 其训练策略主要可分为解耦学习和划分平衡子集, 而层次学习则对数据间的关系进行多粒度建模, 从而捕捉类间隐式语义关系. 这三种策略在大规模数据集上能够取得优越的性能, 但存在计算和存储负荷过大, 框架部署复杂的问题, 如何在保证性能的情况下轻量化模型是目前的研究热点.
2.4 广义长尾分布
传统长尾学习算法主要关注类间样本数量的长尾问题, 然而在工业界中, 类内的属性长尾问题比类间长尾问题更难也更普遍. Tang等[32]提出广义长尾分布的概念, 同时考虑类间长尾和类内属性长尾问题, 这里的类内的属性既包含如姿态、纹理等物理属性, 也包括如背景、上下文等图像属性. 不同类可能存在相同的属性特征, 容易引起类间混淆的问题. 为解决上述问题, 作者对Center Loss[164]进行改进, 提出不变特征学习损失函数(Invariant Feature Learning Loss), 通过构建重采样的双环境模拟在不同属性分布的环境下学习不变特征的过程, 去除属性特征与类别原型特征的相关性, 实现对类原型特征更准确无偏的估计, 其结构如图20所示. 广义长尾分布扩展了传统长尾分布的概念和建模方法, 在类内属性层面分析了长尾分布问题的根本原因. 近年来, 一些文献[161, 165−168]也致力于从多角度, 多层级甚至多模态探索数据中蕴含的其它尺度的长尾分布现象. 例如, 文献[28]发现, 即使在样本平衡的数据集上进行训练, 模型对于不同类别的样本仍然存在偏见. 因此, 作者使用流形体积定义与量化了每个类的包含的语义信息, 流形体积越大的类, 其特征多样性越强. 然后, 作者将长尾分布概念拓展至语义尺度, 通过度量语义规模不平衡性评估哪些类别是需要增强的弱语义类别, 并通过语义尺度的边际效应描述模型偏差, 帮助模型选择更合适的样本数量. Park等[167]从域长尾分布的角度入手, 认为当图像从具有不同标签分布的多个域获取时, 传统算法在解决域之间的数据不平衡方面性能受限. 由于域之间也存在着不平衡, 决策边界容易偏向优势域. 这种域不平衡问题在生态研究领域的相机陷阱技术上格外严重, 例如有些野生动物只在夜晚活动, 相机在夜间上捕捉到的图像远比在白天多. 针对这个问题, 该方法设置了全领域专家和子领域专家, 全领域专家学习所有输入图像, 两个子领域专家则一个负责夜间域, 另一个负责白天域, 每个领域专家独立学习各自负责的领域.
2.5 长尾图像识别方法比较
本节旨在从全局视角概括上述各类长尾方法. 表2全面对比了本文归纳的长尾图像识别领域的多种方法, 概括了它们的代表文献、核心优势及主要局限性. 这些策略不仅能够单独实施以应对特定任务需求, 亦可相互融合, 形成综合性方法体系, 达到更佳的长尾图像识别效能. 在特定情况下, 每种方法的优势各有侧重.
表 2 长尾图像识别方法比较Table 2 Comparison of Long-Tail Image Recognition Methods分类 代表性文献 优点 缺点 优化样本空间 重采样 [1, 2, 56, 80, 70, 82, 30, 169] 简单通用, 理论直观, 易于操作 1)会丢弃大量头部类有效信息
2)重复采样尾部类不能增加有效信息, 并容易引发过拟合
3)易引入其它噪声数据增强 [2, 8, 9, 15, 76, 88, 89, 94, 95] 样本变换法成本较低, 易与其它方法结合, 灵活性较高. 语义增强法丰富尾部样本的语义信息, 生成具有现实意义的新样本 1)样本变换法引入大量新数据, 增加模型训练成本, 且可能生成毫无意义的样本, 鲁棒性较差.
2)语义增强方法需设计专门的模型结构, 操作复杂. 并过于依赖于头部类数据质量, 易给模型带来新的偏置.优化模型空间 优化特征提取器 [107, 108, 109, 111, 112, 170] 有效增强样本上下文语义特征帮助模型学到无偏的特征表示 1)引入大量参数, 占用内存, 降低训练效率
2)可解释性较差优化分类器 [1, 16, 26, 113, 115, 116, 118, 119] 计算开销小, 训练稳定无需设计额外的损失函数或存储单元 1)对超参数和优化器的选择敏感, 试错代价高
2)灵活性较低, 在目标检测与实例分割任务上表现不佳logits调整 [12, 28, 30, 55, 71, 120, 122] 既能优化训练过程, 又能进行事后修正. 计算开销较低, 泛化性能良好, 易与其它方法结合. 1)依赖于数据集的先验分布
2)修正后的边际分布可能不满足期望分布.代价敏感加权损失函数 [11, 12, 54, 72, 127, 129, 133] 操作简单, 易于实现, 计算开销较小, 适应于实际应用场景 1)优化困难, 参数敏感, 难以处理大规模真实场景
2)头尾性能像“跷跷板”, 无法从本质上解决信息缺乏的问题辅助任务学习 解耦学习 [1, 14, 134, 135, 138, 139] 利用大量头部类数据生成泛化能力良好的特征表示能够有效提升模型性能, 且计算成本较低. 1)两阶段方法不利于端到端的模型训练与部署
2)对数据依赖性较强
3)与其它算法结合使用时需重新设计, 实用性不强度量学习 [40, 58, 59, 127, 145, 149, 151] 便于公式化与计算构建一个正样本接近, 负样本远离的特征空间, 优化决策边界. 1)尾部类样本极少的情况下性能很差.
2)依赖于度量损失函数的设计知识蒸馏 [17, 19, 36, 145, 147, 154] 重用模型资源, 充分利用数据集蕴含的知识. 稳定尾部类学习过程 1)计算开销大, 优化成本相对过高, 对超参数敏感
2)易出现师生不匹配问题, 整体性能过于依赖教师模型的学习情况集成学习 [18, 19, 20, 158, 159, 161] 在头部类和尾部类上都能保持良好性能泛化能力良好, 能够处理未知分布的测试集 1)计算和存储负担过大, 框架部署复杂
2)专家之间存在相互影响的情况, 难以有效整合专家层次学习 [23, 24, 25, 162] 对数据间的关系进行多粒度建模, 捕捉类间隐式语义关系有助于头尾知识迁移 1)模型设计复杂, 训练成本较高
2)依赖于高质量数据, 有时需要数据集提供外部信息
3)层次划分步骤对后续训练产生过大影响具体来说, 优化样本空间方法直接作用于数据层面, 通过调整样本数量或质量缓解类不平衡问题, 一般无需对模型结构作大的改动. 其中, 重采样方法适用于数据极度不平衡或资源有限的场景, 其易于操作且理论直观. 数据增强方法适用于样本变换后不会引入过多噪声, 且能够生成具有现实意义新样本的场景.
优化模型空间方法针对模型内部机制, 更深入挖掘数据的潜在信息, 当模型对某一类特定任务或数据集的性能有较高要求时, 可使用该类方法满足特定需求. 其中, 优化特征提取器方法对于图像内容复杂, 需要深度理解上下文的学习场景较为有效, 可以提高特征的表达能力. 优化分类器方法适用于资源有限或对训练稳定性有较高要求的场景. logits调整方法简单有效, 适用于训练后仍需对模型输出进行微调的情况. 但是, 该方法依赖于对数据分布的先验知识, 不适用于数据分布动态变化的情况. 代价敏感加权损失函数适用于类别不平衡程度适中, 且对模型优化难度和参数敏感性有一定容忍度的学习场景, 在处理要求快速实现的实际应用任务时优势明显.
辅助任务学习通过引入与主任务相关的辅助任务, 利用额外的信息来增强模型的泛化能力. 该方法能够利用数据中的更多信息, 提高模型的学习效率. 其中, 解耦学习作为一种基础方法, 常与其他学习方法结合, 适合头部类数据能有效提升模型泛化能力的场景. 度量学习在需要明确区分正负样本, 类间关系明确, 且样本数量相对均衡的场景下效果最佳. 知识蒸馏方法能够重用模型资源, 充分利用数据集蕴含的知识, 适用于拥有高质量教师模型且计算资源充足的情况. 集成学习泛化能力良好, 且能够处理不同分布的数据, 适用于对模型性能有较高要求, 且能够承担较高计算和存储成本的场景. 层次学习适用于数据集具有明显层次结构, 且需要捕捉复杂类间隐式语义关系的场景.
3. 其它数据形式的长尾分布及应用
目前对长尾学习的研究集中于图像识别任务, 随着训练模型运用需求逐渐提高, 将研究图像识别任务中得到的经验拓展到其它形式的数据中是有必要的. 本文归纳了6种常见的数据类型, 并简单介绍长尾学习在其它数据形式中的应用.
3.1 文本挖掘
真实世界中文本数据往往会形成长尾分布, 存在被频繁调用的标签以及很少被关注的标签. Li等[45]针对机器阅读理解任务(Machine Reading Comprehension, MRC)中的正负样例不平衡问题, 提出Dice Loss来代替标准交叉熵损失函数, 并将训练样例与动态调整的权值相关联, 以弱化简单负样本的重要性. 关系提取(Relation Extraction, RE)指从文本中提取实体关系, 是构造知识图谱(Knowledge Graph, KG)的重要步骤. 然而, 实际场景中训练数据主要集中在少数几种类型的关系上, Cao等[171]从文本中学习关系原型, 关注样本之间的隐性关系, 通过训练数据充足的关系类型来迁移知识, 从而促进长尾关系抽取. Zhang等[172]关注到社交媒体上的谣言检测问题, 发现只有少部分用户大量转发谣言推文, 转发用户可以构建为长尾模型. 基于此背景, 提出通过结合密集及稀疏注意力捕获交互特征的对比学习方法, 利用用户特征检查整个传播过程, 收集传播证据. 文献[44]与[173]分别通过平衡分布损失函数与主动学习方法解决长尾文本多标签识别问题.
3.2 图结构数据识别
图神经网络(Graph Neural Network, GNN)关注图结构数据中节点和边之间的信息传递方式, 通过节点邻居信息更新节点状态, 并根据节点之间的相互依存关系来获取状态信息. 近年来, 图神经网络广泛应用于推荐系统、知识图谱等领域, 但在现实世界中, 图结构数据往往遵从长尾分布, 这引发两方面问题, 一是异质信息网络[174]在关系交互时, 尾部类信息难以被察觉, 二是在同质信息网络中, 难以捕获尾部类样本边与节点的依存关系. GraphSMOTE[175]采用过采样策略生成尾部类节点, 并将生成节点与现有节点连接. GraphENS[176]提出一种利用其它类节点增强尾部类节点的数据增强方法, 为尾部类节点生成自我中心网络(Ego-network). Yun等[177]认为图长尾学习存在两种类型的长尾分布, 即类长尾分布与度长尾分布, 因此, 作者将集成学习引入图长尾学习, 从类长尾分布和度长尾分布这两个角度, 为每个节点子集分配专家GNN模型. Hu等[178]通过引入一个自监督的属性图生成任务对GNN模型进行预训练, 使学习后的模型迁移到只有少量标签的下游任务中, 从而捕获生成过程中的节点属性以及图结构之间的内在依赖关系. Liu等[179]提出尾节点图神经网络(Tail-GNN), 根据可转迁邻域转换的概念, 模拟目标节点与其邻域节点之间的变量关系. 此外, 该方法基于知识蒸馏思想, 将从头部学习到的邻域转换知识转移到尾部节点, 增强尾部类特征表示.
3.3 多模态数据识别
深度学习中, 模态指某种类型的信息表示, 现实世界的事物由多种模态构成, 如图像、音频、文本等. 近年来, 部分文献针对长尾多模态问题展开深入研究. 视频数据是一种典型的多模态数据, Zhang等[68]建立了一个大规模长尾视频识别数据集VideoLT, 并提出对视频中的帧进行自适应重采样的方法. Perrett等[180]将小样本尾部类实例重构为头部类样本的加权组合, 并采用标签混合方法学习鲁棒的决策边界. Moon等[41]引入两个互补的可学习特征聚合器, 每个聚合器中的可学习层用于生成与任务相关的特征表示, 每个聚合器将片段知识组合成视频表示.
视觉-语言模型(Visual-Linguistic Model, VL)指通过文本模态信息辅助图像识别任务, Tian等[181]提出一种基于预训练的长尾视觉-语言识别模型, 能够从图像中学习视觉表示, 还可以从互联网上收集的有噪声的文本描述中学习相应的语言表示, 从而利用学习到的视觉语言表示提高图像识别性能, 尤其对尾部类增益显著. Ma等[182]将两阶段解耦学习与长尾视觉-语言学习相结合, 在表征学习阶段采用对比学习方法, 通过计算输入图像与输入文本间的语相似度, 将图像识别转换为视觉-语言匹配的多模态问题.
此外, Wang等[183]提出基于元学习的跨模态哈希方法, 该方法将从不同模态数据中学习到的特征与从尾部类样本中学习到的记忆特征相结合, 从而获得每个样本的元特征并量化生成哈希码.
3.4 时间序列预测
时间序列预测任务(Time Series Forecasting Method)旨在建模历史发生事件与发生时间的内在关联, 利用历史数据预测未来事件发生的可能性. 实际场景下, 小部分事件发生的频率极高, 低频事件往往被当作噪声甚至直接被忽略. Wang等[184]提出针对时间序列分类任务的特征空间平衡策略, 其中包含基于表示的平衡对比学习和基于数据的自适应时间增强两部分. 特征空间平衡模型由平衡表示学习分支与分类器学习分支构建, 通过原型监督对比损失学习到平衡的特征空间. 多变量时间序列(Multi-variate Time Series, MTS)受复杂的外部因素影响, 从时间角度可分为高频出现的头部类和低频出现的尾部类, 从空间角度可分为全局特征和局部特征. Deng等[185]针对MTS中存在的问题, 提出时间归一化和空间归一化两种模块, 分别从MTS数据中细化高频的头部类分量和局部空间分量, 并在长尾分布数据下进行验证.
3.5 音频识别
音频识别(Audio Recognition)的常见应用场景包括音乐识别、语音识别和自然界音频识别等. Craw等[186]发现在音乐推荐任务中, 少量热门音乐与大量小众音乐构成长尾分布, 由于小众音乐标签的稀疏性, 基于标签的推荐系统并不有效. 因此, 作者通过音频空间中相似邻域提供的额外标签知识来增强稀疏标签.
在自动语音识别(Automatic Speech Recognition, ASR)领域, Deng等[187]提出两阶段解耦ASR方法, 表征学习阶段, 使用预训练语言模型的编码器输出作为ASR模型的学习目标之一. 在分类器学习阶段, 作者在softmax函数中引入温度参数来减少负样本对尾部类的影响. 为应对ASR中不同语种训练数据的长尾分布问题, Winata等[188]利用预训练的多语言模型提高低资源语言的性能, 并采用双适配器优化声学建模过程, 通过在训练期间的损失中施加类先验克服类不平衡.
3.6 智能故障诊断
智能故障诊断(Intelligent Fault Diagnosis, IFD)依赖于不同健康状况平衡的数据集, 然而在实际工程中, 故障信号难以获取, 整体数据呈现长尾分布. Chen等[47]将集成学习[161]与类平衡策略[30]相结合, 提出一种基于无监督聚合的多专家注意力模型, 用于解决速度变化下的长尾故障诊断任务. Peng等[189]在解耦学习的基础上, 引入一种渐进式的平衡对比学习方法优化表征学习任务, 并使用可学习线性分类器进行分类, 该模型在尾部类样本极少的故障诊断数据集上取得了良好的性能. Deng等[190]采用改进的密集卷积神经网络(Dense Convolutional Network)作为故障分类模块的特征提取器, 同时在代价自适应模块中使用自适应加权交叉熵方法动态地为每个类分配错误代价, 从而减少数据不平衡的影响.
4. 存在挑战和未来发展方向
本节根据现有的长尾学习文献, 试图探讨可能存在的研究问题以及未来可能的发展方向.
4.1 现存挑战
4.1.1 可解释性
近年来, 尽管长尾学习涌现出大量的文献, 但对于长尾学习如何影响模型的性能并没有统一的认识和解释. 目前有效的解耦学习方法尚未得到严谨的理论证明, 头尾知识迁移方法也因为可解释性不足, 难以确定哪些特征与参数更适合参与到知识迁移过程.
Tang等[32]认为长尾学习理论的缺失主要源于长尾的矛盾效应, 即一方面模型结果严重偏向头部类, 而另一方面长尾学习的本质任务是捕捉类之间的自然相互依赖关系, 任何破坏类间依赖关系的操作都会损害特征表示学习过程. 文献[26]尝试通过因果效应分析长尾数据的学习过程, 理论表明, SGD动量本质上是长尾分类中的一个混淆因子, 既是误导尾部预测的有害因果效应来源, 又是有利于表示学习和头部预测的诱导中介. 未来可以开发面向长尾学习的特征与模型可视化工具, 帮助研究者理解模型如何识别和区别长尾分布下的不同输入. 此外, 还可以通过因果推断、贝叶斯理论、信息熵等方法从模型原理的角度分析长尾学习的影响.
4.1.2 数据质量
长尾学习是一项以数据为导向的任务, 数据质量从根本上决定了模型性能的上限. 现实世界数据集的质量参差不齐, 为长尾学习带来严峻的挑战: a)整体样本数过少, 长尾问题与小样本问题(Few-shot)同时存在; b)数据集中噪声样本过多; c)图像样本的分辨率过低或被污染、遮挡; d)存在标签缺失与标注错误问题.
针对长尾学习中的小样本问题, Jiao等[191]提出一种多平衡专家迁移学习方法, 在声呐图像分类任务中展现出卓越的性能. 面对低图像质量与高噪声干扰问题时, Li等[37]设计了一种基于解耦学习的两阶段抖动网络, 并结合测试时间增强和交替归一化方法共同提升长尾多模态鸟瞰图目标分类任务的准确性. 文献[192]将扩散模型引入长尾学习, 通过学习长尾训练集为尾部类合成新样本, 并利用原始数据集的固有信息, 过滤低质量样本, 保留有效样本. 当长尾数据集存在噪声标注问题时, Xian等[193]发现使用迭代数据清洗、分类器权重归一化、高分辨率微调和测试时间增强方法能够有效提高模型训练性能.
4.1.3 模型性能
近年来, 长尾学习在计算机视觉领域取得了长足的进步, 模型性能大幅度的提升. 然而, 与在平衡数据集上训练的模型相比, 长尾模型的性能仍有很大提升空间. 例如目前最先进的VIT-L[194]在原始平衡数据集CIFAR100上的Top-1准确率为96.2%, 而先进的长尾学习算法GLMC[195]在不平衡比率为100的CIFAR100-LT数据集上Top-1准确率达到57.11%. 在原始平衡Image-Net数据集上, BASIC-L[196]已经取得高达91.1%的准确率, 而以Resnet-50为主干网络的先进长尾算法GPaCo[197]在ImageNet-LT数据集的准确率仅达到58.5%.
为了缩小目前深度长尾学习算法与其性能上界之间巨大的性能差距, 可以充分利用预训练的大模型辅助长尾学习模型. Dong等[31]提出一种长尾提示学习方法, 在冻结的预训练模型中引入可学习的共享提示和特定组提示. 文献[193]针对微调大型视觉语言模型方法中可能出现的尾部类过拟合问题, 提出了一种参数高效性微调策略, 并使用一种语义感知分类器初始化技术, 在节约内存开销的同时提升模型各项性能指标.
4.1.4 计算资源
操作简单、参数量较小的重采样[6, 80, 82]、优化分类器[1, 113, 115]、代价敏感加权损失函数[3, 12, 129, 132]等方法对超参数较为敏感, 模型训练的试错成本过高且性能增益有限. 两阶段解耦学习[1, 134−135]违背端到端的训练与部署需求, 而集成学习[19, 158−159, 161]、知识蒸馏[17, 19, 154−155]等方法需设计复杂模型结构, 计算开销庞大, 设置外部记忆存储模块的方法占用大量内存, 这些方法都难以部署到实际应用场景中. 考虑在模型性能与计算资源约束的矛盾中寻求平衡, 可以采用模型压缩技术, 如量化、剪枝、神经网络蒸馏等策略, 减小模型的存储和计算开销. 文献[191]发现在长尾集成学习中, 直接融合所有基分类器所得的结果总是比最佳基分类器的性能差, 比最差的基分类器好. 因此, 该工作提出一种剪枝策略降低内存和推理时间成本. Wang等[159]则设计了一个由两层全连接网络构成的路由模块, 当先前专家无法准确预测样本时开启路由使下一个专家参与决策, 从而减少模型计算开销.
4.1.5 评价指标
绝大多数长尾学习方法的实验设置为训练集呈现长尾分布, 测试集呈现类平衡分布, 其原因主要有以下两点, 一是保证公平测试, 在平衡测试集上计算的准确率能反映出模型对所有类的识别性能, 防止模型通过牺牲尾部类性能获得较高的整体准确率. 二是稳定测试过程, 若测试集为尾部类数量极少的长尾分布, 则预测结果易因模型不确定性产生很大波动. 例如, 假设某尾部类测试样本只有一个, 则该类预测准确率只有0%与100%两种结果.
目前研究者对数据集头、中、尾区域的划分也过于单一和绝对, 没有考虑到不同数据集的特有性质. 然而, 现实场景远比实验设置复杂得多, 目标任务的分布可能呈现多种形式, 如何将长尾模型良好泛化到任意未知分布中, 是当前长尾学习研究的重点与难点.
另一方面, 现有长尾学习的评价指标大多沿用传统深度学习与类不平衡学习的传统评价指标, 少有针对长尾学习特定的专有指标. 未来的研究可以考虑根据数据的语义信息和种属性质等对长尾分布数据集提出更多样化的不平衡程度度量指标. 另外, 现实场景下, 评估指标应以实际应用任务为导向, 根据不同领域或不同数据集的任务需求制定评估方法.
4.2 未来发展方向
基于上文的分析, 我们进一步讨论了潜在的发展方向.
4.2.1 优化长尾数据集
自然世界的长尾分布现象中, 常见类别为头部类, 罕见类别为尾部类, 然而目前流行的公开长尾数据集, 其头尾类的数据构成并不完全符合自然规律. 在长尾数据集构建的过程中, 一方面应顺应自然规律, 另一方面应进一步探究长尾学习的可解释性, 确定每类的代表性样本. 具体来说, 研究者需要确保采集的样本涵盖关键特征空间中的各个维度, 还可以借助领域专业知识选择代表性样本. 针对不同类别, 研究者可通过聚类、构建层次结构等方式分析每类应收集的样本数量, 并增强数据集中样本的多样性, 还可以通过数据增强技术、控制标签质量等方法进一步优化数据集.
4.2.2 分布外泛化长尾学习
经典机器学习假设训练集和测试集为独立同分布的(Independent and Identically Distributed, i.i.d), 然而实际应用场景难以满足该假设. 分布外泛化(Out of Distribution)[198]旨在解决测试数据分布未知, 且训练与测试数据分布不同的挑战性学习问题, 从而使模型缓解分布差异, 并快速准确地推广到目标领域. 在传统长尾学习设置中, 训练集呈现长尾分布, 测试集通常为平衡类分布. 因此, 长尾学习可以看作分布外泛化的一种特定任务[165]. 未来的长尾学习研究可以考虑解决更复杂的分布外泛化问题, 打破测试集为类平衡分布的假设, 使长尾学习模型具备处理未知数据分布和未知样本的能力. Zhang等[161]提出一种多专家的自监督聚合策略, 解决测试无关的长尾识别任务, Li等[78]提出的一种不确定性估计方法, 判断尾部样本、分布外样本与其他样本之间的区别. 研究者还可以采用能量评分[199]判别分布外样本, 并对尾部类数据和分布外输入加以区分.
4.2.3 多域长尾识别
现有的长尾学习研究主要集中于单一域情况, 即样本来自相同数据分布, 而自然数据可能来自不同领域, 一个领域中的尾部类可以来自对应其它领域数量众多的头部类. Yang等[200]针对多域长尾识别场景提出领域类别可迁移性图, 从图中得到可迁移性统计量. 然后, 作者设计了一个多域长尾损失函数BoDA, 并证明了最小化BoDA损失等价于优化平衡可迁移性统计量的上界. Cao等[165]认为领域是一个抽象的属性, 在大多数应用中, 领域标签不易获得, 难以判断样本属于头部域还是尾部域. 作者提出一种域平衡机制自动评估每个类的域频率, 并使用残差平衡映射和域平衡间隔分别调整网络和损失函数.
4.2.4 流数据长尾学习
在互联网应用场景中, 数据常以高速到达的非平稳流数据形式呈现, 表现出动态、无序等特点, 为电子商务、舆情分析等任务带来严峻挑战. 从宏观上来看, 在一段时间内, 流数据整体上常呈现长尾分布, 因此, 如何既解决流数据中存在的概念漂移与灾难性遗忘问题, 又有效处理长尾分布中的模型偏好与信息缺失, 是一个极具实际应用价值的研究方向[143, 201−202].
流数据长尾学习可分为顺序长尾数据与乱序长尾数据, 研究者可以从模型的稳定性以及可塑性出发, 采用正则化、参数扩充等在线学习研究方法, 同时与重加权等长尾学习方法结合, 从而处理流数据上的长尾分布问题. Liu等[143]提出一种长尾类增量学习方法, 该方法在第一阶段采用随机采样和传统增量学习方法缓解灾难性遗忘, 第二阶段通过平衡采样方法和可学习权重缩放层学习平衡分类器.
4.2.5 多模态长尾学习
现实世界包含图像、声音、语言等多种模态, 但目前长尾学习一般只在单模态场景下展开研究. 同类别多个模态之间的信息能够相互补充, 有助于提升长尾识别任务总体性能. 视觉-语言长尾学习[181−182]是多模态长尾学习较早的尝试, 它将文本模态引入图像识别任务, 为不充分的数据源施加额外的监督. 视频识别也是一种多模态融合任务, Zhang等[68]在帧级别执行重采样, 并通过在网络中获得的知识动态确定采样率, 然而, 获取逐帧的标签需要大量成本, 且易引入大量任务无关的特征, 加重计算冗余问题[41]. 此外, 现有的假设是相同标签的多个模态分布相同, 但现实可能并非如此, 例如一种动物的叫声样本可能比其图像样本多得多, 这给多模态长尾学习带来了新的挑战.
未来研究者可以在训练过程中, 考虑多个模型的关联性, 或使用模态融合技术, 整合来自不同模态的信息, 并在模型融合的过程中考虑提升尾部模态做出的贡献, 还可以采用生成式方法生成更多尾部模态样本.
4.2.6 多标签长尾学习
多标签识别[46, 187]是深度学习的一个重要任务, 与许多单标签识别任务一样, 多标签识别的训练数据也会出现长尾分布问题. 但多标签识别存在标签共现问题, 即头部类与尾部类标签可能用于描述同一样本, 传统的重采样或代价敏感加权损失函数方法会导致无效增强或信息删失, 另一方面, 头尾标签间也存在相关性与语义依赖性. Shi等[203]针对长尾多标签文本分类问题, 提出一种结合多样性集成与误差校正的两步学习方法, 能够扩展到数十万个标签. Siddhant等[204]利用标签特征构造增强训练实例, 通过标签共现图生成相应的软标签目标, 有效地捕获标签之间的相关性. Zhang等[205]的研究揭示, 在应对多标签长尾问题时, 代表性样本具有显著重要性, 因此, 作者提出一种强调代表性样本损失函数(Representative- Emphasis Loss, REL), 基于样本的代表性重新平衡权重.
在未来的研究中, 可以采用解耦学习方法, 采样不同分布的数据集, 并分别在不同分布数据集上进行运算然后融合结果, 从而解决标签共现问题. 还可以进一步利用头尾标签间的依赖性, 通过头部类标签补充优化尾部类标签.
4.2.7 半监督长尾学习
在许多实际应用场景中, 获取充分标注的数据往往成本高昂, 而未标注或弱标注数据则相对丰富. 半监督学习旨在利用未标注数据来降低标注数据的成本, 在数据类别平衡的情况下已经取得了突破性的进展. 然而, 面对长尾分布数据时, 未标注数据的伪标签严重偏向于头部类, 这种有偏的伪标签会在训练过程中进一步使模型产生偏倚. Du等[206]不对未标注数据分布做任何假设, 通过显式地解耦条件分布和边际类分布的建模以改进传统期望最大化(Expectation-Maximization, EM)算法. 该解耦方法有助于在最大化阶段估计类分布的闭式解, 形成贝叶斯分类器. 反之, 该分类器在期望阶段能够提高伪标签的质量. Ma等[207]针对标注数据集和未标注数据集分布不匹配问题, 提出一种互补专家方法, 训练多个专家对各种类分布建模, 从而使每个专家在其擅长的类分布中生成高质量伪标签.
4.2.8 控制科学中的长尾问题
在控制科学领域, 数据不平衡和长尾分布问题是普遍存在的. 长尾分布数据意味着系统中存在大量非主流、低频、甚至噪声事件, 为系统带来不确定性, 传统控制系统建模方法无法全面考虑这些低频事件, 因而难以准确估计系统状态, 预测未来行为. 从信息论角度来看, 长尾分布问题容易导致信息在编码和传输过程中丢失低频事件, 造成信息损失问题, 另一方面, 长尾分布问题可能影响通信信道的容量和传输效率, 如果信息中包含大量低频事件, 传统通信系统需要更大的带宽和更高的容量, 确保所有事件都能被充分传输, 对信息系统的设计和优化提出了更高的要求. 从系统论的角度来说, 长尾分布现象增加了系统的多样性和非均匀性, 为理解和优化复杂系统提升了难度.
4.2.9 其它任务设置
除上述任务设置外, 长尾联邦学习[208]适应于数据安全隐私较高的场景, 能够有效防止信息泄露; 长尾鲁棒对抗性学习[28]揭示了深度网络的脆弱性与内在特性, 促进了深度学习的安全化与标准化, 但长尾鲁棒对抗性学习存在的鲁棒精度虚假增益等问题急需解决; 长尾图像哈希算法[183, 209]将图像表示为二进制编码, 实现高效存储和准确检索; 长尾主动学习[210]在无标签数据集中选择部分有效样本反馈回人工专家进行标注, 能够显著提升标注效率和模型性能.
5. 总结
本文归纳与评述了长尾学习的研究现状, 依据模型设计流程将图像识别领域的长尾学习算法分为优化样本空间、优化模型空间与辅助任务学习三大类, 并详细分析每类长尾学习范式的研究动机与算法特点, 对比了各种方法的优缺点. 然后, 进一步将狭义长尾分布推广到广义长尾分布, 并对自然语言处理、时序预测等多种其它数据形式下的长尾分布任务场景进行介绍. 最后, 从原理解释、数据质量、模型性能、计算资源与评价指标这5个方面讨论了目前长尾学习研究的瓶颈, 并提出若干个有前景的未来发展方向, 为读者提供更多思路.
-
表 1 常见长尾数据集基本信息
Table 1 Basic Information of Common Long-Tail Datasets
类型 数据集 类别数量 训练集样本数量 测试集样本数量 最大类样本数量 最小类样本数量 图像分类 CIFAR10-LT[13] 10 50000 10000 5000 5($ \rho$=100), 50($ \rho$=10) 图像分类 CIFAR100-LT[13] 100 50000 10000 500 5($ \rho$=100), 50($ \rho$=10) 目标检测 ImageNet-LT[62] 1000 115846 50000 1280 5 场景识别 Places-LT[62] 365 62500 36500 4980 5 人脸识别 MS1M-LT[62] 74500 (ID)887530 3530 598 1 目标检测 iNaturalist2017[63] 5089 579184 182707 196613 381 目标检测 iNaturalist 2018[63] 8142 437513 24426 127551 19 实例分割 LVIS v0.5[64] 1230 57000 20000 26148 1 实例分割 LVIS v1[64] 1203 100170 19822 50552 1 场景理解 SUN-LT[65] 397 4084 2868 12 2 目标检测 AWA-LT[65] 50 6713 6092 720 2 鸟类识别 CUB-LT[65] 200 2945 2348 43 2或3 图像分类 STL10-LT[66] 10 5000 8000 500 5($ \rho$=100), 50($ \rho$=10) 目标检测 VOC-LT[67] 20 1142 4952 775 4 视频分类 VideoLT[68] 1004 179352 51244 1912 44 表 2 长尾图像识别方法比较
Table 2 Comparison of Long-Tail Image Recognition Methods
分类 代表性文献 优点 缺点 优化样本空间 重采样 [1, 2, 56, 80, 70, 82, 30, 169] 简单通用, 理论直观, 易于操作 1)会丢弃大量头部类有效信息
2)重复采样尾部类不能增加有效信息, 并容易引发过拟合
3)易引入其它噪声数据增强 [2, 8, 9, 15, 76, 88, 89, 94, 95] 样本变换法成本较低, 易与其它方法结合, 灵活性较高. 语义增强法丰富尾部样本的语义信息, 生成具有现实意义的新样本 1)样本变换法引入大量新数据, 增加模型训练成本, 且可能生成毫无意义的样本, 鲁棒性较差.
2)语义增强方法需设计专门的模型结构, 操作复杂. 并过于依赖于头部类数据质量, 易给模型带来新的偏置.优化模型空间 优化特征提取器 [107, 108, 109, 111, 112, 170] 有效增强样本上下文语义特征帮助模型学到无偏的特征表示 1)引入大量参数, 占用内存, 降低训练效率
2)可解释性较差优化分类器 [1, 16, 26, 113, 115, 116, 118, 119] 计算开销小, 训练稳定无需设计额外的损失函数或存储单元 1)对超参数和优化器的选择敏感, 试错代价高
2)灵活性较低, 在目标检测与实例分割任务上表现不佳logits调整 [12, 28, 30, 55, 71, 120, 122] 既能优化训练过程, 又能进行事后修正. 计算开销较低, 泛化性能良好, 易与其它方法结合. 1)依赖于数据集的先验分布
2)修正后的边际分布可能不满足期望分布.代价敏感加权损失函数 [11, 12, 54, 72, 127, 129, 133] 操作简单, 易于实现, 计算开销较小, 适应于实际应用场景 1)优化困难, 参数敏感, 难以处理大规模真实场景
2)头尾性能像“跷跷板”, 无法从本质上解决信息缺乏的问题辅助任务学习 解耦学习 [1, 14, 134, 135, 138, 139] 利用大量头部类数据生成泛化能力良好的特征表示能够有效提升模型性能, 且计算成本较低. 1)两阶段方法不利于端到端的模型训练与部署
2)对数据依赖性较强
3)与其它算法结合使用时需重新设计, 实用性不强度量学习 [40, 58, 59, 127, 145, 149, 151] 便于公式化与计算构建一个正样本接近, 负样本远离的特征空间, 优化决策边界. 1)尾部类样本极少的情况下性能很差.
2)依赖于度量损失函数的设计知识蒸馏 [17, 19, 36, 145, 147, 154] 重用模型资源, 充分利用数据集蕴含的知识. 稳定尾部类学习过程 1)计算开销大, 优化成本相对过高, 对超参数敏感
2)易出现师生不匹配问题, 整体性能过于依赖教师模型的学习情况集成学习 [18, 19, 20, 158, 159, 161] 在头部类和尾部类上都能保持良好性能泛化能力良好, 能够处理未知分布的测试集 1)计算和存储负担过大, 框架部署复杂
2)专家之间存在相互影响的情况, 难以有效整合专家层次学习 [23, 24, 25, 162] 对数据间的关系进行多粒度建模, 捕捉类间隐式语义关系有助于头尾知识迁移 1)模型设计复杂, 训练成本较高
2)依赖于高质量数据, 有时需要数据集提供外部信息
3)层次划分步骤对后续训练产生过大影响 -
[1] Kang B, Xie S, Rohrbach M, et al. Decoupling representation and classifier for long-tailed recognition[J]. arXiv preprint arXiv: 1910.09217, 2019. [2] Zhang Y, Wei X S, Zhou B, et al. Bag of tricks for long-tailed visual recognition with deep convolutional neural networks[C]//Proceedings of the AAAI conference on artificial intelligence. 2021, 35(4): 3447−3455. [3] Wang J, Zhang W, Zang Y, et al. Seesaw loss for long-tailed instance segmentation[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021: 9695−9704. [4] Fu Y, Xiang L, Zahid Y, et al. Long-tailed visual recognition with deep models: A methodological survey and evaluation. Neurocomputing, 2022 [5] Yang L, Jiang H, Song Q, et al. A survey on long-tailed visual recognition. International Journal of Computer Vision, 2022, 130(7): 1837−1872 doi: 10.1007/s11263-022-01622-8 [6] Drummond C, Holte R C. C4. 5, class imbalance, and cost sensitivity: why under-sampling beats over-sampling[C]//Workshop on learning from imbalanced datasets II. 2003, 11: 1−8. [7] Shen L, Lin Z, Huang Q. Relay backpropagation for effective learning of deep convolutional neural networks[C]//Computer Vision–ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, October 11–14, 2016, Proceedings, Part VII 14. Springer International Publishing, 2016: 467−482. [8] Chou H P, Chang S C, Pan J Y, et al. Remix: rebalanced mixup[C]//Computer Vision–ECCV 2020 Workshops: Glasgow, UK, August 23–28, 2020, Proceedings, Part VI 16. Springer International Publishing, 2020: 95−110. [9] Kim J, Jeong J, Shin J. M2m: Imbalanced classification via major-to-minor translation[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020: 13896−13905. [10] Chu P, Bian X, Liu S, et al. Feature space augmentation for long-tailed data[C]//Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part XXIX 16. Springer International Publishing, 2020: 694−710. [11] Cui Y, Jia M, Lin T Y, et al. Class-balanced loss based on effective number of samples[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019: 9268−9277. [12] Tan J, Wang C, Li B, et al. Equalization loss for long-tailed object recognition[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020: 11662−11671. [13] Cao K, Wei C, Gaidon A, et al. Learning imbalanced datasets with label-distribution-aware margin loss. Advances in neural information processing systems, 201932 [14] Zhou B, Cui Q, Wei X S, et al. Bbn: Bilateral-branch network with cumulative learning for long-tailed visual recognition[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020: 9719−9728. [15] Zhou A, Tajwar F, Robey A, et al. Do deep networks transfer invariances across classes?[J]. arXiv preprint arXiv: 2203.09739, 2022. [16] Liu B, Li H, Kang H, et al. Gistnet: a geometric structure transfer network for long-tailed recognition[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2021: 8209−8218. [17] Zhang S, Chen C, Hu X, et al. Balanced knowledge distillation for long-tailed learning. Neurocomputing, 2023, 527: 36−46 doi: 10.1016/j.neucom.2023.01.063 [18] Sharma S, Yu N, Fritz M, et al. Long-tailed recognition using class-balanced experts[C]//Pattern Recognition: 42nd DAGM German Conference, DAGM GCPR 2020, Tübingen, Germany, September 28–October 1, 2020, Proceedings 42. Springer International Publishing, 2021: 86−100. [19] Xiang L, Ding G, Han J. Learning from multiple experts: Self-paced knowledge distillation for long-tailed classification[C]//Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part V 16. Springer International Publishing, 2020: 247−263. [20] Cai J, Wang Y, Hwang J N. Ace: Ally complementary experts for solving long-tailed recognition in one-shot[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 112−121. [21] Cai J, Wang Y, Hsu H M, et al. Luna: Localizing unfamiliarity near acquaintance for open-set long-tailed recognition[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2022, 36(1): 131−139. [22] Liu X, Zhang J, Hu T, et al. Inducing Neural Collapse in Deep Long-tailed Learning[C]//International Conference on Artificial Intelligence and Statistics. PMLR, 2023: 11534−11544. [23] Wu J, Song L, Zhang Q, et al. Forestdet: Large-vocabulary long-tailed object detection and instance segmentation. IEEE Transactions on Multimedia, 2021, 24: 3693−3705 [24] Ouyang W, Wang X, Zhang C, et al. Factors in finetuning deep model for object detection with long-tail distribution[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 864−873. [25] Li B. Adaptive Hierarchical Representation Learning for Long-Tailed Object Detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 2313−2322. [26] Tang K, Huang J, Zhang H. Long-tailed classification by keeping the good and removing the bad momentum causal effect. Advances in Neural Information Processing Systems, 2020, 33: 1513−1524 [27] Zhu B, Niu Y, Hua X S, et al. Cross-domain empirical risk minimization for unbiased long-tailed classification[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2022, 36(3): 3589−3597. [28] Wu T, Liu Z, Huang Q, et al. Adversarial robustness under long-tailed distribution[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021: 8659−8668. [29] Wang Y X, Ramanan D, Hebert M. Learning to model the tail. Advances in neural information processing systems, 201730 [30] Ren J, Yu C, Ma X, et al. Balanced meta-softmax for long-tailed visual recognition. Advances in neural information processing systems, 2020, 33: 4175−4186 [31] Dong B, Zhou P, Yan S, et al. Lpt: Long-tailed prompt tuning for image classification[J]. arXiv preprint arXiv: 2210.01033, 2022. [32] Tang K, Tao M, Qi J, et al. Invariant feature learning for generalized long-tailed classification[C]//European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022: 709−726. [33] Zhang R, Haihong E, Yuan L, et al. MBNM: multi-branch network based on memory features for long-tailed medical image recognition. Computer Methods and Programs in Biomedicine, 2021, 212: 106448 doi: 10.1016/j.cmpb.2021.106448 [34] Ju L, Yu Z, Wang L, et al. Hierarchical Knowledge Guided Learning for Real-world Retinal Disease Recognition. IEEE Transactions on Medical Imaging, 2023 [35] Yang Z, Pan J, Yang Y, et al. Proco: Prototype-aware contrastive learning for long-tailed medical image classification[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer Nature Switzerland, 2022: 173−182. [36] Zhao W, Liu J, Liu Y, et al. Teaching teachers first and then student: Hierarchical distillation to improve long-tailed object recognition in aerial images. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 1−12 [37] Li G, Pan L, Qiu L, et al. A Two-Stage Shake-Shake Network for Long-Tailed Recognition of SAR Aerial View Objects[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 249−256. [38] Jiao W, Zhang J. Sonar Images Classification While Facing Long-Tail and Few-Shot. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 1−20 [39] Guo S, Liu R, Wang M, et al. Exploiting the Tail Data for Long-Tailed Face Recognition. IEEE Access, 2022, 10: 97945−97953 doi: 10.1109/ACCESS.2022.3206040 [40] Zhang X, Fang Z, Wen Y, et al. Range loss for deep face recognition with long-tail[J]. arXiv preprint arXiv: 1611.08976, 2016. [41] Moon W J, Seong H S, Heo J P. Minority-Oriented Vicinity Expansion with Attentive Aggregation for Video Long-Tailed Recognition[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2023, 37(2): 1931−1939. [42] Zhang C, Ren L, Wang J, et al. Making Pre-trained Language Models Good Long-tailed Learners[J]. arXiv preprint arXiv: 2205.05461, 2022. [43] Li Y, Shen T, Long G, et al. Improving long-tail relation extraction with collaborating relation-augmented attention[J]. arXiv preprint arXiv: 2010.03773, 2020. [44] Huang Y, Giledereli B, Köksal A, et al. Balancing methods for multi-label text classification with long-tailed class distribution[J]. arXiv preprint arXiv: 2109.04712, 2021. [45] Li X, Sun X, Meng Y, et al. Dice loss for data-imbalanced NLP tasks[J]. arXiv preprint arXiv: 1911.02855, 2019. [46] Conde M V, Choi U J. Few-shot long-tailed bird audio recognition[J]. arXiv preprint arXiv: 2206.11260, 2022. [47] Chen Z, Chen J, Xie Z, et al. Multi-expert Attention Network with Unsupervised Aggregation for long-tailed fault diagnosis under speed variation. Knowledge-Based Systems, 2022, 252: 109393 doi: 10.1016/j.knosys.2022.109393 [48] Sreepada R S, Patra B K. Mitigating long tail effect in recommendations using few shot learning technique. Expert Systems with Applications, 2020, 140: 112887 doi: 10.1016/j.eswa.2019.112887 [49] Chaudhary A, Gupta H P, Shukla K K. Real-Time Activities of Daily Living Recognition Under Long-Tailed Class Distribution. IEEE Transactions on Emerging Topics in Computational Intelligence, 2022, 6(4): 740−750 doi: 10.1109/TETCI.2022.3150757 [50] Zhang Y, Kang B, Hooi B, et al. Deep long-tailed learning: A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023 [51] Pareto V. Cours d'économie politique[M]. Librairie Droz, 1964. [52] Zipf G K. The meaning-frequency relationship of words. The Journal of general psychology, 1945, 33(2): 251−256 doi: 10.1080/00221309.1945.10544509 [53] Hitt M A. The long tail: Why the future of business is selling less of more[J]. 2007. [54] Tan J, Lu X, Zhang G, et al. Equalization loss v2: A new gradient balance approach for long-tailed object detection[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021: 1685−1694. [55] Zhang S, Li Z, Yan S, et al. Distribution alignment: A unified framework for long-tail visual recognition[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021: 2361−2370. [56] Sinha S, Ohashi H, Nakamura K. Class-difficulty based methods for long-tailed visual recognition. International Journal of Computer Vision, 2022, 130(10): 2517−2531 doi: 10.1007/s11263-022-01643-3 [57] Cui J, Zhong Z, Liu S, et al. Parametric contrastive learning[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2021: 715−724. [58] Kang B, Li Y, Xie S, et al. Exploring balanced feature spaces for representation learning[C]//International Conference on Learning Representations. 2020. [59] Li T, Cao P, Yuan Y, et al. Targeted supervised contrastive learning for long-tailed recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 6918−6928. [60] 叶志飞, 文益民, 吕宝粮. 不平衡分类问题研究综述. 智能系统学报, 2009, 4(002): 148−156 doi: 10.3969/j.issn.1673-4785.2009.02.010 [61] 赵凯琳, 靳小龙, 王元卓. 小样本学习研究综述. 软件学报, 2020, 32(2): 349−369 [62] Liu Z, Miao Z, Zhan X, et al. Large-scale long-tailed recognition in an open world[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019: 2537−2546. [63] Van Horn G, Mac Aodha O, Song Y, et al. The inaturalist species classification and detection dataset[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 8769−8778. [64] Gupta A, Dollar P, Girshick R. Lvis: A dataset for large vocabulary instance segmentation[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019: 5356−5364. [65] Samuel D, Atzmon Y, Chechik G. From generalized zero-shot learning to long-tail with class descriptors[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. 2021: 286−295. [66] Oh, Y., Kim, D. J., & Kweon, I. S. (2022). Daso: Distribution-aware semantics-oriented pseudo-label for imbalanced semi-supervised learning. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 9786−9796). [67] Wu T, Huang Q, Liu Z, et al. Distribution-balanced loss for multi-label classification in long-tailed datasets[C]//Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part IV 16. Springer International Publishing, 2020: 162−178. [68] Zhang X, Wu Z, Weng Z, et al. Videolt: Large-scale long-tailed video recognition[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 7960−7969. [69] Feng C, Zhong Y, Huang W. Exploring classification equilibrium in long-tailed object detection[C]//Proceedings of the IEEE/CVF International conference on computer vision. 2021: 3417−3426. [70] Shrivastava A, Gupta A, Girshick R. Training region-based object detectors with online hard example mining[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 761−769. [71] Zhao Y, Chen W, Tan X, et al. Adaptive logit adjustment loss for long-tailed visual recognition[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2022, 36(3): 3472−3480. [72] Chen Z, Casser V, Kretzschmar H, et al. GradTail: learning long-tailed data using gradient-based sample weighting[J]. arXiv preprint arXiv: 2201.05938, 2022. [73] Wah C, Branson S, Welinder P, et al. The caltech-ucsd birds-200-2011 dataset[J]. 2011. [74] Zhou B, Lapedriza A, Khosla A, et al. Places: A 10 million image database for scene recognition. IEEE transactions on pattern analysis and machine intelligence, 2017, 40(6): 1452−1464 [75] Coates A, Ng A, Lee H. An analysis of single-layer networks in unsupervised feature learning[C]//Proceedings of the fourteenth international conference on artificial intelligence and statistics. JMLR Workshop and Conference Proceedings, 2011: 215−223. [76] Zang Y, Huang C, Loy C C. Fasa: Feature augmentation and sampling adaptation for long-tailed instance segmentation[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 3457−3466. [77] Park S, Hong Y, Heo B, et al. The majority can help the minority: Context-rich minority oversampling for long-tailed classification[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 6887−6896. [78] Li B, Han Z, Li H, et al. Trustworthy long-tailed classification[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 6970−6979. [79] Wang T, Zhu Y, Chen Y, et al. C2am loss: Chasing a better decision boundary for long-tail object detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 6980−6989. [80] Buda M, Maki A, Mazurowski M A. A systematic study of the class imbalance problem in convolutional neural networks. Neural networks, 2018, 106: 249−259 doi: 10.1016/j.neunet.2018.07.011 [81] Haixiang G, Yijing L, Shang J, et al. Learning from class-imbalanced data: Review of methods and applications. Expert systems with applications, 2017, 73: 220−239 doi: 10.1016/j.eswa.2016.12.035 [82] Chawla N V, Bowyer K W, Hall L O, et al. SMOTE: synthetic minority over-sampling technique. Journal of artificial intelligence research, 2002, 16: 321−357 doi: 10.1613/jair.953 [83] Jaiswal A, Babu A R, Zadeh M Z, et al. A survey on contrastive self-supervised learning. Technologies, 2020, 9(1): 2 doi: 10.3390/technologies9010002 [84] Zhang H, Cisse M, Dauphin Y N, et al. mixup: Beyond empirical risk minimization[J]. arXiv preprint arXiv: 1710.09412, 2017. [85] Yun S, Han D, Oh S J, et al. Cutmix: Regularization strategy to train strong classifiers with localizable features[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2019: 6023−6032. [86] Verma V, Lamb A, Beckham C, et al. Manifold mixup: Better representations by interpolating hidden states[C]//International conference on machine learning. PMLR, 2019: 6438−6447. [87] Zhang S, Chen C, Zhang X, et al. Label-occurrence-balanced mixup for long-tailed recognition[C]//ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2022: 3224−3228. [88] Zhang C, Pan T Y, Li Y, et al. Mosaicos: a simple and effective use of object-centric images for long-tailed object detection[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 417−427. [89] Liu B, Li H, Kang H, et al. Breadcrumbs: Adversarial class-balanced sampling for long-tailed recognition[C]//European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022: 637−653. [90] Liu J, Li W, Sun Y. Memory-based jitter: Improving visual recognition on long-tailed data with diversity in memory[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2022, 36(2): 1720−1728. [91] Kingma D P, Welling M. An introduction to variational autoencoders. Foundations and Trends® in Machine Learning, 2019, 12(4): 307−392 [92] Rangwani H, Jaswani N, Karmali T, et al. Improving GANs for Long-Tailed Data Through Group Spectral Regularization[C]//European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022: 426−442. [93] Rodriguez M G, Balduzzi D, Schölkopf B. Uncovering the temporal dynamics of diffusion networks[J]. arXiv preprint arXiv: 1105.0697, 2011. [94] Liu B, Li H, Kang H, et al. Semi-supervised long-tailed recognition using alternate sampling[J]. arXiv preprint arXiv: 2105.00133, 2021. [95] Wei C, Sohn K, Mellina C, et al. Crest: A class-rebalancing self-training framework for imbalanced semi-supervised learning[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021: 10857−10866. [96] Wang W, Zhao Z, Wang P, et al. Attentive feature augmentation for long-tailed visual recognition. IEEE Transactions on Circuits and Systems for Video Technology, 2022, 32(9): 5803−5816 doi: 10.1109/TCSVT.2022.3161427 [97] Wang Y, Pan X, Song S, et al. Implicit semantic data augmentation for deep networks. Advances in Neural Information Processing Systems, 201932 [98] Li S, Gong K, Liu C H, et al. Metasaug: Meta semantic augmentation for long-tailed visual recognition[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021: 5212−5221. [99] Zhao Y, Chen W, Huang K, et al. Feature Re-Balancing for Long-Tailed Visual Recognition[C]//2022 International Joint Conference on Neural Networks (IJCNN). IEEE, 2022: 1−8. [100] Vigneswaran R, Law M T, Balasubramanian V N, et al. Feature generation for long-tail classification[C]//Proceedings of the twelfth Indian conference on computer vision, graphics and image processing. 2021: 1−9. [101] Liu J, Sun Y, Han C, et al. Deep representation learning on long-tailed data: A learnable embedding augmentation perspective[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020: 2970−2979. [102] LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 1998, 86(11): 2278−2324 doi: 10.1109/5.726791 [103] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770−778. [104] Xie S, Girshick R, Dollár P, et al. Aggregated residual transformations for deep neural networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 1492−1500. [105] He K, Gkioxari G, Dollár P, et al. Mask r-cnn[C]//Proceedings of the IEEE international conference on computer vision. 2017: 2961−2969. [106] Ren S, He K, Girshick R, et al. Faster r-cnn: Towards real-time object detection with region proposal networks. Advances in neural information processing systems, 201528 [107] Long A, Yin W, Ajanthan T, et al. Retrieval augmented classification for long-tail visual recognition[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022: 6959−6969. [108] Zhou J, Li J, Yan Y, et al. Mixing Global and Local Features for Long-Tailed Expression Recognition. Information, 2023, 14(2): 83 doi: 10.3390/info14020083 [109] Zhao W, Su Y, Hu M, et al. Hybrid ResNet based on joint basic and attention modules for long-tailed classification. International Journal of Approximate Reasoning, 2022, 150: 83−97 doi: 10.1016/j.ijar.2022.08.007 [110] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need. Advances in neural information processing systems, 201730 [111] Chen J, Agarwal A, Abdelkarim S, et al. Reltransformer: A transformer-based long-tail visual relationship recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 19507−19517. [112] Hou Z, Yu B, Tao D. Batchformer: Learning to explore sample relationships for robust representation learning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 7256−7266. [113] Ye H J, Chen H Y, Zhan D C, et al. Identifying and compensating for feature deviation in imbalanced deep learning[J]. arXiv preprint arXiv: 2001.01385, 2020. [114] Djouadi A, Bouktache E. A fast algorithm for the nearest-neighbor classifier. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1997, 19(3): 277−282 doi: 10.1109/34.584107 [115] Wei X S, Xu S L, Chen H, et al. Prototype-based classifier learning for long-tailed visual recognition. Science China Information Sciences, 2022, 65(6): 160105 doi: 10.1007/s11432-021-3489-1 [116] Parisot S, Esperança P M, McDonagh S, et al. Long-tail recognition via compositional knowledge transfer[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 6939−6948. [117] Wu T Y, Morgado P, Wang P, et al. Solving long-tailed recognition with deep realistic taxonomic classifier[C]//Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part VIII 16. Springer International Publishing, 2020: 171−189. [118] Jia Y, Peng X, Wang R, et al. Long-tailed Partial Label Learning by Head Classifier and Tail Classifier Cooperation[J]. 2024. [119] Duggal R, Freitas S, Dhamnani S, et al. Elf: An early-exiting framework for long-tailed classification[J]. arXiv preprint arXiv: 2006.11979, 2020. [120] Menon A K, Jayasumana S, Rawat A S, et al. Long-tail learning via logit adjustment[J]. arXiv preprint arXiv: 2007.07314, 2020. [121] Wang Y, Zhang B, Hou W, et al. Margin calibration for long-tailed visual recognition[C]//Asian Conference on Machine Learning. PMLR, 2023: 1101−1116. [122] Li M, Cheung Y, Lu Y. Long-tailed visual recognition via gaussian clouded logit adjustment[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 6929−6938. [123] Hong Y, Han S, Choi K, et al. Disentangling label distribution for long-tailed visual recognition[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021: 6626−6636. [124] Xu Z, Yang S, Wang X, et al. Rethink Long-Tailed Recognition with Vision Transforms[C]//ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2023: 1−5. [125] He Y Y, Zhang P, Wei X S, et al. Relieving long-tailed instance segmentation via pairwise class balance[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 7000−7009. [126] Long H, Zhang X, Liu Y, et al. Mutual Exclusive Modulator for Long-Tailed Recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 4890−4899. [127] Huang C, Li Y, Loy C C, et al. Learning deep representation for imbalanced classification[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 5375−5384. [128] Jamal M A, Brown M, Yang M H, et al. Rethinking class-balanced methods for long-tailed visual recognition from a domain adaptation perspective[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020: 7610−7619. [129] Hsieh T I, Robb E, Chen H T, et al. Droploss for long-tail instance segmentation[C]//Proceedings of the AAAI conference on artificial intelligence. 2021, 35(2): 1549−1557. [130] Park S, Lim J, Jeon Y, et al. Influence-balanced loss for imbalanced visual classification[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 735−744. [131] Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[C]//Proceedings of the IEEE international conference on computer vision. 2017: 2980−2988. [132] Smith L N. Cyclical focal loss[J]. arXiv preprint arXiv: 2202.08978, 2022. [133] Li B, Yao Y, Tan J, et al. Equalized focal loss for dense long-tailed object detection[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022: 6990−6999. [134] Wang T, Li Y, Kang B, et al. The devil is in classification: A simple framework for long-tail instance segmentation[C]//Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part XIV 16. Springer International Publishing, 2020: 728−744. [135] Li Y, Wang T, Kang B, et al. Overcoming classifier imbalance for long-tail object detection with balanced group softmax[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020: 10991−11000. [136] Zhong Z, Cui J, Liu S, et al. Improving calibration for long-tailed recognition[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021: 16489−16498. [137] Fan S, Zhang X, Song Z, et al. Cumulative dual-branch network framework for long-tailed multi-class classification. Engineering Applications of Artificial Intelligence, 2022, 114: 105080 doi: 10.1016/j.engappai.2022.105080 [138] Guo H, Wang S. Long-tailed multi-label visual recognition by collaborative training on uniform and re-balanced samplings[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 15089−15098. [139] Bengio Y, Lamblin P, Popovici D, et al. Greedy layer-wise training of deep networks. Advances in neural information processing systems, 200619 [140] Alshammari S, Wang Y X, Ramanan D, et al. Long-tailed recognition via weight balancing[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 6897−6907. [141] Zhu Z, Xing H, Xu Y. Easy balanced mixing for long-tailed data. Knowledge-Based Systems, 2022, 248: 108816 doi: 10.1016/j.knosys.2022.108816 [142] Yang Y, Xu Z. Rethinking the value of labels for improving class-imbalanced learning. Advances in neural information processing systems, 2020, 33: 19290−19301 [143] Liu X, Hu Y S, Cao X S, et al. Long-tailed class incremental learning[C]//European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022: 495−512. [144] Deng J, Dong W, Socher R, et al. Imagenet: A large-scale hierarchical image database[C]//2009 IEEE conference on computer vision and pattern recognition. Ieee, 2009: 248−255. [145] Wang Y, Gan W, Yang J, et al. Dynamic curriculum learning for imbalanced data classification[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2019: 5017−5026. [146] Wei T, Shi J X, Tu W W, et al. Robust long-tailed learning under label noise[J]. arXiv preprint arXiv: 2108.11569, 2021. [147] Li T, Wang L, Wu G. Self supervision to distillation for long-tailed visual recognition[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2021: 630−639. [148] Chen T, Kornblith S, Norouzi M, et al. A simple framework for contrastive learning of visual representations[C]//International conference on machine learning. PMLR, 2020: 1597−1607. [149] Wang P, Han K, Wei X S, et al. Contrastive learning based hybrid networks for long-tailed image classification[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021: 943−952. [150] Fu S, Chu H, He X, et al. Meta-prototype Decoupled Training for Long-Tailed Learning[C]//Proceedings of the Asian Conference on Computer Vision. 2022: 569−585. [151] Zhong Z, Cui J, Li Z, et al. Rebalanced Siamese Contrastive Mining for Long-Tailed Recognition[J]. arXiv preprint arXiv: 2203.11506, 2022. [152] Zhu J, Wang Z, Chen J, et al. Balanced contrastive learning for long-tailed visual recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 6908−6917. [153] Hinton G, Vinyals O, Dean J. Distilling the knowledge in a neural network[J]. arXiv preprint arXiv: 1503.02531, 2015. [154] Iscen A, Araujo A, Gong B, et al. Class-balanced distillation for long-tailed visual recognition[J]. arXiv preprint arXiv: 2104.05279, 2021. [155] He Y Y, Wu J, Wei X S. Distilling virtual examples for long-tailed recognition[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 235−244. [156] Xia Y, Zhang S, Wang J, et al. One‐stage self‐distillation guided knowledge transfer for long‐tailed visual recognition. International Journal of Intelligent Systems, 2022, 37(12): 11893−11908 doi: 10.1002/int.23068 [157] Yang C Y, Hsu H M, Cai J, et al. Long-tailed recognition of sar aerial view objects by cascading and paralleling experts[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 142−148. [158] Cui J, Liu S, Tian Z, et al. Reslt: Residual learning for long-tailed recognition. IEEE transactions on pattern analysis and machine intelligence, 2022, 45(3): 3695−3706 [159] Wang X, Lian L, Miao Z, et al. Long-tailed recognition by routing diverse distribution-aware experts[J]. arXiv preprint arXiv: 2010.01809, 2020. [160] Li J, Tan Z, Wan J, et al. Nested collaborative learning for long-tailed visual recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 6949−6958. [161] Zhang Y, Hooi B, Hong L, et al. Self-supervised aggregation of diverse experts for test-agnostic long-tailed recognition. Advances in Neural Information Processing Systems, 2022, 35: 34077−34090 [162] Chen Q, Liu Q, Lin E. A knowledge-guide hierarchical learning method for long-tailed image classification. Neurocomputing, 2021, 459: 408−418 doi: 10.1016/j.neucom.2021.07.008 [163] Li Z, Zhao H, Lin Y. Multi-task convolutional neural network with coarse-to-fine knowledge transfer for long-tailed classification. Information Sciences, 2022, 608: 900−916 doi: 10.1016/j.ins.2022.07.015 [164] Wen Y, Zhang K, Li Z, et al. A discriminative feature learning approach for deep face recognition[C]//Computer Vision–ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, October 11–14, 2016, Proceedings, Part VII 14. Springer International Publishing, 2016: 499−515. [165] Cao D, Zhu X, Huang X, et al. Domain balancing: Face recognition on long-tailed domains[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 5671−5679. [166] Ma Y, Jiao L, Liu F, et al. Delving into Semantic Scale Imbalance[J]. arXiv preprint arXiv: 2212.14613, 2022. [167] Park B, Kim J, Cho S, et al. Balancing Domain Experts for Long-Tailed Camera-Trap Recognition[J]. arXiv preprint arXiv: 2202.07215, 2022. [168] Wang W, Wang M, Wang S, et al. One-shot learning for long-tail visual relation detection[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2020, 34(07): 12225−12232. [169] Chang N, Yu Z, Wang Y X, et al. Image-level or object-level? a tale of two resampling strategies for long-tailed detection[C]//International conference on machine learning. PMLR, 2021: 1463−1472. [170] Zhang C, Lin G, Lai L, et al. Calibrating Class Activation Maps for Long-Tailed Visual Recognition[J]. arXiv preprint arXiv: 2108.12757, 2021. [171] Cao Y, Kuang J, Gao M, et al. Learning relation prototype from unlabeled texts for long-tail relation extraction. IEEE Transactions on Knowledge and Data Engineering, 2021 [172] Zhang G, Liang R, Yu Z, et al. Rumour detection on social media with long-tail strategy[C]//2022 International Joint Conference on Neural Networks (IJCNN). IEEE, 2022: 1−8. [173] Mottaghi A, Sarma P K, Amatriain X, et al. Medical symptom recognition from patient text: An active learning approach for long-tailed multilabel distributions[J]. arXiv preprint arXiv: 2011.06874, 2020. [174] Shi C, Hu B, Zhao W X, et al. Heterogeneous information network embedding for recommendation. IEEE Transactions on Knowledge and Data Engineering, 2018, 31(2): 357−370 [175] Zhao T, Zhang X, Wang S. Graphsmote: Imbalanced node classification on graphs with graph neural networks[C]//Proceedings of the 14th ACM international conference on web search and data mining. 2021: 833−841. [176] Park J, Song J, Yang E. Graphens: Neighbor-aware ego network synthesis for class-imbalanced node classification[C]//International Conference on Learning Representations. 2021. [177] Yun S, Kim K, Yoon K, et al. Lte4g: long-tail experts for graph neural networks[C]//Proceedings of the 31st ACM International Conference on Information & Knowledge Management. 2022: 2434−2443. [178] Hu Z, Dong Y, Wang K, et al. Gpt-gnn: Generative pre-training of graph neural networks[C]//Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2020: 1857−1867. [179] Liu Z, Nguyen T K, Fang Y. Tail-gnn: Tail-node graph neural networks[C]//Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery & Data Mining. 2021: 1109−1119. [180] Perrett T, Sinha S, Burghardt T, et al. Use Your Head: Improving Long-Tail Video Recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 2415−2425. [181] Tian C, Wang W, Zhu X, et al. Vl-ltr: Learning class-wise visual-linguistic representation for long-tailed visual recognition[C]//European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022: 73−91. [182] Ma T, Geng S, Wang M, et al. A simple long-tailed recognition baseline via vision-language model[J]. arXiv preprint arXiv: 2111.14745, 2021. [183] Wang R, Yu G, Domeniconi C, et al. Meta Cross-Modal Hashing on Long-Tailed Data[J]. arXiv preprint arXiv: 2111.04086, 2021. [184] Wang P, Wang X, Wang B, et al. Long-Tailed Time Series Classification via Feature Space Rebalancing[C]//International Conference on Database Systems for Advanced Applications. Cham: Springer Nature Switzerland, 2023: 151−166. [185] Deng J, Chen X, Jiang R, et al. St-norm: Spatial and temporal normalization for multi-variate time series forecasting[C]//Proceedings of the 27th ACM SIGKDD conference on knowledge discovery & data mining. 2021: 269−278. [186] Craw S, Horsburgh B, Massie S. Music recommendation: audio neighbourhoods to discover music in the long tail[C]//Case-Based Reasoning Research and Development: 23rd International Conference, ICCBR 2015, Frankfurt am Main, Germany, September 28-30, 2015. Proceedings 23. Springer International Publishing, 2015: 73−87. [187] Deng K, Cheng G, Yang R, et al. Alleviating asr long-tailed problem by decoupling the learning of representation and classification. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2021, 30: 340−354 [188] Winata G I, Wang G, Xiong C, et al. Adapt-and-adjust: Overcoming the long-tail problem of multilingual speech recognition[J]. arXiv preprint arXiv: 2012.01687, 2020. [189] Peng P, Lu J, Tao S, et al. Progressively balanced supervised contrastive representation learning for long-tailed fault diagnosis. IEEE Transactions on Instrumentation and Measurement, 2022, 71: 1−12 [190] Deng S, Lei Z, Liu J, et al. A Cost-Sensitive Dense Network for Fault Diagnosis under Data Imbalance[C]//2022 International Conference on Sensing, Measurement & Data Analytics in the era of Artificial Intelligence (ICSMD). IEEE, 2022: 1−6. [191] Jiao W, Zhang J. Sonar images classification while facing long-tail and few-shot. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 1−20 [192] Shao J, Zhu K, Zhang H, et al. DiffuLT: How to Make Diffusion Model Useful for Long-tail Recognition[J]. arXiv preprint arXiv: 2403.05170, 2024. [193] Shi J X, Wei T, Zhou Z, et al. Parameter-Efficient Long-Tailed Recognition[J]. arXiv preprint arXiv: 2309.10019, 2023. [194] Kabir H M. Reduction of Class Activation Uncertainty with Background Information[J]. arXiv preprint arXiv: 2305.03238, 2023. [195] Du F, Yang P, Jia Q, et al. Global and Local Mixture Consistency Cumulative Learning for Long-tailed Visual Recognitions[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 15814−15823. [196] Chen X, Liang C, Huang D, et al. Symbolic discovery of optimization algorithms[J]. arXiv preprint arXiv: 2302.06675, 2023. [197] Cui J, Zhong Z, Tian Z, et al. Generalized parametric contrastive learning. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023 [198] Hendrycks D, Gimpel K. A baseline for detecting misclassified and out-of-distribution examples in neural networks[J]. arXiv preprint arXiv: 1610.02136, 2016. [199] Liu W, Wang X, Owens J, et al. Energy-based out-of-distribution detection. Advances in neural information processing systems, 2020, 33: 21464−21475 [200] Yang Y, Wang H, Katabi D. On multi-domain long-tailed recognition, imbalanced domain generalization and beyond[C]//European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022: 57−75. [201] Kim C D, Jeong J, Kim G. Imbalanced continual learning with partitioning reservoir sampling[C]//Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part XIII 16. Springer International Publishing, 2020: 411−428. [202] Ditzler G, Polikar R, Chawla N. An incremental learning algorithm for non-stationary environments and class imbalance[C]//2010 20th International Conference on Pattern Recognition. IEEE, 2010: 2997−3000. [203] Shi J X, Wei T, Li Y F. Residual diverse ensemble for long-tailed multi-label text classification. Science CHINA Information Science, 2024 [204] Kharbanda S, Gupta D, Schultheis E, et al. Learning label-label correlations in Extreme Multi-label Classification via Label Features[J]. arXiv preprint arXiv: 2405.04545, 2024. [205] Zhang Y, Cao S, Mi S, et al. Learning sample representativeness for class-imbalanced multi-label classification. Pattern Analysis and Applications, 20241−12 [206] Du C, Han Y, Huang G. SimPro: A Simple Probabilistic Framework Towards Realistic Long-Tailed Semi-Supervised Learning[J]. arXiv preprint arXiv: 2402.13505, 2024. [207] Ma C, Elezi I, Deng J, et al. Three heads are better than one: Complementary experts for long-tailed semi-supervised learning[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2024, 38(13): 14229−14237. [208] Shang X, Lu Y, Huang G, et al. Federated learning on heterogeneous and long-tailed data via classifier re-training with federated features[J]. arXiv preprint arXiv: 2204.13399, 2022. [209] Kou X, Xu C, Yang X, et al. Attention-guided Contrastive Hashing for Long-tailed Image Retrieval[C]//IJCAI. 2022: 1017−1023. [210] Geifman Y, El-Yaniv R. Deep active learning over the long tail[J]. arXiv preprint arXiv: 1711.00941, 2017. -
计量
- 文章访问数: 632
- HTML全文浏览量: 492
- 被引次数: 0