2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于特征变换和度量网络的小样本学习算法

王多瑞 杜杨 董兰芳 胡卫明 李兵

王多瑞, 杜杨, 董兰芳, 胡卫明, 李兵. 基于特征变换和度量网络的小样本学习算法. 自动化学报, 2024, 50(7): 1305−1314 doi: 10.16383/j.aas.c210903
引用本文: 王多瑞, 杜杨, 董兰芳, 胡卫明, 李兵. 基于特征变换和度量网络的小样本学习算法. 自动化学报, 2024, 50(7): 1305−1314 doi: 10.16383/j.aas.c210903
Wang Duo-Rui, Du Yang, Dong Lan-Fang, Hu Wei-Ming, Li Bing. Feature transformation and metric networks for few-shot learning. Acta Automatica Sinica, 2024, 50(7): 1305−1314 doi: 10.16383/j.aas.c210903
Citation: Wang Duo-Rui, Du Yang, Dong Lan-Fang, Hu Wei-Ming, Li Bing. Feature transformation and metric networks for few-shot learning. Acta Automatica Sinica, 2024, 50(7): 1305−1314 doi: 10.16383/j.aas.c210903

基于特征变换和度量网络的小样本学习算法

doi: 10.16383/j.aas.c210903
基金项目: 国家重点研发计划(2018AAA0102802), 国家自然科学基金(62036011, 62192782, 61721004), 中国科学院前沿科学重点研究计划(QYZDJ-SSW-JSC040)资助
详细信息
    作者简介:

    王多瑞:2021年获得中国科学技术大学硕士学位. 主要研究方向为小样本学习, 目标检测.E-mail: wangduor@mail.ustc.edu.cn

    杜杨:2019年获得中国科学院自动化研究所博士学位. 主要研究方向为行为识别, 医学图像处理.E-mail: jingzhou.dy@alibaba-inc.com

    董兰芳:中国科学技术大学副教授. 1994年获得中国科学技术大学硕士学位. 主要研究方向为图像与视频智能分析, 知识图谱与对话系统, 数值模拟与三维重建.E-mail: lfdong@ustc.edu.cn

    胡卫明:中国科学院自动化研究所研究员. 1998年获得浙江大学博士学位. 主要研究方向为视觉运动分析, 网络不良信息识别和网络入侵检测. 本文通信作者.E-mail: wmhu@nlpr.ia.ac.cn

    李兵:中国科学院自动化研究所研究员. 2009年获得北京交通大学博士学位. 主要研究方向为网络内容安全, 智能图像信号处理.E-mail: bing.li@ia.ac.cn

Feature Transformation and Metric Networks for Few-shot Learning

Funds: Supported by National Key Research and Development Program of China (2018AAA0102802), National Natural Science Foundation of China (62036011, 62192782, 61721004), and Key Research Program of Frontier Sciences of Chinese Academy of Sciences (QYZDJ-SSW-JSC040)
More Information
    Author Bio:

    WANG Duo-Rui He received his master degree from University of Science and Technology of China in 2021. His research interest covers few-shot learning and object detection

    DU Yang He received his Ph.D. degree from the Institute of Automation, Chinese Academy of Sciences. His research interest covers action recognition and medical image processing

    DONG Lan-Fang Associate professor at University of Science and Technology of China. She received her master degree from University of Science and Technology of China in 1994. Her research interest covers image and video intelligent analysis, knowledge mapping and dialogue systems, and numerical simulation and 3D reconstruction

    HU Wei-Ming Professor at the Institute of Automation, Chinese Academy of Sciences. He received his Ph.D. degree from Zhejiang University in 1998. His research interest covers visual motion analysis, recognition of web objectionable information, and network intrusion detection. Corresponding author of this paper

    LI Bing Professor at the Institute of Automation, Chinese Academy of Sciences. He received his Ph.D. degree from Beijing Jiaotong University in 2009. His research interest covers the web content security and intelligent image signal process

  • 摘要: 在小样本分类任务中, 每个类别可供训练的样本数量非常有限. 因此在特征空间中同类样本分布稀疏, 异类样本间边界模糊. 提出一种新的基于特征变换和度量网络(Feature transformation and metric networks, FTMN)的小样本学习算法用于小样本分类任务. 算法通过嵌入函数将样本映射到特征空间, 并计算输入该样本与所属类别中心的特征残差. 构造一个特征变换函数对该残差进行学习, 使特征空间内的样本特征经过该函数后向同类样本中心靠拢. 利用变换后的样本特征更新类别中心, 使各类别中心间的距离增大. 算法进一步构造了一种新的度量函数, 对样本特征中每个局部特征点的度量距离进行联合表达, 该函数能够同时对样本特征间的夹角和欧氏距离进行优化. 算法在小样本分类任务常用数据集上的优秀表现证明了算法的有效性和泛化性.
  • 近年来, 深度神经网络相关研究快速发展, 现有的深度神经网络模型在大规模任务上[14]有着非常可观的表现, 且经过训练的网络在面对新任务时, 通常可对网络模型参数进行微调来完成任务. 但在面对仅有几个样本的分类任务时, 即使对预训练过的深度神经网络模型进行微调, 也很难达到较好的识别效果. 因此, 近几年小样本学习的研究热度很高, 早期一些小样本学习模型[59]获得了不错的结果, 但这些模型几乎只适用于一些特定问题, 不具备良好的扩展能力. 将在大型数据集上表现良好的深度网络模型迁移至小样本任务并保持原有性能, 是小样本学习的主要研究方向之一[1018].

    小样本分类任务希望模型具有快速学习能力, 即面对样本数量有限的类别时, 也可以达到不错的分类精度. 直接使用预训练好的深度网络模型对小样本分类任务进行微调, 很容易产生过拟合现象, 因此引入基于度量的小样本学习算法. 这类算法需要使用由卷积网络构成的嵌入函数对输入数据提取特征, 但提取出的特征通常在特征空间内分布稀疏, 导致分类任务的难度增大. 因此, 本文提出一种特征变换策略, 可在特征空间中减小同类样本的类内距离, 并增大异类样本的类间距离. 同时, 分析余弦相似度和欧氏距离在特征度量上的局限, 提出一种同时考虑两种度量方式影响的特征度量策略.

    目前, 在视觉相关领域的小样本学习算法大致可分为基于模型结构的小样本学习、基于度量的小样本学习和基于优化的小样本学习三类. 这三类小样本学习算法基本都可以使用元学习的方法实现. 基于模型结构的小样本学习主要希望通过设计一种模型, 使模型结构支持其在小样本上快速地更新参数, 直接建立输入与预测值间的函数关系; 基于度量的小样本学习是将样本映射到一个样本空间, 通过度量支持样本和查询样本间的距离, 应用最近邻思想完成分类预测; 基于优化的小样本学习认为一般的梯度下降法很难在小样本的情况下拟合出一个精度较高的映射关系, 所以希望通过调整改进优化方法, 来实现小样本分类任务. 本文着重关注基于度量的小样本学习.

    基于度量的小样本学习算法是用于小样本学习的主流方法之一. 它借用元学习的思想, 将分类任务使用的训练集和测试集进一步划分为支持集和查询集. 在基于度量方法中, 先验知识是一个嵌入函数[1112], 其功能是将样本映射到一个特征空间, 对样本与空间中的特征中心进行度量, 用最近邻方法将样本划分到正确的类别中. 基于度量的小样本学习算法目前已经有较多经典模型, 例如文献[11]指出, 匹配网络(Matching networks, MN)在大型数据集上的学习速度较慢, 是因为网络的参数数量非常巨大, 训练样本需要大量时间开销. 还有一些传统的非参数模型可以快速地吸收、同化新样本, 使训练时间减少, 但是这些方法实际依赖所选择的度量. 匹配网络希望结合参数化模型和非参数化模型的优点, 既具有优秀的泛化能力, 又可以快速地在新样本上得到优秀结果. 匹配网络的特点是将使用注意力机制的基于深度网络的度量学习和基于外部存储的记忆增强网络相结合, 得到针对小样本任务的快速学习能力. 原型网络[12]将查询样本和支持样本通过同一个嵌入函数映射到一个特征空间中, 在特征空间中利用支持样本计算每个类别的“均值”作为该类“原型”, 使用欧氏距离作为度量查询样本特征与各个“原型”间的距离, 利用最近邻方法预测查询样本的标签类别. 原型网络将“原型”概念与最近邻的分类思想相结合, 探索一种简单、直接且有效的小样本学习思路, 同时验证了使用欧氏距离作为度量距离的效果要略好于使用余弦相似度. 孪生网络(Siamese networks, SN)[13]通过学习嵌入函数来优化固定的最近邻和一个线性分类器, 同时该网络框架的输入作为样本对, 一对样本分别经过结构相同和参数共享的嵌入函数, 并计算输出结果, 判断得到这对输入样本是同类还是异类. 所以本质上是在训练一个判断两个样本是否相同的二分类器. 由于网络的输入是成对的, 所以其有效样本数量非常大, 不会存在严重的过拟合问题. 关系网络(Relation networks, RN)[14]具有嵌入函数以及关系模块, 该网络的特点是可以学习推理, 它的整体结构简单明了, 仅将支持样本和查询样本的特征在通道的维度上进行拼接, 然后将合并后的特征作为度量函数的输入. 关系网络的主要创新之处在于使用了一个卷积网络构造度量函数, 与上述的欧氏距离和余弦相似度不同, 它可以学习到一种合适的度量距离, 自适应地优化模型的表现效果.

    局部聚合向量(Vector of locally aggregated descriptor, VLAD)[1920]是一种样本特征的表示方法. 该方法与现在流行的深度学习网络不同, 是一种比较传统的提取图像特征算法, 需要先提取局部特征, 再将这些局部特征聚类得到VLAD向量. 但是, 经典的VLAD算法的表征特征是稀疏且不可导的. 为使其可以应用到神经网络中进行训练, 则需要让它变得平滑. NetVLAD[19]可以在计算局部特征与其所属的聚类中心差时, 在前面乘以一个权值函数$ {{a}}_{{k}}\left({{x}}_{{i}}\right) $, 该值在局部特征越接近聚类中心时, 权值越高; 反之, 权值越低. 与传统VLAD不同的是, NetVLAD的聚类中心是由训练网络得到的, 而非通过预先训练好的码本获得. NetVLAD将局部聚合向量作为卷积神经网络的一部分嵌入到网络中, 使得VLAD层中所有参数都可以通过端到端的方式学习得到.

    目前, 很多研究为小样本学习算法研究提供了新思路. 使用岭回归方法的元学习算法[21]是将元学习中学习器的分类方法由最近邻法或全连接层更换为带有闭式解的可微分回归方法, 验证了成熟的传统优化方法也可以用于分类器的参数优化. 基于边标签的图神经网络(Edge-labeling graph neural network, EGNN)[22]是基于图卷积网络的小样本学习方法, 它利用类内相似性和类间差异来迭代更新边标签, 再用边标签预测节点标签, 并用转导方法将支持集和查询集特征同时训练模型, 以此优化了小样本分类的效果. 这样做的好处是适用于不同类别间的迁移, 且迁移后不需要重新进行参数训练. 基于因果干预的分类器的小样本学习[23]设计了一个基于因果推理的分类器, 希望通过因果干预手段, 去除预训练模型在提取特征时受到混杂因子的影响, 提高模型分类的准确率. 该方法设计的分类器训练时, 不对原预训练的模型参数进行微调, 仅需训练分类器的参数即可优化模型的表现, 充分发挥了算法模块化的优点.

    综上所述, 小样本学习的发展由网络结构的整体优化向模块化方向推进. 因此, 本文以经典的原型网络为基线模型, 利用VLAD使用局部残差表示图像的方法, 按照模块化思路, 设计全新的特征变换模块和特征度量模块, 对样本特征表达和基于度量的分类器度量方法进行优化.

    本文的研究目标是设计用于小样本分类任务的特征变换模块和特征度量模块, 特征变换模块在将样本映射进特征空间后, 使原本因深度神经网络过拟合造成的特征聚类分散问题得以缓解, 特征度量模块在特征空间内设计出优于常用的余弦相似度或欧氏距离的度量方法, 以缓解它们单独存在时的限制. 由于在小样本任务中, 可用于训练的数据较少, 在数据集上使用预训练模型对网络模型参数进行微调很容易造成过拟合; 在使用基于度量的小样本学习算法时, 提取出的特征聚类分散, 呈现同类样本分布较为稀疏的特点, 造成不同类别样本难以区分的问题. 因此, 需要对提取出的局部特征进行变换, 使这些特征可以更好地用于小样本的分类任务.

    首先, 设计特征变换模块. 提取输入样本的特征图形成一个特征空间, 在该特征空间内, 对特征图上的局部特征进行变换, 使样本局部特征向同类样本的局部特征中心移动. 同一类别中的全部样本局部特征进行变换后, 重新计算得到新的局部特征中心, 从而达到不同类别的特征中心互相远离的目的, 以减小分类难度, 提高分类准确率. 然后, 设计一个特征度量模块, 训练时, 网络可同时对特征及其特征中心间的欧氏距离和夹角进行优化, 以达到比单独使用欧氏距离或余弦相似度的度量方法更好的性能.

    在各个模块设计中, 本文使用非线性VLAD思想, 即在嵌入函数提取了样本的特征图后, 对特征图的每个位置上的局部特征进行操作. 首先, 通过计算均值, 得到每个局部特征对应类别的支持特征中心; 然后, 对每个局部特征进行特征变换以及度量; 最后, 使用特征度量函数将特征图上得到的全部局部特征度量距离进行联合表达, 以此计算特征图的全局特征度量距离, 使用该距离对特征图代表的样本进行分类.

    本节目标是提出特征变换模块, 将特征中心移动到更好位置; 因此, 设计的特征变换模块包含了特征变换函数和迁移得分.

    本文使用嵌入函数$ {\theta } $将输入网络的样本映射为特征图${f}\in{\bf{R}}^{{W}\times {H}\times{C}} $, 其中$ W\times H $为特征图的维度, $C$为特征图的通道数. 该嵌入函数由卷积神经网络构成, 将输入的样本图像进行卷积计算, 并通过最大池化层对样本图像进行下采样, 得到样本图像的特征图$ f $. 可以从每个特征图$ f $中得到一组局部特征$\{{\boldsymbol{x}}_{i}\in {\mathbf{R}}^{C}\}$, 其中$ i\in W\times H $代表特征图上每个局部特征的位置. 综上所述, 每个支持样本可以得到一组支持特征$\left\{{{\boldsymbol x}}_{{s},{i}}\right\}$, 其中$s $代表该组特征属于支持集; 每个查询样本可以得到一组查询特征$\left\{{{\boldsymbol x}}_{{q},{i}}\right\}$, 其中$ q $代表该组特征属于查询集. 网络模型提出一种收缩变换, 利用特征变换函数对样本的各个局部特征与其正确类别局部特征中心的残差进行学习, 利用残差使每个种类的特征向中心收缩. 首先, 利用支持集中的全部样本, 计算它们特征图中位置处属于类别$ k $的支持特征的均值:

    $$ {\bar{{\boldsymbol{x}}}}_{k,i}=\frac{1}{S}\sum _{s \in S} {\boldsymbol x}_{s,k,i} $$ (1)

    将均值${\bar{{{\boldsymbol{x}}}}}_{{k},{i}}$作为位置$ i $处类别$ k $的支持特征中心; 接着, 计算支持特征中心${\bar{{{\boldsymbol{x}}}}}_{{k},{i}}$和位置$ i $上任意支持样本特征的残差:

    $$ {{\Delta }}_{s,k,i}={\bar{\boldsymbol{x}}}_{k,i}-{\boldsymbol{x}}_{s,i} $$ (2)

    然后, 设计一个抽象的特征变换函数$ {\Phi } $, 为输入的支持特征学习一个对应其正确类别的支持特征中心的残差表达, 特征变换函数也由多层卷积神经网络构成:

    $$ {\boldsymbol{\delta }}_{s,k,i}={\Phi }\left({{\Delta }}_{s,k,i}\right),\forall s,k,i $$ (3)

    该残差表达用于当前支持特征变换的计算, 在变换时, 希望该特征与所有支持特征中心间的残差都发挥作用, 所以需要为残差设置权值并进行软分配, 于是对每个支持特征中心定义一个特征迁移得分:

    $$ {a}_{k,i}=\frac{{\rm {exp}}\left({\omega }^{\rm T}{\bar{{\boldsymbol{x}}}}_{k,i}+b\right)}{{\sum\limits _{{k}{'}\in K}}{\rm {exp}}\left({\omega }^{\rm T}{{\bar{{\boldsymbol{x}}}}_{{k'},i}}+b\right)} $$ (4)

    该得分是一个注意力得分, 通过一个卷积网络计算, 并通过Softmax层输出, 其中$ \omega $和$ b $均为可学习参数. 综上所述, 收缩变换后的特征计算方式为:

    $$ {\tilde{\boldsymbol{x}}}_{s,i}={\boldsymbol{x}}_{s,i}+\sum_{k \in K} {a}_{k,i}{\boldsymbol{\delta }}_{s,k,i} $$ (5)

    最后, 将变换过的支持特征通过一个线性整流函数激活, 并重新计算各类别的支持特征中心. 在理想状态下经过变换的特征会移动到与其特征中心相同的位置, 即学习到的特征变换如下:

    $$ {\tilde{\boldsymbol{x}}}_{s,i}={\boldsymbol{x}}_{s,i}+1\times {I}\left({\bar{\boldsymbol{x}}}_{k,i}-{\boldsymbol{x}}_{s,i}\right)={\bar{\boldsymbol{x}}}_{k,i} $$ (6)

    式中, $ k $为$ {{{\boldsymbol{x}}}}_{{s},{i}} $的正确类别, 特征对应的正确特征中心得分$ {{a}}_{{k},{i}} $为1, 其余得分均为0. 特征变换函数$ {\Phi } $表现为$ {I}\left(\cdot \right) $是一个残差$ {{\Delta }}_{s,k,i} $的线性函数, 如此待迁移的支持特征中心的位置保持不变. 但若这种情况发生, 将很难为每个正确的类别中心学习到一个最高得分, 因为这些类别中心间本身在特征空间中的位置就可能十分接近. 所以, 还是希望将非线性的$ {\Phi } $作为特征变换函数, 来实现类别中心的偏移, 达到增大不同类别间距离的目的. 偏移的支持特征中心通过对收缩变换后的支持特征重新求均值计算得到:

    $$ {\bar{\boldsymbol{x}}}_{k,i}=\frac{1}{S}{\sum\limits_{{s \in S}}}{\tilde{\boldsymbol{x}}}_{s,k,i} $$ (7)

    同理, 查询样本变换后的特征通过使用$ q $代替式(2)、式(3) 和式(5)中的$ s $进行计算.

    本节目标是设计新的度量方式和距离度量函数, 希望该函数可以从数据中学习到一种最适合的度量方式. 基于度量的小样本算法是常用的度量方法, 使用欧氏距离和余弦相似度作为度量, 欧氏距离用来度量特征空间中两点间的几何距离, 余弦相似度度量内积空间中两个非零向量间的相似度, 即它们之间夹角的余弦值. 较小的余弦相似度可以保证样本特征和特征中心的方向基本一致, 但对特征间大小的相似度没有限制可能导致分类错误. 在多数情况下, 使用欧氏距离的性能要好于使用余弦相似度, 较小的欧氏距离可以保证两个特征间的几何距离很近, 但当两个特征间的欧氏距离非零时, 它们之间的夹角并不唯一. 由此可见, 这两种常用的度量方式都有各自的局限性, 为了解决这样的限制, 本文提出一种互补性的距离度量方式.

    首先, 计算特征图中位置$ i $的查询样本特征与支持特征中心间的距离如下:

    $$ {{d}}_{{q},{k},{i}}={{\lambda }}_{{q},{k},{i}}{\|{\tilde{{x}}}_{{q},{i}}-{\bar{{x}}}_{{k},{i}}\|}^{2} $$ (8)

    式中, $ {{\lambda }}_{{q},{k},{i}} $表示一个系数, 用来平衡欧氏距离大小的影响. 使用余弦相似度设计系数$ {{\lambda }}_{{q},{k},{i}} $:

    $$ {{\lambda }}_{{q},{k},{i}}={\rm{{s}{i}{g}{m}{o}{i}{d}}}\left(\frac{1}{{\rm{{c}{o}{s}}}\left\langle{{\tilde{{x}}}_{{q},{i}},{\bar{{x}}}_{{k},{i}}}\right\rangle+1}-0.5\right) $$ (9)

    这种方式是希望同时对余弦相似度和欧氏距离进行优化. 这样设计的度量距离希望参数$ {\lambda }_{q,k,i} $在使用欧氏距离的基础上, 对度量距离有一定影响而非具有主导作用. 当余弦相似度趋近于1时, 度量距离趋近于特征向量与特征中心欧氏距离的一半; 在特征向量与特征中心间夹角较大时, 则以它们间的欧氏距离作为主导. 使用一个非线性特征度量函数$ {D} $计算特征图中所有位置$ \left\{{{d}}_{{q},{k},{i}}\right\} $的联合距离表达, 将其结果作为查询样本和支持样本中心间最终距离度量:

    $$ {{d}}_{{q},{k}}={{{D}}}\left(\left\{{{d}}_{{q},{k},{i}}\right\}\right),\;{d}\in {{\bf{R}}} $$ (10)

    本文使用$ {\lambda }_{q,k,i} $对欧氏距离进行加权. 当特征空间中查询特征与其所属的类别特征中心间角度相差较小但欧氏距离较大时, 度量距离大小受参数$ {\lambda }_{q,k,i} $影响较大, 它们之间最终距离也因$ {\lambda }_{q,k,i} $的关系变小, 可以减少一些正样本被分类错误情况.

    最后, 使用与查询样本具有最小距离$ {{d}}_{{q},{k}{'}} $的支持样本中心类别作为模型, 对该输入类别预测$y $:

    $$ {y}={\rm{{a}{r}{g}{m}{i}{n}}}\left({{d}}_{{q},{k}{'}}\right) $$ (12)

    计算每个查询样本与支持样本中心间的距离后, 使用距离的负数Softmax归一化输出, 生成一个针对查询点跨越各类别的分布:

    $$ {p}_{{\theta },{\Phi },{{{D}}}}\left(y=k|{z}_{q}\right)=\frac{{\rm{{e}{x}{p}}}\left(-{d}_{q,k}\right)}{\sum\limits_{{k}^{'}\in K}{\rm{{e}{x}{p}}}\left(-{d}_{q,k'}\right)} $$ (13)

    通过最小化模型对正确类别$ k $所对应的负对数预测概率:

    $$ {{J}}_{{c}}({\theta },{\Phi },{{{D}}})=-{{\rm {log}}_2}{{p}}_{{\theta },{\Phi },{{{D}}}}\left({y}=k|{z}_{q}\right) $$ (14)

    式(13)可以联合地学习嵌入函数$ {\theta } $、特征变换函数$ {\Phi } $以及特征度量函数${{{D}}}$.

    为了使特征点可以向正确的样本类别中心偏移, 在训练过程中, 对每个特征向各个支持特征中心的迁移得分进行了约束:

    $$ {\bar{{a}}}_{{s}}\left({y}=k|{z}_{s}\right)=\frac{1}{{W}{H}}{\sum\limits _{{i=0}}^{WH}} {{a}}_{{s},{k},{i}} $$ (15)
    $$ {\bar{{a}}}_{{q}}\left({y}=k|{z}_{q}\right)=\frac{1}{{W}{H}}{\sum\limits _{{i=0}}^{WH}} {{a}}_{{q},{k},{i}} $$ (16)

    为清晰表示, 将$ {{a}}_{{k},{i}} $写为输入为支持样本时$ {{a}}_{{s},{k},{i}} $或查询样本时$ {{a}}_{{q},{k},{i}} $两种形式. $ {\bar{{a}}}_{{s}} $和$ {\bar{a}}_{q} $分别表示支持和查询样本的约束. 同样取其最小化负对数:

    $$ {{J}}_{{a}}({\theta },{\Phi })=-{\rm{{l}{n}}}{\bar{{a}}}_{{s}}-{\rm{{l}{n}}}{\bar{{a}}}_{{q}} $$ (17)

    来约束学习特征的正确迁移. 同时最小化$ {{J}}_{{c}} $和$ {{J}}_{{a}} $训练模型. 首先, 对训练集中的每一次迭代, 随机抽取训练集中的K个类, 每个类别中包含几个支持样本; 然后, 再随机抽取每个类别中的一批样本作为查询样本, 即每一次迭代的输入为一组样本. 使用自适应矩估计优化算法训练神经网络模型, 该算法也使用小批量抽取样本方式进行训练, 设置一批数据的大小n, 即经过n次迭代后网络模型的参数会进行一次更新.

    本文提出的特征变换和度量网络(Feature tran-sformation and metric networks, FTMN)模型结构如图1所示.

    图 1  特征变换和度量网络模型
    Fig. 1  Model of feature transformation and metric networks

    支持样本和查询样本均取自一个基本的数据集, 且支持样本和查询样本的数据类别一致. 将这些样本分别输入嵌入函数中, 提取样本特征. 本文的嵌入函数是使用卷积神经网络实现的, 分别使用4层卷积结构和ResNet-12结构作为嵌入函数, 其中4层卷积结构使用的网络, 与作为基线原型网络使用的嵌入函数结构相同.

    接着, 求支持样本中同类样本特征的均值, 得到每个支持样本特征图的每个位置上的局部特征的特征中心. 通过计算得到支持特征中心与支持样本集中所有的样本特征的残差, 并将残差输入特征变换函数$ {\Phi } $中, 在使用4层卷积结构作为嵌入函数时, 函数的模型结构如图2(a)所示; 在使用ResNet-12作为嵌入函数时, 函数$ {\Phi } $结构减少为2层卷积, 以缓解网络的过拟合问题, 其他部分不变. 再将查询特征与各个支持特征中心的残差送入特征变换函数, 对残差进行学习. 支持特征和查询特征的残差都会通过一个单层的注意力网络学习到一个迁移得分, 得分由注意力网络的参数和支持特征中心决定. 最后, 得到特征迁移变换后的支持特征和查询特征, 以此减小同类样本间的距离, 同时变换后的支持特征还要参与支持特征中心的重新计算.

    图 2  网络中关键函数的结构
    Fig. 2  Structure of important functions of networks

    将变换后的查询特征和支持特征送入度量模块, 利用变换后的支持特征重新计算支持特征中心, 实现支持特征中心的移动, 增大不同类别间的距离. 同时, 这个新的支持特征中心将用于与变换后的查询特征间的度量, 计算它们之间的余弦相似度, 并按式(9)得到$ {\lambda }_{q,k,i} $值, 再按照式(8)计算查询特征图上每个位置的局部度量距离表达, 最终将每张查询特征图上每个位置的局部度量距离送入特征度量函数D, 得到该查询特征的全局度量距离和分类结果. 特征度量函数D的网络结构如图2(b)所示.

    本文将小样本学习中经典网络模型和一些近期表现良好的网络模型重要结构和使用的嵌入函数结构进行总结和对比, 结果见表1. 嵌入函数一般选择使用4层卷积网络提取特征和使用ResNet-12网络提取2种, 本文使用这2种嵌入函数算法进行实验, 其中使用4层卷积网络作为嵌入函数命名为特征变换和度量网络, 使用ResNet-12网络作为嵌入函数命名为FTMN-R12.

    表 1  网络模型的嵌入函数与重要结构
    Table 1  Embedding function and important structures of networks
    模型名称嵌入函数重要结构
    MN4层卷积网络注意力长短时记忆网络
    ProtoNet[12]4层卷积网络“原型”概念、使用欧氏距离进行度量
    RN4层卷积网络卷积神经网络作为度量函数
    EGNN4层卷积网络边标签预测节点类别
    EGNN + Transduction[22]ResNet-12边标签预测节点类别、转导和标签传递
    DN4[24]ResNet-12局部描述子、图像与类别间的相似性度量
    DC[25]4层卷积网络稠密分类
    DC + IMP[25]4层卷积网络稠密分类、神经网络迁移
    FTMN4层卷积网络特征变换模块、特征度量模块
    FTMN-R12ResNet-12特征变换模块、特征度量模块
    下载: 导出CSV 
    | 显示表格

    相较于4层卷积网络, ResNet-12提取出的特征具有更好效果, 但是其参数量和计算时间也会更大. 所以本文分别使用2种嵌入函数进行实验. 在模型的重要结构部分, 本文的重点是对特征变换模块和特征度量模块的设计, 通过主动特征变换来优化特征聚类的效果, 又将2种传统的度量方式与卷积神经网络相结合, 得到一个可进行自优化的特征度量模块, 这2个模块共同发挥作用, 对本文小样本学习分类效果进行优化. 表1中其他模型的重要结构分别为: 1)匹配网络利用注意力机制和长短时记忆网络表现出了支持特征与查询特征间存在的联系, 以此优化网络效果; 2)原型网络通过计算类别的原型, 优化特征聚类的效果; 3)关系网络首次使用卷积网络作为度量函数, 并以此优化了小样本学习的正确率; 4)深度最近邻网络利用局部描述子描述样本特征, 并将样本与类别的相似性作为度量的目标, 使分类效果有了进一步提升; 5)稠密分类和神经网络迁移利用深度最近邻思想, 结合迁移学习, 设计一种平行网络结构, 通过大量计算和微调优化分类结果; 6)基于边标签的图卷积网络利用边标签预测节点标签, 并利用转导方法, 同时利用支持集和查询集特征, 以此优化小样本分类效果. 详细实验结果见第3节.

    本文使用Omniglot和miniImageNet两个数据集, 验证基于度量的特征变换网络模型的有效性; 再通过CUB-200、CIFAR-FS和tieredImageNet三个数据集, 验证模型的泛化性. 通过将Omniglot数据集中的原始图像旋转$ {90}^{\circ }{、}{180}^{\circ }{、}{270}^{\circ } $进行数据增强. 原数据集共有1623种手写字符, 分成1200种和423种2组, 前者及其旋转过的图像用作训练集, 后者及其旋转过的图像用作测试集. 主要使用的小样本任务类型为5-类1-样本、5-类5-样本、20-类1-样本、20-类5-样本四种, 其中“类”表示任务中样本种类的数量, “样本”表示每个类别中支持样本的数量. 在训练集中, 以上4个任务类型的支持集中每类分别有1、5、1、5个图像样本, 查询集中每个类别分别有15、15、10、5个图像样本. 训练时, 每个任务类型、每轮训练的总图像数为80、100、220、200张. 训练设置每轮完整训练包含2000个阶段, 模型共经过20000次迭代训练, 使用自适应矩估计优化算法, 优化算法中超参数只有学习率需要进行动态调整, 本文使用模拟退火算法对学习率进行更新.

    网络模型在训练完成后, 使用与训练集设置相同的测试集, 对网络性能进行评估.

    随机抽取1000次测试样本进行测试, 将得到的结果取平均值, 作为本文模型在Omniglot数据集上的分类精度. 实验结果如表2所示, 本文模型在5-类任务上与最优结果相当, 并在20-类任务上取得了最优结果. 由于Omniglot数据集的准确率接近饱和, 因此提高的空间十分有限, 目前多数模型在该数据集上达到了99%以上的准确率, 可以作为验证模型有效的最基本判别标准.

    表 2  在Omniglot数据集上的小样本分类性能(%)
    Table 2  Few-shot classification performance on Omniglot dataset (%)
    模型5-类20-类
    1-样本5-样本1-样本5-样本
    MN98.198.993.898.5
    ProtoNet[12]98.899.796.098.9
    SN97.398.488.297.0
    RN99.6 ± 0.299.8 ± 0.197.6 ± 0.299.1 ± 0.1
    SM[15]98.499.695.098.6
    MetaNet[16]98.9597.00
    MANN[17]82.894.9
    MAML[18]98.7 ± 0.499.9 ± 0.195.8 ± 0.398.9 ± 0.2
    MMNet[26]99.28 ± 0.0899.77 ± 0.0497.16 ± 0.1098.93 ± 0.05
    FTMN99.7 ± 0.199.9 ± 0.198.3 ± 0.199.5 ± 0.1
    下载: 导出CSV 
    | 显示表格

    miniImageNet数据集样本丰富且复杂, 样本均取自真实世界, 是小样本学习领域中最具影响力和说服力的数据集之一, 该数据集本身较大, 不需要进行数据增强. 本文对该数据集进行划分, 将其以80:20的比例分割为训练集和测试集, 又在训练集中抽取16%作为验证集, 验证该模型的通用性. 在该数据集上, 本文按照最常用的小样本学习任务的数据模式对5-类1-样本和5-类5-样本进行测试. 在miniImageNet数据集上, 随机在测试集中抽取600个测试样本集, 取测试结果的平均值作为该网络在数据集上的分类精度. 实验结果如表3所示, 在使用ResNet-12作为模型嵌入函数时, 本文算法得到优良表现, 效果仅次于最优模型. 本文算法的基线模型是使用4层卷积网络作为嵌入函数的原型网络, 模型在使用同样嵌入函数时, 在1-样本任务中, 取得了高于基线模型准确率10%左右的结果; 在5-样本任务中, 取得了高于基线模型准确率7.7%的结果. 使用ResNet-12作为嵌入函数时, 在1-样本任务中, 取得了高于基线模型准确率12%的结果, 与最优结果相差1%; 在5-样本任务中, 取得了高于基线模型准确率11%的结果, 与最优结果相差0.2%.

    表 3  在miniImageNet数据集上的小样本分类性能 (%)
    Table 3  Few-shot classification performance on miniImageNet dataset (%)
    模型5-类
    1-样本5-样本
    MN43.40 ± 0.7851.09 ± 0.71
    ML-LSTM[11]43.56 ± 0.8455.31 ± 0.73
    ProtoNet[12]49.42 ± 0.7868.20 ± 0.66
    RN50.44 ± 0.8265.32 ± 0.70
    MetaNet[16]49.21 ± 0.96
    MAML[18]48.70 ± 1.8463.11 ± 0.92
    EGNN66.85
    EGNN + Transduction[22]76.37
    DN4[24]51.24 ± 0.7471.02 ± 0.64
    DC[25]62.53 ± 0.1978.95 ± 0.13
    DC + IMP[25]79.77 ± 0.19
    MMNet[26]53.37 ± 0.0866.97 ± 0.09
    PredictNet[27]54.53 ± 0.4067.87 ± 0.20
    DynamicNet[28]56.20 ± 0.8672.81 ± 0.62
    MN-FCE[29]43.44 ± 0.7760.60 ± 0.71
    MetaOptNet[30]60.64 ± 0.6178.63 ± 0.46
    FTMN59.86 ± 0.9175.96 ± 0.82
    FTMN-R1261.33 ± 0.2179.59 ± 0.47
    下载: 导出CSV 
    | 显示表格

    为验证模型的泛化性, 选择3个小样本分类任务常用的数据集CUB-200、CIFAR-FS和tiered-ImageNet进行训练和测试, 实验结果如表4. 由表4可知, 本文模型在CUB-200上取得了最优结果, 在CIFAR-FS上得到的1-样本、5-样本结果均与最优模型相差2%左右. tieredImageNet和miniImageNet是ImageNet的子集, 它们的规模比ImageNet数据集大, 在1-样本结果上, 本文方法与MetaOptNet相差将近4%, 但在5-样本上的结果却与它相差无几, 这说明本文的特征变换模块发挥了很大作用. 由泛化实验可以看出, 本文提出的模型能在绝大多数数据集上表现优秀, 且均可接近或达到最优模型表现.

    表 4  在CUB-200、CIFAR-FS和tieredImageNet数据集上的小样本分类性能(%)
    Table 4  Few-shot classification performance on CUB-200, CIFAR-FS and tieredImageNet datasets (%)
    模型CUB-200 5-类CIFAR-FS 5-类tieredImageNet 5-类
    1-样本5-样本1-样本5-样本1-样本5-样本
    MN61.16 ± 0.8972.86 ± 0.70
    ProtoNet[12]51.31 ± 0.9170.77 ± 0.6955.5 ± 0.772.0 ± 0.653.31 ± 0.8972.69 ± 0.74
    RN62.45 ± 0.9876.11 ± 0.6955.0 ± 1.069.3 ± 0.854.48 ± 0.9371.32 ± 0.78
    MAML[18]55.92 ± 0.9572.09 ± 0.7658.9 ± 1.971.5 ± 1.051.67 ± 1.8170.30 ± 1.75
    EGNN63.52 ± 0.5280.24 ± 0.49
    DN4[24]53.15 ± 0.8481.90 ± 0.60
    MetaOptNet[30]72.0 ± 0.784.2 ± 0.565.99 ± 0.7281.56 ± 0.53
    FTMN-R1269.58 ± 0.3685.46 ± 0.7970.3 ± 0.582.6 ± 0.362.14 ± 0.6381.74 ± 0.33
    下载: 导出CSV 
    | 显示表格

    消融实验测试本文提出的特征变换度量网络中各个模块是否起作用. 首先, 使用基础网络为原型网络, 将具有8层卷积网络作为嵌入函数, 为原型网络提取特征. 再使用原型网络的欧氏距离进行度量, 相较于具有4层卷积的原型网络, 在1-样本和5-样本任务中, 精度分别提升1.76%和2.03%, 将这个结果作为本文变换网络的基准, 并称该网络为ProtoNet-8C. 将嵌入函数换成4个卷积模块, 然后将4个卷积模块作为特征变换函数训练, 将输出的结果通过平均池化层, 并使用欧氏距离作为度量, 将ProtoNet-8C中由8个卷积模块构成的嵌入函数减少为4个, 称该网络为ProtoNet-Trans-4C. 在ProtoNet-4C网络中, 使用本文设计的度量函数替换原本的欧氏距离, 称该网络为ProtoNet-M-4C. 本文再将特征变换函数替换为VLAD算法, 使用VLAD向量重新计算残差, 保持其他部分不变, 称该模型为ProtoNet-VLAD-4C. 为了测试缩小类内距离是否会对网络的性能产生影响, 将不对网络进行缩小类内距离的操作, 然后进行实验, 称该网络为Trans*-M-4C. 本文还测试了仅使用余弦相似度或仅使用欧氏距离作为度量函数的结果, 如表5所示. 由表5可知, 本文设计的每个模块都对提升网络性能有一定影响, 并在组合后相辅相成, 得到了最好效果.

    表 5  消融实验结果 (%)
    Table 5  Results of ablation study (%)
    模型5-类
    1-样本5-样本
    ProtoNet-4C49.42 ± 0.7868.20 ± 0.66
    ProtoNet-8C51.18 ± 0.7370.23 ± 0.46
    ProtoNet-Trans-4C53.47 ± 0.4671.33 ± 0.23
    ProtoNet-M-4C56.54 ± 0.5773.46 ± 0.53
    ProtoNet-VLAD-4C52.46 ± 0.6770.83 ± 0.62
    Trans*-M-4C59.86 ± 0.9167.86 ± 0.56
    仅使用余弦相似度54.62 ± 0.5772.58 ± 0.38
    仅使用欧氏距离55.66 ± 0.6773.34 ± 0.74
    FTMN59.86 ± 0.9175.96 ± 0.82
    下载: 导出CSV 
    | 显示表格

    本文使用的特征变换和度量网络是基于度量的小样本学习模型使用了元学习的方法, 与使用的基线(原型网络)相比, 本文模型添加了特征变换模块, 并在特征度量部分将余弦相似度和欧氏距离进行了结合; 在此基础上, 添加了一个特征度量函数. 特征变换模块使用聚类的方法对特征进行迁移变换, 并在整个流程中主要对样本的局部特征进行操作, 因此, 使用度量函数对局部的度量距离进行联合表达, 得到该样本的全局特征度量结果.

    本文使用的模型训练方法是基于匹配网络的分段训练形式, 即一个阶段进行一次支持集和查询集的挑选和训练, 相当于元学习中的一次任务. 在每个阶段中, 支持集和查询集中的类别是随机选择的, 因此每次训练选择的类别均为新类别, 导致在训练过程中损失函数的波动较大, 但网络模型整体的准确率在稳步提升.

    本文提出一种特征变换度量网络, 该网络模型由嵌入函数模块、特征变换网络模块和特征度量网络模块构成. 特征变换网络能够通过学习残差使特征向量发生偏移, 以此缩小同类支持样本在特征空间中的特征表示间隔, 并能改变不同特征类别中心的位置, 来达到增大特征类间差异的目的. 最后, 设计了新的特征度量距离和度量网络, 同时考虑余弦相似度和欧氏距离对特征度量的影响, 从角度和几何空间距离两种方式同时对特征进行度量, 并通过度量函数将局部对特征的度量距离联合地表达, 作为查询样本的最终度量结果. 本文将提出的模型在小样本通用数据集Omniglot、miniImageNet、ti-eredImageNet、CUB-200和CIFAR-FS上进行了测试, 测试结果取得了最优表现或仅次于最优模型的表现, 验证了本文模型的有效性和泛化性.

  • 图  1  特征变换和度量网络模型

    Fig.  1  Model of feature transformation and metric networks

    图  2  网络中关键函数的结构

    Fig.  2  Structure of important functions of networks

    表  1  网络模型的嵌入函数与重要结构

    Table  1  Embedding function and important structures of networks

    模型名称嵌入函数重要结构
    MN4层卷积网络注意力长短时记忆网络
    ProtoNet[12]4层卷积网络“原型”概念、使用欧氏距离进行度量
    RN4层卷积网络卷积神经网络作为度量函数
    EGNN4层卷积网络边标签预测节点类别
    EGNN + Transduction[22]ResNet-12边标签预测节点类别、转导和标签传递
    DN4[24]ResNet-12局部描述子、图像与类别间的相似性度量
    DC[25]4层卷积网络稠密分类
    DC + IMP[25]4层卷积网络稠密分类、神经网络迁移
    FTMN4层卷积网络特征变换模块、特征度量模块
    FTMN-R12ResNet-12特征变换模块、特征度量模块
    下载: 导出CSV

    表  2  在Omniglot数据集上的小样本分类性能(%)

    Table  2  Few-shot classification performance on Omniglot dataset (%)

    模型5-类20-类
    1-样本5-样本1-样本5-样本
    MN98.198.993.898.5
    ProtoNet[12]98.899.796.098.9
    SN97.398.488.297.0
    RN99.6 ± 0.299.8 ± 0.197.6 ± 0.299.1 ± 0.1
    SM[15]98.499.695.098.6
    MetaNet[16]98.9597.00
    MANN[17]82.894.9
    MAML[18]98.7 ± 0.499.9 ± 0.195.8 ± 0.398.9 ± 0.2
    MMNet[26]99.28 ± 0.0899.77 ± 0.0497.16 ± 0.1098.93 ± 0.05
    FTMN99.7 ± 0.199.9 ± 0.198.3 ± 0.199.5 ± 0.1
    下载: 导出CSV

    表  3  在miniImageNet数据集上的小样本分类性能 (%)

    Table  3  Few-shot classification performance on miniImageNet dataset (%)

    模型5-类
    1-样本5-样本
    MN43.40 ± 0.7851.09 ± 0.71
    ML-LSTM[11]43.56 ± 0.8455.31 ± 0.73
    ProtoNet[12]49.42 ± 0.7868.20 ± 0.66
    RN50.44 ± 0.8265.32 ± 0.70
    MetaNet[16]49.21 ± 0.96
    MAML[18]48.70 ± 1.8463.11 ± 0.92
    EGNN66.85
    EGNN + Transduction[22]76.37
    DN4[24]51.24 ± 0.7471.02 ± 0.64
    DC[25]62.53 ± 0.1978.95 ± 0.13
    DC + IMP[25]79.77 ± 0.19
    MMNet[26]53.37 ± 0.0866.97 ± 0.09
    PredictNet[27]54.53 ± 0.4067.87 ± 0.20
    DynamicNet[28]56.20 ± 0.8672.81 ± 0.62
    MN-FCE[29]43.44 ± 0.7760.60 ± 0.71
    MetaOptNet[30]60.64 ± 0.6178.63 ± 0.46
    FTMN59.86 ± 0.9175.96 ± 0.82
    FTMN-R1261.33 ± 0.2179.59 ± 0.47
    下载: 导出CSV

    表  4  在CUB-200、CIFAR-FS和tieredImageNet数据集上的小样本分类性能(%)

    Table  4  Few-shot classification performance on CUB-200, CIFAR-FS and tieredImageNet datasets (%)

    模型CUB-200 5-类CIFAR-FS 5-类tieredImageNet 5-类
    1-样本5-样本1-样本5-样本1-样本5-样本
    MN61.16 ± 0.8972.86 ± 0.70
    ProtoNet[12]51.31 ± 0.9170.77 ± 0.6955.5 ± 0.772.0 ± 0.653.31 ± 0.8972.69 ± 0.74
    RN62.45 ± 0.9876.11 ± 0.6955.0 ± 1.069.3 ± 0.854.48 ± 0.9371.32 ± 0.78
    MAML[18]55.92 ± 0.9572.09 ± 0.7658.9 ± 1.971.5 ± 1.051.67 ± 1.8170.30 ± 1.75
    EGNN63.52 ± 0.5280.24 ± 0.49
    DN4[24]53.15 ± 0.8481.90 ± 0.60
    MetaOptNet[30]72.0 ± 0.784.2 ± 0.565.99 ± 0.7281.56 ± 0.53
    FTMN-R1269.58 ± 0.3685.46 ± 0.7970.3 ± 0.582.6 ± 0.362.14 ± 0.6381.74 ± 0.33
    下载: 导出CSV

    表  5  消融实验结果 (%)

    Table  5  Results of ablation study (%)

    模型5-类
    1-样本5-样本
    ProtoNet-4C49.42 ± 0.7868.20 ± 0.66
    ProtoNet-8C51.18 ± 0.7370.23 ± 0.46
    ProtoNet-Trans-4C53.47 ± 0.4671.33 ± 0.23
    ProtoNet-M-4C56.54 ± 0.5773.46 ± 0.53
    ProtoNet-VLAD-4C52.46 ± 0.6770.83 ± 0.62
    Trans*-M-4C59.86 ± 0.9167.86 ± 0.56
    仅使用余弦相似度54.62 ± 0.5772.58 ± 0.38
    仅使用欧氏距离55.66 ± 0.6773.34 ± 0.74
    FTMN59.86 ± 0.9175.96 ± 0.82
    下载: 导出CSV
  • [1] Szegedy C, Liu W, Jia Y Q, Sermanet P, Reed S, Anguelov D, et al. Going deeper with convolutions. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE, 2015. 1−9
    [2] He K M, Zhang X Y, Ren S Q, Sun J. Deep residual learning for image recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016. 770−778
    [3] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks. In: Proceedings of the 26th International Conference on Neural Information Processing Systems. Lake Tahoe, USA: NIPS, 2012. 1106−1114
    [4] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition. In: Proceedings of the 3rd International Conference on Learning Representations. San Diego, USA: ICLR, 2015.
    [5] 刘颖, 雷研博, 范九伦, 王富平, 公衍超, 田奇. 基于小样本学习的图像分类技术综述. 自动化学报, 2021, 47(2): 297−315 doi: 10.16383/j.aas.c190720

    Liu Ying, Lei Yan-Bo, Fan Jiu-Lun, Wang Fu-Ping, Gong Yan-Chao, Tian Qi. Survey on image classification technology based on small sample learning. Acta Automatica Sinica, 2021, 47(2): 297−315 doi: 10.16383/j.aas.c190720
    [6] Miller E G, Matsakis N E, Viola P A. Learning from one example through shared densities on transforms. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Hilton Head Island, USA: IEEE, 2000. 464−471
    [7] Li F F, Fergus R, Perona P. One-shot learning of object categories. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006, 28(4): 594−611
    [8] Lake B M, Salakhutdinov R, Gross J, Tenenbaum J B. One shot learning of simple visual concepts. In: Proceedings of the 33rd Annual Meeting of the Cognitive Science Society. Boston, USA: CogSci, 2011. 2568−2573
    [9] Lake B M, Salakhutdinov R, Tenenbaum J B. Human-level concept learning through probabilistic program induction. Science, 2015, 350(11): 1332−1338
    [10] Edwards H, Storkey A J. Towards a neural statistician. In: Proceedings of the 5th International Conference on Learning Representations. Toulon, France: ICLR, 2017.
    [11] Vinyals O, Blundell C, Lillicrap T, Kavukcuoglu K, Wierstra D. Matching networks for one shot learning. In: Proceedings of the 30th International Conference on Neural Information Processing Systems. Barcelona, Spain: 2016. 3637−3645
    [12] Snell J, Swersky K, Zemel R. Prototypical networks for few-shot learning. In: Proceedings of the 31th International Conference on Neural Information Processing Systems. Long Beach, USA: 2017. 4080−4090
    [13] Koch G, Zemel R, Salakhutdinov R. Siamese neural networks for one-shot image recognition. In: Proceedings of the 32nd International Conference on Machine Learning. Lille, France: JMLR, 2015.
    [14] Sung F, Yang Y X, Zhang L, Xiang T, Torr P H S, Hospedales T M. Learning to compare: Relation network for few-shot learning. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 1199−1208
    [15] Kaiser L, Nachum O, Roy A, Bengio S. Learning to remember rare events. In: Proceedings of the 5th International Conference on Learning Representations. Toulon, France: ICLR, 2017.
    [16] Munkhdalai T, Yu H. Meta networks. In: Proceedings of the 34th International Conference on Machine Learning. Sydney, Australia: JMLR.org, 2017. 2554−2563
    [17] Santoro A, Bartunov S, Botvinick M, Wierstra D, Lillicrap T. Meta-learning with memory-augmented neural networks. In: Proceedings of the 33rd International Conference on Machine Learning. New York, USA: PMLR, 2016. 1842−1850
    [18] Finn C, Abbeel P, Levine S. Model-agnostic meta-learning for fast adaptation of deep networks. In: Proceedings of the 34th International Conference on Machine Learning. Sydney, Australia: JMLR.org, 2017. 1126−1135
    [19] Arandjelovic R, Gronat P, Torii A, Pajdla T, Sivic J. Net-VLAD: CNN architecture for weakly supervised place recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016. 5297−5307
    [20] Jégou H, Douze M, Schmid C, Pérez P. Aggregating local descriptors into a compact image representation. In: Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco, USA: IEEE, 2010. 3304−3311
    [21] Bertinetto L, Henriques J F, Torr P H, Vedaldi A. Meta-learning with differentiable closed-form solvers. In: Proceedings of the 7th International Conference on Learning Representations. New Orleans, USA: ICLR, 2019.
    [22] Kim J, Kim T, Kim S, Yoo C D. Edge-labeling graph neural network for few-shot learning. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE, 2019. 11−20
    [23] Yue Z Q, Zhang H W, Sun Q R, Hua X S. Interventional few-shot learning. In: Proceedings of the 34th International Conference on Neural Information Processing Systems. Vancouver, Canada: Curran Associates Incorporated, 2020. Article No. 230
    [24] Li W B, Wang L, Xu J L, Huo J, Gao Y, Luo J B. Revisiting local descriptor based image-to-class measure for few-shot learning. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE, 2019. 7253−7260
    [25] Lifchitz Y, Avrithis Y, Picard S, Bursuc A. Dense classification and implanting for few-shot learning. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE, 2019. 9250−9259
    [26] Cai Q, Pan Y W, Yao T, Yan C G, Mei T. Memory matching networks for one-shot image recognition. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 4080−4088
    [27] Qiao S Y, Liu C X, Shen W, Yuille A L. Few-shot image recognition by predicting parameters from activations. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 7229−7238
    [28] Gidaris S, Komodakis N. Dynamic few-shot visual learning without forgetting. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 4367−4375
    [29] Ravi S, Larochelle H. Optimization as a model for few-shot learning. In: Proceedings of the 5th International Conference on Learning Representations. Toulon, France: ICLR, 2017.
    [30] Lee K, Maji S, Ravichandran A, Soatto S. Meta-learning with differentiable convex optimization. In: Proceedings of the IEEE/ CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE, 2019. 10649−10657
  • 期刊类型引用(2)

    1. 李兆亮,贾令尧,张冰冰,李培华. 基于自监督学习和二阶表示的小样本图像分类. 计算机学报. 2025(03): 586-601 . 百度学术
    2. 包春梅,王前,陈望,李志玲,王彬,王林. 基于混合注意力的布朗距离协方差小样本图像分类算法. 湖北民族大学学报(自然科学版). 2024(04): 521-527 . 百度学术

    其他类型引用(1)

  • 加载中
图(2) / 表(5)
计量
  • 文章访问数:  746
  • HTML全文浏览量:  262
  • PDF下载量:  234
  • 被引次数: 3
出版历程
  • 收稿日期:  2021-09-20
  • 录用日期:  2021-12-11
  • 网络出版日期:  2023-09-11
  • 刊出日期:  2024-07-23

目录

/

返回文章
返回