摘要: 在深度学习中, 如何利用大量、易获取的无标注数据增强神经网络模型的特征表达能力, 是一个具有重要意义的研究问题, 而对比学习是解决该问题的有效方法之一, 近年来得到了学术界的广泛关注, 涌现出一大批新的研究方法和成果. 本文综合考察对比学习近年的发展和进步, 提出一种新的面向对比学习的归类方法, 该方法将现有对比学习方法归纳为5类, 包括: 1) 样本对构造; 2) 图像增广; 3) 网络架构; 4) 损失函数; 5) 应用. 基于提出的归类方法, 对现有对比研究成果进行系统综述, 并评述代表性方法的技术特点和区别, 系统对比分析现有对比学习方法在不同基准数据集上的性能表现. 本文还将梳理对比学习的学术发展史, 并探讨对比学习与自监督学习、度量学习的区别和联系. 最后, 本文将讨论对比学习的现存挑战, 并展望未来发展方向和趋势.Abstract: In deep learning, it has been a crucial research concern on how to make use of the vast amount of unlabeled data to enhance the feature extraction capability of deep neural networks, for which contrastive learning is an effective approach. It has attracted significant research effort in the past few years, and a large number of contrastive learning methods have been proposed. In this paper, we survey recent advances and progress in contrastive learning in a comprehensive way. We first propose a new taxonomy for contrastive learning, in which we divide existing methods into 5 categories, including 1) sample pair construction methods, 2) image augmentation methods, 3) network architecture level methods, 4) loss function level methods, and 5) applications. Based on our proposed taxonomy, we systematically review the methods in each category, and analyze the characteristics and differences of representative methods. Moreover, we report and compare the performance of different contrastive learning methods on the benchmark datasets. We also retrospect the history of contrastive learning and discuss the differences and connections among contrastive learning, self-supervised learning, and metric learning. Finally, we discuss remaining issues and challenges in contrastive learning and outlook its future directions.
Key words:
- Contrastive learning /
- deep learning /
- feature extraction /
- self-supervised learning /
- metric learning
表 1 对比学习常用数据集总结
Table 1 Summary of common datasets
表 2 本文所用符号总结
Table 2 Summary of the symbols used in this paper
符号 说明 $X$ 数据集合, 小写为其中的数据 $Y$ 标签集合, 小写为其中的数据 $T$ 图像增广方法 $f$ 特征提取网络 $g$ 投影头 $s$ 相似度度量函数 $h$ 特征向量, $h = f(x)$ $z$ 投影向量, $z = g(h)$ $c$ 聚类中心向量 $\tau$ 温度系数 表 3 InfoNCE损失函数及其变种
Table 3 InfoNCE loss and some varieties based on InfoNCE
损失名 文献 年份 会议/刊物 公式 主要改进 InfoNCE [7] 2019 arXiv $-\ln \dfrac{{\exp (s(q,{h^ + }))}}{{\sum\nolimits_{{x_i} \in X} {\exp (s(q,{h_i}))} }}$ 初始的InfoNCE损失. 文献[3, 9, 30−31, 38]等均采用InfoNCE损失函数. ProtoNCE [63] 2021 ICLR $ - \ln \dfrac{{\exp (s({z_i},{c_i})/\tau )}}{{\sum\limits_{j = 0}^r {\exp (s({z_i},{c_j})/\tau )} }}$ 从两个样本增广间的对比变为样本增广与聚类中心的对比. 注: ${c_i}$, ${c_j}$为聚类中心.
总损失包括实例间的对比和实例−原型对比损失, 此处只列出实例-原型对比损失.DCL [71] 2021 ECCV $- \dfrac{ {s({z_i},z_i^ + )} }{\tau } + \ln \displaystyle\sum\limits_{j = 1}^{2N} { {1_{[j \ne i]} } } \exp (s({z_i},{z_j})/\tau)$ 去除负正耦合系数后通过化简得到该损失. DirectNCE [72] 2022 ICLR $-\ln \dfrac{\exp s((\widehat{h}'_i, \widehat{h}'^+_{i})/\tau)}{\sum\nolimits_j \exp s((\widehat{h}'_i, \widehat{h}'^+_{i})/\tau)}$ $\widehat{h}_i' = \widehat{h}_i'[0:d]$, 即取特征向量的前$d$个维度. FNCL [35] 2022 WACV $- \ln \dfrac{{\exp (s({z_i},z_i^ + )/\tau )}}{{\sum\limits_{j = 1}^{2N} {{1_{[j \ne i,j \ne {F_i}]}}\exp (s({z_i},{z_j})/\tau)}}}$ ${F_i}$为第$i$个样本的假负样本集. SCL [8] 2020 NIPS $- \displaystyle\sum\limits_{i \in I} {\dfrac{1}{ {p(i)} } } \sum\limits_{p \in p(i)} {\ln \dfrac{ {\exp (s({z_i},{z_p})/\tau )} }{ {\sum\nolimits_{a \in A(i)} {\exp (s({z_i},{z_a})/\tau )} } } }$ 将标签引入对比学习, $P(i)$是与第$i$个样本相同类的数据集合. 表 4 对比学习方法整体归类分析
Table 4 Analysis of different contrastive learning methods based on our proposed taxonomy
文献 年份 会议/刊物 样本对构造 图像增广 网络架构 损失函数 数据标注 [7] 2019 arXiv 随机采样 图像变换 同步非对称 InfoNCE类 无 [2] 2020 ICML 随机采样 图像变换 同步对称 InfoNCE类 无 [3] 2020 CVPR 随机采样 图像变换 异步对称 InfoNCE类 无 [4] 2020 NIPS 随机采样 图像变换 异步非对称 传统损失 无 [5] 2020 NIPS 随机采样 图像变换 聚类/同步对称 传统损失 无 [8] 2020 NIPS 随机采样 图像变换 同步对称 InfoNCE类 有 [9] 2020 NIPS 随机采样 图像变换 同步对称 混合损失 部分 [33] 2020 NIPS 困难样本构造 图像变换 异步对称 InfoNCE类 无 [36] 2020 NIPS 剔除假负样本 图像变换 同步对称 InfoNCE类 无 [37] 2020 arXiv 正样本扩充 图像变换 异步对称 InfoNCE类 无 [42] 2020 NIPS 正样本扩充 图像变换 同步对称 InfoNCE类 无 [45] 2020 ECCV 构造多视图 图像变换 同步对称 InfoNCE类 无 [52] 2020 NIPS 随机采样 语义增广 同步对称 InfoNCE类 无 [55] 2020 CVPR 随机采样 图像变换 同步非对称 InfoNCE类 无 [57] 2020 NIPS 随机采样 图像变换 同步非对称 InfoNCE类 无 [70] 2020 arXiv 随机采样 图像变换 异步对称 InfoNCE类 无 [109] 2020 ECCV 随机采样 图像变换 同步非对称 InfoNCE类 无 [6] 2021 CVPR 随机采样 图像变换 异步非对称 传统损失 无 [32] 2021 ICCV 困难样本构造 图像变换 异步对称 InfoNCE类 无 [34] 2021 CVPR 困难样本构造 图像变换 同步对称 混合损失 部分 [39] 2021 ICCV 正样本扩充 图像变换 异步对称 混合损失 无 [40] 2021 CVPR 正样本扩充 图像变换 同步对称 InfoNCE类 无 [46] 2021 CVPRW 构造多视图 图像变换 同步对称 混合损失 无 [61] 2021 ICCV 随机采样 图像变换 异步非对称 InfoNCE类 无 [63] 2021 ICLR 随机采样 图像变换 聚类/异步对称 InfoNCE类 无 [64] 2021 CVPR 随机采样 图像变换 聚类架构 InfoNCE类 无 [66] 2021 AAAI 随机采样 图像变换 聚类/同步对称 InfoNCE类 无 [77] 2021 CVPR 随机采样 图像变换 同步对称 混合损失 有 [79] 2021 ICCV 随机采样 图像变换 同步对称 混合损失 部分 [83] 2021 TGRS 随机采样 图像变换 同步对称 混合损失 部分 [78] 2021 TGRS 随机采样 图像变换 同步对称 InfoNCE类 无 [85] 2021 CVPR 随机采样 图像变换 同步对称 InfoNCE类 无 [35] 2022 WACV 剔除假负样本 图像变换 同步对称 InfoNCE类 无 [41] 2022 CVPR 正样本扩充 图像变换 同步非对称 混合损失 无 [43] 2022 ICLR 正样本扩充 图像变换 异步对称 混合损失 部分 [44] 2022 CVPR 正样本扩充 图像变换 同步对称 混合损失 部分 [47] 2022 CVPR 随机采样 图像变换 任意架构 InfoNCE类 无 [48] 2022 CVPR 随机采样 图像合成 异步对称 InfoNCE类 无 [54] 2022 TAI 随机采样 图像变换 同步非对称 InfoNCE类 无 [65] 2022 CVPR 剔除假负样本 图像变换 聚类/异步对称 InfoNCE类 无 [72] 2022 ICLR 随机采样 图像变换 同步对称 InfoNCE类 无 [76] 2022 AAAI 随机采样 图像变换 同步对称 传统损失 无 [94] 2022 ICLR 随机采样 图像变换 同步对称 InfoNCE类 无 [98] 2022 CVPR 随机采样 图像变换 同步对称 InfoNCE类 无 [103] 2022 ICLR 随机采样 图像变换 同步对称 混合损失 无 表 5 不同对比学习算法在ImageNet数据集上的分类效果
Table 5 The classification results of different contrastive learning methods on ImageNet
文献 主干网络 Top 1 (%) Top 5 (%) 数据标注 MoCov1[3] ResNet50 60.6 — 无 CPCv2[100] ResNet50 63.8 85.3 ResNet161 71.5 90.1 PCL[63] ResNet50 67.6 — SimCLR[2] ResNet50 69.3 89 MoCov2[70] ResNet50 71.1 — SimSiam[6] ResNet50 71.3 — BT[101] ResNet50 73.2 91 VICReg[103] ResNet50 73.2 91.1 HCSC[65] ResNet50 73.3 — MoCov3[61] ResNet50 73.8 — Transformer 76.5 — BYOL[4] ResNet50 74.3 91.6 SwAV[5] ResNet50 75.3 — DINO[59] ResNet50 75.3 Transormer 77 — TSC[96] ResNet50 77.1 — 有 SCL[8] ResNet50 78.7 94.3 PaCo[67] ResNet50 79.3 — 表 6 不同对比学习算法在各数据集上的迁移学习效果
Table 6 The transfer learning results of different contrastive learning methods on each dataset
文献 Food (%) Cifar10/Cifar100 (%) Birds (%) SUN (%) Cars (%) Aircraft (%) VOC (%) DTD (%) Pets (%) Caltech (%) Flowers (%) 线性评估 SimCLR[2] 68.4 90.6/71.6 37.4 58.8 50.3 50.3 80.5 74.5 83.6 90.3 91.2 SimCLRv2[9] 73.9 92.4/76 44.7 61 54.9 51.1 81.2 76.5 85 91.2 93.5 BYOL[4] 75.3 91.3/78.4 57.2 62.2 67.8 60.6 82.5 75.5 90.4 94.2 96.1 微调评估 MMCL[76] 82.4 96.24/82.1 — — 89.2 85.4 — 73.5 — 87.8 95.2 SimCLR[2] 88.2 97.7/85.9 75.9 63.5 91.3 88.1 84.1 73.2 89.2 92.1 97 SimCLRv2[9] 88.2 97.5/86 74.9 64.6 91.8 87.6 84.1 74.7 89.9 92.3 97.2 BYOL[4] 88.5 97.8/86.1 76.3 63.7 91.6 88.1 85.4 76.2 91.7 93.8 97 FNC[35] 88.3 97.7/86.8 76.3 64.2 92 88.5 84.7 76 90.9 93.6 97.5 SCL[8] 87.2 97.42/84.3 75.2 58 91.7 84.1 85.2 74.6 93.5 91 96 表 7 不同半监督对比学习算法在ImageNet上的分类效果
Table 7 The classification results of different semi-supervised contrastive learning methods on ImageNet
